La maggior parte dei moderni motori di ricerca fa uso di modelli di machine learning additivi per valutare la rilevanza di documenti in relazione a una query. Dato che i modelli usati sono composti da numerosi sotto modelli il costo totale è direttamente dipendente dal loro numero ed esso è quindi legato anche alla responsività del sistema influenzando il tempo di risposta delle query. In questa tesi vengono discusse delle strategie atte a interrompere lo scoring di documenti che difficilmente risulteranno rilevanti. Tali strategie sono state testate utilizzando come modello una foresta di alberi di regressione e come dataset il noto e largamente utilizzato Microsoft Learning to Rank Dataset. Alla fine si verrà a mostrare che è possibile ottenere degli speedup di oltre 2x con perdite minime di qualità dei risultati, valutata attraverso l’ uso dell’indice NDCG@10.

Document pruning strategies for additive Ranking models.

Busolin, Francesco
2020/2021

Abstract

La maggior parte dei moderni motori di ricerca fa uso di modelli di machine learning additivi per valutare la rilevanza di documenti in relazione a una query. Dato che i modelli usati sono composti da numerosi sotto modelli il costo totale è direttamente dipendente dal loro numero ed esso è quindi legato anche alla responsività del sistema influenzando il tempo di risposta delle query. In questa tesi vengono discusse delle strategie atte a interrompere lo scoring di documenti che difficilmente risulteranno rilevanti. Tali strategie sono state testate utilizzando come modello una foresta di alberi di regressione e come dataset il noto e largamente utilizzato Microsoft Learning to Rank Dataset. Alla fine si verrà a mostrare che è possibile ottenere degli speedup di oltre 2x con perdite minime di qualità dei risultati, valutata attraverso l’ uso dell’indice NDCG@10.
2020-11-04
File in questo prodotto:
File Dimensione Formato  
851884-1244243.pdf

accesso aperto

Tipologia: Altro materiale allegato
Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14247/8661