La maggior parte dei moderni motori di ricerca fa uso di modelli di machine learning additivi per valutare la rilevanza di documenti in relazione a una query. Dato che i modelli usati sono composti da numerosi sotto modelli il costo totale è direttamente dipendente dal loro numero ed esso è quindi legato anche alla responsività del sistema influenzando il tempo di risposta delle query. In questa tesi vengono discusse delle strategie atte a interrompere lo scoring di documenti che difficilmente risulteranno rilevanti. Tali strategie sono state testate utilizzando come modello una foresta di alberi di regressione e come dataset il noto e largamente utilizzato Microsoft Learning to Rank Dataset. Alla fine si verrà a mostrare che è possibile ottenere degli speedup di oltre 2x con perdite minime di qualità dei risultati, valutata attraverso l’ uso dell’indice NDCG@10.
Document pruning strategies for additive Ranking models.
Busolin, Francesco
2020/2021
Abstract
La maggior parte dei moderni motori di ricerca fa uso di modelli di machine learning additivi per valutare la rilevanza di documenti in relazione a una query. Dato che i modelli usati sono composti da numerosi sotto modelli il costo totale è direttamente dipendente dal loro numero ed esso è quindi legato anche alla responsività del sistema influenzando il tempo di risposta delle query. In questa tesi vengono discusse delle strategie atte a interrompere lo scoring di documenti che difficilmente risulteranno rilevanti. Tali strategie sono state testate utilizzando come modello una foresta di alberi di regressione e come dataset il noto e largamente utilizzato Microsoft Learning to Rank Dataset. Alla fine si verrà a mostrare che è possibile ottenere degli speedup di oltre 2x con perdite minime di qualità dei risultati, valutata attraverso l’ uso dell’indice NDCG@10.File | Dimensione | Formato | |
---|---|---|---|
851884-1244243.pdf
accesso aperto
Tipologia:
Altro materiale allegato
Dimensione
1.17 MB
Formato
Adobe PDF
|
1.17 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14247/8661