| | | corso | | | |
Algoritmi per "Information Retrieval"
Codice: | AA239 | Crediti: | 6 | Semestre: | 1 | Sigla: | AIR | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Paolo Ferragina
Tel. 0502212764Obiettivi di apprendimento
Introdurre i principi, le tecniche e gli strumenti algoritmici e le strutture dati necessarie al progetto di sistemi software efficienti ed efficaci per il recupero di informazioni da grandi collezioni di dati testuali. Introduzione alle problematiche e alle tecniche legate allo sviluppo di motori di ricerca per il Web e per documenti XML.
Descrizione
Studio, progetto e analisi di sistemi software efficienti ed efficaci per l’Information Retrieval nell’ambito di collezioni di documenti testuali, html e semi-strutturate (p.e. XML). Questo studio si concentrerà su tutti i componenti princiali di un moderno motore di ricerca: Crawler, Parser, Indexer, Query resolver, Ranker, Archive compressor. Esamineremo le soluzioni algoritmiche correntemente adottate per ciascuno di essi in maniera approfondita, valutando le loro prestazioni e i loro limiti computazionali. Discuteremo anche i fondamenti pratici e teorici per l’organizzazione e l’analisi dei sistemi di IR, con valutazione delle loro prestazioni. Infine analizzeremo altre tecniche algoritmiche utili in vari ambiti: delta-compression, set reconciliation, min-wise permutations, bloom filter, P2P synchronization protocols, ...
English Description
Study, design and analysis of efficient and effective software systems for Information Retrieval, in the context of large textual databases. Design and development of a search engine combining advanced compression and indexing techniques for textual as well XML data.
Programma
Details in http://roquefort.di.unipi.it/~ferrax/Teach/InformationRetrieval.html
Bibliografia
Details in http://roquefort.di.unipi.it/~ferrax/Teach/InformationRetrieval.html
Modalità di esame
Scritto e orale. In base al numero di studenti sarà forse possibile sostituire la prova scritta con lo svolgimento di un progetto.