| | | corso | | | |
Algoritmi per "Information Retrieval"
Codice: | AA239 | Crediti: | 6 | Semestre: | 1 | Sigla: | AIR | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Paolo Ferragina
Tel. 0502212764Prerequisiti
Algoritmica
Obiettivi di apprendimento
Introdurre i principi, le tecniche e gli strumenti algoritmici e le strutture dati necessarie al progetto di sistemi software efficienti ed efficaci per il recupero di informazioni da grandi collezioni di dati testuali. Introduzione alle problematiche e alle tecniche legate allo sviluppo di motori di ricerca per il Web e per documenti XML.
Descrizione
Studio, progetto e analisi di sistemi software efficienti ed efficaci per l'Information Retrieval nell'ambito di collezioni di documenti testuali. Questo studio si concretizzerà nello sviluppo di un motore di ricerca che combinerà tecniche avanzate di compressione sia per la memorizzazione dei documenti che per la realizzazione dell'indice. Investigheremo anche le problematiche legate all'indicizzazione e retrieval di documenti XML. Analizzeremo inoltre l'uso di tecniche avanzate per il recupero "semantico" delle informazioni: "Latent Semantic Indexing", e algoritmi randomizzati per la loro realizzazione efficiente. Concluderemo il corso proponendo tecniche per il "clustering" e la classificazione automatica dei documenti. Accenneremo infine alle problematiche dell'Information Retrieval in ambito Web, discutendo le soluzioni adottate da alcuni motori di ricerca, quali Google e HITS.
English Description
Study, design and analysis of efficient and effective software systems for Information Retrieval, in the context of large textual databases. Design and development of a search engine combining advanced compression and indexing techniques for textual as well XML data. Introduction of advanced techniques for "semantic" information retrieval: "Latent Semantic Indexing", and randomized algorithms to speed up its computation. Clustering and categorization of textual information as well IR in Web context will be the subject of the lectures in the last part of the course.
Programma
Details in http://butirro.di.unipi.it/Teach/InformationRetrieval.html
Bibliografia
Details in http://butirro.di.unipi.it/Teach/InformationRetrieval.html
Modalità di esame
Scritto e orale