| | | corso | | | |
Basi di Dati e Sistemi Informativi: Recupero di Documenti
(Corso di Laurea in Informatica (quinquennale))
Codice: | 4I095 | Crediti: | 6 | Semestre: | 1 | Sigla: | BDR | |
Docente
Fabrizio Sebastiani
Tel. 0503152892Prerequisiti
Obiettivi di apprendimento
L'obiettivo del corso è quello di fornire un'introduzione ai
concetti fondamentali, ai modelli formali, e alle tecniche per la realizzazione
di sistemi per la ricerca di documenti in forma digitale (altrimenti detti
"motori di ricerca"). Il corso introdurrà inoltre alcune applicazioni
avanzate di questa tecnologia, come la classificazione e il filtraggio
automatici di documenti in forma digitale, e la creazione di giornali
personalizzati.
Il corso fa parte dei
minor
-
Basi di dati
-
Sistemi basati sulla conoscenza
-
Multimedia
Descrizione
I motori di ricerca su WWW, quali
AltaVista,
Excite
e
Yahoo, sono l'odierna "punta
dell'iceberg"
dell'
Information Retrieval, la disciplina che si occupa del progetto
di sistemi per la ricerca di documenti in forma digitale. La caratteristica
fondamentale di questa disciplina è l'impossibilità di
formalizzare
il concetto di "rilevanza di un documento a un bisogno informativo". Il
corso introdurrà quindi un insieme di tecniche per il progetto di
"motori di ricerca", incentrate su modelli quantitativi per la determinazione
del grado, o della probabilità, di rilevanza di un documento a un
bisogno informativo.
English Description
WWW search engines such as
AltaVista,
Excite
and
Yahoo are the "tip of the iceberg"
of Information Retrieval, the discipline that deals with the design of
systems for the search of documents in digital form. The fundamental trait
of this discipline is the inherent impossibility of formalising the notion
of "relevance of a document to an information need". This course will thus
present a number of techniques for the design of search engines; these
techniques revolve around quantitative models for the estimation of the
degree, or of the probability, of relevance of a document to an information
need.
Programma
-
Introduzione (5 ore).
-
Cosa è e cosa non è l'Information Retrieval (IR).
-
Documenti e bisogni informativi, e loro rappresentazione.
-
La non formalizzabilità della rilevanza. Probabilità e
parzialità.
-
Efficienza, efficacia, specificità ed esaustività.
-
Relevance feedback e riformulazione dell'interrogazione.
-
Valutazione dell'efficacia e sperimentazione.
-
Modelli dell'Information Retrieval e relative funzioni di
matching
(7 ore).
-
Il modello Booleano e il modello fuzzy.
-
Il modello vettoriale.
-
ll modello Booleano esteso.
-
I modelli probabilistici.
-
Tecniche di Information Retrieval dipendenti dal mezzo espressivo
(6 ore)
-
Le quattro dimensioni dell'Information Retrieval
-
Tecniche per documenti di tipo testo
-
Linguistica statistica e indicizzazione. Modelli probabilistici
dell'indicizzazione.
-
Uso di stop word removers e stemmers.
-
Uso di thesauri per la risoluzione della sinonimia.
-
Uso di disambiguatori di senso per la risoluzione della polisemia.
-
Temi ``avanzati'' di Information Retrieval (7 ore).
-
Information retrieval in presenza di documenti strutturati.
-
Multimedia information retrieval
-
Information retrieval multilingue
-
Categorizzazione automatica di documenti.
-
Applicazioni della categorizzazione automatica
-
L'approccio induttivo alla categorizzazione automatica
-
Tecniche di riduzione della dimensionalità.
-
Metodi induttivi per la costruzione di categorizzatori.
-
Problematiche di sperimentazione.
-
Categorizzazione automatica di pagine Web
Programma delle esercitazioni (8 ore)
-
Motori di ricerca per WorldWideWeb.
-
L'Information Retrieval e la ricerca di documenti su WWW.
-
Tipologie di motori di ricerca WWW.
-
Anatomia di un motore di ricerca WWW.
-
Problematiche tipiche dei motori di ricerca WWW.
-
HARVEST: Un motore di ricerca WWW public-domain.
-
Descrizione dei componenti di HARVEST.
-
Configurazione dei componenti di HARVEST.
-
Rappresentazione interna dei documenti.
-
Motori di ricerca WWW avanzati.
-
Motori di ricerca WWW e struttura ipertestuale.
-
Motori di ricerca WWW multimediali.
Ore lezione: | 25 | Ore esercitazione: | 15 | | | |
Bibliografia
-
Bibliografia essenziale
-
Fabrizio Sebastiani. Models of information retrieval. Servizio
Editoriale
Universitario, Pisa, 1998.
-
Giuseppe Amato, Pasquale Savino e Fabrizio Sebastiani. Multimedia
information
retrieval. Servizio Editoriale Universitario, Pisa, 1998.
-
Consultazione
-
Ricardo Baeza-Yates e Berthier Ribeiro-Neto. Modern Information
Retrieval.
Addison Wesley, Reading, US, 1999. (Disponibile presso la biblioteca
dell'Istituto
di Elaborazione dell'Informazione del CNR).
-
Karen Sparck Jones e Peter Willett (editors). Readings in Information
Retrieval. Morgan Kaufmann Publishers, San Mateo, US, 1997. (Disponibile
presso la biblioteca del Dipartimento di Informatica e presso la biblioteca
dell'Istituto di Elaborazione dell'Informazione del CNR).
-
Robert R. Korfhage. Information Storage and Retrieval. John Wiley
and Sons, New York, US, 1997. (Disponibile presso la biblioteca del
Dipartimento
di Informatica e presso la biblioteca dell'Istituto di Elaborazione
dell'Informazione
del CNR).
-
Cornelis J. van Rijsbergen. Information retrieval (2nd edition).
Butterworths, London, GB, 1979. Disponibile presso la biblioteca dell'Istituto
di Elaborazione dell'Informazione del CNR e, in forma ipertestuale,
all'indirizzo
http:/
/www.dei.unipd.it/~melo/bible/bible_home_page.html
Modalità di esame
Scritto e orale