elenco   
        corso   

Basi di Dati e Sistemi Informativi: Recupero di Documenti

(Corso di Laurea in Informatica (quinquennale))

Codice: 4I095Crediti: 6Semestre: 1Sigla: BDR 

Docente

Fabrizio Sebastiani   fabrizio.sebastiani@isti.cnr.it  Tel. 0503152892

Prerequisiti

Nessuno. E' utile la conoscenza degli argomenti trattati nei corsi di Calcolo delle Probabilità e Statistica. Il corso presenta svariati punti di contatto con i corsi di Basi di Dati e Sistemi Informativi e Apprendimento Automatico.

Obiettivi di apprendimento

L'obiettivo del corso è quello di fornire un'introduzione ai concetti fondamentali, ai modelli formali, e alle tecniche per la realizzazione di sistemi per la ricerca di documenti in forma digitale (altrimenti detti "motori di ricerca"). Il corso introdurrà inoltre alcune applicazioni avanzate di questa tecnologia, come la classificazione e il filtraggio automatici di documenti in forma digitale, e la creazione di giornali personalizzati. Il corso fa parte dei minor

Descrizione

I motori di ricerca su WWW, quali AltaVista, Excite e Yahoo, sono l'odierna "punta dell'iceberg" dell'Information Retrieval, la disciplina che si occupa del progetto di sistemi per la ricerca di documenti in forma digitale. La caratteristica fondamentale di questa disciplina è l'impossibilità di formalizzare il concetto di "rilevanza di un documento a un bisogno informativo". Il corso introdurrà quindi un insieme di tecniche per il progetto di "motori di ricerca", incentrate su modelli quantitativi per la determinazione del grado, o della probabilità, di rilevanza di un documento a un bisogno informativo.

English Description

WWW search engines such as AltaVista, Excite and Yahoo are the "tip of the iceberg" of Information Retrieval, the discipline that deals with the design of systems for the search of documents in digital form. The fundamental trait of this discipline is the inherent impossibility of formalising the notion of "relevance of a document to an information need". This course will thus present a number of techniques for the design of search engines; these techniques revolve around quantitative models for the estimation of the degree, or of the probability, of relevance of a document to an information need.

Programma

  1. Introduzione (5 ore).
    • Cosa è e cosa non è l'Information Retrieval (IR).
    • Documenti e bisogni informativi, e loro rappresentazione.
    • La non formalizzabilità della rilevanza. Probabilità e parzialità.
    • Efficienza, efficacia, specificità ed esaustività.
    • Relevance feedback e riformulazione dell'interrogazione.
    • Valutazione dell'efficacia e sperimentazione.
  2. Modelli dell'Information Retrieval e relative funzioni di matching (7 ore).
    • Il modello Booleano e il modello fuzzy.
    • Il modello vettoriale.
    • ll modello Booleano esteso.
    • I modelli probabilistici.
  3. Tecniche di Information Retrieval dipendenti dal mezzo espressivo (6 ore)
    • Le quattro dimensioni dell'Information Retrieval
    • Tecniche per documenti di tipo testo
      • Linguistica statistica e indicizzazione. Modelli probabilistici dell'indicizzazione.
      • Uso di stop word removers e stemmers.
      • Uso di thesauri per la risoluzione della sinonimia.
      • Uso di disambiguatori di senso per la risoluzione della polisemia.
  4. Temi ``avanzati'' di Information Retrieval (7 ore).
    • Information retrieval in presenza di documenti strutturati.
    • Multimedia information retrieval
    • Information retrieval multilingue
    • Categorizzazione automatica di documenti.
      • Applicazioni della categorizzazione automatica
      • L'approccio induttivo alla categorizzazione automatica
      • Tecniche di riduzione della dimensionalità.
      • Metodi induttivi per la costruzione di categorizzatori.
      • Problematiche di sperimentazione.
      • Categorizzazione automatica di pagine Web


Programma delle esercitazioni (8 ore)

  1. Motori di ricerca per WorldWideWeb.
    • L'Information Retrieval e la ricerca di documenti su WWW.
      • Tipologie di motori di ricerca WWW.
      • Anatomia di un motore di ricerca WWW.
      • Problematiche tipiche dei motori di ricerca WWW.
    • HARVEST: Un motore di ricerca WWW public-domain.
      • Descrizione dei componenti di HARVEST.
      • Configurazione dei componenti di HARVEST.
      • Rappresentazione interna dei documenti.
    • Motori di ricerca WWW avanzati.
      • Motori di ricerca WWW e struttura ipertestuale.
      • Motori di ricerca WWW multimediali.
Ore lezione: 25Ore esercitazione: 15   

Bibliografia

Modalità di esame

Scritto e orale

Ulteriore pagina web del corso: http://faure.iei.pi.cnr.it/~fabrizio/BDR.html


home


email