| | | corso | | | |
Mining di dati web
Codice: | AA546 | Crediti: | 6 | Semestre: | 1 | Sigla: | MDW | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Raffaele Perego
Tel. 0503152993Prerequisiti
Il corso non necessita di prerequisiti specifici se non le conoscenze acquisite nei corsi base di algoritmica e calcolo delle probabilità.
Obiettivi di apprendimento
Il World Wide Web (WWW) ha cambiato sia il modo di concepire le informazioni sia il modo di renderle disponibili e gestirle. Come accedere alle informazioni non è più l’argomento maggiormente importante: quello che conta è cercare di scoprire, all’interno dei dati web, informazioni non note, non banali e rilevanti. Il Web mining è quindi recentemente diventato una delle aree più “calde” nell’informatica a causa delle sue dirette applicazioni in settori strategici quali: e-commerce, recupero e filtro dell’informazioni e sistemi informativi Web (Web Recommender System e Web Search Engine). Il corso si propone l’obiettivo di fornire agli studenti gli strumenti e le conoscenze necessarie al fine di gestire correttamente dati provenienti dal WWW utilizzando tecniche di data mining.
Descrizione
Gli argomenti discussi saranno suddivisi in tre parti. Nella prima sarà mostrata e discussa la struttura di un motore di ricerca. La seconda verterà sull’applicazione delle tecniche fondamentali di knowledge management a dati testuali ed ipertestuali. La terza e ultima affronterà le tecniche che solitamente sono applicate per analizzare dati Web.
English Description
The course is divided into three parts. In the first part will be shown and discussed the structure of a search engine. The second parte we will show how fundamental knowledge management techniques could be applied to text and hypertext. Finally the third part will present the techniques usually applied to analyze Web data.
Programma
- Introduzione: Data Mining, Knowledge Discovery e il Web (questa parte del corso è tenuta dal prof. Raffaele Perego)
- Il processo di KDD e la metodologia
- Richiamo delle tecniche più conosciute:
- Regole Associative.
- Clustering.
- Classificazione e predizione.
- Il Web.
- Il grafo del Web.
- Motori di Ricerca Web (questa parte del corso è tenuta dal prof. Raffaele Perego)
- Componenti fondamentali di un motore di ricerca.
- Il Crawling:
- Aspetti di base.
- Anatomia di un Crawler scalabile e aspetti avanzati.
- Indicizzazione di dati Web:
- Contesto.
- Anchor text.
- Tecniche di memorizzazione efficiente.
- Risposta alle query
- Query booleane.
- Ranking: PageRank, HITS, SALSA
- Apprendimento Automatico da Collezioni di Testi
- Similarità tra documenti web:
- Metriche di similarità.
- Selezione di Features.
- Clustering di testi (Unsupervised Learning):
- Metodi Bottom-up e Metodi Top-Down.
- Approcci probabilistici al clustering.
- Classificazione (Supervised Learning):
- Classificazione di testi: metodi e valutazioni.
- Classificazione di ipertesti.
- Applicazioni ai dati Web
- Analisi di Reti Sociali:
- Scienze sociali e bibliometria.
- Modelli avanzati del grafo del Web.
- Topic distillation.
- Resource Discovery:
- Selezione di pagine di alta qualità.
- Utilizzo della topologia del web per effettuare ricerche per similarità.
- Focused Crawling.
- Scoperta di Comunità Web.
- Web Usage Mining (questa parte del corso è tenuta dal prof. Ranieri Baraglia)
- Analisi di dati storici (i log).
- Tecniche di estrazione di conoscenza dai dati di log:
- Regole associative.
- Pattern Sequenziali.
- Clustering del grafo di uso.
- Scoperta di comunità virtuali tramite l’utilizzo di dati contenuti nei log.
- Un caso di studio: Suggest.
- Argomenti avanzati
- Information Extraction.
- Topic Tracking e rilevazione di nuovi argomenti.
- Text Summarization.
- Question Answering.
Bibliografia
- Mining the Web: discovering knowledge from hypertext data. S. Chakrabarti. Morgan Kaufmann, 2003. (Consigliato)
- Managing Gigabytes. I.H. Witten e A. Moffat e T.C. Bell. Morgan Kaufmann, 1999.
- Modern Information Retrieval. R. Baeza-Yates e B. Ribeiro-Neto. Addison Wesley, 1999.
Modalità di esame
L'esame consisterà nella consegna di un progetto per la cui realizzazione saranno necessarie le conoscenze acquisite durante il corso. Il progetto sarà discusso durante la prova orale che sarà integrata dalla presentazione di un seminario su argomenti assegnati dal docente.