| | | corso | | | |
Mining di dati web
Codice: | AA546 | Crediti: | 6 | Semestre: | 1 | Sigla: | MDW | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Fabrizio Silvestri
Tel. 0503153011Prerequisiti
Il corso non necessita di prerequisiti specifici se non le conoscenze acquisite nei corsi base di algoritmica e calcolo delle probabilità.
Obiettivi di apprendimento
Il vero nome di questo corso sarebbe dovuto essere “Search”, in quanto tutti gli argomenti che saranno affrontati hanno immediato utilizzo nei motori di ricerca Web.
Il Web, infatti, è diventato con il passare degli anni il più grande “Database” esistente. Stime recenti descrivono il Web come un repository di più di 500 MILIARDI (!!!!) di documenti. Blog, Wiki, Pagine Web “Classiche”, sono solo alcuni esempi di cosa contenga il Web oggigiorno. Potreste pensare di utilizzare il Web senza l’uso dei motori di ricerca? La risposta è senz’altro un secco NO.
Scopo di questo corso è mostrare alcune tra le più importanti metodologie di analisi dei dati provenienti dal Web. Dopo un breve introduzione che affronterà le tecniche basilari per l’analisi dei dati Web. Saranno affrontati e discussi gli argomenti più “caldi” del momento: valutazione dell’importanza “Statica” di una pagina Web, Ranking Dinamico di una pagina Web (in risposta ad una query fatta ad un motore di ricerca), Analisi delle informazioni di uso, Web Spam, Advertisement nei motori di ricerca.
Ovviamente tutte le informazioni fornite in questo corso sono oggetto di studio a sé stante e sono “spendibili” anche in altri ambiti diversi da quello dei motori di ricerca.
Per maggiori approfondimenti si rimanda alla pagina web del corso sul sito del docente:
Mining di Dati Web 07/08Descrizione
Gli argomenti discussi saranno suddivisi in tre parti. Nella prima sarà mostrata e discussa la struttura di un motore di ricerca. La seconda verterà sull’applicazione delle tecniche fondamentali di knowledge management a dati testuali ed ipertestuali. La terza e ultima affronterà le tecniche che solitamente sono applicate per analizzare dati Web.
English Description
The course is divided into three parts. In the first part will be shown and discussed the structure of a search engine. The second parte we will show how fundamental knowledge management techniques could be applied to text and hypertext. Finally the third part will present the techniques usually applied to analyze Web data.
Programma
- Il corso di Mining di Dati Web: questioni organizzative e spiegazione delle modalità di esame. Cos’è il Web e come può essere caratterizzato. I moderni Motori di Ricerca Web.
- Modelli del Web.
- Clustering
- Classificazione
- Classificazione / Clustering Automatico di Pagine Web: Hashing Sensibile alla Località (Locality Sensitive Hashing)
- Compressione di Indici a Liste Invertite: Tecniche di Clustering per incrementare la “compressibilità” degli indici nei motori di ricerca.
- Estrazione di Template Da pagine Web: Tecniche di Clustering per l’estrazione di contenuto importante da pagine Web.
- Presentazione migliorata dei risultati di pagine Web: Snippet Clustering.
- Clustering di pagine Web indipendente dal linguaggio: Community Discovery via Graph Partitioning
- PageRank, Hits & Salsa: Valutazione Statica dell’importanza di pagine Web (Prima Parte)
- PageRank, Hits & Salsa: Valutazione Statica dell’importanza di pagine Web (Seconda Parte)
- Classificazione mediante HITS: Regularization on the Web Graph.
- Web Recommender Systems: Suggerire Link Agli Utenti. Il caso di SUGGEST.
- Cosa fanno gli utenti di un motore di Ricerca: Estrazione di Sessioni nei log di un Search Engine.
- Caching nei motori di ricerca: Estrazione di informazioni importanti al fine di ottimizzare le prestazioni di un motore di ricerca.
- Ottimizzare l’organizzazione dei dati: Partizionamento e Routing intelligente nei motori di ricerca.
- Combattere i comportamenti maliziosi: Web Spam Detection.
- Un motore di ricerca “Super”-distribuito: Peer-to-Peer Information Retrieval Systems.
- I Motori di Ricerca ed il Web: Quale porzione del Web è coperta dai Motori di Ricerca? Come scoprirlo?
- Wikipedia e il Web: analisi dei dati provenienti dall’enciclopedia più aggiornata del mondo.
Bibliografia
- Mining the Web: discovering knowledge from hypertext data. S. Chakrabarti. Morgan Kaufmann, 2003. (Consigliato)
- Modern Information Retrieval. R. Baeza-Yates e B. Ribeiro-Neto. Addison Wesley, 1999.
- Articoli rilasciati a lezione
Modalità di esame
L'esame consisterà nella consegna di un progetto per la cui realizzazione saranno necessarie le conoscenze acquisite durante il corso. Il progetto sarà discusso durante la prova orale che potrà essere integrata con domande per verificare la conoscenza degli argomenti trattati a lezione.