| | | corso | | | |
Tecniche di "Data Mining"
Codice: | AA270 | Crediti: | 6 | Semestre: | 2 | Sigla: | TDM | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Dino Pedreschi
Tel. 0502212752Obiettivi di apprendimento
La grande disponibilità di dati provenienti da database relazionali, dal web
o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che
permettano una migliore comprensione ed un più facile utilizzo dei risultati
nei processi decisionali.
L'obiettivo del corso è quello di fornire
un'introduzione ai concetti di base del processo di estrazione di
conoscenza, alle principali tecniche di data mining ed ai relativi
algoritmi.
Particolare enfasi è dedicata agli aspetti metodologici
presentati mediante alcune classi di applicazioni paradigmatiche quali il
Basket Market Analysis, la segmentazione di mercato ed il rilevamento di
frodi.
Descrizione
Il corso consiste di
- una parte preliminare dove si introducono alcuni concetti essenziali
di DataWarehousing e di modalita' di aggregazione multidimensionale (OLAP);
- una parte basica dove si introducono le principali tecniche di
datamining (regole associative, classificazione e clustering). Di queste
tecniche se ne studierà gli aspetti formali, implementativi e l'utilizzo
come strumento di ragionamento induttivo in casi concreti;
- una parte avanzata dove si rivisiteranno alcune tecniche applicate a
strutture dati particolari quali dati spaziali, multimediali, testuali e
semistrutturati quali provenienti da web
Programma
- Motivazioni (2 ore)
- Le necessità tecnici e sociali per l'analisi dei dai e l'
estrazione della conoscenza
- Il processo di knowledge discovery
- OLAP (3 ore + 3 esercitazione)
- Nozioni basiche di Data Warehousing
- Nozioni basiche di Data Cube
- Regole Associative (6 ore +4 esercitazione)
- Regole intra-attributo, inter-attributo
- Calcolo efficiente di regole d'associazione: algoritmo Apriori e
varianti
- Estensioni del concetto di regola d'associazione: tassonomie,
regole quantitative, regole predittive.
- Regole associative e fattore Tempo: RdA Cicliche e Calendriche
- Pattern Sequenziali e Serie Temporali
- Basket Market Analysis utilizzando RdA
- Classificazione con alberi di decisione (6 ore +4 esercitazione)
- Principali tecniche di classificazione
- Classificatori bayesiani
- Alberi di decisione
- Rassegna di altri metodi
- Applicazione al rilevamento di frodi
- Clustering (2 ore +2 esercitazione)
- Principali tecniche di clustering
- Applicazione al Customer segmentation
- Temi avanzati (6 ore +2 esercitazione)
- Algoritmi scalabili per regole associative e pattern sequenziali
- Spatial e multimedia datamining
- Text mining e Web mining
Bibliografia
- Jiawei Han, Micheline Kamber.
Data Mining: Concepts and Techniques,
Morgan Kaufmann Publishers, 2000
http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
- U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors).
Advances in Knowledge discovery and data mining.
MIT Press, 1996.
- T. Mitchell.
Machine learning.
Mc-Graw Hill, 1997.
Modalità di esame
Scritto e orale