| | | | corso | | |
Analisi di dati ed estrazione di conoscenza
Codice: | AA365 | Crediti: | 5 | Semestre: | 2 | Sigla: | AEC | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Fosca Giannotti
Prerequisiti
La frequenza, anche contemporanea, ad
almeno uno tra i due corsi AA352 "Basi di dati di supporto alle decisioni" e
ZY116 "Laboratorio di sistemi informativi economico/aziendali" è raccomandata.
Obiettivi di apprendimento
L'obiettivo del corso è
quello di fornire un'introduzione ai concetti di base del processo di
estrazione di conoscenza, alle principali tecniche di data mining ed ai
relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici
presentati mediante alcune classi di applicazioni paradigmatiche quali il
Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi e
il Web mining. Infine il corso introduce gli aspetti di privacy ed etici
inerenti all'utilizzo di tecniche inferenza sui dati e dei quali l'analista
deve essere a conoscenza.
Conoscenze. Lo studente acquisirà conoscenze sulle principali
tecniche ed algoritmi di data mining, con particolare riferimento agli aspetti
metodologici riguardanti tutto l'intero processo di knowledeg discovery.
Capacità. Lo studente saprà come
contestualizzare il processo di etrazione di conoscenza in vari domini
applicativi, saprà anche utilizzare strumenti di data mining per l'estrazione
di modelli locali quali pattern frequenti e pattern sequenziali e di modelli
globali quali clustering e classificazione con particolare riferimento a ad
applicazioni paradigmatiche quali: Basket Market Analysis, la segmentazione di
mercato, il rilevamento di frodi
Comportamenti. Lo studente saprà orientarsi tra le varie tecnologie
ed adottare quella più adatta al problema dello specifico settore applicativo.
Lo studente inoltre avrà la coscienza che l'analista dei dati deve interagire
strettamente con un ambiente interdisciplinare e che il successo
dell'estrazione della conoscenza non è solo nei dati ma anche nella conoscenza
profonda degli esperti del dominio, e che quindi l'analista ha il ruolo di
mediatore tra la tecnologia e l'esperto del dominio. Sarà inoltre cosciente
delle problematiche inerenti il trattamento di dati sensibili nella analisi di
dati con tecniche di data mining.
Indicazioni metodologiche
Per conseguire gli obiettivi
indicati, sarà necessario:
-
organizzare il processo di
apprendimento in moduli flessibili, posti in sequenza logica;
-
presentare in modo approfondito
una specifica tecnologia tra le varie concorrenti sul mercato, e le altre solo
"per differenza";
-
mantenere una posizione
indipendente e critica verso i vari software vendors presenti sul mercato, al
fine di formare una capacità critica nello studente;
-
coordinarsi con i docenti dei
corsi indicati nei prerequisiti e dei corsi paralleli del semestre;
-
partire dai problemi di business
per ritrovare le necessarie scelte tecnologie a supporto della loro soluzione;
-
proporre l'analisi di casi di
studio tratti da esperienze reali riportate in letteratura o derivanti da
ricerche del docente;
-
separare gli aspetti e le scelte
puramente tecnologiche da quelle funzionali alla soluzione di un problema di
analisi.
Programma
Introduzione (1
ore) Presentazione del corso,
Il processo di
estrazione della conoscenza; (3 ore)
Motivazioni, Classi di applicazioni ,
Panoramica sulle tecniche.
Le principali tecniche di datamining; (16
ore)
Regole associative: inter-attributo,
intra-attributo, qualitative, predittive e tassonomiche;
Classificazione bayesiana e con alberi di
decisione;
Clustering k-means.
Di queste tecniche si studieranno gli aspetti
formali ed algoritmici.
Metodologie di
estrazione di conoscenza: casi di studio nell'ambito del
marketing e del supporto alla gestione clienti.
(12 ore)
Caso di studio 1: Segmentazione della
clientela,
Caso di studio 2: Individuazione dei
comportamenti di acquisto nella grande distribuzione
Caso studio 3: Analisi di rischio nel settore
bancario
Caso studio 4: Rilevamento di Frodi Fiscali
Caso Studio 5: Fare mining su dati ufficiali
(spesso aggregati):
Applicare le tecniche di datamining ai
dati web(4 ore)
Le nozioni basiche Web mining, una caso d
studio su Web Usage Mining
Tavola rotonda (2 ore) con aziende che
utilizzano tecnologia Data Mining
Si invitano alcune aziende che producono e/o
utilizzano tecnologia DM a presentarsi ed a
confrontarsi con le domande degli studenti
Aspetti di privacy ed etici (2 ore)
Si introducono gli aspetti di privacy ed
etici inerenti all'utilizzo di tecniche inferenza sui dati e dei quali
l'analista deve essere a conoscenza.
Ore lezione: | 25 | Ore esercitazione: | 13 | | Ore seminari: | 2 | |
Bibliografia
Testi. Dispense e fotocopie distribuite dal docente tratte da:
- Jiawei Han,
Micheline Kamber, Data Mining:
Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
- S. Chakrabarti,
Mining the Web: Discovering Knowledge from Hypertext Data, Morgan
Kaufmann, ISBN 1-55860-754-4, 2002
- Barry Linoff
Data Mining Techniques for Marketing Sales and Customer Support, John
Wiles & Sons, 2002
Modalità di esame
La valutazione avverrà mediante una prova scritta intermedia ed una prova finale che consiste a scelta dello studente in una esperienza di analisi di dati utilizzando il software appreso nel Laboratorio di sistemi informativi economico/aziendali, o in un seminario che illustri le modalità di utilizzo di tecniche DM in specifici settori applicativi.