| | | corso | | | |
Data mining
(Corso di Laurea Specialistica in Informatica per l'economia e per l'azienda)
Codice: | AA570 | Crediti: | 5 | Semestre: | 2 | Sigla: | DM | |
|
Settore disciplinare: | INF/01 - Informatica |
Docente
Mirco Nanni
Tel. 050 315 2934Prerequisiti
La frequenza, anche contemporanea, ad
almeno uno tra i due corsi AA352 "Basi di dati di supporto alle decisioni" e
ZY116 "Laboratorio di sistemi informativi economico/aziendali" è raccomandata.
Obiettivi di apprendimento
L'obiettivo del corso è
quello di fornire un'introduzione ai concetti di base del processo di
estrazione di conoscenza, alle principali tecniche di data mining ed ai
relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici
presentati mediante alcune classi di applicazioni paradigmatiche quali il
Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi e
il Web mining. Infine il corso introduce gli aspetti di privacy ed etici
inerenti all'utilizzo di tecniche inferenza sui dati e dei quali l'analista
deve essere a conoscenza.
Conoscenze. Lo studente acquisirà conoscenze sulle principali
tecniche ed algoritmi di data mining, con particolare riferimento agli aspetti
metodologici riguardanti tutto l'intero processo di knowledeg discovery.
Capacità. Lo studente saprà come
contestualizzare il processo di etrazione di conoscenza in vari domini
applicativi, saprà anche utilizzare strumenti di data mining per l'estrazione
di modelli locali quali pattern frequenti e pattern sequenziali e di modelli
globali quali clustering e classificazione con particolare riferimento a ad
applicazioni paradigmatiche quali: Basket Market Analysis, la segmentazione di
mercato, il rilevamento di frodi
Comportamenti. Lo studente saprà orientarsi tra le varie tecnologie
ed adottare quella più adatta al problema dello specifico settore applicativo.
Lo studente inoltre avrà la coscienza che l'analista dei dati deve interagire
strettamente con un ambiente interdisciplinare e che il successo
dell'estrazione della conoscenza non è solo nei dati ma anche nella conoscenza
profonda degli esperti del dominio, e che quindi l'analista ha il ruolo di
mediatore tra la tecnologia e l'esperto del dominio. Sarà inoltre cosciente
delle problematiche inerenti il trattamento di dati sensibili nella analisi di
dati con tecniche di data mining.
Indicazioni metodologiche
Per conseguire gli obiettivi
indicati, sarà necessario:
-
organizzare il processo di
apprendimento in moduli flessibili, posti in sequenza logica;
-
presentare in modo approfondito
una specifica tecnologia tra le varie concorrenti sul mercato, e le altre solo
"per differenza";
-
mantenere una posizione
indipendente e critica verso i vari software vendors presenti sul mercato, al
fine di formare una capacità critica nello studente;
-
coordinarsi con i docenti dei
corsi indicati nei prerequisiti e dei corsi paralleli del semestre;
-
partire dai problemi di business
per ritrovare le necessarie scelte tecnologie a supporto della loro soluzione;
-
proporre l'analisi di casi di
studio tratti da esperienze reali riportate in letteratura o derivanti da
ricerche del docente;
-
separare gli aspetti e le scelte
puramente tecnologiche da quelle funzionali alla soluzione di un problema di
analisi.
Programma
Introduzione (2
ore): Presentazione del corso e panoramica dei contenuti
Il processo di
estrazione della conoscenza (4 ore): Motivazioni, Classi di applicazioni ,
Panoramica sulle tecniche.
Le principali tecniche di datamining (18
ore): Regole associative: inter-attributo,
intra-attributo, qualitative, predittive e tassonomiche; Classificazione bayesiana e con alberi di
decisione; Clustering k-means. Di queste tecniche si studieranno gli aspetti
formali ed algoritmici.
Cenni a problemi e soluzioni avanzate per il data mining (4 ore): problemi e approcci di analisi per dati complessi, quali sequenze, grafi, serie temporali.
Strumenti e ambienti per il data mining (4 ore): Introduzione agli ambienti di analisi esistenti che supportano strumenti di data mining, con particolare enfasi a quelli open source.
Metodologie di
estrazione di conoscenza (6 ore): casi di studio nell'ambito del
marketing e del supporto alla gestione clienti.
- Caso di studio 1: Segmentazione della
clientela
- Caso di studio 2: Individuazione dei
comportamenti di acquisto nella grande distribuzione
- Caso studio 3: Analisi di rischio nel settore
bancario
- Caso studio 4: Rilevamento di Frodi Fiscali
- Caso Studio 5: Fare mining su dati ufficiali
(spesso aggregati):
Aspetti di privacy ed etici (2 ore): Si introducono gli aspetti di privacy ed
etici inerenti all'utilizzo di tecniche inferenza sui dati e dei quali
l'analista deve essere a conoscenza
Ore lezione: | 25 | | Ore laboratorio: | 13 | Ore seminari: | 2 | |
Bibliografia
Testo di riferimento:
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.
- http://www-users.cs.umn.edu/~kumar/dmbook/index.php
Modalità di esame
La valutazione avverrà mediante una prova scritta intermedia ed una prova finale che consiste a scelta dello studente in una esperienza di analisi di dati utilizzando il software appreso nel Laboratorio di sistemi informativi economico/aziendali, o in un seminario che illustri le modalità di utilizzo di tecniche DM in specifici settori applicativi.