corso |
Codice: | ZY116 | Crediti: | 6 | Semestre: | 2 | Sigla: | LSA | |
Settore disciplinare: | INF/01 - Informatica |
Il corso presenta tecnologie e sistemi per l’accesso ai dati, per la costruzione ed analisi di datawarehouse e per l’estrazione di conoscenza. L’accento è sull’uso di strumenti e sull’analisi di problemi applicativi, utilizzando esempi e casi studio significativi. Il corso si prospetta anche come preparatorio allo svolgimento di tesi di laurea specialistica.
Technologies and systems are presented for data access, datawarehoue implementation and analysis, and for knowledge discovery in databases. The focus will be on tools and on applications to real problems.
Per conseguire gli obiettivi indicati, sarà necessario:
Introduzione
Introduzione, obiettivi, strumenti.
Accesso ai dati
Accesso ai dati su file: localizzazione e rappresentazione. Formati CSV, FLV, ARFF, XML, binari e compressi. API Java. Panoramica su standard di accesso ai dati su RDBMS (ODBC, JDBC, OLE DB, ADO) e API JDBC. Linked servers. Strumenti: Java, SQL Server 2005. Esercitazioni in gruppo: accesso a dati su file in Java, interscambio di dati mediante JDBC.
Il processo Extract Transform and Load (ETL)
Raccolta, selezione, pulizia, trasformazione, normalizzazione dei dati. Strumenti: SQL Server 2005 Integration Services. Esercitazioni in gruppo: case study su ETL.
Data warehousing e OLAP
Struttura (tabella dei fatti, dimensioni, gerarchie) di un datawarehouse, pubblicazione su web e navigazione da client 2D e 3D, linguaggio di interrogazione, API software. Strumenti: SQL Server 2005 Analysis Services, Data Analyser, DB Miner. Esercitazioni in gruppo: case study su datawarehousing e OLAP.
Ambienti per l'estrazione di conoscenza
Il processo CRISP, metafore visuali e programmative, modelli di mining, casi di studio (retail, insurance, web mining). Strumenti: Weka. Esercitazioni in gruppo: case study su analisi di data mining: costruzione dei modelli, valutazione, focusing dei parametri.
Ore laboratorio: | 48 |
Software. Il software citato ottenuto mediante licenza accademica, sia installato sui PC del laboratorio che fornito in copia con licenza accademica agli studenti.
Agli studenti verrà proposta la partecipazione ad un progetto comune, affrontando le attività tipiche di analisi dei dati via via che vengono presentate durante il corso. Gli studenti che aderiscono al progetto comune vedranno valutati i compiti assegnati durante il corso, e dovranno sostenere una discussione orale finale. Gli studenti che non aderiscono al progetto comune saranno valutati su progetti individuali o a gruppi di 2 studenti assegnati nell'ultima settimana del corso e consistenti nella produzione di una relazione scritta (su comparazione di software, analisi di dati, revisione di letteratura, ecc. ) e di un seminario.