Estrazione e integrazione di conoscenza dei dati (2020/2021)

Codice insegnamento
4S008911
Docente
Pietro Sala
Coordinatore
Pietro Sala
crediti
6
Settore disciplinare
INF/01 - INFORMATICA
Lingua di erogazione
Italiano
Sede
VERONA
Periodo
I semestre dal 1-ott-2020 al 29-gen-2021.

Orario lezioni

Vai all'orario delle lezioni

Obiettivi formativi

Il corso si propone di fornire le basi teoriche e pratiche riguardanti l’integrazione di dati da sorgenti eterogenee e la conseguente fase di estrazione di informazioni di sintesi e/o conoscenza. Al termine del corso gli studenti saranno in grado, dato un problema di data mining, di sviluppare un'intera pipeline per l'integrazione delle sorgenti di dati necessarie, scegliere e applicare tecniche di data mining più adeguate, e, infine, valutare l'efficacia delle tecniche utilizzate. Con le capacità acquisite lo studente sarà in grado di elaborare soluzioni originali o adattare soluzioni esistenti a problemi di data mining provenienti da svariati ambiti (industriale, aziendale, sanitario, etc.) e valutarne l'applicabilità nel mondo reale.

Programma

Richiami sulle Dipendenze Funzionali (FD):
Richiami sulle FD, verifica e vincoli in presenza di FD in PostgreSQL.

Dipendenze Funzionali Approssimate (AFD):
Introduzione dell’approssimazione nelle FD come misura di confidenza. Estrazione di conoscenza tramite AFD: esempi. Analisi di AFD estratte.

Algoritmi per l’estrazione di AFD:
AFD minimali: definizione, significato e interpretazione. Lower Bound Teorici al numero di AFD minimali: la maledizione della cardinalità. Algoritmo base per l’estrazione di AFD minimali. Rappresentazioni compatte dell’insieme delle AFD estratte. Algoritmi randomizzati per l’estrazione di AFD Minimali: teoria ed implementazione.

Approssimazione in presenza di misure:
Delta Dipendenze Funzionali (DFD): definizione, applicazione, e verifica. Interpretazione di DFD estratte. DFD approssimate (ADFD):
definizione, applicazione ed interpretazione su dati clinici (esempi).
Algoritmo per la verifica di singole ADFD ristrette al caso di due misure (2ADFD):
studio di complessità, implementazione. Estrazione di 2ADFD minimali.

Regole di Associazione (AR):
definizione, esempi in ambito clinico. Estrazione di AR: supporto e confidenza. Analisi teorica delle regole di associazione: la maledizione della cardinalità. Insieme di oggetti frequenti (FI) :
definizione, ruolo nell’estrazione di AR, e algoritmi per la generazione di candidati. Estrazione di AR da insiemi di FI. Insiemi di FI: insiemi minimali, insiemi chiusi. Strategie per l’esplorazione del reticolo degli FI. Strutture alternative per la estrazione di insiemi frequenti (hash trees, FP-trees). Valutazione dei pattern di associazione: problematiche del sistema supporto/confidenza. Esempi di paradossi. Misure alternative per l’analisi dei pattern di associazione: definizione ed esempi.

Estrazione Trasformazione e Caricamento (ETL):
definizione, funzioni, ruolo all’interno di un data warehouse, flussi di dati.
Componenti base delle procedure ETL e loro funzionamento:
Job, Trasformazioni, Job Step, Transformation Step.
Modellazione concettuale di procedure ETL in Business Process Model and Notation (BPMN). Esempi di modellazione: casi studio. Utilizzo di procedure esterne all’interno di procedure ETL: comunicazione, staging e gestione delle terminazioni anomale. Utilizzo di API (Application Programming Interface)
all’interno di procedure ETL. Breve descrizione dell’utilizzo di XPATH. Screen scraping di siti web in procedure ETL attraverso l’utilizzo di XPATH. Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare procedure ETL.

Classificatori basati su Entropia:
il concetto di entropia. Alberi di decisione in ambito biomedico. Il classificatore Iterative Dichotomiser 3 (ID3): algoritmo, esempi e implementazione.
Discretizzazione delle misure. Utilizzo di ID3 come discretizzatore per misure: problematiche, modifiche e implementazione. Applicazione all’analisi temporale.

Reportistica e OLAP (Online Analytical Processing):
Reportistica interattiva: interrogazione delle basi di dati cliniche, parametrizzazione della reportistica. Recupero dinamico dei dati per la reportistica tramite trasformazioni ETL. Modellazioni di analisi con cubi OLAP e loro implementazione: casi di studio.
Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare reportistica interattiva e dinamica e cubi OLAP.

Data Mining Distribuito:
cenni di calcolo distribuito, suddivisione di un problema di data mining per il calcolo distribuito,
modellazione e implementazione di un sistema distribuito per il data mining, utilizzo di database NoSQL
per il calcolo distribuito.

Analisi Probabilistica dei Processi:
Analisi qualitativa di un processo tramite tecniche di process mining e process discovery,
estrazione e trasformazione di processi in modelli probabilistici (Markov Chains, Markov Decision Processes),
strumenti per l'analisi probabilistica dei sistemi (PRISM model checker).

TESTI CONSIGLIATI:

DJ Hand, H Mannila, P Smyth
Principles of data mining
MIT Press Cambridge, MA, USA ©2001
ISBN:0-262-08290-X 9780262082907

Roland Bouman, Jos van Dongen
Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL
Wiley Publishing, Inc.
ISBN: 978-0-470-48432-6
648 pages
September 2009

The elements of statistical learning. Data mining, inference, and prediction.
T. Hastie, R. Tibshirani, J. Friedman.
2009 Springer

MATERIALI FORNITI ALLO STUDENTE:

lucidi del corso;
dati di esempio (in formato .csv) per eseguire gli esercizi proposti a lezione;
codice delle procedure esposte a lezione;
Jupyter notebooks e Docker container per eseguire gli algoritmi spiegati durante le lezioni.

Testi di riferimento
Autore Titolo Casa editrice Anno ISBN Note
Roland Bouman, Jos van Dongen Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL Wiley Publishing, Inc. 2009 978-0-470-48432-6
DJ Hand, H Mannila, P Smyth Principles of data mining MIT Press Cambridge 2001 9780262082907
T. Hastie, R. Tibshirani, J. Friedman. The elements of statistical learning. Data mining, inference, and prediction. (Edizione 2) Springer 2009

Modalità d'esame

La modalità di esame è orientata alla verifica dell’autonomia e delle capacità da parte dello studente nell’applicare i concetti appresti al lezione per sviluppare sistemi una end-to-end pipeline per un dato problema di Data Mining. L'esame prevede un colloquio orale sulla realizzazione due progetti assegnati durante le lezioni,
uno per ognuno dei due macro-argomenti trattati nel corso:
1) ETL e Analisi OLAP.
2) Data Mining;
I progetti sono da svolgere in modalità individuale o in gruppo il colloquio, l'orale verte esclusivamente
sulla realizzazione dei due progetti. Una condizione necessaria ma non sufficiente al superamento
dell'esame consiste nelle realizzazione dei due progetti nella loro interezza.
In particolare i progetti verranno valutati fino a un massimo di 15 punti ognuno e il voto finale sarà rappresentato
dalla somma delle due valutazioni.

L'esame non cambia da studenti frequentanti a non frequentanti.