Biomedical decision support systems (2016/2017)

Codice insegnamento
4S004553
Docente
Pietro Sala
Coordinatore
Pietro Sala
crediti
6
Settore disciplinare
INF/01 - INFORMATICA
Lingua di erogazione
Inglese
Periodo
II sem. dal 1-mar-2017 al 9-giu-2017.

Orario lezioni

II sem.
Giorno Ora Tipo Luogo Note
lunedì 11.30 - 13.30 lezione Aula C  
mercoledì 16.30 - 18.30 lezione Aula L  

Obiettivi formativi

Conoscenza e capacità di comprensione

Il corso si propone di introdurre i principi alla base dei Sistemi di Supporto alle Decisioni in ambito Biomedico.

Conoscenza e capacità di comprensione applicate

A completamento del corso, gli studenti saranno in grado di:
- orientarsi nell’utilizzo delle principali componenti comuni alle suite di Business Intelligence presenti sul mercato. In particolare gli studenti saranno in grado di scegliere e configurare la/le opportuna/e componente/i per fornire soluzioni al supporto delle decisioni destinate al personale medico sanitario;
- realizzare complesse operazioni di Estrazione, Trasformazione & Caricamento (ETL) di dati clinici
da differenti sorgenti (Database Relazionali, API, siti web) sia di tipo strutturato (e.g., tabelle relazionali) che di tipo semistrutturato (e.g., XML);
- modellare ed implementare soluzioni OLAP (On-Line Analytical Processing) per il supporto alle decisioni in ambito clinico;
-utilizzare/adattare sofisticate tecniche di data mining (Dipendenze Funzionali Approssimate, Regole di Associazione, Classificatori basati su Entropia) per estrarre conoscenza da grosse quantità di dati clinici.

Autonomia di giudizio

Allo studente verranno fornite le conoscenze necessarie per gestire in modo autonomo:
- la scelta e applicazione delle tecniche di data mining per l'estrazione di sapere medico da grosse quantità di dati;
- la scelta delle rappresentazioni grafiche e interattive più appropriate per la visualizzazione di determinate informazioni in ambito clinico.

Abilità comunicative

Lo studente sarà in grado di
utilizzare BPMN come medium per la modellazione e rappresentazione di processi clinici e di trasferimento dati.

 Capacità di apprendere

Allo studente verranno introdotte le tecniche e gli algoritmi alla base del data mining clinico,
comprensive dei fattori che ne determinano l'efficenza e l'efficacia. Tale conoscenza costituirà la base
per comprendere algoritmi e tecniche più specifiche nell'ambito del data mining clinico.

Programma

Richiami sulle Dipendenze Funzionali (FD):
Richiami sulle FD, verifica e vincoli in presenza di FD in PostgreSQL.

Dipendenze Funzionali Approssimate (AFD):
Introduzione dell’approssimazione nelle FD come misura di confidenza. Estrazione di conoscenza clinica tramite AFD: esempi. Analisi di AFD estratte in ambito clinico.

Algoritmi per l’estrazione di AFD:
AFD minimali: definizione, significato e interpretazione. Lower Bound Teorici al numero di AFD minimali: la maledizione della cardinalità. Algoritmo base per l’estrazione di AFD minimali. Rappresentazioni compatte dell’insieme delle AFD estratte. Algoritmi randomizzati per l’estrazione di AFD Minimali: teoria ed implementazione.

Approssimazione in presenza di misure:
Delta Dipendenze Funzionali (DFD): definizione, applicazione, e verifica. Interpretazione di DFD estratte da dati clinici. DFD approssimate (ADFD):
definizione, applicazione ed interpretazione su dati clinici (esempi).
Algoritmo per la verifica di singole ADFD ristrette al caso di due misure (2ADFD):
studio di complessità, implementazione. Estrazione di 2ADFD minimali da dati clinici.

Regole di Associazione (AR):
definizione, esempi in ambito clinico. Estrazione di AR: supporto e confidenza. Analisi teorica delle regole di associazione: la maledizione della cardinalità. Insieme di oggetti frequenti (FI) :
definizione, ruolo nell’estrazione di AR, e algoritmi per la generazione di candidati. Estrazione di AR da insiemi di FI. Insiemi di FI: insiemi minimali, insiemi chiusi. Strategie per l’esporazione del reticolo degli FI. Strutture alternative per la estrazione di insiemi frequenti (hash trees, FP-trees). Valutazione dei pattern di associazione: problematiche del sistema supporto/confidenza. Esempi di paradossi. Misure alternative per l’analisi dei pattern di associazione: definizione ed esempi.

Estrazione Trasformazione e Caricamento (ETL):
definizione, funzioni, ruolo all’interno di un data warehouse, flussi di dati.
Componenti base delle procedure ETL e loro funzionamento:
Job, Trasformazioni, Job Step, Transformation Step.
Modellazione concettuale di procedure ETL in Business Process Model and Notation (BPMN). Esempi di modellazione: casi studio. Utilizzo di procedure esterne all’interno di procedure ETL: comunicazione, staging e gestione delle terminazioni anomale. Utilizzo di API (Application Programming Interface)
all’interno di procedure ETL. Breve descrizione dell’utilizzo di XPATH. Screen scraping di siti web in procedure ETL attraverso l’utilizzo di XPATH. Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare procedure ETL.

Classificatori basati su Entropia:
il concetto di entropia. Alberi di decisione in ambito biomedico. Il classificatore Iterative Dichotomiser 3 (ID3): algoritmo, esempi e implementazione.
Discretizzazione delle misure. Utilizzo di ID3 come discretizzatore per misure: problematiche, modifiche e implementazione. Applicazione all’analisi temporale delle reazioni avverse da farmaco.

Reportistica e OLAP (Online Analytical Processing):
Reportistica interattiva: interrogazione delle basi di dati cliniche, parametrizzazione della reportistica. Recupero dinamico dei dati per la reportistica tramite trasformazioni ETL. Modellazioni di analisi con cubi OLAP e loro implementazione: casi di studio.
Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare reportistica interattiva e dinamica e cubi OLAP.

TESTI CONSIGLIATI:

DJ Hand, H Mannila, P Smyth
Principles of data mining
MIT Press Cambridge, MA, USA ©2001
ISBN:0-262-08290-X 9780262082907

Roland Bouman, Jos van Dongen
Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL
Wiley Publishing, Inc.
ISBN: 978-0-470-48432-6
648 pages
September 2009

Fulton, Hal and Olsen, Russ
The ruby way: solutions and techniques in ruby programming, third edition
Addison-Wesley Professional ©2014
ISBN:0-321-71463-6

MATERIALI FORNITI ALLO STUDENTE:

lucidi del corso;
dati di esempio (in formato .csv) per eseguire gli esercizi proposti a lezione;
codice delle procedure esposte a lezione.

Testi di riferimento
Autore Titolo Casa editrice Anno ISBN Note
Roland Bouman, Jos van Dongen Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL Wiley Publishing, Inc. 2009 978-0-470-48432-6
DJ Hand, H Mannila, P Smyth Principles of data mining MIT Press Cambridge 2001 9780262082907
Fulton, Hal and Olsen, Russ The ruby way: solutions and techniques in ruby programming (Edizione 3) Addison-Wesley Professional 2014 0-321-71463-6

Modalità d'esame

La modalità di esame è orientata alla verifica dell’autonomia e delle capacità da parte dello studente nell’applicare
i concetti appresti alle lezione per sviluppare sistemi di supporto alle decisioni nelle loro principali declinazioni.
L'esame prevede un colloquio orale sulla realizzazione due progetti assegnati durante le lezioni,
uno per ognuno dei due macro-argomenti trattati nel corso:
1) Data Mining;
2) Analisi OLAP.
I progetti sono da svolgere in modalità individuale il colloquio, l'orale verte esclusivamente
sulla realizzazione dei due progetti. Una condizione necessaria ma non sufficiente al superamento
dell'esame consiste nelle realizzazione dei due progetti nella loro interezza.
In particolare i progetti verranno valutati fino a un massimo di 15 punti ognuno e il voto finale sarà rappresentato
dalla somma delle due valutazioni.

L'esame non cambia da studenti frequentanti a non frequentanti.

Opinione studenti frequentanti - 2015/2016


Statistiche per i requisiti di trasparenza (Attuazione Art. 2 del D.M. 31/10/2007, n. 544)

I dati relativi all'AA 2016/2017 non sono ancora disponibili