Riconoscimento e recupero dell'informazione per bioinformatica (2016/2017)



Codice insegnamento
4S02716
Crediti
12
Coordinatore
Manuele Bicego
Settore disciplinare
INF/01 - INFORMATICA
Lingua di erogazione
Italiano
L'insegnamento è organizzato come segue:
Attività Crediti Periodo Docenti
Teoria 9 I sem. Manuele Bicego
Rosalba Giugno
Laboratorio 3 I sem. Pietro Lovato

Orario lezioni

I sem.
Attività Giorno Ora Tipo Luogo Note
Teoria martedì 11.30 - 13.30 lezione Aula C  
Teoria mercoledì 8.30 - 10.30 lezione Aula C  
Teoria giovedì 15.30 - 18.30 lezione Aula D  
Teoria giovedì 15.30 - 18.30 laboratorio Laboratorio didattico Alfa dal 1-dic-2016  al 31-gen-2017
Laboratorio lunedì 10.30 - 13.30 laboratorio Laboratorio didattico Alfa  

Obiettivi formativi

Il corso intende fornire i fondamenti teorici e applicativi della Pattern Recognition, una classe di metodologie automatiche utilizzate per il riconoscimento e il recupero di informazioni da dati biologici. In particolare verranno presentati e discussi i principali aspetti di questa disciplina: la rappresentazione, la classificazione, il clustering e la validazione. L’attenzione è rivolta principalmente alla descrizione delle metodologie piuttosto che ai dettagli dei programmi applicativi (già visti in altri corsi).

Al completamento del corso, gli studenti saranno in grado di analizzare un problema biologico utilizzando il punto di vista della Pattern Recognition; avranno inoltre le conoscenze necessarie per poter ideare, sviluppare e implementare le diverse componenti di un sistema di Pattern Recognition.

Programma

Propedeuticità consigliate: il corso ha come prerequisiti generali i corsi del I e II anno, ed in particolare nozioni di base di probabilità e statistica e analisi matematica.

Il corso si suddivide in tre parti:
PARTE 1. la prima parte è di natura strettamente metodologica, dove vengono descritte in maniera generale le diverse metodologie di rappresentazione, classificazione e clustering, i problemi sottostanti e le motivazioni che portano allo studio di queste tecniche.

PARTE 2. Nella seconda parte, più strettamente applicativa, vengono analizzati alcuni problemi bioinformatici che sono classicamente risolti con metodologie di classificazione e clustering (ad esempio l'analisi di dati di espressione genica, la segmentazione di immagini biomedicali, la determinazione di omologia remota tra proteine etc etc).

PARTE 3. Completa il corso una parte di laboratorio, nella quale verranno implementati (utilizzando il linguaggio di programmazione MATLAB) alcuni degli algoritmi visti nella parte di teoria.


Programma dettagliato

Teoria (72 h):
- Introduzione generale alla Pattern Recognition
- Rappresentazione dei dati
- Teoria della decisione di Bayes
- Classificatori generativi e discriminativi
- Validazione della classificazione
- Reti Neurali
- Hidden Markov Models
- Tecniche di clustering
- Validazione del clustering
- Applicazioni in bioinformatica

Laboratorio (36 h):
- Introduzione a matlab
- Rappresentazione dei dati e standardizzazione
- Principal Component Analysis
- Gaussiane e classificatori gaussiani
- Hidden Markov Models

Testi di Riferimento:
R. Duda, P. Hart, D. Stork Pattern Classification. Wiley, 2001
P. Baldi, S. Brunak, Bioinformatics, The Machine Learning Approach. MIT Press, 2001
A.K. Jain and R.C. Dubes, Algorithms for Clustering Data, Prentice-Hall, 1988

Modalità d'esame

Per superare l'esame gli studenti dovranno dimostrare di:
- essere in grado di descrivere i diversi componenti di un sistema di Pattern Recognition in modo preciso, organico e senza divagazioni
- saper analizzare, capire e descrivere un sistema di Pattern Recognition (o una sua parte) relativo ad un problema di tipo biologico.

L'esame consiste in:
i) una prova scritta contenente domande a risposta aperta sugli argomenti trattati nel corso
ii) una presentazione orale di un articolo scientifico pubblicato in importanti riviste di settore nell'anno 2015. L'articolo viene scelto dal candidato e approvato dal docente del corso

Le due parti dell'esame sono superabili separatamente e il voto complessivo è dato dalla somma delle valutazioni in 15esimi ottenute nelle due parti. Lo scritto si ritiene superato con un voto maggiore o uguale a 8. L’esame si ritiene superato se la somma delle parti è maggiore o uguale a 18. Ogni valutazione rimane valida per l’intero anno accademico in corso.

Materiale didattico
Titolo Formato (Lingua, Dimensione, Data pubblicazione)
10. Clustering Validazione  pdfpdf (it, 316 KB, 11/11/16)
11. Hidden Markov Models  pdfpdf (it, 1032 KB, 21/11/16)
12. Reti Neurali  pdfpdf (it, 500 KB, 21/11/16)
13. Applicazioni - parte 1  pdfpdf (it, 6157 KB, 19/12/16)
14. Applicazioni - parte 2  pdfpdf (it, 6974 KB, 19/12/16)
7. Introduzione al Clustering  pdfpdf (it, 423 KB, 11/11/16)
8. Clustering - similarità  pdfpdf (it, 254 KB, 11/11/16)
9. Metodologie di clustering  pdfpdf (it, 798 KB, 11/11/16)
Istruzioni per il seminario  pdfpdf (it, 56 KB, 07/11/16)
SeminariAssegnati  pdfpdf (it, 41 KB, 04/05/17)
1. Introduzione  pdfpdf (it, 5094 KB, 03/10/16)
2. Rappresentazione  pdfpdf (it, 10178 KB, 03/10/16)
3. Teoria della decisione di Bayes  pdfpdf (it, 546 KB, 11/10/16)
4. Classificatori generativi  pdfpdf (it, 2444 KB, 11/10/16)
5. Classificatori discriminativi  pdfpdf (it, 1148 KB, 11/10/16)
6. Validazione dei classificatori  pdfpdf (it, 324 KB, 11/10/16)
Lab 01 - Intro Matlab  zipzip (it, 2160 KB, 03/10/16)
Lab 01 - Soluzioni  zipzip (it, 1 KB, 17/10/16)
Lab 02 - Intro Matlab 2  zipzip (it, 1061 KB, 10/10/16)
Lab 02 - Soluzioni  zipzip (it, 3 KB, 17/10/16)
Lab 03 - Soluzioni  zipzip (it, 2 KB, 24/10/16)
Lab 03 - Standardizzazione, PCA  zipzip (it, 325 KB, 17/10/16)
Lab 04 - Gaussiane  zipzip (it, 190 KB, 24/10/16)
Lab 04 - Soluzioni  zipzip (it, 4 KB, 07/11/16)
Lab 05 - Parzen Windows  zipzip (it, 256 KB, 07/11/16)
Lab 05 - Soluzioni  zipzip (it, 5 KB, 14/11/16)
Lab 06 - KNN  zipzip (it, 279 KB, 14/11/16)
Lab 06 - Soluzioni  zipzip (it, 23 KB, 21/11/16)
Lab 07 - PRTools 1  zipzip (it, 880 KB, 21/11/16)
Lab 07 - Soluzioni  zipzip (it, 0 KB, 28/11/16)
Lab 08 - PRTools 2  pdfpdf (it, 130 KB, 28/11/16)
Lab 08 - Soluzioni  zipzip (it, 0 KB, 12/12/16)
Lab 09 - Kmeans  zipzip (it, 306 KB, 12/12/16)
Lab 09 - Soluzioni  zipzip (it, 1 KB, 19/12/16)
Lab 10 - HMM  zipzip (it, 703 KB, 19/12/16)
Lab 10 - Soluzioni  zipzip (it, 277 KB, 09/01/17)
Lab 11 - Ripasso  zipzip (it, 268 KB, 09/01/17)

Opinione studenti frequentanti - 2015/2016


Statistiche per i requisiti di trasparenza (Attuazione Art. 2 del D.M. 31/10/2007, n. 544)

I dati relativi all'AA 2016/2017 non sono ancora disponibili