Programming laboratory for bioinformatics (2019/2020)



Codice insegnamento
4S004548
Crediti
12
Coordinatore
Rosalba Giugno
Settore disciplinare
INF/01 - INFORMATICA
Lingua di erogazione
Inglese
L'insegnamento è organizzato come segue:
Attività Crediti Periodo Docenti Orario
Teoria 6 II semestre, I semestre Rosalba Giugno

Vai all'orario delle lezioni

Laboratorio 6 II semestre, I semestre Rosalba Giugno

Vai all'orario delle lezioni

Obiettivi formativi

Il corso ha l’obiettivo di fornire gli strumenti di programmazione necessari per l’analisi di dati genomici, trascrittomici e proteomici provenienti dalle tecnologie di ultima generazione.

Conoscenza e capacità di comprensione L'insegnamento ha l'obiettivo di fornire allo studente la conoscenza e comprensione dei paradigmi e strumenti di programmazione avanzata per la gestione di dati e informazioni biomediche/bioinformatiche.

Conoscenze applicate e capacità di comprensione Lo studente sarà dunque in grado di a) applicare i paradigmi e strumenti di programmazione avanzata per l’analisi di dati genomici, trascrittomici e proteomici; b) applicare l'analisi delle prestazioni del codice e individuazione di criticità e loro ottimizzazione.

Autonomia di giudizio Capacità di proporre in modo autonomo soluzioni efficaci ed efficienti per il dominio applicativo biomedico e bioinformatico; capacità di individuare le criticità per il trattamento di problemi complessi di bioinformatica.

Abilità comunicative Lo studente sarà, inoltre, in grado di interagire con interlocutori vari in un ambito multidisciplinare biomedico e bioinformatico, relazionarsi con i colleghi nello svolgimento di lavori in gruppo, e relazionarsi con gli interlocutori nell'ambiente lavorativo o di ricerca.

Capacità di apprendere Capacità di comprendere la letteratura scientifica nel processo di interpretazione dei risultati o soluzione proposta, e di svolgere lavori di approfondimento individuale e di gruppo volti ad affrontare problemi dal mondo della ricerca e aziendale.

Programma

Programmazione in R
Panoramica e storia di R
Workspace and Files
Oggetti e strutture dati
Valori mancanti
Sequenza di numeri
Subsetting
Le funzioni Split-Apply-Combines
Simulazione
Leggere dati tabulari
Logica
Strutture di controllo
Operazioni di I / O
Funzioni
Grafica di base
Grafica avanzata

Bash: linguaggio di scripting
Panoramica del linguaggio di scripting
Varabili
Matrici indicizzate
Matrici associative
Dichiarazioni e operatori condizionali
Operatori di confronto
Loops
I / O da file
Funzioni

R per bioinformatica
Panoramica di BioConductor
Strutture dati di base BioConductor: IRanges e GenomicRanges
Classi e funzioni per rappresentare le stringhe biologiche: Biostrings
Classi e funzioni per rappresentare i genomi: BSgenome, GenomicRanges,
Funzioni di annotazione e panoramica degli strumenti web di annotazione

Analisi dei dati RNA-SEQ utilizzando R / Python e strumenti web
Introduzione alle tecnologie NGS e progettazione sperimentale
Preprocessing dei dati, da Fastq a BAM
Indexing Reference Genome
La mappatura dei reads su un genoma di riferimento
Indicizzazzione e ordinamento negli allineamenti
Controllo della qualità della mappatura
Scoperta di varianti e call set di perfezionamento
Analisi differenziale
Limma, Glimma, EdgeR
DESeq2
Pratica su RNA codificante e non codificante

Statistiche applicate per High-Throughput Data Mining
Introduzione alle variabili e alla distribuzione
Modellazione lineare
Modellazione lineare e generalizzata
Matrici modello e formule modello
Analisi delle variabili categoriali, analisi dei dati esplorativi, test multipli
Analisi unsupervised
Distanza in alte dimensioni
Principali analisi dei componenti e ridimensionamento multidimensionale
Clustering
Metodi di partizione
Metodi gerarchici
Metodi basati sulla densità
Effetti batch

Analisi avanzate dei dati biologici in R: metodi per grafici e reti.
Reti in igraph
Crea reti
Edge, vertice e attributi di rete
Grafi e modelli di grafi specifici
Lettura di grafi dai file
Trasformare le reti in oggetti igraph
Visualizzare le reti con igraph
Descrittive di rete e nodi
Distanze e percorsi
Sottogruppi e comunità
Assortatività e omofilia
Ricostruzione e analisi di reti co-regolatorie e co-espresse

Il corso include seminari su argomenti avanzati come i metodi computazionali per l'analisi di dati di singole cellule, graph mining e reti multistrato. Gli argomenti sono definiti ogni anno in base alle tendenze attuali nella ricerca in bioinformatica medica. Gli studenti avranno la possibilità di utilizzare software relativi agli argomenti scelti e analizzare casi reali.

Modalità d'esame

L’esame consiste di una parte scritta (A) e di una progettuale (B). (A) consiste nello sviluppo in aula nelle date di esame di un programma in R per la risoluzione di un problema su dati genomici, trascrittomici o proteomici. (B) consiste nello sviluppo di un progetto concordato con il docente previo richiesta via email e appuntamento per l’elaborazione delle specifiche (il progetto ha validità tutto l’anno accademico). I progetti hanno diversi livelli di difficoltà. Ad ogni difficoltà corrisponde un valore massimo di valutazione.

Il voto per le parti (A) e (B) è espresso in trentesimi.

Il voto finale è calcolato come min(31, ((A+B)/2)+C).
C è espresso nell'intervallo[-4,+4] è riflette la maturazione e autonomia scientifica acquisita durante lo sviluppo delle prove e del progetto, nell’esposizione e nell’interpretazione della letteratura scientifica e del contesto scientifico del progetto.

Testi di riferimento
Attività Autore Titolo Casa editrice Anno ISBN Note
Teoria Rafael A Irizarry and Michael I Love Data Analysis for the Life Sciences https://leanpub.com/dataanalysisforthelifesciences/ 2015
Teoria Roger D. Peng Exploratory Data Analysis with R https://leanpub.com/exdata 2016
Teoria Michael I. Love, Simon Anders, Vladislav Kim, Wolfgang Huber RNA-Seq workflow: gene-level exploratory analysis and differential expression https://f1000research.com/articles/4-1070/v1 2015
Teoria Kolaczyk, Eric D., Csárdi, Gábor Statistical Analysis of Network Data with R Springer 2014
Laboratorio Rafael A Irizarry and Michael I Love Data Analysis for the Life Sciences https://leanpub.com/dataanalysisforthelifesciences/ 2015
Laboratorio Roger D. Peng Exploratory Data Analysis with R https://leanpub.com/exdata 2016
Laboratorio Michael I. Love, Simon Anders, Vladislav Kim, Wolfgang Huber RNA-Seq workflow: gene-level exploratory analysis and differential expression https://f1000research.com/articles/4-1070/v1 2015
Laboratorio Kolaczyk, Eric D., Csárdi, Gábor Statistical Analysis of Network Data with R Springer 2014