Big Data Systems and Analytics (2020/2021)

Codice insegnamento
cod wi: DT000049
Docente
Damiano Carra
Coordinatore
Damiano Carra
crediti
5
Settore disciplinare
ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Lingua di erogazione
Italiano
Sede
VERONA
Periodo
A.A. 20/21 dottorato dal 1-ott-2020 al 30-set-2021.

Orario lezioni

Vai all'orario delle lezioni

Obiettivi formativi

Il corso offre una panoramica dei concetti fondamentali dei sistemi di calcolo distribuito che trattano dataset molto grandi, insieme ai paradigmi di programmazione adottati da questi sistemi. In particolare, verrà discusso il paradigma MapReduce e la sua implementazione in Spark. Inoltre, verranno presentati gli aspetti di sistema del calcolo distribuito, comprese le architetture dei data center e le soluzioni per l'archiviazione di dataset così grandi.

Programma

- Introduzione ai BigData
- Il paradigma di programmazione MapReduce
- Apache Hadoop e Apache Spark
- Non-relational databases
- Architetture dei datacenter

Testi di riferimento
Autore Titolo Casa editrice Anno ISBN Note
Jimmy Lin, Chris Dyer Data-Intensive Text Processing with MapReduce (Edizione 1) Morgan & Claypool Publishers 2010 978-1608453429
Tom White Hadoop: The Definitive Guide (Edizione 3) Oreilly & Associates Inc 2012 978-1449311520

Modalità d'esame

L'esame consiste nello svolgimento di un progetto in cui vengono applicati i principi presentati a lezione.