Mining massive datasets (2020/2021)

Codice insegnamento
4S009068
Docente
Damiano Carra
Coordinatore
Damiano Carra
crediti
6
Settore disciplinare
ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Lingua di erogazione
Inglese
Sede
VERONA
Periodo
II semestre dal 1-mar-2021 al 11-giu-2021.

Orario lezioni

Vai all'orario delle lezioni

Obiettivi formativi

Il corso si propone di presentare le principali soluzioni algoritmiche per l'analisi e l'estrazione di informazione da grandi moli di dati. Viene data particolare enfasi agli approcci distribuiti e agli algoritmi paralleli.

Al termine del corso lo studente dovrà dimostrare di:

● avere acquisito le conoscenze necessarie per la progettazione di algoritmi per l'analisi di dati non strutturati e l'interpretazione dei risultati
● saper sviluppare analisi costi/benefici dei modelli di analisi dati sviluppati
● saper confrontare diverse tecniche di analisi dei dati, scegliendo tra queste la più adeguata a seconda delle risorse di calcolo a disposizione e di progettare in modo appropriato soluzioni innovative
● avere le basi per proseguire gli studi in modo autonomo nell’ambito dello sviluppo di analisi avanzate di grandi moli di dati.

Programma

- Introduzione al Data Mining
- Finding Similar Items
- Mining Data Streams
- Frequent Itemsets
- Clustering
- Recommendation Systems
- Mining Social-Network Graphs
- Large-Scale Machine Learning

Testi di riferimento
Autore Titolo Casa editrice Anno ISBN Note
Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets (Edizione 3) Cambridge University Press 2020 9781108476348 Book freely available at http://www.mmds.org/

Modalità d'esame

L'esame consiste nello svolgimento di un progetto e relativa documentazione. Obiettivo del progetto è quello di accertare la comprensione dei contenuti del corso e la capacità di applicare tali contenuti nella risoluzione di problemi. Il tema del progetto viene concordato con il docente e riguarda l'applicazione delle nozioni viste durante il corso in casi di studio specifici. Lo svolgimento del progetto include la valutazione delle prestazioni al variare delle dimensioni dell'input da analizzare, nonché la valutazione delle possibili alternative implementative. Dopo una valutazione della documentazione, è possibile sostenere una prova orale in cui viene discusso il progetto stesso.