Studio e sviluppo di metodi di addestramento non-supervisionato e auto-supervisionato, multimodale, e di adattamento al dominio e distillazione, per l’analisi del comportamento umano in applicazioni automotive

Data inizio
14 settembre 2021
Durata (mesi) 
24
Dipartimenti
Informatica
Responsabili (o referenti locali)
Murino Vittorio

Computer Vision (CV) e Machine Learning (ML) hanno recentemente ricevuto un'enorme attenzione sia nel campo della ricerca che in quello industriale. La visione è infatti la modalità di percezione più diffusa per i sistemi autonomi nella robotica e in molte altre applicazioni industriali. Tuttavia, i moderni sistemi di visione non sono solo sistemi di percezione complessi, ma dovrebbero possedere abilità intelligenti. Dovrebbero essere in grado di affrontare scenari del mondo reale, ovvero comprendere scene reali. Comprendere una scena significa essenzialmente capire quali oggetti sono al suo interno, riconoscere i comportamenti delle persone e gli eventi dinamici che si verificano, classificare le attività, prevedere eventi, ricostruire l'ambiente 3D, ecc., sfruttando le diverse fonti di dati disponibili, che dipendono per lo più dalla specifica applicazione. In effetti, l'urgenza di risolvere il problema della comprensione della scena è in forte crescita date le numerose applicazioni del mondo reale che possono essere affrontate , come, ad esempio la guida autonoma o la video sorveglianza, per citarne alcuni. Tali capacità intelligenti sono trasversali a molte aree e, come tali, hanno un forte impatto su diversi domini applicativi legati alla robotica, alla biomedicina, alla finanza e molti altri. L'incredibile progresso di tali campi di ricerca è stato reso possibile, da un lato, dall'enorme quantità di dati visivi e di altro tipo ora disponibili per addestrare i classificatori ad affrontare problemi ritenuti molto difficili, se non impossibili, da risolvere solo pochi anni fa. Ciò è a sua volta dovuto alla maggiore disponibilità di sensori, alla loro accessibilità e ai costi ridotti. D'altra parte, questo regime di "big data" sta diventando più praticabile, principalmente grazie allo sviluppo di metodi di deep learning che, insieme alla maggiore efficacia dell'hardware (GPU), possono rendere questo tipo di analisi più gestibile rispetto al passato. Inoltre, mirando al dispiegamento di sistemi computazionali nel mondo reale, è chiaro che sono generalmente necessarie più modalità sensoriali per far fronte in modo efficace ed efficiente alla variabilità delle situazioni che si possono affrontare. Sebbene sia possibile ottenere prestazioni elevate grazie ai dati etichettati su larga scala, ci sono ancora domande aperte impegnative per far fronte effettivamente a domini applicativi che funzionano efficacemente in natura, su come i sistemi computazionali possono adattarsi a nuovi ambienti, scenari e attività, o quando nessuno o molto poche informazioni sono disponibili a priori. Infatti, nonostante l'attuale regime dei big data, nel mondo reale la disponibilità di dati annotati affidabili non è sempre garantita, a causa dell'elevato costo di annotazione o della difficoltà intrinseca di recuperare i dati (ad esempio, complessità di acquisizione dei dati, riservatezza dei dati, etica problemi, ecc.). Quindi, soprattutto oggigiorno è importante indagare argomenti relativi all'apprendimento con dati scarsi, il che significa occuparsi della progettazione di modelli di apprendimento quando abbiamo (quantità variabili di) dati ben annotati, dati con etichette rumorose, solo dati non etichettati, dati sbilanciati , o un mix degli scenari precedenti. In questo contesto, possono essere indagati una serie di temi scientifici interconnessi e di lungo periodo, che pongono questioni impegnative e ancora aperte, sia in termini teorici che pratici. Loro sono: • Apprendimento non supervisionato e auto-supervisionato • Apprendimento semi-supervisionato • Apprendimento in scenari caratterizzati da distribuzione anomale dei dati • Apprendimento con pochi campioni per classe • Adattamento e generalizzazione del dominio, Transfer Learning • Apprendimento multimodale Questi argomenti non sono domini indipendenti, ma piuttosto una sorta di continuum, che possono avvantaggiarsi a vicenda per risolvere problemi aperti reali. Essi costituiscono aspetti cruciali per ogni algoritmo di apprendimento, e in particolare per la Computer Vision che mira a iniettare capacità di intelligenza in sistemi di percezione complessi.

Enti finanziatori:

eVS Embedded Vision Systems S.r.l.
Finanziamento: assegnato e gestito dal Dipartimento

Partecipanti al progetto

Vittorio Murino
Professore ordinario

Attività

Strutture

Condividi