BeBoW - Oltre il paradigma Bag of Words: una prospettiva strutturale e statistica

Data inizio
1 marzo 2017
Durata (mesi) 
24
Dipartimenti
Informatica
Responsabili (o referenti locali)
Bicego Manuele

Negli ultimi anni, molti problemi di Pattern Recognition sono stati affrontati attraverso la rappresentazione "Bag of Words" (BoW). In questo approccio l'oggetto da rappresentare è caratterizzato dalla presenza di elementi costituenti chiamati "word" o "parole".
Assumendo che tutte le possibili parole siano contenute in un dizionario, la rappresentazione BoW di un oggetto si ottiene contando il numero di occorrenze di ogni parola del dizionario nell'oggetto. Questo paradigma è stato introdotto per l'analisi di testi, scenario dove tutti gli ingredienti della rappresentazione hanno un chiaro significato (parole, documenti, dizionario). Successivamente, esso è stato esportato in numerosi campi della ricerca scientifica, diventando una rappresentazione standard di riferimento.
In alcuni casi, tuttavia, l'applicazione pedissequa di questo paradigma ha portato a situazioni degeneri: infatti, non sempre i concetti e le metodologie della rappresentazione BoW hanno un'istanziazione naturale. Ad esempio, in alcuni casi è impossibile definire in modo naturale i concetti di “parola” o “dizionario”; in altri le definizioni standard non sono adeguate per catturare tutte le possibili sfaccettature del problema o addirittura possono portare alla distruzione dell'informazione contenuta nei dati.
Partendo da queste considerazioni, questo progetto mira a riesaminare in modo critico il paradigma di rappresentazione BoW, descrivendo e analizzando alcune possibili carenze strutturali e proponendo soluzioni alternative. L'attenzione sarà principalmente rivolta alle definizioni fondamentali di questo paradigma (come la definizione della word, la procedura di conteggio e la definizione del dizionario); verrà inoltre indagata in maniera approfondita la questione dell'incertezza legata a queste fasi, derivante dal fatto che alcune parole possano essere più o meno importanti di altre. Per far questo è necessario derivare nuove metodologie BoW, non ancora presenti nella letteratura.

Enti finanziatori:

Finanziamento: assegnato e gestito dal Dipartimento

Partecipanti al progetto

Manuele Bicego
Professore associato
Pietro Lovato
Professore a contratto
Aree di ricerca coinvolte dal progetto
Sistemi intelligenti
Machine learning

Attività

Strutture

Condividi