Oltre il paradigma Bag of Words: una prospettiva strutturale e statistica

Data inizio
1 marzo 2017
Durata (mesi) 
24
Dipartimenti
Informatica
Responsabili (o referenti locali)
Bicego Manuele

Negli ultimi anni, molti problemi di Pattern Recognition sono stati affrontati attraverso la
rappresentazione "Bag of Words" (BoW). In questo approccio l'oggetto da rappresentare
è caratterizzato dalla presenza di elementi costituenti chiamati "word" o "parole".
Assumendo che tutte le possibili parole siano contenute in un dizionario, la
rappresentazione BoW di un oggetto si ottiene contando il numero di occorrenze di ogni
parola del dizionario nell'oggetto. Questo paradigma è stato introdotto per l'analisi di
testi, scenario dove tutti gli ingredienti della rappresentazione hanno un chiaro significato
(parole, documenti, dizionario). Successivamente, esso è stato esportato in numerosi
campi della ricerca scientifica, diventando una rappresentazione standard di riferimento.
In alcuni casi, tuttavia, l'applicazione pedissequa di questo paradigma ha portato a
situazioni degeneri: infatti, non sempre i concetti e le metodologie della rappresentazione
BoW hanno un'istanziazione naturale. Ad esempio, in alcuni casi è impossibile definire in
modo naturale i concetti di “parola” o “dizionario”; in altri le definizioni standard non
sono adeguate per catturare tutte le possibili sfaccettature del problema o addirittura
possono portare alla distruzione dell'informazione contenuta nei dati.
Partendo da queste considerazioni, questo progetto mira a riesaminare in modo critico il
paradigma di rappresentazione BoW, descrivendo e analizzando alcune possibili carenze
strutturali e proponendo soluzioni alternative. L'attenzione sarà principalmente rivolta
alle definizioni fondamentali di questo paradigma (come la definizione della word, la
procedura di conteggio e la definizione del dizionario); verrà inoltre indagata in maniera
approfondita la questione dell'incertezza legata a queste fasi, derivante dal fatto che
alcune parole possano essere più o meno importanti di altre. Per far questo è necessario
derivare nuove metodologie BoW, non ancora presenti nella letteratura.

Partecipanti al progetto

Manuele Bicego
Professore associato

Attività

Strutture

Condividi