Oltre il paradigma Bag of Words: una prospettiva strutturale e statistica-Dip.Informatica-Università degli Studi di Verona

Segui su

Data inizio: 1 marzo 2017
Durata (mesi): 24
Dipartimenti: Informatica
Responsabili (o referenti locali): Bicego Manuele

Negli ultimi anni, molti problemi di Pattern Recognition sono stati affrontati attraverso la
rappresentazione "Bag of Words" (BoW). In questo approccio l'oggetto da rappresentare
è caratterizzato dalla presenza di elementi costituenti chiamati "word" o "parole".
Assumendo che tutte le possibili parole siano contenute in un dizionario, la
rappresentazione BoW di un oggetto si ottiene contando il numero di occorrenze di ogni
parola del dizionario nell'oggetto. Questo paradigma è stato introdotto per l'analisi di
testi, scenario dove tutti gli ingredienti della rappresentazione hanno un chiaro significato
(parole, documenti, dizionario). Successivamente, esso è stato esportato in numerosi
campi della ricerca scientifica, diventando una rappresentazione standard di riferimento.
In alcuni casi, tuttavia, l'applicazione pedissequa di questo paradigma ha portato a
situazioni degeneri: infatti, non sempre i concetti e le metodologie della rappresentazione
BoW hanno un'istanziazione naturale. Ad esempio, in alcuni casi è impossibile definire in
modo naturale i concetti di “parola” o “dizionario”; in altri le definizioni standard non
sono adeguate per catturare tutte le possibili sfaccettature del problema o addirittura
possono portare alla distruzione dell'informazione contenuta nei dati.
Partendo da queste considerazioni, questo progetto mira a riesaminare in modo critico il
paradigma di rappresentazione BoW, descrivendo e analizzando alcune possibili carenze
strutturali e proponendo soluzioni alternative. L'attenzione sarà principalmente rivolta
alle definizioni fondamentali di questo paradigma (come la definizione della word, la
procedura di conteggio e la definizione del dizionario); verrà inoltre indagata in maniera
approfondita la questione dell'incertezza legata a queste fasi, derivante dal fatto che
alcune parole possano essere più o meno importanti di altre. Per far questo è necessario
derivare nuove metodologie BoW, non ancora presenti nella letteratura.

Partecipanti al progetto

Manuele Bicego: Professore associato

Strada le Grazie 15
37134 Verona
Partita IVA01541040232
Codice Fiscale93009870234

Segui su

Play store Apple Store

Presentazione

Organizzazione

Riferimenti

La ricerca in breve

Attività di ricerca

Strutture

Corsi di Studio

Dottorati, Master e Formazione superiore

Servizi per la didattica

Informazioni per il territorio

Servizi per il territorio

Riferimenti

Oltre il paradigma Bag of Words: una prospettiva strutturale e statistica

Attività

Aree di ricerca

Gruppi di ricerca

Dottorati di Ricerca

Strutture

Biblioteche

Centri

Laboratori

Spin off e Aziende

Partecipanti al progetto

Attività

Aree di ricerca

Gruppi di ricerca

Dottorati di Ricerca

Strutture

Biblioteche

Centri

Laboratori

Spin off e Aziende