Il progetto consiste nella progettazione e integrazione di nuove componenti avanzati a un sistema innovativo di Elaborazione del Linguaggio Naturale (NLP), basate sui recenti modelli Transformer. Questi modelli stanno recentemente sostituendo quelli classici basati su Reti Neurali Ricorrenti (RNN), permettendo un più alto grado di parallelizzazione e rendendo possibile l'addestramento su data sets più ampi.
Il lavoro iniziale è consistito nel confronto di questi modelli con le tecniche più classiche. In questo progetto viene completato il lavoro di selezione e valutazione dei modelli più adatto a una varietà di problemi di vari domini e settori.
L'ambito del progetto include anche la valutazione di modelli di dimensione ridotta, per migliorare prestazioni e applicabilità, ed estendere la gamma di problemi gestibili, con uso ridotto di risorse, sfruttando soluzioni note come "distillazione" e "pruning", ecc., ma anche applicando soluzioni ibride che combinino i modelli con approcci simbolici basati su regole.
Il progetto tratta sia testi puri che documenti strutturati, per cercare di applicare le tecniche alle due fasi dell'analisi documentale: la comprensione della struttura/layout e del contenuto testuale effettivo.
Aree di ricerca coinvolte dal progetto | |
---|---|
Sistemi informativi ed analisi dei dati
Information systems applications |
******** CSS e script comuni siti DOL - frase 9957 ********p>