Estrazione di informazioni da sottotitoli

Rivolto a: studenti magistrali di Informativa Umanistica (percorso Tecnologie del linguaggio) o studenti della triennale di Informatica Umanistica.

Il tirocinio è inquadrato nell’ambito del progetto PH-Remix che si propone di sviluppare una piattaforma per l’estrazione di frammenti video e loro descrizione sulla base di metadati e contenuti estratti con tecniche di AI da un archivio video e un ambiente web di “remix” per il recupero e la composizione di nuovi video a partire dalle clip recuperate.

Il tirocinio  si propone di migliorare la componente di analisi del linguaggio naturale che consiste nell’estrarre il testo dei sottotitoli impressi nei film mediante OCR (Optical Character Recognition) allo scopo di associare ai frammenti opportuni descrittori ai fini della ricerca mediante parole chiave.  A questo scopo saranno utilizzate varie tecniche di NLP (Natural Language Processing) tra cui la principale consiste nell’usare NER (Named-Entity recognition) per localizzare e classificare entità nominate all’interno del sottotitolo estratto. Lo scopo sarà quello di migliorare la ricerca di frammenti video all’interno della piattaforma PH-remix, creando nuove ‘modalità’ di ricerca per contenuto basate sul testo.

Il tirocinante sarà inserito nel team del progetto PH-Remix, che comprende tre assegnisti di ricerca.

Il tirocinio potrebbe svilupparsi in una tesi di laurea

Per maggiori informazioni: Maria Simi