Lo scopo del tirocinio è di aggiungere alla treebank VIT uno strato di annotazione che arricchisce gli alberi sintattici secondo linee guida predefinite.
Le Universal Dependencies (UD) sono diventate uno standard di fatto per l’annotazione morfo-sintattica cross-lingua. Per la lingua italiana abbiamo contribuito al progetto UD con tre risorse (collezioni di alberi a dipendenze), tra cui VIT, ottenuta per conversione dalla Venice Italian Treebank, è quella più recente e meno collaudata.
Il processo consiste principalmente nell’utilizzo e adattamento di script di conversione scritti in Python, seguiti da revisioni “manuali” mediante strumenti visuali di annotazione e infine verifiche con script di validazione già disponibili.
Alla fine del tirocinio lo studente avrà acquisito consapevolezza dell’importanza di risorse correttamente annotate nell’ambito delle tecnologie del linguaggio e delle principali tecniche per la loro produzione in maniera semi-automatica.
Il lavoro può essere svolto completamente a distanza.Ci possono essere estensioni del lavoro per un progetto di laurea triennale.
Riderimento: Maria Simi (simi@di.unipi.it)