Back to Search
Start Over
PoS Taggers in the Wild: A Case Study with Swiss Italian Student Essays
- Publication Year :
- 2018
- Publisher :
- Accademia University Press, 2018.
-
Abstract
- State-of-the-art Part-of-Speech taggers have been thoroughly evaluated on standard Italian. To understand how Part-of-Speech taggers that have been pretrained on standard Italian fare with a wide array of language anomalies, we evaluate five Part-of-Speech taggers on a corpus of student essays written throughout the largest Italian-speaking area outside of Italy. Our preliminary results show that there is a significant gap between their performance on non-standard Italian and on standard Italian, and that the performance loss mainly comes from relatively subtle tagging errors within morphological categories as opposed to coarse errors across categories. Gli strumenti di Part-of-Speech tagging più rappresentativi dello stato dell’arte sono stati analizzati a fondo con l’italiano standard. Per capire come strumenti pre-addestrati sull’italiano standard si comportano in presenza di un’ampia gamma di anomalie linguistiche, analizziamo le prestazioni di cinque strumenti su di un corpus di elaborati redatti da studenti della scuola dell’obbligo nella Svizzera Italiana. I nostri risultati preliminari mostrano che esiste un notevole divario tra le prestazioni sull’italiano nonstandard e quelle sull’italiano standard, e che la perdita di prestazioni deriva principalmente da errori di tagging relativamente sottili all’interno delle categorie grammaticali.
- Subjects :
- traitement de texte
language
tecnologia
tecnology
langue
linguaggio
traitement du langage naturel
artificial intelligence
elaborazione del linguaggio naturale
Computational Linguistics
digital humenities
linguistique computationelle
intelligence artificielle
text processing
linguistica computazionale
umanistica digitale
natural language processing
intelligenza artificiale
elaborazione del testo
technologie
Subjects
Details
- Language :
- English
- Database :
- OpenAIRE
- Accession number :
- edsair.openedition...54b3b2951a2ee0881183b5e23d4cb210