Grammatical error correction for Spanish health records

Authors :: Barcelona Supercomputing Center
Lima López, Salvador
Perez, Naiara
Cuadros, Montse
Barcelona Supercomputing Center
Lima López, Salvador
Perez, Naiara
Cuadros, Montse
Publication Year :: 2021
Abstract: This paper describes the first approach to Grammatical Error Correction for Spanish health records. We present a series of experiments using neural networks and data augmentation, achieving 70.89 F0.5 score. Resources designed for this task are introduced, namely the IMEC corpus of corrected health records and the TMAE corpus of clinical texts augmented with errors. | Este artículo presenta el primer trabajo sobre la corrección gramatical de textos clínicos en español. En este trabajo, presentamos un conjunto de experimentos basados en redes neuronales y aumentación de datos, en los cuales conseguimos una puntuación de 70,89 F0,5. Además, se presentan dos corpus creados para esta tarea: el corpus IMEC, un corpus médico corregido manualmente, y el corpus TMAE, un corpus de textos clínicos aumentado con errores.<br />This work has been supported by Vicomtech and partially funded by the projects DeepText (KK-2020-00088, SPRI, Basque Government) and DeepReading (RTI2018-096846-B-C21, MCIU/AEI/FEDER, UE). We also want to thank Olatz Pérez de Viñaspre, who has collaborated in the research behind this article and whose contributions have been essential.<br />Peer Reviewed<br />Postprint (published version)

Tools