Back to Search
Start Over
Desarrollo de un modelo de Procesamiento del Lenguaje Natural para la extracción de información en documentos del dominio de la salud
- Publication Year :
- 2023
-
Abstract
- En la actualidad existen múltiples modelos de inteligencia artificial centrados en la detección de entidades nombradas, que son capaces de detectar una amplia variedad de aspectos. En este trabajo, se centran esos aspectos a enfermedades raras, detectándolas en textos del ámbito clínico. Todos esos textos clínicos son resúmenes de documentos científicos publicados en PubMed. De las enfermedades, no solo se detectarán sus nombres en sí, sino que se quieren detectar una amplia variedad de aspectos relacionados con esas enfermedades, como por ejemplo, sus causas, tratamientos, diagnósticos... Todos esos aspectos se clasificarán en una serie de categorías. Las anotaciones del modelo se generarán, en primera instancia, de forma automática, usando la herramienta Metathesaurus, contenida dentro de UMLS, un sistema de lenguaje médico. Metathesaurus contiene más de 3 millones de conceptos, siendo la inmensa mayoría del ámbito clínico. Además, cuenta con una serie de categorías ya definidas, y con los conceptos clasificados en estas categorías. Para cada texto, se cuenta con un archivo txt que contiene el texto y un archivo ann que contiene sus anotaciones. Esas anotaciones se encuentran definidas en formato BRAT, un formato de anotación que permite después visualizarlas de forma fácil, modificarlas y crear nuevas. Para cada anotación, se especifica el inicio, final, la categoría a la que pertenece y las palabras o grupos de palabras sobre las que se aplica. Una vez se cuenta con esas anotaciones, es posible revisarlas manualmente para que el corpus sea de la mayor calidad posible, pero al tener una base ya de anotaciones, esta tarea será más ágil. La clasificación que se debe de realizar es compleja, ya que contiene bastantes categorías, además de que cada palabra (o grupos de palabras) pueden pertenecer a la vez a varias clases, por lo que las anotaciones se pueden superponer tanto de forma estricta (mismo inicio y final) como de forma parcial. Para la obtención del modelo
Details
- Database :
- OAIster
- Publication Type :
- Electronic Resource
- Accession number :
- edsoai.on1394214333
- Document Type :
- Electronic Resource