5 results on '"universal dependencies"'
Search Results
2. Recursos linguísticos para o PLN específico de domínio: o Petrolês
- Author
-
Cláudia Freitas, Elvis Sousa, Maria Clara Castro, Tatiana Cavalcanti, Patricia Ferreira da Silva, and Fábio Corrêa Cordeiro
- Subjects
entidades mencionadas ,ontologia geológica ,dependências sintáticas ,dependências universais ,universal dependencies ,corpus padrão ouro ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.
- Published
- 2023
- Full Text
- View/download PDF
3. Manual de anotação como recurso de Processamento de Linguagem Natural
- Author
-
Magali Duran, Maria das Graças Volpe Nunes, Lucelene Lopes, and Thiago Alexandre Salgueiro Pardo
- Subjects
corpora anotados ,manual de anotação ,universal dependencies ,árvores de dependência ,português brasileiro ,Language and Literature ,Philology. Linguistics ,P1-1091 - Abstract
Com o avanço da área de Processamento de Linguagem Natural (PLN), corpora são recursos que têm tido um lugar de destaque. Mais do que subsidiar estudos linguísticos, eles constituem as bases para o treinamento de modelos de Aprendizagem de Máquina e para o desenvolvimento de aplicações computacionais de ponta. Particularmente, há grande necessidade de corpora anotados, porém sua geração requer outro recurso essencial, o manual de anotação, que instancia o modelo de anotação de interesse para a língua em questão e delineia as decisões de anotação que devem ser adotadas. Neste artigo, exploramos questões relacionadas ao desenvolvimento de manuais para a anotação de corpus em português brasileiro segundo o modelo internacional Universal Dependencies, amplamente adotado na área. Partimos da discussão da evolução do PLN e o uso de corpora, passamos pelas questões, recursos e ferramentas fundamentais relacionados à representação sintática, discutimos o modelo Universal Dependencies e apresentamos as principais decisões tomadas na instanciação de suas diretrizes no português brasileiro. Por questões práticas e de didática, dividimos o manual em duas partes: o Manual de Anotação de PoS tags (anotação morfossintática) e o Manual de Anotação Relações de Dependência. Ambos foram resultado do processo relatado neste artigo e estão disponíveis para livre acesso no site do projeto POeTiSA na Web.
- Published
- 2022
- Full Text
- View/download PDF
4. Toward the morpho-syntactic annotation of an Old English corpus with universal dependencies
- Author
-
Javier Martín Arista
- Subjects
universal dependencies ,treebanks ,syntactic annotation ,old english ,Philology. Linguistics ,P1-1091 - Abstract
The aim of this article is to take the first steps toward the compilation of a treebank of Old English compatible with the framework of Universal Dependencies (UD). Such a treebank will comprise morphological and syntactic annotation of Old English texts adequate for cross-linguistic comparison, diachronic analysis and natural language processing. The article, therefore, engages in four tasks: (i) identifying the Old English exponents of UD lexical categories; (ii) selecting the Old English exponents of UD morphological features; (iii) finding the areas of Old English morphology that require token indexing in the UD format; and (iv) checking on the relevance of the universal set of dependency relations. The data have been extracted from ParCorOEv2, an open access annotated parallel corpus Old English-English. The main conclusions are that the annotation format calls for two additional fields (gloss and morphological relatedness) and that enhanced dependencies are required in order to account for some syntactic phenomena.
- Published
- 2022
- Full Text
- View/download PDF
5. Language technologies for opinion analysis in social networks
- Author
-
Vilares Ferro, Manuel, Sánchez Trigo, Elena, Gómez Rodríguez, Carlos, and Alonso Pardo, Miguel Ángel
- Subjects
Opinion mining ,Parsing ,Sentiment analysis ,Universal dependencies ,Análisis sintáctico ,Análisis del sentimiento ,Lenguajes y Sistemas Informáticos ,Minería de opiniones ,Dependencias universales - Abstract
La reciente popularización de los medios web de comunicación social basados en microtextos, entre los que destaca Twitter, ha permitido globalizar la expresión de opiniones. Aunque los microtextos presentan características léxicas y sintácticas propias respecto al lenguaje estándar, ciertos aspectos básicos del lenguaje han de ser respetados para resultar legibles. En este proyecto proponemos explotar este hecho para obtener una mejora del soporte lingüístico integrado en el tratamiento de microtextos en nuestro ámbito de interés natural, el español y el gallego. Para ello será preciso mejorar el rendimiento de las técnicas actuales de análisis sobre texto estándar, diseñar mecanismos de adaptación a microtextos de aquellos modelos y métodos de análisis que son más efectivos en lenguaje estándar; y realizar una proyección de modelos, métodos y recursos efectivos en otras lenguas. The recent popularization of social media based on microtexts, among which Twitter stands out, has enabled a globalization of the expression of opinions. Although microtexts present some specific lexical and syntactic properties that differ from those of standard text, certain basic aspects of language must be respected so that they are intelligible. In this project, we propose to exploit this fact in order to improve the linguistic support for processing microtexts in our natural sphere of interest: the Spanish and Galician languages. To do so, it will be necessary to improve the performance of current parsing and analysis techniques on standard text, to design mechanisms so that models and methods effective for analyzing standard language can be adapted to microtexts, and to project effective models, methods and resources across languages.
- Published
- 2017
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.