111 results on '"Martí Antonín, Maria Antònia"'
Search Results
2. MISMIS: Misinformation and Miscommunication in social media: aggregating information and analysing language
- Author
-
Rosso, Paolo, Casacuberta Nolla, Francisco, Gonzalo Arroyo, Julio, Plaza Morales, Laura, Carrillo-de-Albornoz, Jorge, Amigó Cabrera, Enrique, Verdejo Maillo, María Felisa, Taulé Delor, Mariona, Salamó Llorente, Maria, Martí Antonín, Maria Antònia, Rosso, Paolo, Casacuberta Nolla, Francisco, Gonzalo Arroyo, Julio, Plaza Morales, Laura, Carrillo-de-Albornoz, Jorge, Amigó Cabrera, Enrique, Verdejo Maillo, María Felisa, Taulé Delor, Mariona, Salamó Llorente, Maria, and Martí Antonín, Maria Antònia
- Abstract
The general objectives of the project are to address and monitor misinformation (biased and fake news) and miscommunication (aggressive language and hate speech) in social media, as well as to establish a high quality methodological standard for the whole research community (i) by developing rich annotated datasets, a data repository and online evaluation services; (ii) by proposing suitable evaluation metrics; and (iii) by organizing evaluation campaigns to foster research on the above issues., Los objetivos generales del proyecto son abordar y monitorizar la desinformación (noticias sesgadas y falsas) y la mala comunicación (lenguaje agresivo y mensajes de odio) en los medios de comunicación social, así como establecer un estándar metodológico de calidad para toda la comunidad investigadora mediante: i) el desarrollo de datasets anotados, un repositorio de datos y servicios de evaluación online; ii) la propuesta de métricas de evaluación adecuadas; y iii) la organización de campañas de evaluación para fomentar la investigación sobre las cuestiones mencionadas.
- Published
- 2020
3. Negation in Spanish: analysis and typology of negation patterns
- Author
-
Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Nofre, Montserrat, Marsó, Laia, Martín Valdivia, María Teresa, and Jiménez Zafra, Salud M.
- Subjects
Negación ,Tipos de negación ,Sentiment analysis ,Polarity annotation ,Scope ,Lenguajes y Sistemas Informáticos ,Corpus annotation ,Anotación de corpus ,Anotación de la polaridad ,Negation ,Análisis de opiniones - Abstract
En este artículo se presentan los criterios aplicados para la anotación del corpus SFU ReviewSP-NEGcon negación y la tipología lingüística correspondiente. Esta tipología presenta la ventaja de ser fácilmente expresable en términos de un tagset para la anotación de corpus, de presentar tipos claramente delimitados, evitando así la ambigüedad en el proceso de anotación, y de presentar una amplia cobertura, es decir, que ha servido para resolver todos los casos que han aparecido. El corpus contiene 400 comentarios y 198.551 palabras. Actualmente está anotado en un 75% y, de un total de 6.331 oraciones revisadas, se han identificado 2.953 estructuras de negación. In this paper we present the criteria applied for the annotation of the SFU ReviewSP-NEGcorpus and the corresponding linguistic typology. This typology has the advantage that it is easy to express in terms of a tagset for corpus annotation: the types are clearly defined, which avoid the ambiguity in the annotation process, and they present a wide coverage (i.e. they covered/solved all the cases occurring in the corpus). The corpus consists of 400 reviews and 198,551 words. Currently, we have annotated 75% and from a total of 6,331 annotated sentences 2,953 contain at least one negation. Financiado por fondos FEDER, los proyectos: TIN2015-65136-C2-1-R y TIN2015-71147-C2-2 del MINECO y FPU014/00983 del MECD.
- Published
- 2016
4. Comparing Distributional Semantics Models for identifying groups of semantically related words
- Author
-
Kovatchev, Venelin, Salamó Llorente, Maria, Martí Antonín, Maria Antònia, Kovatchev, Venelin, Salamó Llorente, Maria, and Martí Antonín, Maria Antònia
- Abstract
Distributional Semantic Models (DSM) are growing in popularity in Computational Linguistics. DSM use corpora of language use to automatically induce formal representations of word meaning. This article focuses on one of the applications of DSM: identifying groups of semantically related words. We compare two models for obtaining formal representations: a well known approach (CLUTO) and a more recently introduced one (Word2Vec). We compare the two models with respect to the PoS coherence and the semantic relatedness of the words within the obtained groups. We also proposed a way to improve the results obtained by Word2Vec through corpus preprocessing. The results show that: a) CLUTO outperformsWord2Vec in both criteria for corpora of medium size; b) The preprocessing largely improves the results for Word2Vec with respect to both criteria., Los Modelos de Semántica Distribucional (MSD) están siendo utilizados de manera extensiva en el área de la Lingüística Computacional. Los MSD utilizan corpus de uso de la lengua para inducir de manera automática diferentes tipos de representaciones sobre el significado de las palabras. Este artículo se centra en una de las aplicaciones de los MSD: la identificación de grupos de palabras semánticamente relacionadas. Se comparan dos modelos de obtención de representaciones formales: CLUTO, una herramienta estándar de clusterización y Word2Vec, una aproximación reciente al tema. Comparamos los resultados obtenidos con ambos modelos basándonos en dos criterios: la coherencia que presentan estas agrupaciones respecto de la categoría morfosintáctica y la cohesión semántica entre las palabras dentro de cada grupo. Se propone también como mejorar los resultados obtenidos con Word2Vec mediante su preprocesamiento morfosintáctico. Los resultados obtenidos demuestran que: a) CLUTO supera a Word2Vec en ambos criterios cuando se trata de corpus de tamaño medio: b) el preprocesamiento mejora de manera clara los resultados obtenidos con Word2Vec para ambos criterios.
- Published
- 2016
5. SomEMBED: Comprensión del lenguaje en los medios de comunicación social-Representando contextos de forma continua
- Author
-
Rosso, Paolo, Paredes, Roberto, Taulé Delor, Mariona, Martí Antonín, Maria Antònia, Rosso, Paolo, Paredes, Roberto, Taulé Delor, Mariona, and Martí Antonín, Maria Antònia
- Abstract
SomEMBED es un proyecto coordinado en el que participan el centro de investigación Pattern Recognition and Human Language Technology (PRHLT) de la Universitat Politècnica de València (UPV) y el grupo de investigación Centre de Llenguatge i Computació (CLiC) de la Universitat de Barcelona. Se trata de un proyecto del programa de I+D (TIN2015-71147) financiado por el Ministerio de Economía y Competitividad. Paolo Rosso coordina el proyecto SomEMBED y lidera el subproyecto SomEMBED-APP y Mariona Taulé lidera el subproyecto SomEMBED-SLang., SomEMBED is a coordinated project involving the research center of Pattern Recognition and Human Language Technology (PRHLT) of the Universitat Politècnica de València and the research group of Centre de Llenguatge i Computació (CliC) of the Universitat de Barcelona. This is an R&D project (TIN2015-71147) funded by the Spanish Ministry of Economy and Competitiveness. Paolo Rosso coordinates the SomEMBED project and leads the subproject SomEMBED-APP and Mariona Taulé leads the SomEMBED-SLang subproject.
- Published
- 2016
6. La negación en español: análisis y tipología de patrones de negación
- Author
-
Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Nofre, Montserrat, Marsó, Laia, Martín Valdivia, María Teresa, Jiménez Zafra, Salud M., Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Nofre, Montserrat, Marsó, Laia, Martín Valdivia, María Teresa, and Jiménez Zafra, Salud M.
- Abstract
En este artículo se presentan los criterios aplicados para la anotación del corpus SFU ReviewSP-NEGcon negación y la tipología lingüística correspondiente. Esta tipología presenta la ventaja de ser fácilmente expresable en términos de un tagset para la anotación de corpus, de presentar tipos claramente delimitados, evitando así la ambigüedad en el proceso de anotación, y de presentar una amplia cobertura, es decir, que ha servido para resolver todos los casos que han aparecido. El corpus contiene 400 comentarios y 198.551 palabras. Actualmente está anotado en un 75% y, de un total de 6.331 oraciones revisadas, se han identificado 2.953 estructuras de negación., In this paper we present the criteria applied for the annotation of the SFU ReviewSP-NEGcorpus and the corresponding linguistic typology. This typology has the advantage that it is easy to express in terms of a tagset for corpus annotation: the types are clearly defined, which avoid the ambiguity in the annotation process, and they present a wide coverage (i.e. they covered/solved all the cases occurring in the corpus). The corpus consists of 400 reviews and 198,551 words. Currently, we have annotated 75% and from a total of 6,331 annotated sentences 2,953 contain at least one negation.
- Published
- 2016
7. Tecnologías del lenguaje
- Author
-
Martí Antonín, María Antonia and Martí Antonín, María Antonia
- Subjects
- Computational linguistics
- Published
- 2013
8. Polarity analysis of reviews based on the omission of asymmetric sentences
- Author
-
Roberto, John A., Salamó Llorente, Maria, Martí Antonín, Maria Antònia, Roberto, John A., Salamó Llorente, Maria, and Martí Antonín, Maria Antònia
- Abstract
In this paper, we present a novel approach to polarity analysis of product reviews which detects and removes sentences with the opposite polarity to that of the entire document (asymmetric sentences) as a previous step to identify positive and negative reviews. We postulate that asymmetric sentences are morpho-syntactically more complex than symmetric ones (sentences with the same polarity to that of the entire document) and that it is possible to improve the detection of the polarity orientation of reviews by removing asymmetric sentences from the text. To validate this hypothesis, we measured the syntactic complexity of both types of sentences in a multi-domain corpus of product reviews and contrasted three relevant data configurations based on inclusion and omission of asymmetric sentences from the reviews., En este artículo presentamos una aproximación novedosa para el tratamiento de la polaridad en comentarios sobre productos. Nuestro método se centra en identificar y eliminar las oraciones que tienen una polaridad opuesta a la del comentario (oraciones asimétricas) como paso previo a la identificación de los comentarios positivos y negativos. Nuestra hipótesis de partida es que las oraciones asimétricas son morfo-sintácticamente más complejas que las oraciones simétricas (oraciones con la misma polaridad que la del comentario) por lo que es posible mejorar la detección de la polaridad eliminado este tipo de oraciones del texto. Para validar esta hipótesis, hemos medido la complejidad sintáctica de ambos tipos de oraciones en diferentes dominios y hemos contrastado tres configuraciones de datos diferentes basadas en el uso y la omisión de las oraciones asimétricas.
- Published
- 2015
9. Analysis of lexical richness in the context of latent demographic user attributes classification
- Author
-
Roberto, John A., Martí Antonín, Maria Antònia, and Salamó Llorente, Maria
- Subjects
Riqueza léxica ,Categorización de textos ,Lexical richness ,Lenguajes y Sistemas Informáticos ,Recommender systems ,Text categorization ,Sistemas de recomendación - Abstract
En este artículo analizamos la utilidad que tiene el cálculo de la riqueza léxica para predecir atributos demográficos latentes en textos de opinión del español. Nuestro objetivo es determinar hasta qué punto la riqueza léxica permite predecir el sexo, la edad y la procedencia de los autores de este tipo de textos. Para ello hemos analizado 32 métricas de la riqueza léxica en 1911 textos de opinión previamente etiquetados con información demográfica. Esta aproximación tiene como principales ventajas la independencia del dominio y la reducción del coste computacional. In this paper we analyse the utility of Lexical richness estimations to predict latent user attributes shown in Spanish opinionated texts. Our aim is to establish how useful could be the Lexical richness to predict user’s gender, age and regional origin. Because of this goal, we applied 32 lexical richness measures to 1911 previously labeled texts with demographic information. This approach has the advantage that it is domain-independent with modest computational cost.
- Published
- 2012
10. AnCora-Net: multilingual integration of linguistic semantic resources
- Author
-
Taulé Delor, Mariona, Borrega Cepa, Oriol, and Martí Antonín, Maria Antònia
- Subjects
Estructura argumental ,Recurso léxico ,Multilingual resource ,Lenguajes y Sistemas Informáticos ,Semántica ,Lexical resource ,Argument structure ,Recurso multilingüe ,Semantics - Abstract
AnCora-Net es un léxico verbal multilingüe creado a partir de la integración de los léxicos verbales AnCora-Verb, del catalán y español, en el Unified Verb Index del inglés. El Unified Verb Index aúna diferentes fuentes de conocimiento del inglés de amplia cobertura que son sin duda un referente en representación semántica. La integración de nuestros recursos con los del inglés nos permite enriquecer el contenido de los léxicos AnCora-Verb con información semántica codificada para el inglés. Asimismo, el Unified Verb Index también se enriquece con la incorporación de los léxicos AnCora-Verb, del catalán y español, dando lugar a un recurso multilingüe que puede ser útil para estudios comparativos. AnCora-Net is a multilingual verbal lexicon built from the mapping of the Catalan and Spanish AnCora-Verb verbal lexicons into the English Unified Verb Index. The Unified Verb Index combines different sources of knowledge for English of wide coverage, which are a referent in semantic representation. The integration of our resources to the Unified Verb Index will enrich the contents of AnCora-Verb lexicons with semantic information coded for English. In the same way, the Unified Verb Index will be also related to equivalent verbs in another languages giving rise a multilingual resource that can be useful for comparative studies. Este trabajo ha sido posible gracias a los proyectos TEX-MESS 2.0 (TIN2009-13391-C04-04) y Araknion (FFI2010-114774-E) del Ministerio de Ciencia e Innovación.
- Published
- 2011
11. Paraphrase concept and typology: a linguistically based and computationally oriented approach
- Author
-
Vila Rigat, Marta, Martí Antonín, Maria Antònia, and Rodríguez Hontoria, Horacio
- Subjects
Límites de la paráfrasis ,Paraphrase boundaries ,Lenguajes y Sistemas Informáticos ,Tipología de paráfrasis ,Paraphrase typology ,Paráfrasis ,Paraphrasing - Abstract
En este artículo, se presenta un análisis crítico de la bibliografía sobre la definición de paráfrasis y su tipología. Dicho análisis pone de manifiesto que no existe una caracterización de la paráfrasis completa y lingüísticamente fundamentada que, al mismo tiempo, sea tratable computacionalmente. Se propone una definición y delimitación del concepto fundada sobre el contenido proposicional. Sobre esta base, se ha elaborado una tipología general, inclusiva y orientada al tratamiento computacional de los mecanismos lingüísticos que dan lugar a la variación en la forma de los pares parafrásticos. In this paper, we present a critical analysis of the state of the art in the definition and typologies of paraphrasing. This analysis shows that there exists no characterization of paraphrasing that is comprehensive, linguistically based and computationally tractable at the same time. The following sets out to define and delimit the concept on the basis of the propositional content. We present a general, inclusive and computationally oriented typology of the linguistic mechanisms that give rise to form variations between paraphrase pairs. This work is supported by the FPU grant AP2008-02185 from the Spanish Ministry of Education, and the Text-Knowledge 2.0 (TIN2009-13391-C04-04) and KNOW2 (TIN2009-14715-C04-04) projects from the Spanish Ministry of Science and Innovation.
- Published
- 2011
12. TextMess 2.0: Las Tecnologías del Lenguaje Humano ante los nuevos retos de la comunicación digital
- Author
-
Martínez Barco, Patricio, Martí Antonín, Maria Antònia, Ureña López, Luis Alfonso, Rosso, Paolo, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, and Procesamiento del Lenguaje y Sistemas de Información (GPLSI)
- Subjects
Opinion mining ,Análisis de sentimientos ,Sentiment analysis ,TLH ,HLT ,Registros del lenguaje ,Lenguajes y Sistemas Informáticos ,Sentimental analysis ,Language registers ,Minería de opiniones ,LENGUAJES Y SISTEMAS INFORMATICOS - Abstract
[ES] El objetivo general de este proyecto se centra en el estudio, desarrollo y experimentación de diferentes técnicas y sistemas basados en Tecnologías del Lenguaje Humano (TLH) para el desarrollo de la próxima generación de sistemas de procesamiento inteligente de la información digital (modelado, recuperación, tratamiento, comprensión y descubrimiento) afrontando los actuales retos de la comunicación digital. En este nuevo escenario, los sistemas deben incorporar capacidades de razonamiento que descubrirán la subjetividad de la información en todos sus contextos (espacial, temporal y emocional) analizando las diferentes dimensiones de uso (multilingualidad, multimodalidad y registro)., [EN] The overall aim of this project focuses on the study, development and experimentation with different techniques and systems based on Human Language Technologies (HLT) for developing the next generation of intelligent digital information processing systems (modelling, retrieval, processing, comprehension and detection), in order to meet the present challenges posed by digital media. In this new scenario, systems have to incorporate the reasoning capability to ascertain the subjectivity of information in all contexts (spatial, temporal and emotional), while analysing the various dimensional uses (multilingualism, multimodality and register).
- Published
- 2011
13. Función de las secuencias narrativas en la clasificación de la polaridad de reviews
- Author
-
Roberto, John A., Salamó Llorente, Maria, Martí Antonín, Maria Antònia, Roberto, John A., Salamó Llorente, Maria, and Martí Antonín, Maria Antònia
- Abstract
Los comentarios sobre productos o reviews son una fuente valiosa de información para entender las preferencias de los usuarios en los sistemas para la personalización de contenidos. En este artículo se analiza la función que desempeñan las secuencias narrativas en el cálculo de la polaridad de productos. Con esta finalidad hemos aplicado un algoritmo para extraer las oraciones que contienen eventos relacionados semánticamente y hemos realizado una serie de experimentos orientados a determinar el impacto que la omisión de dichas oraciones puede tener a nivel de la polaridad de los reviews. Los resultados obtenidos demuestran que las opiniones negativas de los productos se suelen expresar mediante secuencias narrativas mientras que las positivas son independientes de la narración., Reviews are a powerful source of information about consumer preferences that can be used in personalization systems. In this paper we analyse the role played by narrative chains in determining the polarity of reviews. For this purpose, we applied an algorithm to remove sentences containing events semantically connected. We report experiments designed to evaluate the impact that the omission of those sentences has in determining the polarity of reviews. The results show that negative opinions are often expressed in terms of narrative chains while positive opinions are independent of narratives.
- Published
- 2014
14. TEXT-MESS: Intelligent, Interactive and Multilingual Text Mining based on Human Language Technologies, TIN2006-15265-C06
- Author
-
Martínez-Barco, Patricio, Gonzalo Arroyo, Julio, Ureña López, Luis Alfonso, Pla Santamaría, Ferrán, Ageno Pulido, Alicia María, Martí Antonín, Maria Antònia, Procesamiento del Lenguaje y Sistemas de Información (GPLSI), and Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
- Subjects
HLT evaluation ,Text mining ,Information extraction ,HLT resources ,Lenguajes y Sistemas Informáticos ,Information retrieval ,Question answering ,Human language technologies (HLT) - Abstract
The goal of the project is to analyze, experiment, and develop intelligent, interactive and multilingual Text Mining technologies, as a key element of the next generation of search engines, systems with the capacity to find "the need behind the query". This new generation will provide specialized services and interfaces according to the search domain and type of information needed. Moreover, it will integrate textual search (websites) and multimedia search (images, audio, video), it will be able to find and organize information, rather than generating ranked lists of websites.
- Published
- 2009
15. Codex Search: propuesta e implementación de un sistema de recuperación de información de ámbito local basado en casos
- Author
-
Martí Antonín, Maria Antònia, Agència de Gestió d'Ajuts Universitaris i de Recerca, and Universitat de Barcelona. Centre de Llenguatge i Computació
- Subjects
Immigració ,Informació -- Sistemes d'emmagatzematge i recuperació – Dret ,8 - Lingüística i literatura ,Indexació (Documentació) - Abstract
CODEX SEARCH es un motor de recuperación de información especializado en derecho de extranjería que está basado en herramientas y conocimiento lingüísticos. Un motor o Sistema de Recuperación de Información (SRI) es un software capaz de localizar información en grandes colecciones documentales (entorno no trivial) en formato electrónico. Mediante un estudio previo se ha detectado que la extranjería es un ámbito discursivo en el que resulta difícil expresar la necesidad de información en términos de una consulta formal, objeto de los sistemas de recuperación actuales. Por lo tanto, para desarrollar un SRI eficiente en el dominio indicado no basta con emplear un modelo tradicional de RI, es decir, comparar los términos de la pregunta con los de la respuesta, básicamente porque no expresan implicaciones y porque no tiene que haber necesariamente una relación 1 a 1. En este sentido, la solución lingüística propuesta se basa en incorporar el conocimiento del especialista mediante la integración en el sistema de una librería de casos. Los casos son ejemplos de procedimientos aplicados por expertos a la solución de problemas que han ocurrido en la realidad y que han terminado en éxito o fracaso. Los resultados obtenidos en esta primera fase son muy alentadores pero es necesario continuar la investigación en este campo para mejorar el rendimiento del prototipo al que se puede acceder desde &http://161.116.36.139/~codex/&. CODEX SEARCH is an engine to recover information related to “immigration law” topic, based on linguistic tools and knowledge. An engine or Retrieval Information System (SRI) is a software able to locate information within large documentary collections (not trivial environment) in electronic format. It has been detected, through a previous study that “immigration law” is a discursive area in which it is difficult to express clearly what a person wants to know, in terms of a formal query, which is a fundamental aim of the current retrieval systems. Therefore, in order to develop an efficient SRI appropriate to the indicated domain, it is not enough to use a IR traditional model, that is, comparing the terms of the question with those of the answer, basically because they do not express implications and because there must not necessarily be a one-to-one relationship. According to this, the suggested linguistic solution is based on including the specialist’s knowledge through integrating a store of cases into the system. The cases are examples of procedures applied by experts to the solution of problems that have happened in the reality even they have finished successfully or not. The results obtained in this first phase are very encouraging but it is necessary to continue the research in this field, in order to improve the output of the prototype that can be entered from &http://161.116.36.139/~codex/&.
- Published
- 2009
16. HistoCat y DialCat: extensiones de un analizador morfológico para tratar textos históricos y dialectales del catalán
- Author
-
Duran Cals, Jordi, Martí Antonín, Maria Antònia, Perea Sabater, Maria Pilar, and Universitat de Barcelona
- Subjects
Morphosintactic annotation ,Catalan language ,Català ,Corpus linguistics ,Natural language processing (Computer science) ,Corpora (Linguistics) ,Lingüística de corpus ,Corpus históricos y dialectales ,Anotación morfosintáctica ,Tractament del llenguatge natural (Informàtica) ,Corpus (Lingüística) - Abstract
Los textos históricos y dialectales del catalán no se pueden anotar morfosintácticamente de manera automática ya que no existe una variante estándar de referencia que permita un tratamiento homogéneo y sistemático. El objetivo de los proyectos HistoCat y DialCat ha sido desarrollar un entorno de anotación semiautomático aprovechando herramientas existentes para la anotación morfosintáctica de textos en catalán, que minimizara al máximo la anotación manual. Catalan historical and dialectal texts cannot be morphosintactically annotated in an automatic way, because there is not a reference standard of written language that could allow a sistematic and homogeneus treatement. The main objective of DialCat and HistoCat projects has been to develop an environment for the semiauthomatic annotation of these corpora using already existing morphological analyzers for standard Catalan trying to minimize the manual annotation. DialCat (HUM2005-24445-E) e HistoCat (HUM2005-24438-E) son dos proyectos financiados por el Ministerio de Educación en el programa de Acciones Complementarias.
- Published
- 2007
17. Fundamentos teóricos y metodológicos para el etiquetado semántico de CESS-CAT y CESS-ESP
- Author
-
Taulé Delor, Mariona, Castellví Vives, Joan, Martí Antonín, Maria Antònia, and Aparicio Mera, Juan José
- Subjects
Estructura argumental ,Semantic annotation ,Corpus linguistics ,Event structure ,Lexicosemantic structure ,Estructura eventiva ,Diátesis ,Papel temático ,Argumental structure ,Thematic roles ,Estructura léxico-semántica ,Lingüística de corpus ,Diatheses ,Anotación semántica - Abstract
El objetivo de este artículo es establecer los fundamentos teóricos para la anotación semántica de los corpora CESS-ESP y CESS-CAT, mediante la asignación a cada predicado de una estructura léxico-semántica que determina la estructura argumental, las relaciones temáticas de los argumentos respecto al verbo y las alternancias de diátesis que admite. El proceso de asignación de información semántica se realiza de manera semiautomática. Como resultado se obtiene una clasificación de los predicados que permite establecer generalizaciones sobre su comportamiento. The aim of this article is to establish the theoretical basis of the semantic annotation of the CESS-ESP and CESS-CAT corpora, by means of assigning to each predicate a Lexicosemantic Structure. The lexicosemantic patterns determine the argument structure, the correspondence between the arguments and the verb, and the diathesis alternations. The semantic annotation is carried out semi-automatically. As a result, a classification of predicates will be obtained and generalizations on the behavior of predicates will be drawn.
- Published
- 2006
18. CESS-Consulta: interfaz de consulta a un banco de datos sintáctico-semántico
- Author
-
Bertran Ibarz, Manuel, Taulé Delor, Mariona, Martí Antonín, Maria Antònia, Màrquez Villodre, Lluís, and Ageno Pulido, Alicia María
- Subjects
Banco de datos sintáctico-semántico ,CESS-Consulta ,Interfaz de consulta - Published
- 2006
19. 3LB-LEX : léxico verbal con frames sintáctico-semánticos
- Author
-
Civit Torruella, Montserrat, Aldezabal Roteta, Izaskun, Pociello Irigoyen, Elisabete, Taulé Delor, Mariona, Aparicio Mera, Juan José, Màrquez Villodre, Lluís, Navarro Colorado, Francisco de Borja, Castellví Vives, Joan, and Martí Antonín, Maria Antònia
- Subjects
Semantic annotation ,Thematic roles ,Verbal lexicon ,Papeles temáticos ,Léxico verbal ,Anotación semántica - Abstract
La creación de léxicos (verbales) computacionales es larga y costosa. A partir de los corpora creados en el proyecto 3LB se deriva un léxico verbal con información sintáctica y semántica (synsets de EWN). A partir de esta información se establece la correspondencia entre funciones sintácticas y papeles temáticos para cada sentido de cada verbo. El último paso será el etiquetado de los corpora con papeles temáticos. Como resultado, los corpora de 3LB se habrán enriquecido con el etiquetado de papeles temáticos y el léxico verbal con los frames semánticos. The creation of computational (verbal) lexicons is a time-consuming task. From the corpora created at the 3LB project, a verbal lexicon with syntactic and semantic (synsets from EWN) information is being built. From this information the correspondence between syntactic functions and thematic roles for each verb sense will set. The last step will be the tagging of the corpora with thematic roles. As a result of this, the 3LB corpora will be enriched with the tagging of thematic roles and the verbal lexicon with the semantic frames. Este trabajo ha sido parcialmente financiado por los proyectos XTRACT-2 (BFF2002-04226-C03-03), CESS-CE (HUM2004-21127-E) y R2D2 (TIC-2003-07158-C04-01).
- Published
- 2005
20. Análisis cualitativo y cuantitativo de acuerdo entre anotadores en el desarrollo de corpus interpretados lingüísticamente
- Author
-
Civit Torruella, Montserrat, Ageno Pulido, Alicia María, Navarro Colorado, Borja, Bufí Cabrol, Núria, and Martí Antonín, Maria Antònia
- Subjects
Syntactic annotation ,Acuerdo entre anotadores ,Annotators' agreement ,Anotación sintáctica ,Corpus - Abstract
El objetivo de este trabajo es presentar un análisis cualitativo y cuantitativo de las discrepancias entre anotadores en el etiquetado sintáctico del corpus Cast3LB. Para ello se ha definido un corpus de prueba de mil oraciones que ha sido etiquetado paralelamente por cinco anotadores. Se han realizado sucesivas evaluaciones de los resultados que han dado lugar a otras tantas mejoras de la guía de anotación hasta su versión definitiva. En una última fase, se analizan cualitativamente y se clasifican las discrepancias entre anotadores. The main goal of this work is to present a qualitative and quantitative analysis of disagreements among annotators during the syntactic labeling of the Cast3LB corpus. To do so, a one-thousand-sentence corpus has been established and it has been annotated by five annotators. Consecutive evaluations of the results have been done and have led to successive improvements of the guidelines. In the last phase, we present the qualitative analysis and the classification of the differences among annotators. Este trabajo ha sido parcialmente financiado por los proyectos PROFIT (FIT-15 0500-2002-244) y XTRACT-II (BFF2002-04226-C03-03).
- Published
- 2003
21. 3LB: construcción de una base de datos de árboles sintáctico semánticos
- Author
-
Aduriz Agirre, Itziar, Ageno Pulido, Alicia María, Arrieta Cortajarena, Bertol, Arriola Egurrola, José María, Bisbal Asensi, Empar, Castell Ariño, Nuria, Civit Torruella, Montserrat, Díaz de Ilarraza Sánchez, Arantza, Fernández, B., Gojenola Galletebeitia, Koldo, Halkoum, Reda, Marcos Maciá, Raquel, Màrquez Villodre, Lluís, Martí Antonín, Maria Antònia, Martínez-Barco, Patricio, Molina Marco, Antonio, Moreda, Paloma, Moreno Boronat, Lidia, Navarro Colorado, Borja, Oronoz Anchordoqui, Maite, Padró Cirera, Lluís, Palomar, Manuel, Pla Santamaría, Ferrán, Rodríguez Hontoria, Horacio, Saiz Noeda, Maximiliano, Sanchis Arnal, Emilio, Sarasola Gabiola, Kepa, Suárez Cueto, Armando, and Taulé Delor, Mariona
- Subjects
Anotación sintáctica ,Corpus ,Anotación semántica - Abstract
Entidad financiera: MCyT (Proyecto PROFIT: FIT-150500-2002-411).
- Published
- 2003
22. DIANA: análisis del discurso para la comprensión del conocimiento
- Author
-
Rosso, Paolo, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Rosso, Paolo, Martí Antonín, Maria Antònia, and Taulé Delor, Mariona
- Abstract
DIANA es un proyecto coordinado en el que participan el grupo de Ingeniería del Lenguaje Natural y Reconocimiento de Formas (ELiRF) de la Universitat Politècnica de València y el grupo Centre de Llenguatge i Computació (CLiC) de la Universitat de Barcelona. Se trata de un proyecto del programa de I+D (TIN2012-38603) financiado por el Ministerio de Economía y Competitividad. Paolo Rosso coordina el proyecto DIANA y lidera el subproyecto DIANA-Applications y M. Antònia Martí lidera el subproyecto DIANA-Constructions., DIANA is a coordinated Project involving the research group of Ingeniería del Lenguaje Natural y Reconocimiento de Formas (ELiRF) of the Universitat Politècnica de València and the research group of Centre de Llenguatge i Computació (CliC) of the Universitat de Barcelona. This is an R&D project (TIN2012-38603) funded by the Spanish Ministry of Economy and Competitiveness. Paolo Rosso coordinates the DIANA project and leads the subproject DIANA-Applications and M. Antònia Marti leads the DIANA-Constructions subproject.
- Published
- 2013
23. Creación, etiquetación y desambiguación de un corpus de referencia del español
- Author
-
Civit Torruella, Montserrat, Castellón Masalles, Irene, and Martí Antonín, Maria Antònia
- Subjects
Lengua española ,Anotación morfosintáctica ,Corpus ,Desambiguación morfosintáctica - Abstract
En este artículo presentamos los criterios para la anotación y desambiguación morfosintáctica de un corpus de referencia del español que será de libre disposición, proponiendo respuestas concretas a casos problemáticos de ambas tareas. El objetivo final es disponer de una colección escrita de 1 millón de palabras desambiguadas manualmente a nivel tanto morfológico como sintáctico, que pueda utilizarse para el aprendizaje automático así como para la consulta lingüística. Discutimos detalladamente la categorización de las palabras del español así como los criterios lingüísticos de desambigüación. Este trabajo ha sido parcialmente financiado por una beca FPU (AP98-39864555), por la CICYT TIC98-0423-C06 y por X-Tract (PB98-1226).
- Published
- 2001
24. IARG-AnCora: anotación de los corpus AnCora con argumentos implícitos
- Author
-
Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Taulé Delor, Mariona, Martí Antonín, Maria Antònia, Peris Morant, Aina, Rodríguez Hontoria, Horacio, Moreno Boronat, Lidia, Moreda, Paloma, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Taulé Delor, Mariona, Martí Antonín, Maria Antònia, Peris Morant, Aina, Rodríguez Hontoria, Horacio, Moreno Boronat, Lidia, and Moreda, Paloma
- Abstract
IARG-AnCora tiene como objetivo la anotación con papeles temáticos de los argumentos implícitos de las nominalizaciones deverbales en el corpus AnCora. Estos corpus servirán de base para los sistemas de etiquetado automático de roles semánticos basados en técnicas de aprendizaje automático. Los analizadores semánticos son componentes básicos en las aplicaciones actuales de las tecnologías del lenguaje, en las que se quiere potenciar una comprensión más profunda del texto para realizar inferencias de más alto nivel y obtener así mejoras cualitativas en los resultados., Iarg-AnCora aims to annotate the implicit arguments of deverbal nominalizations in AnCora corpus. This corpus will be the basis for systems of automatic semantic role labeling based on machine learning techniques. Semantic analyzers are essential components in the current applications of language technologies, in which it is important to obtain a deeper understanding of the text to make inferences on the highest level in order to obtain qualitative improvements in the results.
- Published
- 2012
25. Análisis de la riqueza léxica en el contexto de la clasificación de atributos demográficos latentes
- Author
-
Roberto, John A., Martí Antonín, Maria Antònia, Salamó Llorente, Maria, Roberto, John A., Martí Antonín, Maria Antònia, and Salamó Llorente, Maria
- Abstract
En este artículo analizamos la utilidad que tiene el cálculo de la riqueza léxica para predecir atributos demográficos latentes en textos de opinión del español. Nuestro objetivo es determinar hasta qué punto la riqueza léxica permite predecir el sexo, la edad y la procedencia de los autores de este tipo de textos. Para ello hemos analizado 32 métricas de la riqueza léxica en 1911 textos de opinión previamente etiquetados con información demográfica. Esta aproximación tiene como principales ventajas la independencia del dominio y la reducción del coste computacional., In this paper we analyse the utility of Lexical richness estimations to predict latent user attributes shown in Spanish opinionated texts. Our aim is to establish how useful could be the Lexical richness to predict user’s gender, age and regional origin. Because of this goal, we applied 32 lexical richness measures to 1911 previously labeled texts with demographic information. This approach has the advantage that it is domain-independent with modest computational cost.
- Published
- 2012
26. Proyecto RILE : servidor de recursos para el desarrollo de la ingeniería lingüística en español
- Author
-
Bermejo Rubio, Isabel, Carreras Riudavets, Francisco Javier, Castell Ariño, Nuria, Castellón Masalles, Irene, Coello, E., Gonzalo Arroyo, Julio, Kalfon, N., Martí Antonín, Maria Antònia, Rodríguez, S., Padró Cirera, Lluís, Peñas Padilla, Anselmo, Read, Tim, and Verdejo Maillo, María Felisa
- Subjects
Ingeniería lingüística ,Lengua española ,Servidor de recursos - Published
- 2000
27. TextMess 2.0: las tecnologías del lenguaje humano ante los nuevos retos de la comunicación digital
- Author
-
Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martínez-Barco, Patricio, Martí Antonín, Maria Antònia, Ureña López, Luis Alfonso, Rosso, Paolo, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martínez-Barco, Patricio, Martí Antonín, Maria Antònia, Ureña López, Luis Alfonso, and Rosso, Paolo
- Abstract
El objetivo general de este proyecto se centra en el estudio, desarrollo y experimentación de diferentes técnicas y sistemas basados en Tecnologías del Lenguaje Humano (TLH) para el desarrollo de la próxima generación de sistemas de procesamiento inteligente de la información digital (modelado, recuperación, tratamiento, comprensión y descubrimiento) afrontando los actuales retos de la comunicación digital. En este nuevo escenario, los sistemas deben incorporar capacidades de razonamiento que descubrirán la subjetividad de la información en todos sus contextos (espacial, temporal y emocional) analizando las diferentes dimensiones de uso (multilingualidad, multimodalidad y registro)., The overall aim of this project focuses on the study, development and experimentation with different techniques and systems based on Human Language Technologies (HLT) for developing the next generation of intelligent digital information processing systems (modelling, retrieval, processing, comprehension and detection), in order to meet the present challenges posed by digital media. In this new scenario, systems have to incorporate the reasoning capability to ascertain the subjectivity of information in all contexts (spatial, temporal and emotional), while analysing the various dimensional uses (multilingualism, multimodality and register).
- Published
- 2011
28. Araknion: inducción de modelos lingüísticos a partir de corpora
- Author
-
Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Carreras Pérez, Xavier, Rodríguez Hontoria, Horacio, Martínez-Barco, Patricio, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Carreras Pérez, Xavier, Rodríguez Hontoria, Horacio, and Martínez-Barco, Patricio
- Abstract
El proyecto Araknion tiene como objetivo general dotar al español y al catalán de una infraestructura básica de recursos lingüísticos para el procesamiento semántico de corpus en el marco de la Web 2.0 sean de origen oral o escrito., Araknion project aims to provide the Spanish and Catalan with basic linguistic resources (oral or written) for semantic processing in the context of Web 2.0.
- Published
- 2011
29. AnCora-Net: integración multilingüe de recursos lingüísticos semánticos
- Author
-
Taulé Delor, Mariona, Borrega Cepa, Oriol, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Borrega Cepa, Oriol, and Martí Antonín, Maria Antònia
- Abstract
AnCora-Net es un léxico verbal multilingüe creado a partir de la integración de los léxicos verbales AnCora-Verb, del catalán y español, en el Unified Verb Index del inglés. El Unified Verb Index aúna diferentes fuentes de conocimiento del inglés de amplia cobertura que son sin duda un referente en representación semántica. La integración de nuestros recursos con los del inglés nos permite enriquecer el contenido de los léxicos AnCora-Verb con información semántica codificada para el inglés. Asimismo, el Unified Verb Index también se enriquece con la incorporación de los léxicos AnCora-Verb, del catalán y español, dando lugar a un recurso multilingüe que puede ser útil para estudios comparativos., AnCora-Net is a multilingual verbal lexicon built from the mapping of the Catalan and Spanish AnCora-Verb verbal lexicons into the English Unified Verb Index. The Unified Verb Index combines different sources of knowledge for English of wide coverage, which are a referent in semantic representation. The integration of our resources to the Unified Verb Index will enrich the contents of AnCora-Verb lexicons with semantic information coded for English. In the same way, the Unified Verb Index will be also related to equivalent verbs in another languages giving rise a multilingual resource that can be useful for comparative studies.
- Published
- 2011
30. Los predicados de cambio y su representación en una BCL
- Author
-
Fernández Montraveta, Ana, Vázquez García, Glòria, Martí Antonín, Maria Antònia, and Castellón Masalles, Irene
- Subjects
Predicados de cambio ,Base de conocimiento léxico ,Estructura eventual ,Componentes de significado ,Diátesis - Abstract
En este artículo se presenta una clase de predicados, la de cambio, a partir de los elementos que hemos definido como básicos para la descripción del comportamiento verbal (componentes de significado, diátesis y estructura eventual). Se parte de la hipótesis de que los tres aspectos citados interaccionan entre sí y que son fundamentales a la hora de dar cuenta del uso real de los predicados. Esta información ha sido incorporada en la entrada léxica de una base de conocimiento léxico, de la cual presentamos la implementación. Este trabajo ha sido realizado gracias a los recursos obtenidos con los proyectos PB-94 0830 de la DGICYT, la acción APC-96 0125 de la DGICYT, ITEM TIC-96 1243-C03-02, el proyecto Lvbac (03.04.98) de la Universitat de Lleida y la beca predoctoral del Comissionat per a Universitats i Recerca de la Generalitat de Catalunya (ref. FI 96/6008 PG).
- Published
- 1999
31. WRPA: a system for relational paraphrase acquisition from Wikipedia
- Author
-
Vila Rigat, Marta, Rodríguez Hontoria, Horacio, Martí Antonín, Maria Antònia, Vila Rigat, Marta, Rodríguez Hontoria, Horacio, and Martí Antonín, Maria Antònia
- Abstract
En este artículo se presenta WRPA, un sistema para la Adquisición de Paráfrasis de Relaciones de la Wikipedia. Aprovechando la estructura de la Wikipedia, WRPA extrae patrones de paráfrasis que expresan una determinada relación entre dos entidades. La novedad de este sistema reside en que se explota dicha enciclopedia más allá de las fichas (o infoboxes), aprovechando información itemizada que contienen algunas de sus páginas. WRPA es independiente de la lengua, asumiendo la existencia, para la lengua en cuestión, de Wikipedia y de herramientas para el tratamiento superficial del lenguaje, así como independiente de la relación tratada., In this paper we present WRPA, a system for Relational Paraphrase Acquisition from Wikipedia. WRPA extracts paraphrasing patterns that hold a particular relation between two entities taking advantage of Wikipedia structure. What is new in this system is that Wikipedia’s exploitation goes beyond infoboxes, reaching itemized information embedded in Wikipedia pages. WRPA is language independent, assuming that there exists Wikipedia and shallow linguistic tools for that particular language, and also independent of the relation addressed.
- Published
- 2010
32. ClInt: a bilingual Spanish-Catalan spoken corpus of clinical interviews
- Author
-
Vila Rigat, Marta, González Fuente, Santiago, Martí Antonín, Maria Antònia, Llisterri Boix, Joaquim, Machuca Ayuso, María Jesús, Vila Rigat, Marta, González Fuente, Santiago, Martí Antonín, Maria Antònia, Llisterri Boix, Joaquim, and Machuca Ayuso, María Jesús
- Abstract
En este artículo se presenta ClInt (Clinical Interview), un corpus oral bilingüe español-catalán que contiene un total de 15 horas de entrevistas clínicas. Está formado por archivos sonoros alineados con transcripciones a varios niveles que comprenden información ortográfica, fonética y morfológica, además de codificación lingüística y extralingüística. Se trata de un recurso hasta el momento inexistente para estas lenguas que ofrece múltiples posibilidades de explotación desde una amplia variedad de disciplinas, tanto las vinculadas a la Lingüística como las que se relacionan con el Procesamiento del Lenguaje Natural., In this paper we present ClInt (Clinical Interview), a bilingual Spanish-Catalan spoken corpus that contains 15 hours of clinical interviews. It consists of audio files aligned with multiple-level transcriptions comprising orthographic, phonetic and morphological information, as well as linguistic and extralinguistic encoding. This is a previously non-existent resource for these languages and it offers a wide-ranging exploitation potential in a broad variety of disciplines such as Linguistics, Natural Language Processing and related fields.
- Published
- 2010
33. TEXT-MESS: Intelligent, Interactive and Multilingual Text Mining based on Human Language Technologies, TIN2006-15265-C06
- Author
-
Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martínez-Barco, Patricio, Gonzalo Arroyo, Julio, Ureña López, Luis Alfonso, Pla Santamaría, Ferrán, Ageno Pulido, Alicia María, Martí Antonín, Maria Antònia, Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Martínez-Barco, Patricio, Gonzalo Arroyo, Julio, Ureña López, Luis Alfonso, Pla Santamaría, Ferrán, Ageno Pulido, Alicia María, and Martí Antonín, Maria Antònia
- Abstract
The goal of the project is to analyze, experiment, and develop intelligent, interactive and multilingual Text Mining technologies, as a key element of the next generation of search engines, systems with the capacity to find "the need behind the query". This new generation will provide specialized services and interfaces according to the search domain and type of information needed. Moreover, it will integrate textual search (websites) and multimedia search (images, audio, video), it will be able to find and organize information, rather than generating ranked lists of websites.
- Published
- 2009
34. CoCo, a web interface for corpora compilation
- Author
-
España Bonet, Cristina, Vila Rigat, Marta, Rodríguez Hontoria, Horacio, Martí Antonín, Maria Antònia, España Bonet, Cristina, Vila Rigat, Marta, Rodríguez Hontoria, Horacio, and Martí Antonín, Maria Antònia
- Abstract
CoCo es una interfaz web colaborativa para la compilación de recursos lingüísticos. En esta demo se presenta una de sus posibles aplicaciones: la obtención de paráfrasis., CoCo is a collaborative web interface for the compilation of linguistic resources. In this demo we are presenting one of its possible applications: paraphrase acquisition.
- Published
- 2009
35. Características y rasgos afectivos del humor: un estudio de reconocimiento automático del humor en textos escolares en catalán
- Author
-
Reyes Pérez, Antonio, Rosso, Paolo, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Reyes Pérez, Antonio, Rosso, Paolo, Martí Antonín, Maria Antònia, and Taulé Delor, Mariona
- Abstract
Las nuevas tendencias de investigación en Procesamiento del Lenguaje Natural (PLN) cada vez dan mayor importancia al análisis de fenómenos relacionados con los procesos cognitivos que se proyectan a través del lenguaje. El estudio de los sentimientos, las emociones o el humor son un reflejo de esta tendencia. En esta investigación se muestran los resultados relativos a un estudio acerca del Reconocimiento Automático del Humor (RAH) realizado sobre un corpus de textos humorísticos de escolares en catalán. Los resultados señalan que la identificación de características semánticas y afectivas permite la clasificación de los textos con un porcentaje considerable de acierto., The analysis of phenomena related to cognitive processes is a very important trend in Natural Language Processing (NLP) research. The study of sentiments, emotions or humour, through language, are a sample about how this tendency acquires a greater importance in the area. In this paper, we present the results obtained on a study of Automatic Humour Recognition (AHR) performed on a corpus of children’s texts. The results indicate that through the identification of semantic and affective features the text classification can be achieved with success.
- Published
- 2009
36. TEXT-MESS: minería de textos inteligente, interactiva y multilingüe basada en tecnología del lenguaje humano
- Author
-
Martínez-Barco, Patricio, Palomar, Manuel, Gonzalo Arroyo, Julio, Peñas Padilla, Anselmo, Ureña López, Luis Alfonso, Martín Valdivia, María Teresa, Pla Santamaría, Ferrán, Rosso, Paolo, Ageno Pulido, Alicia María, Turmo Borrás, Jordi, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Martínez-Barco, Patricio, Palomar, Manuel, Gonzalo Arroyo, Julio, Peñas Padilla, Anselmo, Ureña López, Luis Alfonso, Martín Valdivia, María Teresa, Pla Santamaría, Ferrán, Rosso, Paolo, Ageno Pulido, Alicia María, Turmo Borrás, Jordi, Martí Antonín, Maria Antònia, and Taulé Delor, Mariona
- Abstract
El objeto de este proyecto es analizar, experimentar y desarrollar tecnologías inteligentes, interactivas y multilingües de minería de textos, como pieza clave de la próxima generación de motores de búsqueda y análisis textual, sistemas capaces de encontrar “la necesidad que subyace a la consulta”. Estas tecnología ofrecerán servicios e interfaces especializadas según el dominio y el tipo de necesidad de información. Además, integrarán búsqueda documental (páginas web), multimedia (imágenes, audio, video), en información semiestructurada y en dominios específicos., The goal of this project is to analyze, experiment, and develop intelligent, interactive and multilingual Text Mining technologies, as a key element of the next generation of search engines, systems with the capacity to find “the need behind the query”. These technologies will provide specialized services and interfaces according to the search domain and type of information needed. Moreover, it will integrate searchs on document collections (websites), multimedia (images, audio, video), semi-structured texts and restricted domains.
- Published
- 2008
37. Text as scene: discourse deixis and bridging relations
- Author
-
Recasens Potau, Marta, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Recasens Potau, Marta, Martí Antonín, Maria Antònia, and Taulé Delor, Mariona
- Abstract
En este artículo se presenta un nuevo marco, “el texto como escena”, que establece las bases para la anotación de dos relaciones de correferencia: la deixis discursiva y las relaciones de bridging. La incorporación de lo que llamamos escenas textuales y contextuales proporciona unas directrices de anotación más flexibles, que diferencian claramente entre tipos de categorías generales. Un marco como éste, capaz de tratar la deixis discursiva y las relaciones de bridging desde una perspectiva común, tiene como objetivo mejorar el bajo grado de acuerdo entre anotadores obtenido por esquemas de anotación anteriores, que son incapaces de captar las referencias vagas inherentes a estos dos tipos de relaciones. Las directrices aquí presentadas completan el esquema de anotación diseñado para enriquecer el corpus español CESS-ECE con información correferencial y así construir el corpus CESS-Ancora., This paper presents a new framework, “text as scene”, which lays the foundations for the annotation of two coreferential links: discourse deixis and bridging relations. The incorporation of what we call textual and contextual scenes provides more flexible annotation guidelines, broad type categories being clearly differentiated. Such a framework that is capable of dealing with discourse deixis and bridging relations from a common perspective aims at improving the poor reliability scores obtained by previous annotation schemes, which fail to capture the vague references inherent in both these links. The guidelines presented here complete the annotation scheme designed to enrich the Spanish CESS-ECE corpus with coreference information, thus building the CESS-Ancora corpus.
- Published
- 2007
38. Anotación semiautomática con papeles temáticos de los corpus CESS-ECE
- Author
-
Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Màrquez Villodre, Lluís, Bertran Ibarz, Manuel, Martí Antonín, Maria Antònia, Taulé Delor, Mariona, Màrquez Villodre, Lluís, and Bertran Ibarz, Manuel
- Abstract
En este artículo se presenta la metodología seguida en el proceso de anotación semántica automática (estructura argumental y papeles temáticos de los predicados verbales) del corpus CESS-ECE-CAT/ESP, así como la evaluación de los resultados obtenidos. A partir de un léxico verbal (1.482 verbos) con información sobre las funciones sintácticas de cada verbo y su proyección temático-argumental, se ha anotado automáticamente el treebank CESS-ECE aplicando un conjunto de reglas simples sobre los árboles sintácticos. Se ha conseguido anotar automáticamente el 60% de los argumentos y papeles temáticos, con un error muy bajo (inferior al 2%). Este índice de calidad elevado permite usar la presente metodología para semiautomatizar el proceso de anotación semántica del corpus, con el consiguiente ahorro en tiempo de anotación manual. Una vez completada la anotación este corpus podrá ser utilizado como fuente de información para los sistemas de anotación automática de papeles temáticos., In this paper we present the methodology followed in the automatic semantic annotation (argument structure and thematic roles of the verbal predicates) of the CESS-ECECAT/ ESP corpus. Building from a verbal lexicon (1,482 entries) with information about the syntactic functions and their projection to arguments and thematic roles, we present a set of simple rules to automatically enrich syntactic trees with semantic information. This procedure permits to automatically annotate 60% of the expected arguments and thematic roles with a fairly low error rate (below 2%). Given the high quality of the obtained results, we claim that this methodology provides substantial savings in manual annotation effort and allows a semiautomatic approach to corpus annotation. Once completed, the CESS-ECE corpus will permit researchers to develop complete systems for automatic Semantic Role Labeling of Catalan and Spanish.
- Published
- 2007
39. A classification of Spanish psychologycal verbs
- Author
-
Martí Antonín, Maria Antònia and Fernández Montraveta, Ana
- Subjects
Theta-grids ,Spanish language ,Psychological verbs - Published
- 1997
40. Propuesta de alternancias de diátesis verbales para el español y el catalán
- Author
-
Castellón Masalles, Irene, Martí Antonín, Maria Antònia, Morante Vallejo, Roser, and Vázquez García, Glòria
- Subjects
Gramàtica comparada i general -- Verb ,Lengua española ,Gramàtica comparada i general -- Sintaxi ,Lengua catalana ,Lingüística contrastiva ,Clases de verbos ,Diàtesi (Gramàtica) ,Diátesis - Abstract
Actualmente nadie pone en duda la interrelación de los componentes sintáctico y semántico, y en esta línea las diátesis se han mostrado como un medio eficaz para acceder a la semántica a partir de la sintaxis. En el trabajo que presentamos partimos de la hipótesis de que la semántica verbal condiciona el tipo de estructuras sintagmáticas en que un verbo puede aparecer; asimismo, consideramos que se puede identificar la clase semántica de un verbo en función de las diferentes diátesis en que puede participar. El desarrollo de la investigación requiere, en primer lugar, definir las estructuras de diátesis necesarias para la identificación de las clases semánticas y el establecimiento de los papeles temáticos que caracterizarán cada una de las clases y que permitirán la conexión entre la sintaxis y la semántica. En esta comunicación presentamos la metodología seguida para el establecimiento de las clases verbales de las lenguas implicadas en el proyecto Pirápides, y además aportamos una primera propuesta de organización y especificación de las diátesis generales del español y del catalán. Este trabajo ha sido realizado gracias a la ayuda del proyecto PB-94 0830 de la DGICYT, la acción APC-96 0125 de la DGICYT, el proyecto ITEM TIC-96 1243-C03-02 y las becas predoctorales del Comissionat per a Universitats i Recerca de la Generalitat de Catalunya (ref. PG 96/6.008 y ref. FI 97/00306 PG).
- Published
- 1997
41. 3LB: construcción de una base de datos de árboles sintáctico-semánticos para el catalán, euskera y castellano
- Author
-
Palomar, Manuel, Civit Torruella, Montserrat, Díaz de Ilarraza Sánchez, Arantza, Moreno Boronat, Lidia, Bisbal Asensi, Empar, Aranzabe Urruzola, María Jesús, Ageno Pulido, Alicia María, Martí Antonín, Maria Antònia, Navarro Colorado, Borja, Palomar, Manuel, Civit Torruella, Montserrat, Díaz de Ilarraza Sánchez, Arantza, Moreno Boronat, Lidia, Bisbal Asensi, Empar, Aranzabe Urruzola, María Jesús, Ageno Pulido, Alicia María, Martí Antonín, Maria Antònia, and Navarro Colorado, Borja
- Abstract
En este artículo presentamos los resultados del proyecto 3LB, consistente en el desarrollo de tres corpus (para el catalán, el castellano y el euskera) anotados sintáctica y semánticamente. Se exponen los criterios que se han seguido para las diferentes anotaciones, las diferentes herramientas desarrolladas para los distintos etiquetados, así como los resultados de evaluación de la anotación., In this paper, we present the results of the 3LB project, which consist on the development of three corpora (one for Catalan, one for Spanish and one for Basque) with syntactic and semantic annotation. We show the criteria followed for each annotation, the different tools developed for each tagging and the results of annotation evaluation.
- Published
- 2004
42. Intensive use of lexicon and corpus for WSD
- Author
-
Nica, Iulia, Martí Antonín, Maria Antònia, Montoyo, Andres, Vázquez, Sonia, Nica, Iulia, Martí Antonín, Maria Antònia, Montoyo, Andres, and Vázquez, Sonia
- Abstract
El artículo trata sobre el uso de información lingüística en la Desambiguación Semántica Automática (DSA). Proponemos un método de DSA basado en conocimiento y no supervisado, que requiere sólo un corpus amplio, previamente etiquetado a nivel morfológico, y muy poco conocimiento gramatical. El proceso de DSA se realiza a través de los patrones sintácticos en los que una ocurrencia ambigua aparece, en base a la hipótesis de "almost one sense per syntactic pattern". Esta integración nos permite extraer información paradigmática y sintagmática del corpus relacionada con la ocurrencia ambigua. Usamos variantes de la información de EuroWordNet asociada a los sentidos y dos algoritmos de DSA. Presentamos los resultados obtenidos en la aplicación del método sobre la tarea Spanish lexical sample de Senseval-2. La metodología es fácilmente transferible a otras lenguas., The paper addresses the issue of how to use linguistic information in Word Sense Disambiguation (WSD). We introduce a knowledge-driven and unsupervised WSD method that requires only a large corpus previously tagged with POS and very little grammatical knowledge. The WSD process is performed taking into account the syntactic patterns in which the ambiguous occurrence appears, relaying in the hypothesis of “almost one sense per syntactic pattern”. This integration allows us to obtain, from corpora, paradigmatic and syntagmatic information related to the ambiguous occurrence. We also use variants of EWN information for word senses and different WSD algorithms. We report the results obtained when applying the method on the Spanish lexical sample task in Senseval-2. This methodology is easily transportable to other languages.
- Published
- 2004
43. Colaboración entre información paradigmática y sintagmática en la desambiguación semántica automática
- Author
-
Nica, Iulia, Martí Antonín, Maria Antònia, Montoyo, Andres, Nica, Iulia, Martí Antonín, Maria Antònia, and Montoyo, Andres
- Abstract
Proponemos un método alternativo para la desambiguación semántica automática, centrado en la interacción entre la información sintagmática y paradigmática. Se toma como unidad en el proceso de desambiguación una ocurrencia ambigua integrada en un patrón sintagmático. La estrategia no necesita corpus etiquetado al nivel de sentido, presupone tan sólo un análisis previo de tipo morfosintáctico y agrupación por chunks, no usa información estadística y su potencial desambiguador es amplio. Ilustramos las dos implementaciones propuestas con ejemplos concretos y estudiamos posibilidades de refinamiento del método., We propose an alternative method for Word Sense Disambiguation, based on the interaction between syntagmatic and paradigmatic information. The unit of the disambiguation process is taken to be an ambiguous occurrence integrated into a syntagmatic pattern. The strategy needs not a semantically annotated corpus, it supposes only a morphological analysis and chunking, does not make use of statistical information and has en wide disambiguating potential. We illustrate the two implementations proposed with concrete examples and study ways for refinement.
- Published
- 2003
44. Gramática para el análisis del diccionario VOX
- Author
-
Martí Antonín, Maria Antònia and Castellón Masalles, Irene
- Subjects
Lexicografía computacional ,Base de datos léxica ,Diccionario general ilustrado de la lengua española VOX ,Extracción de información léxica ,Gramática ,Diccionarios - Published
- 1991
45. Tratamiento de los sentidos verbales para recursos computacionales de enseñanza de lenguas
- Author
-
Morante Vallejo, Roser, Martí Antonín, Maria Antònia, Díaz Rodríguez, Lourdes, Morante Vallejo, Roser, Martí Antonín, Maria Antònia, and Díaz Rodríguez, Lourdes
- Abstract
En esta comunicación se presenta una propuesta de tratamiento de los sentidos verbales para relacionarlos con niveles de aprendizaje. El estudio se enmarca en un proyecto explotación de la base de conocimiento léxico EuroWordNet como herramienta de apoyo al aprendizaje de segundas lenguas. Para definir los aspectos del conocimiento verbal que se representarán en EWN se adapta el modelo de análisis de predicados Pirápides definido para sistemas de PLN. La información sobre los usos verbales se extrae de diccionarios y corpus. Para determinar la gradación de los usos verbales por niveles de aprendizaje se toma como referencia el concepto de prototipo. Se parte de la hipótesis de que el parámetro de prototipicidad está directamente relacionado con el nivel de aprendizaje: los usos más prototípicos de los diversos aspectos del conocimiento verbal se enseñarán en niveles más básicos. En este trabajo presentamos los parámetros que se han definido y su aplicación al verbo llevar.
- Published
- 1999
46. Análisis morfosintáctico orientado a corpus del español
- Author
-
Atserias Batalla, Jordi, Carmona Vargas, Josep, Castellón Masalles, Irene, Cervell, Sergi, Civit Torruella, Montserrat, Màrquez Villodre, Lluís, Martí Antonín, Maria Antònia, Padró Cirera, Lluís, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, Turmo Borrás, Jordi, Atserias Batalla, Jordi, Carmona Vargas, Josep, Castellón Masalles, Irene, Cervell, Sergi, Civit Torruella, Montserrat, Màrquez Villodre, Lluís, Martí Antonín, Maria Antònia, Padró Cirera, Lluís, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, and Turmo Borrás, Jordi
- Published
- 1998
47. Adquisición de conocimiento léxico: Acquilex
- Author
-
Ageno Pulido, Alicia María, Castellón Masalles, Irene, Martí Antonín, Maria Antònia, Ribas i Framis, Francesc, Rigau Claramunt, German, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, Verdejo Maillo, María Felisa, Ageno Pulido, Alicia María, Castellón Masalles, Irene, Martí Antonín, Maria Antònia, Ribas i Framis, Francesc, Rigau Claramunt, German, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, and Verdejo Maillo, María Felisa
- Published
- 1992
48. Análisis de definiciones del Diccionario Vox
- Author
-
Ageno Pulido, Alicia María, Cardoce, Sivar, Castellón Masalles, Irene, Martí Antonín, Maria Antònia, Rigau Claramunt, German, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, Verdejo Maillo, María Felisa, Ageno Pulido, Alicia María, Cardoce, Sivar, Castellón Masalles, Irene, Martí Antonín, Maria Antònia, Rigau Claramunt, German, Rodríguez Hontoria, Horacio, Taulé Delor, Mariona, and Verdejo Maillo, María Felisa
- Published
- 1991
49. MICE A module for Named Entities Recognition and Classification.
- Author
-
Rodríguez, Montserrat Arévalo, Torruella, Montserrat Civit, and Martí Antonín, Maria Antònia
- Subjects
NATURAL language processing ,LANGUAGE & languages ,ELECTRONIC data processing ,AUTOMATIC speech recognition ,LINGUISTICS - Abstract
In the field of corpus linguistics, Named Entity treatment includes the recognition and classification of different types of discursive elements like proper names, date, time, etc. These discursive elements play an important role in different Natural Language Processing applications and techniques such as Information Retrieval, Information Extraction, translations memories, document routers, etc. [ABSTRACT FROM AUTHOR]
- Published
- 2004
50. Un sistema de análisis morfológico por ordenador
- Author
-
Martí Antonín, Maria Antònia
- Subjects
Morfemas de flexión ,Raíces ,Indexación automática ,Sufijo ,Análisis morfológico automático - Published
- 1986
Catalog
Discovery Service for Jio Institute Digital Library
For full access to our library's resources, please sign in.