UPC-CORE : What can machine translation evaluation metrics and Wikipedia do for estimating semantic textual similarity?

Authors :: Barrón-Cedeño, Alberto
Màrquez Villodre, Lluís
Fuentes Fort, Maria
Rodríguez Hontoria, Horacio
Turmo Borras, Jorge
Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics
Universitat Politècnica de Catalunya. GPLN - Grup de Processament del Llenguatge Natural
Source :: UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC), Recercat. Dipósit de la Recerca de Catalunya, instname
Publication Year :: 2013
Abstract: In this paper we discuss our participation to the 2013 Semeval Semantic Textual Similarity task. Our core features include (i) a set of metrics borrowed from automatic machine translation, originally intended to evaluate automatic against reference translations and (ii) an instance of explicit semantic analysis, built upon opening paragraphs of Wikipedia 2010 articles. Our similarity estimator relies on a support vector regressor with RBF kernel. Our best approach required 13 machine translation metrics + explicit semantic analysis and ranked 65 in the competition. Our postcompetition analysis shows that the features have a good expression level, but overfitting and —mainly— normalization issues caused our correlation values to decrease.

Subjects :: Semantic textual similarity
Semàntica computacional
Computational linguistics -- Research
Informàtica::Intel·ligència artificial::Llenguatge natural [Àrees temàtiques de la UPC]

Language :: English
Database :: OpenAIRE
Journal :: UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC), Recercat. Dipósit de la Recerca de Catalunya, instname
Accession number :: edsair.dedup.wf.001..ff6285082b91481c2054474f5ee7ea27

Tools