Back to Search
Start Over
Modelo estocástico de traducción basado en N-gramas de tuplas bilingues y combinación log-lineal de características
- Source :
- Recercat. Dipósit de la Recerca de Catalunya, instname, RUA. Repositorio Institucional de la Universidad de Alicante, Universidad de Alicante (UA), UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
-
Abstract
- En esta comunicación se presenta un sistema de traducción estocástica basado en el modelado mediante N-gramas de la probabilidad conjunta de textos bilingües. La unidad básica del modelo es la tupla, par de cadenas de palabras del lenguaje fuente (a traducir) y el lenguaje destino (traducción). La traducción se lleva a cabo mediante la maximización de una combinación lineal de los logaritmos de la probabilidad asignada a la traducción por el modelo de traducción y otras características, siguiendo la aproximación de entropía máxima. Las prestaciones del sistema de traducción son evaluadas con una tarea de traducción del habla: la traducción entre inglés y español (y viceversa) de transcripciones de intervenciones de los miembros del Parlamento Europeo. Los resultados alcanzados se encuentran al nivel del estado del arte. This communication introduces a stochastic machine translation system based on Ngram modelling of the joint probability of bilingual texts. The basic unit of this model is called a tuple and consists of a pair of both source (to be translated) language and target language (translation) word-strings. Translation is driven by a log-linear combination of the N-gram model probability and other features, according to the maximum entropy language modelling approach. The translation performance is evaluated by means of a speech-to-speech translation tasks: translation from Spanish to English (and viceversa) of European Parliament speeches. The system reaches a state-of-art performance. Este trabajo ha sido financiado parcialmente por la CICYT a través del proyecto TIC2002-04447-C02 (ALIADO) y la Unión Europea mediante el proyecto FP6-506738 (TC-STAR).
- Subjects :
- Modelo de lenguaje de entropía máxima
Stochastic machine translation
Automatic speech recognition
Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC]
Reconeixement automàtic de la parla
Maximum entropy language modelling
N-gram model
Traducción estocástica
N-gramas
Speech-to-speech translation
Traducción automática del habla
Subjects
Details
- Database :
- OpenAIRE
- Journal :
- Recercat. Dipósit de la Recerca de Catalunya, instname, RUA. Repositorio Institucional de la Universidad de Alicante, Universidad de Alicante (UA), UPCommons. Portal del coneixement obert de la UPC, Universitat Politècnica de Catalunya (UPC)
- Accession number :
- edsair.dedup.wf.001..e3fdac562082276b281465a8552a8c7f