Integración de reordenamientos en el algoritmo de decodificación en traducción automática estocástica

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3301
Información del item - Informació de l'item - Item information
Título: Integración de reordenamientos en el algoritmo de decodificación en traducción automática estocástica
Autor/es: Crego Clemente, Josep María | Mariño Acebal, José Bernardo
Palabras clave: Traducción automática estocástica | Etiquetado POS | Algoritmos de decodificación | Reordenamiento | Stochastic machine translation | POS tagging | Decoding algorithms | Reordering
Fecha de publicación: sep-2006
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: CREGO CLEMENTE, Josep María; MARIÑO ACEBAL, José Bernardo. "Integración de reordenamientos en el algoritmo de decodificación en traducción automática estocástica". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 225-232
Resumen: En esta comunicación se presenta un marco de trabajo para introducir la capacidad de reordenamiento de palabras en traducción automática (TA). Los reordenamientos producidos en la oración fuente se integran en el algoritmo de decodificación, lo que permite construir un grafo de búsqueda de dimensiones reducidas. A partir de un grafo de búsqueda monótono (sin reordenamientos), se utilizan patrones de reordenamiento (patrones de reescritura motivados lingüísticamente) para añadir arcos que introducen permutaciones de las palabras fuente. Los patrones se aprenden de manera automática a partir del conjunto de entrenamiento, utilizando los alineamientos de palabras (entre las oraciones fuente y destino) y las etiquetas morfo-sintácticas (POS) de las oraciones fuente. Una vez completado el grafo de búsqueda, el algoritmo de decodificación lo atraviesa asignando una probabilidad (coste) a cada hipótesis, ayudándose por un modelo de lenguaje N-grama aprendido de las etiquetas POS del idioma origen después de ser reordenadas (además de por un conjunto de modelos típico en traducción automática). El método propuesto se evalúa en una tarea de traducción del español al inglés y viceversa, utilizando el corpus del Parlamento Europeo, donde pueden observarse mejoras tanto en calidad de la traducción (con medidas subjetivas y automáticas) como en eficiencia computacional. | This paper presents a reordering framework for statistical machine translation (SMT) where source-side reorderings are integrated into SMT decoding, allowing for a highly constrained reordered search graph. The monotone search is extended by means of a set of reordering patterns (linguistically motivated rewrite patterns). Patterns are automatically learnt in training from word-to-word alignments and source-side Part-Of-Speech (POS) tags. Traversing the extended search graph, the decoder evaluates every hypothesis making use of a group of widely used SMT models and helped by an additional Ngram language model of source-side POS tags. Experiments are reported on the Euparl task (Spanish-to-English and English-to-Spanish). Results are presented regarding translation accuracy (using human and automatic evaluations) and computational efficiency, showing significant improvements in translation quality for both translation directions at a very low computational cost.
Patrocinador/es: Esta comunicación ha sido parcialmente subvencionada por el gobierno español, TIC- 2002-04447-C02 (proyecto Aliado), la Unión Europea, FP6-506738 (proyecto TC-STAR) y la Universidad Politècnica de Catalunya (beca UPC-RECERCA).
URI: http://hdl.handle.net/10045/3301
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_37_28.pdf227,92 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.