Mining term translations from domain restricted comparable corpora

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/8609
Información del item - Informació de l'item - Item information
Título: Mining term translations from domain restricted comparable corpora
Título alternativo: Extracción de traducciones de términos a partir de corpus comparables pertenecientes a áreas específicas
Autor/es: Saralegi Urizar, Xabier | San Vicente, Iñaki | López de Lacalle, Maddalen
Palabras clave: Extracción de terminología bilingüe | Corpus comparables | Traducción automática | Bilingual terminology extraction | Comparable corpora | Machine translation
Fecha de publicación: sep-2008
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: SARALEGI URIZAR, Xabier; SAN VICENTE, Iñaki; LÓPEZ DE LACALLE, Maddalen. “Mining term translations from domain restricted comparable corpora”. Procesamiento del lenguaje natural. N. 41 (sept. 2008). ISSN 1135-5948, pp. 273-280
Resumen: En la literatura se han propuesto diferentes estrategias para la tarea de extracción automática de traducciones a partir de corpus comparables, estando basadas la mayoría de ellas en la idea de similitud entre contextos. Este trabajo aborda la citada tarea para el par de lenguas Euskera-Castellano y el género científico-divulgativo. Los principales puntos en los que se centra este trabajo son los siguientes: diseñar un método que combine las existentes aproximaciones; adaptar este método al par de lenguas Euskera-Castellano y al género científico-divulgativo; y por último analizar el comportamiento de distintas técnicas tanto para el proceso de traducción de contextos como el cálculo de similitud entre ellos. Finalmente, evaluaremos los diferentes prototipos implementados de acuerdo a la precisión obtenida para distintos cutoffs. Los resultados obtenidos muestran que el método híbrido diseñado resulta adecuado y una mejora para el cálculo de similitudes entre contextos mediante los modelos probabilísticos propuestos. | Several approaches have been proposed in the literature for extracting word translations from comparable corpora, almost all of them based on the idea of context similarity. This work addresses the aforementioned issue for the Basque-Spanish pair in a popular science domain. The main tasks our experiments focus on include: designing a method to combine some of the existing approaches; adapting this method to a popular science domain for the Basque-Spanish pair; and analyzing the performance of different approaches both for translating the contexts of the words and computing the similarity between contexts. We finally evaluate the different prototypes by calculating the precision for different cutoffs. The yielded results show the validity of the designed hybrid method, as well as the improvement obtained by using the probabilistic models we propose for computing the similarity between contexts.
URI: http://hdl.handle.net/10045/8609
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 41 (septiembre 2008)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_41_33.pdf214,72 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.