Mining term translations from domain restricted comparable corpora
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/8609
Título: | Mining term translations from domain restricted comparable corpora |
---|---|
Título alternativo: | Extracción de traducciones de términos a partir de corpus comparables pertenecientes a áreas específicas |
Autor/es: | Saralegi Urizar, Xabier | San Vicente, Iñaki | López de Lacalle, Maddalen |
Palabras clave: | Extracción de terminología bilingüe | Corpus comparables | Traducción automática | Bilingual terminology extraction | Comparable corpora | Machine translation |
Fecha de publicación: | sep-2008 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | SARALEGI URIZAR, Xabier; SAN VICENTE, Iñaki; LÓPEZ DE LACALLE, Maddalen. “Mining term translations from domain restricted comparable corpora”. Procesamiento del lenguaje natural. N. 41 (sept. 2008). ISSN 1135-5948, pp. 273-280 |
Resumen: | En la literatura se han propuesto diferentes estrategias para la tarea de extracción automática de traducciones a partir de corpus comparables, estando basadas la mayoría de ellas en la idea de similitud entre contextos. Este trabajo aborda la citada tarea para el par de lenguas Euskera-Castellano y el género científico-divulgativo. Los principales puntos en los que se centra este trabajo son los siguientes: diseñar un método que combine las existentes aproximaciones; adaptar este método al par de lenguas Euskera-Castellano y al género científico-divulgativo; y por último analizar el comportamiento de distintas técnicas tanto para el proceso de traducción de contextos como el cálculo de similitud entre ellos. Finalmente, evaluaremos los diferentes prototipos implementados de acuerdo a la precisión obtenida para distintos cutoffs. Los resultados obtenidos muestran que el método híbrido diseñado resulta adecuado y una mejora para el cálculo de similitudes entre contextos mediante los modelos probabilísticos propuestos. | Several approaches have been proposed in the literature for extracting word translations from comparable corpora, almost all of them based on the idea of context similarity. This work addresses the aforementioned issue for the Basque-Spanish pair in a popular science domain. The main tasks our experiments focus on include: designing a method to combine some of the existing approaches; adapting this method to a popular science domain for the Basque-Spanish pair; and analyzing the performance of different approaches both for translating the contexts of the words and computing the similarity between contexts. We finally evaluate the different prototypes by calculating the precision for different cutoffs. The yielded results show the validity of the designed hybrid method, as well as the improvement obtained by using the probabilistic models we propose for computing the similarity between contexts. |
URI: | http://hdl.handle.net/10045/8609 |
ISSN: | 1135-5948 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 41 (septiembre 2008) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_41_33.pdf | 214,72 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.