Alineamiento de entidades con nombre usando distancia léxica

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3120
Información del item - Informació de l'item - Item information
Título: Alineamiento de entidades con nombre usando distancia léxica
Autor/es: Borrego Ropero, Rafael | Díaz Madrigal, Víctor Jesús
Palabras clave: Alineamiento | Etiquetado de entidades | Edit distance | Corpora bilingüe | Alignment | Name entity recognition | Bilingual corpora
Fecha de publicación: abr-2007
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: BORREGO ROPERO, Rafael; DÍAZ MADRIGAL, Victor Jesús. "Alineamiento de entidades con nombre usando distancia léxica". Procesamiento del lenguaje natural. N. 38 (abr. 2007). ISSN 1135-5948, pp. 61-66
Resumen: En este artículo se presenta un sistema para asistir en el etiquetado de entidades con nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma. Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común. | In this article a system is presented to help in labelling named entities and meaningful words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of corpora based on word frequency and position, it has been taken advantage of the high lexicographical similarity among words in nearby languages as Spanish and French to use the algorithm Edit Distance. After studying the results of these techniques, a system of voting has been defined that given a set of words in a language, an equivalent set in another language is proposed. As these techniques are not based on a previous knowledge of the languages, they can be used to label any pair of languages that share a common branch.
Patrocinador/es: Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03).
URI: http://hdl.handle.net/10045/3120
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Revistas - Procesamiento del Lenguaje Natural - Nº 38 (abril 2007)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_38_08.pdf65,15 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.