Alineamiento de entidades con nombre usando distancia léxica

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/3120
Información del item - Informació de l'item - Item information
Títol: Alineamiento de entidades con nombre usando distancia léxica
Autors: Borrego Ropero, Rafael | Díaz Madrigal, Víctor Jesús
Paraules clau: Alineamiento | Etiquetado de entidades | Edit distance | Corpora bilingüe | Alignment | Name entity recognition | Bilingual corpora
Data de publicació: d’abril-2007
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: BORREGO ROPERO, Rafael; DÍAZ MADRIGAL, Victor Jesús. "Alineamiento de entidades con nombre usando distancia léxica". Procesamiento del lenguaje natural. N. 38 (abr. 2007). ISSN 1135-5948, pp. 61-66
Resum: En este artículo se presenta un sistema para asistir en el etiquetado de entidades con nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma. Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común. | In this article a system is presented to help in labelling named entities and meaningful words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of corpora based on word frequency and position, it has been taken advantage of the high lexicographical similarity among words in nearby languages as Spanish and French to use the algorithm Edit Distance. After studying the results of these techniques, a system of voting has been defined that given a set of words in a language, an equivalent set in another language is proposed. As these techniques are not based on a previous knowledge of the languages, they can be used to label any pair of languages that share a common branch.
Patrocinadors: Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03).
URI: http://hdl.handle.net/10045/3120
ISSN: 1135-5948
Idioma: spa
Tipus: info:eu-repo/semantics/article
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 38 (abril 2007)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_38_08.pdf65,15 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.