Alineamiento de entidades con nombre usando distancia léxica
Empreu sempre aquest identificador per citar o enllaçar aquest ítem
http://hdl.handle.net/10045/3120
Títol: | Alineamiento de entidades con nombre usando distancia léxica |
---|---|
Autors: | Borrego Ropero, Rafael | Díaz Madrigal, Víctor Jesús |
Paraules clau: | Alineamiento | Etiquetado de entidades | Edit distance | Corpora bilingüe | Alignment | Name entity recognition | Bilingual corpora |
Data de publicació: | d’abril-2007 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citació bibliogràfica: | BORREGO ROPERO, Rafael; DÍAZ MADRIGAL, Victor Jesús. "Alineamiento de entidades con nombre usando distancia léxica". Procesamiento del lenguaje natural. N. 38 (abr. 2007). ISSN 1135-5948, pp. 61-66 |
Resum: | En este artículo se presenta un sistema para asistir en el etiquetado de entidades con nombre y palabras semánticamente relevantes en corpora bilingüe. Además de las heurísticas usadas habitualmente para el alineamiento de corpora basadas en la frecuencia y la posición, se ha aprovechado el alto parecido lexicográfico entre palabras pertenecientes a lenguajes cercanos, como el español y el francés, para usar el algoritmo Edit Distance. Tras estudiar los resultados de estas técnicas, se ha realizado un sistema de votación ponderada que, a partir de una secuencia de palabras en un lenguaje, propone una secuencia equivalente en el otro idioma. Al ser técnicas que no se basan en un conocimiento previo de los lenguajes, pueden ser adaptadas para etiquetar dos lenguajes cualesquiera que tengan un tronco común. | In this article a system is presented to help in labelling named entities and meaningful words in bilingual parallel corpora. Besides the strategies used frequently in the alignment of corpora based on word frequency and position, it has been taken advantage of the high lexicographical similarity among words in nearby languages as Spanish and French to use the algorithm Edit Distance. After studying the results of these techniques, a system of voting has been defined that given a set of words in a language, an equivalent set in another language is proposed. As these techniques are not based on a previous knowledge of the languages, they can be used to label any pair of languages that share a common branch. |
Patrocinadors: | Este trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia (TIN 2004-07246-C03-03). |
URI: | http://hdl.handle.net/10045/3120 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipus: | info:eu-repo/semantics/article |
Apareix a la col·lecció: | Procesamiento del Lenguaje Natural - Nº 38 (abril 2007) |
Arxius per aquest ítem:
Arxiu | Descripció | Tamany | Format | |
---|---|---|---|---|
PLN_38_08.pdf | 65,15 kB | Adobe PDF | Obrir Vista prèvia | |
Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.