Similitud entre documentos multilingües de carácter científico-técnico en un entorno Web
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/2949
Título: | Similitud entre documentos multilingües de carácter científico-técnico en un entorno Web |
---|---|
Autor/es: | Saralegi Urizar, Xabier | Alegría Loinaz, Iñaki |
Palabras clave: | CLIR | Similitud translingüe | Enlazado translingüe | RSS | Cross-lingual similarity | Cross-lingual linking |
Fecha de publicación: | sep-2007 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | SARALEGI URIZAR, Xabier; ALEGRÍA LOINAZ, Iñaki. "Similitud entre documentos multilingües de carácter científico-técnico en un entorno Web". Procesamiento del lenguaje natural. N. 39 (sept. 2007). ISSN 1135-5948, pp.71-78 |
Resumen: | En este artículo se presenta un sistema para la agrupación multilingüe de documentos que tratan temas similares. Para la representación de los documentos se ha empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de las palabras clave, la fórmula tf-idf para el cálculo de sus relevancias, y RSS feedback y wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científico-técnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de carácter general. Los resultados obtenidos han sido evaluados manualmente. | In this paper we present a system to identify documents of similar content. To represent the documents we’ve used the vector space model using linguistic knowledge to choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the vector has been carried off by technical dictionaries combined with general dictionaries. The obtained results have been evaluated in order to estimate the precision of the system. |
Patrocinador/es: | Este trabajo está subvencionado por el Departamento de Industria del Gobierno Vasco (proyectos Dokusare SA-2005/00272, Dokusare SA-2006/00167). |
URI: | http://hdl.handle.net/10045/2949 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 39 (septiembre 2007) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_39_09.pdf | 144,97 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.