Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1717
Información del item - Informació de l'item - Item information
Título: Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR
Autor/es: García Vega, Manuel | Martínez Santiago, Fernando | Ureña López, Luis Alfonso | Martín Valdivia, María Teresa
Palabras clave: Recuperación de información multilingüe | Clustering | Alineación de textos | Recursos lingüísticos | Tesauro | Cross language information retrieval | Clustering | Alignment of texts | Linguistic resources | Thesaurus
Fecha de publicación: may-2002
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: GARCÍA VEGA, Manuel, et al. “Generación de un tesauro de similitud multilingüe a partir de un corpus comparable aplicado a CLIR”. Procesamiento del lenguaje natural. Nº 28 (mayo 2002), pp. 55-62
Resumen: En este trabajo se describe un nuevo enfoque para generar de manera automática un tesauro de similitud a través de un corpus comparable con el fin de aplicarlo a tareas de recuperación de información multilingüe. Aunque la disponibilidad de recursos lingüísticos es cada vez mayor, todavía hoy en día es dificil el acceso a algunos de ellos, sobre todo en ámbitos multilingües. Incluso, la propia complejidad de la tarea CLIR requiere el uso conjunto de varios recursos para aumentar la eficacia del sistema. Los corpus comparables son uno de estos recursos multilingües especialmente interesantes por su disponibilidad y por la posibilidad de generarlos automáticamente. Sin embargo, para que sean útiles deben estar alineados al menos a nivel de documento. Para llevar a cabo esta tarea, se han utilizado técnicas de clustering. Una vez que los documentos están alineados, se genera el tesauro de similitud a partir de ellos. Los experimentos realizados muestran que los tesauros de similitud multilingües son una buena alternativa cuando otros recursos más adecuados no están disponibles. | In this work, it is described a new approach to automatically generate a similarity thesaurus through a comparable corpus, with the aim of applying it to Cross Language Information Retrieval. Although the availability of linguistic resources is higher and higher, it is still difficult to heve access to some of them, above all on multilingual circles. Even, the complexity itself of the ask CLIR requires the global use of several resources to increase the efficiency of the system. The comparable corpus are one of this multilingual resources specially interesting due to its availability and due do its chance to be generated automatically. However, in order to make these corpora useful, they should be aligned at least at document level. In order to carry out this task, clustering techniques have been used. Once the documents are aligned, the similarity thesaurus is generated from them. The accomplished experiments show that the multilingual similarity thesaurus are a good chance when other more suitable resources are not available.
URI: http://hdl.handle.net/10045/1717
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 28 (mayo 2002)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_28_05.pdf156,68 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.