Title: Aprendizaje neuronal aplicado a la fusión de colecciones multilingües en CLIR
Authors: Martín Valdivia, María Teresa | Martínez Santiago, Fernando | Ureña López, Luis Alfonso
Keywords: Redes neuronales artificiales | Sistemas CLIR | LVQ | RSV en dos pasos | Regresión logística | Estrategias de fusión de documentos | Artificial neural networks | CLIR systems | 2-step RSV | Logistic regresion | Merging document strategies
Issue Date: Sep-2003
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: MARTÍN VALDIVIA, María Teresa; MARTÍNEZ SANTIAGO, Fernando; UREÑA LÓPEZ, Luis Alfonso. “Aprendizaje neuronal aplicado a la fusión de colecciones multilingües en CLIR”. Procesamiento del lenguaje natural. Nº 31 (septiembre 2003), pp. 227-234
Abstract: Un problema común al trabajar con sistemas CLIR (Cross-Lingual Information Retrieval) basados en la traducción de consultas consiste en obtener una única lista de documentos relevantes a partir de los resultados locales obtenidos para cada colección monolingüe. En este trabajo se presenta un estudio comparativo de las estrategias tradicionalmente usadas para resolver este problema. Se incluyen en el estudio dos técnicas recientes: la regresión logística y el cálculo del RSV (Retrieve Status Value) en dos pasos. Además, se presenta e implementa una nueva técnica basada en redes neuronales artificiales que utiliza el algoritmo LVQ (Learning Vector Quantization) y con la que se obtienen resultados prometedores. Como muestran los experimentos realizados, los mejores resultados son obtenidos mediante el uso de la técnica denominada RSV en dos pasos. Sin embargo, este método requiere que las consultas estén alineadas a nivel de término. Esto es, para cada término de la consulta, debe conocerse cómo ha sido traducido al resto de los idiomas. Dado que tal información no siempre está disponible, es usual que las consultas cuenten con una parte alineada y otra no alineada. Es por ello que la segunda parte del artículo, estudia la forma de integrar la información obtenida a partir de la parte alineada y la no alineada en el método RSV en dos pasos mediante el uso de regresión logística y LVQ. | A very common problem that arises when we deal with CLIR systems based on queries translation consists of obtaining an only relevant documents list from the local results of each monolingual collection. In this work a comparative study of the strategies traditionally used appears to solve this problem. Two recent techniques are included in the study: the logistic regression and the calculation of the 2-step RSV. We include two recent techniques: logistic regression and 2- step RSV. Moreover, we present and implement a new technique based on neural networks using LVQ algorithm with promising results obtained. The experiments show that best results are obtained by the 2-step RSV technique. Nevertheless, this method requires that the query must be aligned at term level. That is, it must be known how each term of the query has been translated into different languages. As such information is not always available, it is usual that the query has an aligned and not aligned part. So, we study the way of integrating the data obtained from the aligned and not aligned part in 2-step RSV method by means of the use of logistic regression and LVQ.
Sponsor: Este trabajo ha sido financiado con el proyecto (MCYT) FIT-150500-2003-412.
ISSN: 1135-5948
Language: spa
Type: info:eu-repo/semantics/article
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_31_27.pdf168,27 kBAdobe PDFOpen Preview

