Técnicas de representación de textos para clasificación no supervisada de documentos

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/3342
Información del item - Informació de l'item - Item information
Title: Técnicas de representación de textos para clasificación no supervisada de documentos
Authors: Cobo Rodríguez, Germán | Sevillano Domínguez, Xavier | Alías Pujol, Francesc | Socoró Carrié, Joan Claudi
Keywords: Clasificación no supervisada de documentos | Modelo de espacio vectorial | LSA | NMF | ICA | Document clustering | Vector space model
Issue Date: Sep-2006
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: COBO RODRÍGUEZ, Germán, et al. "Técnicas de representación de textos para clasificación no supervisada de documentos". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 329-336
Abstract: En este artículo se estudia el impacto de la representación del texto en el ámbito de la clasificación no supervisada (CNS) de documentos. Tomando como referencia una representación basada en un modelo de espacio vectorial de términos, se analizan diferentes técnicas de representación de los datos sobre espacios de menor dimensionalidad (obtenidas mediante técnicas de extracción de términos como el Análisis de Semántica Latente, la Factorización en Matrices No Negativas y el Análisis en Componentes Independientes) con el objetivo de mejorar la CNS de un corpus de documentos. El rendimiento ofrecido por cada una de estas técnicas de representación de textos se analiza sobre diferentes corpus de documentos y problemas de clasificación, evaluando tanto el coste computacional de los algoritmos, como los resultados de la clasificación conseguidos mediante distintas métricas de evaluación. | This paper analyzes the influence of text representation in the document clustering problem. Taking a term-based vector space model representation as a reference, several low-dimensionality data representation techniques are analyzed (derived by means of terms extraction techniques such as Latent Semantic Analysis, Non-negative Matrix Factorization and Independent Component Analysis) in order to improve clustering results. The performance of these text representation techniques is analyzed over different text corpora and several classification tasks, evaluating their computational cost and classification efficiency by means of different performance metrics.
URI: http://hdl.handle.net/10045/3342
ISSN: 1135-5948
Language: spa
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_37_40.pdf189,46 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.