Técnicas de representación de textos para clasificación no supervisada de documentos

Cobo Rodríguez, Germán; Sevillano Domínguez, Xavier; Alías Pujol, Francesc; Socoró Carrié, Joan Claudi

Técnicas de representación de textos para clasificación no supervisada de documentos

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3342

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Cobo Rodríguez, Germán	-
dc.contributor.author	Sevillano Domínguez, Xavier	-
dc.contributor.author	Alías Pujol, Francesc	-
dc.contributor.author	Socoró Carrié, Joan Claudi	-
dc.date.accessioned	2007-11-28T16:39:45Z	-
dc.date.available	2007-11-28T16:39:45Z	-
dc.date.issued	2006-09	-
dc.identifier.citation	COBO RODRÍGUEZ, Germán, et al. "Técnicas de representación de textos para clasificación no supervisada de documentos". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 329-336	en
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/3342	-
dc.description.abstract	En este artículo se estudia el impacto de la representación del texto en el ámbito de la clasificación no supervisada (CNS) de documentos. Tomando como referencia una representación basada en un modelo de espacio vectorial de términos, se analizan diferentes técnicas de representación de los datos sobre espacios de menor dimensionalidad (obtenidas mediante técnicas de extracción de términos como el Análisis de Semántica Latente, la Factorización en Matrices No Negativas y el Análisis en Componentes Independientes) con el objetivo de mejorar la CNS de un corpus de documentos. El rendimiento ofrecido por cada una de estas técnicas de representación de textos se analiza sobre diferentes corpus de documentos y problemas de clasificación, evaluando tanto el coste computacional de los algoritmos, como los resultados de la clasificación conseguidos mediante distintas métricas de evaluación.	en
dc.description.abstract	This paper analyzes the influence of text representation in the document clustering problem. Taking a term-based vector space model representation as a reference, several low-dimensionality data representation techniques are analyzed (derived by means of terms extraction techniques such as Latent Semantic Analysis, Non-negative Matrix Factorization and Independent Component Analysis) in order to improve clustering results. The performance of these text representation techniques is analyzed over different text corpora and several classification tasks, evaluating their computational cost and classification efficiency by means of different performance metrics.	en
dc.language	spa	en
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	en
dc.relation.ispartof	Procesamiento del lenguaje natural, nº 37 (sept. 2006), pp. 329-336	en
dc.subject	Clasificación no supervisada de documentos	en
dc.subject	Modelo de espacio vectorial	en
dc.subject	LSA	en
dc.subject	NMF	en
dc.subject	ICA	en
dc.subject	Document clustering	en
dc.subject	Vector space model	en
dc.title	Técnicas de representación de textos para clasificación no supervisada de documentos	en
dc.type	info:eu-repo/semantics/article	en
dc.rights.accessRights	info:eu-repo/semantics/openAccess	-
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_37_40.pdf		189,46 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo