Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/1338
Información del item - Informació de l'item - Item information
Title: Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos
Authors: Jiménez Salazar, Héctor | Pinto Avendaño, David Eduardo | Rosso, Paolo
Keywords: Selección de términos | Agrupamiento | Resumen | Term selection | Clustering | Abstract
Issue Date: Sep-2005
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: JIMÉNEZ SALAZAR, Héctor; PINTO AVENDAÑO, David Eduardo; ROSSO, Paolo. “Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos”. Procesamiento del lenguaje natural. Nº 35 (sept. 2005), pp. 383-390
Abstract: La aplicación de los métodos de agrupamiento de textos considera la decisión crítica sobre cuáles términos serán usados para representar a cada instancia de la colección. Abordamos el agrupamiento de resúmenes de textos de un dominio específico. Así, el problema se complica porque hay pocos elementos que pueden usarse en la selección de términos, y se tratan textos muy parecidos. Nuestro enfoque ha sido utilizar los términos cuya frecuencia está en una vecindad del llamado punto de transición; la frecuencia que divide al vocabulario del texto en términos de alta y baja frecuencia. En las pruebas se utilizó una variante del método vecino más cercano sobre una colección de resúmenes del evento CICLing-2002. Evaluamos nuestros resultados con el estándar dado en el mismo evento y observamos un alto índice de desempeño con el método de selección de términos que proponemos. | Nowadays a wide variety of clustering methods exist. The critical decision of what keywords will be used in the representation of the collection is considered in those methods. In this paper we deal with the problem of clustering a set of short texts from an specific domain. Thus, the problem become to be more complex because of the small number of terms that can be used in term selection process; besides, all texts of the collection are very similar. Our approach uses a neighborhood of terms around of the named transition point (frequency that divides vocabulary in terms of high and low frequency). In our tests over a collection of abstracts from CICLing-2002, a modified method of Nearest Neighbour (NN) was used. We used a Gold Standard for the evaluation, observing a high performance for the proposed method.
Sponsor: Este trabajo fue parcialmente apoyado por BUAP-VIEP # III9-ING/G.
URI: http://hdl.handle.net/10045/1338
ISSN: 1135-5948
Language: spa
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 35 (septiembre 2005)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_35_47.pdf123,58 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.