Jiménez Salazar, Héctor, Pinto Avendaño, David Eduardo, Rosso, Paolo Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos JIMÉNEZ SALAZAR, Héctor; PINTO AVENDAÑO, David Eduardo; ROSSO, Paolo. “Uso del punto de transición en la selección de términos índice para agrupamiento de textos cortos”. Procesamiento del lenguaje natural. Nº 35 (sept. 2005), pp. 383-390 URI: http://hdl.handle.net/10045/1338 DOI: ISSN: 1135-5948 Abstract: La aplicación de los métodos de agrupamiento de textos considera la decisión crítica sobre cuáles términos serán usados para representar a cada instancia de la colección. Abordamos el agrupamiento de resúmenes de textos de un dominio específico. Así, el problema se complica porque hay pocos elementos que pueden usarse en la selección de términos, y se tratan textos muy parecidos. Nuestro enfoque ha sido utilizar los términos cuya frecuencia está en una vecindad del llamado punto de transición; la frecuencia que divide al vocabulario del texto en términos de alta y baja frecuencia. En las pruebas se utilizó una variante del método vecino más cercano sobre una colección de resúmenes del evento CICLing-2002. Evaluamos nuestros resultados con el estándar dado en el mismo evento y observamos un alto índice de desempeño con el método de selección de términos que proponemos. Nowadays a wide variety of clustering methods exist. The critical decision of what keywords will be used in the representation of the collection is considered in those methods. In this paper we deal with the problem of clustering a set of short texts from an specific domain. Thus, the problem become to be more complex because of the small number of terms that can be used in term selection process; besides, all texts of the collection are very similar. Our approach uses a neighborhood of terms around of the named transition point (frequency that divides vocabulary in terms of high and low frequency). In our tests over a collection of abstracts from CICLing-2002, a modified method of Nearest Neighbour (NN) was used. We used a Gold Standard for the evaluation, observing a high performance for the proposed method. Keywords:Selección de términos, Agrupamiento, Resumen, Term selection, Clustering, Abstract Sociedad Española para el Procesamiento del Lenguaje Natural info:eu-repo/semantics/article