A comparative study of clustering algorithms on narrow-domain abstracts

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/3110
Información del item - Informació de l'item - Item information
Title: A comparative study of clustering algorithms on narrow-domain abstracts
Authors: Pinto Avendaño, David Eduardo | Rosso, Paolo | Juan Císcar, Alfons | Jiménez Salazar, Héctor
Keywords: Agrupamiento de resúmenes | Técnica del punto de transición | Dominios restringidos | Clustering of abstracts | Transition Point technique | Narrow domain
Issue Date: Sep-2006
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: PINTO AVENDAÑO, David Eduardo, et al. "A comparative study of clustering algorithms on narrow-domain abstracts". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 43-49
Abstract: El agrupamiento de resúmenes de textos científicos de dominios sumamente restringidos implica un alto grado de complejidad, debido principalmente al alto grado de traslape de vocabularios entre los textos y la baja frecuencia de ocurrencia de los términos en dichos documentos. El uso de la técnica del punto de transición ha resultado de suma utilidad en esta tarea del Procesamiento del Lenguaje Natural (PLN). Su bondad se encuentra sustentada en el conjunto de palabras que extrae del vocabulario de un texto: los términos de frecuencia media. Si bien, la importancia del uso de este tipo términos en PLN es bastante conocida, la extracción de los mismos no lo es. En este trabajo se presentan resultados experimentales en el uso de dicha técnica como un mecanismo de selección de características en dos corpora de dominios sumamente restringidos. Los resultados experimentales muestran que la técnica elegida obtiene los mejores valores de medida-F bajo cinco diferentes métodos de agrupamiento. | Clustering abstracts of scientific texts of very narrow domain implies a big challenge. The first problem to attend is the high overlapping among the document’s vocabularies, besides the low frequency of these terms. The transition point technique has been successfully used in this area of Natural Language Processing (NLP). Its best properties rely on the extraction of the mid-frequency terms. Although the importance of these terms on NLP has been known from time ago, the exact extraction of these terms is unknown. In this paper we present an application of this technique as a feature selection technique in two corpora of very narrow domain. The experimental results show that the transition point technique obtains the best results of F-measure with five different clustering methods.
Sponsor: This project was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03) and ICT EU-India (ALA/95/23/2003/077-054) research projects, as well as by the BUAP-701 PROMEP/103.5/05/1536 grant.
URI: http://hdl.handle.net/10045/3110
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_37_06.pdf193 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.