A comparative study of clustering algorithms on narrow-domain abstracts

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/3110
Información del item - Informació de l'item - Item information
Títol: A comparative study of clustering algorithms on narrow-domain abstracts
Autors: Pinto Avendaño, David Eduardo | Rosso, Paolo | Juan Císcar, Alfons | Jiménez Salazar, Héctor
Paraules clau: Agrupamiento de resúmenes | Técnica del punto de transición | Dominios restringidos | Clustering of abstracts | Transition Point technique | Narrow domain
Data de publicació: de setembre-2006
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: PINTO AVENDAÑO, David Eduardo, et al. "A comparative study of clustering algorithms on narrow-domain abstracts". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 43-49
Resum: El agrupamiento de resúmenes de textos científicos de dominios sumamente restringidos implica un alto grado de complejidad, debido principalmente al alto grado de traslape de vocabularios entre los textos y la baja frecuencia de ocurrencia de los términos en dichos documentos. El uso de la técnica del punto de transición ha resultado de suma utilidad en esta tarea del Procesamiento del Lenguaje Natural (PLN). Su bondad se encuentra sustentada en el conjunto de palabras que extrae del vocabulario de un texto: los términos de frecuencia media. Si bien, la importancia del uso de este tipo términos en PLN es bastante conocida, la extracción de los mismos no lo es. En este trabajo se presentan resultados experimentales en el uso de dicha técnica como un mecanismo de selección de características en dos corpora de dominios sumamente restringidos. Los resultados experimentales muestran que la técnica elegida obtiene los mejores valores de medida-F bajo cinco diferentes métodos de agrupamiento. | Clustering abstracts of scientific texts of very narrow domain implies a big challenge. The first problem to attend is the high overlapping among the document’s vocabularies, besides the low frequency of these terms. The transition point technique has been successfully used in this area of Natural Language Processing (NLP). Its best properties rely on the extraction of the mid-frequency terms. Although the importance of these terms on NLP has been known from time ago, the exact extraction of these terms is unknown. In this paper we present an application of this technique as a feature selection technique in two corpora of very narrow domain. The experimental results show that the transition point technique obtains the best results of F-measure with five different clustering methods.
Patrocinadors: This project was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03) and ICT EU-India (ALA/95/23/2003/077-054) research projects, as well as by the BUAP-701 PROMEP/103.5/05/1536 grant.
URI: http://hdl.handle.net/10045/3110
ISSN: 1135-5948
Idioma: eng
Tipus: info:eu-repo/semantics/article
Apareix a la col·lecció: Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_37_06.pdf193 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.