A comparative study of clustering algorithms on narrow-domain abstracts

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3110
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorPinto Avendaño, David Eduardo-
dc.contributor.authorRosso, Paolo-
dc.contributor.authorJuan Císcar, Alfons-
dc.contributor.authorJiménez Salazar, Héctor-
dc.date.accessioned2007-11-19T11:57:58Z-
dc.date.available2007-11-19T11:57:58Z-
dc.date.issued2006-09-
dc.identifier.citationPINTO AVENDAÑO, David Eduardo, et al. "A comparative study of clustering algorithms on narrow-domain abstracts". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 43-49en
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/3110-
dc.description.abstractEl agrupamiento de resúmenes de textos científicos de dominios sumamente restringidos implica un alto grado de complejidad, debido principalmente al alto grado de traslape de vocabularios entre los textos y la baja frecuencia de ocurrencia de los términos en dichos documentos. El uso de la técnica del punto de transición ha resultado de suma utilidad en esta tarea del Procesamiento del Lenguaje Natural (PLN). Su bondad se encuentra sustentada en el conjunto de palabras que extrae del vocabulario de un texto: los términos de frecuencia media. Si bien, la importancia del uso de este tipo términos en PLN es bastante conocida, la extracción de los mismos no lo es. En este trabajo se presentan resultados experimentales en el uso de dicha técnica como un mecanismo de selección de características en dos corpora de dominios sumamente restringidos. Los resultados experimentales muestran que la técnica elegida obtiene los mejores valores de medida-F bajo cinco diferentes métodos de agrupamiento.en
dc.description.abstractClustering abstracts of scientific texts of very narrow domain implies a big challenge. The first problem to attend is the high overlapping among the document’s vocabularies, besides the low frequency of these terms. The transition point technique has been successfully used in this area of Natural Language Processing (NLP). Its best properties rely on the extraction of the mid-frequency terms. Although the importance of these terms on NLP has been known from time ago, the exact extraction of these terms is unknown. In this paper we present an application of this technique as a feature selection technique in two corpora of very narrow domain. The experimental results show that the transition point technique obtains the best results of F-measure with five different clustering methods.en
dc.description.sponsorshipThis project was partially supported by the R2D2 (CICYT TIC2003-07158-C04-03) and ICT EU-India (ALA/95/23/2003/077-054) research projects, as well as by the BUAP-701 PROMEP/103.5/05/1536 grant.en
dc.languageengen
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturalen
dc.relation.ispartofProcesamiento del lenguaje natural, nº 37 (sept. 2006), pp. 43-49en
dc.subjectAgrupamiento de resúmenesen
dc.subjectTécnica del punto de transiciónen
dc.subjectDominios restringidosen
dc.subjectClustering of abstractsen
dc.subjectTransition Point techniqueen
dc.subjectNarrow domainen
dc.titleA comparative study of clustering algorithms on narrow-domain abstractsen
dc.typeinfo:eu-repo/semantics/articleen
dc.rights.accessRightsinfo:eu-repo/semantics/openAccess-
Aparece en las colecciones:Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_37_06.pdf193 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.