Medidas internas y externas en el agrupamiento de resúmenes científicos de dominios reducidos

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/2947
Información del item - Informació de l'item - Item information
Título: Medidas internas y externas en el agrupamiento de resúmenes científicos de dominios reducidos
Autor/es: Ingaramo, Diego Alejandro | Errecalde, Marcelo Luis | Rosso, Paolo
Palabras clave: Agrupamiento de resúmenes | Dominios muy restringidos | Medidas de evaluación | Clustering of abstracts | Narrow domains | Evaluation measures
Fecha de publicación: sep-2007
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: INGARAMO, Diego Alejandro; ERRECALDE, Marcelo Luis; ROSSO, Paolo. "Medidas internas y externas en el agrupamiento de resúmenes científicos de dominios reducidos" Procesamiento del lenguaje natural. N. 39 (sept. 2007). ISSN 1135-5948; pp. 55-62
Resumen: Los algoritmos de agrupamiento suelen evaluarse o utilizan en su funcionamiento distintas medidas internas (u objetivas) como el índice de Davies-Boulding o el índice de Dunn, que intentan reflejar propiedades estructurales del resultado del agrupamiento. Sin embargo, la presencia de estas propiedades estructurales no garantiza la usabilidad de los resultados para el usuario, una propiedad subjetiva reflejada por medidas externas como la medida F y que determinan hasta que punto los grupos obtenidos se asemejan a los que se hubieran logrado con una categorización manual real. En trabajos previos, se ha observado una correlación interesante entre la medida de densidad esperada (interna) y la tradicional medida F (externa) en tareas de agrupamiento con documentos del corpus standard RCV1. En este trabajo, analizamos si esta relación también se verifica en tareas de agrupamiento de resúmenes en dominios muy restringidos. Este tipo de tarea ha demostrado tener un alto grado de complejidad y por ello, un análisis de este estilo, puede ser útil para determinar cuales son las propiedades estructurales fundamentales a tener en cuenta a la hora de diseñar algoritmos de agrupamiento para este tipo de dominios. | Clustering algorithms are usually based (and evaluated) taking into account internal (or objective) measures such as the Davies-Boulding index or the Dunn index which attempt to evaluate particular structural properties of the clustering result. However, the presence of such structural properties does not guarantee the interestingness or usability of the results for the user, a subjective property usually captured by external measures like the F-measure that determine up to what extent the resulting groups resemble a real human classification. In previous works, an interesting correspondence have been observed between the (internal) expected density measure and the (external) F-measure in clustering tasks with documents from the standard corpus RCV1. In this work, we investigate if that correspondence also is verified in clustering on narrow-domain abstracts tasks. This is a challenging problem and we think that this kind of study can be useful for detecting which are the most relevant structural properties which should be considered when designing clustering algorithms for these domains.
Patrocinador/es: El trabajo fue financiado parcialmente por los proyectos de investigación TIN2006-15265-C06-04 y ANPCyT-PICT-2005-34015.
URI: http://hdl.handle.net/10045/2947
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 39 (septiembre 2007)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_39_07.pdf241,47 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.