An Unsupervised Algorithm for Person Name Disambiguation in the Web

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/40024
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorDelgado Muñoz, Agustín D.-
dc.contributor.authorMartínez Unanue, Raquel-
dc.contributor.authorFresno Fernández, Víctor-
dc.contributor.authorMontalvo Herranz, Soto-
dc.date.accessioned2014-09-04T11:45:01Z-
dc.date.available2014-09-04T11:45:01Z-
dc.date.issued2014-09-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2014, 53: 51-58es
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/40024-
dc.description.abstractIn this paper we present an unsupervised approach for clustering the results of a search engine when the query is a person name shared by different individuals. We represent the web pages using n-grams, comparing different kind of information and different length of n-grams. Moreover, we propose a new clustering algorithm that calculates the number of clusters and establishes the groups of web pages according to the different individuals, without the need of any training data or predefined thresholds, as the successful state of the art systems do. Our approach is compared with three gold standard collections compiled by different evaluation campaigns for the task of Web People Search. We obtain really competitive results, comparable to those obtained by the best approaches that use annotated data.es
dc.description.abstractEn este trabajo presentamos un sistema no supervisado para agrupar los resultados proporcionados por un motor de búsqueda cuando la consulta corresponde a un nombre de persona compartido por diferentes individuos. Las páginas web se representan mediante n-gramas de diferente información y tamaño. Además, proponemos un algoritmo de clustering capaz de calcular el número de clusters y devolver grupos de páginas web correspondientes a cada uno de los individuos, sin necesidad de entrenamiento ni umbrales predefinidos, como hacen los mejores sistemas del estado del arte en esta tarea. Hemos evaluado nuestra propuesta con tres colecciones de evaluación propuestas en diferentes campañas de evaluación para la tarea de Desambiguación de Personas en la Web. Los resultados obtenidos son competitivos y comparables a aquellos obtenidos por los mejores sistemas del estado del arte que utilizan algún tipo de supervisión.es
dc.description.sponsorshipThe authors would like to thank the financial support for this research to the Spanish research project Holopedia funded by the Ministerio de Ciencia e Innovación under grant TIN2010-21128-C02 and by UNED Project (2012V/PUNED/0004).es
dc.languageenges
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales
dc.subjectUnsupervised learninges
dc.subjectClusteringes
dc.subjectN-gramses
dc.subjectWeb people searches
dc.subjectAprendizaje no supervisadoes
dc.subjectN-gramases
dc.subjectBúsqueda de personas en la webes
dc.subject.otherLenguajes y Sistemas Informáticoses
dc.titleAn Unsupervised Algorithm for Person Name Disambiguation in the Webes
dc.title.alternativeAlgoritmo no supervisado para desambiguación de nombres de personas en la webes
dc.typeinfo:eu-repo/semantics/articlees
dc.peerreviewedsies
dc.relation.publisherversionhttp://journal.sepln.org/sepln/ojs/ojs/index.php/plnes
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 53 (2014)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_53_05.pdf616,14 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.