Comparing Distributional Semantics Models for identifying groups of semantically related words

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/57758
Información del item - Informació de l'item - Item information
Title: Comparing Distributional Semantics Models for identifying groups of semantically related words
Other Titles: Comparación de dos modelos de semántica distribucional para identificar grupos de palabras semánticamente relacionadas
Authors: Kovatchev, Venelin | Salamó Llorente, Maria | Martí Antonín, Maria Antònia
Keywords: DSM | Word2Vec | CLUTO | Semantic grouping | Agrupación semántica de palabras
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: Sep-2016
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2016, 57: 109-116
Abstract: Distributional Semantic Models (DSM) are growing in popularity in Computational Linguistics. DSM use corpora of language use to automatically induce formal representations of word meaning. This article focuses on one of the applications of DSM: identifying groups of semantically related words. We compare two models for obtaining formal representations: a well known approach (CLUTO) and a more recently introduced one (Word2Vec). We compare the two models with respect to the PoS coherence and the semantic relatedness of the words within the obtained groups. We also proposed a way to improve the results obtained by Word2Vec through corpus preprocessing. The results show that: a) CLUTO outperformsWord2Vec in both criteria for corpora of medium size; b) The preprocessing largely improves the results for Word2Vec with respect to both criteria. | Los Modelos de Semántica Distribucional (MSD) están siendo utilizados de manera extensiva en el área de la Lingüística Computacional. Los MSD utilizan corpus de uso de la lengua para inducir de manera automática diferentes tipos de representaciones sobre el significado de las palabras. Este artículo se centra en una de las aplicaciones de los MSD: la identificación de grupos de palabras semánticamente relacionadas. Se comparan dos modelos de obtención de representaciones formales: CLUTO, una herramienta estándar de clusterización y Word2Vec, una aproximación reciente al tema. Comparamos los resultados obtenidos con ambos modelos basándonos en dos criterios: la coherencia que presentan estas agrupaciones respecto de la categoría morfosintáctica y la cohesión semántica entre las palabras dentro de cada grupo. Se propone también como mejorar los resultados obtenidos con Word2Vec mediante su preprocesamiento morfosintáctico. Los resultados obtenidos demuestran que: a) CLUTO supera a Word2Vec en ambos criterios cuando se trata de corpus de tamaño medio: b) el preprocesamiento mejora de manera clara los resultados obtenidos con Word2Vec para ambos criterios.
Sponsor: This work was supported by projects TIN2012-38603-C02-02, SGR-2014-623 and TIN2015-71147-C2-2.
URI: http://hdl.handle.net/10045/57758
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural
Peer Review: si
Publisher version: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 57 (2016)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_57_12.pdf264,09 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.