A part-of-speech tag clustering for a word prediction system in Portuguese language

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/18537
Información del item - Informació de l'item - Item information
Title: A part-of-speech tag clustering for a word prediction system in Portuguese language
Other Titles: Agrupamiento de categorías para un sistema de predicción de palabras en portugués
Authors: Cruz Cavalieri, Daniel | Bastos Filho, Teodiano Freire | Sarcinelli Filho, Mário | Palazuelos Cagigas, Sira Elena | Macías Guarasa, Javier | Martín Sánchez, José Luis
Keywords: Agrupamiento de categorías de palabras | Sistema de predicción de palabras | Modelo del espacio vectorial | Optimización | Lengua portuguesa | Part-of-speech clustering | Word prediction system | Vector space model | Optimization | Portuguese language
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: Sep-2011
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: CRUZ CAVALIERI, Daniel, et al. “A part-of-speech tag clustering for a word prediction system in Portuguese language”. Procesamiento del Lenguaje Natural. N. 47 (2011). ISSN 1135-5948, pp. 197-205
Abstract: Este trabajo presenta un método automático para reducir el conjunto de categorías de palabras que será utilizado por un sistema de predicción de palabras en Portugués. El método se basa en una medida de similitud que se aplica a una matriz de asociación, generada mediante el empleo de una medida de disparidad (odds ratio) aplicada sobre la matriz de distribución de probabilidades de bigramas de categorías (bipos) presentes en un corpus. Los resultados presentados en este trabajo muestran que la utilización del método de agrupamiento propuesto, con un umbral adecuado de similitud, tiene potencial para mejorar el sistema de predicción de palabras. Además posibilita la utilización de nuevas técnicas de agrupamiento de categorías como agrupamiento borroso. Los resultados también muestran que cuando se utiliza un sistema de predicción de palabras basado en un modelo sintáctico, la agrupación no se puede realizar entre las categorías sintácticas más importantes, aunque los grupos generados parezcan correctos desde el punto de vista lingüístisco. | This paper presents an automatic method for reducing the part-of-speech tagset to be considered by a word prediction system in Portuguese. The method is based on a similarity measure applied to a association matrix, generated by employing a odds ratio association measure in the bigrams of parts-of-speech (bipos) probability distribution in a corpus. The results reported in this paper show that using the proposed clustering method with an appropriate threshold value over the similarity has the potential to improve the word prediction system. Moreover, it makes possible to use new clustering techniques such as fuzzy clustering. The results also show that when using a word prediction system based on a syntactic model, the clustering cannot be performed between the major syntactic categories, even if the clusters generated seem correct from a linguistic point of view.
Sponsor: This work was supported by the Spanish Ministry of Science and Innovation under projects VISNU (Ref. TIN2009-08984) and SD-TEAM (Ref. TIN2008-06856-C05-05) and by CAM-UAH under FUVA project (CCG10-UAH/TIC-5988).
URI: http://hdl.handle.net/10045/18537
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Peer Review: si
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 47 (2011)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_47_21.pdf521,01 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.