Exploring feature set combinations for WSD

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/3309
Información del item - Informació de l'item - Item information
Title: Exploring feature set combinations for WSD
Authors: Agirre Bengoa, Eneko | López de Lacalle Lekuona, Oier | Martínez Iraola, David
Keywords: Desambiguación de acepciones de palabra | Espacio de atributos | K Nearest Neighbor | Word sense disanbiguation | Feature space | Combination
Issue Date: Sep-2006
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: AGIRRE BENGOA, Eneko; LÓPEZ DE LACALLE LEKUONA, Oier; MARTÍNEZ IRAOLA, David. "Exploring feature set combinations for WSD". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 285-291
Abstract: Este trabajo explora la división de atributos en grupos para poder mejorar la desambiguación de acepciones (WSD) mediante la combinación de sistemas entrenados en cada uno de estos grupos de atributos. Los resultados conseguidos demuestran que sólo k-NN es capaz de obtener beneficio de la combinación de la división de atributos, y que el voto único no es suficiente para la mejora. Por ello proponemos combinar todo los subsistemas k-NN donde cada vecino da su voto según su rango de vecindad. Para la evaluación hemos utilizado dos conjuntos de datos (Senseval-3 Lexical-Sample y All-words ), fijando las mejores opciones de combinación en un tercer conjunto de datos (Senseval-2 Lexical-Sample). Los resultados para la tarea All-words de Senseval-3 son los mejores que se han publicado hasta el día de hoy. Los resultados del Lexical-Sample se situan entre los mejores en el estado-del-arte. | This paper explores the split of features sets in order to obtain better wsd systems through combinations of classifiers learned over each of the split feature sets. Our results show that only k-NN is able to profit from the combination of split features, and that simple voting is not enough for that. Instead we propose combining all k-NN subsystems where each of the k neighbors casts one vote. We have performed a thorough evaluation on two datasets (Senseval-3 Lexical-Sample and All-words), having set the best combination options in a development dataset (Senseval-2 Lexical-Sample). The results for the All-Words task are the best published up to date. The results for the lexical sample are state-of-the-art.
URI: http://hdl.handle.net/10045/3309
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_37_35.pdf151,87 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.