Intensive use of lexicon and corpus for WSD

Nica, Iulia; Martí Antonín, Maria Antònia; Montoyo, Andres; Vázquez, Sonia

Intensive use of lexicon and corpus for WSD

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/1467

Información del item - Informació de l'item - Item information
Title:	Intensive use of lexicon and corpus for WSD
Authors:	Nica, Iulia \| Martí Antonín, Maria Antònia \| Montoyo, Andres \| Vázquez, Sonia
Keywords:	Desambiguación semántica automática \| EuroWordNet \| Word sense disambiguation
Issue Date:	Sep-2004
Publisher:	Sociedad Española para el Procesamiento del Lenguaje Natural
Citation:	NICA, Iulia, et al. “Intensive use of lexicon and corpus for WSD”. Procesamiento del lenguaje natural. Nº 33 (septiembre 2004), pp. 147-154
Abstract:	El artículo trata sobre el uso de información lingüística en la Desambiguación Semántica Automática (DSA). Proponemos un método de DSA basado en conocimiento y no supervisado, que requiere sólo un corpus amplio, previamente etiquetado a nivel morfológico, y muy poco conocimiento gramatical. El proceso de DSA se realiza a través de los patrones sintácticos en los que una ocurrencia ambigua aparece, en base a la hipótesis de "almost one sense per syntactic pattern". Esta integración nos permite extraer información paradigmática y sintagmática del corpus relacionada con la ocurrencia ambigua. Usamos variantes de la información de EuroWordNet asociada a los sentidos y dos algoritmos de DSA. Presentamos los resultados obtenidos en la aplicación del método sobre la tarea Spanish lexical sample de Senseval-2. La metodología es fácilmente transferible a otras lenguas. \| The paper addresses the issue of how to use linguistic information in Word Sense Disambiguation (WSD). We introduce a knowledge-driven and unsupervised WSD method that requires only a large corpus previously tagged with POS and very little grammatical knowledge. The WSD process is performed taking into account the syntactic patterns in which the ambiguous occurrence appears, relaying in the hypothesis of “almost one sense per syntactic pattern”. This integration allows us to obtain, from corpora, paradigmatic and syntagmatic information related to the ambiguous occurrence. We also use variants of EWN information for word senses and different WSD algorithms. We report the results obtained when applying the method on the Spanish lexical sample task in Senseval-2. This methodology is easily transportable to other languages.
URI:	http://hdl.handle.net/10045/1467
ISSN:	1135-5948
Language:	eng
Type:	info:eu-repo/semantics/article
Appears in Collections:	Procesamiento del Lenguaje Natural - Nº 33 (septiembre 2004) INV - GPLSI - Artículos de Revistas

Files in This Item:

Files in This Item:
File	Description	Size	Format
PLN_33_20.pdf		213,74 kB	Adobe PDF	Open Preview Close preview

See citations in Google Scholar

Show full item record