|
RUA >
Journals and Conferences >
Journals >
Procesamiento del Lenguaje Natural >
Revistas - Procesamiento del Lenguaje Natural - Nº 34 (marzo 2005) >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/10045/1437
|
Show this item's statistics
| Título: | Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras |
| Autor/es: | Suárez Cueto, Armando | Palomar Sanz, Manuel | Rigau Claramunt, German |
| Palabras clave: | Desambiguación léxica | Máxima entropía | Basado en corpus | Boots-trapping | Co-training | Word sense disambiguation | Maximum entropy | Corpus-based |
| Issue Date: | Mar-2005 |
| Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
| Cita bibliográfica: | SUÁREZ CUETO, Armando; PALOMAR SANZ, Manuel; RIGAU CLARAMUNT, German. “Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras”. Procesamiento del lenguaje natural. Nº 34 (marzo 2005), pp. 49-66 |
| Resumen: | Este artículo presenta un algoritmo iterativo-incremental, reentrenamiento,
que adquiere de forma automática nuevos ejemplos anotados semánticamente,
asegurando una alta precisión. El algoritmo se inscribe dentro de los métodos de
aprendizaje automático basados en corpus y usa los modelos de probabilidad de
máxima entropía. Reentrenamiento consiste en la retroalimentación del corpus de
entrenamiento, mediante sucesivos ciclos de aprendizaje y clasificación, de nuevos
ejemplos clasificados con un grado alto de confianza. Este nuevo método se inspira en
los algoritmos de coentrenamiento (co-training) pero asumiendo unas restricciones
más fuertes a la hora de decidir qué ejemplos se etiquetan e incorporan a la siguiente
iteración y cuáles no. | This paper presents re-training, a bootstrapping algorithm that automatically
acquires semantically annotated data, ensuring high levels of precision.
This algorithm uses a corpus-based system of word sense disambiguation that relies
on maximum entropy probability models. The re-training method consists of
the iterative feeding of training-classification cycles with new and high-confidence
examples. The process relies on several filters that ensure the accuracy of the disambiguation
by discarding uncertain classifications. This new method is inspired
by co-training algorithms, but it makes stronger assumptions on when to assign a
label to a linguistic context. |
| Patrocinador/es: | This paper has been partially supported by the
Spanish Government (CICyT) under project number
TIC2000-0664-C02-02 and the Valencia Government
(OCyT) under project number CTIDIB-2002-151. |
| URI: | http://hdl.handle.net/10045/1437 |
| ISSN: | 1135-5948 |
| Idioma: | spa |
| Tipo: | info:eu-repo/semantics/article |
| Appears in Collections: | Revistas - Procesamiento del Lenguaje Natural - Nº 34 (marzo 2005) INV - GPLSI - Artículos de Revistas
|
Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated
|