Desarrollo de un etiquetador morfosintáctico para el español

Sánchez León, Fernando; Nieto Serrano, Amalio Francisco

Desarrollo de un etiquetador morfosintáctico para el español

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/3415

Información del item - Informació de l'item - Item information
Title:	Desarrollo de un etiquetador morfosintáctico para el español
Authors:	Sánchez León, Fernando \| Nieto Serrano, Amalio Francisco
Keywords:	Etiquetado morfosintáctico \| Lingúística de corpus \| Modelos probabilísticos del lenguaje \| Estándares de etiquetado
Issue Date:	Sep-1995
Publisher:	Sociedad Española para el Procesamiento del Lenguaje Natural
Citation:	SÁNCHEZ LEÓN, Fernando; NIETO SERRANO, Amalio Francisco. "Desarrollo de un etiquetador morfosintáctico para el español". Procesamiento del lenguaje natural. N. 17 (sept. 1995). ISSN 1135-5948, pp. 14-28
Abstract:	En este artículo se describe el trabajo en el contexto del proyecto de investigación CRATER (Corpus Resoruces And Terminology ExtRaction, MLAP-93/20), financiado por la Comisión de las Comunidades Europeas. En particular, se tratan los problemas de adaptación del Etiquetador Morfosintáctico de Xerox al español con el fin de etiquetar la versión española del corpus de la Unión Internacional de Telecomunicaciones (ITU). Se presenta brevemente el modelo implementado por este etiquetador junto con algunas modificaciones llevadas a cabo para incorporar en el sistema parámetros no estimados probabilísticamente. Asimismo, se discuten algunas decisiones iniciales, como el conjunto de etiquetas (tagset), el lexicon y el corpus de entrenamiento. Finalmente, se muestran los resultados y se justifican los beneficios de un modelo mixto como el propuesto. \| This paper describes work performed withing the CRATER (Corpus Resources And Terminology ExtRaction, MLAP-93/20) project, funded by the Commission of the European Communities. In particular, it addresses the issue of adapting the Xerox Tagger to Spanish in order to tag the Spanish version of the ITU (International Telecommunications Union) corpus. The model implemented by this tagger is briefly presented along with some modifications performed on it in order to use some parameters not probabilistically estimated. Initial decisions, like the tagset, the lexicon and the training corpus are also discussed. Finally, results are presented and the benefits of the mixed model justified.
Sponsor:	Este trabajo se ha realizado en el contexto del proyecto de investigación CRATER (Corpus Resources And Terminology ExtRaction, MLAP-93/20), financiado por la Comisión de las Comunidades Europeas. En el proyecto participan, además de las instituciones a las que pertenecen los autores del presente artículo, la Universidad de Lancaster (Reino Unido), la empresa Computers, Communications and Visons, C2V (Francia) e IBM-Francia.
URI:	http://hdl.handle.net/10045/3415
ISSN:	1135-5948
Language:	spa
Type:	info:eu-repo/semantics/article
Appears in Collections:	Procesamiento del Lenguaje Natural - Nº 17 (septiembre 1995)

Files in This Item:

Files in This Item:
File	Description	Size	Format
PLN_17_02.pdf		738,11 kB	Adobe PDF	Open Preview Close preview

See citations in Google Scholar

Show full item record