Desarrollo de un etiquetador morfosintáctico para el español

Sánchez León, Fernando; Nieto Serrano, Amalio Francisco

Desarrollo de un etiquetador morfosintáctico para el español

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3415

Información del item - Informació de l'item - Item information
Título:	Desarrollo de un etiquetador morfosintáctico para el español
Autor/es:	Sánchez León, Fernando \| Nieto Serrano, Amalio Francisco
Palabras clave:	Etiquetado morfosintáctico \| Lingúística de corpus \| Modelos probabilísticos del lenguaje \| Estándares de etiquetado
Fecha de publicación:	sep-1995
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	SÁNCHEZ LEÓN, Fernando; NIETO SERRANO, Amalio Francisco. "Desarrollo de un etiquetador morfosintáctico para el español". Procesamiento del lenguaje natural. N. 17 (sept. 1995). ISSN 1135-5948, pp. 14-28
Resumen:	En este artículo se describe el trabajo en el contexto del proyecto de investigación CRATER (Corpus Resoruces And Terminology ExtRaction, MLAP-93/20), financiado por la Comisión de las Comunidades Europeas. En particular, se tratan los problemas de adaptación del Etiquetador Morfosintáctico de Xerox al español con el fin de etiquetar la versión española del corpus de la Unión Internacional de Telecomunicaciones (ITU). Se presenta brevemente el modelo implementado por este etiquetador junto con algunas modificaciones llevadas a cabo para incorporar en el sistema parámetros no estimados probabilísticamente. Asimismo, se discuten algunas decisiones iniciales, como el conjunto de etiquetas (tagset), el lexicon y el corpus de entrenamiento. Finalmente, se muestran los resultados y se justifican los beneficios de un modelo mixto como el propuesto. \| This paper describes work performed withing the CRATER (Corpus Resources And Terminology ExtRaction, MLAP-93/20) project, funded by the Commission of the European Communities. In particular, it addresses the issue of adapting the Xerox Tagger to Spanish in order to tag the Spanish version of the ITU (International Telecommunications Union) corpus. The model implemented by this tagger is briefly presented along with some modifications performed on it in order to use some parameters not probabilistically estimated. Initial decisions, like the tagset, the lexicon and the training corpus are also discussed. Finally, results are presented and the benefits of the mixed model justified.
Patrocinador/es:	Este trabajo se ha realizado en el contexto del proyecto de investigación CRATER (Corpus Resources And Terminology ExtRaction, MLAP-93/20), financiado por la Comisión de las Comunidades Europeas. En el proyecto participan, además de las instituciones a las que pertenecen los autores del presente artículo, la Universidad de Lancaster (Reino Unido), la empresa Computers, Communications and Visons, C2V (Francia) e IBM-Francia.
URI:	http://hdl.handle.net/10045/3415
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 17 (septiembre 1995)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_17_02.pdf		738,11 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo