Coreference Resolution for Morphologically Rich Languages. Adaptation of the Stanford System to Basque

Soraluze, Ander; Arregi Uriarte, Olatz; Arregi Iparragirre, Patxi Xabier; Díaz de Ilarraza Sánchez, Arantza

Coreference Resolution for Morphologically Rich Languages. Adaptation of the Stanford System to Basque

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/49272

Información del item - Informació de l'item - Item information
Título:	Coreference Resolution for Morphologically Rich Languages. Adaptation of the Stanford System to Basque
Título alternativo:	Resolución de coreferencia para lenguajes morfológicamente ricas. Adaptación del sistema de Stanford al euskera
Autor/es:	Soraluze, Ander \| Arregi Uriarte, Olatz \| Arregi Iparragirre, Patxi Xabier \| Díaz de Ilarraza Sánchez, Arantza
Palabras clave:	Coreference \| Basque \| Agglutinative language \| Coreferencia \| Euskera \| Lenguaje aglutinante
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2015
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2015, 55: 23-30
Resumen:	This paper presents the adaptation of the Stanford coreference resolution system to Basque, an agglutinative head-final pro-drop language. The adapted system has been integrated into a global linguistic analysis pipeline so that the input of the system are original Basque raw texts linguistically processed, and annotated. We demonstrate that language-specific characteristics have a noteworthy effect on coreference resolution. In the case of agglutinative languages the use of morphosyntactic features improves substantially the system's performance, obtaining a gain in CoNLL F1 results of 5 points when automatic mentions are used and of 7.87 points when gold mentions are provided. \| Este artículo presenta el proceso de adaptación del sistema de resolución de coreferencia de Stanford para el euskera, un idioma aglutinante, de núcleo final y pro-drop. Este sistema ha sido integrado en una cadena de análisis lingüística de manera que recibe como entrada textos procesados y analizados para el euskera. Hemos demostrado que haciendo uso de las características lingüísticas del lenguaje se puede mejorar la resolución de la coreferencia. En el caso de los lenguajes aglutinantes el uso de características morfosintácticas mejora claramente el rendimiento del sistema obteniéndose un incremento en CoNLL F1 de 5 puntos para el caso de menciones automáticas y de 7,87 puntos con menciones gold.
Patrocinador/es:	This work has been supported by Ander Soraluze's PhD grant from Euskara Errektoreordetza, the University of the Basque Country (UPV/EHU) and by the Ber2Tek project, Basque Government (IE12-333).
URI:	http://hdl.handle.net/10045/49272
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 55 (2015)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_55_02.pdf		810,03 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo