Un detector de la unidad central de un texto basado en técnicas de aprendizaje automático en textos científicos para el euskera

Bengoetxea Kortazar, Kepa; Atutxa Salazar, Aitziber; Iruskieta Quintian, Mikel

Un detector de la unidad central de un texto basado en técnicas de aprendizaje automático en textos científicos para el euskera

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/64013

Información del item - Informació de l'item - Item information
Título:	Un detector de la unidad central de un texto basado en técnicas de aprendizaje automático en textos científicos para el euskera
Título alternativo:	A Machine Learning based Central Unit Detector for Basque Scientific Texts
Autor/es:	Bengoetxea Kortazar, Kepa \| Atutxa Salazar, Aitziber \| Iruskieta Quintian, Mikel
Palabras clave:	Unidad central \| Tópico principal \| RST \| Aprendizaje automático \| Central unit \| Main topic \| Machine learning
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2017
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2017, 58: 37-44
Resumen:	En este artículo presentamos el primer detector de la Unidad Central (UC) de resúmenes científicos en euskera basado en técnicas de aprendizaje automático. Después de segmentar el texto en unidades de discurso elementales, la detección de la unidad central es crucial para anotar de forma más fiable la estructura relacional de textos bajo la Teoría de la Estructura Retórica o Rhetorical Structure Theory (RST). Además, la unidad central puede ser explotada en diversas tareas como resumen automático, tareas de pregunta y respuesta o análisis del sentimiento. Los resultados obtenidos demuestran que las técnicas de aprendizaje automático superan a las técnicas basadas en reglas a pesar del pequeño tamaño del corpus y de la heterogeneidad de los dominios que éste muestra, dejando todavía lugar para mejoras y desarrollo. \| This paper presents an automatic detector of the discourse central unit (CU) in scientific abstracts based on machine learning techniques. After segmenting a text in its elementary discourse units, the detection of the central unit is a crucial step on the way to robustly build discourse trees under the Rhetorical Structure Theory (RST). Besides, CU detection may also be useful in automatic summarization, question answering and sentiment analysis tasks. Results show that the CU detection using machine learning techniques for Basque scientific abstracts outperform rule based techniques, even on a small size corpus on different domains. This leads us to think that there is still room for improvement.
Patrocinador/es:	Este trabajo ha sido financiado en parte por el siguiente proyecto: TIN2015-65308-C5-1-R (MINECO/FEDER).
URI:	http://hdl.handle.net/10045/64013
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 58 (2017)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_58_04.pdf		343,81 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo