Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts

Iruskieta Quintian, Mikel; Labaka Intxauspe, Gorka; Antonio, Juliano Desiderato

Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/53563

Información del item - Informació de l'item - Item information
Título:	Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts
Título alternativo:	Detección de la unidad central en dos géneros y lenguajes diferentes: un estudio preliminar en portugués brasileño y euskera
Autor/es:	Iruskieta Quintian, Mikel \| Labaka Intxauspe, Gorka \| Antonio, Juliano Desiderato
Palabras clave:	Central unit \| RST \| Indicators \| Rules \| Unidad central \| Indicadores \| Reglas
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2016
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2016, 56: 65-72
Resumen:	The aim of this paper is to present the development of a rule-based automatic detector which determines the main idea or the most pertinent discourse unit in two different languages such as Basque and Brazilian Portuguese and in two distinct genres such as scientific abstracts and argumentative answers. The central unit (CU) may be of interest to understand texts regarding relational discourse structure and it can be applied to Natural Language Processing (NLP) tasks such as automatic summarization, question-answer systems or sentiment analysis. In the case of argumentative answer genre, the identification of CU is an essential step for an eventual implementation of an automatic evaluator for this genre. The theoretical background which underlies the paper is Mann and Thompson’s (1988) Rhetorical Structure Theory (RST), following discourse segmentation and CU annotation. Results show that the CUs in different languages and in different genres are detected automatically with similar results, although there is space for improvement. \| El objetivo de este trabajo es presentar las mejoras de un detector automático basado en reglas que determina la idea principal o unidad discursiva más pertinente de dos lenguas tan diferentes como el euskera y el portugués de Brasil y en dos géneros muy distintos como son los resúmenes de los artículos científicos y las respuestas argumentativas. La unidad central (CU, por sus siglas en inglés) puede ser de interés para entender los textos partiendo de la estructura discursiva relacional y poderlo aplicar en tareas de Procesamiento del Lenguaje Natural (PLN) tales como resumen automático, sistemas de pregunta-respuesta o análisis de sentimiento. En los textos de respuesta argumentativa, identificar la CU es un paso esencial para un evaluador automático de considere la estructura discursiva de dichos textos. El marco teórico en el que hemos desarrollado el trabajo es la Rhetorical Structure Theory (RST) de Mann y Thompson (1988), que parte de la segmentación discursiva y finaliza con la anotación de la unidad central. Los resultados demuestran que las unidades centrales en diferentes lenguas y géneros son detectadas con similares resultados automáticamente, aunque todavía hay espacio para mejora.
URI:	http://hdl.handle.net/10045/53563
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 56 (2016)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_56_07.pdf		140,3 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo