Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/53563
Título: | Detecting the central units in two different genres and languages: a preliminary study of Brazilian Portuguese and Basque texts |
---|---|
Título alternativo: | Detección de la unidad central en dos géneros y lenguajes diferentes: un estudio preliminar en portugués brasileño y euskera |
Autor/es: | Iruskieta Quintian, Mikel | Labaka Intxauspe, Gorka | Antonio, Juliano Desiderato |
Palabras clave: | Central unit | RST | Indicators | Rules | Unidad central | Indicadores | Reglas |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | mar-2016 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2016, 56: 65-72 |
Resumen: | The aim of this paper is to present the development of a rule-based automatic detector which determines the main idea or the most pertinent discourse unit in two different languages such as Basque and Brazilian Portuguese and in two distinct genres such as scientific abstracts and argumentative answers. The central unit (CU) may be of interest to understand texts regarding relational discourse structure and it can be applied to Natural Language Processing (NLP) tasks such as automatic summarization, question-answer systems or sentiment analysis. In the case of argumentative answer genre, the identification of CU is an essential step for an eventual implementation of an automatic evaluator for this genre. The theoretical background which underlies the paper is Mann and Thompson’s (1988) Rhetorical Structure Theory (RST), following discourse segmentation and CU annotation. Results show that the CUs in different languages and in different genres are detected automatically with similar results, although there is space for improvement. | El objetivo de este trabajo es presentar las mejoras de un detector automático basado en reglas que determina la idea principal o unidad discursiva más pertinente de dos lenguas tan diferentes como el euskera y el portugués de Brasil y en dos géneros muy distintos como son los resúmenes de los artículos científicos y las respuestas argumentativas. La unidad central (CU, por sus siglas en inglés) puede ser de interés para entender los textos partiendo de la estructura discursiva relacional y poderlo aplicar en tareas de Procesamiento del Lenguaje Natural (PLN) tales como resumen automático, sistemas de pregunta-respuesta o análisis de sentimiento. En los textos de respuesta argumentativa, identificar la CU es un paso esencial para un evaluador automático de considere la estructura discursiva de dichos textos. El marco teórico en el que hemos desarrollado el trabajo es la Rhetorical Structure Theory (RST) de Mann y Thompson (1988), que parte de la segmentación discursiva y finaliza con la anotación de la unidad central. Los resultados demuestran que las unidades centrales en diferentes lenguas y géneros son detectadas con similares resultados automáticamente, aunque todavía hay espacio para mejora. |
URI: | http://hdl.handle.net/10045/53563 |
ISSN: | 1135-5948 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisión científica: | si |
Versión del editor: | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 56 (2016) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_56_07.pdf | 140,3 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.