Tuning BART models to simplify Spanish health-related content

Alarcon, Rodrigo; Martínez Fernández, Paloma; Moreno López, Lourdes

Tuning BART models to simplify Spanish health-related content

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133240

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Alarcon, Rodrigo	-
dc.contributor.author	Martínez Fernández, Paloma	-
dc.contributor.author	Moreno López, Lourdes	-
dc.date.accessioned	2023-03-31T11:42:12Z	-
dc.date.available	2023-03-31T11:42:12Z	-
dc.date.issued	2023-03	-
dc.identifier.citation	Procesamiento del Lenguaje Natural. 2023, 70: 111-122. https://doi.org/10.26342/2023-70-9	es_ES
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/133240	-
dc.description.abstract	Health literacy has become an increasingly important skill for citizens to make health-relevant decisions in modern societies. Technology to support text accessibility is needed to help people understand information about their health conditions. This paper presents a transfer learning approach implemented with BART (Bidirectional AutoRegressive Transformers), a sequence-to-sequence technique that is trained as a denoising autoencoder. To accomplish this task, pre-trained models have been fine-tuned to simplify Spanish texts. Since fine tuning of language models requires sample data to adapt it to a new task, the process of creating of a synthetic parallel dataset of Spanish health-related texts is also introduced in this paper. The results on the test set of the fine-tuned models reached SARI values of 59.7 in a multilingual BART (mBART) model and 29.74 in a pre-trained mBART model for the Spanish summary generation task. They also achieved improved readability of the original texts according to the Inflesz scale.	es_ES
dc.description.abstract	La alfabetización sanitaria se ha convertido en una habilidad cada vez más importante para que los ciudadanos tomen decisiones sobre su salud en las sociedades modernas. Para ayudar a las personas a comprender la información sobre su estado de salud, es necesaria una tecnología que facilite la accesibilidad de los textos. Este artículo presenta un enfoque de transfer learning implementado con BART (Bidirectional AutoRegressive Transformers), una técnica sequence-to-sequence que se entrena como un autoencoder de eliminación de ruido. Para llevar a cabo esta tarea, se han ajustado modelos preentrenados para simplificar textos en español. Dado que el ajuste de los modelos lingüísticos requiere datos de muestra para adaptarlos a una nueva tarea, en este artículo también se presenta el proceso de creación de un conjunto de datos paralelos sintéticos de textos en español relacionados con la salud. Los resultados en el conjunto de prueba de los modelos afinados alcanzaron valores SARI de 59,7 en un modelo multilingual BART (mBART) y 29,74 en un modelo mBART pre-entrenado para la tarea de generación de resúmenes en español. Además lograron mejorar la legibilidad de los textos originales según la escala de Inflesz.	es_ES
dc.description.sponsorship	This work is part of the R&D&i ACCESS2MEET (PID2020-116527RB-I00) project financed by MCIN AEI/10.13039/501100011033/, and the ”Intelligent and interactive home care system for the mitigation of the COVID-19 pandemic” project (PRTR-REACT UE) awarded by CAM. CONSEJERÍA DE EDUCACIÓN E INVESTIGACIÓN.	es_ES
dc.language	eng	es_ES
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.rights	© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0	es_ES
dc.subject	Lexical simplification	es_ES
dc.subject	Spanish	es_ES
dc.subject	Language models	es_ES
dc.subject	Multilingual BART	es_ES
dc.subject	Simplificación léxica	es_ES
dc.subject	Modelos del lenguaje	es_ES
dc.subject	Español	es_ES
dc.subject	BART multilingüe	es_ES
dc.title	Tuning BART models to simplify Spanish health-related content	es_ES
dc.title.alternative	Ajuste de modelos BART para simplificación de textos sobre salud en español	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.peerreviewed	si	es_ES
dc.identifier.doi	10.26342/2023-70-9	-
dc.relation.publisherversion	https://doi.org/10.26342/2023-70-9	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.relation.projectID	info:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2017-2020/PID2020-116527RB-I00	es_ES
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_70_09.pdf		1,03 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo

Este ítem está licenciado bajo Licencia Creative Commons