Tuning BART models to simplify Spanish health-related content

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133240
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorAlarcon, Rodrigo-
dc.contributor.authorMartínez Fernández, Paloma-
dc.contributor.authorMoreno López, Lourdes-
dc.date.accessioned2023-03-31T11:42:12Z-
dc.date.available2023-03-31T11:42:12Z-
dc.date.issued2023-03-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2023, 70: 111-122. https://doi.org/10.26342/2023-70-9es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/133240-
dc.description.abstractHealth literacy has become an increasingly important skill for citizens to make health-relevant decisions in modern societies. Technology to support text accessibility is needed to help people understand information about their health conditions. This paper presents a transfer learning approach implemented with BART (Bidirectional AutoRegressive Transformers), a sequence-to-sequence technique that is trained as a denoising autoencoder. To accomplish this task, pre-trained models have been fine-tuned to simplify Spanish texts. Since fine tuning of language models requires sample data to adapt it to a new task, the process of creating of a synthetic parallel dataset of Spanish health-related texts is also introduced in this paper. The results on the test set of the fine-tuned models reached SARI values of 59.7 in a multilingual BART (mBART) model and 29.74 in a pre-trained mBART model for the Spanish summary generation task. They also achieved improved readability of the original texts according to the Inflesz scale.es_ES
dc.description.abstractLa alfabetización sanitaria se ha convertido en una habilidad cada vez más importante para que los ciudadanos tomen decisiones sobre su salud en las sociedades modernas. Para ayudar a las personas a comprender la información sobre su estado de salud, es necesaria una tecnología que facilite la accesibilidad de los textos. Este artículo presenta un enfoque de transfer learning implementado con BART (Bidirectional AutoRegressive Transformers), una técnica sequence-to-sequence que se entrena como un autoencoder de eliminación de ruido. Para llevar a cabo esta tarea, se han ajustado modelos preentrenados para simplificar textos en español. Dado que el ajuste de los modelos lingüísticos requiere datos de muestra para adaptarlos a una nueva tarea, en este artículo también se presenta el proceso de creación de un conjunto de datos paralelos sintéticos de textos en español relacionados con la salud. Los resultados en el conjunto de prueba de los modelos afinados alcanzaron valores SARI de 59,7 en un modelo multilingual BART (mBART) y 29,74 en un modelo mBART pre-entrenado para la tarea de generación de resúmenes en español. Además lograron mejorar la legibilidad de los textos originales según la escala de Inflesz.es_ES
dc.description.sponsorshipThis work is part of the R&D&i ACCESS2MEET (PID2020-116527RB-I00) project financed by MCIN AEI/10.13039/501100011033/, and the ”Intelligent and interactive home care system for the mitigation of the COVID-19 pandemic” project (PRTR-REACT UE) awarded by CAM. CONSEJERÍA DE EDUCACIÓN E INVESTIGACIÓN.es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0es_ES
dc.subjectLexical simplificationes_ES
dc.subjectSpanishes_ES
dc.subjectLanguage modelses_ES
dc.subjectMultilingual BARTes_ES
dc.subjectSimplificación léxicaes_ES
dc.subjectModelos del lenguajees_ES
dc.subjectEspañoles_ES
dc.subjectBART multilingüees_ES
dc.titleTuning BART models to simplify Spanish health-related contentes_ES
dc.title.alternativeAjuste de modelos BART para simplificación de textos sobre salud en españoles_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.identifier.doi10.26342/2023-70-9-
dc.relation.publisherversionhttps://doi.org/10.26342/2023-70-9es_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.relation.projectIDinfo:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2017-2020/PID2020-116527RB-I00es_ES
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_70_09.pdf1,03 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons