A Discourse Marker Tagger for Spanish using Transformers

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/122849
Full metadata record
Full metadata record
DC FieldValueLanguage
dc.contributor.authorGarcía Toro, Ana-
dc.contributor.authorPorta Zamorano, Jordi-
dc.contributor.authorMoreno Sandoval, Antonio-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2022, 68: 123-132. https://doi.org/10.26342/2022-68-9es_ES
dc.description.abstractWe present an automatic discourse particle (DM) tagger developed using manual annotation and machine learning. The tagger has been developed on a dataset of financial letters, where human annotators have reached an 0.897 agreement rate (IAA) on the indications of a specific annotation guide. With the annotated dataset, a prototype has been developed using the pre-trained Transformers, adapting it to the task (fine-tunning), reaching an F1-score of 0.933. An evaluation of the results obtained by the tagger is included.es_ES
dc.description.abstractPresentamos un etiquetador automático de partículas discursivas (DM) desarrollado mediante etiquetado manual y aprendizaje automático. El etiquetador se ha desarrollado en un dataset de cartas financieras. Las anotadoras humanas han alcanzado un 0,897 de tasa de acuerdo (IAA) sobre las indicaciones de una guía de anotación específica. Con el dataset anotado se ha desarrollado un prototipo usando modelos de Transformers pre-entrenados adaptándolos a la tarea (fine-tuning) con un F1 de 0,933. Al final se da una evaluación de los resultados obtenidos por el tagger.es_ES
dc.description.sponsorshipThe research has been carried out within the CLARA-FINT project (PID2020-116001RB-C31), funded by the Spanish Ministry of Science and Innovation.es_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.subjectDiscourse Markerses_ES
dc.subjectFine-tuning Transformerses_ES
dc.subject.otherLenguajes y Sistemas Informáticoses_ES
dc.titleA Discourse Marker Tagger for Spanish using Transformerses_ES
dc.title.alternativeEtiquetador automático de Marcadores Discursivos mediante Transformerses_ES
dc.relation.projectIDinfo:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2017-2020/PID2020-116001RB-C31es_ES
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 68 (2022)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_68_09.pdf1,04 MBAdobe PDFOpen Preview

Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.