Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/137173
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorRosa, Javier de la-
dc.contributor.authorPérez Pozo, Álvaro-
dc.contributor.authorRos, Salvador-
dc.contributor.authorGonzález-Blanco García, Elena-
dc.date.accessioned2023-09-14T10:11:20Z-
dc.date.available2023-09-14T10:11:20Z-
dc.date.issued2023-09-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2023, 71: 215-225. https://doi.org/10.26342/2023-71-17es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/137173-
dc.description.abstractThe computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present Alberti, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, Alberti outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain.es_ES
dc.description.abstractEl análisis computacional de la poesía está limitado por la escasez de herramientas para analizar y escandir automáticamente los poemas. En entornos multilingües, el problema se agrava ya que los sistemas de escansión y rima solo existen para idiomas individuales, lo que hace que los estudios comparativos sean muy difíciles de llevar a cabo y consuman mucho tiempo. En este trabajo, presentamos Alberti, el primer modelo de lenguaje multilingüe pre-entrenado para poesía. Usando la técnica de pre-entrenamiento de dominio específico (DSP, de sus siglas en inglés), aumentamos las capacidades del modelo BERT multilingüe empleando un corpus de más de 12 millones de versos en 12 idiomas. Evaluamos su rendimiento en dos tareas estructurales de poesía: clasificación de tipos de estrofas en español y predicción de patrones métricos para español, inglés y alemán. En ambos casos, Alberti supera a BERT multilingüe y a otros modelos basados en transformers de tamaños similares, e incluso logra resultados de estado del arte para el alemán en comparación con los sistemas basados en reglas, lo que demuestra la viabilidad y eficacia del DSP en el dominio de la poesía.es_ES
dc.description.sponsorshipResearch for this paper has been partially supported by the Starting Grant research project Poetry Standardization and Linked Open Data: POSTDATA (ERC-2015-STG-679528) obtained by Elena González-Blanco, a project funded by the European Research Council (https://erc.europa.eu) (ERC) under the research and innovation program Horizon2020 of the European Union.es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0es_ES
dc.subjectNatural Language Processinges_ES
dc.subjectMultilingual Language Modelses_ES
dc.subjectDomain Specific Pre-traininges_ES
dc.subjectPoetryes_ES
dc.subjectStanzases_ES
dc.subjectScansiones_ES
dc.subjectProcesamiento del Lenguaje Naturales_ES
dc.subjectModelos de Lenguage Multilingüeses_ES
dc.subjectPre-entrenamiento de Dominio Específicoes_ES
dc.subjectPoesíaes_ES
dc.subjectEstrofases_ES
dc.subjectEscansiónes_ES
dc.titleAlberti, a Multilingual Domain Specific Language Model for Poetry Analysises_ES
dc.title.alternativeAlberti, un Modelo de Lenguaje Multilingüe de Dominio Específico para el Análisis de Poesíaes_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.identifier.doi10.26342/2023-71-17-
dc.relation.publisherversionhttps://doi.org/10.26342/2023-71-17es_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.relation.projectIDinfo:eu-repo/grantAgreement/EC/H2020/679528es_ES
Aparece en las colecciones:Investigaciones financiadas por la UE
Procesamiento del Lenguaje Natural - Nº 71 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_71_17.pdf1,4 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons