Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/137173
Información del item - Informació de l'item - Item information
Títol: Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis
Títol alternatiu: Alberti, un Modelo de Lenguaje Multilingüe de Dominio Específico para el Análisis de Poesía
Autors: Rosa, Javier de la | Pérez Pozo, Álvaro | Ros, Salvador | González-Blanco García, Elena
Paraules clau: Natural Language Processing | Multilingual Language Models | Domain Specific Pre-training | Poetry | Stanzas | Scansion | Procesamiento del Lenguaje Natural | Modelos de Lenguage Multilingües | Pre-entrenamiento de Dominio Específico | Poesía | Estrofas | Escansión
Data de publicació: de setembre-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2023, 71: 215-225. https://doi.org/10.26342/2023-71-17
Resum: The computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present Alberti, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, Alberti outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain. | El análisis computacional de la poesía está limitado por la escasez de herramientas para analizar y escandir automáticamente los poemas. En entornos multilingües, el problema se agrava ya que los sistemas de escansión y rima solo existen para idiomas individuales, lo que hace que los estudios comparativos sean muy difíciles de llevar a cabo y consuman mucho tiempo. En este trabajo, presentamos Alberti, el primer modelo de lenguaje multilingüe pre-entrenado para poesía. Usando la técnica de pre-entrenamiento de dominio específico (DSP, de sus siglas en inglés), aumentamos las capacidades del modelo BERT multilingüe empleando un corpus de más de 12 millones de versos en 12 idiomas. Evaluamos su rendimiento en dos tareas estructurales de poesía: clasificación de tipos de estrofas en español y predicción de patrones métricos para español, inglés y alemán. En ambos casos, Alberti supera a BERT multilingüe y a otros modelos basados en transformers de tamaños similares, e incluso logra resultados de estado del arte para el alemán en comparación con los sistemas basados en reglas, lo que demuestra la viabilidad y eficacia del DSP en el dominio de la poesía.
Patrocinadors: Research for this paper has been partially supported by the Starting Grant research project Poetry Standardization and Linked Open Data: POSTDATA (ERC-2015-STG-679528) obtained by Elena González-Blanco, a project funded by the European Research Council (https://erc.europa.eu) (ERC) under the research and innovation program Horizon2020 of the European Union.
URI: http://hdl.handle.net/10045/137173
ISSN: 1135-5948
DOI: 10.26342/2023-71-17
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2023-71-17
Apareix a la col·lecció: Investigacions finançades per la UE
Procesamiento del Lenguaje Natural - Nº 71 (2023)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_71_17.pdf1,4 MBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons