Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/137173
Información del item - Informació de l'item - Item information
Título: Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis
Título alternativo: Alberti, un Modelo de Lenguaje Multilingüe de Dominio Específico para el Análisis de Poesía
Autor/es: Rosa, Javier de la | Pérez Pozo, Álvaro | Ros, Salvador | González-Blanco García, Elena
Palabras clave: Natural Language Processing | Multilingual Language Models | Domain Specific Pre-training | Poetry | Stanzas | Scansion | Procesamiento del Lenguaje Natural | Modelos de Lenguage Multilingües | Pre-entrenamiento de Dominio Específico | Poesía | Estrofas | Escansión
Fecha de publicación: sep-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 71: 215-225. https://doi.org/10.26342/2023-71-17
Resumen: The computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present Alberti, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, Alberti outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain. | El análisis computacional de la poesía está limitado por la escasez de herramientas para analizar y escandir automáticamente los poemas. En entornos multilingües, el problema se agrava ya que los sistemas de escansión y rima solo existen para idiomas individuales, lo que hace que los estudios comparativos sean muy difíciles de llevar a cabo y consuman mucho tiempo. En este trabajo, presentamos Alberti, el primer modelo de lenguaje multilingüe pre-entrenado para poesía. Usando la técnica de pre-entrenamiento de dominio específico (DSP, de sus siglas en inglés), aumentamos las capacidades del modelo BERT multilingüe empleando un corpus de más de 12 millones de versos en 12 idiomas. Evaluamos su rendimiento en dos tareas estructurales de poesía: clasificación de tipos de estrofas en español y predicción de patrones métricos para español, inglés y alemán. En ambos casos, Alberti supera a BERT multilingüe y a otros modelos basados en transformers de tamaños similares, e incluso logra resultados de estado del arte para el alemán en comparación con los sistemas basados en reglas, lo que demuestra la viabilidad y eficacia del DSP en el dominio de la poesía.
Patrocinador/es: Research for this paper has been partially supported by the Starting Grant research project Poetry Standardization and Linked Open Data: POSTDATA (ERC-2015-STG-679528) obtained by Elena González-Blanco, a project funded by the European Research Council (https://erc.europa.eu) (ERC) under the research and innovation program Horizon2020 of the European Union.
URI: http://hdl.handle.net/10045/137173
ISSN: 1135-5948
DOI: 10.26342/2023-71-17
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-71-17
Aparece en las colecciones:Investigaciones financiadas por la UE
Procesamiento del Lenguaje Natural - Nº 71 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_71_17.pdf1,4 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons