Rosa, Javier de la, Pérez Pozo, Álvaro, Ros, Salvador, González-Blanco García, Elena Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis Procesamiento del Lenguaje Natural. 2023, 71: 215-225. https://doi.org/10.26342/2023-71-17 URI: http://hdl.handle.net/10045/137173 DOI: 10.26342/2023-71-17 ISSN: 1135-5948 Abstract: The computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present Alberti, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, Alberti outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain. El análisis computacional de la poesía está limitado por la escasez de herramientas para analizar y escandir automáticamente los poemas. En entornos multilingües, el problema se agrava ya que los sistemas de escansión y rima solo existen para idiomas individuales, lo que hace que los estudios comparativos sean muy difíciles de llevar a cabo y consuman mucho tiempo. En este trabajo, presentamos Alberti, el primer modelo de lenguaje multilingüe pre-entrenado para poesía. Usando la técnica de pre-entrenamiento de dominio específico (DSP, de sus siglas en inglés), aumentamos las capacidades del modelo BERT multilingüe empleando un corpus de más de 12 millones de versos en 12 idiomas. Evaluamos su rendimiento en dos tareas estructurales de poesía: clasificación de tipos de estrofas en español y predicción de patrones métricos para español, inglés y alemán. En ambos casos, Alberti supera a BERT multilingüe y a otros modelos basados en transformers de tamaños similares, e incluso logra resultados de estado del arte para el alemán en comparación con los sistemas basados en reglas, lo que demuestra la viabilidad y eficacia del DSP en el dominio de la poesía. Keywords:Natural Language Processing, Multilingual Language Models, Domain Specific Pre-training, Poetry, Stanzas, Scansion, Procesamiento del Lenguaje Natural, Modelos de Lenguage Multilingües, Pre-entrenamiento de Dominio Específico, Poesía, Estrofas, Escansión Sociedad Española para el Procesamiento del Lenguaje Natural info:eu-repo/semantics/article