Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis

Rosa, Javier de la; Pérez Pozo, Álvaro; Ros, Salvador; González-Blanco García, Elena

Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/137173

Registro completo de metadatos

Registro completo de metadatos
Campo DC	Valor	Idioma
dc.contributor.author	Rosa, Javier de la	-
dc.contributor.author	Pérez Pozo, Álvaro	-
dc.contributor.author	Ros, Salvador	-
dc.contributor.author	González-Blanco García, Elena	-
dc.date.accessioned	2023-09-14T10:11:20Z	-
dc.date.available	2023-09-14T10:11:20Z	-
dc.date.issued	2023-09	-
dc.identifier.citation	Procesamiento del Lenguaje Natural. 2023, 71: 215-225. https://doi.org/10.26342/2023-71-17	es_ES
dc.identifier.issn	1135-5948	-
dc.identifier.uri	http://hdl.handle.net/10045/137173	-
dc.description.abstract	The computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present Alberti, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, Alberti outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain.	es_ES
dc.description.abstract	El análisis computacional de la poesía está limitado por la escasez de herramientas para analizar y escandir automáticamente los poemas. En entornos multilingües, el problema se agrava ya que los sistemas de escansión y rima solo existen para idiomas individuales, lo que hace que los estudios comparativos sean muy difíciles de llevar a cabo y consuman mucho tiempo. En este trabajo, presentamos Alberti, el primer modelo de lenguaje multilingüe pre-entrenado para poesía. Usando la técnica de pre-entrenamiento de dominio específico (DSP, de sus siglas en inglés), aumentamos las capacidades del modelo BERT multilingüe empleando un corpus de más de 12 millones de versos en 12 idiomas. Evaluamos su rendimiento en dos tareas estructurales de poesía: clasificación de tipos de estrofas en español y predicción de patrones métricos para español, inglés y alemán. En ambos casos, Alberti supera a BERT multilingüe y a otros modelos basados en transformers de tamaños similares, e incluso logra resultados de estado del arte para el alemán en comparación con los sistemas basados en reglas, lo que demuestra la viabilidad y eficacia del DSP en el dominio de la poesía.	es_ES
dc.description.sponsorship	Research for this paper has been partially supported by the Starting Grant research project Poetry Standardization and Linked Open Data: POSTDATA (ERC-2015-STG-679528) obtained by Elena González-Blanco, a project funded by the European Research Council (https://erc.europa.eu) (ERC) under the research and innovation program Horizon2020 of the European Union.	es_ES
dc.language	eng	es_ES
dc.publisher	Sociedad Española para el Procesamiento del Lenguaje Natural	es_ES
dc.rights	© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0	es_ES
dc.subject	Natural Language Processing	es_ES
dc.subject	Multilingual Language Models	es_ES
dc.subject	Domain Specific Pre-training	es_ES
dc.subject	Poetry	es_ES
dc.subject	Stanzas	es_ES
dc.subject	Scansion	es_ES
dc.subject	Procesamiento del Lenguaje Natural	es_ES
dc.subject	Modelos de Lenguage Multilingües	es_ES
dc.subject	Pre-entrenamiento de Dominio Específico	es_ES
dc.subject	Poesía	es_ES
dc.subject	Estrofas	es_ES
dc.subject	Escansión	es_ES
dc.title	Alberti, a Multilingual Domain Specific Language Model for Poetry Analysis	es_ES
dc.title.alternative	Alberti, un Modelo de Lenguaje Multilingüe de Dominio Específico para el Análisis de Poesía	es_ES
dc.type	info:eu-repo/semantics/article	es_ES
dc.peerreviewed	si	es_ES
dc.identifier.doi	10.26342/2023-71-17	-
dc.relation.publisherversion	https://doi.org/10.26342/2023-71-17	es_ES
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es_ES
dc.relation.projectID	info:eu-repo/grantAgreement/EC/H2020/679528	es_ES
Aparece en las colecciones:	Investigaciones financiadas por la UE Procesamiento del Lenguaje Natural - Nº 71 (2023)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_71_17.pdf		1,4 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro sencillo

Este ítem está licenciado bajo Licencia Creative Commons