Measuring language distance for historical texts in Basque

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/133236
Información del item - Informació de l'item - Item information
Title: Measuring language distance for historical texts in Basque
Other Titles: Cálculo de distancia lingüística para textos históricos en euskera
Authors: Estarrona Ibarloza, Ainara | Etxeberria Uztarroz, Izaskun | Padilla, Manuel | Soraluze, Ander
Keywords: Language distance | Dialectology | Historical texts | Perplexity | Distancia lingüística | Dialectología | Textos históricos
Issue Date: Mar-2023
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2023, 70: 53-61. https://doi.org/10.26342/2023-70-4
Abstract: Measuring distance between languages, dialects and language varieties, both synchronically and diachronically, is a topic of growing interest in NLP. Based on our Syntactically Annotated Historical COrpus in BAsque (SAHCOBA) and previous work in perplexity-based language distance proposed by Gamallo, Pichel and Alegria (2017, 2020), we have compared historical corpora with current texts in the standard variety and calculated the language distances between them. As the standard Basque is based on the central dialects, the starting hypothesis is that the oldest texts and the dialects on the extremes will be the most distant. The results obtained have largely confirmed the thesis of traditional dialectology: peripheral dialects show a strong idiosyncrasy and are more distant from the rest. | Medir la distancia entre diferentes lenguas, dialectos o variantes de lengua, tanto sincrónica como diacrónicamente, es un área de interés creciente dentro del PLN. Basándonos en el corpus histórico sintácticamente anotado del euskera (SAHCOBA), y en el trabajo previo realizado por Gamallo, Pichel y Alegría (2017, 2020) en relación con la distancia entre lenguas basada en perplejidad, hemos comparado textos históricos en euskera con textos actuales y hemos calculado la distancia entre ellos. Dado que el euskera estándar se basa en los dialectos centrales, la hipótesis inicial es que los textos más antiguos, así como los textos de los dialectos periféricos serán los más distantes. Los resultados obtenidos confirman de forma contundente las tesis propuestas por la dialectología tradicional: los dialectos periféricos muestran una fuerte idiosincrasia y su distancia respecto al estándar es mayor que la del resto de dialectos.
Sponsor: This research has been partially supported by the Agence nationale de la recherche of France (ANR-17-CE27-572 0011-BIM); the Ministry of Science, Innovation, and Universities of Spain (RTI2018-098082-J-I00); and the Basque Government (IT1570-22).
URI: http://hdl.handle.net/10045/133236
ISSN: 1135-5948
DOI: 10.26342/2023-70-4
Language: eng
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Peer Review: si
Publisher version: https://doi.org/10.26342/2023-70-4
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 70 (2023)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_70_04.pdf1,8 MBAdobe PDFOpen Preview


This item is licensed under a Creative Commons License Creative Commons