Measuring language distance for historical texts in Basque

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/133236
Información del item - Informació de l'item - Item information
Títol: Measuring language distance for historical texts in Basque
Títol alternatiu: Cálculo de distancia lingüística para textos históricos en euskera
Autors: Estarrona Ibarloza, Ainara | Etxeberria Uztarroz, Izaskun | Padilla, Manuel | Soraluze, Ander
Paraules clau: Language distance | Dialectology | Historical texts | Perplexity | Distancia lingüística | Dialectología | Textos históricos
Data de publicació: de març-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2023, 70: 53-61. https://doi.org/10.26342/2023-70-4
Resum: Measuring distance between languages, dialects and language varieties, both synchronically and diachronically, is a topic of growing interest in NLP. Based on our Syntactically Annotated Historical COrpus in BAsque (SAHCOBA) and previous work in perplexity-based language distance proposed by Gamallo, Pichel and Alegria (2017, 2020), we have compared historical corpora with current texts in the standard variety and calculated the language distances between them. As the standard Basque is based on the central dialects, the starting hypothesis is that the oldest texts and the dialects on the extremes will be the most distant. The results obtained have largely confirmed the thesis of traditional dialectology: peripheral dialects show a strong idiosyncrasy and are more distant from the rest. | Medir la distancia entre diferentes lenguas, dialectos o variantes de lengua, tanto sincrónica como diacrónicamente, es un área de interés creciente dentro del PLN. Basándonos en el corpus histórico sintácticamente anotado del euskera (SAHCOBA), y en el trabajo previo realizado por Gamallo, Pichel y Alegría (2017, 2020) en relación con la distancia entre lenguas basada en perplejidad, hemos comparado textos históricos en euskera con textos actuales y hemos calculado la distancia entre ellos. Dado que el euskera estándar se basa en los dialectos centrales, la hipótesis inicial es que los textos más antiguos, así como los textos de los dialectos periféricos serán los más distantes. Los resultados obtenidos confirman de forma contundente las tesis propuestas por la dialectología tradicional: los dialectos periféricos muestran una fuerte idiosincrasia y su distancia respecto al estándar es mayor que la del resto de dialectos.
Patrocinadors: This research has been partially supported by the Agence nationale de la recherche of France (ANR-17-CE27-572 0011-BIM); the Ministry of Science, Innovation, and Universities of Spain (RTI2018-098082-J-I00); and the Basque Government (IT1570-22).
URI: http://hdl.handle.net/10045/133236
ISSN: 1135-5948
DOI: 10.26342/2023-70-4
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2023-70-4
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 70 (2023)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_70_04.pdf1,8 MBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons