Measuring language distance for historical texts in Basque
Empreu sempre aquest identificador per citar o enllaçar aquest ítem
http://hdl.handle.net/10045/133236
Títol: | Measuring language distance for historical texts in Basque |
---|---|
Títol alternatiu: | Cálculo de distancia lingüística para textos históricos en euskera |
Autors: | Estarrona Ibarloza, Ainara | Etxeberria Uztarroz, Izaskun | Padilla, Manuel | Soraluze, Ander |
Paraules clau: | Language distance | Dialectology | Historical texts | Perplexity | Distancia lingüística | Dialectología | Textos históricos |
Data de publicació: | de març-2023 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Citació bibliogràfica: | Procesamiento del Lenguaje Natural. 2023, 70: 53-61. https://doi.org/10.26342/2023-70-4 |
Resum: | Measuring distance between languages, dialects and language varieties, both synchronically and diachronically, is a topic of growing interest in NLP. Based on our Syntactically Annotated Historical COrpus in BAsque (SAHCOBA) and previous work in perplexity-based language distance proposed by Gamallo, Pichel and Alegria (2017, 2020), we have compared historical corpora with current texts in the standard variety and calculated the language distances between them. As the standard Basque is based on the central dialects, the starting hypothesis is that the oldest texts and the dialects on the extremes will be the most distant. The results obtained have largely confirmed the thesis of traditional dialectology: peripheral dialects show a strong idiosyncrasy and are more distant from the rest. | Medir la distancia entre diferentes lenguas, dialectos o variantes de lengua, tanto sincrónica como diacrónicamente, es un área de interés creciente dentro del PLN. Basándonos en el corpus histórico sintácticamente anotado del euskera (SAHCOBA), y en el trabajo previo realizado por Gamallo, Pichel y Alegría (2017, 2020) en relación con la distancia entre lenguas basada en perplejidad, hemos comparado textos históricos en euskera con textos actuales y hemos calculado la distancia entre ellos. Dado que el euskera estándar se basa en los dialectos centrales, la hipótesis inicial es que los textos más antiguos, así como los textos de los dialectos periféricos serán los más distantes. Los resultados obtenidos confirman de forma contundente las tesis propuestas por la dialectología tradicional: los dialectos periféricos muestran una fuerte idiosincrasia y su distancia respecto al estándar es mayor que la del resto de dialectos. |
Patrocinadors: | This research has been partially supported by the Agence nationale de la recherche of France (ANR-17-CE27-572 0011-BIM); the Ministry of Science, Innovation, and Universities of Spain (RTI2018-098082-J-I00); and the Basque Government (IT1570-22). |
URI: | http://hdl.handle.net/10045/133236 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2023-70-4 |
Idioma: | eng |
Tipus: | info:eu-repo/semantics/article |
Drets: | © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 |
Revisió científica: | si |
Versió de l'editor: | https://doi.org/10.26342/2023-70-4 |
Apareix a la col·lecció: | Procesamiento del Lenguaje Natural - Nº 70 (2023) |
Arxius per aquest ítem:
Arxiu | Descripció | Tamany | Format | |
---|---|---|---|---|
PLN_70_04.pdf | 1,8 MB | Adobe PDF | Obrir Vista prèvia | |
Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons