Strategies for bilingual intent classification for small datasets scenarios

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/137160
Información del item - Informació de l'item - Item information
Títol: Strategies for bilingual intent classification for small datasets scenarios
Títol alternatiu: Estrategias de clasificación bilingüe de intenciones para escenarios con conjuntos de datos reducidos
Autors: López de Lacalle, Maddalen | Saralegi Urizar, Xabier | Saizar, Aitzol | Urbizu, Gorka | Corral, Ander
Paraules clau: Neural language models | Dialog systems | Less-resourced languages | Intent classification | Data augmentation | Modelos de lenguaje neuronales | Sistemas de diálogo | Lenguas con menos recursos | Clasificación de intenciones | Aumento de datos
Data de publicació: de setembre-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2023, 71: 137-147. https://doi.org/10.26342/2023-71-11
Resum: This paper explores various approaches for implementing bilingual (Spanish and Basque) intent classifiers in cases where limited annotated data is available. Our study examines which fine-tuning strategy is more appropriate in such resource-limited scenarios: bilingual fine-tuning on a small number of manually annotated examples; a monolingual fine-tuning that relies on data augmentation via paraphrasing; or a combination of both. We explore two data augmentation strategies, one based on paraphrasing language models and the other based on back translation. Experiments are conducted on multiple pre-trained language models in order to evaluate the suitability of both monolingual and multilingual language models. The different approaches have been evaluated on two scenarios: i) a real use case over procedures associated with municipal sports services; and ii) a simulated scenario from the multi-domain Facebook Multilingual Task-Oriented dataset. Results show that data augmentation based on back translation is beneficial for monolingual classifiers that rely on pre-trained monolingual language models. Combining bilingual fine-tuning of the multilingual model with the data augmented by back translation outperforms the monolingual model-based approaches for Basque. | Este artículo explora varios enfoques para implementar clasificadores de intención bilingües (castellano y euskera) en casos en los que se dispone de un número limitado de datos anotados. Analizamos cuál es la estrategia de ajuste más adecuada en un contexto donde los recursos son escasos: ajuste bilingüe sobre un reducido número de ejemplos anotados manualmente; ajuste monolingüe basado en el aumento de datos mediante paráfrasis; o la combinación de ambos. Exploramos dos estrategias de aumento de datos, una basada en modelos lingüísticos de generación de paráfrasis y la otra en la traducción inversa. Además, los experimentos se realizan con múltiples modelos lingüísticos pre-entrenados para evaluar la idoneidad de los modelos lingüísticos monolingües y multilingües. Los distintos enfoques se han evaluado en dos escenarios: i) uno real, que corresponde a los trámites asociados a servicios deportivos municipales, y ii) otro simulado a partir del conjunto de datos multidominio Facebook Multilingual Task-Oriented Dataset. Los resultados muestran que para los clasificadores monolingües que se basan en modelos lingüísticos monolingües preentrenados, el aumento de datos basado en la traducción inversa es beneficioso. En el caso del euskera, la combinación del ajuste bilingüe del modelo multilingüe con los datos aumentados mediante la traducción inversa supera a los enfoques basados en modelos monolingües.
Patrocinadors: This work has been partially funded by the Basque Government (ICL4LANG project, grant no. KK-2023/00094).
URI: http://hdl.handle.net/10045/137160
ISSN: 1135-5948
DOI: 10.26342/2023-71-11
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2023-71-11
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 71 (2023)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_71_11.pdf971,55 kBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons