Strategies for bilingual intent classification for small datasets scenarios

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/137160
Información del item - Informació de l'item - Item information
Title: Strategies for bilingual intent classification for small datasets scenarios
Other Titles: Estrategias de clasificación bilingüe de intenciones para escenarios con conjuntos de datos reducidos
Authors: López de Lacalle, Maddalen | Saralegi Urizar, Xabier | Saizar, Aitzol | Urbizu, Gorka | Corral, Ander
Keywords: Neural language models | Dialog systems | Less-resourced languages | Intent classification | Data augmentation | Modelos de lenguaje neuronales | Sistemas de diálogo | Lenguas con menos recursos | Clasificación de intenciones | Aumento de datos
Issue Date: Sep-2023
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2023, 71: 137-147. https://doi.org/10.26342/2023-71-11
Abstract: This paper explores various approaches for implementing bilingual (Spanish and Basque) intent classifiers in cases where limited annotated data is available. Our study examines which fine-tuning strategy is more appropriate in such resource-limited scenarios: bilingual fine-tuning on a small number of manually annotated examples; a monolingual fine-tuning that relies on data augmentation via paraphrasing; or a combination of both. We explore two data augmentation strategies, one based on paraphrasing language models and the other based on back translation. Experiments are conducted on multiple pre-trained language models in order to evaluate the suitability of both monolingual and multilingual language models. The different approaches have been evaluated on two scenarios: i) a real use case over procedures associated with municipal sports services; and ii) a simulated scenario from the multi-domain Facebook Multilingual Task-Oriented dataset. Results show that data augmentation based on back translation is beneficial for monolingual classifiers that rely on pre-trained monolingual language models. Combining bilingual fine-tuning of the multilingual model with the data augmented by back translation outperforms the monolingual model-based approaches for Basque. | Este artículo explora varios enfoques para implementar clasificadores de intención bilingües (castellano y euskera) en casos en los que se dispone de un número limitado de datos anotados. Analizamos cuál es la estrategia de ajuste más adecuada en un contexto donde los recursos son escasos: ajuste bilingüe sobre un reducido número de ejemplos anotados manualmente; ajuste monolingüe basado en el aumento de datos mediante paráfrasis; o la combinación de ambos. Exploramos dos estrategias de aumento de datos, una basada en modelos lingüísticos de generación de paráfrasis y la otra en la traducción inversa. Además, los experimentos se realizan con múltiples modelos lingüísticos pre-entrenados para evaluar la idoneidad de los modelos lingüísticos monolingües y multilingües. Los distintos enfoques se han evaluado en dos escenarios: i) uno real, que corresponde a los trámites asociados a servicios deportivos municipales, y ii) otro simulado a partir del conjunto de datos multidominio Facebook Multilingual Task-Oriented Dataset. Los resultados muestran que para los clasificadores monolingües que se basan en modelos lingüísticos monolingües preentrenados, el aumento de datos basado en la traducción inversa es beneficioso. En el caso del euskera, la combinación del ajuste bilingüe del modelo multilingüe con los datos aumentados mediante la traducción inversa supera a los enfoques basados en modelos monolingües.
Sponsor: This work has been partially funded by the Basque Government (ICL4LANG project, grant no. KK-2023/00094).
URI: http://hdl.handle.net/10045/137160
ISSN: 1135-5948
DOI: 10.26342/2023-71-11
Language: eng
Type: info:eu-repo/semantics/article
Rights: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Peer Review: si
Publisher version: https://doi.org/10.26342/2023-71-11
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 71 (2023)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_71_11.pdf971,55 kBAdobe PDFOpen Preview


This item is licensed under a Creative Commons License Creative Commons