Strategies for bilingual intent classification for small datasets scenarios

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/137160
Full metadata record
Full metadata record
DC FieldValueLanguage
dc.contributor.authorLópez de Lacalle, Maddalen-
dc.contributor.authorSaralegi Urizar, Xabier-
dc.contributor.authorSaizar, Aitzol-
dc.contributor.authorUrbizu, Gorka-
dc.contributor.authorCorral, Ander-
dc.date.accessioned2023-09-13T11:34:20Z-
dc.date.available2023-09-13T11:34:20Z-
dc.date.issued2023-09-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2023, 71: 137-147. https://doi.org/10.26342/2023-71-11es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/137160-
dc.description.abstractThis paper explores various approaches for implementing bilingual (Spanish and Basque) intent classifiers in cases where limited annotated data is available. Our study examines which fine-tuning strategy is more appropriate in such resource-limited scenarios: bilingual fine-tuning on a small number of manually annotated examples; a monolingual fine-tuning that relies on data augmentation via paraphrasing; or a combination of both. We explore two data augmentation strategies, one based on paraphrasing language models and the other based on back translation. Experiments are conducted on multiple pre-trained language models in order to evaluate the suitability of both monolingual and multilingual language models. The different approaches have been evaluated on two scenarios: i) a real use case over procedures associated with municipal sports services; and ii) a simulated scenario from the multi-domain Facebook Multilingual Task-Oriented dataset. Results show that data augmentation based on back translation is beneficial for monolingual classifiers that rely on pre-trained monolingual language models. Combining bilingual fine-tuning of the multilingual model with the data augmented by back translation outperforms the monolingual model-based approaches for Basque.es_ES
dc.description.abstractEste artículo explora varios enfoques para implementar clasificadores de intención bilingües (castellano y euskera) en casos en los que se dispone de un número limitado de datos anotados. Analizamos cuál es la estrategia de ajuste más adecuada en un contexto donde los recursos son escasos: ajuste bilingüe sobre un reducido número de ejemplos anotados manualmente; ajuste monolingüe basado en el aumento de datos mediante paráfrasis; o la combinación de ambos. Exploramos dos estrategias de aumento de datos, una basada en modelos lingüísticos de generación de paráfrasis y la otra en la traducción inversa. Además, los experimentos se realizan con múltiples modelos lingüísticos pre-entrenados para evaluar la idoneidad de los modelos lingüísticos monolingües y multilingües. Los distintos enfoques se han evaluado en dos escenarios: i) uno real, que corresponde a los trámites asociados a servicios deportivos municipales, y ii) otro simulado a partir del conjunto de datos multidominio Facebook Multilingual Task-Oriented Dataset. Los resultados muestran que para los clasificadores monolingües que se basan en modelos lingüísticos monolingües preentrenados, el aumento de datos basado en la traducción inversa es beneficioso. En el caso del euskera, la combinación del ajuste bilingüe del modelo multilingüe con los datos aumentados mediante la traducción inversa supera a los enfoques basados en modelos monolingües.es_ES
dc.description.sponsorshipThis work has been partially funded by the Basque Government (ICL4LANG project, grant no. KK-2023/00094).es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0es_ES
dc.subjectNeural language modelses_ES
dc.subjectDialog systemses_ES
dc.subjectLess-resourced languageses_ES
dc.subjectIntent classificationes_ES
dc.subjectData augmentationes_ES
dc.subjectModelos de lenguaje neuronaleses_ES
dc.subjectSistemas de diálogoes_ES
dc.subjectLenguas con menos recursoses_ES
dc.subjectClasificación de intencioneses_ES
dc.subjectAumento de datoses_ES
dc.titleStrategies for bilingual intent classification for small datasets scenarioses_ES
dc.title.alternativeEstrategias de clasificación bilingüe de intenciones para escenarios con conjuntos de datos reducidoses_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.identifier.doi10.26342/2023-71-11-
dc.relation.publisherversionhttps://doi.org/10.26342/2023-71-11es_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
Appears in Collections:Procesamiento del Lenguaje Natural - Nº 71 (2023)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_71_11.pdf971,55 kBAdobe PDFOpen Preview


This item is licensed under a Creative Commons License Creative Commons