Balancing Efficiency and Performance in NLP: A Cross-Comparison of Shallow Machine Learning and Large Language Models via AutoML

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/146893
Full metadata record
Full metadata record
DC FieldValueLanguage
dc.contributorProcesamiento del Lenguaje y Sistemas de Información (GPLSI)es_ES
dc.contributor.authorEstevanell-Valladares, Ernesto L.-
dc.contributor.authorGutiérrez, Yoan-
dc.contributor.authorMontoyo, Andres-
dc.contributor.authorMuñoz, Rafael-
dc.contributor.authorAlmeida-Cruz, Yudivian-
dc.contributor.otherUniversidad de Alicante. Departamento de Lenguajes y Sistemas Informáticoses_ES
dc.date.accessioned2024-09-19T10:45:46Z-
dc.date.available2024-09-19T10:45:46Z-
dc.date.issued2024-09-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2024, 73: 221-233. https://doi.org/10.26342/2024-73-16es_ES
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/146893-
dc.description.abstractThis study critically examines the resource efficiency and performance of Shallow Machine Learning (SML) methods versus Large Language Models (LLMs) in text classification tasks by exploring the balance between accuracy and environmental sustainability. We introduce a novel optimization strategy that prioritizes computational efficiency and ecological impact alongside traditional performance metrics leveraging Automated Machine Learning (AutoML). Our analysis reveals that while the pipelines we developed did not surpass state-of-the-art (SOTA) models regarding raw performance, they offer a significantly reduced carbon footprint. We discovered SML optimal pipelines with competitive performance and up to 70 times less carbon emissions than hybrid or fully LLM pipelines, such as standard BERT and DistilBERT variants. Similarly, we obtain hybrid pipelines (using SML and LLMs) with between 20% and 50% reduced carbon emissions compared to fine-tuned alternatives and only a marginal decrease in performance. This research challenges the prevailing reliance on computationally intensive LLMs for NLP tasks and underscores the untapped potential of AutoML in sculpting the next wave of environmentally conscious AI models.es_ES
dc.description.abstractEste estudio analiza críticamente la eficiencia de recursos y el rendimiento de los métodos de Aprendizaje Automático Superficial (SML) frente a los Grandes Modelos de Lenguaje (LLM) en tareas de clasificación de texto explorando el equilibrio entre precisión y sostenibilidad medioambiental. Se introduce una novedosa estrategia de optimización que prioriza la eficiencia computacional y el impacto ecológico junto con las métricas de rendimiento tradicionales aprovechando el Aprendizaje Automático de Máquinas (AutoML). El análisis revela que, si bien los pipelines desarrollados no superan a los modelos SOTA m´as avanzados en cuanto a rendimiento bruto, reducen significativamente la huella de carbono. Se descubrieron pipelines óptimos de SML con un rendimiento competitivo y hasta 70 veces menos emisiones de carbono que pipelines híbridos o totalmente LLM, como las variantes estándar de BERT y DistilBERT. Del mismo modo, obtenemos pipelines híbridos (que incorporan SML y LLM) con entre un 20% y un 50% menos de emisiones de carbono en comparación con las alternativas fine-tuneadas y sólo una disminución marginal del rendimiento. Esta investigación pone en cuestión la dependencia predominante de los LLM de alta carga computacional para tareas de PLN y subraya el potencial sin explotar de AutoML para esculpir la próxima oleada de modelos de IA con conciencia medioambiental.es_ES
dc.description.sponsorshipThis research has been partially funded by the University of Alicante and the University of Havana, the Spanish Ministry of Science and Innovation, the Generalitat Valenciana, and the European Regional Development Fund (ERDF) through the following funding: At the national level, the following projects were granted: COOLANG (PID2021-122263OB-C22); funded by MCIN/AEI/10.13039/501100011033 and, as appropriate, by “ERDF A way of making Europe”, by the “European Union” or by the “European Union NextGenerationEU/PRTR”. Also, the VIVES: “Pla de Tecnologies de la Llengua per al valencià” project (2022/TL22/00215334) from the Projecte Estratègic per a la Recuperació i Transformació Econòmica (PERTE). At regional level, the Generalitat Valenciana (Conselleria d’Educació, Investigacio, Cultura i Esport), granted funding for NL4DISMIS (CIPROM/2021/21).es_ES
dc.languageenges_ES
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales_ES
dc.rights© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0es_ES
dc.subjectNatural Language Processinges_ES
dc.subjectMachine Learninges_ES
dc.subjectAutoMLes_ES
dc.subjectLLMes_ES
dc.subjectProcesamiento del Lenguaje Naturales_ES
dc.subjectAprendizaje Automáticoes_ES
dc.titleBalancing Efficiency and Performance in NLP: A Cross-Comparison of Shallow Machine Learning and Large Language Models via AutoMLes_ES
dc.title.alternativeEquilibrando eficiencia y rendimiento en PLN: comparación cruzada de Machine Learning Tradicional y Grandes Modelos de Lenguaje mediante AutoMLes_ES
dc.typeinfo:eu-repo/semantics/articlees_ES
dc.peerreviewedsies_ES
dc.identifier.doi10.26342/2024-73-16-
dc.relation.publisherversionhttps://doi.org/10.26342/2024-73-16es_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.relation.projectIDinfo:eu-repo/grantAgreement/AEI/Plan Estatal de Investigación Científica y Técnica y de Innovación 2021-2023/PID2021-122263OB-C22es_ES
Appears in Collections:INV - GPLSI - Artículos de Revistas

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailEstevanell-Valladares_etal_2024_PLN.pdf441,18 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.