Spanish hate-speech detection in football

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/137094
Información del item - Informació de l'item - Item information
Títol: Spanish hate-speech detection in football
Títol alternatiu: Detección de odio en futbol en español
Autors: Montesinos-Cánovas, Esteban | García-Sánchez, Francisco | García-Díaz, José Antonio | Alcaraz Mármol, Gema | Valencia García, Rafael
Paraules clau: Hate speech detection | Large Language Models | Linguistic features | Interpretability | Discurso de odio | Modelos del lenguaje | Características lingüísticas | Interpretabilidad
Data de publicació: de setembre-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: Procesamiento del Lenguaje Natural. 2023, 71: 15-27. https://doi.org/10.26342/2023-71-1
Resum: In the last few years, Natural Language Processing (NLP) tools have been successfully applied to a number of different tasks, including author profiling, negation detection or hate speech detection, to name but a few. For the identification of hate speech from text, pre-trained language models can be leveraged to build high-performing classifiers using a transfer learning approach. In this work, we train and evaluate state-of-the-art pre-trained classifiers based on Transformers. The explored models are fine-tuned using a hate speech corpus in Spanish that has been compiled as part of this research. The corpus contains a total of 7,483 football-related tweets that have been manually annotated under four categories: aggressive, racist, misogynist, and safe. A multi-label approach is used, allowing the same tweet to be labeled with more than one class. The best results, with a macro F1-score of 88.713%, have been obtained by a combination of the models using Knowledge Integration. | En los últimos años, el Procesamiento del Lenguaje Natural (PLN) se ha aplicado con éxito a diversas tareas, como la elaboración de perfiles de autor, la detección de negaciones o la detección de discursos de odio. Para la identificación de odio a partir de texto, es posible explotar modelos del lenguaje preentrenados que permitan construir clasificadores de alto rendimiento utilizando un enfoque de aprendizaje por transferencia (en inglés, transfer learning). En este trabajo, se presentan los resultados de entrenar y evaluar clasificadores preentrenados de última generación basados en Transformers. Los modelos explorados se ajustan (en inglés, fine tune) utilizando un corpus en español sobre el discurso de odio en el futbol que se ha compilado como parte de esta investigación. El corpus contiene un total de 7.483 tuits relacionados con el futbol que han sido anotados manualmente bajo cuatro categorías: agresivo, racista, misógino y seguro. Se utilizó un enfoque multietiqueta, que permite etiquetar el mismo tuit con más de una clase. Los mejores resultados, con un macro F1-score del 88,713%, se han obtenido mediante una combinación de los modelos utilizando la estrategia de Knowledge Integration.
Patrocinadors: This work is part of the research projects AIInFunds (PDC2021-121112-I00) and LT-SWM (TED2021-131167B-I00) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR. This work is also part of the research project LaTe4PSP (PID2019-107652RB-I00/AEI/10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033.
URI: http://hdl.handle.net/10045/137094
ISSN: 1135-5948
DOI: 10.26342/2023-71-1
Idioma: eng
Tipus: info:eu-repo/semantics/article
Drets: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisió científica: si
Versió de l'editor: https://doi.org/10.26342/2023-71-1
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 71 (2023)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_71_01.pdf1,22 MBAdobe PDFObrir Vista prèvia


Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons Creative Commons