Evaluation of transformer-based models for punctuation and capitalization restoration in Catalan and Galician
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/133234
Título: | Evaluation of transformer-based models for punctuation and capitalization restoration in Catalan and Galician |
---|---|
Título alternativo: | Evaluación de modelos basados en Transformers para el sistema de recuperación de puntuación y mayúsculas en Catalán y Gallego |
Autor/es: | Pan, Ronghao | García-Díaz, José Antonio | Vivancos Vicente, Pedro J. | Valencia García, Rafael |
Palabras clave: | Automatic Speech Recognition | Transformers | Punctuation Restoration | Capitalization Restoration | Catalan | Galician | Reconocimiento Automático del Habla | Recuperación de puntuación | Recuperación de mayúsculas | Catalán | Gallego |
Fecha de publicación: | mar-2023 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2023, 70: 27-38. https://doi.org/10.26342/2023-70-2 |
Resumen: | In recent years, the performance of Automatic Speech Recognition systems (ASR) has increased considerably due to new deep learning methods. However, the raw output of an ASR system consists of a sequence of words without capital letters and punctuation marks. Therefore, a capitalization and punctuation restoration system are one of the most important post-processes of ASR to improve readability and to enable the subsequent use of these results in other NLP models. Most models focus solely on English punctuation resolution, and recently new models of Spanish punctuation restoration have emerged. However, none focus on capitalization and punctuation restoration in Galician and Catalan. In this sense, we propose a system for capitalization and punctuation restoration based on Transformers models for Catalan and Galician. Both models perform very well, with an overall performance of 90.2% for Galician and 90.86% for Catalan, and have the ability to identify proper names, country names, and organizations for uppercase restoration. | En los últimos años, el rendimiento de sistemas de Reconocimiento Automático del habla ha aumentado considerablemente gracias a nuevos métodos de deep learning. Sin embargo, la salida bruta de estos sistemas consiste en secuencias de palabras sin mayúsculas ni signos de puntuación. Recuperar esta información mejora la legibilidad y permite su posterior uso en otros modelos de PLN. La mayoría de las soluciones existentes se centran únicamente en inglés; aunque recientemente han surgido nuevos modelos de restauración de la puntuación en español. Sin embargo, ninguno se centra en gallego y catalán. En este sentido, proponemos un sistema de restauración de mayúsculas y puntuación basado en modelos Transformers para estos idiomas. Ambos modelos tienen un rendimiento muy bueno: 90,2% para el gallego y 90,86% para el catalán. Además, también tienen la capacidad de identificar nombres propios, nombres de países y organizaciones para la restauración de mayúsculas. |
Patrocinador/es: | This work is part of the research project (2021/C005/00150076) funded by Spanish Government - Ministerio de Asuntos Económicos y Transformación and by the European Union NextGenerationEU/PRTR. This work is also part of the research project LaTe4PSP (PID2019-107652RB-I00/AEI/ 10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033. |
URI: | http://hdl.handle.net/10045/133234 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2023-70-2 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 |
Revisión científica: | si |
Versión del editor: | https://doi.org/10.26342/2023-70-2 |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 70 (2023) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_70_02.pdf | 1,18 MB | Adobe PDF | Abrir Vista previa | |
Este ítem está licenciado bajo Licencia Creative Commons