Fine-tuning machine translation quality-rating scales for new digital genres: The case of user-generated content

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/125085
Información del item - Informació de l'item - Item information
Título: Fine-tuning machine translation quality-rating scales for new digital genres: The case of user-generated content
Título alternativo: Adaptación de las escalas de calidad de la traducción automática a los nuevos géneros digitales: el caso del contenido generado por el usuario
Autor/es: Candel Mora, Miguel Ángel
Palabras clave: Machine translation | Post-editing | Quality assessment | User-generated content | Online reviews | Traducción automática | Posedición | Evaluación de la calidad | Contenido generado por el usuario | Reseñas en línea
Fecha de publicación: 2022
Editor: Universidad de Alicante. Departamento de Filología Española, Lingüística General y Teoría de la Literatura
Cita bibliográfica: ELUA. Estudios de Lingüística. 2022, 38: 117-136. https://doi.org/10.14198/ELUA.21900
Resumen: With the active participation of users in product review platforms, online consumer-generated content, and, more specifically, user-generated reviews, have become a clear reference in purchasing decision-making processes, which sometimes exceed the impact of advertising campaigns. A common feature of most tourism review platforms is the use of machine translation (MT) systems to immediately make reviews available to users in various languages. However, the quality of the MT output of these reviews varies greatly, primarily due to the subjective and unstructured nature of this digital genre. Different studies confirm that there are no universal quality rating scales. The assessment of MT output quality usually depends on factors such as the purpose of the text or the value given to the immediacy of the translation. New neural MT systems have been a revolution in the quality increase of the translated output; however, new lines of research are opening up to verify whether the quality of this new paradigm of MT can be assessed with the existing scales, mainly from previous rule-based systems and statistical translation, or whether it is necessary to develop new quality metrics specifically for these new intelligent systems. On the other hand, one of the questions that remain to be resolved in this new context of neural MT is whether the use of large amounts of textual data in the training of these systems is as effective as the use of less data but of higher quality and better-adjusted to the specialty and type of text for which it is used. Based on the hypothesis that each genre requires specific quality rating scales, this work identifies the error patterns and textual characteristics of online user reviews from a corpus-based approach analysis that will contribute to adapting quality rating scales to this specific digital genre. | Con la participación activa de los usuarios en las plataformas de reseñas de productos, los contenidos online generados por los consumidores, y más concretamente, las opiniones de los usuarios se han convertido en una clara referencia en los procesos de decisión de compra, que en ocasiones superan el impacto de las campañas publicitarias. Una característica común de la mayoría de las plataformas de reseñas turísticas es el uso de sistemas de traducción automática para poner inmediatamente las reseñas a disposición de los usuarios en diferentes idiomas. Sin embargo, la calidad de la traducción automática de estas reseñas varía en gran medida debido a la subjetividad y a la naturaleza no estructurada de este género digital. Diferentes estudios confirman que no existen escalas universales de valoración de la calidad y que la evaluación de la calidad del resultado de la MT suele depender de factores como la finalidad del texto o el valor que se da a la inmediatez de la traducción. Los nuevos sistemas de traducción automática neuronal han supuesto una revolución en el incremento de la calidad del texto traducido, sin embargo, se abren nuevas líneas de investigación para verificar si la calidad de este nuevo paradigma de traducción automática se puede valorar con las escalas existentes, procedentes en su mayoría de los anteriores sistemas basados en reglas y traducción estadística, o si es necesario desarrollar nuevas métricas de calidad acordes con estos nuevos sistemas inteligentes. Por otro lado, una de las cuestiones que quedan por resolver en este nuevo contexto de traducción automática neuronal es si la utilización de grandes cantidades de datos textuales en el entrenamiento de estos sistemas es igual de eficaz que un uso de menos cantidad de datos pero de mayor calidad y más ajustados a la especialidad y el tipo de texto en el que se utiliza. Partiendo de la hipótesis de que cada género requiere escalas de valoración de la calidad específicas, este trabajo identifica patrones de error y características textuales de las reseñas de usuarios en línea a partir de un análisis basado en un corpus que contribuirá a adaptar las escalas de valoración de la calidad a este género digital específico.
URI: http://hdl.handle.net/10045/125085
ISSN: 0212-7636 | 2171-6692 (Internet)
DOI: 10.14198/ELUA.21900
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © 2022 Miguel A. Candel-Mora. Este trabajo está sujeto a una licencia de Reconocimiento 4.0 Internacional de Creative Commons (CC BY 4.0)
Revisión científica: si
Versión del editor: https://doi.org/10.14198/ELUA.21900
Aparece en las colecciones:ELUA. Estudios de Lingüística Universidad de Alicante - 2022, N. 38

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailELUA_38_06.pdf402,7 kBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons