Ajuste y evaluación del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión

Giménez de Dios, Raúl; Segura Bedmar, Isabel

Ajuste y evaluación del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/133237

Información del item - Informació de l'item - Item information
Títol:	Ajuste y evaluación del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión
Títol alternatiu:	Fine-tuning and evaluation of DialoGPT on several datasets of English movies and TV series subtitles
Autors:	Giménez de Dios, Raúl \| Segura Bedmar, Isabel
Paraules clau:	GPT-2 \| DialoGPT \| Chatbot \| Transformador \| Transformer
Data de publicació:	de març-2023
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica:	Procesamiento del Lenguaje Natural. 2023, 70: 63-71. https://doi.org/10.26342/2023-70-5
Resum:	Las nuevas plataformas de streaming han generado una proliferación de películas y series, la mayoría de ellas subtituladas. Esta proliferación proporciona una ingente cantidad de textos conversacionales, menos formales, más interactivos, que reflejan mejor la comunicación entre seres humanos. La mayoría de los modelos transformers desarrollados hasta la fecha no han sido entrenados con textos conversacionales. En este artículo, DialoGPT, un modelo GPT-2 entrenado para la tarea de diálogo sobre una colección de mensajes de Reddit, es re-entrenado y evaluado sobre distintas colecciones de subtítulos en inglés de series populares. Los experimentos muestran que DialoGPT es obtiene buenos resultados, y que el uso de los subtítulos y diálogos de películas y series es un excelente recurso para el desarrollo de chatbots. \| The new streaming platforms have generated a proliferation of movies and series, most of them subtitled. This provides a large number of conversational, less formal, more interactive texts that better reflect communication between human beings. Most of the transformative models developed to date have not been trained with conversational texts. In this article, DialoGPT, a GPT-2 model for the dialog task trained on a collection of Reddit posts, is fine-tuned and evaluated on different collections of English subtitles from popular movies and series. Experiments show that DialoGPT performs well and that English subtitles from movies and series can be an outstanding resource for chatbot development.
Patrocinadors:	Esta publicación es parte del proyecto de I+D+i ACCESS2MEET (PID2020-116527RB-I00) financiado por AEI/10.13039/501100011033/.
URI:	http://hdl.handle.net/10045/133237
ISSN:	1135-5948
DOI:	10.26342/2023-70-5
Idioma:	spa
Tipus:	info:eu-repo/semantics/article
Drets:	© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisió científica:	si
Versió de l'editor:	https://doi.org/10.26342/2023-70-5
Apareix a la col·lecció:	Procesamiento del Lenguaje Natural - Nº 70 (2023)

Arxius per aquest ítem:

Arxius per aquest ítem:
Arxiu	Descripció	Tamany	Format
PLN_70_05.pdf		859,09 kB	Adobe PDF	Obrir Vista prèvia Tancar vista prèvia

Veure citacions a Google Académic

Mostrar el registre complet de l'ítem

Aquest ítem està subjecte a una llicència de Creative Commons Llicència Creative Commons