Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/5035
Información del item - Informació de l'item - Item information
Title: Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT
Other Titles: Development of a tour-providing robot integrating dialogue system and emotional speech: ROBINT Project
Authors: Lucas Cuesta, Juan Manuel | Alcázar Prior, Rosario | Montero Martínez, Juan Manuel | Fernández Martínez, Fernando | Barra Chicote, Roberto | D'Haro Enríquez, Luis Fernando | Ferreiros López, Javier | Córdoba Herralde, Ricardo de | Macías Guarasa, Javier | San Segundo Hernández, Rubén | Pardo Muñoz, José Manuel
Keywords: Reconocimiento del habla | Medidas de confianza | Síntesis de voz con emociones | Speech recognition | Confidence measures | Emotional speech synthesis
Issue Date: Apr-2008
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: LUCAS CUESTA, Juan Manuel, et al. "Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT". Procesamiento del lenguaje natural. N. 40 (abr. 2008). ISSN 1135-5948, pp. 51-58
Abstract: Este artículo presenta la incorporación de un sistema de diálogo hablado a un robot autónomo, concebido como elemento interactivo en un museo de ciencias capaz de realizar visitas guiadas y establecer diálogos sencillos con los visitantes del mismo. Para hacer más atractivo su funcionamiento, se ha dotado al robot de rasgos (como expresividad gestual o síntesis de voz con emociones) que humanizan sus intervenciones. El reconocedor de voz es un subsistema independiente del locutor (permite reconocer el habla de cualquier persona), que incorpora medidas de confianza para mejorar las prestaciones del reconocimiento, puesto que se logra un filtrado muy importante de habla parásita. En cuanto al sistema de comprensión, hace uso de un sistema de aprendizaje basado en reglas, lo que le permite inferir información explícita de un conjunto de ejemplos, sin que sea necesario generar previamente una gramática o un conjunto de reglas que guíen al módulo de comprensión. Estos subsistemas se han evaluado previamente en una tarea de control por voz de un equipo HIFI, empleando nuestro robot como elemento de interfaz, obteniendo valores de 95,9% de palabras correctamente reconocidas y 92,8% de conceptos reconocidos. En cuanto al sistema de conversión de texto a voz, se ha implementado un conjunto de modificaciones segmentales y prosódicas sobre una voz neutra, que conducen a la generación de emociones en la voz sintetizada por el robot, tales como alegría, enfado, tristeza o sorpresa. La fiabilidad de estas emociones se ha medido con varios experimentos perceptuales que arrojan resultados de identificación superiores al 70% para la mayoría de las emociones, (87% en tristeza, 79,1% en sorpresa). | This paper describes the implementation of a spoken dialogue system on an autonomous robot which presents a high degree of interaction with the visitors in a Science Museum, providing interactive guided tours. Our main purpose was to provide the robot with some features towards the generation of more human-like interaction. These features are gestual expressivity and emotional speech synthesis. The speech recognition module is a speaker-independent recognizer which makes use of confidence measures, achieving the recognition of utterances spoken by any person, and a high reduction of the impact of noise in speech. The language understanding module makes use of a self-learning rule-based approach, which allows the system to infer information from the available example utterances. Thus, the generation of a formal grammar becomes unnecessary. Both modules have been evaluated on a task which includes dialogues between our robot and a human speaker. This task has been the control of a HI-FI system. The results of this experiment are 95.9% in Word Accuracy, and 92.8% in Concept Accuracy. We have also implemented a voice synthesizer that makes use of several prosodic and segmental modifications of the synthesized speech. This way, our system generates a speech with several emotions, such as happiness, anger, sadness or surprise. The performance of this module has been measured with several experiments for emotion identification, that show identification rates higher than 70% for most of tested emotions, (87% for sadness, or 79.1% for surprise).
Sponsor: El presente trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia, bajo los contratos DPI2007-66846- C02-02 (ROBONAUTA), DPI2004-07908- C02 (ROBINT) y por la UPM_CAM, bajo el contrato CCG06-UPM/CAM-516 (ATINA).
URI: http://hdl.handle.net/10045/5035
ISSN: 1135-5948
Language: spa
Type: info:eu-repo/semantics/article
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 40 (abril 2008)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_40_06.pdf371,58 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.