Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT

Empreu sempre aquest identificador per citar o enllaçar aquest ítem http://hdl.handle.net/10045/5035
Información del item - Informació de l'item - Item information
Títol: Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT
Títol alternatiu: Development of a tour-providing robot integrating dialogue system and emotional speech: ROBINT Project
Autors: Lucas Cuesta, Juan Manuel | Alcázar Prior, Rosario | Montero Martínez, Juan Manuel | Fernández Martínez, Fernando | Barra Chicote, Roberto | D'Haro Enríquez, Luis Fernando | Ferreiros López, Javier | Córdoba Herralde, Ricardo de | Macías Guarasa, Javier | San Segundo Hernández, Rubén | Pardo Muñoz, José Manuel
Paraules clau: Reconocimiento del habla | Medidas de confianza | Síntesis de voz con emociones | Speech recognition | Confidence measures | Emotional speech synthesis
Data de publicació: d’abril-2008
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Citació bibliogràfica: LUCAS CUESTA, Juan Manuel, et al. "Desarrollo de un robot-guía con integración de un sistema de diálogo y expresión de emociones: Proyecto ROBINT". Procesamiento del lenguaje natural. N. 40 (abr. 2008). ISSN 1135-5948, pp. 51-58
Resum: Este artículo presenta la incorporación de un sistema de diálogo hablado a un robot autónomo, concebido como elemento interactivo en un museo de ciencias capaz de realizar visitas guiadas y establecer diálogos sencillos con los visitantes del mismo. Para hacer más atractivo su funcionamiento, se ha dotado al robot de rasgos (como expresividad gestual o síntesis de voz con emociones) que humanizan sus intervenciones. El reconocedor de voz es un subsistema independiente del locutor (permite reconocer el habla de cualquier persona), que incorpora medidas de confianza para mejorar las prestaciones del reconocimiento, puesto que se logra un filtrado muy importante de habla parásita. En cuanto al sistema de comprensión, hace uso de un sistema de aprendizaje basado en reglas, lo que le permite inferir información explícita de un conjunto de ejemplos, sin que sea necesario generar previamente una gramática o un conjunto de reglas que guíen al módulo de comprensión. Estos subsistemas se han evaluado previamente en una tarea de control por voz de un equipo HIFI, empleando nuestro robot como elemento de interfaz, obteniendo valores de 95,9% de palabras correctamente reconocidas y 92,8% de conceptos reconocidos. En cuanto al sistema de conversión de texto a voz, se ha implementado un conjunto de modificaciones segmentales y prosódicas sobre una voz neutra, que conducen a la generación de emociones en la voz sintetizada por el robot, tales como alegría, enfado, tristeza o sorpresa. La fiabilidad de estas emociones se ha medido con varios experimentos perceptuales que arrojan resultados de identificación superiores al 70% para la mayoría de las emociones, (87% en tristeza, 79,1% en sorpresa). | This paper describes the implementation of a spoken dialogue system on an autonomous robot which presents a high degree of interaction with the visitors in a Science Museum, providing interactive guided tours. Our main purpose was to provide the robot with some features towards the generation of more human-like interaction. These features are gestual expressivity and emotional speech synthesis. The speech recognition module is a speaker-independent recognizer which makes use of confidence measures, achieving the recognition of utterances spoken by any person, and a high reduction of the impact of noise in speech. The language understanding module makes use of a self-learning rule-based approach, which allows the system to infer information from the available example utterances. Thus, the generation of a formal grammar becomes unnecessary. Both modules have been evaluated on a task which includes dialogues between our robot and a human speaker. This task has been the control of a HI-FI system. The results of this experiment are 95.9% in Word Accuracy, and 92.8% in Concept Accuracy. We have also implemented a voice synthesizer that makes use of several prosodic and segmental modifications of the synthesized speech. This way, our system generates a speech with several emotions, such as happiness, anger, sadness or surprise. The performance of this module has been measured with several experiments for emotion identification, that show identification rates higher than 70% for most of tested emotions, (87% for sadness, or 79.1% for surprise).
Patrocinadors: El presente trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia, bajo los contratos DPI2007-66846- C02-02 (ROBONAUTA), DPI2004-07908- C02 (ROBINT) y por la UPM_CAM, bajo el contrato CCG06-UPM/CAM-516 (ATINA).
URI: http://hdl.handle.net/10045/5035
ISSN: 1135-5948
Idioma: spa
Tipus: info:eu-repo/semantics/article
Apareix a la col·lecció: Procesamiento del Lenguaje Natural - Nº 40 (abril 2008)

Arxius per aquest ítem:
Arxius per aquest ítem:
Arxiu Descripció Tamany Format  
ThumbnailPLN_40_06.pdf371,58 kBAdobe PDFObrir Vista prèvia


Tots els documents dipositats a RUA estan protegits per drets d'autors. Alguns drets reservats.