New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis

Please use this identifier to cite or link to this item: http://hdl.handle.net/10045/35771
Información del item - Informació de l'item - Item information
Title: New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis
Other Titles: Nuevos experimentos en diarización de locutores para creación de voces para síntesis
Authors: Martínez González, Beatriz | Pardo Muñoz, José Manuel | Echeverry Correa, Julián David | Montero Martínez, Juan Manuel
Keywords: Expressive speech synthesis | Speaker diarization | Speaking styles | Voice building | Síntesis de voz expresiva | Diarización de locutores | Estilos de habla | Síntesis de voz
Knowledge Area: Lenguajes y Sistemas Informáticos
Issue Date: Mar-2014
Publisher: Sociedad Española para el Procesamiento del Lenguaje Natural
Citation: Procesamiento del Lenguaje Natural. 2014, 52: 77-84
Abstract: Universal use of speech synthesis in different applications would require an easy development of new voices with little manual intervention. Considering the amount of multimedia data available on internet and media, one interesting goal is to develop tools and methods to automatically build multi-style voices from them. In a previous paper a methodology for constructing such tools was sketched, and preliminary experiments with a multi-style database were presented. In this paper we further investigate such approach and propose several improvements to it based on the selection of the appropriate number of initial speakers, the use or not of noise reduction filters, the use of the F0 feature and the use of a music detection algorithm. We have demonstrated that the best system using music detection algorithm decreases the precision error 22.36% relative for the development set and 39.64% relative for the test set compared to the baseline, without degrading the merit factor. The average precision for the test set is 90.62% ranging from 76.18% for reportages to 99.93% for meteorology reports. | El uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos.
Sponsor: The work leading to these results has received funding from the European Union under grant agreement n° 287678. It has also been supported by TIMPANO (TIN2011-28169-C05-03), INAPRA (MICINN, DPI2010-21247-C02-02) and MA2VICMR (Comunidad Autónoma de Madrid, S2009/TIC-1542) projects.
URI: http://hdl.handle.net/10045/35771
ISSN: 1135-5948
Language: eng
Type: info:eu-repo/semantics/article
Peer Review: si
Appears in Collections:Revistas - Procesamiento del Lenguaje Natural - Nº 52 (2014)

Files in This Item:
Files in This Item:
File Description SizeFormat 
ThumbnailPLN_52_09.pdf954,87 kBAdobe PDFOpen Preview


Items in RUA are protected by copyright, with all rights reserved, unless otherwise indicated.