New experiments on speaker diarization for unsupervised speaking style voice building for speech synthesis

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/35771
Registro completo de metadatos
Registro completo de metadatos
Campo DCValorIdioma
dc.contributor.authorMartínez González, Beatriz-
dc.contributor.authorPardo Muñoz, José Manuel-
dc.contributor.authorEcheverry Correa, Julián David-
dc.contributor.authorMontero Martínez, Juan Manuel-
dc.date.accessioned2014-02-28T09:41:13Z-
dc.date.available2014-02-28T09:41:13Z-
dc.date.issued2014-03-
dc.identifier.citationProcesamiento del Lenguaje Natural. 2014, 52: 77-84es
dc.identifier.issn1135-5948-
dc.identifier.urihttp://hdl.handle.net/10045/35771-
dc.description.abstractUniversal use of speech synthesis in different applications would require an easy development of new voices with little manual intervention. Considering the amount of multimedia data available on internet and media, one interesting goal is to develop tools and methods to automatically build multi-style voices from them. In a previous paper a methodology for constructing such tools was sketched, and preliminary experiments with a multi-style database were presented. In this paper we further investigate such approach and propose several improvements to it based on the selection of the appropriate number of initial speakers, the use or not of noise reduction filters, the use of the F0 feature and the use of a music detection algorithm. We have demonstrated that the best system using music detection algorithm decreases the precision error 22.36% relative for the development set and 39.64% relative for the test set compared to the baseline, without degrading the merit factor. The average precision for the test set is 90.62% ranging from 76.18% for reportages to 99.93% for meteorology reports.es
dc.description.abstractEl uso universal de síntesis de voz en diferentes aplicaciones requeriría un desarrollo sencillo de las nuevas voces con poca intervención manual. Teniendo en cuenta la cantidad de datos multimedia disponibles en Internet y los medios de comunicación, un objetivo interesante es el desarrollo de herramientas y métodos para construir automáticamente las voces de estilo de varios de ellos. En un trabajo anterior se esbozó una metodología para la construcción de este tipo de herramientas, y se presentaron experimentos preliminares con una base de datos multiestilo. En este artículo investigamos más a fondo esta tarea y proponemos varias mejoras basadas en la selección del número apropiado de hablantes iniciales, el uso o no de filtros de reducción de ruido, el uso de la F0 y el uso de un algoritmo de detección de música. Hemos demostrado que el mejor sistema usando un algoritmo de detección de música disminuye el error de precisión 22,36% relativo para el conjunto de desarrollo y 39,64% relativo para el montaje de ensayo en comparación con el sistema base, sin degradar el factor de mérito. La precisión media para el conjunto de prueba es 90.62% desde 76.18% para los reportajes de 99,93% para los informes meteorológicos.es
dc.description.sponsorshipThe work leading to these results has received funding from the European Union under grant agreement n° 287678. It has also been supported by TIMPANO (TIN2011-28169-C05-03), INAPRA (MICINN, DPI2010-21247-C02-02) and MA2VICMR (Comunidad Autónoma de Madrid, S2009/TIC-1542) projects.es
dc.languageenges
dc.publisherSociedad Española para el Procesamiento del Lenguaje Naturales
dc.subjectExpressive speech synthesises
dc.subjectSpeaker diarizationes
dc.subjectSpeaking styleses
dc.subjectVoice buildinges
dc.subjectSíntesis de voz expresivaes
dc.subjectDiarización de locutoreses
dc.subjectEstilos de hablaes
dc.subjectSíntesis de vozes
dc.subject.otherLenguajes y Sistemas Informáticoses
dc.titleNew experiments on speaker diarization for unsupervised speaking style voice building for speech synthesises
dc.title.alternativeNuevos experimentos en diarización de locutores para creación de voces para síntesises
dc.typeinfo:eu-repo/semantics/articlees
dc.peerreviewedsies
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 52 (2014)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_52_09.pdf954,87 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.