Macías Guarasa, Javier, Ferreiros López, Javier, Córdoba Herralde, Ricardo de, Montero Martínez, Juan Manuel, Romeral Martín, José David, Pardo Muñoz, José Manuel
Estrategias de generación y reducción de variantes de pronunciación en sistemas de reconocimiento automático de habla : consideraciones arquitecturales
MACÍAS GUARASA, Javier, et al. “Estrategias de generación y reducción de variantes de pronunciación en sistemas de reconocimiento automático de habla : consideraciones arquitecturales”. Procesamiento del lenguaje natural. Nº 31 (septiembre 2003), pp. 91-98
URI: http://hdl.handle.net/10045/1495
DOI: 
ISSN: 1135-5948
Abstract: 
En el contexto de sistemas de reconocimiento de habla de gran vocabulario es fundamental modelar de forma adecuada las variaciones alofónicas con las que se enfrentará el sistema en una tarea real. En esta comunicación describimos un estudio sobre la introducción de variantes de pronunciación dirigidas por datos, abordando tanto los procesos de generación y reducción de las mismas como los de evaluación de su impacto en la tasa del sistema. Las técnicas descritas se acompañan del correspondiente trabajo experimental, sobre dos sistemas radicalmente distintos en relación a su potencia de discriminación (basados en arquitecturas integrada y no integrada, pensadas para trabajar como módulos de hipótesis y verificación, respectivamente), de modo que es posible obtener conclusiones razonadas sobre el funcionamiento de cada uno de ellos en relación al incremento del tamaño de los diccionarios. Los resultados más relevantes muestran cómo, para el caso de la arquitectura no integrada es posible incrementar notablemente su tasa de inclusión, incluso para incrementos muy importantes del tamaño del diccionario (de hasta un 250%). Por el contrario, el incremento del número de variaciones tiene un efecto claramente negativo, cuando se utiliza el sistema integrado.
In the context of large vocabulary speech recognition systems, it is crucial to
accurately model the allophonic variations that will be found in a real world task. In this paper
we describe a study on the use of data driven pronunciation variations, considering the
generation and reduction strategies, as well as their impact in the system performance. The
described techniques are supported by the corresponding experimental evaluation on two
radically different systems in what respect to their discrimination power (based on integrated
and non-integrated architectures, designed to work as hypothesis and verification modules,
respectively), so that it’s possible to discuss on their relative performance as a function of the
increase in dictionary size. The most relevant results show that in the case of the non integrated
architecture, we can significantly improve the inclusion rate, even for huge increases in
dictionary size (up to 250%). On the contrary, the increase in the number of pronunciation
variants has a clearly negative effect when applied to the integrated system.
Keywords:Múltiples pronunciaciones, Reconocimiento automático del habla, Técnicas dirigidas por datos, Arquitecturas para reconocimiento del habla, Multiple pronunciations, Speech recognition, Data driven techniques, Speech recognition architectures
Sociedad Española para el Procesamiento del Lenguaje Natural
info:eu-repo/semantics/article