Técnicas de post-procesado de resultados en un sistema de diarización de locutores
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/23926
Título: | Técnicas de post-procesado de resultados en un sistema de diarización de locutores |
---|---|
Título alternativo: | Post-processing techniques for a speaker diarization system |
Autor/es: | Tavárez Arriba, David | Navas Cordón, Eva | Erro Eslava, Daniel | Saratxaga Couceiro, Ibon | Hernáez Rioja, Inmaculada |
Palabras clave: | Diarización de locutores | Segmentación | Transcripción enriquecida | Speaker diarization | Segmentation | Rich transcription |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | sep-2012 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | TAVAREZ, David, et al. “Técnicas de post-procesado de resultados en un sistema de diarización de locutores”. Procesamiento del Lenguaje Natural. N. 49 (2012). ISSN 1135-5948, pp. 109-116 |
Resumen: | Este artículo presenta las técnicas de postprocesado diseñadas para mejorar los resultados de un sistema de diarización de locutores. Se han propuesto tres técnicas de mejora: el refinado de la segmentación voz/no voz, la asimilación de los segmentos cortos y la fusión de los clusters del mismo locutor. Las técnicas se han implementado en un módulo que se aplica como etapa de postprocesado y que ha mejorado un 22.3% el resultado del sistema base. El módulo se ha aplicado sin realizar ningún ajuste sobre otro sistema de diarización de arquitectura similar al sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido mejorar el DER un 17 %. Esto demuestra la validez de las técnicas desarrolladas para la mejora de los resultados de la diarización. | This paper presents the post-processing techniques designed to improve the results of a speaker diarization system. Three different techniques are proposed: refinement of speech vs. non speech segmentation, assimilation of short speech segments and fusion of clusters from the same speaker. These techniques have been implemented in a post-processing module that improves the result of the baseline system by 22.3 %. The same module has been applied to another speaker diarization system with a similar architecture to that of the baseline system with a DER improvement of 21% and to another one with a very different architecture where no improvement has been achieved. It has also been used with another database with an improvement of 17 %. These experiments prove the validity of the techniques developed. |
Patrocinador/es: | Este trabajo ha sido financiado parcialmente por la UPV/EHU (Ayudas para la Formación de Personal Investigador), el Gobierno Vasco (proyecto BerbaTek, IE09-262) y el Ministerio de Ciencia e Innovación (Proyecto Buceador, TEC2009-14094-C04-02). |
URI: | http://hdl.handle.net/10045/23926 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Revisión científica: | si |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 49 (2012) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_49_12.pdf | 298,33 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.