Técnicas de post-procesado de resultados en un sistema de diarización de locutores

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/23926
Información del item - Informació de l'item - Item information
Título: Técnicas de post-procesado de resultados en un sistema de diarización de locutores
Título alternativo: Post-processing techniques for a speaker diarization system
Autor/es: Tavárez Arriba, David | Navas Cordón, Eva | Erro Eslava, Daniel | Saratxaga Couceiro, Ibon | Hernáez Rioja, Inmaculada
Palabras clave: Diarización de locutores | Segmentación | Transcripción enriquecida | Speaker diarization | Segmentation | Rich transcription
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2012
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: TAVAREZ, David, et al. “Técnicas de post-procesado de resultados en un sistema de diarización de locutores”. Procesamiento del Lenguaje Natural. N. 49 (2012). ISSN 1135-5948, pp. 109-116
Resumen: Este artículo presenta las técnicas de postprocesado diseñadas para mejorar los resultados de un sistema de diarización de locutores. Se han propuesto tres técnicas de mejora: el refinado de la segmentación voz/no voz, la asimilación de los segmentos cortos y la fusión de los clusters del mismo locutor. Las técnicas se han implementado en un módulo que se aplica como etapa de postprocesado y que ha mejorado un 22.3% el resultado del sistema base. El módulo se ha aplicado sin realizar ningún ajuste sobre otro sistema de diarización de arquitectura similar al sistema base con una mejora del 21% y sobre uno con arquitectura muy diferente sin conseguirse mejoras. Asimismo se ha utilizado con otra base de datos y se ha conseguido mejorar el DER un 17 %. Esto demuestra la validez de las técnicas desarrolladas para la mejora de los resultados de la diarización. | This paper presents the post-processing techniques designed to improve the results of a speaker diarization system. Three different techniques are proposed: refinement of speech vs. non speech segmentation, assimilation of short speech segments and fusion of clusters from the same speaker. These techniques have been implemented in a post-processing module that improves the result of the baseline system by 22.3 %. The same module has been applied to another speaker diarization system with a similar architecture to that of the baseline system with a DER improvement of 21% and to another one with a very different architecture where no improvement has been achieved. It has also been used with another database with an improvement of 17 %. These experiments prove the validity of the techniques developed.
Patrocinador/es: Este trabajo ha sido financiado parcialmente por la UPV/EHU (Ayudas para la Formación de Personal Investigador), el Gobierno Vasco (proyecto BerbaTek, IE09-262) y el Ministerio de Ciencia e Innovación (Proyecto Buceador, TEC2009-14094-C04-02).
URI: http://hdl.handle.net/10045/23926
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 49 (2012)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_49_12.pdf298,33 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.