Global ETD Search

Return to search

Compensación no Supervisada de Variabilidad Intra-Locutor y Ruido en Reconocimiento de Patrones de Voz

En un sistema de verificación de locutor, la cantidad y calidad de los datos utilizados en el proceso de
enrolamiento son fundamentales para lograr un desempeño mínimo acorde a los requerimientos de la mayoría de
los servicios. Sin embargo, en una aplicación que funciona sobre una plataforma telefónica, es escencial realizar
los diálogos de entrenamiento y verificación de forma rápida y eficiente. Estas restricciones obligan a operar con
una cantidad limitada de datos de enrolamiento. Situación que trae como consecuencia, en muchos casos, modelos
con un bajo nivel de robustez lo que implica una degradación en el rendimiento del sistema.
El problema de datos limitados de enrolamiento en verificación de locutor es un tema poco abordado en la
literatura. Los métodos propuestos se han basado principalmente en adaptación de modelos HMM (Hidden
Markov Models). Estas técnicas adaptan los parámetros de los modelos de cliente usando datos de voz generados
por los usuarios en eventos de verificación.
El objetivo principal de esta tesis es lograr un sistema de verificación de locutor telefónico robusto al efecto
negativo causado por los datos limitados de entrenamiento y el ruido. Para esto, este trabajo de investigación se
centra en el análisis y modelación de la variabilidad intra-locutor. Basándose en el criterio de MAP (Maximum a
posteriori) se propone un modelo de compensación no supervisado para las señales de verificación, ISVC (Intraspeaker
variability compensation). Esta técnica no modifica los modelos de usuario, evitando de esta forma los
errores provocados por la clasificación errónea de datos de adaptación. Es posible estimar los parámetros del
modelo propuesto con un conjunto reducido de usuarios. Además, el método descrito es independiente del usuario
y de la clase fonética en que es aplicado.
ISVC entrega reducciones entre 20% y 40% en la tasa de error del sistema. Cuando existen cambios de canal
entre condiciones de entrenamiento y verificación, el método genera mejoras entre 5% y 10% en la probabilidad
de error. El método propuesto se compara y combina con una técnica de adaptación no supervisada de modelos. Se
analizan ventajas y desventajas de ambos métodos simulando distintos escenarios de operación. Los resultados
obtenidos sugieren que ISVC es compatible con esquemas de adaptación no supervisados. Más aun, la
combinación de ambas técnicas puede llevar a una reducción entre 30% y 40% en la tasa de error de verificación

http://repositorio.uchile.cl/handle/2250/102886

Electricidad

Verificación de locutor

Compesación no supervisada

Variabilidad intra-locutor

Procesamiento de voz

Identifer	oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/102886
Date	January 2007
Creators	Garretón Vender, Claudio
Contributors	Becerra Yoma, Néstor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Baloian Tataryan, Nelson, Velásquez Silva, Juan, Soto Gómez, Ismael
Publisher	Universidad de Chile
Source Sets	Universidad de Chile
Language	Spanish
Detected Language	Spanish
Type	Tesis
Rights	Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0016 seconds

Compensación no Supervisada de Variabilidad Intra-Locutor y Ruido en Reconocimiento de Patrones de Voz

Description

Links & Downloads

Tags

Additional Fields