Doctor en Ingeniería Eléctrica / La verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones
como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal
inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y
prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando
perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor
y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se
inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del
nervio auditivo (AN). El término periférico se utiliza para dar a entender aquella parte
del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema
auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS.
Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen
a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo
y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de
patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, es
una función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema
auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base
de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios,
discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad
de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en
regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de
TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados
con el sistema baseline MFCC, muestran que el método propuesto, en combinación
con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan
grandes como 40% en ciertos SNRs.
A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes Cepstrales
Localmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada
(GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar
en forma instantánea features de voz. La efectividad de los LNCCs se demuestra
en una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el
canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y
con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad
computacional y por compensar más ampliamente el tilt espectral que los coeficientes
MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de
valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35%
cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente.
Es interesante destacar que los features LNCC pueden llegar a ser una alternativa a MFCC
y MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral.
Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC,
consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones
de mismatch.
Identifer | oai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/117101 |
Date | January 2014 |
Creators | Poblete Ramírez, Víctor |
Contributors | Becerra Y., Néstor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Atkinson, John, Busso Recabarren, Carlos, Silva Sánchez, Jorge |
Publisher | Universidad de Chile |
Source Sets | Universidad de Chile |
Language | Spanish |
Detected Language | Spanish |
Type | Tesis |
Rights | Attribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/ |
Page generated in 0.0022 seconds