• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 1
  • Tagged with
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Reconocimiento robusto de patrones acústicos basados en el sistema auditivo periférico

Poblete Ramírez, Víctor January 2014 (has links)
Doctor en Ingeniería Eléctrica / La verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del nervio auditivo (AN). El término periférico se utiliza para dar a entender aquella parte del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS. Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, es una función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios, discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados con el sistema baseline MFCC, muestran que el método propuesto, en combinación con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan grandes como 40% en ciertos SNRs. A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes Cepstrales Localmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada (GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar en forma instantánea features de voz. La efectividad de los LNCCs se demuestra en una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad computacional y por compensar más ampliamente el tilt espectral que los coeficientes MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35% cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente. Es interesante destacar que los features LNCC pueden llegar a ser una alternativa a MFCC y MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral. Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC, consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones de mismatch.

Page generated in 0.0313 seconds