Return to search

Investigación en Tecnología de Reconocimiento de Voz Aplicada a Enseñanza de Segundo Idioma con Adaptación y Cancelación no Supervisada de Ruido

En esta Tesis se aborda el problema de la evaluación automática de pronunciación para sistemas de
enseñanza de idioma asistidos por computadoras (CAPT, computer aided pronunciation training) basada
en tecnología de reconocimiento de voz (ASR, automatic speech recognition). El evaluador automático de
pronunciación presentado aquí está previsto para ambientes de sala de clases y para grabaciones realizadas
con distintos tipos de micrófonos de baja calidad. De este modo, se deducen dos enfoques para desarrollar
el problema: introducir de manera eficiente la metodología de ASR en CAPT y hacer más robusto el
proceso de ASR aplicado en CAPT.
La inserción de la tecnología ASR en CAPT mostrada aquí está basada en la generación de hipótesis
competitivas para componer el modelo de lenguaje. Se destaca asimismo, que la metodología propuesta es
independiente del texto a entrenar y no requiere de información a priori sobre los errores más comunes
dada una lengua madre. Además, en esta Tesis se plantea el uso de la teoría de Bayes para fusión de
múltiples clasificadores y para la asociación de métricas objetivas con evaluaciones subjetivas. En
términos de robustez en ASR se propone un mecanismo de aprendizaje reforzado basado en medidas de
confiabilidad para corregir o adaptar la probabilidad de observación en el dominio logarítmico de forma
no-supervisada y con datos limitados. Este método de adaptación para ASR es aplicado en CAPT y
comparado con las clásicas técnicas presentes en la literatura como MLLR y VTLN.
La efectividad del método propuesto para la generación de léxico competitivo se refleja en que puede
alcanzar correlaciones promedio entre puntajes subjetivos-objetivos iguales a 0.67 y 0.82 con cinco y dos
niveles de calidad de pronunciación, respectivamente. Además, el mecanismo de fusión de múltiples
clasificadores presentado puede alcanzar un incremento de 2.4% en la correlación promedio y una
reducción del 10.2% en el error de clasificación entre puntajes subjetivos-objetivos con dos niveles de
calidad de pronunciación. Por otro lado, utilizando la metodología de aprendizaje reforzado basado en
medidas de confiabilidad para robustez en ASR se obtienen reducciones significativas en WER entre 3% y
18% dependiendo de la base de datos de prueba, de las condiciones de entrenamiento-test y del método
usado para optimizar una combinación lineal de métricas. Finalmente, al aplicar el esquema de robustez en
CAPT se logran mejoras de 10% y 30% en términos de correlación promedio entre evaluaciones
subjetivas-objetivas, dependiendo del clasificador usado para evaluar la calidad de pronunciación y con
micrófonos de baja calidad en ambiente de sala de clases.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/102344
Date January 2010
CreatorsMolina Sánchez, Carlos
ContributorsBecerra Yoma, Néstor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Silva Sánchez, Jorge, Atkinson Abutridy, John, Soto Gómez, Ismael
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis
RightsAttribution-NonCommercial-NoDerivs 3.0 Chile, http://creativecommons.org/licenses/by-nc-nd/3.0/cl/

Page generated in 0.0015 seconds