Return to search

Evaluación automática de prosodia con aplicaciones en enseñanza de idiomas y detección de emociones

Ingeniero Civil Electricista / La prosodia es uno de los aspectos más importantes en la comunicación humana. La entonación, el ritmo, la intensidad y la duración entregan al locutor características como naturalidad, fluidez, intención, actitud, significado e incluso emoción. Por tanto, modelar y analizar la prosodia no sólo es interesante para el estudio del habla desde una perspectiva teórica, sino que también para las tecnologías de voz. En virtud de la creciente necesidad de interfaces hombre-máquina más parecidas a las interacciones humanas reales, los sistemas de procesamiento de patrones acústicos deben ser capaces de analizar e interpretar las características prosódicas.
En esta tesis se abordan dos problemas que involucran la modelación prosódica en señales de voz. En primer lugar, se presenta una técnica para la evaluación de la entonación en enseñanza de segundo idioma basado en un esquema top-down. El método propuesto separa la evaluación de entonación de la pronunciación a nivel de sonidos individuales. Dada una señal de referencia, el usuario puede escuchar y repetir una elocución dada imitando el patrón de entonación de referencia. La técnica estima una medida de similitud entre la señal de referencia y de test. Basado en este mismo esquema, se presenta un sistema para medir el acento léxico a nivel de sílabas usando la información de la frecuencia fundamental en conjunto con la energía. La técnica propuesta es independiente del texto y del idioma y minimiza el efecto de la calidad de pronunciación a nivel de segmentos.
Como resultado del esquema propuesto para enseñanza de idiomas, se presenta una estrategia para detectar emociones en señales acústicas usando modelos de referencia emocionalmente neutros. Primero, se considera un caso ideal léxico dependiente donde la referencia corresponde a una única señal. Luego, se construyen modelos de referencia léxico independientes usando una familia de contornos de F0. Para ello, se presenta un esquema novedoso basado en functional data analysis donde los modelos neutros se representan mediante una base de funciones y el F0 de test se caracteriza por las proyecciones sobre esta base. Finalmente, la técnica se extiende a nivel de sub-oración para detectar los segmentos que son emocionalmente más relevantes.
El método propuesto para evaluación de entonación entrega una correlación de evaluaciones subjetivos (dada por expertos) y objetivos (entregados por el sistema) igual a 0.88. El método para acento léxico entrega un equal error rate (EER) igual a 21.5%, que a su vez es comparable con las tasas de error entregadas por las técnicas de evaluación de pronunciación a nivel de segmento. Estos resultados sugieren que ambos sistemas pueden ser eficazmente usados en aplicaciones reales. Por su parte, el método de detección de emociones permite obtener una exactitud igual a 75.8% en la tarea de clasificación de neutro versus emocional en una base de datos actuada, que a su vez es 6.2% superior a la exactitud alcanzada por un sistema en el estado del arte. El sistema además se valida con una base de datos real, cuyos resultados muestran que el método propuesto puede ser utilizado en aplicaciones reales de detección de emociones.

Identiferoai:union.ndltd.org:UCHILE/oai:repositorio.uchile.cl:2250/113042
Date January 2012
CreatorsArias Aparicio, Juan Pablo
ContributorsBecerra Yoma, Nestor, Facultad de Ciencias Físicas y Matemáticas, Departamento de Ingeniería Eléctrica, Busso Recabarren, Carlos, Mena Mena, Fausto, Soto Gómez, José
PublisherUniversidad de Chile
Source SetsUniversidad de Chile
LanguageSpanish
Detected LanguageSpanish
TypeTesis

Page generated in 0.0316 seconds