• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 4
  • Tagged with
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 3
  • 3
  • 3
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Investigación en Tecnología de Reconocimiento de Voz Aplicada a Enseñanza de Segundo Idioma con Adaptación y Cancelación no Supervisada de Ruido

Molina Sánchez, Carlos January 2010 (has links)
En esta Tesis se aborda el problema de la evaluación automática de pronunciación para sistemas de enseñanza de idioma asistidos por computadoras (CAPT, computer aided pronunciation training) basada en tecnología de reconocimiento de voz (ASR, automatic speech recognition). El evaluador automático de pronunciación presentado aquí está previsto para ambientes de sala de clases y para grabaciones realizadas con distintos tipos de micrófonos de baja calidad. De este modo, se deducen dos enfoques para desarrollar el problema: introducir de manera eficiente la metodología de ASR en CAPT y hacer más robusto el proceso de ASR aplicado en CAPT. La inserción de la tecnología ASR en CAPT mostrada aquí está basada en la generación de hipótesis competitivas para componer el modelo de lenguaje. Se destaca asimismo, que la metodología propuesta es independiente del texto a entrenar y no requiere de información a priori sobre los errores más comunes dada una lengua madre. Además, en esta Tesis se plantea el uso de la teoría de Bayes para fusión de múltiples clasificadores y para la asociación de métricas objetivas con evaluaciones subjetivas. En términos de robustez en ASR se propone un mecanismo de aprendizaje reforzado basado en medidas de confiabilidad para corregir o adaptar la probabilidad de observación en el dominio logarítmico de forma no-supervisada y con datos limitados. Este método de adaptación para ASR es aplicado en CAPT y comparado con las clásicas técnicas presentes en la literatura como MLLR y VTLN. La efectividad del método propuesto para la generación de léxico competitivo se refleja en que puede alcanzar correlaciones promedio entre puntajes subjetivos-objetivos iguales a 0.67 y 0.82 con cinco y dos niveles de calidad de pronunciación, respectivamente. Además, el mecanismo de fusión de múltiples clasificadores presentado puede alcanzar un incremento de 2.4% en la correlación promedio y una reducción del 10.2% en el error de clasificación entre puntajes subjetivos-objetivos con dos niveles de calidad de pronunciación. Por otro lado, utilizando la metodología de aprendizaje reforzado basado en medidas de confiabilidad para robustez en ASR se obtienen reducciones significativas en WER entre 3% y 18% dependiendo de la base de datos de prueba, de las condiciones de entrenamiento-test y del método usado para optimizar una combinación lineal de métricas. Finalmente, al aplicar el esquema de robustez en CAPT se logran mejoras de 10% y 30% en términos de correlación promedio entre evaluaciones subjetivas-objetivas, dependiendo del clasificador usado para evaluar la calidad de pronunciación y con micrófonos de baja calidad en ambiente de sala de clases.
2

Plataforma de aprendizaje de segundo idioma con ASR

Olivares Cotal, José Luis January 2013 (has links)
Ingeniero Civil Electricista / Las redes de datos que permiten acceder a la información desde cualquier lugar del mundo están cada vez más cerca del publico en general. Este hecho, asociado al empleo de browser o navegadores ampliamente difundidos y de fácil uso, posibilita el desarrollo de sistema de enseñanza en linea. Esta memoria se centra en el desarrollo de una plataforma de enseñanza basada en las redes y sistemas Web. Se emplea la técnica de Reconocimiento Automático de Voz (Automatic Speech Recognition, ASR), una base de datos relacional llamada Postgresql y un servidor HTTP cuyo nombre es Tomcat. Para el desarrollo se emplearon lo modelos Cliente Servidor, Vista Controlador y la Arquitectura AJAX. La estructura de la base de datos y las lecciones se diseñaron de manera que futuras revisiones se puedan realizar con facilidad. Se destaca el empleo de un formato ligero y compatible para la transferencia de datos por medio de JavaScript Object Notation. El programa permite el almacenamiento de las lecciones, el registro de la información de uso y el envío-recepción de datos asincrónicos entre el servidor y el cliente. El trabajo finaliza con un análisis de estabilidad y robustez del sistema por medio de la carga de 150 usuarios simultáneos. Para realizar esta prueba fue empleado Jmeter, un software gráfico para el análisis de carga y desempeño de sistemas Web. Como trabajo a futuro se propone el empleo de HTML5 como lenguaje de reemplazo del Applet, para el envío de los datagramas de voz. El sistema al estar basado en servicios se puede configurar para trabajar en paralelo de modo que se está frente a un sistema escalable a nivel de servicios.
3

Robustez a Variabilidad de Canal en Reconocimiento de Patrones Acústicos con Aplicaciones en Enseñanza de Idiomas y Biometría

Garretón Vender, Claudio January 2011 (has links)
No description available.
4

Evaluación automática de prosodia con aplicaciones en enseñanza de idiomas y detección de emociones

Arias Aparicio, Juan Pablo January 2012 (has links)
Ingeniero Civil Electricista / La prosodia es uno de los aspectos más importantes en la comunicación humana. La entonación, el ritmo, la intensidad y la duración entregan al locutor características como naturalidad, fluidez, intención, actitud, significado e incluso emoción. Por tanto, modelar y analizar la prosodia no sólo es interesante para el estudio del habla desde una perspectiva teórica, sino que también para las tecnologías de voz. En virtud de la creciente necesidad de interfaces hombre-máquina más parecidas a las interacciones humanas reales, los sistemas de procesamiento de patrones acústicos deben ser capaces de analizar e interpretar las características prosódicas. En esta tesis se abordan dos problemas que involucran la modelación prosódica en señales de voz. En primer lugar, se presenta una técnica para la evaluación de la entonación en enseñanza de segundo idioma basado en un esquema top-down. El método propuesto separa la evaluación de entonación de la pronunciación a nivel de sonidos individuales. Dada una señal de referencia, el usuario puede escuchar y repetir una elocución dada imitando el patrón de entonación de referencia. La técnica estima una medida de similitud entre la señal de referencia y de test. Basado en este mismo esquema, se presenta un sistema para medir el acento léxico a nivel de sílabas usando la información de la frecuencia fundamental en conjunto con la energía. La técnica propuesta es independiente del texto y del idioma y minimiza el efecto de la calidad de pronunciación a nivel de segmentos. Como resultado del esquema propuesto para enseñanza de idiomas, se presenta una estrategia para detectar emociones en señales acústicas usando modelos de referencia emocionalmente neutros. Primero, se considera un caso ideal léxico dependiente donde la referencia corresponde a una única señal. Luego, se construyen modelos de referencia léxico independientes usando una familia de contornos de F0. Para ello, se presenta un esquema novedoso basado en functional data analysis donde los modelos neutros se representan mediante una base de funciones y el F0 de test se caracteriza por las proyecciones sobre esta base. Finalmente, la técnica se extiende a nivel de sub-oración para detectar los segmentos que son emocionalmente más relevantes. El método propuesto para evaluación de entonación entrega una correlación de evaluaciones subjetivos (dada por expertos) y objetivos (entregados por el sistema) igual a 0.88. El método para acento léxico entrega un equal error rate (EER) igual a 21.5%, que a su vez es comparable con las tasas de error entregadas por las técnicas de evaluación de pronunciación a nivel de segmento. Estos resultados sugieren que ambos sistemas pueden ser eficazmente usados en aplicaciones reales. Por su parte, el método de detección de emociones permite obtener una exactitud igual a 75.8% en la tarea de clasificación de neutro versus emocional en una base de datos actuada, que a su vez es 6.2% superior a la exactitud alcanzada por un sistema en el estado del arte. El sistema además se valida con una base de datos real, cuyos resultados muestran que el método propuesto puede ser utilizado en aplicaciones reales de detección de emociones.

Page generated in 0.0863 seconds