• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • Tagged with
  • 14
  • 14
  • 14
  • 11
  • 9
  • 9
  • 5
  • 4
  • 3
  • 3
  • 3
  • 3
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Evaluación Automática de Habilidad Lectora con Tecnología de Voz

Ramírez Díaz, Adolfo Nicolás January 2011 (has links)
No autorizada por el autor a ser publicada a texto completo / En esta memoria se presenta un sistema que permite evaluar la velocidad lectora de un individuo. Para realizar tal medición, se utilizan cuatro indicadores objetivos: la última palabra que fue leída dentro de un texto determinado; el número de términos omitidos; el número de palabras insertadas; y el número de palabras sustituidas. Para conseguir estas cuatro variables se utiliza tecnología de reconocimiento de voz (ASR – Automatic Speech Recognition). Para ello, se proponen e implementan diversos modelos de lenguaje que toman en consideración los errores esenciales en velocidad de lectura. En efecto, por ejemplo se consideran modelos de lenguaje que permiten saltos entre palabras dentro de un texto, así como también, se permiten reemplazos de ciertos términos. Los experimentos realizados en esta memoria permiten observar que un modelo que sólo toma en consideración omisiones de palabras, es decir, sin incluir casos de sustitución ni de inserción, consigue un error en la estimación de la última palabra leída y de términos omitidos de un 1,8% y un 5,9% respectivamente. Para la detección de errores de lectura relativos a palabras insertadas y sustituidas se utilizan modelos de lenguaje que incluyen unidades acústico fonéticas genéricas denominadas filler. Sin embargo, la incorporación de dichos fillers provoca un incremento en el error al estimar la última palabra leída y los términos omitidos. En efecto, el aumento en la estimación de tales errores es de un 8,1% y un 6,2%, respectivamente. Por otra parte, este tipo de modelo consigue un error en la estimación de palabras insertadas y sustituidas de un 7.8%. Como trabajo a futuro, se propone mejorar el modelamiento que considera los errores productos de palabras insertadas o sustituidas.
2

Estudio de Técnicas de Selección de Bancos de Filtros Inducidos por Wavelet Packets para Extracción de Características en Reconocimiento de Voz

Pavez Carvelli, Eduardo Hernán January 2011 (has links)
En procesamiento de señales y reconocimiento de voz, uno de los principales tópicos es la extracción de características. Dada una señal digitalizada esta se transforma a una más compacta de acuerdo a algún criterio dependiente del problema. Por ejemplo, la voz es extremadamente redundante, y contiene información de múltiples fuentes como identidad del locutor, estado emocional y secuencia fonética. En reconocimiento de voz, se desea extraer características que preserven la discriminabilidad entre unidades acústicas pero tengan menor dimensión que la señal original. En esta memoria se estudiarán metodologías de extracción de características para reconocimiento de voz utilizando criterios de discriminabilidad entre unidades fonéticas. Como punto de partida se considerará la técnica de extracción de características MFCC utilizada en los reconocedores estándar y con ellas se entrenará un reconocedor con el software HTK para la base de datos TIMIT. Los MFCC se implementan con bancos de filtros; usando esa motivación y aprovechando la gran colección de formas de representar señales que permite la transformada Wavelet Packet (WP), se propuso un método de selección de bancos de filtros WP considerando discriminación entre unidades acústicas. La memoria se centrará en aplicar esta metodología y las soluciones que esta entrega para proponer una alternativa a los MFCCs. La forma de evaluar los rendimientos de los distintos métodos será mediante el porcentaje de reconocimiento fonético en un subconjunto de test de TIMIT. La parte teórica del trabajo consiste en estudiar propiedades y formas de aplicar los WP, y como se construyen los sistemas de reconocimiento fonético. En la práctica, en implementar la transformada WP y los WPCC en C++, implementar reconocedores fonéticos en el software HTK, y unir todos estos bloques usando el lenguaje PERL, para correr experimentos en distintos escenarios. El aporte de este trabajo son las características Wavelet Packet Cepstral Coefficients (WPCC), se estipulan criterios concretos de diseño para los bancos de filtros WP, con el objetivo de obtener la mayor información para discriminar fonemas. Los WP obtenidos tienen alta selectividad en frecuencia y una estructura que privilegia la resolución en bajas frecuencias principalmente el rango [200Hz-1000Hz] del espectro acústico.
3

Construcción de un mecanismo de procesamiento de patrones temporales aplicado al reconocimiento de voz

Valenzuela Ramírez, Manuel Aníbal January 2015 (has links)
Ingeniero Civil en Computación / En el área de desarrollo de software para el control de aplicaciones y dispositivos electrónicos por voz, ha sido cada vez más común implementar mecanismos que cumplan esta función, considerando el procesamiento de señales sonoras para finalmente descubrir patrones que permitan la identificación y el uso de instrucciones. El objetivo de este trabajo es la exploración de un mecanismo que implemente el procesamiento de la voz humana, extrayendo sus características fundamentales y utilizando estos datos para la identificación de patrones en el tiempo. La hipótesis fundamental es que en la voz humana existen patrones en el tiempo, que podemos obtener y utilizar para la elaboración de instrucciones a ser ejecutadas por componentes de software. Para lograr el objetivo se tomó como base la implementación de un mecanismo de obtención de espectros de frecuencias de la voz humana, considerando algoritmos y técnicas basadas en análisis espectral. Para el procesamiento de los patrones se desarrolló un mecanismo basado en redes neuronales, dada la naturaleza vectorial de los datos. El trabajo, por tanto, se divide en dos grandes tareas. La primera es la obtención de los datos relevantes a la voz, de acuerdo con espectros de frecuencias obtenidos a partir de filtros basados en Wavelet transformadas. La segunda tarea es la implementación de una red neuronal no supervisada, basada en mapas auto-organizativos (SOM), que permita el registro e identificación de patrones en el tiempo. El resultado de este trabajo es un mecanismo que cumple parcialmente sus objetivos, dados los niveles de identificación de los fonemas y el costo computacional requerido.
4

Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN

Catalán Ludwig, Ignacio January 2011 (has links)
No description available.
5

Desarrollo de Aplicación Remota de Biometría por Voz para Telefonía Celular

Herrada Bañados, Alvaro Francisco January 2011 (has links)
No autorizada por el autor para de publicada a texto completo / El área de procesamiento de voz estudia diversos temas uno de los cuales es la verificación de identidad del locutor a través de la huella vocal. Un servidor de este tipo fue desarrollado en el Laboratorio de Procesamiento y Transmisión de Voz (LPTV) de la U. de Chile. El objetivo principal de la memoria es implementar y evaluar una aplicación de verificación de locutor ocupando una arquitectura cliente-servidor con un celular smartphone como terminal de usuario. El procesamiento de la señal grabada debe ser centralizado y el acceso a internet realizado por Wi-Fi. Para conseguir los objetivos propuestos se creó un programa cliente en un smartphone con sistema operativo Android que se comunica con el servidor de verificación de locutor del LPTV. El usuario tiene acceso a la aplicación mediante una interfaz touchscreen que también se diseñó e implementó en esta memoria. Inicialmente se explican los sistemas de verificación de huella vocal, las arquitecturas de reconocedores de voz ocupadas en telefonía, así como la plataforma de desarrollo Android. Posteriormente se realiza una descripción de las soluciones creadas para cumplir con los requisitos del servidor: creación de audio muestreado a una tasa de 8KHz con 16 bit por muestra y formación de un string codificado en formato UTF-8 (8-bit Unicode Transformation Format) base 64. Como resultado de este proyecto se obtiene una aplicación demo que permite verificar la identidad del usuario compatible con el sistema operativo Android 1.5 o posterior. Su evaluación se realizó con una base de datos de 40 personas (20 hombres y 20 mujeres). Se obtuvo un EER (Equal Error Rate) o porcentaje de error igual a 2.5% en modo de teléfono normal y 5.0% en modo altavoz. Como trabajo futuro se sugiere optimizar la aplicación con acceso a Internet vía 3G e implementar parte del procesamiento localmente con el fin de reducir el número de bytes a transmitir.
6

Evaluación Automática de Pronunciación de Frases para Hablantes No Nativos

Benavides Berrios, Leopoldo Felipe Andrés January 2011 (has links)
No description available.
7

Shout!

Oyarzún Roa, Christian January 2012 (has links)
Tesis para optar al Grado de Magíster en Artes Mediales / La voz es por excelencia el medio expresivo y de comunicación humana, sin embargo, su uso como instrumento es restringido por preceptos sociales y culturales que operan silentes sobre los individuos de la misma manera como su uso político y divergente es reprimido explícitamente por una serie de relaciones de fuerza, represión, manipulación y control social. El objetivo de este proyecto ha sido diseñar un instrumento o dispositivo que promueva la exploración de las posibilidades musicales, sonoras, visuales y políticas de la voz humana, a través de la manipulación electrónica de ésta, permitiendo experiencias de uso, interpretación e improvisación tanto individuales como colectivas. Es así como ampliando, expandiendo y amplificando las posibilidades de la voz humana modificada electrónicamente como medio, SHOUT! se propone como un dispositivo de resemantización que busca explicitar la violencia presente en las relaciones de desigualdad e inequidad que ocurren a escalas tanto locales como globales como resultado del actual modelo económico.
8

Estudio comparativo de técnicas para robustez de sistemas de verificación de locutor texto independiente

Fredes Sandoval, Josué Abraham January 2015 (has links)
Ingeniero Civil Electricista / Las técnicas de biometría son métodos automáticos de verificación o reconocimiento de la identidad de una persona basándose en una característica fisiológica o de comportamiento. En este marco se encuentra la tarea de verificación de locutor, que es el proceso de verificar la identidad de una persona basada en su señal de voz. Un sistema de verificación de locutor usualmente es entrenado bajo ciertas condiciones de grabación o de canal de comunicación, y utilizar el sistema bajo otras condiciones de canal puede ser problemático. Debido a esto se han desarrollado diversas técnicas para cancelar o compensar el efecto del ruido y del canal, y así hacer la tecnología más robusta. En los últimos años se han propuesto nuevas técnicas basadas en análisis factorial que intentan modelar el efecto del canal de comunicación sobre la señal de voz. En este trabajo se analizan en detalle dos sistemas de análisis factorial: Joint Factor Analysis o JFA, y Total Variability Front-End Factor Analysis más conocido como i-Vectors. Se implementaron ambos sistemas para ser integrados al conjunto de softwares para ve- rificación de locutor del Laboratorio de Procesamiento y Transmisión de Voz, LPTV, de la Universidad de Chile. Los sistemas implementados se validaron usando un software de referencia que tiene rendimiento state-of-the-art. Al utilizar las mismas condiciones iniciales de entrenamiento, los sistemas JFA e i-Vectors desarrollados para el LPTV igualaron el rendimiento del software de referencia, validando así su implementación.
9

Fusión de Múltiples Clasificadores en Verificación de Locutor

Huenupán Quinán, Fernando January 2010 (has links)
No description available.
10

Investigación en Tecnología de Reconocimiento de Voz Aplicada a Enseñanza de Segundo Idioma con Adaptación y Cancelación no Supervisada de Ruido

Molina Sánchez, Carlos January 2010 (has links)
En esta Tesis se aborda el problema de la evaluación automática de pronunciación para sistemas de enseñanza de idioma asistidos por computadoras (CAPT, computer aided pronunciation training) basada en tecnología de reconocimiento de voz (ASR, automatic speech recognition). El evaluador automático de pronunciación presentado aquí está previsto para ambientes de sala de clases y para grabaciones realizadas con distintos tipos de micrófonos de baja calidad. De este modo, se deducen dos enfoques para desarrollar el problema: introducir de manera eficiente la metodología de ASR en CAPT y hacer más robusto el proceso de ASR aplicado en CAPT. La inserción de la tecnología ASR en CAPT mostrada aquí está basada en la generación de hipótesis competitivas para componer el modelo de lenguaje. Se destaca asimismo, que la metodología propuesta es independiente del texto a entrenar y no requiere de información a priori sobre los errores más comunes dada una lengua madre. Además, en esta Tesis se plantea el uso de la teoría de Bayes para fusión de múltiples clasificadores y para la asociación de métricas objetivas con evaluaciones subjetivas. En términos de robustez en ASR se propone un mecanismo de aprendizaje reforzado basado en medidas de confiabilidad para corregir o adaptar la probabilidad de observación en el dominio logarítmico de forma no-supervisada y con datos limitados. Este método de adaptación para ASR es aplicado en CAPT y comparado con las clásicas técnicas presentes en la literatura como MLLR y VTLN. La efectividad del método propuesto para la generación de léxico competitivo se refleja en que puede alcanzar correlaciones promedio entre puntajes subjetivos-objetivos iguales a 0.67 y 0.82 con cinco y dos niveles de calidad de pronunciación, respectivamente. Además, el mecanismo de fusión de múltiples clasificadores presentado puede alcanzar un incremento de 2.4% en la correlación promedio y una reducción del 10.2% en el error de clasificación entre puntajes subjetivos-objetivos con dos niveles de calidad de pronunciación. Por otro lado, utilizando la metodología de aprendizaje reforzado basado en medidas de confiabilidad para robustez en ASR se obtienen reducciones significativas en WER entre 3% y 18% dependiendo de la base de datos de prueba, de las condiciones de entrenamiento-test y del método usado para optimizar una combinación lineal de métricas. Finalmente, al aplicar el esquema de robustez en CAPT se logran mejoras de 10% y 30% en términos de correlación promedio entre evaluaciones subjetivas-objetivas, dependiendo del clasificador usado para evaluar la calidad de pronunciación y con micrófonos de baja calidad en ambiente de sala de clases.

Page generated in 0.1806 seconds