• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 14
  • Tagged with
  • 14
  • 14
  • 14
  • 10
  • 9
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Evaluación Automática de Habilidad Lectora con Tecnología de Voz

Ramírez Díaz, Adolfo Nicolás January 2011 (has links)
No autorizada por el autor a ser publicada a texto completo / En esta memoria se presenta un sistema que permite evaluar la velocidad lectora de un individuo. Para realizar tal medición, se utilizan cuatro indicadores objetivos: la última palabra que fue leída dentro de un texto determinado; el número de términos omitidos; el número de palabras insertadas; y el número de palabras sustituidas. Para conseguir estas cuatro variables se utiliza tecnología de reconocimiento de voz (ASR – Automatic Speech Recognition). Para ello, se proponen e implementan diversos modelos de lenguaje que toman en consideración los errores esenciales en velocidad de lectura. En efecto, por ejemplo se consideran modelos de lenguaje que permiten saltos entre palabras dentro de un texto, así como también, se permiten reemplazos de ciertos términos. Los experimentos realizados en esta memoria permiten observar que un modelo que sólo toma en consideración omisiones de palabras, es decir, sin incluir casos de sustitución ni de inserción, consigue un error en la estimación de la última palabra leída y de términos omitidos de un 1,8% y un 5,9% respectivamente. Para la detección de errores de lectura relativos a palabras insertadas y sustituidas se utilizan modelos de lenguaje que incluyen unidades acústico fonéticas genéricas denominadas filler. Sin embargo, la incorporación de dichos fillers provoca un incremento en el error al estimar la última palabra leída y los términos omitidos. En efecto, el aumento en la estimación de tales errores es de un 8,1% y un 6,2%, respectivamente. Por otra parte, este tipo de modelo consigue un error en la estimación de palabras insertadas y sustituidas de un 7.8%. Como trabajo a futuro, se propone mejorar el modelamiento que considera los errores productos de palabras insertadas o sustituidas.
2

Construcción de un mecanismo de procesamiento de patrones temporales aplicado al reconocimiento de voz

Valenzuela Ramírez, Manuel Aníbal January 2015 (has links)
Ingeniero Civil en Computación / En el área de desarrollo de software para el control de aplicaciones y dispositivos electrónicos por voz, ha sido cada vez más común implementar mecanismos que cumplan esta función, considerando el procesamiento de señales sonoras para finalmente descubrir patrones que permitan la identificación y el uso de instrucciones. El objetivo de este trabajo es la exploración de un mecanismo que implemente el procesamiento de la voz humana, extrayendo sus características fundamentales y utilizando estos datos para la identificación de patrones en el tiempo. La hipótesis fundamental es que en la voz humana existen patrones en el tiempo, que podemos obtener y utilizar para la elaboración de instrucciones a ser ejecutadas por componentes de software. Para lograr el objetivo se tomó como base la implementación de un mecanismo de obtención de espectros de frecuencias de la voz humana, considerando algoritmos y técnicas basadas en análisis espectral. Para el procesamiento de los patrones se desarrolló un mecanismo basado en redes neuronales, dada la naturaleza vectorial de los datos. El trabajo, por tanto, se divide en dos grandes tareas. La primera es la obtención de los datos relevantes a la voz, de acuerdo con espectros de frecuencias obtenidos a partir de filtros basados en Wavelet transformadas. La segunda tarea es la implementación de una red neuronal no supervisada, basada en mapas auto-organizativos (SOM), que permita el registro e identificación de patrones en el tiempo. El resultado de este trabajo es un mecanismo que cumple parcialmente sus objetivos, dados los niveles de identificación de los fonemas y el costo computacional requerido.
3

Reconocimiento robusto de patrones acústicos basados en el sistema auditivo periférico

Poblete Ramírez, Víctor January 2014 (has links)
Doctor en Ingeniería Eléctrica / La verificación de locutor (SV) por biometría de voz, se ha integrado en diversas aplicaciones como interfaz de comunicación entre personas y máquinas. Sin embargo, su principal inconveniente es enfrentar variabilidades o mismatch entre condiciones de entrenamiento y prueba. La robustez es la propiedad que le permite mantener su funcionamiento superando perturbaciones. En SV existe necesidad de extraer parámetros espectrales propios del locutor y robustos a ruido y a efectos de distorsión de canal. Varios métodos de extracción se inspiran en la fisiología periférica auditivo y en teorías de codificación neuronal de fibras del nervio auditivo (AN). El término periférico se utiliza para dar a entender aquella parte del sistema auditivo que es externo al sistema nervioso central (CNS). La salida del sistema auditivo periférico es la actividad del AN. A su vez, esta actividad es la entrada al CNS. Esta tesis aborda dos novedosos métodos inspirados en la periferia auditiva que contribuyen a la robustez de sistemas de SV, ante condiciones de mismatch por ruido aditivo y por variabilidad en el canal acústico de transmisión, en una tarea de reconocimiento de patrones acústicos: verificación de locutor de texto-independiente (TI-SV). El primero, es una función sigmoidal óptima, tasa-nivel, que es una componente de muchos modelos del sistema auditivo periférico. La optimización usa criterios definidos exclusivamente sobre la base de atributos físicos del sonido de entrada inspirados en evidencia fisiológica. Estos criterios, discriminan entre una señal de voz degradada, y ruido, para preservar la máxima cantidad de información en la región lineal de la curva sigmoidal y para minimizar la distorsión en regiones de saturación. El desempeño de la función sigmoidal se valida con experimentos de TI-SV, con señales degradadas por ruido aditivo a diferentes SNRs. Los resultados, comparados con el sistema baseline MFCC, muestran que el método propuesto, en combinación con normalización de varianza cepstral (CVN), conduce a reducciones relativas en EER, tan grandes como 40% en ciertos SNRs. A continuación, se presenta un nuevo conjunto de features, llamados Coeficientes Cepstrales Localmente-Normalizados (LNCCs), que se basan en el Detector de Sincronía Generalizada (GSD) de Stephanie Seneff. El método propuesto, motivado perceptualmente, permite normalizar en forma instantánea features de voz. La efectividad de los LNCCs se demuestra en una tarea de TI-SV a lo largo de una variedad de condiciones de tilt espectral en el canal acústico de transmisión. Los resultados, comparados con el sistema baseline MFCC y con MFCC+CMN, muestran que los LNCCs se caracterizan por requerir de baja complejidad computacional y por compensar más ampliamente el tilt espectral que los coeficientes MFCCs. Además, LNCCs no requieren el cálculo y almacenamiento de un promedio móvil de valores de features, proporcionando reducciones relativas en EER tan altas como 32% y 35% cuando se comparan con MFCC y MFCC+CMN, con tilt espectral variable, respectivamente. Es interesante destacar que los features LNCC pueden llegar a ser una alternativa a MFCC y MFCC+CMN, en cualquier situación donde es difícil estimar confiablemente la media cepstral. Ambas estrategias propuestas en esta tesis, comparadas con el sistema baseline MFCC, consiguen robustez del sistema TI-SV mejorando su desempeño frente a diversas condiciones de mismatch.
4

Diseño de la estrategia de implementación de un sistema de prevención del fraude en el sector financiero, mediante el uso de biometría facial y por voz

Cárdenas Ríos, Jorge Alfredo January 2015 (has links)
Ingeniero Civil Industrial / Autor no autoriza el acceso a texto completo de su ... / El trabajo que se presenta a continuación fue desarrollado en la empresa nacional SINACOFI S.A. (Sistema nacional de Comunicaciones Financieras), la cual por años ha buscado desarrollar nuevos servicios tecnológicos destinados a satisfacer las necesidades del cliente. El objetivo del proyecto consiste en diseñar sistemas de prevención de fraude utilizando biometría facial y por voz (tecnología definidas previamente por la empresa) siendo capaces de adaptarse a las condiciones técnicas, de seguridad, legal y de negocio del sector financiero en Chile. A lo largo de este informe se explica que es biometría y las diferentes tecnologías con las que cuenta. Se hará hincapié principal en el análisis de biometría facial y por voz, estudiando sus ventajas, aplicaciones internacionales y proveedores, permitiendo de esta manera diseñar la estrategia de implementación de estos servicios. La estrategia diseñada cuenta con la descripción del servicio que será ofrecido, el producto utilizado, el tipo de contrato que se llevará a cabo con los proveedores del software el que fue definido como partner, las fases de la implementación en el mercado, los alcances de cada una de ellas con respecto a los usuarios de los bancos y el precio con que saldrá el servicio al mercado, el cual para biometría facial será de $1.099.990 por cada 10.000 usuarios y de $149.990 para el sistema de biometría por voz por cada 1.000 usuarios. Finalmente se muestra el análisis económico para cada uno de los proyectos, donde se identificaron costos de inversión, ingresos, egresos para cada proyecto y un completo análisis de sensibilidad con 5 escenarios distintos basados en la variación de demanda del primer año, tipo de cambio y crecimiento trimestral. Además se muestran los flujos de caja para cada proyecto, los cuales entregaron un VAN de $ 818.569.893 para biometría facial y $ 221.664.596 para biometría por voz considerado con una tasa trimestral del 3,89%.
5

Robustez a Variabilidad de Locutor en Reconocimiento de Voz con VTLN

Catalán Ludwig, Ignacio January 2011 (has links)
No description available.
6

Evaluación Automática de Pronunciación de Frases para Hablantes No Nativos

Benavides Berrios, Leopoldo Felipe Andrés January 2011 (has links)
No description available.
7

Aplicación de Tecnologías de Robustez en Reconocimiento de Voz a la Enseñanza de Segundo Idioma

Ravest Catalán, Pablo Andrés January 2009 (has links)
El objetivo principal de esta memoria es mejorar el rendimiento de un sistema de evaluación de pronunciación automático basado en ASR (Automatic Speech Recognition) frente a cambios de locutor. Para lograr esto se propone la implementación de dos técnicas de robustez existentes en la literatura especializada: MLLR (Maximum Likelihood Linear Regression), que realiza una transformación lineal de los parámetros del modelo acústico para adaptarlo a un locutor específico; y VTLN (Vocal Tract Length Normalization), que normaliza el banco de filtros de Mel utilizado en la parametrización de las señales para compensar por diferencias en el tracto vocal de los locutores. Estos métodos se aplican de forma no supervisada y considerando una cantidad de información de adaptación limitada, debido a las exigencias que presentan los sistemas de CAPT (Computer Aided Pronunciation Training). Este documento presenta experimentos con estas técnicas en ASR y CAPT considerando señales de locutores con distinto manejo del inglés y bajo variadas condiciones de ruido. En ASR se obtienen disminuciones del WER (Word Error Rate) de hasta un 30,56 % con MLLR de 25 señales y 16,23 % con VTLN de 1 señal. Los métodos muestran ser eficaces incluso al considerar pocas señales de adaptación, obteniéndose mejoras promedio del WER de 19,4 % y 6,34 % en MLLR con 5 señales y VTLN con 1 señal respectivamente. En evaluación de pronunciación, VTLN produce mejoras promedio del coeficiente de correlación entre los resultados entregados por el sistema y la evaluación esperada de 3,1 % y 5,01 % para dos bases de datos probadas. MLLR fue incapaz de aumentar la correlación debido a problemas con el modelo competitivo del CAPT y al modo de aplicación no supervisado.
8

Estudio comparativo de técnicas para robustez de sistemas de verificación de locutor texto independiente

Fredes Sandoval, Josué Abraham January 2015 (has links)
Ingeniero Civil Electricista / Las técnicas de biometría son métodos automáticos de verificación o reconocimiento de la identidad de una persona basándose en una característica fisiológica o de comportamiento. En este marco se encuentra la tarea de verificación de locutor, que es el proceso de verificar la identidad de una persona basada en su señal de voz. Un sistema de verificación de locutor usualmente es entrenado bajo ciertas condiciones de grabación o de canal de comunicación, y utilizar el sistema bajo otras condiciones de canal puede ser problemático. Debido a esto se han desarrollado diversas técnicas para cancelar o compensar el efecto del ruido y del canal, y así hacer la tecnología más robusta. En los últimos años se han propuesto nuevas técnicas basadas en análisis factorial que intentan modelar el efecto del canal de comunicación sobre la señal de voz. En este trabajo se analizan en detalle dos sistemas de análisis factorial: Joint Factor Analysis o JFA, y Total Variability Front-End Factor Analysis más conocido como i-Vectors. Se implementaron ambos sistemas para ser integrados al conjunto de softwares para ve- rificación de locutor del Laboratorio de Procesamiento y Transmisión de Voz, LPTV, de la Universidad de Chile. Los sistemas implementados se validaron usando un software de referencia que tiene rendimiento state-of-the-art. Al utilizar las mismas condiciones iniciales de entrenamiento, los sistemas JFA e i-Vectors desarrollados para el LPTV igualaron el rendimiento del software de referencia, validando así su implementación.
9

Investigación en Tecnología de Reconocimiento de Voz Aplicada a Enseñanza de Segundo Idioma con Adaptación y Cancelación no Supervisada de Ruido

Molina Sánchez, Carlos January 2010 (has links)
En esta Tesis se aborda el problema de la evaluación automática de pronunciación para sistemas de enseñanza de idioma asistidos por computadoras (CAPT, computer aided pronunciation training) basada en tecnología de reconocimiento de voz (ASR, automatic speech recognition). El evaluador automático de pronunciación presentado aquí está previsto para ambientes de sala de clases y para grabaciones realizadas con distintos tipos de micrófonos de baja calidad. De este modo, se deducen dos enfoques para desarrollar el problema: introducir de manera eficiente la metodología de ASR en CAPT y hacer más robusto el proceso de ASR aplicado en CAPT. La inserción de la tecnología ASR en CAPT mostrada aquí está basada en la generación de hipótesis competitivas para componer el modelo de lenguaje. Se destaca asimismo, que la metodología propuesta es independiente del texto a entrenar y no requiere de información a priori sobre los errores más comunes dada una lengua madre. Además, en esta Tesis se plantea el uso de la teoría de Bayes para fusión de múltiples clasificadores y para la asociación de métricas objetivas con evaluaciones subjetivas. En términos de robustez en ASR se propone un mecanismo de aprendizaje reforzado basado en medidas de confiabilidad para corregir o adaptar la probabilidad de observación en el dominio logarítmico de forma no-supervisada y con datos limitados. Este método de adaptación para ASR es aplicado en CAPT y comparado con las clásicas técnicas presentes en la literatura como MLLR y VTLN. La efectividad del método propuesto para la generación de léxico competitivo se refleja en que puede alcanzar correlaciones promedio entre puntajes subjetivos-objetivos iguales a 0.67 y 0.82 con cinco y dos niveles de calidad de pronunciación, respectivamente. Además, el mecanismo de fusión de múltiples clasificadores presentado puede alcanzar un incremento de 2.4% en la correlación promedio y una reducción del 10.2% en el error de clasificación entre puntajes subjetivos-objetivos con dos niveles de calidad de pronunciación. Por otro lado, utilizando la metodología de aprendizaje reforzado basado en medidas de confiabilidad para robustez en ASR se obtienen reducciones significativas en WER entre 3% y 18% dependiendo de la base de datos de prueba, de las condiciones de entrenamiento-test y del método usado para optimizar una combinación lineal de métricas. Finalmente, al aplicar el esquema de robustez en CAPT se logran mejoras de 10% y 30% en términos de correlación promedio entre evaluaciones subjetivas-objetivas, dependiendo del clasificador usado para evaluar la calidad de pronunciación y con micrófonos de baja calidad en ambiente de sala de clases.
10

Monitoreo del estado anímico de los adultos mayores, mediante el procesamiento de la voz

Rojas Hernández, Víctor Andrés January 2014 (has links)
Ingeniero Civil en Computación / La sociedad ha ido cambiando, y envejeciendo también. A la par, los adultos mayores cada vez se encuentran más solos, ya sea por abandono o por un alejamiento progresivo de la familia, generado por el ritmo de vida actual. Este aislamiento puede llevar a una persona a sufrir algún trastorno emocional, como lo es la depresión. La depresión no es fácil de detectar, es por ello, que en el trabajo de Memoria se desarrolló un sistema capaz de reconocer lo estados anímicos de una persona mediante la voz, para así, poder detectar cuando la persona se encuentra en un estado anímico negativo. Para poder decir que una persona se encuentra en un estado anímico negativo, no sólo basta con reconocer la emoción involucrada, también es necesario reconocer quién es esa persona. Por ello, además de detectar la emoción expresada, se agregó la detección del género y luego identidad. La búsqueda para encontrar la mejor clasificación según género pasó por numerosas pruebas, incluyendo distintos tipos de muestras (grabaciones de voces leyendo y muestras de emociones). Después de varios intentos, se llegó a que la mejor forma de clasificar según género cuando hay emociones involucradas es clasificando con respecto a la emoción identificada. También se hicieron pruebas para clasificar las emociones. Éstas se basaron en emociones y muestras de tres bases de datos emocionales, SAVEE, Emo-DB, y RekEmozio. Principalmente se buscó obtener una clasificación que permitiera reconocer las emociones negativas con mayor certeza. Las pruebas se vieron bastante enfocadas en lograr aislar la emoción Tristeza, emoción negativa de importancia para este trabajo, logrando reconocer si una muestra expresa una emoción de Tristeza o no. Con respecto a la reconocimiento de la identidad, se hicieron pocas pruebas, las cuales tenían buenos resultados en un principio. Posteriormente a todas las pruebas hechas, se probó con muestras más reales o naturales, grabaciones de conversaciones, y se demostró que al menos la clasificación de emociones y género había dado buenos frutos. Además de las pruebas de reconocimiento, se diseñó, implementó, y evaluó la aplicación móvil pensada para el monitoreo de estados anímicos. Esta aplicación fue diseñada para visualizar los datos que el monitoreo arroje sobre los estados del adulto mayor, y también para configurar de forma remota las alertas y el sistema de grabación.

Page generated in 0.1398 seconds