Spelling suggestions: "subject:"escala park"" "subject:"escala mark""
1 |
Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso / Analysis of energy cocentrations in the threshold between voiced and unvoiced phonemes and their implications for text-dependent speaker recognitionIshizawa, William Habaro 19 February 2015 (has links)
Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos. / Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data.
|
2 |
Análise das concentrações energéticas no limiar entre fonemas vozeados e não-vozeados e suas implicações para fins de reconhecimento de locutores dependente do discurso / Analysis of energy cocentrations in the threshold between voiced and unvoiced phonemes and their implications for text-dependent speaker recognitionWilliam Habaro Ishizawa 19 February 2015 (has links)
Atualmente, diversos trabalhos e aplicações são desenvolvidos com foco na área de reconhecimento computacional de locutores. À medida que o interesse por diversas aplicações reais dentro dessa área emerge, principalmente em biometria, na qual a segurança e a eficácia são de extrema importância, torna-se cada vez mais necessário que estudos sejam feitos, na mesma proporção, visando avaliá-las. Desse modo, a proposta do presente trabalho é a de mensurar a acurácia de um sistema de reconhecimento de locutores baseado em características elementares, isto é, energias de sub-bandas de frequências, em associação com um classificador probabilístico, estudando a viabilidade de extraí-las das transições entre trechos vozeados e não-vozeados (TTVNV) dos sinais. Testes são realizados com diferentes quantidades de locutores e discurso fixado. A acurácia obtida nos testes variam de 20.18% a 92.53%. Os resultados obtidos são comparados e relatados, complementando as afirmações existentes na literatura sobre o uso das TTVNV com dados quantitativos. / Nowadays, many works and applications are developed focusing on computational speaker recognition. As the interest for several real applications within this area emerges, especially in biometrics, where the safety and the efficacy of the applications are extremely important, studies need to be developed in the same proportion, to evaluate the effectiveness of such approaches. Based on that, this work intends to measure the accuracy of a speaker recognition system that uses elementar features, i.e., sub-band frequency energies, associated with a probabilistic classifier, studying the viability of extracting them from the transition between voiced and unvoiced speech tags (TTVNV). Tests are carried out with different numbers of speakers and a text-dependent approach. The accuracy of the tests varies from 20.18% to 92.53%. The results are compared and reported, complementing the existent information on the use of TTVNV with quantitative data.
|
3 |
Procesado Tiempo-Frecuencia: Aplicación a la percepción humana del sonidoCamacho García, Andrés 12 March 2014 (has links)
Esta tesis está dedicada al estudio de las distintas herramientas que se disponen en el campo del Procesado Digital de Señales para analizar la percepción humana del sonido. Para ello, en la primera parte de la tesis se exponen los fundamentos fisiológicos de la percepción humana del sonido, así como los métodos y parámetros fundamentales que permiten evaluar la percepción subjetiva producida, lo que también se conoce como estudio psicoacústico de los sonidos. El análisis psicoacústico permite calcular el valor de una serie de parámetros del sonido para combinarlos de una forma adecuada con el fin de obtener una calificación de su calidad percibida (Sound Quality), lo más parecida posible a la que percibiría una persona. Según los parámetros psicoacústicos combinados, podremos obtener la calificación del grado de molestia, bienestar, stress, disonancia, etc. que produce el sonido en una persona.
Respecto a las herramientas disponibles en el campo del Procesado Digital de Señales que puedan ayudar a mejorar el análisis psicoacústico, en esta tesis se realiza un estudio exhaustivo de las posibilidades del procesado Tiempo-Frecuencia. Además de realizar este estudio, el trabajo de investigación se ha centrado en la aplicación del análisis psicoacústico para la calificación de la molestia que producen ciertos tipos de ruido como son los ruidos de motor, ya sea el ruido de combustión producido por el motor, ya sea el ruido de escape. Se sabe que la molestia producida por estos ruidos se puede modelar utilizando una combinación de valores de Loudness (Sonoridad), Sharpness (Agudeza o Tonalidad) y Roughness (Aspereza). El cálculo de los dos primeros parámetros está estandarizado, mientras que existen varias aproximaciones para el cálculo del Roughness, presentando todas ellas serias limitaciones al analizar sonidos de motor, puesto que fueron desarrolladas y probadas para aplicarlas a señales simples.
En esta tesis se ha desarrollado un modelo de síntesis de seña / Camacho García, A. (2011). Procesado Tiempo-Frecuencia: Aplicación a la percepción humana del sonido [Tesis doctoral]. Universitat Politècnica de València. https://doi.org/10.4995/Thesis/10251/36417
|
Page generated in 0.4333 seconds