Global ETD Search

31	Dynamic Time Warping baseado na transformada wavelet / Dynamic Time Warping based-on wavelet transform Barbon Júnior, Sylvio 31 August 2007 (has links) Dynamic Time Warping (DTW) é uma técnica do tipo pattern matching para reconhecimento de padrões de voz, sendo baseada no alinhamento temporal de um sinal com os diversos modelos de referência. Uma desvantagem da DTW é o seu alto custo computacional. Este trabalho apresenta uma versão da DTW que, utilizando a Transformada Wavelet Discreta (DWT), reduz a sua complexidade. O desempenho obtido com a proposta foi muito promissor, ganhando em termos de velocidade de reconhecimento e recursos de memória consumidos, enquanto a precisão da DTW não é afetada. Os testes foram realizados com alguns fonemas extraídos da base de dados TIMIT do Linguistic Data Consortium (LDC) / Dynamic TimeWarping (DTW) is a pattern matching technique for speech recognition, that is based on a temporal alignment of the input signal with the template models. One drawback of this technique is its high computational cost. This work presents a modified version of the DTW, based on the DiscreteWavelet Transform (DWT), that reduces the complexity of the original algorithm. The performance obtained with the proposed algorithm is very promising, improving the recognition in terms of time and memory allocation, while the precision is not affected. Tests were performed with speech data collected from TIMIT corpus provided by Linguistic Data Consortium (LDC). Automatic speech recognition Digital signal processing Dynamic Time Warping Dynamic Time Warping Processamento digital de sinais Reconhecimento automático de fala Reconhecimento de voz Speech processing Transformada wavelet Transformada wavelet
32	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Mafra, Alexandre Teixeira 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. neural networks quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps Self-Organizing Maps SOM SOM speaker recognition speech recognition vector quantization
33	Um ambiente de avaliação da usabilidade de software apoiado por técnicas de processamento de imagens e reconhecimento de fala / An environment to support usability evaluation using image processing and speech recognition Coleti, Thiago Adriano 17 December 2013 (has links) A filmagem e a verbalização são métodos de teste de usabilidade considerados fundamentais para apoiar a avaliação da usabilidade de software, pois permitem ao avaliador coletar dados reais da capacidade de interação de um sistema e sua influência sobre o usuário. Os testes são, geralmente, realizados com usuário reais do software para que os mesmos possam submeter a interface as mais diversas situações. Embora eficazes, a filmagem e a verbalização são pouco eficientes, pois necessitam de muito trabalho para análise dos dados coletados e identificação de problemas de usabilidade. Pesquisas já realizadas na área apontam para um tempo de análise de duas a dez vezes o tempo do teste. Este trabalho teve como objetivo desenvolver um ambiente computacional que utilizava eventos de pronuncia de palavras chave e reações faciais para apoiar o processo de coleta, análise e identificação de interfaces com possíveis problemas de usabilidade de forma rápida e segura. O ambiente foi composto por um aplicativo que monitorava (em segundo plano) a utilização de um determinado aplicativo registrando palavras chave pronunciadas pelo participante e imagens faciais em determinados intervalos de tempo. Além destes dados, imagens das telas do sistema (snapshots) também eram registrados a fim de indicar quais interfaces eram utilizadas no momento de um determinado evento. Após a coleta, estes dados eram organizados e disponibilizados para avaliador com destaques para eventos que poderiam indicar insatisfação do participante ou possíveis problemas na utilização. Foi possível concluir que os eventos relacionados à verbalização com palavras chave foram eficazes para apoiar a tarefa de análise e identificação de interfaces problemáticas, pois as palavras estavam relacionadas com classificadores que indicavam satisfação ou insatisfação por parte do usuário. A atividade de verbalização se mostrou mais eficiente quando a análise de seus dados foi aplicada em conjunto com as imagens faciais, pois permitiram uma análise mais confiável e abrangente. Nesta análise, o avaliador teve condições de identificar quais interfaces do sistema foram mal classificadas pelo usuário e qual era o foco de visão/utilização do usuário no momento do evento. Para análises efetuadas com utilização de palavras chave com/sem utilização de imagens, o tempo gasto para identificar as interfaces e possíveis problemas foi reduzido para menos de duas vezes o tempo de teste. / Filming and verbalization are considered fundamental usability test methods to support software usability evaluation, due to the reason that allows the evaluator to collect real data about the software interaction capacity and how it influences the user. The tests are, usually, performed by real software users because they can submit the system to several situations that were not presupposed by evaluator in the labs. Although effective, the filming and the verbalization are not efficient due to the reason that require a long time to analyzing the data and identify usability problems. Researches performed in the area present that the time to data analysis is two to ten times the test time. This research aimed to develop an environment that used events as words pronounced and face reactions to support the collect, analysis and identification of interfaces with usability problems easily and safe. The environment is composed by a software to monitoring (background) of the user activities. The software collects key words pronounced by the participant and face images in specific time intervals. Besides these data, snapshots of the interfaces were registered in order to present which interfaces were in used in the event moment. After the collect stage, these data were processed and available to the evaluator with highlights to events that could indicate unsatisfactory events or potential utilization problems. In this research, was possible to conclude that the verbalization events using key words were effective to support the analysis and identification of problematic interfaces because the words were related to specific context that indicated the user opinion. The verbalization activities were more effective in the moments that the data analysis was performed using the face images to support it, allowing more reliable and comprehensive data analysis. In this analysis, the evaluator was able to identify which interfaces were classified negatively by the participant and which was the user focus of view/use in the event moment. In analysis performed using key words and/or not using the face images, the time to identifying the interfaces and potentials usability problems was reduced to less than twice the time of test. Data Analysis Image Processing Interface homem-computador Reconhecimento de imagem Reconhecimento de voz Speech Processing Teste e avaliação de software Usabilidade de software Usability Evaluation Usability Test
34	Um software de reconhecimento de voz para português brasileiro SILVA, Carlos Patrick Alves da 17 June 2010 (has links) Submitted by Irvana Coutinho (irvana@ufpa.br) on 2011-03-30T16:52:26Z No. of bitstreams: 2 SILVA, Carlos Patrick PPGEngenharia Física.pdf: 982046 bytes, checksum: 68542ba7f1da016c6efc9c8d70c80030 (MD5) license_rdf: 22876 bytes, checksum: 0a4e855daae7a181424315bc63e71991 (MD5) / Made available in DSpace on 2011-03-30T16:52:26Z (GMT). No. of bitstreams: 2 SILVA, Carlos Patrick PPGEngenharia Física.pdf: 982046 bytes, checksum: 68542ba7f1da016c6efc9c8d70c80030 (MD5) license_rdf: 22876 bytes, checksum: 0a4e855daae7a181424315bc63e71991 (MD5) Previous issue date: 2010 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / This work describes a speech recognition software for Brazilian Portuguese. The main objective is to build a system for large vocabulary continuous speech recognition, able to be used in real-time applications. The concepts, characteristics and all steps needed for the construction of such systems are presented. Several resources were produced and made available: acoustic and language models, new voice and text corpora. The text corpus has been built through the extraction and automatic formatting of text from newspapers on the Internet. In addition, two voice corpora were produced, one based on audiobooks and another specifically developed to simulate real-time tests. This work also proposes the use of speaker adaptation techniques for solving the acoustic mismatch problem between speech corpora. Finally, an application programming interface is presented in order to facilitate using the open-source Julius speech decoder. Performance tests are also presented, comparing the developed system with a commercial software. / Descreve a implementação de um software de reconhecimento de voz para o Português Brasileiro. Dentre os objetivos do trabalho tem-se a construção de um sistema de voz contínua para grandes vocabulários, apto a ser usado em aplicações em tempo-real. São apresentados os principais conceitos e características de tais sistemas, além de todos os passos necessários para construção. Como parte desse trabalho foram produzidos e disponibilizados vários recursos: modelos acústicos e de linguagem, novos corpora de voz e texto. O corpus de texto vem sendo construído através da extração e formatação automática de textos de jornais na Internet. Além disso, foram produzidos dois corpora de voz, um baseado em audiobooks e outro produzido especificamente para simular testes em tempo-real. O trabalho também propõe a utilização de técnicas de adaptação de locutor para resolução de problemas de descasamento acústico entre corpora de voz. Por último, é apresentada uma interface de programação de aplicativos que busca facilitar a utilização do decodificador Julius. Testes de desempenho são apresentados, comparando os sistemas desenvolvidos e um software comercial. Sistema de reconhecimento de voz Língua portuguesa Processamento de dados Fonética
35	Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiro COUTO, Igor Costa do 23 December 2010 (has links) Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications. Some modules of a TTS depend on the language and, while there are many public resources for English, the resources for some underrepresented languages are still limited. This work describes the development of a complete TTS system for Brazilian Portuguese (BP) which expands the already available resources. The system uses the MARY framework and is based on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions of this work consist in implementing syllabification, determination of stressed syllable and grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing the developed resources and implementing a BP voice within the MARY. These resources are made available and facilitate the research in text normalization and HMM-based synthesis for BP. Síntese da voz Sistema de processamento da fala Sistema de reconhecimento de voz Processos de Markov
36	Reconhecimento automático de locutor em modo independente de texto por Self-Organizing Maps. / Text independent automatic speaker recognition using Self-Organizing Maps. Alexandre Teixeira Mafra 18 December 2002 (has links) Projetar máquinas capazes identificar pessoas é um problema cuja solução encontra uma grande quantidade de aplicações. Implementações em software de sistemas baseados em medições de características físicas pessoais (biométricos), estão começando a ser produzidos em escala comercial. Nesta categoria estão os sistemas de Reconhecimento Automático de Locutor, que se usam da voz como característica identificadora. No presente momento, os métodos mais populares são baseados na extração de coeficientes mel-cepstrais (MFCCs) das locuções, seguidos da identificação do locutor através de Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) ou quantização vetorial. Esta preferência se justifica pela qualidade dos resultados obtidos. Fazer com que estes sistemas sejam robustos, mantendo sua eficiência em ambientes ruidosos, é uma das grandes questões atuais. Igualmente relevantes são os problemas relativos à degradação de performance em aplicações envolvendo um grande número de locutores, e a possibilidade de fraude baseada em vozes gravadas. Outro ponto importante é embarcar estes sistemas como sub-sistemas de equipamentos já existentes, tornando-os capazes de funcionar de acordo com o seu operador. Este trabalho expõe os conceitos e algoritmos envolvidos na implementação de um software de Reconhecimento Automático de Locutor independente de texto. Inicialmente é tratado o processamento dos sinais de voz e a extração dos atributos essenciais deste sinal para o reconhecimento. Após isto, é descrita a forma pela qual a voz de cada locutor é modelada através de uma rede neural de arquitetura Self-Organizing Map (SOM) e o método de comparação entre as respostas dos modelos quando apresentada uma locução de um locutor desconhecido. Por fim, são apresentados o processo de construção do corpus de vozes usado para o treinamento e teste dos modelos, as arquiteturas de redes testadas e os resultados experimentais obtidos numa tarefa de identificação de locutor. / The design of machines that can identify people is a problem whose solution has a wide range of applications. Software systems, based on personal phisical attributes measurements (biometrics), are in the beginning of commercial scale production. Automatic Speaker Recognition systems fall into this cathegory, using voice as the identifying attribute. At present, the most popular methods are based on the extraction of mel-frequency cepstral coefficients (MFCCs), followed by speaker identification by Hidden Markov Models (HMMs), Gaussian Mixture Models (GMMs) or vector quantization. This preference is motivated by the quality of the results obtained by the use of these methods. Making these systems robust, able to keep themselves efficient in noisy environments, is now a major concern. Just as relevant are the problems related to performance degradation in applications with a large number of speakers involved, and the issues related to the possibility of fraud by the use of recorded voices. Another important subject is to embed these systems as sub-systems of existing devices, enabling them to work according to the operator. This work presents the relevant concepts and algorithms concerning the implementation of a text-independent Automatic Speaker Recognition software system. First, the voice signal processing and the extraction of its essential features for recognition are treated. After this, it is described the way each speaker\'s voice is represented by a Self-Organizing Map (SOM) neural network, and the comparison method of the models responses when a new utterance from an unknown speaker is presented. At last, it is described the construction of the speech corpus used for training and testing the models, the neural network architectures tested, and the experimental results obtained in a speaker identification task. quantização vetorial reconhecimento de locutor reconhecimento de voz redes neurais Self-Organizing Maps SOM neural networks Self-Organizing Maps SOM speaker recognition speech recognition vector quantization
37	Um ambiente de avaliação da usabilidade de software apoiado por técnicas de processamento de imagens e reconhecimento de fala / An environment to support usability evaluation using image processing and speech recognition Thiago Adriano Coleti 17 December 2013 (has links) A filmagem e a verbalização são métodos de teste de usabilidade considerados fundamentais para apoiar a avaliação da usabilidade de software, pois permitem ao avaliador coletar dados reais da capacidade de interação de um sistema e sua influência sobre o usuário. Os testes são, geralmente, realizados com usuário reais do software para que os mesmos possam submeter a interface as mais diversas situações. Embora eficazes, a filmagem e a verbalização são pouco eficientes, pois necessitam de muito trabalho para análise dos dados coletados e identificação de problemas de usabilidade. Pesquisas já realizadas na área apontam para um tempo de análise de duas a dez vezes o tempo do teste. Este trabalho teve como objetivo desenvolver um ambiente computacional que utilizava eventos de pronuncia de palavras chave e reações faciais para apoiar o processo de coleta, análise e identificação de interfaces com possíveis problemas de usabilidade de forma rápida e segura. O ambiente foi composto por um aplicativo que monitorava (em segundo plano) a utilização de um determinado aplicativo registrando palavras chave pronunciadas pelo participante e imagens faciais em determinados intervalos de tempo. Além destes dados, imagens das telas do sistema (snapshots) também eram registrados a fim de indicar quais interfaces eram utilizadas no momento de um determinado evento. Após a coleta, estes dados eram organizados e disponibilizados para avaliador com destaques para eventos que poderiam indicar insatisfação do participante ou possíveis problemas na utilização. Foi possível concluir que os eventos relacionados à verbalização com palavras chave foram eficazes para apoiar a tarefa de análise e identificação de interfaces problemáticas, pois as palavras estavam relacionadas com classificadores que indicavam satisfação ou insatisfação por parte do usuário. A atividade de verbalização se mostrou mais eficiente quando a análise de seus dados foi aplicada em conjunto com as imagens faciais, pois permitiram uma análise mais confiável e abrangente. Nesta análise, o avaliador teve condições de identificar quais interfaces do sistema foram mal classificadas pelo usuário e qual era o foco de visão/utilização do usuário no momento do evento. Para análises efetuadas com utilização de palavras chave com/sem utilização de imagens, o tempo gasto para identificar as interfaces e possíveis problemas foi reduzido para menos de duas vezes o tempo de teste. / Filming and verbalization are considered fundamental usability test methods to support software usability evaluation, due to the reason that allows the evaluator to collect real data about the software interaction capacity and how it influences the user. The tests are, usually, performed by real software users because they can submit the system to several situations that were not presupposed by evaluator in the labs. Although effective, the filming and the verbalization are not efficient due to the reason that require a long time to analyzing the data and identify usability problems. Researches performed in the area present that the time to data analysis is two to ten times the test time. This research aimed to develop an environment that used events as words pronounced and face reactions to support the collect, analysis and identification of interfaces with usability problems easily and safe. The environment is composed by a software to monitoring (background) of the user activities. The software collects key words pronounced by the participant and face images in specific time intervals. Besides these data, snapshots of the interfaces were registered in order to present which interfaces were in used in the event moment. After the collect stage, these data were processed and available to the evaluator with highlights to events that could indicate unsatisfactory events or potential utilization problems. In this research, was possible to conclude that the verbalization events using key words were effective to support the analysis and identification of problematic interfaces because the words were related to specific context that indicated the user opinion. The verbalization activities were more effective in the moments that the data analysis was performed using the face images to support it, allowing more reliable and comprehensive data analysis. In this analysis, the evaluator was able to identify which interfaces were classified negatively by the participant and which was the user focus of view/use in the event moment. In analysis performed using key words and/or not using the face images, the time to identifying the interfaces and potentials usability problems was reduced to less than twice the time of test. Interface homem-computador Reconhecimento de imagem Reconhecimento de voz Teste e avaliação de software Usabilidade de software Data Analysis Image Processing Speech Processing Usability Evaluation Usability Test
38	[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOS CHRISTIAN DAYAN ARCOS GORDILLO 13 June 2018 (has links) [pt] Esta tese apresenta e examina contribuições inovadoras no front-end dos sistemas de reconhecimento automático de voz (RAV) para o realce e reconhecimento de voz em ambientes adversos. A primeira proposta consiste em aplicar um filtro de mediana sobre a função de distribuição de probabilidade de cada coeficiente cepstral antes de utilizar uma transformação para um domínio invariante às distorções, com o objetivo de adaptar a voz ruidosa ao ambiente limpo de referência através da modificação de histogramas. Fundamentadas nos resultados de estudos psicofísicos do sistema auditivo humano, que utiliza como princípio o fato de que o som que atinge o ouvido é sujeito a um processo chamado Análise de Cena Auditiva (ASA), o qual examina como o sistema auditivo separa as fontes de som que compõem a entrada acústica, três novas abordagens aplicadas independentemente foram propostas para realce e reconhecimento de voz. A primeira aplica a estimativa de uma nova máscara no domínio espectral usando o conceito da transformada de Fourier de tempo curto (STFT). A máscara proposta aplica a técnica Local Binary Pattern (LBP) à relação sinal ruído (SNR) de cada unidade de tempo-frequência (T-F) para estimar uma máscara de vizinhança ideal (INM). Continuando com essa abordagem, propõe-se em seguida nesta tese o mascaramento usando as transformadas wavelet com base nos LBP para realçar os espectros temporais dos coeficientes wavelet nas altas frequências. Finalmente, é proposto um novo método de estimação da máscara INM, utilizando um algoritmo de aprendizagem supervisionado das Deep Neural Networks (DNN) com o objetivo de realizar a classificação de unidades T-F obtidas da saída dos bancos de filtros pertencentes a uma mesma fonte de som (ou predominantemente voz ou predominantemente ruído). O desempenho é comparado com as técnicas de máscara tradicionais IBM e IRM, tanto em termos de qualidade objetiva da voz, como através de taxas de erro de palavra. Os resultados das técnicas propostas evidenciam as melhoras obtidas em ambientes ruidosos, com diferenças significativamente superiores às abordagens convencionais. / [en] This thesis presents and examines innovative contributions in frontend of the automatic speech recognition systems (ASR) for enhancement and speech recognition in adverse environments. The first proposal applies a median filter on the probability distribution function of each cepstral coefficient before using a transformation to a distortion-invariant domain, to adapt the corrupted voice to the clean reference environment by modifying histograms. Based on the results of psychophysical studies of the human auditory system, which uses as a principle the fact that sound reaching the ear is subjected to a process called Auditory Scene Analysis (ASA), which examines how the auditory system separates the sound sources that make up the acoustic input, three new approaches independently applied were proposed for enhancement and speech recognition. The first applies the estimation of a new mask in the spectral domain using the short-time Fourier Transform (STFT) concept. The proposed mask applies the Local Binary Pattern (LBP) technique to the Signal-to-Noise Ratio (SNR) of each time-frequency unit (T-F) to estimate an Ideal Neighborhood Mask (INM). Continuing with this approach, the masking using LBP-based wavelet transforms to highlight the temporal spectra of wavelet coefficients at high frequencies is proposed in this thesis. Finally, a new method of estimation of the INM mask is proposed, using a supervised learning algorithm of Deep Neural Network (DNN) to classify the T-F units obtained from the output of the filter banks belonging to a same source of sound (or predominantly voice or predominantly noise). The performance is compared with traditional IBM and IRM mask techniques, both regarding objective voice quality and through word error rates. The results of the proposed methods show the improvements obtained in noisy environments, with differences significantly superior to the conventional approaches. [pt] RECONHECIMENTO DE VOZ [en] SPEECH RECOGNITION [pt] HISTOGRAMAS [en] HISTOGRAMS [pt] ROBUSTEZ [en] ROBUSTNESS [pt] REALCE DE VOZ [en] SPEECH ENHANCEMENT [pt] MASCARA [en] MASK [pt] REDES NEURAIS PROFUNDAS [en] DEEP NEURAL NETWORKS
39	Aplicação do método de fusão para verificação de locutor independente de texto Silva, Mayara Ferreira da January 2015 (has links) Made available in DSpace on 2016-01-05T01:03:29Z (GMT). No. of bitstreams: 1 000476876-Texto+Completo-0.pdf: 2803272 bytes, checksum: 9305b74451ec83ddca38d1c444ffb3dd (MD5) Previous issue date: 2015 / This work presents an overview of text independent speaker verification, describing the basic operation of the system and the reviewing some important developments in speaker modeling and feature extraction from speech. Following, a point of improvement identified within the feature extraction stage leads to the main objective of this work: to determine one or more sets of coefficients relevant to speaker discrimination while minimizing the equal error rate (EER). The proposal is to replace the delta(Δ) and double-delta(Δ²) coefficients by a linear predictor code (LPC) for the mel frequency cepstral coefficients (MFCC). In addition, score level fusion is employed to combine the ouputs of MFCC-only and MFCC-LPC systems, as well as MFCC-only and MFCC-Δ-Δ² systems. In all cases, performance is evaluated with respect to variations of the signal to noise-ratio (SNR) in the tested audio. In addition, the work introduces a new Brazilian Portuguese speech repository containing free-speech from 155 males. Results and discussions are presented with a reflection on the expected outcomes, as well as general comments and observations. Finally, concludings remarks are made about the work, featuring future prospects regarding text independent speaker verification research. This work attained a 4% reduction in the EER compared to the reference system (MFCC-only), with best results occuring in the case fusion of MFCC-only and MFCC-Δ-Δ² scores. / Este trabalho apresenta uma visão geral acerca de verificação de locutor independente de texto, demonstrando o funcionamento básico do sistema e as principais referências de métodos já utilizados ao longo de anos para extração de características da fala e modelamento do locutor. Detectado um ponto a ser trabalhado dentro da etapa de extração de características, objetiva-se determinar coeficientes ou um conjunto destes relevantes para discriminação do locutor, com o intuito de minimizar a EER (Equal Error Rate). A proposta consiste em substituir os coeficientes delta(Δ) e double-delta(Δ2) por coeficientes de um preditor LPC (Linear Predictor Coding) o qual realiza a predição dos coeficientes MFCC (Mel Frequency Cepstral Coeficients). Além disso, aplica-se uma fusão a nível de score em função de sistemas baseados em MFCC e LPC. Outra análise discutida no trabalho é a fusão de um sistema MFCC com Δ e Δ².Um tópico também avaliado é com relação a variações de SNRs (Signal to Noise Ratios) nos áudios testados. Além disso, é elaborado um banco de falas em português brasileiro. Por fim, são expostos os resultados obtidos e é feita a análise dos mesmos, a fim de refletir sobre o que era esperado e levantar alguns comentários. Enfim, são feitas as considerações a respeito do trabalho, e elencadas as perspectivas futuras em torno das pesquisas de verificação de locutor independente de texto. Com este trabalho atingiu-se uma redução de 4% na taxa de erro igual (EER) em comparação ao sistema de referência, sendo que os melhores resultados foram apresentados pelo sistema que realiza um fusão do sistema MFCC com o Δ e Δ². ENGENHARIA ELÉTRICA REDES NEURAIS (COMPUTAÇÃO) RELAÇÃO HOMEM-MÁQUINA RECONHECIMENTO DE VOZ (INFORMÁTICA) SINTETIZADORES DE VOZ (INFORMÁTICA)
40	Dynamic Time Warping baseado na transformada wavelet / Dynamic Time Warping based-on wavelet transform Sylvio Barbon Júnior 31 August 2007 (has links) Dynamic Time Warping (DTW) é uma técnica do tipo pattern matching para reconhecimento de padrões de voz, sendo baseada no alinhamento temporal de um sinal com os diversos modelos de referência. Uma desvantagem da DTW é o seu alto custo computacional. Este trabalho apresenta uma versão da DTW que, utilizando a Transformada Wavelet Discreta (DWT), reduz a sua complexidade. O desempenho obtido com a proposta foi muito promissor, ganhando em termos de velocidade de reconhecimento e recursos de memória consumidos, enquanto a precisão da DTW não é afetada. Os testes foram realizados com alguns fonemas extraídos da base de dados TIMIT do Linguistic Data Consortium (LDC) / Dynamic TimeWarping (DTW) is a pattern matching technique for speech recognition, that is based on a temporal alignment of the input signal with the template models. One drawback of this technique is its high computational cost. This work presents a modified version of the DTW, based on the DiscreteWavelet Transform (DWT), that reduces the complexity of the original algorithm. The performance obtained with the proposed algorithm is very promising, improving the recognition in terms of time and memory allocation, while the precision is not affected. Tests were performed with speech data collected from TIMIT corpus provided by Linguistic Data Consortium (LDC). Dynamic Time Warping Processamento digital de sinais Reconhecimento automático de fala Reconhecimento de voz Transformada wavelet Automatic speech recognition Digital signal processing Dynamic Time Warping Speech processing Transformada wavelet

Search results