• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 50
  • 1
  • Tagged with
  • 51
  • 51
  • 41
  • 22
  • 20
  • 19
  • 19
  • 17
  • 14
  • 14
  • 13
  • 12
  • 12
  • 12
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
31

Reconhecimento automático de aves de nomes onomatopéicos utilizando árvore de decisão / Automatic recognition of birds with onomatopoeic names using decision tree

Brito Junior, Celio Seixo de 30 January 2013 (has links)
Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2015-04-10T14:28:02Z No. of bitstreams: 2 Disserteção - Célio Seixo de Brito Júnior - 2013.pdf: 6241241 bytes, checksum: 873e968701f03e30aeeb7118fdba6660 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2015-04-10T14:35:11Z (GMT) No. of bitstreams: 2 Disserteção - Célio Seixo de Brito Júnior - 2013.pdf: 6241241 bytes, checksum: 873e968701f03e30aeeb7118fdba6660 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) / Made available in DSpace on 2015-04-10T14:35:11Z (GMT). No. of bitstreams: 2 Disserteção - Célio Seixo de Brito Júnior - 2013.pdf: 6241241 bytes, checksum: 873e968701f03e30aeeb7118fdba6660 (MD5) license_rdf: 23148 bytes, checksum: 9da0b6dfac957114c6a7714714b86306 (MD5) Previous issue date: 2013-01-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / This work proposes a methodology for automatically determining characteristics, classification and recognition of birds from onomatopoeic names based on analysis of spectrograms of vocalizations of these birds. The filtering and segmentation of the signals are made automatically. Segmentation, which is the separation of the bird vocalization in regions of sound and silence, is performed with the centroid and energy characteristics of the signals. The filtering is made using filters generated using wavelet transform and Chebyshev filters. The recognition of birds is made from a decision tree, constructed automatically based on the following features: entropy, ZCR, centroid, energy, spectral flux, rollof frequency, minimum frequency, maximum frequency and the frequency of greater intensity of the spectrum. / O presente trabalho propõe uma metodologia de determinação automática de características, classificação e reconhecimento de aves de nomes onomatopéicos baseada na análise dos espectrogramas das vocalizações dessas aves. A filtragem e a segmentação dos sinais são feitas automaticamente. A segmentação, que é a separação da vocalização da ave em regiões de som e silêncio, é realizada com as características centroide e energia dos sinais. A filtragem é feita com filtros gerados utilizando transformada wavelet e filtros Chebyshev. O reconhecimento das aves é feito a partir de uma árvore de decisão, construída automaticamente com base nas seguintes características: entropia, ZCR, centróide, energia, fluxo espectral, frequência rolloff, frequência mínima, frequência máxima e frequência de maior intensidade do espectro.
32

Uso de parâmetros multifractais no reconhecimento de locutor / Use of multifractal parameters for speaker recognition

González González, Diana Cristina, 1984- 19 August 2018 (has links)
Orientadores: Lee Luan Ling, Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-19T05:40:32Z (GMT). No. of bitstreams: 1 GonzalezGonzalez_DianaCristina_M.pdf: 2589944 bytes, checksum: ddbbbef6076eb402f4abe638ebcd232b (MD5) Previous issue date: 2011 / Resumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutor / Abstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition system / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
33

Dynamic Time Warping baseado na transformada wavelet / Dynamic Time Warping based-on wavelet transform

Barbon Júnior, Sylvio 31 August 2007 (has links)
Dynamic Time Warping (DTW) é uma técnica do tipo pattern matching para reconhecimento de padrões de voz, sendo baseada no alinhamento temporal de um sinal com os diversos modelos de referência. Uma desvantagem da DTW é o seu alto custo computacional. Este trabalho apresenta uma versão da DTW que, utilizando a Transformada Wavelet Discreta (DWT), reduz a sua complexidade. O desempenho obtido com a proposta foi muito promissor, ganhando em termos de velocidade de reconhecimento e recursos de memória consumidos, enquanto a precisão da DTW não é afetada. Os testes foram realizados com alguns fonemas extraídos da base de dados TIMIT do Linguistic Data Consortium (LDC) / Dynamic TimeWarping (DTW) is a pattern matching technique for speech recognition, that is based on a temporal alignment of the input signal with the template models. One drawback of this technique is its high computational cost. This work presents a modified version of the DTW, based on the DiscreteWavelet Transform (DWT), that reduces the complexity of the original algorithm. The performance obtained with the proposed algorithm is very promising, improving the recognition in terms of time and memory allocation, while the precision is not affected. Tests were performed with speech data collected from TIMIT corpus provided by Linguistic Data Consortium (LDC).
34

Avanços em reconhecimento de fala para português brasileiro e aplicações: ditado no libreoffice e unidade de resposta audível com asterisk

BATISTA, Pedro dos Santos 04 March 2013 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2013-08-22T12:06:57Z No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-08-23T15:23:15Z (GMT) No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2013-08-23T15:23:15Z (GMT). No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2013 / O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias. / Automatic speech recognition has been increasingly more useful and feasible. When it comes to languages such as English, there are excellent speech recognizers available. However, the situation is not the same for Brazilian Portuguese, where the few recognizers for desktop dictation that existed, are no longer available. This dissertation is aligned with a goal of the Signal Processing Laboratory at the Federal University of Para, which is the development of a complete automatic speech recognizer for Brazilian Portuguese. More specifically, the main contributions of this dissertation are: the development of some resources needed to build a speech recognizer such as transcribed audio database and speech API; and the development of two applications: one for desktop dictation and another for automatic service in a call center. The system developed in-house for automatic speech recognition in Brazilian Portuguese is called Coruja, and besides all the resources that makes automatic speech recognition in Brazilian Portuguese available, the Coruja also contains an API for application development using speech recognition. The application for desktop dictation is called SpeechOO. The SpeechOO enables dictation and text editing and formatting by voice for the LibreOffice Writer. Other contribution of this work is the use of Coruja in call centers. Coruja was integrated with the Asterisk software, which is the main open source software for call centers. The main application developed for automated service in call center was an interactive voice response which is deployed nationally and receives more than 3 thousand daily calls.
35

Sistema baseado em software livre para reconhecimento de fala em nuvem em português brasileiro com alta disponibilidade

HAICK, Bruno Gomes 23 December 2013 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2015-01-13T17:43:58Z No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_SistemaBaseadoSoftware.pdf: 1066062 bytes, checksum: 88221a6a43766020a68196bd22143d30 (MD5) / Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2015-01-15T12:31:09Z (GMT) No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_SistemaBaseadoSoftware.pdf: 1066062 bytes, checksum: 88221a6a43766020a68196bd22143d30 (MD5) / Made available in DSpace on 2015-01-15T12:31:09Z (GMT). No. of bitstreams: 2 license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Dissertacao_SistemaBaseadoSoftware.pdf: 1066062 bytes, checksum: 88221a6a43766020a68196bd22143d30 (MD5) Previous issue date: 2013 / Este trabalho visa propor uma solução contendo um sistema de reconhecimento de fala automático em nuvem. Dessa forma, não há necessidade de um reconhecedor sendo executado na própria máquina cliente, pois o mesmo estará disponível através da Internet. Além do reconhecimento automático de voz em nuvem, outra vertente deste trabalho é alta disponibilidade. A importância desse tópico se d´a porque o ambiente servidor onde se planeja executar o reconhecimento em nuvem não pode ficar indisponível ao usuário. Dos vários aspectos que requerem robustez, tal como a própria conexão de Internet, o escopo desse trabalho foi definido como os softwares livres que permitem a empresas aumentarem a disponibilidade de seus serviços. Dentre os resultados alcançados e para as condições simuladas, mostrou-se que o reconhecedor de voz em nuvem desenvolvido pelo grupo atingiu um desempenho próximo ao do Google. / This work aims to propose a solution containing an automatic speech recognition system in cloud. Thus, there is no need for a recognizer running on client machine itself since the same will be available via the Internet. In addition to cloud-based automatic speech recognition another aspect of this work is high availability. The importance of this topic is because the server environment where the recognition cloud will run must be available to the user. The various aspects that require robustness, such as Internet connection itself, the scope of this work was defined as free softwares that enable companies can use to increase the availability of their services. Among the results achieved under the simulated conditions, it was shown that the speech recognizer cloud developed by the group achieved a performance close to Google’s.
36

Estudo do reconhecimento de voz para o acionamento de equipamentos elétricos via comandos em português

Bresolin, Adriano de Andrade 01 August 2003 (has links)
Made available in DSpace on 2016-12-12T17:29:55Z (GMT). No. of bitstreams: 1 Adriano de Andrade Bresolin.pdf: 5155408 bytes, checksum: 11b8c2a49d4c4655d5f5529b4673512e (MD5) Previous issue date: 2003-08-01 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The global world is dropping barriers through the information, began for the commercial and economical barrier, and in a future not very distant we can drop the barriers of the languages, in other words, people speaking in different languages, communicating through prepared digital equipments to translate the different pronounced linguistic expressions instantly for the same ones. This is the horizon to be reached by the voice recognition. In this new universe there would not be more the linguistic barrier among all the people, facilitating the communication and the businesses, simplifying the command of the industrial machines and above all, improving the human being life as a completely. Besides, this tool can facilitate the life of deficient physical. The voice command can have access the infinity of services and employments could help like this to drop the barrier of the prejudice. This study seeks to research, to describe and to apply the concepts and the theory involved in the process of the voice recognition, of this the acquisition to the recognition of the speech signal. The goal is to develop a system that is capable to command any electric equipment through voice commands. The objective of this dissertation is to give a litte step more the in the materialization of a process that was part of the science fiction films in the years 70 and 80 and it can become reality in the begin of the century XXI, "The Speech Recognition by Machines . XII / O mundo globalizado vem derrubando barreiras através da informação. Iniciou-se pelas barreiras comercial e econômica, e num futuro não muito distante poderão ser derrubadas as barreiras dos idiomas, ou seja, pessoas falando em idiomas diferentes, comunicando-se através de equipamentos digitais preparados para traduzir instantaneamente as diferentes expressões lingüísticas pronunciadas pelos mesmos. Esse é o horizonte a ser alcançado pelo reconhecimento de voz. Nesse novo universo não haveria mais a barreira lingüística entre as pessoas, facilitando a comunicação e os negócios, simplificando o comando de máquinas no ambiente industrial e, acima de tudo melhorando a vida do ser humano como um todo. Além disso, esta ferramenta facilitaria a vida de deficientes físicos, à medida que, com o comando de voz os mesmos teriam acesso a uma infinidade de serviços e empregos, podendo assim ajudar a derrubar a barreira do preconceito. Este estudo procura pesquisar, descrever e aplicar os conceitos e a teoria envolvida no processo do reconhecimento de voz, deste a aquisição até o reconhecimento do sinal da fala. A meta é desenvolver um sistema que seja capaz de comandar um equipamento elétrico qualquer através de comandos de voz.
37

Dynamic Time Warping baseado na transformada wavelet / Dynamic Time Warping based-on wavelet transform

Sylvio Barbon Júnior 31 August 2007 (has links)
Dynamic Time Warping (DTW) é uma técnica do tipo pattern matching para reconhecimento de padrões de voz, sendo baseada no alinhamento temporal de um sinal com os diversos modelos de referência. Uma desvantagem da DTW é o seu alto custo computacional. Este trabalho apresenta uma versão da DTW que, utilizando a Transformada Wavelet Discreta (DWT), reduz a sua complexidade. O desempenho obtido com a proposta foi muito promissor, ganhando em termos de velocidade de reconhecimento e recursos de memória consumidos, enquanto a precisão da DTW não é afetada. Os testes foram realizados com alguns fonemas extraídos da base de dados TIMIT do Linguistic Data Consortium (LDC) / Dynamic TimeWarping (DTW) is a pattern matching technique for speech recognition, that is based on a temporal alignment of the input signal with the template models. One drawback of this technique is its high computational cost. This work presents a modified version of the DTW, based on the DiscreteWavelet Transform (DWT), that reduces the complexity of the original algorithm. The performance obtained with the proposed algorithm is very promising, improving the recognition in terms of time and memory allocation, while the precision is not affected. Tests were performed with speech data collected from TIMIT corpus provided by Linguistic Data Consortium (LDC).
38

Sistema de reconhecimento de padrões visuais invariante a transformações geométricas utilizando redes neurais artificiais de múltiplas camadas / not available

José Alfredo Ferreira Costa 15 January 1996 (has links)
As áreas de visão computacional e redes neurais artificiais (RNAs) e suas aplicações, tiveram um enorme progresso em pesquisa e aplicações práticas nos últimos anos. Sistemas de inspeção visual automática têm despertado muita atenção na indústria pois provêem meios econômicos, eficientes e precisos de obtenção de controle de qualidade. Porém, apesar do grande avanço tecnológico, a maioria dos sistemas existentes, com exceção de alguns poucos experimentais, são especializados e foram projetados para inspecionar um único objeto ou peça, de tipo previamente conhecido, e em posição, orientação e distância em relação à câmara altamente restritas. Este trabalho descreve um sistema de reconhecimento de imagens contendo múltiplos objetos de classes aleatórias e tolerante a ruído. Um estágio de pré-processamento filtra parte do ruído e segmenta regiões conectadas da imagem (RCI). A classificação dos padrões é feita com redes neurais de múltiplas camadas a partir de atributos invariantes calculados sobre as RCis. No final do processo temos uma listagem dos objetos contidos na cena, suas posições e orientações, os quais podem servir de entrada a um sistema de entendimento da cena, de mais alto nível, ou para outras máquinas, como um manipulador automático. Outros parâmetros podem ser utilizados para normalizar, em escala, orientação e posição, os padrões contidos na imagem, para efeito de comparações com imagens e parâmetros dos objetos previamente armazenados em bancos de dados. Dois métodos de treinamento de RNAs foram testados, o gradiente conjugado e o Levenberg-Marquardt, em conjunção com simulated annealing, para diferentes condições de erro e conjuntos de atributos. Imagens reais e sintéticas foram utilizadas para efeitos de testes de classificação correta e rejeição de padrões espúrios. Resultados são apresentados e comentados, destacando a capacidade de generalização do sistema mesmo com elevada degradação da imagem pelo ruído. Uma das vantagens do tipo de RNA empregado é a velocidade de execução, que permite ao sistema ser integrado a uma linha de montagem industrial. O sistema foi projetado com a utilização de recursos acessíveis e de baixo custo, sendo executado em computadores pessoais, e podendo ser facilmente adaptado para o uso em pequenas e médias empresas. / Computer vision (CV) and artificial neural networks (ANN) are important research fields of artificial intelligence. Visual pattern recognition (VPR) and object recognition (2 or 3-D) are central tasks in a high level computer vision system. Despite the great development in the recent years, most of the current automatic visual inspection systems work with only one kind of pattern at time which has pose highly restricted. This dissertation describes a system designed to recognize patterns and objects in a digital image which have unknown number object types and poses. Such image, which is also degraded by noise, serve as input for the system. After gray level change and filtering, the pixel connected regions (CR) are codified, and the remained noise is eliminated. lnvariant features, i.e., moment invariants, serve as inputs for artificial neural networks that perform pattern classification. An interpretation module decode the net\'s outputs and increases the correct assignment by testing the net\'s higher outputs values. After all identified patterns were classified, we have an object listing of the scene, their positions and other information, which can be the input for a higher level scene understanding system, that may check for objects relations and could send information for humans or for other machines. Two ANN learning methods were adopted for training the networks, the conjugate gradient and the Levenberg-Marquardt Algoritms, both in conjuction with siumlated annealing, for different error conditions and feature sets. Sinthetic and real images were utilized for testing the net\'s correct class assignments and rejections. Results are presented as well as comments focusing the system\'s generalization capability despite noise, geometrical transformations, object shadows and other degradations over the images. One of the advantages of the ANN employed is the low execution time allowing the system to be integrated to an assembly industry line. The system runs on low cost personal computers, therefore it can be easily adapted for the Brazilian reality and can even be used by little companies and industries.
39

Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente

Santos, Rafael Menêses 30 May 2016 (has links)
One of the biggest challenges in speech recognition today is its use on a daily basis, in which distortion and noise in the environment are present and hinder this task. In the last thirty years, hundreds of methods for noise-robust recognition were proposed, each with its own advantages and disadvantages. In this thesis, the use of Convolutional Neural Networks (CNN) as acoustic models in automatic speech recognition systems (ASR) is proposed as an alternative to the classical recognition methods based on Hidden Markov Models (HMM) without any noise-robust method applied. Experiments were performed with a audio set modified by additive and natural noises, and showed that the presented method reduces the Equal Error Rate (EER) and improves the acuracy of speech recognition in noisy environments when compared to traditional models of classifiation, indicating the robustness of the approach. / Um dos maiores desafios no reconhecimento de fala atualmente é usá-lo no contexto diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e re- duzem a qualidade do reconhecimento. Nos últimos trinta anos, centenas de métodos para reconhecimento robusto ao ruído foram propostos, cada um com suas vantagens e desvantagens. Este trabalho propõe o uso de uma rede neural convolucional no papel de modelo acústico em sistemas de reconhecimento automático de fala,como uma alter- nativa ao métodos clássicos de reconhecimento baseado em modelos ocultos de Markov (HMM, do inglês, Hidden Markov Models) sem a aplicação de um método robusto ao ruído. Experimentos foram realizados com áudios modi ficados com ruídos aditivos e reais, e mostraram que o método proposto reduz o Equal Error Rate (EER) e aumenta a acurácia da classificação de comando de voz quando comparado a modelos tradicionais de classificação, evidenciando a robustez da abordagem apresentada.
40

Reconhecimento automatico de fala continua empregando modelos hibridos ANN +HMM

Morais, Edmilson da Silva 17 December 1997 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T09:17:49Z (GMT). No. of bitstreams: 1 Morais_EdmilsondaSilva_M.pdf: 6382080 bytes, checksum: 5ff91ddf6858cdc6b90fb32d2b42eb71 (MD5) Previous issue date: 1997 / Resumo: Atualmente, os sistemas que representam o estado-da-arte em reconhecimento de fala contínua baseiam-se em modelos ocultos de Markov - HMM("Hidden MarkovModels"), uma estrutura duplamente estocástica capaz de modelar tanto as variabilidades acústicas como temporais do sinal de fala. Porém, para viabilizar o modelamento matemático de um HMM, são realizadas inúmeras suposições simplificadoras que limitam o seu potencial efetivo. Redes neurais artificiais - ANN ("Artificial Neural Networks") não necessitam fazer uso de muitas destas suposições, podem aprender e generalizar superfícies complexas de decisão, tolerar ruídos e suportar paralelismo. Todas estas vantagens tornam as ANNs extremamente poderosas para modelar as variabilidades acústicas da fala. Entretanto, ao contrário dos HMMs, as ANNs não têm se mostrado eficientes para o modelamento das variabilidades temporais. Com o objetivo de unir em uma única estrutura o que há de melhor nas tecnologias de redes neurais artificiais e de modelos ocultos de Markov, têm sido estudados e avaliados nos últimos sete anos [36, 14,3,33,21,8, 1], modelos híbridos ANN-HMM nos quais o modelamento das variabilidades acústicas é confiado à ANN enquanto o HMM responsabiliza-se pela absorção das variabilidades temporais... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica

Page generated in 0.0626 seconds