Return to search

Avaliação de diferentes tecnicas para reconhecimento da fala

Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T10:44:55Z (GMT). No. of bitstreams: 1
Martins_JoseAntonio_D.pdf: 10107406 bytes, checksum: 84fe0eb5136fa3647bc206aa2d240af1 (MD5)
Previous issue date: 1997 / Resumo: Neste trabalho são avaliadas as seguintes técnicas empregadas em reconhecimento de fala: Modelos Ocultos de Markov (Discreto, Semicontínuo e Contínuo), redes " Multilayer Perceptron " e Sistemas Híbridos. Para essa avaliação, foram implementados vários reconhece dores de palavras isoladas independentes do locutor, sendo usada a mesma base de dados para todos os reconhecedores. O objetivo dessa avaliação é identificar as vantagens e desvantagens de cada técnica de modo a facilitar a escolha da técnica mais apropriada para cada aplicação de reconhecimento de fala considerando diversos aspectos como taxa de acerto, tempo de reconhecimento, tempo de treinamento, quantidade de parâmetros, tipo de algoritmo e outros. Reconhecedores implementados empregando as técnicas descritas também foram utilizados para avaliar algoritmos para detecção de início/fim de palavras, vários tipos de medidas de distorção usados em quantização vetorial e diferentes parâmetros utilizados para representar o sinal de fala. Entre esses parâmetros mostrou-se que existe uma superioridade dos parâmetros calculados usando uma escala não linear de freqüências, independentemente da técnica empregada nos reconhecedores. Discute-se também o uso da subtração da média espectral e diferenciação, as quais melhoram o desempenho dos reconhecedores. Combinando diferentes parâmetros conseguiu-se obter uma taxa de acertos de 99.47% para um reconhecedor de palavras isoladas independente do locutor e um vocabulário de 50 palavras / Abstract: This work presents an evaluation of speaker independent isolated word recognizers using Hidden Markov Models (Discrete, Continuous and Semicontinuous), Artificial Neural Networks (Multilayer Perceptron) and Hybrid Systems. All the recognizers were evaluated considering the same database. The goal of these comparisons is to identify the advantages and disadvantages of each technique used in speech recognition, considering the following features: training and recognition time, recognition accuracy, complexity of algorithms and others. It is also reported the result of a comparison among different algorithms used in word endpoints detection. Moreover, several distance measures employed in vector quantization were evaluated with regard to recognition performance. In addition, different kinds of parameters used to represent the speech signal such as LPC coefficients, Mel Frequency Cepstrum coefficients, PLP coefficients were considered in the evaluation of recognizers and it was discussed the efects of cepstral mean subtraction in order to improve the recognition accuracy. The best recognizer performance of 99.47% was obtained combining different features / Doutorado / Doutor em Engenharia Elétrica

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/260759
Date23 July 2018
CreatorsMartins, José Antônio
ContributorsUNIVERSIDADE ESTADUAL DE CAMPINAS, Violaro, Fabio, 1950-
Publisher[s.n.], Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Format161f. : il., application/pdf
Sourcereponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0023 seconds