Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T14:15:07Z (GMT). No. of bitstreams: 1
Runstein_FernandoOscar_D.pdf: 12230122 bytes, checksum: c881b8dbd3ee58b6586540e4f1df16f3 (MD5)
Previous issue date: 1998 / Resumo: Neste trabalho são comparadas diferentes configurações de redes neurais, diversos tipos de análise do sinal de voz e diferentes parâmetros de entrada da rede neural, com o objetivo de defInir o melhor sistema de reconhecimento de fala para palavras isoladas, independente do locutor e baseado em redes neurais artifIciais. Um dos problemas abordados é o das redes neurais terem um número fixo de entradas enquanto as palavras a reconhecer terem durações diferentes. Duas soluções são propostas para resolver este problema: dizimação/interpolação de quadros analisando as palavras com quadros de duração fixa dizimação/interpolação de quadros usando análise síncrona com o pitch. Ambos métodos apresentaram melhores resultados que os usualmente utilizados. Também é proposto um novo método de adaptação do sistema de reconhecimento de fala às características espectrais da voz do locutor, de forma a melhorar os índices de reconhecimento do sistema. Com este método conseguiu-se diminuir as taxas de erro em até 18%. Os sistemas foram avaliados com sinais ruidosos e sem ruído. Em testes independentes do locutor realizados com vocabulários de 10 a 32 palavras, obtiveram-se taxas de acerto superiores a 96% / Abstract: In this work we compared different neural network configurations, different speech analysis procedures and different neural net input parameters. The goal was to defme the best isolated word, speaker independent, speech recognition system based on artificialneural networks. One of the problems we worked on was how to deal with different word duration and fixed number of inputs of a neural network. Two solutions are proposed to solve this problem. One of hem, pitch-synchronous analysis, is new in speech recognition and produced very good results. It is also proposed in this work, a new method to adapt the speech recognition system to the spectral characteristics of the speaker's speech, in order to improve the recognition rate. With this method we diminished the error rates up to 18%. The systems were assessed with noise and noiseless signals. On speaker independent tests with 10 to 32 word vocabularies, we obtained word recognition rates better than 96% / Doutorado / Doutor em Engenharia Elétrica
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/260760 |
Date | 10 September 1998 |
Creators | Runstein, Fernando Oscar |
Contributors | UNIVERSIDADE ESTADUAL DE CAMPINAS, Violaro, Fabio, 1950- |
Publisher | [s.n.], Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | Portuguese |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | 154p. : il., application/pdf |
Source | reponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0028 seconds