Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T10:08:22Z (GMT). No. of bitstreams: 1
Ynoguti_CarlosAlberto_D.pdf: 7314962 bytes, checksum: e671f81f57f14d9fcfed0bb6df9699ee (MD5)
Previous issue date: 1999 / Resumo: Nos sistemas que constituem o estado da arte na área de reconhecimento de fala predominam os modelos estatísticos, notadamente aqueles baseados em Modelos Ocultos de Markov (Hidden Markov Models, HMM) Os HMM¿s são estruturas poderosas pois são capazes de modelar ao mesmo tempo as variabilidades acústicas e temporais do sinal de voz. Métodos estatísticos são extremamente vorazes quando se trata de dados de treinamento. Deste modo, nos sistemas de reconhecimento de fala contínua e vocabulário extenso, as palavras são geralmente modeladas a partir da concatenação de sub-unidades fonéticas, pois o número destas é bem menor do que o de palavras, e em uma locução geralmente existem vários exemplos de sub-unidades fonéticas. O reconhecimento de fala contínua difere do de palavras isoladas, pois neste o locutor não precisa fazer pausas entre as palavras. Deste modo, a determinação das fronteiras entre as palavras e do número destas na locução deve ser feita pelo sistema de reconhecimento. Para isto são utilizados os algoritmos de busca, que podem ter ainda modelos de duração e de linguagem incorporados. O objetivo deste trabalho é estudar o problema de reconhecimento de fala contínua, com independência de locutor e vocabulário médio (aproximadamente 700 palavras) utilizando HMM¿s... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: In the field of continuous speech recognition, current state of art systems make use of statistical methods, mainly those based on Hidden Markov Models (HMM). HMM are powerful due to their ability to model both the acoustic and temporal features of speech signals. Statistical methods require lots of training samples. For this reason, large vocabulary, continuous speech recognition systems use word models composed by concatenating subunit models. In this approach there are much fewer subunits than words, and many samples of them in a single utterance. The main difference between continuous speech recognition and isolated words speech recognition is basically in the way that users interact with the system. In isolated words speech recognition, the user needs to make short pauses between works, which is not required for continuous speech recognition systems. The determination of word boundaries, and consequently the number of words in the utterance, take a part of the recognition process in continuous speech recognition systems. For this task searching algorithms are used, and they can also incorporate word duration and language models. The purpose of this work is to study the problem of speaker independent, medium-size vocabulary (about 700 words), continuous speech recognition using HMM¿s... Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica
Identifer | oai:union.ndltd.org:IBICT/oai:repositorio.unicamp.br:REPOSIP/260758 |
Date | 28 May 1999 |
Creators | Ynoguti, Carlos Alberto |
Contributors | UNIVERSIDADE ESTADUAL DE CAMPINAS, Violaro, Fabio, 1950-, Alcaim, Abrahan, Sanches, Ivandro, Meloni, Luis Geraldo, Ling, Lee Luan |
Publisher | [s.n.], Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação, Programa de Pós-Graduação em Engenharia Elétrica |
Source Sets | IBICT Brazilian ETDs |
Language | Portuguese |
Detected Language | English |
Type | info:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis |
Format | 138 p., application/pdf |
Source | reponame:Repositório Institucional da Unicamp, instname:Universidade Estadual de Campinas, instacron:UNICAMP |
Rights | info:eu-repo/semantics/openAccess |
Page generated in 0.0031 seconds