Global ETD Search

1	Modulo frontal para um sistema de reconhecimento automatico de voz Vieira, Maurilio Nunes 19 January 1990 (has links) Orientador : Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-14T03:56:40Z (GMT). No. of bitstreams: 1 Vieira_MaurilioNunes_M.pdf: 7214227 bytes, checksum: 5d821ba794641f130f8a003d9d242b40 (MD5) Previous issue date: 1989 / Resumo: Este trabalho descreve o desenvolvimento do software para o Módulo Frontal de um Sistema de Reconhecimento Automático de Voz para operação na faixa de 0-4 kHz. O Módulo FrontaI , ou Processador Acústico, é responsável pela extração de traços a caracterização dos diversos sons da fala. O sinal de voz sofre uma filtragem passa-baixas com corte em 3,4 kHz, é amostrado a 8,0 kHz e quantizado em 12 bits. As análises são feitas em quadros de 25 ms, deslocados a um passo de 5 ms, obtendo-se uma série de parâmetros, como o número de cruzamentos por zero, o período de pitch para os intervalos sonoros, a energia em diversas faixas de freqüência do espectro LPC (Linear Predictive Coding) e a freqüência, amplitude e largura de faixa dos três primeiros formantes. O quadro é classificado em uma dentre sete categorias: silêncio, fricativo surdo, fricativo sonoro, oclusão sonora, vocálico, coarticulação eu indefinido. Esta última categoria inclui segmentos que não podem ser confiavelmente classificados em nenhuma das outras categorias. A classificação é independente do locutor / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento automatico da fala
2	Codificação digital de voz em sub-bandas Runstein, Fernando Oscar 02 March 1990 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-13T21:48:18Z (GMT). No. of bitstreams: 1 Runstein_FernandoOscar_M.pdf: 9721976 bytes, checksum: a7b9db6951ce7c9256909057e0e4d48f (MD5) Previous issue date: 1990 / Resumo: A codificação digital de sinais de voz a baixas taxas (16 [Kbits/s ou menores), com qualidade comparável aos sistemas em uso atualmente (PCM a 64 Kbits/s), ADPCM a 32 Kbits/s), é um dos objetivos que se pretende atingir em pouco tempo. Os Codificadores de sub-bandas se apresentam como bons candidatos para alcançar este objetivo, preenchendo o vazio que existe entre sofisticados codificadores de baixas taxas que trabalham no domínio da freqüência, como codificadores ATC (Adaptive Transform Codlng), e codificadores simples, porém de altas taxas, que trabalham no domínio do tempo, como PCM, APCM, ADM, ADPCM, etc. Este trabalho trata dos codificadores de sub-bandas aplicados a sinais de voz e das questões que dizem respeito a seu projeto e desempenho / Abstract: Digital coding of speech at low bit rate (16 Kbits/s or less). whose performance could be comparable to today's digital systems (64 Kbits/s) PCM, 32 Kbits/s ADPCM)is one of the objectives to be achieved in the ver~ near future. The sub-band coders lead themselves as good candidates for this purpose. bridging the gap between complex low bit rate coders. working in the frequency domain (such as the Adaptive Transform Coding - ATC) and the simple. but high bit rate coders. working in the time domain (such as PCM, APCM, ADM, ADPCM, etc). ThiS work investigates the sub-band speech coders and the questions related to their design and performance / Mestrado / Mestre em Engenharia Elétrica Telemática Engenharia elétrica Reconhecimento automatico da fala
3	Detector de voz para sistemas de interpolação digital Yamamoto, Jose Sindi 19 July 2018 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia de Campinas / Made available in DSpace on 2018-07-19T03:53:37Z (GMT). No. of bitstreams: 1 Yamamoto_JoseSindi_M.pdf: 3092955 bytes, checksum: 42950eba7a21a08b996582c0962226c6 (MD5) Previous issue date: 1982 / Resumo: Neste trabalho são apresentadas algumas estratégias para a discriminação do sinal de voz do ruído, aplicáveis aos detectores de voz para sistemas de interpolação digital. Para a definição destas estratégias, são feitos estudos comparativos entre as características dos sinais de voz e do ruído presente nas linhas telefônicas, tais como número médio de cruzamentos de zero, variação de envoltória, etc. Adicionalmente, é apresentada a implementação de um detectar digital de voz para o sistema de interpolação de voz por ora denominado "MCP-60" , que está sendo desenvolvido nos laboratórios de Eletrônica & Comunicações da Faculdade de Engenharia da Universidade Estadual de Campinas, bem como os resultados dos testes de desempenho realizados / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento automatico da fala
4	Modelos da lingua para o portugues do Brasil aplicados ao reconhecimento de fala continua : modelos lineares e modelos hierarquicos (Parsing) Pessoa, Luis Augusto de Sa 24 February 1999 (has links) Orientador: Fabio Violaro, Plinio A. Barbosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T21:28:17Z (GMT). No. of bitstreams: 1 Pessoa_LuisAugustodeSa_M.pdf: 9139469 bytes, checksum: 762d0ca82f9215f12bdc99ecc1d6c7a0 (MD5) Previous issue date: 1999 / Resumo: o reconhecimento de fala contínua baseado somente em informações acústicas não proporciona bons resultados [Lippmann97]. Modelos da Língua podem ser usados para caracterizar, capturar e explorar as regularidades da língua natural, melhorando o desempenho do sistema de reconhecimento. Esta Tese apresenta o estudo e a implementação de Modelos da Língua para o português do Brasil. São propostos dois modelos bigram de classes de palavras (modelos lineares) e um modelo baseado em gramática independente de contexto (modelo hierárquico). Um dos modelos bigram emprega classificação manual de palavras (classes gramaticais) e o outro emprega classificação automática através do algoritmo Simulated Annealing. O modelo baseado em gramática foi desenvolvido com base em uma teoria de Gramática Gerativa [Chomsky65] e utiliza a Sintaxe Xbarra [Jackendoff77]. Os Modelos da Língua foram avaliados através de um sistema de reconhecimento de fala contínua dependente do locutor desenvolvido por Morais [Morais97]. Este trabalho também apresenta um algoritmo de decodificação, baseado no algoritmo LeveI Building [Rabiner85], que leva em conta as restrições do Modelo da Língua durante o procedimento de busca / Abstract: : Continuous speech recognition based only on acoustic information does not provide good results [Lippmann97]. Language Models can be used to characterize, capture and exploit the language regularities, improving the recognition system performance. This Thesis presents the study and implementation of Language Models for Brazilian Portuguese. Two word class bigram language models (linear models) and one model based on context-free grammar (hierarchical model) are proposed. One bigram model uses manual classification of words (grammatical classes) and the other one uses automatic classification performed by the Simulated Annealing algorithm. The grammar-based model is implemented employing a theory of Generative Grammar [Chomsky65] and uses the X-bar Syntax [Jackendoft77]. The Language Models are evaluated using a speaker dependent continuous speech recognition system developed by Morais [Morais97]. This work also presents a decoding algorithm, based on Level Building algorithm [Rabiner85], which considers the Language Model constraints during the search procedure / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Modelos linguisticos Gramática gerativa Reconhecimento automatico da fala
5	Reconhecimento de fala baseado em HMM Nunes, Henrique Ferreira 20 December 1996 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-22T03:55:20Z (GMT). No. of bitstreams: 1 Nunes_HenriqueFerreira_M.pdf: 3451593 bytes, checksum: 3b52e036b0a5e12b0ac02d174adb7126 (MD5) Previous issue date: 1996 / Resumo: Este trabalho objetiva o desenvolvimento de sistemas de reconhecimento de fala baseados nos modelos ocultos de Markov- HMM (Hidden Markov Models). São descritos três sistemas de reconhecimento de fala desenvolvidos, que resultaram em protótipos demonstrativos da viabilidade técnica destes sistemas. Inicialmente, apresenta-se um reconhecedor de palavras isoladas para vocabulários pequenos, avaliado para os modos de operação multi-Iocutor e independente de locutor. Em seguida, descreve-se um sistema de reconhecimento de seqüências de dígitos faladas de forma contínua. Para este sistema, apresentam-se resultados de desempenho para os modos de operação dependente de locutor, multi-Iocutor e independente de locutor. Por fim, desenvolve-se um reconhecedor de palavras isoladas com vocabulário flexível e irrestrito para o português falado no Brasil. A definição do vocabulário de reconhecimento deste sistema é realizada de forma automática através da simples digitação dos textos ortográfIcos correspondentes às palavras desejadas. O reconhecedor com vocabulário flexível é avaliado apenas para o modo de operação dependente de locutor / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Sistemas de processamento da fala Markov, Processos de Reconhecimento automatico da fala
6	Avaliação de diferentes tecnicas para reconhecimento da fala Martins, José Antônio 23 July 2018 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T10:44:55Z (GMT). No. of bitstreams: 1 Martins_JoseAntonio_D.pdf: 10107406 bytes, checksum: 84fe0eb5136fa3647bc206aa2d240af1 (MD5) Previous issue date: 1997 / Resumo: Neste trabalho são avaliadas as seguintes técnicas empregadas em reconhecimento de fala: Modelos Ocultos de Markov (Discreto, Semicontínuo e Contínuo), redes " Multilayer Perceptron " e Sistemas Híbridos. Para essa avaliação, foram implementados vários reconhece dores de palavras isoladas independentes do locutor, sendo usada a mesma base de dados para todos os reconhecedores. O objetivo dessa avaliação é identificar as vantagens e desvantagens de cada técnica de modo a facilitar a escolha da técnica mais apropriada para cada aplicação de reconhecimento de fala considerando diversos aspectos como taxa de acerto, tempo de reconhecimento, tempo de treinamento, quantidade de parâmetros, tipo de algoritmo e outros. Reconhecedores implementados empregando as técnicas descritas também foram utilizados para avaliar algoritmos para detecção de início/fim de palavras, vários tipos de medidas de distorção usados em quantização vetorial e diferentes parâmetros utilizados para representar o sinal de fala. Entre esses parâmetros mostrou-se que existe uma superioridade dos parâmetros calculados usando uma escala não linear de freqüências, independentemente da técnica empregada nos reconhecedores. Discute-se também o uso da subtração da média espectral e diferenciação, as quais melhoram o desempenho dos reconhecedores. Combinando diferentes parâmetros conseguiu-se obter uma taxa de acertos de 99.47% para um reconhecedor de palavras isoladas independente do locutor e um vocabulário de 50 palavras / Abstract: This work presents an evaluation of speaker independent isolated word recognizers using Hidden Markov Models (Discrete, Continuous and Semicontinuous), Artificial Neural Networks (Multilayer Perceptron) and Hybrid Systems. All the recognizers were evaluated considering the same database. The goal of these comparisons is to identify the advantages and disadvantages of each technique used in speech recognition, considering the following features: training and recognition time, recognition accuracy, complexity of algorithms and others. It is also reported the result of a comparison among different algorithms used in word endpoints detection. Moreover, several distance measures employed in vector quantization were evaluated with regard to recognition performance. In addition, different kinds of parameters used to represent the speech signal such as LPC coefficients, Mel Frequency Cepstrum coefficients, PLP coefficients were considered in the evaluation of recognizers and it was discussed the efects of cepstral mean subtraction in order to improve the recognition accuracy. The best recognizer performance of 99.47% was obtained combining different features / Doutorado / Doutor em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento de padrões Reconhecimento de palavras Redes neurais (Computação) Markov, Processos de Reconhecimento automatico da fala
7	Jogos computacionais fonoarticulatorios para crianças com deficiencia auditiva Araujo, Antonio Marcos de Lima 27 July 2018 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-27T02:31:02Z (GMT). No. of bitstreams: 1 Araujo_AntonioMarcosdeLima_D.pdf: 2083307 bytes, checksum: d3276a78613fdbb96cbeb5d9c83636e8 (MD5) Previous issue date: 2000 / Doutorado Reconhecimento automático da voz Jogos por computador Deficientes auditivos - Reabilitação Reconhecimento automatico da fala
8	Normalização de locutor em sistema de reconhecimento de fala Dias, Raquel de Souza Ferreira 28 July 2018 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-28T13:19:36Z (GMT). No. of bitstreams: 1 Dias_RaqueldeSouzaFerreira_M.pdf: 453879 bytes, checksum: 3b408421c3b4b92453ac0dc80111c05b (MD5) Previous issue date: 2000 / Mestrado Reconhecimento automático da voz Markov, Processos de Espectro de frequência Filtros adaptativos Reconhecimento automatico da fala
9	Adaptação de locutor em sistema de reconhecimento de fala continua empregando ¿Eigenvoices¿ Sousa, Livio Carvalho 24 September 2004 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-04T00:34:40Z (GMT). No. of bitstreams: 1 Sousa_LivioCarvalho_M.pdf: 871098 bytes, checksum: 153f38e7d25defc4147ff0417e22add1 (MD5) Previous issue date: 2004 / Resumo: Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o português do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori'') e MLLR ("Maximum Likelihood Linear Regression''), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition'') foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área / Abstract: In this work a research was made in order to evaluate the use of the eigenvoice technique (13) (16) (17) (18) (30) (31) to speaker adaptation on a continuous speech recognition system. Amongst the severa! speaker adaptation techniques, like the classical MAP and MLLR, a new technique, called eigenvoice technique, was proposed by Kuhn for fast speaker adaptation in real time applications. Firstly, researches were made just on isolated words applications, and nowadays they are focused on continuous speech applications, like this work. The main feature of the eigenvoice technique is the representation of the new speaker by a linear combination of parameters (eigenvoices) extracted from speaker dependent models previously trained. The new speaker is represented by a point in a space whose axis are the eigenvoices. The Maximum Likelihood Eigen Decomposition (MLED) algorithm was used to calculate the combination coefficients in order to estimate the parameters of the new speaker. After tests varying the number of adaptation sentences and algorithm iterations, it was verified that: for a good adaptation performance, 3 to 5 algorithm iterations are necessary; the number of adaptation sentences is not very important, the more important is the adaptation sentences phonetic contento In conclusion, the eigenvoice technique showed to be efficient for the application on continuous speech, however more studies must be made in the area / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Telecomunicações Processamento de sinais Sistemas de processamento da fala Reconhecimento automático da voz Reconhecimento automatico da fala
10	Sistema de reconhecimento de fala baseado em redes neurais artificiais Runstein, Fernando Oscar 10 September 1998 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T14:15:07Z (GMT). No. of bitstreams: 1 Runstein_FernandoOscar_D.pdf: 12230122 bytes, checksum: c881b8dbd3ee58b6586540e4f1df16f3 (MD5) Previous issue date: 1998 / Resumo: Neste trabalho são comparadas diferentes configurações de redes neurais, diversos tipos de análise do sinal de voz e diferentes parâmetros de entrada da rede neural, com o objetivo de defInir o melhor sistema de reconhecimento de fala para palavras isoladas, independente do locutor e baseado em redes neurais artifIciais. Um dos problemas abordados é o das redes neurais terem um número fixo de entradas enquanto as palavras a reconhecer terem durações diferentes. Duas soluções são propostas para resolver este problema: dizimação/interpolação de quadros analisando as palavras com quadros de duração fixa dizimação/interpolação de quadros usando análise síncrona com o pitch. Ambos métodos apresentaram melhores resultados que os usualmente utilizados. Também é proposto um novo método de adaptação do sistema de reconhecimento de fala às características espectrais da voz do locutor, de forma a melhorar os índices de reconhecimento do sistema. Com este método conseguiu-se diminuir as taxas de erro em até 18%. Os sistemas foram avaliados com sinais ruidosos e sem ruído. Em testes independentes do locutor realizados com vocabulários de 10 a 32 palavras, obtiveram-se taxas de acerto superiores a 96% / Abstract: In this work we compared different neural network configurations, different speech analysis procedures and different neural net input parameters. The goal was to defme the best isolated word, speaker independent, speech recognition system based on artificialneural networks. One of the problems we worked on was how to deal with different word duration and fixed number of inputs of a neural network. Two solutions are proposed to solve this problem. One of hem, pitch-synchronous analysis, is new in speech recognition and produced very good results. It is also proposed in this work, a new method to adapt the speech recognition system to the spectral characteristics of the speaker's speech, in order to improve the recognition rate. With this method we diminished the error rates up to 18%. The systems were assessed with noise and noiseless signals. On speaker independent tests with 10 to 32 word vocabularies, we obtained word recognition rates better than 96% / Doutorado / Doutor em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento de padrões Reconhecimento de palavras Redes neurais (Computação) Reconhecimento automatico da fala

Search results