Spelling suggestions: "subject:"reconhecimento automática dda voz"" "subject:"reconhecimento automática daa voz""
11 |
Modelos da lingua para o portugues do Brasil aplicados ao reconhecimento de fala continua : modelos lineares e modelos hierarquicos (Parsing)Pessoa, Luis Augusto de Sa 24 February 1999 (has links)
Orientador: Fabio Violaro, Plinio A. Barbosa / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T21:28:17Z (GMT). No. of bitstreams: 1
Pessoa_LuisAugustodeSa_M.pdf: 9139469 bytes, checksum: 762d0ca82f9215f12bdc99ecc1d6c7a0 (MD5)
Previous issue date: 1999 / Resumo: o reconhecimento de fala contínua baseado somente em informações acústicas não proporciona bons resultados [Lippmann97]. Modelos da Língua podem ser usados para caracterizar, capturar e explorar as regularidades da língua natural, melhorando o desempenho do sistema de reconhecimento. Esta Tese apresenta o estudo e a implementação de Modelos da Língua para o português do Brasil. São propostos dois modelos bigram de classes de palavras (modelos lineares) e um modelo baseado em gramática independente de contexto (modelo hierárquico). Um dos modelos bigram emprega classificação manual de palavras (classes gramaticais) e o outro emprega classificação automática através do algoritmo Simulated Annealing. O modelo baseado em gramática foi desenvolvido com base em uma teoria de Gramática Gerativa [Chomsky65] e utiliza a Sintaxe Xbarra [Jackendoff77]. Os Modelos da Língua foram avaliados através de um sistema de reconhecimento de fala contínua dependente do locutor desenvolvido por Morais [Morais97]. Este trabalho também apresenta um algoritmo de decodificação, baseado no algoritmo LeveI Building [Rabiner*85], que leva em conta as restrições do Modelo da Língua durante o procedimento de busca / Abstract: : Continuous speech recognition based only on acoustic information does not provide good results [Lippmann97]. Language Models can be used to characterize, capture and exploit the language regularities, improving the recognition system performance. This Thesis presents the study and implementation of Language Models for Brazilian Portuguese. Two word class bigram language models (linear models) and one model based on context-free grammar (hierarchical model) are proposed. One bigram model uses manual classification of words (grammatical classes) and the other one uses automatic classification performed by the Simulated Annealing algorithm. The grammar-based model is implemented employing a theory of Generative Grammar [Chomsky65] and uses the X-bar Syntax [Jackendoft77]. The Language Models are evaluated using a speaker dependent continuous speech recognition system developed by Morais [Morais97]. This work also presents a decoding algorithm, based on Level Building algorithm [Rabiner*85], which considers the Language Model constraints during the search procedure / Mestrado / Mestre em Engenharia Elétrica
|
12 |
Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiroSAMPAIO NETO, Nelson Cruz 17 June 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-06T14:12:29Z
No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-06T14:13:13Z (GMT) No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-06T14:13:13Z (GMT). No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem
da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do
sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um
conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para
PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada
para o problema em questão. / Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current speech recognition system error rate is still high, when compared
to that obtained by humans. Thus, despite the success of hidden Markov models (HMM), it
is necessary to investigate new methods. This work has these two facts as motivation and is divided into two parts. The first part describes the resources and free tools developed for BP speech recognition and synthesis, consisting of text and audio databases, phonetic dictionary, grapheme-to-phone converter, syllabification module, language and acoustic models. All of them are publicly available and, together with a proposed application programming interface,
have been used for the development of several new real-time applications, including a speech module for the OpenOffice suite. Performance tests are presented for evaluating the developed systems. The resources make easier the adoption of BP speech technologies by other academic
groups, developers and industry. The second part of this work presents a new method for
rescoring the recognition result obtained via HMMs, with the result being organized as a lattice. More specifically, the system uses discriminative classifiers that aim at reducing the confusability between pairs of phones. For each of these binary problems, automatic feature selection techniques are used to choose the proper parametric representation for the specific problem.
|
13 |
Desenvolvimento de aplicativos usando reconhecimento e síntese de vozSAMPAIO NETO, Nelson Cruz 30 August 2006 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2013-01-08T18:29:15Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-01-17T14:10:48Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5) / Made available in DSpace on 2013-01-17T14:10:49Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5)
Previous issue date: 2006 / A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java. / Speech is a natural mechanism for human-machine interaction. Speech (or voice) technology is a well-developed field when one considers the international community. There is a wide variety of academic and industrial software. The majority of them assumes a recognizer or synthesizer is available, and can be programmed through an
API. In contrast, there are no such resources in public domain for Brazilian Portuguese.
This work discusses some of these issues and compares SAPI and JSAPI, which are
APIs promoted by Microsoft and Sun, respectively. We also present two examples:
a CALL application using SAPI-based speech synthesis in English and Portuguese,
recognition in English, and visual agents; and a JSAPI-based software that incorporates
speech synthesis and recognition to IRC through Java APIs.
|
14 |
Reconhecimento de fala contínua com processamento simultâneo de diferentes características do sinalPêra, Vitor Manuel Martins Cicouro de January 2001 (has links)
Dissertação apresentada para obtenção do grau de Doutor em Engenharia Electrotécnica e de Computadores, na Faculdade de Engenharia da Universidade do Porto, sob a orientação do Professor Doutor Carlos Manuel Chaves Espain de Oliveira
|
15 |
Estudo e implementação de um sistema de reconhecimento de digitos conectados usando HMMs continuos / Study and implementation of a connected digit recognition system using continuous HMMsGonçalves, Jaqueline Vieira 19 April 2005 (has links)
Orientador: Luis Geraldo Pedroso Meloni / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-05T17:33:33Z (GMT). No. of bitstreams: 1
Goncalves_JaquelineVieira_M.pdf: 1342430 bytes, checksum: a3453c6b093ca10121670663134a5b07 (MD5)
Previous issue date: 2005 / Resumo: Neste trabalho, Modelos Ocultos de Markov Contínuos (HMMC) baseados em palavras e independentes de locutor são incorporados a um sistema de reconhecimento de dígitos conectados baseado em HMMs discretos do Laboratório de Processamento Digital de Sinais de Multimídia em Tempo Real da Faculdade de Engenharia Elétrica da UNICAMP, visando aperfeiçoar a plataforma existente. A teoria envolvida e detalhes da implementação do sistema de modelos contínuos são apresentados. Os HMMs contínuos empregados durante os experimentos possuem quantidades de estados e misturas dependentes do comprimento da palavra e, assim como no sistema anterior, o processo de treinamento usa um conjunto treinado de dígitos isolados como modelos iniciais no treinamento de dígitos conectados, além da informação adicional de duração de palavra. Durante esta fase de treinamento dos dígitos conectados, também é realizada outra forma de treinamento em que os modelos de dígitos isolados não são usados. As taxas de reconhecimento obtidas com esses dois tipos de treinamento também são avaliadas. Duas bases de dados foram usadas na análise de desempenho do sistema, uma delas em Português brasileiro e outra no Inglês americano. Os experimentos realizados permitiram comparar o desempenho entre os dois tipos de modelos, discreto e contínuo, para esta aplicação de modelos de palavras independentes de locutor, bem como apresentam resultados entre o sistema desenvolvido com HMMs contínuos e o software livre HTK (HMM Toolkit) sob as mesmas condições de operação. Experimentos também mostram o comportamento do sistema de HMMs contínuos desenvolvido ao variar-se o número de estados e misturas dos modelos separadamente / Abstract: In this work, we incorporate a continuous density Hidden Markov Models (HMMC) to a connected digit speech recognition system, based on speaker-independent word models, of the Real Time Multimedia Digital Signal Processing Laboratory at UNICAMP. The previous system is based on discrete HMMs, and the involved theory and implementation details of the continuous model system are presented. The continuous HMMs used in our experiments have the amount of states and mixtures dependent on word length. As well as in the previous system, the training procedure uses a training set of isolated digits in order to provide initial estimates of the continuous models and it also includes additional information of word duration. Moreover, we have also used another training procedure in which the isolated digits models are not used. The recognition rates obtained with those two training forms are also evaluated. Two databases were used to assess system performance, one is a small database for the Brazilian Portuguese and another one is for the American English. We carried out experiments in order to compare the performance of two types of models, discrete and continuous, in a speaker-independent word model application. We also evaluated the continuous HMMs performance using the open source HTK (HMM Toolkit) under the same operation conditions. Finally, performance results of the developed continuous HMMs system for different number of states and Gaussian mixtures are also shown / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
|
16 |
Reconhecimento de fonemas da lingua portuguesa pelo uso de redes neurais do tipo "perceptron" multi-camadasCordeiro, Luiz Eduardo Roncato 08 February 1994 (has links)
Orientador: Marcio Luiz de Andrade Netto / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-21T23:42:47Z (GMT). No. of bitstreams: 1
Cordeiro_LuizEduardoRoncato_M.pdf: 6513244 bytes, checksum: 08819b725fa27335628c20cc384e97c5 (MD5)
Previous issue date: 1994 / Resumo: Neste trabalho propõe-se a construção de um sistema de reconhecimento de fonemas da língua portuguesa por intermédio de redes neurais do tipo "perceptron" multicamadas. Este sistema é constituído por um modelo matemático do ouvido humano e por um modelo de redes neurais. O modelo do ouvido humano, neste caso, efetua um pré processamento
no sinal sonoro, muito parecido com a transformada de Fourier, gerando os dados para excitação dos neurônios de entrada das redes neurais. Tais redes são construídas de modo que, dados os sinais provenientes do modelo do ouvido, possam indicar o fonema correspondente ao sinal sonoro de entrada. Deve-se salientar que foi realizada neste trabalho
uma comparação entre o modelo do ouvido e a transformada rápida de Fourier como pré-processadores do sinal de áudio, exatamente para ilustrar as semelhanças entre ambos / Abstract: The purpose of this work is the construction of a recognition system for the portuguese idiom phonems by the use of multi layered'perceptron neural networks. This system is constituted by a mathematical model of the human ear and of a model of neural networks. The human ear model does a pre-processing of the sound signal, very similar to Fourier
transform, generating data for excitation of neural network input neurons. The network is such that, given the signals from the ear's model, it may classify the corresponding phonem from the input sound signal. It was done also a comparison between the ear's model and the Fourier transform as a pre-processor to sound signal, to illustrate the similarities between
both processes / Mestrado / Automação / Mestre em Engenharia Elétrica
|
17 |
Reconhecimento de fala baseado em HMMNunes, Henrique Ferreira 20 December 1996 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-22T03:55:20Z (GMT). No. of bitstreams: 1
Nunes_HenriqueFerreira_M.pdf: 3451593 bytes, checksum: 3b52e036b0a5e12b0ac02d174adb7126 (MD5)
Previous issue date: 1996 / Resumo: Este trabalho objetiva o desenvolvimento de sistemas de reconhecimento de fala baseados nos modelos ocultos de Markov- HMM (Hidden Markov Models). São descritos três sistemas de reconhecimento de fala desenvolvidos, que resultaram em protótipos demonstrativos da viabilidade técnica destes sistemas. Inicialmente, apresenta-se um reconhecedor de palavras isoladas para vocabulários pequenos, avaliado para os modos de operação multi-Iocutor e independente de locutor. Em seguida, descreve-se um sistema de reconhecimento de seqüências de dígitos faladas de forma contínua. Para este sistema, apresentam-se resultados de desempenho para os modos de operação dependente de locutor, multi-Iocutor e independente de locutor. Por fim, desenvolve-se um reconhecedor de palavras isoladas com vocabulário flexível e irrestrito para o português falado no Brasil. A definição do vocabulário de reconhecimento deste sistema é realizada de forma automática através da simples digitação dos textos ortográfIcos correspondentes às palavras desejadas. O reconhecedor com vocabulário flexível é avaliado apenas para o modo de operação dependente de locutor / Mestrado / Mestre em Engenharia Elétrica
|
18 |
Avaliação de diferentes tecnicas para reconhecimento da falaMartins, José Antônio 23 July 2018 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T10:44:55Z (GMT). No. of bitstreams: 1
Martins_JoseAntonio_D.pdf: 10107406 bytes, checksum: 84fe0eb5136fa3647bc206aa2d240af1 (MD5)
Previous issue date: 1997 / Resumo: Neste trabalho são avaliadas as seguintes técnicas empregadas em reconhecimento de fala: Modelos Ocultos de Markov (Discreto, Semicontínuo e Contínuo), redes " Multilayer Perceptron " e Sistemas Híbridos. Para essa avaliação, foram implementados vários reconhece dores de palavras isoladas independentes do locutor, sendo usada a mesma base de dados para todos os reconhecedores. O objetivo dessa avaliação é identificar as vantagens e desvantagens de cada técnica de modo a facilitar a escolha da técnica mais apropriada para cada aplicação de reconhecimento de fala considerando diversos aspectos como taxa de acerto, tempo de reconhecimento, tempo de treinamento, quantidade de parâmetros, tipo de algoritmo e outros. Reconhecedores implementados empregando as técnicas descritas também foram utilizados para avaliar algoritmos para detecção de início/fim de palavras, vários tipos de medidas de distorção usados em quantização vetorial e diferentes parâmetros utilizados para representar o sinal de fala. Entre esses parâmetros mostrou-se que existe uma superioridade dos parâmetros calculados usando uma escala não linear de freqüências, independentemente da técnica empregada nos reconhecedores. Discute-se também o uso da subtração da média espectral e diferenciação, as quais melhoram o desempenho dos reconhecedores. Combinando diferentes parâmetros conseguiu-se obter uma taxa de acertos de 99.47% para um reconhecedor de palavras isoladas independente do locutor e um vocabulário de 50 palavras / Abstract: This work presents an evaluation of speaker independent isolated word recognizers using Hidden Markov Models (Discrete, Continuous and Semicontinuous), Artificial Neural Networks (Multilayer Perceptron) and Hybrid Systems. All the recognizers were evaluated considering the same database. The goal of these comparisons is to identify the advantages and disadvantages of each technique used in speech recognition, considering the following features: training and recognition time, recognition accuracy, complexity of algorithms and others. It is also reported the result of a comparison among different algorithms used in word endpoints detection. Moreover, several distance measures employed in vector quantization were evaluated with regard to recognition performance. In addition, different kinds of parameters used to represent the speech signal such as LPC coefficients, Mel Frequency Cepstrum coefficients, PLP coefficients were considered in the evaluation of recognizers and it was discussed the efects of cepstral mean subtraction in order to improve the recognition accuracy. The best recognizer performance of 99.47% was obtained combining different features / Doutorado / Doutor em Engenharia Elétrica
|
19 |
Jogos computacionais fonoarticulatorios para crianças com deficiencia auditivaAraujo, Antonio Marcos de Lima 27 July 2018 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-27T02:31:02Z (GMT). No. of bitstreams: 1
Araujo_AntonioMarcosdeLima_D.pdf: 2083307 bytes, checksum: d3276a78613fdbb96cbeb5d9c83636e8 (MD5)
Previous issue date: 2000 / Doutorado
|
20 |
Normalização de locutor em sistema de reconhecimento de falaDias, Raquel de Souza Ferreira 28 July 2018 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-28T13:19:36Z (GMT). No. of bitstreams: 1
Dias_RaqueldeSouzaFerreira_M.pdf: 453879 bytes, checksum: 3b408421c3b4b92453ac0dc80111c05b (MD5)
Previous issue date: 2000 / Mestrado
|
Page generated in 0.0927 seconds