Global ETD Search

11	Reconhecimento de fala continua usando modelos ocultos de Markov Ynoguti, Carlos Alberto 28 May 1999 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T10:08:22Z (GMT). No. of bitstreams: 1 Ynoguti_CarlosAlberto_D.pdf: 7314962 bytes, checksum: e671f81f57f14d9fcfed0bb6df9699ee (MD5) Previous issue date: 1999 / Resumo: Nos sistemas que constituem o estado da arte na área de reconhecimento de fala predominam os modelos estatísticos, notadamente aqueles baseados em Modelos Ocultos de Markov (Hidden Markov Models, HMM) Os HMM¿s são estruturas poderosas pois são capazes de modelar ao mesmo tempo as variabilidades acústicas e temporais do sinal de voz. Métodos estatísticos são extremamente vorazes quando se trata de dados de treinamento. Deste modo, nos sistemas de reconhecimento de fala contínua e vocabulário extenso, as palavras são geralmente modeladas a partir da concatenação de sub-unidades fonéticas, pois o número destas é bem menor do que o de palavras, e em uma locução geralmente existem vários exemplos de sub-unidades fonéticas. O reconhecimento de fala contínua difere do de palavras isoladas, pois neste o locutor não precisa fazer pausas entre as palavras. Deste modo, a determinação das fronteiras entre as palavras e do número destas na locução deve ser feita pelo sistema de reconhecimento. Para isto são utilizados os algoritmos de busca, que podem ter ainda modelos de duração e de linguagem incorporados. O objetivo deste trabalho é estudar o problema de reconhecimento de fala contínua, com independência de locutor e vocabulário médio (aproximadamente 700 palavras) utilizando HMM¿s... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: In the field of continuous speech recognition, current state of art systems make use of statistical methods, mainly those based on Hidden Markov Models (HMM). HMM are powerful due to their ability to model both the acoustic and temporal features of speech signals. Statistical methods require lots of training samples. For this reason, large vocabulary, continuous speech recognition systems use word models composed by concatenating subunit models. In this approach there are much fewer subunits than words, and many samples of them in a single utterance. The main difference between continuous speech recognition and isolated words speech recognition is basically in the way that users interact with the system. In isolated words speech recognition, the user needs to make short pauses between works, which is not required for continuous speech recognition systems. The determination of word boundaries, and consequently the number of words in the utterance, take a part of the recognition process in continuous speech recognition systems. For this task searching algorithms are used, and they can also incorporate word duration and language models. The purpose of this work is to study the problem of speaker independent, medium-size vocabulary (about 700 words), continuous speech recognition using HMM¿s... Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica Markov, Processos de Reconhecimento automático da voz Reconhecimento automatico da fala
12	Segmentação automatica e treinamento discriminativo aplicados a um sistema de reconhecimento de digitos conectados Figueiredo, Fabricio Lira 17 December 1999 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-26T00:16:55Z (GMT). No. of bitstreams: 1 Figueiredo_FabricioLira_M.pdf: 8181706 bytes, checksum: 4b3db6624620a5cb43cd1b3304195637 (MD5) Previous issue date: 1999 / Resumo: Os Modelos Ocultos de Markov constituem, atualmente, a principal abordagem para o problema de Reconhecimento de Fala, pois proporcionam bom desempenho e alto grau de flexibilidade. Infelizmente, este modelo acústico não é ideal e alguns problemas afetam sua robustez e desempenho em condições adversas. A inconsistência do modelamento temporal implícito nos HMM's é um exemplo de um sério problema sem soluções bem definidas. De fato, o Modelo de Duração de Estados com distribuição exponencial é incompatível com o comportamento estatístico das unidades lingüísticas reais. A hipótese de independência entre observações representa outra limitação dos HMM's, já que não se verifica nos experimentos práticos. De fato, existe forte dependência contextual no caso de quadros pertencentes a regiões de transição entre unidades acústicas de uma elocução. Alguns modelos e algoritmos têm sido propostos para tentar transpor estes obstáculos, tais como Modelos Segmentais e Duração Explícita de Estados. Nesta tese, uma estratégia alternativa é proposta para atenuar estes problemas, sem acréscimos significativos no custo computacional. A informação relativa às transições entre fones, ao longo de uma elocução, é obtida através de métodos de segmentação automática. Realiza-se uma ponderação no algoritmo de Viterbi, a fim de penalizar os modelos que gerarem segmentações inconsistentes. Bons resultados são obtidos, para várias condições relacionadas a uma aplicação de Dígitos Conectados. O objetivo atual é aplicar esta técnica para o caso de vocabulários extensos / Abstract: Hidden Markov Model is actually the main approach to Speech Recognition problem, because of the good performance and high degree of flexibility that can be achieved. Unfortunately, this acoustical modeling is not optimum and some problems still affect it's robustness and performance in a more realistic condition. The weakness of the temporal modeling embedded in HMM is an example of a serious problem without well defined solutions. In fact, the implicit state duration model with exponential distribution may not describe the real linguistic units distributions. The hypothesis of independence between observations is other difficult problem to solve and it is incompatible with practical experiments because there is strong correlation between frames in the same acoustic segment. Some models and algorithms have been proposed to overcome or, at lest, attenuate those problems, such as Stochastic Segment Models and Explicit State Duration. This thesis presents an alternative approach to alleviate these problems, with relatively low computational cost. The information on phoneme boundaries in time is obtained through an Automatic segmentation algorithm and it is used in a Weighted Viterbi Algorithm in order to penalize the, models that generates inconsistent segmentations. Good results were achieved for various conditions related to connected digits application. The actual objective is to expand it to continuous speech recognition / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Redes neurais (Computação) Markov, Processos de Processamento de palavras Algoritmos Reconhecimento automatico da fala
13	Metodo para a determinação do numero de gaussianas em modelos ocultos de Markov para sistemas de reconhecimento de fala continua / A new method for determining the number of gaussians in hidden Markov models for continuos speech recognition systems Yared, Glauco Ferreira Gazel 20 April 2006 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T10:44:21Z (GMT). No. of bitstreams: 1 Yared_GlaucoFerreiraGazel_D.pdf: 5774867 bytes, checksum: 49a79d9495ce25c8a69ca34858a956ee (MD5) Previous issue date: 2006 / Resumo: Atualmente os sistemas de reconhecimento de fala baseados em HMMs são utilizados em diversas aplicações em tempo real, desde telefones celulares até automóveis. Nesse contexto, um aspecto importante que deve ser considerado é a complexidade dos HMMs, a qual está diretamente relacionada com o custo computacional. Assim, no intuito de permitir a aplicação prática do sistema, é interessante otimizar a complexidade dos HMMs, impondo-se restrições em relação ao desempenho no reconhecimento. Além disso, a otimização da topologia é importante para uma estimação confiável dos parâmetros dos HMMs. Os trabalhos anteriores nesta área utilizam medidas de verossimilhança para a obtenção de sistemas que apresentem um melhor compromisso entre resolução acústica e robustez. Este trabalho apresenta o novo Algoritmo para Eliminação de Gaussianas (GEA), o qual é baseado em uma análise discriminativa e em uma análise interna, para a determinação da complexidade mais apropriada para os HMMs. O novo método é comparado com o Critério de Informação Bayesiano (BIC), com um método baseado em medidas de entropia, com um método discriminativo para o aumento da resolução acústica dos modelos e com os sistemas contendo um número fixo de Gaussianas por estado / Abstract: Nowadays, HMM-based speech recognition systems are used in many real time processing applications, from cell phones to auto mobile automation. In this context, one important aspect to be considered is the HMM complexity, which directly determines the system computational load. So, in order to make the system feasible for practical purposes, it is interesting to optimize the HMM size constrained to a minimum acceptable recognition performance. Furthermore, topology optimization is also important for reliable parameter estimation. Previous works in this area have used likelihood measures in order to obtain models with a better compromise between acoustic resolution and robustness. This work presents the new Gaussian Elimination Algorithm (GEA), which is based on a discriminative analysis and on an internal analysis, for determining the more suitable HMM complexity. The new approach is compared to the classical Bayesian Information Criterion (BIC), to an entropy based method, to a discriminative-based method for increasing the acoustic resolution of the HMMs and also to systems containing a fixed number of Gaussians per state / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica Algoritmos Markov, Processos de Reconhecimento automático da voz Modelos matemáticos Reconhecimento automatico da fala Gaussian elimination algorithm Robustness Model complexity Hidden Markov models
14	Reconhecimento automatico de fala continua empregando modelos hibridos ANN +HMM Morais, Edmilson da Silva 17 December 1997 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T09:17:49Z (GMT). No. of bitstreams: 1 Morais_EdmilsondaSilva_M.pdf: 6382080 bytes, checksum: 5ff91ddf6858cdc6b90fb32d2b42eb71 (MD5) Previous issue date: 1997 / Resumo: Atualmente, os sistemas que representam o estado-da-arte em reconhecimento de fala contínua baseiam-se em modelos ocultos de Markov - HMM("Hidden MarkovModels"), uma estrutura duplamente estocástica capaz de modelar tanto as variabilidades acústicas como temporais do sinal de fala. Porém, para viabilizar o modelamento matemático de um HMM, são realizadas inúmeras suposições simplificadoras que limitam o seu potencial efetivo. Redes neurais artificiais - ANN ("Artificial Neural Networks") não necessitam fazer uso de muitas destas suposições, podem aprender e generalizar superfícies complexas de decisão, tolerar ruídos e suportar paralelismo. Todas estas vantagens tornam as ANNs extremamente poderosas para modelar as variabilidades acústicas da fala. Entretanto, ao contrário dos HMMs, as ANNs não têm se mostrado eficientes para o modelamento das variabilidades temporais. Com o objetivo de unir em uma única estrutura o que há de melhor nas tecnologias de redes neurais artificiais e de modelos ocultos de Markov, têm sido estudados e avaliados nos últimos sete anos [36, 14,3,33,21,8, 1], modelos híbridos ANN-HMM nos quais o modelamento das variabilidades acústicas é confiado à ANN enquanto o HMM responsabiliza-se pela absorção das variabilidades temporais... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento de padrões Redes neurais (Computação) Markov, Processos de Fala Sistemas de tempo discreto Reconhecimento automatico da fala
15	Sintese e reconhecimento da fala humana / Synthesis and recognition of human speech Stolfi, Rumiko Oishi 31 October 2006 (has links) Orientadores: Fabio Violaro, Anamaria Gomide / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T21:57:26Z (GMT). No. of bitstreams: 1 Stolfi_RumikoOishi_M.pdf: 1514197 bytes, checksum: e93f45916d359641c73b31b00952a914 (MD5) Previous issue date: 2006 / Resumo: O objetivo deste trabalho é apresentar uma revisão dos principais conceitos e métodos envolvidos na síntese, processamento e reconhecimento da fala humana por computador.Estas tecnologias têm inúmeras aplicações, que têm aumentado substancialmente nos últimos anos com a popularização de equipamentos de comunicação portáteis (celulares, laptops, palmtops) e a universalização da Internet. A primeira parte deste trabalho é uma revisão dos conceitos básicos de processamento de sinais, incluindo transformada de Fourier, espectro de potência e espectrograma, filtros, digitalização de sinais e o teorema de Nyquist. A segunda parte descreve as principais características da fala humana, os mecanismos envolvidos em sua produção e percepção, e o conceito de fone (unidade lingüística de som). Nessa parte também descrevemos brevemente as principais técnicas para a conversão ortográfica-fonética, para a síntese de fala a partir da descrição fonética, e para o reconhecimento da fala natural. A terceira parte descreve um projeto prático que desenvolvemos para consolidar os conhecimentos adquiridos neste mestrado: um programa que gera canções populares japonesas a partir de uma descrição textual da letra de música, usando método de síntese concatenativa. No final do trabalho listamos também alguns softwares disponíveis (livres e comerciais) para síntese e reconhecimento da fala / Abstract: The goal of this dissertation is to review the main concepts relating to the synthesis, processing, and recognition of human speech by computer. These technologies have many applications, which have increased substantially in recent years after the spread of portable communication equipment (mobile phones, laptops, palmtops) and the universal access to the Internet. The first part of this work is a revision of fundamental concepts of signal processing, including the Fourier transform, power spectrum and spectrogram, filters, signal digitalization, and Nyquist's theorem. The second part describes the main characteristics of human speech, the mechanisms involved in its production and perception, and the concept of phone (linguistic unit of sound). In this part we also briefly describe the main techniques used for orthographic-phonetic transcription, for speech synthesis from a phonetic description, and for the recognition of natural speech. The third part describes a practical project we developed to consolidate the knowledge acquired in our Masters studies: a program that generates Japanese popular songs from a textual description of the lyrics and music, using the concatenative synthesis method. At the end of this dissertation, we list some available software products (free and commercial) for speech synthesis and speech recognition / Mestrado / Engenharia de Computação / Mestre em Ciência da Computação Sistemas de processamento da fala Processamento de sinais Reconhecimento automático da voz Síntese da voz Reconhecimento automatico da fala Speech processing systems Signal processing Automatic speech recognition Voice systhesis

Page generated in 0.1542 seconds