• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 50
  • 1
  • Tagged with
  • 51
  • 51
  • 41
  • 22
  • 20
  • 19
  • 19
  • 17
  • 14
  • 14
  • 13
  • 12
  • 12
  • 12
  • 11
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Jogos computacionais fonoarticulatorios para crianças com deficiencia auditiva

Araujo, Antonio Marcos de Lima 27 July 2018 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-27T02:31:02Z (GMT). No. of bitstreams: 1 Araujo_AntonioMarcosdeLima_D.pdf: 2083307 bytes, checksum: d3276a78613fdbb96cbeb5d9c83636e8 (MD5) Previous issue date: 2000 / Doutorado
22

Normalização de locutor em sistema de reconhecimento de fala

Dias, Raquel de Souza Ferreira 28 July 2018 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-28T13:19:36Z (GMT). No. of bitstreams: 1 Dias_RaqueldeSouzaFerreira_M.pdf: 453879 bytes, checksum: 3b408421c3b4b92453ac0dc80111c05b (MD5) Previous issue date: 2000 / Mestrado
23

Transcrição em tempo real de textos utilizando um dicionário fonético

Gilza Paim Mandelman 03 September 2011 (has links)
In the quest to develop a technique which facilitates the process of automatic speech recognition for transcription real-time text using a phonetic dictionary, this work adopts a proposal nicknamed brazilês plus the use of syllables in the transcription process seeking possible imporvements to the automation especially in systems focused on accessibility, or even in helping to interactivity. There was the degree of improvement with the use of our technique especially in the response of the interactive process, decreasing the number of programmable routines, in their own interpretation of syllables using the portuguese spoken in Brazil and the degree of ease in the processes that enable accessibility. Thus, this work allows adjustment of the portuguese languge for use in computer systems, using natural language and presenting a proposal for a simplified routine for use in voice recognition software, improving the current routines that use neural networks from the other methods that produce the proposed interaction. To show the advantages of this technique was in-depth study of the proposed brazilês and set up the basic idea of seeking proposals for simplification, studying of automatic voice recognition (AVR), also developing a program that displays the formation of syllables of the portuguese language and analysis of the spelling of phonemes in the two encodings of the written language, portuguese and brazilês. / Na busca de desenvolver uma técnica facilitadora do processo de reconhecimento automático da voz para transcrição em tempo real de textos utilizando um dicionário fonético, este trabalho adotou uma proposta cognominada brazilês somada a utilização de silabas neste processo de transcrição buscando as possíveis melhorias para área de automação, especialmente em sistemas voltados à acessibilidade, ou mesmo no auxílio à interatividade. Verificou-se o grau de melhora com a utilização da técnica apresentada especialmente na resposta do processo interativo, na diminuição do número de rotinas programáveis, na própria interpretação das sílabas utilizando o português falado no Brasil, somado ao grau de facilidade que possibilitará nos processos de acessibilidade. Assim sendo, este trabalho possibilita adequação da língua portuguesa para uso em sistemas computacionais, utilizando a linguagem natural e apresentando uma proposta de rotina simplificada para ser utilizada em softwares de reconhecimento de voz, melhorando as rotinas atuais que usam desde redes neurais a outros métodos que produzam a interação esperada. Para comprovar as vantagens desta técnica houve estudo aprofundado da proposta brazilês e definiu-se proposições buscando a idéia básica de simplificação, estudando as formas de reconhecimento automático de voz (RAV), desenvolvendo também, um programa que apresenta a formação de sílabas da língua portuguesa e análise da grafia de fonemas nas duas codificações da língua escrita, o português e o brazilês.
24

Estudos de circuitos evolutivos aplicados ao reconhecimento de voz

Mantovani, Suely Cunha Amaro 03 August 2018 (has links)
Orientador: Jose Raimundo de Oliveira / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-03T21:42:52Z (GMT). No. of bitstreams: 1 Mantovani_SuelyCunhaAmaro_D.pdf: 6055350 bytes, checksum: 1a68f5859f41b323f9f1c778635b4ab2 (MD5) Previous issue date: 2003 / Resumo: Este trabalho apresenta alguns resultados dos estudos de Circuitos Evolutivos aplicados na área de projeto de síntese de circuitos e reconhecimento de voz. O Circuito Evolutivo é capaz de mudar suas conexões internas, usando técnicas de aprendizagem genética, adaptando sua própria funcionalidade a mudanças de condições externas. Esta técnica tornou-se possível, pelo aperfeiçoamento dos dispositivos eletrônicos como os Dispositivos Lógicos Programáveis. Nos dias atuais é possível ter em um único dispositivo a habilidade de mudar, on-line e em tempo real, parte de seu próprio circuito. Este trabalho tem como objetivo, desenvolver uma arquitetura reconfigurável para um sistema que é capaz de receber comandos de voz para executar tarefas especiais como por exemplo, ajuda a pessoas com alguma deficiência física em sua rotina diária. A idéia é coletar várias amostras de fala, processá-las através de algoritmos baseados na teoria Mel - Cepstrais, visando obter coeficientes numéricos para representar cada amostra. Estes coeficientes compõem o universo de busca que é usado pelo algoritmo genético. Os padrões considerados são limitados aos sete fonemas vogais da língua portuguesa (a, eh, e, i, oh, o, u ) / Abstract: This work presents some results of the application¿s study of Evolvable Hardware (EHW) in the area of circuits design and voice recognition. Evolvable Hardware is able to change inner connections, using genetic learning techniques, adapting its own functionality to external condition changing. This technique became feasible by the improvement of electronics devices as the Programmable Logic Devices. Nowadays, it is possible to have, in a single device, the ability to change, on-line and in real-time, part of its own circuit. This work aim to develop a reconfigurable architecture of a system that is able to receive voice commands to execute special tasks as, for instance, to help handicapped persons in their daily home routines. The idea is to collect several voice samples, process them through algorithms based on Mel - Ceptrais theory to obtain their numerical coefficients for each sample. These coefficients compose a universe of search that is used by Genetic Algorithm. The voice patterns considered, are limited to the seven sustained portuguese vowel phonemes (a, eh, e, i, oh, o, u) / Doutorado / Automação / Doutor em Engenharia Elétrica
25

Adaptação de locutor em sistema de reconhecimento de fala continua empregando ¿Eigenvoices¿

Sousa, Livio Carvalho 24 September 2004 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-04T00:34:40Z (GMT). No. of bitstreams: 1 Sousa_LivioCarvalho_M.pdf: 871098 bytes, checksum: 153f38e7d25defc4147ff0417e22add1 (MD5) Previous issue date: 2004 / Resumo: Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o português do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori'') e MLLR ("Maximum Likelihood Linear Regression''), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition'') foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área / Abstract: In this work a research was made in order to evaluate the use of the eigenvoice technique (13) (16) (17) (18) (30) (31) to speaker adaptation on a continuous speech recognition system. Amongst the severa! speaker adaptation techniques, like the classical MAP and MLLR, a new technique, called eigenvoice technique, was proposed by Kuhn for fast speaker adaptation in real time applications. Firstly, researches were made just on isolated words applications, and nowadays they are focused on continuous speech applications, like this work. The main feature of the eigenvoice technique is the representation of the new speaker by a linear combination of parameters (eigenvoices) extracted from speaker dependent models previously trained. The new speaker is represented by a point in a space whose axis are the eigenvoices. The Maximum Likelihood Eigen Decomposition (MLED) algorithm was used to calculate the combination coefficients in order to estimate the parameters of the new speaker. After tests varying the number of adaptation sentences and algorithm iterations, it was verified that: for a good adaptation performance, 3 to 5 algorithm iterations are necessary; the number of adaptation sentences is not very important, the more important is the adaptation sentences phonetic contento In conclusion, the eigenvoice technique showed to be efficient for the application on continuous speech, however more studies must be made in the area / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
26

Sistema de reconhecimento de fala baseado em redes neurais artificiais

Runstein, Fernando Oscar 10 September 1998 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T14:15:07Z (GMT). No. of bitstreams: 1 Runstein_FernandoOscar_D.pdf: 12230122 bytes, checksum: c881b8dbd3ee58b6586540e4f1df16f3 (MD5) Previous issue date: 1998 / Resumo: Neste trabalho são comparadas diferentes configurações de redes neurais, diversos tipos de análise do sinal de voz e diferentes parâmetros de entrada da rede neural, com o objetivo de defInir o melhor sistema de reconhecimento de fala para palavras isoladas, independente do locutor e baseado em redes neurais artifIciais. Um dos problemas abordados é o das redes neurais terem um número fixo de entradas enquanto as palavras a reconhecer terem durações diferentes. Duas soluções são propostas para resolver este problema: dizimação/interpolação de quadros analisando as palavras com quadros de duração fixa dizimação/interpolação de quadros usando análise síncrona com o pitch. Ambos métodos apresentaram melhores resultados que os usualmente utilizados. Também é proposto um novo método de adaptação do sistema de reconhecimento de fala às características espectrais da voz do locutor, de forma a melhorar os índices de reconhecimento do sistema. Com este método conseguiu-se diminuir as taxas de erro em até 18%. Os sistemas foram avaliados com sinais ruidosos e sem ruído. Em testes independentes do locutor realizados com vocabulários de 10 a 32 palavras, obtiveram-se taxas de acerto superiores a 96% / Abstract: In this work we compared different neural network configurations, different speech analysis procedures and different neural net input parameters. The goal was to defme the best isolated word, speaker independent, speech recognition system based on artificialneural networks. One of the problems we worked on was how to deal with different word duration and fixed number of inputs of a neural network. Two solutions are proposed to solve this problem. One of hem, pitch-synchronous analysis, is new in speech recognition and produced very good results. It is also proposed in this work, a new method to adapt the speech recognition system to the spectral characteristics of the speaker's speech, in order to improve the recognition rate. With this method we diminished the error rates up to 18%. The systems were assessed with noise and noiseless signals. On speaker independent tests with 10 to 32 word vocabularies, we obtained word recognition rates better than 96% / Doutorado / Doutor em Engenharia Elétrica
27

Reconhecimento de fala continua usando modelos ocultos de Markov

Ynoguti, Carlos Alberto 28 May 1999 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T10:08:22Z (GMT). No. of bitstreams: 1 Ynoguti_CarlosAlberto_D.pdf: 7314962 bytes, checksum: e671f81f57f14d9fcfed0bb6df9699ee (MD5) Previous issue date: 1999 / Resumo: Nos sistemas que constituem o estado da arte na área de reconhecimento de fala predominam os modelos estatísticos, notadamente aqueles baseados em Modelos Ocultos de Markov (Hidden Markov Models, HMM) Os HMM¿s são estruturas poderosas pois são capazes de modelar ao mesmo tempo as variabilidades acústicas e temporais do sinal de voz. Métodos estatísticos são extremamente vorazes quando se trata de dados de treinamento. Deste modo, nos sistemas de reconhecimento de fala contínua e vocabulário extenso, as palavras são geralmente modeladas a partir da concatenação de sub-unidades fonéticas, pois o número destas é bem menor do que o de palavras, e em uma locução geralmente existem vários exemplos de sub-unidades fonéticas. O reconhecimento de fala contínua difere do de palavras isoladas, pois neste o locutor não precisa fazer pausas entre as palavras. Deste modo, a determinação das fronteiras entre as palavras e do número destas na locução deve ser feita pelo sistema de reconhecimento. Para isto são utilizados os algoritmos de busca, que podem ter ainda modelos de duração e de linguagem incorporados. O objetivo deste trabalho é estudar o problema de reconhecimento de fala contínua, com independência de locutor e vocabulário médio (aproximadamente 700 palavras) utilizando HMM¿s... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: In the field of continuous speech recognition, current state of art systems make use of statistical methods, mainly those based on Hidden Markov Models (HMM). HMM are powerful due to their ability to model both the acoustic and temporal features of speech signals. Statistical methods require lots of training samples. For this reason, large vocabulary, continuous speech recognition systems use word models composed by concatenating subunit models. In this approach there are much fewer subunits than words, and many samples of them in a single utterance. The main difference between continuous speech recognition and isolated words speech recognition is basically in the way that users interact with the system. In isolated words speech recognition, the user needs to make short pauses between works, which is not required for continuous speech recognition systems. The determination of word boundaries, and consequently the number of words in the utterance, take a part of the recognition process in continuous speech recognition systems. For this task searching algorithms are used, and they can also incorporate word duration and language models. The purpose of this work is to study the problem of speaker independent, medium-size vocabulary (about 700 words), continuous speech recognition using HMM¿s... Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica
28

Segmentação automatica e treinamento discriminativo aplicados a um sistema de reconhecimento de digitos conectados

Figueiredo, Fabricio Lira 17 December 1999 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-26T00:16:55Z (GMT). No. of bitstreams: 1 Figueiredo_FabricioLira_M.pdf: 8181706 bytes, checksum: 4b3db6624620a5cb43cd1b3304195637 (MD5) Previous issue date: 1999 / Resumo: Os Modelos Ocultos de Markov constituem, atualmente, a principal abordagem para o problema de Reconhecimento de Fala, pois proporcionam bom desempenho e alto grau de flexibilidade. Infelizmente, este modelo acústico não é ideal e alguns problemas afetam sua robustez e desempenho em condições adversas. A inconsistência do modelamento temporal implícito nos HMM's é um exemplo de um sério problema sem soluções bem definidas. De fato, o Modelo de Duração de Estados com distribuição exponencial é incompatível com o comportamento estatístico das unidades lingüísticas reais. A hipótese de independência entre observações representa outra limitação dos HMM's, já que não se verifica nos experimentos práticos. De fato, existe forte dependência contextual no caso de quadros pertencentes a regiões de transição entre unidades acústicas de uma elocução. Alguns modelos e algoritmos têm sido propostos para tentar transpor estes obstáculos, tais como Modelos Segmentais e Duração Explícita de Estados. Nesta tese, uma estratégia alternativa é proposta para atenuar estes problemas, sem acréscimos significativos no custo computacional. A informação relativa às transições entre fones, ao longo de uma elocução, é obtida através de métodos de segmentação automática. Realiza-se uma ponderação no algoritmo de Viterbi, a fim de penalizar os modelos que gerarem segmentações inconsistentes. Bons resultados são obtidos, para várias condições relacionadas a uma aplicação de Dígitos Conectados. O objetivo atual é aplicar esta técnica para o caso de vocabulários extensos / Abstract: Hidden Markov Model is actually the main approach to Speech Recognition problem, because of the good performance and high degree of flexibility that can be achieved. Unfortunately, this acoustical modeling is not optimum and some problems still affect it's robustness and performance in a more realistic condition. The weakness of the temporal modeling embedded in HMM is an example of a serious problem without well defined solutions. In fact, the implicit state duration model with exponential distribution may not describe the real linguistic units distributions. The hypothesis of independence between observations is other difficult problem to solve and it is incompatible with practical experiments because there is strong correlation between frames in the same acoustic segment. Some models and algorithms have been proposed to overcome or, at lest, attenuate those problems, such as Stochastic Segment Models and Explicit State Duration. This thesis presents an alternative approach to alleviate these problems, with relatively low computational cost. The information on phoneme boundaries in time is obtained through an Automatic segmentation algorithm and it is used in a Weighted Viterbi Algorithm in order to penalize the, models that generates inconsistent segmentations. Good results were achieved for various conditions related to connected digits application. The actual objective is to expand it to continuous speech recognition / Mestrado / Mestre em Engenharia Elétrica
29

Metodo para a determinação do numero de gaussianas em modelos ocultos de Markov para sistemas de reconhecimento de fala continua / A new method for determining the number of gaussians in hidden Markov models for continuos speech recognition systems

Yared, Glauco Ferreira Gazel 20 April 2006 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T10:44:21Z (GMT). No. of bitstreams: 1 Yared_GlaucoFerreiraGazel_D.pdf: 5774867 bytes, checksum: 49a79d9495ce25c8a69ca34858a956ee (MD5) Previous issue date: 2006 / Resumo: Atualmente os sistemas de reconhecimento de fala baseados em HMMs são utilizados em diversas aplicações em tempo real, desde telefones celulares até automóveis. Nesse contexto, um aspecto importante que deve ser considerado é a complexidade dos HMMs, a qual está diretamente relacionada com o custo computacional. Assim, no intuito de permitir a aplicação prática do sistema, é interessante otimizar a complexidade dos HMMs, impondo-se restrições em relação ao desempenho no reconhecimento. Além disso, a otimização da topologia é importante para uma estimação confiável dos parâmetros dos HMMs. Os trabalhos anteriores nesta área utilizam medidas de verossimilhança para a obtenção de sistemas que apresentem um melhor compromisso entre resolução acústica e robustez. Este trabalho apresenta o novo Algoritmo para Eliminação de Gaussianas (GEA), o qual é baseado em uma análise discriminativa e em uma análise interna, para a determinação da complexidade mais apropriada para os HMMs. O novo método é comparado com o Critério de Informação Bayesiano (BIC), com um método baseado em medidas de entropia, com um método discriminativo para o aumento da resolução acústica dos modelos e com os sistemas contendo um número fixo de Gaussianas por estado / Abstract: Nowadays, HMM-based speech recognition systems are used in many real time processing applications, from cell phones to auto mobile automation. In this context, one important aspect to be considered is the HMM complexity, which directly determines the system computational load. So, in order to make the system feasible for practical purposes, it is interesting to optimize the HMM size constrained to a minimum acceptable recognition performance. Furthermore, topology optimization is also important for reliable parameter estimation. Previous works in this area have used likelihood measures in order to obtain models with a better compromise between acoustic resolution and robustness. This work presents the new Gaussian Elimination Algorithm (GEA), which is based on a discriminative analysis and on an internal analysis, for determining the more suitable HMM complexity. The new approach is compared to the classical Bayesian Information Criterion (BIC), to an entropy based method, to a discriminative-based method for increasing the acoustic resolution of the HMMs and also to systems containing a fixed number of Gaussians per state / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica
30

Reconhecimento Automático de Aves da Família Tinamidae Através da Vocalização

CONCEIÇÃO, Paulo Francisco da 11 April 2012 (has links)
Made available in DSpace on 2014-07-29T15:08:19Z (GMT). No. of bitstreams: 1 Reconhecimento automatico tinamidae.pdf: 1584398 bytes, checksum: 2f87f01e251266076588ff37c7d6322f (MD5) Previous issue date: 2012-04-11 / This work presents a comprehensive approach to develop a system for recognizing birds by vocalization. The approach specifically addresses the recognition of birds of the Tinamidae family proposing the analysis of data related to the frequency and song of the bird and also classifying and determining the species of bird. The study differs from related research primarily for performing the pre-processing stage automatically. This stage determines the following characteristics: the minimum, the maximum and the stronger frequencies. It s still made a segmentation of the bird singing in periods of sound and silence. The time of singing is also used as a characteristic peculiar to each species analyzed. For the automatic determination of the characteristics of the frequency and song of the bird, an analysis of the power spectral density was made for each time period specified in the frequency using the spectrogram of the song. The recognition and classification technique adopted was the nearest neighbor, using Euclidean distance normalized by the standard deviation. The accuracy of the technique used was 94.12%. / O presente trabalho apresenta uma abordagem completa para o desenvolvimento de um sistema de reconhecimento de aves através da vocalização. A abordagem trata especificamente do reconhecimento de aves da família Tinamidae, propondo analisar dados relacionados à frequência e canto da ave, classificando e determinando a espécie da ave. O estudo feito diferencia-se das pesquisas correlatas principalmente por realizar a etapa de pré-processamento de maneira automática, determinando nesta fase as características de frequência mínima, máxima e mais intensa. Ainda é feita uma segmentação do canto da ave, dividindo o mesmo em períodos de som e silêncio, sendo o tempo de canto também usado como característica peculiar de cada espécie analisada. Para a determinação das características de frequência e canto da ave de maneira automática foi feita uma análise da densidade espectral de potência para cada período de tempo especificado em relação à frequência, utilizando para isso o espectrograma do canto. A técnica de classificação e reconhecimento adotada foi a do vizinho mais próximo, aplicando a distância Euclidiana normalizada pelo desvio padrão. A acurácia da técnica utilizada foi de 94,12%.

Page generated in 0.074 seconds