• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 39
  • Tagged with
  • 39
  • 39
  • 39
  • 19
  • 17
  • 14
  • 14
  • 14
  • 11
  • 10
  • 10
  • 10
  • 10
  • 9
  • 9
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Transcrição em tempo real de textos utilizando um dicionário fonético

Gilza Paim Mandelman 03 September 2011 (has links)
In the quest to develop a technique which facilitates the process of automatic speech recognition for transcription real-time text using a phonetic dictionary, this work adopts a proposal nicknamed brazilês plus the use of syllables in the transcription process seeking possible imporvements to the automation especially in systems focused on accessibility, or even in helping to interactivity. There was the degree of improvement with the use of our technique especially in the response of the interactive process, decreasing the number of programmable routines, in their own interpretation of syllables using the portuguese spoken in Brazil and the degree of ease in the processes that enable accessibility. Thus, this work allows adjustment of the portuguese languge for use in computer systems, using natural language and presenting a proposal for a simplified routine for use in voice recognition software, improving the current routines that use neural networks from the other methods that produce the proposed interaction. To show the advantages of this technique was in-depth study of the proposed brazilês and set up the basic idea of seeking proposals for simplification, studying of automatic voice recognition (AVR), also developing a program that displays the formation of syllables of the portuguese language and analysis of the spelling of phonemes in the two encodings of the written language, portuguese and brazilês. / Na busca de desenvolver uma técnica facilitadora do processo de reconhecimento automático da voz para transcrição em tempo real de textos utilizando um dicionário fonético, este trabalho adotou uma proposta cognominada brazilês somada a utilização de silabas neste processo de transcrição buscando as possíveis melhorias para área de automação, especialmente em sistemas voltados à acessibilidade, ou mesmo no auxílio à interatividade. Verificou-se o grau de melhora com a utilização da técnica apresentada especialmente na resposta do processo interativo, na diminuição do número de rotinas programáveis, na própria interpretação das sílabas utilizando o português falado no Brasil, somado ao grau de facilidade que possibilitará nos processos de acessibilidade. Assim sendo, este trabalho possibilita adequação da língua portuguesa para uso em sistemas computacionais, utilizando a linguagem natural e apresentando uma proposta de rotina simplificada para ser utilizada em softwares de reconhecimento de voz, melhorando as rotinas atuais que usam desde redes neurais a outros métodos que produzam a interação esperada. Para comprovar as vantagens desta técnica houve estudo aprofundado da proposta brazilês e definiu-se proposições buscando a idéia básica de simplificação, estudando as formas de reconhecimento automático de voz (RAV), desenvolvendo também, um programa que apresenta a formação de sílabas da língua portuguesa e análise da grafia de fonemas nas duas codificações da língua escrita, o português e o brazilês.
22

Estudos de circuitos evolutivos aplicados ao reconhecimento de voz

Mantovani, Suely Cunha Amaro 03 August 2018 (has links)
Orientador: Jose Raimundo de Oliveira / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-03T21:42:52Z (GMT). No. of bitstreams: 1 Mantovani_SuelyCunhaAmaro_D.pdf: 6055350 bytes, checksum: 1a68f5859f41b323f9f1c778635b4ab2 (MD5) Previous issue date: 2003 / Resumo: Este trabalho apresenta alguns resultados dos estudos de Circuitos Evolutivos aplicados na área de projeto de síntese de circuitos e reconhecimento de voz. O Circuito Evolutivo é capaz de mudar suas conexões internas, usando técnicas de aprendizagem genética, adaptando sua própria funcionalidade a mudanças de condições externas. Esta técnica tornou-se possível, pelo aperfeiçoamento dos dispositivos eletrônicos como os Dispositivos Lógicos Programáveis. Nos dias atuais é possível ter em um único dispositivo a habilidade de mudar, on-line e em tempo real, parte de seu próprio circuito. Este trabalho tem como objetivo, desenvolver uma arquitetura reconfigurável para um sistema que é capaz de receber comandos de voz para executar tarefas especiais como por exemplo, ajuda a pessoas com alguma deficiência física em sua rotina diária. A idéia é coletar várias amostras de fala, processá-las através de algoritmos baseados na teoria Mel - Cepstrais, visando obter coeficientes numéricos para representar cada amostra. Estes coeficientes compõem o universo de busca que é usado pelo algoritmo genético. Os padrões considerados são limitados aos sete fonemas vogais da língua portuguesa (a, eh, e, i, oh, o, u ) / Abstract: This work presents some results of the application¿s study of Evolvable Hardware (EHW) in the area of circuits design and voice recognition. Evolvable Hardware is able to change inner connections, using genetic learning techniques, adapting its own functionality to external condition changing. This technique became feasible by the improvement of electronics devices as the Programmable Logic Devices. Nowadays, it is possible to have, in a single device, the ability to change, on-line and in real-time, part of its own circuit. This work aim to develop a reconfigurable architecture of a system that is able to receive voice commands to execute special tasks as, for instance, to help handicapped persons in their daily home routines. The idea is to collect several voice samples, process them through algorithms based on Mel - Ceptrais theory to obtain their numerical coefficients for each sample. These coefficients compose a universe of search that is used by Genetic Algorithm. The voice patterns considered, are limited to the seven sustained portuguese vowel phonemes (a, eh, e, i, oh, o, u) / Doutorado / Automação / Doutor em Engenharia Elétrica
23

Adaptação de locutor em sistema de reconhecimento de fala continua empregando ¿Eigenvoices¿

Sousa, Livio Carvalho 24 September 2004 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-04T00:34:40Z (GMT). No. of bitstreams: 1 Sousa_LivioCarvalho_M.pdf: 871098 bytes, checksum: 153f38e7d25defc4147ff0417e22add1 (MD5) Previous issue date: 2004 / Resumo: Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o português do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori'') e MLLR ("Maximum Likelihood Linear Regression''), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition'') foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área / Abstract: In this work a research was made in order to evaluate the use of the eigenvoice technique (13) (16) (17) (18) (30) (31) to speaker adaptation on a continuous speech recognition system. Amongst the severa! speaker adaptation techniques, like the classical MAP and MLLR, a new technique, called eigenvoice technique, was proposed by Kuhn for fast speaker adaptation in real time applications. Firstly, researches were made just on isolated words applications, and nowadays they are focused on continuous speech applications, like this work. The main feature of the eigenvoice technique is the representation of the new speaker by a linear combination of parameters (eigenvoices) extracted from speaker dependent models previously trained. The new speaker is represented by a point in a space whose axis are the eigenvoices. The Maximum Likelihood Eigen Decomposition (MLED) algorithm was used to calculate the combination coefficients in order to estimate the parameters of the new speaker. After tests varying the number of adaptation sentences and algorithm iterations, it was verified that: for a good adaptation performance, 3 to 5 algorithm iterations are necessary; the number of adaptation sentences is not very important, the more important is the adaptation sentences phonetic contento In conclusion, the eigenvoice technique showed to be efficient for the application on continuous speech, however more studies must be made in the area / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
24

Sistema de reconhecimento de fala baseado em redes neurais artificiais

Runstein, Fernando Oscar 10 September 1998 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-24T14:15:07Z (GMT). No. of bitstreams: 1 Runstein_FernandoOscar_D.pdf: 12230122 bytes, checksum: c881b8dbd3ee58b6586540e4f1df16f3 (MD5) Previous issue date: 1998 / Resumo: Neste trabalho são comparadas diferentes configurações de redes neurais, diversos tipos de análise do sinal de voz e diferentes parâmetros de entrada da rede neural, com o objetivo de defInir o melhor sistema de reconhecimento de fala para palavras isoladas, independente do locutor e baseado em redes neurais artifIciais. Um dos problemas abordados é o das redes neurais terem um número fixo de entradas enquanto as palavras a reconhecer terem durações diferentes. Duas soluções são propostas para resolver este problema: dizimação/interpolação de quadros analisando as palavras com quadros de duração fixa dizimação/interpolação de quadros usando análise síncrona com o pitch. Ambos métodos apresentaram melhores resultados que os usualmente utilizados. Também é proposto um novo método de adaptação do sistema de reconhecimento de fala às características espectrais da voz do locutor, de forma a melhorar os índices de reconhecimento do sistema. Com este método conseguiu-se diminuir as taxas de erro em até 18%. Os sistemas foram avaliados com sinais ruidosos e sem ruído. Em testes independentes do locutor realizados com vocabulários de 10 a 32 palavras, obtiveram-se taxas de acerto superiores a 96% / Abstract: In this work we compared different neural network configurations, different speech analysis procedures and different neural net input parameters. The goal was to defme the best isolated word, speaker independent, speech recognition system based on artificialneural networks. One of the problems we worked on was how to deal with different word duration and fixed number of inputs of a neural network. Two solutions are proposed to solve this problem. One of hem, pitch-synchronous analysis, is new in speech recognition and produced very good results. It is also proposed in this work, a new method to adapt the speech recognition system to the spectral characteristics of the speaker's speech, in order to improve the recognition rate. With this method we diminished the error rates up to 18%. The systems were assessed with noise and noiseless signals. On speaker independent tests with 10 to 32 word vocabularies, we obtained word recognition rates better than 96% / Doutorado / Doutor em Engenharia Elétrica
25

Reconhecimento de fala continua usando modelos ocultos de Markov

Ynoguti, Carlos Alberto 28 May 1999 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T10:08:22Z (GMT). No. of bitstreams: 1 Ynoguti_CarlosAlberto_D.pdf: 7314962 bytes, checksum: e671f81f57f14d9fcfed0bb6df9699ee (MD5) Previous issue date: 1999 / Resumo: Nos sistemas que constituem o estado da arte na área de reconhecimento de fala predominam os modelos estatísticos, notadamente aqueles baseados em Modelos Ocultos de Markov (Hidden Markov Models, HMM) Os HMM¿s são estruturas poderosas pois são capazes de modelar ao mesmo tempo as variabilidades acústicas e temporais do sinal de voz. Métodos estatísticos são extremamente vorazes quando se trata de dados de treinamento. Deste modo, nos sistemas de reconhecimento de fala contínua e vocabulário extenso, as palavras são geralmente modeladas a partir da concatenação de sub-unidades fonéticas, pois o número destas é bem menor do que o de palavras, e em uma locução geralmente existem vários exemplos de sub-unidades fonéticas. O reconhecimento de fala contínua difere do de palavras isoladas, pois neste o locutor não precisa fazer pausas entre as palavras. Deste modo, a determinação das fronteiras entre as palavras e do número destas na locução deve ser feita pelo sistema de reconhecimento. Para isto são utilizados os algoritmos de busca, que podem ter ainda modelos de duração e de linguagem incorporados. O objetivo deste trabalho é estudar o problema de reconhecimento de fala contínua, com independência de locutor e vocabulário médio (aproximadamente 700 palavras) utilizando HMM¿s... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: In the field of continuous speech recognition, current state of art systems make use of statistical methods, mainly those based on Hidden Markov Models (HMM). HMM are powerful due to their ability to model both the acoustic and temporal features of speech signals. Statistical methods require lots of training samples. For this reason, large vocabulary, continuous speech recognition systems use word models composed by concatenating subunit models. In this approach there are much fewer subunits than words, and many samples of them in a single utterance. The main difference between continuous speech recognition and isolated words speech recognition is basically in the way that users interact with the system. In isolated words speech recognition, the user needs to make short pauses between works, which is not required for continuous speech recognition systems. The determination of word boundaries, and consequently the number of words in the utterance, take a part of the recognition process in continuous speech recognition systems. For this task searching algorithms are used, and they can also incorporate word duration and language models. The purpose of this work is to study the problem of speaker independent, medium-size vocabulary (about 700 words), continuous speech recognition using HMM¿s... Note: The complete abstract is available with the full electronic digital thesis or dissertations / Doutorado / Doutor em Engenharia Elétrica
26

Segmentação automatica e treinamento discriminativo aplicados a um sistema de reconhecimento de digitos conectados

Figueiredo, Fabricio Lira 17 December 1999 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-26T00:16:55Z (GMT). No. of bitstreams: 1 Figueiredo_FabricioLira_M.pdf: 8181706 bytes, checksum: 4b3db6624620a5cb43cd1b3304195637 (MD5) Previous issue date: 1999 / Resumo: Os Modelos Ocultos de Markov constituem, atualmente, a principal abordagem para o problema de Reconhecimento de Fala, pois proporcionam bom desempenho e alto grau de flexibilidade. Infelizmente, este modelo acústico não é ideal e alguns problemas afetam sua robustez e desempenho em condições adversas. A inconsistência do modelamento temporal implícito nos HMM's é um exemplo de um sério problema sem soluções bem definidas. De fato, o Modelo de Duração de Estados com distribuição exponencial é incompatível com o comportamento estatístico das unidades lingüísticas reais. A hipótese de independência entre observações representa outra limitação dos HMM's, já que não se verifica nos experimentos práticos. De fato, existe forte dependência contextual no caso de quadros pertencentes a regiões de transição entre unidades acústicas de uma elocução. Alguns modelos e algoritmos têm sido propostos para tentar transpor estes obstáculos, tais como Modelos Segmentais e Duração Explícita de Estados. Nesta tese, uma estratégia alternativa é proposta para atenuar estes problemas, sem acréscimos significativos no custo computacional. A informação relativa às transições entre fones, ao longo de uma elocução, é obtida através de métodos de segmentação automática. Realiza-se uma ponderação no algoritmo de Viterbi, a fim de penalizar os modelos que gerarem segmentações inconsistentes. Bons resultados são obtidos, para várias condições relacionadas a uma aplicação de Dígitos Conectados. O objetivo atual é aplicar esta técnica para o caso de vocabulários extensos / Abstract: Hidden Markov Model is actually the main approach to Speech Recognition problem, because of the good performance and high degree of flexibility that can be achieved. Unfortunately, this acoustical modeling is not optimum and some problems still affect it's robustness and performance in a more realistic condition. The weakness of the temporal modeling embedded in HMM is an example of a serious problem without well defined solutions. In fact, the implicit state duration model with exponential distribution may not describe the real linguistic units distributions. The hypothesis of independence between observations is other difficult problem to solve and it is incompatible with practical experiments because there is strong correlation between frames in the same acoustic segment. Some models and algorithms have been proposed to overcome or, at lest, attenuate those problems, such as Stochastic Segment Models and Explicit State Duration. This thesis presents an alternative approach to alleviate these problems, with relatively low computational cost. The information on phoneme boundaries in time is obtained through an Automatic segmentation algorithm and it is used in a Weighted Viterbi Algorithm in order to penalize the, models that generates inconsistent segmentations. Good results were achieved for various conditions related to connected digits application. The actual objective is to expand it to continuous speech recognition / Mestrado / Mestre em Engenharia Elétrica
27

Metodo para a determinação do numero de gaussianas em modelos ocultos de Markov para sistemas de reconhecimento de fala continua / A new method for determining the number of gaussians in hidden Markov models for continuos speech recognition systems

Yared, Glauco Ferreira Gazel 20 April 2006 (has links)
Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T10:44:21Z (GMT). No. of bitstreams: 1 Yared_GlaucoFerreiraGazel_D.pdf: 5774867 bytes, checksum: 49a79d9495ce25c8a69ca34858a956ee (MD5) Previous issue date: 2006 / Resumo: Atualmente os sistemas de reconhecimento de fala baseados em HMMs são utilizados em diversas aplicações em tempo real, desde telefones celulares até automóveis. Nesse contexto, um aspecto importante que deve ser considerado é a complexidade dos HMMs, a qual está diretamente relacionada com o custo computacional. Assim, no intuito de permitir a aplicação prática do sistema, é interessante otimizar a complexidade dos HMMs, impondo-se restrições em relação ao desempenho no reconhecimento. Além disso, a otimização da topologia é importante para uma estimação confiável dos parâmetros dos HMMs. Os trabalhos anteriores nesta área utilizam medidas de verossimilhança para a obtenção de sistemas que apresentem um melhor compromisso entre resolução acústica e robustez. Este trabalho apresenta o novo Algoritmo para Eliminação de Gaussianas (GEA), o qual é baseado em uma análise discriminativa e em uma análise interna, para a determinação da complexidade mais apropriada para os HMMs. O novo método é comparado com o Critério de Informação Bayesiano (BIC), com um método baseado em medidas de entropia, com um método discriminativo para o aumento da resolução acústica dos modelos e com os sistemas contendo um número fixo de Gaussianas por estado / Abstract: Nowadays, HMM-based speech recognition systems are used in many real time processing applications, from cell phones to auto mobile automation. In this context, one important aspect to be considered is the HMM complexity, which directly determines the system computational load. So, in order to make the system feasible for practical purposes, it is interesting to optimize the HMM size constrained to a minimum acceptable recognition performance. Furthermore, topology optimization is also important for reliable parameter estimation. Previous works in this area have used likelihood measures in order to obtain models with a better compromise between acoustic resolution and robustness. This work presents the new Gaussian Elimination Algorithm (GEA), which is based on a discriminative analysis and on an internal analysis, for determining the more suitable HMM complexity. The new approach is compared to the classical Bayesian Information Criterion (BIC), to an entropy based method, to a discriminative-based method for increasing the acoustic resolution of the HMMs and also to systems containing a fixed number of Gaussians per state / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica
28

Uso de parâmetros multifractais no reconhecimento de locutor / Use of multifractal parameters for speaker recognition

González González, Diana Cristina, 1984- 19 August 2018 (has links)
Orientadores: Lee Luan Ling, Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-19T05:40:32Z (GMT). No. of bitstreams: 1 GonzalezGonzalez_DianaCristina_M.pdf: 2589944 bytes, checksum: ddbbbef6076eb402f4abe638ebcd232b (MD5) Previous issue date: 2011 / Resumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutor / Abstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition system / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica
29

Avanços em reconhecimento de fala para português brasileiro e aplicações: ditado no libreoffice e unidade de resposta audível com asterisk

BATISTA, Pedro dos Santos 04 March 2013 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2013-08-22T12:06:57Z No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-08-23T15:23:15Z (GMT) No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2013-08-23T15:23:15Z (GMT). No. of bitstreams: 2 Dissertacao_AvancosReconhecimentoFala.pdf: 830021 bytes, checksum: 66c2281f39ceb40eff9897cfe4299857 (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2013 / O reconhecimento automático de voz vem sendo cada vez mais útil e possível. Quando se trata de línguas como a Inglesa, encontram-se no mercado excelentes reconhecedores. Porem, a situação não e a mesma para o Português Brasileiro, onde os principais reconhecedores para ditado em sistemas desktop que já existiram foram descontinuados. A presente dissertação alinha-se com os objetivos do Laboratório de Processamento de Sinais da Universidade Federal do Pará, que é o desenvolvimento de um reconhecedor automático de voz para Português Brasileiro. Mais especificamente, as principais contribuições dessa dissertação são: o desenvolvimento de alguns recursos necessários para a construção de um reconhecedor, tais como: bases de áudio transcrito e API para desenvolvimento de aplicações; e o desenvolvimento de duas aplicações: uma para ditado em sistema desktop e outra para atendimento automático em um call center. O Coruja, sistema desenvolvido no LaPS para reconhecimento de voz em Português Brasileiro. Este alem de conter todos os recursos para fornecer reconhecimento de voz em Português Brasileiro possui uma API para desenvolvimento de aplicativos. O aplicativo desenvolvido para ditado e edição de textos em desktop e o SpeechOO, este possibilita o ditado para a ferramenta Writer do pacote LibreOffice, alem de permitir a edição e formatação de texto com comandos de voz. Outra contribuição deste trabalho e a utilização de reconhecimento automático de voz em call centers, o Coruja foi integrado ao software Asterisk e a principal aplicação desenvolvida foi uma unidade de resposta audível com reconhecimento de voz para o atendimento de um call center nacional que atende mais de 3 mil ligações diárias. / Automatic speech recognition has been increasingly more useful and feasible. When it comes to languages such as English, there are excellent speech recognizers available. However, the situation is not the same for Brazilian Portuguese, where the few recognizers for desktop dictation that existed, are no longer available. This dissertation is aligned with a goal of the Signal Processing Laboratory at the Federal University of Para, which is the development of a complete automatic speech recognizer for Brazilian Portuguese. More specifically, the main contributions of this dissertation are: the development of some resources needed to build a speech recognizer such as transcribed audio database and speech API; and the development of two applications: one for desktop dictation and another for automatic service in a call center. The system developed in-house for automatic speech recognition in Brazilian Portuguese is called Coruja, and besides all the resources that makes automatic speech recognition in Brazilian Portuguese available, the Coruja also contains an API for application development using speech recognition. The application for desktop dictation is called SpeechOO. The SpeechOO enables dictation and text editing and formatting by voice for the LibreOffice Writer. Other contribution of this work is the use of Coruja in call centers. Coruja was integrated with the Asterisk software, which is the main open source software for call centers. The main application developed for automated service in call center was an interactive voice response which is deployed nationally and receives more than 3 thousand daily calls.
30

Estudo do reconhecimento de voz para o acionamento de equipamentos elétricos via comandos em português

Bresolin, Adriano de Andrade 01 August 2003 (has links)
Made available in DSpace on 2016-12-12T17:29:55Z (GMT). No. of bitstreams: 1 Adriano de Andrade Bresolin.pdf: 5155408 bytes, checksum: 11b8c2a49d4c4655d5f5529b4673512e (MD5) Previous issue date: 2003-08-01 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The global world is dropping barriers through the information, began for the commercial and economical barrier, and in a future not very distant we can drop the barriers of the languages, in other words, people speaking in different languages, communicating through prepared digital equipments to translate the different pronounced linguistic expressions instantly for the same ones. This is the horizon to be reached by the voice recognition. In this new universe there would not be more the linguistic barrier among all the people, facilitating the communication and the businesses, simplifying the command of the industrial machines and above all, improving the human being life as a completely. Besides, this tool can facilitate the life of deficient physical. The voice command can have access the infinity of services and employments could help like this to drop the barrier of the prejudice. This study seeks to research, to describe and to apply the concepts and the theory involved in the process of the voice recognition, of this the acquisition to the recognition of the speech signal. The goal is to develop a system that is capable to command any electric equipment through voice commands. The objective of this dissertation is to give a litte step more the in the materialization of a process that was part of the science fiction films in the years 70 and 80 and it can become reality in the begin of the century XXI, "The Speech Recognition by Machines . XII / O mundo globalizado vem derrubando barreiras através da informação. Iniciou-se pelas barreiras comercial e econômica, e num futuro não muito distante poderão ser derrubadas as barreiras dos idiomas, ou seja, pessoas falando em idiomas diferentes, comunicando-se através de equipamentos digitais preparados para traduzir instantaneamente as diferentes expressões lingüísticas pronunciadas pelos mesmos. Esse é o horizonte a ser alcançado pelo reconhecimento de voz. Nesse novo universo não haveria mais a barreira lingüística entre as pessoas, facilitando a comunicação e os negócios, simplificando o comando de máquinas no ambiente industrial e, acima de tudo melhorando a vida do ser humano como um todo. Além disso, esta ferramenta facilitaria a vida de deficientes físicos, à medida que, com o comando de voz os mesmos teriam acesso a uma infinidade de serviços e empregos, podendo assim ajudar a derrubar a barreira do preconceito. Este estudo procura pesquisar, descrever e aplicar os conceitos e a teoria envolvida no processo do reconhecimento de voz, deste a aquisição até o reconhecimento do sinal da fala. A meta é desenvolver um sistema que seja capaz de comandar um equipamento elétrico qualquer através de comandos de voz.

Page generated in 0.1014 seconds