Global ETD Search

11	Otimização dos codificadores VSELP e EFR por refinamento na modelagem autoregressiva Fantini, Irene Heleonora Seda Pinto 27 July 2018 (has links) Orientador : Luis Geraldo Pedroso Meloni / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-27T18:00:38Z (GMT). No. of bitstreams: 1 Fantini_IreneHeleonoraSedaPinto_M.pdf: 422802 bytes, checksum: 2af12bc93454d9bc1a63115a843727ee (MD5) Previous issue date: 2000 / Mestrado Sistemas de processamento da fala Codificador de voz Telefonia celular Filtros adaptativos
12	Implementação de um sistema de conversão texto-fala para o portugues do Brasil Simões, Flavio Olmos 05 December 1999 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T08:07:11Z (GMT). No. of bitstreams: 1 Simoes_FlavioOlmos_M.pdf: 9956793 bytes, checksum: 8d654fa1bd86ed42fb407fa653d24f41 (MD5) Previous issue date: 1999 / Resumo: A síntese de fala a partir de texto é o principal objeto de estudo desse trabalho. As dificuldades principais do processo de conversão texto-fala são colocadas em questão e uma estratégia de implementação de um sistema de conversão texto-fala para o português do Brasil é apresentada. Esse sistema, baseado no método de síntese concatenativa, utiliza um inventário de 2.450 segmentos de fala pré-gravados e é capaz de empregar duas técnicas de síntese distintas: TD-PSOLA e síntese híbrida. A adoção de critérios lingüísticos cuidadosos, principalmente na etapa de transcrição fonética e na elaboração do inventário de unidades constitui o ponto chave deste trabalho. A notação fonética utilizada diferencia dois tipos de segmentos fonéticos (plenos e reduzidos), que se distinguem no grau pelo qual estão sujeitos a fenômenos de coarticulação. O inventário de unidades foi constituído de forma a preservar segmentos reduzidos e encontros vocálicos. No intuito de reduzir o tamanho do inventário, alguns cortes no interior de segmentos reduzidos foram efetuados. Mas uma vez, nesse caso, utilizaram-se critérios lingüísticos cuidadosos, a fim de minimizar descontinuidades espectrais após a concatenação / Abstract: Text-to-speech synthesis is the main subject treated in this work. Most of the difficulties related to this task are discussed, and an implementation of Brazilian Portuguese text-to-speech concatenative synthesis system is presented. The system uses an inventory of 2,450 pre-recorded speech segments, and is able to employ two distinct synthesis techniques: TD-PSOLA and hybrid synthesis. The use of carefully chosen linguistic criteria, mainly during phonetic transcription and also during the creation of the speech segments inventory, is the main contribution of this work. The phonetic notation employed here distinguishes two kinds of phonetic segments (full and reduced), on the basis of the extension of coarticulation phenomena. The main criterion underlying the building of the speech segments inventory was to preserve reduced segments and vowel clusters. Nevertheless, some of the reduced segments were split, aiming at reducing the size of the inventory. Once again, in this case, specific linguistic criteria were employed, in order to minimize spectral discontinuities after concatenation / Mestrado / Mestre em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Interação humano-máquina
13	Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals. Maciel, Rogério Carlos Vieira 14 July 2003 (has links) Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise. digital signal processing processamento de fala processamento de voz processamento digital de sinais redução de ruído speech enhancement voice processing
14	Classificação fonética utilizando Boosting e SVM TEIXEIRA JÚNIOR, Talisman Cláudio de Queiroz 17 February 2006 (has links) Submitted by Irvana Coutinho (irvana@ufpa.br) on 2012-03-07T12:35:04Z No. of bitstreams: 2 Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Irvana Coutinho(irvana@ufpa.br) on 2012-03-07T12:40:11Z (GMT) No. of bitstreams: 2 Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-03-07T12:40:11Z (GMT). No. of bitstreams: 2 Dissertacao_Talisman_Teixeira_Junior ClassificacaoFoneticaBoosting.pdf: 1955727 bytes, checksum: 2174e57105a6d0135a85cb9c47e05a7a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2006 / Para compor um sistema de Reconhecimento Automático de Voz, pode ser utilizada uma tarefa chamada Classificação Fonética, onde a partir de uma amostra de voz decide-se qual fonema foi emitido por um interlocutor. Para facilitar a classificação e realçar as características mais marcantes dos fonemas, normalmente, as amostras de voz são pré- processadas através de um fronl-en'L Um fron:-end, geralmente, extrai um conjunto de parâmetros para cada amostra de voz. Após este processamento, estes parâmetros são insendos em um algoritmo classificador que (já devidamente treinado) procurará decidir qual o fonema emitido. Existe uma tendência de que quanto maior a quantidade de parâmetros utilizados no sistema, melhor será a taxa de acertos na classificação. A contrapartida para esta tendência é o maior custo computacional envolvido. A técnica de Seleção de Parâmetros tem como função mostrar quais os parâmetros mais relevantes (ou mais utilizados) em uma tarefa de classificação, possibilitando, assim, descobrir quais os parâmetros redundantes, que trazem pouca (ou nenhuma) contribuição à tarefa de classificação. A proposta deste trabalho é aplicar o classificador SVM à classificação fonética, utilizando a base de dados TIMIT, e descobrir os parâmetros mais relevantes na classificação, aplicando a técnica Boosting de Seleção de Parâmetros. / With the aim of setting up a Automatic Speech Recognition (ASR) system, a task named Phonetic Classification can be used. That task consists in, from a speech sample, deciding which phoneme was pronounced by a speaker. To ease the classification task and to enhance the most marked characteristics of the phonemes, the speech samples are usually pre-processed by a front-end. A front-end, as a general rule, extracts a set of features to each speech sample. After that, these features are inserted in a classification algorithm, that (already properly trained) will try to decide which phoneme was pronounced. There is a rule of thumb which says that the more features the system uses, the smaller the classification error rate will be. The disadvantage to that is the larger computational cost. Feature Selection task aims to show which are the most relevant (or more used) features in a classification task. Therefore, it is possible to discover which are the redundant features, that make little (or no) contribution to the classification task. The aim of this work is to apply SVM classificator in Phonetic Classification task, using TIMIT database, and discover the most relevant features in this classification using Boosting approach to implement Feature Selection. Classificação fonética Sistema de processamento da fala Fonema SVM
15	Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals. Rogério Carlos Vieira Maciel 14 July 2003 (has links) Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise. processamento de fala processamento de voz processamento digital de sinais redução de ruído digital signal processing speech enhancement voice processing
16	Segmentação consciente da cadeia da fala : uma questão polemica Rodrigues, Heloisa Blasi January 1994 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Comunicação e Expressão / Made available in DSpace on 2012-10-16T08:01:35Z (GMT). No. of bitstreams: 0Bitstream added on 2016-01-08T19:14:50Z : No. of bitstreams: 1 98046.pdf: 11688791 bytes, checksum: 7bfe93658c42b0562099042776140b10 (MD5) / Partindo do princípio inquestionável de que a cadeia da fala é um contínuo, procura-se explicar como o ser humano percebe e segmenta conscientemente as palavras no contínuo da fala. Testa-se a teoria de Câmara Jr. sobre a demarcação de palavras segundo a pauta acentual em português, com diferentes grupos de pessoas, que executam a tarefa diferentemente, de acordo com o seu nível de letramento. Sistemas de processamento da fala Reconhecimento automatico da voz Teses Atos de fala (Linguistica) Teses
17	Compressão de bancos de fala para sistemas de síntese concatenativa de alta qualidade Hentz, Augusto Henrique 24 October 2012 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009. / Made available in DSpace on 2012-10-24T09:05:52Z (GMT). No. of bitstreams: 1 275012.pdf: 1391752 bytes, checksum: f17a2be92485300a2e0eeaa58f4703bf (MD5) / Sistemas de conversão texto-fala baseados na técnica de síntese concatenativa com seleção de unidades são capazes de produzir fala sintética de muito boa qualidade, com inteligibilidade e naturalidade próximas às da fala humana. Para conseguir tal feito, é necessário o uso de bancos de fala contendo exemplos de diversos contextos fonéticos e prosódicos. Freqüentemente, os bancos utilizados em sintetizadores de muito boa quali- dade têm duração de dezenas de horas, tornando sua ocupação de memória muito elevada. Além dos bancos de gravações, sistemas de síntese concatenativa utilizam um conjunto de informações para o cálculo de custos no processo de seleção de unidades, contribuindo para a ocupação de memória. O presente trabalho apresenta técnicas para reduzir a ocupa- ção de memória de sistemas de síntese concatenativa de fala, considerando o sintetizador desenvolvido no LINSE (Laboratório de Circuitos e Processamento de Sinais do Departa- mento de Engenharia Elétrica da UFSC). O banco de gravações do sistema considerado é compactado utilizando o codec iLBC, que proporciona a capacidade de acesso aleatório aos dados codificados, fundamental para a aplicações em síntese de fala concatenativa. O banco de parâmetros, por sua vez, é compactado usando quantização vetorial dos co- eficientes espectrais no processo de seleção de unidades. As técnicas propostas permitem reduzir a ocupação de memória do sistema considerado em até 79 %, sem grandes perdas na qualidade da fala sintética. Engenharia eletrica Fala - Inteligibilidade Reconhecimento automatico da voz Sintese da voz Sistemas de processamento da fala
18	Técnicas de processamento de sinais para alteração de parâmetros prosódicos aplicadas a um sistema de conversão texto-fala para a lingua portuguesa falada no Brasil Pacheco, Fernando Santana January 2001 (has links) Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico. Programa de Pós-Graduação em Engenharia Elétrica. / Made available in DSpace on 2012-10-18T14:32:01Z (GMT). No. of bitstreams: 0 / Sistemas de conversão texto-fala têm como objetivo a transformação de um texto com vocabulário irrestrito em uma mensagem falada. Esse processo consiste de duas etapas básicas. Na primeira, técnicas de processamento lingüístico realizam a extração de uma representação simbólica dos parâmetros acústicos a partir do texto de entrada. A representação simbólica é transformada em sinal de fala através de técnicas de processamento de sinais. Um dos métodos de síntese de fala é o de concatenação de segmentos de fala previamente gravados. No entanto, para conferir maior naturalidade à fala sintetizada, faz-se necessário alterar de forma dinâmica os parâmetros prosódicos (pitch, duração e energia) dos segmentos durante a operação de síntese. O presente trabalho apresenta o desenvolvimento de uma técnica baseada em análise/ressíntese LPC com excitação residual para alteração de parâmetros prosódicos. O objetivo é aplicá-la a um sistema de conversão texto-fala baseado em síntese concatenativa para a língua portuguesa falada no Brasil. Nesta técnica, simples operações de cópia e corte são realizadas no sinal de resíduo, permitindo a alteração do pitch. A alteração da duração é efetuada eliminando ou copiando quadros inteiros de análise. Essa técnica apresenta uma carga computacional reduzida, possibilitando a implementação em tempo real. Análises objetivas e testes perceptuais preliminares mostraram um bom desempenho da técnica. Engenharia eletrica Processamento de sinais Reconhecimento automatico da voz Reconhecimento de padrOes Fala - Inteligibilidade Sistemas de processamento da fala Sintese da voz
19	Estimativas de Comportamento Vocálico de Locutores e Um Novo Sistema de Separação Silábica Silva, Elda Lizandra Fernandes da 28 May 2012 (has links) Submitted by Eduarda Figueiredo (eduarda.ffigueiredo@ufpe.br) on 2015-03-06T14:03:59Z No. of bitstreams: 2 Dissertacao_Elda.pdf: 8023121 bytes, checksum: 4f0cbf2e2826229912c86465beff3283 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-06T14:03:59Z (GMT). No. of bitstreams: 2 Dissertacao_Elda.pdf: 8023121 bytes, checksum: 4f0cbf2e2826229912c86465beff3283 (MD5) license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) Previous issue date: 2012-05-28 / CNPq / Nesta dissertação um método simples para a estimação automática do comportamento espectral de trechos vocálicos de locutores é proposto. Uma implementação computacional em Matlab® é apresentada e sua validação é conduzida comparando os resultados com uma identificação realizada manualmente, empregando o Audacity 1.3®. Locutores (masculinos e femininos) foram considerados e os testes foram conduzidos para sete diferentes sons vocálicos da língua portuguesa (a, é, ê, i, ó, ô, u). A abordagem é potencialmente útil em modelos de trato vocal, na melhoria da qualidade de sintetizadores de voz ou em algoritmos de reconhecimento automático de locutor. Em uma segunda parte, um novo algoritmo para divisão silábica automática de arquivos de voz na língua portuguesa é proposto, com base na envoltória do sinal de voz. Uma implementação computacional em Matlab® é apresentada, a qual encontra-se disponibilizada na URL http://www2.ee.ufpe.br/codec/divisao_silabica.html. Trechos longos contendo mais de uma sílaba e identificados com uma mesma envoltória são chamados de supersilabas e são separados posteriormente. Os resultados identificam as amostras correspondentes ao início e o fim de cada sílaba detectada. Foram realizados testes preliminares com meia centena de palavras, com uma taxa de identificação de cerca de 70%, porém melhorias podem ser incorporadas para tratar fonemas nos quais o envelope não é o principal parâmetro na identificação. Este algoritmo também pode ser particularmente útil em sistemas com comandos de voz ou como ferramenta de apoio no ensino da língua portuguesa ou para pacientes em tratamento fonoaudiológico. Caracterização de Voz Pitch Sons Vocálicos Divisão Silábica Língua Portuguesa Processamento de Fala Conversão Fala-para-texto
20	Estudo e implementação de um sistema de reconhecimento de digitos conectados usando HMMs continuos / Study and implementation of a connected digit recognition system using continuous HMMs Gonçalves, Jaqueline Vieira 19 April 2005 (has links) Orientador: Luis Geraldo Pedroso Meloni / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-05T17:33:33Z (GMT). No. of bitstreams: 1 Goncalves_JaquelineVieira_M.pdf: 1342430 bytes, checksum: a3453c6b093ca10121670663134a5b07 (MD5) Previous issue date: 2005 / Resumo: Neste trabalho, Modelos Ocultos de Markov Contínuos (HMMC) baseados em palavras e independentes de locutor são incorporados a um sistema de reconhecimento de dígitos conectados baseado em HMMs discretos do Laboratório de Processamento Digital de Sinais de Multimídia em Tempo Real da Faculdade de Engenharia Elétrica da UNICAMP, visando aperfeiçoar a plataforma existente. A teoria envolvida e detalhes da implementação do sistema de modelos contínuos são apresentados. Os HMMs contínuos empregados durante os experimentos possuem quantidades de estados e misturas dependentes do comprimento da palavra e, assim como no sistema anterior, o processo de treinamento usa um conjunto treinado de dígitos isolados como modelos iniciais no treinamento de dígitos conectados, além da informação adicional de duração de palavra. Durante esta fase de treinamento dos dígitos conectados, também é realizada outra forma de treinamento em que os modelos de dígitos isolados não são usados. As taxas de reconhecimento obtidas com esses dois tipos de treinamento também são avaliadas. Duas bases de dados foram usadas na análise de desempenho do sistema, uma delas em Português brasileiro e outra no Inglês americano. Os experimentos realizados permitiram comparar o desempenho entre os dois tipos de modelos, discreto e contínuo, para esta aplicação de modelos de palavras independentes de locutor, bem como apresentam resultados entre o sistema desenvolvido com HMMs contínuos e o software livre HTK (HMM Toolkit) sob as mesmas condições de operação. Experimentos também mostram o comportamento do sistema de HMMs contínuos desenvolvido ao variar-se o número de estados e misturas dos modelos separadamente / Abstract: In this work, we incorporate a continuous density Hidden Markov Models (HMMC) to a connected digit speech recognition system, based on speaker-independent word models, of the Real Time Multimedia Digital Signal Processing Laboratory at UNICAMP. The previous system is based on discrete HMMs, and the involved theory and implementation details of the continuous model system are presented. The continuous HMMs used in our experiments have the amount of states and mixtures dependent on word length. As well as in the previous system, the training procedure uses a training set of isolated digits in order to provide initial estimates of the continuous models and it also includes additional information of word duration. Moreover, we have also used another training procedure in which the isolated digits models are not used. The recognition rates obtained with those two training forms are also evaluated. Two databases were used to assess system performance, one is a small database for the Brazilian Portuguese and another one is for the American English. We carried out experiments in order to compare the performance of two types of models, discrete and continuous, in a speaker-independent word model application. We also evaluated the continuous HMMs performance using the open source HTK (HMM Toolkit) under the same operation conditions. Finally, performance results of the developed continuous HMMs system for different number of states and Gaussian mixtures are also shown / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Markov, Processos de Sistemas de processamento da fala Reconhecimento automático da voz Hiddem Markov models Speech recognition Automatic speech recognition

Search results