Global ETD Search

21	Implementação do sintetizador de formantes de Klatt em ponto-fixo utilizando o processador TMS320C25 Silva, Edgard Luciano Oliveira da, 1967- 04 October 1996 (has links) Orientador: Jose Geraldo Chiquito / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-21T19:05:42Z (GMT). No. of bitstreams: 1 Silva_EdgardLucianoOliveirada_M.pdf: 6753872 bytes, checksum: 7efe80d7892facf6075c52b08b8fca5f (MD5) Previous issue date: 1996 / Resumo: O presente trabalho trata da implementação do software do sintetizador de formantes cascata/paralelo de Klatt em ponto-fixo no TMS320C25. Neste trabalho, os efeitos da aritmética de ponto-fixo, a qual requer uma série de cuidados que por vezes desprezamos na implementação em ponto-flutuante, assim como o sintetizador de formantes de Klatt e o CI-TMS320C25, são estudados em detalhes. Uma base teórica sobre o processo de produção da fala e suas características são apresentados nos capítulos iniciais. Modificações no diagrama de blocos do sintetizador são feitas com o objetivo de se alcançar um melhor desempenho computacional. As características de voz do autor são apresentadas e um exemplo de síntese é realizado. A análise dos resultados obtidos é feita a partir de espectrogramas de banda larga e através da análise LPC / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica Sistemas de processamento da fala Síntese da voz Codificador de voz
22	Reconhecimento de fala baseado em HMM Nunes, Henrique Ferreira 20 December 1996 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-22T03:55:20Z (GMT). No. of bitstreams: 1 Nunes_HenriqueFerreira_M.pdf: 3451593 bytes, checksum: 3b52e036b0a5e12b0ac02d174adb7126 (MD5) Previous issue date: 1996 / Resumo: Este trabalho objetiva o desenvolvimento de sistemas de reconhecimento de fala baseados nos modelos ocultos de Markov- HMM (Hidden Markov Models). São descritos três sistemas de reconhecimento de fala desenvolvidos, que resultaram em protótipos demonstrativos da viabilidade técnica destes sistemas. Inicialmente, apresenta-se um reconhecedor de palavras isoladas para vocabulários pequenos, avaliado para os modos de operação multi-Iocutor e independente de locutor. Em seguida, descreve-se um sistema de reconhecimento de seqüências de dígitos faladas de forma contínua. Para este sistema, apresentam-se resultados de desempenho para os modos de operação dependente de locutor, multi-Iocutor e independente de locutor. Por fim, desenvolve-se um reconhecedor de palavras isoladas com vocabulário flexível e irrestrito para o português falado no Brasil. A definição do vocabulário de reconhecimento deste sistema é realizada de forma automática através da simples digitação dos textos ortográfIcos correspondentes às palavras desejadas. O reconhecedor com vocabulário flexível é avaliado apenas para o modo de operação dependente de locutor / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Sistemas de processamento da fala Markov, Processos de Reconhecimento automatico da fala
23	Adaptação de locutor em sistema de reconhecimento de fala continua empregando ¿Eigenvoices¿ Sousa, Livio Carvalho 24 September 2004 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-04T00:34:40Z (GMT). No. of bitstreams: 1 Sousa_LivioCarvalho_M.pdf: 871098 bytes, checksum: 153f38e7d25defc4147ff0417e22add1 (MD5) Previous issue date: 2004 / Resumo: Neste trabalho realizou-se o estudo da técnica via "eigenvoices"[13] [16][17][18] [30] [31]para adaptação de locutor em um sistema de reconhecimento de fala contínua usando o português do Brasil. Dentre as várias técnicas utilizadas para a adaptação de locutor, incluindo as clássicas MAP ("Maximum A Posteriori'') e MLLR ("Maximum Likelihood Linear Regression''), uma nova técnica, chamada "eigenvoice technique", foi proposta por Kuhn visando tornar mais rápido o processo de adaptação de locutor para aplicação em sistemas operando em tempo real. No início, estudos se concentraram nas aplicações com palavras isoladas, mas várias pesquisas estão sendo realizadas para a análise dessa técnica em fala contínua, como é o caso deste trabalho. A característica principal da técnica de adaptação via "eigenvoices" é a representação do novo locutor como uma combinação linear de parâmetros ("eigenvoices") obtidos a partir de modelos dependente de locutor previamente treinados. Dessa forma, o novo locutor é representado como um ponto dentro do espaço cujos eixos são formados pelos "eigenvoices". O algoritmo de máxima verossimilhança MLED ("Maximum Likelihood Eigen Decomposition'') foi usado para o cálculo dos coeficientes da combinação linear para a estimação dos parâmetros do novo locutor. Após a realização de testes com número variado de locuções de adaptação e de iterações do algoritmo, foi observado que: para um bom desempenho dos modelos adaptados, 3 a 5 iterações do algoritmo são necessárias; o mais importante não é o número de locuções de adaptação mas sim o seu conteúdo fonético. Em suma, o estudo revelou que a técnica se mostrou eficiente para a aplicação, porém mais pesquisas são necessárias na área / Abstract: In this work a research was made in order to evaluate the use of the eigenvoice technique (13) (16) (17) (18) (30) (31) to speaker adaptation on a continuous speech recognition system. Amongst the severa! speaker adaptation techniques, like the classical MAP and MLLR, a new technique, called eigenvoice technique, was proposed by Kuhn for fast speaker adaptation in real time applications. Firstly, researches were made just on isolated words applications, and nowadays they are focused on continuous speech applications, like this work. The main feature of the eigenvoice technique is the representation of the new speaker by a linear combination of parameters (eigenvoices) extracted from speaker dependent models previously trained. The new speaker is represented by a point in a space whose axis are the eigenvoices. The Maximum Likelihood Eigen Decomposition (MLED) algorithm was used to calculate the combination coefficients in order to estimate the parameters of the new speaker. After tests varying the number of adaptation sentences and algorithm iterations, it was verified that: for a good adaptation performance, 3 to 5 algorithm iterations are necessary; the number of adaptation sentences is not very important, the more important is the adaptation sentences phonetic contento In conclusion, the eigenvoice technique showed to be efficient for the application on continuous speech, however more studies must be made in the area / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Telecomunicações Processamento de sinais Sistemas de processamento da fala Reconhecimento automático da voz Reconhecimento automatico da fala
24	Estudo de um sistema de conversão texto-fala baseado em HMM / Study of a HMM-based text-to-speech system Carvalho, Sarah Negreiros de, 1985- 22 August 2018 (has links) Orientador: Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-22T07:58:43Z (GMT). No. of bitstreams: 1 Carvalho_SarahNegreirosde_M.pdf: 2350561 bytes, checksum: 950d33430acbd816700ef5de4c78fa5d (MD5) Previous issue date: 2013 / Resumo: Com o contínuo desenvolvimento da tecnologia, há uma demanda crescente por sistemas de síntese de fala que sejam capazes de falar como humanos, para integrá-los nas mais diversas aplicações, seja no âmbito da automação robótica, sejam para acessibilidade de pessoas com deficiências, seja em aplicativos destinados a cultura e lazer. A síntese de fala baseada em modelos ocultos de Markov (HMM) mostra-se promissora em suprir esta necessidade tecnológica. A sua natureza estatística e paramétrica a tornam um sistema flexível, capaz de adaptar vozes artificiais, inserir emoções no discurso e obter fala sintética de boa qualidade usando uma base de treinamento limitada. Esta dissertação apresenta o estudo realizado sobre o sistema de síntese de fala baseado em HMM (HTS), descrevendo as etapas que envolvem o treinamento dos modelos HMMs e a geração do sinal de fala. São apresentados os modelos espectrais, de pitch e de duração que constituem estes modelos HMM dos fonemas dependentes de contexto, considerando as diversas técnicas de estruturação deles. Alguns dos problemas encontrados no HTS, tais como a característica abafada e monótona da fala artificial, são analisados juntamente com algumas técnicas propostas para aprimorar a qualidade final do sinal de fala sintetizado / Abstract: With the continuous development of technology, there is a growing demand for text-to-speech systems that are able to speak like humans, in order to integrate them in the most diverse applications whether in the field of automation and robotics, or for accessibility of people with disabilities, as for culture and leisure activities. Speech synthesis based on hidden Markov models (HMM) shows to be promising in addressing this need. Their statistical and parametric nature make it a flexible system capable of adapting artificial voices, insert emotions in speech and get artificial speech of good quality using a limited amount of speech data for HMM training. This thesis presents the study realized on HMM-based speech synthesis system (HTS), describing the steps that involve the training of HMM models and the artificial speech generation. Spectral, pitch and duration models are presented, which form context-dependent HMM models, and also are considered the various techniques for structuring them. Some of the problems encountered in the HTS, such as the characteristic muffled and monotone of artificial speech, are analyzed along with some of the proposed techniques to improve the final quality of the synthesized speech signal / Mestrado / Telecomunicações e Telemática / Mestra em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Voice synthesis Hidden Markov models (HMM) Speech processing systems
25	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes ARAÚJO, Fabiola Pantoja Oliveira 18 December 2015 (has links) Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-02-21T19:20:54Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-02-22T16:23:02Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) / Made available in DSpace on 2017-02-22T16:23:02Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) Previous issue date: 2015-12-18 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado. / Voice imitation through the utterance copy mechanism is estimating the value of the input parameters of a speech synthesizer to generate a similar signal with the original voice. This process is distinct from the more traditional text-to-speech, but yet used in many areas, especially, Linguistics and Health System. Imitate the human voice through this mechanism is a difficult inverse problem because the mapping is non-linear and from many to one. For instance, there are different combinations of the synthesizer input parameters values that produce the same synthetic voice signal. Therefore, perform voice imitation manually requires a considerable amount of time. In addition to automatic methods are our interest of study as well, as proposed here. This work presents our system based on Genetic Algorithm (GA) to automatically estimate the value of the input parameters of a speech formant synthesizer using the analysis-by-synthesis process. Results are presented for synthetic (computer-generated) and natural (human-generated) speech in American English, for male and female speakers. These results are compared with the ones obtained with Winsnoori, the only currently available software that performs the same task. The experiments showed that the proposed newGASpeech framework is an effective alternative to the laborious manual process of estimating the input parameters values of a formant synthesizer. Besides it has overcome the quality of the generated voices by the baseline if compared to five objective metrics and a subjective evaluation applied to twenty seven no-expert listeners in the speech area neither the adopted language. Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
26	Proposta de metodologia de avaliação de voz sintética com ênfase no ambiente educacional / Methodology for evaluation of synthetic speech emphasizing the educational environment Leite, Harlei Miguel de Arruda, 1989- 06 September 2014 (has links) Orientador: Dalton Soares Arantes / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-25T15:09:09Z (GMT). No. of bitstreams: 1 Leite_HarleiMigueldeArruda_M.pdf: 3631088 bytes, checksum: b997adfa6f8915d31a23e0eb6daf0cc3 (MD5) Previous issue date: 2014 / Resumo: A principal contribuição desta dissertação é a proposta de uma metodologia de avaliação de voz sintetizada. O método consiste em um conjunto de etapas que buscam auxiliar o avaliador nas etapas de planejamento, aplicação e análise dos dados coletados. O método foi originalmente desenvolvido para avaliar um conjunto de vozes sintetizadas para encontrar a voz que melhor se adapta a ambientes de educação a distância usando avatares. Também foram estudadas as relações entre inteligibilidade, compreensibilidade e naturalidade a fim conhecer os fatores a serem considerados para aprimorar os sintetizadores de fala. Esta dissertação também apresenta os principais métodos de avaliação encontrados na literatura e o princípio de funcionamento dos sistemas TTS / Abstract: This thesis proposes, as main contribution, a new synthesized voice evaluation methodology. The method consists of a set of steps that seek to assist the assessor in the stages of planning, implementation and analysis of data collected. The method was originally developed to evaluate a set of synthesized voices to find the voice that best fits the environments for distance education using avatars. Relations between intelligibility, comprehensibility and naturalness were studied in order to know the factors to be considered to enhance the speech synthesizers. This thesis also presents the main evaluation methods in the literature and how TTS (Text-to-Speech) systems work / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Ambiente educacional Fala Fala - Inteligibilidade Voice synthesis Speech processing system Educational environment Voice Speech - Intelligibility
27	Uso de parâmetros multifractais no reconhecimento de locutor / Use of multifractal parameters for speaker recognition González González, Diana Cristina, 1984- 19 August 2018 (has links) Orientadores: Lee Luan Ling, Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-19T05:40:32Z (GMT). No. of bitstreams: 1 GonzalezGonzalez_DianaCristina_M.pdf: 2589944 bytes, checksum: ddbbbef6076eb402f4abe638ebcd232b (MD5) Previous issue date: 2011 / Resumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutor / Abstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition system / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Multifractais Reconhecimento automático da voz Gaussian distribution Sistemas de processamento da fala Multifractal Automatic speech recognition Gaussian distribution Speech processing system
28	Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiro COUTO, Igor Costa do 23 December 2010 (has links) Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications. Some modules of a TTS depend on the language and, while there are many public resources for English, the resources for some underrepresented languages are still limited. This work describes the development of a complete TTS system for Brazilian Portuguese (BP) which expands the already available resources. The system uses the MARY framework and is based on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions of this work consist in implementing syllabification, determination of stressed syllable and grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing the developed resources and implementing a BP voice within the MARY. These resources are made available and facilitate the research in text normalization and HMM-based synthesis for BP. Síntese da voz Sistema de processamento da fala Sistema de reconhecimento de voz Processos de Markov
29	[en] MODIFIED INTERPOLATION OF LSFNULLS / [pt] INTERPOLAÇÃO MODIFICADA DE LSFNULLS CARLOS ROBERTO DA COSTA FERREIRA 25 October 2006 (has links) [pt] Os novos serviços de telecomunicações têm impulsionado o desenvolvimento de melhorias nos algoritmos de codificação de voz, devido à necessidade de se melhorar a qualidade da voz codificada, utilizando a menor taxa de transmissão possível. Esta dissertação analisa e propõem melhorias em um método para o ajuste de parâmetros LSFs de modo a torná- los mais precisos, minimizando as perdas no processo de interpolação de LSFs codificadas. Com isso, a percepção de qualidade da voz sintetizada na saída do decodificador é aumentada, sem que seja necessário aumento da taxa de transmissão. É apresentada de modo detalhado toda a dedução matemática do método citado. Para a avaliação de desempenho das melhorias propostas, o processo de ajuste é implementado em um codificador a taxas médias inferiores a 2 kb/s. Os resultados confirmam que é possível obter redução significativa nas medidas de distorção com a utilização do ajuste de LSFs. / [en] The new telecommunications services have been pushing forward the development of improvements in speech coding, because of the need to improve coded speech quality, using the smallest transmission rate possible. This thesis analyzes and proposes improvements in a method to adjust LSF parameters so they get more accurate, minimizing the losses in the coded LSFs interpolation process. With this, the synthesized speech perceptual quality in the decoder exit is increased, without having to increase the transmission rate. The mathematical deduction of the method is presented in a detailed way. To evaluate the performance of the proposed improvements, the adjust process is implemented in a speech coder with mean rates less than 2 kb/s. The results confirmed that is possible to obtain significant reduction in distortion measures using the adjustment of LSFs. [pt] PROCESSAMENTO DE SINAIS [en] SIGNAL PROCESSING [pt] ENGENHARIA ELETRICA [en] ELECTRICAL ENGINNERING [pt] TECNICAS DIGITAIS [en] DIGITAL TECHNICS [pt] SISTEMA DE PROCESSAMENTO DA FALA [en] SPEECH PROCESSING SYSTEM
30	Estudo de algoritmos de quantização vetorial aplicados a sinais de fala / Study of vector quantization algorithms applied to speech signals Violato, Ricardo Paranhos Velloso 07 August 2010 (has links) Orientador: Fernando José Von Zuben / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-16T10:52:32Z (GMT). No. of bitstreams: 1 Violato_RicardoParanhosVelloso_M.pdf: 5520106 bytes, checksum: 47f6f741b5c013a3252e50dddb37923c (MD5) Previous issue date: 2010 / Resumo: Este trabalho apresenta um estudo comparativo de três algoritmos de quantização vetorial, aplicados para a compressão de sinais de fala: k-médias, NG (do inglês Neural-Gas) e ARIA. Na técnica de compressão utilizada, os sinais são primeiramente parametrizados e quantizados, para serem armazenados e/ou transmitidos. Para recompor o sinal, os vetores quantizados são mapeados em quadros de fala, que são, por sua vez, concatenados, através de uma técnica de síntese concatenativa. Esse sistema pressupõe a existência de um dicionário (codebook) de vetores-padrão (codevectors), os quais são utilizados na etapa de codificação, e de um dicionário de quadros, que é utilizado na etapa de decodificação. Tais dicionários são gerados aplicando-se um algoritmo de quantização vetorial juntoa uma base de treinamento. Em particular, deseja-se avaliar o algoritmo imuno-inspirado denominado ARIA e sua capacidade de preservação da densidade da distribuição dos dados. São testados também diferentes conjuntos de parâmetros para identificar aquele que produz os melhores resultados. Por fim, são propostas modificações no algoritmo ARIA visando ganho de desempenho tanto na preservação de densidade quanto na qualidade do sinal sintetizado / Abstract: This work presents a comparative study of three algorithms for vector quantization, applied for the compression of speech signals: k-means, NG (Neural-Gas) and ARIA. In the compression technique used, the signals are first parameterized and quantized to be stored and/or transmitted. To reconstruct the signal, the quantized vectors are mapped into speech frames, which are concatenated through a concatenative synthesis technique. This system assumes the existence of a dictionary (codebook) of reference vectors (codevectors), which is used in the coding step, and a dictionary of frames, which is used in the decoding step. These dictionaries are generated by applying a vector quantization algorithm within a training database. In particular, we want to evaluate the immune-inspired algorithm called ARIA and its ability to preserve the density of data distribution. Different sets of parameters are also tested in order to identify the one that produces the best results. Finally, modifications to the ARIA algorithm are proposed aiming at obtaining gain in performance in both the preservation of density and the quality of the synthesized signal / Mestrado / Engenharia de Computação / Mestre em Engenharia Elétrica Sistemas de processamento da fala Algoritmos - Processamento de dados Aprendizado de máquina Speech coding Speech processing systems Algorithms - Data processin Learning computer

Search results