Global ETD Search

11	Estudo de um sistema de conversão texto-fala baseado em HMM / Study of a HMM-based text-to-speech system Carvalho, Sarah Negreiros de, 1985- 22 August 2018 (has links) Orientador: Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-22T07:58:43Z (GMT). No. of bitstreams: 1 Carvalho_SarahNegreirosde_M.pdf: 2350561 bytes, checksum: 950d33430acbd816700ef5de4c78fa5d (MD5) Previous issue date: 2013 / Resumo: Com o contínuo desenvolvimento da tecnologia, há uma demanda crescente por sistemas de síntese de fala que sejam capazes de falar como humanos, para integrá-los nas mais diversas aplicações, seja no âmbito da automação robótica, sejam para acessibilidade de pessoas com deficiências, seja em aplicativos destinados a cultura e lazer. A síntese de fala baseada em modelos ocultos de Markov (HMM) mostra-se promissora em suprir esta necessidade tecnológica. A sua natureza estatística e paramétrica a tornam um sistema flexível, capaz de adaptar vozes artificiais, inserir emoções no discurso e obter fala sintética de boa qualidade usando uma base de treinamento limitada. Esta dissertação apresenta o estudo realizado sobre o sistema de síntese de fala baseado em HMM (HTS), descrevendo as etapas que envolvem o treinamento dos modelos HMMs e a geração do sinal de fala. São apresentados os modelos espectrais, de pitch e de duração que constituem estes modelos HMM dos fonemas dependentes de contexto, considerando as diversas técnicas de estruturação deles. Alguns dos problemas encontrados no HTS, tais como a característica abafada e monótona da fala artificial, são analisados juntamente com algumas técnicas propostas para aprimorar a qualidade final do sinal de fala sintetizado / Abstract: With the continuous development of technology, there is a growing demand for text-to-speech systems that are able to speak like humans, in order to integrate them in the most diverse applications whether in the field of automation and robotics, or for accessibility of people with disabilities, as for culture and leisure activities. Speech synthesis based on hidden Markov models (HMM) shows to be promising in addressing this need. Their statistical and parametric nature make it a flexible system capable of adapting artificial voices, insert emotions in speech and get artificial speech of good quality using a limited amount of speech data for HMM training. This thesis presents the study realized on HMM-based speech synthesis system (HTS), describing the steps that involve the training of HMM models and the artificial speech generation. Spectral, pitch and duration models are presented, which form context-dependent HMM models, and also are considered the various techniques for structuring them. Some of the problems encountered in the HTS, such as the characteristic muffled and monotone of artificial speech, are analyzed along with some of the proposed techniques to improve the final quality of the synthesized speech signal / Mestrado / Telecomunicações e Telemática / Mestra em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Voice synthesis Hidden Markov models (HMM) Speech processing systems
12	Imitação da voz humana através do processo de análise-por-síntese utilizando algoritmo genético e sintetizador de voz por formantes ARAÚJO, Fabiola Pantoja Oliveira 18 December 2015 (has links) Submitted by camilla martins (camillasmmartins@gmail.com) on 2017-02-21T19:20:54Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) / Approved for entry into archive by Edisangela Bastos (edisangela@ufpa.br) on 2017-02-22T16:23:02Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) / Made available in DSpace on 2017-02-22T16:23:02Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Tese_ImitacaoVozHumana.pdf: 2047573 bytes, checksum: 11e691f48ede5823303b6dbcf466bf63 (MD5) Previous issue date: 2015-12-18 / CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico / A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado. / Voice imitation through the utterance copy mechanism is estimating the value of the input parameters of a speech synthesizer to generate a similar signal with the original voice. This process is distinct from the more traditional text-to-speech, but yet used in many areas, especially, Linguistics and Health System. Imitate the human voice through this mechanism is a difficult inverse problem because the mapping is non-linear and from many to one. For instance, there are different combinations of the synthesizer input parameters values that produce the same synthetic voice signal. Therefore, perform voice imitation manually requires a considerable amount of time. In addition to automatic methods are our interest of study as well, as proposed here. This work presents our system based on Genetic Algorithm (GA) to automatically estimate the value of the input parameters of a speech formant synthesizer using the analysis-by-synthesis process. Results are presented for synthetic (computer-generated) and natural (human-generated) speech in American English, for male and female speakers. These results are compared with the ones obtained with Winsnoori, the only currently available software that performs the same task. The experiments showed that the proposed newGASpeech framework is an effective alternative to the laborious manual process of estimating the input parameters values of a formant synthesizer. Besides it has overcome the quality of the generated voices by the baseline if compared to five objective metrics and a subjective evaluation applied to twenty seven no-expert listeners in the speech area neither the adopted language. Síntese da voz Sistemas de processamento da fala Algoritmos genéticos
13	Proposta de metodologia de avaliação de voz sintética com ênfase no ambiente educacional / Methodology for evaluation of synthetic speech emphasizing the educational environment Leite, Harlei Miguel de Arruda, 1989- 06 September 2014 (has links) Orientador: Dalton Soares Arantes / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-25T15:09:09Z (GMT). No. of bitstreams: 1 Leite_HarleiMigueldeArruda_M.pdf: 3631088 bytes, checksum: b997adfa6f8915d31a23e0eb6daf0cc3 (MD5) Previous issue date: 2014 / Resumo: A principal contribuição desta dissertação é a proposta de uma metodologia de avaliação de voz sintetizada. O método consiste em um conjunto de etapas que buscam auxiliar o avaliador nas etapas de planejamento, aplicação e análise dos dados coletados. O método foi originalmente desenvolvido para avaliar um conjunto de vozes sintetizadas para encontrar a voz que melhor se adapta a ambientes de educação a distância usando avatares. Também foram estudadas as relações entre inteligibilidade, compreensibilidade e naturalidade a fim conhecer os fatores a serem considerados para aprimorar os sintetizadores de fala. Esta dissertação também apresenta os principais métodos de avaliação encontrados na literatura e o princípio de funcionamento dos sistemas TTS / Abstract: This thesis proposes, as main contribution, a new synthesized voice evaluation methodology. The method consists of a set of steps that seek to assist the assessor in the stages of planning, implementation and analysis of data collected. The method was originally developed to evaluate a set of synthesized voices to find the voice that best fits the environments for distance education using avatars. Relations between intelligibility, comprehensibility and naturalness were studied in order to know the factors to be considered to enhance the speech synthesizers. This thesis also presents the main evaluation methods in the literature and how TTS (Text-to-Speech) systems work / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Ambiente educacional Fala Fala - Inteligibilidade Voice synthesis Speech processing system Educational environment Voice Speech - Intelligibility
14	Desenvolvimento de recursos para a construção de um sistema texto-fala para o português brasileiro COUTO, Igor Costa do 23 December 2010 (has links) Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2012-04-18T19:53:48Z No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Edisangela Bastos(edisangela@ufpa.br) on 2012-04-18T19:54:07Z (GMT) No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-04-18T19:54:07Z (GMT). No. of bitstreams: 2 Dissertacao_DesenvolvimentoRecursosConstrucao.pdf: 1557988 bytes, checksum: 98eae89d53c89c52e1811ce354eb896a (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2010 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistema Texto-Fala (TTS) é atualmente uma tecnologia madura que é utilizada em muitas aplicações. Alguns módulos de um sistema TTS são dependentes do idioma e, enquanto existem muitos recursos disponíveis para a língua inglesa, os recursos para alguns idiomas ainda são limitados. Este trabalho descreve o desenvolvimento de um sistema TTS completo para português brasileiro (PB), o qual também apresenta os recursos já disponíveis. O sistema usa a plataforma MARY e o processo de síntese da voz é baseado em cadeias escondidas de Markov (HMM). Algumas das contribuições deste trabalho consistem na implementação de silabação, determinação da sílaba tônica e conversão grafema-fonema (G2P). O trabalho também descreve as etapas para a organização dos recursos desenvolvidos e a criação de uma voz em PB junto ao MARY. Estes recursos estão disponíveis e facilita a pesquisa na normalização de texto e síntese baseada em HMM par o PB. / Text-to-speech (TTS) is currently a mature technology that is used in many applications. Some modules of a TTS depend on the language and, while there are many public resources for English, the resources for some underrepresented languages are still limited. This work describes the development of a complete TTS system for Brazilian Portuguese (BP) which expands the already available resources. The system uses the MARY framework and is based on the hidden Markov model (HMM) speech synthesis approach. Some of the contributions of this work consist in implementing syllabification, determination of stressed syllable and grapheme-tophoneme (G2P) conversion. This work also describes the steps for organizing the developed resources and implementing a BP voice within the MARY. These resources are made available and facilitate the research in text normalization and HMM-based synthesis for BP. Síntese da voz Sistema de processamento da fala Sistema de reconhecimento de voz Processos de Markov
15	O software livre como alternativa para a inclusão digital do deficiente visual / The free software as an alternative for digital cohesion of visually impaired people Eberlin, Samer 19 April 2006 (has links) Orientador: Luiz Cesar Martini / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-06T10:40:00Z (GMT). No. of bitstreams: 1 Eberlin_Samer_M.pdf: 1431060 bytes, checksum: 0cd41a07e95c21a6a407e87001437452 (MD5) Previous issue date: 2006 / Resumo: A acelerada difusão do software "livre", tanto no Brasil como no exterior, vem se mostrando cada vez mais evidente nos mais diversos âmbitos (governo, empresas, escolas, etc.). A principal motivação para a transição do software "proprietário" para o "livre" é a redução de custos, mas para efetivar essa migração é necessário que ferramentas compatíveis estejam disponíveis para a manutenção da usabilidade do sistema. Essa é ainda uma barreira para a migração do usuário deficiente visual brasileiro, pois até este momento, nenhuma das tecnologias assistivas desenvolvidas para sistemas operacionais "livres" encontram-se disponíveis no idioma português. Como solução para esse problema, esta dissertação apresenta uma alternativa que efetivará essa migração, habilitando usuários cegos para realização de tarefas como edição de texto, acesso à internet, gerenciamento de arquivos, entre outras. O trabalho baseia-se na implementação de um sintetizador de voz para o português do Brasil e na tradução de uma tecnologia assistiva desenvolvida para sistemas operacionais "livres". Como parte integrante estão documentados também o desenvolvimento de um modelo compacto de computador pessoal e os resultados de testes realizados com usuários voluntários / Abstract: The accelerated diffusion of the "free" software, as much in Brazil as in the foreign, has beem shown more and more evident in the most diverse scopes (government, companies, schools, etc) The main motivation to the transition from "proprietary" software to the "free" one is the costs reduction, but to accomplish this migration compatible tools need to be available for the maintenance of the system usability. This is still a barrier for the migration of the brazilian visually impaired user, because up to this moment, none of the assistive technologies developed to "free" operating systems are available in portuguese language. As solution for this problem, this dissertation presents an alternative that will accomplish this migration, enabling blind users to carrying out tasks like text edition, internet access, file management, among others. The work is based on the implementation of a voice synthesizer for the portuguese from Brazil and on the translation of an assistive technology developed to "free" operating systems. As integrated part are also documented the development of a compact model of personal computer and the results of tests carried out with voluntary users / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Acessibilidade Tecnologia educacional Inclusão digital Software livre Software de comunicação Síntese da voz Acessibility Assistive technology Digital cohesion Free software Screen reader Voice synthesizer
16	Sintese e reconhecimento da fala humana / Synthesis and recognition of human speech Stolfi, Rumiko Oishi 31 October 2006 (has links) Orientadores: Fabio Violaro, Anamaria Gomide / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T21:57:26Z (GMT). No. of bitstreams: 1 Stolfi_RumikoOishi_M.pdf: 1514197 bytes, checksum: e93f45916d359641c73b31b00952a914 (MD5) Previous issue date: 2006 / Resumo: O objetivo deste trabalho é apresentar uma revisão dos principais conceitos e métodos envolvidos na síntese, processamento e reconhecimento da fala humana por computador.Estas tecnologias têm inúmeras aplicações, que têm aumentado substancialmente nos últimos anos com a popularização de equipamentos de comunicação portáteis (celulares, laptops, palmtops) e a universalização da Internet. A primeira parte deste trabalho é uma revisão dos conceitos básicos de processamento de sinais, incluindo transformada de Fourier, espectro de potência e espectrograma, filtros, digitalização de sinais e o teorema de Nyquist. A segunda parte descreve as principais características da fala humana, os mecanismos envolvidos em sua produção e percepção, e o conceito de fone (unidade lingüística de som). Nessa parte também descrevemos brevemente as principais técnicas para a conversão ortográfica-fonética, para a síntese de fala a partir da descrição fonética, e para o reconhecimento da fala natural. A terceira parte descreve um projeto prático que desenvolvemos para consolidar os conhecimentos adquiridos neste mestrado: um programa que gera canções populares japonesas a partir de uma descrição textual da letra de música, usando método de síntese concatenativa. No final do trabalho listamos também alguns softwares disponíveis (livres e comerciais) para síntese e reconhecimento da fala / Abstract: The goal of this dissertation is to review the main concepts relating to the synthesis, processing, and recognition of human speech by computer. These technologies have many applications, which have increased substantially in recent years after the spread of portable communication equipment (mobile phones, laptops, palmtops) and the universal access to the Internet. The first part of this work is a revision of fundamental concepts of signal processing, including the Fourier transform, power spectrum and spectrogram, filters, signal digitalization, and Nyquist's theorem. The second part describes the main characteristics of human speech, the mechanisms involved in its production and perception, and the concept of phone (linguistic unit of sound). In this part we also briefly describe the main techniques used for orthographic-phonetic transcription, for speech synthesis from a phonetic description, and for the recognition of natural speech. The third part describes a practical project we developed to consolidate the knowledge acquired in our Masters studies: a program that generates Japanese popular songs from a textual description of the lyrics and music, using the concatenative synthesis method. At the end of this dissertation, we list some available software products (free and commercial) for speech synthesis and speech recognition / Mestrado / Engenharia de Computação / Mestre em Ciência da Computação Sistemas de processamento da fala Processamento de sinais Reconhecimento automático da voz Síntese da voz Reconhecimento automatico da fala Speech processing systems Signal processing Automatic speech recognition Voice systhesis

Page generated in 0.0629 seconds