Spelling suggestions: "subject:"síntese dde voz"" "subject:"síntese dee voz""
1 |
Sistema de conversão texto-fala para a lingua portuguesa utilizando a abordagem de sintese por regrasGomes, Leandro de Campos Teixeira 15 July 1998 (has links)
Orientador: Jose Geraldo Chiquito / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T20:16:10Z (GMT). No. of bitstreams: 1
Gomes_LeandrodeCamposTeixeira_M.pdf: 7657405 bytes, checksum: e4cae4f7fef2aeaa666c6f598c0c24bb (MD5)
Previous issue date: 1998 / Resumo: Neste trabalho encontra-se descrito o sistema de conversão texto-fala para o português do Brasil desenvolvido no Laboratório de Processamento de Sinais da Faculdade de Engenharia Elétrica e de Computação da Unicamp. O sistema recebe como entrada um texto genérico em português e produz em sua saída o sinal de fala correspondente. O processo de conversão texto-fala divide-se em três etapas básicas, cada uma englobando vários módulos: Processamento de texto: pré-processamento, classificação gramatical, divisão silábica e transcrição ortográfico-fonética. Processamento prosódico: determinação de fronteiras prosódicas, geração de contornos de entonação e geração de durações de segmentos. Processamento de sinal: síntese do sinal de fala utilizando o sintetizador de formantes de Klatt. Os módulos de processamento prosódico empregam dados de duração e entonação extraídos de elocuções naturais, ajustando-os às particularidades do texto de entrada com base em informações provenientes do classificador gramatical. A abordagem de síntese por regras é utilizada para a geração dos parâmetros de controle do sintetizador. Uma linguagem e um compilador específicos foram criados para a descrição das regras de síntese. Embora não tenham sido realizadas avaliações formais da qualidade do sistema, testes informais indicaram um bom desempenho geral em termos de inteligibilidade e naturalidade / Abstract: This work contains a description of the text-to-speech conversion system for the Portuguese of Brazil developed at the Signal Processing Laboratory of the Electrical and Computer Engineering School of Unicamp. The system receives as input a generic text in Portuguese and produces as output the corresponding speech signal. The text-to-speech conversion process is divided into three basic steps, each one including several modules: Text processing: preprocessing, grammatical classification, syllabic division and orthographic-phonetic transcription. Prosodic processing: determination of prosodic boundaries, generation of intonation patterns and generation of segmental durations. Signal processing: synthesis of the speech signal using the Klatt formant synthesizer. The prosodic processing modules use duration and intonation data extracted from natural utterances, adjusting them to the particularities of the input text on the basis of information provided by the grammatical classifier. The synthesis-by-rule approach is used for generating the synthesizer control parameters. A specific language and a compiler have been created for the description of the synthesis rules. A1thoughformal evaluations of the system quality have not been made, informal tests have indicated a good general performance in terms of intelligibility and naturalness / Mestrado / Mestre em Engenharia Elétrica
|
2 |
O papel das vogais reduzidas pos-tonicas na construção de um sistema de sintese concatenativa para o portugues do BrasilAquino, Patrícia Aparecida de, 1970- 17 December 1997 (has links)
Orientador: Eleonora C. Albano / Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem / Made available in DSpace on 2018-07-23T05:45:49Z (GMT). No. of bitstreams: 1
Aquino_PatriciaAparecidade_M.pdf: 5190415 bytes, checksum: 87ce153c481c5b4ded4cee7f04b38455 (MD5)
Previous issue date: 1997 / Resumo: Nesta dissertação, desenvolvida no LAF APE (Laboratório de Fonética Acústica e Psicolingüística Experimental) do IEL (Instituto de Estudos de Linguagem), foram feitas análises fonético-acústicas em que se compararam as vogais tônicas e pós-tônicas do português do Brasil. Essas análises se propõem, em primeiro lugar, a fornecer dados sobre o fenômeno da redução vocálica em PB, contribuindo para as discussões desse fenômeno, tanto no âmbito da Fonética, quanto no da Fonologia. Em segundo lugar, o presente estudo vem corroborar uma decisão prévia, tomada na elaboração de um corpus de unidades utilizado no sistema de síntese concatenativa do LAF APE, de gravar unidades diferentes para concatenar vogais tônicas e pós-tônicas. Tal decisão é decorrente da existência.de uma forte relação entre prosódia e segmentos. Sabe-se que ambientes prosódicos fracos favorecem a redução dos segmentos, enquanto os ambientes prosodicamente fortes a desfavorecem. Diferenciando as vogais tônicas (que, geralmente, ocorrem em ambientes fortes) das pós-tônicas (que, geralmente, ocorrem em ambientes fracos) consegue-se, já no nível segmental, introduzir algumas características prosódicas da fala natural. Foi corroborada também, na maioria dos casos, a opção por utilizar unidades demissilábicas e intersilábicas. Há, entretanto, um resultado que aponta para a necessidade, de unidades maiores: percebeu-se uma significativa influência da consoante precedente sobre as vogais pós-tônicas. A fim de contemplar tal influência, talvez seja necessário gravar unidades maiores, evitando a segmentação no interior dessas vogais / Abstract: Not informed. / Mestrado / Mestre em Linguística
|
3 |
Ambiente de análise robusta dos principais parâmetros qualitativos da vozLopes, José Manuel dos Santos January 2009 (has links)
Estágio realizado na SEEGNAL Research e orientado pelo Eng.º Joaquim Matos / Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores (Major Telecomunicações). Faculdade de Engenharia. Universidade do Porto. 2009
|
4 |
Modelamento prosodico para conversão texto-fala do portugues falado no BrasilSilva, Cairo Humberto da 14 December 1995 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica / Made available in DSpace on 2018-07-21T07:36:44Z (GMT). No. of bitstreams: 1
Silva_CairoHumbertoda_M.pdf: 5139461 bytes, checksum: a9e57485b3b1feb8e571314247eb1621 (MD5)
Previous issue date: 1995 / Resumo: O principal objetivo do presente trabalho foi iniciar a construção de um modelo de tratamento prosódico aplicado a um sistema de conversão texto-fala para o português falado no Brasil. Sendo este um trabalho inicial na área de tratamento prosódico, também tem como objetivo a aquisição de experiência na área. Além disso, buscou-se investir na criação de um ferramental para análises acústicas com o objetivo de auxiliar futuros desenvolvimentos. o presente trabalho consiste basicamente na análise de realizações de fala natural (frases ditas por pessoas), criação de regras que descrevem o tratamento prosódico a que as pessoas submetem suas próprias falas, uso destas regras para construção de um módulo prosódico aplicado à conversão texto-fala, e emprego do sistema de conversão texto-fala para testar e aprimorar estas regras / Abstract; Not informed. / Mestrado / Mestre em Engenharia Elétrica
|
5 |
Cirurgia virtual da laringeMontagnoli, Arlindo Neto 14 March 2006 (has links)
Neste trabalho foram desenvolvidas técnicas computacionais que auxiliam os especialistas da fonologia a prever os efeitos produzidos na voz de um paciente quando alterações físicas e mecânicas são efetuadas na laringe, especificamente, nas pregas vocais após a realização da cirurgia. O objetivo principal deste trabalho consiste na utilização de contornos ativos para desenvolver um modelo da laringe baseado no movimentos das pregas vocais e glote. A técnica é baseada em imagens obtidas do exame de endoscopia da laringe. A partir do sinal de voz do paciente é filtrado as características da glote obtidas da imagem da estrobo-laringoscopia, assumindo que as disfonias são causadas por irregularidades nas pregas vocais. As modificações feitas na glote são utilizadas para estimar um novo filtro glotal que é adicionada ao sinal previamente filtrado. Utilizando este método, pode-se obter uma nova voz sintetizada que mantém as características individuais dos pacientes após as alterações realizadas nas pregas oriundas da cirurgia virtual da laringe
|
6 |
Cirurgia virtual da laringeArlindo Neto Montagnoli 14 March 2006 (has links)
Neste trabalho foram desenvolvidas técnicas computacionais que auxiliam os especialistas da fonologia a prever os efeitos produzidos na voz de um paciente quando alterações físicas e mecânicas são efetuadas na laringe, especificamente, nas pregas vocais após a realização da cirurgia. O objetivo principal deste trabalho consiste na utilização de contornos ativos para desenvolver um modelo da laringe baseado no movimentos das pregas vocais e glote. A técnica é baseada em imagens obtidas do exame de endoscopia da laringe. A partir do sinal de voz do paciente é filtrado as características da glote obtidas da imagem da estrobo-laringoscopia, assumindo que as disfonias são causadas por irregularidades nas pregas vocais. As modificações feitas na glote são utilizadas para estimar um novo filtro glotal que é adicionada ao sinal previamente filtrado. Utilizando este método, pode-se obter uma nova voz sintetizada que mantém as características individuais dos pacientes após as alterações realizadas nas pregas oriundas da cirurgia virtual da laringe
|
7 |
Implementação de um sistema de conversão texto-fala para o portugues do BrasilSimões, Flavio Olmos 05 December 1999 (has links)
Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-25T08:07:11Z (GMT). No. of bitstreams: 1
Simoes_FlavioOlmos_M.pdf: 9956793 bytes, checksum: 8d654fa1bd86ed42fb407fa653d24f41 (MD5)
Previous issue date: 1999 / Resumo: A síntese de fala a partir de texto é o principal objeto de estudo desse trabalho. As dificuldades principais do processo de conversão texto-fala são colocadas em questão e uma estratégia de implementação de um sistema de conversão texto-fala para o português do Brasil é apresentada. Esse sistema, baseado no método de síntese concatenativa, utiliza um inventário de 2.450 segmentos de fala pré-gravados e é capaz de empregar duas técnicas de síntese distintas: TD-PSOLA e síntese híbrida. A adoção de critérios lingüísticos cuidadosos, principalmente na etapa de transcrição fonética e na elaboração do inventário de unidades constitui o ponto chave deste trabalho. A notação fonética utilizada diferencia dois tipos de segmentos fonéticos (plenos e reduzidos), que se distinguem no grau pelo qual estão sujeitos a fenômenos de coarticulação. O inventário de unidades foi constituído de forma a preservar segmentos reduzidos e encontros vocálicos. No intuito de reduzir o tamanho do inventário, alguns cortes no interior de segmentos reduzidos foram efetuados. Mas uma vez, nesse caso, utilizaram-se critérios lingüísticos cuidadosos, a fim de minimizar descontinuidades espectrais após a concatenação / Abstract: Text-to-speech synthesis is the main subject treated in this work. Most of the difficulties related to this task are discussed, and an implementation of Brazilian Portuguese text-to-speech concatenative synthesis system is presented. The system uses an inventory of 2,450 pre-recorded speech segments, and is able to employ two distinct synthesis techniques: TD-PSOLA and hybrid synthesis. The use of carefully chosen linguistic criteria, mainly during phonetic transcription and also during the creation of the speech segments inventory, is the main contribution of this work. The phonetic notation employed here distinguishes two kinds of phonetic segments (full and reduced), on the basis of the extension of coarticulation phenomena. The main criterion underlying the building of the speech segments inventory was to preserve reduced segments and vowel clusters. Nevertheless, some of the reduced segments were split, aiming at reducing the size of the inventory. Once again, in this case, specific linguistic criteria were employed, in order to minimize spectral discontinuities after concatenation / Mestrado / Mestre em Engenharia Elétrica
|
8 |
Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiroSAMPAIO NETO, Nelson Cruz 17 June 2011 (has links)
Submitted by Samira Prince (prince@ufpa.br) on 2012-06-06T14:12:29Z
No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-06T14:13:13Z (GMT) No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) / Made available in DSpace on 2012-06-06T14:13:13Z (GMT). No. of bitstreams: 2
Tese_FerramentasRecursosLivres.pdf: 1397799 bytes, checksum: d17f058a4d4705205300467cd7b7a59a (MD5)
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Previous issue date: 2011 / FAPESPA - Fundação Amazônia de Amparo a Estudos e Pesquisas / Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem
da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do
sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um
conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para
PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada
para o problema em questão. / Automatic speech recognition and text-to-speech systems have modules that depend on the language and, while there are many public resources for some languages (e.g. English and Japanese), the resources for Brazilian Portuguese (BP) are still limited. Another aspect is that for many tasks the current speech recognition system error rate is still high, when compared
to that obtained by humans. Thus, despite the success of hidden Markov models (HMM), it
is necessary to investigate new methods. This work has these two facts as motivation and is divided into two parts. The first part describes the resources and free tools developed for BP speech recognition and synthesis, consisting of text and audio databases, phonetic dictionary, grapheme-to-phone converter, syllabification module, language and acoustic models. All of them are publicly available and, together with a proposed application programming interface,
have been used for the development of several new real-time applications, including a speech module for the OpenOffice suite. Performance tests are presented for evaluating the developed systems. The resources make easier the adoption of BP speech technologies by other academic
groups, developers and industry. The second part of this work presents a new method for
rescoring the recognition result obtained via HMMs, with the result being organized as a lattice. More specifically, the system uses discriminative classifiers that aim at reducing the confusability between pairs of phones. For each of these binary problems, automatic feature selection techniques are used to choose the proper parametric representation for the specific problem.
|
9 |
Desenvolvimento de aplicativos usando reconhecimento e síntese de vozSAMPAIO NETO, Nelson Cruz 30 August 2006 (has links)
Submitted by Edisangela Bastos (edisangela@ufpa.br) on 2013-01-08T18:29:15Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5) / Approved for entry into archive by Ana Rosa Silva(arosa@ufpa.br) on 2013-01-17T14:10:48Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5) / Made available in DSpace on 2013-01-17T14:10:49Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_DesenvolvimentoAplicativosReconhecimento.pdf: 383779 bytes, checksum: 1bbfef9c6a7a070ce4816598bc9f3462 (MD5)
Previous issue date: 2006 / A fala é um mecanismo natural para a interação homem-máquina. A tecnologia de processamento de fala (ou voz) encontra-se bastante avançada e, em escala mundial, existe vasta disponibilidade de software, tanto comercial quanto acadêmico. a maioria assume a disponibilidade de um reconhecedor e/ou sintetizador, que pode ser programado via API. Ao contrário do que ocorre, por exemplo, na língua inglesa, inexiste atualmente uma gama variada de recursos para o português brasileiro. O presente trabalho discute alguns esforços realizados nesse sentido, avaliando a utilização da SAPI E JSAPI, que são as APIs da Microsoft e Sun, respectivamente. Serão apresentados, outrossim, exemplos de aplicativos: uma aplicação CALL (baseada em SAPI) usando síntese em inglês e português, reconhecimento em inglês e agentes visuais; e uma proposta para agregar reconhecimento e síntese de voz ao chat IRC através de APIs Java. / Speech is a natural mechanism for human-machine interaction. Speech (or voice) technology is a well-developed field when one considers the international community. There is a wide variety of academic and industrial software. The majority of them assumes a recognizer or synthesizer is available, and can be programmed through an
API. In contrast, there are no such resources in public domain for Brazilian Portuguese.
This work discusses some of these issues and compares SAPI and JSAPI, which are
APIs promoted by Microsoft and Sun, respectively. We also present two examples:
a CALL application using SAPI-based speech synthesis in English and Portuguese,
recognition in English, and visual agents; and a JSAPI-based software that incorporates
speech synthesis and recognition to IRC through Java APIs.
|
10 |
Implementação do sintetizador de formantes de Klatt em ponto-fixo utilizando o processador TMS320C25Silva, Edgard Luciano Oliveira da, 1967- 04 October 1996 (has links)
Orientador: Jose Geraldo Chiquito / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-21T19:05:42Z (GMT). No. of bitstreams: 1
Silva_EdgardLucianoOliveirada_M.pdf: 6753872 bytes, checksum: 7efe80d7892facf6075c52b08b8fca5f (MD5)
Previous issue date: 1996 / Resumo: O presente trabalho trata da implementação do software do sintetizador de formantes cascata/paralelo de Klatt em ponto-fixo no TMS320C25. Neste trabalho, os efeitos da aritmética de ponto-fixo, a qual requer uma série de cuidados que por vezes desprezamos na implementação em ponto-flutuante, assim como o sintetizador de formantes de Klatt e o CI-TMS320C25, são estudados em detalhes. Uma base teórica sobre o processo de produção da fala e suas características são apresentados nos capítulos iniciais. Modificações no diagrama de blocos do sintetizador são feitas com o objetivo de se alcançar um melhor desempenho computacional. As características de voz do autor são apresentadas e um exemplo de síntese é realizado. A análise dos resultados obtidos é feita a partir de espectrogramas de banda larga e através da análise LPC / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica
|
Page generated in 0.0791 seconds