Spelling suggestions: "subject:"íntese dde fall"" "subject:"íntese dee fall""
1 |
Síntese de fala em português brasileiro baseada em modelos ocultos de MarkovFrancisco Soares de Souza, Carlos 31 January 2010 (has links)
Made available in DSpace on 2014-06-12T15:55:58Z (GMT). No. of bitstreams: 2
arquivo2336_1.pdf: 1261229 bytes, checksum: 95035af35c94363c8e59a5bd6cf8bc31 (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2010 / O avanço da tecnologia nos conduz a uma relação cada vez mais próxima a computadores
e outros dispositivos eletrônicos. Juntos a este avanço dos equipamentos está a evolução
das interfaces humano-maquina que auxiliam nesta relação nem sempre agradável. Assim
sendo, o desenvolvimento de sistemas que têm como objetivo tornar esta comunicação
mais natural e agradável tem estado em foco, e dentre estes, os sistemas de processamento
de fala são excelentes opções, pois permitem esta interação com equipamentos através da
fala, como na comunicação humana tradicional. Atualmente, tanto o reconhecimento de
fala quanto a síntese já se fazem presentes no dia-a-dia, como reconhecedores de palavras
no pré-atendimento de call centers de empresas, ou fala sintética para se comunicar com
o usuário em equipamentos de navegação GPS, leitores de mensagens de celular e e-mail,
dentre outros. O uso de modelos ocultos de Markov em processamento de fala tem
alcançado excelentes resultados, primeiramente em reconhecimento, onde foram suas
primeiras aplicações e as que obtiveram maior destaque, e atualmente também em síntese,
superando inclusive aspectos negativos de outras abordagens, como a necessidade de uma
extensa base de dados de unidades fonéticas para obter bons resultados. Esta dissertação
apresenta o desenvolvimento de um sintetizador de fala para o idioma português falado
no Brasil, baseado em modelos ocultos de Markov. Este trabalho aborda a construção de
um algoritmo de determinação da sílaba tônica de palavras, um algoritmo de conversão
de grafemas em fonemas, e um algoritmo de separação silábica de palavras transcritas
foneticamente. Por conseguinte, apresenta a técnica e suas características aplicadas à
síntese de fala
|
2 |
Estudo comparativo e técnicas de geração de sinal para a síntese da falaBarros, Maria João Almeida de Sá January 2002 (has links)
Dissertação apresentada para obtenção do grau de Mestre em Engenharia Electrotécnica e de Computadores (Área de Especialização de Telecomunicações), na Faculdade de Engenharia da Universidade do Porto, sob a orientação do Professor Diamantino Rui da Silva Freitas
|
3 |
As consoantes plosivas do PB: um estudo acústico e perceptivo sobre dados de fala de sujeitos com deficiência auditivaPereira, Lílian Cristina Kuhn 13 November 2012 (has links)
Made available in DSpace on 2016-04-28T18:22:36Z (GMT). No. of bitstreams: 1
Lilian Cristina Kuhn Pereira.pdf: 4205297 bytes, checksum: a0524987e32bd100e253217474abad56 (MD5)
Previous issue date: 2012-11-13 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The link between speech perception and production is poorly considered in studies of hearing impairment in Brazil. This study follows a line of investigation that considers the relationship between speech production and perception in different contexts of speech in the same say as other studies previoulsly performed, which have investigated consonant and vowel sounds of Brazilian Portuguese (BP) based on the theoretical assumptions of Acoustic Theory of Speech Production (Fant, 1960) and the Articulatory Phonology (Browman & Goldstein, 1986, 1990, 1992). This particular research aims to investigate the main acoustic parameters involved in identifying the voicing of plosives (/p/, /b/, /t/, /d/, /k/e /g/) of Brazilian Portuguese, and the consequences of hearing impairment for speech production and perception of this class of sounds. For that purpose, this study involves an acoustic analysis of speech production, from one subject with no hearing impairment (reference S1) and two hearing-impaired subjects (S2 e S3) with moderate and profound hearing loss. The corpus consists in of six paroxytone disyllable words, to which the stressed consonant is represented by one of the PB plosives: [p], [b], [t]. [d], [k] and [g], within the words "pata", "gata", "tata", "data", "cata" and "gata", inserted in the sentence-vehicle "say _________ (keyword) softly ". The parameters analyzed are: duration measures of (1) sentence, key-words, vowel-vowel units (or GIPC); (2) vowels [A1], [a2] and [A3]; (3) plosive consonants in accent position and non-accent position; (4) consonant elements: voiced bar (MBS), silence (IBS) e burst (plosão: is burst.). And also, (5) fundamental frequency (f0) and (6) F1, F2 e F3 of vowels [A1], [a2] and [A3], formants transition of F1, F2 e F3 of [a2]. The speech perception experiment was constituted by two perception tests from S2 and S3 speech productions with thirty normal hearing judges with no hearing impairment. The S1 speech production was submitted to four types of manipulation for the duration parameter. And then, it was submitted to a perception test for the same group of judges. The results showed that there is a close connection between the altered parameters and progression of hearing loss. The subject S2 - moderate degree showed very similar patterns with S1. It was noted that the Subject 3 (profound degree) had all the analyzed parameters altered. The speech perception tests results had the same behavior: most of answers of S4 samples were different form the words asked to be produced. Otherwise, for S2, most of responses were correct. The pilot study of manipulation speech could prove the relevance of the duration parameter for identification of both points of articulation and/or voicing parameter. With this study, it was concluded that the instances of production and speech perception are intrinsically linked / O vínculo entre a produção e a percepção de fala é ainda pouco investigado nos estudos sobre deficiência auditiva no Brasil. Dentre os trabalhos de pesquisa existentes, os realizados no Laboratório Integrado de Análise Acústica e Cognição (LIAAC) da PUCSP enfocaram sons vocálicos e consonantais do Português Brasileiro (PB), com base nos pressupostos teóricos da Teoria Acústica de Produção de Fala e da Fonologia Articulatória. O presente estudo segue essa mesma orientação e tem como objetivos investigar a produção das consoantes plosivas do PB por dois sujeitos portadores de deficiência auditiva (DA) de graus moderado e profundo (S2 e S3, respectivamente), confrontando-as com as de um sujeito sem alteração de fala (S1), e pesquisar os efeitos dessas produções em ouvintes. Para concretizar esses objetivos foram empregados métodos de análise fonético-acústica, testes de avaliação perceptiva e técnicas de manipulação do sinal acústico da fala. O corpus foi composto por seis palavras dissílabas paroxítonas, em que a consoante tônica era representada por uma das plosivas do PB: [p], [b], [t]. [d], [k] e [g], originando as palavras pata , bata , tata , data , cata e gata , inseridas na frase-veículo diga palavra-chave baixinho . Utilizou-se o software Praat para se analisar dois parâmetros acústicos: duração e frequencia. Foram medidas as durações em ms de: (1) Sentenças-veículo, palavras-chave, unidades vogal-vogal; (2) Vogais [A1], [a2] e [A3]; (3) Consoantes plosivas em posição tônica [C1] e pós-tônica [t] na palavra-chave; (4) Elementos da consoante plosiva relacionados ao VOT: manutenção da barra de sonoridade (MBS), interrupção da barra de sonoridade (IBS) e plosão. Também, foram extraídas as medidas de (5) frequência fundamental (f0) e de (6) frequência dos primeiro, segundo e terceiro formantes (F1, F2 e F3) no onset das vogais [A1], [a2] e [A3] e de (7) transição de formantes F1, F2 e F3 na vogal [a2]. Para um aprofundamento no estudo do parâmetro de duração, realizou-se nas produções de fala do sujeito S1, quatro tipos de manipulação na consoante em posição tônica [C1]: M1 retirada de metade do intervalo de duração da consoante anterior à plosão, M2- retirada total do intervalo de duração da consoante anterior à plosão, envolvendo, portanto a retirada de [MBS] ou [IBS], M3 retirada total do intervalo anterior ao onset da vogal subsequente à plosiva, e M4- aplicação do comando set selection to zero , eliminando a barra de sonoridade, mas conservando o intervalo de duração do silêncio correspondente ao período de obstrução na produção da consoante plosiva. Para a avaliação perceptiva das produções de fala dos sujeitos com deficiência, S2 e S3, e dos estímulos manipulados (M1, M2, M3 e M4), foram aplicados testes de percepção em um grupo de 30 juízes ouvintes. Os resultados dos testes de percepção foram comparados aos resultados da análise acústica das produções de fala. Para S3, a maioria dos julgamentos foi distinta da produção pretendida/solicitada pelo/ao sujeito. Em relação às produções de S2, constataram-se altos índices de julgamentos corretos sobre o ponto de articulação e vozeamento das consoantes. Observou-
xxv
se, portanto, que há uma relação entre os parâmetros alterados e a progressão do grau da perda auditiva, em que o sujeito S2 DA moderada apresentou padrão de fala muito semelhante ao do sujeito S1 e distinto de S3. Os resultados dos testes de percepção manipulados mostraram que a identificação da consoante [b] foi afetada por dois tipos de manipulação (M3 e M4), em oposição a não-modificação de [d] e [g] frente às quatro manipulações. Os resultados indicam que as pistas acústicas de duração do pré-vozeamento (duração do VOT negativo) foram relevantes para a percepção das consoantes plosivas bilabiais vozeadas, e que, para as plosivas alveolares e velares vozeadas o intervalo de vozeamento entre a plosão e o onset da vogal subsequente à consoante plosiva foi suficiente para a percepção do vozeamento. De modo geral, verificou-se ainda que as variáveis de duração total da palavra-chave, da duração barra de sonoridade (MBS e IBS) e da plosão foram relevantes para a identificação correta de vozeamento e/ou ponto de articulação. Os resultados obtidos neste estudo trazem evidências sobre relações que se estabelecem entre os domínios da produção e percepção da fala, contribuindo para a construção de conhecimento sobre a fala dos portadores de deficiência auditiva e para a consideração de como o déficit em um dos domínios traz prejuízos para o outro
|
4 |
Tradução grafema-fonema para a língua portuguesa baseada em autômatos adaptativos. / Grapheme-phoneme translation for portuguese based on adaptive automata.Shibata, Danilo Picagli 25 March 2008 (has links)
Este trabalho apresenta um estudo sobre a utilização de dispositivos adaptativos para realizar tradução texto-voz. O foco do trabalho é a criação de um método para a tradução grafema-fonema para a língua portuguesa baseado em autômatos adaptativos e seu uso em um software de tradução texto-voz. O método apresentado busca mimetizar o comportamento humano no tratamento de regras de tonicidade, separação de sílabas e as influências que as sílabas exercem sobre suas vizinhas. Essa característica torna o método facilmente utilizável para outras variações da língua portuguesa, considerando que essas características são invariantes em relação à localidade e a época da variedade escolhida. A variação contemporânea da língua falada na cidade de São Paulo foi escolhida como alvo de análise e testes neste trabalho. Para essa variação, o modelo apresenta resultados satisfatórios superando 95% de acerto na tradução grafema-fonema de palavras, chegando a 90% de acerto levando em consideração a resolução de dúvidas geradas por palavras que podem possuir duas representações sonoras e gerando uma saída sonora inteligível aos nativos da língua por meio da síntese por concatenação baseada em sílabas. Como resultado do trabalho, além do modelo para tradução grafema-fonema de palavras baseado em autômatos adaptativos, foi criado um método para escolha da representação fonética correta em caso de ambigüidade e foram criados dois softwares, um para simulação de autômatos adaptativos e outro para a tradução grafema-fonema de palavras utilizando o modelo de tradução criado e o método de escolha da representação correta. Esse último software foi unificado ao sintetizador desenvolvido por Koike et al. (2007) para a criação de um tradutor texto-voz para a língua portuguesa. O trabalho mostra a viabilidade da utilização de autômatos adaptativos como base ou como um elemento auxiliar para o processo de tradução texto-voz na língua portuguesa. / This work presents a study on the use of adaptive devices for text-to-speech translation. The work focuses on the development of a grapheme-phoneme translation method for Portuguese based on Adaptive Automata and the use of this method in a text-to-speech translation software. The presented method resembles human behavior when handling syllable separation rules, syllable stress definition and influences syllables have on each other. This feature makes the method easy to use with different variations of Portuguese, since these characteristics are invariants of the language. Portuguese spoken nowadays in São Paulo, Brazil has been chosen as the target for analysis and tests in this work. The method has good results for such variation of Portuguese, reaching 95% accuracy rate for grapheme-phoneme translation, clearing the 90% mark after resolution of ambiguous cases in which different representations are accepted for a grapheme and generating phonetic output intelligible for native speakers based on concatenation synthesis using syllables as concatenation units. As final results of this work, a model is presented for grapheme-phoneme translation for Portuguese words based on Adaptive Automata, a methodology to choose the correct phonetic representation for the grapheme in ambiguous cases, a software for Adaptive Automata simulation and a software for grapheme-phoneme translation of texts using both the model of translation and methodology for disambiguation. The latter software was unified with the speech synthesizer developed by Koike et al. (2007) to create a text-to-speech translator for Portuguese. This work evidences the feasibility of text-to-speech translation for Portuguese using Adaptive Automata as the main instrument for such task.
|
5 |
Tradução grafema-fonema para a língua portuguesa baseada em autômatos adaptativos. / Grapheme-phoneme translation for portuguese based on adaptive automata.Danilo Picagli Shibata 25 March 2008 (has links)
Este trabalho apresenta um estudo sobre a utilização de dispositivos adaptativos para realizar tradução texto-voz. O foco do trabalho é a criação de um método para a tradução grafema-fonema para a língua portuguesa baseado em autômatos adaptativos e seu uso em um software de tradução texto-voz. O método apresentado busca mimetizar o comportamento humano no tratamento de regras de tonicidade, separação de sílabas e as influências que as sílabas exercem sobre suas vizinhas. Essa característica torna o método facilmente utilizável para outras variações da língua portuguesa, considerando que essas características são invariantes em relação à localidade e a época da variedade escolhida. A variação contemporânea da língua falada na cidade de São Paulo foi escolhida como alvo de análise e testes neste trabalho. Para essa variação, o modelo apresenta resultados satisfatórios superando 95% de acerto na tradução grafema-fonema de palavras, chegando a 90% de acerto levando em consideração a resolução de dúvidas geradas por palavras que podem possuir duas representações sonoras e gerando uma saída sonora inteligível aos nativos da língua por meio da síntese por concatenação baseada em sílabas. Como resultado do trabalho, além do modelo para tradução grafema-fonema de palavras baseado em autômatos adaptativos, foi criado um método para escolha da representação fonética correta em caso de ambigüidade e foram criados dois softwares, um para simulação de autômatos adaptativos e outro para a tradução grafema-fonema de palavras utilizando o modelo de tradução criado e o método de escolha da representação correta. Esse último software foi unificado ao sintetizador desenvolvido por Koike et al. (2007) para a criação de um tradutor texto-voz para a língua portuguesa. O trabalho mostra a viabilidade da utilização de autômatos adaptativos como base ou como um elemento auxiliar para o processo de tradução texto-voz na língua portuguesa. / This work presents a study on the use of adaptive devices for text-to-speech translation. The work focuses on the development of a grapheme-phoneme translation method for Portuguese based on Adaptive Automata and the use of this method in a text-to-speech translation software. The presented method resembles human behavior when handling syllable separation rules, syllable stress definition and influences syllables have on each other. This feature makes the method easy to use with different variations of Portuguese, since these characteristics are invariants of the language. Portuguese spoken nowadays in São Paulo, Brazil has been chosen as the target for analysis and tests in this work. The method has good results for such variation of Portuguese, reaching 95% accuracy rate for grapheme-phoneme translation, clearing the 90% mark after resolution of ambiguous cases in which different representations are accepted for a grapheme and generating phonetic output intelligible for native speakers based on concatenation synthesis using syllables as concatenation units. As final results of this work, a model is presented for grapheme-phoneme translation for Portuguese words based on Adaptive Automata, a methodology to choose the correct phonetic representation for the grapheme in ambiguous cases, a software for Adaptive Automata simulation and a software for grapheme-phoneme translation of texts using both the model of translation and methodology for disambiguation. The latter software was unified with the speech synthesizer developed by Koike et al. (2007) to create a text-to-speech translator for Portuguese. This work evidences the feasibility of text-to-speech translation for Portuguese using Adaptive Automata as the main instrument for such task.
|
Page generated in 0.0815 seconds