Return to search

Conversão do contorno de pitch por divisão de componentes para aplicação em sistemas de conversão de voz

Dissertação [mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia Elétrica, Florianópolis, 2009 / Made available in DSpace on 2012-10-24T08:27:22Z (GMT). No. of bitstreams: 1
275252.pdf: 868813 bytes, checksum: 20c260851cf8918c21ee9565cea6d946 (MD5) / Esta dissertação propõe uma nova técnica de conversão do contorno de pitch para aplicação em sistemas de conversão de voz. O principal objetivo deste trabalho é possibilitar a aplicação do método proposto aos mais diferentes tipos de sistemas de conversão de voz sem que para tanto seja necessário adaptar ou criar um novo banco de sinais de fala. A abordagem proposta considera o algoritmo MOMEL (modelling melody) para dividir o contorno de pitch levando em conta os componentes macroprosódico e microprosódico, sendo que cada um deles é convertido separadamente. A contribuição do componente macroprosódico, obtida pela interpolação dos dados usando a codificação INTSINT (international transcription system for intonation), é então convertida utilizando um modelo de misturas gaussianas (GMM); enquanto, a contribuição do componente microprosódico é convertida por seleção de segmentos de contorno de pitch. Os problemas inerentes à avaliação de desempenho dos sistemas de conversão de voz são discutidos e um parâmetro denominado índice de desempenho é modificado para permitir uma avaliação objetiva da conversão do contorno de pitch. O desempenho do método proposto é confrontado com dois dos métodos mais utilizados na literatura: conversão utilizando normalização gaussiana (GN) e GMM. O desempenho dos diferentes métodos considerados são avaliados através de dois testes subjetivos: de preferência e de similaridade. Os resultados obtidos ratificam a medida adotada, indicando uma preferência pelo método proposto através da melhoria significativa de desempenho frente aos demais métodos avaliados. A flexibilidade da nova abordagem possibilita ampla gama de aplicações nos mais variados tipos de sistemas de conversão de voz.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufsc.br:123456789/92392
Date24 October 2012
CreatorsOdebrecht Júnior, Marcos
ContributorsUniversidade Federal de Santa Catarina, Seara, Rui
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguagePortuguese
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/masterThesis
Formatxii, 54 f.| il., grafs., tabs.
Sourcereponame:Repositório Institucional da UFSC, instname:Universidade Federal de Santa Catarina, instacron:UFSC
Rightsinfo:eu-repo/semantics/openAccess

Page generated in 0.0019 seconds