Global ETD Search

1	Proposta de metodologia de avaliação de voz sintética com ênfase no ambiente educacional / Methodology for evaluation of synthetic speech emphasizing the educational environment Leite, Harlei Miguel de Arruda, 1989- 06 September 2014 (has links) Orientador: Dalton Soares Arantes / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-25T15:09:09Z (GMT). No. of bitstreams: 1 Leite_HarleiMigueldeArruda_M.pdf: 3631088 bytes, checksum: b997adfa6f8915d31a23e0eb6daf0cc3 (MD5) Previous issue date: 2014 / Resumo: A principal contribuição desta dissertação é a proposta de uma metodologia de avaliação de voz sintetizada. O método consiste em um conjunto de etapas que buscam auxiliar o avaliador nas etapas de planejamento, aplicação e análise dos dados coletados. O método foi originalmente desenvolvido para avaliar um conjunto de vozes sintetizadas para encontrar a voz que melhor se adapta a ambientes de educação a distância usando avatares. Também foram estudadas as relações entre inteligibilidade, compreensibilidade e naturalidade a fim conhecer os fatores a serem considerados para aprimorar os sintetizadores de fala. Esta dissertação também apresenta os principais métodos de avaliação encontrados na literatura e o princípio de funcionamento dos sistemas TTS / Abstract: This thesis proposes, as main contribution, a new synthesized voice evaluation methodology. The method consists of a set of steps that seek to assist the assessor in the stages of planning, implementation and analysis of data collected. The method was originally developed to evaluate a set of synthesized voices to find the voice that best fits the environments for distance education using avatars. Relations between intelligibility, comprehensibility and naturalness were studied in order to know the factors to be considered to enhance the speech synthesizers. This thesis also presents the main evaluation methods in the literature and how TTS (Text-to-Speech) systems work / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Síntese da voz Sistemas de processamento da fala Ambiente educacional Fala Fala - Inteligibilidade Voice synthesis Speech processing system Educational environment Voice Speech - Intelligibility
2	Uso de parâmetros multifractais no reconhecimento de locutor / Use of multifractal parameters for speaker recognition González González, Diana Cristina, 1984- 19 August 2018 (has links) Orientadores: Lee Luan Ling, Fábio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Elétrica e de Computação / Made available in DSpace on 2018-08-19T05:40:32Z (GMT). No. of bitstreams: 1 GonzalezGonzalez_DianaCristina_M.pdf: 2589944 bytes, checksum: ddbbbef6076eb402f4abe638ebcd232b (MD5) Previous issue date: 2011 / Resumo: Esta dissertação apresenta a implementação de um sistema de Reconhecimento Automático de Locutor (ASR). Este sistema emprega um novo parâmetro de características de locutor baseado no modelo multifractal "VVGM" (Variable Variance Gaussian Multiplier). A metodologia adotada para o desenvolvimento deste sistema foi formulada em duas etapas. Inicialmente foi implementado um sistema ASR tradicional, usando como vetor de características os MFCCs (Mel-Frequency Cepstral Coefficients) e modelo de mistura gaussiana (GMM) como classificador, uma vez que é uma configuração clássica, adotada como referência na literatura. Este procedimento permite ter um conhecimento amplo sobre a produção de sinais de voz, além de um sistema de referência para comparar o desempenho do novo parâmetro VVGM. A segunda etapa foi dedicada ao estudo de processos multifractais em sinais de fala, já que eles enfatizam-se na análise das informações contidas nas partes não estacionárias do sinal avaliado. Aproveitando essa característica, sinais de fala são modelados usando o modelo VVGM. Este modelo é baseado no processo de cascata multiplicativa binomial, e usa as variâncias dos multiplicadores de cada estágio como um novo vetor de característica. As informações obtidas pelos dois métodos são diferentes e complementares. Portanto, é interessante combinar os parâmetros clássicos com os parâmetros multifractais, a fim de melhorar o desempenho dos sistemas de reconhecimento de locutor. Os sistemas propostos foram avaliados por meio de três bases de dados de fala com diferentes configurações, tais como taxas de amostragem, número de falantes e frases e duração do treinamento e teste. Estas diferentes configurações permitem determinar as características do sinal de fala requeridas pelo sistema. Do resultado dos experimentos foi observado que o sistema de identificação de locutor usando os parâmetros VVGM alcançou taxas de acerto significativas, o que mostra que este modelo multifractal contém informações relevantes sobre a identidade de cada locutor. Por exemplo, a segunda base de dados é composta de sinais de fala de 71 locutores (50 homens e 21 mulheres) digitalizados a 22,05 kHz com 16 bits/amostra. O treinamento foi feito com 20 frases para cada locutor, com uma duração total de cerca de 70 s. Avaliando o sistema ASR baseado em VVGM, com locuções de teste de 3 s de comprimento, foi obtida uma taxa de reconhecimento de 91,30%. Usando estas mesmas condições, o sistema ASR baseado em MFCCs atingiu uma taxa de reconhecimento de 98,76%. No entanto, quando os dois parâmetros foram combinados, a taxa de reconhecimento aumentou para 99,43%, mostrando que a nova característica acrescenta informações importantes para o sistema de reconhecimento de locutor / Abstract: This dissertation presents an Automatic Speaker Recognition (ASR) system, which employs a new parameter based on the ¿VVGM? (Variable Variance Gaussian Multiplier) multifractal model. The methodology adopted for the development of this system is formulated in two stages. Initially, a traditional ASR system was implemented, based on the use of Mel-Frequency Cepstral Coefficients (MFCCs) and the Gaussian mixture models (GMMs) as the classifier, since it is the method with the best results in the literature. This procedure allows having a broad knowledge about the production of speech signals and a reference system to compare the performance of the new VVGM parameter. The second stage was dedicated to the study of the multifractal processes for speech signals, given that with them, it is possible to analyze information contained in non-stationary parts of the evaluated signal. Taking advantage of this characteristic, speech signals are modeled using the VVGM model, which is based on the binomial multiplicative cascade process, and uses the variances of multipliers for each state as a new speech feature. The information obtained by the two methods is different and complementary. Therefore, it is interesting to combine the classic parameters with the multifractal parameters in order to improve the performance of speaker recognition systems. The proposed systems were evaluated using three databases with different settings, such as sampling rates, number of speakers and phrases, duration of training and testing. These different configurations allow the determination of characteristics of the speech signal required by the system. With the experiments, the speaker identification system based on the VVGM parameters achieved significant success rates, which shows that this multifractal model contains relevant information of the identity of each speaker. For example, the second database is composed of speech signals of 71 speakers (50 men and 21 women) digitized at 22.05 kHz with 16 bits/sample. The training was done with 20 phrases for each speaker, with an approximately total duration of 70 s. Evaluating the ASR system based on VVGM, with this database and using test locutions with 3s of duration, it was obtained a recognition rate of 91.3%. Using these same conditions, the ASR system based on MFCCs reached a recognition rate of 98.76%. However, when the two parameters are combined, the recognition rate increased to 99.43%, showing that the new feature adds substantial information to the speaker recognition system / Mestrado / Telecomunicações e Telemática / Mestre em Engenharia Elétrica Multifractais Reconhecimento automático da voz Gaussian distribution Sistemas de processamento da fala Multifractal Automatic speech recognition Gaussian distribution Speech processing system
3	[en] MODIFIED INTERPOLATION OF LSFNULLS / [pt] INTERPOLAÇÃO MODIFICADA DE LSFNULLS CARLOS ROBERTO DA COSTA FERREIRA 25 October 2006 (has links) [pt] Os novos serviços de telecomunicações têm impulsionado o desenvolvimento de melhorias nos algoritmos de codificação de voz, devido à necessidade de se melhorar a qualidade da voz codificada, utilizando a menor taxa de transmissão possível. Esta dissertação analisa e propõem melhorias em um método para o ajuste de parâmetros LSFs de modo a torná- los mais precisos, minimizando as perdas no processo de interpolação de LSFs codificadas. Com isso, a percepção de qualidade da voz sintetizada na saída do decodificador é aumentada, sem que seja necessário aumento da taxa de transmissão. É apresentada de modo detalhado toda a dedução matemática do método citado. Para a avaliação de desempenho das melhorias propostas, o processo de ajuste é implementado em um codificador a taxas médias inferiores a 2 kb/s. Os resultados confirmam que é possível obter redução significativa nas medidas de distorção com a utilização do ajuste de LSFs. / [en] The new telecommunications services have been pushing forward the development of improvements in speech coding, because of the need to improve coded speech quality, using the smallest transmission rate possible. This thesis analyzes and proposes improvements in a method to adjust LSF parameters so they get more accurate, minimizing the losses in the coded LSFs interpolation process. With this, the synthesized speech perceptual quality in the decoder exit is increased, without having to increase the transmission rate. The mathematical deduction of the method is presented in a detailed way. To evaluate the performance of the proposed improvements, the adjust process is implemented in a speech coder with mean rates less than 2 kb/s. The results confirmed that is possible to obtain significant reduction in distortion measures using the adjustment of LSFs. [pt] PROCESSAMENTO DE SINAIS [en] SIGNAL PROCESSING [pt] ENGENHARIA ELETRICA [en] ELECTRICAL ENGINNERING [pt] TECNICAS DIGITAIS [en] DIGITAL TECHNICS [pt] SISTEMA DE PROCESSAMENTO DA FALA [en] SPEECH PROCESSING SYSTEM

1

Page generated in 0.2965 seconds