Spelling suggestions: "subject:"processamento dde voz"" "subject:"processamento dee voz""
11 |
Implementação de um sistema de alteração no retorno auditivo de vozBortoletto, Antonio Carlos January 2014 (has links)
Orientador: Prof. Dr. Celso Setsuo Kurashima / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, 2014. / Alteração no Retorno Auditivo é um tipo de terapia fonoaudiológica destinada
a pessoas que sofrem de gagueira enquanto distúrbio de fala. Neste sistema faz-se
a pessoa ouvir sua própria voz no momento em que está falando, criando
artificialmente uma fala em coro. A utilização deste tipo de terapia é investigada há
mais de 50 anos, e tem demonstrado resultados de melhora na fluência da fala em
grande parcela de pessoas que sofrem de gagueira. Diversos outros estudos
relatam a diferença do uso de Alteração no Retorno Auditivo em ambiente
laboratorial em relação às situações de vida diária. Estas diferenças ocorrem devido
às condições laboratoriais de dispositivos de Retorno Auditivo serem livres de ruídos
do ambiente, enquanto que em condições de vida diária a pessoa que gagueja está
sujeita a todo tipo de ruído de um ambiente real. Este trabalho de pesquisa avaliou
uma implementação de sistema de Alteração de Retorno Auditivo, e investigou o
efeito da melhoria de voz com ruído para esses sistemas. O sistema foi simulado
computacionalmente e implementado em plataforma DSP de ponto fixo. Verificou-se
que o filtro de ruído aplicado ao sistema resultou em melhora perceptual da
qualidade de voz. Verificou-se também que o sistema é viável para execução em
tempo real na plataforma DSP de ponto fixo utilizada na pesquisa. Este trabalho traz
as seguintes contribuições: a confirmação da viabilidade de implementação de
sistema de Alteração no Retorno Auditivo numa plataforma DSP de ponto fixo; e
resultados da avaliação da melhora perceptual da qualidade de voz na presença de
ruído ambiente para esses sistemas. / Altered Auditory Feedback is a speech therapy aimed to people who suffer
from stuttering. The person who stutters hears his own voice when he is talking. This
artificially creates a chorus speech effect. This type of therapy has been investigated
for over 50 years, and the results have demonstrated improved speech fluency in a
large portion of people who suffer from stuttering. However, several other studies on
the usage of Altered Auditory Feedback devices have reported differences of results
between quiet laboratory environments and daily life conditions. These differences
occur mainly because the laboratory test conditions for Altered Auditory Feedback
devices are free of ambient noise, while in conditions of daily life the stutterer is
subject to all kinds of noise in a real environment. This research evaluated an
implementation of Altered Auditory Feedback system, and investigated the effect of
enhancement on noisy speech for these systems. The system was computationally
simulated and also was implemented in fixed-point DSP platform. It is noticeable that
the noise filter applied to the system resulted in perceptual speech enhancement
quality. It is also noticeable that the system is viable for real-time execution in the
fixed-point DSP platform used in the research. This work presents the following
contributions: confirmation of the viability of implementing Altered Auditory Feedback
system in a fixed-point DSP platform; and analysis results of the perceptual quality of
enhanced speech in the presence of environmental noise for these systems.
|
12 |
Algoritmo para determinação da taxa de transmissão em uma rede IP. / Algorithm to transmission rate determination in an IP network.Zegarra Rodríguez, Demóstenes 24 September 2009 (has links)
A comunicação de Voz sobre IP (VoIP) vem aumentando com o decorrer do tempo e as redes de comunicação estão se tornando cada vez mais congestionadas, ocasionando perda de pacotes e latência nas redes, prejudicando diretamente a qualidade das comunicações de voz. Neste trabalho, foi estudado em detalhe como a qualidade do sinal de voz transmitido em uma comunicação VoIP é afetada por parâmetros da rede e pelo tipo de codificador utilizado na comunicação. Uma contribuição importante deste trabalho é a apresentação de uma metodologia que serve para predizer o comportamento de um codificador de voz em diferentes cenários de redes. O estabelecimento de um mecanismo de controle que otimize a utilização da rede e ao mesmo tempo garanta a melhor qualidade possível do sinal de voz transmitido vem sendo motivo de pesquisa. O emprego de codificadores multitaxa nas comunicações de voz possibilita a implementação de algoritmos que controlem a comutação destas taxas de codificação baseados em diferentes fatores de decisão como as características do sinal de voz a ser transmitido ou empregando a informação dos parâmetros de rede. Este trabalho apresenta um algoritmo de determinação de taxa de codificação com fator de decisão baseado na qualidade do sinal avaliada no ponto da recepção ou em algum ponto intermediário. Para realização dos testes montou-se um cenário de emulação de rede IP para o estabelecimento de uma chamada VoIP, onde são utilizados codificadores multitaxa (ITU-T G.726 e Speex). Para avaliação da qualidade do sinal de voz foi utilizada a recomendação ITU-T P.563, sendo que o índice MOS obtido no ponto de recepção é transmitido utilizando um laço de transmissão, que forma parte da estrutura do mecanismo de controle apresentado neste trabalho. Este laço de transmissão é implementado via socket sobre uma comunicação UDP. Como as ferramentas utilizadas são todas freeware, o cenário de emulação pode ser facilmente implementado por demais pesquisadores. Os resultados obtidos são confiáveis, já que para cenários onde se mesclam diferentes taxas de codificação, o índice MOS obtido é um valor que está na faixa dos valores obtidos nos cenários onde se utilizou taxa de codificação única. O correto desempenho do mecanismo do RDA também foi verificado, sendo que a qualidade do sinal de voz decresce, o mecanismo de controle no RDA comuta a uma taxa de codificação menor, garantindo o melhor uso do canal de transmissão. Quando os parâmetros da rede passam a melhores condições, o índice MOS do sinal aumenta e o RDA comuta a uma taxa de codificação maior obtendo uma qualidade mais alta na comunicação. / Voice over IP (VoIP) communications are becoming increasingly popular so that data communication networks are ever more prone to degradations like packet losses and rising latency. In this work, it was studied in detail how the quality of the speech signal transmitted in a VoIP communication is affected by parameters of the network and the type of codec used in the communication. An important contribution of this work is to predict the behavior of a speech codec in different network scenarios. The main goal of this research has been the development of an algorithm that constrains rate allocation to a speech communication for best quality according to current network resource availability. The use of multirate codecs in speech communications makes it possible to implement control algorithms for coding rate switching. They are based on speech signal features or network trafic parameters. This work presents an algorithm for the determination of coding rate with decision factor based on speech quality evaluated at the point of reception or intermediate points. For accomplishment of the tests, a scenario of emulation of an IP network for the establishment of a VoIP call was built, where multi-rate codecs are used (ITU-T G.726 and Speex). For evaluation of the quality of the speech signal the Recommendation ITU-T P.563 was used, where the MOS index obtained in the reception is transmitted using a transmission loop, as a part in the control mechanism in the proposed algorithm. This transmission loop consists of a UDP message sent on a socket. As the tools used are all freeware, the simulation scenarios can easily be implemented by other researchers. The results are trustworthy, because for multirate scenarios, the MOS index obtained is a value that is between the ones obtained in the single-rate scenarios. The correct performance of the mechanism of the RDA was also verified, so that when the quality of the signal decreases, the control mechanism in the RDA switches to a lower coding rate, ensuring the best use of the transmission canal. When the parameters of the network drive to best conditions, the MOS index of the signal increases and the RDA decides to switch to a higher coding rate achieving a higher communication quality.
|
13 |
Algoritmo para determinação da taxa de transmissão em uma rede IP. / Algorithm to transmission rate determination in an IP network.Demóstenes Zegarra Rodríguez 24 September 2009 (has links)
A comunicação de Voz sobre IP (VoIP) vem aumentando com o decorrer do tempo e as redes de comunicação estão se tornando cada vez mais congestionadas, ocasionando perda de pacotes e latência nas redes, prejudicando diretamente a qualidade das comunicações de voz. Neste trabalho, foi estudado em detalhe como a qualidade do sinal de voz transmitido em uma comunicação VoIP é afetada por parâmetros da rede e pelo tipo de codificador utilizado na comunicação. Uma contribuição importante deste trabalho é a apresentação de uma metodologia que serve para predizer o comportamento de um codificador de voz em diferentes cenários de redes. O estabelecimento de um mecanismo de controle que otimize a utilização da rede e ao mesmo tempo garanta a melhor qualidade possível do sinal de voz transmitido vem sendo motivo de pesquisa. O emprego de codificadores multitaxa nas comunicações de voz possibilita a implementação de algoritmos que controlem a comutação destas taxas de codificação baseados em diferentes fatores de decisão como as características do sinal de voz a ser transmitido ou empregando a informação dos parâmetros de rede. Este trabalho apresenta um algoritmo de determinação de taxa de codificação com fator de decisão baseado na qualidade do sinal avaliada no ponto da recepção ou em algum ponto intermediário. Para realização dos testes montou-se um cenário de emulação de rede IP para o estabelecimento de uma chamada VoIP, onde são utilizados codificadores multitaxa (ITU-T G.726 e Speex). Para avaliação da qualidade do sinal de voz foi utilizada a recomendação ITU-T P.563, sendo que o índice MOS obtido no ponto de recepção é transmitido utilizando um laço de transmissão, que forma parte da estrutura do mecanismo de controle apresentado neste trabalho. Este laço de transmissão é implementado via socket sobre uma comunicação UDP. Como as ferramentas utilizadas são todas freeware, o cenário de emulação pode ser facilmente implementado por demais pesquisadores. Os resultados obtidos são confiáveis, já que para cenários onde se mesclam diferentes taxas de codificação, o índice MOS obtido é um valor que está na faixa dos valores obtidos nos cenários onde se utilizou taxa de codificação única. O correto desempenho do mecanismo do RDA também foi verificado, sendo que a qualidade do sinal de voz decresce, o mecanismo de controle no RDA comuta a uma taxa de codificação menor, garantindo o melhor uso do canal de transmissão. Quando os parâmetros da rede passam a melhores condições, o índice MOS do sinal aumenta e o RDA comuta a uma taxa de codificação maior obtendo uma qualidade mais alta na comunicação. / Voice over IP (VoIP) communications are becoming increasingly popular so that data communication networks are ever more prone to degradations like packet losses and rising latency. In this work, it was studied in detail how the quality of the speech signal transmitted in a VoIP communication is affected by parameters of the network and the type of codec used in the communication. An important contribution of this work is to predict the behavior of a speech codec in different network scenarios. The main goal of this research has been the development of an algorithm that constrains rate allocation to a speech communication for best quality according to current network resource availability. The use of multirate codecs in speech communications makes it possible to implement control algorithms for coding rate switching. They are based on speech signal features or network trafic parameters. This work presents an algorithm for the determination of coding rate with decision factor based on speech quality evaluated at the point of reception or intermediate points. For accomplishment of the tests, a scenario of emulation of an IP network for the establishment of a VoIP call was built, where multi-rate codecs are used (ITU-T G.726 and Speex). For evaluation of the quality of the speech signal the Recommendation ITU-T P.563 was used, where the MOS index obtained in the reception is transmitted using a transmission loop, as a part in the control mechanism in the proposed algorithm. This transmission loop consists of a UDP message sent on a socket. As the tools used are all freeware, the simulation scenarios can easily be implemented by other researchers. The results are trustworthy, because for multirate scenarios, the MOS index obtained is a value that is between the ones obtained in the single-rate scenarios. The correct performance of the mechanism of the RDA was also verified, so that when the quality of the signal decreases, the control mechanism in the RDA switches to a lower coding rate, ensuring the best use of the transmission canal. When the parameters of the network drive to best conditions, the MOS index of the signal increases and the RDA decides to switch to a higher coding rate achieving a higher communication quality.
|
14 |
Uma ferramenta para projeto de sistemas de diálogos para call center baseados em asteriskBORGES FILHO, Estillac Lins Maciel 16 December 2013 (has links)
Submitted by Cleide Dantas (cleidedantas@ufpa.br) on 2014-06-27T12:56:41Z
No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_FerramentaProjetoSistemas.pdf: 2059482 bytes, checksum: 952bd15d234d34dafabfb46d59fd6e3e (MD5) / Approved for entry into archive by Ana Rosa Silva (arosa@ufpa.br) on 2014-09-05T14:30:26Z (GMT) No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_FerramentaProjetoSistemas.pdf: 2059482 bytes, checksum: 952bd15d234d34dafabfb46d59fd6e3e (MD5) / Made available in DSpace on 2014-09-05T14:30:26Z (GMT). No. of bitstreams: 2
license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)
Dissertacao_FerramentaProjetoSistemas.pdf: 2059482 bytes, checksum: 952bd15d234d34dafabfb46d59fd6e3e (MD5)
Previous issue date: 2013 / Este trabalho apresenta o aplicativo DialogBuilder, uma ferramenta de código aberto escrita em Java que disponibiliza ao usuário uma interface para projeto de sistemas de diálogos e exportação destes para implantação no software Asterisk, o mais popular framework VoIP. O DialogBuilder disponibiliza um wizard para que o usuário leigo possa projetar seu sistema sem precisar aprender a programar para Asterisk. O software separa a fase de concepção do diálogo de sua codificação e se posiciona para tornar técnica e economicamente viável, mesmo para pequenas empresas, construir e manter sistemas de diálogo para aplicações telefônicas. / This work presents DialogBuilder, an open-source Java tool that provides to its user an interface for designing dialog systems and exporting them to code that can be
deployed in Asterisk, the most popular VoIP framework. DialogBuilder offers to the novice users a wizard so that they can design their own dialog system without learning the intricacies of programming for Asterisk. The software separates the stages of dialog conception and its programming and is positioned to make technically and economically viable, even for small businesses, to construct and maintain dialog systems for telephony applications.
|
15 |
Aplicação do método de fusão para verificação de locutor independente de textoSilva, Mayara Ferreira da January 2015 (has links)
Made available in DSpace on 2016-01-05T01:03:29Z (GMT). No. of bitstreams: 1
000476876-Texto+Completo-0.pdf: 2803272 bytes, checksum: 9305b74451ec83ddca38d1c444ffb3dd (MD5)
Previous issue date: 2015 / This work presents an overview of text independent speaker verification, describing the basic operation of the system and the reviewing some important developments in speaker modeling and feature extraction from speech. Following, a point of improvement identified within the feature extraction stage leads to the main objective of this work: to determine one or more sets of coefficients relevant to speaker discrimination while minimizing the equal error rate (EER). The proposal is to replace the delta(Δ) and double-delta(Δ²) coefficients by a linear predictor code (LPC) for the mel frequency cepstral coefficients (MFCC). In addition, score level fusion is employed to combine the ouputs of MFCC-only and MFCC-LPC systems, as well as MFCC-only and MFCC-Δ-Δ² systems. In all cases, performance is evaluated with respect to variations of the signal to noise-ratio (SNR) in the tested audio. In addition, the work introduces a new Brazilian Portuguese speech repository containing free-speech from 155 males. Results and discussions are presented with a reflection on the expected outcomes, as well as general comments and observations. Finally, concludings remarks are made about the work, featuring future prospects regarding text independent speaker verification research. This work attained a 4% reduction in the EER compared to the reference system (MFCC-only), with best results occuring in the case fusion of MFCC-only and MFCC-Δ-Δ² scores. / Este trabalho apresenta uma visão geral acerca de verificação de locutor independente de texto, demonstrando o funcionamento básico do sistema e as principais referências de métodos já utilizados ao longo de anos para extração de características da fala e modelamento do locutor. Detectado um ponto a ser trabalhado dentro da etapa de extração de características, objetiva-se determinar coeficientes ou um conjunto destes relevantes para discriminação do locutor, com o intuito de minimizar a EER (Equal Error Rate). A proposta consiste em substituir os coeficientes delta(Δ) e double-delta(Δ2) por coeficientes de um preditor LPC (Linear Predictor Coding) o qual realiza a predição dos coeficientes MFCC (Mel Frequency Cepstral Coeficients). Além disso, aplica-se uma fusão a nível de score em função de sistemas baseados em MFCC e LPC. Outra análise discutida no trabalho é a fusão de um sistema MFCC com Δ e Δ².Um tópico também avaliado é com relação a variações de SNRs (Signal to Noise Ratios) nos áudios testados. Além disso, é elaborado um banco de falas em português brasileiro. Por fim, são expostos os resultados obtidos e é feita a análise dos mesmos, a fim de refletir sobre o que era esperado e levantar alguns comentários. Enfim, são feitas as considerações a respeito do trabalho, e elencadas as perspectivas futuras em torno das pesquisas de verificação de locutor independente de texto. Com este trabalho atingiu-se uma redução de 4% na taxa de erro igual (EER) em comparação ao sistema de referência, sendo que os melhores resultados foram apresentados pelo sistema que realiza um fusão do sistema MFCC com o Δ e Δ².
|
16 |
Transformada Wavelet na detecÃÃo de patologias da laringe / Wavelet Transform in the detection of pathologies of the larynxRaphael Torres Santos Carvalho 12 March 2012 (has links)
CoordenaÃÃo de AperfeiÃoamento de Pessoal de NÃvel Superior / A quantidade de mÃtodos nÃo invasivos de diagnÃstico tem aumentado devido à necessidade de exames simples, rÃpidos e indolores. Por conta do crescimento da tecnologia que fornece os meios necessÃrios para a extraÃÃo e processamento de sinais, novos mÃtodos de anÃlise tÃm sido desenvolvidos para compreender a complexidade dos sinais de voz. Este trabalho de dissertaÃÃo apresenta uma nova ideia para caracterizar os sinais de voz saudÃvel e patolÃgicos baseado em uma ferramenta matemÃtica amplamente conhecida na literatura, a Transformada Wavelet (WT). O conjunto de dados utilizado neste trabalho consiste de 60 amostras de vozes divididas em quatro classes de amostras, uma de indivÃduos saudÃveis e as outras trÃs de pessoas com nÃdulo vocal, edema de Reinke e disfonia neurolÃgica. Todas as amostras foram gravadas usando a vogal sustentada /a/ do PortuguÃs Brasileiro. Os resultados obtidos por todos os classificadores de padrÃes estudados mostram que a abordagem proposta usando WT à uma tÃcnica adequada para discriminaÃÃo entre vozes saudÃvel e patolÃgica, e apresentaram resultados similares ou superiores a da tÃcnica clÃssica quanto à taxa de reconhecimento. / The amount of non-invasive methods of diagnosis has increased due to the need for simple, quick and painless tests. Due to the growth of technology that provides the means for extraction and signal processing, new analytical methods have been developed to help the understanding of analysis of the complexity of the voice signals. This dissertation presents a new idea to characterize signals of healthy and pathological voice based on one mathematical tools widely known in the literature, Wavelet Transform (WT). The speech data were used in this work consists of 60 voice samples divided into four classes of samples: one from healthy individuals and three from people with vocal fold nodules, Reinkeâs edema and neurological dysphonia. All the samples were recorded using the vowel /a/ in Brazilian Portuguese. The obtained results by all the pattern classifiers studied indicate that the proposed approach using WT is a suitable technique to discriminate between healthy and pathological voices, since they perform similarly to or even better than classical technique, concerning recognition rates.
|
17 |
Aplica??o do m?todo de fus?o para verifica??o de locutor independente de textoSilva, Mayara Ferreira da 10 July 2015 (has links)
Submitted by Setor de Tratamento da Informa??o - BC/PUCRS (tede2@pucrs.br) on 2016-01-04T17:56:48Z
No. of bitstreams: 1
DIS_MAYARA_FERREIRA_DA_SILVA_COMPLETO.pdf: 2803272 bytes, checksum: 9305b74451ec83ddca38d1c444ffb3dd (MD5) / Made available in DSpace on 2016-01-04T17:56:48Z (GMT). No. of bitstreams: 1
DIS_MAYARA_FERREIRA_DA_SILVA_COMPLETO.pdf: 2803272 bytes, checksum: 9305b74451ec83ddca38d1c444ffb3dd (MD5)
Previous issue date: 2015-07-10 / Coordena??o de Aperfei?oamento de Pessoal de N?vel Superior - CAPES / This work presents an overview of text independent speaker verification, describing the
basic operation of the system and the reviewing some important developments in speaker
modeling and feature extraction from speech. Following, a point of improvement identified
within the feature extraction stage leads to the main objective of this work: to determine
one or more sets of coefficients relevant to speaker discrimination while minimizing the
equal error rate (EER). The proposal is to replace the delta(?) and double-delta(??)
coefficients by a linear predictor code (LPC) for the mel frequency cepstral coefficients
(MFCC). In addition, score level fusion is employed to combine the ouputs of MFCC-only
and MFCC-LPC systems, as well as MFCC-only and MFCC-?-?? systems. In all cases,
performance is evaluated with respect to variations of the signal to noise-ratio (SNR) in
the tested audio. In addition, the work introduces a new Brazilian Portuguese speech
repository containing free-speech from 155 males. Results and discussions are presented
with a reflection on the expected outcomes, as well as general comments and
observations. Finally, concludings remarks are made about the work, featuring future
prospects regarding text independent speaker verification research. This work attained a
4% reduction in the EER compared to the reference system (MFCC-only), with best results
occuring in the case fusion of MFCC-only and MFCC-?-?? scores. / Este trabalho apresenta uma vis?o geral acerca de verifica??o de locutor independente
de texto, demonstrando o funcionamento b?sico do sistema e as principais refer?ncias
de m?todos j? utilizados ao longo de anos para extra??o de caracter?sticas da fala e
modelamento do locutor. Detectado um ponto a ser trabalhado dentro da etapa de
extra??o de caracter?sticas, objetiva-se determinar coeficientes ou um conjunto destes
relevantes para discrimina??o do locutor, com o intuito de minimizar a EER (Equal Error
Rate). A proposta consiste em substituir os coeficientes delta(?) e double-delta(?2) por
coeficientes de um preditor LPC (Linear Predictor Coding) o qual realiza a predi??o dos
coeficientes MFCC (Mel Frequency Cepstral Coeficients). Al?m disso, aplica-se uma
fus?o a n?vel de score em fun??o de sistemas baseados em MFCC e LPC. Outra an?lise
discutida no trabalho ? a fus?o de um sistema MFCC com ? e ??. Um t?pico tamb?m
avaliado ? com rela??o a varia??es de SNRs (Signal to Noise Ratios) nos ?udios
testados. Al?m disso, ? elaborado um banco de falas em portugu?s brasileiro. Por fim,
s?o expostos os resultados obtidos e ? feita a an?lise dos mesmos, a fim de refletir sobre
o que era esperado e levantar alguns coment?rios. Enfim, s?o feitas as considera??es a
respeito do trabalho, e elencadas as perspectivas futuras em torno das pesquisas de
verifica??o de locutor independente de texto. Com este trabalho atingiu-se uma redu??o
de 4% na taxa de erro igual (EER) em compara??o ao sistema de refer?ncia, sendo que
os melhores resultados foram apresentados pelo sistema que realiza um fus?o do
sistema MFCC com o ? e ??.
|
Page generated in 0.1063 seconds