1 |
Singing voice detection in polyphonic music signalsAllegro, Pedro Luís Cameira Sollari January 2008 (has links)
Estágio realizado no INESC e orientado pelo Prof. Fabien Gouyon / Tese de mestrado integrado. Engenharia Electrotécnica e de Computadores (Ramo Telecomunicações). Faculdade de Engenharia. Universidade do Porto. 2008
|
2 |
Uma aplicação de voz sobre IP baseada no Session Initiation ProtocolMaia da Silva Junior, Jucimar January 2006 (has links)
Made available in DSpace on 2014-06-12T17:40:34Z (GMT). No. of bitstreams: 2
arquivo7027_1.pdf: 1272687 bytes, checksum: c206e6550646b7fa69162772329c811f (MD5)
license.txt: 1748 bytes, checksum: 8a4605be74aa9ea9d79846c1fba20a33 (MD5)
Previous issue date: 2006 / Neste trabalho é implementada uma aplicação de Voz Sobre IP utilizando o Session Initiation
Protocol (SIP) como protocolo de sinalização. Para alcançar este objetivo, são analisadas
algumas tecnologias importantes, como os protocolos da Internet Engineering Task Force
(IETF) para Telefonia IP, codificadores de voz, e a utilização da aplicação para verificação de
atrasos, jitter e perda de pacotes. A aplicação foi desenvolvida em Java e pode facilmente ser
modificada para adequar novos codificadores de voz e características mais recentes que novas
especificações do SIP possam implementar
|
3 |
Codificador G729a orientado à avaliação da qualidade perceptual do sinal de vozWisnevski, Flávio Luis January 2011 (has links)
Made available in DSpace on 2013-08-07T18:53:24Z (GMT). No. of bitstreams: 1
000434559-Texto+Completo-0.pdf: 4621717 bytes, checksum: c4885f23273153ab3ddd4a325610aa74 (MD5)
Previous issue date: 2011 / This thesis presents a model that evaluates the perceptual quality of the enconding voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Currently the voice coding is evaluated by subjective parameters, where there is a perceptual analysis to improve the parameters that change dynamically. The objective of this study is improvement in the performance of the coded signal source, considering the limitations of working with the codec scalar variables. An analysis of the speech signals to improve input to the reader, allowing for better understanding and a theoretical description of the encoder G729a, emphasizing the stages of encoding scalar parameters, object of this study. The PESQ algorithm has been inserted into the coder, which by these means performs a perceptually based analysis of the speech signal. In so doing, we have also analyzed thoroughly ITU-T Recommendation P. 862 describing an algorithm for objectively evaluating perceptual speech quality. To validate the proposed methodology, test were performed for comparison which speech signals from the Timit database for studying the improvement in coded speech quality after the perceptual improvement algorithm applied to the scalar parameters in coding In the experiment, was performed in modified CS-ACELP coder using a perceptual analysis considering the evaluation of the PESQ algorithm for decision to operate on the encoding, resulting in higher quality signals to users, ensuring the stability of 72. 41% and 50. 38% of the frames better evaluated by PESQ. There was change in the pitch gain, without changing the essence of the codec. / Esta dissertação apresenta um modelo de codificador da voz que avalia a qualidade perceptual, utilizando-se um codificador paramétrico definido pela Recomendação do ITU-T, o G729a, conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Atualmente, a codificação de voz é avaliada por parâmetros subjetivos, em que não há uma análise para melhoria perceptual que altere os parâmetros dinamicamente. O objetivo deste trabalho é a melhoria no desempenho do sinal codificado na fonte, considerando as limitações de trabalhar com as variáveis escalares do codec. Foi realizada uma análise sobre os sinais de voz para dar subsídios ao leitor, possibilitando o entendimento teórico e uma descrição sobre o codificador G729a, enfatizando os estágios de codificação dos parâmetros escalares, objeto deste estudo. Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a análise perceptual do sinal de voz. Também foi avaliada recomendação P. 862 do ITU-T que descreve o algoritmo de avaliação da qualidade perceptual. Para validar a metodologia proposta, foram realizados experimentos em sinais de voz do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria perceptual devido à alteração dos parâmetros escalares de codificação do sinal. No experimento realizado, foi realizada a modificação no codificador CS-ACELP com a utilização de uma análise perceptual ponderando a avaliação do algoritmo do PESQ para decisão de atuação sobre a codificação, o que resultou em sinais de maior qualidade para os usuários, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados pelo PESQ. Houve alteração no ganho de pitch, sem a modificação da essência do codec.
|
4 |
Descritor de voz invariante ao ruídoViana, Hesdras Oliveira 26 February 2013 (has links)
Submitted by João Arthur Martins (joao.arthur@ufpe.br) on 2015-03-10T19:07:24Z
No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Approved for entry into archive by Daniella Sodre (daniella.sodre@ufpe.br) on 2015-03-10T19:43:06Z (GMT) No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) / Made available in DSpace on 2015-03-10T19:43:06Z (GMT). No. of bitstreams: 2
Dissertaçao Hesdras Viana.pdf: 2998238 bytes, checksum: de42b675472ac4632a3a3c04688a77d5 (MD5)
license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5)
Previous issue date: 2013-02-26 / Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento
de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental
(pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra
pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP
(RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient)
são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas
técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença
de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um
descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um
estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens,
expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS
(Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support
Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB,
5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu
para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant
to Noise and Environment and Robust for Speech), apresentou melhores resultados entre
todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP
e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o
classificador SVM.
|
5 |
Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals.Maciel, Rogério Carlos Vieira 14 July 2003 (has links)
Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise.
|
6 |
An?lise qualitativa/quantitativa de algoritmos para a compress?o de voz aplicados a redes de pacotesBecker, Ricardo 29 April 2009 (has links)
Made available in DSpace on 2015-04-14T13:56:16Z (GMT). No. of bitstreams: 1
414179.pdf: 2446042 bytes, checksum: f224eb8f5b4a233f7ee4f71ce3cea540 (MD5)
Previous issue date: 2009-04-29 / Este trabalho tem por objetivo o estudo, implementa??o e avalia??o de t?cnicas de compress?o de voz, baseadas na detec??o de per?odos de sil?ncio, aplicadas a redes de pacotes. Para tanto, foram estudados os conceitos fundamentais de processamento digital de sinais, incluindo aplica??es e modelos matem?ticos. Posteriormente, estudou-se a estrutura dos sistemas de transmiss?o de sinais de voz via redes de pacotes, em ess?ncia, sistemas de Voz sobre IP (VoIP). Nestes sistemas, foram vistas a aplicabilidade e princ?pios de funcionamento dos componentes de DSP, desde a pr?pria compress?o da voz, baseada nos per?odos de sil?ncio, bem como padr?es de codifica??o, cancelamento de eco, controle autom?tico de ganho e gera??o de ru?do de conforto. Posteriormente ? proposta ent?o a implementa??o de seis t?cnicas de compress?o de voz baseadas na combina??o de diferentes algoritmos aplicados na detec??o de per?odos de sil?ncio ou n?o da fala. Dentre os algoritmos aplicados, est? a an?lise no tempo e em frequ?ncia do conte?do de energia do sinal de voz, a an?lise do sinal na busca dos sons fricativos da fala, e ainda aplica??o de recobrimento e compensa??o por ru?do de conforto. Para a implementa??o das t?cnicas foram desenvolvidas ferramentas computacionais de testes, e para fins de valida??o e compara??o dos resultados foram utilizadas, com as devidas adapta??es, e descritas no trabalho, as recomenda??es P.800 (MOS) e P.862 (PESQ) do ITU-T, sendo estas entre as mais reconhecidas em termos de avalia??o da qualidade do sinal de ?udio percebido em sistemas de telecomunica??es. Por fim, s?o apresentados os resultados e as conclus?es, onde nos mesmos buscava-se um compromisso das implementa??es entre percentual estimado de economia de banda proporcionada a redes de pacotes, e n?vel de degrada??o do sinal de voz proporcionado pela aplica??o da compress?o, ao mesmo tempo em que sem comprometimento com alta demanda computacional do sistema. Neste sentido, se verificou que em termos de economia de banda proporcionada e qualidade do ?udio, as t?cnicas LSED, SFD e CVAD, todas implementadas no dom?nio frequ?ncia, apresentaram resultados bastante satisfat?rios, assim como a LED e ALED, implementadas no dom?nio do tempo, que tamb?m n?o ficaram muito atr?s em termos de resultados gerais. Tamb?m ficou claro o efeito da aplica??o do recobrimento e da compensa??o por ru?do de conforto amostrado do pr?prio microfone do locutor. Por fim, sugere-se um n?mero de possibilidades para a continuidade do trabalho, bem como evolu??o dos mesmos, tanto em termos de melhorias quanto na diversifica??o das aplica??es dos resultados.
|
7 |
Codificador G729a orientado ? avalia??o da qualidade perceptual do sinal de vozWisnevski, Fl?vio Luis 25 August 2011 (has links)
Made available in DSpace on 2015-04-14T13:56:22Z (GMT). No. of bitstreams: 1
434559.pdf: 4621717 bytes, checksum: c4885f23273153ab3ddd4a325610aa74 (MD5)
Previous issue date: 2011-08-25 / Esta disserta??o apresenta um modelo de codificador da voz que avalia a qualidade perceptual, utilizando-se um codificador param?trico definido pela Recomenda??o do ITU-T, o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP). Atualmente, a codifica??o de voz ? avaliada por par?metros subjetivos, em que n?o h? uma an?lise para melhoria perceptual que altere os par?metros dinamicamente. O objetivo deste trabalho ? a melhoria no desempenho do sinal codificado na fonte, considerando as limita??es de trabalhar com as vari?veis escalares do codec. Foi realizada uma an?lise sobre os sinais de voz para dar subs?dios ao leitor, possibilitando o entendimento te?rico e uma descri??o sobre o codificador G729a, enfatizando os est?gios de codifica??o dos par?metros escalares, objeto deste estudo.Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a an?lise perceptual do sinal de voz. Tamb?m foi avaliada recomenda??o P.862 do ITU-T que descreve o algoritmo de avalia??o da qualidade perceptual. Para validar a metodologia proposta, foram realizados experimentos em sinais de voz do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria perceptual devido ? altera??o dos par?metros escalares de codifica??o do sinal. No experimento realizado, foi realizada a modifica??o no codificador CS-ACELP com a utiliza??o de uma an?lise perceptual ponderando a avalia??o do algoritmo do PESQ para decis?o de atua??o sobre a codifica??o, o que resultou em sinais de maior qualidade para os usu?rios, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados pelo PESQ. Houve altera??o no ganho de pitch, sem a modifica??o da ess?ncia do codec.
|
8 |
Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals.Rogério Carlos Vieira Maciel 14 July 2003 (has links)
Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise.
|
9 |
Análise qualitativa/quantitativa de algoritmos para a compressão de voz aplicados a redes de pacotesBecker, Ricardo January 2009 (has links)
Made available in DSpace on 2013-08-07T18:53:17Z (GMT). No. of bitstreams: 1
000414179-Texto+Completo-0.pdf: 2446042 bytes, checksum: f224eb8f5b4a233f7ee4f71ce3cea540 (MD5)
Previous issue date: 2009 / This work aims at the study, implementation and evaluation of techniques for voice compression, based on detection of periods of silence, applied to packet networks. For that, were studied the fundamental concepts of digital signal processing, including applications and mathematical models. After that, were studied the transmission systems of voice signals by packet networks, in essence, Voice over IP (VoIP) systems. In this context, this work proposed the implementation of six techniques for compression of voice based on the combination of different algorithms using the detection of periods of silence in speech. Among the algorithms used, were done analysis of voice signal in time and frequency domain considering the analysis of energy content on voice signal, and also, the analysis of fricative sounds in speech, and the application of techniques for coating and for compensation by comfort noise. To implement the techniques, it was developed computational tools for testing, those were also used for evaluation and to compare the results using P. 800 (MOS) and P. 862 (PESQ) recommendations of ITU-T. Both, MOS and PESQ are accepted as techniques for assessing the quality of the voice signal perceived in telecommunications systems. Finally, the results and conclusions, as we can see results of bandwidth economy provided to networks, and the level of degradation of voice signal provided by the application of techniques, at the same time without compromising the system with high computational demands. We verify that in terms of bandwidth economy and quality of the audio provided by LSED, SFD and CVAD techniques, all of them, implemented in frequency domain with satisfactory results, as well as LED and ALED techniques, implemented in time domain, which also were not far behind in terms of overall results. Finally, it is suggested a number of possibilities for continuing the work and also improvements to applications in different subjects. / Este trabalho tem por objetivo o estudo, implementação e avaliação de técnicas de compressão de voz, baseadas na detecção de períodos de silêncio, aplicadas a redes de pacotes. Para tanto, foram estudados os conceitos fundamentais de processamento digital de sinais, incluindo aplicações e modelos matemáticos. Posteriormente, estudou-se a estrutura dos sistemas de transmissão de sinais de voz via redes de pacotes, em essência, sistemas de Voz sobre IP (VoIP). Nestes sistemas, foram vistas a aplicabilidade e princípios de funcionamento dos componentes de DSP, desde a própria compressão da voz, baseada nos períodos de silêncio, bem como padrões de codificação, cancelamento de eco, controle automático de ganho e geração de ruído de conforto. Posteriormente é proposta então a implementação de seis técnicas de compressão de voz baseadas na combinação de diferentes algoritmos aplicados na detecção de períodos de silêncio ou não da fala. Dentre os algoritmos aplicados, está a análise no tempo e em frequência do conteúdo de energia do sinal de voz, a análise do sinal na busca dos sons fricativos da fala, e ainda aplicação de recobrimento e compensação por ruído de conforto. Para a implementação das técnicas foram desenvolvidas ferramentas computacionais de testes, e para fins de validação e comparação dos resultados foram utilizadas, com as devidas adaptações, e descritas no trabalho, as recomendações P. 800 (MOS) e P. 862 (PESQ) do ITU-T, sendo estas entre as mais reconhecidas em termos de avaliação da qualidade do sinal de áudio percebido em sistemas de telecomunicações. Por fim, são apresentados os resultados e as conclusões, onde nos mesmos buscava-se um compromisso das implementações entre percentual estimado de economia de banda proporcionada a redes de pacotes, e nível de degradação do sinal de voz proporcionado pela aplicação da compressão, ao mesmo tempo em que sem comprometimento com alta demanda computacional do sistema. Neste sentido, se verificou que em termos de economia de banda proporcionada e qualidade do áudio, as técnicas LSED, SFD e CVAD, todas implementadas no domínio frequência, apresentaram resultados bastante satisfatórios, assim como a LED e ALED, implementadas no domínio do tempo, que também não ficaram muito atrás em termos de resultados gerais. Também ficou claro o efeito da aplicação do recobrimento e da compensação por ruído de conforto amostrado do próprio microfone do locutor. Por fim, sugere-se um número de possibilidades para a continuidade do trabalho, bem como evolução dos mesmos, tanto em termos de melhorias quanto na diversificação das aplicações dos resultados.
|
10 |
Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro / Conversion grapheme-phone for a system of recognition of voice with support the great vocabularies for the Brazilian PortugueseHOSN, Chadia Nadim Aboul 12 June 2006 (has links)
Made available in DSpace on 2011-03-23T21:19:13Z (GMT). No. of bitstreams: 0 / Item created via OAI harvest from source: http://www.bdtd.ufpa.br/tde_oai/oai2.php on 2011-03-23T21:19:13Z (GMT). Item's OAI Record identifier: oai:bdtd.ufpa.br:54 / Speech processing has become a data-driven technology. Hence, the success of research in this area is linked to the existence of public corpora and associated resources, as a phonetic dictionary. In contrast to other languages such as English, one cannot find, in public domain, a Large Vocabulary Continuos Speech Recognition (LVCSR) System for Brazilian Portuguese. This work discusses some efforts within the FalaBrasil initiative [1], developed by researchers, teachers and students of the Signal Processing Laboratory (LaPS) at UFPA, providing an overview of the research and softwares related to Automatic Speech Recognition (ASR) for Brazilian Portuguese. More specifically, the present work discusses the implementation of a large vocabulary ASR for Brazilian Portuguese using the HTK software, which is based on hidden Markov models (HMM). Besides, the work discusses the implementation of a grapheme-phoneme conversion module using machine learning techniques. / O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
|
Page generated in 0.029 seconds