• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 32
  • 7
  • 4
  • 3
  • 2
  • 2
  • 1
  • 1
  • Tagged with
  • 57
  • 57
  • 16
  • 13
  • 11
  • 11
  • 11
  • 10
  • 10
  • 10
  • 10
  • 8
  • 8
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Short-time Multichannel Noise Power Spectral Density Estimators for Acoustic Signals

Blanchette, Jonathan 30 April 2014 (has links)
The estimation of power spectral densities is a critical step in many speech enhancement algorithms. The demand for multi-channel speech enhancement systems is high with applications in teleconferencing, cellular phones, and hearing aids. The first objective of the thesis is to develop a general multi-channel framework to solve for the diffuse noise power spectral densities whenever the spatial correlation or coherence matrix is pre-estimated and the number of speakers is less than the number of microphones. The second objective is to develop closed-form analytical solutions. The performance of the developed algorithms is evaluated with pre-existing algorithms using prescribed performance measures.
22

Compensation for Nonlinear Distortion in Noise for Robust Speech Recognition

Harvilla, Mark J. 01 October 2014 (has links)
The performance, reliability, and ubiquity of automatic speech recognition systems has flourished in recent years due to steadily increasing computational power and technological innovations such as hidden Markov models, weighted finite-state transducers, and deep learning methods. One problem which plagues speech recognition systems, especially those that operate offline and have been trained on specific in-domain data, is the deleterious effect of noise on the accuracy of speech recognition. Historically, robust speech recognition research has focused on traditional noise types such as additive noise, linear filtering, and reverberation. This thesis describes the effects of nonlinear dynamic range compression on automatic speech recognition and develops a number of novel techniques for characterizing and counteracting it. Dynamic range compression is any function which reduces the dynamic range of an input signal. Dynamic range compression is a widely-used tool in audio engineering and is almost always a component of a practical telecommunications system. Despite its ubiquity, this thesis is the first work to comprehensively study and address the effect of dynamic range compression on speech recognition. More specifically, this thesis treats the problem of dynamic range compression in three ways: (1) blind amplitude normalization methods, which counteract dynamic range compression when its parameter values allow the function to be mathematically inverted, (2) blind amplitude reconstruction techniques, i.e., declipping, which attempt to reconstruct clipped segments of the speech signal that are lost through non-invertible dynamic range compression, and (3) matched-training techniques, which attempt to select the pre-trained acoustic model with the closest set of compression parameters. All three of these methods rely on robust estimation of the dynamic range compression distortion parameters. Novel algorithms for the blind prediction of these parameters are also introduced. The algorithms' quality is evaluated in terms of the degree to which they decrease speech recognition word error rate, as well as in terms of the degree to which they increase a given speech signal's signal-to-noise ratio. In all evaluations, the possibility of independent additive noise following the application of dynamic range compression is assumed.
23

Incorporating Auditory Models in Speech/Audio Applications

January 2011 (has links)
abstract: Following the success in incorporating perceptual models in audio coding algorithms, their application in other speech/audio processing systems is expanding. In general, all perceptual speech/audio processing algorithms involve minimization of an objective function that directly/indirectly incorporates properties of human perception. This dissertation primarily investigates the problems associated with directly embedding an auditory model in the objective function formulation and proposes possible solutions to overcome high complexity issues for use in real-time speech/audio algorithms. Specific problems addressed in this dissertation include: 1) the development of approximate but computationally efficient auditory model implementations that are consistent with the principles of psychoacoustics, 2) the development of a mapping scheme that allows synthesizing a time/frequency domain representation from its equivalent auditory model output. The first problem is aimed at addressing the high computational complexity involved in solving perceptual objective functions that require repeated application of auditory model for evaluation of different candidate solutions. In this dissertation, a frequency pruning and a detector pruning algorithm is developed that efficiently implements the various auditory model stages. The performance of the pruned model is compared to that of the original auditory model for different types of test signals in the SQAM database. Experimental results indicate only a 4-7% relative error in loudness while attaining up to 80-90 % reduction in computational complexity. Similarly, a hybrid algorithm is developed specifically for use with sinusoidal signals and employs the proposed auditory pattern combining technique together with a look-up table to store representative auditory patterns. The second problem obtains an estimate of the auditory representation that minimizes a perceptual objective function and transforms the auditory pattern back to its equivalent time/frequency representation. This avoids the repeated application of auditory model stages to test different candidate time/frequency vectors in minimizing perceptual objective functions. In this dissertation, a constrained mapping scheme is developed by linearizing certain auditory model stages that ensures obtaining a time/frequency mapping corresponding to the estimated auditory representation. This paradigm was successfully incorporated in a perceptual speech enhancement algorithm and a sinusoidal component selection task. / Dissertation/Thesis / Ph.D. Electrical Engineering 2011
24

Short-time Multichannel Noise Power Spectral Density Estimators for Acoustic Signals

Blanchette, Jonathan January 2014 (has links)
The estimation of power spectral densities is a critical step in many speech enhancement algorithms. The demand for multi-channel speech enhancement systems is high with applications in teleconferencing, cellular phones, and hearing aids. The first objective of the thesis is to develop a general multi-channel framework to solve for the diffuse noise power spectral densities whenever the spatial correlation or coherence matrix is pre-estimated and the number of speakers is less than the number of microphones. The second objective is to develop closed-form analytical solutions. The performance of the developed algorithms is evaluated with pre-existing algorithms using prescribed performance measures.
25

Time-domain Deep Neural Networks for Speech Separation

Sun, Tao 24 May 2022 (has links)
No description available.
26

A Unified Statistical Approach to Fast and Robust Multichannel Speech Separation and Dereverberation / 高速かつ頑健な多チャンネル音声分離・残響除去のための統合的・統計的アプローチ

Sekiguchi, Kouhei 23 March 2021 (has links)
京都大学 / 新制・課程博士 / 博士(情報学) / 甲第23309号 / 情博第745号 / 新制||情||127(附属図書館) / 京都大学大学院情報学研究科知能情報学専攻 / (主査)准教授 吉井 和佳, 教授 河原 達也, 教授 西野 恒, 教授 田中 利幸 / 学位規則第4条第1項該当 / Doctor of Informatics / Kyoto University / DFAM
27

Redução adaptativa de eco e de ruído para terminais viva-voz. / Speech enhancement and acoustic echo cancellation for hands-free sets.

Carezia, André Horácio Camargo 09 August 2002 (has links)
Há um grande interesse hoje em desenvolver terminais viva-voz que permitam aos participantes de uma conversa à distância contarem com um bom grau de naturalidade e inteligibilidade. O objetivo deste trabalho é apresentar solução para dois impedimentos que surgem quando se deseja projetar um terminal viva-voz para ser utilizado em automóveis: o eco acústico resultante do acoplamento entre microfone e alto-falante do terminal; e o ruído ambiente produzido por exemplo pelo vento, pneus e motor do veículo. A solução proposta envolve o uso de filtros adaptativos e alterações no espectro do sinal de voz para minimizar os problemas mencionados. Os aspectos teóricos são abordados de forma breve, sem deixar no entanto que nenhum detalhe importante fique de fora. Uma implementação prática e eficiente em processador digital de sinais é um dos destaques do trabalho. / There is currently great motivation in developing hands-free devices which offer users, engaged in a telephone conversation, a good level of naturalness and intelligibility. In this work, the goal is to present a solution for two well-known problems that occur when designing a hands-free device for use in automobile environments: (1) the acoustic echo coupling between microphone and speaker, and (2) the background noise generated for example by wind, tires and vehicle engine. The proposed solution includes adaptive filtering techniques and modifications in the speech signal spectrum, in order to minimize the two problems above. Theoretical issues are briefly analyzed, however the author believes no relevant detail is kept out. Highlighted in the report is a practical and efficient implementation of the algorithms in a modern digital signal processor.
28

Melhoramento de sinais de voz baseado na identificação de padrões ruidosos / Speech enhancement based on noisy patterns identification

Abreu, Caio Cesar Enside de [UNESP] 03 March 2017 (has links)
Submitted by CAIO CESAR ENSIDE DE ABREU null (caioenside@gmail.com) on 2017-03-24T20:37:01Z No. of bitstreams: 1 TeseCaio.pdf: 2444421 bytes, checksum: 576f59395bffe14aa56f611b1a2dd648 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-03-29T18:19:15Z (GMT) No. of bitstreams: 1 abreu_cce_dr_ilha.pdf: 2444421 bytes, checksum: 576f59395bffe14aa56f611b1a2dd648 (MD5) / Made available in DSpace on 2017-03-29T18:19:15Z (GMT). No. of bitstreams: 1 abreu_cce_dr_ilha.pdf: 2444421 bytes, checksum: 576f59395bffe14aa56f611b1a2dd648 (MD5) Previous issue date: 2017-03-03 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Este trabalho propõe contribuir com pesquisas em melhoramento de voz (MV) por meio do estudo de diversos tipos de algoritmos baseados em Fourier e wavelets, assim como o desenvolvimento de uma ferramenta para a identificação e classificação do ruído, culminando com uma nova metodologia. Denominada "Conjunto de Métodos de Melhoramento de Voz (CMMV)'', a metodologia consiste em utilizar um banco de dados com sentenças contaminadas com vários tipos de ruídos reais, ajustando, em modo off-line, vários métodos de MV para cada tipo de ruído. Os melhores métodos para cada tipo de ruído são selecionados para compor o conjunto de métodos. Durante a operação, em modo on-line, um classificador de ruído prediz o tipo de ruído presente no sinal em processamento e então o melhor método é escolhido dentro do CMMV construído. Seis tipos de ruídos foram utilizados durante as simulações e os métodos que obtiveram melhor desempenho frente a cada tipo foram indicados por meio de análise objetiva. Constatou-se que o desempenho desses métodos pode variar de acordo com o tipo do ruído de fundo, confirmando que o desenvolvimento de algoritmos que trabalham eficientemente em qualquer ambiente ruidoso, incorporando classificação de ruído, é uma tendência. O classificador de ruídos desenvolvido nesta pesquisa tem como base um sistema imunológico artificial e características extraídas por uma análise multiescala fornecida pela transformada wavelet complexa. Com uma acurácia média de 96,29% para os seis tipos de ruído considerados e tempo de resposta médio de 6,9 milissegundos, o classificador desenvolvido se mostrou viável para implementações e utilização em conjunto com outras tecnologias. Explorando algumas das possibilidades e benefícios do processamento baseado na classificação do ruído, a seguinte questão foi levantada: "seria possível realizar uma razoável estimação do ruído a partir do sinal de voz ruidoso por meio de regressão?”. Esta questão surgiu durante o desenvolvimento da pesquisa, pois o bom funcionamento de métodos de MV depende de uma boa estimação do perfil do ruído. As simulações mostram que este tipo de estimação de ruído pode gerar resultados satisfatórios com menor custo computacional. Por fim, comparado aos métodos clássicos, o CMMV mostrou-se tão ou mais eficiente quanto.
29

Melhoramento de sinais de voz baseado na identificação de padrões ruidosos /

Abreu, Caio Cesar Enside de. January 2017 (has links)
Orientador: Francisco Villarreal Alvarado / Resumo: Este trabalho propõe contribuir com pesquisas em melhoramento de voz (MV) por meio do estudo de diversos tipos de algoritmos baseados em Fourier e wavelets, assim como o desenvolvimento de uma ferramenta para a identificação e classificação do ruído, culminando com uma nova metodologia. Denominada "Conjunto de Métodos de Melhoramento de Voz (CMMV)'', a metodologia consiste em utilizar um banco de dados com sentenças contaminadas com vários tipos de ruídos reais, ajustando, em modo off-line, vários métodos de MV para cada tipo de ruído. Os melhores métodos para cada tipo de ruído são selecionados para compor o conjunto de métodos. Durante a operação, em modo on-line, um classificador de ruído prediz o tipo de ruído presente no sinal em processamento e então o melhor método é escolhido dentro do CMMV construído. Seis tipos de ruídos foram utilizados durante as simulações e os métodos que obtiveram melhor desempenho frente a cada tipo foram indicados por meio de análise objetiva. Constatou-se que o desempenho desses métodos pode variar de acordo com o tipo do ruído de fundo, confirmando que o desenvolvimento de algoritmos que trabalham eficientemente em qualquer ambiente ruidoso, incorporando classificação de ruído, é uma tendência. O classificador de ruídos desenvolvido nesta pesquisa tem como base um sistema imunológico artificial e características extraídas por uma análise multiescala fornecida pela transformada wavelet complexa. Com uma acurácia média de 96,29% para os seis... (Resumo completo, clicar acesso eletrônico abaixo) / Doutor
30

Redução adaptativa de eco e de ruído para terminais viva-voz. / Speech enhancement and acoustic echo cancellation for hands-free sets.

André Horácio Camargo Carezia 09 August 2002 (has links)
Há um grande interesse hoje em desenvolver terminais viva-voz que permitam aos participantes de uma conversa à distância contarem com um bom grau de naturalidade e inteligibilidade. O objetivo deste trabalho é apresentar solução para dois impedimentos que surgem quando se deseja projetar um terminal viva-voz para ser utilizado em automóveis: o eco acústico resultante do acoplamento entre microfone e alto-falante do terminal; e o ruído ambiente produzido por exemplo pelo vento, pneus e motor do veículo. A solução proposta envolve o uso de filtros adaptativos e alterações no espectro do sinal de voz para minimizar os problemas mencionados. Os aspectos teóricos são abordados de forma breve, sem deixar no entanto que nenhum detalhe importante fique de fora. Uma implementação prática e eficiente em processador digital de sinais é um dos destaques do trabalho. / There is currently great motivation in developing hands-free devices which offer users, engaged in a telephone conversation, a good level of naturalness and intelligibility. In this work, the goal is to present a solution for two well-known problems that occur when designing a hands-free device for use in automobile environments: (1) the acoustic echo coupling between microphone and speaker, and (2) the background noise generated for example by wind, tires and vehicle engine. The proposed solution includes adaptive filtering techniques and modifications in the speech signal spectrum, in order to minimize the two problems above. Theoretical issues are briefly analyzed, however the author believes no relevant detail is kept out. Highlighted in the report is a practical and efficient implementation of the algorithms in a modern digital signal processor.

Page generated in 0.0461 seconds