1 |
Some results in speech processing and recognitionMacdonald, U. U. January 1986 (has links)
No description available.
|
2 |
Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models.Denis Pirttiaho Cardoso 03 April 2009 (has links)
A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results.
|
3 |
Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models.Cardoso, Denis Pirttiaho 03 April 2009 (has links)
A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results.
|
4 |
Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding.Antunes Júnior, Irineu 24 April 2006 (has links)
Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de Soft" ou Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (musical noise") produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme.
|
5 |
Determinadores de pitch / not availableRazera, Daniel Espanhol 05 May 2004 (has links)
Os parâmetros acústicos da voz abordados em diversas pesquisas de análise digital da voz, apresentam-se válidos para o uso em processo diagnóstico e terapêutico. O grupo de parâmetros de perturbação da voz necessita do conhecimento de todos os períodos do trecho de sinal de voz analisado, para ter seu valor calculado. Esta tarefa é desempenhada pelos determinadores de pitch, e a sua precisão determina a confiabilidade que se pode ter nos parâmetros calculados. Este trabalho visa estudar diversos métodos propostos ao longo dos anos e estabelecer qual destes tem a melhor precisão e robustez, quando utilizados com vozes patológicas. Estuda-se também algoritmos estimadores de pitch como uma ferramenta de auxílio para a correção e ajuste dos determinadores. Os resultados obtidos demonstram a necessidade de modificações externas e internas aos algoritmos determinadores e estimadores, para alcançarem a robustez e precisão desejada. Dois algoritmos determinadores, determinador por autocorrelação e por extração de harmônicas, mostraram-se dentro das metas estabelecidas e confirmam-se como os mais promissores em aplicações para obtenção de parâmetros acústicos da voz. / Several researches of digital speech processing validate the use of acoustic parameters of the voice in diagnosis and therapeutic processes. Perturbation parameters need the knowledge of all the periods of the analyzed voice signal, to have their values calculated. This task is carried out by the pitch trackers and their precision determines the reliability off the evaluated parameters. The purpose of this work is to study several methods proposed along the years and to establish which algorithm has the best precision and robustness, when used with pathological voices. The pitch estimation is also studied as an aid tool for the correction and adjustment of the pitch trackers. The results demonstrate the need of external and internal modifications of the trackers and detector algorithms to reach the wanted robustness and precision. The algorithms for autocorrelation and for extraction of harmonics are confirmed as the most promising in applications for obtaining of acoustic parameters of the voice.
|
6 |
Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding.Irineu Antunes Júnior 24 April 2006 (has links)
Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o ruído musical produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de thresholding concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (Additive, White, and Gaussian Noise). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de Soft ou Hard-thresholding, as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (musical noise) produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme.
|
7 |
Determinadores de pitch / not availableDaniel Espanhol Razera 05 May 2004 (has links)
Os parâmetros acústicos da voz abordados em diversas pesquisas de análise digital da voz, apresentam-se válidos para o uso em processo diagnóstico e terapêutico. O grupo de parâmetros de perturbação da voz necessita do conhecimento de todos os períodos do trecho de sinal de voz analisado, para ter seu valor calculado. Esta tarefa é desempenhada pelos determinadores de pitch, e a sua precisão determina a confiabilidade que se pode ter nos parâmetros calculados. Este trabalho visa estudar diversos métodos propostos ao longo dos anos e estabelecer qual destes tem a melhor precisão e robustez, quando utilizados com vozes patológicas. Estuda-se também algoritmos estimadores de pitch como uma ferramenta de auxílio para a correção e ajuste dos determinadores. Os resultados obtidos demonstram a necessidade de modificações externas e internas aos algoritmos determinadores e estimadores, para alcançarem a robustez e precisão desejada. Dois algoritmos determinadores, determinador por autocorrelação e por extração de harmônicas, mostraram-se dentro das metas estabelecidas e confirmam-se como os mais promissores em aplicações para obtenção de parâmetros acústicos da voz. / Several researches of digital speech processing validate the use of acoustic parameters of the voice in diagnosis and therapeutic processes. Perturbation parameters need the knowledge of all the periods of the analyzed voice signal, to have their values calculated. This task is carried out by the pitch trackers and their precision determines the reliability off the evaluated parameters. The purpose of this work is to study several methods proposed along the years and to establish which algorithm has the best precision and robustness, when used with pathological voices. The pitch estimation is also studied as an aid tool for the correction and adjustment of the pitch trackers. The results demonstrate the need of external and internal modifications of the trackers and detector algorithms to reach the wanted robustness and precision. The algorithms for autocorrelation and for extraction of harmonics are confirmed as the most promising in applications for obtaining of acoustic parameters of the voice.
|
8 |
Laringe digital / Digital larynxRosa, Marcelo de Oliveira 07 August 2002 (has links)
Este trabalho descreve um modelo matemático para simulação da laringe humana durante a fonação. O objetivo foi produzir uma técnica computacional de grande escala de processamento para capturar os fenômenos fisiológicos que ocorrem na laringe durante a vocalização e servir de base para estudos mais aprofundados sobre esta importante estrutura do corpo humano. Usando o método dos elementos finitos como base para discretizar as equações dos tecidos musculares da laringe e das equações de Navier-Stokes, e um modelo de descrição da colisão entre as pregas vocais, o sinal glotal foi obtido a partir de diferentes geometrias de laringes com diferentes propriedades viscoelásticas. Os resultados confirmaram a teoria mioelástica-aerodinâmica que descreve a dinâmica da fonação, reproduzindo inclusive fenômenos fisiológicos que os modelos existentes são incapazes de simular. Estudos adicionais foram feitos para verificar a viabilidade do modelo para simular algumas doenças que danificam a laringe. / This work describes a mathematical model to simulate the human larynx during a phonation. The objective was to produce a large-scale computational technique to capture several physiological phenomena that take place on the larynx during the vocalization and to assist further studies about this important structure of the human body. Using the finite element methods as the way to discretize the muscle tissue equations of the larynx and the Navier-Stokes equations and a model to describe the collision between both vocal folds, the glottal signal for different larynx geometries with different viscoelastic properties was obtained. The results confirmed the myoelastic-aerodynamic theory which describes the dynamic of the phonation, also reproducing physiologic phenomena that current models are unable to simulate. Additional studies were conducted to confirm the feasibility of the model to simulate some diseases that affect the larynx.
|
9 |
Laringe digital / Digital larynxMarcelo de Oliveira Rosa 07 August 2002 (has links)
Este trabalho descreve um modelo matemático para simulação da laringe humana durante a fonação. O objetivo foi produzir uma técnica computacional de grande escala de processamento para capturar os fenômenos fisiológicos que ocorrem na laringe durante a vocalização e servir de base para estudos mais aprofundados sobre esta importante estrutura do corpo humano. Usando o método dos elementos finitos como base para discretizar as equações dos tecidos musculares da laringe e das equações de Navier-Stokes, e um modelo de descrição da colisão entre as pregas vocais, o sinal glotal foi obtido a partir de diferentes geometrias de laringes com diferentes propriedades viscoelásticas. Os resultados confirmaram a teoria mioelástica-aerodinâmica que descreve a dinâmica da fonação, reproduzindo inclusive fenômenos fisiológicos que os modelos existentes são incapazes de simular. Estudos adicionais foram feitos para verificar a viabilidade do modelo para simular algumas doenças que danificam a laringe. / This work describes a mathematical model to simulate the human larynx during a phonation. The objective was to produce a large-scale computational technique to capture several physiological phenomena that take place on the larynx during the vocalization and to assist further studies about this important structure of the human body. Using the finite element methods as the way to discretize the muscle tissue equations of the larynx and the Navier-Stokes equations and a model to describe the collision between both vocal folds, the glottal signal for different larynx geometries with different viscoelastic properties was obtained. The results confirmed the myoelastic-aerodynamic theory which describes the dynamic of the phonation, also reproducing physiologic phenomena that current models are unable to simulate. Additional studies were conducted to confirm the feasibility of the model to simulate some diseases that affect the larynx.
|
Page generated in 0.0961 seconds