Global ETD Search

1	Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models. Denis Pirttiaho Cardoso 03 April 2009 (has links) A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results. Processamento de sinais acústicos Processamento digital de voz Reconhecimento de voz Acustic signal processing Digital speech processing Speech recognition
2	Identificação de locutor usando modelos de misturas de gaussianas. / Speaker identification using Gaussian mixture models. Cardoso, Denis Pirttiaho 03 April 2009 (has links) A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados. / Speaker identification is concerned with the selection of one speaker within a set of enrolled members and in this work the experiments were performed using a textindependent cohort Gaussian mixture model (GMM) speaker identification system. In order to perform the tests, TIMIT speech database is used and its corresponding version corrupted by a noisy telephone channel, i.e., NTIMIT. The vocal tract is represented by Mel-cepstral frequency coefficients with filter banks or, alternatively, by linear prediction cepstral coefficients. Additionally, the cepstral mean subtraction technique is applied when the NTIMIT database is used to minimize the channel distortion intrinsic to it. The utterance component for which the Mel-frequency cepstral coefficients is obtained using a voice activity detector (VAD). However, the VADs are generally sensitive to the signal-to-noise ratio of the utterance, making it necessary to adapt them to the system operating conditions. A signal-to-noise ratio estimator is included in the proposal VAD, which is based on Minima Controlled Recursive Average (MCRA), in order to be able to handle both clean and noisy speech. It is observed that in high signal-to-noise ratio utterances, such as those from the TIMIT database, the more appropriate extraction method for the Mel-frequency cepstral coefficients was the baseline one consisting of filter banks, while for noisy speech the technique of cepstral mean subtraction coupled with the extraction of Mel-frequency cepstral coefficients from linear prediction cepstral coefficients provided the best results. Acustic signal processing Digital speech processing Processamento de sinais acústicos Processamento digital de voz Reconhecimento de voz Speech recognition
3	Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding. Antunes Júnior, Irineu 24 April 2006 (has links) Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de Soft" ou Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (musical noise") produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme. digital speech processing estimação não-paramétrica non-parametric speech signal estimation processamento digital de voz redução de ruído em sinal de voz speech denoising
4	Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding. Irineu Antunes Júnior 24 April 2006 (has links) Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o ruído musical produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de thresholding concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (Additive, White, and Gaussian Noise). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de Soft ou Hard-thresholding, as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (musical noise) produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme. estimação não-paramétrica processamento digital de voz redução de ruído em sinal de voz digital speech processing non-parametric speech signal estimation speech denoising
5	Estimação do sinal glotal para padrões acústicos de doenças da laringe / not available Guerra, Aparecida de Cássia 03 May 2005 (has links) Muitas pesquisas tem sido feitas em processamento digital de sinais (PDS) na tentativa de se avaliar o sinal de fala para diagnosticar doenças da laringe. Medidas acústicas têm sido propostas de forma a avaliar indiretamente o trato glotal por meio do sinal de voz coletado através de microfone convencional. Para isso, o modelo paramétrico Liljencrants-Fant (LF) foi desenvolvido para representar o sinal glotal em condições normais e patológicas. Tais parâmetros apresentam vantagens sobre medidas acústicas por possuírem características fisiológicas reais das pregas vocais. Assim, podendo ser empregados para identificação de doenças da laringe. Além da estimação dos parâmetros LF, no domínio do tempo (parâmetros T), a forma de onda da derivativa glotal também pôde ser quantificada através dos parâmetros identificados na literatura por parâmetros R (Rd, Ra, Rk e Rg), parâmetros quocientes Q (SQ, OQ, CQ, AQ e NAQ), parâmetros B1 e B2 que são as extensões de bandas do pulso derivativo LF, e o parâmetro ece, que relaciona os parâmetros &#946 e Ta. Os parâmetros B1 e B2 e ece apesar de serem propostos na literatura, não são encontrados resultados diferentes a essas duas medidas. Os resultados mostraram que os parâmetros B não foram confiáveis na discriminação entre as vozes, por outro lado, o parâmetro ece mostrou-se ser opção na discriminação entre as vozes normais, nódulo e Reinke. O objetivo deste trabalho é direcionar a atenção sobre o sinal glotal, estimando-o automaticamente mediante técnicas de PDS aplicadas ao sinal de fala, visando extrair parâmetros que identifiquem as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições fisiológicas do movimento das pregas vocais. Com um nível de confiança de 95%, o parâmetro de primeira ordem (TRp) é efetivo na discriminação do Edema de Reinke, porém mostrou-se ineficaz na detecção do nódulo. Em relação ao parâmetro de ordem superior, conclui-se que o TRs é um excelente detetor de vozes patológicas (nódulo e Edema de Reinke), porém não é capaz de discriminar as patologias. / Many researches has been conducted in digital signal processing (DSP) atempting to evaluate the physiological conditions of larynx. Acoustical parameters have been proposed to evaluate the glotal tract from voice signal. One technique proposed is the Liljencrants-Fant model (LF) developed to represent normal and pathologic conditions of the larynx. Those parameters compare favourably as far as real physiologic characteristic of vocal folds is concerned. So, a primary use of the model is the larynx pathologic identification. Beyond LF parameters estimation, (T parameters in the time domain), the waveform of glotal pulse derivative also can be quantified through, R parameters (Rd, Ra, Rk and Rg), quocient parameters (SQ, OQ, CQ, AQ and NAQ), B parameters (B1 and B2) that are band extension of the LF glotal pulse derivative and the ece parameter that in fact, is a relationship between &#946 and Ta. Although proposed in the literature, no results are found, related to B and ece parameters. Our founds show that B parameters do not present good results in voice discrimination, however, ece parameter seems to be good option to discriminate normal voice, nodulo and Reinke edema. The main purpose of this work is to estimate the glotal signal from the voice signal using DSP techniques in order to obtain parameters that identifies the physiological larynx condition. In order to estimate the shape of return phase of glotal pulse, twoparameters have been proposed in this work. The first one evaluates the pulse (TRp, in other words, the first order component of the return phase. The second is responsible to evaluate superior orders components of the return phase (TRs), i.e, the non-linear component of the glotal pulse. With 95% of confidence level, TRp is effective in Reinke edema discrimination however it is inefficient for nodule e dection. By the other hand, the TRs parameter works well to detect pathologic voice however is unable to discriminated them. Digital signal processing Glottal derivative pulse-model Glottal pulse LF model Modelo LF Pregas vocais Processamento digital de voz Pulso derivativo glotal-modelo Pulso glotal Sinal de voz Vocal folds Voice signal
6	Análise acústica para classificação de patologias da voz empregando análise de Componentes Principais, Redes Neurais Artificiais e Máquina de vetores de Suporte. ESPINOLA, Sérgio de Brito. 19 September 2017 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2017-09-19T15:36:01Z No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) / Made available in DSpace on 2017-09-19T15:36:01Z (GMT). No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) Previous issue date: 2014-03-12 / Estima-se que um terço da força de trabalho humana dependa da voz para realização de seus ofícios. Procedimentos médicos avaliam a qualidade vocal do indivíduo sendo os mais usados aqueles baseados na escuta da voz (subjetivo) ou na inspeção das dobras (ou pregas) vocais por exames sofisticados (objetivos, porém invasivos e caros). A análise acústica da voz busca extrair medidas robustas para descrever vários fenômenos associados à produção da fala ou características intrínsecas do ser humano como frequência fundamental, timbre, etc. O presente estudo consiste na caracterização de um modelo de processamento digital de Voz para apoio ao diagnóstico no contexto da construção de sistemas de identificação automatizados de patologias da fala. Para análise da técnica proposta foi utilizada uma base de dados (base KAY) que foi estruturada por especialistas num arranjo de seis grupos de Patologias. A esse, acrescentado também um de vozes “Normal”. Assim, 182 vozes foram escolhidas, as quais dispunham de um catálogo indexado de cerca de 33 descritores, para cada voz, calculados da elocução da vogal \a\ sustentada. Ao selecionar combinações desses descritores – como perturbações em frequência (jitter), em amplitude (shimmer) etc, este estudo encontrou evidências estatísticas e mostrou ser possível: a) Separar vozes normais das patológicas – esperado, b) Separar patologias específicas (Paralisia, Edema de Reinke, Nódulos) com acurácia de 100% (para a grande maioria dessas combinações) e cerca de 92% (para Nódulos contra Reinke); c) Discriminá-las por meio de classificadores (redes neurais artificiais e máquina de vetores de suporte) e reduzir a dimensionalidade e complexidade (quantidade de dados) via técnica de análise de componentes principais (ACP) sobre esses descritores para a separação intra patologias; e d) Testes estatísticos com os grupos locais confirmaram também limiares de indícios de Anormalidade presentes na literatura. A utilização de menor quantidade de descritores – obtida pós ACP (compressão) – mostrou-se também eficiente (mesmas taxas de acurácia). / It is estimated one-third of the work force relies on the use the voice in their jobs. The clinical diagnostic may be performed on voice listening by a specialist (subjective perspective) or through invasive and often not cheaper exams to check vocal structures. The area of Voice Acoustic analyses aims to extract robust measurements to describe several phenomena associated with voice production, or human being particular characteristics like fundamental frequency, timbre, etc. This study consisted of a model characterizing the digital voice processing for support in building automatic systems for the identification of disorders of speech (to aid diagnosis of pathologies). To support this investigation and proposed model, a commercial voice database (KAY base) was used with the endorsement from medical specialists. Derived acoustic analyses of those speech samples data records were presented to professionals for classification and six “severities groups” case-studied were built. After these analyses, one Normal group was added and, at the end, 182 voices have been selected. Their refined audio database contain, among other things, an indexed list of vocal descriptors calculated on the presence of the utterance of the vowel \a\ sustained speech. Statistical evidences were found: a) Difference between pathological groups vocal descriptors to normal (expected); b) It was achieved 100% from true positive, most cases, among Paralysis, Reinke's Edema and Nodules separations; c) from few cases, there were detected minor distinctions: Paralysis, Reinke's Edema, Nodules and Edema (pair comparison) with disordered groups; c) Among Machine Learning Algorithms (artificial neural networks "RN" and support vector machine "SVM"), the technique of Principal Components Analyses (PCA) and main statistics performed, it was found facts to help to structure some automated recognition systems. These Supervised learning methods showed that it could be possible to generate classification predictions (disordered presence) for the response to new data; and d) Inner tests also confirmed literature established reference thresholds. Hence considering suitable combinations of descriptors with two machine learning classifiers, as showed, is sufficient suitable and worthy. Ciência da computação. Fonoaudiologia. Inteligência artificial. Processamento digital de voz. Discriminação de patologias da voz. Vozes patológicas. Aprendizagem de máquina. Análise acústica da voz. Doenças da voz e fala. Voice Acoustic analyses. Digital voice processing. Healthy and Pathological voices. Digital Voice Signal Processing.
7	Estimação do sinal glotal para padrões acústicos de doenças da laringe / not available Aparecida de Cássia Guerra 03 May 2005 (has links) Muitas pesquisas tem sido feitas em processamento digital de sinais (PDS) na tentativa de se avaliar o sinal de fala para diagnosticar doenças da laringe. Medidas acústicas têm sido propostas de forma a avaliar indiretamente o trato glotal por meio do sinal de voz coletado através de microfone convencional. Para isso, o modelo paramétrico Liljencrants-Fant (LF) foi desenvolvido para representar o sinal glotal em condições normais e patológicas. Tais parâmetros apresentam vantagens sobre medidas acústicas por possuírem características fisiológicas reais das pregas vocais. Assim, podendo ser empregados para identificação de doenças da laringe. Além da estimação dos parâmetros LF, no domínio do tempo (parâmetros T), a forma de onda da derivativa glotal também pôde ser quantificada através dos parâmetros identificados na literatura por parâmetros R (Rd, Ra, Rk e Rg), parâmetros quocientes Q (SQ, OQ, CQ, AQ e NAQ), parâmetros B1 e B2 que são as extensões de bandas do pulso derivativo LF, e o parâmetro ece, que relaciona os parâmetros &#946 e Ta. Os parâmetros B1 e B2 e ece apesar de serem propostos na literatura, não são encontrados resultados diferentes a essas duas medidas. Os resultados mostraram que os parâmetros B não foram confiáveis na discriminação entre as vozes, por outro lado, o parâmetro ece mostrou-se ser opção na discriminação entre as vozes normais, nódulo e Reinke. O objetivo deste trabalho é direcionar a atenção sobre o sinal glotal, estimando-o automaticamente mediante técnicas de PDS aplicadas ao sinal de fala, visando extrair parâmetros que identifiquem as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições fisiológicas do movimento das pregas vocais. Com um nível de confiança de 95%, o parâmetro de primeira ordem (TRp) é efetivo na discriminação do Edema de Reinke, porém mostrou-se ineficaz na detecção do nódulo. Em relação ao parâmetro de ordem superior, conclui-se que o TRs é um excelente detetor de vozes patológicas (nódulo e Edema de Reinke), porém não é capaz de discriminar as patologias. / Many researches has been conducted in digital signal processing (DSP) atempting to evaluate the physiological conditions of larynx. Acoustical parameters have been proposed to evaluate the glotal tract from voice signal. One technique proposed is the Liljencrants-Fant model (LF) developed to represent normal and pathologic conditions of the larynx. Those parameters compare favourably as far as real physiologic characteristic of vocal folds is concerned. So, a primary use of the model is the larynx pathologic identification. Beyond LF parameters estimation, (T parameters in the time domain), the waveform of glotal pulse derivative also can be quantified through, R parameters (Rd, Ra, Rk and Rg), quocient parameters (SQ, OQ, CQ, AQ and NAQ), B parameters (B1 and B2) that are band extension of the LF glotal pulse derivative and the ece parameter that in fact, is a relationship between &#946 and Ta. Although proposed in the literature, no results are found, related to B and ece parameters. Our founds show that B parameters do not present good results in voice discrimination, however, ece parameter seems to be good option to discriminate normal voice, nodulo and Reinke edema. The main purpose of this work is to estimate the glotal signal from the voice signal using DSP techniques in order to obtain parameters that identifies the physiological larynx condition. In order to estimate the shape of return phase of glotal pulse, twoparameters have been proposed in this work. The first one evaluates the pulse (TRp, in other words, the first order component of the return phase. The second is responsible to evaluate superior orders components of the return phase (TRs), i.e, the non-linear component of the glotal pulse. With 95% of confidence level, TRp is effective in Reinke edema discrimination however it is inefficient for nodule e dection. By the other hand, the TRs parameter works well to detect pathologic voice however is unable to discriminated them. Modelo LF Pregas vocais Processamento digital de voz Pulso derivativo glotal-modelo Pulso glotal Sinal de voz Digital signal processing Glottal derivative pulse-model Glottal pulse LF model Vocal folds Voice signal

1

Page generated in 0.098 seconds