• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • Tagged with
  • 10
  • 10
  • 6
  • 6
  • 5
  • 4
  • 4
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • 3
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Análise residual do sinal de voz / not available

Montagnoli, Arlindo Neto 06 May 1998 (has links)
Este trabalho consiste no desenvolvimento de instrumentação destinada à pré-diagnósticos de disfunções na laringe, bem como no fornecimento de auxílio no acompanhamento dos tratamentos das patologias ou uma avaliação pós-operatória e ainda pode facilitar a tarefa de triagem de pacientes com problemas na laringe em hospitais. O programa desenvolvido consiste em um método não invasivo para pré-diagnósticos da laringe. Através da análise do resíduo do sinal de voz obtém-se seis parâmetros que permitem indicar os casos de patologias. Os sinais de vozes foram adquiridos diretamente com um microfone ligado a uma placa de aquisição no Departamento de Otorrinolaringologia da Faculdade de Medicina de Ribeirão Preto, USP. Este sistema oferece procedimentos clínicos mais confortáveis e permite um rápido diagnóstico sem restrições a qualquer paciente. / This work describes the development of a device destined for pre-diagnoses of larynx dysfunctions, as well as, to supply aid in the accompaniment of the treatments of the pathologies or a postoperative evaluation and it can still facilitate the task of the patients\' screen with problems in the larynx in hospitals. A software package has been developed in order to set a non-invasive method for pre-diagnosis of the larynx. Through the residue voice signal analysis, six parameters are extracted from the signal in order to assess the pathological cases. The voice signal was acquired directly from a microphone and an acquisition board at the Department of Otorrinolaringology of the Faculty of Medicine of Ribeirão Preto, USP. That system makes the clinical procedures more confortable and allows for a faster diagnosis with no restriction to any patient.
2

Análise residual do sinal de voz / not available

Arlindo Neto Montagnoli 06 May 1998 (has links)
Este trabalho consiste no desenvolvimento de instrumentação destinada à pré-diagnósticos de disfunções na laringe, bem como no fornecimento de auxílio no acompanhamento dos tratamentos das patologias ou uma avaliação pós-operatória e ainda pode facilitar a tarefa de triagem de pacientes com problemas na laringe em hospitais. O programa desenvolvido consiste em um método não invasivo para pré-diagnósticos da laringe. Através da análise do resíduo do sinal de voz obtém-se seis parâmetros que permitem indicar os casos de patologias. Os sinais de vozes foram adquiridos diretamente com um microfone ligado a uma placa de aquisição no Departamento de Otorrinolaringologia da Faculdade de Medicina de Ribeirão Preto, USP. Este sistema oferece procedimentos clínicos mais confortáveis e permite um rápido diagnóstico sem restrições a qualquer paciente. / This work describes the development of a device destined for pre-diagnoses of larynx dysfunctions, as well as, to supply aid in the accompaniment of the treatments of the pathologies or a postoperative evaluation and it can still facilitate the task of the patients\' screen with problems in the larynx in hospitals. A software package has been developed in order to set a non-invasive method for pre-diagnosis of the larynx. Through the residue voice signal analysis, six parameters are extracted from the signal in order to assess the pathological cases. The voice signal was acquired directly from a microphone and an acquisition board at the Department of Otorrinolaringology of the Faculty of Medicine of Ribeirão Preto, USP. That system makes the clinical procedures more confortable and allows for a faster diagnosis with no restriction to any patient.
3

Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding.

Antunes Júnior, Irineu 24 April 2006 (has links)
Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical" produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding" concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise"). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de “Soft" ou “Hard-thresholding", as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (“musical noise") produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme.
4

Redução de ruído em sinais de voz usando curvas especializadas de modificação dos coeficientes da transformada em co-seno. / Speech denoising by softsoft thresholding.

Irineu Antunes Júnior 24 April 2006 (has links)
Muitos métodos de redução de ruído se baseiam na possibilidade de representar o sinal original com um reduzido número de coeficientes de uma transformada, ou melhor, obtém-se um sinal com menos ruído pelo cancelamento dos coeficientes abaixo de um valor adequadamente estabelecido de magnitude. Deve-se supor que a contribuição do ruído se distribua de maneira uniforme por todos os coeficientes. Uma desvantagem destes métodos, quando aplicados a sinais de voz, é a distorção introduzida pela eliminação dos coeficientes de pequena magnitude, juntamente com a presença de sinais espúrios, como o “ruído musical” produzido por coeficientes ruidosos isolados que eventualmente ultrapassam o limiar. Para as transformadas usualmente empregadas, o histograma da distribuição dos coeficientes do sinal de voz possui um grande número de coeficientes próximos à origem. Diante disto, propomos uma nova função de “thresholding” concebida especialmente para redução de ruído em sinais de voz adicionados a AWGN (“Additive, White, and Gaussian Noise”). Esta função, chamada de SoftSoft, depende de dois valores de limiar: um nível inferior, ajustado para reduzir a distorção da voz, e um nível superior, ajustado para eliminar ruído. Os valores ótimos de limiar são calculados para minimizar uma estimativa do erro quadrático médio (MSE): diretamente, supondo conhecido o sinal original; indiretamente, usando uma função de interpolação para o MSE, levando a um método prático. A função SoftSoft alcança um MSE inferior ao que se obtém pelo emprego das conhecidas operações de “Soft” ou “Hard-thresholding”, as quais dispõem apenas do limiar superior. Ainda que a melhoria em termos de MSE não seja muito expressiva, a melhoria da qualidade perceptual foi certificada tanto por um ouvinte quanto por uma medida perceptual de distorção (a distância log-espectral). / Many noise-reduction methods are based on the possibility of representing the clean signal as a reduced number of coefficients of a block transform, so that cancelling coefficients below a certain thresholding level will produce an enhanced reconstructed signal. It is necessary to assume that the clean signal has a sparse representation, while the noise energy is spread over all coefficients. The main drawback of those methods is the speech distortion introduced by eliminating small magnitude coefficients, and the presence of artifacts (“musical noise”) produced by isolated noisy coefficients randomly crossing the thresholding level. Based on the observation that the speech coefficient histogram has many important coefficients close to origin, we propose a custom thresholding function to perform noise reduction in speech signals corrupted by AWGN. This function, called SoftSoft, has two thresholding levels: a lower level adjusted to reduce speech distortion, and a higher level adjusted to remove noise. The joint optimal values can be determined by minimizing the resulting mean square error (MSE). We also verify that this new thresholding function leads to a lower MSE than the well-known Soft and Hard-thresholding functions, which employ only a higher thresholding level. Although the improvement in terms of MSE is not expressive, a perceptual distortion measure (the log-spectral distance, LSD) is employed to prove the higher performance of the proposed thresholding scheme.
5

Aplica??o da Transformada Wavelet em An?lise de Texturas de Gr?ficos de Recorr?ncia para Detec??o de Patologias Lar?ngeas

Souza, Taciana Ara?jo de 06 December 2016 (has links)
Submitted by Alex Sandro R?go (alex@ifpb.edu.br) on 2016-12-06T12:35:11Z No. of bitstreams: 1 11- Taciana Araujo de Souza - Aplica??o da Transformada Wavelet em An?lise de Texturas de Gr?ficos de Recorr?ncia.pdf: 3681994 bytes, checksum: ca089bc3877db3b99c310c8d3304967d (MD5) / Approved for entry into archive by Alex Sandro R?go (alex@ifpb.edu.br) on 2016-12-06T12:36:21Z (GMT) No. of bitstreams: 1 11- Taciana Araujo de Souza - Aplica??o da Transformada Wavelet em An?lise de Texturas de Gr?ficos de Recorr?ncia.pdf: 3681994 bytes, checksum: ca089bc3877db3b99c310c8d3304967d (MD5) / Made available in DSpace on 2016-12-06T12:36:21Z (GMT). No. of bitstreams: 1 11- Taciana Araujo de Souza - Aplica??o da Transformada Wavelet em An?lise de Texturas de Gr?ficos de Recorr?ncia.pdf: 3681994 bytes, checksum: ca089bc3877db3b99c310c8d3304967d (MD5) Previous issue date: 2016-12-06 / A an?lise ac?stica do sinal de voz, devido ? sua natureza n?o invasiva e ao baixo custo, tem se mostrado uma eficiente ferramenta para aux?lio ao diagn?stico das desordens vocais provocadas por patologias na laringe. Os gr?ficos apresentam padr?es de larga e pequena escala, cujas varia??es em sua textura representam o comportamento do sinal de voz, proporcionando informa??es acerca do estado de normalidade ou de altera??o na qualidade vocal. Os padr?es de pequena escala podem ser vistos como caracter?sticas de textura e servem como base para uma an?lise quantitativa dos gr?ficos de recorr?ncia. T?cnicas de Processamento Digital de Imagens s?o empregadas para a an?lise da textura contida nos gr?ficos de recorr?ncia, baseada na transformada wavelet bidimensional. A fim de discriminar sinais saud?veis de sinais patol?gicos, s?o extra?dos diversos descritores de texturas dos coeficientes de cada sub-banda obtida pela decomposi??o wavelet bidimensional. Nesta pesquisa, duas abordagens foram aplicadas, as quais se diferenciam pela forma de extra??o dos padr?es representativos dos sinais: extra??o dos descritores de textura diretamente das sub-bandas da transformada wavelet; e extra??o dos descritores de Haralick, a partir da matriz de co-ocorr?ncia. Os sinais de voz foram classificados como saud?veis ou patol?gicos, como tamb?m foi realizada a discrimina??o entre patologias. Paralisia, edema de Reinke e n?dulos nas pregas vocais foram as patologias lar?ngeas consideradas na pesquisa. Os melhores resultados foram obtidos com os descritores de Haralick, empregando redes neurais MLP (Multilayer Perceptron) na classifica??o, em conjunto com o algoritmo de otimiza??o por enxame de part?culas PSO (Particle Swarm Optimization) empregado na sele??o das caracter?sticas mais representativas. O sistema proposto melhorou significativamente a acur?cia na discrimina??o entre patologias, com resultados superiores aos encontrados na literatura, que empregam a an?lise de recorr?ncia.
6

Extração de características do sinal de voz utilizando análise fatorial verdadeira. / Speech signal feature extraction using true factorial analysis

Matos, Adriano Nogueira 17 December 2008 (has links)
Made available in DSpace on 2015-04-11T14:03:17Z (GMT). No. of bitstreams: 1 DISSERTACAO ADRIANO NOGUEIRA.pdf: 382280 bytes, checksum: fc1f9e0caac3d97ff74a893e97298a71 (MD5) Previous issue date: 2008-12-17 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Digital processing of speech signal is applied in several computer applications, which the major ones are the following: Recognition, synthesis and coding of speech. All these applications require the amount of data in the acoustic signal to be reduced, in order to allow processing by a computer device. The feature extraction of speech signal, that is the goal of this study, performs this action. The features extracted should well depict the speech signal and should have no redundancy, in order to increase the performance of the systems using them. The feature extraction Mel Frequency Cepstral Coefficients (MFCC) method partially fulfills these requirements, but it is seriously damaged when noise signal is acting. The appliance of the statistical method of Factorial Analysis is intended to filter the noise components from the speech. The results of the experiments performed in this work shows that this is a competitive method, especially when used to generate acoustic models in severe noise conditions. / O processamento digital do sinal de voz é empregado em diversas aplicações computacionais, das quais as principais são: Reconhecimento, síntese e codificação da fala. Todas estas aplicações requerem que ocorra redução da quantidade de informações da onda acústica, de maneira a permitir o processamento por um computador. O processo de extração de características do sinal de voz, objeto de estudo deste trabalho, realiza esta tarefa. As características extraídas devem caracterizar o sinal de voz e não conter redundância, de forma a maximizar o desempenho dos sistemas que as utilizem. O método MFCC (Mel Frequency Cepstral Coefficients) de extração de características cumpre parcialmente esses requisitos, mas é seriamente degradado sob a incidência de ruído. A aplicação do método estatístico de Análise Fatorial objetiva filtrar o sinal de ruído das locuções. Os resultados obtidos dos experimentos realizados indicam a competitividade deste método, especialmente quando usado na geração dos modelos acústicos robustos em condições de ruído severo.
7

Estimação do sinal glotal para padrões acústicos de doenças da laringe / not available

Guerra, Aparecida de Cássia 03 May 2005 (has links)
Muitas pesquisas tem sido feitas em processamento digital de sinais (PDS) na tentativa de se avaliar o sinal de fala para diagnosticar doenças da laringe. Medidas acústicas têm sido propostas de forma a avaliar indiretamente o trato glotal por meio do sinal de voz coletado através de microfone convencional. Para isso, o modelo paramétrico Liljencrants-Fant (LF) foi desenvolvido para representar o sinal glotal em condições normais e patológicas. Tais parâmetros apresentam vantagens sobre medidas acústicas por possuírem características fisiológicas reais das pregas vocais. Assim, podendo ser empregados para identificação de doenças da laringe. Além da estimação dos parâmetros LF, no domínio do tempo (parâmetros T), a forma de onda da derivativa glotal também pôde ser quantificada através dos parâmetros identificados na literatura por parâmetros R (Rd, Ra, Rk e Rg), parâmetros quocientes Q (SQ, OQ, CQ, AQ e NAQ), parâmetros B1 e B2 que são as extensões de bandas do pulso derivativo LF, e o parâmetro ece, que relaciona os parâmetros &#946 e Ta. Os parâmetros B1 e B2 e ece apesar de serem propostos na literatura, não são encontrados resultados diferentes a essas duas medidas. Os resultados mostraram que os parâmetros B não foram confiáveis na discriminação entre as vozes, por outro lado, o parâmetro ece mostrou-se ser opção na discriminação entre as vozes normais, nódulo e Reinke. O objetivo deste trabalho é direcionar a atenção sobre o sinal glotal, estimando-o automaticamente mediante técnicas de PDS aplicadas ao sinal de fala, visando extrair parâmetros que identifiquem as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições fisiológicas do movimento das pregas vocais. Com um nível de confiança de 95%, o parâmetro de primeira ordem (TRp) é efetivo na discriminação do Edema de Reinke, porém mostrou-se ineficaz na detecção do nódulo. Em relação ao parâmetro de ordem superior, conclui-se que o TRs é um excelente detetor de vozes patológicas (nódulo e Edema de Reinke), porém não é capaz de discriminar as patologias. / Many researches has been conducted in digital signal processing (DSP) atempting to evaluate the physiological conditions of larynx. Acoustical parameters have been proposed to evaluate the glotal tract from voice signal. One technique proposed is the Liljencrants-Fant model (LF) developed to represent normal and pathologic conditions of the larynx. Those parameters compare favourably as far as real physiologic characteristic of vocal folds is concerned. So, a primary use of the model is the larynx pathologic identification. Beyond LF parameters estimation, (T parameters in the time domain), the waveform of glotal pulse derivative also can be quantified through, R parameters (Rd, Ra, Rk and Rg), quocient parameters (SQ, OQ, CQ, AQ and NAQ), B parameters (B1 and B2) that are band extension of the LF glotal pulse derivative and the ece parameter that in fact, is a relationship between &#946 and Ta. Although proposed in the literature, no results are found, related to B and ece parameters. Our founds show that B parameters do not present good results in voice discrimination, however, ece parameter seems to be good option to discriminate normal voice, nodulo and Reinke edema. The main purpose of this work is to estimate the glotal signal from the voice signal using DSP techniques in order to obtain parameters that identifies the physiological larynx condition. In order to estimate the shape of return phase of glotal pulse, twoparameters have been proposed in this work. The first one evaluates the pulse (TRp, in other words, the first order component of the return phase. The second is responsible to evaluate superior orders components of the return phase (TRs), i.e, the non-linear component of the glotal pulse. With 95% of confidence level, TRp is effective in Reinke edema discrimination however it is inefficient for nodule e dection. By the other hand, the TRs parameter works well to detect pathologic voice however is unable to discriminated them.
8

Modelo de produção da voz baseado na biofísica da fonação.

ROCHA, Raissa Bezerra. 24 August 2018 (has links)
Submitted by Maria Medeiros (maria.dilva1@ufcg.edu.br) on 2018-08-24T15:00:51Z No. of bitstreams: 1 RAISSA BEZERRA ROCHA - TESE (PPgEE) 2017.pdf: 2547994 bytes, checksum: e7533ebc755ba778f971329b75a40ff2 (MD5) / Made available in DSpace on 2018-08-24T15:00:51Z (GMT). No. of bitstreams: 1 RAISSA BEZERRA ROCHA - TESE (PPgEE) 2017.pdf: 2547994 bytes, checksum: e7533ebc755ba778f971329b75a40ff2 (MD5) Previous issue date: 2017-03-20 / CNPq / A busca por novos modelos que representem a biofísica da fonação da voz é importante em aplicações que incluem o processamento do sinal de voz por representar uma ferramenta no conhecimento de característica dos locutores. Esta tese de doutorado apresenta uma nova abordagem para a teoria fonte-filtro de geração de voz, mais precisamente sons sonoros, que realiza a modelagem da voz por meio de três subsistemas independentes: fonte de excitação, trato vocal e radiação dos lábios e narinas. Trata-se de um modelo em que a geração da voz é feita por meio de filtros lineares e invariantes ao deslocamento no tempo e que leva em consideração a física da fonação, a partir da característica cicloestacionária do sinal de voz, proveniente do comportamento de vibração das cordas vocais. É sugerido que a frequência de oscilação das cordas vocais é dada em função da massa e comprimento delas, e que seu valor é alterado principalmente pela tensão longitudinal aplicada a elas. No modelo proposto para geração da voz, o movimento vibratório das cordas vocais é modelado por meio de um de gerador de trem de impulsos cicloestacionário, controlado por um sinal de tensão obtido a partir da forma de onda do sinal de voz. É realizada toda a análise matemática que abrange o novo modelo para a excitação glotal, apresentando-se uma expressão matemática da densidade espectral de potência do sinal que excita a glote, bem como para o sinal de voz, cujos parâmetros podem ser ajustados para emular patologias na glote. Além disso, apresenta-se a análise no domínio da frequência do pulso glotal usado. Para analisar o desempenho do modelo proposto, testes com locução foram realizados e os resultados indicam que o modelo proposto se ajusta bem a geração da voz. / The search for new models that represent the biophysics of voice phonation is important for applications that include voice signal processing because it represents a tool for getting to know the characteristics of the speakers. This doctoral thesis presents a new proposal for the source-filter theory of voice production, more precisely related to voiced sounds, that performs the voice modelling using three independent subsystems: the excitation source, the vocal tract, the lip and nostrils radiation system. It is a proposal for a model to generate voice using linear and time-invariant systems, and takes into account the phonation physics and the cyclestationarity characteristics of the voice signal, related to the vibrational behavior of the vocal cords. The model suggests that the frequency oscillation of the vocal folds is a function of the mass and length, but controlled by the longitudinal tension applied to them. In the proposed voice generation model, the vibratory movement of the vocal cords is modeled by a cyclestationary train of impulses, controlled by a tension signal obtained from the voice signal waveform. A mathematical analysis encompassing the new model for glottal excitation is accomplished by presenting a mathematical expression of the signal power spectral density which excites the glottis, as well as the voice signal, whose parameters can be adjusted to emulate pathologies in the glottis. Moreover, the analysis of the utilized glottal pulse in the frequency domain is presented. To analyze the performance of the proposed model, tests with locutions were done and the results indicate that the proposed model adjusts well to voice generation.
9

Estimação do sinal glotal para padrões acústicos de doenças da laringe / not available

Aparecida de Cássia Guerra 03 May 2005 (has links)
Muitas pesquisas tem sido feitas em processamento digital de sinais (PDS) na tentativa de se avaliar o sinal de fala para diagnosticar doenças da laringe. Medidas acústicas têm sido propostas de forma a avaliar indiretamente o trato glotal por meio do sinal de voz coletado através de microfone convencional. Para isso, o modelo paramétrico Liljencrants-Fant (LF) foi desenvolvido para representar o sinal glotal em condições normais e patológicas. Tais parâmetros apresentam vantagens sobre medidas acústicas por possuírem características fisiológicas reais das pregas vocais. Assim, podendo ser empregados para identificação de doenças da laringe. Além da estimação dos parâmetros LF, no domínio do tempo (parâmetros T), a forma de onda da derivativa glotal também pôde ser quantificada através dos parâmetros identificados na literatura por parâmetros R (Rd, Ra, Rk e Rg), parâmetros quocientes Q (SQ, OQ, CQ, AQ e NAQ), parâmetros B1 e B2 que são as extensões de bandas do pulso derivativo LF, e o parâmetro ece, que relaciona os parâmetros &#946 e Ta. Os parâmetros B1 e B2 e ece apesar de serem propostos na literatura, não são encontrados resultados diferentes a essas duas medidas. Os resultados mostraram que os parâmetros B não foram confiáveis na discriminação entre as vozes, por outro lado, o parâmetro ece mostrou-se ser opção na discriminação entre as vozes normais, nódulo e Reinke. O objetivo deste trabalho é direcionar a atenção sobre o sinal glotal, estimando-o automaticamente mediante técnicas de PDS aplicadas ao sinal de fala, visando extrair parâmetros que identifiquem as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições normais e patológicas da laringe. Por fim foram propostos os parâmetros TRp e TRs, visando dissociar os efeitos de primeira ordem dos de ordem superior na fase de retorno do pulso glotal com a finalidade de estimar a real não-linearidade do sub-sistema glotal, retratando as condições fisiológicas do movimento das pregas vocais. Com um nível de confiança de 95%, o parâmetro de primeira ordem (TRp) é efetivo na discriminação do Edema de Reinke, porém mostrou-se ineficaz na detecção do nódulo. Em relação ao parâmetro de ordem superior, conclui-se que o TRs é um excelente detetor de vozes patológicas (nódulo e Edema de Reinke), porém não é capaz de discriminar as patologias. / Many researches has been conducted in digital signal processing (DSP) atempting to evaluate the physiological conditions of larynx. Acoustical parameters have been proposed to evaluate the glotal tract from voice signal. One technique proposed is the Liljencrants-Fant model (LF) developed to represent normal and pathologic conditions of the larynx. Those parameters compare favourably as far as real physiologic characteristic of vocal folds is concerned. So, a primary use of the model is the larynx pathologic identification. Beyond LF parameters estimation, (T parameters in the time domain), the waveform of glotal pulse derivative also can be quantified through, R parameters (Rd, Ra, Rk and Rg), quocient parameters (SQ, OQ, CQ, AQ and NAQ), B parameters (B1 and B2) that are band extension of the LF glotal pulse derivative and the ece parameter that in fact, is a relationship between &#946 and Ta. Although proposed in the literature, no results are found, related to B and ece parameters. Our founds show that B parameters do not present good results in voice discrimination, however, ece parameter seems to be good option to discriminate normal voice, nodulo and Reinke edema. The main purpose of this work is to estimate the glotal signal from the voice signal using DSP techniques in order to obtain parameters that identifies the physiological larynx condition. In order to estimate the shape of return phase of glotal pulse, twoparameters have been proposed in this work. The first one evaluates the pulse (TRp, in other words, the first order component of the return phase. The second is responsible to evaluate superior orders components of the return phase (TRs), i.e, the non-linear component of the glotal pulse. With 95% of confidence level, TRp is effective in Reinke edema discrimination however it is inefficient for nodule e dection. By the other hand, the TRs parameter works well to detect pathologic voice however is unable to discriminated them.
10

Reconhecimento de fala contínua para o Português Brasileiro em sistemas embarcados. / Continuous speech recognition for Brazilian Portuguese in embedded systems.

SILVA, Daniella Dias Cavalcante da. 30 July 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-30T21:22:20Z No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - TESE PPGEE 2011..pdf: 21267862 bytes, checksum: 34609e6f0c5b3d3d5dbe954562ec3132 (MD5) / Made available in DSpace on 2018-07-30T21:22:20Z (GMT). No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - TESE PPGEE 2011..pdf: 21267862 bytes, checksum: 34609e6f0c5b3d3d5dbe954562ec3132 (MD5) Previous issue date: 2011-12 / Com o advento da tecnologia, as máquinas predominam em quase todos os cenários do cotidiano das pessoas, sejam essas máquinas computadores, eletrodomésticos, dispositivos portáteis, etc. Com isso, nada melhor do que dotá-las com a capacidade de percepção e compreensão da voz humana, que é a forma mais simples, natural e eficaz do ser humano expressar seus pensamentos. Apesar de muitas pesquisas na área de Processamento Digital de Sinais de Voz (PDSV) terem permitido o desenvolvimento de sistemas de Reconhecimento de Faia bastante eficientes, requisitos de processamento ainda dificultam a implementação desses sistemas em dispositivos com pequeno poder computacional, como celulares, palmtops e eíetrodomésticos. Para permitir a implementação de sistemas de Reconhecimento de Faia nesse contexto, alguns trabalhos sacrificam a eficiência no processo de reconhecimento em nome da redução do tamanho físico e de exigências computacionais. Assim, a busca por modelagens acústicas e linguísticas othnizadas, associadas ao uso de bases de dados representativas, pode levar a ura compromisso entre desempenho do sistema em termos de taxas de reconhecimento e exigências computacionais impostas por sistemas embarcados. O objetivo principal deste trabalho consiste na modelagem da arquitetura de um sistema de reconhecimento de fala contínua para o português brasileiro, utilizando Modelos Ocultos de Markov, de forma a possibilitar sua implementação em um sistema embarcado com recursos computacionais limitados. A fim de selecionar a configuração que melhor atenda esse objetivo, foram realizados experimentos e análises, de modo a identificar possíveis adaptações, a partir de simplificações matemáticas e redução de parâmetros nas etapas do processo de reconhecimento. Em todo lho, foi considerada a relação entre a taxa de reconhecimento e o custo computacional. A arquitetura do sistema embarcado desenvolvida e o seu processo de modelagem, incluindo os experimentos, as análises e os seus respectivos resultados, serão apresentados e discutidos no decorrer deste documento. / WIth the advent of technology, machines predominate in aímost ali seenarios of everyday life. The possibiiity of performing human-maehine comniunication through speech makes this interact.ion easier and more productive. However, processing requirements still difficult tlíe implementation oF systems for automatic continuous speech recognition on devices with low computational power sucJi as mobile phones, palmtops and appliances. To allow the implementation of speech recognition systems in this context. some works sacrifice efficiency in the recognition process for redueing the chip area and computational requirements. For this purpose, it becomes necessary to research for optimized acoustic and language modeling, associated with use of representative databases, looking for a good compromise between recognitioa vaies and compuiational demands imposed by embedded systems. The main goai of this work is to model the architecture of a system for continuous speech recognition Brazilian Portuguese, in order to enable its implementation in an embedded system with limited computtng resources. In order to select the setting that best nieets this goal, experiments and analysis were performed. The purpose of these was to identify possible adaptations, from mathematical simpiifícations and reduction of parameters in the steps of the recognition process. During the deveiopinent of this work, the relationship between recognition rate and computational cost was considered. The embedded system architecture developed and its modeling process, including experiments. analysis and their results will be presented and díscussed thxoughout this document.

Page generated in 0.1925 seconds