[pt] O objetivo desta dissertação é classificar sinais de vozes, usando redes neurais, obtidos por meio de um modelo mecânico-estocástico para produção da voz humana, esse modelo foi construído a partir de uma abordagem probabilística não-paramétrica para considerar incertezas do modelo. Primeiro, uma rede neural artificial foi construída para classificar sinais de vozes reais, normais e provenientes de sujeitos com patologias nas cordas vocais. Como entradas da rede neural foram usadas medidas acústicas extraídas dos sinais glotais, obtidos por filtragem inversa dos sinais de vozes reais. Essa rede neural foi usada, posteriormente, para classificar sinais de vozes sintetizadas geradas por um modelo estocástico da produção da voz humana, no caso particular da geração de vogais. O modelo estocástico da produção da voz humana foi construído tomando por base o modelo determinístico criado por Ishizaka e Flanagan. Incertezas do modelo foram consideradas através de uma abordagem probabilística não-paramétrica de modo que matrizes aleatórias foram associadas às matrizes de massa, rigidez e amortecimento do modelo. Funções densidade de probabilidade foram construídas para essas matrizes, usando o Princípio da Máxima Entropia. O método de Monte Carlo foi usado para gerar realizaçoes de sinais de vozes. Os sinais obtidos
foram então classificados usando a rede neural construída previamente. Das realizações obtidas, alguns sinais de vozes foram classificados como normais, porém outros foram classificados como provenientes de sujeitos com patologias nas cordas vocais. Os sinais com características de patologia foram classificados em três grupos: nódulo, paralisia unilateral e outras patologias. / [en] The aim of this thesis is to classify voice signals, using neural networks, obtained through a mechanical stochastic model for voice production, this model was built from a nonparametric probabilistic approach to take into account modeling uncertainties. At first, an artificial neural network was constructed to classify real voice signals, normal and produced by subjects with pathologies on the vocal folds. As inputs for the neural network were used acoustic measures extracted from the glottal signals, obtained by inverse filtering of the real voice signals. This neural network was used, later, to classify synthesized voice signal generated by a stochastic model of the voice production, in the particular case of vowels generation. The stochastic model was constructed from the corresponding deterministic model created by Ishizaka and Flanagan, in 1972. Modeling uncertainties were taken into account through a nonparametric probabilistic approach such that random matrices were associated to mass, stiffness and damping model matrices.
Probability density functions were constructed for these matrices using the Maximum Entropy Principle. The Monte Carlo Method was used to generate realizations of the voice signals. The voice signals obtained were
then classified using the neural network previously constructed. From the realizations obtained, some voice signals were classified as normal, but others were classified as produced by subjects with pathologies on the vocal folds. The signal with pathologies characteristics were classified into three groups: nodulus, unilateral paralysis and other pathologies.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:37984 |
Date | 13 May 2019 |
Creators | JOSUE VALENTIN USCATA BARRIENTOS |
Contributors | RUBENS SAMPAIO FILHO |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | Portuguese |
Type | TEXTO |
Page generated in 0.0022 seconds