Global ETD Search

31	Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente Santos, Rafael Menêses 30 May 2016 (has links) One of the biggest challenges in speech recognition today is its use on a daily basis, in which distortion and noise in the environment are present and hinder this task. In the last thirty years, hundreds of methods for noise-robust recognition were proposed, each with its own advantages and disadvantages. In this thesis, the use of Convolutional Neural Networks (CNN) as acoustic models in automatic speech recognition systems (ASR) is proposed as an alternative to the classical recognition methods based on Hidden Markov Models (HMM) without any noise-robust method applied. Experiments were performed with a audio set modified by additive and natural noises, and showed that the presented method reduces the Equal Error Rate (EER) and improves the acuracy of speech recognition in noisy environments when compared to traditional models of classifiation, indicating the robustness of the approach. / Um dos maiores desafios no reconhecimento de fala atualmente é usá-lo no contexto diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e re- duzem a qualidade do reconhecimento. Nos últimos trinta anos, centenas de métodos para reconhecimento robusto ao ruído foram propostos, cada um com suas vantagens e desvantagens. Este trabalho propõe o uso de uma rede neural convolucional no papel de modelo acústico em sistemas de reconhecimento automático de fala,como uma alter- nativa ao métodos clássicos de reconhecimento baseado em modelos ocultos de Markov (HMM, do inglês, Hidden Markov Models) sem a aplicação de um método robusto ao ruído. Experimentos foram realizados com áudios modi ficados com ruídos aditivos e reais, e mostraram que o método proposto reduz o Equal Error Rate (EER) e aumenta a acurácia da classificação de comando de voz quando comparado a modelos tradicionais de classificação, evidenciando a robustez da abordagem apresentada. Computação Redes neurais (Computação) Reconhecimento automático da voz Processos de Markov Convolucionais HMM Reconhecimento de fala Speech recognition Convolutional neural networks
32	Reconhecimento automatico de fala continua empregando modelos hibridos ANN +HMM Morais, Edmilson da Silva 17 December 1997 (has links) Orientador: Fabio Violaro / Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-07-23T09:17:49Z (GMT). No. of bitstreams: 1 Morais_EdmilsondaSilva_M.pdf: 6382080 bytes, checksum: 5ff91ddf6858cdc6b90fb32d2b42eb71 (MD5) Previous issue date: 1997 / Resumo: Atualmente, os sistemas que representam o estado-da-arte em reconhecimento de fala contínua baseiam-se em modelos ocultos de Markov - HMM("Hidden MarkovModels"), uma estrutura duplamente estocástica capaz de modelar tanto as variabilidades acústicas como temporais do sinal de fala. Porém, para viabilizar o modelamento matemático de um HMM, são realizadas inúmeras suposições simplificadoras que limitam o seu potencial efetivo. Redes neurais artificiais - ANN ("Artificial Neural Networks") não necessitam fazer uso de muitas destas suposições, podem aprender e generalizar superfícies complexas de decisão, tolerar ruídos e suportar paralelismo. Todas estas vantagens tornam as ANNs extremamente poderosas para modelar as variabilidades acústicas da fala. Entretanto, ao contrário dos HMMs, as ANNs não têm se mostrado eficientes para o modelamento das variabilidades temporais. Com o objetivo de unir em uma única estrutura o que há de melhor nas tecnologias de redes neurais artificiais e de modelos ocultos de Markov, têm sido estudados e avaliados nos últimos sete anos [36, 14,3,33,21,8, 1], modelos híbridos ANN-HMM nos quais o modelamento das variabilidades acústicas é confiado à ANN enquanto o HMM responsabiliza-se pela absorção das variabilidades temporais... Observação: O resumo, na íntegra, poderá ser visualizado no texto completo da tese digital / Abstract: Not informed. / Mestrado / Mestre em Engenharia Elétrica Reconhecimento automático da voz Reconhecimento de padrões Redes neurais (Computação) Markov, Processos de Fala Sistemas de tempo discreto Reconhecimento automatico da fala
33	Sistema baseado em regras para o refinamento da segmentação automatica de fala / Rule based system for refining the automatic speech segmentation Selmini, Antonio Marcos 22 August 2008 (has links) Orientador: Fabio Violaro / Tese (doutorado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação / Made available in DSpace on 2018-08-11T22:49:44Z (GMT). No. of bitstreams: 1 Selmini_AntonioMarcos_D.pdf: 2404244 bytes, checksum: d7fcd0828f3157c595a0e3426b4a7eb0 (MD5) Previous issue date: 2008 / Resumo: A demanda por uma segmentação automática de fala confiável vem crescendo e exigindo pesquisas para suportar o desenvolvimento de sistemas que usam fala para uma interação homem-máquina. Neste contexto, este trabalho relata o desenvolvimento e avaliação de um sistema para segmentação automática de fala usando o algoritmo de Viterbi e refinamento das fronteiras de segmentação baseado nas características fonético-acústicas das classes fonéticas. As subunidades fonéticas (dependentes de contexto) são representadas com Modelos Ocultos de Markov (HMM - Hidden Markov Models). Cada fronteira estimada pelo algoritmo de Viterbi é refinada usando características acústicas dependentes de classes de fones, uma vez que a identidade dos fones do lado direito e esquerdo da fronteira considerada é conhecida. O sistema proposto foi avaliado usando duas bases dependentes de locutor do Português do Brasil (uma masculina e outra feminina) e também uma base independente de locutor (TIMIT). A avaliação foi realizada comparando a segmentação automática com a segmentação manual. Depois do processo de refinamento, um ganho de 29% nas fronteiras com erro de segmentação abaixo de 20 ms foi obtido para a base de fala dependente de locutor masculino do Português Brasileiro. / Abstract: The demand for reliable automatic speech segmentation is increasing and requiring additional research to support the development of systems that use speech for man-machine interface. In this context, this work reports the development and evaluation of a system for automatic speech segmentation using Viterbi's algorithm and a refinement of segmentation boundaries based on acoustic-phonetic features. Phonetic sub-units (context-dependent phones) are modeled with HMM (Hidden Markov Models). Each boundary estimated by Viterbi's algorithm is refined using class-dependent acoustic features, as the identity of the phones on the left and right side of the considered boundary is known. The proposed system was evaluated using two speaker dependent Brazilian Portuguese speech databases (one male and one female speaker), and a speaker independent English database (TIMIT). The evaluation was carried out comparing automatic against manual segmentation. After the refinement process, an improvement of 29% in the percentage of segmentation errors below 20 ms was achieved for the male speaker dependent Brazilian Portuguese speech database. / Doutorado / Telecomunicações e Telemática / Doutor em Engenharia Elétrica Sistemas de processamento da fala Fonética acústica Reconhecimento automático da voz Markov, Processos de Automatic speech segmentation Acoustic-phonetic features HMM modelling Viterbi's algorithm
34	Sistema de inferência genético-nebuloso para reconhecimento de voz: Uma abordagem em modelos preditivos de baixa ordem utilizando a transformada cosseno discreta / System of genetic hazy inference for speech recognition: one approach to predictive models of low-order using the discrete cosine transform Silva, Washington Luis Santos 20 March 2015 (has links) Made available in DSpace on 2016-08-17T16:54:32Z (GMT). No. of bitstreams: 1 TESE_WASHINGTON LUIS SANTOS SILVA.pdf: 2994073 bytes, checksum: 86620806fbcc7af4fcf423defd5776bc (MD5) Previous issue date: 2015-03-20 / This thesis proposes a methodology that uses an intelligent system for voice recognition. It uses the definition of intelligent system, as the system has the ability to adapt their behavior to achieve their goals in a variety of environments. It is used also, the definition of Computational Intelligence, as the simulation of intelligent behavior in terms of computational process. In addition the speech signal pre-processing with mel-cepstral coefficients, the discrete cosine transform (DCT) is used to generate a two-dimensional array to model each pattern to be recognized. A Mamdani fuzzy inference system for speech recognition is optimized by genetic algorithm to maximize the amount of correct classification of standards with a reduced number of parameters. The experimental results achieved in speech recognition with the proposed methodology were compared with the Hidden Markov Models-HMM and the classifiers Gaussians Mixtures Models-GMM and Support Vector Machine-SVM. The recognition system used in this thesis was called Intelligent Methodology for Speech Recognition-IMSR / Neste trabalho propõe-se uma metodologia que utiliza um sistema inteligente para reconhecimento de voz. Utiliza-se a definição de sistema inteligente, como o sistema que possui a capacidade de adaptar seu comportamento para atingir seus objetivos em uma variedade de ambientes. Utiliza-se, também, a definição de Inteligência Computacional, como sendo a simulação de comportamentos inteligentes em termos de processo computacional. Além do pré-processamento do sinal de voz com coeficientes mel-cepstrais, a transformada discreta cosseno (TCD) é utilizada para gerar uma matriz bidimensional para modelar cada padrão a ser reconhecido. Um sistema de inferências nebuloso Mamdani para reconhecimento de voz é otimizado por algoritmo genético para maximizar a quantidade de acertos na classificação dos padrões com um número reduzido de parâmetros. Os resultados experimentais alcançados no reconhecimento de voz com a metodologia proposta foram comparados com o Hidden Markov Models-HMM e com os classificadores Gaussian Mixture Models-GMM e máquina de vetor de suporte (Support Vector Machine-SVM) com intuito de avaliação de desempenho. O sistema de reconhecimento usado neste trabalho foi denominado Intelligent Methodology for Speech Recognition-IMSR. sistemas nebulosos reconhecimento automático de voz algoritmo genético transformada cosseno discreta sistemas inteligentes fuzzy systems automatic speech recognition genetic algorithms discrete cosine transform intelligent system CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
35	Sintese e reconhecimento da fala humana / Synthesis and recognition of human speech Stolfi, Rumiko Oishi 31 October 2006 (has links) Orientadores: Fabio Violaro, Anamaria Gomide / Dissertação (mestrado profissional) - Universidade Estadual de Campinas, Instituto de Computação / Made available in DSpace on 2018-08-07T21:57:26Z (GMT). No. of bitstreams: 1 Stolfi_RumikoOishi_M.pdf: 1514197 bytes, checksum: e93f45916d359641c73b31b00952a914 (MD5) Previous issue date: 2006 / Resumo: O objetivo deste trabalho é apresentar uma revisão dos principais conceitos e métodos envolvidos na síntese, processamento e reconhecimento da fala humana por computador.Estas tecnologias têm inúmeras aplicações, que têm aumentado substancialmente nos últimos anos com a popularização de equipamentos de comunicação portáteis (celulares, laptops, palmtops) e a universalização da Internet. A primeira parte deste trabalho é uma revisão dos conceitos básicos de processamento de sinais, incluindo transformada de Fourier, espectro de potência e espectrograma, filtros, digitalização de sinais e o teorema de Nyquist. A segunda parte descreve as principais características da fala humana, os mecanismos envolvidos em sua produção e percepção, e o conceito de fone (unidade lingüística de som). Nessa parte também descrevemos brevemente as principais técnicas para a conversão ortográfica-fonética, para a síntese de fala a partir da descrição fonética, e para o reconhecimento da fala natural. A terceira parte descreve um projeto prático que desenvolvemos para consolidar os conhecimentos adquiridos neste mestrado: um programa que gera canções populares japonesas a partir de uma descrição textual da letra de música, usando método de síntese concatenativa. No final do trabalho listamos também alguns softwares disponíveis (livres e comerciais) para síntese e reconhecimento da fala / Abstract: The goal of this dissertation is to review the main concepts relating to the synthesis, processing, and recognition of human speech by computer. These technologies have many applications, which have increased substantially in recent years after the spread of portable communication equipment (mobile phones, laptops, palmtops) and the universal access to the Internet. The first part of this work is a revision of fundamental concepts of signal processing, including the Fourier transform, power spectrum and spectrogram, filters, signal digitalization, and Nyquist's theorem. The second part describes the main characteristics of human speech, the mechanisms involved in its production and perception, and the concept of phone (linguistic unit of sound). In this part we also briefly describe the main techniques used for orthographic-phonetic transcription, for speech synthesis from a phonetic description, and for the recognition of natural speech. The third part describes a practical project we developed to consolidate the knowledge acquired in our Masters studies: a program that generates Japanese popular songs from a textual description of the lyrics and music, using the concatenative synthesis method. At the end of this dissertation, we list some available software products (free and commercial) for speech synthesis and speech recognition / Mestrado / Engenharia de Computação / Mestre em Ciência da Computação Sistemas de processamento da fala Processamento de sinais Reconhecimento automático da voz Síntese da voz Reconhecimento automatico da fala Speech processing systems Signal processing Automatic speech recognition Voice systhesis
36	Aceitação de tecnologia por estudantes surdos na perspectiva da educação inclusiva / Technology Acceptance for deaf students in the perspective of inclusive education Prietch, Soraia Silva 04 September 2014 (has links) Com a Política Nacional de Educação Especial na perspectiva da Educação Inclusiva (2008), as escolas regulares vêm recebendo um número maior de estudantes surdos ou com deficiência auditiva (S/DA), que antes frequentavam escolas especializadas. No entanto, dados apontam a diminuição do número de estudantes S/DA matriculados no ensino fundamental para o ensino médio, e do ensino médio para o ensino superior; ou seja, existem razões para se acreditar que barreiras educacionais se impõem no caminho desses estudantes para que conquistem uma formação educacional completa. Neste contexto, o objetivo deste trabalho é propor um modelo de aceitação de tecnologias levando em consideração fatores que envolvam aspectos do contexto da educação inclusiva, bem como efetuar experimento da interação de usuários S/DA com uma tecnologia para avaliar o modelo. Dentre os fatores mencionados um deles se refere às potenciais barreiras educacionais vivenciadas pelos estudantes S/DA em salas de aula inclusivas. Com relação à metodologia de pesquisa, o estudo desenvolveu-se em ciclos. Na medida em que as investigações avançavam, um novo estudo iniciava, se desenvolvia e se fechava. Isso permitiu que a proposta inicial tivesse sucessivos refinamentos ao longo do tempo até o ponto em que os questionamentos iniciais foram respondidos e o objetivo foi atingido. O modelo proposto mostrou resultados positivos, no sentido de conseguir capturar os fatores que podem influenciar a aceitação de tecnologias considerando o contexto de aplicação específico, uma vez que estes incorporam os aspectos da qualidade pragmática e os aspectos da qualidade hedônica, questões relacionadas à utilidade percebida da minimização de potenciais barreiras educacionais, expectativas futuras, e condições facilitadoras. Conclui-se que o modelo engloba tanto a investigação sobre questões motivacionais pessoais dos usuários quanto a investigação de aspectos do contexto de uso, e que o modelo pode ser utilizado para a finalidade a qual foi proposto, a avaliação de aceitação de tecnologias em ambientes de educação incluvisa. / With the foundation of the National Policy on Special Education on the Perspective of Inclusive Education (2008), mainstream schools are receiving a greater number of deaf or hard of hearing (D/HH) students, that once before were attending specialized schools. However, data point to the declining number of D/HH students enrolled from primary school to high school, and from high school students to higher education; ie, there are reasons to believe that educational barriers are imposed on the way of these students to conquer a complete education. In this context, the goal of this work is to propose a technology acceptance model that takes into account factors that ivolve aspects of the inclusive education context, as well as performing experiment on the interaction of D/HH users with a technology to evaluate the model. Among the factors, one of them refers to the potential educational barriers experienced by D/HH students in inclusive classrooms. With regard to research methodology, the study was developed in cycles. To the extent that the investigations progressed, a new study began, was unfolded and closed. This allowed successive refinements over time to the point where the initial questions were answered and the goal was reached. The proposed model has shown positive results in capturing factors that influence technology acceptance given the domain specific context, since they incorporate aspects of pragmatic quality and hedonic quality, also issues related to perceived usefulness in minimizing potential educational barriers, future expectations, and facilitating conditions. We conclude that the model encompasses both users personal motivation and context of use aspects, and the model can be used for the purpose for which it was proposed, technology acceptance evaluation considering inclusive education contexts. Aceitação de tecnologia Automatic speech recognition Educação inclusiva Hedonic quality Inclusive education Qualidade hedônica Students who are deaf or hard of hearing Technology acceptance
37	Aceitação de tecnologia por estudantes surdos na perspectiva da educação inclusiva / Technology Acceptance for deaf students in the perspective of inclusive education Soraia Silva Prietch 04 September 2014 (has links) Com a Política Nacional de Educação Especial na perspectiva da Educação Inclusiva (2008), as escolas regulares vêm recebendo um número maior de estudantes surdos ou com deficiência auditiva (S/DA), que antes frequentavam escolas especializadas. No entanto, dados apontam a diminuição do número de estudantes S/DA matriculados no ensino fundamental para o ensino médio, e do ensino médio para o ensino superior; ou seja, existem razões para se acreditar que barreiras educacionais se impõem no caminho desses estudantes para que conquistem uma formação educacional completa. Neste contexto, o objetivo deste trabalho é propor um modelo de aceitação de tecnologias levando em consideração fatores que envolvam aspectos do contexto da educação inclusiva, bem como efetuar experimento da interação de usuários S/DA com uma tecnologia para avaliar o modelo. Dentre os fatores mencionados um deles se refere às potenciais barreiras educacionais vivenciadas pelos estudantes S/DA em salas de aula inclusivas. Com relação à metodologia de pesquisa, o estudo desenvolveu-se em ciclos. Na medida em que as investigações avançavam, um novo estudo iniciava, se desenvolvia e se fechava. Isso permitiu que a proposta inicial tivesse sucessivos refinamentos ao longo do tempo até o ponto em que os questionamentos iniciais foram respondidos e o objetivo foi atingido. O modelo proposto mostrou resultados positivos, no sentido de conseguir capturar os fatores que podem influenciar a aceitação de tecnologias considerando o contexto de aplicação específico, uma vez que estes incorporam os aspectos da qualidade pragmática e os aspectos da qualidade hedônica, questões relacionadas à utilidade percebida da minimização de potenciais barreiras educacionais, expectativas futuras, e condições facilitadoras. Conclui-se que o modelo engloba tanto a investigação sobre questões motivacionais pessoais dos usuários quanto a investigação de aspectos do contexto de uso, e que o modelo pode ser utilizado para a finalidade a qual foi proposto, a avaliação de aceitação de tecnologias em ambientes de educação incluvisa. / With the foundation of the National Policy on Special Education on the Perspective of Inclusive Education (2008), mainstream schools are receiving a greater number of deaf or hard of hearing (D/HH) students, that once before were attending specialized schools. However, data point to the declining number of D/HH students enrolled from primary school to high school, and from high school students to higher education; ie, there are reasons to believe that educational barriers are imposed on the way of these students to conquer a complete education. In this context, the goal of this work is to propose a technology acceptance model that takes into account factors that ivolve aspects of the inclusive education context, as well as performing experiment on the interaction of D/HH users with a technology to evaluate the model. Among the factors, one of them refers to the potential educational barriers experienced by D/HH students in inclusive classrooms. With regard to research methodology, the study was developed in cycles. To the extent that the investigations progressed, a new study began, was unfolded and closed. This allowed successive refinements over time to the point where the initial questions were answered and the goal was reached. The proposed model has shown positive results in capturing factors that influence technology acceptance given the domain specific context, since they incorporate aspects of pragmatic quality and hedonic quality, also issues related to perceived usefulness in minimizing potential educational barriers, future expectations, and facilitating conditions. We conclude that the model encompasses both users personal motivation and context of use aspects, and the model can be used for the purpose for which it was proposed, technology acceptance evaluation considering inclusive education contexts. Aceitação de tecnologia Educação inclusiva Qualidade hedônica Automatic speech recognition Hedonic quality Inclusive education Students who are deaf or hard of hearing Technology acceptance
38	Reconhecimento de padrões aplicados à identificação de patologias de laringe / Pattern recognition applied to the identification of pathologies laryngeal Sodré, Bruno Ribeiro 23 February 2016 (has links) As patologias que afetam a laringe estão aumentando consideravelmente nos últimos anos devido à condição da sociedade atual onde há hábitos não saudáveis como fumo, álcool e tabaco e um abuso vocal cada vez maior, talvez por conta do aumento da poluição sonora, principalmente nos grandes centros urbanos. Atualmente o exame utilizado pela endoscopia per-oral, direcionado a identiﬁcar patologias de laringe, são a videolaringoscopia e videoestroboscopia, ambos invasivos e por muitas vezes desconfortável ao paciente. Buscando melhorar o bem estar e minimizar o desconforto dos pacientes que necessitam submeter-se a estes procedimentos, este estudo tem como objetivo reconhecer padrões que possam ser aplicados à identiﬁcação de patologias de laringe de modo a auxiliar na criação de um novo método não invasivo em substituição ao método atual. Este trabalho utilizará várias conﬁgurações diferentes de redes neurais. A primeira rede neural foi gerada a partir de 524.287 resultados obtidos através das conﬁgurações k-k das 19 medidas acústicas disponíveis neste trabalho. Esta conﬁguração atingiu uma acurácia de 99,5% (média de 96,99±2,08%) ao utilizar uma conﬁguração com 11 e com 12 medidas acústicas dentre as 19 disponíveis. Utilizando-se 3 medidas rotacionadas (obtidas através do método de componentes principais), foi obtido uma acurácia de 93,98±0,24%. Com 6 medidas rotacionadas, o resultado obtido foi de acurácia foi de 94,07±0,29%. Para 6 medidas rotacionadas com entrada normalizada, a acurácia encontrada foi de 97,88±1,53%. A rede neural que fez 23 diferentes classiﬁcações, voz normal mais 22 patologias, mostrou que as melhores classiﬁcações, de acordo com a acurácia, são a da patologia hiperfunção com 58,23±18,98% e a voz normal com 52,15±18,31%. Já para a pior patologia a ser classiﬁcada, encontrou-se a fadiga vocal com 0,57±1,99%. Excluindo-se a voz normal, ou seja, utilizando uma rede neural composta somente por vozes patológicas, a hiperfunção continua sendo a mais facilmente identiﬁcável com uma acurácia de 57,3±19,55%, a segunda patologia mais facilmente identiﬁcável é a constrição ântero-posterior com 18,14±11,45%. Nesta conﬁguração, a patologia mais difícil de se classiﬁcar continua sendo a fadiga vocal com 0,7±2,14%. A rede com re-amostragem obteve uma acurácia de 25,88±10,15% enquanto que a rede com re-amostragem e alteração de neurônios na camada intermediária obteve uma acurácia de 21,47±7,58% para 30 neurônios e uma acurácia de 18,44±6,57% para 40 neurônios. Por ﬁm foi feita uma máquina de vetores suporte que encontrou um resultado de 67±6,2%. Assim, mostrou-se que as medidas acústicas precisam ser aprimoradas para a obtenção de melhores resultados de classiﬁcação dentre as patologias de laringe estudadas. Ainda assim, veriﬁcou-se que é possível discriminar locutores normais daqueles pacientes disfônicos. / Diseases that affect the larynx have been considerably increased in recent years due to the condition of nowadays society where there have been unhealthy habits like smoking, alcohol and tobacco and an increased vocal abuse, perhaps due to the increase in noise pollution, especially in large urban cities. Currently the exam performed by per-oral endoscopy (aimed to identify laryngeal pathologies) have been videolaryngoscopy and videostroboscopy, both invasive and often uncomfortable to the patient. Seeking to improve the comfort of the patients who need to undergo through these procedures, this study aims to identify acoustic patterns that can be applied to the identification of laryngeal pathologies in order to creating a new non-invasive larynx assessment method. Here two different configurations of neural networks were used. The first one was generated from 524.287 combinations of 19 acoustic measurements to classify voices into normal or from a diseased larynx, and achieved an max accuracy of 99.5% (96.99±2.08%). Using 3 and 6 rotated measurements (obtained from the principal components analysis method), the accuracy was 93.98±0.24% and 94.07±0.29%, respectively. With 6 rotated measurements from a previouly standardization of the 19 acoustic measurements, the accuracy was 97.88±1.53%. The second one, to classify 23 different voice types (including normal voices), showed better accuracy in identifying hiperfunctioned larynxes and normal voices, with 58.23±18.98% and 52.15±18.31%, respectively. The worst accuracy was obtained from vocal fatigues, with 0.57±1.99%. Excluding normal voices of the analysis, hyperfunctioned voices remained the most easily identifiable (with an accuracy of 57.3±19.55%) followed by anterior-posterior constriction (with 18.14±11.45%), and the most difficult condition to be identified remained vocal fatigue (with 0.7±2.14%). Re-sampling the neural networks input vectors, it was obtained accuracies of 25.88±10.15%, 21.47±7.58%, and 18.44±6.57% from such networks with 20, 30, and 40 hidden layer neurons, respectively. For comparison, classification using support vector machine produced an accuracy of 67±6.2%. Thus, it was shown that the acoustic measurements need to be improved to achieve better results of classification among the studied laryngeal pathologies. Even so, it was found that is possible to discriminate normal from dysphonic speakers. Laringe - Doenças - Diagnóstico Voz Redes neurais (Computação) Métodos de simulação Reconhecimento automático da voz Engenharia elétrica Larynx - Diseases - Diagnosis Voice Neural networks (Computer science) Simulation methods Automatic speech recognition Electric engineering
39	Reconhecimento de padrões aplicados à identificação de patologias de laringe / Pattern recognition applied to the identification of pathologies laryngeal Sodré, Bruno Ribeiro 23 February 2016 (has links) As patologias que afetam a laringe estão aumentando consideravelmente nos últimos anos devido à condição da sociedade atual onde há hábitos não saudáveis como fumo, álcool e tabaco e um abuso vocal cada vez maior, talvez por conta do aumento da poluição sonora, principalmente nos grandes centros urbanos. Atualmente o exame utilizado pela endoscopia per-oral, direcionado a identiﬁcar patologias de laringe, são a videolaringoscopia e videoestroboscopia, ambos invasivos e por muitas vezes desconfortável ao paciente. Buscando melhorar o bem estar e minimizar o desconforto dos pacientes que necessitam submeter-se a estes procedimentos, este estudo tem como objetivo reconhecer padrões que possam ser aplicados à identiﬁcação de patologias de laringe de modo a auxiliar na criação de um novo método não invasivo em substituição ao método atual. Este trabalho utilizará várias conﬁgurações diferentes de redes neurais. A primeira rede neural foi gerada a partir de 524.287 resultados obtidos através das conﬁgurações k-k das 19 medidas acústicas disponíveis neste trabalho. Esta conﬁguração atingiu uma acurácia de 99,5% (média de 96,99±2,08%) ao utilizar uma conﬁguração com 11 e com 12 medidas acústicas dentre as 19 disponíveis. Utilizando-se 3 medidas rotacionadas (obtidas através do método de componentes principais), foi obtido uma acurácia de 93,98±0,24%. Com 6 medidas rotacionadas, o resultado obtido foi de acurácia foi de 94,07±0,29%. Para 6 medidas rotacionadas com entrada normalizada, a acurácia encontrada foi de 97,88±1,53%. A rede neural que fez 23 diferentes classiﬁcações, voz normal mais 22 patologias, mostrou que as melhores classiﬁcações, de acordo com a acurácia, são a da patologia hiperfunção com 58,23±18,98% e a voz normal com 52,15±18,31%. Já para a pior patologia a ser classiﬁcada, encontrou-se a fadiga vocal com 0,57±1,99%. Excluindo-se a voz normal, ou seja, utilizando uma rede neural composta somente por vozes patológicas, a hiperfunção continua sendo a mais facilmente identiﬁcável com uma acurácia de 57,3±19,55%, a segunda patologia mais facilmente identiﬁcável é a constrição ântero-posterior com 18,14±11,45%. Nesta conﬁguração, a patologia mais difícil de se classiﬁcar continua sendo a fadiga vocal com 0,7±2,14%. A rede com re-amostragem obteve uma acurácia de 25,88±10,15% enquanto que a rede com re-amostragem e alteração de neurônios na camada intermediária obteve uma acurácia de 21,47±7,58% para 30 neurônios e uma acurácia de 18,44±6,57% para 40 neurônios. Por ﬁm foi feita uma máquina de vetores suporte que encontrou um resultado de 67±6,2%. Assim, mostrou-se que as medidas acústicas precisam ser aprimoradas para a obtenção de melhores resultados de classiﬁcação dentre as patologias de laringe estudadas. Ainda assim, veriﬁcou-se que é possível discriminar locutores normais daqueles pacientes disfônicos. / Diseases that affect the larynx have been considerably increased in recent years due to the condition of nowadays society where there have been unhealthy habits like smoking, alcohol and tobacco and an increased vocal abuse, perhaps due to the increase in noise pollution, especially in large urban cities. Currently the exam performed by per-oral endoscopy (aimed to identify laryngeal pathologies) have been videolaryngoscopy and videostroboscopy, both invasive and often uncomfortable to the patient. Seeking to improve the comfort of the patients who need to undergo through these procedures, this study aims to identify acoustic patterns that can be applied to the identification of laryngeal pathologies in order to creating a new non-invasive larynx assessment method. Here two different configurations of neural networks were used. The first one was generated from 524.287 combinations of 19 acoustic measurements to classify voices into normal or from a diseased larynx, and achieved an max accuracy of 99.5% (96.99±2.08%). Using 3 and 6 rotated measurements (obtained from the principal components analysis method), the accuracy was 93.98±0.24% and 94.07±0.29%, respectively. With 6 rotated measurements from a previouly standardization of the 19 acoustic measurements, the accuracy was 97.88±1.53%. The second one, to classify 23 different voice types (including normal voices), showed better accuracy in identifying hiperfunctioned larynxes and normal voices, with 58.23±18.98% and 52.15±18.31%, respectively. The worst accuracy was obtained from vocal fatigues, with 0.57±1.99%. Excluding normal voices of the analysis, hyperfunctioned voices remained the most easily identifiable (with an accuracy of 57.3±19.55%) followed by anterior-posterior constriction (with 18.14±11.45%), and the most difficult condition to be identified remained vocal fatigue (with 0.7±2.14%). Re-sampling the neural networks input vectors, it was obtained accuracies of 25.88±10.15%, 21.47±7.58%, and 18.44±6.57% from such networks with 20, 30, and 40 hidden layer neurons, respectively. For comparison, classification using support vector machine produced an accuracy of 67±6.2%. Thus, it was shown that the acoustic measurements need to be improved to achieve better results of classification among the studied laryngeal pathologies. Even so, it was found that is possible to discriminate normal from dysphonic speakers. Laringe - Doenças - Diagnóstico Voz Redes neurais (Computação) Métodos de simulação Reconhecimento automático da voz Engenharia elétrica Larynx - Diseases - Diagnosis Voice Neural networks (Computer science) Simulation methods Automatic speech recognition Electric engineering

Search results