Global ETD Search

1	Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals. Maciel, Rogério Carlos Vieira 14 July 2003 (has links) Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise. digital signal processing processamento de fala processamento de voz processamento digital de sinais redução de ruído speech enhancement voice processing
2	Melhoria da qualidade de sinais de fala degradados por ruído através da utilização de sinais sintetizados. / Speech Enhancement using synthetized signals. Rogério Carlos Vieira Maciel 14 July 2003 (has links) Este trabalho discute um novo método para a melhoria da qualidade de sinais de fala degradados por ruído aditivo branco de elevada intensidade (SNR segmentada variando de 10 a 3 dB). A técnica apresentada baseia-se na soma ponderada entre um sinal obtido por subtração espectral e um sinal sintetizado, produzido de acordo com o modelo digital de produção de fala (análise e síntese LPC). Para a estimação dos coeficientes LPC e período de pitch, foi implementado um pré-processador baseado na técnica de subtração espectral (modificada especialmente para este propósito), o que melhora significativamente a qualidade geral do sinal de fala sintetizado. A soma ponderada entre o sinal obtido por subtração espectral e o sinal sintetizado permite a reconstrução de regiões espectrais perdidas devido aos efeitos da aplicação da subtração espectral, bem como a eliminação do ruído musical. Os testes realizados com frases foneticamente balanceadas lidas por diversos locutores permitem observar que o método proposto oferece melhores resultados do que a subtração espectral. O sinal de fala obtido apresenta também maior clareza e naturalidade, sem o inconveniente do ruído musical. / The present work discusses a new method to enhance speech signals degraded by white additive noise in high-noise environments (segmented SNR varying from 10 to 3 dB). The approach presented here is based upon a weighted sum involving a speech signal obtained from spectral subtraction and a synthetized speech signal, which is produced according to the concepts of the digital model of speech production (LPC analysis and synthesis). A spectral subtraction-based pre-processor was specifically implemented for LP coeficients and pitch period estimation, which significantly improves the overall quality of the synthetized speech signal. The weighted combination of these two speech signals allows the reconstruction of spectral regions lost due to the effects of spectral subtraction, as well as the elimination of musical noise. Tests conducted with phonetic-ballanced sentences from several speakers show that the proposed method offers better results than spectral subtraction, producing a more natural and clear enhanced speech signal, without the common artifact of musical noise. processamento de fala processamento de voz processamento digital de sinais redução de ruído digital signal processing speech enhancement voice processing
3	Implementação de um sistema de alteração no retorno auditivo de voz Bortoletto, Antonio Carlos January 2014 (has links) Orientador: Prof. Dr. Celso Setsuo Kurashima / Dissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, 2014. / Alteração no Retorno Auditivo é um tipo de terapia fonoaudiológica destinada a pessoas que sofrem de gagueira enquanto distúrbio de fala. Neste sistema faz-se a pessoa ouvir sua própria voz no momento em que está falando, criando artificialmente uma fala em coro. A utilização deste tipo de terapia é investigada há mais de 50 anos, e tem demonstrado resultados de melhora na fluência da fala em grande parcela de pessoas que sofrem de gagueira. Diversos outros estudos relatam a diferença do uso de Alteração no Retorno Auditivo em ambiente laboratorial em relação às situações de vida diária. Estas diferenças ocorrem devido às condições laboratoriais de dispositivos de Retorno Auditivo serem livres de ruídos do ambiente, enquanto que em condições de vida diária a pessoa que gagueja está sujeita a todo tipo de ruído de um ambiente real. Este trabalho de pesquisa avaliou uma implementação de sistema de Alteração de Retorno Auditivo, e investigou o efeito da melhoria de voz com ruído para esses sistemas. O sistema foi simulado computacionalmente e implementado em plataforma DSP de ponto fixo. Verificou-se que o filtro de ruído aplicado ao sistema resultou em melhora perceptual da qualidade de voz. Verificou-se também que o sistema é viável para execução em tempo real na plataforma DSP de ponto fixo utilizada na pesquisa. Este trabalho traz as seguintes contribuições: a confirmação da viabilidade de implementação de sistema de Alteração no Retorno Auditivo numa plataforma DSP de ponto fixo; e resultados da avaliação da melhora perceptual da qualidade de voz na presença de ruído ambiente para esses sistemas. / Altered Auditory Feedback is a speech therapy aimed to people who suffer from stuttering. The person who stutters hears his own voice when he is talking. This artificially creates a chorus speech effect. This type of therapy has been investigated for over 50 years, and the results have demonstrated improved speech fluency in a large portion of people who suffer from stuttering. However, several other studies on the usage of Altered Auditory Feedback devices have reported differences of results between quiet laboratory environments and daily life conditions. These differences occur mainly because the laboratory test conditions for Altered Auditory Feedback devices are free of ambient noise, while in conditions of daily life the stutterer is subject to all kinds of noise in a real environment. This research evaluated an implementation of Altered Auditory Feedback system, and investigated the effect of enhancement on noisy speech for these systems. The system was computationally simulated and also was implemented in fixed-point DSP platform. It is noticeable that the noise filter applied to the system resulted in perceptual speech enhancement quality. It is also noticeable that the system is viable for real-time execution in the fixed-point DSP platform used in the research. This work presents the following contributions: confirmation of the viability of implementing Altered Auditory Feedback system in a fixed-point DSP platform; and analysis results of the perceptual quality of enhanced speech in the presence of environmental noise for these systems. PROCESSAMENTO DE SINAIS PROCESSAMENTO DE VOZ MELHORA DE SINAIS DE VOZ SIGNAL PROCESSING VOICE PROCESSING
4	Algoritmo para determinação da taxa de transmissão em uma rede IP. / Algorithm to transmission rate determination in an IP network. Zegarra Rodríguez, Demóstenes 24 September 2009 (has links) A comunicação de Voz sobre IP (VoIP) vem aumentando com o decorrer do tempo e as redes de comunicação estão se tornando cada vez mais congestionadas, ocasionando perda de pacotes e latência nas redes, prejudicando diretamente a qualidade das comunicações de voz. Neste trabalho, foi estudado em detalhe como a qualidade do sinal de voz transmitido em uma comunicação VoIP é afetada por parâmetros da rede e pelo tipo de codificador utilizado na comunicação. Uma contribuição importante deste trabalho é a apresentação de uma metodologia que serve para predizer o comportamento de um codificador de voz em diferentes cenários de redes. O estabelecimento de um mecanismo de controle que otimize a utilização da rede e ao mesmo tempo garanta a melhor qualidade possível do sinal de voz transmitido vem sendo motivo de pesquisa. O emprego de codificadores multitaxa nas comunicações de voz possibilita a implementação de algoritmos que controlem a comutação destas taxas de codificação baseados em diferentes fatores de decisão como as características do sinal de voz a ser transmitido ou empregando a informação dos parâmetros de rede. Este trabalho apresenta um algoritmo de determinação de taxa de codificação com fator de decisão baseado na qualidade do sinal avaliada no ponto da recepção ou em algum ponto intermediário. Para realização dos testes montou-se um cenário de emulação de rede IP para o estabelecimento de uma chamada VoIP, onde são utilizados codificadores multitaxa (ITU-T G.726 e Speex). Para avaliação da qualidade do sinal de voz foi utilizada a recomendação ITU-T P.563, sendo que o índice MOS obtido no ponto de recepção é transmitido utilizando um laço de transmissão, que forma parte da estrutura do mecanismo de controle apresentado neste trabalho. Este laço de transmissão é implementado via socket sobre uma comunicação UDP. Como as ferramentas utilizadas são todas freeware, o cenário de emulação pode ser facilmente implementado por demais pesquisadores. Os resultados obtidos são confiáveis, já que para cenários onde se mesclam diferentes taxas de codificação, o índice MOS obtido é um valor que está na faixa dos valores obtidos nos cenários onde se utilizou taxa de codificação única. O correto desempenho do mecanismo do RDA também foi verificado, sendo que a qualidade do sinal de voz decresce, o mecanismo de controle no RDA comuta a uma taxa de codificação menor, garantindo o melhor uso do canal de transmissão. Quando os parâmetros da rede passam a melhores condições, o índice MOS do sinal aumenta e o RDA comuta a uma taxa de codificação maior obtendo uma qualidade mais alta na comunicação. / Voice over IP (VoIP) communications are becoming increasingly popular so that data communication networks are ever more prone to degradations like packet losses and rising latency. In this work, it was studied in detail how the quality of the speech signal transmitted in a VoIP communication is affected by parameters of the network and the type of codec used in the communication. An important contribution of this work is to predict the behavior of a speech codec in different network scenarios. The main goal of this research has been the development of an algorithm that constrains rate allocation to a speech communication for best quality according to current network resource availability. The use of multirate codecs in speech communications makes it possible to implement control algorithms for coding rate switching. They are based on speech signal features or network trafic parameters. This work presents an algorithm for the determination of coding rate with decision factor based on speech quality evaluated at the point of reception or intermediate points. For accomplishment of the tests, a scenario of emulation of an IP network for the establishment of a VoIP call was built, where multi-rate codecs are used (ITU-T G.726 and Speex). For evaluation of the quality of the speech signal the Recommendation ITU-T P.563 was used, where the MOS index obtained in the reception is transmitted using a transmission loop, as a part in the control mechanism in the proposed algorithm. This transmission loop consists of a UDP message sent on a socket. As the tools used are all freeware, the simulation scenarios can easily be implemented by other researchers. The results are trustworthy, because for multirate scenarios, the MOS index obtained is a value that is between the ones obtained in the single-rate scenarios. The correct performance of the mechanism of the RDA was also verified, so that when the quality of the signal decreases, the control mechanism in the RDA switches to a lower coding rate, ensuring the best use of the transmission canal. When the parameters of the network drive to best conditions, the MOS index of the signal increases and the RDA decides to switch to a higher coding rate achieving a higher communication quality. Algorithms Algoritmos Communication networks Computer networks Comunicações digitais Digital communications Processamento de voz Redes de computadores Redes de comunicações Voice processing
5	Algoritmo para determinação da taxa de transmissão em uma rede IP. / Algorithm to transmission rate determination in an IP network. Demóstenes Zegarra Rodríguez 24 September 2009 (has links) A comunicação de Voz sobre IP (VoIP) vem aumentando com o decorrer do tempo e as redes de comunicação estão se tornando cada vez mais congestionadas, ocasionando perda de pacotes e latência nas redes, prejudicando diretamente a qualidade das comunicações de voz. Neste trabalho, foi estudado em detalhe como a qualidade do sinal de voz transmitido em uma comunicação VoIP é afetada por parâmetros da rede e pelo tipo de codificador utilizado na comunicação. Uma contribuição importante deste trabalho é a apresentação de uma metodologia que serve para predizer o comportamento de um codificador de voz em diferentes cenários de redes. O estabelecimento de um mecanismo de controle que otimize a utilização da rede e ao mesmo tempo garanta a melhor qualidade possível do sinal de voz transmitido vem sendo motivo de pesquisa. O emprego de codificadores multitaxa nas comunicações de voz possibilita a implementação de algoritmos que controlem a comutação destas taxas de codificação baseados em diferentes fatores de decisão como as características do sinal de voz a ser transmitido ou empregando a informação dos parâmetros de rede. Este trabalho apresenta um algoritmo de determinação de taxa de codificação com fator de decisão baseado na qualidade do sinal avaliada no ponto da recepção ou em algum ponto intermediário. Para realização dos testes montou-se um cenário de emulação de rede IP para o estabelecimento de uma chamada VoIP, onde são utilizados codificadores multitaxa (ITU-T G.726 e Speex). Para avaliação da qualidade do sinal de voz foi utilizada a recomendação ITU-T P.563, sendo que o índice MOS obtido no ponto de recepção é transmitido utilizando um laço de transmissão, que forma parte da estrutura do mecanismo de controle apresentado neste trabalho. Este laço de transmissão é implementado via socket sobre uma comunicação UDP. Como as ferramentas utilizadas são todas freeware, o cenário de emulação pode ser facilmente implementado por demais pesquisadores. Os resultados obtidos são confiáveis, já que para cenários onde se mesclam diferentes taxas de codificação, o índice MOS obtido é um valor que está na faixa dos valores obtidos nos cenários onde se utilizou taxa de codificação única. O correto desempenho do mecanismo do RDA também foi verificado, sendo que a qualidade do sinal de voz decresce, o mecanismo de controle no RDA comuta a uma taxa de codificação menor, garantindo o melhor uso do canal de transmissão. Quando os parâmetros da rede passam a melhores condições, o índice MOS do sinal aumenta e o RDA comuta a uma taxa de codificação maior obtendo uma qualidade mais alta na comunicação. / Voice over IP (VoIP) communications are becoming increasingly popular so that data communication networks are ever more prone to degradations like packet losses and rising latency. In this work, it was studied in detail how the quality of the speech signal transmitted in a VoIP communication is affected by parameters of the network and the type of codec used in the communication. An important contribution of this work is to predict the behavior of a speech codec in different network scenarios. The main goal of this research has been the development of an algorithm that constrains rate allocation to a speech communication for best quality according to current network resource availability. The use of multirate codecs in speech communications makes it possible to implement control algorithms for coding rate switching. They are based on speech signal features or network trafic parameters. This work presents an algorithm for the determination of coding rate with decision factor based on speech quality evaluated at the point of reception or intermediate points. For accomplishment of the tests, a scenario of emulation of an IP network for the establishment of a VoIP call was built, where multi-rate codecs are used (ITU-T G.726 and Speex). For evaluation of the quality of the speech signal the Recommendation ITU-T P.563 was used, where the MOS index obtained in the reception is transmitted using a transmission loop, as a part in the control mechanism in the proposed algorithm. This transmission loop consists of a UDP message sent on a socket. As the tools used are all freeware, the simulation scenarios can easily be implemented by other researchers. The results are trustworthy, because for multirate scenarios, the MOS index obtained is a value that is between the ones obtained in the single-rate scenarios. The correct performance of the mechanism of the RDA was also verified, so that when the quality of the signal decreases, the control mechanism in the RDA switches to a lower coding rate, ensuring the best use of the transmission canal. When the parameters of the network drive to best conditions, the MOS index of the signal increases and the RDA decides to switch to a higher coding rate achieving a higher communication quality. Algoritmos Comunicações digitais Processamento de voz Redes de computadores Redes de comunicações Algorithms Communication networks Computer networks Digital communications Voice processing
6	Die supramodale Verarbeitung individueller Konzepte am Beispiel menschlicher Stimmen und visuell präsentierter Comicfiguren : eine fMRT-Studie der Temporallappen / Supramodal processing of unique entities using human voices and drawings of cartoon characters : an fMRI study on the temporal lobes Bethmann, Anja January 2012 (has links) Ausgehend von den primärsensorischen Arealen verlaufen Verarbeitungswege nach anterior durch die Temporallappen, die der Objekterkennung dienen. Besonders die vorderste Spitze der Temporallappen, der anteriore Temporalkortex, wird mit Funktionen der Objektidentifizierung assoziiert. Es existieren jedoch mehrere Vermutungen, welcher Art die Objekte sind, die in dieser Region verarbeitet werden. Es gibt Annahmen über die Verarbeitung von Sprache, von menschlichen Stimmen, semantischen Informationen oder individuellen Konzepten. Um zwischen diesen Theorien zu differenzieren, wurden vier ereigniskorrelierte fMRT-Messungen an jungen gesunden Erwachsenen durchgeführt. Die Probanden hörten in drei Experimenten die Stimmen berühmter und unbekannter Personen und in einem der Experimente zusätzlich Geräusche von Tieren und Musikinstrumenten. Im vierten Experiment wurden Zeichnungen von Comicfiguren gezeigt sowie von Tieren und Obst- und Gemüsesorten. Die neuronale Aktivität bei der Verarbeitung dieser Reize im Vergleich zu Zeiten ohne Stimulation wurde mit Hilfe von Interesseregionen untersucht, die nahezu die gesamten Temporallappen abdeckten und diese in jeweils zwölf Areale untergliederten. In den anterioren Temporallappen waren sowohl mit auditiven als auch mit visuellen Stimuli deutliche Aktivierungsunterschiede in Abhängigkeit von der semantischen Kategorie festzustellen. Individuelle Konzepte (menschliche Stimmen und Zeichentrickfiguren) riefen eine signifikant stärkere Aktivierung hervor als kategoriale Konzepte (Tiere, Musikinstrumente, Obst- und Gemüse). Außerdem war das Signal, dass durch die Stimmen der bekannten Personen ausgelöst wurde, deutlich stärker als das Signal der unbekannten Stimmen. Damit sind die Daten am ehesten kompatibel mit der Annahme, dass die anterioren Temporallappen, bekannte individuelle Konzepte verarbeiten. Da die beschriebenen Signalunterschiede zwischen den verschiedenen Bedingungen ausgehend von den transversalen Temporalgyri nach anterior zum Temporalpol zunahmen, unterstützen die Ergebnisse zudem die Theorie von einem ventralen Verarbeitungsweg, der die Temporallappen nach anterior durchquert und zur Objekterkennung beiträgt. In Übereinstimmung mit den Annahmen der Konvergenzzonentheorie von A. R. Damasio scheint die spezifische Funktion dieses rostral gerichteten Verarbeitungsweges aus der sukzessiven Kombination immer mehr sensomotorischer Merkmale von Objekten zu bestehen. Da bekannte individuelle Konzepte eine besonders hohe Anzahl von Merkmalen aufweisen, ist eine weiter nach anterior verlaufende Verarbeitung zu beobachten als bei unbekannten oder kategorialen Konzepten. / It is assumed that neural pathways run from the primary sensory cortices through the temporal lobes towards their poles crossing areas necessary for object recognition. Especially the most anterior temporal parts were associated with processes contributing to the identification of objects. Yet, there is little agreement on the kinds of objects that are interpreted by the anterior temporal lobes. For example, there are assumptions regarding linguistic processing, voice recognition, the processing of general semantic information or the identification of unique entities. In order to differentiate between those theories, four event-related fMRI experiments were performed in healthy young adults. In three experiments, the subjects heard the voices of famous and unknown persons. In addition, characteristic sounds of animals and musical instruments were presented in one of these experiments. During the fourth experiment, drawings of famous cartoon characters were shown together with animals and fruit & vegetables. The neural activity in response to these stimuli compared to rest was analyzed using a regions-of-interest approach. 12 regions-of-interest that covered the majority of the temporal lobes were defined in each hemisphere. Both with auditory and visual stimuli, there were clear activation differences between the semantic categories in the anterior temporal lobes. Unique entities (human voices and cartoon characters) evoked a significantly stronger signal than categorical concepts (animals, musical instruments, fruit & vegetables). Furthermore, the signal in response to voices of familiar persons was significantly higher than to unfamiliar voices. Thus, the results are most compatible with the assumption that the anterior temporal lobes process supramodal features of familiar unique entities. As the before-mentioned signal differences between unique and categorical concepts and between familiar and unfamiliar voices increased from the transversal temporal gyri towards the temporal poles, the results support the notion of a ventral processing pathway running rostrally through the temporal lobes. In accordance with the convergence zone theory described by A.R. Damasio, the precise function of that pathway seems to consist in the incremental combination of sensorimotor concept features. Since familiar unique entities possess an especially high number of features, their processing was found to be directed into more anterior portions of the temporal lobe than the perception of unfamiliar or categorical concepts. Stimmenverarbeitung Identifizierung berühmter Personen Individuen anteriorer Temporallappen Hemisphärenunterschiede voice processing famous speaker recognition unique entities anterior temporal lobes hemispheric differences Language, Linguistics
7	Análise acústica para classificação de patologias da voz empregando análise de Componentes Principais, Redes Neurais Artificiais e Máquina de vetores de Suporte. ESPINOLA, Sérgio de Brito. 19 September 2017 (has links) Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2017-09-19T15:36:01Z No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) / Made available in DSpace on 2017-09-19T15:36:01Z (GMT). No. of bitstreams: 1 Dissertacao_SergioEspinola_CEEI_UFCG.pdf: 59559230 bytes, checksum: 045a4738e365ab656e17da8b2185cb9b (MD5) Previous issue date: 2014-03-12 / Estima-se que um terço da força de trabalho humana dependa da voz para realização de seus ofícios. Procedimentos médicos avaliam a qualidade vocal do indivíduo sendo os mais usados aqueles baseados na escuta da voz (subjetivo) ou na inspeção das dobras (ou pregas) vocais por exames sofisticados (objetivos, porém invasivos e caros). A análise acústica da voz busca extrair medidas robustas para descrever vários fenômenos associados à produção da fala ou características intrínsecas do ser humano como frequência fundamental, timbre, etc. O presente estudo consiste na caracterização de um modelo de processamento digital de Voz para apoio ao diagnóstico no contexto da construção de sistemas de identificação automatizados de patologias da fala. Para análise da técnica proposta foi utilizada uma base de dados (base KAY) que foi estruturada por especialistas num arranjo de seis grupos de Patologias. A esse, acrescentado também um de vozes “Normal”. Assim, 182 vozes foram escolhidas, as quais dispunham de um catálogo indexado de cerca de 33 descritores, para cada voz, calculados da elocução da vogal \a\ sustentada. Ao selecionar combinações desses descritores – como perturbações em frequência (jitter), em amplitude (shimmer) etc, este estudo encontrou evidências estatísticas e mostrou ser possível: a) Separar vozes normais das patológicas – esperado, b) Separar patologias específicas (Paralisia, Edema de Reinke, Nódulos) com acurácia de 100% (para a grande maioria dessas combinações) e cerca de 92% (para Nódulos contra Reinke); c) Discriminá-las por meio de classificadores (redes neurais artificiais e máquina de vetores de suporte) e reduzir a dimensionalidade e complexidade (quantidade de dados) via técnica de análise de componentes principais (ACP) sobre esses descritores para a separação intra patologias; e d) Testes estatísticos com os grupos locais confirmaram também limiares de indícios de Anormalidade presentes na literatura. A utilização de menor quantidade de descritores – obtida pós ACP (compressão) – mostrou-se também eficiente (mesmas taxas de acurácia). / It is estimated one-third of the work force relies on the use the voice in their jobs. The clinical diagnostic may be performed on voice listening by a specialist (subjective perspective) or through invasive and often not cheaper exams to check vocal structures. The area of Voice Acoustic analyses aims to extract robust measurements to describe several phenomena associated with voice production, or human being particular characteristics like fundamental frequency, timbre, etc. This study consisted of a model characterizing the digital voice processing for support in building automatic systems for the identification of disorders of speech (to aid diagnosis of pathologies). To support this investigation and proposed model, a commercial voice database (KAY base) was used with the endorsement from medical specialists. Derived acoustic analyses of those speech samples data records were presented to professionals for classification and six “severities groups” case-studied were built. After these analyses, one Normal group was added and, at the end, 182 voices have been selected. Their refined audio database contain, among other things, an indexed list of vocal descriptors calculated on the presence of the utterance of the vowel \a\ sustained speech. Statistical evidences were found: a) Difference between pathological groups vocal descriptors to normal (expected); b) It was achieved 100% from true positive, most cases, among Paralysis, Reinke's Edema and Nodules separations; c) from few cases, there were detected minor distinctions: Paralysis, Reinke's Edema, Nodules and Edema (pair comparison) with disordered groups; c) Among Machine Learning Algorithms (artificial neural networks "RN" and support vector machine "SVM"), the technique of Principal Components Analyses (PCA) and main statistics performed, it was found facts to help to structure some automated recognition systems. These Supervised learning methods showed that it could be possible to generate classification predictions (disordered presence) for the response to new data; and d) Inner tests also confirmed literature established reference thresholds. Hence considering suitable combinations of descriptors with two machine learning classifiers, as showed, is sufficient suitable and worthy. Ciência da computação. Fonoaudiologia. Inteligência artificial. Processamento digital de voz. Discriminação de patologias da voz. Vozes patológicas. Aprendizagem de máquina. Análise acústica da voz. Doenças da voz e fala. Voice Acoustic analyses. Digital voice processing. Healthy and Pathological voices. Digital Voice Signal Processing.

1

Page generated in 0.1627 seconds