• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 17
  • Tagged with
  • 17
  • 17
  • 17
  • 9
  • 9
  • 6
  • 6
  • 6
  • 6
  • 6
  • 5
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
11

CLASSIFICA??O DE DESVIOS VOCAIS UTILIZANDO CARACTER?STICAS BASEADAS NO MODELO LINEAR DE PRODU??O DA FALA

COURAS, MARIA DE F?TIMA KALLYNNA BEZERRA 02 1900 (has links)
Submitted by Thiago Oliveira (thiago.oliveira@ifpb.edu.br) on 2017-03-23T17:51:30Z No. of bitstreams: 1 31- Maria de F?tima de Kallynna Bezerra Couras - CLASSIFICA??O DE DESVIOS VOCAIS UTILIZANDO CARACTER?STICAS BASEADAS NO MODELO LINEAR DE PRODU??O DA FALA.pdf: 4019202 bytes, checksum: 06d0b1b292ae0bd918d5b8358ca11b0f (MD5) / Approved for entry into archive by Thiago Oliveira (thiago.oliveira@ifpb.edu.br) on 2017-03-23T17:53:11Z (GMT) No. of bitstreams: 1 31- Maria de F?tima de Kallynna Bezerra Couras - CLASSIFICA??O DE DESVIOS VOCAIS UTILIZANDO CARACTER?STICAS BASEADAS NO MODELO LINEAR DE PRODU??O DA FALA.pdf: 4019202 bytes, checksum: 06d0b1b292ae0bd918d5b8358ca11b0f (MD5) / Made available in DSpace on 2017-03-23T17:53:11Z (GMT). No. of bitstreams: 1 31- Maria de F?tima de Kallynna Bezerra Couras - CLASSIFICA??O DE DESVIOS VOCAIS UTILIZANDO CARACTER?STICAS BASEADAS NO MODELO LINEAR DE PRODU??O DA FALA.pdf: 4019202 bytes, checksum: 06d0b1b292ae0bd918d5b8358ca11b0f (MD5) Previous issue date: 2017-02 / A avalia??o perceptivo-auditiva tem papel fundamental na avalia??o da qualidade vocal. No entanto, por ser uma avalia??o subjetiva, est? sujeita a imprecis?es e varia??es, sendo necess?ria a utiliza??o de t?cnicas que tragam maior confiabilidade aos resultados. A an?lise ac?stica surge como uma ferramenta que proporciona a avalia??o da qualidade vocal de forma objetiva. Neste trabalho, s?o empregadas t?cnicas de processamento digital de sinais, baseadas no modelo linear de produ??o da fala, para analisar a qualidade vocal. ? avaliado o desempenho de medidas tradicionalmente empregadas na an?lise ac?stica, tais como frequ?ncia fundamental, medidas de perturba??o (jitter e shimmer), GNE (Glottal to Noise Excitation Ratio) e frequ?ncias form?nticas. Tambem ? avaliado o potencial discriminativo dos coeficientes da an?lise de predi??o linear (Linear Predictive Coding- LPC), coeficientes cepstrais e mel-cepstrais na classifica??o de desvios vocais (rugosidade, soprosidade e tens?o). Com o aux?lio de um classificador, baseado em redes neurais artificiais MLP (Multilayer Perceptron), ? realizada a classifica??o dos sinais utilizando as medidas extra?das individualmente e de forma combinada. Foram obtidas taxas de classifica??o de 86% na discrimina??o entre vozes soprosas e vozes saud?veis.
12

Desenvolvimento de um IP core de pré-processamento digital de sinais de voz para aplicação em sistemas embutidos. / Development of a core IP of digital preprocessing of voice signals for application in embedded systems.

SILVA, Daniella Dias Cavalcante da. 30 July 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-30T19:55:32Z No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - DISSERTAÇÃO PPGCC 2006..pdf: 2114328 bytes, checksum: d2b6ea9368390fa54a2beb6aab40546e (MD5) / Made available in DSpace on 2018-07-30T19:55:32Z (GMT). No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - DISSERTAÇÃO PPGCC 2006..pdf: 2114328 bytes, checksum: d2b6ea9368390fa54a2beb6aab40546e (MD5) Previous issue date: 2006-07 / Capes / A fala é o meio de comunicação comumente utilizado pelo homem, que o distingue dos demais seres vivos, permitindo-lhe a troca de idéias, expressão de opiniões ou revelação de seu pensamento. Diante do avanço tecnológico e conseqüente surgimento de equipamentos eletrônicos cada vez mais sofisticados, a possibilidade de permitir a interação homemmáquina através da voz tem sido objeto de grande interesse, tanto do meio acadêmico quanto dos fabricantes de tais equipamentos. Pesquisas na área de Processamento Digital de Sinais de Voz têm permitido o desenvolvimento de sistemas de Resposta Vocal, Reconhecimento de Voz e Reconhecimento de Identidade Vocal. Entretanto, requisitos de processamento ainda dificultam a implementação desses sistemas em dispositivos com baixo poder computacional, como celulares, palmtops e eletrodomésticos. O trabalho desenvolvido consiste do estudo e adaptação de técnicas de processamento digital de sinais de voz, resultando em uma biblioteca de pré-processamento, incluindo as funções de pré-ênfase, divisão em quadros e janelamento, de maneira a permitir sua utilização no desenvolvimento de aplicações embutidas de reconhecimento de voz ou locutor. Foram realizadas adaptações dos modelos necessários à realização das funções, implementação em uma linguagem de descrição de hardware, verificação funcional da biblioteca e, por fim, prototipação em um dispositivo de hardware. / Speech is the most common way of communication used by human beings, which distinguishes it from other living beings, allowing the exchange of ideas, expression of opinions or revelation of thought. In face technology advance and consequently appearance of electronics equipments more and more sophisticated, the possibility to allow the man-machine interaction through speech have been object of interesting as to academic environment as to electronic equipment developers. Research in the area of Speech Processing has been allowing the development of Speech Synthesis Systems, Speech Recognition Systems and Speaker Recognition Systems. However, processing requirements still difficult the implementation of those systems in devices with low computational power, as mobile phone, palmtops and home equipments. This work consists of the study and adaptation of digital processing speech signals techniques, resulting in an optimized library of preprocessing including preemphasis, division into frames and windowing, allowing this use in development of speech or speaker recognition embedded applications. It was made adaptations in the models, implementation in a hardware description language, library functional verification and finally the prototyping in a hardware device.
13

Redução de ruído para sistemas de reconhecimento de voz utilizando subespaços vetoriais. / Noise reduction for speech recognition systems using vector subspaces.

SANTOS JÚNIOR, Gutemberg Gonçalves dos. 20 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-20T20:10:09Z No. of bitstreams: 1 GUTEMBERG GONÇALVES DOS SANTOS JÚNIOR - DISSERTAÇÃO PPGEE 2009..pdf: 2756190 bytes, checksum: 5812d37f7ad4c18eb26e9672d4890812 (MD5) / Made available in DSpace on 2018-08-20T20:10:09Z (GMT). No. of bitstreams: 1 GUTEMBERG GONÇALVES DOS SANTOS JÚNIOR - DISSERTAÇÃO PPGEE 2009..pdf: 2756190 bytes, checksum: 5812d37f7ad4c18eb26e9672d4890812 (MD5) Previous issue date: 2009-05-08 / O estabelecimento de uma interface de comunicação através da voz entre seres humanos e computadores vem sendo perseguido desde o início da era da computação. Nesta direção, diversos avanços foram realizados nas últimas seis décadas, permitindo o uso comercial de aplicações com reconhecimento de voz nos dias atuais. Entretanto, fatores como ruídos, reverberações, distorções entre outros, comprometem o desempenho desses sistemas ao reduzir a taxa de acerto quando submetidos a ambientes adversos. Assim, o estudo de técnicas que diminuam os efeitos desses problemas é de grande valia e vem ganhando destaque nas últimas décadas. O trabalho apresentado nesta dissertação tem como objetivo a redução dos problemas referentes aos ruídos característicos de ambientes automotivos, tornando os sistemas de reconhecimento de voz utilizados nesses ambientes mais robustos. Dessa forma, o controle de funcionalidades não-críticas de um automóvel, ou seja, funcionalidades que não coloquem em risco a vida do usuário como tocadores de música e ar condicionado, pode ser realizado através de comandos de voz. O sistema proposto é baseado numa etapa de pré-processamento do sinal de voz através do método de subespaços vetoriais. O desempenho deste método está diretamente relacionado com as dimensões (linhas× colunas) das matrizes representativas do sinal de entrada. Levando isso em consideração, a decomposição ULLV, apesar de se tratar de uma aproximação do método de subespaços vetoriais, foi utilizada por oferecer uma menor complexidade computacional quando comparada a métodos tradicionais baseados na decomposição SVD. O sistema de reconhecimento de voz Julius foi o escolhido para o estudo de caso por se tratar de um sistema desenvolvido em código livre que oferece um alto desempenho. Um banco de dados de voz com 44800 amostras foi gerado com o modelo de um ambiente automotivo. Por fim, a robustez do sistema foi avaliada e comparada com um método tradicional de redução de ruído chamado subtração espectral. / The establishment of a speech-based communication interface between humans and computers has been pursued since the beginning of the computer era. Several studies have been made over the last six decades in order to accomplish this interface, making possible commercial use of speech recognition applications. However, factors such as noise, reverberation, distortion among others degrades the performance of these systems. Thus, reducing their success rate when operating in adverse environments. With this in mind, the study of techniques to reduce the impact of these problems is of a great value and has gained prominence in recent decades. The work presented in this dissertation aims to reduce problems related to noise encountered in an automotive environment, improving the speech recognition system robustness. Thus,controlofnon-critical features of a car, such as CD player and air conditioning, can be performed through voice commands. The proposed system is based on a speech signal preprocessing step using the signal subspace method. Its performance is related to the size (lines× columns) of the matrices that represents the input signal. Therefore, the ULLV decomposition was used because it offers a lower computational complexity compared to traditional methods based on SVD decomposition. The speech recognizer Julius is an open source software that offers high performance and was the chosen one for the case study. A noisy speech database with 44800 samples was generated to model the automotive environment. Finally, the robustness of the system was evaluated and compared with a traditional method of noise reduction called spectral subtraction.
14

Estudo de técnicas para classificação de vozes afetadas por patologias. / Study of techniques to classify voices affected by pathologies.

MARINUS, João Vilian de Moraes Lima. 17 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-17T14:06:04Z No. of bitstreams: 1 JOÃO VIVLIAN DE MORAES LIMA MARINUS - DISSERTAÇÃO PPGCC 2010..pdf: 2343869 bytes, checksum: 46e0a7984b1b956fbea2bfcba9e1f631 (MD5) / Made available in DSpace on 2018-08-17T14:06:04Z (GMT). No. of bitstreams: 1 JOÃO VIVLIAN DE MORAES LIMA MARINUS - DISSERTAÇÃO PPGCC 2010..pdf: 2343869 bytes, checksum: 46e0a7984b1b956fbea2bfcba9e1f631 (MD5) Previous issue date: 2010-11-29 / Nos últimos anos, várias pesquisas na área de processamento digital de voz estão sendo feitas, no sentido de criar técnicas que auxiliem o diagnóstico preciso por um especialista de patologias do trato vocal de maneira não invasiva, fazendo com que o paciente se sinta confortável na hora do exame. Este trabalho trata da investigação de técnicas para a classificação de vozes afetadas por patologias da laringe, em especial edema de Reinke, visando a construção de um sistema de apoio ao especialista. O sistema de auxílio ao diagnóstico de patologias da laringe, proposto nesta dissertação, é constituido de 3 etapas principais: pré-processamento do sinal de voz, extração de características e classificação. A etapa de pré-processamento consiste na aquisição do sinal de voz, na aplicação de um filtro de pré ênfase para a minimização dos efeitos da radiação dos lábios e da variação da área da glote, seguido da segmentação e janelamento do sinal. Também foi investigada a não utilização da pré-ênfase nessa etapa. Na fase de extração de características, são utilizados coeficientes obtidos a partir da análise por predição linear (coeficientes LPC), coeficientes cepstrais, coeficientes delta-cepstrais e um vetor de características combinando coeficientes LPC e coeficientes cepstrais. A etapa de classificação é dividida em duas partes: classificação entre voz normal e voz afetada por patologia, sem especificar qual patologia, e caso o sinal seja classificado como voz afetada por patologia, tem-se uma segunda parte, a qual é realizada a classificação entre voz afetada por edema de Reinke e voz afetada por outra patologia. Para as duas partes, foram testados 3 diferentes classificadores: Redes Neurais Multilayer Perceptron - MLP, Modelos de Misturas de Gaussianas e Quantização Vetorial. Para diferenciar entre voz normal e voz afetada por patologia, os melhores resultados foram obtidos utilizando Redes Neurais. Para diferenciar entre voz afetada por edema e voz afetada por outra patologia, os melhores resultados foram obtidos utilizando Quantização Vetorial. Em ambos os casos, os melhores resultados foram obtidos ao se utilizar coeficientes cepstrais e sem utilização da pré-ênfase. / In recent years, several studies in digital voice processing are being made in order to create techniques to support a noninvasive accurate diagnosis of vocal tract diseases by aspecialist, making the patient feel comfortable during examination. This work deals with the investigation of techniques for classification of voices affected by laryngeal pathologies, especially Reinke’s edema, aiming to build a support system to the specialist. The system for the diagnosis of laryngeal pathologies, proposed here, consists of three main steps: preprocessing the speech signal, feature extraction and classification. Preprocessing corresponds the acquisition of voice signal, the application of a pre-emphasis filter for minimizing the radiation effects from the lips and from variation in glottal area, and the signal segmentation and windowing. The non-use of pre-emphasis was also investigated at this point. In the feature extraction step, we use coefficients obtained from the linear prediction analysis (LPC coefficients), cepstral coefficients, delta-cepstral coefficients, and afeature vectorc ombining LPC and cepstral coefficients. The classification is divided into two parts: classification of normal voice versus voice affected by pathology, without specifying which pathology, and if the signal is classified as voice affected by pathology, second part happens, which is performed by the classification between voice affected by Reinke’s edema and voice affected by other pathology. For both parties, 3 different classifiers were tested: Neural Networks Multilayer Perceptron - MLP, Gaussian Mixture Models and Vector Quantization. To differentiate between normal voice and voice affected by pathology, the best results were obtained using Neural Networks. To differentiate between voice affected by edema and voice affected by pathology, the best results were obtained using vector quantization. In both cases, the best results were obtained when usingcepstral coefficients and withoutuse of pre-emphasis.
15

Reconhecimento de fala contínua para o Português Brasileiro em sistemas embarcados. / Continuous speech recognition for Brazilian Portuguese in embedded systems.

SILVA, Daniella Dias Cavalcante da. 30 July 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-07-30T21:22:20Z No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - TESE PPGEE 2011..pdf: 21267862 bytes, checksum: 34609e6f0c5b3d3d5dbe954562ec3132 (MD5) / Made available in DSpace on 2018-07-30T21:22:20Z (GMT). No. of bitstreams: 1 DANIELLA DIAS CAVALCANTE DA SILVA - TESE PPGEE 2011..pdf: 21267862 bytes, checksum: 34609e6f0c5b3d3d5dbe954562ec3132 (MD5) Previous issue date: 2011-12 / Com o advento da tecnologia, as máquinas predominam em quase todos os cenários do cotidiano das pessoas, sejam essas máquinas computadores, eletrodomésticos, dispositivos portáteis, etc. Com isso, nada melhor do que dotá-las com a capacidade de percepção e compreensão da voz humana, que é a forma mais simples, natural e eficaz do ser humano expressar seus pensamentos. Apesar de muitas pesquisas na área de Processamento Digital de Sinais de Voz (PDSV) terem permitido o desenvolvimento de sistemas de Reconhecimento de Faia bastante eficientes, requisitos de processamento ainda dificultam a implementação desses sistemas em dispositivos com pequeno poder computacional, como celulares, palmtops e eíetrodomésticos. Para permitir a implementação de sistemas de Reconhecimento de Faia nesse contexto, alguns trabalhos sacrificam a eficiência no processo de reconhecimento em nome da redução do tamanho físico e de exigências computacionais. Assim, a busca por modelagens acústicas e linguísticas othnizadas, associadas ao uso de bases de dados representativas, pode levar a ura compromisso entre desempenho do sistema em termos de taxas de reconhecimento e exigências computacionais impostas por sistemas embarcados. O objetivo principal deste trabalho consiste na modelagem da arquitetura de um sistema de reconhecimento de fala contínua para o português brasileiro, utilizando Modelos Ocultos de Markov, de forma a possibilitar sua implementação em um sistema embarcado com recursos computacionais limitados. A fim de selecionar a configuração que melhor atenda esse objetivo, foram realizados experimentos e análises, de modo a identificar possíveis adaptações, a partir de simplificações matemáticas e redução de parâmetros nas etapas do processo de reconhecimento. Em todo lho, foi considerada a relação entre a taxa de reconhecimento e o custo computacional. A arquitetura do sistema embarcado desenvolvida e o seu processo de modelagem, incluindo os experimentos, as análises e os seus respectivos resultados, serão apresentados e discutidos no decorrer deste documento. / WIth the advent of technology, machines predominate in aímost ali seenarios of everyday life. The possibiiity of performing human-maehine comniunication through speech makes this interact.ion easier and more productive. However, processing requirements still difficult tlíe implementation oF systems for automatic continuous speech recognition on devices with low computational power sucJi as mobile phones, palmtops and appliances. To allow the implementation of speech recognition systems in this context. some works sacrifice efficiency in the recognition process for redueing the chip area and computational requirements. For this purpose, it becomes necessary to research for optimized acoustic and language modeling, associated with use of representative databases, looking for a good compromise between recognitioa vaies and compuiational demands imposed by embedded systems. The main goai of this work is to model the architecture of a system for continuous speech recognition Brazilian Portuguese, in order to enable its implementation in an embedded system with limited computtng resources. In order to select the setting that best nieets this goal, experiments and analysis were performed. The purpose of these was to identify possible adaptations, from mathematical simpiifícations and reduction of parameters in the steps of the recognition process. During the deveiopinent of this work, the relationship between recognition rate and computational cost was considered. The embedded system architecture developed and its modeling process, including experiments. analysis and their results will be presented and díscussed thxoughout this document.
16

Análise dinâmica não linear de sinais de voz para detecção de patologias laríngeas. / Dynamic nonlinear analysis of voice signals for the detection of laryngeal pathologies.

COSTA, Washington César de Almeida. 13 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-13T16:22:35Z No. of bitstreams: 1 WASHINGTON CÉSAR DE ALMEIDA COSTA - TESE PPGEE 2012..pdf: 6463355 bytes, checksum: 40d8703ef8a6dd3ef05acde3025cf628 (MD5) / Made available in DSpace on 2018-08-13T16:22:35Z (GMT). No. of bitstreams: 1 WASHINGTON CÉSAR DE ALMEIDA COSTA - TESE PPGEE 2012..pdf: 6463355 bytes, checksum: 40d8703ef8a6dd3ef05acde3025cf628 (MD5) Previous issue date: 2012-11-09 / Patologias na laringe podem afetar a qualidade vocal, prejudicando a comunicação humana. As técnicas objetivas tradicionais para o diagnóstico dessas patologias fazem uso de exames considerados invasivos, causando certo desconforto ao paciente. Análise acústica, utilizando técnicas de processamento digital de sinais de voz, pode ser utilizada para o desenvolvimento de ferramentas não invasivas de auxílio ao diagnóstico de patologias laríngeas. A precisão do diagnóstico, contudo, depende da escolha das características e parâmetros da fala que melhor representem a desordem vocal provocada por uma determinada patologia. Este trabalho trata da caracterização e da classificação de sinais de vozes saudáveis e vozes afetadas por diferentes patologias laríngeas (edema, paralisia e nódulos nas pregas vocais), por meio da análise dinâmica não linear (e teoria do caos), como também por meio da análise de quantificação de recorrência. No processo de caracterização é investigado, por meio de testes estatísticos, o potencial de cada característica em discriminar os tipos de sinais de voz considerados. Para a classificação é empregada a técnica de análise discriminante com as funções linear ou quadrática, com validação cruzada, sendo considerado um intervalo de confiança de 95% para as médias das taxas de acuraria do classificador. A partir da combinação de características dos conjuntos das medidas de análise não linear (MNL) e das medidas de quantificação de recorrência (MQR), as médias da taxa de acurácia obtidas variaram nos intervalos de confiança: [95,44%; 100%) para a classificação entre vozes saudáveis e patológicas; [94,75%; 100%] entre vozes saudáveis e afetadas por edema, e entre saudáveis e nódulos. Para a classificação entre saudável e paralisia, obteve-se uma acurácia de 100% . Também são avaliados os efeitos do uso de vetores híbridos formados por características MNL, MQR e coeficientes extraídos da análise preditiva linear (LPC). Neste caso. as taxas de acurácia variaram nos intervalos de confiança: [95,02%; 97,62%] na discriminação entre vozes afetadas por paralisia e edema; [98,29%; 99,93%] para paralisia versus nódulos e [97,98%; 99,84%] para edema versus nódulos. Os resultados encontrados indicam que o método utilizado é promissor, podendo ser empregado no desenvolvimento de uma ferramenta computacional para apoio ao diagnóstico de patologias laríngeas. / Laryngeal pathologies may affect the voice quality, harniing human communication. The traditional objective techniques for diagnosing these pathologies make use of exams, considered invasive, causing discomfort to the patient. Acoustic analysis, using digital speech signal processing techniques. can be used for the development of non-invasive tools in order to aid laryngeal diseases diagnosis. The accuracy of diagnosis, however. depends on the choice of parameters and the speech characteristics diat better represent the voice disorder caused by a given pathology. This work deals with the characterization and classification of healthy voice signals and voices affecied by different laryngeal diseases (edema, paralysis and vocal fold nodules), by means of nonlinear dynamic analysis (and chãos theory) as well as recurrence quantification analysis. In the characterization process, the potential of each feature is investigated to discriminate the types of voice signals considered, by means of statistical tests. For the classification, the technique of discriminam analysis is employed with linear or quadratic functions, with cross-validation. A 95% confidence levei was considered for the average of accuracy rates of the classifier performance. From the feature combination of the set of nonlinear analysis measures (MNL) and the quantification recurrence measures (MQR). the average of accuracy rates varied in the following confidence intervals: [95.44%; 100%] for healthy and pathologícal classification: [94.75%; 100%] between healdiy and edema voices, and also between healthy and nodules. The accuracy rate was 100% between healthy and paralysis. We also evaluated the effects of using hybrid vectors formed by MNL, MQR and linear predictive coding (LPC) coefficients. In this case, the accuracy rates ranged in the confidence intervals: [95.02%; 97.62%] in the paralysis versus edema voices discrimination; [98.29%; 99.93%] for paralysis versus nodules and [97.98%; 99.84%] for edema versus nodules. Obtained results indicate that the used method is promising and it can even be used to develop a computational tool to support diagnosis of laryngeal diseases.
17

Modelagem de sinais de voz via PPM, aplicada ao reconhecimento de padrões vocais patológicos. / Modeling of voice signals via PPM, applied to the recognition of pathological vocal patterns.

BARBOSA, Hildegard Paulino. 03 August 2018 (has links)
Submitted by Johnny Rodrigues (johnnyrodrigues@ufcg.edu.br) on 2018-08-03T19:45:39Z No. of bitstreams: 1 HIDELGARD PAULINO BARBOSA - DISSERTAÇÃO PPGCC 2013..pdf: 11966764 bytes, checksum: 077a69b5088eea2f7109e71871f4e57d (MD5) / Made available in DSpace on 2018-08-03T19:45:39Z (GMT). No. of bitstreams: 1 HIDELGARD PAULINO BARBOSA - DISSERTAÇÃO PPGCC 2013..pdf: 11966764 bytes, checksum: 077a69b5088eea2f7109e71871f4e57d (MD5) Previous issue date: 2013-08 / A voz é o meio de comunicação mais utilizado pelo ser humano. Porém, o sistema fonador humano é suscetível a diversos tipos de patologias que podem prejudicar a produção da voz e, consequentemente, a comunicação. Alguns tipos de exames têm sido utilizados para detectar estas patologias. Porém, eles apresentam desvantagens referentes à acurácia e ao conforto do paciente durante a aplicação, que podem desestimular a busca por tratamento. Por essa razão, técnicas computacionais têm sido empregadas com o intuito de detectar de modo confortável e preciso a presença e o tipo de patologia apresentada pelo sistema fonador. No entanto, os resultados obtidos ainda não possibilitam sua aplicação nas clínicas, principalmente pelo fato de ainda ser considerado um número reduzido de patologias. Visando a contornar esse problema, esta pesquisa propõe uma abordagem fundamentada em um método ainda não utilizado neste contexto: a Predição por Casamento Parcial (Prediction by Partial Matching - PPM), concebida originalmente com fins à compressão de dados. O modelo criado e mantido a partir deste método é alimentado com características acústicas, temporais e estatísticas extraídas dos sinais de voz e permite sua classificação no que se refere à identificação da presença e do tipo de patologia a um baixo custo computacional (velocidade e recursos de armazenamento). Foram obtidos resultados satisfatórios no tocante à presença de patologias. Quanto à discriminação de patologias, os resultados sugerem um potencial do método, embora a sua aplicação ainda necessite de investigações mais aprofundadas / Voice is the most widely used means of communication of mankind. However, speech organs are susceptible to several sort of pathologies, which may harm voice production and, therefore, communication. Several techniques have been used to detect these pathologies. However, they present drawbacks related to accuracy and comfort of patients during the application, which may discourage search for treatment. Thence, computational techniques have been used in order to detect the presence and type of speech pathology comfortably and accurately. But, results are still not good enough for its application in clinics, due to the fact it is considered a small number of distinct pathologies. Aiming to solve this problem, this research proposes using a method not previously employed in classification of vocal tract diseases: Prediction by Partial Matching (PPM), originally conceived for data compression purposes. The PPM model is fed with acoustical, temporal, and statistical features, ali of them extracted from voice signals. This method allowed a satisfactory classification, concerning presence and type of pathology while requiring a low computational cost (speed and storage resources). It were obtained satisfactory results regarding presence of speech pathologies. With regard to pathologies discrimination, the results suggest that this is a highly promising technique, although its application still needs deeper investigations.

Page generated in 0.1218 seconds