• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 10
  • 1
  • Tagged with
  • 12
  • 12
  • 9
  • 8
  • 4
  • 3
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • 2
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Automatic Speech recognition, with large vocabulary, robustness, independence of speaker and multilingual processing

CAON, D. R. S. 27 August 2010 (has links)
Made available in DSpace on 2016-08-29T15:33:13Z (GMT). No. of bitstreams: 1 tese_4090_.pdf: 1568197 bytes, checksum: 71e4fb308c2516a5a0a305e67f32990f (MD5) Previous issue date: 2010-08-27 / Durante todo o trabalho, o sistema de reconhecimento de fala contínua de grande vocabulário Julius é utilizado em conjunto com o Hidden Markov Model Toolkit(HTK). O sistema Julius tem suas principais características descritas, tendo inclusive sido modificado. Inicialmente, a teoria de reconhecimento de sinais de fala é demonstrada. Experimentos são feitos com adaptação de modelos ocultos de Marvov e com a técnica de validação cruzada K-Fold. Resultados de reconhecimento de fala após adaptação acústica à um locutor específico (e da criação de modelos de linguagem específicos para um cenário de demonstração do sistema) demonstraram 86.39% de taxa de acerto de sentença para os modelos acústicos holandeses. Os mesmos dados demonstram 94.44% de taxa de acerto semântico de sentença.
2

Modelo adaptativo para reconhecimento de fala com reconstrução de características ausentes

VIANA, Hesdras Oliveira 08 May 2017 (has links)
Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-09-20T21:43:52Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-21T17:21:24Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5) / Made available in DSpace on 2018-09-21T17:21:24Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5) Previous issue date: 2017-05-08 / A presença de diferentes tipos e intensidades de ruídos nos sinais da fala, têm sido um desafio para definir um modelo para o reconhecimento automático da fala. Neste sentido, estuda-se a “reconstrução de características ausentes”, que é um método de compensação, cujo objetivo é melhorar a robustez dos algoritmos de reconhecimento da fala em relação aos ruídos. Um modelo convencional para reconstrução de características ausentes utiliza características acústicas e métodos estatísticos para melhorar o reconhecimento da fala. No entanto, para este modelo, a taxa de acerto diminui quando o ruído presente no sinal é diferente do que foi utilizado no treinamento. Neste trabalho, um modelo adaptativo para reconhecimento da fala com reconstrução de características ausentes foi proposto. Para isso, foi utilizada uma nova abordagem para identificar as características articulatórias, através do pitch e do Mapa Auto-Organizável, e uma rede neural com topologia variante no tempo (LARFSOM) para reconstruir as características ausentes. O objetivo desse modelo é reconhecer a fala em sistemas online (tempo real) e offline que possam se modificar automaticamente sempre que for necessário. Assim, espera-se que o modelo seja independente de locutor. Para avaliar o modelo proposto, utilizamos as bases TIMIT e Aurora 2. Como resultados, foram obtidas uma taxa de erro médio de reconhecimento da fala de 6,96% para a base TIMIT e 4,46% para a base Aurora 2. Os experimentos realizados mostram que, mesmo sem utilizar um conhecimento prévio do sinal (oráculo), o modelo apresentou estabilidade (em relação a taxa de erro médio) quando existe presença ou ausência de ruído no sinal, bem como, na existência de locutores com diferentes gêneros e sotaques pronunciando frases com diferentes tamanhos. / The presence of different background noise in speech signal, has been a challenging to define a model for automatic speech recognition system. Missing-feature reconstruction is a compensation method to improve the noise robustness. A conventional models for missing-feature reconstruction is based on acoustic feature and statistical method to improve speech recognition. Nevertheless, these models degrade performance when different background noise is present in the signal. In this work, we propose a new adaptive speech model for speech recognition with missing-feature reconstruction, using unsupervised learning, for online (real-time) and offline systems, that automatically modifies as appropriate. For this, a new approach using Self-Organizing Map (SOM), to identify and extract articulatory features, and neural network with time-varying structure (LARFSOM), were used. In this work, an adaptive model for speech recognition with missing-feature reconstruction was proposed. For this, a new approach to identify the articulatory features, through the pitch and the Self-Organizing Map (SOM), and a neural network with time-varying structure (LARFSOM) for missing-feature reconstruction, were used. The purpose of this model is speech recognition in online (real-time) and offline systems, that automatically modifies as appropriate. Thus, it is expected that the model is robust for speaker variation. For evaluation purposes, Aurora 2 and TIMIT databases were used. As a result, we obtain a Word Error Rate average of 4.46% on Aurora 2 and 6.96% on TIMIT. Experimental results indicate that, even without prior knowledge (oracle) of the signal, the model is robust to noise, speaker variation, type of speech, and speech size.
3

AUTOMA??O RESIDENCIAL POR COMANDOS DE VOZ PARA PESSOAS COM MOBILIDADE REDUZIDA

Sousa, N?iron de Vasconcelos 22 March 2018 (has links)
Submitted by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2018-04-17T17:08:18Z No. of bitstreams: 1 47- N?iron de Vasconcelos Sousa - AUTOMA??O RESIDENCIAL POR COMANDOS DE VOZ PARA PESSOAS COM MOBILIDADE REDUZIDA.pdf: 4710798 bytes, checksum: 2754bd2158dbfbd02a15ce408130b212 (MD5) / Approved for entry into archive by Programa de P?s-Gradua??o Engenharia El?trica (ppgee@ifpb.edu.br) on 2018-04-17T17:09:40Z (GMT) No. of bitstreams: 1 47- N?iron de Vasconcelos Sousa - AUTOMA??O RESIDENCIAL POR COMANDOS DE VOZ PARA PESSOAS COM MOBILIDADE REDUZIDA.pdf: 4710798 bytes, checksum: 2754bd2158dbfbd02a15ce408130b212 (MD5) / Made available in DSpace on 2018-04-17T17:09:40Z (GMT). No. of bitstreams: 1 47- N?iron de Vasconcelos Sousa - AUTOMA??O RESIDENCIAL POR COMANDOS DE VOZ PARA PESSOAS COM MOBILIDADE REDUZIDA.pdf: 4710798 bytes, checksum: 2754bd2158dbfbd02a15ce408130b212 (MD5) Previous issue date: 2018-03-22 / IFPB / Nos ?ltimos anos, tem se observado um crescimento de tecnologias voltadas ? Automa??o Industrial ou Residencial. O comando de voz para automa??o residencial ? uma ?rea de pesquisa emergente, devido ao surgimento de diversas plataformas embarcadas, simples e de baixo custo, com alto poder de processamento e tamanho reduzido. A utiliza??o de sistemas de automa??o controlados por voz ? indiscutivelmente interessante ?s pessoas portadoras de necessidades especiais, idosos, nas quais a fala pode substituir algumas a??es motoras. Pode ser realizada de forma independente ou dependente do locutor. Nesse sentido, este projeto aborda o desenvolvimento de um sistema de reconhecimento autom?tico de fala, de baixo custo, independente do locutor, que utiliza comandos isolados. O trabalho se divide em duas abordagens. Na primeira, foi empregada a plataforma Raspberry PI B+. O sistema foi testado com o Pocketsphinx na l?ngua inglesa com uma placa de circuito pr?pria desenvolvida para o acionamento das cargas, com a finalidade de avaliar efici?ncia e efic?cia do software. Foi obtida uma taxa de reconhecimento de 90,4%, com resposta r?pida do sistema. Na segunda abordagem, o sistema de reconhecimento ? baseado na l?ngua portuguesa, utilizando a plataforma embarcada Raspberry PI Zero W, ESP8266 12E e o software Jasper, tendo a placa de controle dos dispositivos separada do Raspberry Pi Zero W. A fala ? convertida em texto usando o Google speech. Ap?s validado o comando, o mesmo ? enviado ao ESP8266 12E atrav?s de um roteador que permite a??es de controle, como aparelhos eletroeletr?nicos ou envio de mensagens SMS, com o intuito de dar autonomia, seguran?a e comodidade ?s pessoas com mobilidade reduzida. O sistema proposto foi avaliado atrav?s de aspectos de integridade, tais como sensibilidade a ru?dos do meio, sensibilidade de aceite da pron?ncia das palavras de acordo com o idioma escolhido e detec??o de falso-positivo. Nos testes realizados com a segunda abordagem obteve-se uma taxa de acertos de 99,67 %, indicando que a proposta se mostra vi?vel para a cria??o de uma interface por reconhecimento autom?tico de fala com baixo custo.
4

RECONHECIMENTO DE SENTENÇAS NO SILÊNCIO E NO RUÍDO, EM CAMPO LIVRE, EM INDIVÍDUOS PORTADORES DE PERDA AUDITIVA NEUROSSENSORIAL DE GRAU MODERADO / SENTENCES RECOGNITION IN QUIET AND IN NOISE, IN FREE FIELD, OF INDIVIDUALS WITH NEUROSENSORIAL HEARING LOSS OF MODERATE LEVEL

Padilha, Cristiane Bertolazi 14 July 2008 (has links)
In the clinical routine of an audiologist, it is becoming more frequent the complaints about speech misunderstanding in a noisy environment. Audiological tests which use sentences as stimulus have been object of research because, besides examining the real auditory skill of the patient, they promote a direct approximation to communicative situations and provide information that will indicate the most adequate behavior to be recommended to the patient with hearing deficits. The aim of this study was to determine sentences recognition thresholds in free field, with the presence and the absence of competitive noise, in a group of participants with neurossensorial hearing loss of a moderate level. It was examined 50 participants, 27 men and 23 women, aged between 45 and 76. Firstly, it was carried out anamnesis, meatuscopy, threshold tonal audiometry, SRT and SRPI tests. Next, using the Portuguese Sentences Lists test (PSL, 1998), SRTQ and SRTN tests were carried out, with a fixed noise level of 65 dB A. The average SRTQ was 60,90 dB A, the average SRTN in the same group was 68,20 dB A and the average S/N ratio was + 3,20 dB A. The inclusion of tests in free field using sentences as stimulus, with and without competitive noise, after the basic audiological evaluation in a patient with hearing deficits, have brought answers broader than the skills to detect the presence of pure tones and to recognize isolated words. These tests assess the patient as a whole, simulating communicative situations as well as providing data about skills and limitations of each person which determine his/her communication capacity. / Na rotina clínica do audiologista, a cada dia tornam-se mais freqüentes as queixas de dificuldade de compreensão de fala em ambiente ruidoso. Testes audiológicos que utilizam sentenças como estímulo, tem sido objeto de pesquisa, pois além de verificarem a real habilidade auditiva do paciente, proporcionam uma aproximação direta com situações de comunicação e fornecem informações que vão orientar a conduta mais adequada a ser indicada para o indivíduo com queixa de distúrbios de audição. O objetivo desta pesquisa foi determinar os limiares de reconhecimento de sentenças em campo livre, com a presença e ausência de ruído competitivo, em um grupo de indivíduos portadores de perda auditiva neurossensorial de grau moderado. Foram avaliados 50 indivíduos, sendo 27 homens e 23 mulheres, com idades entre 45 e 76 anos. Inicialmente, realizou-se anamnese, meatoscopia, audiometria tonal liminar, pesquisa do LRF e do IPRF. Posteriormente, utilizando o teste Listas de Sentenças em Português (LSP, 1998), realizou-se inicialmente a pesquisa dos LRSS e a seguir o LRSR, com um nível fixo de ruído de 65 dB A. O LRSS médio obtido foi de 60,90 dB A, o LRSR médio encontrado neste mesmo grupo foi de 68,20 dB A e a média das relações S/R encontrada foi de + 3,20 dB A. A inclusão dos testes em campo livre, utilizando sentenças como estímulo, com e sem a presença de ruído competitivo, após a avaliação audiológica básica, em indivíduo com distúrbio da audição possibilita a obtenção de respostas que vão além das habilidades para detectar a presença de tons puros e reconhecer palavras isoladas. Estes testes avaliam o indivíduo como um todo, simulando situações de comunicação, fornecendo dados sobre as habilidades e limitações de cada indivíduo, que determinam a sua capacidade de comunicação.
5

Reconhecimento de fala para navegação em aplicativos móveis para português brasileiro / Brazilian Portuguese Speech Recognition for Navigation on Mobile Device Applications

Triana Gomez, Edwin Miguel 17 June 2011 (has links)
O objetivo do presente trabalho de pesquisa é reduzir o nível de atenção requerido para o uso do sistema Borboleta por meio de reconhecimento de fala na navegação através das funcionalidades do sistema, permitindo ao profissional dar maior atenção ao paciente. A metodologia de desenvolvimento do projeto inclui uma revisão bibliográfica para definir o estado da arte da área, uma pesquisa sobre o software disponível para reconhecimento de fala, uma coleta de dados dos comandos do sistema em português brasileiro para treinar e testar o sistema, uma etapa de projeção e desenvolvimento para definir a arquitetura de integração com o Borboleta, e uma fase de testes para medir a precisão do sistema e seus níveis de usabilidade e aceitação por parte do usuário. / The current document presents research that addresses the goal of reducing the user attention level required by Borboleta operation by providing speech recognition capabilities to augment navigation through the software functions, allowing the professional to pay more attention to the patient. The project methodology is composed of a bibliography revision to establish the state-of-the-art of the field, a review of available speech recognition software, data collection of Brazilian utterances to train and test the system, a design and development stage that defined the system architecture and integration with Borboleta and a testing process to measure the system accuracy, its usability and acceptance level.
6

Reconhecimento de fala para navegação em aplicativos móveis para português brasileiro / Brazilian Portuguese Speech Recognition for Navigation on Mobile Device Applications

Edwin Miguel Triana Gomez 17 June 2011 (has links)
O objetivo do presente trabalho de pesquisa é reduzir o nível de atenção requerido para o uso do sistema Borboleta por meio de reconhecimento de fala na navegação através das funcionalidades do sistema, permitindo ao profissional dar maior atenção ao paciente. A metodologia de desenvolvimento do projeto inclui uma revisão bibliográfica para definir o estado da arte da área, uma pesquisa sobre o software disponível para reconhecimento de fala, uma coleta de dados dos comandos do sistema em português brasileiro para treinar e testar o sistema, uma etapa de projeção e desenvolvimento para definir a arquitetura de integração com o Borboleta, e uma fase de testes para medir a precisão do sistema e seus níveis de usabilidade e aceitação por parte do usuário. / The current document presents research that addresses the goal of reducing the user attention level required by Borboleta operation by providing speech recognition capabilities to augment navigation through the software functions, allowing the professional to pay more attention to the patient. The project methodology is composed of a bibliography revision to establish the state-of-the-art of the field, a review of available speech recognition software, data collection of Brazilian utterances to train and test the system, a design and development stage that defined the system architecture and integration with Borboleta and a testing process to measure the system accuracy, its usability and acceptance level.
7

[en] ASSESSMENT OF FINE-TUNING ON END-TO-END SPEECH RECOGNITION MODELS / [pt] AVALIAÇÃO DE AJUSTE FINO EM MODELOS DE PONTA A PONTA PARA RECONHECIMENTO DE FALA

JONATAS DOS SANTOS GROSMAN 04 November 2022 (has links)
[pt] Utilizar representações fornecidas por um grande modelo pré-treinado tornou-se a principal estratégia para alcançar o estado da arte nas mais variadas tarefas. Um grande modelo pré-treinado recentemente proposto, wav2vec 2.0, foi seminal para vários outros trabalhos sobre pré-treinamento de grandes modelos em dados de fala. Muitos modelos estão sendo pré-treinados usando a mesma arquitetura baseada em transformer que o wav2vec 2.0 e estão obtendo o estado da arte em várias tarefas relacionadas à fala. No entanto, poucos trabalhos propuseram maiores análises sobre o comportamento desses modelos em diferentes cenários de fine-tuning. Nosso trabalho visa analisar esse modelo sobre dois aspectos diferentes. O primeiro é sobre a transferibilidade entre línguas desses modelos. Nossos experimentos nos mostraram que o tamanho dos dados usados durante o pré-treinamento desses modelos não é tão crucial para a transferibilidade quanto a diversidade. Percebemos que o desempenho das línguas indo-europeias é superior ao das línguas não indo-europeias nos modelos avaliados. Vimos uma transferência positiva de conhecimento entre línguas usando modelos monolinguais, o que foi percebido em todos os idiomas que usamos, mas foi mais evidente quando o idioma usado durante o pré-treinamento era mais semelhante ao idioma do fine-tuning. O segundo aspecto que investigamos em nosso trabalho é quão bem esses modelos se comportam em cenários de desbalanceamento de dados, onde há um subconjunto mais representativo no conjunto de dados do fine-tuning. Nossos resultados mostraram que o desbalanceamento dos dados no fine-tuning geralmente afeta o resultado final dos modelos, com melhor desempenho nos subconjuntos mais representativos. No entanto, uma maior variabilidade no conjunto de treinamento favorece o desempenhodo modelo para um subconjunto mais representativo. Porém essamaior variabilidade nos dados não favoreceu os idiomas não vistos durante o treinamento. Observamos também que os modelos parecem mais robustos em lidar com o desbalanceamento de gênero do que idade ou sotaque. Com esses achados, esperamos ajudar a comunidade científica na utilização de modelos pré-treinados existentes, bem como auxiliar no pré-treinamento de novosmodelos. / [en] Using representations given by a large pre-trained model has become the primary strategy to reach the state-of-the-art in the most varied tasks. A recently proposed large pre-trained model, wav2vec 2.0, was seminal for several other works on pre-training large models on speech data. Many models are being pre-trained using the same transformer-based architecture as wav2vec 2.0 and are getting state-of-the-art in various speech-related tasks. However, few works have proposed further analysis of these models in different finetuning scenarios. Our work investigates these models concerning two different aspects. The first is about the cross-lingual transferability of these models. Our experiments showed us that the size of data used during the pre-training of these models is not as crucial to the transferability as the diversity. We noticed that the performance of Indo-European languages is superior to non-Indo- European languages in the evaluated models. We have seen a positive crosslingual transfer of knowledge using monolingual models, which was noticed in all the languages we used but was more evident when the language used during the pre-training was more similar to the downstream task language. The second aspect we investigated in our work is how well these models perform in data imbalance scenarios, where there is a more representative subset in the fine-tuning dataset. Our results showed that data imbalance in fine-tuning generally affects the final result of the models, with better performance in the most representative subsets. However, greater variability in the training set favors model performance for a more representative subset. Nevertheless, this greater variability in the data did not favor languages not seen during training. We also observed that the models seem more robust in dealing with gender imbalance than age or accent. With these findings, we hope to help the scientific community in the use of existing pre-trained models, as well as assist in the pre-training of new models.
8

Impacto do uso de prótese auditiva no índice percentual de reconhecimento de fala em idosos portadores de deficiência auditiva: um ensaio clínico não randomizado

Zanetti, Camila 23 March 2010 (has links)
Made available in DSpace on 2015-03-05T20:06:58Z (GMT). No. of bitstreams: 0 Previous issue date: 23 / Nenhuma / TEMA: A prática clínica tem demonstrado que idosos usuários de prótese auditiva, mesmo revelando declínio, ou piora dos limiares auditivos, apresentam manutenção ou aumento do Índice Percentual de Reconhecimento de Fala (IPRF) sugerindo a possível existência de plasticidade neural nas áreas pertinentes, concomitantemente com a melhora da compreensão de fala mediante estimulação contínua do sistema auditivo. OBJETIVO: comparar o Índice Percentual de Reconhecimento de Fala (IPRF) antes e após um ano de exposição, entre usuários e não usuários de prótese auditiva. MATERIAL E MÉTODOS: Ensaio clínico não randomizado, com 48 idosos, divididos entre grupo controle (24 não usuários de prótese auditiva) e grupo de intervenção (24 usuários de prótese auditiva unilateral). Foi avaliado o IPRF antes e após um ano de exposição. Os idosos foram pareados em sexo, faixa de idade, tipo e grau de perda auditiva, para que a diferença pudesse demonstrar somente a intervenção. RESULTADOS: Os idosos usuários de prótese auditi / SUBJECT: Clinical practice has demonstrated that elderly users of hearing aids, even when showing decline or worsening of auditory thresholds, maintain or increase the Percentage Index of Speech Recognition through monosyllabic words (PISR), indicating the possible existence of neuronal plasticity in the pertinent areas simultaneously with the improvement of speaking comprehension through continuous stimulation of the hearing system. PURPOSE: to compare the PISR between users and non-users of hearing prosthesis before and after a year of exposure. METHOD: Clinical trial not-randomized with 48 elderly divided in two groups: control group (24 non-users of hearing prosthesis) and intervention group (24 users of hearing prosthesis). The PISR was measured before and after a year of exposure. The elderly were paired according to gender, age and type and degree of hearing loss, thus the difference could demonstrate only the intervention. RESULTS: The elderly users of hearing prosthesis have presented a meaning
9

Avaliação de um programa informatizado de reconhecimento de fala em indivíduos com deficiência mental e com problemas de linguagem.

Carrer, Henildes José 19 September 2005 (has links)
Made available in DSpace on 2016-06-02T19:46:34Z (GMT). No. of bitstreams: 1 DissHJC.pdf: 2185434 bytes, checksum: 32d0c9b1087df744dc5fe6010acb51a3 (MD5) Previous issue date: 2005-09-19 / The general aim of this study was the evaluation of the speech-recognition technology together with the MESTRE software, in order to check their viability to educational objectives. 110 individuals participated of this study, divided in four groups: G1, constituted by 10 university students; G2, constituted by 60 children presenting normal development: 20 children from 4 years to 4 years and 11 months; 20 children from 5 years to 6 years and 11 months and 20 children from 7 to 7 years and 11 months; G3, constituted by 20 individuals with diagnosis of mental deficiency, from 7 to 14 year old, and G4, constituted by 20 individuals from 7 to 11 year old with diagnosis of phonologic disturbs. The experimental stimuli were presented through the software MESTRE, constituted by two sets, A and B. The A set formed by 51 words of the Portuguese language and the B set was formed by 51 pictures related to the words of the A set. The tested relations were: spoken word - oral production (AE relations); picture oral production (BE relations). The results were statistically analyzed. The average of right answers of the AE relation tasks was compared to the BE relation of the same group of stimuli and the differences were considered non-significant. In the analysis by groups of individuals, the average of right answers in each tested relation was: in G1, in the AE relation, 90,51% and in BE relation, 90,49%; in G2, from 4 years to 4 years and 11 months, the average was 55,4% in AE relation and 52,4% in BE relation; from 5 years to 6 years and 11 months it was 67,18% in AE relation and 68,76% in BE relation; from 7 to 7 years and 11 months it was 77,61% in AE relation and 76% in BE relation; in G3, 61,99% in AE relation and 59,74% in BE relation; in G4, 49,66% in AE relation and 49,55% in BE relation. The results showed that the procedure is effective for speech recognition in adults, to children it may be effective considering the age, because the older the children are the largest the recognition rate. The procedure can become a great instrument of aid to educators in the work with individuals presenting special educational needs concerned to language problems, in the initial grades of schooling. / O objetivo geral deste estudo foi a avaliação da tecnologia de reconhecimento de fala juntamente com o software MESTRE, para verificar a sua viabilidade para finalidades educacionais. Participaram deste estudo 110 indivíduos, divididos em quatro grupos: G1, composto por 10 estudantes universitários; G2, composto por 60 crianças consideradas com desenvolvimento normal: 20 na faixa etária de 4 anos a 4 anos e 11 meses, 20 na faixa etária de 5 anos a 6 anos e 11 meses e 20 na faixa etária de 7 anos a 7 anos e 11 meses; G3, composto por 20 sujeitos com diagnóstico de deficiência mental, na faixa etária de 7 a 14 anos, e G4, composto por 20 sujeitos na faixa etária de 7 a 11 anos, com diagnóstico de transtorno fonológico. Os estímulos experimentais foram apresentados através do programa informatizado MESTRE, constituindo-se em dois conjuntos: A e B, sendo o conjunto A formado por 51 palavras da língua portuguesa, e o conjunto B formado por 51 figuras referentes às palavras do conjunto A. As relações testadas foram: palavra falada produção oral (relação AE), figura produção oral (relação BE). Os resultados foram analisados estatisticamente, comparando-se as médias de acertos das tarefas da relação AE com as da relação BE do mesmo grupo de estímulos e as diferenças foram consideradas não significativas. Na análise por grupos de indivíduos, as médias de acertos por relação testada foram: no G1, na relação AE, foi de 90,51% e na relação BE de 90,49%; no G2, na faixa etária de 4 anos a 4 anos e 11 meses, foi de 55, 4% na relação AE e 52,4% na relação BE, na faixa etária de 5 anos a 6 anos e 11 meses foi de 67,18% na relação AE e 68,76% na relação BE e na faixa etária de 7 anos a 7 anos e 11 meses foi de 77,61% na relação AE e 76% na relação BE; no G3 foi de 61,99% na relação AE e de 59,74% na relação BE; no G4 foi de 49,66% na relação AE e de 49,55% na relação BE. Os resultados mostraram que o procedimento é eficaz no reconhecimento da fala de adultos; para crianças pode ser eficaz, considerando-se a idade, pois quanto maior a idade maior o índice de reconhecimento, e palavras com melhores índices de reconhecimento, podendo ser um instrumento de grande auxílio para os educadores no trabalho com sujeitos que apresentem necessidades educacionais especiais relacionadas a problemas de linguagem, nas séries iniciais da scolarização. Palavras-chave: reconhecimento de fala; ensino informatizado, transtorno fonológico
10

Uma abordagem híbrida CNN-HMM para reconhecimento de fala tolerante a ruídos de ambiente

Santos, Rafael Menêses 30 May 2016 (has links)
One of the biggest challenges in speech recognition today is its use on a daily basis, in which distortion and noise in the environment are present and hinder this task. In the last thirty years, hundreds of methods for noise-robust recognition were proposed, each with its own advantages and disadvantages. In this thesis, the use of Convolutional Neural Networks (CNN) as acoustic models in automatic speech recognition systems (ASR) is proposed as an alternative to the classical recognition methods based on Hidden Markov Models (HMM) without any noise-robust method applied. Experiments were performed with a audio set modified by additive and natural noises, and showed that the presented method reduces the Equal Error Rate (EER) and improves the acuracy of speech recognition in noisy environments when compared to traditional models of classifiation, indicating the robustness of the approach. / Um dos maiores desafios no reconhecimento de fala atualmente é usá-lo no contexto diário, no qual distorções no sinal da fala e ruídos no ambiente estão presentes e re- duzem a qualidade do reconhecimento. Nos últimos trinta anos, centenas de métodos para reconhecimento robusto ao ruído foram propostos, cada um com suas vantagens e desvantagens. Este trabalho propõe o uso de uma rede neural convolucional no papel de modelo acústico em sistemas de reconhecimento automático de fala,como uma alter- nativa ao métodos clássicos de reconhecimento baseado em modelos ocultos de Markov (HMM, do inglês, Hidden Markov Models) sem a aplicação de um método robusto ao ruído. Experimentos foram realizados com áudios modi ficados com ruídos aditivos e reais, e mostraram que o método proposto reduz o Equal Error Rate (EER) e aumenta a acurácia da classificação de comando de voz quando comparado a modelos tradicionais de classificação, evidenciando a robustez da abordagem apresentada.

Page generated in 0.105 seconds