Return to search

Modelo adaptativo para reconhecimento de fala com reconstrução de características ausentes

Submitted by Pedro Barros (pedro.silvabarros@ufpe.br) on 2018-09-20T21:43:52Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5) / Approved for entry into archive by Alice Araujo (alice.caraujo@ufpe.br) on 2018-09-21T17:21:24Z (GMT) No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5) / Made available in DSpace on 2018-09-21T17:21:24Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
TESE Hesdras Oliveira Viana.pdf: 1744733 bytes, checksum: f9ca799bcf9840f9a599aab80efb34ca (MD5)
Previous issue date: 2017-05-08 / A presença de diferentes tipos e intensidades de ruídos nos sinais da fala, têm sido um desafio para definir um modelo para o reconhecimento automático da fala. Neste sentido, estuda-se a “reconstrução de características ausentes”, que é um método de compensação, cujo objetivo é melhorar a robustez dos algoritmos de reconhecimento da fala em relação aos ruídos. Um modelo convencional para reconstrução de características ausentes utiliza características acústicas e métodos estatísticos para melhorar o reconhecimento da fala. No entanto, para este modelo, a taxa de acerto diminui quando o ruído presente no sinal é diferente do que foi utilizado no treinamento. Neste trabalho, um modelo adaptativo para reconhecimento da fala com reconstrução de características ausentes foi proposto. Para isso, foi utilizada uma nova abordagem para identificar as características articulatórias, através do pitch e do Mapa Auto-Organizável, e uma rede neural com topologia variante no tempo (LARFSOM) para reconstruir as características ausentes. O objetivo desse modelo é reconhecer a fala em sistemas online (tempo real) e offline que possam se modificar automaticamente sempre que for necessário. Assim, espera-se que o modelo seja independente de locutor. Para avaliar o modelo proposto, utilizamos as bases TIMIT e Aurora 2. Como resultados, foram obtidas uma taxa de erro médio de reconhecimento da fala de 6,96% para a base TIMIT e 4,46% para a base Aurora 2. Os experimentos realizados mostram que, mesmo sem utilizar um conhecimento prévio do sinal (oráculo), o modelo apresentou estabilidade (em relação a taxa de erro médio) quando existe presença ou ausência de ruído no sinal, bem como, na existência de locutores com diferentes gêneros e sotaques pronunciando frases com diferentes tamanhos. / The presence of different background noise in speech signal, has been a challenging to define a model for automatic speech recognition system. Missing-feature reconstruction is a compensation method to improve the noise robustness. A conventional models for missing-feature reconstruction is based on acoustic feature and statistical method to improve speech recognition. Nevertheless, these models degrade performance when different background noise is present in the signal. In this work, we propose a new adaptive speech model for speech recognition with missing-feature reconstruction, using unsupervised learning, for online (real-time) and offline systems, that automatically modifies as appropriate. For this, a new approach using Self-Organizing Map (SOM), to identify and extract articulatory features, and neural network with time-varying structure (LARFSOM), were used. In this work, an adaptive model for speech recognition with missing-feature reconstruction was proposed. For this, a new approach to identify the articulatory features, through the pitch and the Self-Organizing Map (SOM), and a neural network with time-varying structure (LARFSOM) for missing-feature reconstruction, were used. The purpose of this model is speech recognition in online (real-time) and offline systems, that automatically modifies as appropriate. Thus, it is expected that the model is robust for speaker variation. For evaluation purposes, Aurora 2 and TIMIT databases were used. As a result, we obtain a Word Error Rate average of 4.46% on Aurora 2 and 6.96% on TIMIT. Experimental results indicate that, even without prior knowledge (oracle) of the signal, the model is robust to noise, speaker variation, type of speech, and speech size.

Identiferoai:union.ndltd.org:IBICT/oai:repositorio.ufpe.br:123456789/26788
Date08 May 2017
CreatorsVIANA, Hesdras Oliveira
Contributorshttp://lattes.cnpq.br/8715023255304328, ARAÚJO, Aluízio Fausto Ribeiro
PublisherUniversidade Federal de Pernambuco, Programa de Pos Graduacao em Ciencia da Computacao, UFPE, Brasil
Source SetsIBICT Brazilian ETDs
LanguagePortuguese
Detected LanguageEnglish
Typeinfo:eu-repo/semantics/publishedVersion, info:eu-repo/semantics/doctoralThesis
Sourcereponame:Repositório Institucional da UFPE, instname:Universidade Federal de Pernambuco, instacron:UFPE
RightsAttribution-NonCommercial-NoDerivs 3.0 Brazil, http://creativecommons.org/licenses/by-nc-nd/3.0/br/, info:eu-repo/semantics/openAccess

Page generated in 0.0022 seconds