[pt] Esta tese destina-se ao desenvolvimento de novas técnicas de combinação
de classificadores aplicados em sub-bandas visando melhorar a identificação de
locutor robusta e independente do texto. As vantagens observadas nas pesquisas
utilizando múltiplos classificadores em sub-bandas para o reconhecimento de
locutor robusto motivaram o desenvolvimento de técnicas de combinação desses
algoritmos. Nessa tese foram propostas novas abordagens para a combinação das
respostas dos classificadores nas sub-bandas. O principal objetivo é melhorar a
taxa de acerto em situações onde nada se sabe sobre o tipo de ruído que pode estar
corrompendo os sinais de voz usados no teste do sistema. As diferentes propostas
consistem no emprego de pesos não-uniformes, espaço nulo, treinamento em
múltiplas condições, atributos dinâmicos e coeficientes de autocorrelação –
MFCC. A aplicação das novas propostas contribui significativamente para a
melhoria da taxa de acerto do sistema de reconhecimento. Obteve-se, por
exemplo, um aumento na taxa de reconhecimento, em relação à técnica de
combinação Soma apresentada na literatura, de aproximadamente 47% em testes
com ruído branco, e de 32% em testes com ruído não-branco em 15 segundos de
fala e 10 dB de RSR (Relação Sinal Ruído), apenas utilizando uma nova estratégia
que emprega o espaço nulo na combinação de classificadores em sub-bandas.
Resultados mais significativos foram obtidos empregando-se as demais propostas
apresentadas no presente trabalho. / [en] This Thesis aims to develop new classifier combination techniques applied
in sub-bands in order to improve the robustness of text-independent speaker
identification systems. The advantages observed in previous experiments using
multiple classifiers in sub-bands for robust speaker recognition motivated the
development of combination techniques for these algorithms. New strategies to
combine the classifiers responses are proposed in this Thesis. The main purpose is
to increase the recognition performance in situations when there is no knowledge
about the type of noise that corrupts the testing speech signal. The different
proposals consist in applying non-uniform weights, null space, multicondition
training, dynamic features and autocorrelation based MFCC features. The
employment of the new strategies significantly contribute to increase the
recognition performance. It was obtained an increase, for instance, compared to
the Sum combination technique shown in the literature, of about 47% in tests with
white noise, and 32% with non-white noise in 15 seconds of speech in 10 dB of
SNR (Signal-to-noise ratio), just using a new strategy which employ the null
space to combine the sub-band classifiers. Even better results were obtained by
using the other proposals.
Identifer | oai:union.ndltd.org:puc-rio.br/oai:MAXWELL.puc-rio.br:17227 |
Date | 07 April 2011 |
Creators | EDUARDO ESTEVES VALE |
Contributors | ABRAHAM ALCAIM |
Publisher | MAXWELL |
Source Sets | PUC Rio |
Language | Portuguese |
Detected Language | English |
Type | TEXTO |
Page generated in 0.0023 seconds