1 |
[en] ENHANCEMENT OF IMAGES IN THE TRANSFORM DOMAIN / [pt] REALCE DE IMAGENS NO DOMÍNIO DA TRANSFORMADAEDUARDO ESTEVES VALE 03 May 2006 (has links)
[pt] Esta Dissertação destina-se ao desenvolvimento de novas
técnicas de
realce aplicadas no domínio da transformada. O estudo das
transformadas
bidimensionais motivaram o desenvolvimento de técnicas
baseadas nestas
ferramentas matemáticas. Análises comparativas entre os
métodos de realce no
domínio espacial e no domínio da transformada logo
revelaram as vantagens do
uso das transformadas. É proposta e analisada uma nova
técnica de realce no
domínio da Transformada Cosseno Discreta (DCT). Os
resultados mostraram que
esta nova proposta é menos afetada por ruído e realça mais
a imagem que as
técnicas apresentadas na literatura. Adicionalmente,
considera-se uma estratégia
com o objetivo de eliminar o efeito de escurecimento da
imagem processada pelo
Alpha-rooting. É também apresentada uma nova proposta de
realce no domínio da
Transformada Wavelet Discreta (DWT). As simulações
mostraram que a imagem
resultante possui melhor qualidade visual que a de
técnicas relatadas na literatura,
além de ser pouco afetada pelo ruído. Além disso, a
escolha do parâmetro de
realce é simplificada. / [en] This Dissertation is aimed at the development of new
enhancement
techniques applied in the transform domain. The study of
the bidimensional
transforms motivated the development of techniques based
on these mathematical
tools. The comparative analysis between the enhancement
methods in the spatial
domain and in the transform domain revealed the advantages
of the use of
transforms. A new proposal of enhancement in the Discrete
Cosine Transform
(DCT) domain is analysed. The results showed that this new
proposal is less
affected by noise and enhances more the image than other
techniques reported in
the literature. In addition, a strategy to eliminate the
darkening effect of
enhancement by Alpha-rooting is considered. A new proposal
of enhancement in
the Discrete Wavelet Transform (DWT) domain is also
presented. Simulation
results showed that the enhanced images have better visual
quality than other ones
presented in the literature and is less affected by noise.
Moreover, the choice of
the enhancement parameter is simplified.
|
2 |
[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOSCHRISTIAN DAYAN ARCOS GORDILLO 13 June 2018 (has links)
[pt] Esta tese apresenta e examina contribuições inovadoras no front-end dos sistemas de reconhecimento automático de voz (RAV) para o realce e reconhecimento de voz em ambientes adversos. A primeira proposta consiste em aplicar um filtro de mediana sobre a função de distribuição de probabilidade de cada coeficiente cepstral antes de utilizar uma transformação para um domínio invariante às distorções, com o objetivo de adaptar a voz ruidosa ao ambiente limpo de referência através da modificação de histogramas. Fundamentadas nos resultados de estudos psicofísicos do sistema auditivo humano, que utiliza como princípio o fato de que o som que atinge o ouvido é sujeito a um processo chamado Análise de Cena Auditiva (ASA), o qual examina como o sistema auditivo separa as fontes de som que compõem a entrada acústica, três novas abordagens aplicadas independentemente foram propostas para realce e reconhecimento de voz. A primeira aplica a estimativa de uma nova máscara no domínio espectral usando o conceito da transformada de Fourier de tempo curto (STFT). A máscara proposta aplica a técnica Local Binary Pattern (LBP) à relação sinal ruído (SNR) de cada unidade de tempo-frequência (T-F) para estimar
uma máscara de vizinhança ideal (INM). Continuando com essa abordagem, propõe-se em seguida nesta tese o mascaramento usando as transformadas wavelet com base nos LBP para realçar os espectros temporais dos coeficientes wavelet nas altas frequências. Finalmente, é proposto um novo método de estimação da máscara INM, utilizando um algoritmo de aprendizagem supervisionado das Deep Neural Networks (DNN) com o objetivo de realizar a classificação de unidades T-F obtidas da saída dos bancos de
filtros pertencentes a uma mesma fonte de som (ou predominantemente voz ou predominantemente ruído). O desempenho é comparado com as técnicas de máscara tradicionais IBM e IRM, tanto em termos de qualidade objetiva da voz, como através de taxas de erro de palavra. Os resultados das técnicas
propostas evidenciam as melhoras obtidas em ambientes ruidosos, com diferenças significativamente superiores às abordagens convencionais. / [en] This thesis presents and examines innovative contributions in frontend of the automatic speech recognition systems (ASR) for enhancement and speech recognition in adverse environments. The first proposal applies
a median filter on the probability distribution function of each cepstral coefficient before using a transformation to a distortion-invariant domain, to adapt the corrupted voice to the clean reference environment by modifying histograms. Based on the results of psychophysical studies of the human
auditory system, which uses as a principle the fact that sound reaching the ear is subjected to a process called Auditory Scene Analysis (ASA), which examines how the auditory system separates the sound sources that make up the acoustic input, three new approaches independently applied were proposed for enhancement and speech recognition. The first applies the estimation of a new mask in the spectral domain using the short-time Fourier Transform (STFT) concept. The proposed mask applies the Local Binary Pattern (LBP) technique to the Signal-to-Noise Ratio (SNR) of each time-frequency unit (T-F) to estimate an Ideal Neighborhood Mask (INM). Continuing with this approach, the masking using LBP-based wavelet
transforms to highlight the temporal spectra of wavelet coefficients at high frequencies is proposed in this thesis. Finally, a new method of estimation of the INM mask is proposed, using a supervised learning algorithm of Deep Neural Network (DNN) to classify the T-F units obtained from the output of
the filter banks belonging to a same source of sound (or predominantly voice or predominantly noise). The performance is compared with traditional IBM and IRM mask techniques, both regarding objective voice quality and through word error rates. The results of the proposed methods show the improvements obtained in noisy environments, with differences significantly superior to the conventional approaches.
|
3 |
[en] CONTINUOUS SPEECH RECOGNITION BY COMBINING MFCC AND PNCC ATTRIBUTES WITH SS, WD, MAP AND FRN METHODS OF ROBUSTNESS / [pt] RECONHECIMENTO DE VOZ CONTINUA COMBINANDO OS ATRIBUTOS MFCC E PNCC COM METODOS DE ROBUSTEZ SS, WD, MAP E FRNCHRISTIAN DAYAN ARCOS GORDILLO 09 June 2014 (has links)
[pt] O crescente interesse por imitar o modelo que rege o processo cotidiano de comunicação humana através de maquinas tem se convertido em uma das áreas do conhecimento mais pesquisadas e de grande importância nas ultimas décadas. Esta área da tecnologia, conhecida como reconhecimento de voz, em como principal desafio desenvolver sistemas robustos que diminuam o ruído aditivo dos ambientes de onde o sinal de voz é adquirido, antes de que se esse sinal alimente os reconhecedores de voz. Por esta razão, este trabalho apresenta quatro formas diferentes de melhorar o desempenho do reconhecimento de voz contınua na presença de ruído aditivo, a saber: Wavelet Denoising e Subtração Espectral, para realce de fala e Mapeamento de Histogramas e Filtro com Redes Neurais, para compensação de atributos. Esses métodos são aplicados isoladamente e simultaneamente, afim de minimizar os desajustes causados pela inserção de ruído no sinal de voz. Alem dos métodos de robustez propostos, e devido ao fato de que os e conhecedores de voz dependem basicamente dos atributos de voz utilizados, examinam-se dois algoritmos de extração de atributos, MFCC e PNCC, através dos quais se representa o sinal de voz como uma sequência de vetores que contêm informação espectral de curtos períodos de tempo. Os métodos considerados são avaliados através de experimentos usando os software HTK e Matlab, e as bases de dados TIMIT (de vozes) e NOISEX-92 (de ruído). Finalmente, para obter os resultados experimentais, realizam-se dois tipos de testes. No primeiro caso, é avaliado um sistema de referência baseado unicamente em atributos MFCC e PNCC, mostrando como o sinal é fortemente degradado quando as razões sinal-ruıdo são menores. No segundo caso, o sistema de referência é combinado com os métodos de robustez aqui propostos, analisando-se comparativamente os resultados dos métodos quando agem isolada e simultaneamente. Constata-se que a mistura simultânea dos métodos nem sempre é mais atraente. Porem, em geral o melhor resultado é obtido combinando-se MAP com atributos PNCC. / [en] The increasing interest in imitating the model that controls the daily
process of human communication trough machines has become one of the
most researched areas of knowledge and of great importance in recent decades.
This technological area known as voice recognition has as a main challenge
to develop robust systems that reduce the noisy additive environment where
the signal voice was acquired. For this reason, this work presents four different
ways to improve the performance of continuous speech recognition in presence
of additive noise, known as Wavelet Denoising and Spectral Subtraction for
enhancement of voice, and Mapping of Histograms and Filter with Neural
Networks to compensate for attributes. These methods are applied separately
and simultaneously two by two, in order to minimize the imbalances caused
by the inclusion of noise in voice signal. In addition to the proposed methods
of robustness and due to the fact that voice recognizers depend mainly on the
attributes voice used, two algorithms are examined for extracting attributes,
MFCC, and PNCC, through which represents the voice signal as a sequence
of vectors that contain spectral information for short periods of time. The
considered methods are evaluated by experiments using the HTK and Matlab
software, and databases of TIMIT (voice) and Noisex-92 (noise). Finally, for
the experimental results, two types of tests were carried out. In the first case
a reference system was assessed based on MFCC and PNCC attributes, only
showing how the signal degrades strongly when signal-noise ratios are higher.
In the second case, the reference system is combined with robustness methods
proposed here, comparatively analyzing the results of the methods when they
act alone and simultaneously. It is noted that simultaneous mix of methods is
not always more attractive. However, in general, the best result is achieved by
the combination of MAP with PNCC attributes.
|
Page generated in 0.0286 seconds