Global ETD Search

1	[en] ENHANCEMENT OF IMAGES IN THE TRANSFORM DOMAIN / [pt] REALCE DE IMAGENS NO DOMÍNIO DA TRANSFORMADA EDUARDO ESTEVES VALE 03 May 2006 (has links) [pt] Esta Dissertação destina-se ao desenvolvimento de novas técnicas de realce aplicadas no domínio da transformada. O estudo das transformadas bidimensionais motivaram o desenvolvimento de técnicas baseadas nestas ferramentas matemáticas. Análises comparativas entre os métodos de realce no domínio espacial e no domínio da transformada logo revelaram as vantagens do uso das transformadas. É proposta e analisada uma nova técnica de realce no domínio da Transformada Cosseno Discreta (DCT). Os resultados mostraram que esta nova proposta é menos afetada por ruído e realça mais a imagem que as técnicas apresentadas na literatura. Adicionalmente, considera-se uma estratégia com o objetivo de eliminar o efeito de escurecimento da imagem processada pelo Alpha-rooting. É também apresentada uma nova proposta de realce no domínio da Transformada Wavelet Discreta (DWT). As simulações mostraram que a imagem resultante possui melhor qualidade visual que a de técnicas relatadas na literatura, além de ser pouco afetada pelo ruído. Além disso, a escolha do parâmetro de realce é simplificada. / [en] This Dissertation is aimed at the development of new enhancement techniques applied in the transform domain. The study of the bidimensional transforms motivated the development of techniques based on these mathematical tools. The comparative analysis between the enhancement methods in the spatial domain and in the transform domain revealed the advantages of the use of transforms. A new proposal of enhancement in the Discrete Cosine Transform (DCT) domain is analysed. The results showed that this new proposal is less affected by noise and enhances more the image than other techniques reported in the literature. In addition, a strategy to eliminate the darkening effect of enhancement by Alpha-rooting is considered. A new proposal of enhancement in the Discrete Wavelet Transform (DWT) domain is also presented. Simulation results showed that the enhanced images have better visual quality than other ones presented in the literature and is less affected by noise. Moreover, the choice of the enhancement parameter is simplified. [pt] RUIDO [en] NOISE [pt] IMAGEM [en] IMAGE [pt] COMPRESSAO [en] COMPRESSION [pt] HISTOGRAMAS [en] HISTOGRAMS [pt] REALCE [en] ENHANCEMENT [pt] DOMINIO DA TRANSFORMADA [en] TRANSFORM DOMAIN
2	[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOS CHRISTIAN DAYAN ARCOS GORDILLO 13 June 2018 (has links) [pt] Esta tese apresenta e examina contribuições inovadoras no front-end dos sistemas de reconhecimento automático de voz (RAV) para o realce e reconhecimento de voz em ambientes adversos. A primeira proposta consiste em aplicar um filtro de mediana sobre a função de distribuição de probabilidade de cada coeficiente cepstral antes de utilizar uma transformação para um domínio invariante às distorções, com o objetivo de adaptar a voz ruidosa ao ambiente limpo de referência através da modificação de histogramas. Fundamentadas nos resultados de estudos psicofísicos do sistema auditivo humano, que utiliza como princípio o fato de que o som que atinge o ouvido é sujeito a um processo chamado Análise de Cena Auditiva (ASA), o qual examina como o sistema auditivo separa as fontes de som que compõem a entrada acústica, três novas abordagens aplicadas independentemente foram propostas para realce e reconhecimento de voz. A primeira aplica a estimativa de uma nova máscara no domínio espectral usando o conceito da transformada de Fourier de tempo curto (STFT). A máscara proposta aplica a técnica Local Binary Pattern (LBP) à relação sinal ruído (SNR) de cada unidade de tempo-frequência (T-F) para estimar uma máscara de vizinhança ideal (INM). Continuando com essa abordagem, propõe-se em seguida nesta tese o mascaramento usando as transformadas wavelet com base nos LBP para realçar os espectros temporais dos coeficientes wavelet nas altas frequências. Finalmente, é proposto um novo método de estimação da máscara INM, utilizando um algoritmo de aprendizagem supervisionado das Deep Neural Networks (DNN) com o objetivo de realizar a classificação de unidades T-F obtidas da saída dos bancos de filtros pertencentes a uma mesma fonte de som (ou predominantemente voz ou predominantemente ruído). O desempenho é comparado com as técnicas de máscara tradicionais IBM e IRM, tanto em termos de qualidade objetiva da voz, como através de taxas de erro de palavra. Os resultados das técnicas propostas evidenciam as melhoras obtidas em ambientes ruidosos, com diferenças significativamente superiores às abordagens convencionais. / [en] This thesis presents and examines innovative contributions in frontend of the automatic speech recognition systems (ASR) for enhancement and speech recognition in adverse environments. The first proposal applies a median filter on the probability distribution function of each cepstral coefficient before using a transformation to a distortion-invariant domain, to adapt the corrupted voice to the clean reference environment by modifying histograms. Based on the results of psychophysical studies of the human auditory system, which uses as a principle the fact that sound reaching the ear is subjected to a process called Auditory Scene Analysis (ASA), which examines how the auditory system separates the sound sources that make up the acoustic input, three new approaches independently applied were proposed for enhancement and speech recognition. The first applies the estimation of a new mask in the spectral domain using the short-time Fourier Transform (STFT) concept. The proposed mask applies the Local Binary Pattern (LBP) technique to the Signal-to-Noise Ratio (SNR) of each time-frequency unit (T-F) to estimate an Ideal Neighborhood Mask (INM). Continuing with this approach, the masking using LBP-based wavelet transforms to highlight the temporal spectra of wavelet coefficients at high frequencies is proposed in this thesis. Finally, a new method of estimation of the INM mask is proposed, using a supervised learning algorithm of Deep Neural Network (DNN) to classify the T-F units obtained from the output of the filter banks belonging to a same source of sound (or predominantly voice or predominantly noise). The performance is compared with traditional IBM and IRM mask techniques, both regarding objective voice quality and through word error rates. The results of the proposed methods show the improvements obtained in noisy environments, with differences significantly superior to the conventional approaches. [pt] RECONHECIMENTO DE VOZ [en] SPEECH RECOGNITION [pt] HISTOGRAMAS [en] HISTOGRAMS [pt] ROBUSTEZ [en] ROBUSTNESS [pt] REALCE DE VOZ [en] SPEECH ENHANCEMENT [pt] MASCARA [en] MASK [pt] REDES NEURAIS PROFUNDAS [en] DEEP NEURAL NETWORKS

Search results

[en] ENHANCEMENT OF IMAGES IN THE TRANSFORM DOMAIN / [pt] REALCE DE IMAGENS NO DOMÍNIO DA TRANSFORMADA

[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOS