1 |
[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOSCHRISTIAN DAYAN ARCOS GORDILLO 13 June 2018 (has links)
[pt] Esta tese apresenta e examina contribuições inovadoras no front-end dos sistemas de reconhecimento automático de voz (RAV) para o realce e reconhecimento de voz em ambientes adversos. A primeira proposta consiste em aplicar um filtro de mediana sobre a função de distribuição de probabilidade de cada coeficiente cepstral antes de utilizar uma transformação para um domínio invariante às distorções, com o objetivo de adaptar a voz ruidosa ao ambiente limpo de referência através da modificação de histogramas. Fundamentadas nos resultados de estudos psicofísicos do sistema auditivo humano, que utiliza como princípio o fato de que o som que atinge o ouvido é sujeito a um processo chamado Análise de Cena Auditiva (ASA), o qual examina como o sistema auditivo separa as fontes de som que compõem a entrada acústica, três novas abordagens aplicadas independentemente foram propostas para realce e reconhecimento de voz. A primeira aplica a estimativa de uma nova máscara no domínio espectral usando o conceito da transformada de Fourier de tempo curto (STFT). A máscara proposta aplica a técnica Local Binary Pattern (LBP) à relação sinal ruído (SNR) de cada unidade de tempo-frequência (T-F) para estimar
uma máscara de vizinhança ideal (INM). Continuando com essa abordagem, propõe-se em seguida nesta tese o mascaramento usando as transformadas wavelet com base nos LBP para realçar os espectros temporais dos coeficientes wavelet nas altas frequências. Finalmente, é proposto um novo método de estimação da máscara INM, utilizando um algoritmo de aprendizagem supervisionado das Deep Neural Networks (DNN) com o objetivo de realizar a classificação de unidades T-F obtidas da saída dos bancos de
filtros pertencentes a uma mesma fonte de som (ou predominantemente voz ou predominantemente ruído). O desempenho é comparado com as técnicas de máscara tradicionais IBM e IRM, tanto em termos de qualidade objetiva da voz, como através de taxas de erro de palavra. Os resultados das técnicas
propostas evidenciam as melhoras obtidas em ambientes ruidosos, com diferenças significativamente superiores às abordagens convencionais. / [en] This thesis presents and examines innovative contributions in frontend of the automatic speech recognition systems (ASR) for enhancement and speech recognition in adverse environments. The first proposal applies
a median filter on the probability distribution function of each cepstral coefficient before using a transformation to a distortion-invariant domain, to adapt the corrupted voice to the clean reference environment by modifying histograms. Based on the results of psychophysical studies of the human
auditory system, which uses as a principle the fact that sound reaching the ear is subjected to a process called Auditory Scene Analysis (ASA), which examines how the auditory system separates the sound sources that make up the acoustic input, three new approaches independently applied were proposed for enhancement and speech recognition. The first applies the estimation of a new mask in the spectral domain using the short-time Fourier Transform (STFT) concept. The proposed mask applies the Local Binary Pattern (LBP) technique to the Signal-to-Noise Ratio (SNR) of each time-frequency unit (T-F) to estimate an Ideal Neighborhood Mask (INM). Continuing with this approach, the masking using LBP-based wavelet
transforms to highlight the temporal spectra of wavelet coefficients at high frequencies is proposed in this thesis. Finally, a new method of estimation of the INM mask is proposed, using a supervised learning algorithm of Deep Neural Network (DNN) to classify the T-F units obtained from the output of
the filter banks belonging to a same source of sound (or predominantly voice or predominantly noise). The performance is compared with traditional IBM and IRM mask techniques, both regarding objective voice quality and through word error rates. The results of the proposed methods show the improvements obtained in noisy environments, with differences significantly superior to the conventional approaches.
|
2 |
[en] METALLIC NANOSTRUCTURE FABRICATION BY AFM LITHOGRAPHY / [pt] FABRICAÇÃO DE NANOESTRUTURAS CONDUTORAS POR AFMHENRIQUE DUARTE DA FONSECA FILHO 14 March 2005 (has links)
[pt] Nesta dissertação de mestrado, nós desenvolvemos um
processo de
litografia baseado na técnica de microscopia de força
atômica. O estudo do
processo de litografia aqui utilizado inicia-se com a
deposição e caracterização de
filmes finos de sulfeto de arsênio amorfo (a-As2S3) em
substratos de silício e a
deposição de uma camada metálica de alumínio, utilizada
como máscara, sobre a
superfície do a-As2S3. O microscópio de força atômica é
utilizado para escrever os
padrões de forma controlada na camada metálica, e para
tal, a influencia dos
parâmetros de controle do microscópio na realização da
litografia foi analisada.
Para a transferência do padrão litografado realiza-se um
posterior processo de
fotossensibilização e dissolução química do a-As2S3 com
uma solução de K2CO3.
Após a dissolução, uma camada de ouro foi depositada por
erosão catódica DC,
seguido de uma nova dissolução, desta vez com NaOH
resultando na transferência
de nanoestruturas de Au para o substrato de silício. / [en] In this dissertation, we have developed a lithography
process based on the
atomic force microscopy of technique. The study of the
lithography process starts
with the deposition and characterization of amorphous
arsenic sulfide thin films
(a-As2S3) in silicon substrates and the deposition of a
metallic aluminum layer,
used as mask, on the surface of the a-As2S3. An atomic
force microscope was used
to write patterns in a controlled way on the metallic
layer. Therefore, the influence
of microscope feedback system on the accomplishment of the
lithography was
analyzed. In order to transfer the lithographed pattern to
a silicon substrate, the a-
As2S3 was exposed to a UV light source and was dissolved
with a K2CO3 solution.
Then, a thin gold layer was deposited by sputtering DC,
and a new dissolution,
now with NaOH was performed, leading to the deposition of
Au nanostructures
onto the silicon substrate.
|
Page generated in 0.1985 seconds