Global ETD Search

1	[en] ENHANCEMENT AND CONTINUOUS SPEECH RECOGNITION IN ADVERSE ENVIRONMENTS / [pt] REALCE E RECONHECIMENTO DE VOZ CONTÍNUA EM AMBIENTES ADVERSOS CHRISTIAN DAYAN ARCOS GORDILLO 13 June 2018 (has links) [pt] Esta tese apresenta e examina contribuições inovadoras no front-end dos sistemas de reconhecimento automático de voz (RAV) para o realce e reconhecimento de voz em ambientes adversos. A primeira proposta consiste em aplicar um filtro de mediana sobre a função de distribuição de probabilidade de cada coeficiente cepstral antes de utilizar uma transformação para um domínio invariante às distorções, com o objetivo de adaptar a voz ruidosa ao ambiente limpo de referência através da modificação de histogramas. Fundamentadas nos resultados de estudos psicofísicos do sistema auditivo humano, que utiliza como princípio o fato de que o som que atinge o ouvido é sujeito a um processo chamado Análise de Cena Auditiva (ASA), o qual examina como o sistema auditivo separa as fontes de som que compõem a entrada acústica, três novas abordagens aplicadas independentemente foram propostas para realce e reconhecimento de voz. A primeira aplica a estimativa de uma nova máscara no domínio espectral usando o conceito da transformada de Fourier de tempo curto (STFT). A máscara proposta aplica a técnica Local Binary Pattern (LBP) à relação sinal ruído (SNR) de cada unidade de tempo-frequência (T-F) para estimar uma máscara de vizinhança ideal (INM). Continuando com essa abordagem, propõe-se em seguida nesta tese o mascaramento usando as transformadas wavelet com base nos LBP para realçar os espectros temporais dos coeficientes wavelet nas altas frequências. Finalmente, é proposto um novo método de estimação da máscara INM, utilizando um algoritmo de aprendizagem supervisionado das Deep Neural Networks (DNN) com o objetivo de realizar a classificação de unidades T-F obtidas da saída dos bancos de filtros pertencentes a uma mesma fonte de som (ou predominantemente voz ou predominantemente ruído). O desempenho é comparado com as técnicas de máscara tradicionais IBM e IRM, tanto em termos de qualidade objetiva da voz, como através de taxas de erro de palavra. Os resultados das técnicas propostas evidenciam as melhoras obtidas em ambientes ruidosos, com diferenças significativamente superiores às abordagens convencionais. / [en] This thesis presents and examines innovative contributions in frontend of the automatic speech recognition systems (ASR) for enhancement and speech recognition in adverse environments. The first proposal applies a median filter on the probability distribution function of each cepstral coefficient before using a transformation to a distortion-invariant domain, to adapt the corrupted voice to the clean reference environment by modifying histograms. Based on the results of psychophysical studies of the human auditory system, which uses as a principle the fact that sound reaching the ear is subjected to a process called Auditory Scene Analysis (ASA), which examines how the auditory system separates the sound sources that make up the acoustic input, three new approaches independently applied were proposed for enhancement and speech recognition. The first applies the estimation of a new mask in the spectral domain using the short-time Fourier Transform (STFT) concept. The proposed mask applies the Local Binary Pattern (LBP) technique to the Signal-to-Noise Ratio (SNR) of each time-frequency unit (T-F) to estimate an Ideal Neighborhood Mask (INM). Continuing with this approach, the masking using LBP-based wavelet transforms to highlight the temporal spectra of wavelet coefficients at high frequencies is proposed in this thesis. Finally, a new method of estimation of the INM mask is proposed, using a supervised learning algorithm of Deep Neural Network (DNN) to classify the T-F units obtained from the output of the filter banks belonging to a same source of sound (or predominantly voice or predominantly noise). The performance is compared with traditional IBM and IRM mask techniques, both regarding objective voice quality and through word error rates. The results of the proposed methods show the improvements obtained in noisy environments, with differences significantly superior to the conventional approaches. [pt] RECONHECIMENTO DE VOZ [en] SPEECH RECOGNITION [pt] HISTOGRAMAS [en] HISTOGRAMS [pt] ROBUSTEZ [en] ROBUSTNESS [pt] REALCE DE VOZ [en] SPEECH ENHANCEMENT [pt] MASCARA [en] MASK [pt] REDES NEURAIS PROFUNDAS [en] DEEP NEURAL NETWORKS
2	[pt] ENGENHARIA DE RECURSOS PARA LIDAR COM DADOS RUIDOSOS NA IDENTIFICAÇÃO ESPARSA SOB AS PERSPECTIVAS DE CLASSIFICAÇÃO E REGRESSÃO / [en] FEATURE ENGINEERING TO DEAL WITH NOISY DATA IN SPARSE IDENTIFICATION THROUGH CLASSIFICATION AND REGRESSION PERSPECTIVES THAYNA DA SILVA FRANCA 15 July 2021 (has links) [pt] Os sistemas dinâmicos desempenham um papel crucial no que diz respeito à compreensão de fenômenos inerentes a diversos campos da ciência. Desde a última década, todo aporte tecnológico alcançado ao longo de anos de investigação deram origem a uma estratégia orientada a dados, permitindo a inferência de modelos capazes de representar sistemas dinâmicos. Além disso, independentemente dos tipos de sensores adotados a fim de realizar o procedimento de aquisição de dados, é natural verificar a existência de uma certa corrupção ruidosa nos referidos dados. Genericamente, a tarefa de identificação é diretamente afetada pelo cenário ruidoso previamente descrito, implicando na falsa descoberta de um modelo generalizável. Em outras palavras, a corrupção ao ruído pode ser responsável pela geração de uma representação matemática infiel de um determinado sistema. Nesta tese, no que diz respeito à tarefa de identificação, é demonstrado como a robustez ao ruído pode ser melhorada a partir da hibridização de técnicas de aprendizado de máquina, como aumento de dados, regressão esparsa, seleção de características, extração de características, critério de informação, pesquisa em grade e validação cruzada. Especificamente, sob as perspectivas de classificação e regressão, o sucesso da estratégia proposta é apresentado a partir de exemplos numéricos, como o crescimento logístico, oscilador Duffing, modelo FitzHugh-Nagumo, atrator de Lorenz e uma modelagem Suscetível-Infeccioso-Recuperado (SIR) do Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). / [en] The dynamical systems play a fundamental role related to the understanding of the phenomena inherent to several fields of science. Since the last decade, all technological advances achieved throughout years of research have given rise to a data oriented strategy, enabling the inference of dynamical systems. Moreover, regardless the sensor types adopted to perform the data acquisition procedure, it is natural to verify the existence of a certain noise corruption in such data. Generically, the identification task is directly affected by the noisy scenario previously described, which entails in the false discovery of a generalizable model. In other words, the noise corruption might be responsible to give rise to a worthless mathematical representation of a given system. In this thesis, with respect to the identification assignment, it is demonstrated how the robustness to noise may be improved from the hybridization of machine learning techniques, such as data augmentation, sparse regression, feature selection, feature extraction, information criteria, grid search and cross validation. Specifically, through classification and regression perspectives, the success of the proposed strategy is presented from numerical examples, such as the logistic growth, Duffing oscillator, FitzHugh–Nagumo model, Lorenz attractor and a Susceptible-Infectious-Recovered (SIR) modeling of Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2). [pt] ROBUSTEZ AO RUIDO [pt] PESQUISA EM GRADE [pt] ENGENHARIA DE RECURSOS [pt] CORRUPCAO RUIDOSA [pt] IDENTIFICACAO ESPARSA [en] NOISE ROBUSTNESS [en] GRID SEARCH [en] FEATURE ENGINEERING [en] NOISY CORRUPTION [en] SPARSE IDENTIFICATION
3	[en] CONTINUOUS SPEECH RECOGNITION BY COMBINING MFCC AND PNCC ATTRIBUTES WITH SS, WD, MAP AND FRN METHODS OF ROBUSTNESS / [pt] RECONHECIMENTO DE VOZ CONTINUA COMBINANDO OS ATRIBUTOS MFCC E PNCC COM METODOS DE ROBUSTEZ SS, WD, MAP E FRN CHRISTIAN DAYAN ARCOS GORDILLO 09 June 2014 (has links) [pt] O crescente interesse por imitar o modelo que rege o processo cotidiano de comunicação humana através de maquinas tem se convertido em uma das áreas do conhecimento mais pesquisadas e de grande importância nas ultimas décadas. Esta área da tecnologia, conhecida como reconhecimento de voz, em como principal desafio desenvolver sistemas robustos que diminuam o ruído aditivo dos ambientes de onde o sinal de voz é adquirido, antes de que se esse sinal alimente os reconhecedores de voz. Por esta razão, este trabalho apresenta quatro formas diferentes de melhorar o desempenho do reconhecimento de voz contınua na presença de ruído aditivo, a saber: Wavelet Denoising e Subtração Espectral, para realce de fala e Mapeamento de Histogramas e Filtro com Redes Neurais, para compensação de atributos. Esses métodos são aplicados isoladamente e simultaneamente, afim de minimizar os desajustes causados pela inserção de ruído no sinal de voz. Alem dos métodos de robustez propostos, e devido ao fato de que os e conhecedores de voz dependem basicamente dos atributos de voz utilizados, examinam-se dois algoritmos de extração de atributos, MFCC e PNCC, através dos quais se representa o sinal de voz como uma sequência de vetores que contêm informação espectral de curtos períodos de tempo. Os métodos considerados são avaliados através de experimentos usando os software HTK e Matlab, e as bases de dados TIMIT (de vozes) e NOISEX-92 (de ruído). Finalmente, para obter os resultados experimentais, realizam-se dois tipos de testes. No primeiro caso, é avaliado um sistema de referência baseado unicamente em atributos MFCC e PNCC, mostrando como o sinal é fortemente degradado quando as razões sinal-ruıdo são menores. No segundo caso, o sistema de referência é combinado com os métodos de robustez aqui propostos, analisando-se comparativamente os resultados dos métodos quando agem isolada e simultaneamente. Constata-se que a mistura simultânea dos métodos nem sempre é mais atraente. Porem, em geral o melhor resultado é obtido combinando-se MAP com atributos PNCC. / [en] The increasing interest in imitating the model that controls the daily process of human communication trough machines has become one of the most researched areas of knowledge and of great importance in recent decades. This technological area known as voice recognition has as a main challenge to develop robust systems that reduce the noisy additive environment where the signal voice was acquired. For this reason, this work presents four different ways to improve the performance of continuous speech recognition in presence of additive noise, known as Wavelet Denoising and Spectral Subtraction for enhancement of voice, and Mapping of Histograms and Filter with Neural Networks to compensate for attributes. These methods are applied separately and simultaneously two by two, in order to minimize the imbalances caused by the inclusion of noise in voice signal. In addition to the proposed methods of robustness and due to the fact that voice recognizers depend mainly on the attributes voice used, two algorithms are examined for extracting attributes, MFCC, and PNCC, through which represents the voice signal as a sequence of vectors that contain spectral information for short periods of time. The considered methods are evaluated by experiments using the HTK and Matlab software, and databases of TIMIT (voice) and Noisex-92 (noise). Finally, for the experimental results, two types of tests were carried out. In the first case a reference system was assessed based on MFCC and PNCC attributes, only showing how the signal degrades strongly when signal-noise ratios are higher. In the second case, the reference system is combined with robustness methods proposed here, comparatively analyzing the results of the methods when they act alone and simultaneously. It is noted that simultaneous mix of methods is not always more attractive. However, in general, the best result is achieved by the combination of MAP with PNCC attributes. [pt] REDES NEURAIS [en] NEURAL NETWORKS [pt] ATRIBUTOS [en] ATTRIBUTES [pt] SUBTRACAO ESPECTRAL [en] SPECTRAL SUBTRACTION [pt] RECONHECIMENTO DE VOZ [en] SPEECH RECOGNITION [pt] WAVELET DENOISING [en] WAVELET DENOISING [pt] REALCE [en] ENHANCEMENT [pt] SINAIS [en] SIGNALS [pt] ROBUSTEZ [en] ROBUSTNESS [pt] COMPENSACAO [en] ENHACEMENT [pt] MAPEAMENTO DE HISTOGRAMAS [en] HISTOGRAM MAPPING [pt] MFCC [en] MFCC [pt] PNCC [en] PNCC
4	[pt] DIMENSIONAMENTO DE UMA ESTOCAGEM DE GÁS NATURAL SOB INCERTEZA DE DEMANDA E PREÇO DE GNL / [en] SIZING OF A NATURAL GAS STORAGE UNDER DEMAND AND PRICE UNCERTAINTY LILIAN ALVES MARTINS 26 February 2019 (has links) [pt] No Brasil, a demanda de gás natural possui um comportamento estocástico devido ao consumo das usinas termelétricas, as quais operam em regime de complementariedade ao sistema hidrelétrico. O suprimento de gás natural para estas usinas depende em grande parte do fornecimento de Gás Natural Liquefeito (GNL) spot, importado através de navios metaneiros. Em função do tempo de trânsito dos navios, as compras de GNL devem ocorrer com antecedência em relação ao despacho hidrotérmico. Este descasamento de tempo incentiva a utilização de mecanismos de compatibilização da dinâmica do setor elétrico com a dinâmica da cadeia do gás natural. Uma possibilidade de aumentar a sinergia entre estes domínios é utilizar uma estocagem de gás natural para inserir flexibilidade no sistema. A viabilidade da estocagem dependerá do preço do gás e da demanda ao longo do horizonte de análise. O objetivo deste trabalho é a construção de um modelo de programação linear para dimensionar a capacidade de uma estocagem de gás natural sob incerteza de demanda e de preço de GNL. O modelo apresentado é um híbrido de otimização estocástica, construído para considerar a incerteza do consumo de gás, com otimização robusta, construído para levar em conta a incerteza relacionada aos preços do GNL. O modelo caracteriza o perfil de risco do supridor de gás natural pela utilização do Conditional Value-at-Risk (CVaR) e utiliza um critério de segurança que reproduz um processo de suprimento avesso a risco de déficit. Ao final do trabalho é apresentado um estudo de caso hipotético, utilizando dados públicos do setor elétrico e de gás natural, para avaliar a implantação da estocagem para 2.000 cenários de demanda e patamares distintos de robustez à variação do preço do GNL. / [en] In Brazil, natural gas demand has stochastic behavior since gas-fired power plants operate in conjunction with the hydroelectric system. Natural gas supply to these plants relies upon Liquefied Natural Gas (LNG), imported through cryogenic ships. LNG acquisitions must occur before the natural gas demand is known because of the time of displacement of the ships. This lack of synchronism stimulates the use of harmonizing mechanisms between the electric sector and the natural gas sector. In this context, natural gas storage could be used to introduce flexibility into the system and increase synergy between natural gas supply and demand dynamics. However, the economic performance of the storage will depend on actual gas prices and demand behavior during the period of analysis. This study aims to construct a linear programming model to determine the size of a natural gas storage under demand and LNG price uncertainty. The model is a hybrid of a stochastic optimization algorithm – developed to consider gas demand uncertainty – and a robust optimization algorithm – built to take into account LNG price uncertainty. A convex combination between Conditional Value-at-Risk (CVaR) and expected value is also used to indicate the supplier risk profile as well as a security criterion, introduced to represent a deficit-averse supply process. At the end, a hypothetic case is presented to evaluate the implementation of a natural gas storage. The case presented uses public data from the Brazilian electric and gas natural sectors and considers 2.000 demand scenarios and various levels of robustness to LNG price variation. [pt] MODELO [en] MODEL [pt] LOGISTICA [en] LOGISTICS [pt] PLANEJAMENTO [en] PLANNING [pt] RISCO [en] RISK [pt] DEMANDA [en] DEMAND [pt] GAS NATURAL [en] NATURAL GAS [pt] OTIMIZACAO [en] OPTIMIZATION [pt] INCERTEZA [en] UNCERTAINTY [pt] SUPRIMENTO [en] PROCUREMENT [pt] DECISAO SOB INCERTEZA [en] DECISION UNDER UNCERTAINTY [pt] CVAR [en] CVAR [pt] ROBUSTEZ [en] ROBUSTNESS [pt] GNL [en] LNG [pt] USINA TERMOELETRICA [en] THERMOELECTRIC PLANT [pt] ESTOCAGEM [en] STORAGE [pt] ESTOCASTICA [en] STOCHASTIC [pt] ROBUSTA [en] ROBUST

1

Page generated in 0.0325 seconds