• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 21
  • 18
  • 1
  • Tagged with
  • 40
  • 40
  • 39
  • 38
  • 28
  • 20
  • 17
  • 16
  • 16
  • 10
  • 10
  • 10
  • 8
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Deep active learning using Monte Carlo Dropout / Aprendizado ativo profundo usando Monte Carlo Dropout

Moura, Lucas Albuquerque Medeiros de 14 November 2018 (has links)
Deep Learning models rely on a huge amount of labeled data to be created. However, there are a number of areas where labeling data is a costly process, making Deep Learning approaches unfeasible. One way to handle that situation is by using the Active Learning technique. Initially, it creates a model with the available labeled data. After that, it incrementally chooses new unlabeled data that will potentially increase the model accuracy, if added to the training data. To select which data will be labeled next, this technique requires a measurement of uncertainty from the model prediction, which is usually not computed for Deep Learning methods. A new approach has been proposed to measure uncertainty in those models, called Monte Carlo Dropout . This technique allowed Active Learning to be used together with Deep Learning for image classification. This research will evaluate if modeling uncertainty on Deep Learning models with Monte Carlo Dropout will make the use of Active Learning feasible for the task of sentiment analysis, an area with huge amount of data, but few of them labeled. / Modelos de Aprendizado Profundo necessitam de uma vasta quantidade de dados anotados para serem criados. Entretanto, existem muitas áreas onde obter dados anotados é uma tarefa custosa. Neste cenário, o uso de Aprendizado Profundo se torna bastante difícil. Uma maneira de lidar com essa situação é usando a técnica de Aprendizado Ativo. Inicialmente, essa técnica cria um modelo com os dados anotados disponíveis. Depois disso, ela incrementalmente escolhe dados não anotados que irão, potencialmente, melhorar à acurácia do modelo, se adicionados aos dados de treinamento. Para selecionar quais dados serão anotados, essa técnica necessita de uma medida de incerteza sobre as predições geradas pelo modelo. Entretanto, tal medida não é usualmente realizada em modelos de Aprendizado Profundo. Uma nova técnica foi proposta para lidar com a problemática de medir a incerteza desses modelos, chamada de Monte Carlo Dropout . Essa técnica permitiu o uso de Aprendizado Ativo junto com Aprendizado Profundo para tarefa de classificação de imagens. Essa pesquisa visa averiguar se ao modelarmos a incerteza em modelos de Aprendizado Profundo com a técnica de Monte Carlo Dropout , será possível usar a técnica de Aprendizado Ativo para tarefa de análise de sentimento, uma área com uma vasta quantidade de dados, mas poucos deles anotados.
2

Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetos

SILVA JÚNIOR, Marcondes Ricarte da 30 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:45:41Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) / Made available in DSpace on 2017-08-31T12:45:41Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) Previous issue date: 2016-08-30 / CAPES / Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se locomover usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos conceituais dos lugares através de sensores, em geral, câmeras. Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes no ambiente. Os objetos são importantes descritores de informação para ambientes fechados. Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de objetos contidos nele seja esparsa. Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionalidade e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendizagem Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsidade dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos propostos demonstraram ser superiores à literatura quando o número de categorias das bases de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de acerto caem mais lentamente. / Mobile Robots are currently included in modern society routine in which they may move around often using "cartographic coordinates". However, in order to improve human-robot interaction and navigation of the robots in the environment, they can have the ability to create a Semantic Map by Categorization of Places. The computing area of study that searches to replicate the human ability to learn, identify and infer conceptual labels for places through sensor data, in general, cameras is the Place Categorization. These methods aim to categorize places based on existing objects in the environment which constitute important information descriptors for indoors. Thus, each image can be represented by the frequency of the objects present in a particular place. However, the number of all possible types of objects is high and the places do have few of them, hence, the vector representation of the objects in a place is usually sparse. The methods proposed by this dissertation have two stages: Dimensionality reduction and categorization. The first stage relies on Signal Compression concepts, Deep Learning and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies for dimensionality reduction and minimization of data sparsity. The second stage employs Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two proposed methods and compared with the Bayesian filter previously proposed in the literature. The experiments were performed with four different databases ranging considering different number of samples and categories. The accuracy of the proposed methods was higher than the previous models when the number of categories of the database is high. The results for the Bayesian filter tends to degrade with higher number of categories, so do the proposed methods, however, in a slower rate.
3

Estimação monocular de profundidade por aprendizagem profunda para veículos autônomos: influência da esparsidade dos mapas de profundidade no treinamento supervisionado / Monocular depth estimation by deep learning for autonomous vehicles: influence of depth maps sparsity in supervised training

Rosa, Nícolas dos Santos 24 June 2019 (has links)
Este trabalho aborda o problema da estimação de profundidade a partir de imagens monoculares (SIDE), com foco em melhorar a qualidade das predições de redes neurais profundas. Em um cenário de aprendizado supervisionado, a qualidade das predições está intrinsecamente relacionada aos rótulos de treinamento, que orientam o processo de otimização. Para cenas internas, sensores de profundidade baseados em escaneamento por luz estruturada (Ex.: Kinect) são capazes de fornecer mapas de profundidade densos, embora de curto alcance. Enquanto que para cenas externas, consideram-se LiDARs como sensor de referência, que comparativamente fornece medições mais esparsas, especialmente em regiões mais distantes. Em vez de modificar a arquitetura de redes neurais para lidar com mapas de profundidade esparsa, este trabalho introduz um novo método de densificação para mapas de profundidade, usando o framework de Mapas de Hilbert. Um mapa de ocupação contínuo é produzido com base nos pontos 3D das varreduras do LiDAR, e a superfície reconstruída resultante é projetada em um mapa de profundidade 2D com resolução arbitrária. Experimentos conduzidos com diferentes subconjuntos do conjunto de dados do KITTI mostram uma melhora significativa produzida pela técnica proposta (esparso-para-contínuo), sem necessitar inserir informações extras durante a etapa de treinamento. / This work addresses the problem of single image depth estimation (SIDE), focusing on improving the quality of deep neural network predictions. In a supervised learning scenario, the quality of predictions is intrinsically related to the training labels, which guide the optimization process. For indoor scenes, structured-light-based depth sensors (e.g. Kinect) are able to provide dense, albeit short-range, depth maps. While for outdoor scenes, LiDARs are considered the standard sensor, which comparatively provide much sparser measurements, especially in areas further away. Rather than modifying the neural network architecture to deal with sparse depth maps, this work introduces a novel densification method for depth maps using the Hilbert Maps framework. A continuous occupancy map is produced based on 3D points from LiDAR scans, and the resulting reconstructed surface is projected into a 2D depth map with arbitrary resolution. Experiments conducted with various subsets of the KITTI dataset show a significant improvement produced by the proposed Sparse-to-Continuous technique, without the introduction of extra information into the training stage.
4

Optical character recognition using deep learning / Reconhecimento óptico de caracteres usando aprendizado profundo

Santos, Claudio Filipi Gonçalves dos 26 April 2018 (has links)
Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-24T11:51:59Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 8334356 bytes, checksum: 8dd05363a96c946ae1f6d665edc80d09 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Problema 02) Corrigir a ordem das páginas pré-textuais; a ordem correta (capa, folha de rosto, dedicatória, agradecimentos, epígrafe, resumo na língua vernácula, resumo em língua estrangeira, listas de ilustrações, de tabelas, de abreviaturas, de siglas e de símbolos e sumário). Problema 03) Faltam as palavras-chave no resumo e no abstracts. Na página da Seção de pós-graduação, em Instruções para Qualificação e Defesas de Dissertação e Tese, você pode acessar o modelo das páginas pré-textuais. Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão. on 2018-05-24T20:59:53Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T00:43:19Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 11084990 bytes, checksum: 6f8d7431cd17efd931a31c0eade10c65 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Problema 02) A paginação deve ser sequencial, iniciando a contagem na folha de rosto e mostrando o número a partir da introdução, a ficha catalográfica ficará após a folha de rosto e não deverá ser contada. Problema 03) Na descrição do item: Título em outro idioma – Se você colocou no título em inglês deve por neste campo o título em outro idioma (ex: português, espanhol, francês...) Estamos encaminhando via e-mail o template/modelo para que você possa fazer as correções. Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente. Agradecemos a compreensão. on 2018-05-25T15:22:45Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T15:52:53Z No. of bitstreams: 1 optical-character-recognition-16052018.pdf: 11089966 bytes, checksum: d6c863077a995bd2519035b8a3e97c80 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo: Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724) Agradecemos a compreensão. on 2018-05-25T18:03:19Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T18:08:09Z No. of bitstreams: 1 Claudio Filipi Gonçalves dos Santos Corrigido Biblioteca.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-05-25T18:51:24Z (GMT) No. of bitstreams: 1 santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Made available in DSpace on 2018-05-25T18:51:24Z (GMT). No. of bitstreams: 1 santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Detectores óticos de caracteres, ou Optical Character Recognition (OCR) é o nome dado à técnologia de traduzir dados de imagens em arquivo de texto. O objetivo desse projeto é usar aprendizagem profunda, também conhecido por aprendizado hierárquico ou Deep Learning para o desenvolvimento de uma aplicação com a habilidade de detectar áreas candidatas, segmentar esses espaços dan imagem e gerar o texto contido na figura. Desde 2006, Deep Learning emergiu como uma nova área em aprendizagem de máquina. Em tempos recentes, as técnicas desenvolvidas em pesquisas com Deep Learning têm influenciado e expandido escopo, incluindo aspectos chaves nas área de inteligência artificial e aprendizagem de máquina. Um profundo estudo foi conduzido com a intenção de desenvolver um sistema OCR usando apenas arquiteturas de Deep Learning.A evolução dessas técnicas, alguns trabalhos passados e como esses trabalhos influenciaram o desenvolvimento dessa estrutura são explicados nesse texto. Essa tese demonstra com resultados como um classificador de caracteres foi desenvolvido. Em seguida é explicado como uma rede neural pode ser desenvolvida para ser usada como um detector de objetos e como ele pode ser transformado em um detector de texto. Logo após é demonstrado como duas técnicas diferentes de Deep Learning podem ser combinadas e usadas na tarefa de transformar segmentos de imagens em uma sequência de caracteres. Finalmente é demonstrado como o detector de texto e o sistema transformador de imagem em texto podem ser combinados para se desenvolver um sistema OCR completo que detecta regiões de texto nas imagens e o que está escrito nessa região. Esse estudo demonstra que a idéia de usar apenas estruturas de Deep Learning podem ter performance melhores do técnicas baseadas em outras áreas da computação como por exemplo o processamento de imagens. Para detecção de texto foi alcançado mais de 70% de precisão quando uma arquitetura mais complexa foi usada, por volta de 69% de traduções de imagens para texto corretas e por volta de 50% na tarefa ponta-à-ponta de detectar as áreas de texto e traduzi-las em sequência de caracteres. / Optical Character Recognition (OCR) is the name given to the technology used to translate image data into a text file. The objective of this project is to use Deep Learning techniques to develop a software with the ability to segment images, detecting candidate characters and generating textthatisinthepicture. Since2006,DeepLearningorhierarchicallearning, emerged as a new machine learning area. Over recent years, the techniques developed from deep learning research have influenced and expanded scope, including key aspects of artificial intelligence and machine learning. A thorough study was carried out in order to develop an OCR system using only Deep Learning architectures. It is explained the evolution of these techniques, some past works and how they influenced thisframework’sdevelopment. Inthisthesisitisdemonstratedwithresults how a single character classifier was developed. Then it is explained how a neural network can be developed to be an object detector and how to transform this object detector into a text detector. After that it shows how a set of two Deep Learning techniques can be combined and used in the taskoftransformingacroppedregionofanimageinastringofcharacters. Finally, it demonstrates how the text detector and the Image-to-Text systemswerecombinedinordertodevelopafullend-to-endOCRsystemthat detects the regions of a given image containing text and what is written in this region. It shows the idea of using only Deep Learning structures can outperform other techniques based on other areas like image processing. In text detection it reached over 70% of precision when a more complex architecture was used, around 69% of correct translation of image-to-text areasandaround50%onend-to-endtaskofdetectingareasandtranslating them into text. / 1623685
5

[en] A CLUSTER-BASED METHOD FOR ACTION SEGMENTATION USING SPATIO-TEMPORAL AND POSITIONAL ENCODED EMBEDDINGS / [pt] MÉTODO BASEADO EM AGRUPAMENTO PARA A SEGMENTAÇÃO DE AÇÕES UTILIZANDO EMBEDDINGS ESPAÇO-TEMPORAIS E COM CODIFICAÇÃO POSICIONAL

GUILHERME DE AZEVEDO P MARQUES 20 April 2023 (has links)
[pt] Vídeos se tornaram a principal mídia para a comunicação, com um volume massivo de dados criado a cada segundo. Conseguir entender essa quantidade de dados de forma automática se tornou importante e, por conseguinte, métodos de video understanding são cada vez mais necessários. Uma tarefa crucial para o entendimento de vídeos é a classificação e localização no tempo de diferentes ações. Para isso, a segmentação de ações precisa ser realizada. Segmentação de ações é a tarefa que consiste em segmentar temporalmente um vídeo, classificando cada quadro com alguma ação. Neste trabalho, é proposto um método de segmentação de ações que não requer análise prévia do vídeo e nenhum dado anotado. O método envolve a extração de embeddings espaço-temporais dos vídeos com redes de aprendizado profundo pré-treinadas, seguida por uma transformação realizada por um codificador posicional e pela aplicação de um algoritmo de grupamento em que cada cluster gerado corresponde a uma ação diferente. Os experimentos realizados demonstram que o método produz resultados competitivos nos conjuntos de dados Breakfast e Inria Instructional Videos. / [en] The rise of video content as the main media for communication has been creating massive volumes of video data every second. The ability of understanding this huge quantities of data automatically has become increasingly important, therefore better video understanding methods are needed. A crucial task to overall video understanding is the recognition and localisation in time of dierent actions. To address this problem, action segmentation must be achieved. Action segmentation consists of temporally segmenting a video by labeling each frame with a specific action. In this work, we propose a novel action segmentation method that requires no prior video analysis and no annotated data. Our method involves extracting spatio-temporal features from videos using a pre-trained deep network. Data is then transformed using a positional encoder, and finally a clustering algorithm is applied where each cluster presumably corresponds to a dierent single and distinguishable action. In experiments, we show that our method produces competitive results on the Breakfast and Inria Instructional Videos dataset benchmarks.
6

[en] DEEP PHYSICS-DRIVEN STOCHASTIC SEISMIC INVERSION / [pt] INVERSÃO SÍSMICA ESTOCÁSTICA COM APRENDIZADO PROFUNDO ORIENTADO À FÍSICA

PAULA YAMADA BURKLE 28 August 2023 (has links)
[pt] A inversão sísmica é uma etapa essencial na modelagem e caracterização de reservatórios que permite a estimativa de propriedades da subsuperfície a partir dos dados de reflexão sísmica. os métodos convencionais usualmente possuem um alto custo computacional ou apresentam problemas relativos à não-linearidade e à forte ambiguidade do modelo de inversão sísmica. Recentemente, com a generalizaçãodo aprendizado de máquina na geofísica, novos métodos de inversão sísmica surgiram baseados nas técnicas de aprendizado profundo. Entretanto, a aplicação prática desses métodos é limitada devido a ausência de uma abordagem probabilística capaz de lidar com as incertezas inerentes ao problema da inversão sísmica e/ou a necessidade de dados de treinamento completos e representativos. Para superar essas limitações, um novo método é proposto para inverter dados de reflexão sísmica diretamente para modelos da subsuperfície de alta resolução. O método proposto explora a capacidade das redes neurais convolucionais em extrair representações significativas e complexas de dados espacialmente estruturados, combinada à simulação estocástica geoestatística. Em abordagem auto-supervisionada, modelos físicos são incorporados no sistema de inversão com o objetivo de potencializar o uso das medições indiretas e imprecisas, mas amplamente distribuídas do método sísmico. As realizações geradas com simulação geoestatística fornecem informações adicionais com maior resolução espacial do que a originalmente encontrada nos dados sísmicos. Quando utilizadas como entrada do sistema de inversão, elas permitem a geração de múltiplos modelos alternativos da subsuperfície. Em resumo, o método proposto é capaz de: (1) quantificar as incertezas das previsões, (2) modelar a relação complexa e não-linear entre os dados observados e o modelo da subsuperfície, (3) estender a largura de banda sísmica nas extremidades baixa e alta do espectro de parâmetros de frequência, e (4) diminuir a necessidade de dados de treinamento anotados. A metodologia proposta é inicialmente descrita no domínio acústico para inverter modelos de impedância acústica a partir de dados sísmicos pós-empilhados. Em seguida, a metodologia é generalizada para o domínio elástico para inverter a partir de dados sísmicos pré-empilhados modelos de velocidade da onda P, da velocidade da onda S e de densidade. Em seguida, a metodologia proposta é estendida para a inversão sísmica petrofísica em um fluxo de trabalho simultâneo. O método foi validado em um caso sintético e aplicado com sucesso a um caso tridimensional de um reservatório brasileiro real. Os modelos invertidos são comparados àqueles obtidos a partir de uma inversão sísmica geoestatística iterativa. A metodologia proposta permite obter modelos similares, mas tem a vantagem de gerar soluções alternativas em maior número, permitindo explorar de forma mais efetiva o espaço de parâmetros do modelo quando comparada à inversão sísmica geoestatística iterativa. / [en] Seismic inversion allows the prediction of subsurface properties from seismic reflection data and is a key step in reservoir modeling and characterization. Traditional seismic inversion methods usually come with a high computational cost or suffer from issues concerning the non-linearity and the strong non-uniqueness of the seismic inversion model. With the generalization of machine learning in geophysics, deep learning methods have been proposed as efficient seismic inversion methods. However, most of them lack a probabilistic approach to deal with the uncertainties inherent in the seismic inversion problems and/or rely on complete and representative training data, which is often scarcely available. To overcome these limitations, we introduce a novel seismic inversion method that explores the ability of deep convolutional neural networks to extract meaningful and complex representations from spatially structured data, combined with geostatistical stochastic simulation to efficiently invert seismicn reflection data directly for high-resolution subsurface models. Our method incorporates physics constraints, sparse direct measurements, and leverages the use of imprecise but widely distributed indirect measurements as represented by the seismic data. The geostatistical realizations provide additional information with higher spatial resolution than the original seismic data. When used as input to our inversion system, they allow the generation of multiple possible outcomes for the uncertain model. Our approach is fully unsupervised, as it does not depend on ground truth input-output pairs. In summary, the proposed method is able to: (1) provide uncertainty assessment of the predictions, (2) model the complex non-linear relationship between observed data and model, (3) extend the seismic bandwidth at both low and high ends of the frequency parameters spectrum, and (4) lessen the need for large, annotated training data. The proposed methodology is first described in the acoustic domain to invert acoustic impedance models from full-stack seismic data. Next, it is generalized for the elastic domain to invert P-wave velocity, S-wave velocity and density models from pre-stack seismic data. Finally, we show that the proposed methodology can be further extended to perform petrophysical seismic inversion in a simultaneous workflow. The method was tested on a synthetic case and successfully applied to a real three-dimensional case from a Brazilian reservoir. The inverted models are compared to those obtained from a full iterative geostatistical seismic inversion. The proposed methodology allows retrieving similar models but has the advantage of generating alternative solutions in greater numbers, providing a larger exploration of the model parameter space in less time than the geostatistical seismic inversion.
7

[en] QUALITY ENHANCEMENT OF HIGHLY DEGRADED MUSIC USING DEEP LEARNING-BASED PREDICTION MODELS / [pt] RECONSTRUÇÃO DE MÚSICAS ALTAMENTE DEGRADADAS USANDO MODELOS DE APRENDIZADO PROFUNDO

ARTHUR COSTA SERRA 21 October 2022 (has links)
[pt] A degradação da qualidade do áudio pode ter muitas causas. Para aplicações musicais, esta fragmentação pode levar a experiências altamente desagradáveis. Algoritmos de restauração podem ser empregados para reconstruir partes do áudio de forma semelhante à reconstrução da imagem, em uma abordagem chamada Audio Inpainting. Os métodos atuais de última geração para Audio Inpainting cobrem cenários limitados, com janelas de intervalo bem definidas e pouca variedade de gêneros musicais. Neste trabalho, propomos um método baseado em aprendizado profundo para Audio Inpainting acompanhado por um conjunto de dados com condições de fragmentação aleatórias que se aproximam de situações reais de deficiência. O conjunto de dados foi coletado utilizando faixas de diferentes gêneros musicais, o que proporciona uma boa variabilidade de sinal. Nosso melhor modelo melhorou a qualidade de todos os gêneros musicais, obtendo uma média de 13,1 dB de PSNR, embora tenha funcionado melhor para gêneros musicais nos quais os instrumentos acústicos são predominantes. / [en] Audio quality degradation can have many causes. For musical applications, this fragmentation may lead to highly unpleasant experiences. Restoration algorithms may be employed to reconstruct missing parts of the audio in a similar way as for image reconstruction - in an approach called audio inpainting. Current state-of-theart methods for audio inpainting cover limited scenarios, with well-defined gap windows and little variety of musical genres. In this work, we propose a Deep-Learning-based (DLbased) method for audio inpainting accompanied by a dataset with random fragmentation conditions that approximate real impairment situations. The dataset was collected using tracks from different music genres to provide a good signal variability. Our best model improved the quality of all musical genres, obtaining an average of 13.1 dB of PSNR, although it worked better for musical genres in which acoustic instruments are predominant.
8

Recognition and Tracking of Vehicles in Highways using Deep Learning / Reconhecimento e Rastreamento de Veículos em Rodovias usando Deep Learning

Cala, Ludwin Lope 08 March 2019 (has links)
Unmanned aerial vehicles (UAV) have become increasingly popular and their ability to analyze images collected in real time has drawn the attention of researchers regarding their use in several tasks, as surveillance of environments, persecution, collection of images, among others. This dissertation proposes a vehicle tracking system through which UAVs can recognize a vehicle and monitor it in highways. The system is based on a combination of bio-inspired machine learning algorithms VOCUS2, CNN and LSTM and was tested with real images collected by an aerial robot. The results show it is simpler and outperformed other complex algorithms, in terms of precision. / Veículos aéreos não tripulados têm se tornado cada vez mais populares e sua capacidade de analisar imagens coletadas em tempo real tem chamado a atenção de pesquisadores quanto ao seu uso em diversas tarefas, como vigilância de ambientes, perseguição, coleta de imagens, entre outros. Esta dissertação propõe um sistema de rastreamento de veículos através do qual os UAV podem reconhecer um veículo e monitorá-lo em rodovias. O sistema é baseado em uma combinação de algoritmos de aprendizado de máquina bio-inspirados VOCUS2, CNN e LSTM e foi testado com imagens reais coletadas por um robô aéreo. Os resultados mostram que é mais simples e superou outros algoritmos complexos, em termos de precisão.
9

Contributions in face detection with deep neural networks

Paula, Thomas da Silva 28 March 2017 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-07-04T12:23:43Z No. of bitstreams: 1 DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5) / Made available in DSpace on 2017-07-04T12:23:44Z (GMT). No. of bitstreams: 1 DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5) Previous issue date: 2017-03-28 / Reconhecimento facial ? um dos assuntos mais estudos no campo de Vis?o Computacional. Dada uma imagem arbitr?ria ou um frame arbitr?rio, o objetivo do reconhecimento facial ? determinar se existem faces na imagem e, se existirem, obter a localiza??o e a extens?o de cada face encontrada. Tal detec??o ? facilmente feita por seres humanos, por?m continua sendo um desafio em Vis?o Computacional. O alto grau de variabilidade e a dinamicidade da face humana tornam-a dif?cil de detectar, principalmente em ambientes complexos. Recentementemente, abordagens de Aprendizado Profundo come?aram a ser utilizadas em tarefas de Vis?o Computacional com bons resultados. Tais resultados abriram novas possibilidades de pesquisa em diferentes aplica??es, incluindo Reconhecimento Facial. Embora abordagens de Aprendizado Profundo tenham sido aplicadas com sucesso para tal tarefa, a maior parte das implementa??es estado da arte utilizam detectores faciais off-the-shelf e n?o avaliam as diferen?as entre eles. Em outros casos, os detectores faciais s?o treinados para m?ltiplas tarefas, como detec??o de pontos fiduciais, detec??o de idade, entre outros. Portanto, n?s temos tr?s principais objetivos. Primeiramente, n?s resumimos e explicamos alguns avan?os do Aprendizado Profundo, detalhando como cada arquitetura e implementa??o funcionam. Depois, focamos no problema de detec??o facial em si, realizando uma rigorosa an?lise de alguns dos detectores existentes assim como algumas implementa??es nossas. N?s experimentamos e avaliamos varia??es de alguns hiper-par?metros para cada um dos detectores e seu impacto em diferentes bases de dados. N?s exploramos tanto implementa??es tradicionais quanto mais recentes, al?m de implementarmos nosso pr?prio detector facial. Por fim, n?s implementamos, testamos e comparamos uma abordagem de meta-aprendizado para detec??o facial, que visa aprender qual o melhor detector facial para uma determinada imagem. Nossos experimentos contribuem para o entendimento do papel do Aprendizado Profundo em detec??o facial, assim como os detalhes relacionados a mudan?a de hiper-par?metros dos detectores faciais e seu impacto no resultado da detec??o facial. N?s tamb?m mostramos o qu?o bem features obtidas com redes neurais profundas ? treinadas em bases de dados de prop?sito geral ? combinadas com uma abordagem de meta-aprendizado, se aplicam a detec??o facial. Nossos experimentos e conclus?es mostram que o aprendizado profundo possui de fato um papel not?vel em detec??o facial. / Face Detection is one of the most studied subjects in the Computer Vision field. Given an arbitrary image or video frame, the goal of face detection is to determine whether there are any faces in the image and, if present, return the image location and the extent of each face. Such a detection is easily done by humans, but it is still a challenge within Computer Vision. The high degree of variability and the dynamicity of the human face makes it an object very difficult to detect, mainly in complex environments. Recently, Deep Learning approaches started to be applied for Computer Vision tasks with great results. They opened new research possibilities in different applications, including Face Detection. Even though Deep Learning has been successfully applied for such a task, most of the state-of-the-art implementations make use of off-the-shelf face detectors and do not evaluate differences among them. In other cases, the face detectors are trained in a multitask manner that includes face landmark detection, age detection, and so on. Hence, our goal is threefold. First, we summarize and explain many advances of deep learning, detailing how each different architecture and implementation work. Second, we focus on the face detection problem itself, performing a rigorous analysis of some of the existing face detectors as well as implementations of our own. We experiment and evaluate variations of hyper-parameters for each of the detectors and their impact in different datasets. We explore both traditional and more recent approaches, as well as implementing our own face detectors. Finally, we implement, test, and compare a meta learning approach for face detection, which aims to learn the best face detector for a given image. Our experiments contribute in understanding the role of deep learning in face detection as well as the subtleties of changing hyper-parameters of the face detectors and their impact in face detection. We also show how well features obtained with deep neural networks trained on a general-purpose dataset perform on a meta learning approach for face detection. Our experiments and conclusions show that deep learning has indeed a notable role in face detection.
10

[en] HYBRID METHOD BASED INTO KALMAN FILTER AND DEEP GENERATIVE MODEL TO HISTORY MATCHING AND UNCERTAINTY QUANTIFICATION OF FACIES GEOLOGICAL MODELS / [pt] MÉTODO HÍBRIDO BASEADO EM FILTRO DE KALMAN E MODELOS GENERATIVOS DE APRENDIZAGEM PROFUNDA NO AJUSTE DE HISTÓRICO SOB INCERTEZAS PARA MODELOS DE FÁCIES GEOLÓGICAS

SMITH WASHINGTON ARAUCO CANCHUMUNI 25 March 2019 (has links)
[pt] Os métodos baseados no filtro de Kalman têm tido sucesso notável na indústria do petróleo nos últimos anos, especialmente, para resolver problemas reais de ajuste de histórico. No entanto, como a formulação desses métodos é baseada em hipóteses de gaussianidade e linearidade, seu desempenho é severamente degradado quando a geologia a priori é descrita em termos de distribuições complexas (e.g. modelos de fácies). A tendência atual em soluções para o problema de ajuste de histórico é levar em consideração modelos de reservatórios mais realistas com geologia complexa. Assim, a modelagem de fácies geológicas desempenha um papel importante na caracterização de reservatórios, como forma de reproduzir padrões importantes de heterogeneidade e facilitar a modelagem das propriedades petrofísicas das rochas do reservatório. Esta tese introduz uma nova metodologia para realizar o ajuste de histórico de modelos geológicos complexos. A metodologia consiste na integração de métodos baseados no filtro de Kalman em particular o método conhecido na literatura como Ensemble Smoother with Multiple Data Assimilation (ES-MDA), com uma parametrização das fácies geológicas por meio de técnicas baseadas em aprendizado profundo (Deep Learning) em arquiteturas do tipo autoencoder. Um autoencoder sempre consiste em duas partes, o codificador (modelo de reconhecimento) e o decodificador (modelo gerador). O procedimento começa com o treinamento de um conjunto de realizações de fácies por meio de algoritmos de aprendizado profundo, através do qual são identificadas as principais características das imagens de fácies geológicas, permitindo criar novas realizações com as mesmas características da base de treinamento com uma reduzida parametrização dos modelos de fácies na saída do codificador. Essa parametrização é regularizada no codificador para fornecer uma distribuição gaussiana na saída, a qual é utilizada para atualizar os modelos de fácies de acordo com os dados observados do reservatório, através do método ES-MDA. Ao final, os modelos atualizados são reconstruídos através do aprendizado profundo (decodificador), com o objetivo de obter modelos finais que apresentem características similares às da base de treinamento. Os resultados, em três casos de estudo com 2 e 3 fácies, mostram que a parametrização de modelos de fácies baseada no aprendizado profundo consegue reconstruir os modelos de fácies com um erro inferior a 0,3 por cento. A metodologia proposta gera modelos geológicos ajustados que conservam a descrição geológica a priori do reservatório (fácies com canais curvilíneos), além de ser consistente com o ajuste dos dados observados do reservatório. / [en] Kalman filter-based methods have had remarkable success in the oil industry in recent years, especially to solve several real-life history matching problems. However, as the formulation of these methods is based on the assumptions of gaussianity and linearity, their performance is severely degraded when a priori geology is described in terms of complex distributions (e.g., facies models). The current trend in solutions for the history matching problem is to take into account more realistic reservoir models, with complex geology. Thus the geological facies modeling plays an important role in the characterization of reservoirs as a way of reproducing important patterns of heterogeneity and to facilitate the modeling of the reservoir rocks petrophysical properties. This thesis introduces a new methodology to perform the history matching of complex geological models. This methodology consists of the integration of Kalman filter-based methods, particularly the method known in the literature as Ensemble Smoother with Multiple Data Assimilation (ES-MDA), with a parameterization of the geological facies through techniques based on deep learning in autoencoder type architectures. An autoencoder always consists of two parts, the encoder (recognition model) and the decoder (generator model). The procedure begins with the training of a set of facies realizations via deep generative models, through which the main characteristics of geological facies images are identified, allowing for the creation of new realizations with the same characteristics of the training base, with a low dimention parametrization of the facies models at the output of the encoder. This parameterization is regularized at the encoder to provide Gaussian distribution models in the output, which is then used to update the models according to the observed data of the reservoir through the ES-MDA method. In the end, the updated models are reconstructed through deep learning (decoder), with the objective of obtaining final models that present characteristics similar to those of the training base. The results, in three case studies with 2 and 3 facies, show that the parameterization of facies models based on deep learning can reconstruct facies models with an error lower than 0.3 percent. The proposed methodology generates final geological models that preserve the a priori geological description of the reservoir (facies with curvilinear channels), besides being consistent with the adjustment of the observed data of the reservoir.

Page generated in 0.4849 seconds