Spelling suggestions: "subject:"aprendizado profunda"" "subject:"aprendizado profundas""
1 |
Deep active learning using Monte Carlo Dropout / Aprendizado ativo profundo usando Monte Carlo DropoutMoura, Lucas Albuquerque Medeiros de 14 November 2018 (has links)
Deep Learning models rely on a huge amount of labeled data to be created. However, there are a number of areas where labeling data is a costly process, making Deep Learning approaches unfeasible. One way to handle that situation is by using the Active Learning technique. Initially, it creates a model with the available labeled data. After that, it incrementally chooses new unlabeled data that will potentially increase the model accuracy, if added to the training data. To select which data will be labeled next, this technique requires a measurement of uncertainty from the model prediction, which is usually not computed for Deep Learning methods. A new approach has been proposed to measure uncertainty in those models, called Monte Carlo Dropout . This technique allowed Active Learning to be used together with Deep Learning for image classification. This research will evaluate if modeling uncertainty on Deep Learning models with Monte Carlo Dropout will make the use of Active Learning feasible for the task of sentiment analysis, an area with huge amount of data, but few of them labeled. / Modelos de Aprendizado Profundo necessitam de uma vasta quantidade de dados anotados para serem criados. Entretanto, existem muitas áreas onde obter dados anotados é uma tarefa custosa. Neste cenário, o uso de Aprendizado Profundo se torna bastante difícil. Uma maneira de lidar com essa situação é usando a técnica de Aprendizado Ativo. Inicialmente, essa técnica cria um modelo com os dados anotados disponíveis. Depois disso, ela incrementalmente escolhe dados não anotados que irão, potencialmente, melhorar à acurácia do modelo, se adicionados aos dados de treinamento. Para selecionar quais dados serão anotados, essa técnica necessita de uma medida de incerteza sobre as predições geradas pelo modelo. Entretanto, tal medida não é usualmente realizada em modelos de Aprendizado Profundo. Uma nova técnica foi proposta para lidar com a problemática de medir a incerteza desses modelos, chamada de Monte Carlo Dropout . Essa técnica permitiu o uso de Aprendizado Ativo junto com Aprendizado Profundo para tarefa de classificação de imagens. Essa pesquisa visa averiguar se ao modelarmos a incerteza em modelos de Aprendizado Profundo com a técnica de Monte Carlo Dropout , será possível usar a técnica de Aprendizado Ativo para tarefa de análise de sentimento, uma área com uma vasta quantidade de dados, mas poucos deles anotados.
|
2 |
Mapas auto-organizáveis probabilísticos para categorização de lugares baseada em objetosSILVA JÚNIOR, Marcondes Ricarte da 30 August 2016 (has links)
Submitted by Fabio Sobreira Campos da Costa (fabio.sobreira@ufpe.br) on 2017-08-31T12:45:41Z
No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5) / Made available in DSpace on 2017-08-31T12:45:41Z (GMT). No. of bitstreams: 2
license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5)
Dissertação - Marcondes Ricarte - Biblioteca Central.pdf: 3319680 bytes, checksum: 77eec2a6b32ef702f943780f9e487924 (MD5)
Previous issue date: 2016-08-30 / CAPES / Os robôs móveis estão cada vez mais inclusos na sociedade moderna podendo se locomover
usando “coordenadas cartográficas”. No entanto, com o intuito de aperfeiçoar a interação
homem-robô e a navegação das máquinas nos ambientes, os robôs podem dispor da habilidade
de criar um Mapa Semântico realizando Categorização dos Lugares. Este é o nome da área
de estudo que busca replicar a habilidade humana de aprender, identificar e inferir os rótulos
conceituais dos lugares através de sensores, em geral, câmeras.
Esta pesquisa busca realizar a Categorização de Lugares baseada em objetos existentes
no ambiente. Os objetos são importantes descritores de informação para ambientes fechados.
Desse modo as imagens podem ser representadas por um vetor de frequência de objetos contidos
naquele lugar. No entanto, a quantidade de todos possíveis tipos de objetos existentes é alta e os
lugares possuem poucos destes, fazendo com que a representação vetorial de um lugar através de
objetos contidos nele seja esparsa.
Os métodos propostos por este trabalho possuem duas etapas: Redutor de Dimensionalidade
e Categorizador. A primeira se baseia em conceitos de Compressão de Sinais, de Aprendizagem
Profunda e Mapas Auto-Organizáveis (SOMs), a fim de realizar o pré-processamento dos
dados de frequência de objetos para a redução da dimensionalidade e minimização da esparsidade
dos dados. Para segunda etapa foi proposto o uso de múltiplos Mapas Auto-Organizáveis
Probabilísticos (PSOMs). Os experimentos foram realizados para os métodos propostos por
esse trabalho e comparados com o Filtro Bayesiano, existente na literatura para solução desse
problema. Os experimentos foram realizados com quatro diferentes bases de dados que variam
em ordem crescente de quantidade de amostras e categorias. As taxas de acerto dos métodos
propostos demonstraram ser superiores à literatura quando o número de categorias das bases
de dados é alta. Os resultados para o Filtro Bayesiano degeneram para as bases com maiores
quantidade de categorias, enquanto para os métodos propostos por essa pesquisa as taxas de
acerto caem mais lentamente. / Mobile Robots are currently included in modern society routine in which they may move
around often using "cartographic coordinates". However, in order to improve human-robot
interaction and navigation of the robots in the environment, they can have the ability to create
a Semantic Map by Categorization of Places. The computing area of study that searches to
replicate the human ability to learn, identify and infer conceptual labels for places through sensor
data, in general, cameras is the Place Categorization.
These methods aim to categorize places based on existing objects in the environment
which constitute important information descriptors for indoors. Thus, each image can be
represented by the frequency of the objects present in a particular place. However, the number
of all possible types of objects is high and the places do have few of them, hence, the vector
representation of the objects in a place is usually sparse.
The methods proposed by this dissertation have two stages: Dimensionality reduction
and categorization. The first stage relies on Signal Compression concepts, Deep Learning
and Self-Organizing Maps (SOMs), aiming at preprocessing the data on object frequencies
for dimensionality reduction and minimization of data sparsity. The second stage employs
Probabilistic Self-Organizing Maps (PSOMs). The experiments were performed for the two
proposed methods and compared with the Bayesian filter previously proposed in the literature.
The experiments were performed with four different databases ranging considering different
number of samples and categories. The accuracy of the proposed methods was higher than the
previous models when the number of categories of the database is high. The results for the
Bayesian filter tends to degrade with higher number of categories, so do the proposed methods,
however, in a slower rate.
|
3 |
Estimação monocular de profundidade por aprendizagem profunda para veículos autônomos: influência da esparsidade dos mapas de profundidade no treinamento supervisionado / Monocular depth estimation by deep learning for autonomous vehicles: influence of depth maps sparsity in supervised trainingRosa, Nícolas dos Santos 24 June 2019 (has links)
Este trabalho aborda o problema da estimação de profundidade a partir de imagens monoculares (SIDE), com foco em melhorar a qualidade das predições de redes neurais profundas. Em um cenário de aprendizado supervisionado, a qualidade das predições está intrinsecamente relacionada aos rótulos de treinamento, que orientam o processo de otimização. Para cenas internas, sensores de profundidade baseados em escaneamento por luz estruturada (Ex.: Kinect) são capazes de fornecer mapas de profundidade densos, embora de curto alcance. Enquanto que para cenas externas, consideram-se LiDARs como sensor de referência, que comparativamente fornece medições mais esparsas, especialmente em regiões mais distantes. Em vez de modificar a arquitetura de redes neurais para lidar com mapas de profundidade esparsa, este trabalho introduz um novo método de densificação para mapas de profundidade, usando o framework de Mapas de Hilbert. Um mapa de ocupação contínuo é produzido com base nos pontos 3D das varreduras do LiDAR, e a superfície reconstruída resultante é projetada em um mapa de profundidade 2D com resolução arbitrária. Experimentos conduzidos com diferentes subconjuntos do conjunto de dados do KITTI mostram uma melhora significativa produzida pela técnica proposta (esparso-para-contínuo), sem necessitar inserir informações extras durante a etapa de treinamento. / This work addresses the problem of single image depth estimation (SIDE), focusing on improving the quality of deep neural network predictions. In a supervised learning scenario, the quality of predictions is intrinsically related to the training labels, which guide the optimization process. For indoor scenes, structured-light-based depth sensors (e.g. Kinect) are able to provide dense, albeit short-range, depth maps. While for outdoor scenes, LiDARs are considered the standard sensor, which comparatively provide much sparser measurements, especially in areas further away. Rather than modifying the neural network architecture to deal with sparse depth maps, this work introduces a novel densification method for depth maps using the Hilbert Maps framework. A continuous occupancy map is produced based on 3D points from LiDAR scans, and the resulting reconstructed surface is projected into a 2D depth map with arbitrary resolution. Experiments conducted with various subsets of the KITTI dataset show a significant improvement produced by the proposed Sparse-to-Continuous technique, without the introduction of extra information into the training stage.
|
4 |
Optical character recognition using deep learning / Reconhecimento óptico de caracteres usando aprendizado profundoSantos, Claudio Filipi Gonçalves dos 26 April 2018 (has links)
Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-24T11:51:59Z
No. of bitstreams: 1
optical-character-recognition-16052018.pdf: 8334356 bytes, checksum: 8dd05363a96c946ae1f6d665edc80d09 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo:
Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724)
Problema 02) Corrigir a ordem das páginas pré-textuais; a ordem correta (capa, folha de rosto, dedicatória, agradecimentos, epígrafe, resumo na língua vernácula, resumo em língua estrangeira, listas de ilustrações, de tabelas, de abreviaturas, de siglas e de símbolos e sumário).
Problema 03) Faltam as palavras-chave no resumo e no abstracts.
Na página da Seção de pós-graduação, em Instruções para Qualificação e Defesas de Dissertação e Tese, você pode acessar o modelo das páginas pré-textuais.
Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente.
Agradecemos a compreensão. on 2018-05-24T20:59:53Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T00:43:19Z
No. of bitstreams: 1
optical-character-recognition-16052018.pdf: 11084990 bytes, checksum: 6f8d7431cd17efd931a31c0eade10c65 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo:
Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724)
Problema 02) A paginação deve ser sequencial, iniciando a contagem na folha de rosto e mostrando o número a partir da introdução, a ficha catalográfica ficará após a folha de rosto e não deverá ser contada.
Problema 03) Na descrição do item: Título em outro idioma – Se você colocou no título em inglês deve por neste campo o título em outro idioma (ex: português, espanhol, francês...)
Estamos encaminhando via e-mail o template/modelo para que você possa fazer as correções.
Lembramos que o arquivo depositado no repositório deve ser igual ao impresso, o rigor com o padrão da Universidade se deve ao fato de que o seu trabalho passará a ser visível mundialmente.
Agradecemos a compreensão.
on 2018-05-25T15:22:45Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T15:52:53Z
No. of bitstreams: 1
optical-character-recognition-16052018.pdf: 11089966 bytes, checksum: d6c863077a995bd2519035b8a3e97c80 (MD5) / Rejected by Elza Mitiko Sato null (elzasato@ibilce.unesp.br), reason: Solicitamos que realize correções na submissão seguindo as orientações abaixo:
Problema 01) Falta a FOLHA DE APROVAÇÃO (Obrigatório pela ABNT NBR14724)
Agradecemos a compreensão.
on 2018-05-25T18:03:19Z (GMT) / Submitted by Claudio Filipi Gonçalves dos Santos (cfsantos85@gmail.com) on 2018-05-25T18:08:09Z
No. of bitstreams: 1
Claudio Filipi Gonçalves dos Santos Corrigido Biblioteca.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Approved for entry into archive by Elza Mitiko Sato null (elzasato@ibilce.unesp.br) on 2018-05-25T18:51:24Z (GMT) No. of bitstreams: 1
santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5) / Made available in DSpace on 2018-05-25T18:51:24Z (GMT). No. of bitstreams: 1
santos_cfg_me_sjrp.pdf: 8257484 bytes, checksum: 3a61ebfa8e1d16c9d0c694f46b979c1f (MD5)
Previous issue date: 2018-04-26 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) / Detectores óticos de caracteres, ou Optical Character Recognition (OCR) é o nome dado à técnologia de traduzir dados de imagens em arquivo de texto. O objetivo desse projeto é usar aprendizagem profunda, também conhecido por aprendizado hierárquico ou Deep Learning para o desenvolvimento de uma aplicação com a habilidade de detectar áreas candidatas, segmentar esses espaços dan imagem e gerar o texto contido na figura. Desde 2006, Deep Learning emergiu como uma nova área em aprendizagem de máquina. Em tempos recentes, as técnicas desenvolvidas em pesquisas com Deep Learning têm influenciado e expandido escopo, incluindo aspectos chaves nas área de inteligência artificial e aprendizagem de máquina. Um profundo estudo foi conduzido com a intenção de desenvolver um sistema OCR usando apenas arquiteturas de Deep Learning.A evolução dessas técnicas, alguns trabalhos passados e como esses trabalhos influenciaram o desenvolvimento dessa estrutura são explicados nesse texto. Essa tese demonstra com resultados como um classificador de caracteres foi desenvolvido. Em seguida é explicado como uma rede neural pode ser desenvolvida para ser usada como um detector de objetos e como ele pode ser transformado em um detector de texto. Logo após é demonstrado como duas técnicas diferentes de Deep Learning podem ser combinadas e usadas na tarefa de transformar segmentos de imagens em uma sequência de caracteres. Finalmente é demonstrado como o detector de texto e o sistema transformador de imagem em texto podem ser combinados para se desenvolver um sistema OCR completo que detecta regiões de texto nas imagens e o que está escrito nessa região. Esse estudo demonstra que a idéia de usar apenas estruturas de Deep Learning podem ter performance melhores do técnicas baseadas em outras áreas da computação como por exemplo o processamento de imagens. Para detecção de texto foi alcançado mais de 70% de precisão quando uma arquitetura mais complexa foi usada, por volta de 69% de traduções de imagens para texto corretas e por volta de 50% na tarefa ponta-à-ponta de detectar as áreas de texto e traduzi-las em sequência de caracteres. / Optical Character Recognition (OCR) is the name given to the technology used to translate image data into a text file. The objective of this project is to use Deep Learning techniques to develop a software with the ability to segment images, detecting candidate characters and generating textthatisinthepicture. Since2006,DeepLearningorhierarchicallearning, emerged as a new machine learning area. Over recent years, the techniques developed from deep learning research have influenced and expanded scope, including key aspects of artificial intelligence and machine learning. A thorough study was carried out in order to develop an OCR system using only Deep Learning architectures. It is explained the evolution of these techniques, some past works and how they influenced thisframework’sdevelopment. Inthisthesisitisdemonstratedwithresults how a single character classifier was developed. Then it is explained how a neural network can be developed to be an object detector and how to transform this object detector into a text detector. After that it shows how a set of two Deep Learning techniques can be combined and used in the taskoftransformingacroppedregionofanimageinastringofcharacters. Finally, it demonstrates how the text detector and the Image-to-Text systemswerecombinedinordertodevelopafullend-to-endOCRsystemthat detects the regions of a given image containing text and what is written in this region. It shows the idea of using only Deep Learning structures can outperform other techniques based on other areas like image processing. In text detection it reached over 70% of precision when a more complex architecture was used, around 69% of correct translation of image-to-text areasandaround50%onend-to-endtaskofdetectingareasandtranslating them into text. / 1623685
|
5 |
[en] A CLUSTER-BASED METHOD FOR ACTION SEGMENTATION USING SPATIO-TEMPORAL AND POSITIONAL ENCODED EMBEDDINGS / [pt] MÉTODO BASEADO EM AGRUPAMENTO PARA A SEGMENTAÇÃO DE AÇÕES UTILIZANDO EMBEDDINGS ESPAÇO-TEMPORAIS E COM CODIFICAÇÃO POSICIONALGUILHERME DE AZEVEDO P MARQUES 20 April 2023 (has links)
[pt] Vídeos se tornaram a principal mídia para a comunicação, com um
volume massivo de dados criado a cada segundo. Conseguir entender essa
quantidade de dados de forma automática se tornou importante e, por
conseguinte, métodos de video understanding são cada vez mais necessários.
Uma tarefa crucial para o entendimento de vídeos é a classificação e
localização no tempo de diferentes ações. Para isso, a segmentação de ações
precisa ser realizada. Segmentação de ações é a tarefa que consiste em
segmentar temporalmente um vídeo, classificando cada quadro com alguma
ação. Neste trabalho, é proposto um método de segmentação de ações que
não requer análise prévia do vídeo e nenhum dado anotado. O método
envolve a extração de embeddings espaço-temporais dos vídeos com redes
de aprendizado profundo pré-treinadas, seguida por uma transformação
realizada por um codificador posicional e pela aplicação de um algoritmo de
grupamento em que cada cluster gerado corresponde a uma ação diferente.
Os experimentos realizados demonstram que o método produz resultados
competitivos nos conjuntos de dados Breakfast e Inria Instructional Videos. / [en] The rise of video content as the main media for communication has
been creating massive volumes of video data every second. The ability
of understanding this huge quantities of data automatically has become
increasingly important, therefore better video understanding methods are
needed. A crucial task to overall video understanding is the recognition
and localisation in time of dierent actions. To address this problem,
action segmentation must be achieved. Action segmentation consists of
temporally segmenting a video by labeling each frame with a specific
action. In this work, we propose a novel action segmentation method that
requires no prior video analysis and no annotated data. Our method involves
extracting spatio-temporal features from videos using a pre-trained deep
network. Data is then transformed using a positional encoder, and finally a
clustering algorithm is applied where each cluster presumably corresponds
to a dierent single and distinguishable action. In experiments, we show
that our method produces competitive results on the Breakfast and Inria
Instructional Videos dataset benchmarks.
|
6 |
[en] DEEP PHYSICS-DRIVEN STOCHASTIC SEISMIC INVERSION / [pt] INVERSÃO SÍSMICA ESTOCÁSTICA COM APRENDIZADO PROFUNDO ORIENTADO À FÍSICAPAULA YAMADA BURKLE 28 August 2023 (has links)
[pt] A inversão sísmica é uma etapa essencial na modelagem e caracterização de reservatórios que permite a estimativa de propriedades da subsuperfície a partir dos dados de reflexão sísmica. os métodos convencionais usualmente possuem um alto custo computacional ou apresentam problemas relativos à não-linearidade e à forte ambiguidade do modelo de inversão sísmica. Recentemente, com a generalizaçãodo aprendizado de máquina na geofísica, novos métodos de inversão sísmica surgiram baseados nas técnicas de aprendizado profundo. Entretanto, a aplicação prática desses métodos é limitada devido a ausência de uma abordagem probabilística capaz de lidar com as incertezas inerentes ao problema da inversão sísmica e/ou a necessidade de dados de treinamento completos e representativos. Para superar essas limitações, um novo método é proposto para inverter dados de reflexão sísmica diretamente para modelos da subsuperfície de alta resolução. O método proposto explora a capacidade das redes neurais convolucionais em extrair representações significativas e complexas de dados espacialmente estruturados, combinada à simulação estocástica geoestatística. Em abordagem auto-supervisionada, modelos físicos são incorporados no sistema de inversão com o objetivo de potencializar o uso das medições indiretas e imprecisas, mas amplamente distribuídas do método sísmico. As realizações geradas com simulação geoestatística fornecem informações adicionais com maior resolução espacial do que a originalmente encontrada nos dados sísmicos. Quando utilizadas como entrada do sistema de inversão, elas permitem a geração de múltiplos modelos alternativos da subsuperfície. Em resumo, o método proposto é capaz de: (1) quantificar as incertezas das previsões, (2) modelar a relação complexa e não-linear entre os dados observados e o modelo da subsuperfície, (3) estender a largura de banda sísmica nas extremidades baixa e alta do espectro de parâmetros de frequência, e (4) diminuir a necessidade de dados de treinamento anotados. A metodologia proposta é inicialmente descrita no domínio acústico para inverter modelos de impedância acústica a partir de dados sísmicos pós-empilhados. Em seguida, a metodologia é generalizada para o domínio elástico para inverter a partir de dados sísmicos pré-empilhados modelos de velocidade da onda P, da velocidade da onda S e de densidade. Em seguida, a metodologia proposta é estendida para a inversão sísmica petrofísica em um fluxo de trabalho simultâneo. O método foi validado em um caso sintético e aplicado com sucesso a um caso tridimensional de um reservatório brasileiro real. Os modelos invertidos são comparados àqueles obtidos a partir de uma inversão sísmica geoestatística iterativa. A metodologia proposta permite obter modelos similares, mas tem a vantagem de gerar soluções alternativas em maior número, permitindo explorar de forma mais efetiva o espaço de parâmetros do modelo quando comparada à inversão sísmica geoestatística iterativa. / [en] Seismic inversion allows the prediction of subsurface properties from seismic reflection data and is a key step in reservoir modeling and characterization. Traditional seismic inversion methods usually come with a high computational cost or suffer from issues concerning the non-linearity and the strong non-uniqueness of the seismic inversion model. With the generalization of machine learning in geophysics, deep learning methods have been proposed as efficient seismic inversion methods. However, most of them lack a probabilistic approach to deal with the uncertainties inherent in the seismic inversion problems and/or rely on complete and representative training data, which is often scarcely available. To overcome these limitations, we introduce a novel seismic inversion method that explores the ability of deep convolutional neural networks to extract meaningful and complex representations from spatially structured data, combined with geostatistical stochastic simulation to efficiently invert seismicn reflection data directly for high-resolution subsurface models. Our method incorporates physics constraints, sparse direct measurements, and leverages the use of imprecise but widely distributed indirect measurements as represented by the seismic data. The geostatistical realizations provide additional information with higher spatial resolution than the original seismic data. When used as input to our inversion system, they allow the generation of multiple possible outcomes for the uncertain model. Our approach is fully unsupervised, as it does not depend on ground truth input-output pairs. In summary, the proposed method is able to: (1) provide uncertainty assessment of the predictions, (2) model the complex non-linear relationship between observed data and model, (3) extend the seismic bandwidth at both low and high ends of the frequency parameters spectrum, and (4) lessen the need for large, annotated training data. The proposed methodology is first described in the acoustic domain to invert acoustic impedance models from full-stack seismic data. Next, it is generalized for the elastic domain to invert P-wave velocity, S-wave velocity and density models from pre-stack seismic data. Finally, we show that the proposed methodology can be further extended to perform petrophysical seismic inversion in a simultaneous workflow. The method was tested on a synthetic case and successfully applied to a real three-dimensional case from a Brazilian reservoir. The inverted models are compared to those obtained from a full iterative geostatistical seismic inversion. The proposed methodology allows retrieving similar models but has the advantage of generating alternative solutions in greater numbers, providing a larger exploration of the model parameter space in less time than the geostatistical seismic inversion.
|
7 |
[en] QUALITY ENHANCEMENT OF HIGHLY DEGRADED MUSIC USING DEEP LEARNING-BASED PREDICTION MODELS / [pt] RECONSTRUÇÃO DE MÚSICAS ALTAMENTE DEGRADADAS USANDO MODELOS DE APRENDIZADO PROFUNDOARTHUR COSTA SERRA 21 October 2022 (has links)
[pt] A degradação da qualidade do áudio pode ter muitas causas. Para
aplicações musicais, esta fragmentação pode levar a experiências altamente
desagradáveis. Algoritmos de restauração podem ser empregados para
reconstruir partes do áudio de forma semelhante à reconstrução da imagem,
em uma abordagem chamada Audio Inpainting. Os métodos atuais de
última geração para Audio Inpainting cobrem cenários limitados, com janelas
de intervalo bem definidas e pouca variedade de gêneros musicais. Neste
trabalho, propomos um método baseado em aprendizado profundo para
Audio Inpainting acompanhado por um conjunto de dados com condições de
fragmentação aleatórias que se aproximam de situações reais de deficiência.
O conjunto de dados foi coletado utilizando faixas de diferentes gêneros
musicais, o que proporciona uma boa variabilidade de sinal. Nosso melhor
modelo melhorou a qualidade de todos os gêneros musicais, obtendo uma
média de 13,1 dB de PSNR, embora tenha funcionado melhor para gêneros
musicais nos quais os instrumentos acústicos são predominantes. / [en] Audio quality degradation can have many causes. For musical
applications, this fragmentation may lead to highly unpleasant experiences.
Restoration algorithms may be employed to reconstruct missing parts of
the audio in a similar way as for image reconstruction - in an approach
called audio inpainting. Current state-of-theart methods for audio inpainting
cover limited scenarios, with well-defined gap windows and little variety
of musical genres. In this work, we propose a Deep-Learning-based (DLbased)
method for audio inpainting accompanied by a dataset with random
fragmentation conditions that approximate real impairment situations. The
dataset was collected using tracks from different music genres to provide a
good signal variability. Our best model improved the quality of all musical
genres, obtaining an average of 13.1 dB of PSNR, although it worked better
for musical genres in which acoustic instruments are predominant.
|
8 |
Recognition and Tracking of Vehicles in Highways using Deep Learning / Reconhecimento e Rastreamento de Veículos em Rodovias usando Deep LearningCala, Ludwin Lope 08 March 2019 (has links)
Unmanned aerial vehicles (UAV) have become increasingly popular and their ability to analyze images collected in real time has drawn the attention of researchers regarding their use in several tasks, as surveillance of environments, persecution, collection of images, among others. This dissertation proposes a vehicle tracking system through which UAVs can recognize a vehicle and monitor it in highways. The system is based on a combination of bio-inspired machine learning algorithms VOCUS2, CNN and LSTM and was tested with real images collected by an aerial robot. The results show it is simpler and outperformed other complex algorithms, in terms of precision. / Veículos aéreos não tripulados têm se tornado cada vez mais populares e sua capacidade de analisar imagens coletadas em tempo real tem chamado a atenção de pesquisadores quanto ao seu uso em diversas tarefas, como vigilância de ambientes, perseguição, coleta de imagens, entre outros. Esta dissertação propõe um sistema de rastreamento de veículos através do qual os UAV podem reconhecer um veículo e monitorá-lo em rodovias. O sistema é baseado em uma combinação de algoritmos de aprendizado de máquina bio-inspirados VOCUS2, CNN e LSTM e foi testado com imagens reais coletadas por um robô aéreo. Os resultados mostram que é mais simples e superou outros algoritmos complexos, em termos de precisão.
|
9 |
Contributions in face detection with deep neural networksPaula, Thomas da Silva 28 March 2017 (has links)
Submitted by Caroline Xavier (caroline.xavier@pucrs.br) on 2017-07-04T12:23:43Z
No. of bitstreams: 1
DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5) / Made available in DSpace on 2017-07-04T12:23:44Z (GMT). No. of bitstreams: 1
DIS_THOMAS_DA_SILVA_PAULA_COMPLETO.pdf: 10601063 bytes, checksum: f63f9b6e33e22c4a2553f784a3a029e1 (MD5)
Previous issue date: 2017-03-28 / Reconhecimento facial ? um dos assuntos mais estudos no campo de Vis?o Computacional.
Dada uma imagem arbitr?ria ou um frame arbitr?rio, o objetivo do reconhecimento facial ?
determinar se existem faces na imagem e, se existirem, obter a localiza??o e a extens?o de cada
face encontrada. Tal detec??o ? facilmente feita por seres humanos, por?m continua sendo um
desafio em Vis?o Computacional. O alto grau de variabilidade e a dinamicidade da face humana
tornam-a dif?cil de detectar, principalmente em ambientes complexos. Recentementemente, abordagens
de Aprendizado Profundo come?aram a ser utilizadas em tarefas de Vis?o Computacional
com bons resultados. Tais resultados abriram novas possibilidades de pesquisa em diferentes aplica??es,
incluindo Reconhecimento Facial. Embora abordagens de Aprendizado Profundo tenham
sido aplicadas com sucesso para tal tarefa, a maior parte das implementa??es estado da arte utilizam
detectores faciais off-the-shelf e n?o avaliam as diferen?as entre eles. Em outros casos, os
detectores faciais s?o treinados para m?ltiplas tarefas, como detec??o de pontos fiduciais, detec??o
de idade, entre outros. Portanto, n?s temos tr?s principais objetivos. Primeiramente, n?s resumimos
e explicamos alguns avan?os do Aprendizado Profundo, detalhando como cada arquitetura e
implementa??o funcionam. Depois, focamos no problema de detec??o facial em si, realizando uma
rigorosa an?lise de alguns dos detectores existentes assim como algumas implementa??es nossas.
N?s experimentamos e avaliamos varia??es de alguns hiper-par?metros para cada um dos detectores
e seu impacto em diferentes bases de dados. N?s exploramos tanto implementa??es tradicionais
quanto mais recentes, al?m de implementarmos nosso pr?prio detector facial. Por fim, n?s implementamos,
testamos e comparamos uma abordagem de meta-aprendizado para detec??o facial, que
visa aprender qual o melhor detector facial para uma determinada imagem. Nossos experimentos
contribuem para o entendimento do papel do Aprendizado Profundo em detec??o facial, assim como
os detalhes relacionados a mudan?a de hiper-par?metros dos detectores faciais e seu impacto no resultado
da detec??o facial. N?s tamb?m mostramos o qu?o bem features obtidas com redes neurais
profundas ? treinadas em bases de dados de prop?sito geral ? combinadas com uma abordagem de
meta-aprendizado, se aplicam a detec??o facial. Nossos experimentos e conclus?es mostram que o
aprendizado profundo possui de fato um papel not?vel em detec??o facial. / Face Detection is one of the most studied subjects in the Computer Vision field. Given
an arbitrary image or video frame, the goal of face detection is to determine whether there are any
faces in the image and, if present, return the image location and the extent of each face. Such a
detection is easily done by humans, but it is still a challenge within Computer Vision. The high
degree of variability and the dynamicity of the human face makes it an object very difficult to
detect, mainly in complex environments. Recently, Deep Learning approaches started to be applied
for Computer Vision tasks with great results. They opened new research possibilities in different
applications, including Face Detection. Even though Deep Learning has been successfully applied for
such a task, most of the state-of-the-art implementations make use of off-the-shelf face detectors
and do not evaluate differences among them. In other cases, the face detectors are trained in a
multitask manner that includes face landmark detection, age detection, and so on. Hence, our goal
is threefold. First, we summarize and explain many advances of deep learning, detailing how each
different architecture and implementation work. Second, we focus on the face detection problem
itself, performing a rigorous analysis of some of the existing face detectors as well as implementations
of our own. We experiment and evaluate variations of hyper-parameters for each of the detectors
and their impact in different datasets. We explore both traditional and more recent approaches,
as well as implementing our own face detectors. Finally, we implement, test, and compare a meta
learning approach for face detection, which aims to learn the best face detector for a given image.
Our experiments contribute in understanding the role of deep learning in face detection as well as
the subtleties of changing hyper-parameters of the face detectors and their impact in face detection.
We also show how well features obtained with deep neural networks trained on a general-purpose
dataset perform on a meta learning approach for face detection. Our experiments and conclusions
show that deep learning has indeed a notable role in face detection.
|
10 |
[en] HYBRID METHOD BASED INTO KALMAN FILTER AND DEEP GENERATIVE MODEL TO HISTORY MATCHING AND UNCERTAINTY QUANTIFICATION OF FACIES GEOLOGICAL MODELS / [pt] MÉTODO HÍBRIDO BASEADO EM FILTRO DE KALMAN E MODELOS GENERATIVOS DE APRENDIZAGEM PROFUNDA NO AJUSTE DE HISTÓRICO SOB INCERTEZAS PARA MODELOS DE FÁCIES GEOLÓGICASSMITH WASHINGTON ARAUCO CANCHUMUNI 25 March 2019 (has links)
[pt] Os métodos baseados no filtro de Kalman têm tido sucesso notável na
indústria do petróleo nos últimos anos, especialmente, para resolver problemas
reais de ajuste de histórico. No entanto, como a formulação desses métodos
é baseada em hipóteses de gaussianidade e linearidade, seu desempenho
é severamente degradado quando a geologia a priori é descrita em termos
de distribuições complexas (e.g. modelos de fácies). A tendência atual em
soluções para o problema de ajuste de histórico é levar em consideração
modelos de reservatórios mais realistas com geologia complexa. Assim, a
modelagem de fácies geológicas desempenha um papel importante na caracterização
de reservatórios, como forma de reproduzir padrões importantes
de heterogeneidade e facilitar a modelagem das propriedades petrofísicas
das rochas do reservatório. Esta tese introduz uma nova metodologia para
realizar o ajuste de histórico de modelos geológicos complexos. A metodologia
consiste na integração de métodos baseados no filtro de Kalman em
particular o método conhecido na literatura como Ensemble Smoother with
Multiple Data Assimilation (ES-MDA), com uma parametrização das fácies
geológicas por meio de técnicas baseadas em aprendizado profundo (Deep
Learning) em arquiteturas do tipo autoencoder. Um autoencoder sempre
consiste em duas partes, o codificador (modelo de reconhecimento) e o decodificador
(modelo gerador). O procedimento começa com o treinamento de
um conjunto de realizações de fácies por meio de algoritmos de aprendizado
profundo, através do qual são identificadas as principais características das
imagens de fácies geológicas, permitindo criar novas realizações com as mesmas
características da base de treinamento com uma reduzida parametrização
dos modelos de fácies na saída do codificador. Essa parametrização é
regularizada no codificador para fornecer uma distribuição gaussiana na
saída, a qual é utilizada para atualizar os modelos de fácies de acordo com
os dados observados do reservatório, através do método ES-MDA. Ao final,
os modelos atualizados são reconstruídos através do aprendizado profundo
(decodificador), com o objetivo de obter modelos finais que apresentem características
similares às da base de treinamento.
Os resultados, em três casos de estudo com 2 e 3 fácies, mostram que
a parametrização de modelos de fácies baseada no aprendizado profundo
consegue reconstruir os modelos de fácies com um erro inferior a 0,3 por cento. A
metodologia proposta gera modelos geológicos ajustados que conservam a
descrição geológica a priori do reservatório (fácies com canais curvilíneos),
além de ser consistente com o ajuste dos dados observados do reservatório. / [en] Kalman filter-based methods have had remarkable success in the oil
industry in recent years, especially to solve several real-life history matching
problems. However, as the formulation of these methods is based on the
assumptions of gaussianity and linearity, their performance is severely degraded
when a priori geology is described in terms of complex distributions
(e.g., facies models). The current trend in solutions for the history matching
problem is to take into account more realistic reservoir models, with complex
geology. Thus the geological facies modeling plays an important role in the
characterization of reservoirs as a way of reproducing important patterns
of heterogeneity and to facilitate the modeling of the reservoir rocks petrophysical
properties. This thesis introduces a new methodology to perform
the history matching of complex geological models. This methodology consists
of the integration of Kalman filter-based methods, particularly the
method known in the literature as Ensemble Smoother with Multiple Data
Assimilation (ES-MDA), with a parameterization of the geological facies
through techniques based on deep learning in autoencoder type architectures.
An autoencoder always consists of two parts, the encoder (recognition
model) and the decoder (generator model). The procedure begins with the
training of a set of facies realizations via deep generative models, through
which the main characteristics of geological facies images are identified, allowing
for the creation of new realizations with the same characteristics of
the training base, with a low dimention parametrization of the facies models
at the output of the encoder. This parameterization is regularized at
the encoder to provide Gaussian distribution models in the output, which
is then used to update the models according to the observed data of the
reservoir through the ES-MDA method. In the end, the updated models
are reconstructed through deep learning (decoder), with the objective of
obtaining final models that present characteristics similar to those of the
training base.
The results, in three case studies with 2 and 3 facies, show that the parameterization
of facies models based on deep learning can reconstruct facies
models with an error lower than 0.3 percent. The proposed methodology generates
final geological models that preserve the a priori geological description of
the reservoir (facies with curvilinear channels), besides being consistent with
the adjustment of the observed data of the reservoir.
|
Page generated in 0.4849 seconds