Global ETD Search

21	Rede neural convolucional aplicada à identificação de equipamentos residenciais para sistemas de monitoramento não-intrusivo de carga / Convolutional neural network applied to the identification of residential equipment for non-intrusive load monitoring systems PENHA, Deyvison de Paiva 03 April 2018 (has links) Submitted by Kelren Mota (kelrenlima@ufpa.br) on 2018-06-25T18:48:12Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_RedeNeuralConvolucional.pdf: 2088560 bytes, checksum: 6328f6f59bc552055a366b1e4a32793d (MD5) / Approved for entry into archive by Kelren Mota (kelrenlima@ufpa.br) on 2018-06-25T18:48:32Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_RedeNeuralConvolucional.pdf: 2088560 bytes, checksum: 6328f6f59bc552055a366b1e4a32793d (MD5) / Made available in DSpace on 2018-06-25T18:48:32Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Dissertacao_RedeNeuralConvolucional.pdf: 2088560 bytes, checksum: 6328f6f59bc552055a366b1e4a32793d (MD5) Previous issue date: 2018-04-03 / Este trabalho apresenta a proposta de uma nova metodologia para identificação de equipamentos residenciais em sistemas de Monitoramento Não-Intrusivo de cargas. O sistema é baseado em uma Rede Neural Convolucional para classificação dos equipamentos, que utilizam, diretamente como entradas para o sistema, os dados do sinal transitório de potência de 7 equipamentos obtidos no momento em que estes são ligados em uma residência. A metodologia foi desenvolvida usando dados de um banco de dados público (REED) que apresenta dados coletados a uma baixa frequência (1 Hz). Os resultados obtidos na base de dados de testes apresentam acurácia superior a 90%, indicando que o sistema proposto é capaz de realizar a tarefa de identificação, além disso os resultados apresentados são considerados satisfatórios quando comparados com os resultados já apresentados na literatura para o problema em questão. / This research presents the proposal of a new methodology for the identification of residential equipment in non-intrusive load monitoring systems. The system is based on a Convolutional Neural Network to classify residential equipment, which uses directly as inputs to the system, the transient power signal data of 7 equipment obtained at the moment they are connected in a residence. The methodology was developed using data from a public database (REED) that presents data collected at a low frequency (1 Hz). The results obtained in the test database show an accuracy of more than 90%, indicating that the proposed system is capable of performing the task of identification. In addition, the results presented are considered satisfactory when compared with the results already presented in the literature for the problem in question. Redes Neurais Convolucionais Monitoramento Não-Intrusivo de Cargas Non- Intrusive Load Monitoring (NILM) INTELIGÊNCIA COMPUTACIONAL COMPUTAÇÃO APLICADA
22	Reconhecimento de produtos por imagem utilizando palavras visuais e redes neurais convolucionais / Image recognition of products using bag of visual words and convolutional neural networks Juraszek, Guilherme Defreitas 15 December 2014 (has links) Made available in DSpace on 2016-12-12T20:22:53Z (GMT). No. of bitstreams: 1 Guilherme Defreitas Juraszek.pdf: 7449714 bytes, checksum: 9caf50824709b584d611d1086803286b (MD5) Previous issue date: 2014-12-15 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The popularization of electronic devices like cameras and smartphones resulted in an increasing volume of images and videos available on the internet. This scenario allowed researchers to explore new search and retrieval techniques to use, not only the wide available text, but also extract information directly from images and videos. In this work three image recognition techniques have been compared, the Bag of Features or Bag of Visual Words (BOVW) using artificial descriptors, Convolutional Neural Networks (CNN) and CNN as a natural descriptor where the descriptors are obtained from a large pre-trained CNN in a different dataset. The techniques are applied in the image recognition problem using image analysis. Those techniques can be applied in products search applications using smartphones, smart glasses, products recognition in videos and others. The BOVW technique is demonstrated using the artificial descriptors SIFT, SURF and MSER, with dense and interest points based extraction. The algorithms KMeans and unsupervised Optimum-Path Forest (OPF-U) are used for clustering and supervised Optimum-Path Forest (OPF-S) and Support Vector Machines (SVM) are used for classification. The second technique uses a convolutional neural network (CNN) with three convolutional layers. The third technique uses the Overfeat, a large pre-trained CNN in the ImageNet dataset, for extraction of a characteristic vector of the new image dataset. This characteristic vector act as a natural descriptor and is then classified using OPF-S and SVM. The accuracy, total time of processing, time for clustering (KMeans and OPF-U), time for classification (OPF-S and SVM) are evaluated in the Caltech 101 dataset and in a dataset created by the author with images of products (Recog- Prod). It is evaluated how image size, category size and overall parameters affect the accuracy of the studied techniques. The results showed that the CNN (Overfeat), pre-trained in a different large dataset, used for extraction of the natural descriptor of the new dataset and trained with SVM achieved the best accuracy with 0.855 in the Caltech 101 dataset and 0.905 in the authors dataset. The CNN created and trained entirely by the author showed the second best result with the accuracy of 0.710, using the RGB color space in the authors dataset and 0.540 using the YUV color space in the Caltech 101 dataset. Both CNN, using RGB and YUV, showed similar accuracies but the CNN using YUV images took significant less time to be trained. The BOVW technique resulted in a accuracy lower than the preview techniques in both tested datasets. In the experiments using the author s dataset with different category sizes (5, 10, 15, 36) the CNN as a natural descriptor resulted in the best accuracy among the other tested techniques. The CNN as a natural descriptor is also the most robust, since as the number of the categories is increased, and resulted in a lower accuracy decay among the others. In the experiments with a dataset with 5 categories the CNN as natural descriptor was able to recognize all the images correctly. / A popularização de equipamentos como câmeras e celulares equipados com câmeras resultou em um grande volume de informações no formato de imagens e vídeos disponibilizadas na internet. O crescimento no volume de informação digital disponível nestes formatos demanda a criação de novas soluções de buscas baseadas não apenas em texto, mas capazes de extraírem informações relevantes diretamente desses formatos de mídia. Neste trabalho são comparadas as técnicas de reconhecimento utilizando palavras visuais por meio de descritores artificiais Bag of Visual Words ou Bag of Features (BOVW), reconhecimento utilizando redes neurais convolucionais (CNN) e reconhecimento usando descritores naturais obtidos através de uma rede neural convolucional previamente treinada em uma base distinta. As técnicas são aplicadas no problema de reconhecimento de produtos a partir da análise de imagens. Tais técnicas podem ser aplicadas em uma ampla gama de sistemas como reconhecimento de produtos utilizando dispositivos móveis, obtenção de informações de produtos visualizados utilizando um óculos de realidade aumentada, reconhecimento de produtos em vídeos, entre outros. A técnica BOVW é demonstrada com base nos descritores artificiais SIFT, SURF e MSER com extração de características densa e por meio de pontos de interesse. São estudados os algoritmos KMeans e Floresta de Caminhos Ótimos não Supervisionada (OPFU) na etapa de agrupamento e Máquinas de Vetor de Suporte (SVM) e Floresta de Caminhos Ótimos Supervisionada (OPF-S) na etapa de classificação. A segunda técnica utiliza uma rede neural convolucional (CNN) de três camadas. Na terceira técnica é utilizada uma CNN, previamente treinada na base de imagens ImageNet, de cinco camadas convolucionais. A CNN previamente treinada é utilizada para a extração de um vetor de características do novo conjunto de imagens a ser analisado. Este vetor atua como um descritor natural e é classificado utilizando SVM e OPF-S. São avaliadas a acurácia, tempo de processamento total, tempo de processamento para agrupamento (KMeans e OPF-U), tempo de processamento para classificação das técnicas nas bases de imagens Caltech 101 e em uma base de imagens de produtos criada pelo autor (RecogProd). São avaliados ainda como o tamanho da imagens, quantidade de categorias e escolha dos parâmetros influenciam na acurácia do resultado. Os resultados mostram que a utilização de uma CNN (Overfeat), previamente treinada em uma grande base de imagens, como um descritor natural para extração de um vetor de características e treinamento de um classificador SVM, apresentou a melhor acurácia com 0,855 na base Caltech101 e 0,905 na base criada, RecogProd, em uma escala de 0 a 1. A CNN criada e treinada pelo autor apresentou o segundo melhor resultado com 0,710 utilizando o espaço de cores RGB na RecogProd e 0,540 utilizando o espaço de cores YUV na base Caltech101. A CNN treinada com imagens utilizando os espaço de cores RGB e YUV apresentaram acurácias muito próximas em ambas as bases de treinamento porém, o treinamento utilizando YUV foi muito mais rápido. A técnica BOVW apresentou uma acurácia inferior à CNN como descritor natural e a CNN em ambas as bases testadas. Nos experimentos, com diversos tamanhos de categorias (5, 10, 15 e 36) da RecogProd, a CNN como descritor natural apresentou novamente a melhor acurácia. Os resultados mostram ainda que, conforme o número de categorias é aumentado, a CNN como descritor natural apresentou uma queda menor na acurácia em relação às demais técnicas avaliadas. Foi observado ainda que em uma base com 5 categorias a CNN como descritor natural alcançou a acurácia de 1,0, sendo capaz de classificar todos os exemplos corretamente. Aprendizado de máquina Máquina de vetor de suporte Redes neurais convolucionais Floresta de caminhos ótimos Visão computacional Machine learning Support vector machines Convolutional neural networks Optimum-path forest Computer vision
23	[en] DETECTION OF REGIONS OF WHITE MATTER LESIONS OF THE BRAIN IN T1 AND FLAIR IMAGES / [pt] DETECÇÃO DE REGIÕES DE LESÕES NA SUBSTÂNCIA BRANCA DO CÉREBRO EM IMAGENS T1 E FLAIR PEDRO HENRIQUE BANDEIRA DINIZ 14 April 2020 (has links) [pt] As lesões da substância branca são lesões cerebrais não estáticas que têm uma taxa de prevalência de até 98 por cento na população idosa, embora também esteja presente na população jovem. Uma vez que elas podem estar associadas a várias doenças cerebrais, é importante detectá-las o mais cedo possível. A ressonância magnética fornece dados tridimensionais para visualização e análise de tecidos moles, pois contém informações ricas sobre sua anatomia. No entanto, a quantidade de dados adquiridos para essas imagens pode ser excessiva para análise / interpretação manual, representando uma tarefa difícil e demorada para especialistas. Portanto, esta tese de doutorado apresenta quatro novos métodos computacionais para detectar automaticamente lesões de substância branca em imagens de ressonância magnética, baseadas principalmente nos algoritmos SLIC0 e Convolutional Neural Networks. Nosso principal objetivo é fornecer as ferramentas necessárias para que os especialistas acelerem seus trabalhos e sugiram uma segunda opinião. Dos quatro métodos propostos, o que obteve melhores resultados foi aplicado em 91 imagens de ressonância magnética, e obteve uma precisão de 97,93 por cento, especificidade de 98,02 por cento e sensibilidade de 90,12 por cento, sem utilizar nenhuma técnica de redução de candidatos. / [en] White matter lesions are non-static brain lesions that have a prevalence rate up to 98 percent in the elder population, although it is also present in the young population. Because it may be associated with several brain diseases, it is important to detect them as early as possible. Magnetic resonance imaging provides threedimensional data for visualization and analysis of soft tissues as it contains rich information about their anatomy. However, the amount of data acquired for these images may be too much for manual analysis/interpretation alone, representing a difficult and time-consuming task for specialists. Therefore, this doctoral thesis presents four new computational methods to automatically detect white matter lesions in magnetic resonance images, based mainly on algorithms SLIC0 and Convolutional Neural Networks. Our primary objective is to provide the necessary tools for specialists to accelerate their works and suggest a second opinion. From the four proposed methods, the one that achieved best results was applied on 91 magnetic resonance images, and achieved an accuracy of 97.93 percent, specificity of 98,02 percent and sensitivity of 90,12 percent, without using any candidate reduction techniques. [pt] RESSONANCIA MAGNETICA [en] MAGNETIC RESONANCE [pt] LESAO NA SUBSTANCIA BRANCA [en] WHITE MATTER LESION [pt] DETECCAO AUXILIADA POR COMPUTADOR [en] COMPUTER-AIDED DETECTION [pt] REDES NEURAIS CONVOLUCIONAIS [en] CONVOLUTIONAL NEURAL NETWORKS [pt] SLIC0 [en] SLIC0
24	[pt] APLICAÇÃO DE REDES TOTALMENTE CONVOLUCIONAIS PARA A SEGMENTAÇÃO SEMÂNTICA DE IMAGENS DE DRONES, AÉREAS E ORBITAIS / [en] APPLYING FULLY CONVOLUTIONAL ARCHITECTURES FOR THE SEMANTIC SEGMENTATION OF UAV, AIRBORN, AND SATELLITE REMOTE SENSING IMAGERY 14 December 2020 (has links) [pt] A crescente disponibilidade de dados de sensoriamento remoto vem criando novas oportunidades e desafios em aplicações de monitoramento de processos naturais e antropogénicos em escala global. Nos últimos anos, as técnicas de aprendizado profundo tornaram-se o estado da arte na análise de dados de sensoriamento remoto devido sobretudo à sua capacidade de aprender automaticamente atributos discriminativos a partir de grandes volumes de dados. Um dos problemas chave em análise de imagens é a segmentação semântica, também conhecida como rotulação de pixels. Trata-se de atribuir uma classe a cada sítio de imagem. As chamadas redes totalmente convolucionais de prestam a esta função. Os anos recentes têm testemunhado inúmeras propostas de arquiteturas de redes totalmente convolucionais que têm sido adaptadas para a segmentação de dados de observação da Terra. O presente trabalho avalias cinco arquiteturas de redes totalmente convolucionais que representam o estado da arte em segmentação semântica de imagens de sensoriamento remoto. A avaliação considera dados provenientes de diferentes plataformas: veículos aéreos não tripulados, aeronaves e satélites. Cada um destes dados refere-se a aplicações diferentes: segmentação de espécie arbórea, segmentação de telhados e desmatamento. O desempenho das redes é avaliado experimentalmente em termos de acurácia e da carga computacional associada. O estudo também avalia os benefícios da utilização do Campos Aleatórios Condicionais (CRF) como etapa de pósprocessamento para melhorar a acurácia dos mapas de segmentação. / [en] The increasing availability of remote sensing data has created new opportunities and challenges for monitoring natural and anthropogenic processes on a global scale. In recent years, deep learning techniques have become state of the art in remote sensing data analysis, mainly due to their ability to learn discriminative attributes from large volumes of data automatically. One of the critical problems in image analysis is the semantic segmentation, also known as pixel labeling. It involves assigning a class to each image site. The so-called fully convolutional networks are specifically designed for this task. Recent years have witnessed numerous proposals for fully convolutional network architectures that have been adapted for the segmentation of Earth observation data. The present work evaluates five fully convolutional network architectures that represent the state of the art in semantic segmentation of remote sensing images. The assessment considers data from different platforms: unmanned aerial vehicles, airplanes, and satellites. Three applications are addressed: segmentation of tree species, segmentation of roofs, and deforestation. The performance of the networks is evaluated experimentally in terms of accuracy and the associated computational load. The study also assesses the benefits of using Conditional Random Fields (CRF) as a post-processing step to improve the accuracy of segmentation maps. [pt] SENSORIAMENTO REMOTO [pt] PLATAFORMAS DE SENSORIAMENTO REMOTO [pt] SEGMENTACAO SEMANTICA [pt] REDES TOTALMENTE CONVOLUCIONAIS [pt] APRENDIZADO PROFUNDO [en] REMOTE SENSING [en] REMOTE SENSING PLATFORMS [en] PIXEL-WISE SEMANTIC SEGMENTATION [en] FULLY CONVOLUTIONAL NETWORKS [en] DEEP LEARNING
25	[en] USE OF DEEP CONVOLUTIONAL NEURAL NETWORKS IN AUTOMATIC RECOGNITION AND CLASSIFICATION OF COAL MACERALS / [pt] USO DE REDES NEURAIS CONVOLUCIONAIS PROFUNDAS PARA RECONHECIMENTO E CLASSIFICAÇÃO AUTOMÁTICAS DE MACERAIS DE CARVÃO RICHARD BRYAN MAGALHAES SANTOS 09 November 2022 (has links) [pt] Diferentemente de muitas outras rochas, o carvão é uma rocha sedimentar composta principalmente de matéria orgânica derivada de detritos vegetais, acumulados em turfeiras em diferentes períodos geológicos. O carvão é um recurso econômico essencial em muitos países, tendo sido a principal força motriz por trás da revolução industrial. O carvão é amplamente utilizado industrialmente para diversos fins: carbonização e produção de coque, produção de ferro/aço, carvão térmico para gerar eletricidade, liquefação e gaseificação. A utilização do carvão é ditada pelas suas propriedades que são geralmente classificadas como sua composição, rank e grau. A composição do carvão, em termos dos seus macerais, e a sua classificação são determinadas manualmente por um petrógrafo, devido à sua natureza complexa. Este estudo almejou desenvolver um método automático baseado na aprendizagem de máquina para segmentação automática de macerais a nível de grupo e um módulo para determinação de rank por refletância em imagens petrográficas do carvão que pode melhorar a eficiência deste processo e diminuir a subjetividade do operador. foi desenvolvida uma abordagem de aprendizagem profunda da arquitetura baseada na Mask R-CNN para identificar e segmentar o grupo de maceral vitrinite, o qual é fundamental para a análise do rank, uma vez que a classificação é determinada pela reflectância da collotelinite (maceral desse grupo). Em segundo lugar, foi desenvolvido um método de processamento de imagem para analisar as imagens segmentadas de vitrinite e determinar a classificação do carvão, associando os valores cinzentos à reflectância. Para a segmentação de maceral, foram utilizadas cinco amostras para treinar a rede, 174 imagens foram utilizadas para treino, e 86 foram utilizadas para validação, com os melhores resultados obtidos para os modelos de vitrinite, inertinita, liptinita e colotelinita (89,23%, 68,81%, 37,00% e 84,77% F1-score, respectivamente). Essas amostras foram utilizadas juntamente com outras oito amostras para determinar os resultados de classificação utilizando a reflectância de collotelinite. As amostras variaram entre 0,97% e 1,8% de reflectância. Este método deverá ajudar a poupar tempo e mão-de-obra para análise, se implementado num modelo de produção. O desvio médio quadrático entre o método proposto e os valores de reflectância de referência foi de 0,0978. / [en] Unlike most other rocks, coal is a sedimentary rock composed primarily of organic matter derived from plant debris that accumulated in peat mires during different geological periods. Coal is also an essential economic resource in many countries, having been the main driving force behind the industrial revolution. Coal is still widely used industrially for many different purposes: carbonization and coke production, iron/steel making, thermal coal to generate electricity, liquefaction, and gasification. The utility of the coal is dictated by its properties which are commonly referred to as its rank, type, and grade. Coal composition, in terms of its macerals, and its rank determination are determined manually by a petrographer due to its complex nature. This study aimed to develop an automatic method based on machine learning capable of maceral segmentation at group level followed by a module for rank reflectance determination on petrographic images of coal that can improve the efficiency of this process and decrease operator subjectivity. Firstly, a Mask R-CNN-based architecture deep learning approach was developed to identify and segment the vitrinite maceral group, which is fundamental for rank analysis, as rank is determined by collotelinite reflectance (one of its individual macerals). Secondly, an image processing method was developed to analyze the vitrinite segmented images and determine coal rank by associating the grey values with the reflectance. For the maceral (group) segmentation, five samples were used to train the network, 174 images were used for training, and 86 were used for testing, with the best results obtained for the vitrinite, inertinite, liptinite, and collotelinite models (89.23%, 68.81%, 37.00% and 84.77% F1-score, respectively). Those samples were used alongside another eight samples to determine the rank results utilizing collotelinite reflectance. The samples ranged from 0.97% to 1.8% reflectance. This method should help save time and labor for analysis if implemented into a production model. The root mean square calculated between the proposed method and the reference reflectance values was 0.0978. [pt] PROCESSAMENTO DIGITAL DE IMAGENS [pt] ANALISE DE MACERAIS [pt] PETROGRAFIA DE CARVAO [pt] REFLETANCIA DE VITRINITA [pt] REDES NEURAIS CONVOLUCIONAIS [en] DIGITAL PROCESSING OF IMAGES [en] MACERAL ANALYSIS [en] COAL PETROGRAPHY [en] VITRINITE REFLECTANCE [en] CONVOLUTIONAL NEURAL NETWORKS
26	[pt] APRENDIZADO PROFUNDO APLICADO NA LOCALIZAÇÃO DE CORPOS ESTRANHOS FERROMAGNÉTICOS EM HUMANOS / [en] DEEP LEARNING APPLIED TO LOCATING FERROMAGNETIC FOREIGN BODIES IN HUMANS MARCOS ROGOZINSKI 19 January 2022 (has links) [pt] Corpos estranhos ferromagnéticos inseridos acidentalmente em pacientes geralmente precisam de remoção cirúrgica. Os métodos convencionalmente empregados para localizar corpos estranhos são frequentemente ineficazes devido à baixa precisão na determinação da posição do objeto e representam riscos decorrentes da exposição da equipe médica e dos pacientes à radiação ionizante durante procedimentos de longa duração. Novos métodos utilizando sensores SQUID têm obtido sucesso na localização de corpos estranhos de forma inócua e não invasiva, mas têm a desvantagem de apresentar alto custo e baixa portabilidade. Este trabalho faz parte de pesquisas que buscam trazer maior portabilidade e baixo custo na localização de corpos estranhos no corpo humano utilizando sensores GMI e GMR. O objetivo principal deste trabalho é avaliar e aplicar o uso de Aprendizado Profundo para a localização de corpos estranhos ferromagnéticos no corpo humano utilizando um dispositivo portátil e manual baseado em magnetômetro GMR, incluindo o rastreamento da posição e orientação deste dispositivo a partir de imagens de padrões conhecidos obtidas por uma câmera integrada ao dispositivo e a solução do problema inverso magnético a partir do mapeamento magnético obtido. As técnicas apresentadas se mostraram capazes de rastrear o dispositivo com boa precisão e detectar a localização do corpo estranho com resultados semelhantes ou melhores do que os obtidos em trabalhos anteriores, dependendo do parâmetro. Os resultados obtidos são promissores como base para desenvolvimentos futuros. / [en] Ferromagnetic foreign bodies accidentally inserted in patients usually need to be surgically removed. The methods conventionally employed for locating foreign bodies are often ineffective due to the low accuracy in determining the position of the object and pose risks arising from the exposure of medical staff and patients to ionizing radiation during long-term procedures. New methods using SQUID sensors successfully located foreign bodies in an innocuous and noninvasive way, but they have the drawback of presenting high cost and low portability. This work is part of new research that seeks to bring greater portability and low cost in locating foreign bodies in the human body using GMI and GMR sensors. The main objective of this work is to evaluate and apply the use of Deep Learning in the development of a portable and manual device based on a GMR sensor, including position tracking and orientation of this device from images of known patterns obtained by a camera integrated to the device and the solution of the inverse magnetic problem from the obtained magnetic mapping. The techniques presented are capable of tracking the device with good accuracy and detecting the localization of the foreign body with similar or better results than those obtained in previous works, depending on the parameter. The results obtained are promising as a basis for future developments. [pt] METROLOGIA [pt] RASTREAMENTO DE DISPOSITIVO [pt] MAGNETOMETRO GMR [pt] CORPOS ESTRANHOS FERROMAGNETICOS [pt] REDES NEURAIS CONVOLUCIONAIS [pt] APRENDIZADO PROFUNDO [en] METROLOGY [en] DEVICE TRACKING [en] GMR MAGNETOMETER [en] FERROMAGNETIC FOREIGN BODIES [en] CONVOLUTIONAL NEURAL NETWORKS [en] DEEP LEARNING
27	[en] SUPER-RESOLUTION IN TOMOGRAPHIC IMAGES OF IRON ORE BRIQUETTES EMPLOYING DEEP LEARNING / [pt] SUPER-RESOLUÇÃO EM IMAGENS TOMOGRÁFICAS DE BRIQUETES DE MINÉRIO DE FERRO UTILIZANDO APRENDIZADO PROFUNDO BERNARDO AMARAL PASCARELLI FERREIRA 11 October 2023 (has links) [pt] A indústria mineral vem presenciando, ao longo das últimas décadas, uma redução da qualidade de minério de ferro extraído e o surgimento de novas demandas ambientais. Esta conjuntura fortalece a busca por produtos provenientes do minério de ferro que atendam aos requisitos da indústria siderúrgica, como é o caso de novos aglomerados de minério de ferro. A Microtomografia de Raios-X (microCT) permite a caracterização da estrutura tridimensional de uma amostra, com resolução micrométrica, de forma não-destrutiva. Entretanto, tal técnica apresenta diversas limitações. Quanto melhor a resolução, maior o tempo de análise e menor o volume de amostra adquirido. Modelos de Super Resolução (SR), baseados em Deep Learning, são uma poderosa ferramenta para aprimorar digitalmente a resolução de imagens tomográficas adquiridas em pior resolução. Este trabalho propõe o desenvolvimento de uma metodologia para treinar três modelos de SR, baseados na arquitetura EDSR, a partir de imagens tomográficas de briquetes de redução direta: Um modelo para aumento de resolução de 16 um para 6 um, outro para aumento de 6 um para 2 um, e o terceiro para aumento de 4 um para 2 um. Esta proposta tem como objetivo mitigar as limitações do microCT, auxiliando o desenvolvimento de novas metodologias de Processamento Digital de Imagens para os aglomerados. A metodologia inclui diferentes propostas para avaliação do desempenho da SR, como comparação de PSNR e segmentação de poros. Os resultados apontam que a SR foi capaz de aprimorar a resolução das imagens tomográficas e mitigar ruídos habituais da tomografia. / [en] The mining industry has been witnessing a reduction of extracted iron ore s quality and the advent of new environmental demands. This situation reinforces a search for iron ore products that meet the requirements of the steel industry, such as new iron ore agglomerates. X-ray microtomography (microCT) allows the characterization of a sample s three-dimensional structure, with micrometer resolution, in a non-destructive analysis. However, this technique presents several limitations. Better resolutions greatly increase analysis time and decrease the acquired sample’s volume. Super-Resolution (SR) models, based on Deep Learning, are a powerful tool to digitally enhance the resolution of tomographic images acquired at lower resolutions. This work proposes the development of a methodology to train three SR models, based on EDSR architecture, using tomographic images of direct reduction briquettes: A model for enhancing the resolution from 16 um to 6 um, another for enhancing from 6 um to 2 um, and the third for enhancing 4 um to 2 um. This proposal aims to mitigate the limitations of microCT, assisting the development and implementation of new Digital Image Processing methodologies for agglomerates. The methodology includes different proposals for SR s performance evaluation, such as PSNR comparison and pore segmentation. The results indicate that SR can improve the resolution of tomographic images and reduce common tomography noise. [pt] VISAO COMPUTACIONAL [pt] SUPER-RESOLUCAO DE UNICA FIGURA [pt] CARACTERIZACAO MINERAL [pt] REDES NEURAIS CONVOLUCIONAIS [pt] APRENDIZADO PROFUNDO [pt] MICROTOMOGRAFIA DE RAIOS-X [en] COMPUTER VISION [en] SINGLE IMAGE SUPER RESOLUTION [en] MINERAL CHARACTERIZATION [en] CONVOLUTIONAL NEURAL NETWORKS [en] DEEP LEARNING [en] X-RAY MICROTOMOGRAPHY
28	[en] DISCRIMINATION OF PORES AND CRACKS IN IRON ORE PELLETS USING DEEP LEARNING NEURAL NETWORKS / [pt] DISCRIMINAÇÃO DE POROS E TRINCAS EM PELOTAS DE MINÉRIO DE FERRO UTILIZANDO REDES NEURAIS EMANUELLA TARCIANA VICENTE BEZERRA 20 May 2021 (has links) [pt] O processo de formação de pelotas de minério de ferro consiste na preparação das matérias-primas, formação da pelota crua e endurecimento por meio da queima. O produto final deve ser um material poroso que permita a difusão de gases no forno de redução e que, simultaneamente, resista a compressão, característica relevante durante o transporte e no carregamento do forno. No entanto, durante o tratamento térmico e o transporte podem surgir trincas que comprometem a integridade das pelotas. A discriminação de poros e trincas é, portanto, um importante fator para a análise microestrutural e controle de qualidade do material. A microtomografia de raios-x é uma técnica não destrutiva que gera imagens tridimensionais, o que permite uma visualização completa da pelota. No entanto, a metodologia usual de processamento digital de imagens, baseada em extração de atributos de tamanho e forma, apresenta limitações para discriminar poros de trincas. Redes Neurais Deep Learning são uma alternativa poderosa para classificar tipos de objetos em imagens, utilizando como entrada as intensidades dos pixels e atributos automaticamente determinados pela rede. Após treinar um modelo com os padrões correspondente a cada classe, é possível atribuir cada pixel da imagem a uma das classes presentes, permitindo uma segmentação semântica. Nesta dissertação, otimizou-se uma rede Deep Learning com arquitetura U-Net, usando como conjunto de treinamento poucas camadas 2D da imagem 3D original. Aplicando o modelo à pelota utilizada no treinamento foi possível discriminar poros de trincas de forma adequada. A aplicação do modelo a outras pelotas exigiu a incorporação de camadas destas pelotas ao treinamento e otimização de parâmetros do modelo. Os resultados apresentaram classificação adequada, apesar de apresentar dificuldades de criar um modelo geral para discriminação entre poros e trincas em pelotas de minério de ferro. / [en] The iron ore pellet forming process consists of preparing the raw materials, forming the raw pellet and hardening by firing. The end product must be a porous material which allows gas to diffuse in the blast furnace and at the same time resists compression, which is a relevant feature during transport and loading of the furnace. However, during heat treatment and transport cracks may appear that compromise the integrity of the pellets. The discrimination of pores and cracks is therefore an important factor for microstructural analysis and material quality control. X-ray microtomography is a non-destructive technique that generates three-dimensional images, allowing a full view of the pellet. However, the usual methodology of digital image processing, based on extraction of size and shape attributes, has limitations to discriminate crack from pores. Deep Learning Neural Networks are a powerful alternative to classifying object types in images, using as input the pixel intensities and attributes automatically determined by the network. After training a model with the patterns corresponding to each class, it is possible to assign each pixel of the image to one of the classes present, allowing a semantic segmentation. In this dissertation, a Deep Learning network with U-Net architecture was optimized, using as a training set a few 2D layers of the original 3D image. Applying the model to the pellet used in training it was possible to discriminate cracks pores properly. Application of the model to other pellets required the incorporation of layers of these pellets into the training and optimization of model parameters. The results were adequately classified, despite the difficulty of creating a general model for discrimination between pores and cracks in iron ore pellets. [pt] ANALISE DE IMAGENS [pt] PELOTAS DE MINERIO DE FERRO [pt] REDES NEURAIS CONVOLUCIONAIS [pt] DEEP LEARNING [pt] MICROTOMOGRAFIA DE RAIOS X [en] IMAGE ANALYSIS [en] IRON ORE PELLETS [en] CONVOLUTIONAL NEURAL NETWORKS [en] DEEP LEARNING [en] X-RAY MICROTOMOGRAPHY
29	[pt] APLICAÇÕES DE APRENDIZADO PROFUNDO NO MONITORAMENTO DE CULTURAS: CLASSIFICAÇÃO DE TIPO, SAÚDE E AMADURECIMENTO DE CULTURAS / [en] APPLICATIONS OF DEEP LEARNING FOR CROP MONITORING: CLASSIFICATION OF CROP TYPE, HEALTH AND MATURITY GABRIEL LINS TENORIO 18 May 2020 (has links) [pt] A eficiência de culturas pode ser aprimorada monitorando-se suas condições de forma contínua e tomando-se decisões baseadas em suas análises. Os dados para análise podem ser obtidos através de sensores de imagens e o processo de monitoramento pode ser automatizado utilizando-se algoritmos de reconhecimento de imagem com diferentes níveis de complexidade. Alguns dos algoritmos de maior êxito estão relacionados a abordagens supervisionadas de aprendizagem profunda (Deep Learning) as quais utilizam formas de Redes Neurais de Convolucionais (CNNs). Nesta dissertação de mestrado, empregaram-se modelos de aprendizagem profunda supervisionados para classificação, regressão, detecção de objetos e segmentação semântica em tarefas de monitoramento de culturas, utilizando-se amostras de imagens obtidas através de três níveis distintos: Satélites, Veículos Aéreos Não Tripulados (UAVs) e Robôs Terrestres Móveis (MLRs). Ambos satélites e UAVs envolvem o uso de imagens multiespectrais. Para o primeiro nível, implementou-se um modelo CNN baseado em Transfer Learning para a classificação de espécies vegetativas. Aprimorou-se o desempenho de aprendizagem do transfer learning através de um método de análise estatística recentemente proposto. Na sequência, para o segundo nível, implementou-se um algoritmo segmentação semântica multitarefa para a detecção de lavouras de cana-de-açúcar e identificação de seus estados (por exemplo, saúde e idade da cultura). O algoritmo também detecta a vegetação ao redor das lavouras, sendo relevante na busca por ervas daninhas. No terceiro nível, implementou-se um algoritmo Single Shot Multibox Detector para detecção de cachos de tomate. De forma a avaliar o estado dos cachos, utilizaram-se duas abordagens diferentes: uma implementação baseada em segmentação de imagens e uma CNN supervisionada adaptada para cálculos de regressão capaz de estimar a maturação dos cachos de tomate. De forma a quantificar cachos de tomate em vídeos para diferentes estágios de maturação, empregou-se uma implementação de Região de Interesse e propôs-se um sistema de rastreamento o qual utiliza informações temporais. Para todos os três níveis, apresentaram-se soluções e resultados os quais superam as linhas de base do estado da arte. / [en] Crop efficiency can be improved by continually monitoring their state and making decisions based on their analysis. The data for analysis can be obtained through images sensors and the monitoring process can be automated by using image recognition algorithms with different levels of complexity. Some of the most successful algorithms are related to supervised Deep Learning approaches which use a form of Convolutional Neural Networks (CNNs). In this master s dissertation, we employ supervised deep learning models for classification, regression, object detection, and semantic segmentation in crop monitoring tasks, using image samples obtained through three different levels: Satellites, Unmanned Aerial Vehicles (UAVs) and Unmanned Ground Vehicles (UGVs). Both satellites and UAVs levels involve the use of multispectral images. For the first level, we implement a CNN model based on transfer learning to classify vegetative species. We also improve the transfer learning performance by a newly proposed statistical analysis method. Next, for the second level, we implement a multi-task semantic segmentation algorithm to detect sugarcane crops and infer their state (e.g. crop health and age). The algorithm also detects the surrounding vegetation, being relevant in the search for weeds. In the third level, we implement a Single Shot Multibox detector algorithm to detect tomato clusters. To evaluate the cluster s state, we use two different approaches: an implementation based on image segmentation and a supervised CNN regressor capable of estimating their maturity. In order to quantify the tomato clusters in videos at different maturation stages, we employ a Region of Interest implementation and also a proposed tracking system which uses temporal information. For all the three levels, we present solutions and results that outperform state-of-the art baselines. [pt] TRANSFERENCIA DE APRENDIZADO [pt] AGRICULTURA DE PRECISAO [pt] SEGMENTACAO SEMANTICA [pt] REDES NEURAIS CONVOLUCIONAIS [pt] APRENDIZAGEM PROFUNDA [en] TRANSFER LEARNING [en] PRECISION AGRICULTURE [en] PIXEL-WISE SEMANTIC SEGMENTATION [en] CONVOLUTIONAL NEURAL NETWORKS [en] DEEP LEARNING
30	RAMBLE: robust acoustic modeling for Brazilian learners of English / RAMBLE: modelagem acústica robusta para estudantes brasileiros de Inglês Shulby, Christopher Dane 08 August 2018 (has links) The gains made by current deep-learning techniques have often come with the price tag of big data and where that data is not available, a new solution must be found. Such is the case for accented and noisy speech where large databases do not exist and data augmentation techniques, which are less than perfect, present an even larger obstacle. Another problem is that state-of-the-art results are rarely reproducible because they use proprietary datasets, pretrained networks and/or weight initializations from other larger networks. An example of a low resource scenario exists even in the fifth largest land in the world; home to most of the speakers of the seventh most spoken language on earth. Brazil is the leader in the Latin-American economy and as a BRIC country aspires to become an ever-stronger player in the global marketplace. Still, English proficiency is low, even for professionals in businesses and universities. Low intelligibility and strong accents can damage professional credibility. It has been established in the literature for foreign language teaching that it is important that adult learners are made aware of their errors as outlined by the Noticing Theory, explaining that a learner is more successful when he is able to learn from his own mistakes. An essential objective of this dissertation is to classify phonemes in the acoustic model which is needed to properly identify phonemic errors automatically. A common belief in the community is that deep learning requires large datasets to be effective. This happens because brute force methods create a highly complex hypothesis space which requires large and complex networks which in turn demand a great amount of data samples in order to generate useful networks. Besides that, the loss functions used in neural learning does not provide statistical learning guarantees and only guarantees the network can memorize the training space well. In the case of accented or noisy speech where a new sample can carry a great deal of variation from the training samples, the generalization of such models suffers. The main objective of this dissertation is to investigate how more robust acoustic generalizations can be made, even with little data and noisy accented-speech data. The approach here is to take advantage of raw feature extraction provided by deep learning techniques and instead focus on how learning guarantees can be provided for small datasets to produce robust results for acoustic modeling without the dependency of big data. This has been done by careful and intelligent parameter and architecture selection within the framework of the statistical learning theory. Here, an intelligently defined CNN architecture, together with context windows and a knowledge-driven hierarchical tree of SVM classifiers achieves nearly state-of-the-art frame-wise phoneme recognition results with absolutely no pretraining or external weight initialization. A goal of this thesis is to produce transparent and reproducible architectures with high frame-level accuracy, comparable to the state of the art. Additionally, a convergence analysis based on the learning guarantees of the statistical learning theory is performed in order to evidence the generalization capacity of the model. The model achieves 39.7% error in framewise classification and a 43.5% phone error rate using deep feature extraction and SVM classification even with little data (less than 7 hours). These results are comparable to studies which use well over ten times that amount of data. Beyond the intrinsic evaluation, the model also achieves an accuracy of 88% in the identification of epenthesis, the error which is most difficult for Brazilian speakers of English This is a 69% relative percentage gain over the previous values in the literature. The results are significant because it shows how deep feature extraction can be applied to little data scenarios, contrary to popular belief. The extrinsic, task-based results also show how this approach could be useful in tasks like automatic error diagnosis. Another contribution is the publication of a number of freely available resources which previously did not exist, meant to aid future researches in dataset creation. / Os ganhos obtidos pelas atuais técnicas de aprendizado profundo frequentemente vêm com o preço do big data e nas pesquisas em que esses grandes volumes de dados não estão disponíveis, uma nova solução deve ser encontrada. Esse é o caso do discurso marcado e com forte pronúncia, para o qual não existem grandes bases de dados; o uso de técnicas de aumento de dados (data augmentation), que não são perfeitas, apresentam um obstáculo ainda maior. Outro problema encontrado é que os resultados do estado da arte raramente são reprodutíveis porque os métodos usam conjuntos de dados proprietários, redes prétreinadas e/ou inicializações de peso de outras redes maiores. Um exemplo de um cenário de poucos recursos existe mesmo no quinto maior país do mundo em território; lar da maioria dos falantes da sétima língua mais falada do planeta. O Brasil é o líder na economia latino-americana e, como um país do BRIC, deseja se tornar um participante cada vez mais forte no mercado global. Ainda assim, a proficiência em inglês é baixa, mesmo para profissionais em empresas e universidades. Baixa inteligibilidade e forte pronúncia podem prejudicar a credibilidade profissional. É aceito na literatura para ensino de línguas estrangeiras que é importante que os alunos adultos sejam informados de seus erros, conforme descrito pela Noticing Theory, que explica que um aluno é mais bem sucedido quando ele é capaz de aprender com seus próprios erros. Um objetivo essencial desta tese é classificar os fonemas do modelo acústico, que é necessário para identificar automaticamente e adequadamente os erros de fonemas. Uma crença comum na comunidade é que o aprendizado profundo requer grandes conjuntos de dados para ser efetivo. Isso acontece porque os métodos de força bruta criam um espaço de hipóteses altamente complexo que requer redes grandes e complexas que, por sua vez, exigem uma grande quantidade de amostras de dados para gerar boas redes. Além disso, as funções de perda usadas no aprendizado neural não fornecem garantias estatísticas de aprendizado e apenas garantem que a rede possa memorizar bem o espaço de treinamento. No caso de fala marcada ou com forte pronúncia, em que uma nova amostra pode ter uma grande variação comparada com as amostras de treinamento, a generalização em tais modelos é prejudicada. O principal objetivo desta tese é investigar como generalizações acústicas mais robustas podem ser obtidas, mesmo com poucos dados e/ou dados ruidosos de fala marcada ou com forte pronúncia. A abordagem utilizada nesta tese visa tirar vantagem da raw feature extraction fornecida por técnicas de aprendizado profundo e obter garantias de aprendizado para conjuntos de dados pequenos para produzir resultados robustos para a modelagem acústica, sem a necessidade de big data. Isso foi feito por meio de seleção cuidadosa e inteligente de parâmetros e arquitetura no âmbito da Teoria do Aprendizado Estatístico. Nesta tese, uma arquitetura baseada em Redes Neurais Convolucionais (RNC) definida de forma inteligente, junto com janelas de contexto e uma árvore hierárquica orientada por conhecimento de classificadores que usam Máquinas de Vetores Suporte (Support Vector Machines - SVMs) obtém resultados de reconhecimento de fonemas baseados em frames quase no estado da arte sem absolutamente nenhum pré-treinamento ou inicialização de pesos de redes externas. Um objetivo desta tese é produzir arquiteturas transparentes e reprodutíveis com alta precisão em nível de frames, comparável ao estado da arte. Adicionalmente, uma análise de convergência baseada nas garantias de aprendizado da teoria de aprendizagem estatística é realizada para evidenciar a capacidade de generalização do modelo. O modelo possui um erro de 39,7% na classificação baseada em frames e uma taxa de erro de fonemas de 43,5% usando raw feature extraction e classificação com SVMs mesmo com poucos dados (menos de 7 horas). Esses resultados são comparáveis aos estudos que usam bem mais de dez vezes essa quantidade de dados. Além da avaliação intrínseca, o modelo também alcança uma precisão de 88% na identificação de epêntese, o erro que é mais difícil para brasileiros falantes de inglês. Este é um ganho relativo de 69% em relação aos valores anteriores da literatura. Os resultados são significativos porque mostram como raw feature extraction pode ser aplicada a cenários de poucos dados, ao contrário da crença popular. Os resultados extrínsecos também mostram como essa abordagem pode ser útil em tarefas como o diagnóstico automático de erros. Outra contribuição é a publicação de uma série de recursos livremente disponíveis que anteriormente não existiam, destinados a auxiliar futuras pesquisas na criação de conjuntos de dados. Acoustic modeling Aprendizado profundo Computer vision Convolutional neural networks Deep learning Máquinas de vetores de suporte Modelagem acústica Non-native phoneme recognition Processamento de fala Reconhecimento de fonemas não nativos Redes neurais convolucionais Speech processing Statistical learning theory Support vector machines Teoria do aprendizado estatístico Visão computacional

Search results