Spelling suggestions: "subject:"aprendizagem profunda"" "subject:"prendizagem profunda""
1 |
Detecção de pornografia infantil em imagens através de técnicas de aprendizado profundo / Child pornography image detection through deep learning techniquesVitorino, Paulo Roberto Rocha 14 December 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-02-22T20:04:46Z
No. of bitstreams: 1
2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Approved for entry into archive by Ruthléa Nascimento(ruthleanascimento@bce.unb.br) on 2017-02-24T19:20:18Z (GMT) No. of bitstreams: 1
2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Made available in DSpace on 2017-02-24T19:20:18Z (GMT). No. of bitstreams: 1
2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Este trabalho apresenta uma nova abordagem para detecção de automática de pornográfica infantil em imagens, que se utiliza de técnicas de aprendizado profundo para extração das características discriminadoras de imagens, e um classificador de padrões baseado em máquinas de vetores de suporte, para determinar se as imagens contêm, ou não, pornografia infantil (PI). Adicionalmente, também é proposta técnica baseada em sacolas de palavras para resolver o problema. As soluções desenvolvidas atingem um acerto de +87% de acurácia de classificação quando separando conteúdo de pornografia infantil de conteúdos de pornografia geral e imagens normais, sobressaindo-se em relação às técnicas existentes na literatura. / In this work, we present a new method for automatic detection of sexually exploitative imagery of children (SEIC) or child pornography content. Our solution leverages cutting-edge concepts of deep learning – for extracting discriminative features from images – and the support vector machine classifier, it point out whether or not an image contains child pornography content. Moreover, it is also proposed one technique based on bags of visual words methodology to deal with this difficult problem. The developed solutions lead to as much as 87% classification accuracy when separating SEIC content from adult (adult pornography) and other seemingly innocuous content (everyday image content) clearly outperforming existing counterparts in the literature.
|
2 |
Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda / A vídeo scene segmentation method based on deep learnigTrojahn, Tiago Henrique 27 June 2019 (has links)
A segmentação automática de vídeo em cenas é um problema atual e relevante dado sua aplicação em diversos serviços ligado à área de multimídia. Dentre as diferentes técnicas reportadas pela literatura, as multimodais são consideradas mais promissoras, dado a capacidade de extrair informações de diferentes mídias de maneira potencialmente complementar, possibilitando obter segmentações mais significativas. Ao usar informações de diferentes naturezas, tais técnicas enfrentam dificuldades para modelar e obter uma representação combinada das informações ou com elevado custo ao processar cada fonte de informação individualmente. Encontrar uma combinação adequada de informação que aumente a eficácia da segmentação a um custo computacional relativamente baixo torna-se um desafio. Paralelamente, abordagens baseadas em Aprendizagem Profunda mostraram-se eficazes em uma ampla gama de tarefas, incluindo classificação de imagens e vídeo. Técnicas baseadas em Aprendizagem Profunda, como as Redes Neurais Convolucionais (CNNs), têm alcançado resultados impressionantes em tarefas relacionadas por conseguirem extrair padrões significativos dos dados, incluindo multimodais. Contudo, CNNs não podem aprender adequadamente os relacionamentos entre dados que estão temporalmente distribuídos entre as tomadas de uma mesma cena. Isto pode tornar a rede incapaz de segmentar corretamente cenas cujas características mudam entre tomadas. Por outro lado, Redes Neurais Recorrentes (RNNs) têm sido empregadas com sucesso em processamento textual, pois foram projetadas para analisar sequências de dados de tamanho variável e podem melhor explorar as relações temporais entre as características de tomadas relacionadas, potencialmente aumentando a eficácia da segmentação em cenas. Há uma carência de métodos de segmentação multimodais que explorem Aprendizagem Profunda. Assim, este trabalho de doutorado propõe um método automático de segmentação de vídeo em cenas que modela o problema de segmentação como um problema de classificação. O método conta com um modelo que combina o potencial de extração de padrões das CNNs com o processamento de sequencias das RNNs. O modelo proposto elimina a dificuldade de modelar representações multimodais das diferentes informações de entrada além de permitir instanciar diferentes abordagens para fusão multimodal (antecipada ou tardia). Tal método foi avaliado na tarefa de segmentação em cenas utilizando uma base de vídeos pública, comparando os resultados obtidos com os resultados de técnicas em estado-da-arte usando diferentes abordagens. Os resultados mostram um avanço significativo na eficácia obtida. / Automatic video scene segmentation is a current and relevant problem given its application in various services related to multimedia. Among the different techniques reported in the literature, the multimodal ones are considered more promising, given the ability to extract information from different media in a potentially complementary way, allowing for more significant segmentations. By processing information of different natures, such techniques faces difficulties on modeling and obtaining a combined representation of information and cost problems when processing each source of information individually. Finding a suitable combination of information that increases the effectiveness of segmentation at a relatively low computational cost becomes a challenge. At the same time, approaches based on Deep Learning have proven effective on a wide range of tasks, including classification of images and video. Techniques based on Deep Learning, such as Convolutional Neural Networks (CNNs), have achieved impressive results in related tasks by being able to extract significant patterns from data, including multimodal data. However, CNNs can not properly learn the relationships between data temporarily distributed among the shots of the same scene. This can lead the network to become unable to properly segment scenes whose characteristics change among shots. On the other hand, Recurrent Neural Networks (RNNs) have been successfully employed in textual processing since they are designed to analyze variable-length data sequences and can be developed to better explore the temporal relationships between low-level characteristics of related shots, potentially increasing the effectiveness of scene segmentation. There is a lack of multimodal segmentation methods exploring Deep Learning. Thus, this thesis proposes an automatic method for video scene segmentation that models the problem of segmentation as a classification problem. The method relies on a model developed to combine the potential for extracting patterns from CNNs with the potential for sequence processing of the RNNs. The proposed model, different from related works, eliminates the difficulty of modeling multimodal representations of the different input information, besides allowing to instantiate different approaches for multimodal (early or late) fusion. This method was evaluated in the scene segmentation task using a public video database, comparing the results obtained with the results of state-of-the-art techniques using different approaches. The results show a significant advance in the efficiency obtained.
|
3 |
Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquinaMendes, Caio César Teodoro 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
|
4 |
Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquinaCaio César Teodoro Mendes 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
|
5 |
Leannet : uma arquitetura que utiliza o contexto da cena para melhorar o reconhecimento de objetosSilva, Leandro Pereira da 27 March 2018 (has links)
Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-06-15T16:40:47Z
No. of bitstreams: 1
LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5) / Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-06-26T13:25:28Z (GMT) No. of bitstreams: 1
LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5) / Made available in DSpace on 2018-06-26T13:34:22Z (GMT). No. of bitstreams: 1
LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5)
Previous issue date: 2018-03-27 / Computer vision is the science that aims to give computers the capability of see- ing the world around them. Among its tasks, object recognition intends to classify objects and to identify where each object is in a given image. As objects tend to occur in particular environments, their contextual association can be useful to improve the object recognition task. To address the contextual awareness on object recognition task, the proposed ap- proach performs the identification of the scene context separately from the identification of the object, fusing both information in order to improve the object detection. In order to do so, we propose a novel architecture composed of two convolutional neural networks running in parallel: one for object identification and the other to the identification of the context where the object is located. Finally, the information of the two-streams architecture is concatenated to perform the object classification. The evaluation is performed using PASCAL VOC 2007 and MS COCO public datasets, by comparing the performance of our proposed approach with architectures that do not use the scene context to perform the classification of the ob- jects. Results show that our approach is able to raise in-context object scores, and reduces out-of-context objects scores. / A vis?o computacional ? a ci?ncia que permite fornecer aos computadores a ca- pacidade de verem o mundo em sua volta. Entre as tarefas, o reconhecimento de objetos pretende classificar objetos e identificar a posi??o onde cada objeto est? em uma imagem. Como objetos costumam ocorrer em ambientes particulares, a utiliza??o de seus contex- tos pode ser vantajosa para melhorar a tarefa de reconhecimento de objetos. Para utilizar o contexto na tarefa de reconhecimento de objetos, a abordagem proposta realiza a iden- tifica??o do contexto da cena separadamente da identifica??o do objeto, fundindo ambas informa??es para a melhora da detec??o do objeto. Para tanto, propomos uma nova arquite- tura composta de duas redes neurais convolucionais em paralelo: uma para a identifica??o do objeto e outra para a identifica??o do contexto no qual o objeto est? inserido. Por fim, a informa??o de ambas as redes ? concatenada para realizar a classifica??o do objeto. Ava- liamos a arquitetura proposta com os datasets p?blicos PASCAL VOC 2007 e o MS COCO, comparando o desempenho da abordagem proposta com abordagens que n?o utilizam o contexto. Os resultados mostram que nossa abordagem ? capaz de aumentar a probabili- dade de classifica??o para objetos que est?o em contexto e reduzir para objetos que est?o fora de contexto.
|
6 |
Reconhecimento de imagens de marcas de gado utilizando redes neurais convolucionais e máquinas de vetores de suporteSantos, Carlos Alexandre Silva dos 26 September 2017 (has links)
Submitted by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T17:44:17Z
No. of bitstreams: 1
Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Approved for entry into archive by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T18:24:21Z (GMT) No. of bitstreams: 1
Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Made available in DSpace on 2017-10-31T18:24:21Z (GMT). No. of bitstreams: 1
Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5)
Previous issue date: 2017-09-26 / O reconhecimento automático de imagens de marca de gado é uma necessidade para os órgãos governamentais responsáveis por esta atividade. Para auxiliar neste processo, este trabalho propõe uma arquitetura que seja capaz de realizar o reconhecimento automático dessas marcas. Nesse sentido, uma arquitetura foi implementada e experimentos foram realizados com dois métodos: Bag-of-Features e Redes Neurais Convolucionais (CNN). No método Bag-of-Features foi utilizado o algoritmo SURF para extração de pontos de interesse das imagens e para criação do agrupa mento de palavras visuais foi utilizado o clustering K-means. O método Bag-of-Features apresentou acurácia geral de 86,02% e tempo de processamento de 56,705 segundos para um conjunto de 12 marcas e 540 imagens. No método CNN foi criada uma rede completa com 5 camadas convolucionais e 3 camadas totalmente conectadas. A 1 ª camada convolucional teve como entrada imagens transformadas para o formato de cores RGB. Para ativação da CNN foi utilizada a função ReLU, e a técnica de maxpooling para redução. O método CNN apresentou acurácia geral de 93,28% e tempo de processamento de 12,716 segundos para um conjunto de 12 marcas e 540 imagens. O método CNN consiste de seis etapas: a) selecionar o banco de imagens; b) selecionar o modelo de CNN pré-treinado; c) pré-processar as imagens e aplicar a CNN; d) extrair as características das imagens; e) treinar e classificar as imagens utilizando SVM; f) avaliar os resultados da classificação. Os experimentos foram realizados utilizando o conjunto de imagens de marcas de gado de uma prefeitura municipal. Para avaliação do desempenho da arquitetura proposta foram utilizadas as métricas de acurácia geral, recall, precisão, coeficiente Kappa e tempo de processamento. Os resultados obtidos foram satisfatórios, nos quais o método CNN apresentou os melhores resultados em comparação ao método Bag-of-Features, sendo 7,26% mais preciso e 43,989 segundos mais rápido. Também foram realizados experimentos com o método CNN em conjuntos de marcas com número maior de amostras, o qual obteve taxas de acurácia geral de 94,90% para 12 marcas e 840 imagens, e 80,57% para 500 marcas e 22.500 imagens, respectivamente. / The automatic recognition of cattle branding is a necessity for government agencies responsible for this activity. In order to improve this process, this work proposes an architecture which is able of performing the automatic recognition of these brandings. The proposed software implements two methods, namely: Bag-of-Features and CNN. For the Bag-of-Features method, the SURF algorithm was used in order to extract points of interest from the images. We also used K-means clustering to create the visual word cluster. The Bag-of-Features method presented a overall accuracy of 86.02% and a processing time of 56.705 seconds in a set containing 12 brandings and 540 images. For the CNN method, we created a complete network with five convolutional layers, and three layers fully connected. For the 1st convolutional layer we converted the input images into the RGB color for mat. In order to activate the CNN, we performed an application of the ReLU, and used the maxpooling technique for the reduction. The CNN method presented 93.28% of overall accuracy and a processing time of 12.716 seconds for a set containing 12 brandings and 540 images. The CNN method includes six steps: a) selecting the image database; b) selecting the pre-trained CNN model; c) pre-processing the images and applying the CNN; d) extracting the features from the images; e) training and classifying the images using SVM; f) assessing the classification results. The experiments were performed using the cattle branding image set of a City Hall. Metrics of overall accuracy, recall, precision, Kappa coefficient, and processing time were used in order to assess the performance of the proposed architecture. Results were satisfactory. The CNN method showed the best results when compared to Bag-of-Features method, considering that it was 7.26% more accurate and 43.989 seconds faster. Also, some experiments were conducted with the CNN method for sets of brandings with a greater number of samples. These larger sets presented a overall accuracy rate of 94.90% for 12 brandings and 840 images, and 80.57% for 500 brandings and 22,500 images, respectively.
|
7 |
Diagnóstico de nódulos pulmonares em imagens de tomografia computadorizada usando redes neurais convolucionais evolutivasSilva, Giovanni Lucca França da 31 January 2017 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-05-30T19:36:59Z
No. of bitstreams: 1
GiovanniLucca.pdf: 1608375 bytes, checksum: 90ad0a568a12b861d1a2a3467c275a12 (MD5) / Made available in DSpace on 2017-05-30T19:36:59Z (GMT). No. of bitstreams: 1
GiovanniLucca.pdf: 1608375 bytes, checksum: 90ad0a568a12b861d1a2a3467c275a12 (MD5)
Previous issue date: 2017-01-31 / CAPES / Lung cancer is the leading cause of cancer death worldwide, which accounts for more
than 17% percent of the total cancer related deaths. However, its early detection may
help in a sharp drop in this mortality rate. Because of the arduous analysis process,
alternatives such as computational tools that use image processing techniques and pattern
recognition have been widely developed and explored for the early diagnosis of this disease,
providing a second opinion to the specialist and making this process faster. Therefore,
this work proposes a methodology for the diagnosis of slice-based lung nodules extracted
from computed tomography images using evolutionary convolutional neural networks.
Firstly, the nodules are divided into two sub-regions using the Otsu algorithm based on
the particle swarm optimization algorithm. Then, the slices of the nodules and the slices of
their sub-regions were resized to the 28 x 28 dimension and given as input simultaneously
to the networks. The architecture of the model was composed of three convolutional
neural networks sharing the same fully connected layer at the end. Being a parameterized
model, the genetic algorithm was applied to optimize some parameters, such as the number
of filters in the convolution layers and the number of neurons in the hidden layer. The
proposed methodology was tested on the Lung Image Database Consortium and the Image
Database Resource Initiative, resulting in a sensitivity of 94.66 %, specificity of 95.14 %, accuracy of 94.78 % and area under the ROC curve of 0.949. / O câncer de pulmão é a maior causa de morte por câncer em todo mundo, representando
mais de 17% do total de mortes relacionadas com câncer. No entanto, sua detecçãao
precoce pode ajudar em uma queda acentuada nesta taxa de mortalidade. Devido ao árduo
processo na análise dos exames por imagens, alternativas como sistemas computacionais
que utilizam técnicas de processamento de imagens e reconhecimento de padrões têm sido
amplamente desenvolvidos e explorados para o diagnóstico precoce desta doen¸ca, provendo
uma segunda opinião para o especialista e tornando esse processo mais rápido. Diante disso,
este trabalho propõe uma metodologia para o diagnóstico de nódulos pulmonares baseado
nas fatias extraídas da tomografia computadorizada usando as redes neurais convolucionais
evolutivas. Primeiramente, os nódulos são divididos em duas sub-regiões utilizando o
algoritmo de Otsu baseado no algoritmo de otimização por enxame de partículas. Em
seguida, as fatias dos nódulos e as fatias das suas sub-regiões foram redimensionadas
para a dimensão 28 x 28 e dadas como entrada simultaneamente às redes. A arquitetura
do modelo foi composta por três redes neurais convolucionais compartilhando a mesma
camada completamente conectada no final. Tratando-se de um modelo parametrizado,
o algoritmo genético foi aplicado para otimização de alguns parâmetros, tais como a
quantidade de filtros nas camadas de convolução e a quantidade de neurônios na camada
oculta. A metodologia proposta foi testada na base de imagens Lung Image Database
Consortium e a Image Database Resource Initiative, resultando em uma sensibilidade de
94,66%, especifidade de 95,14%, acurácia de 94,78% e área sob a curva ROC de 0,949.
|
8 |
Facial expression recognition using deep learning - convolutional neural networkLopes, André Teixeira 03 March 2016 (has links)
Made available in DSpace on 2016-08-29T15:33:24Z (GMT). No. of bitstreams: 1
tese_9629_dissertacao(1)20160411-102533.pdf: 9277551 bytes, checksum: c18df10308db5314d25f9eb1543445b3 (MD5)
Previous issue date: 2016-03-03 / CAPES / O reconhecimento de expressões faciais tem sido uma área de pesquisa ativa nos últimos dez anos, com uma área de aplicação em crescimento como animação de personagens e neuro-marketing. O reconhecimento de uma expressão facial não é um problema fácil para métodos de aprendizagem de máquina, dado que pessoas diferentes podem variar na forma com que mostram suas expressões. Até uma imagem da mesma pessoa em uma expressão pode variar em brilho, cor de fundo e posição. Portanto, reconhecer expressões faciais ainda é um problema desafiador em visão computacional.
Para resolver esses problemas, nesse trabalho, nós propomos um sistema de reconhecimento de expressões faciais que usa redes neurais de convolução. Geração sintética de dados e diferentes operações de pré-processamento foram estudadas em conjunto com várias arquiteturas de redes neurais de convolução. A geração sintética de dados e as etapas de pré-processamento foram usadas para ajudar a rede na seleção de características. Experimentos foram executados em três bancos de dados largamente utilizados (CohnKanade, JAFFE, e BU3DFE) e foram feitas validações entre bancos de dados(i.e., treinar em um banco de dados e testar em outro). A abordagem proposta mostrou ser muito efetiva, melhorando os resultados do estado-da-arte na literatura. / Facial expression recognition has been an active research area in the past ten years,
with growing application areas such avatar animation, neuromarketing and sociable robots.
The recognition of facial expressions is not an easy problem for machine learning methods,
since people can vary signi cantly in the way that they show their expressions. Even images
of the same person in one expression can vary in brightness, background and position.
Hence, facial expression recognition is still a challenging problem.
To address these problems, in this work we propose a facial expression recognition
system that uses Convolutional Neural Networks. Data augmentation and di erent preprocessing
steps were studied together with various Convolutional Neural Networks architectures.
The data augmentation and pre-processing steps were used to help the network
on the feature selection. Experiments were carried out with three largely used databases
(Cohn-Kanade, JAFFE, and BU3DFE) and cross-database validations (i.e. training in
one database and test in another) were also performed. The proposed approach has shown
to be very e ective, improving the state-of-the-art results in the literature and allowing
real time facial expression recognition with standard PC computers.
|
9 |
Agregação de classificadores neurais via integral de Choquet com respeito a uma medida fuzzyPacheco, André Georghton Cardoso 15 July 2016 (has links)
Submitted by Patricia Barros (patricia.barros@ufes.br) on 2017-07-03T10:36:35Z
No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / Approved for entry into archive by Patricia Barros (patricia.barros@ufes.br) on 2017-07-19T09:37:39Z (GMT) No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / Made available in DSpace on 2017-07-19T09:37:39Z (GMT). No. of bitstreams: 2
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / CAPES / Data classification appears in many real-world problems, e.g., recognition of image patterns,
differentiation among species of plants, classifying between benign and malignant tumors,
among others. Many of these problems present data patterns, which are difficult to be
identified, thus requiring more advanced techniques to be solved. Over the last few years,
various classification algorithms have been developed to address these problems, but there
is no classifier able to be the best choice in all situations. So, the concept of ensemble
systems arise, which more than one methodology is used together to solve a particular
problem. As a simple and effective methodology, ensemble of classifiers have been applied
in several classification problems, aiming to improve performance and increase reliability
of the final result. However, in order to improve the classification accuracy, an affective
aggregation of classifiers must be performed. In this work, we present two contributions:
first, we describe three classifiers based on neural networks, a multilayer feedforward
trained by Levenberg-Marquardt algorithm; an extreme learning machine (ELM); and a
discriminative restricted Boltmann machine (DRBM). Furthermore, we use conventional
classifier k-nearest neighbors (KNN). Next, we propose an aggregation methodology to
ensemble of classifiers using Choquet integral with respect to a fuzzy measure obtained by
principal component analysis (PCA). Then, we apply this methodology to aggregate the
classifiers performed to conventional benchmarks, for large database and the results are
promising. / Classificação de dados pode ser aplicada em diversos problemas reais, tais como: reconhecer
padrões em imagens, diferenciar espécies de plantas, classificar tumores benignos e malignos,
dentre outros. Muitos desses problemas possuem padrões de dados difíceis de serem
identificados, o que requer, consequentemente, técnicas mais avançadas para sua resolução.
Ao longo dos anos, diversos algoritmos de classificação foram desenvolvidos para abordar
esses problemas, todavia, não existe um classificador capaz de ser a melhor opção em todas
as situações. Baseado nisso, surge o conceito de sistema baseado em elenco, no qual, mais
de uma metodologia é utilizada em conjunto para solucionar um determinado problema.
Por ser uma metodologia simples e eficaz, elenco de classificadores vem sendo aplicado em
diversos problemas de classificação com intuito de melhorar o desempenho e de aumentar
confiabilidade do resultado final. Entretanto, para que o elenco seja capaz de promover
melhorias, uma boa técnica de agregação deve ser aplicada. Neste trabalho, duas contribui-
ções são apresentadas: primeiramente será apresentado o uso de três classificadores baseado
em redes neurais artificiais, sendo uma rede neural multicamadas feedforward usando o
algoritmo de treinamento de Levenberg-Marquardt, uma rede neural do tipo máquina
de aprendizado extremo (ELM), e uma máquina de Boltzmann restrita discriminativa
(DRBM), além de um classificador convencional do tipo K vizinhos mais próximos (KNN).
A seguir é proposta uma metodologia de agregação de elenco de classificadores utilizando a
integral de Choquet com respeito a uma medida fuzzy obtida através da técnica de Análise
de Componentes Principais (PCA). Por fim, tal metodologia é aplicada para agregar os
classificadores obtidos para benchmarks convencionais da literatura, para grande base de
dados e os resultados são promissores
|
10 |
Desenvolvimento de metodologias para o reconhecimento de estruturas quiescentes em mapas solares observados pelo Telescópio Solar para Ondas Submilimétricas (SST)Pereira, André Luiz Garcia 20 August 2018 (has links)
Submitted by Marta Toyoda (1144061@mackenzie.br) on 2018-10-09T18:48:03Z
No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Paola Damato (repositorio@mackenzie.br) on 2018-10-17T18:19:38Z (GMT) No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2018-10-17T18:19:38Z (GMT). No. of bitstreams: 2
Andre Luiz Garcia Pereira.pdf: 3744578 bytes, checksum: a771cb04ee2c242cc6b35d79cfdc34ff (MD5)
license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)
Previous issue date: 2018-08-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / The Submillimeter Solar Telescope (SST) operates simultaneously and independently with a
multibeam focal array at 212 and 405 GHz. Since 1999, the SST daily monitors in different
modes of observation the solar activity generating binary files from which solar maps can be
extracted. The identification of Active Regions in these maps is affected by the strong
atmospheric attenuation and inaccuracies of the telescope's pointing, therefore, maps are
visually inspected to manually extract the Active Regions. This is a lengthy process for
performing a statistical analysis over the 20-year data set already recorded. To automatize the
process artificial intelligence techniques of machine learning and computer vision were
proposed. A Convolutional Neural Network was created within the Keras framework for the
classification of the SST maps and then, a computer vision algorithm in the OpenCV framework
was used for the automatic detection of ARs. This hybrid approach allowed the identification
of more than 400 active regions between January 2002 and December 2017 and their physical
properties were statistically analysed. The results were validated comparing with previous
works which were carried out with a visual identification and manual extraction procedure, and
a good agreement was found. Moreover, we present for the first time, evidence of a positive
correlation between the brightness temperature at 212 GHz and the flux density at 2.8 GHz (the
S component) along the solar cycle. / O Telescópio Solar Submilimétrico (SST) opera simultaneamente e de forma independente,
com uma matriz focal multifeixe em 212 e 405 GHz. Desde 1999, o SST monitora diariamente
em diferentes modos de observação a atividade solar gerando arquivos binários dos quais mapas
solares podem ser extraídos. A identificação de Regiões Ativas nesses mapas é afetada pela
forte atenuação atmosférica e imprecisões dos apontamentos do telescópio, portanto, os mapas
são visualmente inspecionados para extração manual as Regiões Ativas. Este é um processo
demorado para a realização de uma análise estatística ao longo do conjunto de dados de 20 anos
já registrado. Para automatizar o processo, foram propostas técnicas de inteligência artificial de
aprendizado de máquina e de visão computacional. Uma Rede Neural Convolucional foi criada
dentro do framework Keras para a classificação dos mapas SST e, em seguida, um algoritmo
de visão computacional no framework OpenCV para a detecção automática das Regiões Ativas.
Esta abordagem híbrida permitiu a identificação de mais de 400 Regiões Ativas entre janeiro
de 2002 e dezembro de 2017 e a análise estatística de suas propriedades físicas. Os resultados
foram validados a partir da comparação com trabalhos anteriores, que foram realizados com um
procedimento de identificação visual e extração manual, e foi encontrada boa concordância.
Além destes resultados, mostramos pela primeira vez evidências de uma correlação positiva
entre a temperatura de brilho em 212 GHz e o fluxo em 2.8 GHz (componente S).
|
Page generated in 0.0936 seconds