• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 9
  • 6
  • Tagged with
  • 16
  • 16
  • 12
  • 12
  • 6
  • 5
  • 5
  • 5
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Detecção de pornografia infantil em imagens através de técnicas de aprendizado profundo / Child pornography image detection through deep learning techniques

Vitorino, Paulo Roberto Rocha 14 December 2016 (has links)
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2016. / Submitted by Fernanda Percia França (fernandafranca@bce.unb.br) on 2017-02-22T20:04:46Z No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Approved for entry into archive by Ruthléa Nascimento(ruthleanascimento@bce.unb.br) on 2017-02-24T19:20:18Z (GMT) No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Made available in DSpace on 2017-02-24T19:20:18Z (GMT). No. of bitstreams: 1 2016_PauloRobertoRochaVitorino.pdf: 1808150 bytes, checksum: 9b18327b79b2cc2767d80de6ba986444 (MD5) / Este trabalho apresenta uma nova abordagem para detecção de automática de pornográfica infantil em imagens, que se utiliza de técnicas de aprendizado profundo para extração das características discriminadoras de imagens, e um classificador de padrões baseado em máquinas de vetores de suporte, para determinar se as imagens contêm, ou não, pornografia infantil (PI). Adicionalmente, também é proposta técnica baseada em sacolas de palavras para resolver o problema. As soluções desenvolvidas atingem um acerto de +87% de acurácia de classificação quando separando conteúdo de pornografia infantil de conteúdos de pornografia geral e imagens normais, sobressaindo-se em relação às técnicas existentes na literatura. / In this work, we present a new method for automatic detection of sexually exploitative imagery of children (SEIC) or child pornography content. Our solution leverages cutting-edge concepts of deep learning – for extracting discriminative features from images – and the support vector machine classifier, it point out whether or not an image contains child pornography content. Moreover, it is also proposed one technique based on bags of visual words methodology to deal with this difficult problem. The developed solutions lead to as much as 87% classification accuracy when separating SEIC content from adult (adult pornography) and other seemingly innocuous content (everyday image content) clearly outperforming existing counterparts in the literature.
2

Um método de segmentação de vídeo em cenas baseado em aprendizagem profunda / A vídeo scene segmentation method based on deep learnig

Trojahn, Tiago Henrique 27 June 2019 (has links)
A segmentação automática de vídeo em cenas é um problema atual e relevante dado sua aplicação em diversos serviços ligado à área de multimídia. Dentre as diferentes técnicas reportadas pela literatura, as multimodais são consideradas mais promissoras, dado a capacidade de extrair informações de diferentes mídias de maneira potencialmente complementar, possibilitando obter segmentações mais significativas. Ao usar informações de diferentes naturezas, tais técnicas enfrentam dificuldades para modelar e obter uma representação combinada das informações ou com elevado custo ao processar cada fonte de informação individualmente. Encontrar uma combinação adequada de informação que aumente a eficácia da segmentação a um custo computacional relativamente baixo torna-se um desafio. Paralelamente, abordagens baseadas em Aprendizagem Profunda mostraram-se eficazes em uma ampla gama de tarefas, incluindo classificação de imagens e vídeo. Técnicas baseadas em Aprendizagem Profunda, como as Redes Neurais Convolucionais (CNNs), têm alcançado resultados impressionantes em tarefas relacionadas por conseguirem extrair padrões significativos dos dados, incluindo multimodais. Contudo, CNNs não podem aprender adequadamente os relacionamentos entre dados que estão temporalmente distribuídos entre as tomadas de uma mesma cena. Isto pode tornar a rede incapaz de segmentar corretamente cenas cujas características mudam entre tomadas. Por outro lado, Redes Neurais Recorrentes (RNNs) têm sido empregadas com sucesso em processamento textual, pois foram projetadas para analisar sequências de dados de tamanho variável e podem melhor explorar as relações temporais entre as características de tomadas relacionadas, potencialmente aumentando a eficácia da segmentação em cenas. Há uma carência de métodos de segmentação multimodais que explorem Aprendizagem Profunda. Assim, este trabalho de doutorado propõe um método automático de segmentação de vídeo em cenas que modela o problema de segmentação como um problema de classificação. O método conta com um modelo que combina o potencial de extração de padrões das CNNs com o processamento de sequencias das RNNs. O modelo proposto elimina a dificuldade de modelar representações multimodais das diferentes informações de entrada além de permitir instanciar diferentes abordagens para fusão multimodal (antecipada ou tardia). Tal método foi avaliado na tarefa de segmentação em cenas utilizando uma base de vídeos pública, comparando os resultados obtidos com os resultados de técnicas em estado-da-arte usando diferentes abordagens. Os resultados mostram um avanço significativo na eficácia obtida. / Automatic video scene segmentation is a current and relevant problem given its application in various services related to multimedia. Among the different techniques reported in the literature, the multimodal ones are considered more promising, given the ability to extract information from different media in a potentially complementary way, allowing for more significant segmentations. By processing information of different natures, such techniques faces difficulties on modeling and obtaining a combined representation of information and cost problems when processing each source of information individually. Finding a suitable combination of information that increases the effectiveness of segmentation at a relatively low computational cost becomes a challenge. At the same time, approaches based on Deep Learning have proven effective on a wide range of tasks, including classification of images and video. Techniques based on Deep Learning, such as Convolutional Neural Networks (CNNs), have achieved impressive results in related tasks by being able to extract significant patterns from data, including multimodal data. However, CNNs can not properly learn the relationships between data temporarily distributed among the shots of the same scene. This can lead the network to become unable to properly segment scenes whose characteristics change among shots. On the other hand, Recurrent Neural Networks (RNNs) have been successfully employed in textual processing since they are designed to analyze variable-length data sequences and can be developed to better explore the temporal relationships between low-level characteristics of related shots, potentially increasing the effectiveness of scene segmentation. There is a lack of multimodal segmentation methods exploring Deep Learning. Thus, this thesis proposes an automatic method for video scene segmentation that models the problem of segmentation as a classification problem. The method relies on a model developed to combine the potential for extracting patterns from CNNs with the potential for sequence processing of the RNNs. The proposed model, different from related works, eliminates the difficulty of modeling multimodal representations of the different input information, besides allowing to instantiate different approaches for multimodal (early or late) fusion. This method was evaluated in the scene segmentation task using a public video database, comparing the results obtained with the results of state-of-the-art techniques using different approaches. The results show a significant advance in the efficiency obtained.
3

Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquina

Mendes, Caio César Teodoro 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
4

Navigability estimation for autonomous vehicles using machine learning / Estimação de navegabilidade para veículos autônomos usando aprendizado de máquina

Caio César Teodoro Mendes 08 June 2017 (has links)
Autonomous navigation in outdoor, unstructured environments is one of the major challenges presents in the robotics field. One of its applications, intelligent autonomous vehicles, has the potential to decrease the number of accidents on roads and highways, increase the efficiency of traffic on major cities and contribute to the mobility of the disabled and elderly. For a robot/vehicle to safely navigate, accurate detection of navigable areas is essential. In this work, we address the task of visual road detection where, given an image, the objective is to classify its pixels into road or non-road. Instead of trying to manually derive an analytical solution for the task, we have used machine learning (ML) to learn it from a set of manually created samples. We have applied both traditional (shallow) and deep ML models to the task. Our main contribution regarding traditional ML models is an efficient and versatile way to aggregate spatially distant features, effectively providing a spatial context to such models. As for deep learning models, we have proposed a new neural network architecture focused on processing time and a new neural network layer called the semi-global layer, which efficiently provides a global context for the model. All the proposed methodology has been evaluated in the Karlsruhe Institute of Technology (KIT) road detection benchmark, achieving, in all cases, competitive results. / A navegação autônoma em ambientes externos não estruturados é um dos maiores desafios no campo da robótica. Uma das suas aplicações, os veículos inteligentes autônomos, tem o potencial de diminuir o número de acidentes nas estradas e rodovias, aumentar a eficiência do tráfego nas grandes cidades e contribuir para melhoria da mobilidade de deficientes e idosos. Para que um robô/veículo navegue com segurança, uma detecção precisa de áreas navegáveis é essencial. Neste trabalho, abordamos a tarefa de detecção visual de ruas onde, dada uma imagem, o objetivo é classificar cada um de seus pixels em rua ou não-rua. Ao invés de tentar derivar manualmente uma solução analítica para a tarefa, usamos aprendizado de máquina (AM) para aprendê-la a partir de um conjunto de amostras criadas manualmente. Nós utilizamos tanto modelos tradicionais (superficiais) quanto modelos profundos para a tarefa. A nossa principal contribuição em relação aos modelos tradicionais é uma forma eficiente e versátil de agregar características espacialmente distantes, fornecendo efetivamente um contexto espacial para esses modelos. Quanto aos modelos de aprendizagem profunda, propusemos uma nova arquitetura de rede neural focada no tempo de processamento e uma nova camada de rede neural, chamada camada semi-global, que fornece eficientemente um contexto global ao modelo. Toda a metodologia proposta foi avaliada no benchmark de detecção de ruas do Instituto de Tecnologia de Karlsruhe, alcançando, em todos os casos, resultados competitivos.
5

Leannet : uma arquitetura que utiliza o contexto da cena para melhorar o reconhecimento de objetos

Silva, Leandro Pereira da 27 March 2018 (has links)
Submitted by PPG Ci?ncia da Computa??o (ppgcc@pucrs.br) on 2018-06-15T16:40:47Z No. of bitstreams: 1 LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5) / Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-06-26T13:25:28Z (GMT) No. of bitstreams: 1 LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5) / Made available in DSpace on 2018-06-26T13:34:22Z (GMT). No. of bitstreams: 1 LEANDRO PEREIRA DA SILVA_DIS.pdf: 16008947 bytes, checksum: 327a925ea56fcca0a86530a0eb3b1637 (MD5) Previous issue date: 2018-03-27 / Computer vision is the science that aims to give computers the capability of see- ing the world around them. Among its tasks, object recognition intends to classify objects and to identify where each object is in a given image. As objects tend to occur in particular environments, their contextual association can be useful to improve the object recognition task. To address the contextual awareness on object recognition task, the proposed ap- proach performs the identification of the scene context separately from the identification of the object, fusing both information in order to improve the object detection. In order to do so, we propose a novel architecture composed of two convolutional neural networks running in parallel: one for object identification and the other to the identification of the context where the object is located. Finally, the information of the two-streams architecture is concatenated to perform the object classification. The evaluation is performed using PASCAL VOC 2007 and MS COCO public datasets, by comparing the performance of our proposed approach with architectures that do not use the scene context to perform the classification of the ob- jects. Results show that our approach is able to raise in-context object scores, and reduces out-of-context objects scores. / A vis?o computacional ? a ci?ncia que permite fornecer aos computadores a ca- pacidade de verem o mundo em sua volta. Entre as tarefas, o reconhecimento de objetos pretende classificar objetos e identificar a posi??o onde cada objeto est? em uma imagem. Como objetos costumam ocorrer em ambientes particulares, a utiliza??o de seus contex- tos pode ser vantajosa para melhorar a tarefa de reconhecimento de objetos. Para utilizar o contexto na tarefa de reconhecimento de objetos, a abordagem proposta realiza a iden- tifica??o do contexto da cena separadamente da identifica??o do objeto, fundindo ambas informa??es para a melhora da detec??o do objeto. Para tanto, propomos uma nova arquite- tura composta de duas redes neurais convolucionais em paralelo: uma para a identifica??o do objeto e outra para a identifica??o do contexto no qual o objeto est? inserido. Por fim, a informa??o de ambas as redes ? concatenada para realizar a classifica??o do objeto. Ava- liamos a arquitetura proposta com os datasets p?blicos PASCAL VOC 2007 e o MS COCO, comparando o desempenho da abordagem proposta com abordagens que n?o utilizam o contexto. Os resultados mostram que nossa abordagem ? capaz de aumentar a probabili- dade de classifica??o para objetos que est?o em contexto e reduzir para objetos que est?o fora de contexto.
6

Reconhecimento de imagens de marcas de gado utilizando redes neurais convolucionais e máquinas de vetores de suporte

Santos, Carlos Alexandre Silva dos 26 September 2017 (has links)
Submitted by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T17:44:17Z No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Approved for entry into archive by Marlucy Farias Medeiros (marlucy.farias@unipampa.edu.br) on 2017-10-31T18:24:21Z (GMT) No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) / Made available in DSpace on 2017-10-31T18:24:21Z (GMT). No. of bitstreams: 1 Carlos_Alexandre Silva_dos Santos - 2017.pdf: 27850839 bytes, checksum: c4399fa8396d3b558becbfa67b7dd777 (MD5) Previous issue date: 2017-09-26 / O reconhecimento automático de imagens de marca de gado é uma necessidade para os órgãos governamentais responsáveis por esta atividade. Para auxiliar neste processo, este trabalho propõe uma arquitetura que seja capaz de realizar o reconhecimento automático dessas marcas. Nesse sentido, uma arquitetura foi implementada e experimentos foram realizados com dois métodos: Bag-of-Features e Redes Neurais Convolucionais (CNN). No método Bag-of-Features foi utilizado o algoritmo SURF para extração de pontos de interesse das imagens e para criação do agrupa mento de palavras visuais foi utilizado o clustering K-means. O método Bag-of-Features apresentou acurácia geral de 86,02% e tempo de processamento de 56,705 segundos para um conjunto de 12 marcas e 540 imagens. No método CNN foi criada uma rede completa com 5 camadas convolucionais e 3 camadas totalmente conectadas. A 1 ª camada convolucional teve como entrada imagens transformadas para o formato de cores RGB. Para ativação da CNN foi utilizada a função ReLU, e a técnica de maxpooling para redução. O método CNN apresentou acurácia geral de 93,28% e tempo de processamento de 12,716 segundos para um conjunto de 12 marcas e 540 imagens. O método CNN consiste de seis etapas: a) selecionar o banco de imagens; b) selecionar o modelo de CNN pré-treinado; c) pré-processar as imagens e aplicar a CNN; d) extrair as características das imagens; e) treinar e classificar as imagens utilizando SVM; f) avaliar os resultados da classificação. Os experimentos foram realizados utilizando o conjunto de imagens de marcas de gado de uma prefeitura municipal. Para avaliação do desempenho da arquitetura proposta foram utilizadas as métricas de acurácia geral, recall, precisão, coeficiente Kappa e tempo de processamento. Os resultados obtidos foram satisfatórios, nos quais o método CNN apresentou os melhores resultados em comparação ao método Bag-of-Features, sendo 7,26% mais preciso e 43,989 segundos mais rápido. Também foram realizados experimentos com o método CNN em conjuntos de marcas com número maior de amostras, o qual obteve taxas de acurácia geral de 94,90% para 12 marcas e 840 imagens, e 80,57% para 500 marcas e 22.500 imagens, respectivamente. / The automatic recognition of cattle branding is a necessity for government agencies responsible for this activity. In order to improve this process, this work proposes an architecture which is able of performing the automatic recognition of these brandings. The proposed software implements two methods, namely: Bag-of-Features and CNN. For the Bag-of-Features method, the SURF algorithm was used in order to extract points of interest from the images. We also used K-means clustering to create the visual word cluster. The Bag-of-Features method presented a overall accuracy of 86.02% and a processing time of 56.705 seconds in a set containing 12 brandings and 540 images. For the CNN method, we created a complete network with five convolutional layers, and three layers fully connected. For the 1st convolutional layer we converted the input images into the RGB color for mat. In order to activate the CNN, we performed an application of the ReLU, and used the maxpooling technique for the reduction. The CNN method presented 93.28% of overall accuracy and a processing time of 12.716 seconds for a set containing 12 brandings and 540 images. The CNN method includes six steps: a) selecting the image database; b) selecting the pre-trained CNN model; c) pre-processing the images and applying the CNN; d) extracting the features from the images; e) training and classifying the images using SVM; f) assessing the classification results. The experiments were performed using the cattle branding image set of a City Hall. Metrics of overall accuracy, recall, precision, Kappa coefficient, and processing time were used in order to assess the performance of the proposed architecture. Results were satisfactory. The CNN method showed the best results when compared to Bag-of-Features method, considering that it was 7.26% more accurate and 43.989 seconds faster. Also, some experiments were conducted with the CNN method for sets of brandings with a greater number of samples. These larger sets presented a overall accuracy rate of 94.90% for 12 brandings and 840 images, and 80.57% for 500 brandings and 22,500 images, respectively.
7

Diagnóstico de nódulos pulmonares em imagens de tomografia computadorizada usando redes neurais convolucionais evolutivas

Silva, Giovanni Lucca França da 31 January 2017 (has links)
Submitted by Rosivalda Pereira (mrs.pereira@ufma.br) on 2017-05-30T19:36:59Z No. of bitstreams: 1 GiovanniLucca.pdf: 1608375 bytes, checksum: 90ad0a568a12b861d1a2a3467c275a12 (MD5) / Made available in DSpace on 2017-05-30T19:36:59Z (GMT). No. of bitstreams: 1 GiovanniLucca.pdf: 1608375 bytes, checksum: 90ad0a568a12b861d1a2a3467c275a12 (MD5) Previous issue date: 2017-01-31 / CAPES / Lung cancer is the leading cause of cancer death worldwide, which accounts for more than 17% percent of the total cancer related deaths. However, its early detection may help in a sharp drop in this mortality rate. Because of the arduous analysis process, alternatives such as computational tools that use image processing techniques and pattern recognition have been widely developed and explored for the early diagnosis of this disease, providing a second opinion to the specialist and making this process faster. Therefore, this work proposes a methodology for the diagnosis of slice-based lung nodules extracted from computed tomography images using evolutionary convolutional neural networks. Firstly, the nodules are divided into two sub-regions using the Otsu algorithm based on the particle swarm optimization algorithm. Then, the slices of the nodules and the slices of their sub-regions were resized to the 28 x 28 dimension and given as input simultaneously to the networks. The architecture of the model was composed of three convolutional neural networks sharing the same fully connected layer at the end. Being a parameterized model, the genetic algorithm was applied to optimize some parameters, such as the number of filters in the convolution layers and the number of neurons in the hidden layer. The proposed methodology was tested on the Lung Image Database Consortium and the Image Database Resource Initiative, resulting in a sensitivity of 94.66 %, specificity of 95.14 %, accuracy of 94.78 % and area under the ROC curve of 0.949. / O câncer de pulmão é a maior causa de morte por câncer em todo mundo, representando mais de 17% do total de mortes relacionadas com câncer. No entanto, sua detecçãao precoce pode ajudar em uma queda acentuada nesta taxa de mortalidade. Devido ao árduo processo na análise dos exames por imagens, alternativas como sistemas computacionais que utilizam técnicas de processamento de imagens e reconhecimento de padrões têm sido amplamente desenvolvidos e explorados para o diagnóstico precoce desta doen¸ca, provendo uma segunda opinião para o especialista e tornando esse processo mais rápido. Diante disso, este trabalho propõe uma metodologia para o diagnóstico de nódulos pulmonares baseado nas fatias extraídas da tomografia computadorizada usando as redes neurais convolucionais evolutivas. Primeiramente, os nódulos são divididos em duas sub-regiões utilizando o algoritmo de Otsu baseado no algoritmo de otimização por enxame de partículas. Em seguida, as fatias dos nódulos e as fatias das suas sub-regiões foram redimensionadas para a dimensão 28 x 28 e dadas como entrada simultaneamente às redes. A arquitetura do modelo foi composta por três redes neurais convolucionais compartilhando a mesma camada completamente conectada no final. Tratando-se de um modelo parametrizado, o algoritmo genético foi aplicado para otimização de alguns parâmetros, tais como a quantidade de filtros nas camadas de convolução e a quantidade de neurônios na camada oculta. A metodologia proposta foi testada na base de imagens Lung Image Database Consortium e a Image Database Resource Initiative, resultando em uma sensibilidade de 94,66%, especifidade de 95,14%, acurácia de 94,78% e área sob a curva ROC de 0,949.
8

Facial expression recognition using deep learning - convolutional neural network

Lopes, André Teixeira 03 March 2016 (has links)
Made available in DSpace on 2016-08-29T15:33:24Z (GMT). No. of bitstreams: 1 tese_9629_dissertacao(1)20160411-102533.pdf: 9277551 bytes, checksum: c18df10308db5314d25f9eb1543445b3 (MD5) Previous issue date: 2016-03-03 / CAPES / O reconhecimento de expressões faciais tem sido uma área de pesquisa ativa nos últimos dez anos, com uma área de aplicação em crescimento como animação de personagens e neuro-marketing. O reconhecimento de uma expressão facial não é um problema fácil para métodos de aprendizagem de máquina, dado que pessoas diferentes podem variar na forma com que mostram suas expressões. Até uma imagem da mesma pessoa em uma expressão pode variar em brilho, cor de fundo e posição. Portanto, reconhecer expressões faciais ainda é um problema desafiador em visão computacional. Para resolver esses problemas, nesse trabalho, nós propomos um sistema de reconhecimento de expressões faciais que usa redes neurais de convolução. Geração sintética de dados e diferentes operações de pré-processamento foram estudadas em conjunto com várias arquiteturas de redes neurais de convolução. A geração sintética de dados e as etapas de pré-processamento foram usadas para ajudar a rede na seleção de características. Experimentos foram executados em três bancos de dados largamente utilizados (CohnKanade, JAFFE, e BU3DFE) e foram feitas validações entre bancos de dados(i.e., treinar em um banco de dados e testar em outro). A abordagem proposta mostrou ser muito efetiva, melhorando os resultados do estado-da-arte na literatura. / Facial expression recognition has been an active research area in the past ten years, with growing application areas such avatar animation, neuromarketing and sociable robots. The recognition of facial expressions is not an easy problem for machine learning methods, since people can vary signi cantly in the way that they show their expressions. Even images of the same person in one expression can vary in brightness, background and position. Hence, facial expression recognition is still a challenging problem. To address these problems, in this work we propose a facial expression recognition system that uses Convolutional Neural Networks. Data augmentation and di erent preprocessing steps were studied together with various Convolutional Neural Networks architectures. The data augmentation and pre-processing steps were used to help the network on the feature selection. Experiments were carried out with three largely used databases (Cohn-Kanade, JAFFE, and BU3DFE) and cross-database validations (i.e. training in one database and test in another) were also performed. The proposed approach has shown to be very e ective, improving the state-of-the-art results in the literature and allowing real time facial expression recognition with standard PC computers.
9

Agregação de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy

Pacheco, André Georghton Cardoso 15 July 2016 (has links)
Submitted by Patricia Barros (patricia.barros@ufes.br) on 2017-07-03T10:36:35Z No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / Approved for entry into archive by Patricia Barros (patricia.barros@ufes.br) on 2017-07-19T09:37:39Z (GMT) No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / Made available in DSpace on 2017-07-19T09:37:39Z (GMT). No. of bitstreams: 2 license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Andre Georghton Cardoso Pacheco Agregacao de classificadores neurais via integral de Choquet com respeito a uma medida fuzzy.pdf: 2377890 bytes, checksum: a119a6b35273222d80df45cdde5602db (MD5) / CAPES / Data classification appears in many real-world problems, e.g., recognition of image patterns, differentiation among species of plants, classifying between benign and malignant tumors, among others. Many of these problems present data patterns, which are difficult to be identified, thus requiring more advanced techniques to be solved. Over the last few years, various classification algorithms have been developed to address these problems, but there is no classifier able to be the best choice in all situations. So, the concept of ensemble systems arise, which more than one methodology is used together to solve a particular problem. As a simple and effective methodology, ensemble of classifiers have been applied in several classification problems, aiming to improve performance and increase reliability of the final result. However, in order to improve the classification accuracy, an affective aggregation of classifiers must be performed. In this work, we present two contributions: first, we describe three classifiers based on neural networks, a multilayer feedforward trained by Levenberg-Marquardt algorithm; an extreme learning machine (ELM); and a discriminative restricted Boltmann machine (DRBM). Furthermore, we use conventional classifier k-nearest neighbors (KNN). Next, we propose an aggregation methodology to ensemble of classifiers using Choquet integral with respect to a fuzzy measure obtained by principal component analysis (PCA). Then, we apply this methodology to aggregate the classifiers performed to conventional benchmarks, for large database and the results are promising. / Classificação de dados pode ser aplicada em diversos problemas reais, tais como: reconhecer padrões em imagens, diferenciar espécies de plantas, classificar tumores benignos e malignos, dentre outros. Muitos desses problemas possuem padrões de dados difíceis de serem identificados, o que requer, consequentemente, técnicas mais avançadas para sua resolução. Ao longo dos anos, diversos algoritmos de classificação foram desenvolvidos para abordar esses problemas, todavia, não existe um classificador capaz de ser a melhor opção em todas as situações. Baseado nisso, surge o conceito de sistema baseado em elenco, no qual, mais de uma metodologia é utilizada em conjunto para solucionar um determinado problema. Por ser uma metodologia simples e eficaz, elenco de classificadores vem sendo aplicado em diversos problemas de classificação com intuito de melhorar o desempenho e de aumentar confiabilidade do resultado final. Entretanto, para que o elenco seja capaz de promover melhorias, uma boa técnica de agregação deve ser aplicada. Neste trabalho, duas contribui- ções são apresentadas: primeiramente será apresentado o uso de três classificadores baseado em redes neurais artificiais, sendo uma rede neural multicamadas feedforward usando o algoritmo de treinamento de Levenberg-Marquardt, uma rede neural do tipo máquina de aprendizado extremo (ELM), e uma máquina de Boltzmann restrita discriminativa (DRBM), além de um classificador convencional do tipo K vizinhos mais próximos (KNN). A seguir é proposta uma metodologia de agregação de elenco de classificadores utilizando a integral de Choquet com respeito a uma medida fuzzy obtida através da técnica de Análise de Componentes Principais (PCA). Por fim, tal metodologia é aplicada para agregar os classificadores obtidos para benchmarks convencionais da literatura, para grande base de dados e os resultados são promissores
10

[en] PART-OF-SPEECH TAGGING FOR PORTUGUESE / [pt] PART-OF-SPEECH TAGGING PARA PORTUGUÊS

ROMULO CESAR COSTA DE SOUSA 07 April 2020 (has links)
[pt] Part-of-speech (POS) tagging é o processo de categorizar cada palavra de uma sentença com sua devida classe morfossintática (verbo, substantivo, adjetivo e etc). POS tagging é considerada uma atividade fundamental no processo de construção de aplicações de processamento de linguagem natural (PLN), muitas dessas aplicações, em algum ponto, demandam esse tipo de informação. Nesse trabalho, construímos um POS tagger para o Português Contemporâneo e o Português Histórico, baseado em uma arquitetura de rede neural recorrente. Tradicionalmente a construção dessas ferramentas requer muitas features específicas do domínio da linguagem e dados externos ao conjunto de treino, mas nosso POS tagger não usa esses requisitos. Treinamos uma rede Bidirectional Long short-term memory (BLSTM), que se beneficia das representações de word embeddings e character embeddings das palavras, para atividade de classificação morfossintática. Testamos nosso POS tagger em três corpora diferentes: a versão original do corpus MacMorpho, a versão revisada do corpus Mac-Morpho e no corpus Tycho Brahe. Nós obtemos um desempenho ligeiramente melhor que os sistemas estado da arte nos três corpora: 97.83 por cento de acurácia para o Mac-Morpho original, 97.65 por cento de acurácia para o Mac-Morpho revisado e 97.35 por cento de acurácia para Tycho Brahe. Conseguimos, também, uma melhora nos três corpora para a medida de acurácia fora do vocabulário, uma acurácia especial calculada somente sobre as palavras desconhecidas do conjunto de treino. Realizamos ainda um estudo comparativo para verificar qual dentre os mais populares algoritmos de criação de word embedding (Word2Vec, FastText, Wang2Vec e Glove), é mais adequado para a atividade POS tagging em Português. O modelo de Wang2Vec mostrou um desempenho superior. / [en] Part-of-speech (POS) tagging is a process of labeling each word in a sentence with a morphosyntactic class (verb, noun, adjective and etc). POS tagging is a fundamental part of the linguistic pipeline, most natural language processing (NLP) applications demand, at some step, part-of-speech information. In this work, we constructed a POS tagger for Contemporary Portuguese and Historical Portuguese, using a recurrent neural network architecture. Traditionally the development of these tools requires many handcraft features and external data, our POS tagger does not use these elements. We trained a Bidirectional Long short-term memory (BLSTM) network that benefits from the word embeddings and character embeddings representations of the words, for morphosyntactic classification. We tested our POS tagger on three different corpora: the original version of the Mac-Morpho corpus, the revised version of the Mac-Morpho corpus, and the Tycho Brahe corpus. We produce state-of-the-art POS taggers for the three corpora: 97.83 percent accuracy on the original Mac-Morpho corpus, 97.65 percent accuracy on the revised Mac-Morpho and 97.35 percent accuracy on the Tycho Brahe corpus. We also achieved an improvement in the three corpora in out-of-vocabulary accuracy, that is the accuracy on words not seen in training sentences. We also performed a comparative study to test which different types of word embeddings (Word2Vec, FastText, Wang2Vec, and Glove) is more suitable for Portuguese POS tagging. The Wang2Vec model showed higher performance.

Page generated in 0.492 seconds