• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 139
  • 17
  • Tagged with
  • 156
  • 92
  • 82
  • 47
  • 30
  • 24
  • 23
  • 22
  • 22
  • 22
  • 21
  • 21
  • 17
  • 16
  • 14
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
121

[en] ASSESSMENT OF THE PROCESSING CAPACITY IN SORTING RAILWAY YARDS THROUGH OPTIMIZATION MODEL / [pt] AVALIAÇÃO DE CAPACIDADE DE PROCESSAMENTO EM PÁTIOS FERROVIÁRIOS PLANOS DE CLASSIFICAÇÃO ATRAVÉS DE MODELO DE OTIMIZAÇÃO

RENATA FERREIRA DE SA 08 November 2021 (has links)
[pt] Este trabalho trata do problema real de avaliar a capacidade de processamento de pátios ferroviários planos de classificação. Nesses pátios, os vagões são recebidos em trens e movimentam respeitando a disposição dos trilhos e a formação sequencial do trem de saída. Movimentações ineficientes implicam em uma capacidade de processamento inferior à potencial do pátio dado seu layout. O objetivo desta pesquisa é descrever o problema e incitar um método capaz de calcular a capacidade de processamento de pátios ferroviários planos de classificação no horizonte estratégico, indicando se existe ou não a necessidade de um projeto de expansão para garantir atendimento à demanda prevista. O problema foi modelado através de programação linear inteira mista (MILP) baseado na teoria de sequenciamento de produção. O modelo foi aplicado em instâncias de teste, reproduzindo movimentações reais de vagões, e provou avaliar diferentes layouts adequadamente, porém com elevado tempo de execução. A inicialização de algumas variáveis binárias do modelo permitiu um incremento de tamanho nas instâncias, porém ainda inviável para aplicação na prática. / [en] This work deals with the real problem of evaluating the processing capacity of flat rail classification yards. In these yards, the railway cars are received on trains and move respecting the car sequence of the outgoing train. Inefficient movements imply a lower processing capacity than the yard s potential given its layout. The objective of this research is to describe the problem and to incite a method capable of calculating the processing capacity of flat rail classification yards in the strategic horizon, indicating whether or not there is a need for an expansion project to ensure meeting the expected demand. The problem was modeled using mixed integer linear programming (MILP) based on production scheduling theory. The model was applied to test instances, reproducing real railway car movements, and proved to evaluate different layouts properly, but with a high execution time. The initialization of some binary variables of the model allowed an increase in the size of the instances, however it is still unfeasible for practical application.
122

[pt] APLICANDO APRENDIZADO DE MÁQUINA À SUPERVISÃO DO MERCADO DE CAPITAIS: CLASSIFICAÇÃO E EXTRAÇÃO DE INFORMAÇÕES DE DOCUMENTOS FINANCEIROS / [en] APPLYING MACHINE LEARNING TO CAPITAL MARKETS SUPERVISION: CLASSIFICATION AND INFORMATION EXTRACTION FROM FINANCIAL DOCUMENT

FREDERICO SHU 06 January 2022 (has links)
[pt] A análise de documentos financeiros não estruturados é uma atividade essencial para a supervisão do mercado de capitais realizada pela Comissão de Valores Mobiliários (CVM). Formas de automatização que reduzam o esforço humano despendido no processo de triagem de documentos são vitais para a CVM lidar com a escassez de recursos humanos e a expansão do mercado de valores mobiliários. Nesse contexto, a dissertação compara sistematicamente diversos algoritmos de aprendizado de máquina e técnicas de processamento de texto, a partir de sua aplicação em duas tarefas de processamento de linguagem natural – classificação de documentos e extração de informações – desempenhadas em ambiente real de supervisão de mercados. Na tarefa de classificação, os algoritmos clássicos proporcionaram melhor desempenho que as redes neurais profundas, o qual foi potencializado pela aplicação de técnicas de subamostragem e comitês de máquinas (ensembles). A precisão atual, estimada entre 20 por cento, e 40 por cento, pode ser aumentada para mais de 90 por cento, com a aplicação dos algoritmos testados. A arquitetura BERT foi capaz de extrair informações sobre aumento de capital e incorporação societária de documentos financeiros. Os resultados satisfatórios obtidos em ambas as tarefas motivam a implementação futura em regime de produção dos modelos estudados, sob a forma de um sistema de apoio à decisão. Outra contribuição da dissertação é o CVMCorpus, um corpus constituído para o escopo deste trabalho com documentos financeiros entregues por companhias abertas brasileiras à CVM entre 2009 e 2019, que abre possibilidades de pesquisa futura linguística e de finanças. / [en] The analysis of unstructured financial documents is key to the capital markets supervision performed by Comissão de Valores Mobiliários (Brazilian SEC or CVM). Systems capable of reducing human effort involved in the task of screening documents and outlining relevant information, for further manual review, are important tools for CVM to deal with the shortage of human resources and expansion of the Brazilian securities market. In this regard, this dissertation presents and discusses the application of several machine learning algorithms and text processing techniques to perform two natural language processing tasks— document classification and information extraction—in a real market supervision environment. In the classification exercise, classic algorithms achieved a better performance than deep neural networks, which was enhanced by applying undersampling techniques and ensembles. Using the tested algorithms can improve the current precision rate from 20 percent–40 percent to more than 90 percent. The BERT network architecture was able to extract information from financial documents on capital increase and mergers. The successful results obtained in both tasks encourage future implementation of the studied models in the form of a decision support system. Another contribution of this work is the CVMCorpus, a corpus built to produce datasets for the tasks, with financial documents released between 2009 and 2019 by Brazilian companies, which opens possibilities of future linguistic and finance research.
123

[pt] DETECÇÃO DE CONTEÚDO SENSÍVEL EM VIDEO COM APRENDIZADO PROFUNDO / [en] SENSITIVE CONTENT DETECTION IN VIDEO WITH DEEP LEARNING

PEDRO VINICIUS ALMEIDA DE FREITAS 09 June 2022 (has links)
[pt] Grandes quantidades de vídeo são carregadas em plataformas de hospedagem de vídeo a cada minuto. Esse volume de dados apresenta um desafio no controle do tipo de conteúdo enviado para esses serviços de hospedagem de vídeo, pois essas plataformas são responsáveis por qualquer mídia sensível enviada por seus usuários. Nesta dissertação, definimos conteúdo sensível como sexo, violencia fisica extrema, gore ou cenas potencialmente pertubadoras ao espectador. Apresentamos um conjunto de dados de vídeo sensível para classificação binária de vídeo (se há conteúdo sensível no vídeo ou não), contendo 127 mil vídeos anotados, cada um com seus embeddings visuais e de áudio extraídos. Também treinamos e avaliamos quatro modelos baseline para a tarefa de detecção de conteúdo sensível em vídeo. O modelo com melhor desempenho obteve 99 por cento de F2-Score ponderado no nosso subconjunto de testes e 88,83 por cento no conjunto de dados Pornography-2k. / [en] Massive amounts of video are uploaded on video-hosting platforms every minute. This volume of data presents a challenge in controlling the type of content uploaded to these video hosting services, for those platforms are responsible for any sensitive media uploaded by their users. There has been an abundance of research on methods for developing automatic detection of sensitive content. In this dissertation, we define sensitive content as sex, extreme physical violence, gore, or any scenes potentially disturbing to the viewer. We present a sensitive video dataset for binary video classification (whether there is sensitive content in the video or not), containing 127 thousand tagged videos, Each with their extracted audio and visual embeddings. We also trained and evaluated four baseline models for the sensitive content detection in video task. The best performing model achieved 99 percent weighed F2-Score on our test subset and 88.83 percent on the Pornography-2k dataset.
124

[en] RANDOMFIS: A FUZZY CLASSIFICATION SYSTEM FOR HIGH DIMENSIONAL PROBLEMS / [pt] RANDOMFIS: UM SISTEMA DE CLASSIFICAÇÃO FUZZY PARA PROBLEMAS DE ALTA DIMENSIONALIDADE

OSCAR HERNAN SAMUDIO LEGARDA 20 December 2016 (has links)
[pt] Hoje em dia, grande parte do conhecimento acumulado está armazenada em forma de dados. Dentre as ferramentas capazes de atuar como modelos representativos de sistemas reais, os Sistemas de Inferência Fuzzy têm se destacado pela capacidade de fornecer modelos precisos e, ao mesmo tempo, interpretáveis. A interpretabilidade é obtida a partir de regras linguísticas, que podem ser extraídas de bases de dados bases históricas e que permitem ao usuário compreender a relação entre as variáveis do problema. Entretanto, tais sistemas sofrem com a maldição da dimensionalidade ao lidar com problemas complexos, isto é, com um grande número de variáveis de entrada ou padrões, gerando problemas de escalabilidade. Esta dissertação apresenta um novo algoritmo de geração automática de regras, denominado RandomFIS, especificamente para problemas de classificação, capaz de lidar com grandes bases de dados tanto em termos de número de variáveis de entrada (atributos) quanto em termos de padrões (instâncias). O modelo RandomFIS utiliza os conceitos de seleção de variáveis (Random Subspace) e Bag of Little Bootstrap (BLB), que é uma versão escalável do Bootstrapping, criando uma estrutura de comitê de classificadores. O RandomFIS é avaliado em várias bases benchmark, demostrando ser um modelo robusto que mantém a interpretabilidade e apresenta boa acurácia mesmo em problemas envolvendo grandes bases de dados. / [en] Nowadays, much of the accumulated knowledge is stored as data. Among the tools capable of acting as representative models of real systems, Fuzzy Inference Systems are recognized by their ability to provide accurate and at the same time interpretable models. Interpretability is obtained from linguistic rules, which can be extracted from historical databases. These rules allow the end user to understand the relationship between variables in a specific problem. However, such systems experience the curse of dimensionality when handling complex problems, i.e. with a large number of input variables or patterns in the dataset, giving origin to scalability issues. This dissertation presents a new algorithm for automatic generation of fuzzy rules, called RandomFIS, specifically for classification problems, which is able to handle large databases both in terms of number of input variables (attributes) and in terms of patterns (instances). The RandomFIS model makes use of feature selection concepts (Random Subspace) and Bag of Little Bootstrap (BLB), which is a scalable version of Bootstrapping, creating a classifier committee structure. RandomFIS is tested in several benchmark datasets and shows to be a robust model that maintains interpretability and good accuracy even in problems involving large databases.
125

[pt] APRIMORAÇÃO DO ALGORITMO Q-NAS PARA CLASSIFICAÇÃO DE IMAGENS / [en] ENHANCED Q-NAS FOR IMAGE CLASSIFICATION

JULIA DRUMMOND NOCE 31 October 2022 (has links)
[pt] Redes neurais profundas são modelos poderosos e flexíveis que ganharam a atenção da comunidade de aprendizado de máquina na última década. Normalmente, um especialista gasta um tempo significativo projetando a arquitetura neural, com longas sessões de tentativa e erro para alcançar resultados bons e relevantes. Por causa do processo manual, há um maior interesse em abordagens de busca de arquitetura neural, que é um método que visa automatizar a busca de redes neurais. A busca de arquitetura neural(NAS) é uma subárea das técnicas de aprendizagem de máquina automatizadas (AutoML) e uma etapa essencial para automatizar os métodos de aprendizado de máquina. Esta técnica leva em consideração os aspectos do espaço de busca das arquiteturas, estratégia de busca e estratégia de estimativa de desempenho. Algoritmos evolutivos de inspiração quântica apresentam resultados promissores quanto à convergência mais rápida quando comparados a outras soluções com espaço de busca restrito e alto custo computacional. Neste trabalho, foi aprimorado o Q-NAS: um algoritmo de inspiração quântica para pesquisar redes profundas por meio da montagem de subestruturas simples. O Q-NAS também pode evoluir alguns hiperparâmetros numéricos do treinamento, o que é um primeiro passo na direção da automação completa. Foram apresentados resultados aplicando Q-NAS, evoluído, sem transferência de conhecimento, no conjunto de dados CIFAR-100 usando apenas 18 GPU/dias. Nossa contribuição envolve experimentar outros otimizadores no algoritmo e fazer um estudo aprofundado dos parâmetros do Q-NAS. Nesse trabalho, foi possível atingir uma acurácia de 76,40%. Foi apresentado também o Q-NAS aprimorado aplicado a um estudo de caso para classificação COVID-19 x Saudável em um banco de dados de tomografia computadorizada de tórax real. Em 9 GPU/dias, conseguimos atingir uma precisão de 99,44% usando menos de 1000 amostras para dados de treinamento. / [en] Deep neural networks are powerful and flexible models that have gained the attention of the machine learning community over the last decade. Usually, an expert spends significant time designing the neural architecture, with long trial and error sessions to reach good and relevant results. Because of the manual process, there is a greater interest in Neural Architecture Search (NAS), which is an automated method of architectural search in neural networks. NAS is a subarea of Automated Machine Learning (AutoML) and is an essential step towards automating machine learning methods. It is a technique that aims to automate the construction process of a neural network architecture. This technique is defined by the search space aspects of the architectures, search strategy and performance estimation strategy. Quantum-inspired evolutionary algorithms present promising results regarding faster convergence when compared to other solutions with restricted search space and high computational costs. In this work, we enhance Q-NAS: a quantum-inspired algorithm to search for deep networks by assembling simple substructures. Q-NAS can also evolve some numerical hyperparameters, which is a first step in the direction of complete automation. Our contribution involves experimenting other types of optimizers in the algorithm and make an indepth study of the Q-NAS parameters. Additionally, we present Q-NAS results, evolved from scratch, on the CIFAR-100 dataset using only 18 GPU/days. We were able to achieve an accuracy of 76.40% which is a competitive result regarding other works in literature. Finally, we also present the enhanced QNAS applied to a case study for COVID-19 x Healthy classification on a real chest computed tomography database. In 9 GPU/days we were able to achieve an accuracy of 99.44% using less than 1000 samples for training data. This accuracy overcame benchmark networks such as ResNet, GoogleLeNet and VGG.
126

[en] A GENERIC PLUGIN FOR PLAYER CLASSIFICATION IN GAMES / [pt] UM PLUGIN GENÉRICO PARA CLASSIFICAÇÃO DE JOGADOR EM JOGOS

LUIS FERNANDO TEIXEIRA BICALHO 22 November 2022 (has links)
[pt] Game Analytics é uma área que envolve o processamento de dados de videogames com a finalidade de proporcionar uma melhor experiência de jogo para o usuário. Também ajuda a verificar os padrões de comportamento dos jogadores, facilitando a identificação do público-alvo. A coleta de dados dos jogadores ajuda os desenvolvedores de jogos a identificar problemas mais cedo e saber por que os jogadores deixaram o jogo ou continuaram jogando. O comportamento desses jogadores geralmente segue um padrão, fazendo com que se encaixem em diferentes perfis de jogadores. Especialistas em análise de jogos criam e usam modelos de tipos de jogadores, geralmente variantes do modelo de Bartle, para ajudar a identificar perfis de jogadores. Esses especialistas usam algoritmos de agrupamento para separar os jogadores em grupos diferentes e identificáveis, rotulando cada grupo com o tipo de perfil definido pelo modelo proposto. O objetivo principal deste projeto é criar um plugin Unity genérico para ajudar a identificar perfis de jogadores em jogos. Este plugin usa uma API Python, que lida com os dados do jogo armazenados em um banco de dados MongoDB, para agrupar e rotular cada partida ou nível do jogo escolhido enquanto o jogo está em execução. Neste plugin, os desenvolvedores de jogos podem configurar o número de tipos de jogadores que desejam identificar, os rótulos dos jogadores e até os algoritmos que desejam usar. Essa abordagem de agrupamento online não é usual no desenvolvimento de jogos. Até onde sabemos, não há nenhum componente de software na literatura de análise de jogos com a mesma direção e recursos. / [en] Game Analytics is an area that involves the processing of video game data, in order to make a better game experience for the user. It also helps to check the patterns in players behaviour, making it easier to identify the target audience. Gathering player data helps game developers identify problems earlier and know why players left the game or kept playing. These players behavior usually follows a pattern, making them fit in different player profiles. Game analytics experts create and use models of player types, usually variants of Bartle s model, to help identify player profiles. These experts use clustering algorithms to separate players into different and identifiable groups, labeling each group with the profile type defined by the proposed model. The main goal of this project is to create a generic Unity plugin to help identify Player Profiles in games. This plugin uses a Python API, which deals with the game data stored in a MongoDB database, to cluster and label each match or level of the chosen game while the game is running. In this plugin, game developers can configure the number of player types they want to identify, the player labels, and even the algorithms they wish to use. This online clustering approach is not usual in game development. As far as we are aware, there is no software component in the game analytics literature with the same direction and features.
127

[en] REDUCING TEACHER-STUDENT INTERACTIONS BETWEEN TWO NEURAL NETWORKS / [pt] REDUZINDO AS INTERAÇÕES PROFESSOR-ALUNO ENTRE DUAS REDES NEURAIS

GUSTAVO MADEIRA KRIEGER 11 October 2019 (has links)
[pt] Propagação de conhecimento é um dos pilares da evolução humana. Nossas descobertas são baseadas em conhecimentos já existentes, construídas em cima deles e então se tornam a fundação para a próxima geração de aprendizado. No ramo de Inteligência Artificial, existe o interesse em replicar esse aspecto da natureza humana em máquinas. Criando um primeiro modelo e treinando ele nos dados originais, outro modelo pode ser criado e aprender a partir dele ao invés de ter que começar todo o processo do zero. Se for comprovado que esse método é confiável, ele vai permitir várias mudanças na forma que nós abordamos machine learning, em que cada inteligência não será um microcosmo independente. Essa relação entre modelos é batizada de relação Professor-Aluno. Esse trabalho descreve o desenvolvimento de dois modelos distintos e suas capacidades de aprender usando a informação dada em um ao outro. Os experimentos apresentados aqui mostram os resultados desse treino e as diferentes metodologias usadas em busca do cenário ótimo em que esse processo de aprendizado é viável para replicação futura. / [en] Propagation of knowledge is one of the pillars of human evolution. Our discoveries are all based on preexisting knowledge, built upon them and then become the foundation for the next generation of learning. In the field of artificial intelligence, there s an interest in replicating this aspect of human nature on machines. By creating a first model and training it on the original data, another model can be created and learn from it instead of having to learn everything from scratch. If this method is proven to be reliable, it will allow many changes in the way that we approach machine learning, specially allowing different models to work together. This relation between models is nicknamed the Teacher-Student relation. This work describes the development of two separate models and their ability to learn using incomplete data and each other. The experiments presented here show the results of this training and the different methods used in the pursuit of an optimal scenario where such learning process is viable for future use.
128

[en] DETECTION, SEPARATION E CLASSIFICATION OF PARTIAL DISCHARGE SIGNALS IN HIGH VOLTAGE INSULATIONS / [pt] DETECÇÃO, SEPARAÇÃO E CLASSIFICAÇÃO DE SINAIS DE DESCARGAS PARCIAIS EM ISOLAMENTOS DE ALTA TENSÃO

THIAGO BAPTISTA RODRIGUES 03 November 2020 (has links)
[pt] A medição e classificação de descargas parciais constituem uma importante ferramenta de avaliação dos sistemas de isolamento utilizados em equipamentos de alta tensão. Após o pré-processamento dos dados, que captura, digitaliza e filtra o sinal de descargas parciais, geralmente eliminando os ruídos, existem basicamente duas etapas principais, que são a extração de características e a classificação de padrões. As descargas parciais contêm um conjunto de características discriminatórias únicas que lhes permitem ser reconhecidas. Assim, o primeiro procedimento no processo de classificação é definir quais delas podem ser utilizadas e qual o método de extração destas características. O fenômeno de descargas parciais tem uma natureza transitória e é caracterizado por correntes pulsantes com uma duração de vários nanossegundos até poucos microssegundos. Sua magnitude não é sempre proporcional ao dano causado, sendo que descargas de pequena magnitude podem levar rapidamente à evolução de um defeito. Por isso a necessidade de se entender bem este fenômeno e saber interpretar os dados. Além disso, equipamentos de alta tensão de grande porte, como motores e geradores, podem apresentar mais de uma fonte interna de descargas parciais, sendo importante separar os sinais dessas diferentes fontes antes de realizar a classificação. No caso de outros equipamentos de alta tensão de menor porte, como para-raios e transformadores de corrente de subestação, a simples detecção da presença de descargas parciais interna ao equipamento, independente do número de fontes, já é suficiente para indicar a retirada de operação destes equipamentos, dado seu baixo custo relativo e o elevado grau de importância destes para a confiabilidade do sistema onde estão inseridos. Para um diagnóstico completo e confíável de isolamentos de alta tensão, há a demanda por um sistema de análise capaz de promover com eficácia a detecção de descargas parciais internas aos equipamentos, a separação das diversas fontes de descargas parciais, no caso dos equipamentos de grande porte, bem como realizar a correta classificação do tipo de defeito, com base principalmente na análise das características discriminantes das diferentes fontes e na assinatura dos sinais para os diferentes defeitos. Este estudo contribui para o preenchimento desta lacuna, apresentando metodologias que se mostram robustas e precisas nos testes realizados, de modo que possam efetivamente orientar os especialistas em manutenção na tomada de decisões. Para fazer isso, são propostas novas variáveis capazes de extrair informações relevantes de sinais no tempo medidos em diversos tipos de isolamentos, sendo aplicadas aqui em dados obtidos em campo e em laboratório para avaliar sua eficácia na tarefa. Essas informações são tratadas utilizando técnicas de classificação de padrões e inteligência artificial para determinar de forma automática a presença de descargas parciais, o número de fontes diferentes e o tipo de defeito nos isolamentos de alta tensão utilizados no estudo. Outra contribuição do estudo é a criação de um banco de dados histórico, baseada em processamento de imagem, com padrões de mapas de descargas parciais conhecidos na literatura em máquinas rotativas, para serem utilizados na classificação de novos mapas medidos neste tipo de equipamento. / [en] Measurement and classification of partial discharges are an important tool for the evaluation of insulation systems used in high voltage equipments. After pre-processing of data, which captures, scans and filters the signal of partial discharges, generally eliminating noises, there are basically two main steps, which are the extraction of characteristics and the pattern classification. Partial discharges contain a set of unique discriminatory characteristics that allow them to be recognized. Thus, the first procedure in the classification process is to define which of them can be used and which is the method for extraction of those characteristics. The phenomenon of partial discharges has a transient nature and is characterized by pulsating currents with a duration of several nanoseconds up to a few microseconds. Its magnitude is not always proportional to the damage caused, and discharges of small magnitude can quickly lead to the evolution of a failure. Therefore the need to understand this phenomenon well and to know how to interpret the data. In addition, large high voltage equipments such as motors and generators may have more than one internal source of partial discharges, and it is important to separate the signals from those different sources prior to classification. In the case of smaller high voltage equipments, as surge arrester and substation current transformers, the simple detection of the presence of partial discharges inside the equipment, regardless of the number of sources, is sufficient to indicate the withdrawal of operation of the equipment, given their low relative cost and the high degree of importance of these to the reliability of the system where they are part of. For a complete and reliable diagnosis of high voltage insulations, there is a demand for an analysis system capable of effectively promoting the detection of the partial discharges internal to the equipments, the separation of the various sources of partial discharges in the case of large equipments, as well as to carry out the correct classification of the type of failure. The system should be based mainly on the analysis of the discriminating characteristics of the different sources and the signature of the signals for the different failure. This study contributes to fill this gap by presenting methodologies that are robust and accurate in the tests performed, so that they can effectively guide maintenance specialists in decision making. To do this, new variables are proposed to extract relevant information from time signals measured in various types of insulations, being applied here in field and laboratory data to evaluate their effectiveness in the task. This information is treated using standard classification techniques and artificial intelligence to automatically determine the presence of partial discharges, the number of different sources and the type of defect in the high voltage insulations used in the study. Another contribution of the study is the creation of a historical database, based on image processing, with partial discharge map patterns known in the literature on rotating machines, to be used in the classification of new maps measured in this type of equipment.
129

[en] IDENTIFICATION OF PROTEIN SUBCELLULAR LOCALIZATION BY DEEP LEARNING TECHNIQUES / [pt] IDENTIFICAÇÃO DA LOCALIZAÇÃO SUBCELULAR DE PROTEÍNAS POR MEIO DE TÉCNICAS DE DEEP LEARNING

ROBERTO BANDEIRA DE MELLO MORAIS DA SILVA 21 May 2020 (has links)
[pt] As proteínas são macromoléculas biológicas compostas por cadeias de aminoácidos, presentes em praticamente todos os processos celulares, sendo essenciais para o correto funcionamento do organismo humano. Existem diversos estudos em torno do proteoma humano a fim de se identificar quais são as funções de cada proteína nas diferentes células, tecidos e órgãos do corpo humano. A classificação destas proteínas em diferentes formas, como por exemplo a localização subcelular, é importante para diversas aplicações da biomedicina. Com o avanço das tecnologias para obtenção de imagens das proteínas, tem-se que hoje estas são geradas em grande volume e mais rapidamente do que é possível classificá-las manualmente, o que torna importante o desenvolvimento de um classificador automático capaz de realizar esta classificação de maneira eficaz. Dessa forma, esta dissertação buscou desenvolver algoritmos capazes de realizar a classificação automática de padrões mistos de localização subcelular de proteínas, por meio do uso de técnicas de Deep Learning. Inicialmente, fez-se uma revisão da literatura em torno de redes neurais, Deep Learning e SVMs, e utilizou-se o banco de dados, publicamente disponíve, de imagens de células do Human Protein Atlas, para treinamento dos algoritmos de aprendizagem supervisionada. Diversos modelos foram desenvolvidos e avaliados, visando identificar aquele com melhor desempenho na tarefa de classificação. Ao longo do trabalho foram desenvolvidas redes neurais artificiais convolucionais de topologia LeNet, ResNet e um modelo híbrido ResNet-SVM, tendo sido treinadas ao todo 81 redes neurais diferentes, a fim de se identificar o melhor conjunto de hiper-parâmetros. As análises efetuadas permitiram concluir que a rede de melhor desempenho foi uma variante da topologia ResNet, que obteve em suas métricas de desempenho uma acurácia de 0,94 e uma pontuação F1 de 0,44 ao se avaliar o comportamento da rede frente ao conjunto de teste. Os resultados obtidos pela diferentes topologias analisadas foram detalhadamente avaliados e, com base nos resultados alcançados, foram sugeridos trabalhos futuros baseados em possíveis melhorias para as redes de melhor desempenho. / [en] Proteins are biological macromolecules composed of aminoacid chains, part of practically all cellular processes, being essential for the correct functioning of the human organism. There are many studies around the human protein aiming to identify the proteins’ functions in different cells, tissues and organs in the human body. The protein classification in many forms, such as the subcellular localization, is important for many biomedical applications. With the advance of protein image obtention technology, today these images are generated in large scale and faster than it is possible to manually classify them, which makes crucial the development of a system capable of classifying these images automatically and accurately. In that matter, this dissertation aimed to develop algorithms capable of automatically classifying proteins in mixed patterns of subcellular localization with the use of Deep Learning techniques. Initially, a literature review on neural networks, Deep Learning and SVMs, and a publicly available image database from the Human Protein Atlas was used to train the supervised learning algorithms. Many models were developed seeking the best performance in the classification task. Throughout this work, convolutional artificial neural networks of topologies LeNet, ResNet and a hybrid ResNet-SVM model were developed, with a total of 81 different neural networks trained, aiming to identify the best hyper-parameters. The analysis allowed the conclusion that the network with best performance was a ResNet variation, which obtained in its performance metrics an accuracy of 0.94 and an F1 score of 0.44 when evaluated against the test data. The obtained results of these topologies were detailedly evaluated and, based on the measured results, future studies were suggested based on possible improvements for the neural networks that had the best performances.
130

[en] A GRAPH-BASED COLLABORATIVE SUPPORT FOR EXPERT FINDING AND RECOMMENDING REFERENCES IN SCIENTIFIC PUBLICATIONS / [pt] SUPORTE COLABORATIVO BASEADO EM GRAFOS PARA LOCALIZAR ESPECIALISTAS E RECOMENDAR REFERÊNCIAS EM ARTIGOS CIENTÍFICOS

ORLANDO FONSECA GUILARTE 07 April 2020 (has links)
[pt] A revisão da literatura científica é um relato crítico dos principais trabalhos em uma área ou tópico específico. Dessa forma, os autores buscam a literatura e apresentam os artigos relevantes de forma organizada por data de publicação e evolução de um tema de pesquisa. Revisões da literatura fornecem uma fotografia do estado da arte de um tópico de pesquisa. Através da seleção dos trabalhos mais importantes de uma certa área é possível identificar os autores mais especializados na área ou em determinados artigos, proporcionando assim uma solução para o problema de encontrar potenciais candidatos especialistas. Nesta tese estudaremos o problema de selecionar e visualizar os artigos mais relevantes que refletem a evolução de um tópico de pesquisa. Para isso, propomos uma abordagem visual colaborativa baseada em grafos para recomendar referências importantes. Apresentamos também a tarefa de encontrar e classificar os autores dado um artigo científico usando caminhos de citações relevantes. A partir de um ranking de referências, o valor da expertise dos autores é calculado. Uma metodologia é proposta para construir e atualizar o grafo de citações de forma colaborativa com os votos dos especialistas. / [en] The scientific literature review is a critical account of the main papers in a particular subject area or topic. In this way, the authors surveys the literature and present the relevant articles in an organized way by publication date and evolution of the research topic, which gives an overview of the state of the art in a subject. Through these relevant papers it is also possible to identify the most expert authors in the area or in certain papers, thus providing a solution to the problem of finding potential expert candidates. The main challenge of making a literature review is to identify the most relevant articles that reflect the evolution of the different research topics. In this thesis, we propose a visual collaborative approach that uses graphs to recommend important references. In addition, we introduce the task of searching and ranking authors given a target paper using relevant citation paths. From a ranking of references, the value of the author s expertise is calculated. A methodology is proposed in order to build and update the citation graph in a collaborative way with the expert s votes.

Page generated in 0.0458 seconds