Global ETD Search

411	A ordenação das variáveis no processo de otimização de classificadores bayesianos: uma abordagem evolutiva Santos, Edimilson Batista dos 20 August 2007 (has links) Made available in DSpace on 2016-06-02T19:05:27Z (GMT). No. of bitstreams: 1 1649.pdf: 1564885 bytes, checksum: e8028ca33a6f5d6183ac9df67a8c1ae9 (MD5) Previous issue date: 2007-08-20 / Classification is a basic task in data analysis and pattern recognition that requires the construction of a classifier. The induction of classifiers from data sets is an important problem in machine learning. Numerous approaches to this problem are based on various representations such as decision trees, neural networks, decision graphs, and rules. However the interest in Bayesianos methods for classification has grown sufficiently. Bayesian Networks (BNs) learning algorithms can be used to induce Bayesian classifiers. However, BNs learning from data is known to be a NP problem and does not have computational methods capable to identify to the best solution for all the application problems. A very common restriction when learning a BN is the definition of a previous Variables Ordering (OV). The OV represent the possible relationships between the variables in the formation of the structure of BN that describes the problem. Using an adequate OV, learning algorithms are capable to find a solution more efficient. Therefore, this work proposes hybrid approaches to help the process of learning a BN from data for classification. The proposed methods named VOGA, VOGAC e VOEA uses Evolutionary Algorithms to optimize the BN learning process by means of the identification of an adequate variables ordering. These methods use information about the class variable when defining the most suitable variable ordering. Experiments performed in a number of datasets revealed that methods are promising / Classificação é uma tarefa importante em análises de dados e reconhecimento de padrões e requer a construção de um classificador. A indução de classificadores a partir de um conjunto de dados é um problema importante em aprendizado de máquina. Diversas abordagens para a resolução deste problema se baseiam em várias representações, como árvores de decisão, redes neurais, grafos de decisão e regras. Entretanto, têm crescido bastante o interesse em métodos Bayesianos para classificação. Os algoritmos de aprendizado de redes Bayesianas podem ser usados para induzir classificadores Bayesianos. Contudo, o aprendizado de redes Bayesianas a partir de dados é um problema NP-Completo e não há métodos computacionais capazes de identificar a melhor solução para todos os problemas de aplicação. Uma restrição comum nestes algoritmos de aprendizado é a ordenação prévia das variáveis utilizadas na definição do problema. As ordenações das variáveis representam os possíveis relacionamentos entre as variáveis na formação da estrutura da rede Bayesiana que descreve o problema. Utilizando uma ordenação adequada das variáveis, os algoritmos de aprendizado são capazes de encontrar uma solução mais eficiente. Sendo assim, são propostos, neste trabalho, métodos híbridos para identificar uma ordenação adequada de variáveis, visando à otimização do aprendizado de redes Bayesianas para a tarefa de classificação. Os métodos propostos, chamados de VOGA, VOGAC e VOEA, utilizam algoritmos evolucionários e algoritmos de aprendizado de redes Bayesianas. Estes métodos usam a informação da variável classe na definição da ordenação mais adequada. Os experimentos executados em alguns domínios de bases de dados revelaram que os métodos propostos são promissores Redes Bayesianas Aprendizado do computador Algoritmos genéticos
412	A seleção de atributos e o aprendizado supervisionado de redes bayesianas no contexto da mineração de dados Galvão, Sebastian David Carvalho de Oliveira 29 October 2007 (has links) Made available in DSpace on 2016-06-02T19:05:28Z (GMT). No. of bitstreams: 1 1698.pdf: 1287729 bytes, checksum: 3b1a05110798861ad7e42fd67b1694d6 (MD5) Previous issue date: 2007-10-29 / Universidade Federal de Minas Gerais / The Knowledge Discovery in Databases (KDD) techniques have grown from the need for obtain more information about the data stored by organizations, such as, enterprise companies and research institutes. Bayesian Networks (BNs) can be considered as a probabilistic reasoning based model to represent knowledge and are very adequate to KDD tasks. In the last years, Bayesian Networks (BNs) have been applied in many supervised and unsupervised learning successful applications. The process to induce BNs and Bayesian Classifiers (BCs) from data tries do identify a BN (or a BC) able to represent the relationship among the variables of a certain data set. However, this is a NP-complete problem and, thus, its search space may become very large in most applications. That is the reason why many algorithms explore some way to reduce the search space in order to make the learning process computationally viable. In this master s thesis a new Conditional Independence based approach to induce BCs from data is proposed and implemented. Such approach is based on the Markov Blanket concept in order to impose some constraints and optimize the traditional PC learning algorithm. Experiments performed with ten data sets revealed that the proposed approach tends to execute fewer comparisons than the traditional PC. The experiments also show that the implemented algorithm produce competitive classification rates when compared with both, PC and NaiveBayes / As técnicas de Descoberta de Conhecimento em Bancos de Dados (KDD), também chamadas de Mineração de Dados, surgiram da grande necessidade de se obter mais informação sobre os dados armazenados por organizações, como empresas, grandes corporações e instituições de pesquisa. As Redes Bayesianas (RBs) podem ser consideradas como uma forma de representação do conhecimento baseada no raciocínio probabilístico e possuem características que as tornam muito adequadas para tarefas de descoberta de conhecimento em bancos de dados. Por isso, este é um campo de aplicação efervescente nos últimos anos. O aprendizado automático de RBs e Classificadores Bayesianos (CBs) busca identificar uma RB (ou CB) que represente o relacionamento entre as variáveis de um determinado conjunto de dados, mas como este é um problema NP-completo o espaço de busca se torna muito amplo na maioria das aplicações. Por este motivo, muitos algoritmos exploram alguma forma de redução do espaço de busca para tornar o processo de aprendizado computacionalmente viável. Esta dissertação de mestrado apresenta um método (MarkovPC) de aprendizado de CBs que visa exatamente reduzir o espaço de busca durante a indução de um classificador a partir de dados. Para tanto, toma-se como base algoritmos de aprendizado de RB da classe IC (Independência Condicional) e o conceito de Markov Blanket. Resultados obtidos através de experimentos realizados com 10 conjuntos de dados mostram que o MarkovPC é capaz de reduzir o esforço computacional do processo de indução de um classificador Bayesiano e manter a qualidade do classificador induzido (em termos de taxa de classificação correta) Aprendizado de computador Data mining (Mineração de dados) Redes Bayesianas
413	Sobre o processo de seleção de subconjuntos de atributos - as abordagens filtro e wrapper. Santoro, Daniel Monegatto 28 April 2005 (has links) Made available in DSpace on 2016-06-02T19:06:20Z (GMT). No. of bitstreams: 1 DissDMS.pdf: 4319162 bytes, checksum: 520f8924dcc0b2471665008a2ea3ec5a (MD5) Previous issue date: 2005-04-28 / Universidade Federal de Sao Carlos / Inductive machine learning methods learn the expression of the concept from a training set. Training sets are, generally, composed by instances described by attributevalue pairs and an associated class. The attribute set used for describing the training instances has a strong impact on the induced concepts. In a machine learning environment, attribute subset selection techniques aim at the identification of the attributes which effectively contribute for establishing the class of an instance. These techniques can be characterized as wrappers (if they are associated with a specific machine learning method) or filter and many of them work in conjunction with a search method (there are also embedded feature selection methods, not very representative). This work approaches the attribute subset selection problem by investigating the performance of two families of wrappers the NN (Nearest Neighbor) and DistAl families and three filter families Relief, Focus and LVF. The many members of the NN family (as well as of the DistAl family) differ among themselves with relation to the search method they use. The work presents and discusses the experiments conducted in many knowledge domains and their results allow a comparative evaluation (as far as accuracy and dimensionality are concerned) among the members of the families. / Métodos indutivos de aprendizado de máquina aprendem a expressão do conceito a partir de um conjunto de treinamento. Conjuntos de treinamento são, na maioria das vezes, compostos por instâncias descritas por pares atributo-valor e uma classe associada. O conjunto de atributos usado para descrever as instâncias de treinamento tem um forte impacto na expressão induzida do conceito. As técnicas para a seleção de subconjuntos de atributos no contexto de aprendizado de máquina objetivam identificar os atributos que efetivamente contribuem para a caracterização da classe de uma instância. Essas técnicas podem ser caracterizadas como do tipo wrapper (se estão associadas a um método específico de aprendizado de máquina) ou filtro e muitas delas funcionam articuladas a um método de busca (há ainda o tipo integrado, pouco representativo). Este trabalho aborda o problema de seleção de subconjuntos de atributos por meio da investigação do desempenho de duas famílias de wrappers a família NN (Neareast Neighbor) e a DistAl e de três famílias de filtros Relief, Focus e LVF. Os vários integrantes da família NN (bem como da família DistAl) diferem entre si com relação ao método de busca utilizado. O trabalho apresenta e discute os experimentos realizados em vários domínios de conhecimento e seus resultados permitem uma avaliação comparativa de desempenho (precisão e dimensionalidade) dos elementos das várias famílias avaliadas. Inteligência artificial Aprendizado do computador Métodos de busca Seleção de atributos
414	Inferência de emoções em fragmentos de textos obtidos do Facebook / Inference of emotions in fragments of texts obtained from the Facebook Medeiros, Richerland Pinto [UNESP] 27 April 2017 (has links) Submitted by Richerland Pinto Medeiros null (rick.land@gmail.com) on 2017-06-27T15:12:38Z No. of bitstreams: 1 DISSERTACAO_RICHERLAND_MEDEIROS.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Approved for entry into archive by LUIZA DE MENEZES ROMANETTO (luizamenezes@reitoria.unesp.br) on 2017-06-27T17:04:08Z (GMT) No. of bitstreams: 1 medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) / Made available in DSpace on 2017-06-27T17:04:09Z (GMT). No. of bitstreams: 1 medeiros_rp_me_bauru.pdf: 1209454 bytes, checksum: 251490a058f4248162de9508b4627e65 (MD5) Previous issue date: 2017-04-27 / Esta pesquisa tem como objetivo analisar o uso da técnica estatística de aprendizado de máquina Maximização de Entropia, voltado para tarefas de processamento de linguagem natural na inferência de emoções em textos obtidos da rede social Facebook. Foram estudados os conceitos primordiais das tarefas de processamento de linguagem natural, os conceitos inerentes a teoria da informação, bem como o aprofundamento no conceito de um modelo entrópico como classificador de textos. Os dados utilizados na presente pesquisa foram obtidos de textos curtos, ou seja, textos com no máximo 500 caracteres. A técnica em questão foi abordada dentro do aprendizado supervisionado de máquina, logo, parte dos dados coletados foram usados como exemplos marcados dentro de um conjunto de classes predefinidas, a fim de induzir o mecanismo de aprendizado a selecionar a classe de emoção mais provável dado o exemplo analisado. O método proposto obteve índice de assertividade médio de 90%, baseado no modelo de validação cruzada. / This research aims to analyze the use of entropy maximization machine learning statistical technique, focused on natural language processing tasks in the inferencing of emotions in short texts from Facebook social network. Were studied the primary concepts of natural language processing tasks, IT intrinsic concepts, as well as deepening the concept of Entropy model as a text classifier. All data used for this research came from short texts found in social networks and had 500 characters or less. The model was used within supervised machine learning, therefore, part of the collected data was used as examples marked within a set of predefined classes in order to induce the learning mechanism to select the most probable emotion class given the analyzed sample. The method has obtained the mean accuracy rate of 90%, based on the cross-validation model. Emoções Processamento de linguagem natural Maximização de entropia Aprendizado de máquina Emotions Natural language processing Machine learning Entropy maximization
415	Suporte ao diagnóstico da doença de Alzheimer a partir de imagens de ressonância magnética / Diagnostic support for Alzheimer's disease through magnetic resonance imaging Padovese, Bruno Tavares [UNESP] 15 May 2017 (has links) Submitted by Bruno Tavares Padovese null (bpadovese@gmail.com) on 2017-07-03T15:22:41Z No. of bitstreams: 1 Dissertacao_Mestrado_Bruno_Tavares_Padovese.pdf: 4559390 bytes, checksum: 9152719c817205d08d3a72b5a5abc949 (MD5) / Approved for entry into archive by Luiz Galeffi (luizgaleffi@gmail.com) on 2017-07-04T17:59:03Z (GMT) No. of bitstreams: 1 padovese_bt_me_sjrp.pdf: 4559390 bytes, checksum: 9152719c817205d08d3a72b5a5abc949 (MD5) / Made available in DSpace on 2017-07-04T17:59:03Z (GMT). No. of bitstreams: 1 padovese_bt_me_sjrp.pdf: 4559390 bytes, checksum: 9152719c817205d08d3a72b5a5abc949 (MD5) Previous issue date: 2017-05-15 / Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) / Resumo: Os estágios iniciais da doença de Alzheimer são comumente confundidos com o processo natural de envelhecimento. Adicionalmente, a metodologia envolvida no diagnóstico por radiologistas pode ser subjetiva e difícil de documentar. Neste cenário, o desenvolvimento de abordagens acessíveis capazes de auxiliar no diagnóstico precoce da doença de Alzheimer é crucial. Várias abordagens têm sido empregadas com este objetivo, especialmente utilizando imagens de ressonância magnética cerebral. Embora resultados com precisão satisfatória tenham sido obtidos, a maioria das abordagens requer etapas de pré-processamento muito específicas, baseadas na anatomia do cérebro. Neste trabalho, apresentamos uma nova abordagem de recuperação de imagens para auxílio ao diagnóstico da doença de Alzheimer, com base em descritores de propósito geral e uma etapa de pós-processamento não supervisionada. Os exames de ressonância magnética cerebral são processados e recuperados através de descritores de uso geral sem nenhuma etapa de pré-processamento. Dois algoritmos de aprendizado não-supervisionados baseados em ranqueamento foram aplicados para melhorar a eficácia dos resultados iniciais: os algoritmos RL-Sim e ReckNN. Os resultados experimentais demonstram que a abordagem proposta é capaz de atingir resultados de recuperação eficazes, sendo adequada para auxiliar no diagnóstico da doença de Alzheimer. / Abstract: Initial stages of Alzheimer’s disease are easily confused with the normal aging process. Additionally, the methodology involved in the diagnosis by radiologists can be subjective and difficult to document. In this scenario, the development of accessible approaches capable of supporting the early diagnosis of Alzheimer’s disease is crucial. Various approaches have been employed with this objective, specially using brain MRI scans. Although certain satisfactory accuracy results have been achieved, most of the approaches require very specific pre-processing steps based on the brain anatomy. In this work, we present a novel image retrieval approach for supporting the Alzheimer’s disease diagnostic, based on general purpose features and an unsupervised post-processing step. The brain MRI scans are processed and retrieved through general visual features without any pre-processing step. Two rank-based unsupervised distance learning algorithms were used for improving the effectiveness of the initial results: the RL-Sim and ReckNN algorithms. Experimental results demonstrate that the proposed approach can achieve effective retrieval results, being suitable in aiding the diagnosis of Alzheimer’s disease. / CNPq: 154034/2016-9 Alzheimer Descritores visuais Aprendizado não-supervisionado Auxílio ao diagnóstico CBIR Visual descriptors Unsupervised learning
416	Deep learning architecture for gesture recognition / Glatt, Ruben. January 2014 (has links) Orientador: José Celso Freire Junior / Coorientador: Daniel Julien Barros da Silva Sampaio / Banca: Galeno José de Sena / Banca: Luiz de Siqueira Martins Filho / Resumo: O reconhecimento de atividade de visão de computador desempenha um papel importante na investigação para aplicações como interfaces humanas de computador, ambientes inteligentes, vigilância ou sistemas médicos. Neste trabalho, é proposto um sistema de reconhecimento de gestos com base em uma arquitetura de aprendizagem profunda. Ele é usado para analisar o desempenho quando treinado com os dados de entrada multi-modais em um conjunto de dados de linguagem de sinais italiana. A área de pesquisa subjacente é um campo chamado interação homem-máquina. Ele combina a pesquisa sobre interfaces naturais, reconhecimento de gestos e de atividade, aprendizagem de máquina e tecnologias de sensores que são usados para capturar a entrada do meio ambiente para processamento posterior. Essas áreas são introduzidas e os conceitos básicos são descritos. O ambiente de desenvolvimento para o pré-processamento de dados e algoritmos de aprendizagem de máquina programada em Python é descrito e as principais bibliotecas são discutidas. A coleta dos fluxos de dados é explicada e é descrito o conjunto de dados utilizado. A arquitetura proposta de aprendizagem consiste em dois passos. O pré-processamento dos dados de entrada e a arquitetura de aprendizagem. O pré-processamento é limitado a três estratégias diferentes, que são combinadas para oferecer seis diferentes perfis de préprocessamento. No segundo passo, um Deep Belief Network é introduzido e os seus componentes são explicados. Com esta definição, 294 experimentos são realizados com diferentes configurações. As variáveis que são alteradas são as definições de pré-processamento, a estrutura de camadas do modelo, a taxa de aprendizagem de pré-treino e a taxa de aprendizagem de afinação. A avaliação dessas experiências mostra que a abordagem de utilização de uma arquitetura ... (Resumo completo, clicar acesso eletrônico abaixo) / Abstract: Activity recognition from computer vision plays an important role in research towards applications like human computer interfaces, intelligent environments, surveillance or medical systems. In this work, a gesture recognition system based on a deep learning architecture is proposed. It is used to analyze the performance when trained with multi-modal input data on an Italian sign language dataset. The underlying research area is a field called human-machine interaction. It combines research on natural user interfaces, gesture and activity recognition, machine learning and sensor technologies, which are used to capture the environmental input for further processing. Those areas are introduced and the basic concepts are described. The development environment for preprocessing data and programming machine learning algorithms with Python is described and the main libraries are discussed. The gathering of the multi-modal data streams is explained and the used dataset is outlined. The proposed learning architecture consists of two steps. The preprocessing of the input data and the actual learning architecture. The preprocessing is limited to three different strategies, which are combined to offer six different preprocessing profiles. In the second step, a Deep Belief network is introduced and its components are explained. With this setup, 294 experiments are conducted with varying configuration settings. The variables that are altered are the preprocessing settings, the layer structure of the model, the pretraining and the fine-tune learning rate. The evaluation of these experiments show that the approach of using a deep learning architecture on an activity or gesture recognition task yields acceptable results, but has not yet reached a level of maturity, which would allow to use the developed models in serious applications. / Mestre Interação homem-máquina. Aprendizado do computador. Gestos. Língua de sinais. Sign language Fatigue
417	Aprendizado não-supervisionado de características para detecção de conteúdo malicioso / Silva, Luis Alexandre da. January 2016 (has links) Orientador: João Paulo Papa / Coorientador: Kelton Augusto Pontara da Costa / Banca: Roberta Spolon / Banca: Tiago Agostinho de Almeida / Resumo: O aprendizado de características tem sido um dos grandes desafios das técnicas baseadas em Redes Neurais Artificiais (RNAs), principalmente quando se trata de um grande número de amostras e características que as definem. Uma técnica ainda pouco explorada nesse campo diz respeito as baseadas em RNAs derivada das Máquinas de Boltzmann Restritas, do inglês Restricted Boltzmann Machines (RBM), principalmente na área de segurança de redes de computadores. A proposta deste trabalho visa explorar essas técnicas no campo de aprendizado não-supervisionado de características para detecção de conteúdo malicioso, especificamente na área de segurança de redes de computadores. Experimentos foram conduzidos usando técnicas baseadas em RBMs para o aprendizado não-supervisionado de características visando a detecção de conteúdo malicioso utilizando meta-heurísticas baseadas em algoritmos de otimização, voltado à detecção de spam em mensagens eletrônicas. Nos resultados alcançados por meio dos experimentos, observou-se, que com uma quantidade menor de características, podem ser obtidos resultados similares de acurácia quando comparados com as bases originais, com um menor tempo relacionado ao processo de treinamento, evidenciando que técnicas de aprendizado baseadas em RBMs são adequadas para o aprendizado de características no contexto deste trabalho / Abstract: The features learning has been one of the main challenges of techniques based on Artificial Neural Networks (ANN), especially when it comes to a large number of samples and features that define them. Restricted Boltzmann Machines (RBM) is a technique based on ANN, even little explored especially in security in computer networks. This study aims to explore these techniques in unsupervised features learning in order to detect malicious content, specifically in the security area in computer networks. Experiments were conducted using techniques based on RBMs for unsupervised features learning, which was aimed to identify malicious content, using meta-heuristics based on optimization algorithms, which was designed to detect spam in email messages. The experiment results demonstrated that fewer features can get similar results as the accuracy of the original bases with a lower training time, it was concluded that learning techniques based on RBMs are suitable for features learning in the context of this work / Mestre Ciência da computação. Biometria. Reconhecimento de padrões. Redes neurais (Computação) Aprendizado do computador. Computer science
418	Segmentação interativa de imagens utilizando competição e cooperação entre partículas / Silva, Bárbara Ribeiro da. January 2015 (has links) Orientador: Fabricio Aparecido Breve / Banca: Denis Henrique Pinheiro Salvadeo / Banca: Marcos Gonçalves Quiles / Resumo: Para estudar e classificar imagens é necessário entender as subdivisões que elas apresentam. Para esta finalidade existem técnicas de segmentação de imagens, uma das tarefas de visão computacional, a qual consiste na repartição de uma imagem digital em múltiplos segmentos, regiões ou objetos, com o intuito de facilitar a análise e compreensão. Métodos de segmentação de imagens são frequentemente utilizados para localizar objetos e bordas em imagens. Para tal tarefa, frequentemente são empregados algoritmos de aprendizado de máquina; disciplina científica que trata do projeto e desenvolvimento de algoritmos que melhoram automaticamente com a experiência, imitando o comportamento de aprendizado humano. O processo de aprendizado de máquina pode ser utilizado de diferentes formas, no entanto a categoria de aprendizado semi-supervisionado foi a que melhor se adaptou à proposta deste projeto. Esta categoria representa uma mescla entre o aprendizado supervisionado e o aprendizado não-supervisionado e trabalha com ambos os dados rotulados e não rotulados em sua fase de treinamento, proporcionando o uso de características individuais e/ou por conjunto. Diante da necessidade de combinação do aprendizado semi-supervisionado com a segmentação de imagem, foram estudadas formas de se utilizar informação provenientes de imagens para alimentar o aprendizado de máquina semi-supervisionado. Como resultado deste estudo, o algoritmo de aprendizado semi-supervisionado conhecido como competição e cooperação entre partículas foi estendido para a aplicações na tarefa de segmentação interativa de imagens. Na imagem de entrada, alguns pixels são classificados pelo usuário e servem como pixels de partida para o algoritmo. Estes pontos pré-rotulados são utilizados para criar as partículas no modelo utilizado. Também foram alterados alguns parâmetros de execução e partes estruturais do algoritmo de forma a otimizar a... / Abstract: To study and classify images it is necessary to understand the subdivisions they present. For this purpose there are image segmentation techniques, one of the computer vision tasks, which consists in the distribution of a digital image into multiple segments, regions or objects, in order to facilitate analysis and understanding. Image segmentation methods are often used for locating objects in images and borders. For this task, machine learning algorithms are often employed; scientific discipline that deals with the design and development of algorithms that automatically improve with experience, imitating the human learning behavior. The machine learning process can be used in different ways, however the category that best adapted to the project proposal, which represents a blend of supervised learning and unsupervised learning, called semi-supervised learning. Such category of algorithms works with both labelled and unlabelled data in their training phase, allowing the use of individual characteristics and or per set. Given the necessity of combining semi-supervised learning with image segmentation, some means of using information delivered from image to feed the semi-supervised learning machine were studied. As a result of this study, the semi-supervised learning algorithm known as competition and cooperation among particles was extended to be applied in the interactive image segmentation task. In the input image, some pixels are classified by the user and serve as a starting pixels to the algorithm. These pre-labeled points are used to create particles in the proposed model. Also, some parameters and algorithm structures were changed to optimize the classification and means of expressing the results in order to make it more suitable for the image segmentation task / Mestre Computação - Matematica. Segmentação de imagens Algoritmos de computador. Aprendizado do computador. Computer science Mathematics
419	Predição de fenótipos de Escherichia coli através de redes biológicas e aprendizado de máquina / Reis, Esther Camilo dos. January 2015 (has links) Orientador: Ney Lemke / Coorientador: Marcio Luis Acencio / Banca Sandra Regina Costa Maruyama / Banca: Marcelo Mendes Brandão / Banca: Claudia Pio / Banca: Angelo Jose Magro / Resumo: Uma importante questão levantada logo após o primeiro sequenciamento completo do genoma de um organismo foi: quantos genes são essenciais para a vida celular? Experimentos de deleção individual realizados com a bactéria Escherichia coli revelaram que menos de 10% dos seus genes apresentam essa condição, ou seja, a inativação de cada um deles leva a total inviabilidade da bactéria. A teoria de redes fornece uma representação abstrata de um sistema biológico, onde o conjunto de nodos são os componentes biológicos (proteínas, genes, metabólitos, etc) e o conjunto de arestas são as interações de natureza biológica (interação física entre proteínas, interações metabólicas, interações de regulação transcricional, etc) que conectam cada dois componentes biológicos. A posição dos componentes biológicos em uma rede indica sua importância para a manutenção do sistema biológico. De forma geral, componentes localizados em posições centrais em uma rede biológica são aqueles componentes chaves para a integridade do sistema. Neste trabalho, decidimos investigar a posição dos restantes 90% dos genes considerados não-essenciais na rede integrada de interações gênicas (RIG) de E. coli. Especificamente, investigamos os genes condicionalmente essenciais, isto é, genes que são essenciais somente em determinadas condições de estresse. Além disso, investigamos também a posição na rede de pares de genes que constituem interações genéticas agravantes, isto é, pares de genes que quando deletados conjuntamente agravam a viabilidade do organismo. Utilizando uma abordagem puramente computacional baseada em aprendizado de máquina e propriedades topológicas da RIG, nós criamos modelos preditivos de árvores de decisão para definirmos como esses genes condicionalmente essenciais e as interações genéticas agravantes estão distribuídas na RIG. Ainda, uma lista com as probabilidades de classificação de cada... / Abstract: An important question raised after the first complete genome sequencing was: how many genes are essential for the cell life? Single deletion experiments carried out with the bacteria Escherichia coli unveiled that less than 10% of their genes are essential, which means that the inativation of each one leads to the total bacteria inviability. The network theory provides an abstract representation of a biological system, where a set of nodes are the biological components (protein, genes, metabolites, etc) and the set of edges are the interactions (protein-protein physical interactions, metabolic interactions, transcriptional regulational interactions, etc) that link each two biological components. The position of the biological components in a network indicates its importance for the maintenance of the biological system. In general, components located in central positions in a network are those key components for the system integrity. In this work, we decided to survey the position of the 90% genes considered not essential in integrated network of gene interactions (INGI) of the E. coli. Specifically, we investigated the conditionally essential genes, i. e. those genes essential under some type of stress. Moreover, we also investigated the network position of gene pairs that constitute aggravating genetic interaction, i. e. genes pairs that when deleted simultaneously aggravates the organism viability. Using a purely computational approach based on machine learning and topological properties of the INGI, we created preditive decision trees models to define how those conditionally essential genes and the aggravating genetic interaction are distributed in the INGI. A list with the probability of classification for each gene/interaction were obtained. The performance evaluation of our models demonstrates that this methodology can be applied with success in predicting conditionally essential genes. The prediction of genetic interactions also ... / Doutor Sistemas biologicos. Escherichia coli. Aprendizado do computador. Fenotipo. Predição (Logica) Escherichia coli.
420	Algoritmos de aprendizado semi-supervisionado baseados em grafos aplicados na bioinformática / Negretto, Diego Henrique. January 2016 (has links) Orientador: Fabrício Aparecido Breve / Banca: Moacir Antonelli Ponti / Banca: Daniel Carlos Guimarães Pedronette / Resumo: As pesquisas realizadas para o Sequenciamento de Genomas, Proteômica, Sistemas Biológicos, Diagnósticos Médicos, entre outros, geram uma grande quantidade de dados, fazendo necessário o apoio de soluções computacionais para a análise e interpretação desses dados. A utilização de técnicas de Aprendizado de Máquina, para a extração de conhecimentos úteis dessas grandes quantidades de dados, tem sido amplamente discutida entre pesquisadores da Biologia e da Computação. O processo para se rotular todos os dados gerados pelas pesquisas biológicas, assim como em outras áreas, é difícil, caro e/ou demorado. Assim, buscar maneiras de se atingir uma grande acurácia com poucos dados rotulados torna-se uma tarefa importante e desafiadora. Nesse sentido, o Aprendizado SemiSupervisionado mostra-se como uma opção importante uma vez que utiliza dados rotulados e não rotulados para o treinamento, sendo uma categoria intermediária entre o Aprendizado Supervisionado e o Não Supervisionado. Diversas abordagens para algoritmos de Aprendizado Semi-Supervisionado são encontradas na literatura. Dentre elas, destacam-se os métodos baseados em grafos, que representam os dados de entrada como nós de um grafo cuja estrutura é utilizada para propagar informações de rótulos dos nós rotulados para os demais nós. Destaca-se ainda que a abordagem baseada em grafos possui uma grande fundamentação matemática e computacional. Nesse contexto, este trabalho apresenta uma análise comparativa de alguns algoritmos semi-supervisionados, baseados em grafos, quando aplicados a dados biológicos relacionados aos campos de estudos da Proteômica e Transcriptômica. Adicionalmente, o trabalho propõe um novo dataset com dados reais oriundos de pesquisas biológicas com o transcriptoma de formigas da espécie Mycocepurus goeldii. Alguns experimentos realizados com os algoritmos semi-supervisionados são apresentados, levando em consideração sua... / Abstract: Research conducted for the sequencing of genomes, Proteomics, Systems Biology, Medical Diagnostics, among others, generate a lot of data, making it necessary the support of computing solutions for the analysis and interpretation of such data. The possibility of using machine learning techniques to extract useful knowledge of these large amounts of data has been widely discussed among researchers of Biology and Computer Science. The process of labeling all data generated by biological research, as well as in other areas, is difficult, costly and / or time consuming. Thus, searching ways to achieve a high accuracy with few labeled data is an important and challenging task. Accordingly, the Semi-Supervised Learning shows up as an important option since it uses both labeled and unlabeled data for training, being an intermediate category between the Supervised and Unsupervised Learning. Several approaches to semi-supervised learning algorithms are found in the literature. Among them, the highlights are the graph-based methods, which represent the input data as nodes in a graph, which structure is used to propagate label information from labeled nodes to the other nodes. It is also noteworthy that the graph-based approach has a great mathematical and computational validity. In this context, this paper presents a comparative analysis of some semi-supervised algorithms based on graphs, when applied to biological data analysis related to the field of proteomics and transcriptomics studies. In addition, the paper proposes a new dataset with actual data from biological research with the transcriptome of the Mycocepurus goeldii species of ants. Some experiments performed with semi-supervised algorithms are presented, considering its efficacy when compared with a few supervised methods / Mestre Computação - Matematica. Algoritmos de computador. Aprendizado do computador. Árvores (Teoria dos grafos) Bioinformática. Reconhecimento de padrões. Proteômica. Computer algorithms

Search results