Global ETD Search

51	Método para detecção de anomalias em tráfego de redes Real Time Ethernet aplicado em PROFINET e em SERCOS III / Method for detecting traffic anomalies of Real Time Ethernet networks applied to PROFINET and SERCOS III Sestito, Guilherme Serpa 24 October 2018 (has links) Esta tese propõe uma metodologia de detecção de anomalias por meio da otimização da extração, seleção e classificação de características relacionadas ao tráfego de redes Real Time Ethernet (RTE). Em resumo, dois classificadores são treinados usando características que são extraídas do tráfego por meio da técnica de janela deslizante e posteriormente selecionadas de acordo com sua correlação com o evento a ser classificado. O número de características relevantes pode variar de acordo com os indicadores de desempenho de cada classificador. Reduzindo a dimensionalidade do evento a ser classificado com o menor número de características possíveis que o represente, são garantidos a redução do esforço computacional, ganho de tempo, dentre outros benefícios. Posteriormente, os classificadores são comparados em função dos indicadores de desempenho: acurácia, taxa de falsos positivos, taxa de falsos negativos, tempo de processamento e erro relativo. A metodologia proposta foi utilizada para identificar quatro diferentes eventos (três anomalias e o estado normal de operação) em redes PROFINET reais e com configurações distintas entre si; também foi aplicada em três eventos (duas anomalias e o estado normal de operação) em redes SERCOS III. O desempenho de cada classificador é analisado em suas particularidades e comparados com pesquisas correlatas. Por fim, é explorada a possibilidade de aplicação da metodologia proposta para outros protocolos baseados em RTE. / This thesis proposes an anomaly detection methodology by optimizing extraction, selection and classification of characteristics related to Real Time Ethernet (RTE) network traffic. In summary, two classifiers are trained using features which are extracted from network traffic through the sliding window technique and selected according to their correlation with the event being classified. The number of relevant characteristics could vary according to performance indicators of each classifier. Reducing the dimensionality of the event to be classified using the smallest number of characteristics which represent it, guarantees reduction in computational effort, processing time, among other benefits. The classifiers are compared according to performance indicators: accuracy, false positive rate, false negative rate, processing time and relative error. The proposed methodology was used to identify four different events (three anomalies and normal operation) in real PROFINET networks, using different configurations. It was also applied in 3 events (two anomalies and normal operation) in SERCOS III networks. The results obtained are analyzed in its particularities and compared with related research. Finally, the possibility of applying the proposed methodology for other protocols based on RTE is explored. Real Time Ethernet Support Vector Machine Artificial Neural Networks Extração de características Feature Extraction Feature Selection Optimization Otimização PROFINET PROFINET Real Time Ethernet Redes Neurais Artificiais Seleção de características SERCOS III Support Vector Machine
52	Representação de sistemas biológicos a partir de sistemas dinâmicos: controle da transcrição a partir do estrógeno. / Representation of Biological Systems from Dynamical Systems: Transcription Control from Estrogen Marcelo Ris 14 April 2008 (has links) Esta pesquisa de doutorado apresenta resultados em três áreas distintas: (i) Ciência da Computação e Estatística -- devido ao desenvolvimento de uma nova solução para o problema de seleção de características, um problema conhecido em Reconhecimento de Padrões; (ii) Bioinformática -- em razão da construção de um método baseado em um \\textit de algoritmos, incluindo o de seleção de características, visando abordar o problema de identificação de arquiteturas de redes de expressão gênica; e (iii) Biologia -- ao relacionar o estrógeno com uma nova função biológica, após analisar informações extraídas de séries temporais de \\textit pelas novas ferramentas computacionais-estatísticas desenvolvidas. O estrógeno possui um importante papel nos tecidos reprodutivos. O crescimento das gândulas mamárias e do endométrio durante a gravidez e o ciclo menstrual são estrógeno dependentes. O crescimento das células tumorais nesses órgãos podem ser estimuladas pela simples presença de estrógeno; mais de $300$ genes são conhecidos por terem regulação positiva ou negativa devido a sua presença. A motivação inicial desta pesquisa foi a construção de um método que possa servir de ferramenta para a identificação de genes que tenham seu nível de expressão alterado a partir de uma resposta induzida por estrógeno, mais precisamente, um método para modelar os inter-relacionamentos entre os diversos genes dependentes do estrógeno. Apresentamos um novo \\textit de algoritmos que, a partir de dados temporais de \\textit e um conjunto inicial de genes que compartilham algumas características comuns, denominados de \\textit{genes sementes}, devolve como saída a arquitetura de uma rede gênica representada por um grafo dirigido. Para cada nó da rede, uma tabela de predição do gene representado pelo nó em função dos seus genes preditores (genes que apontam para ele) pode ser obtida. O método foi aplicado em estudo de série-temporal de \\textit para uma cultura de células \\textit submetidas a tratamento com estrógeno, e uma possível rede de regulação foi obtida. Encontrar o melhor subconjunto preditor de genes para um dado gene pode ser estudado como um problema de seleção de características, no qual o espaço de busca pode ser representado por um reticulado Booleano e cada um de seus elementos representa um subconjunto candidato. Uma característica importante desse problema é o fato de que para cada elemento existe uma função custo associada, e esta possui forma de curva em U para qualquer cadeia maximal do reticulado. Para esse problema, apresentamos um nova solução, o algoritmo ewindex. Esse algoritmo é um método do tipo \\textit, o qual utiliza a estrutura do reticulado Booleano e a característica de curva em U da função custo para explorar um subconjunto do espaço de busca equivalente à busca completa. Nosso método obteve excelentes resultados em eficiência e valores quando comparado com as heurísticas mais utilizadas (SFFS e SFS). A partir de um método baseado no \\textit e de um conjunto inicial de genes regulados \\textit pelo estrógeno, identificamos uma evidência de envolvimento do estrógeno em um processo biológico ainda não relacionado: a adesão celular. Esse resultado pode direcionar os estudos sobre estrógeno e câncer à investigação de processo metastático, o qual é influenciado por genes relacionados à adesão celular. / This Phd. research presents in three distinct areas: (i) Computer Science and Statistics -- on the development of a new solution for the feature selection problem which is an important problem in Pattern Recognition; (ii) Bioinformatics -- for the construction of a pipeline of algorithms, including the feature selection solution, to address the problem of identification the architecture of a genetic expression network and; (iii) Biology -- relating estrogen to a new biological function, from the results obtained by the new computational-statistic tools developed and applied to a time-series microarray data. Estrogen has an important role in reproductive tissues. The growth mammary glands and endometrial growing during menstrual cycle and pregnancy are estrogen dependent. The growth of tumor cells in those organs can be stimulated by the simple presence of estrogen. Over $300$ genes are known by their positive or negative regulation by estrogen. The initial motivation of this research was the construction of a method that can serve as a tool for the identification of genes that have changed their level of expression changed by a response induced by estrogen, more specifically, a method to model the inter-relationships between the several genes dependent on estrogen. We present a new pipeline of algorithms that from the data of a time-series microarray experiment and from an initial set of genes that share some common characteristics, known as \\textit{seed genes}, gives as an output an architecture of the genetic expression network represented by a directed graph. For each node of the network, a prediction table of the gene, represented by the node, in function of its predictors genes (genes that link to it) can be obtained. The method was applied in a study of time-series microarray for a cell line \\textit submitted to a estrogen treatment and a possible regulation network was obtained. Finding the best predictor subset of genes for a given gene can be studied as a problem of feature selection where the search space can be represented by a Boolean lattice and each one of its elements represents a possible subset. An important characteristic of this problem is: for each element in the lattice there is a cost function associated to it and this function has a U-shape in any maximal chain of the search space. For this problem we present a new solution, the \\textit algorithm. This algorithm is a branch-and-bound solution which uses the structure of the Boolean lattice and U-shaped curves to explore a subset of the search space that is equivalent to the full search. Our method obtained excellent results in performance and values when compared with the most commonly used heuristics (SFFS and SFS). From a method based on the pipeline of algorithms and from an initial set of genes direct regulated by estrogen, we identified an evidence of involvement of estrogen in a biological process not yet related to estrogen: the cell adhesion. This result can guide studies on estrogen and cancer to research in metastatic process, which is affected by cell adhesion related genes. Adesão Celular Bioinformática Estrógeno Modelagem biológica Reconhecimento de Padrões Seleção de Características Sistemas Biológicos Sistemas Dinâmicos U-curve Bioinformatics Biological Modelling Biological Systems Celular Adhesion Dynamical Systems Estrogen Feature Selection Pattern Recognition U-curve
53	Redes complexas de expressão gênica: síntese, identificação, análise e aplicações / Gene expression complex networks: synthesis, identification, analysis and applications Fabricio Martins Lopes 21 February 2011 (has links) Os avanços na pesquisa em biologia molecular e bioquímica permitiram o desenvolvimento de técnicas capazes de extrair informações moleculares de milhares de genes simultaneamente, como DNA Microarrays, SAGE e, mais recentemente RNA-Seq, gerando um volume massivo de dados biológicos. O mapeamento dos níveis de transcrição dos genes em larga escala é motivado pela proposição de que o estado funcional de um organismo é amplamente determinado pela expressão de seus genes. No entanto, o grande desafio enfrentado é o pequeno número de amostras (experimentos) com enorme dimensionalidade (genes). Dessa forma, se faz necessário o desenvolvimento de novas técnicas computacionais e estatísticas que reduzam o erro de estimação intrínseco cometido na presença de um pequeno número de amostras com enorme dimensionalidade. Neste contexto, um foco importante de pesquisa é a modelagem e identificação de redes de regulação gênica (GRNs) a partir desses dados de expressão. O objetivo central nesta pesquisa é inferir como os genes estão regulados, trazendo conhecimento sobre as interações moleculares e atividades metabólicas de um organismo. Tal conhecimento é fundamental para muitas aplicações, tais como o tratamento de doenças, estratégias de intervenção terapêutica e criação de novas drogas, bem como para o planejamento de novos experimentos. Nessa direção, este trabalho apresenta algumas contribuições: (1) software de seleção de características; (2) nova abordagem para a geração de Redes Gênicas Artificiais (AGNs); (3) função critério baseada na entropia de Tsallis; (4) estratégias alternativas de busca para a inferência de GRNs: SFFS-MR e SFFS-BA; (5) investigação biológica das redes gênicas envolvidas na biossíntese de tiamina, usando a Arabidopsis thaliana como planta modelo. O software de seleção de características consiste de um ambiente de código livre, gráfico e multiplataforma para problemas de bioinformática, que disponibiliza alguns algoritmos de seleção de características, funções critério e ferramentas de visualização gráfica. Em particular, implementa um método de inferência de GRNs baseado em seleção de características. Embora existam vários métodos propostos na literatura para a modelagem e identificação de GRNs, ainda há um problema muito importante em aberto: como validar as redes identificadas por esses métodos computacionais? Este trabalho apresenta uma nova abordagem para validação de tais algoritmos, considerando três aspectos principais: (a) Modelo para geração de Redes Gênicas Artificiais (AGNs), baseada em modelos teóricos de redes complexas, os quais são usados para simular perfis temporais de expressão gênica; (b) Método computacional para identificação de redes gênicas a partir de dados temporais de expressão; e (c) Validação das redes identificadas por meio do modelo AGN. O desenvolvimento do modelo AGN permitiu a análise e investigação das características de métodos de inferência de GRNs, levando ao desenvolvimento de um estudo comparativo entre quatro métodos disponíveis na literatura. A avaliação dos métodos de inferência levou ao desenvolvimento de novas metodologias para essa tarefa: (a) uma função critério, baseada na entropia de Tsallis, com objetivo de inferir os inter-relacionamentos gênicos com maior precisão; (b) uma estratégia alternativa de busca para a inferência de GRNs, chamada SFFS-MR, a qual tenta explorar uma característica local das interdependências regulatórias dos genes, conhecida como predição intrinsecamente multivariada; e (c) uma estratégia de busca, interativa e flutuante, que baseia-se na topologia de redes scale-free, como uma característica global das GRNs, considerada como uma informação a priori, com objetivo de oferecer um método mais adequado para essa classe de problemas e, com isso, obter resultados com maior precisão. Também é objetivo deste trabalho aplicar a metodologia desenvolvida em dados biológicos, em particular na identificação de GRNs relacionadas a funções específicas de Arabidopsis thaliana. Os resultados experimentais, obtidos a partir da aplicação das metodologias propostas, mostraram que os respectivos ganhos de desempenho foram significativos e adequados para os problemas a que foram propostos. / Thanks to recent advances in molecular biology and biochemistry, allied to an ever increasing amount of experimental data, the functional state of thousands of genes can now be extracted simultaneously by using methods such as DNA microarrays, SAGE, and more recently RNA-Seq, generating a massive volume of biological data. The mapping of gene transcription levels at large scale is motivated by the proposition that information of the functional state of an organism is broadly determined by its gene expression. However, the main limitation faced is the small number of samples (experiments) with huge dimensionalities (genes). Thus, it is necessary to develop new computational and statistics techniques to reduce the inherent estimation error committed in the presence of a small number of samples with large dimensionality. In this context, particularly important related investigations are the modeling and identification of gene regulatory networks from expression data sets. The main objective of this research is to infer how genes are regulated, bringing knowledge about the molecular interactions and metabolic activities of an organism. Such a knowledge is fundamental for many applications, such as disease treatment, therapeutic intervention strategies and drugs design, as well as for planning high-throughput new experiments. In this direction, this work presents some contributions: (1) feature selection software; (2) new approach for the generation of artificial gene networks (AGN); (3) criterion function based on Tsallis entropy; (4) alternative search strategies for GRNs inference: SFFS-MR and SFFS-BA; (5) biological investigation of GRNs involved in the thiamine biosynthesis by adopting the Arabidopsis thaliana as a model plant. The feature selection software is an open-source multiplataform graphical environment for bioinformatics problems, which supports many feature selection algorithms, criterion functions and graphic visualization tools. In particular, a feature selection method for GRNs inference is also implemented in the software. Although there are several methods proposed in the literature for the modeling and identification of GRNs, an important open problem regards: how to validate such methods and its results? This work presents a new approach for validation of such algorithms by considering three main aspects: (a) Artificial Gene Networks (AGNs) model generation through theoretical models of complex networks, which is used to simulate temporal expression data; (b) computational method for GRNs identification from temporal expression data; and (c) Validation of the identified AGN-based network through comparison with the original network. Through the development of the AGN model was possible the analysis and investigation of the characteristics of GRNs inference methods, leading to the development of a comparative study of four inference methods available in literature. The evaluation of inference methods led to the development of new methodologies for this task: (a) a new criterion function based on Tsallis entropy, in order to infer the genetic inter-relationships with better precision; (b) an alternative search strategy for the GRNs inference, called SFFS-MR, which tries to exploit a local property of the regulatory gene interdependencies, which is known as intrinsically multivariate prediction; and (c) a search strategy, interactive and floating, which is based on scale-free network topology, as a global property of the GRNs, which is considered as a priori information, in order to provide a more appropriate method for this class of problems and thereby achieve results with better precision. It is also an objective of this work, to apply the developed methodology in biological data, particularly in identifying GRNs related to specific functions of the Arabidopsis thaliana. The experimental results, obtained from the application of the proposed methodologies, indicate that the respective performances of each methodology were significant and adequate to the problems that have been proposed. entropia entropia de Tsallis inferência de redes reconhecimento de padrões redes complexas redes de regulação gênica seleção de características validação complex networks entropy feature selection gene regulatory networks network inference pattern recognition Tsallis entropy validation
54	Seleção de características e predição intrinsecamente multivariada em identificação de redes de regulação gênica / Feature selection and intrinsically multivariate prediction in gene regulatory networks identification David Corrêa Martins Junior 01 December 2008 (has links) Seleção de características é um tópico muito importante em aplicações de reconhecimento de padrões, especialmente em bioinformática, cujos problemas são geralmente tratados sobre um conjunto de dados envolvendo muitas variáveis e poucas observações. Este trabalho analisa aspectos de seleção de características no problema de identificação de redes de regulação gênica a partir de sinais de expressão gênica. Particularmente, propusemos um modelo de redes gênicas probabilísticas (PGN) que devolve uma rede construída a partir da aplicação recorrente de algoritmos de seleção de características orientados por uma função critério baseada em entropia condicional. Tal critério embute a estimação do erro por penalização de amostras raramente observadas. Resultados desse modelo aplicado a dados sintéticos e a conjuntos de dados de microarray de Plasmodium falciparum, um agente causador da malária, demonstram a validade dessa técnica, tendo sido capaz não apenas de reproduzir conhecimentos já produzidos anteriormente, como também de produzir novos resultados. Outro aspecto investigado nesta tese é o fenômeno da predição intrinsecamente multivariada (IMP), ou seja, o fato de um conjunto de características ser um ótimo caracterizador dos objetos em questão, mas qualquer de seus subconjuntos propriamente contidos não conseguirem representá-los de forma satisfatória. Neste trabalho, as condições para o surgimento desse fenômeno foram obtidas de forma analítica para conjuntos de 2 e 3 características em relação a uma variável alvo. No contexto de redes de regulação gênica, foram obtidas evidências de que genes alvo de conjuntos IMP possuem um enorme potencial para exercerem funções vitais em sistemas biológicos. O fenômeno conhecido como canalização é particularmente importante nesse contexto. Em dados de microarray de melanoma, constatamos que o gene DUSP1, conhecido por exercer função canalizadora, foi aquele que obteve o maior número de conjuntos de genes IMP, sendo que todos eles possuem lógicas de predição canalizadoras. Além disso, simulações computacionais para construção de redes com 3 ou mais genes mostram que o tamanho do território de um gene alvo pode ter um impacto positivo em seu teor de IMP com relação a seus preditores. Esta pode ser uma evidência que confirma a hipótese de que genes alvo de conjuntos IMP possuem a tendência de controlar diversas vias metabólicas cruciais para a manutenção das funções vitais de um organismo. / Feature selection is a crucial topic in pattern recognition applications, especially in bioinformatics, where problems usually involve data with a large number of variables and small number of observations. The present work addresses feature selection aspects in the problem of gene regulatory network identification from expression profiles. Particularly, we proposed a probabilistic genetic network model (PGN) that recovers a network constructed from the recurrent application of feature selection algorithms guided by a conditional entropy based criterion function. Such criterion embeds error estimation by penalization of rarely observed patterns. Results from this model applied to synthetic and real data sets obtained from Plasmodium falciparum microarrays, a malaria agent, demonstrate the validity of this technique. This method was able to not only reproduce previously produced knowledge, but also to produce other potentially relevant results. The intrinsically multivariate prediction (IMP) phenomenon has been also investigated. This phenomenon is related to the fact of a feature set being a nice predictor of the objects in study, but all of its properly contained subsets cannot predict such objects satisfactorily. In this work, the conditions for the rising of this phenomenon were analitically obtained for sets of 2 and 3 features regarding a target variable. In the gene regulatory networks context, evidences have been achieved in which target genes of IMP sets possess a great potential to execute vital functions in biological systems. The phenomenon known as canalization is particularly important in this context. In melanoma microarray data, we verified that DUSP1 gene, known by having canalization function, was the one which composed the largest number of IMP gene sets. It was also verified that all these sets have canalizing predictive logics. Moreover, computational simulations for generation of networks with 3 or more genes show that the territory size of a target gene can contribute positively to its IMP score with regard to its predictors. This could be an evidence that confirms the hypothesis stating that target genes of IMP sets are inclined to control several metabolic pathways essential to the maintenance of the vital functions of an organism. coeficiente de determinação entropia condicional média malária melanoma microarray predição intrinsecamente multivariada redes de regulação gênica seleção de características coefficient of determination feature selection gene regulatory networks intrinsically multivariate prediction malaria mean conditional entropy melanoma microarray

Page generated in 0.1136 seconds