• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 48
  • 3
  • 1
  • Tagged with
  • 54
  • 54
  • 46
  • 45
  • 15
  • 13
  • 12
  • 12
  • 12
  • 12
  • 10
  • 8
  • 7
  • 7
  • 7
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
41

Inferência de redes de regulação gênica utilizando o paradigma de crescimento de sementes / Inference of gene regulatory networks using the seed growing paradigm

Carlos Henrique Aguena Higa 17 February 2012 (has links)
Um problema importante na área de Biologia Sistêmica é o de inferência de redes de regulação gênica. Os avanços científicos e tecnológicos nos permitem analisar a expressão gênica de milhares de genes simultaneamente. Por \"expressão gênica\'\', estamos nos referindo ao nível de mRNA dentro de uma célula. Devido a esta grande quantidade de dados, métodos matemáticos, estatísticos e computacionais têm sido desenvolvidos com o objetivo de elucidar os mecanismos de regulação gênica presentes nos organismos vivos. Para isso, modelos matemáticos de redes de regulação gênica têm sido propostos, assim como algoritmos para inferir estas redes. Neste trabalho, focamos nestes dois aspectos: modelagem e inferência. Com relação à modelagem, estudamos modelos existentes para o ciclo celular da levedura (Saccharomyces cerevisiae). Após este estudo, propomos um modelo baseado em redes Booleanas probabilísticas sensíveis ao contexto, e em seguida, um aprimoramento deste modelo, utilizando cadeias de Markov não homogêneas. Mostramos os resultados, comparando os nossos modelos com os modelos estudados. Com relação à inferência, propomos um novo algoritmo utilizando o paradigma de crescimento de semente de genes. Neste contexto, uma semente é um pequeno subconjunto de genes de interesse. Nosso algoritmo é baseado em dois passos: passo de crescimento de semente e passo de amostragem. No primeiro passo, o algoritmo adiciona outros genes à esta semente, seguindo algum critério. No segundo, o algoritmo realiza uma amostragem de redes, definindo como saída um conjunto de redes potencialmente interessantes. Aplicamos o algoritmo em dados artificiais e dados biológicos de células HeLa, mostrando resultados satisfatórios. / A key problem in Systems Biology is the inference of gene regulatory networks. The scientific and technological advancement allow us to analyze the gene expression of thousands of genes, simultaneously. By \"gene expression\'\' we refer to the mRNA concentration level inside a cell. Due to this large amount of data, mathematical, statistical and computational methods have been developed in order to elucidate the gene regulatory mechanisms that take part of every living organism. To this end, mathematical models of gene regulatory networks have been proposed, along with algorithms to infer these networks. In this work, we focus in two aspects: modeling and inference. Regarding the modeling, we studied existing models for the yeast (Saccharomyces cerevisiae) cell cycle. After that, we proposed a model based on context sensitive probabilistic Boolean networks, and then, an improvement of this model, using nonhomogeneous Markov chain. We show the results, comparing our models against the studied models. Regarding the inference, we proposed a new algorithm using the seed growing paradigm. In this context, a seed is a small subset of genes. Our algorithm is based in two main steps: seed growing step and sampling step. In the first step, the algorithm adds genes into the seed, according to some criterion. In the second step, the algorithm performs a sampling process on the space of networks, defining as its output a set of potentially interesting networks. We applied the algorithm on artificial and biological HeLa cells data, showing satisfactory results.
42

Algoritmo evolutivo com representação inteira para seleção de características / Evolutionary algorithm using integer representation for feature selection

Sousa, Rhelcris Salvino de 20 April 2017 (has links)
Submitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2017-05-31T17:56:45Z No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-06-01T11:00:44Z (GMT) No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) / Made available in DSpace on 2017-06-01T11:00:44Z (GMT). No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-04-20 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES / Machine learning problems usually involve a large number of features or variables. In this context, feature selection algorithms have the challenge of determining a reduced subset from the original set. The main difficulty in this task is the high number of solutions available in the search space. In this context, genetic algorithm is one of the most used techniques in this type of problem due to its implicit parallelism in the exploration of the search space of the problem considered. However, a binary type representation is usually used to encode the solutions. This work proposes an implementation solution that makes use of integer representation called intEA-MLR instead of binary. The integer representation optimizes the understanding of the data, as the features to be selected are represented by integer values, reducing the size of the chromosome used in the search process. The intEA-MLR in this context is presented as an alternative way of solving high dimensional problems in regression problems. As a case study, three different sets of data are used concerning problems involving determination of properties of interest in samples of 1) Grain Wheat, 2) Medicine tablets and 3) petroleum. Such sets were used in competitions held at the International Diffuse Reflectance Conference (IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_ id=409746&module_id=190211), in the years 2008, 2012 and 2014, respectively. The results showed that the proposed solution was able to improve the obtained solutions when compared to the classical implementation that makes use of binary coding, with both more accurate prediction models and with reduced number of features. IntEA-MLR also outperformed the competition winners, reaching 91.17% better than the competition winner for the petroleum data set. In addition, the results also indicated that the computation time required by the intEA-MLR is relatively smaller as more features are available. / Problemas de aprendizado de máquina geralmente envolvem um grande número de características ou variáveis. Nesse contexto, algoritmos de seleção de características tem como desafio determinar um subconjunto reduzido a partir do conjunto original. A principal dificuldade nesta tarefa é o elevado número de soluções disponíveis no espaço de busca. Nesse contexto, algoritmo genético é uma das técnicas mais utilizadas nesse tipo de problema em razão de seu paralelismo implícito na exploração do espaço de busca do problema considerado. Entretanto, geralmente utiliza-se uma representação do tipo biná- ria para codificar as soluções. Neste trabalho é proposto uma solução de implementação que faz uso de representação inteira denominada intEA-MLR em detrimento da binária. A representação inteira otimiza o entendimento dos dados, na medida em que as características a serem selecionadas são determinadas por valores inteiros reduzindo o tamanho do cromossomo utilizado no processo de busca. O intEA-MLR nesse contexto, se apresenta como uma forma alternativa de resolução de problemas de alta dimensionalidade em problemas de regressão. Como estudo de caso, utiliza-se três diferentes conjuntos de dados referente a problemas envolvendo determinação de propriedades de interesse em amostra de 1) Grãos de Trigo, 2) Comprimidos de remédio e 3) Petróleo. Tais conjuntos foram utilizados nas competições realizadas no International Diffuse Reflectance Conference (IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_ id=409746&module_id=190211), nos anos de 2008, 2012 e 2014, respectivamente. Os resultados mostraram que a solução proposta foi capaz de aprimorar as soluções obtidas quando comparadas com a implementação clássica que faz uso da codificação binária, tanto com modelos de predição mais acurados quanto com número reduzido de características. intEA-MLR também obteve resultados superiores aos dos vencedores das competições, chegando a obter soluções 91,17% melhores do que o vencedor da competição para o conjunto de dados de petróleo. Adicionalmente, os resultados também indicaram que o tempo de computação requerido pelo intEA-MLR é relativamente menor a medida em que um número maior de características estão disponíveis.
43

"Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioinformática e de processamento de imagens" / Dimensionality reduction using mean conditional entropy applied for bioinformatics and image processing problems

David Correa Martins Junior 22 September 2004 (has links)
Redução de dimensionalidade é um problema muito importante da área de reconhecimento de padrões com aplicação em diversos campos do conhecimento. Dentre as técnicas de redução de dimensionalidade, a de seleção de características foi o principal foco desta pesquisa. De uma forma geral, a maioria dos métodos de redução de dimensionalidade presentes na literatura costumam privilegiar casos nos quais os dados sejam linearmente separáveis e só existam duas classes distintas. No intuito de tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em sólidos princípios de teoria estatística como entropia e informação mútua, a ser embutida nos algoritmos de seleção de características existentes. A proposta dessa abordagem é tornar possível classificar os dados, linearmente separáveis ou não, em duas ou mais classes levando em conta um pequeno subespaço de características. Alguns resultados com dados sintéticos e dados reais foram obtidos confirmando a utilidade dessa técnica. Este trabalho tratou dois problemas de bioinformática. O primeiro trata de distinguir dois fenômenos biológicos através de seleção de um subconjunto apropriado de genes. Foi estudada uma técnica de seleção de genes fortes utilizando máquinas de suporte vetorial (MSV) que já vinha sendo aplicada para este fim em dados de SAGE do genoma humano. Grande parte dos genes fortes encontrados por esta técnica para distinguir tumores de cérebro (glioblastoma e astrocytoma), foram validados pela metodologia apresentada neste trabalho. O segundo problema que foi tratado neste trabalho é o de identificação de redes de regulação gênica, utilizando a metodologia proposta, em dados produzidos pelo trabalho de DeRisi et al sobre microarray do genoma do Plasmodium falciparum, agente causador da malária, durante as 48 horas de seu ciclo de vida. O presente texto apresenta evidências de que a utilização da entropia condicional média para estimar redes genéticas probabilísticas (PGN) pode ser uma abordagem bastante promissora nesse tipo de aplicação. No contexto de processamento de imagens, tal técnica pôde ser aplicada com sucesso em obter W-operadores minimais para realização de filtragem de imagens e reconhecimento de texturas. / Dimensionality reduction is a very important pattern recognition problem with many applications. Among the dimensionality reduction techniques, feature selection was the main focus of this research. In general, most dimensionality reduction methods that may be found in the literature privilegiate cases in which the data is linearly separable and with only two distinct classes. Aiming at covering more generic cases, this work proposes a criterion function, based on the statistical theory principles of entropy and mutual information, to be embedded in the existing feature selection algorithms. This approach allows to classify the data, linearly separable or not, in two or more classes, taking into account a small feature subspace. Results with synthetic and real data were obtained corroborating the utility of this technique. This work addressed two bioinformatics problems. The first is about distinguishing two biological fenomena through the selection of an appropriate subset of genes. We studied a strong genes selection technique using support vector machines (SVM) which has been applied to SAGE data of human genome. Most of the strong genes found by this technique to distinguish brain tumors (glioblastoma and astrocytoma) were validated by the proposed methodology presented in this work. The second problem covered in this work is the identification of genetic network regulation, using our proposed methodology, from data produced by work of DeRisi et al about microarray of the Plasmodium falciparum genome, malaria agent, during 48 hours of its life cycle. This text presents evidences that using mean conditional entropy to estimate a probabilistic genetic network (PGN) may be very promising. In the image processing context, it is shown that this technique can be applied to obtain minimal W-operators that perform image filtering and texture recognition.
44

Comitê de classificadores em bases de dados transacionais desbalanceadas com seleção de características baseada em padrões minerados

Campos, Camila Maria 29 January 2016 (has links)
Submitted by Renata Lopes (renatasil82@gmail.com) on 2017-05-30T14:42:33Z No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) / Approved for entry into archive by Adriana Oliveira (adriana.oliveira@ufjf.edu.br) on 2017-05-30T15:36:24Z (GMT) No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) / Made available in DSpace on 2017-05-30T15:36:24Z (GMT). No. of bitstreams: 1 camilamariacampos.pdf: 929528 bytes, checksum: ebea02fc47981edfa166a24d9c1d7be2 (MD5) Previous issue date: 2016-01-29 / CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior / Os resultados dos problemas de classificação por regras de associação sofrem grande influência da estrutura dos dados que estão sendo utilizados. Uma dificuldade na área é a resolução de problemas de classificação quando se trata de bases de dados desbalanceadas. Assim, o presente trabalho apresenta um estudo sobre desbalanceamento em bases de dados transacionais, abordando os principais métodos utilizados na resolução do problema de desbalanceamento. Além disso, no que tange ao desbalanceamento, este trabalho propõe um modelo para realizar o balanceamento entre classes, sendo realizados experimentos com diferentes mé- todos de balanceamento e métodos ensemble, baseados em comitê de classificadores. Tais experimentos foram realizados em bases transacionais e não transacionais com o intuito de validar o modelo proposto e melhorar a predição do algoritmo de classificação por regras de associação. Bases de dados não transacionais também foram utilizadas nos ex perimentos, com o objetivo de verificar o comportamento do modelo proposto em tais bases. Outro fator importante no processo de classificação é a dimensão da base de dados que, quando muito grande, pode comprometer o desempenho dos classificadores. Neste traba lho, também é proposto um modelo de seleção de características baseado na classificação por regras de associação. Para validar o modelo proposto, também foram realizados ex- perimentos aplicando diferentes métodos de seleção nas bases de dados. Os resultados da classificação obtidos utilizando as bases contendo as características selecionadas pelos me- todos, foram comparados para validar o modelo proposto, tais resultados apresentaram-se satisfatórios em relação aos demais métodos de seleção. / The results of Classification Based on Associations Rules (CBA) are greatly influenced by the used data structure. A difficulty in this area is solving classification problems when it comes to unbalanced databases. Thus, this paper presents a study of unbalance in transactional and non-transactional databases, addressing the main methods used to solve the unbalance problem. In addition, with respect to the unbalance problem, this paper proposes a model to reach the balance between classes, conducting experiments with different methods of balancing and ensemble methods based on classifiers committee. These experiments were performed in transactional and non-transactional databases, in order to validate the proposed model and improve Classification Based on Associations Rules prediction. Another important factor in the classification process is database dimensionality, be cause when too large, it can compromise the classifiers performance. In this work, it is also proposed a feature selection model based on the rules of CBA. Aiming to validate this model, experiments were also performed applying different features selection methods in the databases.The classification results obtained using the bases containing the features selected by the methods were compared to validate the proposed model, these results were satisfactory in comparison with other methods of selection.
45

Uma abordagem baseada em técnicas de visualização de informações para avaliação de características de imagens e aplicações / Approach based on information visualization techniques for evaluation of image features and applications

Laura Elizabeth Florian Cruz 24 September 2012 (has links)
Na maioria dos processos de análise de imagens há a necessidade de um pré-processamento, no qual são extraídos e calculados vetores de características que representem as imagens são utilizados no cálculo de similaridade. Uma dificuldade nessas tarefas é o grande número de características que definem um espaço de alta dimensionalidade, afetando fortemente o desempenho das tarefas que seguem, que podem envolver uma análise visual, um agrupamento ou uma classificação de dados, por exemplo. Lidar com esse problema normalmente exige técnicas de redução de dimensionalidade ou seleção de características. O presente trabalho dá sequência a trabalhos que utilizam técnicas de visualização como suporte para avaliar espaços de características gerados a partir de coleções de imagens. Nele, objetiva-se aprimorar um método baseado na análise visual de conjuntos de imagens empregando a árvore de similaridade Neighbor-Joining que apoia o usuário a selecionar um subespaço de características que mantenha ou melhore os resultados das visualizações do conjunto de imagens. A partir da metodologia proposta, a avaliação e a seleção de características representativas é realizada usando a visualização NJ. A maior parte dos experimentos responde positivamente para diferentes conjuntos de imagens representados por vários extratores, obtendo-se processos de seleção personalizados mais precisos e eficazes, em termos de agrupamento, do que abordagens automáticas reportadas na literatura / In the majority of the image analysis processes there is need for a pre-processing step, in which feature vectors representative of the images are extracted and similarity methods are calculates. A difficult step in the process is to choose amongst the large number of features available, that will define a feature space of high dimensionality, impacting the cost of the subsequent processing tasks, such as visual analysis, clustering and classification. This problem is usually handled by dimension reduction of feature selection techniques. This work extends and improves previous work that employs visualization and visual analysis techniques to support evaluation of feature spaces created from image collections. The goal is to improve a previous method of feature selection through visualization to employ similarity trees via the Neighbor Joining (NJ) algorithm as the basis for the visual layout, as well as to improve the choices of the analyst regarding tools for visual selection of features. The same process can be employed to support evaluation of feature spaces using the NJ visualization. The majorities of experiments results in improvement of spaces generated by various extractors, yielding personalized selection process that are more precisely related to user\'s perspective of the data set and are perform similarly or better than automatic approaches available in the literature. Keywords: information visualization, mining, visual images, visual analysis of the feature space, similarity trees
46

Representação de sistemas biológicos a partir de sistemas dinâmicos: controle da transcrição a partir do estrógeno. / Representation of Biological Systems from Dynamical Systems: Transcription Control from Estrogen

Ris, Marcelo 14 April 2008 (has links)
Esta pesquisa de doutorado apresenta resultados em três áreas distintas: (i) Ciência da Computação e Estatística -- devido ao desenvolvimento de uma nova solução para o problema de seleção de características, um problema conhecido em Reconhecimento de Padrões; (ii) Bioinformática -- em razão da construção de um método baseado em um \\textit de algoritmos, incluindo o de seleção de características, visando abordar o problema de identificação de arquiteturas de redes de expressão gênica; e (iii) Biologia -- ao relacionar o estrógeno com uma nova função biológica, após analisar informações extraídas de séries temporais de \\textit pelas novas ferramentas computacionais-estatísticas desenvolvidas. O estrógeno possui um importante papel nos tecidos reprodutivos. O crescimento das gândulas mamárias e do endométrio durante a gravidez e o ciclo menstrual são estrógeno dependentes. O crescimento das células tumorais nesses órgãos podem ser estimuladas pela simples presença de estrógeno; mais de $300$ genes são conhecidos por terem regulação positiva ou negativa devido a sua presença. A motivação inicial desta pesquisa foi a construção de um método que possa servir de ferramenta para a identificação de genes que tenham seu nível de expressão alterado a partir de uma resposta induzida por estrógeno, mais precisamente, um método para modelar os inter-relacionamentos entre os diversos genes dependentes do estrógeno. Apresentamos um novo \\textit de algoritmos que, a partir de dados temporais de \\textit e um conjunto inicial de genes que compartilham algumas características comuns, denominados de \\textit{genes sementes}, devolve como saída a arquitetura de uma rede gênica representada por um grafo dirigido. Para cada nó da rede, uma tabela de predição do gene representado pelo nó em função dos seus genes preditores (genes que apontam para ele) pode ser obtida. O método foi aplicado em estudo de série-temporal de \\textit para uma cultura de células \\textit submetidas a tratamento com estrógeno, e uma possível rede de regulação foi obtida. Encontrar o melhor subconjunto preditor de genes para um dado gene pode ser estudado como um problema de seleção de características, no qual o espaço de busca pode ser representado por um reticulado Booleano e cada um de seus elementos representa um subconjunto candidato. Uma característica importante desse problema é o fato de que para cada elemento existe uma função custo associada, e esta possui forma de curva em U para qualquer cadeia maximal do reticulado. Para esse problema, apresentamos um nova solução, o algoritmo ewindex. Esse algoritmo é um método do tipo \\textit, o qual utiliza a estrutura do reticulado Booleano e a característica de curva em U da função custo para explorar um subconjunto do espaço de busca equivalente à busca completa. Nosso método obteve excelentes resultados em eficiência e valores quando comparado com as heurísticas mais utilizadas (SFFS e SFS). A partir de um método baseado no \\textit e de um conjunto inicial de genes regulados \\textit pelo estrógeno, identificamos uma evidência de envolvimento do estrógeno em um processo biológico ainda não relacionado: a adesão celular. Esse resultado pode direcionar os estudos sobre estrógeno e câncer à investigação de processo metastático, o qual é influenciado por genes relacionados à adesão celular. / This Phd. research presents in three distinct areas: (i) Computer Science and Statistics -- on the development of a new solution for the feature selection problem which is an important problem in Pattern Recognition; (ii) Bioinformatics -- for the construction of a pipeline of algorithms, including the feature selection solution, to address the problem of identification the architecture of a genetic expression network and; (iii) Biology -- relating estrogen to a new biological function, from the results obtained by the new computational-statistic tools developed and applied to a time-series microarray data. Estrogen has an important role in reproductive tissues. The growth mammary glands and endometrial growing during menstrual cycle and pregnancy are estrogen dependent. The growth of tumor cells in those organs can be stimulated by the simple presence of estrogen. Over $300$ genes are known by their positive or negative regulation by estrogen. The initial motivation of this research was the construction of a method that can serve as a tool for the identification of genes that have changed their level of expression changed by a response induced by estrogen, more specifically, a method to model the inter-relationships between the several genes dependent on estrogen. We present a new pipeline of algorithms that from the data of a time-series microarray experiment and from an initial set of genes that share some common characteristics, known as \\textit{seed genes}, gives as an output an architecture of the genetic expression network represented by a directed graph. For each node of the network, a prediction table of the gene, represented by the node, in function of its predictors genes (genes that link to it) can be obtained. The method was applied in a study of time-series microarray for a cell line \\textit submitted to a estrogen treatment and a possible regulation network was obtained. Finding the best predictor subset of genes for a given gene can be studied as a problem of feature selection where the search space can be represented by a Boolean lattice and each one of its elements represents a possible subset. An important characteristic of this problem is: for each element in the lattice there is a cost function associated to it and this function has a U-shape in any maximal chain of the search space. For this problem we present a new solution, the \\textit algorithm. This algorithm is a branch-and-bound solution which uses the structure of the Boolean lattice and U-shaped curves to explore a subset of the search space that is equivalent to the full search. Our method obtained excellent results in performance and values when compared with the most commonly used heuristics (SFFS and SFS). From a method based on the pipeline of algorithms and from an initial set of genes direct regulated by estrogen, we identified an evidence of involvement of estrogen in a biological process not yet related to estrogen: the cell adhesion. This result can guide studies on estrogen and cancer to research in metastatic process, which is affected by cell adhesion related genes.
47

Redes complexas de expressão gênica: síntese, identificação, análise e aplicações / Gene expression complex networks: synthesis, identification, analysis and applications

Lopes, Fabricio Martins 21 February 2011 (has links)
Os avanços na pesquisa em biologia molecular e bioquímica permitiram o desenvolvimento de técnicas capazes de extrair informações moleculares de milhares de genes simultaneamente, como DNA Microarrays, SAGE e, mais recentemente RNA-Seq, gerando um volume massivo de dados biológicos. O mapeamento dos níveis de transcrição dos genes em larga escala é motivado pela proposição de que o estado funcional de um organismo é amplamente determinado pela expressão de seus genes. No entanto, o grande desafio enfrentado é o pequeno número de amostras (experimentos) com enorme dimensionalidade (genes). Dessa forma, se faz necessário o desenvolvimento de novas técnicas computacionais e estatísticas que reduzam o erro de estimação intrínseco cometido na presença de um pequeno número de amostras com enorme dimensionalidade. Neste contexto, um foco importante de pesquisa é a modelagem e identificação de redes de regulação gênica (GRNs) a partir desses dados de expressão. O objetivo central nesta pesquisa é inferir como os genes estão regulados, trazendo conhecimento sobre as interações moleculares e atividades metabólicas de um organismo. Tal conhecimento é fundamental para muitas aplicações, tais como o tratamento de doenças, estratégias de intervenção terapêutica e criação de novas drogas, bem como para o planejamento de novos experimentos. Nessa direção, este trabalho apresenta algumas contribuições: (1) software de seleção de características; (2) nova abordagem para a geração de Redes Gênicas Artificiais (AGNs); (3) função critério baseada na entropia de Tsallis; (4) estratégias alternativas de busca para a inferência de GRNs: SFFS-MR e SFFS-BA; (5) investigação biológica das redes gênicas envolvidas na biossíntese de tiamina, usando a Arabidopsis thaliana como planta modelo. O software de seleção de características consiste de um ambiente de código livre, gráfico e multiplataforma para problemas de bioinformática, que disponibiliza alguns algoritmos de seleção de características, funções critério e ferramentas de visualização gráfica. Em particular, implementa um método de inferência de GRNs baseado em seleção de características. Embora existam vários métodos propostos na literatura para a modelagem e identificação de GRNs, ainda há um problema muito importante em aberto: como validar as redes identificadas por esses métodos computacionais? Este trabalho apresenta uma nova abordagem para validação de tais algoritmos, considerando três aspectos principais: (a) Modelo para geração de Redes Gênicas Artificiais (AGNs), baseada em modelos teóricos de redes complexas, os quais são usados para simular perfis temporais de expressão gênica; (b) Método computacional para identificação de redes gênicas a partir de dados temporais de expressão; e (c) Validação das redes identificadas por meio do modelo AGN. O desenvolvimento do modelo AGN permitiu a análise e investigação das características de métodos de inferência de GRNs, levando ao desenvolvimento de um estudo comparativo entre quatro métodos disponíveis na literatura. A avaliação dos métodos de inferência levou ao desenvolvimento de novas metodologias para essa tarefa: (a) uma função critério, baseada na entropia de Tsallis, com objetivo de inferir os inter-relacionamentos gênicos com maior precisão; (b) uma estratégia alternativa de busca para a inferência de GRNs, chamada SFFS-MR, a qual tenta explorar uma característica local das interdependências regulatórias dos genes, conhecida como predição intrinsecamente multivariada; e (c) uma estratégia de busca, interativa e flutuante, que baseia-se na topologia de redes scale-free, como uma característica global das GRNs, considerada como uma informação a priori, com objetivo de oferecer um método mais adequado para essa classe de problemas e, com isso, obter resultados com maior precisão. Também é objetivo deste trabalho aplicar a metodologia desenvolvida em dados biológicos, em particular na identificação de GRNs relacionadas a funções específicas de Arabidopsis thaliana. Os resultados experimentais, obtidos a partir da aplicação das metodologias propostas, mostraram que os respectivos ganhos de desempenho foram significativos e adequados para os problemas a que foram propostos. / Thanks to recent advances in molecular biology and biochemistry, allied to an ever increasing amount of experimental data, the functional state of thousands of genes can now be extracted simultaneously by using methods such as DNA microarrays, SAGE, and more recently RNA-Seq, generating a massive volume of biological data. The mapping of gene transcription levels at large scale is motivated by the proposition that information of the functional state of an organism is broadly determined by its gene expression. However, the main limitation faced is the small number of samples (experiments) with huge dimensionalities (genes). Thus, it is necessary to develop new computational and statistics techniques to reduce the inherent estimation error committed in the presence of a small number of samples with large dimensionality. In this context, particularly important related investigations are the modeling and identification of gene regulatory networks from expression data sets. The main objective of this research is to infer how genes are regulated, bringing knowledge about the molecular interactions and metabolic activities of an organism. Such a knowledge is fundamental for many applications, such as disease treatment, therapeutic intervention strategies and drugs design, as well as for planning high-throughput new experiments. In this direction, this work presents some contributions: (1) feature selection software; (2) new approach for the generation of artificial gene networks (AGN); (3) criterion function based on Tsallis entropy; (4) alternative search strategies for GRNs inference: SFFS-MR and SFFS-BA; (5) biological investigation of GRNs involved in the thiamine biosynthesis by adopting the Arabidopsis thaliana as a model plant. The feature selection software is an open-source multiplataform graphical environment for bioinformatics problems, which supports many feature selection algorithms, criterion functions and graphic visualization tools. In particular, a feature selection method for GRNs inference is also implemented in the software. Although there are several methods proposed in the literature for the modeling and identification of GRNs, an important open problem regards: how to validate such methods and its results? This work presents a new approach for validation of such algorithms by considering three main aspects: (a) Artificial Gene Networks (AGNs) model generation through theoretical models of complex networks, which is used to simulate temporal expression data; (b) computational method for GRNs identification from temporal expression data; and (c) Validation of the identified AGN-based network through comparison with the original network. Through the development of the AGN model was possible the analysis and investigation of the characteristics of GRNs inference methods, leading to the development of a comparative study of four inference methods available in literature. The evaluation of inference methods led to the development of new methodologies for this task: (a) a new criterion function based on Tsallis entropy, in order to infer the genetic inter-relationships with better precision; (b) an alternative search strategy for the GRNs inference, called SFFS-MR, which tries to exploit a local property of the regulatory gene interdependencies, which is known as intrinsically multivariate prediction; and (c) a search strategy, interactive and floating, which is based on scale-free network topology, as a global property of the GRNs, which is considered as a priori information, in order to provide a more appropriate method for this class of problems and thereby achieve results with better precision. It is also an objective of this work, to apply the developed methodology in biological data, particularly in identifying GRNs related to specific functions of the Arabidopsis thaliana. The experimental results, obtained from the application of the proposed methodologies, indicate that the respective performances of each methodology were significant and adequate to the problems that have been proposed.
48

Seleção de características e predição intrinsecamente multivariada em identificação de redes de regulação gênica / Feature selection and intrinsically multivariate prediction in gene regulatory networks identification

Martins Junior, David Corrêa 01 December 2008 (has links)
Seleção de características é um tópico muito importante em aplicações de reconhecimento de padrões, especialmente em bioinformática, cujos problemas são geralmente tratados sobre um conjunto de dados envolvendo muitas variáveis e poucas observações. Este trabalho analisa aspectos de seleção de características no problema de identificação de redes de regulação gênica a partir de sinais de expressão gênica. Particularmente, propusemos um modelo de redes gênicas probabilísticas (PGN) que devolve uma rede construída a partir da aplicação recorrente de algoritmos de seleção de características orientados por uma função critério baseada em entropia condicional. Tal critério embute a estimação do erro por penalização de amostras raramente observadas. Resultados desse modelo aplicado a dados sintéticos e a conjuntos de dados de microarray de Plasmodium falciparum, um agente causador da malária, demonstram a validade dessa técnica, tendo sido capaz não apenas de reproduzir conhecimentos já produzidos anteriormente, como também de produzir novos resultados. Outro aspecto investigado nesta tese é o fenômeno da predição intrinsecamente multivariada (IMP), ou seja, o fato de um conjunto de características ser um ótimo caracterizador dos objetos em questão, mas qualquer de seus subconjuntos propriamente contidos não conseguirem representá-los de forma satisfatória. Neste trabalho, as condições para o surgimento desse fenômeno foram obtidas de forma analítica para conjuntos de 2 e 3 características em relação a uma variável alvo. No contexto de redes de regulação gênica, foram obtidas evidências de que genes alvo de conjuntos IMP possuem um enorme potencial para exercerem funções vitais em sistemas biológicos. O fenômeno conhecido como canalização é particularmente importante nesse contexto. Em dados de microarray de melanoma, constatamos que o gene DUSP1, conhecido por exercer função canalizadora, foi aquele que obteve o maior número de conjuntos de genes IMP, sendo que todos eles possuem lógicas de predição canalizadoras. Além disso, simulações computacionais para construção de redes com 3 ou mais genes mostram que o tamanho do território de um gene alvo pode ter um impacto positivo em seu teor de IMP com relação a seus preditores. Esta pode ser uma evidência que confirma a hipótese de que genes alvo de conjuntos IMP possuem a tendência de controlar diversas vias metabólicas cruciais para a manutenção das funções vitais de um organismo. / Feature selection is a crucial topic in pattern recognition applications, especially in bioinformatics, where problems usually involve data with a large number of variables and small number of observations. The present work addresses feature selection aspects in the problem of gene regulatory network identification from expression profiles. Particularly, we proposed a probabilistic genetic network model (PGN) that recovers a network constructed from the recurrent application of feature selection algorithms guided by a conditional entropy based criterion function. Such criterion embeds error estimation by penalization of rarely observed patterns. Results from this model applied to synthetic and real data sets obtained from Plasmodium falciparum microarrays, a malaria agent, demonstrate the validity of this technique. This method was able to not only reproduce previously produced knowledge, but also to produce other potentially relevant results. The intrinsically multivariate prediction (IMP) phenomenon has been also investigated. This phenomenon is related to the fact of a feature set being a nice predictor of the objects in study, but all of its properly contained subsets cannot predict such objects satisfactorily. In this work, the conditions for the rising of this phenomenon were analitically obtained for sets of 2 and 3 features regarding a target variable. In the gene regulatory networks context, evidences have been achieved in which target genes of IMP sets possess a great potential to execute vital functions in biological systems. The phenomenon known as canalization is particularly important in this context. In melanoma microarray data, we verified that DUSP1 gene, known by having canalization function, was the one which composed the largest number of IMP gene sets. It was also verified that all these sets have canalizing predictive logics. Moreover, computational simulations for generation of networks with 3 or more genes show that the territory size of a target gene can contribute positively to its IMP score with regard to its predictors. This could be an evidence that confirms the hypothesis stating that target genes of IMP sets are inclined to control several metabolic pathways essential to the maintenance of the vital functions of an organism.
49

Identificação automatizada de espécies de abelhas através de imagens de asas. / Automated bee species identification through wing images.

Felipe Leno da Silva 19 February 2015 (has links)
Diversas pesquisas focam no estudo e conservação das abelhas, em grande parte por sua importância para a agricultura. Entretanto, a identicação de espécies de abelhas vem sendo um impedimento para a condução de novas pesquisas, já que demanda tempo e um conhecimento muito especializado. Apesar de existirem diversos métodos para realizar esta tarefa, muitos deles são excessivamente custosos, restringindo sua aplicabilidade. Por serem facilmente acessíveis, as asas das abelhas vêm sendo amplamente utilizadas para a extração de características, já que é possível aplicar técnicas morfométricas utilizando apenas uma foto da asa. Como a medição manual de diversas características é tediosa e propensa a erros, sistemas foram desenvolvidos com este propósito. Entretanto, os sistemas ainda possuem limitações e não há um estudo voltado às técnicas de classificação que podem ser utilizadas para este m. Esta pesquisa visa avaliar as técnicas de extração de características e classificação de modo a determinar o conjunto de técnicas mais apropriado para a discriminação de espécies de abelhas. Nesta pesquisa foi demonstrado que o uso de uma conjunção de características morfométricas e fotométricas obtêm melhores resultados que o uso de somente características morfométricas. Também foram analisados os melhores algoritmos de classificação tanto usando somente características morfométricas, quanto usando uma conjunção de características morfométricas e fotométricas, os quais são, respectivamente, o Naïve Bayes e o classificador Logístico. Os Resultados desta pesquisa podem guiar o desenvolvimento de novos sistemas para identificação de espécies de abelha, objetivando auxiliar pesquisas conduzidas por biólogos. / Several researches focus on the study and conservation of bees, largely because of its importance for agriculture. However, the identification of bee species has hampering new studies, since it demands a very specialized knowledge and is time demanding. Although there are several methods to accomplish this task, many of them are excessively costly, restricting its applicability. For being accessible, the bee wings have been widely used for the extraction of features, since it is possible to apply morphometric techniques using just one image of the wing. As the manual measurement of various features is tedious and error prone, some systems have been developed for this purpose. However, these systems also have limitations, and there is no study concerning classification techniques that can be used for this purpose. This research aims to evaluate the feature extraction and classification techniques in order to determine the combination of more appropriate techniques for discriminating species of bees. The results of our research indicate that the use of a conjunction of Morphometric and Pixel-based features is more effective than only using Morphometric features. OuranalysisalsoconcludedthatthebestclassicationalgorithmsusingbothonlyMorphometric features and a conjunction of Morphometric and Pixel-based features are, respectively, Naïve Bayes and Logistic classier. The results of this research can guide the development of new systems to identify bee species in order to assist in researches conducted by biologists.
50

Identificação automatizada de espécies de abelhas através de imagens de asas. / Automated bee species identification through wing images.

Silva, Felipe Leno da 19 February 2015 (has links)
Diversas pesquisas focam no estudo e conservação das abelhas, em grande parte por sua importância para a agricultura. Entretanto, a identicação de espécies de abelhas vem sendo um impedimento para a condução de novas pesquisas, já que demanda tempo e um conhecimento muito especializado. Apesar de existirem diversos métodos para realizar esta tarefa, muitos deles são excessivamente custosos, restringindo sua aplicabilidade. Por serem facilmente acessíveis, as asas das abelhas vêm sendo amplamente utilizadas para a extração de características, já que é possível aplicar técnicas morfométricas utilizando apenas uma foto da asa. Como a medição manual de diversas características é tediosa e propensa a erros, sistemas foram desenvolvidos com este propósito. Entretanto, os sistemas ainda possuem limitações e não há um estudo voltado às técnicas de classificação que podem ser utilizadas para este m. Esta pesquisa visa avaliar as técnicas de extração de características e classificação de modo a determinar o conjunto de técnicas mais apropriado para a discriminação de espécies de abelhas. Nesta pesquisa foi demonstrado que o uso de uma conjunção de características morfométricas e fotométricas obtêm melhores resultados que o uso de somente características morfométricas. Também foram analisados os melhores algoritmos de classificação tanto usando somente características morfométricas, quanto usando uma conjunção de características morfométricas e fotométricas, os quais são, respectivamente, o Naïve Bayes e o classificador Logístico. Os Resultados desta pesquisa podem guiar o desenvolvimento de novos sistemas para identificação de espécies de abelha, objetivando auxiliar pesquisas conduzidas por biólogos. / Several researches focus on the study and conservation of bees, largely because of its importance for agriculture. However, the identification of bee species has hampering new studies, since it demands a very specialized knowledge and is time demanding. Although there are several methods to accomplish this task, many of them are excessively costly, restricting its applicability. For being accessible, the bee wings have been widely used for the extraction of features, since it is possible to apply morphometric techniques using just one image of the wing. As the manual measurement of various features is tedious and error prone, some systems have been developed for this purpose. However, these systems also have limitations, and there is no study concerning classification techniques that can be used for this purpose. This research aims to evaluate the feature extraction and classification techniques in order to determine the combination of more appropriate techniques for discriminating species of bees. The results of our research indicate that the use of a conjunction of Morphometric and Pixel-based features is more effective than only using Morphometric features. OuranalysisalsoconcludedthatthebestclassicationalgorithmsusingbothonlyMorphometric features and a conjunction of Morphometric and Pixel-based features are, respectively, Naïve Bayes and Logistic classier. The results of this research can guide the development of new systems to identify bee species in order to assist in researches conducted by biologists.

Page generated in 0.1346 seconds