Spelling suggestions: "subject:"bioinformática"" "subject:"bioinformáticas""
441 |
Exploring ensemble learning techniques to optimize the reverse engineering of gene regulatory networks / Explorando técnicas de ensemble learning para otimizar a engenharia reversa de redes regulatórias genéticasRecamonde-Mendoza, Mariana January 2014 (has links)
Nesta tese estamos especificamente interessados no problema de engenharia re- versa de redes regulatórias genéticas a partir de dados de pós-genômicos, um grande desafio na área de Bioinformática. Redes regulatórias genéticas são complexos cir- cuitos biológicos responsáveis pela regulação do nível de expressão dos genes, desem- penhando assim um papel fundamental no controle de inúmeros processos celulares, incluindo diferenciação celular, ciclo celular e metabolismo. Decifrar a estrutura destas redes é crucial para possibilitar uma maior compreensão à nível de sistema do desenvolvimento e comportamento dos organismos, e eventualmente esclarecer os mecanismos de doenças causados pela desregulação dos processos acima mencio- nados. Devido ao expressivo aumento da disponibilidade de dados experimentais de larga escala e da grande dimensão e complexidade dos sistemas biológicos, métodos computacionais têm sido ferramentas essenciais para viabilizar esta investigação. No entanto, seu desempenho ainda é bastante deteriorado por importantes desafios com- putacionais e biológicos impostos pelo cenário. Em particular, o ruído e esparsidade inerentes aos dados biológicos torna este problema de inferência de redes um difícil problema de otimização combinatória, para o qual métodos computacionais dispo- níveis falham em relação à exatidão e robustez das predições. Esta tese tem como objetivo investigar o uso de técnicas de ensemble learning como forma de superar as limitações existentes e otimizar o processo de inferência, explorando a diversidade entre um conjunto de modelos. Com este intuito, desenvolvemos métodos computa- cionais tanto para gerar redes diversificadas, como para combinar estas predições em uma solução única (solução ensemble ), e aplicamos esta abordagem a uma série de cenários com diferentes fontes de diversidade a fim de compreender o seu potencial neste contexto específico. Mostramos que as soluções propostas são competitivas com algoritmos tradicionais deste campo de pesquisa e que melhoram nossa capa- cidade de reconstruir com precisão as redes regulatórias genéticas. Os resultados obtidos para a inferência de redes de regulação transcricional e pós-transcricional, duas camadas adjacentes e complementares que compõem a rede de regulação glo- bal, tornam evidente a eficiência e robustez da nossa abordagem, encorajando a consolidação de ensemble learning como uma metodologia promissora para decifrar a estrutura de redes regulatórias genéticas. / In this thesis we are concerned about the reverse engineering of gene regulatory networks from post-genomic data, a major challenge in Bioinformatics research. Gene regulatory networks are intricate biological circuits responsible for govern- ing the expression levels (activity) of genes, thereby playing an important role in the control of many cellular processes, including cell differentiation, cell cycle and metabolism. Unveiling the structure of these networks is crucial to gain a systems- level understanding of organisms development and behavior, and eventually shed light on the mechanisms of diseases caused by the deregulation of these cellular pro- cesses. Due to the increasing availability of high-throughput experimental data and the large dimension and complexity of biological systems, computational methods have been essential tools in enabling this investigation. Nonetheless, their perfor- mance is much deteriorated by important computational and biological challenges posed by the scenario. In particular, the noisy and sparse features of biological data turn the network inference into a challenging combinatorial optimization prob- lem, to which current methods fail in respect to the accuracy and robustness of predictions. This thesis aims at investigating the use of ensemble learning tech- niques as means to overcome current limitations and enhance the inference process by exploiting the diversity among multiple inferred models. To this end, we develop computational methods both to generate diverse network predictions and to combine multiple predictions into an ensemble solution, and apply this approach to a number of scenarios with different sources of diversity in order to understand its potential in this specific context. We show that the proposed solutions are competitive with tra- ditional algorithms in the field and improve our capacity to accurately reconstruct gene regulatory networks. Results obtained for the inference of transcriptional and post-transcriptional regulatory networks, two adjacent and complementary layers of the overall gene regulatory network, evidence the efficiency and robustness of our approach, encouraging the consolidation of ensemble systems as a promising methodology to decipher the structure of gene regulatory networks.
|
442 |
Efeito da alta pressão hidrostática no mapeamento de epítopos da proteína do capsídeo do vírus do mosaico do tabaco / High hydrostatic pressure effect on the epitope mapping of the tobacco mosaic virusLima Neto, Daniel Ferreira, 1979 22 August 2018 (has links)
Orientador: Clarice Weis Arns / Tese (doutorado) - Universidade Estadual de Campinas, Instituto de Biologia / Made available in DSpace on 2018-08-22T02:52:00Z (GMT). No. of bitstreams: 1
LimaNeto_DanielFerreira_D.pdf: 8189026 bytes, checksum: 64631e8e2ed546b6da6a944505049080 (MD5)
Previous issue date: 2012 / Resumo: O resumo poderá ser visualizado no texto completo da tese digital / Abstract: The abstract is available with the full electronic document / Doutorado / Microbiologia / Doutor em Genetica e Biologia Molecular
|
443 |
Aplicando arquitectura Single Page Application para mejorar la experiencia del usuario en un sistema de administración de recursos educativosFigueroa Navarro, Geraldine Mariella January 2017 (has links)
Publicación a texto completo no autorizada por el autor / Aplica la arquitectura Single Page Application para mejorar la experiencia del usuario en un sistema de administración de recursos educativos, el cual se desarrolla en la empresa Sysco. Se requería de una arquitectura front-end, que sea flexible y escalable en el tiempo sobre la cual construir la aplicación de manera que se pudiera tener un alto nivel de desempeño en la carga de datos sin consumir mucho ancho de banda, por lo que se decidió utilizar el modelo de arquitectura basado en Single Page Application. / Trabajo de suficiencia profesional
|
444 |
Diseño e implementación de ISO 20000-1 en el área de contratos de tecnología de la empresa GMD S.A.Cruz Contreras, Jesus Leonell January 2017 (has links)
Publicación a texto completo no autorizada por el autor / Describe el proceso de diseño e implementación de la norma ISO 20000-1 en el área de contratos de tecnología, perteneciente a la línea de negocio de servicios de tecnología, la cual es incluida como parte del proceso de recertificación de la empresa GMD S.A. Este proyecto abarca los procesos del área, tales como: mantenimiento preventivo y correctivo, Help Desk, Outsourcing de impresión y entregas e instalaciones físicas. / Trabajo de suficiencia profesional
|
445 |
Implementação de abordagens computacionais para identificação de RNAs longos não codificadores envolvidos na diferenciação neural / Implementation of computational approaches for identification of long noncoding RNAs involved in neural differentiationGabriel Francisco Zaniboni 03 December 2015 (has links)
Cada vez mais, RNAs longos não codificadores (lncRNAs) surgem como importantes reguladores da biologia celular, principalmente em processos de diferenciação durante o desenvolvimento. O interesse no estudo das funções e mecanismos de atuação dessa classe de transcritos durante esses processos é crescente, e mostra-se bastante relevante no processo de diferenciação neural, pelo qual são gerados neurônios e células da glia. A linhagem celular P19, uma célula pluripotente advinda de um tipo de carcinoma embrionário murino, é bem consolidada como modelo in vitro de diferenciação neural. Após tratamento com ácido retinóico, ela é capaz de se diferenciar em neurônios e células da glia (astrócitos e oligodendrócitos). Em busca de evidências que indiquem a atuação de lncRNAs durante o processo de diferenciação neural, nosso grupo realizou experimentos utilizando microarranjos para averiguar os níveis de expressão gênica de lncRNAs e genes codificadores de proteínas (mRNAs) durante a diferenciação de células P19 em neurônios (predominância após 10 dias de diferenciação) e glia (predominância em 14 dias de diferenciação). Em um primeiro momento foi realizada a reanotação das sondas referentes a esses lncRNAs da plataforma de microarranjo, visto que as informações presentes nos arquivos de anotação da mesma eram muito escassas e desatualizadas. Registros de lncRNAs e mRNAs foram obtidos a partir de bancos de dados públicos para esse fim, e ao final dessa etapa aproximadamente 25,0% das sondas que não tinham uma anotação foram reanotadas com identificadores advindos desses bancos de dados. A partir dos dados de expressão, foram identificados todos os lncRNAs e mRNAs que apresentaram expressão diferencial entre as diferentes condições estudadas. As informações dos mRNAs diferencialmente expressos foram então utilizadas para a realização de análises de enriquecimento de categorias gênicas do Gene Ontology, nas ontologias de processo biológico e função molecular. A partir das sondas reanotadas, foram realizadas análises de coexpressão entre lncRNAs e mRNAs. A partir do cruzamento das informações obtidas, foram selecionados lncRNAs que através dos princípios de guilt by association se mostraram propensos a desempenharem um papel regulatório na diferenciação neural. Assim, as informações geradas nesse trabalho servirão como base para estudos futuros de validação funcional desses lncRNAs. / Increasingly, long noncoding RNAs (lncRNAs) emerge as important regulators of cell biology, especially in differentiation processes during development. The interest in the study of functions and mechanisms of action of this class of transcripts during these processes is growing, and shows quite relevant in the neural differentiation process by which neurons and glia are generated. The P19 cell line, pluripotent cells arising from a type of murine embryonal carcinoma, is well established as an in vitro model of neural differentiation. After treatment with retinoic acid, it is capable of differentiating into neurons and glial cells (astrocytes and oligodendrocytes). In search of evidence that indicate the action of lncRNAs during the neural differentiation process, our group conducted experiments using microarrays to assess gene expression levels of lncRNAs and protein coding genes (mRNAs) during differentiation of P19 cells into neurons (mainly after 10 days of differentiation) and glial cells (mainly after 14 days of differentiation). At first was performed the reannotation of the probes relating to these microarrays lncRNAs, as the information provided in the annotation files were very scarce or outdated. LncRNAs and mRNAs records were obtained from public databases for this purpose, and at the end of this stage approximately 25.0% of the probes without annotation were reannotated with identifiers arising from these databases. From the expression data, we identified all lncRNAs and mRNAs that showed differential expression between the different studied conditions. The information of differentially expressed mRNAs were then used to perform Gene Ontology enrichment, in the ontologies biological process and molecular function. From the reannotated probes, coexpression analyses were performed for lncRNAs and mRNAs. From the crosscheck of information obtained, we selected those lncRNAs that by the principles of guilt by association proved likely to play a regulatory role in neural differentiation. Thus, the information generated in this study will serve as a basis for future studies of functional validation of these lncRNAs.
|
446 |
Implicações funcionais de eventos de splicing alternativo no proteoma humano / Functional implications of alternative splicing in the human proteomeFabio Passetti 16 May 2007 (has links)
A pós-genômica surgiu como um próspero campo para que as infinidades de seqüências provenientes dos projetos genoma tenham os seus significados biológicos elucidados. Um dos mecanismos descritos na literatura capaz de gerar surpreendente diversidade protéica é o splicing alternativo (AS). Próximo de 22% das proteínas com estruturas tridimensionais resolvidas por difração de raios-X ou ressonância magnética nuclear (RMN) são humanas e pouco se sabe dos efeitos de eventos de splicing alternativo em suas funções. Uma vez que estas estruturas tridimensionais (3D) protéicas humanas são de alguma forma redundantes, o conjunto de genes humanos únicos que as correspondem é muito reduzido, em torno de 1%. Hoje em dia ainda são escassos os exemplos de duas isoformas de splicing alternativo de um mesmo gene com estruturas tridimensionais experimentais disponíveis. A variedade de proteínas que este evento pode potencialmente produzir é demasiado grande para que projetos de genômica estrutural em andamento consigam determinar suas estruturas. Isto tem inviabilizado, ainda que temporariamente, estudos sobre implicações funcionais de splicing alternativo no proteoma quando se utilizando dados estruturais experimentais. Entretanto, a bioinformática possibilita estudos deste porte com base nos dados de mapeamento no genoma, tanto de transcritos como de proteínas com estrutura tridimensional (3D) determinada. Torna-se possível, então, a prospecção de genes com isoformas de AS com estruturas 3D contendo informação adicional quando comparada à isoforma de AS. Produzimos para tal finalidade uma nova metodologia para detecção de eventos de AS no transcriptoma humano utilizando matrizes binárias para cada transcrito e estrutura de proteína 3D. Selecionadas as isoformas protéicas putativas, foram construídas 73 estruturas 3D utilizando conceitos de modelagem molecular por homologia. Foram escolhidas aleatoriamente 21 isoformas de AS para simulações por dinâmicas moleculares (SDM), e que cerca de 80% destes modelos se apresentaram estruturalmente estáveis. A anotação biológica relativa a cada fragmento não inserido na seqüência da proteína devido à sua remoção no mRNA resultante do evento de AS foi obtida e mostrou que mais de 80% delas possuem algum tipo de relevância funcional para a proteína. Concluímos que, para o nosso conjunto de dados, os eventos de splicing alternativo produzem isoformas que podem atuar como dominantes negativas, antagonistas ou atenuadoras da sua atividade biológica. / The post-genomic era has emerged as one prosper field to deal with the huge amount of sequences produced by genome projects and increase the understanding of its biological meaning. One of the most surprising mechanisms capable to generate a lot of protein diversity is alternative splicing in immature mRNAs. No more than 22% of the known protein structures elucidated by X-ray diffraction or nuclear magnetic resonance (NMR) were made using human proteins and the knowledge about alternative splicing functional implications is weak. Since those human protein three-dimensional structures (3D) are redundant, the unique number of human genes represented by them is estimated around 1%. Nowadays there are only a few cases describing two isoforms that have their own protein 3D structures done experimentally. The variety that alternative splicing can produce is large enough to structural genome projects undergoing could determinate its structures, fact that have negating, at least for a while, large-scale studies about functional implications of alternative splicing using experimental data. However, bioinformatics turn possible this kind of projects using the mapping onto the genome of transcripts and the sequence of the known protein 3D structures. Using this approach we searched for alternative splicing isoforms which have at least one known protein structure with additional biological information when compared against the isoform. We have produced a new methodology for detecting alternative splicing in the human transcriptoma using binary matrices for each transcript and known 3D protein structure. After the selection of putative isoforms, there were constructed 73 3D protein using concepts of molecular modelling by homology. There were randomly selected 21 of them to the submitted to molecular dynamics simulations and 80% of them showed that they were structurally stable. The biological annotation of each non-inserted fragment due to alternative splicing shows that 80% of them have in some degree functional importance. Then, we conclude that, for our dataset, the alternative splicing events produce isoforms that can act as negative dominants, antagonists or even regulators of their biological activity.
|
447 |
Identificação in-silico de genes humanos submetidos à expressão alélica diferencial / In-silico identification of human genes submitted to allelic differential expressionJorge Estefano Santana de Souza 02 December 2008 (has links)
Estudos recentes demonstraram que a variação de expressão alelo-específica é mais comum do que se imaginou, podendo chegar, em humanos, a 50% dos genes. Identificar os genes submetidos ao controle de expressão alelo-específica é muito importante para o entendimento de várias doenças, incluindo o câncer. A identificação dos alvos desse tipo de regulação diferencial é difícil, principalmente devido à dificuldade de se avaliar a expressão de cada alelo individualmente. Neste trabalho, abordamos este problema com uma estratégia de análise in-silico, fundamentada na integração de dados públicos do genoma humano, dados de expressão (como cDNAs, SAGE e MPSS) e dados sobre polimorfismos (SNPs). Desenvolvemos um banco de dados de polimorfismos de base única (Single-Nucleotide Polymorphism - SNPs) associados a etiquetas alternativas de SAGE (Serial Analysis of Gene Expression) e MPSS (massively parallel signature sequencing). SAGE e MPSS são técnicas desenvolvidas para análise da expressão de genes em larga escala. Ambas as técnicas têm como princípio a produção de pequenas seqüências marcadoras (etiquetas), adjacentes aos sítios de enzimas de restrição que estiverem mais próximo da cauda poli-A do RNA mensageiro. Tais etiquetas são seqüenciadas em grande escala e a quantidade de etiquetas é usada para medir a abundância relativa dos RNAs mensageiros correspondentes. A presença de SNPs nos sítios de restrição ou nas seqüências das etiquetas pode gerar etiquetas distintas para alelos do mesmo gene, que denominamos etiquetas alternativas. Neste trabalho, empregamos o banco de dados de etiquetas alternativas associadas a SNPs para identificar genes com expressão alélica diferencial. Usando esta estratégia, identificamos 812 genes com expressão monoalélica, Estudos anteriores comprovaram que, dentre os 812 genes identificados, cinco estão sujeitos ao fenômeno de imprinting genômico. Durante o decorrer deste estudo, trabalhos realizados por outros grupos apontaram outros 73 genes do nosso repertório como genes que apresentam variação no nível de expressão dos alelos em heterozigotos. Com objetivo de confirmar a expressão alélica diferencial dos nossos candidatos, selecionamos 29 genes para validação experimental. Para 12 destes genes não achamos indivíduos heterozigotos, impossibilitando a análise da expressão dos alelos. Dentre os outros 17 genes, três apresentaram expressão bialélica e 14 apresentaram expressão alélica diferencial nos indivíduos heterozigotos, sendo que 3 deles apresentaram expressão monoalélica. Estes resultados sugerem que nossa estratégia pode contribuir significativamente na identificação de genes com expressão alélica diferencial. / Recent studies have shown that variation of allelic-specific gene expression is more common than previously thought, reaching up to 50% of human genes. To identify genes displaying differential expression among alleles it is important for the understanding of several diseases, including the cancer. Identification of genes submitted to allelic-specific differential expression is hard, mostly due to the difficulty in evaluating the expression levels of each allele independently. In this work, we developed an in-silico approach, based on the integration of public data about the human genome, gene expression data (such as cDNAs, SNPs, SAGE and MPSS) and data on polymorphisms (SNPs). We developed a database of Single Nucleotide Polymorphisms (SNPs) associated to alternative SAGE (Serial Analysis of Gene Expression) and MPSS (Massively Parallel Signature Sequencing) tags. SAGE and MPSS are genome-wide techniques developed for analysis of gene expression. Both techniques rely on the production of short marker sequences (known as tags), adjacent to restriction sites closer to the poly-A tail of messenger RNAs. Such tags are sequenced in a large scale and tag counts are used to measure the relative abundance of their corresponding transcripts. The presence of SNPs in the restriction sites or in the tag sequences might generate allelic-specific tags for the same gene, which we call alternative tags. In this work, we used the database of SNPs and associated alternative tags to identify genes submitted to allelic-specific differential gene expression. Using this approach, we identified 812 genes showing allelic-specific differential gene expression. Previous studies have shown that, among the 812 candidates, five genes are targets for genomic imprinting. While this study was being performed, work done by other groups suggested other 73 genes in our candidates list to have different expression levels for alleles in heterozygous. Aiming to verify whether variations in the expression levels of alleles existed among our candidate genes, we submitted 29 genes for experimental validation. For 12 genes, we couldnt find heterozygous individuals, thus rendering it impossible to ascertain whether the supposed expression variation was true. Among the other 17 genes analyzed, three genes presented bi-allelic expression and 14 genes have shown clear differential expression among alleles, three of the last ones displaying strict mono-allelic expression. These results suggest that our approach may contribute significantly to the identification of genes with allelic-specific differential expression.
|
448 |
Caracterização de processos evolutivos de vírus de RNA a partir de padrões deixados nas filogenias virais / Characterization of evolutionary process of RNA viruses from patterns in viral phylogeniesCaio César de Melo Freire 05 December 2014 (has links)
No presente trabalho, investigamos a filodinâmica de três modelos virais diferentes, utilizando técnicas baseadas em verossimilhança e inferência bayesiana. Dois desses são flavivírus com genoma de RNA fita simples e senso positivo. O terceiro é um bunyavírus com genoma tri-segmentado de RNA fita simples com senso negativo. Estes diferentes modelos permitiram estudar diferentes mecanismos promotores de diversidade viral, reagrupamento de segmentos genômicos (shift) e mutação (drift), que atuam em diferentes granularidades. Descrevemos pela primeira vez o espalhamento geográfico das linhagens de vírus Zika (ZIKV) em um nível continental, assim como ocorrência de recombinação e associação entre padrões de glicosilação e vetores. Para o flavivírus da encefalite transmitida por carrapatos (TBEV), investigamos seu espalhamento e encontramos evidências que corroboram a hipótese de circulação viral restrita a focos na Europa central. As análises sobre o vírus da Febre da Grande Fenda Africana (RVFV) apontaram a ocorrência de reagrupamento de segmentos genômicos e também ajudaram a elucidar sua dispersão do leste do continente africano para o oeste, encontrando-se diversas introduções no Senegal e Mauritânia. Aparentemente, este vírus teve a entrada facilitada nesses países por uma região que funciona como um centro de dispersão (hub) por ser encontro de rotas migratórias de animais. Ademais, investigamos a ocorrência de rearranjos de segmentos genômicos de RVFV e também estudamos as diferenças nas dinâmicas evolutivas de cada segmento. / In this study, we investigated the phylodynamics of three different viral models, using techniques based on maximum likelihood and Bayesian inference methods. Two of these viruses are flaviviruses, whose genomes are formed by a single-stranded positive-sense RNA molecule. The third is a Bunyavirus with tri-segmented single-stranded RNA genome with negative sense. These different models allowed us to investigate two different mechanisms to promote viral diversity, (i) recombination of genomic segments (\"shift\") and (ii) mutation (\"drift\"), therefore exploring different levels of granularity of evolutionary process. We described for the first time the geographic spread of Zika virus (ZIKV) strains in a continental level, as well as, the occurrence of recombination and association between glycosylation patterns and vectors. For the other Flavivirus, tick-borne encephalitis virus (TBEV), we investigated its spreading and found evidences to support the hypothesis that viral circulation is very constrained by the foci in central Europe. The analyses about the Rift Valley Fever Virus (RVFV) revealed the occurrence of reassortment of genomic segments and their dispersal from eastern Africa to the west, with several introductions to Senegal and Mauritania. Apparently, the entry of RVFV in these countries was facilitated by the region of Kedougou, where several migratory routes of animals converge. This place maybe works as a hub to spread RVFV for West Africa. Moreover, we also investigated the differences in evolutionary dynamics of each genomic segment of RVFV.
|
449 |
Uma abordagem para a indução de árvores de decisão voltada para dados de expressão gênica / An Approach for the Induction of Decision Trees Focused on Gene Expression DataPedro Santoro Perez 18 April 2012 (has links)
Estudos de expressão gênica têm sido de extrema importância, permitindo desenvolver terapias, exames diagnósticos, medicamentos e desvendar uma infinidade de processos biológicos. No entanto, estes estudos envolvem uma série de dificuldades: grande quantidade de genes, sendo que geralmente apenas um pequeno número deles está envolvido no problema estudado; presença de ruído nos dados analisados; entre muitas outras. O projeto de pesquisa deste mestrado consiste no estudo de algoritmos de indução de árvores de decisão; na definição de uma metodologia capaz de tratar dados de expressão gênica usando árvores de decisão; e na implementação da metodologia proposta como algoritmos capazes de extrair conhecimento a partir desse tipo de dados. A indução de árvores de decisão procura por características relevantes nos dados que permitam modelar precisamente um conceito, mas tem também a preocupação com a compreensibilidade do modelo gerado, auxiliando os especialistas na descoberta de conhecimento, algo importante nas áreas médica e biológica. Por outro lado, tais indutores apresentam relativa instabilidade, podendo gerar modelos bem diferentes com pequenas mudanças nos dados de treinamento. Este é um dos problemas tratados neste mestrado. Mas o principal problema tratado se refere ao comportamento destes indutores em dados de alta dimensionalidade, mais especificamente dados de expressão gênica: atributos irrelevantes prejudicam o aprendizado e vários modelos com desempenho similar podem ser gerados. Diversas técnicas foram exploradas para atacar os problemas mencionados, mas este estudo se concentrou em duas delas: windowing, que foi a técnica mais explorada e para a qual este mestrado propôs uma série de alterações com vistas à melhoria de seu desempenho; e lookahead, que procura construir a árvore levando em considerações passos subsequentes do processo de indução. Quanto ao windowing, foram explorados aspectos relacionados ao procedimento de poda das árvores geradas durante a execução do algoritmo; uso do erro estimado em substituição ao erro de treinamento; uso de ponderação do erro calculado durante a indução de acordo com o tamanho da janela; e uso da confiança na classificação para decidir quais exemplos utilizar na atualização da janela corrente. Com relação ao lookahead, foi implementada uma versão de um passo à frente, ou seja, para tomar a decisão na iteração corrente, o indutor leva em consideração a razão de ganho de informação do passo seguinte. Os resultados obtidos, principalmente com relação às medidas de desempenho baseadas na compreensibilidade dos modelos induzidos, mostram que os algoritmos aqui propostos superaram algoritmos clássicos de indução de árvores. / Gene expression studies have been of great importance, allowing the development of new therapies, diagnostic exams, drugs and the understanding of a variety of biological processes. Nevertheless, those studies involve some obstacles: a huge number of genes, while only a very few of them are really relevant to the problem at hand; data with the presence of noise; among others. This research project consists of: the study of decision tree induction algorithms; the definition of a methodology capable of handling gene expression data using decision trees; and the implementation of that methodology as algorithms that can extract knowledge from that kind of data. The decision tree induction searches for relevant characteristics in the data which would allow it to precisely model a certain concept, but it also worries about the comprehensibility of the generated model, helping specialists to discover new knowledge, something very important in the medical and biological areas. On the other hand, such inducers present some instability, because small changes in the training data might produce great changes in the generated model. This is one of the problems being handled in this Master\'s project. But the main problem this project handles refers to the behavior of those inducers when it comes to high-dimensional data, more specifically to gene expression data: irrelevant attributes may harm the learning process and many models with similar performance may be generated. A variety of techniques have been explored to treat those problems, but this study focused on two of them: windowing, which was the most explored technique and to which this project has proposed some variations in order to improve its performance; and lookahead, which builds each node of a tree taking into consideration subsequent steps of the induction process. As for windowing, the study explored aspects related to the pruning of the trees generated during intermediary steps of the algorithm; the use of the estimated error instead of the training error; the use of the error weighted according to the size of the current window; and the use of the classification confidence as the window update criterion. As for lookahead, a 1-step version was implemented, i.e., in order to make the decision in the current iteration, the inducer takes into consideration the information gain ratio of the next iteration. The results show that the proposed algorithms outperform the classical ones, especially considering measures of complexity and comprehensibility of the induced models.
|
450 |
Halobacterium salinarum NRC-1: rede de regulação gênica e sua análise probabilística / Halobacterium salinarum NRC-1: genetic regulatory network and it\'s probabilistic analysis.Guilherme Martins Crocetti 08 May 2018 (has links)
Este trabalho teve como objetivo principal modelar a Rede de Regulação Gênica do organismo modelo Halobacterium salinarum NRC-1, estabelecendo interações entre as entidades da rede por intermédio de experimentos inéditos de interação física: ChIP- *, RIP-* e dRNA-seq. Em contraponto com as abordagens clássicas de construção de redes, que estimam interações através de medições de expressão gênica, este trabalho as estabeleceu exclusivamente de interações físicas, permitindo que a estrutura final seja uma representação mais fiel ao fenômeno físico de regulação gênica, baseando-se nos fundamentos da Biologia Sistêmica. Em vista da abundância de dados públicos de expressão gênica para o organismo e do objetivo primário, um objetivo secundário foi traçado: identificar, computacionalmente, genes de fato controlados pelas interações fornecidas pela nova rede. Para isso, a estrutura estabelecida foi transformada numa Rede Bayesiana, e a identificação de genes foi efetuada através da análise de suas Tabelas de Probabilidade Condicionais. Finalmente, como os resultados obtidos para o objetivo secundário foram desfavoráveis a utilização de Redes Bayesianas, os resultados efetivos deste trabalho foram a criação de uma nova Rede de Regulação Gênica para a H. salinarum e uma análise em torno da efetividade de Redes Bayesianas neste contexto. / The main goal of this work was modeling the gene regulatory network of the model organism Halobacterium salinarum NRC-1, establishing new interactions between networks entities through unpublished physical interaction experiments: ChIP-*, RIP-* e dRNA-seq. Instead of using classical approaches to build network structures that estimates interactions using gene expression data, this work established them exclusively from physical interactions. Therefore, the final structure is a more reliable representation of the physical phenomenon of gene expression, built using the principles of systems biology. Considering the amount of public available gene expression data and the primary goal, another objective was proposed: a computational analysis to detect genes actually controlled by the interactions of the new network. To achieve this goal the established network was transformed in a Bayesian network, detecting genes through the analysis of their conditional probability tables. Lastly, as the results of the secondary goal went against the use of Bayesian networks, the effective results of this thesis were the creation of a new genetic regulatory network for H. salinarum and an analysis around Bayesian networks in this context.
|
Page generated in 0.0776 seconds