Spelling suggestions: "subject:"bioinformática"" "subject:"bioinformáticas""
461 |
Desenvolvimento da plataforma CaneRegNet para anotação funcional e análises do transcriptoma da cana-de-açúcar / Development of CaneRegNet platform for functional annotation and analysis of sugarcane transcriptomeNishiyama Junior, Milton Yutaka 13 April 2015 (has links)
A identificação de genes alvos, vias de sinalização e vias metabólicas para melhoramento de cana-de-açúcar associados a características de interesse, ainda são pouco conhecidos e estudados. Alguns estudos do transcriptoma através de plataformas de microarranjo têm buscado identificar listas de genes, para experimentos tecido- específico ou submetidos a condições de estresse bióticos e abióticos. Estudos pontuais destes dados tem sido associados a vias metabólicas ou vias de sinalização já descritas na literatura, de forma a identificar alterações relacionadas a padrões de expressão gênica. Porém, estas relações em cana-de-açúcar são pouco conhecidas e estudadas. O estudo e entendimento de cana-de-açúcar por meio da diversidade genética e de sua adaptação ao ambiente é um grande desafio, principalmente pela ausência de um genoma sequenciado e por possuir um genoma complexo. Apresentamos nossos resultados para tentar superar tais limitações e desafios para estudos de expressão gênica. Foram desenvolvidas metodologias para anotação funcional do transcriptoma, centradas na transferência de anotação, identificação de vias metabólicas e enzimas pelo método de similaridade bi-direcional, predição de genes full-length, análises de ortologia e desenho de oligonucleotídeos para microarranjos customizados, resultando no ORFeoma de cana-de-açúcar, na identificação e classificação de famílias de fatores de transcrição e identificação de genes ortólogos entre gramíneas. Além disso, desenvolvemos uma plataforma para processamento e análise automatizada de experimentos por microarranjo, para armazenamento, recuperação e integração com a anotação funcional. Adicionalmente desenvolvemos e implementamos métodos para seleção de genes diferencialmente e significativamente expressos, e abordagens para análise de enriquecimento de categorias, e escores de atividade de vias metabólicas. De forma a integrar a anotação funcional do transcriptoma aos estudos por expressão gênica, desenvolvemos a plataforma CaneRegNet e uma interface para integração desta rede de dados biológicos e conhecimentos, composta por aplicativos para consulta e prospecção de dados por análises de agrupamento e correlação entre experimentos de microarranjo, possibilitando a geração de novas hipóteses e predições dentro da organização da regulação celular. / The identification of target genes, metabolic and signaling pathways associated with characteristics of interest to the sugarcane improvement are still poorly known and studied. Some transcritptome studies through microarray platforms has tried to identify lists of genes, for tissue-specific experiments or subjected to conditions of biotic and abiotic stress. In the literature specific studies of these data has already been associated with metabolic or signaling pathway, in order to identify changes in these tracks related to patterns of gene expression. However, these relations are still little know and generally defined slightly. The study and understanding of sugarcane by means of genetic diversity and its adaptation to the environment is a major challenge, mainly due to the absence of a sequenced genome and by your complex genome. We present our results to surpass this barrier e challenges for the study of gene expression. Methodologies were developed for the transcriptome functional annotation, focused on the annotation transfer, identification of metabolic pathways and enzymes by the bi- directional method; prediction of full-length genes; ortology analysis and probe design for customized microarrays, resulting in the sugarcane ORFeome, the identification and classification of transcription factor families and identification of ortholog genes between grasses. Besides that, we have developed a plataform for automated processing and analysis for microarray experiments, to store, retrieve and integration with the functional annotation. Additionally, we have developed and implemented methods for identification of differentially and significantly expressed genes, and approaches for over-represented analysis and functional class scoring (FCS). To integrate the functional annotation and the studies by gene expression profile, we have developed the CaneRegNet platform and an interface to integrate this network of biological data and knowledge, composed by searching and data mining tools for clustering and correlations between microarray experiments, enabling the generation of new hypothesis and predictions around the organization of cellular regulation.
|
462 |
Characterization of genes involved in lignin biosynthesis in Tectona grandis / Caracterização de genes envolvidos na biossíntese de lignina em Tectona grandisGómez, Esteban Galeano 06 March 2015 (has links)
Teak tree (Tectona grandis L.f.) has a high value in the timber trade for fabrication of woody products due to its extraordinary qualities of color, density and durability. Despite the importance of this species, genetic and molecular studies available are limited. Also, the lack of molecular information about secondary xylem and tree maturation has hindered genetic exploration of teak. Therefore, gene expression studies and transcriptomic profiling are essential to explore wood formation and lignin biosynthesis through the development and aging of vascular plants. Aiming the gene expression studies, it was essential to identify and clone reference genes for teak. Eight genes were tested, commonly used in qRT-PCR, including TgRP60S, TgCAC, TgACT, TgHIS3, TgSAND, TgTUB, TgUBQ and TgEF1a. Expression profiles of these genes were evaluated by qRT-PCR in six tissue and organ samples (leaf, flower, seedling, root, stem and branch secondary xylem). Stability validation by NormFinder, BestKeeper, geNorm and Delta Ct programs showed that TgUBQ and TgEF1a are the most stable genes to use as qRT-PCR reference genes in teak in the conditions tested. Due to the availability of 12- and 60-year-old teak trees, RNA-seq was performed in diferent organs (seedlings, leaves, flowers, root, stem and branch secondary xylem). A total of 462,260 transcripts were obtained by assembling with \"Trinity\" software. Also, 1,502 and 931 genes differentially expressed were identified for stem and branch secondary xylem, respectively, using DESeq program, and MYB transcription factors, which were characterized. TgMYB1 amino acid sequence displayed a predicted coiled-coil (CC) motif while TgMYB2, TgMYB3 and TgMYB4 showed R2R3-MYB domain. All of them were phylogenetically grouped with several gymnosperms and flowering plants. High expression of TgMYB1 and TgMYB4 in lignified tissues of 60-year-old trees was observed. In this work, the Cinnamyl Alcohol Dehydrogenase (CAD) gene family was also studied. One complete (TgCAD1) and three partial (TgCAD2 to TgCAD4) members were characterized. The four enzymes presented residues for catalytic and structural zinc action, NADPH binding and substrate specificity, consistent with the mechanism of alcohol dehydrogenases. TgCAD3 and TgCAD4 were highly expressed in young and mature sapwood and seem to be duplicated and highly related with lignin biosynthesis. Tree genetic improvement, marker-assisted selection and plant transformation seem to be promising lines of research for the data obtained from this research. This is the first study addressing gene characterization and expression, phylogeny and transcriptomic profiling in teak. / A árvore de teca (Tectona grandis L.f.) tem alto valor no comércio de madeira para a fabricação de produtos lenhosos, devido às suas qualidades extraordinárias de cor, densidade e durabilidade. Apesar da importância desta espécie, são poucos os estudos genéticos e moleculares disponíveis. Também, a falta de informação molecular sobre xilema secundário e maturação da árvore tem dificultado a exploração genética de teca. Assim, estudos de expressão gênica e perfis transcricionais são relevantes para explorar a formação da madeira e a biossíntese de lignina durante o desenvolvimento e envelhecimento das plantas vasculares. Visando os estudos de expressão gênica, foi essencial identificar e clonar genes de referencia para a teca. Foram testados oito genes comumente usados em qRT-PCR, TgRP60S, TgCAC, TgACT, TgHIS3, TgSAND, TgTUB, TgUBQ e TgEF1a. Perfis de expressão destes genes foram avaliados por qRT-PCR em seis amostras de tecidos e órgãos (folhas, flores, plântulas, raiz, xilema secundário de caule e ramo). A validação da estabilidade pelos programas NormFinder, BestKeeper, geNorm e Delta CT mostrou que TgUBQ e TgEF1a são os genes mais estáveis para usar como genes de referência em teca nas condições testadas. Em virtude da disponibilidade de árvores de teca de diferentes idades, entre 12 e 60 anos, foi realizado o RNAseq de diferentes órgãos (plântulas, folhas, flores, raiz, ramos e caules de árvores de 12 e 60 anos). Obteve-se um total de 462.260 transcritos pela montagem com o software \"Trinity\". Foram identificados 1.502 e 931 genes diferencialmente expressos para xilema secundário de caule e ramo, respectivamente, utilizando o programa DESeq e fatores de transcrição MYB, que foram posteriormente caracterizados. A sequência de aminoácidos do TgMYB1 exibiu um motivo \"coiled-coil\" (CC), enquanto TgMYB2, TgMYB3 e TgMYB4 mostraram domínio R2R3-MYB. Todos eles foram filogeneticamente agrupados com várias gimnospermas e angiospermas. Observou-se alta expressão do TgMYB1 e TgMYB4 em tecidos lignificados de árvores de 60 anos de idade. Neste trabalho também foi estudada a família gênica Cinamil álcool desidrogenase (CAD). Foi caracterizado um membro completo (TgCAD1) e três parciais (TgCAD2 a TgCAD4). As quatro enzimas apresentaram resíduos de ação catalítica e estrutural de zinco, de ligação ao NADPH e de especificidade de substrato, em conformidade com o mecanismo conservado de álcool desidrogenases. TgCAD3 e TgCAD4 foram altamente expressos no alburno jovem e maduro e parecem estar duplicados e relacionados com a biossíntese de lignina. O melhoramento genético de árvores, a seleção assistida utilizando marcadores moleculares e a transformação de plantas parecem ser linhas promissoras de pesquisa, a partir dos dados obtidos nesta pesquisa. Este é o primeiro estudo sobre caracterização e expressão gênica, filogenia e perfis transcricionais em teca.
|
463 |
Desenvolvimento e validação de protocolos para a anotação automática de sequências ORESTES de Eimeria spp. de galinha doméstica. / Development and validation of protocols for automated annotation of ORESTES sequences of Eimeria spp. of domestic fowl.Ferro, Milene 08 December 2008 (has links)
A coccidiose aviária é uma doença entérica causada por protozoários parasitas do gênero Eimeria. Visando uma maior compreensão dos mecanismos moleculares envolvidos na regulação do ciclo de vida dos parasitas, foram geradas 15.000 seqüências expressas (ORESTES) para cada uma das três espécies mais importantes: E. tenella, E. maxima e E. acervulina. O presente trabalho consistiu no desenvolvimento de componentes de anotação automática de seqüências para o sistema EGene, plataforma previamente desenvolvida pelo nosso grupo (Durham et al. Bioinformatics 21: 2812-2813, 2005) para a construção de processamentos encadeados (pipelines). Estes componentes foram utilizados para a construção de pipelines de anotação automática de seqüências-consenso obtidas a partir da montagem dos ORESTES de Eimeria spp. A anotação consistiu na identificação dos genes e atribuição da função dos respectivos produtos protéicos, baseando-se em um conjunto de evidências. As seqüências também foram classificadas e quantificadas utilizando-se um vocabulário controlado de termos de ontologia gênica (GO). / Avian coccidiosis is an enteric disease caused by protozoan parasites of the genus Eimeria. Aiming at obtaining a better understanding of the molecular mechanisms that regulate the life cycle of the parasites, our group generated 15,000 expressed sequences (ORESTES) for each one of the three most important species: E. tenella, E. maxima and E. acervulina. In the present work, we report the development of a set of components for the automated sequence annotation through EGene, a platform for pipeline construction previously described by our group (Durham et al. Bioinformatics 21: 2812-2813, 2005). These components were used to construct pipelines for the automated annotation of assembled sequences of ORESTES of Eimeria spp. The annotation process consisted in the identification of genes and the corresponding protein function based on a set of evidences. The sequences were also mapped and quantified using a controlled vocabulary of gene ontology (GO) terms.
|
464 |
"Investigação de estratégias para a geração de máquinas de vetores de suporte multiclasses" / Investigation of strategies for the generation of multiclass support vector machinesLorena, Ana Carolina 16 February 2006 (has links)
Diversos problemas envolvem a classificação de dados em categorias, também denominadas classes. A partir de um conjunto de dados cujas classes são conhecidas, algoritmos de Aprendizado de Máquina (AM) podem ser utilizados na indução de um classificador capaz de predizer a classe de novos dados do mesmo domínio, realizando assim a discriminação desejada. Dentre as diversas técnicas de AM utilizadas em problemas de classificação, as Máquinas de Vetores de Suporte (Support Vector Machines - SVMs) se destacam por sua boa capacidade de generalização. Elas são originalmente concebidas para a solução de problemas com apenas duas classes, também denominados binários. Entretanto, diversos problemas requerem a discriminação dos dados em mais que duas categorias ou classes. Nesta Tese são investigadas e propostas estratégias para a generalização das SVMs para problemas com mais que duas classes, intitulados multiclasses. O foco deste trabalho é em estratégias que decompõem o problema multiclasses original em múltiplos subproblemas binários, cujas saídas são então combinadas na obtenção da classificação final. As estratégias propostas visam investigar a adaptação das decomposições a cada aplicação considerada, a partir de informações do desempenho obtido em sua solução ou extraídas de seus dados. Os algoritmos implementados foram avaliados em conjuntos de dados gerais e em aplicações reais da área de Bioinformática. Os resultados obtidos abrem várias possibilidades de pesquisas futuras. Entre os benefícios verificados tem-se a obtenção de decomposições mais simples, que requerem menos classificadores binários na solução multiclasses. / Several problems involve the classification of data into categories, also called classes. Given a dataset containing data whose classes are known, Machine Learning (ML) algorithms can be employed for the induction of a classifier able to predict the class of new data from the same domain, thus performing the desired discrimination. Among the several ML techniques applied to classification problems, the Support Vector Machines (SVMs) are known by their high generalization ability. They are originally conceived for the solution of problems with only two classes, also named binary problems. However, several problems require the discrimination of examples into more than two categories or classes. This thesis investigates and proposes strategies for the generalization of SVMs to problems with more than two classes, known as multiclass problems. The focus of this work is on strategies that decompose the original multiclass problem into multiple binary subtasks, whose outputs are then combined to obtain the final classification. The proposed strategies aim to investigate the adaptation of the decompositions for each multiclass application considered, using information of the performance obtained for its solution or extracted from its examples. The implemented algorithms were evaluated on general datasets and on real applications from the Bioinformatics domain. The results obtained open possibilities of many future work. Among the benefits observed is the obtainment of simpler decompositions, which require less binary classifiers in the multiclass solution.
|
465 |
Análise da via de regulação gênica por ácido retinóico: uma abordagem por bioinformática e biologia estrutural / Analysis of retinoic acid pathway: an approach by bioinformatics and structural biology.Sobreira, Tiago José Paschoal 11 December 2008 (has links)
As vias de sinalização celular por meio de moléculas são um dos principais meios de controle funcional de um organismo. O entendimento das funções de moléculas sinalizadoras facilita a compreensão das vias metabólicas de um organismo, assim possibilitando uma melhor compreensão de vários eventos biológicos e também de várias doenças. A sinalização pelo ácido retinóico (AR), e seus derivados, é responsável pelo controle de várias funções, por exemplo: crescimento celular, diferenciação celular, formação da retina, desenvolvimento cardíaco e também relacionado a várias patologias como diabetes, obesidades, cânceres, e doenças cardiovasculares. A ação do ácido retinóico é controlada em dois níveis: no metabolismo de síntese/degradação e na sua utilização na sinalização para a expressão gênica. A maquinaria que controla o metabolismo inclui as enzimas de síntese do AR (aldeído desidrogenase ALDH) e as enzimas de degradação do AR (Cyp26), que controlam a distribuição espaço-temporal do AR durante a embriogênese. As ALDHs são enzimas NAD(P)+ dependentes, que oxidam uma ampla gama de aldeídos para os seus correspondentes ácidos carboxílicos, sendo ALDH1A2 a principal enzima na transformação de retinal em ácido retinóico. A maquinaria da sinalização celular por AR contém os receptores nucleares controlados por AR (RARs) que estão envolvidos com o controle da transcrição gênica. Os mecanismos de controle de expressão mais comuns são os que ocorrem na fase transcricional. Um desses mecanismos envolve proteínas que se ligam às regiões promotoras de transcrição, representadas por trechos de DNA que geralmente estão localizados próximo à região de início da transcrição, mas que também podem estar a centenas ou até milhares de pares de bases desse início. Essas proteínas modulam a maquinaria transcricional, podendo ativá-la ou inibi-la. A associação de várias técnicas como a biologia molecular, bioinformática, filogenia, análises estruturais de biomoléculas, mecânica molecular e métodos termodinâmicos tem se mostrado uma poderosa abordagem para compreensão de sistemas biológicos simplificando e agilizando o desenvolvimento do conhecimento científico. Nessa direção, esse estudo desenvolveu duas análises: a primeira estudando a evolução das funções das enzimas ALDH, utilizando-se de técnicas de genômica combinatória, filogenia, bioinformática, estrutura de biomoléculas e de biologia do desenvolvimento, tentando compreender o modo como as ALDHs, que apresentam as seqüências de aminoácidos bastante similares, puderam divergir para gerar funções diversas como a destoxificação e a sinalização. Para este estudo foram analisados os genomas de 487 organismos em busca de seqüências de ALDHs e também o genoma do organismo modelo Branchiostoma floridae. Foram obtidas 190 seqüências que foram utilizadas em uma análise filogenética para tentar compreender a função primordial e também para definir grupos de aminoácidos candidatos a marcadores das diferentes famílias de ALDHs. Essas 190 seqüências também foram modeladas estruturalmente e analisada a forma e o volume do canal onde se aloja o aldeído a ser oxidado. A partir dessas informações foi possível prever que as ALDHs passaram das funções ancestrais de controle do padrão corporal para algo mais abrangente como funções protetoras. A segunda análise, utilizando-se das estruturas tridimensionais dos fatores de transcrição ligados ao DNA em diferentes posições e submetendo esses complexos a processos de mecânica molecular, cálculos termodinâmicos e análises das ligações de hidrogênio para tentar prever os mais prováveis sítios de interação entre os receptores e o DNA. O modelo escolhido para essa análise foram os fatores de transcrição regulados por ácido retinóico o RAR e RXR utilizando a região promotora do gene RARE-2 para avaliar as mais prováveis regiões de ligação desses fatores. Para esse estudo foram construídos 71 complexos proteína-DNA que foram submetidos a processos de mecânica molecular e cálculos termodinâmicos. A partir dessas informações foi possível prever uma região de maior afinidade entre o fator de transcrição e o DNA. As análises de ligações de hidrogênio possibilitaram definir exatamente a região de interação entre os fatores de transcrição e o DNA, e também descrever as interações moleculares responsáveis pela especificidade da interação. / Cellular signaling paths through molecules are one of the main processes of functional control of an organism. The comprehension of signaling molecules functions enables one to understand the metabolic pathways of an organism, along with related biological events and several diseases. The signaling through retinoic acid (RA) and its secondary products is responsible for controlling several functions, such as cellular growth and differentiation, retinas formation and cardio development, and is also related to several pathologies such as diabetes, obesity, cancers and cardiovascular disorders. There are two levels of control of retinoic acid activity: synthesis/degradation metabolism and its use in gene expression signaling. The machinery that controls the metabolism includes RAs synthesis (aldehyde dehydrogenase ALDH) and degradation (Cyp26) enzymes, which control the space-temporal distribution of RA during the embryogenesis. The ALDHs are NAD(P)+ dependent enzymes that oxidize many types of aldehydes into the related carboxylic acids, being the ALDH1A2 the main enzyme involved in the process of transformation of retinal into retinoic acid. The machinery of cellular signaling through RA contains the nuclear receptors controlled by RA (RARs) that are involved in the control of gene transcription. The most common mechanisms of expression control are the ones that occur during the transcriptional phase. One of these mechanisms involves proteins that bind to the transcription promoter regions, represented by DNA sequences that are usually located close to the region where the transcription starts, but can also be hundreds or thousands of base pairs apart from the starting point. These proteins modulate the transcriptional machinery, being responsible for both its activation and inhibition. The association of several techniques as molecular biology, bioinformatics, phylogeny, structural analysis of biomolecules, molecular mechanics and thermodynamic methods has been shown as a powerful tool for the understanding of biological systems, simplifying and speeding up the production of related scientific knowledge. Facing this direction, the present study developed two analyses. The first one studied the evolution of ALDH enzymes functions, using the techniques of combinatory genomic, phylogeny, bioinformatics, structure of biomolecules and developmental biology, in the attempt of understanding how the ALDHs could diverge and acquire different functions as detoxification and signaling, despite the fact that they have very similar aminoacid sequences. For this study, ALDHs sequences were searched for in the genome of 487 organisms plus the model organisms, Branchiostoma floridae. All 190 sequences obtained were used in a phylogenetic analysis, in the attempt of understanding the primordial function of the enzyme and defining possible groups of conserved aminoacids in the different families of ADLHs. These 190 sequences were also structurally modeled and the shape and volume of the channel where the aldehyde is placed to be oxidized were analyzed. Based on this information, it became possible to predict that the ALDHs moved from ancestral functions of corporal pattern control to a wider spectrum of protection functions. For the second analysis we submitted the complex formed by tridimensional structures of the transcriptional factors bond to DNA in different positions to processes of molecular mechanics, thermodynamic calculi and analysis of the hydrogen bonds, in order to predict the most probable sites of interaction between the receptors and the DNA. The model chosen for this analysis were the transcription factors regulated by retinoic acid, RAR and RXR, using the promoter region of the gene RARE-2 to assay the most probable binding regions of these factors. For this study, 71 protein-DNA complexes were built and submitted to processes of molecular mechanics and thermodynamic calculi. Based on the resulting data, it became possible to predict a region of greater affinity between the transcription factor and the DNA. The analyses of hydrogen bonds enabled us to define the exact region where the interaction between the transcription factor and the DNA takes place and also enabled us to describe the molecular interactions responsible for the specificity of this interaction.
|
466 |
Uma abordagem baseada em ontologias e conectores para a integração semântica de ferramentas de análise de expressão gênica / An Approach Based on Ontologies and Connectors for Semantic Integration of Gene Expression Analysis ToolsMiyazaki, Flavia Akemi 15 December 2011 (has links)
As pesquisas em biologia molecular têm produzido uma grande quantidade de dados, os quais embutem informações sobre diferentes fenômenos biológicos. Neste sentido, a bioinformática se destaca como uma área de pesquisa multidisciplinar que visa, principalmente, o desenvolvimento de ferramentas (sistemas) computacionais para auxiliar na descoberta de conhecimento a partir de dados biológicos. Dentro da bioinformática, a área de genômica funcional procura estudar as funções gênicas através da medição simultânea e em larga escala dos níveis de expressão gênica de um genoma. Diferentes ferramentas são utilizadas no processo de análise de expressão gênica, cada qual provê suporte a uma atividade de análise específica. Embora alguns ambientes de descoberta de conhecimento ofereçam suporte integrado a este processo de análise e exploração de dados, a maior parte das ferramentas de análise é desenvolvida independentemente de outras ferramentas e ambientes de descoberta de conhecimento. Este cenário representa um desafio para biologistas que precisam combinar e integrar diferentes ferramentas, muitas vezes de forma ad hoc, custosa e sujeita a erros. Modelos conceituais, tais como ontologias, têm contribuído para o sucesso do desenvolvimento de sistemas computacionais em diferentes domínios de aplicação. O desenvolvimento de tais modelos tem por objetivo representar corretamente, em alto nível de abstração, conceitos e situações pertinentes a um dado domínio de interesse. Esta representação abstrata facilita não apenas o entendimento de um dado domínio, mas também serve como base para o processo de desenvolvimento do sistema como um todo. O objetivo deste trabalho é investigar o desenvolvimento e o uso de modelos conceituais em geral e ontologias em particular, na integração de ferramentas na área de análise de expressão gênica. De forma específica, este trabalho tem por objetivo propor uma abordagem para a integração semântica de ferramentas de análise de expressão gênica a partir do uso de conectores e de uma ontologia de domínio. Essa abordagem foi aplicada no desenvolvimento de estudos de caso envolvendo a criação de diferentes ambientes integrados para a análise de expressão gênica e mostrou-se eficaz. / Molecular biology researches are increasingly producing large amounts of data regarding underlying biological phenomena. Bioinformatics is a multidisciplinary research field whose main objective is the development of theories and information systems to help the process of knowledge discovery from biological data. Functional genomics is a field of study bioinformatics concerned with the study of gene function through parallel and large scale expression measurements of a genome. A variety of software tools are usually combined and used in a knowledge discovery process, each providing support for a specific data analysis task. Although some tools are already provided as part of an integrated knowledge discovery environment, most of them are developed independently of other software tools and knowledge discovery environments. This scenario poses a problem and a challenge for biologists that need to combine and integrate different tools in an ad hoc, time consuming and error prone process. Conceptual models, such as ontologies, have contributed to the successful development of information systems in different application domains. The development of such models aims at creating a clear and precise description of the elements of a given domain at a high abstraction level. This abstract and high level description not only promotes a shared understanding of the domain, but also serves as basis for the development process of supporting applications in the domain. This work aims at investigating the development and use of conceptual models in general and ontologies in particular to support the integration of gene expression data analysis systems. Specifically, this work proposes an approach for the semantic integration of gene expression analysis tools using connectors and a domain ontology. This approach was applied in the development of a number of case studies aiming at creating integrated environments for gene expression analysis and proved its effectiveness.
|
467 |
Análise computacional da diversidade viral presente na comunidade microbiana do processo de compostagem do Zoológico de São Paulo / Computational analysis of the viral diversity in the Sao Paulo Zoo composting microbial communityAmgarten, Deyvid Emanuel 18 November 2016 (has links)
O estudo da diversidade viral em amostras ambientais tem se tornado cada vez mais importante devido a funções-chave desempenhadas por esses organismos. Estudos recentes têm fornecido evidências de que vírus de bactérias (bacteriófagos) podem ser os principais determinantes em ciclos biogeoquímicos de grandes ecossistemas, além de atuarem no fluxo de genes entre comunidades ambientais e na plasticidade funcional das mesmas frente a estresses ambientais. Neste trabalho, propomos a investigação e caracterização da diversidade viral presente em amostras de compostagem através de abordagens não dependentes e dependentes de cultivo. Na primeira abordagem, coletamos amostras seriadas de uma unidade de compostagem do zoológico de São Paulo para realização de sequenciamento metagenômico. O conjunto de sequências gerado foi extensivamente minerado (data-mining) para a produção de resultados de diversidade e abundância de táxons virais ao longo do processo de compostagem. Adicionalmente, procedemos com a montagem e recuperação de sequências virais candidatas a genomas completos e/ou parciais de novos vírus ambientais. Os dois protocolos computacionais utilizados para a mineração de dados encontram-se definidos e automatizados, podendo ser aplicados em quaisquer conjuntos de dados de sequenciamento metagenômico ou metatranscritômico obtidos através da plataforma Illumina. A segunda abordagem correspondeu ao isolamento e caracterização de novos fagos de Pseudomonas obtidos de amostras de compostagem. Três novos fagos foram identificados e tiveram os seus genomas sequenciados. A caracterização genômica desses fagos revelou genomas com alto grau de novidade, insights sobre a evolução de Caudovirales e a presença de genes de tRNA, cuja função pode estar relacionada com um mecanismo dos fagos para contornar o viés traducional apresentado pela bactéria hospedeira. A caracterização experimental dos novos fagos isolados demonstrou grande potencial para lise e dissolução de biofilme da cepa Pseudomonas aeruginosa PA14, conhecida como agente causador de infecções hospitalares em pacientes imunodeprimidos. Em suma, os dados reunidos nesta dissertação caracterizam a diversidade presente no viroma da compostagem e contribuem para o entendimento dos perfis taxonômico, funcional e ecológico do processo. / The study of the viral diversity in environmental samples has become increasingly important due to key-roles that are performed by these organisms in our ecosystems. Recent publications provide evidence that viruses of bacteria (bacteriophages) may be key-players in biogeochemical cycles of large ecosystems, as oceans and forests. Besides, they may also be determinant in the genes flux among populations and in the plasticity of the communities face to environmental stresses. In this work, we propose the investigation and characterization of the viral diversity in composting samples through non-culturable and culturable-dependent approaches. In the first approach, we sampled a composting unit from the Sao Paulo Zoo Park in different time points and proceeded with metagenomic sequencing. The dataset generated was extensively mined to provide results of diversity and abundance of viral taxa through the composting process. Additionally, we proceeded with the assembly and retrieval of candidate sequences to partial or/and complete viral genomes. The two computational protocols were automatized as pipelines and can be applied to any metagenomic dataset of illumina reads. The second approach refers to the isolation and characterization of new Pseudomonas phages obtained from composting samples. Three new phages were identified and their genomes were sequenced. A detailed characterization of these genomes revealed high degree of novelty, insights about evolution of tailed-phages and the presence of tRNA genes, which may be related to a mechanism to bypass host translational bias. The experimental characterization of the new phages demonstrated great potential to lyse bacterial cells and to degrade Pseudomonas aeruginosa PA14 biofilms. In short, the data presented in this dissertation shed light to the composting virome diversity, as well as to the functional and ecological profiles of viruses in the composting environment.
|
468 |
Análise transcricional de RNAs não codificadores longos em pacientes com dengue / Transcriptional analysis of long non-coding RNAs in dengue patientsBürger, Matheus Carvalho 27 November 2017 (has links)
A dengue é uma infecção viral sistêmica que pode se manifestar clinicamente de diversas formas, desde febres leves a hemorragia e síndrome do choque, condições potencialmente fatais. Diversos estudos já foram publicados investigando as mudanças globais de expressão que ocorrem durante a evolução da doença nesses diferentes quadros clínicos. Porém, nenhum desses estudos analisou o papel dos RNAs não codificadores longos (lncRNAs) na progressão da doença. Neste projeto, foi realizada uma metanálise dos dados de expressão provenientes desses estudos de dengue focando na expressão de lncRNAs e seus possíveis mecanismos de regulação gênica. Foram identificados dezenas de lncRNAs cuja expressão aumenta ou diminui em pacientes infectados com dengue comparado com pessoas saudáveis. Através de análise de \"guilty-by-association\", procurou-se identificar genes codificadores de proteína possivelmente regulados por esses lncRNAs ou genes que os regulem. Nossos resultados fornecem evidência de novos mecanismos de regulação entre lncRNAs e mRNAs. / Dengue fever is a systemic viral infection that can manifest clinically in a variety of ways, from mild fever to potentially fatal conditions such as hemorrhage and shock syndrome. Several studies have already been published investigating the global changes in expression that occur during the evolution of the disease in these different clinical settings. However, none of these studies analyzed the role of long non-coding RNAs (lncRNAs) in disease progression. In this project, we performed a meta-analysis of transcriptome data obtained from these dengue studies and focused on the expression of lncRNAs and their possible mechanisms of gene regulation. Dozens of lncRNAs have been identified whose expression increases or decreases in patients infected with dengue compared to healthy individuals. Through guilty-by-association analysis, we identified several lncRNAs that possibly regulate protein coding genes. Our results provide evidence of novel regulatory mechanisms between lncRNAs and mRNAs.
|
469 |
A transcrição pervasiva na archaea Halobacterium salinarum NRC-1 e a identificação de novos transcritos / Pervasive transcription in the archaeon Halobacterium salinarum NRC- 1 and the identification of new transcripts.Caten, Felipe ten 15 February 2017 (has links)
A caracterização em larga escala do transcritoma de diferentes organismos revelou um cenário complexo da expressão gênica, levando a identificação de inúmeros transcritos produzidos ao longo dos genomas de eucariotos e procariotos. Esse fenômeno recebeu o nome de transcrição pervasiva e tem sido fonte de estudos na busca de novos RNAs com importâncias regulatórias e também transcritos envolvidos na tradução de proteínas ainda não caracterizadas. A abundância de dados de transcritômica e proteômica, além de informações completas a respeito do genoma, fazem do extremófilo halofílico Halobacterium salinarum, um organismo modelo ideal para os estudos da transcrição pervasiva. Esse micro-organismo pertence ao grupo Archaea, o último dos três domínios da vida a ser descrito e com características compartilhadas entre bactérias e eucariotos. Através do uso da técnica de differential RNA-seq (dRNA-seq), a qual permite a distinção entre transcritos primários e processados, identificamos 179 TSSaRNAs em H. salinarum, esses pequenos RNAs estão associados ao início de transcrição e ainda não haviam sido descritos em archaea. A aplicação do dRNA-seq em amostras de RNA extraídas ao longo da curva de crescimento permitiu a identificação de 4540 TSS no genoma de H. salinarum NRC-1. Parte desses inícios de transcrição está localizada upstream a genes conhecidos, permitindo a identificação de inícios de transcrição em 1545 genes. 59,2% desses inícios de transcrição estão localizados até 10 pb. de distância do códon de início de tradução, confirmando a ausência de regiões UTRs em grande parte dos genes. A análise de expressão, em diferentes condições, das regiões relacionadas a inícios de transcrição antisense a genes revelou que a maioria dessas regiões apresenta um perfil de expressão correlacionado com os genes na fita oposta, indicando um possível papel regulatório desses transcritos. De forma similar, a análise da expressão de inícios de transcrição intergênicos permitiu a identificação de 132 regiões diferencialmente expressas e que não estão relacionadas a nenhum outro elemento no genoma de H. salinarum NRC-1. A análise comparativa com dados de proteômica revela que algumas dessas regiões podem estar envolvidas com a produção de pequenas proteínas. Além disso, a identificação de 1365 inícios de transcrição internos a genes sugere que a produção de transcritos intragênicos (intraRNAs) seja um fenômeno amplamente distribuído no genoma desse halófilo. Experimentos de Northern blot confirmaram a produção de um transcrito correspondente a porção final do gene VNG_RS05220, e experimentos de Western blot revelaram que a tradução desses intraRNAs é responsável pela produção de pequenas proteínas correspondentes a domínios proteicos individuais, com importante papel funcional em condições específicas de crescimento. A análise de inícios de transcrição upstream a regiões codificantes de domínios similares em bactérias e outras archaea sugere que a produção de intraRNAs codificantes é um fenômeno amplamente distribuído em procariotos e pode ser responsável pelo aumento da diversidade do proteoma através da geração de isoformas de proteínas a partir de um único gene. Por fim, a análise de dados de RNA-seq, em conjunto com a busca por assinaturas conhecidas de término de transcrição em archaea, permitiu a identificação da posição final de 58 genes. Os dados obtidos a partir dos experimentos e análises realizados ajudam a traçar um panorama mais completo do transcritoma de H. salinarum NRC-1 e revelam a presença de novos transcritos que podem ser amplamente distribuídos em procariotos e apresentar importantes papéis funcionais. / The large-scale transcriptome characterization of different organisms revealed a highly complex scenario of gene expression, leading to the identification of numerous transcripts in the genomes of eukaryotes and prokaryotes. This phenomenon has been named pervasive transcription and has been an important source for the search of new RNAs with regulatory functions or involved in the translation of unknown proteins. The abundance of transcriptomic and proteomic data, as well as complete information regarding the genome, allowed the halophilic extremophile Halobacterium salinarum to be an ideal model organism for studies of pervasive transcription. This microorganism belongs to the Archaea group, the last one of the three domains of life to be described, which presents shared characteristics with bacteria and eukaryotes. The use of differential RNA-seq (dRNA-seq) approach, which allows the distinction between primary and processed transcripts, allowed the identification of 179 TSSaRNAs, small RNAs associated with the transcription initiation in H. salinarum. The application of dRNA-seq in RNA samples collected along the growth curve allowed the identification of 4540 transcription start sites (TSS) in H. salinarum NRC-1. Some of these transcription initiation are located upstream to known genes, enabling the identification of TSSs for 1545 genes. 59.2% of these positions are located up to 10 bp away from the translation initiation codon, confirming that most of genes are leaderless. The expression analysis of regions related to antisense TSS under different conditions revealed that most of these regions have a correlated expression profile with genes in the opposite strand, indicating a possible regulatory role. Similarly, analysis of the expression of intergenic TSS allowed the identification of 132 differentially expressed regions that are not related to any other element in H. salinarum NRC-1 genome. Integration with proteomic data reveals that some of these regions may be involved in the production of small proteins. The identification of 1365 TSS located within genes suggests that the production of intragenic RNAs (intraRNAs) is a widely distributed phenomenon in H. salinarum NRC-1 genome. Northern blot experiments confirmed the production of a transcript corresponding to the final portion of VNG_RS05220 gene and Western blot experiments also revealed that the translation of intraRNAs is responsible for producing small proteins corresponding to individual protein domains with important functional role in specific growth conditions. Analysis of TSS upstream to the coding regions of similar protein domains in bacteria and other archaea suggests that the production of coding intraRNAs is a widely distributed phenomenon in prokaryotes and may be responsible for the increased proteome diversity through the generation of protein isoforms from a unique gene. Finally, the RNA-seq data analysis, combined with a search for known signatures for transcription termination in archaea, allowed the identification of the final position of 58 genes. The present work help to give a more complete picture of H. salinarum transcriptional landscape and reveals the presence of new transcripts that can be widely distributed in prokaryotes, with important functional roles.
|
470 |
CNViewer : aplicativo baseado em navegador web para análise de variações de número de cópias (CNV) do genoma humano / Cnviewer:Browser-Based AppicationFor The Analysis Of Dna Copy Number Variation In The Human GenomePalu, Cintia Cristina 12 July 2010 (has links)
Made available in DSpace on 2015-03-04T18:50:32Z (GMT). No. of bitstreams: 1
Cintia_Palu.pdf: 5829223 bytes, checksum: e1abfad4d5477f6f672541d62e31cdfe (MD5)
Previous issue date: 2010-07-12 / Coordenacao de Aperfeicoamento de Pessoal de Nivel Superior / O uso de ferramentas de análise e visualização de dados é essencial para a pesquisa de CNVs, porém nem sempre está ao alcance de todo o meio científico devido a restrições de acesso ou por requerer conhecimento avançado de informática. Portanto o desenvolvimento de interfaces amigáveis e acessíveis é essencial para a pesquisa.
Esta dissertação visou explorar o ambiente dos navegadores Web para desenvolver soluções para os problemas de acessibilidade, portabilidade e visualização, comumente encontrados nas ferramentas de bioinformática.
Foi desenvolvido um aplicativo para análise exploratória, denominado CNViewer, o qual oferece recursos para comparação de perfis moleculares, além de representar graficamente diversas amostras simultaneamente. Através de uma interface dinâmica, o usuário pode delimitar quaisquer regiões genômicas para a análise, e pode também exibir dados complementares às CNVs. Foi também disponibilizado acesso direto a anotações genômicas, tornando o CNViewer um ambiente para estudo de CNVs e dados correlacionados.
Utilizando somente os recursos oferecidos pelos navegadores Web (JavaScript e HTML), o CNViewer é capaz de processar dados e executar tarefas rapidamente, com independência de servidor, pois mantêm os dados em memória durante seu uso, aperfeiçoando a interatividade com o usuário. Foi também criado um módulo de exportação, que permite ao usuário salvar e recuperar suas análises, servindo também para compartilhamento de dados. O CNViewer é um aplicativo que supera os limites dos programas baseados em Web clássicos, comportando-se como um aplicativo desktop, mas com a vantagem de ser acessado diretamente, sem requerer instalação ou atualização. O crescente uso dos navegadores Web como ambiente de trabalho, e mais recentemente até mesmo como sistema operativo, sugere que aplicativos nativos a esse ambiente poderão tornar-se a norma em informática biomédica.
|
Page generated in 0.0627 seconds