• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 492
  • 27
  • 26
  • 14
  • 8
  • 7
  • 7
  • 7
  • 7
  • 2
  • 1
  • 1
  • 1
  • Tagged with
  • 565
  • 311
  • 93
  • 79
  • 70
  • 57
  • 56
  • 53
  • 53
  • 45
  • 43
  • 43
  • 42
  • 42
  • 40
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
211

Aplicação de métodos estatísticos e computacionais para o estudo da cis-regulação da expressão gênica / Aplication of computational and statistical methods for the study of cis-regulation of genic expression

Almeida, Marcio Augusto Afonso de 16 April 2010 (has links)
Ferramentas bioinformática têm se tornado a escolha para auxiliar pesquisadores tanto para a anotação de novos genes, como para estudar genes em condições fisiológicas de interesse. Entre essas ferramentas destacam-se os algoritmos de agrupamento filogenético e os algoritmos de predição de padrões curtos de DNA, como, por exemplo, predições de sítios para ligação de fatores de transcrição. Desenvolver uma abordagem mista com o objetivo de agrupar genes baseando-se unicamente nos sinais transcricionais preditos em suas seqüências é um desafio de difícil transposição. No presente trabalho, apresentamos nossos resultados para tentar superar tal limitação que podem ser subdividos em duas seções: a primeira aonde desenvolvemos uma abordagem para a melhoria das predições computacionais de sítios de ligação e a segunda, onde passamos a agrupar genes com base nos seus sinais transcricionais preditos em seqüências conservadas flanqueadoras. A primeira seção de nosso trabalho foi focada no estudo de uma seqüência de indução de transcrição próxima ao gene Aldh1a2 de camundongo aonde foram preditos sítios para fatores de transcrição que foram posteriormente testados biologicamente e se mostraram associados ao controle da expressão desse gene. A partir de uma profunda pesquisa bibliográfica, nós determinamos um grupo de 57 fatores de transcrição já associados com a especialização de subpopulações de neurônios durante o desenvolvimento neuroembrionário de vertebrados. Nossa abordagem de seleção de sítios de alto valor biológico foi agora testada em seqüências conservadas próximas a cada um desses genes que codificam esses fatores de transcrição associados e os sítios de ligação para fatores de transcrição foram preditos. Tais sítios foram contabilizados e utilizados com entrada para nossa abordagem de agrupamento. A análise dos resultados do agrupamento determinou que, nossa abordagem se mostrou suficientemente sensível para construir uma árvore solução com boas relações com os padrões, já conhecidos, de expressão para esses genes agrupados. Essa abordagem poderá ser utilizada tanto para anotar funcionalmente genes de interesse quanto para minerar informações dentro de um grupo de genes previamente selecionado. / Bioinformatics tools are becoming the choice for aiding scientists for gene annotation and for studying gene in physiological conditions of interest. Among those efforts, phylogenetics clustering algorithms and tools for predicting short DNA patterns, such as binding sites for transcription factor, are outlined as essential. To develop a mixture procedure merging this two distant fields of bioinformatics research is a challenge hard to overcome. In the present study, we present our results of trying to overcome such limitation and it be easily subdivided in two distinct sections: initially we develop a procedure to improve the computational prediction of binding site for transcription factors and the second one where genes were grouped based solely in their transcriptional patterns predicted in conserved flanking sequences. The first section of the present study was focused in the study of an enhancer near Aldh1a2 gene in mouse where binding sites were predicted and latter biologically tested and showed strong influence in expression control of this gene. By a comprehensive bibliographic research we determined a group of 57 transcription factors which were already associated with neuron subpopulations specialization during the neuroembryonary development in vertebrates. Our computational procedure for selection of high biological value binding sites was applied in conserved flanking sequence in each of these genes encoding these associated transcription factors and a large group of binding sites were predicted. This sites were counted and use as an input for our clustering procedure. Clustering results analyses determined that our procedure showed to be sufficiently sensible to construct a solution tree showing good relations with, already determined, expression patterns of grouped genes. This procedure could be for functionally annotation of genes and for data mining in a group of already determined genes of interest.
212

Montagem de novo do transcriptoma de teca (Tectona grandis L. f.) e busca por genes relacionados ao estresse hídrico / De novo assembly of teak (Tectona grandis L. f.) transcriptome and search for water-stress related genes

Vasconcelos, Tarcisio Sales 22 May 2015 (has links)
A teca é uma árvore de grande importância comercial pelas características de cor e durabilidade de sua madeira. Devido a sua rusticidade e fácil adaptação ao clima, plantios de teca tornam-se cada vez mais atrativos ao redor do mundo. Contudo, esta espécie apresenta escassez de estudos genéticos moleculares a respeito tanto de sua madeira, quanto de sua tolerância às variações ambientais. Uma vez que o transcriptoma pode apresentar grande quantidade de informação a respeito dos genes expressos por um conjunto celular, neste trabalho foi realizado o primeiro transcriptoma de teca, onde foram sequenciadas flores, folhas, raízes e seedlings pela tecnologia Illumina. A montagem do transcriptoma foi realizada com o programa Trinity acima de 100 milhões de reads e gerou mais de 400 mil contigs, os quais tiveram as anotações funcionais adquiridas com o programa Blas2GO. 51% dos contigs foram anotados, mostrando alta similaridade com as espécies Vitis vinifera e Solanum licopersicum; destes, 78% obtiveram anotações funcionais com o Gene Ontology, totalizando 5.165 termos para Processo Biológico, 2.846 termos para Função Molecular e 742 para Componente Celular. A expressão diferencial foi obtida com o programa edgeR a 5% de probabilidade de erro e mostrou que, para 187.315 contigs montados através da fusão de todas as bibliotecas sequenciadas, 18 mostraram expressão diferencial para flor, 14 para folha, 13 para raiz e 29 para seedling. Após a etapa de caracterização do transcriptoma, foi realizado um experimento de estresse por déficit hídrico em casa-de-vegetação, onde plantas de teca foram submetidas a estresse Moderado (40% de água no substrato por 20 dias), estresse Severo (20 a 40% de água por 30 dias) e tratamento controle (substrato saturado). As medições através de analisador de gases por infravermelho (IRGA) mostraram queda na fotossíntese (até 70% a menos do que o controle), na transpiração (até 77%) e na condutância estomática (até 85%) entre os tratamentos; além disto, o conteúdo relativo de água foliar caiu 13% entre o tratamento severo e o controle, e níveis de prolina livre foram até 3,5 vezes mais altos nos tratamentos de estresse. A temperatura foliar aumentou significativamente com o aumento da irradiância de fótons aplicada. A busca por genes relacionados ao estresse por déficit hídrico na biblioteca de transcritos de Raiz retornou 1.145 sequências, e destas, 4 foram caracterizadas: TgTPS (trealose 6-fosfato sintase), TgPIP (aquaporina, proteína intrínseca de membrana plasmática), TgDREB2 (proteína de ligação a elemento responsivo a desidratação) e TgAREB (proteína de ligação a elemento responsivo a ácido abscísico). Apenas TgTPS, TgPIP e TgDREB2 mostraram alto grau de conservação entre as espécies, podendo ser corretamente amplificadas via PCR e validadas por sequenciamento. Assim, com o banco de dados de transcritos obtido pelo RNA-seq, foi possível identificar genes candidatos ao estudo de características vegetativas e reprodutivas de teca, contribuindo para entender os mecanismos moleculares desta espécie florestal. / Teak is a tree of great commercial importance by the characteristics of color and durability of its wood. Due to its hardiness and easy adaptation to climate, teak plantations become increasingly attractive around the world. However, this species has a lack of molecular genetic studies on both of its wood, as their tolerance to environmental variations. Once the transcriptome can provide lots of information about the genes expressed by a cell group, this work represents the first transcriptome teak, which were sequenced flowers, leaves, roots and seedlings by Illumina technology. The transcriptome assembly was performed with Trinity program above 100 million reads and generated more than 400,000 contigs, which have acquired the functional annotations with Blas2GO program. 51% of the contigs were annotaded, showing high similarity to Vitis vinifera and Solanum licopersicum; of these, 78% had functional annotations with the Gene Ontology, totaling 5,165 terms for Biological Process, 2846 terms for Molecular Function and 742 for Cell Component. The differential expression was obtained with the edgeR program at 5% probability of error and showed that for 187,315 contigs assembled by merging all sequenced libraries, 18 showed differential expression to flower, 14 to leaf, 13 to root and 29 for seedling. After this step of characterization of the transcriptome, we performed a stress experiment by water deficit at greenhouse, where teak plants were subjected to Moderate stress (40% of water in the substrate for 20 days), Severe stress (20 to 40% water for 30 days) and control treatment (saturated substrate). Measurements by infrared gas analyzer (IRGA) showed a decrease in photosynthesis (up to 70% less than the control), transpiration (up 77%) and stomatal conductance (up 85%) between treatments; furthermore, leaf relative water content dropped 13% between the treatment control and severe, and free proline levels were up to 3.5 fold greater in stress treatments. The leaf temperature increased significantly with increasing irradiance of photons applied. The search for genes related to stress by water deficit in the root transcripts library returned 1,145 sequences, and these, 4 were characterized: TgTPS (trehalose 6-phosphate synthase), TgPIP (aquaporin, protein intrinsic of plasma membrane), TgDREB2 (dehydration responsive element binding protein) and TgAREB (abscisic acid responsive element binding protein). Only TgTPS, TgPIP and TgDREB2 showed a high degree of conservation between species, and can be properly amplified by PCR and validated by sequencing. Thus, with the database of transcripts obtained by RNA-seq, candidate genes were identified for the study of vegetative and reproductive characteristics teak, helping to understand the molecular mechanisms of this forest species.
213

Algoritmos evolutivos aplicados na investigação da adaptabilidade do código genético / Genetic algorithms applied to the investigation of genetic code adaptability

Oliveira, Lariza Laura de 30 November 2015 (has links)
O código genético é altamente conservado e está presente na maior parte dos organismos vivos. Uma questão que tem intrigado os cientistas é se o código genético é fruto do acaso ou de um processo evolutivo. Se qualquer associação entre aminoácidos e códons é possível, então existem cerca de 1, 51 × 1084 códigos possíveis. A hipótese de que o código genético evoluiu é suportada por sua robustez frente a mutações. Duas metodologias tem sido utilizadas para estudar esta hipótese: a abordagem estatística, que estima o número de códigos aleatórios melhores que o código genético padrão, e a abordagem por engenharia, que compara o código padrão com os melhores códigos hipotéticos obtidos por meio de um algoritmo de otimização. A utilização de ambas abordagens têm sido feita considerando-se apenas uma função objetivo, baseada na robustez frente a mutações quando uma determinada propriedade dos aminoácidos é considerada. Neste trabalho, propõe-se considerar mais de um objetivo simultaneamente para a avaliação dos códigos genéticos. Para isso, três abordagens multiobjetivo utilizando Algoritmos Genéticos são empregadas. São elas: abordagem lexicográfica, ponderada e de Pareto. Os resultados indicam que a utilização de mais de um objetivo é promissor, sendo os códigos hipotéticos gerados mais similares ao código genético padrão, quando comparados com os resultados obtidos por outros autores. / The genetic code is highly preserved and it is present in most living organisms. If we consider all codes mapping the 64 codes into 20 amino acids and one stop codon, there are more than 1.51 × 1084 possible genetic codes. The main question related to the organization of the genetic code is why exactly the standard code was selected among this huge number of possible genetic codes.The hypothesis that the genetic code has evolved is supported by its robustness against mutations. Many researchers argue that the organization of the standard code is a product of natural selection and that the codes robustness against mutations would support this hypothesis. Two methodologies have been used to investigate this hypothesis: the first one is the statistical approach which estimates the number of random codes which are better than the standard genetic code. The second is the engineering approach, which compare the standard code with the best hypothetical codes obtained by an optimization algorithm. Both approaches have been used considering only one objective function, which is usually based on the robustness against changes using the polar requirement. In this research, we propose to consider more than one objective simultaneously for the evaluation of genetic codes. For this purpose, three approaches using multi-objective genetic algorithms were employed, are they: lexicographic, weighted, and Pareto-based. The results indicate that considering more than one objective function is promising: the hypothetical codes generated are more similar to the standard genetic code, when compared with the results obtained by the monoobjective approach.
214

Modelagem molecular das proteínas captadoras de molibdato (ModA) e oligopeptídeos (OppA) de Xanthomonas axonopodis pv. citri . / Molecular modeling of molibdate (ModA) and oligopeptide (OppA) uptake proteins in Xanthomonas axonopodis pv. citri.

Moutran, Alexandre 24 April 2009 (has links)
Sistemas de transporte tipo ABC são responsáveis pelo transporte de uma grande variedade de substâncias dentre elas os oligopeptídeos e molibdato. Neste trabalho estudamos dois sistemas de transportadores do tipo ABC (mod, envolvido na captação de molibdato e o opp na capação de oligopeptídeos) presentes na bactéria Xanthomonas axonopodis pv. citri (Xac). Em particular analisamos a organização genética dos óperons mod e as proteínas ModA e OppA, componentes solúveis localizados no periplasma e responsáveis pela ligação aos substratos. Por meio de técnicas de modelagem molecular, definimos modelos estruturais para as proteínas ModA e OppA. Para a proteína ModA caracterizamos cinco resíduos que compõem a cavidade ligadora e são responsáveis pelas interações com o íon molibdato, assim como a sua similaridade estrutural e sequencial com ortólogos de 3 grupos distintos de bactérias. Para a OppA, descrevemos o seu comportamento na ancoragem de diferentes oligopeptídeos. Avaliamos parâmetros como a extensão da cadeia e estabelecemos uma ordem crescente de afinidade entre os oligopeptídeos com diferente composição residual e a proteína OppA. / ABC transport system are responsable for the uptake of a large variety of substrates, including oligopeptides and molybdate. In this work we studied two ABC transporter systems (mod and opp responsable for molybdate and oligopeptide uptake, respectively) present in plant pathogen Xanthomonas axonopodis pv. citri (Xac). We investigated the genetic organization of mod operon and, particularly, structural feature of periplasmic components, ModA and OppA proteins, of the uptake systems. Using molecular modeling techniques, we defined the structural models of both ModA and OppA proteins. Based on the ModA structural model, amino acid residues involved in molybdate interaction were identified. In addition, both the structural and sequence similarities of Xac ModA and other bacterial orthologs with experimentally defined structural organizations were described. Based on the OppA structural model, we applied molecular docking tools to determine the binding specificity for different oligopeptide regarding number and amino acid composition. Collectively, our results represent an important contribution to the study of ABC transporters in an economically relevant phytopathogen bacterial species.
215

Estudos estruturais de hidrolases de glicosídeos em solução usando técnicas de espalhamento a baixo ângulo (SAS) / Structural studies of glycoside hydrolyses in solution using small-angle scattering (SAS) techniques

Vasilii, Piiadov 07 March 2019 (has links)
As hidrolases de glicosídeos (GHs) exercem papéis fundamentais em vários processos biomédicos e aplicações industriais. A maioria destas enzimas possui vários domínios funcionais ligados entre si por peptídeos conhecidos como linkers. Informações sobre organização estrutural destas enzimas e sua mobilidade, posições e orientações mútuas de domínios individuais, bem como mudanças conformacionais introduzidas por ligantes ou por mudanças de condições bioquímicas (pH e T) podem ser muito informativas. Por esse motivo, é muito importante determinar a organização estrutural de GHs em termos de posição e orientação de seus domínios individuais e compreender a interação entre estes domínios em condições próximas às fisiológicas. Entretanto, atualmente, a conformação, dinâmica e função dos GHs com múltiplos domínios ainda não são totalmente compreendidas. Assim, o principal objetivo deste projeto foi conduzir estudos de hidrolases de glicosídeos em solução, usando SAS. Um grande número de GHs foi clonado e expresso em laboratório sob a direção do Prof. Dr. Igor Polikarpov (Grupo de Biotecnologia Molecular, IFSC / USP), seguindo protocolos já estabelecidos na literatura, para sua expressão e purificação. Experimentos SAXS foram realizados em colaboração com o Dr. Evandro Ares de Araújo (USP, São Carlos) e com o Prof. Dr. Mário de Oliveira Neto (UNESP, Botucatu). Para estudar as hidrolases de glicosídeos, foi utilizado o método de espalhamento a baixo ângulo, e em adição ao trabalho experimental, foi desenvolvido um novo pacote de software SAXSMoW2 para processar os dados do SAXS. Este pacote permite obter rapidamente os principais parâmetros estruturais de moléculas de proteínas, calcular o peso molecular e o estado oligomérico. Também foi aperfeiçoado e aplicado o método de acoplamento estatístico (statistical coupling analysis) , para complementar os dados estruturais experimentais, em especial para xiloses isomerases. Este método pode permitir uma melhor compreensão da relação entre as características estruturais evolutivas e sua funcionalidade biológica. Além disso, métodos de bioinformática foram desenvolvidos para complementar e compreender melhor as informações estruturais obtidas nos experimentos de SAXS. O primeiro foi um método para separar sequências de GH7 em duas categorias, exo e endogluconases. É útil analisar cada tipo de proteína dentro da família separadamente e estudar o papel dos loops funcionais - características estruturais que influenciam significativamente a atividade biológica. Outro método foi desenvolvido para encontrar o centro de atividade na nova enzima Xilose Isomerase obtida, usando uma estrutura relacionada, bem conhecida, da mesma família. Este método foi aplicado a enzimas cujas estruturas foram estudadas pela técnica de cristalografia em nosso laboratório no IFSC / USP. Inspirado pelo SCA, um método de detecção de comunidades difusas de aminoácidos em proteínas foi desenvolvido. Essa informação também pode complementar os resultados do SCA, indicando conjuntos fortemente correlacionados de aminoácidos na enzima. Outro novo método desenvolvido é uma estimativa de afinidade nas famílias de enzimas ativas em carboidratos utilizando similaridade dos modelos escondidos de Markov e bancos de dados open access de sequências de proteínas. / The Glycoside Hydrolases (GHs) play a key role in a number of biomedical processes and industrial applications. Most of these enzymes are multidomain proteins composed of different functional domains connected by linker peptides. Thus, it is very important to determine structural organization of glycoside hydrolases in terms of positions and orientations of their individual domains and comprehend the interplay between their multiple domains under close-to physiological conditions. To study the glycoside hydrolases, in this work a small-angle scattering method has been used. Currently, the conformation, dynamics and function of GHs with multiple domains are not fully understood. This is why the information on their structural organization and mobility; mutual position and orientation of the individual domains and conformational changes induced by interaction with the substrates or difference in biochemical conditions might be very informative. A large number of GHs have been cloned and expressed in the lab under direction of Prof. Dr. Igor Polikarpov (Molecular Biotechnology group, IFSC/USP) and we follow already established protocols for their expression and purification. SAXS experiments have been carried out in collaboration with Dr. Evandro Ares de Araujo (USP, São Carlos) and Prof. Dr. Mario de Oliveira Neto (UNESP, Botucatu). Additionally to experimental work, a new software package SAXSMoW2 for SAXS data processing has been developed. The software allows to obtain rapidly main structural parameters of the protein molecule, calculate molecular weight and oligomeric state. To supplement an structural data, the method of statistical coupling analysis (SCA) has been significantly improved and applied. The method allows a better understanding of interconnection between evolutionary caused structural features and their biological functionality. Also, various bioinformatic methods were developed to complete and understand better structural information obtained in SAXS experiments. The first one is a method for separating sequences from GH7 into the two bins of exo- and endogluconases. It is helpful to analyze each type of proteins inside the family separately and study the role of functional loops -- structural features that significantly influence on biological activity. Other developed method is for finding of activity center in the new obtained Xylose Isomerase enzyme using related well-known structure from the same family. This method was applied to the enzyme whose structure was studied using crystallography technique in our laboratory at IFSC/USP. Inspired by SCA, a method of aminoacid fuzzy communities detection in proteins has been developed as well. This information also can complete SCA results showing strong correlated sets of aminoacids in the enzyme. Another one new developed method is an estimation of carbohydrate-active family affiliation of unknown proteins using Markov hidden model similarities and open access databanks of protein sequences.
216

PA³P: uma nova ferramenta para determinação in silico da alergenicidade e antigenicidade de proteínas

Boeck, Anna Carolina, Boldo, Juliano Tomazzoni 05 May 2016 (has links)
Submitted by Ana Damasceno (ana.damasceno@unipampa.edu.br) on 2017-06-07T21:02:40Z No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) PA³P uma nova ferramenta para determinação in silico da alergenicidade e antigenicidade de proteínas.pdf: 4093415 bytes, checksum: 0bc76850b4fffd6e3c97f8f6a339dc0b (MD5) / Made available in DSpace on 2017-06-07T21:02:40Z (GMT). No. of bitstreams: 2 license_rdf: 1232 bytes, checksum: 66e71c371cc565284e70f40736c94386 (MD5) PA³P uma nova ferramenta para determinação in silico da alergenicidade e antigenicidade de proteínas.pdf: 4093415 bytes, checksum: 0bc76850b4fffd6e3c97f8f6a339dc0b (MD5) Previous issue date: 2016-05-05 / Uma das preocupações envolvendo a expressão de diferentes proteínas heterólogas em alimentos é a possibilidade do desenvolvimento de reações alérgicas ou antigênicas nos consumidores finais. A Food and Agriculture Organization of the United Nations juntamente com a World Health Organization definiram que uma sequência de aminoácidos seria considerada alergênica/antigênica quando apresentasse ao menos 35 % de identidade em uma janela de 80 aminoácidos ou 6 – 8 aminoácidos contíguos e idênticos quando comparada com sequências de alergénos conhecidos. Para categorizar proteínas alergênicas ou antigênicas foi construída uma plataforma (chamada Plataforma de Análise da Alergenicidade e Antigenicidade de Proteínas – PA³P – e disponível em http://lpa.saogabriel.unipampa.edu.br:8080/pa3p/index.jsp ou http://pluriserver.com.br/pa3p/) que congrega um conjunto de ferramentas específicas para tais análises. A plataforma fora construída através da linguagem de programação Java e HTML. Desta forma, foram separados grupos de proteínas alergênicas/antigênicas de não alergênicas/não antigênicas com redução dos casos de falsos positivos ou falsos negativos. As análises complementares utilizadas neste trabalho são necessárias, pois a metodologia proposta pela Food and Agriculture Organization of the United Nations juntamente com a World Health Organization é insuficiente, gerando resultados duvidosos. A plataforma construída neste trabalho obteve valores de 98 % de sensibilidade e 96 % de especificidade, comparada com 89 % e 85 %, respectivamente, dos testes utilizados isoladamente. Esta plataforma pode ser utilizada para embasar a decisão de utilizar determinada proteína na construção de um Organismo Geneticamente Modificado com finalidade nutricional. / A major drawback involving heterologous protein expression in organisms used for human consumption is the possibility of allergenic or antigenic reactions. Both Food and Agriculture Organization of the United Nations and World Health Organization determined that a potentially allergenic protein world present at least 35 % identity in a 80 amino acid window or 6 – 8 contiguous and identical amino acids when compared with known allergens. In order to assess the allergenic or antigenic potential of a given protein, the Platform for Analysis of Allergenicity and Antigenicity of Proteins (PA³P – available at http://lpa.saogabriel.unipampa.edu.br:8080/pa3p/index.jsp or http://pluriserver.com.br/pa3p/) was developed. The platform was constructed using Java and HTML programming languages. It was p ssible to discriminate allergenic/antigenic from non-allergenic/non-antigenic proteins, with reduction of false positive and false negative samples. The additional analyses used in the platform are necessary, since the insufficient FAO and WHO proposed methods, rendering doubtable results. In our tests, PA³P presented 98% sensibility and 96% specificity when compared with the web tools used independently (89 and 85%, respectively). This tool has a potential to contribute to decision making regarding the of a given protein in GMO construction with nutritional intent.
217

Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos / Analysis and identification of prokaryotic coding sequences with confliting atributes eng

Saji, Guadalupe Del Rosario Quispe 23 August 2010 (has links)
Made available in DSpace on 2015-03-04T18:50:29Z (GMT). No. of bitstreams: 1 Dissertacao_Guadalupe.pdf: 2696610 bytes, checksum: c3a517f1d7dc8a87a7bf76c7a5e845aa (MD5) Previous issue date: 2010-08-23 / Coordenacao de Aperfeicoamento de Pessoal de Nivel Superior / The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified (Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences. The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict to describe attributes such as frameshifts, large insertions or deletions, truncations, etc.. that are detected from a CDS or several CDSs used as references, depending on model. Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis. As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date: April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions. The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data). From the analysis of these genomes, one can conclude the importance of using the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data. / O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos.
218

Implementação e análise de modelos de solvatação para a predição ab initio de estruturas de proteínas / Implementation and analysis of solvation models for ab initio prediction of protein structures

Rocha, Gregório Kappaun 09 December 2011 (has links)
Made available in DSpace on 2015-03-04T18:57:48Z (GMT). No. of bitstreams: 1 Dissertacao_Corrigida_Final_Gregorio_2011.pdf: 7241946 bytes, checksum: cb82d524114ee5f3199d1239571fb2cd (MD5) Previous issue date: 2011-12-09 / The problem of predicting the native structure of proteins from their amino acid sequence is one of the major challenges of computational biology and implies very high computational cost. Several attempts have been made in the search for efficient algorithms and simplified models for protein structure prediction. In this respect, the inclusion and the correct description of the effects of protein solvent interaction are essential for the success of these methods, considering that the solvent plays a key role in the folding process and structural stability of proteins. Despite recent progress, the modelling of protein-solvent interactions in computer simulations remains a challenge. Implicit solvation models use different strategies to reproduce the effects of the solvent without representing their molecules discretely, doing this with a direct estimate of the solvation free energy. This work aimed to implement and carry out a comparative analysis of implicit solvation models described in the literature, and evaluate the impact of such models in the predictive capacity of the GAPF protein structure prediction suite ( Genetic Algorithms for Protein Folding ), developed in our research group GMMSB/LNCC. As some of the solvation models require the value of solvent accessible surface area (SASA) in their calculations, it was also necessary to implement a method that unites accuracy and computational efficiency. The methodology used in the POPS program was implemented for the calculation of the SASA, and the program MSMS is used as a reference for validation. Four solvation models were analyzed: EAS, I-SOLV, EEF1 e GBobc (used as reference). The thermal unfolding of 15 proteins via molecular dynamics (using the GROMACS simulation package) was carried out to evaluate the solvation models before these were placed in the context of a program for protein structure prediction. Seeking to evaluate the impact of each solvation model on GAPF, large scale tests on the ab initio prediction of structures of a set of 24 proteins were performed. The results show that: (i) the use of the POPS methodology is a good alternative for calculating the SASA; (ii) the solvation models I-SOLV, EEF1 and GBobc reflect the behavior of the SASA in their solvation free energies; (iii) with the exception of EAS, all the models were able to discriminate folding from unfolding structures; (iv) no model was able to discriminate close to native structures from structures with similar compression but with high RMSD (folded incorrectly); (v) the I-SOLV and EEF1 were the solvation models that came closest to the reference model GBobc; (vi) the solvation models I-SOLV and EEF1 provided an improvement in RMSD of predicted structures in the program GAPF with respect to experimental structures; (vii) the I-SOLV and EAS have the lowest computational cost among the evaluated solvation models, being faster than GBobc. The solvation models I-SOLV and EEF1 are the best alternative among those studied to model the effects of the solvation in the protein structure prediction. / O problema da predição da estrutura nativa de proteínas a partir da sua seqüência de aminoácidos é um dos grandes desafios da biologia computacional e implica em altíssimo custo computacional. Várias tentativas vêm sendo realizadas na busca de algoritmos e de modelos simplificados e eficientes para a predição de estruturas de proteínas. Nesse sentido, a inclusão e a correta descrição dos efeitos das interações entre a proteína e o solvente são essenciais para o sucesso desses métodos, haja vista que o solvente tem um papel fundamental no processo de enovelamento e estabilidade estrutural das proteínas. Apesar dos recentes progressos, a modelagem da interação proteína-solvente em simulações computacionais ainda é um desafio. Os modelos implícitos de solvatação utilizam diferentes estratégias para reproduzir os efeitos do solvente sem representar de forma discreta suas moléculas, e o fazem através de uma estimativa direta da energia livre de solvatação. O objetivo geral deste trabalho foi implementar e realizar uma análise comparativa de modelos implícitos de solvatação descritos na literatura, além de avaliar o impacto de tais modelos na capacidade preditiva do programa de predição ab initio de estruturas de proteínas GAPF, desenvolvido no GMMSB/LNCC. Como alguns modelos de solvatação requerem o valor da área de superfície acessível ao solvente (SASA) em seus cálculos, tornou-se também necessário, a implementação de um método que atrele acurácia e eficiência computacional. A metodologia utilizada no programa POPS foi implementada para o cálculo da SASA e o programa MSMS foi usado como referência para a validação da mesma. Quatro modelos de solvatação foram analisados: EAS, I-SOLV, EEF1 e GBobc (usado como referência). O desenovelamento térmico de 15 proteínas via dinâmica molecular (utilizando o pacote de simulação GROMACS) foi realizado com o objetivo de avaliar os modelos de solvatação antes desses serem inseridos no contexto de um programa de predição de estrutura de proteínas. Buscando apreciar o impacto de cada modelo de solvatação no programa GAPF, foram realizados testes em larga escala para a predição ab initio de estruturas de um conjunto de 24 proteínas. Os resultados obtidos mostram que: (i) o uso da metodologia do POPS apresenta-se como uma boa alternativa para o cálculo da SASA; (ii) os modelos de solvatação I-SOLV, EEF1 e GBobc refletem o comportamento da SASA nas suas energias livres de solvatação; (iii) com exceção do EAS, os demais modelos se mostram capazes de discriminar estruturas enoveladas de estruturas desenoveladas; (iv) nenhum dos modelos foi capaz de discriminar de forma satisfatória estruturas enoveladas de estruturas com compactação similar e alto RMSD (enoveladas incorretamente); (v) os modelos I-SOLV e EEF1 foram os que mais se aproximaram do modelo de referência GBobc; (vi) os modelos de solvatação I-SOLV e EEF1 proporcionaram uma melhora no RMSD das estruturas preditas no programa GAPF em relação às estruturas experimentais; (vii) o ISOLV e o EAS apresentam o menor custo computacional dentre os modelos de solvatação avaliados, sendo mais rápidos que o GBobc. Os modelos de solvatação ISOLV e EEF1 apresentam-se como as melhores alternativas, dentre as estudadas, para a modelagem dos efeitos da solvatação na predição de estrutura de proteínas.
219

Predição in silico de RNAs não codificantes na bactéria mycoplasma hyopneumoniae/ / In silico prediction of non-coding RNAS for the bacterium mycoplasma hyopneumoniae

Godinho, Caio Padoan de Sá 18 March 2014 (has links)
Made available in DSpace on 2015-03-04T18:57:58Z (GMT). No. of bitstreams: 1 dissertacao_caio_godinho_2014.pdf: 2200918 bytes, checksum: aa8817dd5a147c8a2d55413e1a796132 (MD5) Previous issue date: 2014-03-18 / Mycoplasma hyopneumoniae 7448 e uma bactéria patogênica e parasita obrigatória do trato respiratório de suínos. A compreensão de seus mecanismos de regulação gênica é ainda incompleta e incapaz de explicar a dinâmica observada na expressão de seus genes. Diversos elementos podem exercer funções regulatórias da expressão gênica em bactérias, dentre eles os ncRNAs. Este trabalho reporta a identificação e classificaçãao de 48 regiões no genoma de M. hyopneumoniae 7448 suscetíveis a abrigarem novos genes de ncRNA. Para isso foram utilizadas técnicas de modelagem estocástica e diversas outras ferramentas computacionais. Duas importantes ferramentas foram desenvolvidas no decorrer desta dissertação, sendo uma para a inferência de conservação evolutiva em regiões intergênicas e a outra { denominada FraPS { uma melhoria na delimitação genômica dos candidatos a ncRNA. Os resultados corroboram com a hipótese da existência de ncRNAs como elementos reguladores da expressão gênica na bactéria estudada, exercendo papeis fundamentais na sobrevivência e patogenicidade da mesma. Genes de adesinas, lipoproteínas, e do complexo de transporte ABC foram encontrados entre os possíveis genes-alvo a regulação via ncRNA, resultado que auxilia o planejamento de experimentos moleculares para o estudo da regulação por ncRNAs em micoplasmas.
220

Transcritoma da resposta de Klebsiella pneumoniae à polimixina B e abordagem computacional para priorização de alvos moleculares / Transcriptome of the klebsiella pneumoniae response to polymyxin b and computational approach to the priorization of molecular targets

Ramos, Pablo Ivan Pereira 30 June 2016 (has links)
Submitted by Maria Cristina (library@lncc.br) on 2017-05-04T13:17:54Z No. of bitstreams: 1 Tese - LNCC - Pablo Ivan Pereira Ramos.pdf: 25881844 bytes, checksum: 3737e5c6b0b1a08ca20ed86f209a96d7 (MD5) / Approved for entry into archive by Maria Cristina (library@lncc.br) on 2017-05-04T13:18:05Z (GMT) No. of bitstreams: 1 Tese - LNCC - Pablo Ivan Pereira Ramos.pdf: 25881844 bytes, checksum: 3737e5c6b0b1a08ca20ed86f209a96d7 (MD5) / Made available in DSpace on 2017-05-04T13:18:16Z (GMT). No. of bitstreams: 1 Tese - LNCC - Pablo Ivan Pereira Ramos.pdf: 25881844 bytes, checksum: 3737e5c6b0b1a08ca20ed86f209a96d7 (MD5) Previous issue date: 2016-06-30 / Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) / The emergence of clinically important bacteria presenting a wide spectrum of antibiotic resistance represents a global concern. Although bacterial resistance was reported in the literature from the beggining of antibiotic use, early in the 20th century, we currently face the threat of pan-resistance, pathogens that can escape the action of all currently available antibiotic classes. A better understanding of virulence and resistance mechanisms, as well as new therapeutic options, are of paramount importance. This thesis proposal is based on the study of Klebsiella pneumoniae Kp13, a clinical isolate obtained in 2009 during a clonal outbreak in South Brazil which had its complete genome determined by our group. This strain is multidrug resistant and presents high-level resistance against polymyxin B (MIC 32 mg L􀀀1), a \last resort" drug for the treatment of Gram-negative multidrug-resistant bacteria. Using techniques from bioinformatics, transcriptomics (RNA-seq), systems biology and molecular modeling, we sought to better understand the gene expression response in K. pneumoniae in face of changes in abiotic characteristics and polymyxin B exposure. How these factors influence the metabolic repertoire of K. pneumoniae was also object of research. We also aimed to delineate a computational strategy for priorization of metabolic pathways that could serve as new targets for therapeuticals, by integrating expression, metabolic and structural reconstruction data. In parallel, this strategy was also applied to the study of Mycobacterium tubercluosis H37Rv (Mtb), the best characterized strain of this bacteria. E orts were made to study the metabolic complement of this pathogen, identifying important pathways related to its growth and correlating to molecular targets from a structural standview. The transcriptomic analyses allowed the identi cation of novel intracellular targets (such as ArcA-ArcB) that go beyond the \classic" e ect of polymyxin B mode of action, based in membrane interaction, besides drug-induced metabolic modulation which may lead to fermentative pathways of growth. The computational strategy for whole-genome target priorization led to the nding of pathways already known as druggable, such as S-methyl 5'-adenosin, as well as pathways not previously classi ed as druggable, but which could serve as candidates for future development of therapeutical compounds. / A emergência de isolados clínicos bacterianos apresentando resistência a uma ampla gama de medicamentos antibióticos representa uma preocupação global. Embora bactérias resistentes a alguns antibióticos já tenham sido relatadas na literatura médica desde o princípio do uso destas substâncias, no início do século XX, atualmente enfrentamos bactérias ditas panresistentes com capacidade de evadir à ação de todas as classes de drogas hoje disponíveis. O melhor entendimento dos mecanismos de resistência e virulência, bem como o delineamento de novas estratégias para o desenvolvimento de opções terapêuticas alternativas torna-se, portanto, imperativo. A presente proposta de tese de doutoramento tem como objeto de estudo central a bactéria Klebsiella pneumoniae Kp13, isolada no Sul do Brasil em 2009 na ocasião de um surto clonal e cujo genoma foi completamente determinado por nosso grupo. Esta cepa possui resistência multi-droga incluindo polimixina B (MIC > 32 mg L􀀀1), antibiótico considerado de último recurso no tratamento de patógenos Gram-negativos multi-resistentes. Utilizando técnicas de bioinformática, transcritômica (RNA-seq), biologia de sistemas e modelagem molecular, busca-se maior entendimento da resposta da ativação/desativação gênica de K. pneumonia frente a variações do meio e a exposição à polimixina B e como estes infuenciam no repertório metabólico exibido por esta bactéria. Ademais, objetiva-se delinear uma estratégia computacional para priorização de vias metabólicas servir como novos alvos terapêuticos para o controle deste importante patógeno, utilizando uma estratégia que integra os dados de expressão, metabólicos e da reconstrução estrutural. Em paralelo, esta estratégia foi também aplicada ao estudo de Mycobacterium tuberculosis H37Rv (Mtb), a cepa mais bem caracterizada desta bactéria. Foi dado um foco no complemento metabólico de Mtb, realizando a reconstrução de vias metabólicas importantes ao seu crescimento, correlacionando-as com alvos proteicos do ponto de vista estrutural. A análise transcritômica permitiu identificar possíveis alvos intracelulares que vão além do efeito “clássico" de ação da polimixina, baseado em interação com a membrana externa, tais como o sistema ArcA-ArcB, al_em de modulação metabólica induzida pelo fármaco, levando ao crescimento fermentativo da bactéria. A priorização de alvos moleculares permitiu identificar vias reconhecidamente drogáveis, tais como o metabolismo de S-metil 5'-adenosina, além de vias anteriormente não identificadas como drogáveis, mas que poderiam servir como candidatos para o desenvolvimento de novos fármacos.

Page generated in 0.0449 seconds