Spelling suggestions: "subject:"De nova prediction""
1 |
Calcul efficace de la structure des protéines à partir de contacts évolutifs / Efficient modeling of proteins structure from evolutionary contactsAllain, Fabrice 30 November 2017 (has links)
Les méthodes de prédiction structurale constituent une alternative relativement efficace aux approches expérimentales pour donner un premier aperçu du repliement natif d'une protéine. L'écart entre le nombre de structures et de séquences protéiques disponibles dans les bases de données ne cesse en effet de croître depuis l'arrivée des technologies de séquençage à haut débit. Cette forte croissance des informations génomiques a remis à l'ordre du jour des techniques modélisant les données capturées au cours de l'évolution. La conservation d'une fonction protéique impose de fortes contraintes sur les contacts impliqués dans le repliement et la fonction se traduisant par une trajectoire évolutive commune. Une fois détectées, ces interactions peuvent aider à modéliser la conformation d'une protéine. Les méthodes résolvant la structure tridimensionnelle des protéines à partir des données évolutives présentent encore plusieurs limitations notamment pour la détection des contacts faux positifs. Ces problèmes restent similaires à ceux rencontrés en détermination de structure par spectrométrie de Résonnance Magnétique Nucléaire où l'intégration des données est un processus clairement établit et en grande partie automatisé. Le logiciel ARIA (Ambiguous Restraints for Iterative Assignment) utilise le concept de contraintes de distances ambiguës et suit un processus itératif afin d'attribuer et d'affiner la liste des noyaux proches dans l'espace pour calculer un ensemble de modèles structuraux en accord avec les données. Ce travail a pour objectif d'adapter cette approche pour prédire de novo la structure d'une protéine en utilisant l'information évolutive. / Structural prediction methods provide a relatively effective alternative to experimental approaches to provide a first insight into native folding of a protein. The gap between the number of structures and protein sequences available in databases has steadily increased since the advent of high throughput sequencing technologies. This strong growth of genomic information helped bring to light prediction tools using coevolutionary data. Conservation of a specific function implies strong restraints on interacting residues involved in the folding and function. Once detected, these interactions can help to model the conformation of a protein. Some important aspects needs to be improved during the modelling process including the detection of false positive among the predicted contacts. Limitations in the field are similar to those encountered in nuclear magnetic resonance spectrometry structure determination where data integration is a clearly established and largely automated process. The Ambiguous Restraints for Iterative Assignment (ARIA) software uses the concept of ambiguous distance restraints and follows an iterative process to assign and refine the list of nearby nuclei in space to compute a set of structural models in accordance with the data. This work aims to adapt this approach to de novo predict the structure of a protein using evolutionary information.
|
2 |
Transcriptoma, sítios de ligação para fatores de transcrição e região promotora de cana-de-açúcar / Transcriptome, transcription factors binding sites, and sugarcane promoter regionOliveira, Mauro de Medeiros 26 September 2018 (has links)
O Brasil tem a maior produção de cana-de-açúcar do mundo. O cultivo de cana-de-açúcar no Brasil está voltado principalmente para a produção de açúcar ou Etanol e nos últimos anos para a produção de bioeletricidade através da utilização da biomassa do bagaço e da palha. Apesar da importância econômica e do potencial sustentável que a cana-de-açúcar apresenta, o genoma de referência para esta cultura ainda não está disponível na literatura. A principal justificativa para isso está na complexidade do mesmo, em especial pela alopoliploidia e autopoliploidia. De fato esta característica é a principal barreira para o desenvolvimento de novas variedades comerciais. Na literatura há diferentes estratégias que visam contribuir com o conhecimento genômico de cana-de-açúcar sendo mais prevalente dados de transcriptoma e pouca informação sobre o processo de regulação gênica. Além disso, diferente do que é observado em outras culturas comerciais, em cana-de-açúcar não há trabalhos associados com a caracterização in silico da região Promotora, assim como na identificação de sítios de ligação para Fatores de Transcrição (TFBSs). Por esta razão, o nosso trabalho foi direcionado para a caracterização in silico de regiões regulatórias em cana-de-açúcar. Para esta tarefa nós realizamos apenas a rotulação de sequências de DNA não codificante que estavam a upstream de cada gene anotado em cana-de-açúcar. Todos os genes foram selecionados de dados de transcriptoma e a sequência de DNA da região Promotora foi isolada do Genespace de cana-de-açúcar SP80-3280 gerado pelo projeto de sequenciamento do genoma de referência do nosso grupo. A rotulação da região regulatória em cana-de-açúcar foi executada em duas subsequências: Core Promoter e Promotor Proximal. Na região Core Promoter nós realizamos a identificação do sítio de inicio de transcrição (TSS), a estimativa do tamanho da região 5\' UTR e a classificação da região Core Promoter em TATA-box ou TATA-less. Todos os processos foram realizados através da ferramenta TSSPlant. A utilização da ferramenta TSSPlant motivou o desenvolvimento de uma nova ferramenta para predição do sinal de TSS que aqui chamamos de TSSFinder. A ferramenta TSSinder apresentou resultados de predição do sinal de TSS superior aos seus pares, além disso esta ferramenta foi bem sucedida em diferentes organismos como Arabidopsis thaliana, Gallus gallus e Saccharomyces cerevisiae. Na região Promotora Proximal nós realizamos a identificação de TFBSs através de duas metodologias: predição de novo e mapeamento de matrizes de TFBS (PSSM). O processo de predição de novo foi realizada por meio de dois modelos: Maximização da expectativa e Gibbs Sampler e esse processo foi executado apenas para o subgrupo de genes co-expressos ou apenas para o conjunto de sequências homeólogas de cada gene de cana-de-açúcar selecionado. Para o restante das sequências foi realizado apenas o mapeamento das matrizes de TFBSs identificadas durante o processo de predição de novo. Em paralelo todos TFBSs identificados no nosso trabalho foram comparados com o banco de TFBS para plantas. Através desse procedimento foi possível estimar qual classe de Fator de Transcrição está interagindo com o TFBS identificado na região Promotora Proximal dos genes Scdr1, ScSuSy, ScPAL. Com este trabalho, nós cobrimos parte da lacuna observada em estudos in silico paras regiões regulatórias de cana-de-açúcar. Além disso, nós aperfeiçoamos o processo de identificação do sinal de TSS para diferentes organismos; inclusive para plantas Dicotiledôneas e Monocotiledôneas. / Brazil has the highest production of sugarcane in the world. Its cultivation in Brazil is aimed at producing of sugar or ethanol and in recent years, biomass for bioenergy from bagasse and straw. Despite the economic importance and the sustainable potential that sugarcane presents, a reference genome for this crop is not yet available in the literature. One justification for this absence lies in the sugarcane genome complexity, allopolyploidy and autopolyploidy. In fact these characteristics are the main barrier for the development of new commercial varieties. In the literature different strategies aimed at contributing to genomic sugarcane mostly on the transcriptome and little information on the process of gene regulation. Furthermore, unlike other commercial crops, sugarcane has no reported in silico characterization of its promoter regions and identification of Transcription Factor binding sites. For this reason, our work was directed to an in silico characterization of regulatory regions in sugarcane. For this task we performed the labeling of non-coding DNA sequences that were upstream of each gene annotated in sugarcane. All genes were using from transcriptome data and the promoter region DNA sequence was isolated from Genespace of the SP80-3280 reference genome obtained of our group. The labeling of the regulatory region in sugarcane was carried out in two subsections: Core Promoter and Proximal Promoter. In the Core Promoter region we performed the identification of the TSS signal, the estimation of the size of the 5\' UTR region and the classification of the Core Promoter region in TATA-box or TATA-less. All processes were performed using the TSSPlant tool. The use of the TSSPlant tool motivated the development of a new tool to predict the TSS signal that we call TSSFinder. The TSSinder tool presented TSS signal prediction results superior to its peers, moreover this tool was successful in different organisms - Arabidopsis thaliana, Gallus gallus and Saccharomyces cerevisiae. In the Proximal Promoter region we performed the identification of TFBSs through two methodologies: de novo prediction and mapping of TFBS matrices (PSSM). The de novo prediction process was performed using two models: Expectancy Maximization and Gibbs Sampler and this process was performed only for subgroups of coexpressed genes or only for the set of homeologues sequences from each sugarcane gene. For the rest of the sequences only the mapping of the matrices of TFBSs identified during the de novo prediction process was conducted. In parallel all TFBSs identified in our work were compared with the TFBS database for plants. Through this procedure it was estimated which class of Transcription Factor is interacting with the TFBS identified in the Proximal Promoter region of the Scdr1, ScSuSy, ScPAL genes.With this work, we cover part of the gap observed in in silico studies for the regulatory region of sugarcane. In addition, we improved the process of identification the TSS signal for different organisms including dicotyledonous and monocotyledonous plants.
|
Page generated in 0.1142 seconds