Global ETD Search

1	Développement et application d'un outil bio-informatique pour cartographier la machinerie de l'ARN polymérase I chez les mammifères Sabourin-Félix, Marianne 23 May 2024 (has links) L’immunoprécipitation de la chromatine suivie du séquençage haut débit (ChIP-seq) est une technique permettant de visualiser les interactions entre l’ADN et les protéines. Toutefois, en pratique, la résolution de cette technique laisse à désirer. En étudiant les gènes de l’ARN ribosomique (ADNr), nous avons observé que le facteur majeur limitant la résolution découle du recouvrement inégal des séquences de chaque locus. Cette inégalité est superposée à la distribution réelle de la séquence d’ADN immunoprécipitée entrainant un profil de liaison protéique aberrant. Un logiciel de déconvolution a été développé afin de corriger la couverture inégale des données ChIP-seq en les normalisant par rapport aux données de l’input (Whole Cell Extract). Lorsqu’appliqué sur les données de l’ADNr, cet outil s’est avéré très utile en fournissant un profil de liaison détaillé de la chromatine et des facteurs de transcription le long de ce gène. D’autre part, des études de localisation des sites d’interactions protéiques d’UBF, un facteur de transcription associé à l’ADNr, à la grandeur du génome couplé à des expériences de DNase-seq et de microarray ont permis de mettre en lumière les rôles potentiels d’UBF dans les régions non ribosomiques. En conclusion, nous avons développé un outil permettant la normalisation par déconvolution de données de séquençage haut-débit qui permet d’augmenter la résolution du profil de liaison protéique sur l’ADNr en plus d’identifier les rôles potentiels d’UBF à l’échelle du génome. / Chromatin immunoprecipitation followed by massively parallel sequencing (ChIP-seq) is a technique that allows to visualize interactions between DNA and proteins. However in practice, the resolution of this technique leaves much to be desired. During our studies of the ribosomal RNA genes (rDNA), we observed that one major factor limiting resolution results from the unequal recovery of sequence data across any given locus. This inequality is superimposed on the actual distribution of immunoprecipitated DNA sequences resulting in aberrant protein binding profiles. A software was developed to correct the unequal coverage of ChIP-seq data by normalizing to the input (Whole Cell Extract) with a deconvolution protocol. When applied on the rDNA, this approach has been especially useful in providing a detailed map of chromatin and transcription factor distribution across the gene. On the other hand, genome-wide localization of protein interaction sites for UBF, a transcription factor associated to rDNA, coupled with DNase-seq and microarray experiments shed light on the potential roles of UBF in non-ribosomal regions. In conclusion, we developed a tool allowing the normalization by deconvolution of high-throughput sequencing data that allows to increase the resolution of protein binding profiles on the rDNA. In addition we identified the potential roles of UBF at genome scale. ARN polymérases. Bio-informatique structurale. Mammifères -- Génétique.
2	Développement d'un pipeline bio-informatique de caractérisation de la variation génétique structurale et ponctuelle en contexte de génomique des populations : application au saumon atlantique du bassin de la rivière Romaine Lecomte, Laurie 25 March 2024 (has links) Titre de l'écran-titre (visionné le 30 octobre 2023) / Les variations structurales (SV) sont maintenant reconnues comme la principale source de polymorphisme génétique intraspécifique et peuvent contribuer aux processus évolutifs chez plusieurs organismes. Elles demeurent toutefois peu documentées en contexte de génomique des populations sauvages, en raison des nombreuses difficultés que comportent leur détection et leur génotypage. Le saumon atlantique (Salmo salar), qui montre une importante variabilité interpopulationnelle dans ses traits d'histoire de vie et son habitat, représente une espèce idéale pour étudier les SV d'importance adaptative. Dans ce contexte, nous avons développé un pipeline bio-informatique permettant de caractériser et d'analyser l'ensemble de la variation génétique à une échelle populationnelle, soit les SV, les polymorphismes nucléotidiques simples (SNP) et les indels courts. Ce pipeline repose, entre autres, sur la combinaison de données de séquençage en lectures courtes et en lectures longues et sur l'intégration des graphes pangénomiques. À l'aide de ce pipeline, nous avons catalogué 115,907 SV, 8,777,832 SNP et 1,089,321 indels courts dans les génomes de 60 saumons des rivières Romaine et Puyjalon (Côte-Nord, Québec), deux populations présumément adaptées localement dont les individus diffèrent fortement dans leurs traits d'histoire de vie, incluant l'âge de la maturité sexuelle et le taux de croissance. L'analyse comparative des trois formes de polymorphisme a révélé une excellente concordance entre elles quant à la structure de population et à l'ampleur de la différenciation génétique entre les saumons des deux populations. De plus, plusieurs variants présentant la signature moléculaire de sélection naturelle touchent à des gènes impliqués dans la fonction du système nerveux : ces variants pourraient donc indirectement contribuer à la variation phénotypique observée chez les populations à l'étude, et ainsi avoir un rôle dans leur adaptation locale. Ce travail démontre la faisabilité de l'étude populationnelle des SV et témoigne de sa pertinence pour la génomique des populations des salmonidés. / Structural variants (SVs) are now recognized as the main component of intraspecific genetic polymorphism and can contribute to evolutionary processes in various organisms. However, they are inherently difficult to detect and genotype and therefore remain poorly documented in wild populations. Atlantic salmon (Salmo salar), which displays strong interpopulation variability in life history traits and habitat, offers a prime context for studying adaptive SVs. Here, we developed a population-scale variant characterization and analysis pipeline targeting SVs, single nucleotide polymorphisms (SNPs) and short indels. This pipeline mainly relies on the combination of both short- and long-read sequencing and on the integration of pangenome graphs. Using this pipeline, we catalogued 115,907 SVs, 8,777,832 SNPs and 1,089,321 short indels in the genomes of 60 salmon from the Romaine and Puyjalon rivers (Côte-Nord, Québec), two putatively locally adapted populations exhibiting pronounced variation in life history traits, namely age at maturity and growth rate. Comparative analysis of the three types of polymorphism revealed a highly consistent population structure and genetic differentiation between both populations. In addition, numerous variants bearing molecular signatures of natural selection were located nearby genes involved in nervous system function: these variants might thus indirectly contribute to the observed phenotypic variation in the Romaine and Puyjalon populations, especially in age at smoltification, and could therefore play a role in their local adaptation. This research demonstrates the feasibility of population-scale study of SVs and highlights its relevance for population genomics of salmonids. Bio-informatique structurale. Variabilité génétique. Polymorphisme de nucléotide simple. Saumon atlantique -- Génétique. Saumon atlantique
3	Modélisation bio-informatique du mécanisme d'action d'inhibiteurs de la voie de biosynthèse du peptidoglycane Godzaridis, Élénie 18 April 2018 (has links) La résistance développée par les bactéries aux antibiotiques est un problème d'échelle mondiale qui a récemment attiré beaucoup d'intérêt. En effet, particulièrement chez les bactéries à Gram-négatif, on constate une depletion rapide de la quantité d'antibiotiques efficaces. De nos jours, les programmes de recherche de nouveaux antibiotiques commencent souvent par le criblage de cibles cellulaires. Les enzymes Mur, impliquées dans la biosynthèse de la paroi, sont uniques aux cellules bactériennes et nécessaires à leur survie. Le présent mémoire décrit l'utilisation des méthodes de bio-informatique structurale pour mettre en lumière un possible mécanisme d'action pour deux inhibiteurs des Mur ligases précédemment découverts : MurDpl etMurFpl. De plus, les recherches ici présentées ont permis de découvrir une grande similarité entre MurDpl et une famille de peptides antimicrobiens naturels, les tigerinines. Leur capacité à pénétrer les cellules bactériennes et la difficulté pour les bactéries de développer une résistance aux peptides antimicrobiens en général en font des composés de départ prometteurs. Nous suggérons que MurD pourrait être une cible intracellulaire des tigerinines et proposons un mécanisme d'action. De plus, par des moyens informatiques, nous évaluons les possibilités de raffiner MurDpl, MurFpl et les tigerinines de façon à augmenter leur activité. Peptidoglycanes Bactéries -- Paroi cellulaire Bio-informatique structurale Peptide synthétases
4	Etude bioinformatique de l'évolution de la régulation transcriptionnelle chez les bactéries / Bioinformatic study of the evolution of the transcriptional regulation in bacteria Janky, Rekin's 17 December 2007 (has links) L'objet de cette thèse de bioinformatique est de mieux comprendre l’ensemble des systèmes de régulation génique chez les bactéries. La disponibilité de centaines de génomes complets chez les bactéries ouvre la voie aux approches de génomique comparative et donc à l’étude de l’évolution des réseaux transcriptionnels bactériens. Dans un premier temps, nous avons implémenté et validé plusieurs méthodes de prédiction d’opérons sur base des génomes bactériens séquencés. Suite à cette étude, nous avons décidé d’utiliser un algorithme qui se base simplement sur un seuil sur la distance intergénique, à savoir la distance en paires de bases entre deux gènes adjacents. Notre évaluation sur base d’opérons annotés chez Escherichia coli et Bacillus subtilis nous permet de définir un seuil optimal de 55pb pour lequel nous obtenons respectivement 78 et 79% de précision. Deuxièmement, l’identification des motifs de régulation transcriptionnelle, tels les sites de liaison des facteurs de transcription, donne des indications de l’organisation de la régulation. Nous avons développé une méthode de recherche d’empreintes phylogénétiques qui consiste à découvrir des paires de mots espacés (dyades) statistiquement sur-représentées en amont de gènes orthologues bactériens. Notre méthode est particulièrement adaptée à la recherche de motifs chez les bactéries puisqu’elle profite d’une part des centaines de génomes bactériens séquencés et d’autre part les facteurs de transcription bactériens présentent des domaines Hélice-Tour-Hélice qui reconnaissent spécifiquement des dyades. Une évaluation systématique sur 368 gènes de E.coli a permis d’évaluer les performances de notre méthode et de tester l’influence de plus de 40 combinaisons de paramètres concernant le niveau taxonomique, l’inférence d’opérons, le filtrage des dyades spécifiques de E.coli, le choix des modèles de fond pour le calcul du score de significativité, et enfin un seuil sur ce score. L’analyse détaillée pour un cas d’étude, l’autorégulation du facteur de transcription LexA, a montré que notre approche permet d’étudier l’évolution des sites d’auto-régulation dans plusieurs branches taxonomiques des bactéries. Nous avons ensuite appliqué la détection d’empreintes phylogénétiques à chaque gène de E.coli, et utilisé les motifs détectés comme significatifs afin de prédire les gènes co-régulés. Au centre de cette dernière stratégie, est définie une matrice de scores de significativité pour chaque mot détecté par gène chez l’organisme de référence. Plusieurs métriques ont été définies pour la comparaison de paires de profils de scores de sorte que des paires de gènes ayant des motifs détectés significativement en commun peuvent être regroupées. Ainsi, l’ensemble des nos méthodes nous permet de reconstruire des réseaux de co-régulation uniquement à partir de séquences génomiques, et nous ouvre la voie à l’étude de l’organisation et de l’évolution de la régulation transcriptionnelle pour des génomes dont on ne connaît rien.<p><p>The purpose of my thesis is to study the evolution of regulation within bacterial genomes by using a cross-genomic comparative approach. Nowadays, numerous genomes have been sequenced facilitating in silico analysis in order to detect groups of functionally related genes and to predict the mechanism of their relative regulation. In this project, we combined prediction of operons and regulons in order to reconstruct the transcriptional regulatory network for a bacterial genome. We have implemented three methods in order to predict operons from a bacterial genome and evaluated them on hundreds of annotated operons of Escherichia coli and Bacillus subtilis. It turns out that a simple distance-based threshold method gives good results with about 80% of accuracy. The principle of this method is to classify pairs of adjacent genes as “within operon” or “transcription unit border”, respectively, by using a threshold on their intergenic distance: two adjacent genes are predicted to be within an operon if their intergenic distance is smaller than 55bp. In the second part of my thesis, I evaluated the performances of a phylogenetic footprinting approach based on the detection of over-represented spaced motifs. This method is particularly suitable for (but not restricted to) Bacteria, since such motifs are typically bound by factors containing a Helix-Turn-Helix domain. We evaluated footprint discovery in 368 E.coli K12 genes with annotated sites, under 40 different combinations of parameters (taxonomical level, background model, organism-specific filtering, operon inference, significance threshold). Motifs are assessed both at the level of correctness and significance. The footprint discovery method proposed here shows excellent results with E. coli and can readily be extended to predict cis-acting regulatory signals and propose testable hypotheses in bacterial genomes for which nothing is known about regulation. Moreover, the predictive power of the strategy, and its capability to track the evolutionary divergence of cis-regulatory motifs was illustrated with the example of LexA auto-regulation, for which our predictions are remarkably consistent with the binding sites characterized in different taxonomical groups. A next challenge was to identify groups of co-regulated genes (regulons), by regrouping genes with similar motifs, in order to address the challenging domain of the evolution of transcriptional regulatory networks. We tested different metrics to detect putative pairs of co-regulated genes. The comparison between predicted and annotated co-regulation networks shows a high positive predictive value, since a good fraction of the predicted associations correspond to annotated co-regulations, and a low sensitivity, which may be due to the consequence of highly connected transcription factors (global regulator). A regulon-per-regulon analysis indeed shows that the sensitivity is very weak for these transcription factors, but can be quite good for specific transcription factors. The originality of this global strategy is to be able to infer a potential network from the sole analysis of genome sequences, and without any prior knowledge about the regulation in the considered organism. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Sciences exactes et naturelles Biologie Structural bioinformatics Bacterial genetics Microbial metabolism -- Regulation Microbial genomics Bio-informatique structurale Génétique bactérienne Génomique microbienne dyad-analysis Evaluation coregulation network lexA operon prediction pattern-discovery Bacteria Phylogenetic footprinting RSAT
5	Étude de l’assemblage, de la mécanique et de la dynamique des complexes ADN-protéine impliquant le développement d’un modèle « gros grains » / Study assembly, mecanism and dynamic of protein-DNA complexes with coarse-grained model Éthève, Loic 01 December 2016 (has links) Les interactions ADN-protéine sont fondamentales dans de nombreux processus biologiques tels que la régulation des gènes et la réparation de l'ADN. Cette thèse est centrée sur l'analyse des propriétés physiques et dynamiques des interfaces ADN-protéine. À partir de l'étude de quatre complexes ADN-protéine, nous avons montré que l'interface ADN-protéine est dynamique et que les ponts salins et liaisons hydrogène se forment et se rompent dans une échelle de temps de l'ordre de la centaine de picosecondes. L'oscillation des chaînes latérales des résidus est dans certains cas capable de moduler la spécificité d'interaction. Nous avons ensuite développé un modèle de protéine gros grains dans le but de décomposer les interactions ADN-protéine en identifiant les facteurs qui modulent la stabilité et la conformation de l'ADN ainsi que les facteurs responsables de la spécificité de reconnaissance ADN-protéine. Notre modèle est adaptable, allant d'un simple volume mimant une protéine à une représentation plus complexe comportant des charges formelles sur les résidus polaires, ou des chaînes latérales à l'échelle atomique dans le cas de résidus clés ayant des comportements particuliers, tels que les cycles aromatiques qui s'intercalent entre les paires de base de l'acide nucléique / DNA-protein interactions are fundamental in many biological processes such as gene regulation and DNA repair. This thesis is focused on an analysis of the physical and dynamic properties of DNA-protein interfaces. In a study of four DNA-protein complexes, we have shown that DNA-protein interfaces are dynamic and that the salt bridges and hydrogen bonds break and reform over a time scale of hundreds of picoseconds. In certain cases, this oscillation of protein side chains is able to modulate interaction specificity. We have also developed a coarse-grain model of proteins in order to deconvolute the nature of protein-DNA interactions, identifying factors that modulate the stability and conformation of DNA and factors responsible for the protein-DNA recognition specificity. The design of our model can be changed from a simple volume mimicking the protein to a more complicated representation by the addition of formal charges on polar residues, or by adding atomic-scale side chains in the case of key residues with more precise behaviors, such as aromatic rings that intercalate between DNA base pairs Bio-informatique structurale Interactions ADN-protéine Sélectivité de séquence Lecture directe Lecture indirecte Dynamique moléculaire Enfilage moléculaire Facteurs de transcription Structural bioinformatics DNA-protein interactions Sequence selectivity Direct readout Indirect readout Molecular dynamics Threading Transcription factors 570.15
6	Critical assessment of predicted interactions at atomic resolution Mendez Giraldez, Raul 21 September 2007 (has links) Molecular Biology has allowed the characterization and manipulation of the molecules of life in the wet lab. Also the structures of those macromolecules are being continuously elucidated. During the last decades of the past century, there was an increasing interest to study how the different genes are organized into different organisms (‘genomes’) and how those genes are expressed into proteins to achieve their functions. Currently the sequences for many genes over several genomes have been determined. In parallel, the efforts to have the structure of the proteins coded by those genes go on. However it is experimentally much harder to obtain the structure of a protein, rather than just its sequence. For this reason, the number of protein structures available in databases is an order of magnitude or so lower than protein sequences. Furthermore, in order to understand how living organisms work at molecular level we need the information about the interaction of those proteins. Elucidating the structure of protein macromolecular assemblies is still more difficult. To that end, the use of computers to predict the structure of these complexes has gained interest over the last decades.<p>The main subject of this thesis is the evaluation of current available computational methods to predict protein – protein interactions and build an atomic model of the complex. The core of the thesis is the evaluation protocol I have developed at Service de Conformation des Macromolécules Biologiques et de Bioinformatique, Université Libre de Bruxelles, and its computer implementation. This method has been massively used to evaluate the results on blind protein – protein interaction prediction in the context of the world-wide experiment CAPRI, which have been thoroughly reviewed in several publications [1-3]. In this experiment the structure of a protein complex (‘the target’) had to be modeled starting from the coordinates of the isolated molecules, prior to the release of the structure of the complex (this is commonly referred as ‘docking’).<p>The assessment protocol let us compute some parameters to rank docking models according to their quality, into 3 main categories: ‘Highly Accurate’, ‘Medium Accurate’, ‘Acceptable’ and ‘Incorrect’. The efficiency of our evaluation and ranking is clearly shown, even for borderline cases between categories. The correlation of the ranking parameters is analyzed further. In the same section where the evaluation protocol is presented, the ranking participants give to their predictions is also studied, since often, good solutions are not easily recognized among the pool of computer generated decoys.<p>An overview of the CAPRI results made per target structure and per participant regarding the computational method they used and the difficulty of the complex. Also in CAPRI there is a new ongoing experiment about scoring previously and anonymously generated models by other participants (the ‘Scoring’ experiment). Its promising results are also analyzed, in respect of the original CAPRI experiment. The Scoring experiment was a step towards the use of combine methods to predict the structure of protein – protein complexes. We discuss here its possible application to predict the structure of protein complexes, from a clustering study on the different results.<p>In the last chapter of the thesis, I present the preliminary results of an ongoing study on the conformational changes in protein structures upon complexation, as those rearrangements pose serious limitations to current computational methods predicting the structure protein complexes. Protein structures are classified according to the magnitude of its conformational re-arrangement and the involvement of interfaces and particular secondary structure elements is discussed. At the end of the chapter, some guidelines and future work is proposed to complete the survey. / Doctorat en Sciences / info:eu-repo/semantics/nonPublished Sciences exactes et naturelles Chimie Structural bioinformatics Molecular structure Proteins -- Conformation Proteins -- Structure Amino acids Bio-informatique structurale Structure moléculaire Protéines -- Conformation Protéines -- Structure Acides aminés protein - protein complex protein - protein interaction root mean square deviation docking solvent accessible area conformational change rmsd

1

Page generated in 0.0979 seconds