91 |
Genome-scale Metabolic Network Reconstruction and Constraint-based Flux Balance Analysis of Toxoplasma gondiiSong, Carl Yulun 27 November 2012 (has links)
The increasing prevalence of apicomplexan parasites such as Plasmodium, Toxoplasma, and Cryptosporidium represents a significant global healthcare burden. Treatment options are increasingly limited due to the emergence of new resistant strains. We postulate that parasites have evolved distinct metabolic strategies critical for growth and survival during human infections, and therefore susceptible to drug targeting using a systematic approach. I developed iCS306, a fully characterized metabolic network reconstruction of the model organism Toxoplasma gondii via extensive curation of available genomic and biochemical data. Using available microarray data, metabolic constraints for six different clinical strains of Toxoplasma were modeled. I conducted various in silico experiments using flux balance analysis in order to identify essential metabolic processes, and to illustrate the differences in metabolic behaviour across Toxoplasma strains. The results elucidate probable explanations for the underlying mechanisms which account for the similarities and differences among strains of Toxoplasma, and among species of Apicomplexa.
|
92 |
Traitement des données scRNA-seq issues de la technologie Drop-Seq : application à l’étude des réseaux transcriptionnels dans le cancer du seinDavid, Marjolaine 01 1900 (has links)
Les technologies récentes de séquençage de l’ARN de cellules uniques (scRNA-seq, pour single cell
RNA-seq) ont permis de quantifier le niveau d’expression des gènes au niveau de la cellules, alors que les
technologies standards de séquençage de l’ARN (RNA-seq, ou bulk RNA-seq) ne permettaient de
quantifier que l’expression moyenne des gènes dans un échantillon de cellules. Cette résolution supérieure
a permis des avancées majeures dans le domaine de la recherche biomédicale, mais a également posé de
nouveaux défis, notamment computationnels.
Les données qui découlent des technologies de scRNA-seq sont en effet complexes et plus bruitées
que les données de bulk RNA-seq. En outre, les technologies sont nombreuses et leur nombre explose,
nécessitant chacune un prétraitement plus ou moins différent. De plus en plus de méthodes sont ainsi
développées, mais il n’existe pas encore de norme établie (gold standard) pour le prétraitement et l’analyse
de ces données.
Le laboratoire du Dr. Mader a récemment fait l’acquisition de la technologie Drop-Seq (une
technologie haut débit de scRNA-seq), nécessitant une expertise nouvelle pour le traitement des données
qui en découlent. Dans ce mémoire, différentes étapes du prétraitement des données issues de la
technologie Drop-Seq sont donc passées en revue et le fonctionnement de certains outils dédiés à cet effet
est étudié, permettant d’établir des lignes directrices pour de futures expériences au sein du laboratoire du
Dr. Mader.
Cette étude est menée sur les premiers jeux de données générés avec la technologie Drop-Seq du
laboratoire, issus de lignées cellulaires du cancer du sein. Les méthodes d’analyses, moins spécifiques à
la technologie, ne sont pas étudiées dans ce mémoire, mais une analyse exploratoire des jeux de données
du laboratoire pose les bases pour une analyse plus poussée. / Recent single cell RNA sequencing technologies (scRNA-seq) have enabled the quantification of
gene expression levels at the cellular level, while standard RNA sequencing technologies (RNA-seq, or
bulk RNA-seq) have only been able to quantify the average gene expression in a sample of cells. This
higher resolution has allowed major advances in biomedical research, but has also raised new challenges,
in particular computational ones.
The data derived from scRNA-seq technologies are indeed complex and noisier than bulk RNA-seq
data. In addition, the number of scRNA-seq technologies is exploding, each of them requiring a rather
different pre-processing. More and more methods are thus being developed, but there is still no gold
standard for the preprocessing and analysis of these data.
Dr. Mader’s laboratory has recently invested in the Drop-Seq technology (a high-throughput scRNAseq
technology), requiring new expertise for the processing of the resulting data. In this thesis, different
steps for the pre-processing of Drop-Seq data are reviewed and the behavior of some of the dedicated tools
are studied, allowing to establish guidelines for future experiments in Dr. Mader’s laboratory.
This study is conducted on the first data sets generated with the Drop-Seq technology of the
laboratory, derived from breast cancer cell lines. Analytical methods, less specific to the technology, are
not investigated in this thesis, but an exploratory analysis of the lab’s datasets lays the foundation for
further analysis.
|
93 |
Deep learning algorithms for database-driven peptide searchZumer, Jeremie 09 1900 (has links)
Modern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications. / La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead,
2002) - dépend fortement de l’analyse de données expérimentales de série chronologique
complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif
est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré,
fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans
un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le
mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des
acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une
analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité
dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon
la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par
digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des
peptides proprement dit.
Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques
au côté informatique de la recherche sur l’identification des peptides. Nous introduisons
d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à
la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes
basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été
effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de
ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos
connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) ,
qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont
habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués
comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème,
nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue
la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme
de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme
résultant pour démontrer des identifications de peptides constamment améliorées après intégration
dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de
5
spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un
nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons
encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur
que nous proposons démontrent une amélioration de plus de 20% des taux d’identification
de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent
pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique
peuvent en effet largement améliorer les identifications.
|
94 |
Comparaison des méthodes d'analyse de l'expression différentielle basée sur la dépendance des niveaux d'expressionLefebvre, François 03 1900 (has links)
La technologie des microarrays demeure à ce jour un outil important pour la mesure de l'expression génique. Au-delà de la technologie elle-même, l'analyse des données provenant des microarrays constitue un problème statistique complexe, ce qui explique la myriade de méthodes proposées pour le pré-traitement et en particulier, l'analyse de l'expression différentielle. Toutefois, l'absence de données de calibration ou de méthodologie de comparaison appropriée a empêché l'émergence d'un consensus quant aux méthodes d'analyse optimales. En conséquence, la décision de l'analyste de choisir telle méthode plutôt qu'une autre se fera la plupart du temps de façon subjective, en se basant par exemple sur la facilité d'utilisation, l'accès au logiciel ou la popularité. Ce mémoire présente une approche nouvelle au problème de la comparaison des méthodes d'analyse de l'expression différentielle.
Plus de 800 pipelines d'analyse sont appliqués à plus d'une centaine d'expériences sur deux plateformes Affymetrix différentes. La performance de chacun des pipelines est évaluée en calculant le niveau moyen de co-régulation par l'entremise de scores d'enrichissements pour différentes collections de signatures moléculaires. L'approche comparative proposée repose donc sur un ensemble varié de données biologiques pertinentes, ne confond pas la reproductibilité avec l'exactitude et peut facilement être appliquée à de nouvelles méthodes. Parmi les méthodes testées, la supériorité de la sommarisation FARMS et de la statistique de l'expression différentielle TREAT est sans équivoque. De plus, les résultats obtenus quant à la statistique d'expression différentielle corroborent les conclusions d'autres études récentes à propos de l'importance de prendre en compte la grandeur du changement en plus de sa significativité statistique. / Microarrays remain an important tool for the measurement of gene expression, and a myriad of methods for their pre-processing or statistical testing of differential expression has been proposed in the past. However, insufficient and sometimes contradictory evidence has prevented the emergence of a strong consensus over a preferred methodology. This leaves microarray practitioners to somewhat arbitrarily decide which method should be used to analyze their data. Here we present a novel approach to the problem of comparing methods for the identification of differentially expressed genes.
Over eight hundred analytic pipelines were applied to more than a hundred independent microarray experiments. The accuracy of each analytic pipeline was assessed by measuring the average level of co-regulation uncovered across all data sets. This analysis thus relies on a varied set of biologically relevant data, does not confound reproducibility for accuracy and can easily be extended to future analytic pipelines. This procedure identified FARMS summarization and the TREAT gene ordering statistic as algorithms significantly more accurate than other alternatives. Most interestingly, our results corroborate recent findings about the importance of taking the magnitude of change into account along with an assessment of statistical significance.
|
95 |
Prédiction de boucles de régulation associant microARN et gènes régulés par le récepteur de l'acide rétinoïque dans le cancer du seinBoufaden, Asma 06 1900 (has links)
Le récepteur de l'acide rétinoïque RAR est une protéine de la superfamille des récepteurs nucléaires liant le ligand acide rétinoïque (AR). En présence de son ligand, RAR induit la transcription de ses gènes cibles alors qu'en son absence la transcription est inhibée. Le mécanisme de régulation de RAR est altéré dans les lignées cellulaires humaines de carcinome mammaire dû à une baisse de capacité de synthèse de l'AR. Aussi, l'expression des microARN (miR) est perturbée dans le cancer du sein et un grand nombre de gènes ont été identifiés, après une analyse in-silico, comme des cibles prédites des miRs. Ces derniers peuvent être régulés pas des facteurs de transcription et ils sont capables d'inhiber la prolifération cellulaire et d'induire l'apoptose via la régulation de leurs cibles. Ainsi, les miRs peuvent jouer un rôle dans le mécanisme de régulation de RAR et être impliqués dans des boucles de régulation avec ce récepteur.
Dans le cadre de ce travail, nous décrivons une approche développée pour prédire et caractériser des circuits de régulation au niveau transcriptionnel et post-transcriptionnel dans le cancer du sein. Nous nous sommes intéressés aux boucles de régulation de type feed-forward où RAR régule un miR et en commun ils régulent un ensemble de gènes codants pour des protéines dans les cellules tumorales mammaires MCF7 et SKBR3. Ces circuits ont été construits en combinant des données de ChIP-chip de RAR et des données de micro-puces d'ADN tout en utilisant des outils in-silico de prédiction des gènes cibles de miRs. Afin de proposer le modèle approprié de régulation, une analyse in-silico des éléments de réponse de l'AR (RARE) dans les promoteurs des miRs est réalisée. Cette étape permet de prédire si la régulation par RAR est directe ou indirecte. Les boucles ainsi prédites sont filtrées en se basant sur des données d'expression de miR existantes dans des bases de données et dans différentes lignées cellulaires, en vue d'éliminer les faux positifs. De plus, seuls les circuits pertinents sur le plan biologique et trouvés enrichis dans Gene Ontology sont retenus. Nous proposons également d'inférer l'activité des miRs afin d'orienter leur régulation par RAR. L'approche a réussi à identifier des boucles validées expérimentalement. Plusieurs circuits de régulation prédits semblent être impliqués dans divers aspects du développement de l'organisme, de la prolifération et de la différenciation cellulaire. De plus, nous avons pu valider que let-7a peut être induit par l'AR dans les MCF7. / The retinoic acid receptor (RAR) is a type of nuclear receptor that is activated by the ligand retinoic acid (RA). In the presence of ligand, RAR induces the transcription of its targets whereas in the absence of ligand the transcription is blocked. The mechanism of regulation of RAR is altered in breast cancer cell lines due to a reduced capacity to synthesize RA. Also aberrant patterns of microRNA (miR) expression have been reported in human breast cancer and a number of genes involved in breast cancer progression have been identified by in-silico analysis to be targets of miRs. The miRs could be controlled by transcription factors and via the regulation of their mRNA targets, the miRs could promote apoptosis and even inhibit cell proliferation. Hence, the miRs may play a role in the mechanism of regulation of RAR and could be involved in regulatory loops with this receptor.
In this work, we describe an approach developed for the prediction and characterization of mixed transcriptional and post-transcriptional regulatory circuits in breast cancer. We concentrated in particular on feed-forward loops, in which RAR regulates a miR, and together with it, a set of joint target protein coding genes in human breast cancer cell lines MCF7 and SKBR3. These loops are constructed by combining ChIP-chip datasets of RAR with datasets of DNA microarrays and by using miR target prediction tools. In order to predict the appropriate model of regulation, in-silico analysis was performed to look for retinoic acid response element (RARE) in miR promoter. This step could identify if the regulation by RAR is direct or indirect. The regulatory loops will be then filtered, in order to reduce the number of false positive, based on databases designed to represent human miR expression profiles in different tissues or cell types. Moreover, only biologically relevant circuits enriched in Gene Ontology were retained. Also, we propose to infer miR activity in order to detect their regulation by RAR. This approach was able to find some existing experimental data. Several regulatory circuits seem to be involved in various aspects of organism development, proliferation and cell differentiation. Furthermore, we were able to validate the induction of let-7a by RA in MCF7 cells.
|
96 |
Développement d’outils pour l’analyse de données de ChIP-seq et l’identification des facteurs de transcriptionMercier, Eloi 10 1900 (has links)
La méthode ChIP-seq est une technologie combinant la technique de chromatine immunoprecipitation
avec le séquençage haut-débit et permettant l’analyse in vivo des facteurs
de transcription à grande échelle. Le traitement des grandes quantités de données ainsi
générées nécessite des moyens informatiques performants et de nombreux outils ont vu
le jour récemment. Reste cependant que cette multiplication des logiciels réalisant chacun
une étape de l’analyse engendre des problèmes de compatibilité et complique les
analyses. Il existe ainsi un besoin important pour une suite de logiciels performante et
flexible permettant l’identification des motifs. Nous proposons ici un ensemble complet
d’analyse de données ChIP-seq disponible librement dans R et composé de trois modules
PICS, rGADEM et MotIV. A travers l’analyse de quatre jeux de données des facteurs de
transcription CTCF, STAT1, FOXA1 et ER nous avons démontré l’efficacité de notre
ensemble d’analyse et mis en avant les fonctionnalités novatrices de celui-ci, notamment
concernant le traitement des résultats par MotIV conduisant à la découverte de motifs
non détectés par les autres algorithmes. / ChIP-seq is a technology combining the chromatin immunoprecipitation method
with high-throughput sequencing and allowing the analysis of transcription factors in
vivo on a genome wide scale. The treatment of such amount of data generated by this
method requires strong computer resources and new tools have been recently developed.
Though this proliferation of software performing only one step of the analyze leads to
compatibility problems and complicates the analysis. Thus, there is a real need for an
integrated, powerful and flexible pipeline for motifs identification. Here we proposed a
complete pipeline for the analysis of ChIP-seq data freely available in R and composed
of three R packages PICS, rGADEM and MotIV. Analyzing four data sets for the human
transcription factors CTCF, STAT1, FOXA1 and ER we demonstrated the efficiency of
or pipeline and highlighted its new features, especially concerning the processing of the
results by MotIV that led to the identification of motif not detected by other methods.
|
97 |
Analyse de la corrélation conditionnelle dérivée de la coévolution d’un système de trois gènes par un modèle du maximum de vraisemblanceBenoit Bouvrette, Louis Philip 08 1900 (has links)
Les gènes codant pour des protéines peuvent souvent être regroupés et intégrés en modules fonctionnels par rapport à un organelle. Ces modules peuvent avoir des composantes qui suivent une évolution corrélée pouvant être conditionnelle à un phénotype donné. Les gènes liés à la motilité possèdent cette caractéristique, car ils se suivent en cascade en réponse à des stimuli extérieurs. L’hyperthermophilie, d’autre part, est interreliée à la reverse gyrase, cependant aucun autre élément qui pourrait y être associé avec
certitude n’est connu. Ceci peut être dû à un déplacement de gènes non orthologues encore non résolu. En utilisant une approche bio-informatique, une modélisation mathématique d’évolution conditionnelle corrélée pour trois gènes a été développée et appliquée sur des profils phylétiques d’archaea. Ceci a permis d’établir des théories quant à la fonction potentielle du gène du flagelle FlaD/E ainsi que l’histoire évolutive des gènes lui étant liés et ayant contribué à sa formation. De plus, une histoire évolutive théorique a été établie pour une ligase liée à l’hyperthermophilie. / Protein coding gene may often be grouped and integrated in functional modules with respect to an organelle. These modules may have constituents that follow a conditional correlated evolution to a given phenotype. Genes linked to motility posses this characteristic as they follow a cascade in response to external stimuli. Similarly, hyperthermophily is related to reverse gyrase, however no other element that could be associated with certainty is known. This may be caused by an unresolved case of non-orthologous gene displacement. Using a bioinformatic approach, a mathematical model for conditional correlated evolution for three genes has been developed and applied to the phyletic
profiles of archaea. This has helped to develop theories about the potential functions of the flagellar gene FlaD/E and the evolutionary history of the genes that are linked to it and that may have contributed to its formation. In addition, a theoretical evolutionary history has been established for a ligase associated with hyperthermophily.
|
98 |
Conception de microARNs pour attenuer l'expression de genesCaron, Maxime 09 1900 (has links)
Les microARNs appartiennent à la famille des petits ARNs non-codants et agissent
comme inhibiteurs des ARN messagers et/ou de leurs produits protéiques. Les mi-
croARNs sont différents des petits ARNs interférants (siARN) car ils atténuent l’ex-
pression au lieu de l’éliminer. Dans les dernières années, de nombreux microARNs
et leurs cibles ont été découverts chez les mammifères et les plantes. La bioinforma-
tique joue un rôle important dans ce domaine, et des programmes informatiques de
découvertes de cibles ont été mis à la disposition de la communauté scientifique. Les
microARNs peuvent réguler chacun des centaines de gènes, et les profils d’expression de
ces derniers peuvent servir comme classificateurs de certains cancers. La modélisation
des microARNs artificiels est donc justifiable, où l’un pourrait cibler des oncogènes
surexprimés et promouvoir une prolifération de cellules en santé. Un outil pour créer
des microARNs artificiels, nommé MultiTar V1.0, a été créé et est disponible comme
application web. L’outil se base sur des propriétés structurelles et biochimiques des
microARNs et utilise la recherche tabou, une métaheuristique. Il est démontré que
des microARNs conçus in-silico peuvent avoir des effets lorsque testés in-vitro. Les sé-
quences 3’UTR des gènes E2F1, E2F2 et E2F3 ont été soumises en entrée au programme
MultiTar, et les microARNs prédits ont ensuite été testés avec des essais luciférases, des
western blots et des courbes de croissance cellulaire. Au moins un microARN artificiel
est capable de réguler les trois gènes par essais luciférases, et chacun des microARNs a
pu réguler l’expression de E2F1 et E2F2 dans les western blots. Les courbes de crois-
sance démontrent que chacun des microARNs interfère avec la croissance cellulaire.
Ces résultats ouvrent de nouvelles portes vers des possibilités thérapeutiques. / MicroRNAs belong to the family of small non-coding RNAs and act as down regula-
tors of messenger RNAs and/or their protein products. microRNAs differ from siRNAs
by downregulating instead of shutting down. In recent years, numerous microRNAs and
their targets have been found in mammals and plants. Bioinformatics plays a big role
in this field, as software has emerged to find new microRNA targets. Each individual
microRNA can regulate hundreds of genes, and it has been shown that microRNA
expression profiles can classify human cancers. The need for artificially created mi-
croRNAs is then justified, as one could target overexpressed oncogenes and promote
healthy cell proliferation. MultiTar V1.0, a tool for creating artificial microRNAs, has
been implemented and is available as a web application. The tool relies on structural
and biological properties of microRNAs and uses a Tabusearch metaheuristic. A typical
biological problem is presented and it is shown that an in-silico microRNA has in-vitro
effects. The 3’UTR sequences of E2F1, E2F2 and E2F3 were given as input to the
tool, and predicted microRNAs were then tested using luciferase essays, western blots
and growth curves. At least one microRNA is able to regulate the three genes with
luciferase essays and all of the created microRNAs were able to regulate the expres-
sion of E2F1 and E2F2 with western blots. Growth curves were also studied in order
to investigate overall biological effects, and reduction in growth was observed for all
solutions. Results obtained with the predicted microRNAs and the target genes open
a new door into therapeutic possibilities.
|
99 |
Quantification de la relation séquence-activité de l’ARN par prédiction de structure tridimensionnelleSt-Onge, Karine 08 1900 (has links)
Dans un premier temps, nous avons modélisé la structure d’une famille d’ARN avec une grammaire de graphes afin d’identifier les séquences qui en font partie. Plusieurs autres méthodes de modélisation ont été développées, telles que des grammaires stochastiques hors-contexte, des modèles de covariance, des profils de structures secondaires et des réseaux de contraintes. Ces méthodes de modélisation se basent sur la structure secondaire classique comparativement à nos grammaires de graphes qui se basent sur les motifs cycliques de nucléotides. Pour exemplifier notre modèle, nous avons utilisé la boucle E du ribosome qui contient le motif Sarcin-Ricin qui a été largement étudié depuis sa découverte par cristallographie aux rayons X au début des années 90.
Nous avons construit une grammaire de graphes pour la structure du motif Sarcin-Ricin et avons dérivé toutes les séquences qui peuvent s’y replier. La pertinence biologique de ces séquences a été confirmée par une comparaison des séquences d’un alignement de plus de 800 séquences ribosomiques bactériennes. Cette comparaison a soulevée des alignements alternatifs pour quelques unes des séquences que nous avons supportés par des prédictions de structures secondaires et tertiaires. Les motifs cycliques de nucléotides ont été observés par les membres de notre laboratoire dans l'ARN dont la structure tertiaire a été résolue expérimentalement. Une étude des séquences et des structures tertiaires de chaque cycle composant la structure du Sarcin-Ricin a révélé que l'espace des séquences dépend grandement des interactions entre tous les nucléotides à proximité dans l’espace tridimensionnel, c’est-à-dire pas uniquement entre deux paires de bases adjacentes. Le nombre de séquences générées par la grammaire de graphes est plus petit que ceux des méthodes basées sur la structure secondaire classique. Cela suggère l’importance du contexte pour la relation entre la séquence et la structure, d’où l’utilisation d’une grammaire de graphes contextuelle plus expressive que les grammaires hors-contexte.
Les grammaires de graphes que nous avons développées ne tiennent compte que de la structure tertiaire et négligent les interactions de groupes chimiques spécifiques avec des éléments extra-moléculaires, comme d’autres macromolécules ou ligands. Dans un deuxième temps et pour tenir compte de ces interactions, nous avons développé un modèle qui tient compte de la position des groupes chimiques à la surface des structures tertiaires. L’hypothèse étant que les groupes chimiques à des positions conservées dans des séquences prédéterminées actives, qui sont déplacés dans des séquences inactives pour une fonction précise, ont de plus grandes chances d’être impliqués dans des interactions avec des facteurs. En poursuivant avec l’exemple de la boucle E, nous avons cherché les groupes de cette boucle qui pourraient être impliqués dans des interactions avec des facteurs d'élongation. Une fois les groupes identifiés, on peut prédire par modélisation tridimensionnelle les séquences qui positionnent correctement ces groupes dans leurs structures tertiaires. Il existe quelques modèles pour adresser ce problème, telles que des descripteurs de molécules, des matrices d’adjacences de nucléotides et ceux basé sur la thermodynamique. Cependant, tous ces modèles utilisent une représentation trop simplifiée de la structure d’ARN, ce qui limite leur applicabilité.
Nous avons appliqué notre modèle sur les structures tertiaires d’un ensemble de variants d’une séquence d’une instance du Sarcin-Ricin d’un ribosome bactérien. L’équipe de Wool à l’université de Chicago a déjà étudié cette instance expérimentalement en testant la viabilité de 12 variants. Ils ont déterminé 4 variants viables et 8 létaux. Nous avons utilisé cet ensemble de 12 séquences pour l’entraînement de notre modèle et nous avons déterminé un ensemble de propriétés essentielles à leur fonction biologique. Pour chaque variant de l’ensemble d’entraînement nous avons construit des modèles de structures tertiaires. Nous avons ensuite mesuré les charges partielles des atomes exposés sur la surface et encodé cette information dans des vecteurs. Nous avons utilisé l’analyse des composantes principales pour transformer les vecteurs en un ensemble de variables non corrélées, qu’on appelle les composantes principales. En utilisant la distance Euclidienne pondérée et l’algorithme du plus proche voisin, nous avons appliqué la technique du « Leave-One-Out Cross-Validation » pour choisir les meilleurs paramètres pour prédire l’activité d’une nouvelle séquence en la faisant correspondre à ces composantes principales. Finalement, nous avons confirmé le pouvoir prédictif du modèle à l’aide d’un nouvel ensemble de 8 variants dont la viabilité à été vérifiée expérimentalement dans notre laboratoire.
En conclusion, les grammaires de graphes permettent de modéliser la relation entre la séquence et la structure d’un élément structural d’ARN, comme la boucle E contenant le motif Sarcin-Ricin du ribosome. Les applications vont de la correction à l’aide à l'alignement de séquences jusqu’au design de séquences ayant une structure prédéterminée. Nous avons également développé un modèle pour tenir compte des interactions spécifiques liées à une fonction biologique donnée, soit avec des facteurs environnants. Notre modèle est basé sur la conservation de l'exposition des groupes chimiques qui sont impliqués dans ces interactions. Ce modèle nous a permis de prédire l’activité biologique d’un ensemble de variants de la boucle E du ribosome qui se lie à des facteurs d'élongation. / Initially, we modeled the structure of an RNA family with a graph grammar to identify sequences that correspond to it. Several other modeling approaches have been developed to derive sequences, such as stochastic context-free grammars, covariance models, secondary structures profiles and constraint networks. These modeling methods are based on secondary structure compared to our graph grammars which are based on the nucleotide cyclic motifs. To exemplify our graph grammar model, we used the loop E of the ribosome that contains the Sarcin-Ricin motif that has been widely studied since its discovery by X-ray crystallography in the early 90s.
We built a graph grammar for the structure of the Sarcin-Ricin motif and derived the sequences that correspond to it. The biological relevance of these sequences is supported by an alignment of 800 bacterial ribosomal sequences. This comparison raised alternative alignments for some of the sequences that we supported by predictions of secondary and tertiary structures. According to a new tertiary structure, those alternative alignments accommodate the new derived sequences.
The nucleotide cyclic motifs used in the grammar were observed by members of our laboratory in RNA tertiary structures that were solved experimentally. We study the sequences and tertiary structures of the nucleotide cyclic motifs of the Sarcin-Ricin motif. This study suggests that the space of sequences depends heavily on interactions between all nucleotides in the nearby three-dimensional space and not only between two adjacent base pairs. We compare the number of sequences generated by the graph grammar with non contextual methods and our graph grammar generates less sequences. This suggests the importance of context for the relationship between sequence and structure, hence the use of a contextual graph grammar is more expressive than context-free grammars.
The graph grammars we used include the tertiary structure but neglect the interactions with extra-molecular factors, such as other macromolecules or ligands. In a second stage and to take into account these interactions, we developed a model incorporating the positioning of chemical groups on the surface of the tertiary structures. The assumption being that the chemical groups that are conserved on the surface of the RNA in active sequences are more likely to be involved in interactions with extra-molecular factors. Continuing with the example of the loop E, we searched the groups that could be involved its interactions with elongation factors. Knowledge of the groups involved in the important interactions serves to predict by three-dimensional modeling new sequences that have potentials to realize these interactions and thus the same function. There are few models that have been developed to address this problem: molecular descriptors, nucleotide adjacency matrices and others based on thermodynamics. These models use an oversimplified representation of the RNA structure, which limits their applicability.
We applied our model to the tertiary structures of a set of variants of a sequence of one instance of the Sarcin-Ricin motif from a bacterial ribosome. Wool and coworkers at the University of Chicago studied this proceeding experimentally by testing the viability of twelve variants. They identified four viable variants and eight lethal. We used this set of twelve sequences for training our model and we identified a set of essential properties to their biological function. For each variant of the training set we built models of tertiary structures. We then measured the partial charges of exposed atoms on the surface and we encoded this information into vectors. We used principal component analysis to transform the vectors into a set of uncorrelated variables, called principal components. Using the weighted Euclidean distance and a nearest neighbor algorithm, we applied the technique of "Leave-One-Out Cross-Validation" to choose the best parameters to predict the activity of a new sequence to match these principal components. Finally, we validated the predictive model using a new set of eight variants whose viability has been verified experimentally in our laboratory.
In conclusion, graph grammars are used to model the relationship between sequence and structure of an RNA structural element, such as the ribosomal loop E containing the Sarcin-Ricin motif. Applications range from the correction of sequence alignment to sequence design with a predetermined structure. We also developed a model to take into account the specific interactions related to a specific biological function. Our model is based on the retention of the exposure of chemical groups that are involved in these interactions. This model has allowed us to predict the biological activity of a set of variants of the loop E that binds to elongation factors.
|
100 |
Estimation des corrélations phylogénétiques entre paramètres d'évolution moléculaire et Traits d'histoire de viePoujol, Raphael 02 1900 (has links)
Depuis quelques années, l'évolution moléculaire cherche à caractériser les variations et l'intensité de la sélection grâce au rapport entre taux de substitution synonyme et taux de substitution non-synonyme (dN/dS). Cette mesure, dN/dS, a permis d'étudier l'histoire de la variation de l'intensité de la sélection au cours du temps ou de détecter des épisodes de la sélection positive. Les liens entre sélection et variation de taille efficace interfèrent cependant dans ces mesures. Les méthodes comparatives, quant a elle, permettent de mesurer les corrélations entre caractères quantitatifs le long d'une phylogénie. Elles sont également utilisées pour tester des hypothèses sur l'évolution corrélée des traits d'histoire de vie, mais pour être employées pour étudier les corrélations entre traits d'histoire de vie, masse, taux de substitution ou dN/dS. Nous proposons ici une approche combinant une méthode comparative basée sur le principe des contrastes indépendants et un modèle d'évolution moléculaire, dans un cadre probabiliste Bayésien. Intégrant, le long d'une phylogénie, sur les reconstructions ancestrales des traits et et de dN/dS nous estimons les covariances entre traits ainsi qu'entre traits et paramètres du modèle d'évolution moléculaire. Un modèle hiérarchique, a été implémenté dans le cadre du logiciel coevol, publié au cours de cette maitrise.
Ce modèle permet l'analyse simultané de plusieurs gènes sans perdre la puissance donnée par l'ensemble de séquences. Un travail deparallélisation des calculs donne la liberté d'augmenter la taille du modèle jusqu'à l'échelle du génome.
Nous étudions ici les placentaires, pour lesquels beaucoup de génomes complets et de mesures phénotypiques sont disponibles. À la lumière des théories sur les traits d'histoire de vie, notre méthode devrait permettre de caractériser l'implication de groupes de gènes dans les processus biologique liés aux phénotypes étudiés. / In recent years, molecular evolution seeks to characterize the variation and intensity of selection through the ratio between non-synonymous and synonymous substitution rates (dN/dS). The dN/dS measure was either used to study the history of the variation of the intensity of selection over time or to detect episodes of positive selection. Correlations between selection and variations of the effective population size interfere in these measurements. The Comparative method can measure correlations between quantitative traits along a phylogeny. They are also be used to test hypotheses of correlated evolution of life history traits, like the body mass, and the substitution rate. We propose an approach combining the comparative method based on the principle of independent contrasts and a model of molecular evolution in a Bayesian probabilistic framework. By integrating along a phylogeny both ancestral reconstructions of lines and of dN/dS we estimate the covariance among traits and between traits and parameters of the model of molecular evolution. A hierarchical model was implemented in the software coevol published during this master. This model allows the simultaneous analysis of multiple genes within a single model. Parallel calculations allow increasing the size of the model to the genome scale.
We studied placental mammals, where many complete genomes and phenotypic measurements are available. Based on theories of life history traits, our method is expected to characterize the association of groups of genes in biological processes related to the studied phenotypes.
|
Page generated in 0.0207 seconds