Spelling suggestions: "subject:"biology - bioinformatics"" "subject:"biology - ioinformatics""
291 |
Algorithmes pour la reconstruction de génomes ancestrauxGagnon, Yves 05 1900 (has links)
L’inférence de génomes ancestraux est une étape essentielle pour l’étude de l’évolution
des génomes. Connaissant les génomes d’espèces éteintes, on peut proposer des
mécanismes biologiques expliquant les divergences entre les génomes des espèces modernes.
Diverses méthodes visant à résoudre ce problème existent, se classant parmis deux
grandes catégories : les méthodes de distance et les méthodes de synténie. L’état de l’art
des distances génomiques ne permettant qu’un certain répertoire de réarrangements pour
le moment, les méthodes de synténie sont donc plus appropriées en pratique.
Nous proposons une méthode de synténie pour la reconstruction de génomes ancestraux
basée sur une définition relaxée d’adjacences de gènes, permettant un contenu en
gène inégal dans les génomes modernes causé par des pertes de gènes de même que des
duplications de génomes entiers (DGE). Des simulations sont effectuées, démontrant
une capacité de former une solution assemblée en un nombre réduit de régions ancestrales
contigües par rapport à d’autres méthodes tout en gardant une bonne fiabilité. Des
applications sur des données de levures et de plantes céréalières montrent des résultats
en accord avec d’autres publications, notamment la présence de fusion imbriquée de
chromosomes pendant l’évolution des céréales. / Ancestral genome inference is a decisive step for studying genome evolution. Knowing
genomes from extinct species, one can propose biological mecanisms explaining
divergences between extant species genomes.
Various methods classified in two categories have been developped : distance based
methods and synteny based methods. The state of the art of distance based methods only
permit a certain repertoire of genomic rearrangements, thus synteny based methods are
more appropriate in practice for the time being.
We propose a synteny method for ancestral genome reconstruction based on a relaxed
defenition of gene adjacencies, permitting unequal gene content in extant genomes
caused by gene losses and whole genome duplications (WGD). Simulations results demonstrate
our method’s ability to form a more assembled solution rather than a collection of
contiguous ancestral regions (CAR) with respect to other methods, while maintaining a
good reliability. Applications on data sets from yeasts and cereal species show results
agreeing with other publications, notably the existence of nested chromosome fusion
during the evolution of cereals.
|
292 |
Évolution moléculaire : un modèle Markov-modulé pour les processus de substitutionFournier, Eric 01 1900 (has links)
Les processus Markoviens continus en temps sont largement utilisés pour tenter d’expliquer l’évolution des séquences protéiques et nucléotidiques le long des phylogénies. Des modèles probabilistes reposant sur de telles hypothèses sont conçus pour satisfaire la non-homogénéité spatiale des contraintes fonctionnelles et environnementales agissant sur celles-ci. Récemment, des modèles Markov-modulés ont été introduits pour décrire
les changements temporels dans les taux d’évolution site-spécifiques (hétérotachie). Des études ont d’autre part démontré que non seulement la force mais également la nature de la contrainte sélective agissant sur un site peut varier à travers le temps. Ici nous proposons de prendre en charge cette réalité évolutive avec un modèle Markov-modulé pour les protéines sous lequel les sites sont autorisés à modifier leurs préférences en acides aminés au cours du temps. L’estimation a posteriori des différents paramètres modulants
du noyau stochastique avec les méthodes de Monte Carlo est un défi de taille que nous avons su relever partiellement grâce à la programmation parallèle. Des réglages computationnels sont par ailleurs envisagés pour accélérer la convergence vers l’optimum global de ce paysage multidimensionnel relativement complexe. Qualitativement, notre modèle semble être capable de saisir des signaux d’hétérogénéité temporelle à partir d’un jeu de données dont l’histoire évolutive est reconnue pour être riche en changements de régimes substitutionnels. Des tests de performance suggèrent de plus qu’il serait mieux ajusté aux données qu’un modèle équivalent homogène en temps. Néanmoins, les histoires substitutionnelles tirées de la distribution postérieure sont bruitées et restent difficilement interprétables du point de vue biologique. / Time-continuous Markovian process are widely used to understand the mechanism of nucleotidic acids and proteins evolution along phylogeny. Already existing probabilistic models based on such hypothesis are designed to satisfy the non-homogeneity of functional and environmental constraints acting across those biological sequences. Recently, Markov-modulated models have been introduced to describe site-specific temporal rate variation (heterotachy). Moreover, studies have demonstrated that not only strength but
also the nature of the constraint acting on a specific site can vary over time. Here we propose to accommodate this evolutionary reality with a Markov-modulated model for proteins under which sites are authorized to change their amino acids propensities across time. Posterior estimation of the stochastic kernel hidden parameters with Monte Carlo methods is a challenging approach that we partially overcome with parallel computing. Fine-tuning are otherwise planned to accelerate convergence toward the target posterior stationnary distribution. Qualitatively, our model seems to be able to capture temporal
heterogeneity from real sequences data sets whose evolutionary history is assumed to be rich in substitutional switch events. Furthermore, evaluation of the model performance suggest that he provides a better fit to the data set than the time-homogeneous equivalent model. Nonetheless, substitutional histories sampled from the posterior distribution are quite noisy and remain difficult to interpret biologically.
|
293 |
Typage de la classe génotypique du gène PRDM9 à partir de données de séquençage de Nouvelle GénérationAng Houle, Marie-Armande 07 1900 (has links)
Les positions des évènements de recombinaison s’agrègent ensemble, formant des hotspots déterminés en partie par la protéine à évolution rapide PRDM9. En particulier, ces positions de hotspots sont déterminées par le domaine de doigts de zinc (ZnF) de PRDM9 qui reconnait certains motifs d’ADN. Les allèles de PRDM9 contenant le ZnF de type k ont été préalablement associés avec une cohorte de patients affectés par la leucémie aigüe lymphoblastique. Les allèles de PRDM9 sont difficiles à identifier à partir de données de séquençage de nouvelle génération (NGS), en raison de leur nature répétitive. Dans ce projet, nous proposons une méthode permettant la caractérisation d’allèles de PRDM9 à partir de données de NGS, qui identifie le nombre d’allèles contenant un type spécifique de ZnF. Cette méthode est basée sur la corrélation entre les profils représentant le nombre de séquences nucléotidiques uniques à chaque ZnF retrouvés chez les lectures de NGS simulées sans erreur d’une paire d’allèles et chez les lectures d’un échantillon. La validité des prédictions obtenues par notre méthode est confirmée grâce à analyse basée sur les simulations. Nous confirmons également que la méthode peut correctement identifier le génotype d’allèles de PRDM9 qui n’ont pas encore été identifiés. Nous conduisons une analyse préliminaire identifiant le génotype des allèles de PRDM9 contenant un certain type de ZnF dans une cohorte de patients atteints de glioblastomes multiforme pédiatrique, un cancer du cerveau caractérisé par les mutations récurrentes dans le gène codant pour l’histone H3, la cible de l’activité épigénétique de PRDM9. Cette méthode ouvre la possibilité d’identifier des associations entre certains allèles de PRDM9 et d’autres types de cancers pédiatriques, via l’utilisation de bases de données de NGS de cellules tumorales. / The positions of recombination events cluster tightly together in recombination hotspots, which are determined in part by the rapidly evolving protein PRDM9 via its tri- methyltransferase activity. The locations of hotspots are determined by the repetitive ZnF array of PRDM9, which binds to DNA. Alleles of PRDM9 containing the k-ZnF have previously been associated with patients affected with childhood acute lymphoblastic leukaemia. PRDM9 alleles are notoriously difficult to type due to the repetitive nature of the ZnF arrays. Here, we propose a method to characterize the alleles of PRDM9 from next- generation sequencing samples, by identifying the number of alleles containing a specific ZnF type. Our method is based on the correlation between profiles from the sample, representing the counts of nucleotide sequences unique to each ZnF, and from ideal sets of short reads representing an allele pair. We conduct a simulation analysis to examine the validity of the predictions obtained by our method with all pairs of known alleles. We confirm that the method can accurately genotype previously unobserved PRDM9 alleles. We also conducted a preliminary analysis to identify the PRDM9 k-ZnF genotype in a cohort of paediatric glioblastoma (pGBM), a childhood cancer characterized by the recurrent mutations in the coding sequence of the histone H3, the target of the enzymatic activity of PRDM9. Although no associations of k-ZnF containing PRDM9 alleles is found in our pGBM cohort, this method opens the possibility of identifying associations between certain PRDM9 alleles with other types of early onset childhood cancers, through a data-mining effort in public cancer databases.
|
294 |
Contrôle génétique de l’épissage alternatif dans le contexte de la réponse immunitaire innéeTastet, Olivier 08 1900 (has links)
No description available.
|
295 |
Impact des variants génétiques sur la réponse immunitaire des populations humainesNédélec, Yohann 06 1900 (has links)
No description available.
|
296 |
Étude de la relation entre structure, dynamique et fonction de l’ARN par l’ingénierie du ribozyme VS de NeurosporaGirard, Nicolas 08 1900 (has links)
No description available.
|
297 |
Characterization of Gene Interaction and Assessment of Ld Matrix Measures for the Analysis of Biological Pathway AssociationCrosslin, David Russell January 2009 (has links)
<p>Leukotrienes are arachidonic acid derivatives long known for their inflammatory properties and their involvement with a number of human diseases, most notably asthma. Recently, leukotriene-based inflammation has also been implicated in atherosclerosis: ALOX5AP and LTA4H, two genes in the leukotriene biosynthesis pathway, have been associated with various cardiovascular disease (CVD) phenotypes. To assess the role of the leukotriene pathway in CVD pathogenesis, we performed genetic association studies of ALOX5AP and LTA4H in a non-familial data set of early onset coronary artery disease. Our results support a modest role for the leukotriene pathway in atherosclerosis pathogenesis, reveal important genomic interactions within the pathway, and suggest the importance of using pathway-based modeling for evaluating the genomics of atherosclerosis susceptibility. Motivated by this need, we investigated the statistical properties of a class of matrix-based statistics to assess epistasis. We simulated multiple two-variant disease models with haplotypes to gain an understanding of pathway interactions in terms of correlation patterns. Our goal was to detect an interaction between multiple disease-causing variants by means of their linkage disequlibrium (LD) patterns with other haplotype markers. The simulated models can be summarized into three categories: 1. No epistasis in the presence of marginal effects and LD; 2. Epistasis in the presence of LD and no marginal effects; and 3. Epistasis in the presence marginal effects and LD. We then assessed previously introduced single-gene methods that compare whole matrices of Single Nucleotide Polymorphism (SNP) LD between two samples. These methods include comparing two sets of principal components, a sum-of-squared-differences comparing pairwise LD, and a contrast test that controls for background LD. We also considered a partial least-square (PLS) approach for modeling gene-gene interactions. Our results indicate that these measures can be used to assess epistasis as well as marginal effects under certain disease models. Understanding and quantifying whole-gene variation and association to disease using multiple SNPs remains a difficult task. Providing a single statistical measure per gene will facilitate combining multiple types of genomic data at a gene-level and will serve as an alternative approach to assess epistasis in genome-wide association studies. The matrix-based measures can also be used in pathway ascertainment tools that require scores on a gene-level.</p> / Dissertation
|
298 |
Algorithmes pour la reconstruction de génomes ancestrauxGagnon, Yves 05 1900 (has links)
L’inférence de génomes ancestraux est une étape essentielle pour l’étude de l’évolution
des génomes. Connaissant les génomes d’espèces éteintes, on peut proposer des
mécanismes biologiques expliquant les divergences entre les génomes des espèces modernes.
Diverses méthodes visant à résoudre ce problème existent, se classant parmis deux
grandes catégories : les méthodes de distance et les méthodes de synténie. L’état de l’art
des distances génomiques ne permettant qu’un certain répertoire de réarrangements pour
le moment, les méthodes de synténie sont donc plus appropriées en pratique.
Nous proposons une méthode de synténie pour la reconstruction de génomes ancestraux
basée sur une définition relaxée d’adjacences de gènes, permettant un contenu en
gène inégal dans les génomes modernes causé par des pertes de gènes de même que des
duplications de génomes entiers (DGE). Des simulations sont effectuées, démontrant
une capacité de former une solution assemblée en un nombre réduit de régions ancestrales
contigües par rapport à d’autres méthodes tout en gardant une bonne fiabilité. Des
applications sur des données de levures et de plantes céréalières montrent des résultats
en accord avec d’autres publications, notamment la présence de fusion imbriquée de
chromosomes pendant l’évolution des céréales. / Ancestral genome inference is a decisive step for studying genome evolution. Knowing
genomes from extinct species, one can propose biological mecanisms explaining
divergences between extant species genomes.
Various methods classified in two categories have been developped : distance based
methods and synteny based methods. The state of the art of distance based methods only
permit a certain repertoire of genomic rearrangements, thus synteny based methods are
more appropriate in practice for the time being.
We propose a synteny method for ancestral genome reconstruction based on a relaxed
defenition of gene adjacencies, permitting unequal gene content in extant genomes
caused by gene losses and whole genome duplications (WGD). Simulations results demonstrate
our method’s ability to form a more assembled solution rather than a collection of
contiguous ancestral regions (CAR) with respect to other methods, while maintaining a
good reliability. Applications on data sets from yeasts and cereal species show results
agreeing with other publications, notably the existence of nested chromosome fusion
during the evolution of cereals.
|
299 |
A phylogenomics approach to resolving fungal evolution, and phylogenetic method developmentLiu, Yu 12 1900 (has links)
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement.
Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement
d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes.
Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de
données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même. / Despite the popularity of fungi as eukaryotic model systems, several questions on their phylogenetic relationships continue to be controversial. These include the classification of zygomycetes that are potentially paraphyletic, i.e. a combination of several not directly related fungal lineages. The phylogenetic position of Schizosaccharomyces species has also been controversial: do they belong to Taphrinomycotina (previously known as archiascomycetes) as predicted by analyses with nuclear genes, or are they instead related to Saccharomycotina (budding yeast) as in mitochondrial phylogenies? Another question concerns the precise phylogenetic position of nucleariids, a group of amoeboid eukaryotes that are believed to be close relatives of Fungi. Previously conducted multi-gene analyses have been inconclusive, because of limited taxon sampling and the use of only six nuclear genes.
We have addressed these issues by assembling phylogenomic nuclear and mitochondrial datasets for phylogenetic inference and statistical testing. According to our results zygomycetes appear to be paraphyletic (Chapter 2), but the phylogenetic signal in the available mitochondrial dataset is insufficient for resolving their branching order with statistical confidence. In Chapter 3 we show with a large nuclear dataset (more than 100 proteins) and conclusive supports that Schizosaccharomyces species are part of Taphrinomycotina. We further demonstrate that the conflicting grouping of Schizosaccharomyces with budding yeasts, obtained with mitochondrial sequences, results from a phylogenetic error known as long-branch attraction (LBA, a common artifact that leads to the regrouping of species with high evolutionary rates irrespective of their true phylogenetic positions). In Chapter 4, using again a large nuclear dataset we demonstrate with significant
statistical support that nucleariids are the closest known relatives of Fungi. We also confirm paraphyly of traditional zygomycetes as previously suggested, with significant support, but without placing all members of this group with confidence. Our results question aspects of a recent taxonomical reclassification of zygomycetes and their chytridiomycete neighbors (a group of zoospore-producing Fungi).
Overcoming or minimizing phylogenetic artifacts such as LBA has been among our most recurring questions. We have therefore developed a new method (Chapter 5) that identifies and eliminates sequence sites with highly uneven evolutionary rates (highly heterotachous sites, or HH sites) that are known to contribute significantly to LBA. Our method is based on a likelihood ratio test (LRT). Two previously published datasets are used to demonstrate that gradual removal of HH sites in fast-evolving species (suspected for LBA) significantly increases the support for the expected ‘true’ topology, in a more effective way than comparable, published methods of sequence site removal. Yet in general, data manipulation prior to analysis is far from ideal. Future development should aim at integration of HH site identification and weighting into the phylogenetic inference process itself.
|
300 |
Estimation des longueurs de branche et artefact sur la datation moléculaireEl Alaoui, Wafae 08 1900 (has links)
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence.
Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes.
Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques.
Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation. / Molecular phylogeny provides an additional tool complementary to paleontological and geological studies, allowing the reconstruction of phylogenetic relationships between species and the estimate of their divergence time. Researchers are mainly focusing on the topology of a phylogenetic tree; i.e. the relative connection between different nodes. Whereas, the branch lengths of this phylogeny are often considered as secondary, i.e. as additional parameters containing little information. However, the branch lengths are the primary information for molecular dating. Importantly, saturation, the presence of multiple substitutions at the same position, is an artifact that leads to an underestimation of the branch length. We are therefore interested in estimating the magnitude of this phenomenon and its impact on divergence time.
We chose to study the mammalian mitochondrial genome, which is available for many species and displays a high level of saturation. Furthermore, the phylogenetic relationships of mammalians are known, thus allowing us to fix the topology, thus eliminating one of the parameters influencing the branch lengths. We used two main approaches to improve the detection of multiple substitutions: (i) an increase in the number of species breaks the longest branches of the tree, (ii) more realistic models of sequence evolution. The results demonstrate that there is a very pronounced underestimation of branch lengths (up to a factor of 3). Furthermore, the use of a large number of species is the factor that influences most the detection of multiple substitutions, not the improvement of the model of sequence evolution. This suggests that even the most complex evolutionary models currently available, like the CAT+ Covarion model, which takes into account the heterogeneity of the substitution process between sites and the rates of evolution over time, are still far from taking the entire complexity of biological processes into account.
Despite the important underestimation of branch lengths, the impact on dating appeared to be relatively limited, because the underestimation is more or less homothetic. This is obviously true for the complex evolutionary models. Since multiple substitutions are most effectively detected when breaking the long internal branches via the addition of species. This raises the problem of bias in the taxonomic sampling, due to the impact of extinction on the history of life on earth. Because this kind of bias leads to a non-homothetic underestimation, we consider it essential to improve models of sequence evolution and suggest that the protocol developed in this work will allow to evaluate their effectiveness towards saturation.
|
Page generated in 0.0622 seconds