141 |
La cartographie des sites de régulation génétique à partir de données de débalancement alléliqueVello, Emilio D. 09 1900 (has links)
En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des
changements affectant la structure des protéines, mais aussi via des mutations qui
modifient la régulation génétique. L'étude des éléments régulateurs de l'expression
génétique a un rôle important dans la compréhension de l'expression de différentes
maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio-
informatique qui nous permet rapidement de trouver des sites de régulation génétique
à travers tout le génome et pour une grande quantité de gènes. Notre approche
consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison
avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le
site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » . / Wilson and King (1975) proposed that evolution frequently operates through mutations affecting genetic regulation. Likewise, it is expected that genetic variation responsible for inter-individual differences will be due to variation in regulatory sites. Identifying such sites is thus important in the genetic and medical research. We have developed a new bioinformatics algorithm to find genome-wide regulatory sites for a big number of genes. Individuals carrying different alleles at a regulatory site will exhibit allelic imbalance(AI) due to differential expression of the two copies the same locus. Our approach consists of searching polymorphic sites (SNPs) in linkage disequilibrium with AI in order to map regulatory regions. We have detected many SNPs associated to the regulation of different genes pointed in previous studies. We have also found regulatory regions far from the transcription start site
(TSS). The major advantage of this method is that phased data is not needed. In addition, AI data has the benefit of not being affected by external factors since it is
measured in the same cell. The results show that our approach is reliable and it can
detect sites far from the gene.
|
142 |
Performances de la puce exon et son application dans l’analyse de l’épissage alternatif associé à la métastase du cancer de seinBemmo, Amandine 09 1900 (has links)
Nous montrons l’utilisation de la puce exon d’Affymetrix pour l’analyse simultanée de l’expression des gènes et de la variation d’isoformes. Nous avons utilisé les échantillons d’ARN du cerveau et des tissus de référence qui ont été antérieurement utilisés dans l’étude du consortium MicroArray Quality Control (MAQC). Nous démontrons une forte concordance de la quantification de l’expression des gènes entre trois plateformes d’expression populaires à savoir la puce exon d’Affymetrix, la puce Illumina et la puce
U133A d’Affymetrix. Plus intéressant nous montrons que la majorité des discordances entre les trois plateformes résulterait des positions différentes des sondes à travers les plateformes et que les variations d’isoforme exactes ne peuvent être identifiées que par la puce exon. Nous avons détecté avec succès, entre les tissus de référence et ceux du cerveau, une centaine de cas d’évènements d’épissage alternatif.
La puce exon est requise dans l’analyse de l’épissage alternatif associé aux pathologies telles que les cancers et les troubles neurologiques. Comme application de cette
technologie, nous avons analysé les variations d’épissage dans la métastase du cancer de sein développé dans le model de la souris. Nous avons utilisé une gamme bien définie de trois lignées de tumeur mammaire ayant différents potentiels métastatiques. Par des analyses statistiques, nous avons répertorié 2623 transcripts présentant des variations d’expression et d’isoformes entre les types de tumeur. Une analyse du réseau de gènes montre qu’environ la moitié d’entre eux est impliquée dans plusieurs activités cellulaires, ainsi que dans nombreux cancers et désordres génétiques. / We demonstrate how the Affymetrix Exon Array, can be used to simultaneously profile gene expression level, and detect variations at the isoform level. We use a well studied set of brain and reference RNA samples previously used by the MicroArray Quality Control (MAQC) consortium study. We demonstrate a high concordance of gene expression measurements among three popular expression platforms – Affymetrix Exon Array, Illumina, and Affymetrix 3’ targeted array (U133A). More interestingly, we show that in many cases of
discordant results, the effect can be explained by differential probe placements across platforms, and that the exact isoform change can only be captured by the Exon Array. Finally, we are able to detect hundreds of cases of splicing, transcript initiation, and termination differences between the brain and reference tissue samples. We propose that the Exon Array is a highly effective tool for transcript isoform
profiling, and that it should be used in a variety of systems where such changes are known to be associated with diseases, such as neurological disorders and cancer. As application, we used the Affymetrix Exon Array to identify metastatis-specific alternative splicing in mouse model of breast cancer at the whole genome level. We utilize a well characterized series of three mouse mammary tumor lines exhibiting varying levels of metastatic potential. We catalogued 2623 transcripts which exhibit splicing aberrations during the progression of cancer. A genetic pathway analysis shows the half of them implicated in several cell activities, cancers and genetic disorders.
|
143 |
Caractérisation du microDNome et sa modulation par le traitement anti-cancerMehanna, Pamela 11 1900 (has links)
Récemment, une nouvelle classe d'ADN circulaire extrachromosomique (eccDNA) appelée microADN a été identifiée dans des tissus humains et murins. Ces microADNs ont une longueur de 100 à 400 pb, sont dérivés de régions génomiques non répétitives uniques et présentent un enrichissement au niveau des régions géniques et riches en GC. Bien qu'il ait été proposé qu'ils puissent provenir du métabolisme de l'ARN ou des défauts de réplication, leurs mécanismes de production et leur éventuelle fonctionnalité restent à déterminer. Grâce à l'analyse des microADNs extraits d'une série de 10 lignées cellulaires lymphoblastoïdes humaines (LCL), nous avons confirmé la distribution nonaléatoire des microADNs vers les régions actives du génome. Les microADNs identifiés présentaient
des loci d'origine redondants et une périodicité de taille de 190 pb pouvant correspondre à la fragmentation de l'ADN lors de l'apoptose caspase-dépendante. L'apoptose induite de ces LCLs par des drogues chimiothérapeutiques (méthotrexate ou L-asparaginase) a entrainé la modulation de la diversité et de la taille des microADNs, suggérant qu'une partie de ces entités pourrait être des produits résiduels de la mort cellulaire apoptotique. Ainsi, bien que compatible avec l'observation initiale suggérant que les microADNs proviennent d'un processus physiologique normal, ces résultats impliquent une source de production alternative ou complémentaire. / Recently, a new class of extrachromosomal circular DNA (eccDNA) called microDNA was identified in mouse and human tissues. These microDNAs are 100 to 400 bp long, derive from unique nonrepetitive genomic regions and show an enrichment in GC rich and genic sequences. While it has been proposed that they could arise from RNA metabolism or replication defects, their production mechanisms and eventual functionality remain unclear. Through the analysis of microDNAs extracted from a series of 10 human lymphoblastoid cell lines (LCLs), we confirmed the non-random distribution of microDNA towards active regions of the genome. Identified microDNAs showed redundant loci of origin and a size periodicity of 190 bp that matched caspase-dependant DNA fragmentation of apoptotic cells. Strikingly, the chemotherapeutic drug-induced apoptosis (using methotrexate or Lasparaginase) of these LCLs modulated both diversity and size of microDNAs further suggesting that a part of microDNAs could represent circularized by-products of the programmed cell death. Thus, while compatible with the original observation that microDNAs originated from a normal physiological process, these results imply an alternative or complementary source of production.
|
144 |
Développement de méthodes et d'outils bio-informatiques pour l'analyse de données génomiquesCoulombe, Charles January 2017 (has links)
Dans ce mémoire, je présenterai les outils que nous avons développés dans le
cadre de ma maîtrise. Tout d'abord, je présenterai un outil d'analyse de données
génomiques nommé Versatile Aggregrate Profiler (VAP). Ensuite, je
présenterai un outil d'identification de profils agrégés similaires nommé
vap_sim ainsi que la méthodologie utilisée afin d'obtenir un paramétrage
adéquat de l'outil pouvant s'adapter assez facilement aux différents profils
agrégés. Au troisième chapitre, je présenterai un outil de validation de
formats génomiques nommé Genomic Format Validator (GFV) permettant
d'identifier simplement et rapidement les erreurs de structure et de logique
dans un fichier de données génomiques. Finalement, au dernier chapitre, je
présenterai trois outils complémentaires à VAP.
|
145 |
Estimation des longueurs de branche et artefact sur la datation moléculaireEl Alaoui, Wafae 08 1900 (has links)
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence.
Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes.
Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques.
Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation. / Molecular phylogeny provides an additional tool complementary to paleontological and geological studies, allowing the reconstruction of phylogenetic relationships between species and the estimate of their divergence time. Researchers are mainly focusing on the topology of a phylogenetic tree; i.e. the relative connection between different nodes. Whereas, the branch lengths of this phylogeny are often considered as secondary, i.e. as additional parameters containing little information. However, the branch lengths are the primary information for molecular dating. Importantly, saturation, the presence of multiple substitutions at the same position, is an artifact that leads to an underestimation of the branch length. We are therefore interested in estimating the magnitude of this phenomenon and its impact on divergence time.
We chose to study the mammalian mitochondrial genome, which is available for many species and displays a high level of saturation. Furthermore, the phylogenetic relationships of mammalians are known, thus allowing us to fix the topology, thus eliminating one of the parameters influencing the branch lengths. We used two main approaches to improve the detection of multiple substitutions: (i) an increase in the number of species breaks the longest branches of the tree, (ii) more realistic models of sequence evolution. The results demonstrate that there is a very pronounced underestimation of branch lengths (up to a factor of 3). Furthermore, the use of a large number of species is the factor that influences most the detection of multiple substitutions, not the improvement of the model of sequence evolution. This suggests that even the most complex evolutionary models currently available, like the CAT+ Covarion model, which takes into account the heterogeneity of the substitution process between sites and the rates of evolution over time, are still far from taking the entire complexity of biological processes into account.
Despite the important underestimation of branch lengths, the impact on dating appeared to be relatively limited, because the underestimation is more or less homothetic. This is obviously true for the complex evolutionary models. Since multiple substitutions are most effectively detected when breaking the long internal branches via the addition of species. This raises the problem of bias in the taxonomic sampling, due to the impact of extinction on the history of life on earth. Because this kind of bias leads to a non-homothetic underestimation, we consider it essential to improve models of sequence evolution and suggest that the protocol developed in this work will allow to evaluate their effectiveness towards saturation.
|
146 |
Annotation des ARN non codants du génome de Candida albicans par méthode bioinformatiqueScott-Boyer, Marie Pier 02 1900 (has links)
La bio-informatique est un champ pluridisciplinaire qui utilise la biologie,
l’informatique, la physique et les mathématiques pour résoudre des problèmes posés par la
biologie. L’une des thématiques de la bio-informatique est l’analyse des séquences
génomiques et la prédiction de gènes d’ARN non codants. Les ARN non codants sont des
molécules d’ARN qui sont transcrites mais pas traduites en protéine et qui ont une fonction
dans la cellule. Trouver des gènes d’ARN non codants par des techniques de biochimie et
de biologie moléculaire est assez difficile et relativement coûteux. Ainsi, la prédiction des
gènes d’ARNnc par des méthodes bio-informatiques est un enjeu important. Cette
recherche décrit un travail d’analyse informatique pour chercher des nouveaux ARNnc
chez le pathogène Candida albicans et d’une validation expérimentale. Nous avons utilisé
comme stratégie une analyse informatique combinant plusieurs logiciels d’identification
d’ARNnc. Nous avons validé un sous-ensemble des prédictions informatiques avec une
expérience de puces à ADN couvrant 1979 régions du génome. Grace à cette expérience
nous avons identifié 62 nouveaux transcrits chez Candida albicans. Ce travail aussi permit
le développement d’une méthode d’analyse pour des puces à ADN de type tiling array. Ce
travail présente également une tentation d’améliorer de la prédiction d’ARNnc avec une
méthode se basant sur la recherche de motifs d’ARN dans les séquences. / Bioinformatics is a multidisciplinary field that uses biology, computer science, physics and
mathematics to solve problems in biology. One of the topics of bioinformatics is the
analysis of genomic sequences and prediction of genes from non-coding RNA (ncRNA).
The non-coding RNAs are RNA molecules that are transcribed but not translated into
protein and have a function in the cell. The use of biochemistry and molecular biology
techniques in order to find non-coding RNA genes is rather difficult and relatively
expensive. Thus, the prediction of genes by bioinformatics methods is an important issue.
This research describes a computer analysis to search for new ncRNA in the pathogen
Candida albicans and an experimental validation. The strategy used was to combine
several algorithms and to validate a subset of computer predictions with a microarray
experience covering 1979 regions of the genome. We have identified 62 new transcripts in
Candida albicans. We have also developed an analytical method for tiling array and
attempted to improve the prediction of ncRNAs this with a method based on the search of
RNA motifs in the sequences.
|
147 |
Identification in silico d’éléments de réponse de récepteurs nucléaires impliqués dans le cancer du seinLaperrière, David 04 1900 (has links)
La croissance de deux tiers des tumeurs mammaires dépend des œstrogènes. Le réseau de gènes responsable de propager les signaux prolifératifs des œstrogènes est encore mal connu. Des micropuces d’ADN de cellules de carcinome mammaire MCF7 traitées à l’œstradiol (E2) avec ou sans l’inhibiteur de synthèse protéique cycloheximide (CHX) ont permis d’identifier de nombreux gènes cibles primaires et secondaires. La séquence des promoteurs des gènes cibles a été criblée à l’aide d’une banque de 300 matrices modélisant les sites reconnus par divers facteurs de transcription. Les éléments de réponse aux œstrogènes (ERE) sont enrichis dans les promoteurs des gènes primaires. Les sites E2F sont enrichis dans les promoteurs des gènes cible secondaires. Un enrichissement similaire a été observé avec les régions liées par ERα et E2F1 en ChIP-on-chip pour chacune des catégories de gènes.
La croissance des cellules de carcinome mammaire est inhibée par des traitements à l’acide rétinoïque (RA). L’analyse de micropuces d’ADN de MCF7 traitées avec RA a permis d’identifier de nombreux gènes cibles potentiels. Un enrichissement d’éléments de réponse à l’acide rétinoïque (RARE) est observable dans les promoteurs de ces gènes après avoir exclus les RARE se trouvant à l’intérieur d’éléments transposables. Des RARE présents dans des éléments transposables spécifiques aux primates sont aussi fixés in vivo dans les promoteurs de cibles connues de RA : BTG2, CASP9 et GPRC5A. Certains gènes cibles de RA dans les MCF7 sont aussi des cibles de E2, suggérant que le contrôle que ces molécules exercent sur la prolifération est en partie attribuable à des effets opposés sur un ensemble commun de gènes. / Two thirds of breast tumours depend on estrogens for their growth. The network of genes mediating the proliferative effect of estrogens is not fully characterized. Putative primary and secondary estrogen target genes were identified with microarray analysis of MCF7 breast cancer cells treated with estradiol (E2) in presence or absence of the protein synthesis inhibitor cycloheximide (CHX). The promoters of the target genes were screened for transcription factor binding sites with a collection of 300 matrix based DNA-binding profiles. Estrogen response elements (EREs) were enriched in the promoters of primary target genes. E2F binding sites were enriched in the promoters of secondary target genes. Similar enrichment was also observed in regions bounds by ERα and E2F1 in ChIP-on-chip experiments for each set of target genes.
Retinoic acid (RA) treatment of mammary carcinoma cells inhibits their growth. Putative target genes were identified through microarray analysis of MCF7 cells treated with RA. Enrichment of retinoic acid response elements (RARE) was observed in their promoters after removing the elements found within transposable elements. Although transposable elements mask the enrichment, RARE within primate specific transposable elements are bound in vivo by retinoic acid receptors in the promoters of known target genes BTG2, CASP9 and GPRC5A. Some of the RA target genes in MCF7 cells are also target genes of E2 suggesting that these two molecules exert their effects on cell proliferation in part by opposite action on a common set of genes.
|
148 |
A new paradigm for the folding of ribonucleic acidsParisien, Marc 10 1900 (has links)
De récentes découvertes montrent le rôle important que joue l’acide ribonucléique (ARN) au sein des cellules, que ce soit le contrôle de l’expression génétique, la régulation de plusieurs processus homéostasiques, en plus de la transcription et la traduction de l’acide désoxyribonucléique (ADN) en protéine. Si l’on veut comprendre comment la cellule fonctionne, nous devons d’abords comprendre ses composantes et comment ils interagissent, et en particulier chez l’ARN. La fonction d’une molécule est tributaire de sa structure tridimensionnelle (3D). Or, déterminer expérimentalement la structure 3D d’un ARN s’avère fort coûteux. Les méthodes courantes de prédiction par ordinateur de la structure d’un ARN ne tiennent compte que des appariements classiques ou canoniques, similaires à ceux de la fameuse structure en double-hélice de l’ADN. Ici, nous avons amélioré la prédiction de structures d’ARN en tenant compte de tous les types possibles d’appariements, dont ceux dits non-canoniques. Cela est rendu possible dans le contexte d’un nouveau paradigme pour le repliement des ARN, basé sur les motifs cycliques de nucléotides ; des blocs de bases pour la construction des ARN. De plus, nous avons dévelopées de nouvelles métriques pour quantifier la précision des méthodes de prédiction des structures 3D des ARN, vue l’introduction récente de plusieurs de ces méthodes. Enfin, nous avons évalué le pouvoir prédictif des nouvelles techniques de sondage de basse résolution des structures d’ARN. / Recent findings show the important role of ribonucleic acid (RNA) within the cell, be it the control of gene expression, the regulation of several homeostatic processes, in addition to the transcription and translation of deoxyribonucleic acid (DNA) into protein. If we wish to understand how the cell works, we first need to understand its components and how they interact, and in particular for RNA. The function of a molecule is tributary of its three-dimensional (3D) structure. However, experimental determination of RNA 3D structures imparts great costs. Current methods for RNA structure prediction by computers only take into account the classical or canonical base pairs, similar to those found in the well-celebrated DNA double helix. Here, we improved RNA structure prediction by taking into account all possible types of base pairs, even those said non-canonicals. This is made possible in the context of a new paradigm for the folding of RNA, based on nucleotide cyclic motifs (NCM): basic blocks for the construction of RNA. Furthermore, we have developed new metrics to quantify the precision of RNA 3D structure prediction methods, given the recent introduction of many of those methods. Finally, we have evaluated the predictive power of the latest low-resolution RNA structure probing techniques.
|
149 |
A phylogenomics approach to resolving fungal evolution, and phylogenetic method developmentLiu, Yu 12 1900 (has links)
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement.
Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement
d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes.
Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de
données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même. / Despite the popularity of fungi as eukaryotic model systems, several questions on their phylogenetic relationships continue to be controversial. These include the classification of zygomycetes that are potentially paraphyletic, i.e. a combination of several not directly related fungal lineages. The phylogenetic position of Schizosaccharomyces species has also been controversial: do they belong to Taphrinomycotina (previously known as archiascomycetes) as predicted by analyses with nuclear genes, or are they instead related to Saccharomycotina (budding yeast) as in mitochondrial phylogenies? Another question concerns the precise phylogenetic position of nucleariids, a group of amoeboid eukaryotes that are believed to be close relatives of Fungi. Previously conducted multi-gene analyses have been inconclusive, because of limited taxon sampling and the use of only six nuclear genes.
We have addressed these issues by assembling phylogenomic nuclear and mitochondrial datasets for phylogenetic inference and statistical testing. According to our results zygomycetes appear to be paraphyletic (Chapter 2), but the phylogenetic signal in the available mitochondrial dataset is insufficient for resolving their branching order with statistical confidence. In Chapter 3 we show with a large nuclear dataset (more than 100 proteins) and conclusive supports that Schizosaccharomyces species are part of Taphrinomycotina. We further demonstrate that the conflicting grouping of Schizosaccharomyces with budding yeasts, obtained with mitochondrial sequences, results from a phylogenetic error known as long-branch attraction (LBA, a common artifact that leads to the regrouping of species with high evolutionary rates irrespective of their true phylogenetic positions). In Chapter 4, using again a large nuclear dataset we demonstrate with significant
statistical support that nucleariids are the closest known relatives of Fungi. We also confirm paraphyly of traditional zygomycetes as previously suggested, with significant support, but without placing all members of this group with confidence. Our results question aspects of a recent taxonomical reclassification of zygomycetes and their chytridiomycete neighbors (a group of zoospore-producing Fungi).
Overcoming or minimizing phylogenetic artifacts such as LBA has been among our most recurring questions. We have therefore developed a new method (Chapter 5) that identifies and eliminates sequence sites with highly uneven evolutionary rates (highly heterotachous sites, or HH sites) that are known to contribute significantly to LBA. Our method is based on a likelihood ratio test (LRT). Two previously published datasets are used to demonstrate that gradual removal of HH sites in fast-evolving species (suspected for LBA) significantly increases the support for the expected ‘true’ topology, in a more effective way than comparable, published methods of sequence site removal. Yet in general, data manipulation prior to analysis is far from ideal. Future development should aim at integration of HH site identification and weighting into the phylogenetic inference process itself.
|
150 |
Modeling protein evolution using secondary structuresMohaddes, Zia 08 1900 (has links)
L’évolution des protéines est un domaine important de la recherche en bioinformatique et catalyse l'intérêt de trouver des outils d'alignement qui peuvent être utilisés de manière fiable et modéliser avec précision l'évolution d'une famille de protéines. TM-Align (Zhang and Skolnick, 2005) est considéré comme l'outil idéal pour une telle tâche, en termes de rapidité et de précision.
Par conséquent, dans cette étude, TM-Align a été utilisé comme point de référence pour faciliter la détection des autres outils d'alignement qui sont en mesure de préciser l'évolution des protéines. En parallèle, nous avons élargi l'actuel outil d'exploration de structures secondaires de
protéines, Helix Explorer (Marrakchi, 2006), afin qu'il puisse également être utilisé comme un outil pour la modélisation de l'évolution des protéines. / Protein evolution is an important field of research in bioinformatics and catalyzes the requirement of finding alignment tools that can be used to reliably and accurately model the evolution of a protein family. TM-Align (Zhang and Skolnick, 2005) is considered to be the ideal tool for such a task, in terms of both speed and accuracy. Therefore in this study, TM-Align has been used as a
point of reference to facilitate the detection of other alignment tools that are able to accurately model protein evolution. In parallel, we expand the existing protein secondary structure explorer tool, Helix Explorer (Marrakchi, 2006), so that it can also be used as a tool to model protein
evolution.
|
Page generated in 0.3414 seconds