• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 108
  • 63
  • 34
  • 23
  • 7
  • Tagged with
  • 254
  • 168
  • 137
  • 137
  • 125
  • 123
  • 119
  • 45
  • 37
  • 31
  • 28
  • 25
  • 25
  • 24
  • 24
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
131

Caractérisation de variants génétiques pour estimer la prévalence de Niemann-Pick type C au Québec

Labrecque, Marjorie 07 1900 (has links)
La maladie de Niemann-Pick type C (NP-C) est une maladie autosomal récessive rare neurodégénérative, pan-ethnique et avec variabilité phénotypique. La forme classique se trouve chez les patients juvéniles, mais des patients de tous les âges existent. Les symptômes incluent des signes viscéraux, moteurs et neurologiques. La maladie est causée par une mutation dans le gène NPC1 ou NPC2. La prévalence mondiale se trouve à environ un cas par 100 000 naissances, mais varie beaucoup selon les populations. Pour cette raison, nous avons voulu identifier et classifier des variants qui se trouve dans la population québécoise pour faire une estimation de la prévalence de NP-C au Québec. Nous croyons que cette maladie neurodégénérative est sous-diagnostiquée. Pour identifier le pool génétique de la population québécoise, nous avons utilisé une approche bio-informatique. À l’aide des données de séquençage des 1109 participants sains de la cohorte CARTaGENE, nous avons identifié des variants rares, ayant des fréquences alléliques inférieures à 1%, dans les gènes NPC1 et NPC2. Les données de séquençage de l’ARN et d’exome ont été alignées, les variants ont été détectés et annotés avec différents scores de pathogénicité. Les variants ont ensuite été classifiés à l’aide des lignes directrices de l’ACMG. À l’aide de notre pipeline bio-informatique, nous avons identifié 37 variants rares. Parmi ces variants, un, p.I1061T, a été classifié comme pathogénique comme il l’est dans d’autres bases de données et un, p.P543L, initialement classifié comme potentiellement pathogénique a été classifié comme pathogénique dans notre population. Le variant p.P543L est d’ailleurs possiblement une mutation fondatrice chez les Canadiens-Français. La prévalence mesurée à l’aide des fréquences alléliques de ces deux variants est de 0,61 cas par 100 000 naissances. Cette étude a permis d’identifier deux variants pathogéniques dans une population saine, c’est-à dire sans maladie neurodégénérative connue. Nous avons ensuite pu estimer pour la première fois la prévalence minimale de NP-C au Québec. Les résultats suggèrent que NP-C est sous-diagnostiquée dans notre population. Avec ces informations, les méthodes de diagnostic pourront être ajustées pour accélérer la détection de NP-C au Québec et ainsi aider les patients en donnant accès au traitement disponible pour réduire les symptômes neurologiques. / Niemann-Pick type C disease (NP-C) is a rare autosomal recessive neurodegenerative, pan-ethnic disease with heterogenous symptoms. The classical form mainly affects juvenile patients, but patients of varying ages exist. The main symptoms are visceral, motor and neurological. The disease is caused by mutations in the NPC1 or NPC2 gene. The worldwide prevalence is approximately one case per 100 000 births but varies between populations. Therefore, we wanted to identify and classify rare variants found in Quebec’s population to estimate the prevalence of NP-C in this population. We hypothesized that NP-C is under-diagnosed in Quebec. To determine the genetic pool of NP-C in Quebec’s population, we used a bioinformatics pipeline. With the sequencing data of 1109 healthy individuals of the CARTaGENE cohort, we identified rare variants, with a minor allele frequency inferior to 1%, in the NPC1 and NPC2 genes. The sequencing data from RNA and exome sequencing was aligned and the variants were found and annotated with different pathogenicity scores. The variants were then classified using the ACMG guidelines. Using our bioinformatics pipeline, we identified a total of 37 rare variants. In those variants, one, p.I1061T, was directly classified as pathogenic since it was classified as that in all databases. The other one, p.P543L, was initially classified as likely pathogenic, but we were able to reclassify it as pathogenic in our population. The p.P543L variant is possibly a founder mutation in the French-Canadian population. Next, we estimated the prevalence based on the allelic frequencies of those two variants in our cohort. We found a prevalence of 0,61 case per 100 000 births. This study allowed us to identify two pathogenic variants in a healthy population, without known neurodegenerative disease. We were also able to estimate the first ever minimal prevalence for NP-C in Quebec. Our results suggests that NP-C is underdiagnosed in our population. With the information collected here, we would be able to adjust the diagnostic methods of NP-C in Quebec to then be able to help the patients by giving them access to the available treatment to reduce neurological symptoms.
132

In silico identification of PPR proteins

Le Sieur, Félix-Antoine 08 1900 (has links)
Les protéines PentatricoPeptide-Repeats (PPR) représentent la plus grande famille de protéines de liaison à l’ARN connue. Elles sont caractérisées par la présence de motifs répétés en tandem d’environ 35 résidus ayant une structure hélice-tour-hélice. Depuis les premières études sur l’organisme modèle Arabidopsis thaliana, les protéines PPR ont aussi été découvertes chez d’autres espèces non-plantes, incluant les levures et l’humain. Cependant, la détection des protéines PPR en dehors des plantes est compliquée par le fait que les outils de recherche sont tous conçus pour les protéines de plantes. Récemment, une étude réalisée chez les levures a rapporté une méthode itérative semi-automatisée d’identification de PPR utilisant des profils Hidden Markov Models (HMM). Inspirés par cette approche, nous visons ici à développer une méthode complètement automatisée plus généralisable et sensible qui ne dépend pas du protéome de départ. Comme preuve de concept, nous avons choisi une espèce non reliée aux plantes possédant le plus grand nombre de protéines PPR en-dehors des plantes – le protiste marin unicellulaire Diplonema papillatum. Il s’agit d’un modèle émergent ayant reçu beaucoup d’intérêt pour l’excentricité de l’expression de son génome mitochondrial, pour lequel il a été suggéré que les protéines PPR jouent un rôle clé. Nous avons ici développé une approche itérative pour identifier et cataloguer les protéines PPR chez D. papillatum. Les fonctionnalités particulières de notre algorithme incluent l’inspection des intervalles de 30 à 40 résidus entre les motifs classiques déjà identifiés et l’utilisation des structures secondaires caractéristiques des motifs PPR pour valider les motifs candidats nouvellement identifiés. Au final, nous avons identifié près de 800 motifs PPR chez D.papillatum, dont plusieurs motifs « déviants » identifiés dans les espaces entre les motifs. La validation expérimentale des motifs candidats les plus prometteurs est en attente. / PentatricoPeptide-Repeat (PPR) proteins represent the largest family of RNA-binding proteins known. They are defined by containing tandemly arranged, ~35-residue long motifs assuming a helix-turn-helix structure, which are referred to as PPR motifs. Since the seminal studies undertaken in the model organism Arabidopsis, a few PPR proteins have been also discovered outside plants, including yeast and human. However, the detection of PPR proteins in non-plant eukaryotes is complicated by the fact that current search tools are tailored toward plants. Recently, a semi-automated method has been reported for identifying PPR motifs in yeast using iterative searches with profile Hidden Markov models (HMMs). Inspired by this work, we aimed to develop a fully automated, sensitive approach that can be used for detecting PPR proteins in any species, when using the corresponding proteome as input. For a proof of concept, we used a species that contains the largest number of PPR genes outside the plant kingdom –the unicellular protist Diplonema papillatum. This emerging model system has garnered much interest for the eccentricities of its mitochondrial gene expression, in which PPR proteins are posited to play a key role. Here, we have developed an iterative HMM-search method that comprehensively catalogues and classifies PPR motifs in D. papillatum. Particular features of our algorithm are that it inspects closely 30 to 40 residue-long intervals between readily identified (classical) motifs, makes use of the characteristic secondary structure of PPR motifs to validate newly detected candidate motifs. In total, we have identified around 800 PPR motifs in D. papillatum. Including several deviant candidates detected in ”gaps”. High ranking representatives of both classical and deviant motifs await experimental validation.
133

Investigating Molecular Evolution of Rhodopsin Using Likelihood/Bayesian Phylogenetic Methods

Du, Jingjing 22 July 2010 (has links)
Rhodopsin, a visual pigment protein found in retinal photoreceptors, mediates vision at low-light levels. Recent studies focusing primarily in human and mouse have challenged the assumption of neutral evolution of synonymous substitutions in mammals. Using recently developed likelihood-based codon models accounting for mutational bias and selection, we find significant evidence for selective constraint on synonymous substitutions in mammalian rhodopsins, and a preference for cytosine at 3rd codon positions. A second project investigated adaptive evolution in rhodopsin, in view of theories of nocturnality in early mammals. We detected a significant acceleration of non-synonymous substitution rates at the origins of therian mammals, and a tendency of synonymous substitutions towards C-ending codons prior to that. These findings suggest an evolutionary scenario in which synonymous substitutions that increase mRNA stability and/or translation efficiency may have preceded adaptive non-synonymous evolution in early mammalian rhodopsins. These findings have important implications for theories of early mammalian nocturnality.
134

La cartographie des sites de régulation génétique à partir de données de débalancement allélique

Vello, Emilio D. 09 1900 (has links)
En 1975, Wilson et King ont proposé que l'évolution opère non seulement via des changements affectant la structure des protéines, mais aussi via des mutations qui modifient la régulation génétique. L'étude des éléments régulateurs de l'expression génétique a un rôle important dans la compréhension de l'expression de différentes maladies et de la réponse thérapeutique. Nous avons développé un algorithme bio- informatique qui nous permet rapidement de trouver des sites de régulation génétique à travers tout le génome et pour une grande quantité de gènes. Notre approche consiste à trouver des sites polymorphes (SNPs) qui sont en déséquilibre de liaison avec le débalancement allélique (AI) afin de cartographier la région régulatrice et le site responsable. Notre méthode est avantageuse par rapport à d'autres méthodes, car elle n'a pas besoin des données « phasées». De plus, les données de débalancement allélique ne sont pas affectées par des facteurs externes étant donné qu'ils sont mesurés dans la même cellule. Nous avons démontré que notre approche est fiable et qu'elle peut détecter des sites loin du gène. De plus, il peut être appliqué à des données de génotypage sans avoir besoin de les « phaser » . / Wilson and King (1975) proposed that evolution frequently operates through mutations affecting genetic regulation. Likewise, it is expected that genetic variation responsible for inter-individual differences will be due to variation in regulatory sites. Identifying such sites is thus important in the genetic and medical research. We have developed a new bioinformatics algorithm to find genome-wide regulatory sites for a big number of genes. Individuals carrying different alleles at a regulatory site will exhibit allelic imbalance(AI) due to differential expression of the two copies the same locus. Our approach consists of searching polymorphic sites (SNPs) in linkage disequilibrium with AI in order to map regulatory regions. We have detected many SNPs associated to the regulation of different genes pointed in previous studies. We have also found regulatory regions far from the transcription start site (TSS). The major advantage of this method is that phased data is not needed. In addition, AI data has the benefit of not being affected by external factors since it is measured in the same cell. The results show that our approach is reliable and it can detect sites far from the gene.
135

Performances de la puce exon et son application dans l’analyse de l’épissage alternatif associé à la métastase du cancer de sein

Bemmo, Amandine 09 1900 (has links)
Nous montrons l’utilisation de la puce exon d’Affymetrix pour l’analyse simultanée de l’expression des gènes et de la variation d’isoformes. Nous avons utilisé les échantillons d’ARN du cerveau et des tissus de référence qui ont été antérieurement utilisés dans l’étude du consortium MicroArray Quality Control (MAQC). Nous démontrons une forte concordance de la quantification de l’expression des gènes entre trois plateformes d’expression populaires à savoir la puce exon d’Affymetrix, la puce Illumina et la puce U133A d’Affymetrix. Plus intéressant nous montrons que la majorité des discordances entre les trois plateformes résulterait des positions différentes des sondes à travers les plateformes et que les variations d’isoforme exactes ne peuvent être identifiées que par la puce exon. Nous avons détecté avec succès, entre les tissus de référence et ceux du cerveau, une centaine de cas d’évènements d’épissage alternatif. La puce exon est requise dans l’analyse de l’épissage alternatif associé aux pathologies telles que les cancers et les troubles neurologiques. Comme application de cette technologie, nous avons analysé les variations d’épissage dans la métastase du cancer de sein développé dans le model de la souris. Nous avons utilisé une gamme bien définie de trois lignées de tumeur mammaire ayant différents potentiels métastatiques. Par des analyses statistiques, nous avons répertorié 2623 transcripts présentant des variations d’expression et d’isoformes entre les types de tumeur. Une analyse du réseau de gènes montre qu’environ la moitié d’entre eux est impliquée dans plusieurs activités cellulaires, ainsi que dans nombreux cancers et désordres génétiques. / We demonstrate how the Affymetrix Exon Array, can be used to simultaneously profile gene expression level, and detect variations at the isoform level. We use a well studied set of brain and reference RNA samples previously used by the MicroArray Quality Control (MAQC) consortium study. We demonstrate a high concordance of gene expression measurements among three popular expression platforms – Affymetrix Exon Array, Illumina, and Affymetrix 3’ targeted array (U133A). More interestingly, we show that in many cases of discordant results, the effect can be explained by differential probe placements across platforms, and that the exact isoform change can only be captured by the Exon Array. Finally, we are able to detect hundreds of cases of splicing, transcript initiation, and termination differences between the brain and reference tissue samples. We propose that the Exon Array is a highly effective tool for transcript isoform profiling, and that it should be used in a variety of systems where such changes are known to be associated with diseases, such as neurological disorders and cancer. As application, we used the Affymetrix Exon Array to identify metastatis-specific alternative splicing in mouse model of breast cancer at the whole genome level. We utilize a well characterized series of three mouse mammary tumor lines exhibiting varying levels of metastatic potential. We catalogued 2623 transcripts which exhibit splicing aberrations during the progression of cancer. A genetic pathway analysis shows the half of them implicated in several cell activities, cancers and genetic disorders.
136

Caractérisation du microDNome et sa modulation par le traitement anti-cancer

Mehanna, Pamela 11 1900 (has links)
Récemment, une nouvelle classe d'ADN circulaire extrachromosomique (eccDNA) appelée microADN a été identifiée dans des tissus humains et murins. Ces microADNs ont une longueur de 100 à 400 pb, sont dérivés de régions génomiques non répétitives uniques et présentent un enrichissement au niveau des régions géniques et riches en GC. Bien qu'il ait été proposé qu'ils puissent provenir du métabolisme de l'ARN ou des défauts de réplication, leurs mécanismes de production et leur éventuelle fonctionnalité restent à déterminer. Grâce à l'analyse des microADNs extraits d'une série de 10 lignées cellulaires lymphoblastoïdes humaines (LCL), nous avons confirmé la distribution nonaléatoire des microADNs vers les régions actives du génome. Les microADNs identifiés présentaient des loci d'origine redondants et une périodicité de taille de 190 pb pouvant correspondre à la fragmentation de l'ADN lors de l'apoptose caspase-dépendante. L'apoptose induite de ces LCLs par des drogues chimiothérapeutiques (méthotrexate ou L-asparaginase) a entrainé la modulation de la diversité et de la taille des microADNs, suggérant qu'une partie de ces entités pourrait être des produits résiduels de la mort cellulaire apoptotique. Ainsi, bien que compatible avec l'observation initiale suggérant que les microADNs proviennent d'un processus physiologique normal, ces résultats impliquent une source de production alternative ou complémentaire. / Recently, a new class of extrachromosomal circular DNA (eccDNA) called microDNA was identified in mouse and human tissues. These microDNAs are 100 to 400 bp long, derive from unique nonrepetitive genomic regions and show an enrichment in GC rich and genic sequences. While it has been proposed that they could arise from RNA metabolism or replication defects, their production mechanisms and eventual functionality remain unclear. Through the analysis of microDNAs extracted from a series of 10 human lymphoblastoid cell lines (LCLs), we confirmed the non-random distribution of microDNA towards active regions of the genome. Identified microDNAs showed redundant loci of origin and a size periodicity of 190 bp that matched caspase-dependant DNA fragmentation of apoptotic cells. Strikingly, the chemotherapeutic drug-induced apoptosis (using methotrexate or Lasparaginase) of these LCLs modulated both diversity and size of microDNAs further suggesting that a part of microDNAs could represent circularized by-products of the programmed cell death. Thus, while compatible with the original observation that microDNAs originated from a normal physiological process, these results imply an alternative or complementary source of production.
137

Décodage de l'expression de gènes cryptiques

Moreira, Sandrine 08 1900 (has links)
Pour certaines espèces, les nouvelles technologies de séquençage à haut débit et les pipelines automatiques d'annotation permettent actuellement de passer du tube Eppendorf au fichier genbank en un clic de souris, ou presque. D'autres organismes, en revanche, résistent farouchement au bio-informaticien le plus acharné en leur opposant une complexité génomique confondante. Les diplonémides en font partie. Ma thèse est centrée sur la découverte de nouvelles stratégies d'encryptage de l'information génétique chez ces eucaryotes, et l'identification des processus moléculaires de décodage. Les diplonémides sont des protistes marins qui prospèrent à travers tous les océans de la planète. Ils se distinguent par une diversité d'espèces riche et inattendue. Mais la caractéristique la plus fascinante de ce groupe est leur génome mitochondrial en morceaux dont les gènes sont encryptés. Ils sont décodés au niveau ARN par trois processus: (i) l'épissage en trans, (ii) l'édition par polyuridylation à la jonction des fragments de gènes, et (iii) l'édition par substitution de A-vers-I et C-vers-T; une diversité de processus posttranscriptionnels exceptionnelle dans les mitochondries. Par des méthodes bio-informatiques, j'ai reconstitué complètement le transcriptome mitochondrial à partir de données de séquences ARN à haut débit. Nous avons ainsi découvert six nouveaux gènes dont l'un présente des isoformes par épissage alternatif en trans, 216 positions éditées par polyuridylation sur 14 gènes (jusqu'à 29 uridines par position) et 114 positions éditées par déamination de A-vers-I et C-vers-T sur sept gènes (nad4, nad7, rns, y1, y2, y3, y5). Afin d'identifier les composants de la machinerie réalisant la maturation des ARNs mitochondriaux, le génome nucléaire a été séquencé, puis je l'ai assemblé et annoté. Cette machinerie est probablement singulière et complexe car aucun signal en cis ni acteur en trans caractéristiques des machineries d'épissage connues n'a été trouvé. J'ai identifié plusieurs candidats prometteurs qui devront être validés expérimentalement: des ARN ligases, un nombre important de protéines de la famille des PPR impliquées dans l'édition des ARNs dans les organites de plantes, ainsi que plusieurs déaminases. Durant ma thèse, nous avons mis en évidence de nouveaux types de maturation posttranscriptionnelle des ARNs dans la mitochondrie des diplonémides et identifié des candidats prometteurs de la machinerie. Ces composants, capables de lier précisément des fragments d'ARN et de les éditer pourraient trouver des applications biotechnologique. Au niveau évolutif, la caractérisation de nouvelles excentricités moléculaires de ce type nous donne une idée des processus de recrutement de gènes, de leur adaptation à de nouvelles fonctions, et de la mise en place de machineries moléculaires complexes. / Thanks to new high throughput sequencing technologies and automatic annotation pipelines, proceeding from an eppendorf tube to a genbank file can be achieved in a single mouse click or so, for some species. Others, however, fiercely resist bioinformaticians with their confounding genomic complexity. Diplonemids are one of them. My thesis is centered on the discovery of new strategies for encrypting genetic information in eukaryotes, and the identification of molecular decoding processes. Diplonemids are a group of poorly studied marine protists. Unexpectedly, metagenomic studies have recently ranked this group as one of the most diverse in the oceans. Yet, their most distinctive feature is their multipartite mitochondrial genome with genes in pieces, and encryption by nucleotide deletions and substitutions. Genes are decrypted at the RNA level through three processes: (i) trans-splicing, (ii) polyuridylation at the junction of gene pieces and (iii) substitutions of A-to-I and C-to-T. Such a diverse arsenal of mitochondrial post-transcriptional processes is highly exceptional. Using a bioinformatics approach, I have reconstructed the mitochondrial transcriptome from RNA-seq libraries. We have identified six new genes including one that presents alternative trans-splicing isoforms. In total, there are 216 uridines added in 14 genes with up to 29 U insertions, and 114 positions edited by deamination (A-to-I or C-to-T) among seven genes (nad4, nad7, rns, y1, y2, y3, y5). In order to identify the machinery that processes mitochondrial RNAs, the nuclear genome has been sequenced. I have then assembled and annotated the genome. This machinery is probably unique and complex because no cis signal or trans actor typical for known splicing machineries have been found. I have identified promising protein candidates that are worth to be tested experimentally, notably RNA ligases, numerous members of the PPR family involved in plants RNA editing and deaminases. During my thesis, we have identified new types of post-transcriptional RNA processing in diplonemid mitochondria and identified new promising candidates for the machinery. A system capable of joining precisely or editing RNAs could find biotechnological applications. From an evolutionary perspective, the discovery of new molecular systems gives insight into the process of gene recruitment, adaptation to new functions and establishment of complex molecular machineries.
138

Estimation des longueurs de branche et artefact sur la datation moléculaire

El Alaoui, Wafae 08 1900 (has links)
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence. Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes. Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques. Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation. / Molecular phylogeny provides an additional tool complementary to paleontological and geological studies, allowing the reconstruction of phylogenetic relationships between species and the estimate of their divergence time. Researchers are mainly focusing on the topology of a phylogenetic tree; i.e. the relative connection between different nodes. Whereas, the branch lengths of this phylogeny are often considered as secondary, i.e. as additional parameters containing little information. However, the branch lengths are the primary information for molecular dating. Importantly, saturation, the presence of multiple substitutions at the same position, is an artifact that leads to an underestimation of the branch length. We are therefore interested in estimating the magnitude of this phenomenon and its impact on divergence time. We chose to study the mammalian mitochondrial genome, which is available for many species and displays a high level of saturation. Furthermore, the phylogenetic relationships of mammalians are known, thus allowing us to fix the topology, thus eliminating one of the parameters influencing the branch lengths. We used two main approaches to improve the detection of multiple substitutions: (i) an increase in the number of species breaks the longest branches of the tree, (ii) more realistic models of sequence evolution. The results demonstrate that there is a very pronounced underestimation of branch lengths (up to a factor of 3). Furthermore, the use of a large number of species is the factor that influences most the detection of multiple substitutions, not the improvement of the model of sequence evolution. This suggests that even the most complex evolutionary models currently available, like the CAT+ Covarion model, which takes into account the heterogeneity of the substitution process between sites and the rates of evolution over time, are still far from taking the entire complexity of biological processes into account. Despite the important underestimation of branch lengths, the impact on dating appeared to be relatively limited, because the underestimation is more or less homothetic. This is obviously true for the complex evolutionary models. Since multiple substitutions are most effectively detected when breaking the long internal branches via the addition of species. This raises the problem of bias in the taxonomic sampling, due to the impact of extinction on the history of life on earth. Because this kind of bias leads to a non-homothetic underestimation, we consider it essential to improve models of sequence evolution and suggest that the protocol developed in this work will allow to evaluate their effectiveness towards saturation.
139

Annotation des ARN non codants du génome de Candida albicans par méthode bioinformatique

Scott-Boyer, Marie Pier 02 1900 (has links)
La bio-informatique est un champ pluridisciplinaire qui utilise la biologie, l’informatique, la physique et les mathématiques pour résoudre des problèmes posés par la biologie. L’une des thématiques de la bio-informatique est l’analyse des séquences génomiques et la prédiction de gènes d’ARN non codants. Les ARN non codants sont des molécules d’ARN qui sont transcrites mais pas traduites en protéine et qui ont une fonction dans la cellule. Trouver des gènes d’ARN non codants par des techniques de biochimie et de biologie moléculaire est assez difficile et relativement coûteux. Ainsi, la prédiction des gènes d’ARNnc par des méthodes bio-informatiques est un enjeu important. Cette recherche décrit un travail d’analyse informatique pour chercher des nouveaux ARNnc chez le pathogène Candida albicans et d’une validation expérimentale. Nous avons utilisé comme stratégie une analyse informatique combinant plusieurs logiciels d’identification d’ARNnc. Nous avons validé un sous-ensemble des prédictions informatiques avec une expérience de puces à ADN couvrant 1979 régions du génome. Grace à cette expérience nous avons identifié 62 nouveaux transcrits chez Candida albicans. Ce travail aussi permit le développement d’une méthode d’analyse pour des puces à ADN de type tiling array. Ce travail présente également une tentation d’améliorer de la prédiction d’ARNnc avec une méthode se basant sur la recherche de motifs d’ARN dans les séquences. / Bioinformatics is a multidisciplinary field that uses biology, computer science, physics and mathematics to solve problems in biology. One of the topics of bioinformatics is the analysis of genomic sequences and prediction of genes from non-coding RNA (ncRNA). The non-coding RNAs are RNA molecules that are transcribed but not translated into protein and have a function in the cell. The use of biochemistry and molecular biology techniques in order to find non-coding RNA genes is rather difficult and relatively expensive. Thus, the prediction of genes by bioinformatics methods is an important issue. This research describes a computer analysis to search for new ncRNA in the pathogen Candida albicans and an experimental validation. The strategy used was to combine several algorithms and to validate a subset of computer predictions with a microarray experience covering 1979 regions of the genome. We have identified 62 new transcripts in Candida albicans. We have also developed an analytical method for tiling array and attempted to improve the prediction of ncRNAs this with a method based on the search of RNA motifs in the sequences.
140

Identification in silico d’éléments de réponse de récepteurs nucléaires impliqués dans le cancer du sein

Laperrière, David 04 1900 (has links)
La croissance de deux tiers des tumeurs mammaires dépend des œstrogènes. Le réseau de gènes responsable de propager les signaux prolifératifs des œstrogènes est encore mal connu. Des micropuces d’ADN de cellules de carcinome mammaire MCF7 traitées à l’œstradiol (E2) avec ou sans l’inhibiteur de synthèse protéique cycloheximide (CHX) ont permis d’identifier de nombreux gènes cibles primaires et secondaires. La séquence des promoteurs des gènes cibles a été criblée à l’aide d’une banque de 300 matrices modélisant les sites reconnus par divers facteurs de transcription. Les éléments de réponse aux œstrogènes (ERE) sont enrichis dans les promoteurs des gènes primaires. Les sites E2F sont enrichis dans les promoteurs des gènes cible secondaires. Un enrichissement similaire a été observé avec les régions liées par ERα et E2F1 en ChIP-on-chip pour chacune des catégories de gènes. La croissance des cellules de carcinome mammaire est inhibée par des traitements à l’acide rétinoïque (RA). L’analyse de micropuces d’ADN de MCF7 traitées avec RA a permis d’identifier de nombreux gènes cibles potentiels. Un enrichissement d’éléments de réponse à l’acide rétinoïque (RARE) est observable dans les promoteurs de ces gènes après avoir exclus les RARE se trouvant à l’intérieur d’éléments transposables. Des RARE présents dans des éléments transposables spécifiques aux primates sont aussi fixés in vivo dans les promoteurs de cibles connues de RA : BTG2, CASP9 et GPRC5A. Certains gènes cibles de RA dans les MCF7 sont aussi des cibles de E2, suggérant que le contrôle que ces molécules exercent sur la prolifération est en partie attribuable à des effets opposés sur un ensemble commun de gènes. / Two thirds of breast tumours depend on estrogens for their growth. The network of genes mediating the proliferative effect of estrogens is not fully characterized. Putative primary and secondary estrogen target genes were identified with microarray analysis of MCF7 breast cancer cells treated with estradiol (E2) in presence or absence of the protein synthesis inhibitor cycloheximide (CHX). The promoters of the target genes were screened for transcription factor binding sites with a collection of 300 matrix based DNA-binding profiles. Estrogen response elements (EREs) were enriched in the promoters of primary target genes. E2F binding sites were enriched in the promoters of secondary target genes. Similar enrichment was also observed in regions bounds by ERα and E2F1 in ChIP-on-chip experiments for each set of target genes. Retinoic acid (RA) treatment of mammary carcinoma cells inhibits their growth. Putative target genes were identified through microarray analysis of MCF7 cells treated with RA. Enrichment of retinoic acid response elements (RARE) was observed in their promoters after removing the elements found within transposable elements. Although transposable elements mask the enrichment, RARE within primate specific transposable elements are bound in vivo by retinoic acid receptors in the promoters of known target genes BTG2, CASP9 and GPRC5A. Some of the RA target genes in MCF7 cells are also target genes of E2 suggesting that these two molecules exert their effects on cell proliferation in part by opposite action on a common set of genes.

Page generated in 0.0176 seconds