161 |
Impact des variants génétiques sur la réponse immunitaire des populations humainesNédélec, Yohann 06 1900 (has links)
No description available.
|
162 |
Étude de la relation entre structure, dynamique et fonction de l’ARN par l’ingénierie du ribozyme VS de NeurosporaGirard, Nicolas 08 1900 (has links)
No description available.
|
163 |
Use of data analysis techniques to solve specific bioinformatics problems / Apport de techniques d'analyse de données pour résoudre des problèmes spécifiques en bio-informatiqueMoulin, Serge 12 December 2018 (has links)
De nos jours, la quantité de données génétiques séquencées augmente de manière exponentielle sous l'impulsion d'outils de séquençage de plus en plus performants, tels que les outils de séquençage haut débit en particulier. De plus, ces données sont de plus en plus facilement accessibles grâce aux bases de données en ligne. Cette plus grande disponibilité des données ouvre de nouveaux sujets d'étude qui nécessitent de la part des statisticiens et bio-informaticiens de développer des outils adaptés. Par ailleurs, les progrès constants de la statistique, dans des domaines tels que le clustering, la réduction de dimension, ou les régressions entre autres, nécessitent d'être régulièrement adaptés au contexte de la bio-informatique. L’objectif de cette thèse est l’application de techniques avancées de statistiques à des problématiques de bio-informatique. Dans ce manuscrit, nous présentons les résultats de nos travaux concernant le clustering de séquences génétiques via Laplacian eigenmaps et modèle de mélange gaussien, l'étude de la propagation des éléments transposables dans le génome via un processus de branchement, l'analyse de données métagénomiques en écologie via des courbes ROC ou encore la régression polytomique ordonnée pénalisée par la norme l1. / Nowadays, the quantity of sequenced genetic data is increasing exponentially under the impetus of increasingly powerful sequencing tools, such as high-throughput sequencing tools in particular. In addition, these data are increasingly accessible through online databases. This greater availability of data opens up new areas of study that require statisticians and bioinformaticians to develop appropriate tools. In addition, constant statistical progress in areas such as clustering, dimensionality reduction, regressions and others needs to be regularly adapted to the context of bioinformatics. The objective of this thesis is the application of advanced statistical techniques to bioinformatics issues. In this manuscript we present the results of our works concerning the clustering of genetic sequences via Laplacian eigenmaps and Gaussian mixture model, the study of the propagation of transposable elements in the genome via a branching process, the analysis of metagenomic data in ecology via ROC curves or the ordinal polytomous regression penalized by the l1-norm.
|
164 |
Règles de cohérence pour l'annotation génomique : développement et mise en oeuvre in silico et in vivoBeyne, Emmanuelle 17 January 2008 (has links) (PDF)
L'annotation génomique identifie l'ensemble des éléments significatifs présents sur l'ADN génomique, le support du programme de fonctionnement de l'organisme. Elle prédit leurs fonctions biologiques et leurs relations. L'annotation d'un génome complet est soumise à diverses contraintes: elle doit être réalisée rapidement et représenter l'organisme comme système biologique fonctionnel cohérent. Nous proposons une méthode de vérification de la qualité de l'annotation génomique, basée sur un ensemble de règles de cohérence définies d'après les connaissances et contraintes biologiques admises par la communauté scientifique. Ces règles vérifient la complétude de l'annotation (présence des éléments vitaux pour l'organisme) et son absence d'erreur (sens biologique correct des éléments décrits). Notre méthode est appliquée dans le cadre du projet Génolevures, un projet de génomique comparée chez les levures hémiascomycètes. Nous avons mis en place un système d'annotation facilitant le travail d'annotation manuelle par les experts. L'intégration de nos règles dans ce système permet de garantir la bonne qualité de l'annotation produite. Nous avons choisi de valider expérimentalement l'application de ces règles en étudiant les interactions protéine-protéine chez les levures Saccharomyces cerevisiae et Yarrowia lipolytica par la technique de l'électrophorèse en gel de polyacrylamide en bleu natif et SDS (BN/SDS PAGE). Les résultats obtenus apportent de nouvelles connaissances chez les levures étudiées. Ils démontrent l'universalité de certaines règles et le bien fondé de la stratégie d'annotation.
|
165 |
Distribution de valuations sur les arbres.Nguyên-Thê, Michel 09 February 2004 (has links) (PDF)
Cette thèse étudie la distribution limite de paramètres définis récursivement sur des arbres (graphes enracinés). Un premier paramètre étudié est le résultat d'expressions arithmétiques tirées aléatoirement. Une application est l'amélioration heuristique d'un algorithme de recherche de structures secondaires d'ARN. Un autre paramètre étudié est la taille d'expressions logiques ou arithmétiques réduites selon des lois idempotentes, nilpotentes ou d'absorption. J'étudie des fonctionnelles polynomiales du mouvement brownien standard, du pont, du méandre, et de l'excursion browniens en utilisant la méthode des moments à base de séries génératrices et d'analyse de singularité. J'obtiens la limite gaussienne de la loi jointe de la taille et de la longueur de cheminement interne des tries avec source de Bernoulli en utilisant des méthodes de point fixe.
|
166 |
Algorithmes de prédiction et de recherche de multi-structures d'ARNSaffarian, Azadeh 16 November 2011 (has links) (PDF)
L'ARN (acide ribonucléique) est une molécule ubiquitaire qui joue plusieurs rôles fondamentaux au sein de la cellule: synthèse des protéines avec les ARN messagers, activité catalytique ou implicationdans la régulation, les ARN non-codants. Les nouvelles technologies de séquençage à haut-débit permettent de produire des milliards de séquences à moindre coût, posant de manière cruciale la question de l'analyse de ces données. L'objectif de cette thèse est de définir de nouvelles méthodes computationnelles pour aider à l'analyse de ces séquences dans le cas des ARN non-codants. Dans cette perspective, la "structure secondaire" d'un ARN, formée par l'ensemble des appariements entrebases, délivre des informations utiles pour étudier la fonction de l'ARN. Notre travail se concentre plus particulièrement sur l'ensemble des structures potentielles que peut adopter une séquence d'ARN donnée, ensemble que nous appelons "multi-structure". Nous apportons deux contributions: un algorithme pour générer systématiquement toutes les structures localement optimales composantune multi-structure, et un algorithme basé sur la recherche d'unemulti-structure pour identifier un ARN non-codant dans une séquence génomique. Ces résultats ont été mis en oeuvre dans deux logiciels, Alterna et Regliss, appliqués avec succès à des ensembles de test.
|
167 |
Algorithmes pour la reconstruction de génomes ancestrauxGagnon, Yves 05 1900 (has links)
L’inférence de génomes ancestraux est une étape essentielle pour l’étude de l’évolution
des génomes. Connaissant les génomes d’espèces éteintes, on peut proposer des
mécanismes biologiques expliquant les divergences entre les génomes des espèces modernes.
Diverses méthodes visant à résoudre ce problème existent, se classant parmis deux
grandes catégories : les méthodes de distance et les méthodes de synténie. L’état de l’art
des distances génomiques ne permettant qu’un certain répertoire de réarrangements pour
le moment, les méthodes de synténie sont donc plus appropriées en pratique.
Nous proposons une méthode de synténie pour la reconstruction de génomes ancestraux
basée sur une définition relaxée d’adjacences de gènes, permettant un contenu en
gène inégal dans les génomes modernes causé par des pertes de gènes de même que des
duplications de génomes entiers (DGE). Des simulations sont effectuées, démontrant
une capacité de former une solution assemblée en un nombre réduit de régions ancestrales
contigües par rapport à d’autres méthodes tout en gardant une bonne fiabilité. Des
applications sur des données de levures et de plantes céréalières montrent des résultats
en accord avec d’autres publications, notamment la présence de fusion imbriquée de
chromosomes pendant l’évolution des céréales. / Ancestral genome inference is a decisive step for studying genome evolution. Knowing
genomes from extinct species, one can propose biological mecanisms explaining
divergences between extant species genomes.
Various methods classified in two categories have been developped : distance based
methods and synteny based methods. The state of the art of distance based methods only
permit a certain repertoire of genomic rearrangements, thus synteny based methods are
more appropriate in practice for the time being.
We propose a synteny method for ancestral genome reconstruction based on a relaxed
defenition of gene adjacencies, permitting unequal gene content in extant genomes
caused by gene losses and whole genome duplications (WGD). Simulations results demonstrate
our method’s ability to form a more assembled solution rather than a collection of
contiguous ancestral regions (CAR) with respect to other methods, while maintaining a
good reliability. Applications on data sets from yeasts and cereal species show results
agreeing with other publications, notably the existence of nested chromosome fusion
during the evolution of cereals.
|
168 |
A phylogenomics approach to resolving fungal evolution, and phylogenetic method developmentLiu, Yu 12 1900 (has links)
Bien que les champignons soient régulièrement utilisés comme modèle d'étude des systèmes eucaryotes, leurs relations phylogénétiques soulèvent encore des questions controversées. Parmi celles-ci, la classification des zygomycètes reste inconsistante. Ils sont potentiellement paraphylétiques, i.e. regroupent de lignées fongiques non directement affiliées. La position phylogénétique du genre Schizosaccharomyces est aussi controversée: appartient-il aux Taphrinomycotina (précédemment connus comme archiascomycetes) comme prédit par l'analyse de gènes nucléaires, ou est-il plutôt relié aux Saccharomycotina (levures bourgeonnantes) tel que le suggère la phylogénie mitochondriale? Une autre question concerne la position phylogénétique des nucléariides, un groupe d'eucaryotes amiboïdes que l'on suppose étroitement relié aux champignons. Des analyses multi-gènes réalisées antérieurement n'ont pu conclure, étant donné le choix d'un nombre réduit de taxons et l'utilisation de six gènes nucléaires seulement.
Nous avons abordé ces questions par le biais d'inférences phylogénétiques et tests statistiques appliqués à des assemblages de données phylogénomiques nucléaires et mitochondriales. D'après nos résultats, les zygomycètes sont paraphylétiques (Chapitre 2) bien que le signal phylogénétique issu du jeu de données mitochondriales disponibles est insuffisant pour résoudre l'ordre de cet embranchement avec une confiance statistique significative. Dans le Chapitre 3, nous montrons à l'aide d'un jeu de données nucléaires important (plus de cent protéines) et avec supports statistiques concluants, que le genre Schizosaccharomyces appartient aux Taphrinomycotina. De plus, nous démontrons que le regroupement conflictuel des Schizosaccharomyces avec les Saccharomycotina, venant des données mitochondriales, est le résultat d'un type d'erreur phylogénétique connu: l'attraction des longues branches (ALB), un artéfact menant au regroupement
d'espèces dont le taux d'évolution rapide n'est pas représentatif de leur véritable position dans l'arbre phylogénétique. Dans le Chapitre 4, en utilisant encore un important jeu de données nucléaires, nous démontrons avec support statistique significatif que les nucleariides constituent le groupe lié de plus près aux champignons. Nous confirmons aussi la paraphylie des zygomycètes traditionnels tel que suggéré précédemment, avec support statistique significatif, bien que ne pouvant placer tous les membres du groupe avec confiance. Nos résultats remettent en cause des aspects d'une récente reclassification taxonomique des zygomycètes et de leurs voisins, les chytridiomycètes.
Contrer ou minimiser les artéfacts phylogénétiques telle l'attraction des longues branches (ALB) constitue une question récurrente majeure. Dans ce sens, nous avons développé une nouvelle méthode (Chapitre 5) qui identifie et élimine dans une séquence les sites présentant une grande variation du taux d'évolution (sites fortement hétérotaches - sites HH); ces sites sont connus comme contribuant significativement au phénomène d'ALB. Notre méthode est basée sur un test de rapport de vraisemblance (likelihood ratio test, LRT). Deux jeux de données publiés précédemment sont utilisés pour démontrer que le retrait graduel des sites HH chez les espèces à évolution accélérée (sensibles à l'ALB) augmente significativement le support pour la topologie « vraie » attendue, et ce, de façon plus efficace comparée à d'autres méthodes publiées de retrait de sites de séquences. Néanmoins, et de façon générale, la manipulation de
données préalable à l'analyse est loin d’être idéale. Les développements futurs devront viser l'intégration de l'identification et la pondération des sites HH au processus d'inférence phylogénétique lui-même. / Despite the popularity of fungi as eukaryotic model systems, several questions on their phylogenetic relationships continue to be controversial. These include the classification of zygomycetes that are potentially paraphyletic, i.e. a combination of several not directly related fungal lineages. The phylogenetic position of Schizosaccharomyces species has also been controversial: do they belong to Taphrinomycotina (previously known as archiascomycetes) as predicted by analyses with nuclear genes, or are they instead related to Saccharomycotina (budding yeast) as in mitochondrial phylogenies? Another question concerns the precise phylogenetic position of nucleariids, a group of amoeboid eukaryotes that are believed to be close relatives of Fungi. Previously conducted multi-gene analyses have been inconclusive, because of limited taxon sampling and the use of only six nuclear genes.
We have addressed these issues by assembling phylogenomic nuclear and mitochondrial datasets for phylogenetic inference and statistical testing. According to our results zygomycetes appear to be paraphyletic (Chapter 2), but the phylogenetic signal in the available mitochondrial dataset is insufficient for resolving their branching order with statistical confidence. In Chapter 3 we show with a large nuclear dataset (more than 100 proteins) and conclusive supports that Schizosaccharomyces species are part of Taphrinomycotina. We further demonstrate that the conflicting grouping of Schizosaccharomyces with budding yeasts, obtained with mitochondrial sequences, results from a phylogenetic error known as long-branch attraction (LBA, a common artifact that leads to the regrouping of species with high evolutionary rates irrespective of their true phylogenetic positions). In Chapter 4, using again a large nuclear dataset we demonstrate with significant
statistical support that nucleariids are the closest known relatives of Fungi. We also confirm paraphyly of traditional zygomycetes as previously suggested, with significant support, but without placing all members of this group with confidence. Our results question aspects of a recent taxonomical reclassification of zygomycetes and their chytridiomycete neighbors (a group of zoospore-producing Fungi).
Overcoming or minimizing phylogenetic artifacts such as LBA has been among our most recurring questions. We have therefore developed a new method (Chapter 5) that identifies and eliminates sequence sites with highly uneven evolutionary rates (highly heterotachous sites, or HH sites) that are known to contribute significantly to LBA. Our method is based on a likelihood ratio test (LRT). Two previously published datasets are used to demonstrate that gradual removal of HH sites in fast-evolving species (suspected for LBA) significantly increases the support for the expected ‘true’ topology, in a more effective way than comparable, published methods of sequence site removal. Yet in general, data manipulation prior to analysis is far from ideal. Future development should aim at integration of HH site identification and weighting into the phylogenetic inference process itself.
|
169 |
Estimation des longueurs de branche et artefact sur la datation moléculaireEl Alaoui, Wafae 08 1900 (has links)
La phylogénie moléculaire fournit un outil complémentaire aux études paléontologiques et géologiques en permettant la construction des relations phylogénétiques entre espèces ainsi que l’estimation du temps de leur divergence. Cependant lorsqu’un arbre phylogénétique est inféré, les chercheurs se focalisent surtout sur la topologie, c'est-à-dire l’ordre de branchement relatif des différents nœuds. Les longueurs des branches de cette phylogénie sont souvent considérées comme des sous-produits, des paramètres de nuisances apportant peu d’information. Elles constituent cependant l’information primaire pour réaliser des datations moléculaires. Or la saturation, la présence de substitutions multiples à une même position, est un artefact qui conduit à une sous-estimation systématique des longueurs de branche. Nous avons décidé d’estimer l‘influence de la saturation et son impact sur l’estimation de l’âge de divergence.
Nous avons choisi d’étudier le génome mitochondrial des mammifères qui est supposé avoir un niveau élevé de saturation et qui est disponible pour de nombreuses espèces. De plus, les relations phylogénétiques des mammifères sont connues, ce qui nous a permis de fixer la topologie, contrôlant ainsi un des paramètres influant la longueur des branches. Nous avons utilisé principalement deux méthodes pour améliorer la détection des substitutions multiples : (i) l’augmentation du nombre d’espèces afin de briser les plus longues branches de l’arbre et (ii) des modèles d’évolution des séquences plus ou moins réalistes.
Les résultats montrèrent que la sous-estimation des longueurs de branche était très importante (jusqu'à un facteur de 3) et que l’utilisation d'un grand nombre d’espèces est un facteur qui influence beaucoup plus la détection de substitutions multiples que l’amélioration des modèles d’évolutions de séquences. Cela suggère que même les modèles d’évolution les plus complexes disponibles actuellement, (exemple: modèle CAT+Covarion, qui prend en compte l’hétérogénéité des processus de substitution entre positions et des vitesses d’évolution au cours du temps) sont encore loin de capter toute la complexité des processus biologiques.
Malgré l’importance de la sous-estimation des longueurs de branche, l’impact sur les datations est apparu être relativement faible, car la sous-estimation est plus ou moins homothétique. Cela est particulièrement vrai pour les modèles d’évolution. Cependant, comme les substitutions multiples sont le plus efficacement détectées en brisant les branches en fragments les plus courts possibles via l’ajout d’espèces, se pose le problème du biais dans l’échantillonnage taxonomique, biais dû à l‘extinction pendant l’histoire de la vie sur terre. Comme ce biais entraine une sous-estimation non-homothétique, nous considérons qu’il est indispensable d’améliorer les modèles d’évolution des séquences et proposons que le protocole élaboré dans ce travail permettra d’évaluer leur efficacité vis-à-vis de la saturation. / Molecular phylogeny provides an additional tool complementary to paleontological and geological studies, allowing the reconstruction of phylogenetic relationships between species and the estimate of their divergence time. Researchers are mainly focusing on the topology of a phylogenetic tree; i.e. the relative connection between different nodes. Whereas, the branch lengths of this phylogeny are often considered as secondary, i.e. as additional parameters containing little information. However, the branch lengths are the primary information for molecular dating. Importantly, saturation, the presence of multiple substitutions at the same position, is an artifact that leads to an underestimation of the branch length. We are therefore interested in estimating the magnitude of this phenomenon and its impact on divergence time.
We chose to study the mammalian mitochondrial genome, which is available for many species and displays a high level of saturation. Furthermore, the phylogenetic relationships of mammalians are known, thus allowing us to fix the topology, thus eliminating one of the parameters influencing the branch lengths. We used two main approaches to improve the detection of multiple substitutions: (i) an increase in the number of species breaks the longest branches of the tree, (ii) more realistic models of sequence evolution. The results demonstrate that there is a very pronounced underestimation of branch lengths (up to a factor of 3). Furthermore, the use of a large number of species is the factor that influences most the detection of multiple substitutions, not the improvement of the model of sequence evolution. This suggests that even the most complex evolutionary models currently available, like the CAT+ Covarion model, which takes into account the heterogeneity of the substitution process between sites and the rates of evolution over time, are still far from taking the entire complexity of biological processes into account.
Despite the important underestimation of branch lengths, the impact on dating appeared to be relatively limited, because the underestimation is more or less homothetic. This is obviously true for the complex evolutionary models. Since multiple substitutions are most effectively detected when breaking the long internal branches via the addition of species. This raises the problem of bias in the taxonomic sampling, due to the impact of extinction on the history of life on earth. Because this kind of bias leads to a non-homothetic underestimation, we consider it essential to improve models of sequence evolution and suggest that the protocol developed in this work will allow to evaluate their effectiveness towards saturation.
|
170 |
Annotation des ARN non codants du génome de Candida albicans par méthode bioinformatiqueScott-Boyer, Marie Pier 02 1900 (has links)
La bio-informatique est un champ pluridisciplinaire qui utilise la biologie,
l’informatique, la physique et les mathématiques pour résoudre des problèmes posés par la
biologie. L’une des thématiques de la bio-informatique est l’analyse des séquences
génomiques et la prédiction de gènes d’ARN non codants. Les ARN non codants sont des
molécules d’ARN qui sont transcrites mais pas traduites en protéine et qui ont une fonction
dans la cellule. Trouver des gènes d’ARN non codants par des techniques de biochimie et
de biologie moléculaire est assez difficile et relativement coûteux. Ainsi, la prédiction des
gènes d’ARNnc par des méthodes bio-informatiques est un enjeu important. Cette
recherche décrit un travail d’analyse informatique pour chercher des nouveaux ARNnc
chez le pathogène Candida albicans et d’une validation expérimentale. Nous avons utilisé
comme stratégie une analyse informatique combinant plusieurs logiciels d’identification
d’ARNnc. Nous avons validé un sous-ensemble des prédictions informatiques avec une
expérience de puces à ADN couvrant 1979 régions du génome. Grace à cette expérience
nous avons identifié 62 nouveaux transcrits chez Candida albicans. Ce travail aussi permit
le développement d’une méthode d’analyse pour des puces à ADN de type tiling array. Ce
travail présente également une tentation d’améliorer de la prédiction d’ARNnc avec une
méthode se basant sur la recherche de motifs d’ARN dans les séquences. / Bioinformatics is a multidisciplinary field that uses biology, computer science, physics and
mathematics to solve problems in biology. One of the topics of bioinformatics is the
analysis of genomic sequences and prediction of genes from non-coding RNA (ncRNA).
The non-coding RNAs are RNA molecules that are transcribed but not translated into
protein and have a function in the cell. The use of biochemistry and molecular biology
techniques in order to find non-coding RNA genes is rather difficult and relatively
expensive. Thus, the prediction of genes by bioinformatics methods is an important issue.
This research describes a computer analysis to search for new ncRNA in the pathogen
Candida albicans and an experimental validation. The strategy used was to combine
several algorithms and to validate a subset of computer predictions with a microarray
experience covering 1979 regions of the genome. We have identified 62 new transcripts in
Candida albicans. We have also developed an analytical method for tiling array and
attempted to improve the prediction of ncRNAs this with a method based on the search of
RNA motifs in the sequences.
|
Page generated in 0.0941 seconds