Spelling suggestions: "subject:"séquences d'ADN"" "subject:"équences d'ADN""
1 |
Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiques / Drifting Markov models and Poisson approximation for analysis of biological sequencesVergne, Nicolas 11 July 2008 (has links)
Cette thèse présente le développement, en vue de l'analyse statistique des séquences d'ADN, de nouveaux modèles permettant de prendre en compte l'hétérogénéité de ces séquences : les chaînes de Markov régulées (DMM pour drifting Markov model). Afin d'éviter l'homogénéité supposé par les modèles de Markov et de Markov cachés, nous permettons à la matrice de transition de varier du début à la fin de la séquence. A chaque position, nous avons une matrice de transition différente. Ces modèles peuvent être vus comme une alternative mais aussi comme un outil complémentaire aux modèles de Markov cachés. Nous avons considéré des dérives polynomiales ainsi que des dérives par splines polynomiales. Nous avons estimé nos modèles de multiples manières puis évalué la qualité de ces estimateurs avant de les utiliser en vue d'applications telle la recherche de mots exceptionnels. Nous avons mis en oeuvre le software DRIMM, dédié à l'estimation de nos modèles. / This document propose the conception, in the way of statistical analysis of DNA sequences, of new models which permit to take into account the heterogeneity of these sequences : the drifting Markov models (DMM). In order to avoid homogeneity of Markov models or hidden Markov models, we allow the transition matrix to vary from the beginning to the end of the sequence. At each position, we obtain a different transition matrix. DMM can be seen as a competitive model to the HMM one but it over all can be understood as a complementary tool: the hidden models of an HMM, usually fixed Markov chains can be replaced by DMM. Along this work, we consider polynomial drift or drift by polynomial splines. We estimate our models by different ways, evaluate their qualities and used them in biological applications such as the search of rare words. We develop the software DRIMM, dedicated to estimation of DMM.
|
2 |
Chaînes de Markov régulées et approximation de Poisson pour l'analyse de séquences biologiquesVergne, Nicolas 11 July 2008 (has links) (PDF)
L'analyse statistique des séquences biologiques telles les séquences nucléotidiques (l'ADN et l'ARN) ou d'acides aminés (les protéines) nécessite la conception de différents modèles s'adaptant chacun à un ou plusieurs cas d'étude. Etant donnée la dépendance de la succession des nucléotides dans les séquences d'ADN, les modèles généralement utilisés sont des modèles de Markov. Le problème de ces modèles est de supposer l'homogénéité des séquences. Or, les séquences biologiques ne sont pas homogènes. Un exemple bien connu est la répartition en gc : le long d'une même séquence, alternent des régions riches en gc et des régions pauvres en gc. Pour rendre compte de l'hétérogénéité des séquences, d'autres modèles sont utilisés : les modèles de Markov cachés. La séquence est divisée en plusieurs régions homogènes. Les applications sont nombreuses, telle la recherche des régions codantes. Certaines particularités biologiques ne pouvant apparaître suivant ces modèles, nous proposons de nouveaux modèles, les chaînes de Markov régulées (DMM pour drifting Markov model). Au lieu d'ajuster une matrice de transition sur une séquence entière (modèle de Markov homogène classique) ou différentes matrices de transition sur différentes régions de la séquence (modèles de Markov cachés), nous permettons à la matrice de transition de varier (to drift) du début à la fin de la séquence. A chaque position t dans la séquence, nous avons une matrice de transition Πt/n(où n est la longueur de la séquence) éventuellement différente. Nos modèles sont donc des modèles de Markov hétérogènes contraints. Dans cette thèse, nous donnerons essentiellement deux manières de contraindre les modèles : la modélisation polynomiale et la modélisation par splines. Par exemple, pour une modélisation polynomiale de degré 1 (une dérive linéaire), nous nous donnons une matrice de départ Π0 et une matrice d'arrivée Π1 puis nous passons de l'une à l'autre en fonction de la position t dans la séquence : <br />Πt/n = (1-t/n) Π0 + t/n Π1.<br />Cette modélisation correspond à une évolution douce entre deux états. Par exemple cela peut traduire la transition entre deux régimes d'un chaîne de Markov cachée, qui pourrait parfois sembler trop brutale. Ces modèles peuvent donc être vus comme une alternative mais aussi comme un outil complémentaire aux modèles de Markov cachés. Tout au long de ce travail, nous avons considéré des dérives polynomiales de tout degré ainsi que des dérives par splines polynomiales : le but de ces modèles étant de les rendre plus flexibles que ceux des polynômes. Nous avons estimé nos modèles de multiples manières puis évalué la qualité de ces estimateurs avant de les utiliser en vue d'applications telle la recherche de mots exceptionnels. Nous avons mis en oeuvre le software DRIMM (bientôt disponible à http://stat.genopole.cnrs.fr/sg/software/drimm/, dédié à l'estimation de nos modèles. Ce programme regroupe toutes les possibilités offertes par nos modèles, tels le calcul des matrices en chaque position, le calcul des lois stationnaires, des distributions de probabilité en chaque position... L'utilisation de ce programme pour la recherche des mots exceptionnels est proposée dans des programmes auxiliaires (disponibles sur demande).<br />Plusieurs perspectives à ce travail sont envisageables. Nous avons jusqu'alors décidé de faire varier la matrice seulement en fonction de la position, mais nous pourrions prendre en compte des covariables tels le degré d'hydrophobicité, le pourcentage en gc, un indicateur de la structure des protéines (hélice α, feuillets β...). Nous pourrions aussi envisager de mêler HMM et variation continue, où sur chaque région, au lieu d'ajuster un modèle de Markov, nous ajusterions un modèle de chaînes de Markov régulées.
|
3 |
Estimations précises de grandes déviations et applications à la statistique des séquences biologiquesPudlo, Pierre 16 December 2004 (has links) (PDF)
Pour obtenir des listes de mots de fréquences exceptionnelles par rapport à un modèle aléatoire, par exemple dans un contexte de biologie moléculaire, il faut quantifier la qualité de la prédiction des fréquences d'une famille de mots. Nous étudions les probabilités de grandes déviations du processus vectoriel de comptage d'une famille de mots dans des modèles de Markov et des modèles de Markov cachés. Pour démontrer ces résultats, nous établissont un développement du type Edgeworth sur les fonctionnelles additives d'une chaîne de Markov finie. Nous utilisons les théorèmes obtenus pour produire des listes de mots exceptionnels dans les génomes d'Escherichia Coli et de Bacillus Subtilis par conditionnements successifs d'un modèle statistique initial.
|
4 |
Sur deux problèmes mathématiques de reconstruction phylogénétiqueFalconnet, Mikael 09 July 2010 (has links) (PDF)
Ce travail de thèse traite de deux problèmes liés aux méthodes de reconstruction d'arbres phylogénétiques. Dans une première partie, nous fournissons des estimateurs consistants ainsi que des intervalles de confiance asymptotiques mathématiquement rigoureux pour le temps d'évolution de séquences d'ADN dans des modèles de substitutions plus réalistes que les modèles usuels, prenant en compte les effets de la méthylation des dinucléotides CpG dans le génome des mammifères. Dans une seconde partie, nous étendons un résultat récent de Steel et Matsen en prouvant qu'un des travers bien connu des méthodes Bayésiennes en phylogénie, appelé "star tree paradox", a en fait lieu dans un cadre plus large que celui de Steel et Matsen.
|
5 |
Modèle d'évolution avec dépendance au contexte et Corrections de statistiques d'adéquation en présence de zéros aléatoiresFinkler, Audrey 16 June 2010 (has links) (PDF)
Dans ce travail nous étudions sous deux aspects la dépendance au contexte pour l'évolution par substitution des séquences nucléotidiques. Dans une première partie nous définissons un modèle évolutif simple intégrant la distinction entre transitions et transversions d'une part, et une dépendance des nucléotides à leur voisin de gauche modélisant l'effet CpG d'autre part. Nous montrons que ce modèle peut s'écrire sous la forme d'une chaîne de Markov cachée et estimons ses paramètres par la mise en oeuvre de l'algorithme de Baum-Welch. Nous appliquons enfin le modèle à l'estimation de taux de substitution mis en jeu dans l'évolution de séquences réelles. Dans une deuxième partie nous développons des corrections pour les statistiques classiques du test d'adéquation d'un échantillon à une loi multinomiale en présence de zéros aléatoires. En effet, les tests d'indépendance de l'évolution de triplets de nucléotides voisins impliquent des tables de contingence possédant de nombreuses cases nulles et se ramènent à des tests d'adéquation sur des vecteurs creux. Les statistiques de Pearson et de Kullback ne peuvent alors être employées. A partir de celles-ci, nous considérons des statistiques corrigées qui conservent le même comportement asymptotique. Nous les utilisons pour réaliser des tests d'indépendance, non seulement dans le cadre des données génomiques de la première partie, mais également pour des données écologiques et épidémiologiques.
|
6 |
Algorithme de recherche incrémentale d'un motif dans un ensemble de séquences d'ADN issues de séquençages à haut débit / Algorithms of on-line pattern matching in a set of highly sequences outcoming from next sequencing generationBen Nsira, Nadia 05 December 2017 (has links)
Dans cette thèse, nous nous intéressons au problème de recherche incrémentale de motifs dans des séquences fortement similaires (On-line Pattern Matching on Highly Similar Sequences), issues de technologies de séquençage à haut débit (SHD). Ces séquences ne diffèrent que par de très petites quantités de variations et présentent un niveau de similarité très élevé. Il y a donc un fort besoin d'algorithmes efficaces pour effectuer la recherche rapide de motifs dans de tels ensembles de séquences spécifiques. Nous développons de nouveaux algorithmes pour traiter ce problème. Cette thèse est répartie en cinq parties. Dans la première partie, nous présentons un état de l'art sur les algorithmes les plus connus du problème de recherche de motifs et les index associés. Puis, dans les trois parties suivantes, nous développons trois algorithmes directement dédiés à la recherche incrémentale de motifs dans un ensemble de séquences fortement similaires. Enfin, dans la cinquième partie, nous effectuons une étude expérimentale sur ces algorithmes. Cette étude a montré que nos algorithmes sont efficaces en pratique en terme de temps de calcul / In this thesis, we are interested in the problem of on-line pattern matching in highly similar sequences, On-line Pattern Matching on Highly Similar Sequences, outcoming from Next Generation Sequencing technologies (NGS). These sequences only differ by a very small amount. There is thus a strong need for efficient algorithms for performing fast pattern matching in such specific sets of sequences. We develop new algorithms to process this problem. This thesis is partitioned into five parts. In the first part, we present a state of the art on the most popular algorithms of finding problem and the related indexes. Then, in the three following parts, we develop three algorithms directly dedicated to the on-line search for patterns in a set of highly similar sequences. Finally, in the fifth part, we conduct an experimental study on these algorithms. This study shows that our algorithms are efficient in practice in terms of computation time.
|
7 |
Second order selection pressures promoting the evolution and maintenance of cooperation in microbial and in silico systems / Pressions de sélection de second ordre liées à l'évolution de la coopération dans des systèmes microbiens et numériquesFrénoy, Antoine 27 November 2014 (has links)
Cette thèse s'intéresse aux liens entre l'évolution de la coopération et la sélection de second ordre. Dans une première partie, nous montrons comment des organismes digitaux adaptent leurs génomes pour encoder les gènes liées à la coopération d'une manière plus contrainte (suppression d'évolvabilité), notamment à l'aide d'opérons et d'overlaps impliquant aussi des gènes essentiels. Dans une deuxième partie, nous testons expérimentalement cette vision des overlaps de gènes comme "contrainte évolutive" grâce à des outils d'algorithmique et de biologie synthétique que nous avons développés. Dans une troisième partie, nous utilisons des simulations par agents pour montrer comment une forme de division du travail peut être interprétée comme un système coopératif à la lumière de la théorie évolutive moderne. Dans une dernière partie, nous montrons que la dispersion spatiale des allèles coopératives obtenue par des phénomènes de "genetic hitchiking" joue un rôle important dans l'évolution de la coopération, quand bien même ce mécanisme de dispersion s'applique aussi à des allèles non coopératives, grâce à la "relatedness" (aux loci codant pour la coopération) crée par l'invasion locale de mutations bénéfiques (à des loci non liés à la coopération) et par l'équilibre complexe entre ces mutations bénéfiques et la robustesse mutationnelle. L'ensemble de ces résultats appelle à une prise en compte plus importante des pressions sélectives de second ordre dans l'étude de l'évolution sociale, et au développement de modèles plus réalistes qui permettraient d'intégrer de telles forces évolutives. Nous insistons également sur l'importance du paysage mutationnel dans l'étude des populations bactériennes, et montrons le potentiel croissant de la biologie synthétique comme outil d'étude de ce paysage et de l'évolution microbienne en général. / In the first part, I show how digital organisms adapt their genomes to encode cooperation-related genes in a more constrained way (evolvability suppression), especially using operons and overlaps also involving essential genes. In the second part, we experimentally test this view of gene overlaps as an evolutionary constraint, using both algorithmic and synthetic biology tools that we have developed. In the third part, I use agent-based simulations to show how a form of division of labour can be interpreted as a cooperative system in the light of modern evolutionary theory. In the final part, I show that the patterns of dispersal of cooperative alleles due to hitchhiking phenomena play an important role in the evolution of cooperation. The last result holds even though the hitchhiking mechanisms also applies to non-cooperative alleles, thanks to the relatedness (at cooperation-related loci) created by the local invasion of beneficial mutations (at loci not related to cooperation). The beneficial mutations form a complex and interesting equilibrium with mutational robustness, which I investigate using in silico evolution. On the whole, these results call for a more careful consideration of the second-order selection pressures in the study of social evolution, and show the necessity for more realistic models allowing to integrate such evolutionary forces. My thesis research specifically highlights the importance of the mutational landscape in the study of microbial populations and shows the increasing potential of synthetic biology as a tool to study such landscape and microbial evolution in general.
|
Page generated in 0.0446 seconds