Spelling suggestions: "subject:"chaînes dde markov"" "subject:"chaînes dee markov""
121 |
Développement d'un alphabet structural intégrant la flexibilité des structures protéiques / Development of a structural alphabet integrating the flexibility of protein structuresSekhi, Ikram 29 January 2018 (has links)
L’objectif de cette thèse est de proposer un Alphabet Structural (AS) permettant une caractérisation fine et précise des structures tridimensionnelles (3D) des protéines, à l’aide des chaînes de Markov cachées (HMM) qui permettent de prendre en compte la logique issue de l’enchaînement des fragments structuraux en intégrant l’augmentation des conformations 3D des structures protéiques désormais disponibles dans la banque de données de la Protein Data Bank (PDB). Nous proposons dans cette thèse un nouvel alphabet, améliorant l’alphabet structural HMM-SA27,appelé SAFlex (Structural Alphabet Flexibility), dans le but de prendre en compte l’incertitude des données (données manquantes dans les fichiers PDB) et la redondance des structures protéiques. Le nouvel alphabet structural SAFlex obtenu propose donc un nouveau modèle d’encodage rigoureux et robuste. Cet encodage permet de prendre en compte l’incertitude des données en proposant trois options d’encodages : le Maximum a posteriori (MAP), la distribution marginale a posteriori (POST)et le nombre effectif de lettres à chaque position donnée (NEFF). SAFlex fournit également un encodage consensus à partir de différentes réplications (chaînes multiples, monomères et homomères) d’une même protéine. Il permet ainsi la détection de la variabilité structurale entre celles-ci. Les avancées méthodologiques ainsi que l’obtention de l’alphabet SAFlex constituent les contributions principales de ce travail de thèse. Nous présentons aussi le nouveau parser de la PDB (SAFlex-PDB) et nous démontrons que notre parser a un intérêt aussi bien sur le plan qualitatif (détection de diverses erreurs)que quantitatif (rapidité et parallélisation) en le comparant avec deux autres parsers très connus dans le domaine (Biopython et BioJava). Nous proposons également à la communauté scientifique un site web mettant en ligne ce nouvel alphabet structural SAFlex. Ce site web représente la contribution concrète de cette thèse alors que le parser SAFlex-PDB représente une contribution importante pour le fonctionnement du site web proposé. Cette caractérisation précise des conformations 3D et la prise en compte de la redondance des informations 3D disponibles, fournies par SAFlex, a en effet un impact très important pour la modélisation de la conformation et de la variabilité des structures 3D, des boucles protéiques et des régions d’interface avec différents partenaires, impliqués dans la fonction des protéines / The purpose of this PhD is to provide a Structural Alphabet (SA) for more accurate characterization of protein three-dimensional (3D) structures as well as integrating the increasing protein 3D structure information currently available in the Protein Data Bank (PDB). The SA also takes into consideration the logic behind the structural fragments sequence by using the hidden Markov Model (HMM). In this PhD, we describe a new structural alphabet, improving the existing HMM-SA27 structural alphabet, called SAFlex (Structural Alphabet Flexibility), in order to take into account the uncertainty of data (missing data in PDB files) and the redundancy of protein structures. The new SAFlex structural alphabet obtained therefore offers a new, rigorous and robust encoding model. This encoding takes into account the encoding uncertainty by providing three encoding options: the maximum a posteriori (MAP), the marginal posterior distribution (POST), and the effective number of letters at each given position (NEFF). SAFlex also provides and builds a consensus encoding from different replicates (multiple chains, monomers and several homomers) of a single protein. It thus allows the detection of structural variability between different chains. The methodological advances and the achievement of the SAFlex alphabet are the main contributions of this PhD. We also present the new PDB parser(SAFlex-PDB) and we demonstrate that our parser is therefore interesting both qualitative (detection of various errors) and quantitative terms (program optimization and parallelization) by comparing it with two other parsers well-known in the area of Bioinformatics (Biopython and BioJava). The SAFlex structural alphabet is being made available to the scientific community by providing a website. The SAFlex web server represents the concrete contribution of this PhD while the SAFlex-PDB parser represents an important contribution to the proper function of the proposed website. Here, we describe the functions and the interfaces of the SAFlex web server. The SAFlex can be used in various fashions for a protein tertiary structure of a given PDB format file; it can be used for encoding the 3D structure, identifying and predicting missing data. Hence, it is the only alphabet able to encode and predict the missing data in a 3D protein structure to date. Finally, these improvements; are promising to explore increasing protein redundancy data and obtain useful quantification of their flexibility
|
122 |
Inégalités de déviations, principe de déviations modérées et théorèmes limites pour des processus indexés par un arbre binaire et pour des modèles markoviens / Deviation inequalities, moderate deviations principle and some limit theorems for binary tree-indexed processes and for Markovian models.Bitseki Penda, Siméon Valère 20 November 2012 (has links)
Le contrôle explicite de la convergence des sommes convenablement normalisées de variables aléatoires, ainsi que l'étude du principe de déviations modérées associé à ces sommes constituent les thèmes centraux de cette thèse. Nous étudions principalement deux types de processus. Premièrement, nous nous intéressons aux processus indexés par un arbre binaire, aléatoire ou non. Ces processus ont été introduits dans la littérature afin d'étudier le mécanisme de la division cellulaire. Au chapitre 2, nous étudions les chaînes de Markov bifurcantes. Ces chaînes peuvent être vues comme une adaptation des chaînes de Markov "usuelles'' dans le cas où l'ensemble des indices à une structure binaire. Sous des hypothèses d'ergodicité géométrique uniforme et non-uniforme d'une chaîne de Markov induite, nous fournissons des inégalités de déviations et un principe de déviations modérées pour les chaînes de Markov bifurcantes. Au chapitre 3, nous nous intéressons aux processus bifurcants autorégressifs d'ordre p (). Ces processus sont une adaptation des processus autorégressifs linéaires d'ordre p dans le cas où l'ensemble des indices à une structure binaire. Nous donnons des inégalités de déviations, ainsi qu'un principe de déviations modérées pour les estimateurs des moindres carrés des paramètres "d'autorégression'' de ce modèle. Au chapitre 4, nous traitons des inégalités de déviations pour des chaînes de Markov bifurcantes sur un arbre de Galton-Watson. Ces chaînes sont une généralisation de la notion de chaînes de Markov bifurcantes au cas où l'ensemble des indices est un arbre de Galton-Watson binaire. Elles permettent dans le cas de la division cellulaire de prendre en compte la mort des cellules. Les hypothèses principales que nous faisons dans ce chapitre sont : l'ergodicité géométrique uniforme d'une chaîne de Markov induite et la non-extinction du processus de Galton-Watson associé. Au chapitre 5, nous nous intéressons aux modèles autorégressifs linéaires d'ordre 1 ayant des résidus corrélés. Plus particulièrement, nous nous concentrons sur la statistique de Durbin-Watson. La statistique de Durbin-Watson est à la base des tests de Durbin-Watson, qui permettent de détecter l'autocorrélation résiduelle dans des modèles autorégressifs d'ordre 1. Nous fournissons un principe de déviations modérées pour cette statistique. Les preuves du principe de déviations modérées des chapitres 2, 3 et 4 reposent essentiellement sur le principe de déviations modérées des martingales. Les inégalités de déviations sont établies principalement grâce à l'inégalité d'Azuma-Bennet-Hoeffding et l'utilisation de la structure binaire des processus. Le chapitre 5 est né de l'importance qu'a l'ergodicité explicite des chaînes de Markov au chapitre 3. L'ergodicité géométrique explicite des processus de Markov à temps discret et continu ayant été très bien étudiée dans la littérature, nous nous sommes penchés sur l'ergodicité sous-exponentielle des processus de Markov à temps continu. Nous fournissons alors des taux explicites pour la convergence sous exponentielle d'un processus de Markov à temps continu vers sa mesure de probabilité d'équilibre. Les hypothèses principales que nous utilisons sont : l'existence d'une fonction de Lyapunov et d'une condition de minoration. Les preuves reposent en grande partie sur la construction du couplage et le contrôle explicite de la queue du temps de couplage. / The explicit control of the convergence of properly normalized sums of random variables, as well as the study of moderate deviation principle associated with these sums constitute the main subjects of this thesis. We mostly study two sort of processes. First, we are interested in processes labelled by binary tree, random or not. These processes have been introduced in the literature in order to study mechanism of the cell division. In Chapter 2, we study bifurcating Markov chains. These chains may be seen as an adaptation of "usual'' Markov chains in case the index set has a binary structure. Under uniform and non-uniform geometric ergodicity assumptions of an embedded Markov chain, we provide deviation inequalities and a moderate deviation principle for the bifurcating Markov chains. In chapter 3, we are interested in p-order bifurcating autoregressive processes (). These processes are an adaptation of $p$-order linear autoregressive processes in case the index set has a binary structure. We provide deviation inequalities, as well as an moderate deviation principle for the least squares estimators of autoregressive parameters of this model. In Chapter 4, we dealt with deviation deviation inequalities for bifurcating Markov chains on Galton-Watson tree. These chains are a generalization of the notion of bifurcating Markov chains in case the index set is a binary Galton-Watson tree. They allow, in case of cell division, to take into account cell's death. The main hypothesis that we do in this chapter are : uniform geometric ergodicity of an embedded Markov chain and the non-extinction of the associated Galton-Watson process. In Chapter 5, we are interested in first-order linear autoregressive models with correlated errors. More specifically, we focus on the Durbin-Watson statistic. The Durbin-Watson statistic is at the base of Durbin-Watson tests, which allow to detect serial correlation in the first-order autoregressive models. We provide a moderate deviation principle for this statistic. The proofs of moderate deviation principle of Chapter 2, 3 and 4 are essentially based on moderate deviation for martingales. To establish deviation inequalities, we use most the Azuma-Bennet-Hoeffding inequality and the binary structure of processes. Chapter 6 was born from the importance that explicit ergodicity of Markov chains has in Chapter 2. Since explicit geometric ergodicity of discrete and continuous time Markov processes has been well studied in the literature, we focused on the sub-exponential ergodicity of continuous time Markov Processes. We thus provide explicit rates for the sub-exponential convergence of a continuous time Markov process to its stationary distribution. The main hypothesis that we use are : existence of a Lyapunov fonction and of a minorization condition. The proofs are largely based on the coupling construction and the explicit control of the tail of the coupling time.
|
Page generated in 0.0385 seconds