• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 36
  • 29
  • Tagged with
  • 54
  • 11
  • 8
  • 7
  • 7
  • 6
  • 6
  • 6
  • 6
  • 5
  • 5
  • 5
  • 5
  • 5
  • 4
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
21

Pronostic moléculaire basé sur l'ordre des gènes et découverte de biomarqueurs guidé par des réseaux pour le cancer du sein / Rank-based Molecular Prognosis and Network-guided Biomarker Discovery for Breast Cancer

Jiao, Yunlong 11 September 2017 (has links)
Le cancer du sein est le deuxième cancer le plus répandu dans le monde et la principale cause de décès due à un cancer chez les femmes. L'amélioration du pronostic du cancer a été l'une des principales préoccupations afin de permettre une meilleure gestion et un meilleur traitement clinique des patients. Avec l'avancement rapide des technologies de profilage génomique durant ces dernières décennies, la disponibilité aisée d'une grande quantité de données génomiques pour la recherche médicale a motivé la tendance actuelle qui consiste à utiliser des outils informatiques tels que l'apprentissage statistique dans le domaine de la science des données afin de découvrir les biomarqueurs moléculaires en lien avec l'amélioration du pronostic. Cette thèse est conçue suivant deux directions d'approches destinées à répondre à deux défis majeurs dans l'analyse de données génomiques pour le pronostic du cancer du sein d'un point de vue méthodologique de l'apprentissage statistique : les approches basées sur le classement pour améliorer le pronostic moléculaire et les approches guidées par un réseau donné pour améliorer la découverte de biomarqueurs. D'autre part, les méthodologies développées et étudiées dans cette thèse, qui concernent respectivement l'apprentissage à partir de données de classements et l'apprentissage sur un graphe, apportent une contribution significative à plusieurs branches de l'apprentissage statistique, concernant au moins les applications à la biologie du cancer et la théorie du choix social. / Breast cancer is the second most common cancer worldwide and the leading cause of women's death from cancer. Improving cancer prognosis has been one of the problems of primary interest towards better clinical management and treatment decision making for cancer patients. With the rapid advancement of genomic profiling technologies in the past decades, easy availability of a substantial amount of genomic data for medical research has been motivating the currently popular trend of using computational tools, especially machine learning in the era of data science, to discover molecular biomarkers regarding prognosis improvement. This thesis is conceived following two lines of approaches intended to address two major challenges arising in genomic data analysis for breast cancer prognosis from a methodological standpoint of machine learning: rank-based approaches for improved molecular prognosis and network-guided approaches for enhanced biomarker discovery. Furthermore, the methodologies developed and investigated in this thesis, pertaining respectively to learning with rank data and learning on graphs, have a significant contribution to several branches of machine learning, concerning applications across but not limited to cancer biology and social choice theory.
22

Développement de représentations et d'algorithmes efficaces pour l'apprentissage statistique sur des données génomiques / Learning from genomic data : efficient representations and algorithms.

Le Morvan, Marine 03 July 2018 (has links)
Depuis le premier séquençage du génome humain au début des années 2000, de grandes initiatives se sont lancé le défi de construire la carte des variabilités génétiques inter-individuelles, ou bien encore celle des altérations de l'ADN tumoral. Ces projets ont posé les fondations nécessaires à l'émergence de la médecine de précision, dont le but est d'intégrer aux dossiers médicaux conventionnels les spécificités génétiques d'un individu, afin de mieux adapter les traitements et les stratégies de prévention. La traduction des variations et des altérations de l'ADN en prédictions phénotypiques constitue toutefois un problème difficile. Les séquenceurs ou puces à ADN mesurent plus de variables qu'il n'y a d'échantillons, posant ainsi des problèmes statistiques. Les données brutes sont aussi sujettes aux biais techniques et au bruit inhérent à ces technologies. Enfin, les vastes réseaux d'interactions à l'échelle des protéines obscurcissent l'impact des variations génétiques sur le comportement de la cellule, et incitent au développement de modèles prédictifs capables de capturer un certain degré de complexité.Cette thèse présente de nouvelles contributions méthodologiques pour répondre à ces défis.Tout d'abord, nous définissons une nouvelle représentation des profils de mutations tumorales, qui exploite leur position dans les réseaux d'interaction protéine-protéine. Pour certains cancers, cette représentation permet d'améliorer les prédictions de survie à partir des données de mutations, et de stratifier les cohortes de patients en sous-groupes informatifs. Nous présentons ensuite une nouvelle méthode d'apprentissage permettant de gérer conjointement la normalisation des données et l'estimation d'un modèle linéaire. Nos expériences montrent que cette méthode améliore les performances prédictives par rapport à une gestion séquentielle de la normalisation puis de l'estimation. Pour finir, nous accélérons l'estimation de modèles linéaires parcimonieux, prenant en compte des interactions deux à deux, grâce à un nouvel algorithme. L'accélération obtenue rend cette estimation possible et efficace sur des jeux de données comportant plusieurs centaines de milliers de variables originales, permettant ainsi d'étendre la portée de ces modèles aux données des études d'associations pangénomiques. / Since the first sequencing of the human genome in the early 2000s, large endeavours have set out to map the genetic variability among individuals, or DNA alterations in cancer cells. They have laid foundations for the emergence of precision medicine, which aims at integrating the genetic specificities of an individual with its conventional medical record to adapt treatment, or prevention strategies.Translating DNA variations and alterations into phenotypic predictions is however a difficult problem. DNA sequencers and microarrays measure more variables than there are samples, which poses statistical issues. The data is also subject to technical biases and noise inherent in these technologies. Finally, the vast and intricate networks of interactions among proteins obscure the impact of DNA variations on the cell behaviour, prompting the need for predictive models that are able to capture a certain degree of complexity. This thesis presents novel methodological contributions to address these challenges. First, we define a novel representation for tumour mutation profiles that exploits prior knowledge on protein-protein interaction networks. For certain cancers, this representation allows improving survival predictions from mutation data as well as stratifying patients into meaningful subgroups. Second, we present a new learning framework to jointly handle data normalisation with the estimation of a linear model. Our experiments show that it improves prediction performances compared to handling these tasks sequentially. Finally, we propose a new algorithm to scale up sparse linear models estimation with two-way interactions. The obtained speed-up makes this estimation possible and efficient for datasets with hundreds of thousands of main effects, thereby extending the scope of such models to the data from genome-wide association studies.
23

Identification d'ARN régulateurs bactériens : développement d’une méthode de détection et étude de la régulation post-transcriptionnelle chez la bactérie phytopathogène Dickeya dadantii / Identifying bacterial small RNAs : development of a detection method and post-transcriptional regulation in the plant pathogen Dickeya dadantii

Leonard, Simon 05 December 2018 (has links)
Les organismes bactériens sont en contact direct avec leur environnement et doivent donc constamment s’acclimater aux variations de celui-ci. Pour cela, plusieurs leviers de régulations peuvent être actionnés. Récemment, la régulation post-transcriptionnelle par les ARN régulateurs a été proposée comme un mécanisme de régulation rapide et peu coûteux pour la cellule. Chez le phytopathogène Dickeya dadantii, la régulation de la virulence a quasi exclusivement été étudiée au niveau transcriptionnel et l’implication des ARN régulateurs dans la virulence reste très peu connue. Pour cela, nous avons tout d’abord étudié le rôle des chaperons à ARN dans la pathogénie de D. dadantii et mis en évidence leur implication dans de nombreux facteurs de virulence comme la production d’enzyme de dégradation de la paroi végétale. Puis, nous avons développé une nouvelle méthode d’identification d’ARN à partir de données RNA-seq. Cette méthode a été développée pour tirer profit des séquençages réalisés en paired-end, permettant de séquencer les deux extrémités d’un transcrit. Son évaluation dans sa capacité à détecter de manière précise des ARN connus a montré une performance supérieure aux méthodes de détection existantes. Enfin, cette nouvelle méthode a été appliquée sur des données de séquençage de petits transcrits. Cette analyse nous a permis d’identifier plus d’un millier d’ARN régulateurs potentiels, dont plusieurs pourraient être impliqués dans la régulation de la virulence. Ces travaux ont donc permis de mettre en lumière l’existence d’une régulation post-transcriptionnelle chez D. dadantii et de proposer des pistes concernant les acteurs et mécanismes concernés / Bacterial organisms are directly exposed to environmental conditions and have to respond to environmental stress. To do so, several regulation network are known. Recently, post transcriptional regulation with small RNAs was suggested to be a fast and cheap in energy regulation mechanism. In the phytopathogen Dickeya dadantii, investigations on pathogenic process mostly focused on its control by transcriptional regulators. Knowledge of post-transcriptional regulation of the virulence factors is still in its infancy.To this end, we first studied the impact of RNA chaperones in the virulence of D. dadantii and showed that they were involved in the regulation of several virulence factors, like production of cell wall degrading enzyme. Then, we developed a new method to detect sRNAs from paired-end bacterial RNA-seq data. This method take paired end sequencing into account, which allow the sequencing of the both ends of each fragment. A comparative assessment showed that this method outperforms all the existing methods in terms of sRNA detection and boundary precision. Finally, this method was applied to sequencing data. With this analysis, more than one thousand sRNAs has been detected, with the identification of several candidates potentially involved in virulence.Thereby, this work highlight the existence of post-transcriptionnal regulation in D. dadantii and suggest candidates and mechanisms involved in this regulation
24

Study of the evolution of symbiosis at the metabolic level using models from game theory and economics / L’étude de l’évolution de la symbiose au niveau métabolique en utilisant des modèles de la théorie des jeux et de l’économie

Wannagat, Martin 04 July 2016 (has links)
Le terme symbiose recouvre tous types d'interactions entre espèces et peut être défini comme une association étroite d'espèces différentes vivant ensemble. De telles interactions impliquant des micro-organismes présentent un intérêt particulier pour l'agriculture, la santé, et les questions environnementales. Tous les types d'interactions entre espèces tels que le mutualisme, le commensalisme, et la compétition, sont omniprésents dans la nature et impliquent souvent le métabolisme. La libération de métabolites par des organismes dans l'environnement permet à d'autres individus de la même espèce ou de différentes espèces de les récupérer pour leur usage propre. Dans cette thèse, nous étudions comment les interactions entre espèces façonnentl'environnement. Nous examinons les questions de (i) quels sont les besoins minimaux en éléments nutritifs pour établir la croissance, et (ii) quels métabolites peuvent être échangés entre un organisme et son environnement. L'énumération de tous les ensembles minimaux stoechiométriques de précurseurs et de tous les ensembles minimaux de métabolites échangés,en utilisant des modèles complets de réseaux métaboliques, fournit un meilleur aperçu des interactions entre les espèces. Dans un environnement spatialement homogène, les métabolites qui sont libérés dans un tel environnement sont partagés par tous les individus. Le problème qui se pose alors est de savoir comment les tricheurs, les individus qui profitent des métabolites libérés sans contribuer au bien public, peuvent être exclus de la population. Ceci et d'autres configurations ont déjà été modélisées avec des approches de la théorie des jeux et de l'économie. Nous examinons comment les concepts d'ensembles minimaux de précurseurs stoechiométriques et d'ensembles minimaux de composés échangés peuvent être introduits dans ces modèles / Symbiosis, a term that brings all types of species interaction under one banner, is defined as a close association of different species living together. Species interactions that comprise microorganisms are of particular interest for agriculture, health, and environmental issues. All kinds of species interactions such as mutualism, commensalism, and competition, are omnipresent in nature and occur often at the metabolic level. Organisms release metabolites to the environment which are then taken up by other individuals of the same or of different species. In this thesis, we study how species interactions shape the environment. We examine the questions of (i) what are the minimal nutrient requirements to sustain growth, and (ii) which metabolites can be exchanged between an organism and its environment. Enumerating all minimal stoichiometric precursor sets, and all minimal sets of exchanged metabolites, using metabolic network models, provide a better insight into species interactions. In a spatially homogeneous environment, the metabolites that are released to such an environment are shared by all individuals. The problem that then arises is how cheaters, individuals that profit from the released metabolites without contributing to the public good, can be prevented from the population. This and other configurations were already modeled with approaches from game theory and economics. We examine how the concepts of minimal stoichiometric precursor sets and minimal sets of exchanged compounds can be introduced into such models
25

Quantification des causes des accidents de deux / trois-roues motorisés et de leurs conséquences corporelle (approche épidémiologique)s / Quantification of causes of motorized two/three-wheelers accidents and injury consequences (epidemiological approach)

Wu, Dan 02 October 2018 (has links)
Contexte : les deux-roues motorisés (2RM) sont en forte évolution et la vulnérabilité de leurs usagers est de plus en plus manifeste. En 2013, dans le monde, les usagers de 2RM ont compté pour 23 % de la mortalité routière, devant les piétons (22 %). Dans ce contexte, la sécurité des usagers de 2RM est devenue une préoccupation sérieuse dans la plupart des pays. Contrairement à beaucoup de problèmes de santé publique, les principaux facteurs de l'insécurité routière en 2RM sont connus. L'enjeu d'aujourd'hui est surtout de quantifier leur effet sur la survenue d'accidents et d'évaluer les effets des quelques dispositifs de protection disponibles. Les objectifs de cette thèse sont de mieux connaitre les problèmes d'interaction entre les conducteurs de 2RM et les automobilistes selon différentes situations accidentelles (en particulier en intersection), de quantifier les effets des facteurs à l'origine de la survenue des accidents issus de la perte de contrôle du 2RM, et de mesurer l'efficacité des dispositifs de protection portés par les usagers de 2RM (casque intégral, blouson de moto, pantalon de moto, gants, bottes ou chaussures montantes et protection dorsale). Données : la réalisation des objectifs de la thèse s'appuie sur les données du projet VOIESUR, les données du Registre des accidents de la circulation du Rhône et les données recueillies au moyen d'une enquête postale réalisée auprès de 7 148 usagers de 2RM accidentés entre 2010 et 2014 identifiés par le Registre du Rhône. Résultats : Le problème de détectabilité des motos au niveau des intersections est confirmé. Dans la même situation d'interaction entre deux véhicules en intersection, un automobiliste a plus de difficulté à détecter une moto qu'à détecter un véhicule léger. Les facteurs suivants sont associés à la survenue des accidents de type perte de contrôle : alcool, type de moto, jour de l'accident, sinuosité de la route, adhérence de la route et vitesse. Nous soulignons le fait qu'une mauvaise adhérence de la route augmente considérablement le risque de perte de contrôle, en particulier lorsque la dégradation de l'adhérence est inattendue pour les motocyclistes en raison de la présence de gravillons, de corps gras, de nids de poule, etc. sur la route. En cas d'accident, les vêtements dédiés à la moto protègent les usagers des blessures. Ils sont efficaces pour éviter les dermabrasions et les plaies cutanées, mais ne semblent pas protéger des blessures plus graves telles que fracture, luxation ou entorse, sauf pour les bottes ou chaussures montantes qui réduisent le risque de fracture de la cheville ou du pied. Concernant les plaques dorsales, aucune efficacité n'a été montrée. Les casques intégraux protègent mieux le visage de l'usager du 2RM comparés aux non-intégraux, alors qu'aucune différence de protection du crâne ou du cerveau n'est mise en évidence entre les deux types de casques. Conclusion : Nos résultats mettent en évidence le problème de détectabilité d'un 2RM par les automobilistes en intersection et l'importance de l'état de la chaussée dans les accidents associés à une perte de contrôle du 2RM par son conducteur. Il est fortement recommandé pour les automobilistes de bien faire attention aux véhicules prioritaires venant de la gauche ou d'en face avant de tourner à gauche, particulièrement aux 2RM venant d'en face. L'amélioration de l'état de la chaussée et une signalisation adaptée représentent aussi un enjeu fort pour la sécurité des usagers de 2RM. Nos résultats soutiennent la recommandation faite par les organismes de sécurité routière du port plus systématique des équipements vestimentaires chez les usagers de 2RM. Enfin, nos résultats encouragent l'utilisation d'un casque intégral chez les usagers de 2RM afin de mieux protéger le visage / Background: Motorized two-wheelers (MTW) are evolving rapidly and the vulnerability of their users is becoming more obvious. MTW users were the most vulnerable road users, accounting for 23 % of all road traffic fatalities worldwide in 2013, in front of pedestrians (22 %). In this context, the safety of MTW users has become a serious concern in most countries. In contrast to many public health problems, the main factors of MTW road safety have been identified. The issue today is to quantify their effects on the occurrence of accidents and to measure the effects of protective devices. The present thesis aims to better understand the interaction problems between MTW drivers and automobilists according to different accident configurations (in particular at intersection), to identify and assess the effect of critical factors on the risk of MTW loss-of-control crashes, and to measure the effectiveness of protective clothing (motorcycle jacket, trousers, gloves, knee-high or ankle boots, back protection) for MTW users. Data: This study used MTW accident data collected in a French project VOIESUR, injury data from the Rhône Registry, plus data collected by means of a postal survey which was conducted among 7148 MTW riders injured between 2010 and 2014 and identified in the Rhône Registry. Results: We confirmed the problem of motorcycle detection for other road users. In the similar conditions, the motorists have more difficulty to detect a motorcycle than a car oncoming, in particular at intersections. The following factors are associated with the occurrence of motorcycle loss-of-control accidents: alcohol use, motorcycle type, weekend vs. weekday, road alignment, road adhesion and traveling speed. We emphasize that poor road adhesion significantly increases the risk of losing control, especially when deteriorated road adhesion is encountered unexpectedly, due to the presence of loose gravel, ice, oil, potholes, etc. on the roadway. In case of accident, motorcycle clothing protects users from injury. It can protect riders against injuries such as dermabrasion and laceration, but not against more serious injuries, such as fracture and sprain, except for boots, which reduce foot-and-ankle fracture risk. No effect of dorsal protectors was shown. Full-face helmets provide significantly greater protection against facial injury than do other helmets. However, no significant difference of protection against skull or brain injury is found between the two types of helmets. Conclusion: Our results highlight the problem of MTW detection for motorists at intersections and the important role of road conditions in the occurrence of accidents resulting from loss of control of MTW. It is recommended for motorists to pay extra attention to priority vehicles oncoming from their left or the opposite direction, before turning left at an intersection, especially to MTW. Regular road maintenance and immediate installment of appropriate warning signs concerning road deterioration are also highly recommended in consideration of MTW safety. Finally, our results support road safety organizations’ recommendation that protective clothing be worn: this should be more systematic for MTW users, the same for the use of full-face helmets
26

Splines multidimensionnelles pénalisées pour modéliser le taux de survenue d’un événement : application au taux de mortalité en excès et à la survie nette en épidémiologie des maladies chroniques / Multidimensional penalized splines for hazard modelling : application to excess mortality hazard and net survival in chronic disease epidemiology

Fauvernier, Mathieu 24 September 2019 (has links)
L’étude du temps de survenue d’un événement représente un champ très important des statistiques. Lorsque l’événement étudié est le décès, on cherche à décrire la survie des individus ainsi que leur taux de mortalité, c’est-à-dire la « force de mortalité » qui s’applique à un instant donné. Les patients atteints d’une maladie chronique présentent en général un excès de mortalité par rapport à une population ne présentant pas la maladie en question. En épidémiologie, l’étude du taux de mortalité en excès des patients, et notamment de l’impact des facteurs pronostiques sur celui-ci, représente donc un enjeu majeur de santé publique. D’un point de vue statistique, la modélisation du taux de mortalité (en excès) implique de prendre en compte les effets potentiellement non-linéaires et dépendants du temps des facteurs pronostiques ainsi que les interactions. Les splines de régression, polynômes par morceaux paramétriques et flexibles, sont des outils particulièrement bien adaptés pour modéliser des effets d’une telle complexité. Toutefois, la flexibilité des splines de régression comporte un risque de sur-ajustement. Pour éviter ce risque, les splines de régression pénalisées ont été proposées dans le cadre des modèles additifs généralisés. Leur principe est le suivant : à chaque spline peuvent être associés un ou plusieurs termes de pénalité contrôlés par des paramètres de lissage. Les paramètres de lissage représentent les degrés de pénalisation souhaités. En pratique, ils sont inconnus et doivent être estimés tout comme les paramètres de régression. Dans le cadre de cette thèse, nous avons développé une méthode permettant de modéliser le taux de mortalité (en excès) à l’aide de splines de régression multidimensionnelles pénalisées. Des splines cubiques restreintes ont été utilisées comme splines unidimensionnelles ou bien comme bases marginales afin de former des splines multidimensionnelles par produits tensoriels. Le processus d’optimisation s’appuie sur deux algorithmes de Newton-Raphson emboîtés. L’estimation des paramètres de lissage est effectuée en optimisant un critère de validation croisée ou bien la vraisemblance marginale des paramètres de lissage par un algorithme de Newton-Raphson dit externe. A paramètres de lissage fixés, les paramètres de régression sont estimés par maximisation de la vraisemblance pénalisée par un algorithme de Newton-Raphson dit interne.Les bonnes propriétés de cette approche en termes de performances statistiques et de stabilité numérique ont ensuite été démontrées par simulation. La méthode a ensuite été implémentée au sein du package R survPen. Enfin, la méthode a été appliquée sur des données réelles afin de répondre aux deux questions épidémiologiques suivantes : l’impact de la défavorisation sociale sur la mortalité en excès des patients atteints d’un cancer du col de l’utérus et l’impact de l’âge courant sur la mortalité en excès des patients atteints de sclérose en plaques / Time-to-event analysis is a very important field in statistics. When the event under study is death, the analysis focuses on the probability of survival of the subjects as well as on their mortality hazard, that is, on the "force of mortality" that applies at any given moment. Patients with a chronic disease usually have an excess mortality compared to a population that does not have the disease. Studying the excess mortality hazard associated with a disease and investigating the impact of prognostic factors on this hazard are important public health issues in epidemiology. From a statistical point of view, modelling the (excess) mortality hazard involves taking into account potentially non-linear and time-dependent effects of prognostic factors as well as their interactions. Regression splines (i.e., parametric and flexible piecewise polynomials) are ideal for dealing with such a complexity. They make it possible to build easily nonlinear effects and, regarding interactions between continuous variables, make it easy to form a multidimensional spline from two or more marginal one-dimensional splines. However, the flexibility of regression splines presents a risk of overfitting. To avoid this risk, penalized regression splines have been proposed as part of generalized additive models. Their principle is to associate each spline with one or more penalty terms controlled by smoothing parameters. The smoothing parameters represent the desired degrees of penalization. In practice, these parameters are unknown and have to be estimated just like the regression parameters. This thesis describes the development of a method to model the (excess) hazard using multidimensional penalized regression splines. Restricted cubic splines were used as one-dimensional splines or marginal bases to form multidimensional splines by tensor products. The optimization process relies on two nested Newton-Raphson algorithms. Smoothing parameter estimation is performed by optimizing a cross-validation criterion or the marginal likelihood of the smoothing parameters with an outer Newton-Raphson algorithm. At fixed smoothing parameters, the regression parameters are estimated by maximizing the penalized likelihood by an inner Newton-Raphson algorithm.The good properties of this approach in terms of statistical performance and numerical stability were then demonstrated through simulation. The described method was then implemented within the R package survPen. Finally, the method was applied to real data to investigate two epidemiological issues: the impact of social deprivation on the excess mortality in cervical cancer patients and the impact of the current age on the excess mortality in multiple sclerosis patients
27

Bio-statistical approaches to evaluate the link between specific nutrients and methylation patterns in a breast cancer case-control study nested within the European Prospective Investigation into Cancer and Nutrition (EPIC) study / Approches bio-statistiques pour évaluer le lien entre nutriments et profils de méthylation du cancer du sein dans l’étude prospective Européenne sur le Cancer et la Nutrition (EPIC)

Perrier, Flavie 13 September 2018 (has links)
De par les centaines de milliers de données qui les caractérisent, les bases de données épigénétiques représentent actuellement un défi majeur. L’objectif principal de cette thèse est d’évaluer la performance d’outils statistiques développés pour les données de grande dimension, en explorant l’association entre facteurs alimentaires reliés au cancer du sein (CS) et méthylation de l’ADN dans la cohorte EPIC.Afin d’étudier les caractéristiques des données de méthylation, l’identification des sources systématiques de variabilité des mesures de méthylation a été effectuée par la méthode de la PC-PR2. Ainsi la performance de trois techniques de normalisation, très répandues pour corriger la part de variabilité non désirée, a été évaluée en quantifiant l’entendu de variabilité attribuée aux facteurs de laboratoire avant et après chaque méthode de correction.Une fois la méthode de normalisation la plus appropriée identifiée, la relation entre le folate, l’alcool et la méthylation de l’ADN a été analysée par le biais de trois approches : une analyse individuelle des sites CpG, une analyse de DMR et la régression fused lasso. Les deux dernières méthodes visent à identifier des régions spécifiques de l’épigénome grâce aux corrélations possibles entre les sites proches. La méthylation globale a aussi été utilisée pour étudier la relation entre méthylation et risque de CS.Grâce à une évaluation exhaustive d’outils statistiques révélant la complexité des données de méthylation de l’ADN, cette thèse offre un aperçu instructif de connaissances pour les études épigénétiques, avec une possibilité d’application de méthodologie similaire aux analyses d’autres types de données -omiques / Epigenetics data are challenging sets characterized by hundreds of thousands of features. The main objective of this thesis was to evaluate the performance of some of the existing statistical methods to handle sets of large dimension data, exploring the association between dietary factors related to breast cancer (BC) and DNA methylation within the EPIC study.In order to investigate the characteristics of epigenetics data, the identification of random and systematic sources of variability of methylation measurements was attempted, via the principal component partial R-square (PC-PR2) method. Using this technique, the performance of three popular normalization techniques to correct for unwanted sources of variability was evaluated by quantifying epigenetics variability attributed to laboratory factors before and after the application of each correction method.Once a suitable normalization procedure was identified, the association between alcohol intake, dietary folate and methylation levels was examined by means of three approaches: an analysis of individual CpG sites, of differentially methylated regions (DMRs) and using fused lasso regression. The last two methods aim at the identification of specific regions of the epigenome using the potential correlation between neighboring CpG sites. Global methylation levels were used to investigate the relationship between methylation and BC risk.By performing an exhaustive evaluation of the statistical tools used to disclose complexity of DNA methylation data, this thesis provides informative insights for studies focusing on epigenetics, with promising potentials to apply similar methodology to the analysis of other -omics data
28

Analysis of individual feminine cycle hormone profiles for assessment of luteal defect / Analyse des profils hormonaux du cycle féminin pour l’étude de la déficience lutéale

Abdullah, Saman 10 September 2018 (has links)
Les niveaux hormonaux peuvent varier grandement entre cycles menstruels et entre femmes aux cycles dits « normaux ». Outre les niveaux quotidiens, ces profils présentent une grande diversité d’amplitudes, de durées, de positions et de formes. Ces constats ont ravivé l'intérêt pour l'étude des profils individuels plutôt que généraux. En effet, les profils de la littérature sont des moyennes dont peuvent s’éloigner plusieurs profils individuels ; d’où la nécessité de descriptions plus précises.Dans cette thèse, nous explorons la diversité des profils hormonaux au cours de la phase lutéale du cycle et présentons un concept original pour caractériser la plupart des ondes hormonales avec quatre paramètres seulement. Cela a été obtenu via une distribution bêta-binomiale. De plus, nous proposons un nouveau modèle de régression où le profil hormonal est variable dépendante et une variété de variables binaires ou continues sont prédicteurs.La méthode a été appliquée pour décrire les profils hormonaux de la phase lutéale et a donné des résultats intéressants. Un continuum allant de la phase lutéale normale à la déficience lutéale serait plus approprié qu’une classification binaire (normale/anormale). Les données analysées ont montré qu’un petit follicule a un impact négatif sur la qualité de la phase lutéale et qu’un niveau élevé de PDG perivulatoire (i.e., une lutéinisation prématurée) semble préjudiciable à la phase lutéale. Un niveau de PDG lutéale normal puis faible est probablement un signe d'anomalie de la phase lutéale. De plus, au cours de la phase lutéale, divers profils de métabolites de la progestérone sont corrélés avec plusieurs caractéristiques des femmes et du cycle / Even in normally cycling women, hormone levels vary widely between cycles and between women. Beyond day-by-day levels, hormone profiles do display a great variety of heights, durations, locations, and shapes. These observations have renewed the interest in the assessment of individual rather than general hormone profiles. Actually, as reported by the literature, cycle hormone profiles are averages of many individual profiles but individual profiles may be far from matching these averages. This raises the need for sharper descriptions.In this thesis, we explore the diversity of hormonal profiles observed during the luteal phase of the menstrual cycle and present an original concept to characterize most hormone waves using only four parameters. This was obtained via a beta-binomial distribution. Moreover, we propose a new regression model that considers the hormonal profile as dependent variable and a variety of binary or continuous variables as predictors.We applied the method to describe hormone profiles during the luteal phase and obtained interesting results. Instead of a binary classification (normal/abnormal), it would be more appropriate to consider a continuum from normal luteal phase to luteal deficiency. In the analyzed dataset, a small follicle had a negative impact on the quality of the luteal phase and a high periovulatory PDG level (i.e., a premature luteinization) seemed detrimental to the luteal phase. The occurrence of a normal then low luteal PDG level is probably a potential sign of luteal phase abnormality. Furthermore, distinct progesterone metabolite profiles during the luteal phase were found correlated with several women and cycle characteristics
29

Computational geometry for the determination of biomolecular structures / Géométrie computationnelle pour la détermination de structures biomoléculaires

Machat, Mohamed 27 April 2017 (has links)
En bioinformatique structurale, une partie des méthodes computationnelles qui calculent les structures de protéines à l'aide de données expérimentales, effectuent une optimisation de la position des atomes sous les contraintes expérimentales mesurées sur le système étudié, ainsi que sous des contraintes provenant de la connaissance générique de la stéréochimie organique. Ces méthodes d'optimisation présentent l'inconvénient de ne pas garantir la détermination de la meilleure solution. De plus, la validation de l'optimisation se fait en comparant les résultats obtenus pour des calculs répétés, et le résultat d'un calcul est accepté dans la mesure où le même résultat est obtenu plusieurs fois. Par cette approche, on rend plus difficile la détection de conformations alternatives de protéines, qui sont pourtant le sujet d'un vif intérêt dans la littérature. En effet, le développement de la sensibilité des techniques de résonance magnétique nucléaire (RMN) a permis de mettre en évidence plusieurs cas d'échange conformationnel reliés à la fonction des protéines. Dans ce projet de thèse, nous avons étudié une nouvelle approche pour le calcul de structures des protéines et l'exploration de leurs espaces conformationnels, basée sur la résolution du problème de Géométrie de Distance associé aux contraintes de distances dans une protéine par l'algorithme "interval Branch and Prune". Le logiciel implémentant cette méthode est appelée iBPprot, il incarne l'une des premières tentatives d'échantillonnage exhaustive des espaces conformationnels des protéines. Dans un premier temps, on s'est intéressé à l'application de la méthode en utilisant exclusivement des constraintes de distances exactes. Les résultats ont démontré que iBPprot était capable de reconstruire des structures références en s'appuyant seulement sur quelques contraintes à courte portée. De plus, la reconstruction a été d'une précision telle que la conformation générée présentait un RMSD de 1 Angstrom maximum avec la structure référence. L'exploration exhaustive de l'espace conformationnel a été possible pour une bonne partie des protéines cibles. Les temps de calcul pour l'exploration des espaces conformationnels ont été très variables allant de quelques secondes pour quelques protéines jusqu'à des semaines pour d'autres. L'évaluation de la qualité des structures obtenues a démontré qu'au moins 68% des valeurs de phi et psi sont localisées dans la zone 'core' du diagramme de Ramachandran. Cependant, des clash stériques ont été détectées dans plusieurs conformations mettant en jeu jusqu'à 7% d'atomes dans quelques unes de ces conformations. Dans un deuxième temps, on s'est intéressé à l'application de la méthode en incluant des intervalles de distances comme contraintes dans les calculs. Dans ce cas de figure, la méthode a réussi a reconstruire des structures références avec un RMSD inférieur à 5 Angstrom pour plus de la moitié des protéines cibles. En contre partie, le parcours complet de l'espace conformationnel n'a été possible que pour la plus petite protéine de l'ensemble des protéines étudiées. Pour la moitié des autres protéines, plus de 70% des atomes ont vu leurs positions échantillonnées. La qualité des structures obtenues a regressé en comparaison avec les simulations faites avec des distances exactes. En effet, seulement 53% des valeurs de phi et psi étaient localisées dans la zone 'core' du diagramme de Ramachandran, et le pourcentage d'atomes impliqués dans un clash stérique s'élevait jusqu'à 22% pour quelques protéines. Concernant le temps de calcul, le taux de génération de conformations a été déterminé pour chaque protéine cible, et il s'est avéré que globalement sa valeur etait compétitive par rapport aux valeurs des taux observables dans la littérature... / Structural biology has allowed us expand our knowledge of living organisms. It is defined as the investigation of the structure and function of biological systems at the molecular level. Studying a biomolecule's structure offers insight into its geometry, as angles and distances between the biomolecule's atoms are measured in order to determine the biomolecular structure. The values of these geometrical parameters may be obtained from biophysical techniques, such as X-ray crystallography or nuclear magnetic resonance (NMR) spectroscopy. One of the most used methods to calculate protein structures from geometric restraints is simulated annealing. This method does not guarantee an exhaustive sampling of protein conformational space, which is a shortcoming as one protein may adopt multiple functional conformations, and it is important to determine them exhaustively. In this PhD project, the efficiency of a new method - derived from operations research and computational geometry - is studied in order to answer this question: How does this method explore the conformational spaces of small proteins? This method - implemented within the iBPprot software framework - treats protein structure determination as a distance geometry problem, which the interval branch-and-prune algorithm tries to solve by the full exploration of its solutions space. The results obtained by iBPprot on a set of test proteins, with sizes ranging from 24 to 120 residues and with known structures, are analyzed here. Using short-range exact distance restraints, it was possible to rebuild the structure of all protein targets, and for many of them it was possible to exhaustively explore their conformational spaces. In practice, it is not always possible to obtain exact distance restraints from experiments. Therefore, this method was then tested with interval data restraints. In these cases, iBPprot permitted the sampling of the positions of more than 70% of the atoms constituting the protein backbone for most of the targets. Furthermore, conformations whose r.m.s. deviations closer than 6 Angstrom to the target ones were obtained during the conformational space exploration. The quality of the generated structures was satisfactory with respect to Ramachandran plots, but needs improvement because of the presence of steric clashes in some conformers. The runtime for most performed calculations was competitive with existing structure determination method...
30

Utilisation des transferts horizontaux de gènes pour dater des phylogénies / Towards a chronology of life using Lateral Gene Transfers

Arellano Davin, Adrian 05 December 2017 (has links)
Le fait d'avoir une généalogie datée des organismes vivants est l'un des principaux objectifs de la biologie évolutive. Cette entreprise est confrontée à deux défis majeurs. Le premier est la rareté et l'incomplétude des enregistrements fossiles, pratiquement inexistants pour les microbes et essentiels pour fournir une échelle temporelle de l'histoire de la vie. Le second est la difficulté intrinsèque d'obtenir des phylogénies d'organismes dont le génome a été largement façonné par transfert latéral de gène (TLG). L'acquisition par transfert de nouveaux gènes d'origine éloignée perturbe des arbres de gènes et rend beaucoup plus complexe la reconstruction de l'histoire des espèces. Dans ce travail de thèse, je montre comment nous pouvons utiliser ces différences entre arbres de gènes et arbres d'espèces à notre avantage pour inférer les événements anciens de TLG et comment ils peuvent fournir une nouvelle échelle de temps pour l'évolution des organismes vivants. Les transferts étant particulièrement fréquents chez les espèces dont les fossiles sont rares, ils peuvent servir de nouvelle source de datation indépendante du registre géologique pour reconstruire une phylogénie datée de la vie. Dans la première partie, je réalise une analyse à l'échelle génomique pour montrer comment les méthodes de réconciliations phylogénétiques peuvent être utilisées pour détecter les lignées correspondant aux donneurs et aux receveurs des événements de TLG. En outre, ces méthodes fournissent également une vue détaillée de la façon dont les familles de gènes évoluent le long des arbres de l'espèce. En utilisant ALE, un logiciel de réconciliation probabiliste qui prend en compte l'incertitude dans les arbres de gènes, nous sommes en mesure de cartographier les événements de duplication, de perte et de transfert dans les phylogénies des cyanobactéries et des champignons. Nous montrons également comment les méthodes qui ignorent l'information contenue dans les arbres de gènes sous-estiment la fréquence réelle des TLG. Dans la deuxième partie, je présente en détail comment le TLG porte un signal temporel et comment ce signal peut être utilisé pour inférer des arbres datés. J'introduis une nouvelle méthode appelée MaxTiC qui permet de trouver un ordonnancement des noeuds dans l'arbre des espèces qui maximise la cohérence temporelle entre les transferts. Par des simulations, nous montrons la robustesse de la méthode aux erreurs présentes dans l'arbre des espèces et le nombre de familles de gènes nécessaires pour obtenir des arbres datés fiables. Enfin, pour confirmer nos résultats, je présente différentes approches permettant de comparer les temps de divergence découlant des transferts avec ceux estimés en utilisant des horloges moléculaires. Nous effectuons une analyse phylogénomique pour détecter des milliers d'événements de TLG dans quatres groupes: les cyanobactéries, les Deltaproteobactéries, les Archées et les Champignons. Nous trouvons un large accord entre les deux méthodes de datation, ce résultat étant robuste à l'utilisation de différentes prior sur les temps de divergence et différents modèles d'horloges moléculaires relâchées. Nous montrons également que certaines des dates indiquées par l'utilisation de TLG sont en désaccord avec les horloges moléculaires tout en étant soutenues par un grand nombre de TLG. Ces résultats suggèrent que l'utilisation des TLG pourrait permettre d'améliorer les méthodes de datation, notamment pour les phylogénies anciennes et ainsi conduire à d'importants changements de notre point de vue sur l'histoire de la vie / Having a dated genealogy of living organisms is one of the major goals of evolutionary biology. This enterprise faces two major challenges. The first one is the scarcity and incompleteness of the fossil record, virtually nonexistent for microbes and essential to provide a time scale of life history. The second one is the intrinsic difficulty of obtaining phylogenies in organisms whose genome has been extensively shaped by Lateral Gene Transfer (LGT). The acquisition of new genes from distant organisms creates important differences among genes trees and complicates the reconstruction of the species history. In this thesis work I show how we can use those differences to our advantage to infer ancient events of LGT and how they provide a temporal scale of evolution. Transfers can supply an important amount of information on divergence times in organisms whose fossils are very scarce, acting as a new dating source independent of the geological record and taking us a step closer to building a whole dated phylogeny of Life. In the first part, I perform genomic-scale analyses to show how phylogenetic reconciliations can be used to detect donor and recipient lineages of LGT events. Moreover, they also provide a detailed view of how gene families evolve along species trees. Using ALE, a probabilistic reconciliation software that accounts for the uncertainty in gene trees, we are able to map events of duplication, loss and transfer in phylogenies of cyanobacteria and fungi. We also show how methods that ignore the information contained in gene trees underestimate the real frequency of LGT. In the second part, I present in detail how LGT carries a temporal signal and how this signal can be used to infer dated trees. I explain a new method called MaxTiC, that finds the best dated tree by maximizing the number of transfers that are time-compatible with a phylogeny. By simulations we show how robust the method is to errors in the species tree and how many gene families are required to obtain reliable dated trees. Finally, to confirm our results I present different metrics to compare the divergence times inferred by transfers with those inferred by molecular clocks. We perform a phylogenomic analysis to detect thousands of LGT events in cyanobacteria, Deltaproteobacteria, Archaea and fungi and obtain their dated phylogenies. We find a broad agreement between both dating methods, a result robust to the use of different priors on divergence times and different models of relaxed molecular clock. We also show that some of the dates inferred by using LGT are not recovered by molecular clocks. These results altogether suggest that the use of LGT in future dating studies may have a big impact on the inferred dates of major evolutionary events and can lead to an important change of our view of the History of Life

Page generated in 0.0349 seconds