Global ETD Search

41	De novo algorithms to identify patterns associated with biological events in de Bruijn graphs built from NGS data / Algorithmes de novo pour l'identification de motifs associés à des événements biologiques dans les graphes de De Bruijn construits à partir de données NGS Ishi Soares de Lima, Leandro 23 April 2019 (has links) L'objectif principal de cette thèse est le développement, l'amélioration et l'évaluation de méthodes de traitement de données massives de séquençage, principalement des lectures de séquençage d'ARN courtes et longues, pour éventuellement aider la communauté à répondre à certaines questions biologiques, en particulier dans les contextes de transcriptomique et d'épissage alternatif. Notre objectif initial était de développer des méthodes pour traiter les données d'ARN-seq de deuxième génération à l'aide de graphes de De Bruijn afin de contribuer à la littérature sur l'épissage alternatif, qui a été exploré dans les trois premiers travaux. Le premier article (Chapitre 3, article [77]) a exploré le problème que les répétitions apportent aux assembleurs de transcriptome si elles ne sont pas correctement traitées. Nous avons montré que la sensibilité et la précision de notre assembleur local d'épissage alternatif augmentaient considérablement lorsque les répétitions étaient formellement modélisées. Le second (Chapitre 4, article [11]) montre que l'annotation d'événements d'épissage alternatifs avec une seule approche conduit à rater un grand nombre de candidats, dont beaucoup sont importants. Ainsi, afin d'explorer de manière exhaustive les événements d'épissage alternatifs dans un échantillon, nous préconisons l'utilisation combinée des approches mapping-first et assembly-first. Étant donné que nous avons une énorme quantité de bulles dans les graphes de De Bruijn construits à partir de données réelles d'ARN-seq, qui est impossible à analyser dans la pratique, dans le troisième travail (Chapitre 5, articles [1, 2]), nous avons exploré théoriquement la manière de représenter efficacement et de manière compacte l'espace des bulles via un générateur des bulles. L'exploration et l'analyse des bulles dans le générateur sont réalisables dans la pratique et peuvent être complémentaires aux algorithmes de l'état de l'art qui analysent un sous-ensemble de l'espace des bulles. Les collaborations et les avancées sur la technologie de séquençage nous ont incités à travailler dans d'autres sous-domaines de la bioinformatique, tels que: études d'association à l'échelle des génomes, correction d'erreur et assemblage hybride. Notre quatrième travail (Chapitre 6, article [48]) décrit une méthode efficace pour trouver et interpréter des unitigs fortement associées à un phénotype, en particulier la résistance aux antibiotiques, ce qui rend les études d'association à l'échelle des génomes plus accessibles aux panels bactériens, surtout ceux qui contiennent des bactéries plastiques. Dans notre cinquième travail (Chapitre 7, article [76]), nous évaluons dans quelle mesure les méthodes existantes de correction d'erreur ADN à lecture longue sont capables de corriger les lectures longues d'ARN-seq à taux d'erreur élevé. Nous concluons qu'aucun outil ne surpasse tous les autres pour tous les indicateurs et est le mieux adapté à toutes les situations, et que le choix devrait être guidé par l'analyse en aval. Les lectures longues d'ARN-seq fournissent une nouvelle perspective sur la manière d'analyser les données transcriptomiques, puisqu'elles sont capables de décrire les séquences complètes des ARN messagers, ce qui n'était pas possible avec des lectures courtes dans plusieurs cas, même en utilisant des assembleurs de transcriptome de l'état de l'art. En tant que tel, dans notre dernier travail (Chapitre 8, article [75]), nous explorons une méthode hybride d'assemblage d'épissages alternatifs qui utilise des lectures à la fois courtes et longues afin de répertorier les événements d'épissage alternatifs de manière complète, grâce aux lectures courtes, guidé par le contexte intégral fourni par les lectures longues / The main goal of this thesis is the development, improvement and evaluation of methods to process massively sequenced data, mainly short and long RNA-sequencing reads, to eventually help the community to answer some biological questions, especially in the transcriptomic and alternative splicing contexts. Our initial objective was to develop methods to process second-generation RNA-seq data through de Bruijn graphs to contribute to the literature of alternative splicing, which was explored in the first three works. The first paper (Chapter 3, paper [77]) explored the issue that repeats bring to transcriptome assemblers if not addressed properly. We showed that the sensitivity and the precision of our local alternative splicing assembler increased significantly when repeats were formally modeled. The second (Chapter 4, paper [11]), shows that annotating alternative splicing events with a single approach leads to missing out a large number of candidates, many of which are significant. Thus, to comprehensively explore the alternative splicing events in a sample, we advocate for the combined use of both mapping-first and assembly-first approaches. Given that we have a huge amount of bubbles in de Bruijn graphs built from real RNA-seq data, which are unfeasible to be analysed in practice, in the third work (Chapter 5, papers [1, 2]), we explored theoretically how to efficiently and compactly represent the bubble space through a bubble generator. Exploring and analysing the bubbles in the generator is feasible in practice and can be complementary to state-of-the-art algorithms that analyse a subset of the bubble space. Collaborations and advances on the sequencing technology encouraged us to work in other subareas of bioinformatics, such as: genome-wide association studies, error correction, and hybrid assembly. Our fourth work (Chapter 6, paper [48]) describes an efficient method to find and interpret unitigs highly associated to a phenotype, especially antibiotic resistance, making genome-wide association studies more amenable to bacterial panels, especially plastic ones. In our fifth work (Chapter 7, paper [76]), we evaluate the extent to which existing long-read DNA error correction methods are capable of correcting high-error-rate RNA-seq long reads. We conclude that no tool outperforms all the others across all metrics and is the most suited in all situations, and that the choice should be guided by the downstream analysis. RNA-seq long reads provide a new perspective on how to analyse transcriptomic data, since they are able to describe the full-length sequences of mRNAs, which was not possible with short reads in several cases, even by using state-of-the-art transcriptome assemblers. As such, in our last work (Chapter 8, paper [75]) we explore a hybrid alternative splicing assembly method, which makes use of both short and long reads, in order to list alternative splicing events in a comprehensive manner, thanks to short reads, guided by the full-length context provided by the long reads ARN-seq Lectures courtes Lectures longues Épissage alternatif Graphes de De Bruijn Bulles Correction d'erreurs RNA-seq Short reads Long reads Alternative splicing De Bruijn graphs Bubbles Genome-wide association studies Error-correction 570.15
42	Traitement du virus de l'hépatite C (VHC) par agents antiviraux directs : modélisation de l'optimisation des traitements et impact sur l'histoire naturelle et l'épidémiologie / Direct-acting antiviral treatments of hepatitis C virus (HCV) : treatment optimization and impact on natural history and epidemiology Virlogeux, Victor 10 September 2018 (has links) Le traitement du virus de l'hépatite C (VHC) a connu une révolution récente, rapide et exemplaire grâce à l'arrivée des agents antiviraux directs (AAD) en plusieurs vagues depuis 2011, détrônant ainsi la bithérapie interféron-pégylé/ribavirine. Ces nouveaux traitements ont été rapidement confrontés à des limites concernant leur efficacité et leur tolérance notamment à leurs débuts avec les inhibiteurs de la protéase NS3/4A de première génération. L'arrivée de nouveaux AAD sur le marché lors d'une 2ème vague en 2014 a permis toutefois de surpasser celles-ci et de devenir le traitement de référence du VHC.Leur efficacité remarquable a laissé naître l'idée d'une potentielle élimination du VHC grâce à l'utilisation universelle de ces traitements. Cependant, leur coût élevé et les comportements à risque observés dans des sous-groupes de population (utilisateurs de drogues intraveineuses et homosexuels) restent encore des problématiques cruciales à surmonter pour espérer atteindre les objectifs fixés par l'Organisation Mondiale de la Santé en 2030 concernant l'élimination du VHC. De plus ces traitements, permettant l'élimination virale quasi-systématique et donc consécutivement une diminution du risque de complications hépatiques, ont été récemment confrontés à une polémique concernant un potentiel risque de récidive précoce de carcinome hépatocellulaire (CHC) suite à une exposition à ces derniers.Le travail présenté dans cette thèse s'articule autour de trois problématiques ayant toutes pour objectif principal d'optimiser l'utilisation de ces traitements dans l'optique de contrôler l'histoire naturelle de la maladie à l'échelle individuelle et à l'échelle populationnelle par l'intermédiaire de diverses méthodes statistiques.Nos résultats ont permis de montrer au sein d’une première problématique ayant exploré l'efficacité et la tolérance de ces traitements antiviraux à l’échelle individuelle: (i) une efficacité antivirale moindre que celle annoncée dans les essais de phase III des inhibiteurs de protéase de première génération(télaprévir et bocéprévir), (ii) un effet indésirable significatif des inhibiteurs de protéase de première génération sur la fonction rénale, (iii) une tolérance moins bonne de ces premières molécules que lors du traitement par bithérapie avec une incidence accrue d'anémie probablement liée à un surdosage en ribavirine induit par les inhibiteurs de protéase et (iv) une efficacité antivirale remarquable des AAD arrivés depuis 2014 sans impact des caractéristiques du patient ni des dosages pharmacologiques sur la réponse virologique. Dans un second temps, la problématique d'un risque de récidive de CHC accru après un traitement par AAD a également été explorée par l'analyse d'une cohorte locale, celle-ci ayant conclu à l'absence de risque accru comparé à un groupe de patients non exposés. Enfin, nos travaux basés sur la modélisation de la transmission du VHC en France dans la population coinfectée VIH-VHCont montré qu'un taux annuel de traitement par AAD de 50% était nécessaire dans la population homosexuelle ayant des pratiques à haut-risque de transmission pour contrer l'épidémie actuellement observée.Nos travaux ont donc permis d'apporter des données pour optimiser l'utilisation des nouveaux traitements anti-VHC par l'intermédiaire de diverses approches statistiques et ont apporté des éléments de réponse aux grandes problématiques actuelles. L'efficacité exemplaire et la tolérance quasi-parfaite des dernières molécules antivirales permettent une utilisation universelle de ces traitements dans toutes les populations de patients. Des études complémentaires robustes sont cependant nécessaires pour apporter des arguments à la question de la récidive du CHC. Des efforts sont également attendus concernant l'accès au traitement, la diminution des coûts associés et un dépistage renforcé du VHC pour espérer pouvoir éradiquer un jour cette maladie. / The arrival of direct-acting antivirals agents (DAAs) has spurred a rapid revolution in the treatment of hepatitis C virus (HCV), supplanting the previous standard of care, i.e. pegylated interferon and ribavirin. These new treatments are associated with an increased rate of virological response however they rapidly faced some limits more particularly at the beginning with the first generation NS3/4A protease inhibitors. From 2014 on the second wave of DAA was available for treatment of chronic HCV infection and surpassed previous encountered limits. These treatments are nowadays the gold standard for HCV treatment in high-income countries.The idea of HCV eradication recently emerged since DAA treatment are highly effective. However, their associated high cost and recent high-risk behaviors associated with an increased risk of HCV transmission (among intravenous drug users and homosexuals) have been reported. These issues need therefore to be addressed in order to achieve the objectives of the World Health Organization for 2030 of an HCV eradication. Moreover, these treatments allow a sustained virological response in almost all patients and consequently reduce the risk of liver-related complications, but a recent controversy regarding a potential increased risk of hepatocellular carcinoma after DAA treatment has been raised.Three issues will be extensively discussed in this manuscript regarding how these treatments can be used to optimize their effect on HCV natural history at the individual and population level through different statistical approaches.As regards the first issue, this project allowed us to demonstrate regarding the tolerance and efficacy of DAA treatment: (i) a lower antiviral efficacy than previously reported in the phase III trials for first generationprotease inhibitor regimen (telaprevir and boceprevir), (ii) impairment of renal function during first generation protease inhibitor treatment, (iii) an increased rate of reported side effects during first-generation protease inhibitor treatment and more particularly anemia, potentially related to an increased ribavirin biodisponibility induced by protease inhibitor intake and (iv) a remarkable antiviral efficacy of second generation DAAs without impact of patients' characteristics norpharmacology on virological response rate. The recent issue regarding a higher risk of HCC recurrence after DAA treatment was also explored through a local cohort study and no impact of DAA treatment was observed when comparing DAA-exposed vs non DAA-exposed patients. Finally, we conducted amodelling study on HCV transmission in the coinfected HIV-HCV French population and our results suggested that an annual DAA treatment coverage rate of 50% was required in the homosexual population with high-risk behaviors to counter the recent observed epidemic in this population.Our different works provide new insights on how to optimize the use of DAA treatment through several statistical approaches and bring new elements for discussion on the recent controversy. The new DAA have an excellent efficacy and tolerance profile and should be universally used in all populations without restriction. However, further studies are required to explore on a deeper level the question regarding HCC recurrence after DAA treatment. Efforts are also still needed regarding DAA treatment access, associated costs and HCV screening to reach the objective of HCV eradication Hépatite C Carcinome hépatocellulaire Coinfection Agents antiviraux directs Modélisation Dosage pharmacologique Récidive Réponse virologique soutenue Hepatitis C virus Hepatocellular carcinoma Coinfection Direct-acting antivirals Modelling Pharmacology Recurrence Sustained virological response 570.15
43	Classification et modélisation statistique intégrant des données cliniques et d’imagerie par résonance magnétique conventionnelle et avancée / Classification and statistical modeling based on clinical and conventional and advanced Magnetic Resonance Imaging data Tozlu, Ceren 19 March 2018 (has links) L'accident vasculaire cérébral et la sclérose en plaques figurent parmi les maladies neurologiques les plus destructrices du système nerveux central. L'accident vasculaire cérébral est la deuxième cause de décès et la principale cause de handicap chez l'adulte dans le monde alors que la sclérose en plaques est la maladie neurologique non traumatique la plus fréquente chez l'adulte jeune. L'imagerie par résonance magnétique est un outil important pour distinguer le tissu cérébral sain du tissu pathologique à des fins de diagnostic, de suivi de la maladie, et de prise de décision pour un traitement personnalisé des patients atteints d'accident vasculaire cérébral ou de sclérose en plaques. La prédiction de l'évolution individuelle de la maladie chez les patients atteints d'accident vasculaire cérébral ou de sclérose en plaques constitue un défi pour les cliniciens avant de donner un traitement individuel approprié. Cette prédiction est possible avec des approches statistiques appropriées basées sur des informations cliniques et d'imagerie. Toutefois, l'étiologie, la physiopathologie, les symptômes et l'évolution dans l'accident vasculaire cérébral et la sclérose en plaques sont très différents. Par conséquent, dans cette thèse, les méthodes statistiques utilisées pour ces deux maladies neurologiques sont différentes. Le premier objectif était l'identification du tissu à risque d'infarctus chez les patients atteints d'accident vasculaire cérébral. Pour cet objectif, les méthodes de classification (dont les méthodes de machine learning) ont été utilisées sur des données d'imagerie mesurées à l'admission pour prédire le risque d'infarctus à un mois. Les performances des méthodes de classification ont été ensuite comparées dans un contexte d'identification de tissu à haut risque d'infarctus à partir de données humaines codées voxel par voxel. Le deuxième objectif était de regrouper les patients atteints de sclérose en plaques avec une méthode non supervisée basée sur des trajectoires individuelles cliniques et d'imagerie tracées sur cinq ans. Les groupes de trajectoires aideraient à identifier les patients menacés d'importantes progressions et donc à leur donner des médicaments plus efficaces. Le troisième et dernier objectif de la thèse était de développer un modèle prédictif pour l'évolution du handicap individuel des patients atteints de sclérose en plaques sur la base de données démographiques, cliniques et d'imagerie obtenues a l'inclusion. L'hétérogénéité des évolutions du handicap chez les patients atteints de sclérose en plaques est un important défi pour les cliniciens qui cherchent à prévoir l'évolution individuelle du handicap. Le modèle mixte linéaire à classes latentes a été utilisé donc pour prendre en compte la variabilité individuelle et la variabilité inobservée entre sous-groupes de sclérose en plaques / Stroke and multiple sclerosis are two of the most destructive neurological diseases of the central nervous system. Stroke is the second most common cause of death and the major cause of disability worldwide whereas multiple sclerosis is the most common non-traumatic disabling neurological disease of adulthood. Magnetic resonance imaging is an important tool to distinguish healthy from pathological brain tissue in diagnosis, monitoring disease evolution, and decision-making in personalized treatment of patients with stroke or multiple sclerosis.Predicting disease evolution in patients with stroke or multiple sclerosis is a challenge for clinicians that are about to decide on an appropriate individual treatment. The etiology, pathophysiology, symptoms, and evolution of stroke and multiple sclerosis are highly different. Therefore, in this thesis, the statistical methods used for the study of the two neurological diseases are different.The first aim was the identification of the tissue at risk of infarction in patients with stroke. For this purpose, the classification methods (including machine learning methods) have been used on voxel-based imaging data. The data measured at hospital admission is performed to predict the infarction risk at one month. Next, the performances of the classification methods in identifying the tissue at a high risk of infarction were compared. The second aim was to cluster patients with multiple sclerosis using an unsupervised method based on individual clinical and imaging trajectories plotted over five 5 years. Clusters of trajectories would help identifying patients who may have an important progression; thus, to treat them with more effective drugs irrespective of the clinical subtypes. The third and final aim of this thesis was to develop a predictive model for individual evolution of patients with multiple sclerosis based on demographic, clinical, and imaging data taken at study onset. The heterogeneity of disease evolution in patients with multiple sclerosis is an important challenge for the clinicians who seek to predict the disease evolution and decide on an appropriate individual treatment. For this purpose, the latent class linear mixed model was used to predict disease evolution considering individual and unobserved subgroup' variability in multiple sclerosis Accident vasculaire cérébral Sclérose en plaques Méthodes de classification Regroupement des données longitudinales Modélisation prédictive Modèle mixte à classes latentes Stroke Multiple Sclerosis Classification Methods Trajectory Clustering Predictive Modeling Latent Class Linear Mixed Model 570.15
44	Models and algorithms to study the common evolutionary history of hosts and symbionts / Modèles et algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotes Urbini, Laura 23 October 2017 (has links) Lors de cette thèse, je me suis intéressée aux modèles et aux algorithmes pour étudier l'histoire évolutive commune des hôtes et des symbiotes. Le premier objectif était d'analyser la robustesse des méthodes de réconciliation des arbres phylogénétiques, qui sont très utilisées dans ce type d'étude. Celles-ci associent (ou lient) un arbre, d'habitude celui des symbiotes, à l'autre, en utilisant un modèle dit basé sur des évènements. Les évènements les plus utilisés sont la cospéciation, la duplication, le saut et la perte. Les phylogénies des hôtes et des symbiotes sont généralement considérés comme donnés, et sans aucune erreur. L'objectif était de comprendre les forces et les faiblesses du modèle parcimonieux utilisé et comprendre comment les résultats finaux peuvent être influencés en présence de petites perturbations ou d'erreurs dans les données en entrée. Ici deux cas sont considérés, le premier est le choix erroné d'une association entre les feuilles des hôtes et des symbiotes dans le cas où plusieurs existent, le deuxième est lié au mauvais choix de l'enracinement de l'arbre des symbiotes. Nos résultats montrent que le choix des associations entre feuilles et le choix de l'enracinement peuvent avoir un fort impact sur la variabilité de la réconciliation obtenue. Nous avons également remarqué que l'evènement appelé “saut” joue un rôle important dans l'étude de la robustesse, surtout pour le problème de l'enracinement. Le deuxième objectif de cette thèse était d'introduire certains evènements peu ou pas formellement considérés dans la littérature. L'un d'entre eux est la “propagation”, qui correspond à l'invasion de différents hôtes par un même symbiote. Dans ce cas, lorsque les propagations ne sont pas considérés, les réconciliations optimales sont obtenues en tenant compte seulement des coûts des évènements classiques (cospeciation, duplication, saut, perte). La nécessité de développer des méthodes statistiques pour assigner les coûts les plus appropriés est toujours d'actualité. Deux types de propagations sont introduites : verticaux et horizontaux. Le premier type correspond à ce qu'on pourrait appeler aussi un gel, à savoir que l'évolution du symbiote s'arrête et “gèle” alors que le symbiote continue d'être associé à un hôte et aux nouvelles espèces qui descendent de cet hôte. Le second comprend à la fois une invasion, du symbiote qui reste associé à l'hôte initial, mais qui en même temps s'associe (“envahit”) un autre hôte incomparable avec le premier, et un gel par rapport à l'évolution des deux l'hôtes, celui auquel il était associé au début et celui qu'il a envahi. Nos résultats montrent que l'introduction de ces evènements rend le modèle plus réaliste, mais aussi que désormais il est possible d'utiliser directement des jeux de données avec un symbiote qui est associé plusieurs hôtes au même temps, ce qui n'était pas faisable auparavant / In this Ph.D. work, we proposed models and algorithms to study the common evolutionary history of hosts and symbionts. The first goal was to analyse the robustness of the methods of phylogenetic tree reconciliations, which are a common way of performing such study. This involves mapping one tree, most often the symbiont’s, to the other using a so-called event-based model. The events considered in general are cospeciation, duplication, host switch, and loss. The host and the symbiont phylogenies are usually considered as given and without any errors. The objective here was to understand the strengths and weaknesses of the parsimonious model used in such mappings of one tree to another, and how the final results may be influenced when small errors are present, or are introduced in the input datasets. This may correspond either to a wrong choice of present-day symbiont-host associations in the case where multiple ones exist, or to small errors related to a wrong rooting of the symbiont tree. Our results show that the choice of leaf associations and of root placement may have a strong impact on the variability of the reconciliation output. We also noticed that the host switch event has an important role in particular for the rooting problem. The second goal of this Ph.D. was to introduce some events that are little or not formally considered in the literature. One of them is the spread, which corresponds to the invasion of different hosts by a same symbiont. In this case, as when spreads are not considered, the optimal reconciliations obtained will depend on the choice made for the costs of the events. The need to develop statistical methods to assign the most appropriate ones therefore remains of actuality. Two types of spread are introduced: vertical and horizontal. The first case corresponds to what could be called also a freeze in the sense that the evolution of the symbiont “freezes” while the symbiont continues to be associated with a host and with the new species that descend from this host. The second includes both an invasion, of the symbiont which remains with the initial host but at the same time gets associated with (“invades”) another one incomparable with the first, and a freeze, actually a double freeze as the evolution of the symbiont “freezes” in relation to the evolution of the host to which it was initially associated and in relation to the evolution of the second one it “invaded”. Our results show that the introduction of these events makes the model more realistic, but also that it is now possible to directly use datasets with a symbiont that is associated with more than one host at the same time, which was not feasible before Cophilogenie Parsimonie Méthodes basées sur des evènements Robustesse Systèmes hôtes/symbiotes Calcul approximatif Bayésien Spread Cophylogeny Parsimony Event-based methods Robusness Host/symbiont system Approximate Bayesian computation Spread 570.15
45	Multivariate analysis of high-throughput sequencing data / Analyses multivariées de données de séquençage à haut débit Durif, Ghislain 13 December 2016 (has links) L'analyse statistique de données de séquençage à haut débit (NGS) pose des questions computationnelles concernant la modélisation et l'inférence, en particulier à cause de la grande dimension des données. Le travail de recherche dans ce manuscrit porte sur des méthodes de réductions de dimension hybrides, basées sur des approches de compression (représentation dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant la régression "Partial Least Squares" parcimonieuse (supervisée) et les méthodes de factorisation parcimonieuse de matrices (non supervisée). Dans les deux cas, notre objectif sera la reconstruction et la visualisation des données. Nous présenterons une nouvelle approche de type PLS parcimonieuse, basée sur une pénalité adaptative, pour la régression logistique. Cette approche sera utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire) à partir de l'expression des gènes. La principale problématique sera de prendre en compte la réponse pour écarter les variables non pertinentes. Nous mettrons en avant le lien entre la construction des algorithmes et la fiabilité des résultats.Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous proposons une approche probabiliste pour la factorisation de matrices de comptage, laquelle prend en compte la sur-dispersion et l'amplification des zéros (caractéristiques des données single-cell). Nous développerons une procédure d'estimation basée sur l'inférence variationnelle. Nous introduirons également une procédure de sélection de variables probabiliste basée sur un modèle "spike-and-slab". L'intérêt de notre méthode pour la reconstruction, la visualisation et le clustering de données sera illustré par des simulations et par des résultats préliminaires concernant une analyse de données "single-cell". Toutes les méthodes proposées sont implémentées dans deux packages R: plsgenomics et CMF / The statistical analysis of Next-Generation Sequencing data raises many computational challenges regarding modeling and inference, especially because of the high dimensionality of genomic data. The research work in this manuscript concerns hybrid dimension reduction methods that rely on both compression (representation of the data into a lower dimensional space) and variable selection. Developments are made concerning: the sparse Partial Least Squares (PLS) regression framework for supervised classification, and the sparse matrix factorization framework for unsupervised exploration. In both situations, our main purpose will be to focus on the reconstruction and visualization of the data. First, we will present a new sparse PLS approach, based on an adaptive sparsity-inducing penalty, that is suitable for logistic regression to predict the label of a discrete outcome. For instance, such a method will be used for prediction (fate of patients or specific type of unidentified single cells) based on gene expression profiles. The main issue in such framework is to account for the response to discard irrelevant variables. We will highlight the direct link between the derivation of the algorithms and the reliability of the results. Then, motivated by questions regarding single-cell data analysis, we propose a flexible model-based approach for the factorization of count matrices, that accounts for over-dispersion as well as zero-inflation (both characteristic of single-cell data), for which we derive an estimation procedure based on variational inference. In this scheme, we consider probabilistic variable selection based on a spike-and-slab model suitable for count data. The interest of our procedure for data reconstruction, visualization and clustering will be illustrated by simulation experiments and by preliminary results on single-cell data analysis. All proposed methods were implemented into two R-packages "plsgenomics" and "CMF" based on high performance computing Statistiques computationnelles Données en grande dimension Réduction de dimension Compression Sélection de Variables Régression logistique Partial Least Squares parcimonieuse Factorisation probabiliste de matrices Computational Statistics High-dimensional data Dimension reduction Compression Variable selection Logistic regression Sparse Partial Least Squares Probabilistic matrix factorization 570.15
46	Evaluer le bénéfice clinique dans les essais randomisés en utilisant les comparaisons par paire généralisées incluant des données de survie / A multicriteria analysis of the chance of a better outcome in randomized trials using generalized pairwise comparisons with survival data Péron, Julien 30 October 2015 (has links) Dans les essais randomisés conduits en oncologie médicale, l'effet des traitements est le plus souvent évalué sur plusieurs critères de jugement, dont un ou plusieurs critères de type temps jusqu'à événement. Une analyse globale de l'effet d'un traitement intègre les résultats observés sur l'ensemble des critères de jugement pertinent. Un des objectifs de notre travail était de réaliser une revue systématique de la littérature évaluant les méthodes de recueil, d'analyse et de rapport des événements indésirables et des critères de jugement rapportés par les patients dans les essais de phase III en oncologie médicale. Cette revue a mis en évidence une grande hétérogénéité des méthodes utilisées. De plus les rapports des essais omettaient souvent certaines informations indispensables pour évaluer la validité des résultats rapportés en toxicité ou sur les critères de jugement rapportés par les patients. Un autre objectif de cette thèse était de développer une extension de la méthode des comparaisons par paire généralisées permettant d'évaluer de façon non biaisée la propension au succès en présence de censure lorsqu'un des critères de jugement est de type temps jusqu'à événement. Cette thèse avait également pour objectif de montrer comment les comparaisons par paire pouvaient être utilisées afin d'évaluer la balance bénéfice-risque de traitements innovants dans les essais randomisés. De la même façon, la propension globale au succès permet d'évaluer le bénéfice thérapeutique global lorsqu'un effet positif est attendu sur plusieurs critères de jugement / In medical oncology randomized trials, treatment effect is usually assessed on several endpoints, including one or more time-to-event endpoints. An overall analysis of the treatment effect may include the outcomes observed on all the relevant endpoints. A systematic review of medical oncology phase III trials was conducted. We extracted the methods used to record, analyze and report adverse events and patient-reported outcomes. Our findings show that some methodological aspects of adverse events or patient-reported outcomes collection and analysis were poorly reported. Even when reported, the methods used were highly heterogeneous. Another objective was to develop an extension of the generalized pairwise comparison procedure for time-to-event variables. The extended procedure provides an unbiased estimation of the chance of a better outcome even in presence of highly censored observations. Then, we show how the chance of an overall better outcome can be used to assess the benefit-risk balance of treatment in randomized trials. When a benefit is expected on more than one endpoint, the chance of an overall better outcome assesses the overall therapeutic benefit. The test of the null hypothesis is more powerful than the test based on one single endpoint Analyse de survie Essais contrôlés randomisés Cancer Comparaison par paire Analyse multi-critère Analyse statistique Balance bénéfice-risque Survival analysis Randomized trials Cancer Pairwise comparisons Multicriteria analysis Statistical analysis Benefit-risk balance 570.15
47	Étude de l’assemblage, de la mécanique et de la dynamique des complexes ADN-protéine impliquant le développement d’un modèle « gros grains » / Study assembly, mecanism and dynamic of protein-DNA complexes with coarse-grained model Éthève, Loic 01 December 2016 (has links) Les interactions ADN-protéine sont fondamentales dans de nombreux processus biologiques tels que la régulation des gènes et la réparation de l'ADN. Cette thèse est centrée sur l'analyse des propriétés physiques et dynamiques des interfaces ADN-protéine. À partir de l'étude de quatre complexes ADN-protéine, nous avons montré que l'interface ADN-protéine est dynamique et que les ponts salins et liaisons hydrogène se forment et se rompent dans une échelle de temps de l'ordre de la centaine de picosecondes. L'oscillation des chaînes latérales des résidus est dans certains cas capable de moduler la spécificité d'interaction. Nous avons ensuite développé un modèle de protéine gros grains dans le but de décomposer les interactions ADN-protéine en identifiant les facteurs qui modulent la stabilité et la conformation de l'ADN ainsi que les facteurs responsables de la spécificité de reconnaissance ADN-protéine. Notre modèle est adaptable, allant d'un simple volume mimant une protéine à une représentation plus complexe comportant des charges formelles sur les résidus polaires, ou des chaînes latérales à l'échelle atomique dans le cas de résidus clés ayant des comportements particuliers, tels que les cycles aromatiques qui s'intercalent entre les paires de base de l'acide nucléique / DNA-protein interactions are fundamental in many biological processes such as gene regulation and DNA repair. This thesis is focused on an analysis of the physical and dynamic properties of DNA-protein interfaces. In a study of four DNA-protein complexes, we have shown that DNA-protein interfaces are dynamic and that the salt bridges and hydrogen bonds break and reform over a time scale of hundreds of picoseconds. In certain cases, this oscillation of protein side chains is able to modulate interaction specificity. We have also developed a coarse-grain model of proteins in order to deconvolute the nature of protein-DNA interactions, identifying factors that modulate the stability and conformation of DNA and factors responsible for the protein-DNA recognition specificity. The design of our model can be changed from a simple volume mimicking the protein to a more complicated representation by the addition of formal charges on polar residues, or by adding atomic-scale side chains in the case of key residues with more precise behaviors, such as aromatic rings that intercalate between DNA base pairs Bio-informatique structurale Interactions ADN-protéine Sélectivité de séquence Lecture directe Lecture indirecte Dynamique moléculaire Enfilage moléculaire Facteurs de transcription Structural bioinformatics DNA-protein interactions Sequence selectivity Direct readout Indirect readout Molecular dynamics Threading Transcription factors 570.15
48	Models and algorithms applied to metabolism : from revealing the responses to perturbations towards the design of microbial consortia / Modéliser le métabolisme : expliciter les réponses aux perturbations et composer des consortia microbiens Julien-Laferriere, Alice 08 December 2016 (has links) Lors de cette thèse, je me suis intéressée à la modélisation du métabolisme des micro-organismes. Nous nous sommes focalisé sur le métabolisme des petites molécules qui ne prend pas en compte les réactions associées aux macromolécules, telle que la synthèse des protéines.Nous avons ainsi utilisé différents formalismes de modélisation.Tout d'abord, nous avons développé TOTORO où les réseaux métaboliques sont représentés par des hypergraphes dirigés et qui permet d'identifier les réactions ayant participé à une transition métabolique. TOTORO a été utilisé sur un jeu de données sur la levure en présence de cadmium. Nous avons pu montrer que nous retrouvons les mécanismes connus de désintoxication.Ensuite, en utilisant une méthode de modélisation par contraintes, nous discutons d'un développement en cours, KOTOURA, qui propose d'utiliser les connaissances actuelles de concentrations de métabolites entre différentes conditions pour inférer de manière quantitative les possibles asynchronies des réactions lors du passage d'un état stable à un autre. Nous avons testé son implémentation sur des données simulées.Enfin, nous proposons MULTIPUS, une méthode d'extraction d'(hyper)-arbres de Steiner dirigés qui permet de sélectionner les voies métaboliques pour la production de composés au sein d'une communauté bactérienne. Les réseaux métaboliques sont modélisés en utilisant des hypergraphes dirigés et pondérés. Nous proposons un algorithme de programmation dynamique paramétré ainsi qu'une formulation utilisant la programmation par ensemble réponse. Ces deux propositions sont ensuite comparées dans deux cas d'applications / In this PhD work, we proposed to model metabolism. Our focus was to develop generic models, that are not specific to one organism or condition, but are instead based on general assumptions that we tried to validate using data from the literature.We first present TOTORO that uses a qualitative measurement of concentrations in two steady-states to infer the reaction changes that lead to differences in metabolite pools in both conditions.TOTORO enumerates all sub-(hyper)graphs that represent a sufficient explanation for the observed differences in concentrations. We exploit a dataset of Yeast (Saccharomyces cerevisiae) exposed to cadmium and show that we manage to retrieve the known pathways used by the organisms. We then address the same issue, but using a constraint-based programming framework, called KOTOURA, that allows to infer more quantitatively the reaction changes during the perturbed state. We use in this case exact concentration measurements and the stoichiometric matrix, and show on simulated datasets that the overall variations of reaction fluxes can be captured by our formulation.Finally, we propose MULTIPUS, a method to infer microbial communities and metabolic roads to produce specific target compounds from a set of defined substrates. We use in this case a weighted directed hypergraph. We apply MULTIPUS to the production of antibiotics using a consortium composed of an archae and an actinobacteria and show hat their metabolic capacities are complementary. We then infer for another community the excretion of an inhibitory product (acetate) by a 1,3-propanediol (PDO) producer and its consumption by a methanogene archae Métabolisme des petites molécules Modélisation des réseaux métaboliques Communautés microbiennes Consortium synthétique Hypergraphes dirigés Programmation sous contraintes Hyper-histoires métaboliques Transition métabolique Small molecule metabolism Metabolic network modelling Bacterial communities Synthetic consortium Directed hypergraphs Constraint-based programming Metabolic hyperstories Metabolic shifts 570.15
49	Development of an integrated Information Technology System for management of laboratory data and next-generation sequencing workflows within a cancer genomics research platform / Développement d’un système informatique intégré pour la gestion des données de laboratoire et des étapes de séquençage de nouvelle génération au sein d’une plateforme de recherche en génomique du cancer Voegele, Catherine 27 November 2015 (has links) L'objectif de mon travail de thèse était de développer des outils bio informatiques permettant d'améliorer la traditionnelle gestion de l'information scientifique au sein d'un grand centre de recherche et en particulier au sein d'une plateforme de génomique. Trois outils ont été développés: un cahier de laboratoire électronique, un système de gestion de l'information de laboratoire pour des applications de génomique dont le séquençage de nouvelle génération, ainsi qu'un système de gestion des échantillons pour de grandes bio-banques. Ce travail a été réalisé en étroite collaboration avec des biologistes, épidémiologistes et informaticiens. Il a également inclus la mise en place d'interactions entre les différents outils pour former un système informatique intégré. Les trois outils ont été rapidement adoptés par l'ensemble des scientifiques du centre de recherche et sont désormais utilisés au quotidien pour le suivi de toutes les activités de laboratoire mais aussi plus globalement pour les autres activités scientifiques du centre de recherche. Ces outils sont transposables dans d'autres instituts de recherche / The aim of my thesis work was to develop bioinformatics tools to improve the traditional scientific information management within a large research centre and especially within a genomics platform. Three tools have been developed: an electronic laboratory notebook, a laboratory information management system for genomics applications including next generation sequencing, as well as a sample management system for large biobanks. This work has been conducted in close collaboration with biologists, epidemiologists and IT specialists. It has also included the setup of interactions between the different tools to make an integrated IT system. The three tools have been rapidly adopted by all the scientists of the research centre and are now daily used for the tracking of all the laboratory’s activities but also more globally for the research centre’s other scientific activities. These tools are transposable in other research institutes Bioinformatique Bioinformatics Electronic laboratory notebook (ELN) Next-generation sequencing (NGS) Sample management for biobanks 570.15
50	Modélisation qualitative des réseaux biologiques pour l'innovation thérapeutique / Qualitative modeling of biological networks for therapeutic innovation Poret, Arnaud 01 July 2015 (has links) Cette thèse est consacrée à la modélisation qualitative des réseaux biologiques pour l'innovation thérapeutique. Elle étudie comment utiliser les réseaux Booléens, et comment les améliorer, afin d'identifier des cibles thérapeutiques au moyen d'approches in silico. Elle se compose de deux travaux : i) un algorithme exploitant les attracteurs des réseaux Booléens pour l'identification in silico de cibles dans des modèles Booléens de réseaux biologiques pathologiquement perturbés, et ii) une amélioration des réseaux Booléens dans leur capacité à modéliser la dynamique des réseaux biologiques grâce à l'utilisation des opérateurs de la logique floue et grâce au réglage des arrêtes. L'identification de cibles constitue l'une des étapes de la découverte de nouveaux médicaments et a pour but d'identifier des biomolécules dont la fonction devrait être thérapeutiquement modifiée afin de lutter contre la pathologie considérée. Le premier travail de cette thèse propose un algorithme pour l'identification in silico de cibles par l'exploitation des attracteurs des réseaux Booléens. Il suppose que les attracteurs des systèmes dynamiques, tel que les réseaux Booléens, correspondent aux phénotypes produits par le système biologique modélisé. Sous cette hypothèse, et étant donné un réseau Booléen modélisant une physiopathologie, l'algorithme identifie des combinaisons de cibles capables de supprimer les attracteurs associés aux phénotypes pathologiques. L'algorithme est testé sur un modèle Booléen du cycle cellulaire arborant une inactivation constitutive de la protéine du rétinoblastome, tel que constaté dans de nombreux cancers, tandis que ses applications sont illustrées sur un modèle Booléen de l'anémie de Fanconi. Les résultats montrent que l'algorithme est à même de retourner des combinaisons de cibles capables de supprimer les attracteurs associés aux phénotypes pathologiques, et donc qu'il réussit l'identification in silico de cibles proposée. En revanche, comme tout résultat in silico, il y a un pont à franchir entre théorie et pratique, requérant ainsi une utilisation conjointe d'approches expérimentales. Toutefois, il est escompté que l'algorithme présente un intérêt pour l'identification de cibles, notamment par l'exploitation du faible coût des approches computationnelles, ainsi que de leur pouvoir prédictif, afin d'optimiser l'efficience d'expérimentations coûteuses. La modélisation quantitative en biologie systémique peut s'avérer difficile en raison de la rareté des détails quantitatifs concernant les phénomènes biologiques, particulièrement à l'échelle subcellulaire, l'échelle où les médicaments interagissent avec leurs cibles. Une alternative permettant de contourner cette difficulté est la modélisation qualitative étant donné que celle-ci ne requiert que peu ou pas d'informations quantitatives. Parmi les méthodes de modélisation qualitative, les réseaux Booléens en sont l'une des plus populaires. Cependant, les modèles Booléens autorisent leurs variables à n'être évaluées qu'à vrai ou faux, ce qui peut apparaître trop simpliste lorsque des processus biologiques sont modélisés. En conséquence, le second travail de cette thèse propose une méthode de modélisation dérivée des réseaux Booléens où les opérateurs de la logique floue sont utilisés et où les arrêtes peuvent être réglées. Les opérateurs de la logique floue permettent aux variables d'être continues, et ainsi d'être plus finement évaluées qu'avec des méthodes de modélisation discrètes tel que les réseaux Booléens, tout en demeurant qualitatives. De plus, dans le but de considérer le fait que certaines interactions peuvent être plus lentes et/ou plus faibles que d'autres, l'état des arrêtes est calculé afin de moduler en vitesse et en force le signal qu'elles véhiculent. La méthode proposée est illustrée par son implémentation sur un petit échantillon de la signalisation du récepteur au facteur de croissance épidermique... [etc] / This thesis is devoted to the qualitative modeling of biological networks for therapeutic innovation. It investigates how to use the Boolean network formalism, and how to enhance it, for identifying therapeutic targets through in silico approaches. It is composed of two works: i) an algorithm using Boolean network attractors for in silico target identification in Boolean models of pathologically disturbed biological networks, and ii) an enhancement of the Boolean network formalism in modeling the dynamics of biological networks through the incorporation of fuzzy operators and edge tuning. Target identification, one of the steps of drug discovery, aims at identifying biomolecules whose function should be therapeutically altered in order to cure the considered pathology. The first work of this thesis proposes an algorithm for in silico target identification using Boolean network attractors. It assumes that attractors of dynamical systems, such as Boolean networks, correspond to phenotypes produced by the modeled biological system. Under this assumption, and given a Boolean network modeling a pathophysiology, the algorithm identifies target combinations able to remove attractors associated with pathological phenotypes. It is tested on a Boolean model of the mammalian cell cycle bearing a constitutive inactivation of the retinoblastoma protein, as seen in cancers, and its applications are illustrated on a Boolean model of Fanconi anemia. The results show that the algorithm returns target combinations able to remove attractors associated with pathological phenotypes and then succeeds in performing the proposed in silico target identification. However, as with any in silico evidence, there is a bridge to cross between theory and practice, thus requiring it to be used in combination with wet lab experiments. Nevertheless, it is expected that the algorithm is of interest for target identification, notably by exploiting the inexpensiveness and predictive power of computational approaches to optimize the efficiency of costly wet lab experiments. Quantitative modeling in systems biology can be difficult due to the scarcity of quantitative details about biological phenomenons, especially at the subcellular scale, the scale where drugs interact with there targets. An alternative to escape this difficulty is qualitative modeling since it requires few to no quantitative information. Among the qualitative modeling approaches, the Boolean network formalism is one of the most popular. However, Boolean models allow variables to be valued at only true or false, which can appear too simplistic when modeling biological processes. Consequently, the second work of this thesis proposes a modeling approach derived from Boolean networks where fuzzy operators are used and where edges are tuned. Fuzzy operators allow variables to be continuous and then to be more finely valued than with discrete modeling approaches, such as Boolean networks, while remaining qualitative. Moreover, to consider that some interactions are slower and/or weaker relative to other ones, edge states are computed in order to modulate in speed and strength the signal they convey. The proposed formalism is illustrated through its implementation on a tiny sample of the epidermal growth factor receptor signaling pathway. The obtained simulations show that continuous results are produced, thus allowing finer analysis, and that modulating the signal conveyed by the edges allows their tuning according to knowledge about the modeled interactions, thus incorporating more knowledge. The proposed modeling approach is expected to bring enhancements in the ability of qualitative models to simulate the dynamics of biological networks while not requiring quantitative information. The main prospect of this thesis is to use the proposed enhancement of Boolean networks to build a version of the algorithm based on continuous dynamical systems...[etc] Réseau biologique Réseau Booléen Cible thérapeutique Découverte de médicament Attracteur Anémie de Fanconi Logique multivaluée Logique floue Biological network Boolean network Therapeutic target Drug discovery Attractor Fanconi anemia Multivalued logic Fuzzy logic 570.15

Search results