1 |
Logique paracohérente pour l’annotation fonctionnelle des génomes au travers de réseaux biologiques / Functional genomic annotation with paraconsistent logic through biological networkMercier, Jonathan 15 May 2017 (has links)
Face à l’augmentation des capacités de séquençage, on assiste à une accumulation de prédictions in silico dans les banques de séquences biologiques. Cette masse de données dépasse nos capacités d’expertise humaine et, malgré des progrès méthodologiques, ces analyses automatisées produisent de nombreuses erreurs notamment dans la prédiction de la fonction biologique des protéines. Par conséquent, il est nécessaire de se doter d’outils capables de guider l’expertise humaine par une évaluation des prédictions en confrontation avec les connaissances sur l’organisme étudié.GROOLS (pour “Genomic Rule Object-Oriented Logic System”) est un système expert capable de raisonner à partir d’informations incomplètes et contradictoires. Il a été développé afin de devenir l’assistant du biologiste dans un processus d’annotation fonctionnelle de génome intégrant une grande quantité d’information de sources diverses. GROOLS utilise une représentation générique des connaissances sous la forme d’un graphe de concepts qui est orienté et acyclique. Les concepts représentent les différents composants de processus biologiques (e.g. voies métaboliques) et sont connectés par des relations de différents types (i.e. “part-of”, “subtype-of”). Ces "Connaissances-a-priori" représentent des théories dont on souhaite élucider leur présence dans un organisme. Elles vont servir de socle au raisonnement afin d’être évaluées à partir d’observations de type “Prédiction” (e.g. activités enzymatiques prédites) ou “Expectation” (e.g. phénotypes de croissance). Pour cela, GROOLS met en œuvre une logique paraconsistante sur des ensembles de faits que sont les observations. Au travers de différentes règles, les valeurs de “Prédiction” et d’“Expectation” vont être propagées dans le graphe sous la forme d’ensembles de valeurs de vérité. A la fin du raisonnement, une conclusion sera donnée pour chaque "Connaissance-a-priori" en combinant leur valeurs de “Prédiction” et d' “Expectation”. Les valeurs de conclusion peuvent, par exemple, indiquer une “Présence-confirmée” (i.e. fonction prédite et attendue), une “Absence” (i.e. fonction non prédite mais attendue) ou une “Présence-non-attendue” (i.e. fonction prédite mais pas attendue dans l’organisme). Le raisonnement de GROOLS a été appliqué sur plusieurs organismes microbiens avec différentes sources de “Prédictions” (i.e. annotations d’UniProtKB ou de MicroScope) et de processus biologiques (i.e. GenomeProperties et UniPathway). Pour les “Expectations”, des données de phénotype de croissance et les voies de biosynthèse des acides aminés ont été utilisées. Les résultats obtenus permettent rapidement d’évaluer la qualité globale des annotations d’un génome et de proposer aux biologistes des annotations à compléter ou à corriger car contradictoires. Plus généralement, le logiciel GROOLS peut être utilisé pour l’amélioration de la reconstruction du réseau métabolique d’un organisme qui est une étape indispensable à l’obtention d’un modèle métabolique de qualité. / One consequence of increasing sequencing capacity is the the accumulation of in silico predictions in biological sequence databanks. This amount of data exceeds human curation capacity and, despite methodological progress, numerous errors on the prediction of protein functions are made. Therefore, tools are required to guide human expertise in the evaluation of bioinformatics predictions taking into account background knowledge on the studied organism.GROOLS (for “Genomic Rule Object-Oriented Logic System”) is an expert system that is able to reason on incomplete and contradictory information. It was developed with the objective of assisting biologists in the process of genome functional annotation by integrating high quantity of information from various sources. GROOLS adopts a generic representation of knowledge using a directed acyclic graph of concepts that represent the different components of a biological process (e.g. a metabolic pathway) connected by two types of relations (i.e. “part-of” and “subtype-of”). These concepts are called “Prior Knowledge concepts” and correspond to theories for which their presence in an organism needs to be elucidated. They serve as basis for the reasoning and are evaluated from observations of “Prediction” (e.g. a predicted enzymatic activity) or “Expectation” (e.g. growth phenotypes) type. Indeed, GROOLS implements a paraconsistent logic on set of facts that are observations. Using different rules, “Prediction” and “Expectation” values are propagated on the graph as sets of truth values. At the end of the reasoning, a conclusion is given on each “Prior Knowledge concepts” by combining “Prediction” and “Expectation” values. Conclusions may, for example, indicate a “Confirmed-Presence” (i.e. the function is predicted and expected), a “Missing” concept (i.e. the function is expected but not predicted) or an “Unexpected-Presence” (i.e. the function is predicted but not expected in the organisms).GROOLS reasoning was applied on several organisms and with different sources of “Predictions” (i.e. annotations from UniProtKB or MicroScope) and biological processes (i.e. GenomeProperties and UniPathway). For “Expectations”, growth phenotype data and amino-acid biosynthesis pathways were used. GROOLS results are useful to quickly evaluate the overall annotation quality of a genome and to propose annotations to be completed or corrected by a biocurator. More generally, the GROOLS software can be used to improve the reconstruction of the metabolic network of an organism which is an essential step in obtaining a high-quality metabolic model.
|
2 |
Étude des mécanismes oncogéniques d'activation et de résistance des récepteurs tyrosine kinase de type III / Oncogenic Mechanisms of Activation and Resistance of the type III Receptor Tyrosine Kinase familyDa Silva Figueiredo Celestino, Priscila 26 June 2015 (has links)
Les récepteurs tyrosine kinase (RTKs) CSF-1R et KIT sont médiateurs importants de la signalisation cellulaire. Leur fonction basale est altérée par des mutations associées à divers types de cancer. Ces mutations modifient également leur sensibilité à l’imatinib, utilisé en clinique dans le traitement des cancers. Dans cette thèse, nos objectifs sont (i) étudier les effets structuraux et dynamiques induits par la mutation D802V chez CSF-1R; (ii) caractériser l’affinité de l’imatinib aux formes sauvages (WT) et mutés de KIT (V560G, S628N et D816V) et CSF-1R (D802V). Par simulations de Dynamique Moléculaire (DM), nous avons montré que la mutation D802V interrompt la communication allostérique entre la boucle d’activation et le domaine auto-inhibiteur juxtamembranaire (JMR). Néanmoins, cette rupture n’est pas suffisante pour induire le départ du JMR. L’effet subtil de la mutation chez CSF-1R a été attribué aux différences de séquence primaire entre KIT et CSF-1R dans la région du JMR. L’affinité de l’imatinib aux différentes cibles a été calculée par simulations de docking, DM et calculs d’énergie de liaison. Les interactions électrostatiques constituent la force motrice de la résistance, les mutations D802/816V étant les plus délétères en termes d’énergie. Comme conclusion générale, nous avons établi que la mutation D802V chez CSF-1R n’entraine pas les mêmes effets structuraux provoqués par la mutation D816V chez KIT. En outre, l’étude des deux récepteurs dans leurs formes WT et mutés complexés avec l’imatinib indiquent que le changement structural induit par les mutations associé aux interactions électrostatiques avec le ligand expliqueraient le phénomène de résistance. / The receptors tyrosine kinase (RTKs) CSF-1R and KIT are important mediators of signal transduction. Their normal function is altered by gain-of-function mutations associated with cancer diseases. A secondary effect of the mutations is the alteration of receptors’ sensitivity imatinib, employed in cancer treatment. Our goals in this thesis consist of (i) study the structural and dynamical effects induced by the D802V mutation in CSF-1R; (ii) characterize imatinib’s affinity to the wild-type (WT) and mutant forms of KIT (V560G, S628N and D816V) and CSF-1R (D802V). By means of molecular dynamics (MD) simulations, we have shown that the D802V mutation disrupts the allosteric communication between the activation loop and the auto-inhibitory juxtamembrane (JMR) domain. However, this rupture is not sufficient to induce the JMR’s departure. The subtle effect of this mutation in CSF-1R was associated with differences in the primary sequence between CSF-1R and KIT in the JMR region. The affinity of imatinib to the different targets was estimated by docking, DM and binding energy calculations. The electrostatic interactions showed to be the main force driving the resistance, with mutations D802/816V being the most deleterious in energy contribution. As a general conclusion, we have established that the D802V mutation in CSF-1R does not provoke the same structural effects as its equivalent in KIT. In addition, the study of both receptors in their WT and mutant forms complexed with imatinib indicate that the conformational changes induced by the mutations allied to the electrostatic interactions with the ligand could explain the resistance phenomena.
|
3 |
Analyse multi-niveaux en biologie systémique computationnelle : le cas des cellules HeLa sous traitement apoptotique / Multi-level analysis in computational system biology : the case of HeLa cells under apoptosis treatmentPichené, Matthieu 25 June 2018 (has links)
Cette thèse examine une nouvelle façon d'étudier l'impact d'une voie de signalisation donnée sur l'évolution d'un tissu grâce à l'analyse multi-niveaux. Cette analyse est divisée en deux parties principales: La première partie considère les modèles décrivant la voie au niveau cellulaire. A l'aide de ces modèles, on peut calculer de manière résoluble la dynamique d'un groupe de cellules, en le représentant par une distribution multivariée sur des concentrations de molécules clés. La deuxième partie propose un modèle 3d de croissance tissulaire qui considère la population de cellules comme un ensemble de sous-populations, partitionnée de façon à ce que chaque sous-population partage les mêmes conditions externes. Pour chaque sous-population, le modèle résoluble présenté dans la première partie peut être utilisé. Cette thèse se concentre principalement sur la première partie, tandis qu'un chapitre couvre un projet de modèle pour la deuxième partie. / This thesis examines a new way to study the impact of a given pathway on the dynamics of a tissue through Multi-Level Analysis. The analysis is split in two main parts: The first part considers models describing the pathway at the cellular level. Using these models, one can compute in a tractable manner the dynamics of a group of cells, representing it by a multivariate distribution over concentrations of key molecules. % of the distribution of the states of this pathway through groups of cells. The second part proposes a 3d model of tissular growth that considers the population of cell as a set of subpopulations, partitionned such as each subpopulation shares the same external conditions. For each subpopulation, the tractable model presented in the first part can be used. This thesis focuses mainly on the first part, whereas a chapter covers a draft of a model for the second part.
|
4 |
Modélisation mathématique de la différenciation précoce des lymphocytes T auxiliaires / Mathematical modeling of the early differentiation of helper T cellsRobert, Philippe A. 20 February 2017 (has links)
Les Lymphocytes T auxiliaires sont nécessaires pour la production de cytokines adaptées au type d'infection. Différentes sous-populations ont été décrites, parmi lesquelles les Th1, Th2, et Th17, pro-inflammatoires et les iTregs, anti-inflammatoires, exprimant Foxp3. La décision prise par une cellules T naïve de se différentier en l'une de ces populations est étudiée ici.Des découvertes récentes ont montré que les nutriments peuvent modifier la différentiation, mais elles ont négligé la glutamine en dépit de son importance comme source principale d'azote. Dans cette étude, un manque de glutamine induit une expression ectopique de Foxp3 en cours de différentiation en Th1 mais pas en Th2, tout en altérant la différentiation des Th1 et Th17. Cela suggère que, dans des environnements métaboliquement pauvres comme au sein de tumeurs solides, le manque de glutamine pourrait supporter une réponse anti-inflammatoire et donc néfaste.Dans l'optique de comprendre comment la détection de la glutamine influence le réseau de régulation de la différentiation des lymphocytes auxiliaires, une approche de modélisation mathématique a été suivie, consistant d'équation différentielles, et conçue pour capturer les propriétés de cette différentiation. Pour la phase d'apprentissage du modèle, les cinétiques d'expression des principaux facteurs de transcription et cytokines ont été mesurées in vitro en conditions normales, en présence de glutamine. Ces données ont décelé des retards majeurs en terme de transcription, traduction et sécrétion des cytokines, qui à leur tour façonnent l'ordre des évènements qui décident l'issue de la différentiation. Le modèle a reproduit avec succès la dynamique des différentiation 'canoniques', montrant que celles-ci peuvent être expliquées par un réseau de régulation relativement simple. Cependant, le modèle n'a reproduit qu'une partie des propriétés de plasticité des lymphocytes T, et a besoin d'être affiné. Ce n'est qu'alors qu'il pourra être utilisé pour comparer différentes hypothèses mécanistiques sur l'impact de la glutamine sur la différentiation. / T helper cells are required to produce cytokines adapted to the type of infection. Several subsets have been defined, including pro-inflammatory Th1, Th2, Th17; and anti-inflammatory, Foxp3+ iTreg cells. The fate-determining decision of a naive T cell to differentiate into a defined subset was investigated here.Recent findings showed that metabolic constituents impact T cell differentiation, but so far the influence of glutamine on T cell differentiation has been neglected although being the main source of nitrogen. In this study, deprivation of glutamine induced an abnormal expression of Foxp3 under Th1 but not under Th2 condition, while impairing Th1 and Th17 differentiation. Thus, in poor metabolic micro-environments like solid tumours, a lack of glutamine would initiate a detrimental anti-inflammatory response.A mathematical modelling approach using Ordinary Differential Equations was chosen to capture the properties of T cell differentiation, first in normal conditions with glutamine. In order to train the model, kinetics of the master transcription factors and cytokines expression were measured under different T cell differentiation polarizing conditions. The in vitro data revealed major delays in transcription, translation and secretion of cytokines, which shaped the order of fate decision events. The model could successfully reproduce the dynamics of differentiation, confirming that the 'canonical' differentiation in vitro can be explained by a simple regulatory network. However, it only partially reproduced the plastic behaviour of T cells. The mathematical model will be utilized to compare different mechanistic hypotheses linking glutamine sensing to differentiation.
|
5 |
Modélisation et prédiction de la dynamique moléculaire de la maladie de Huntington par la théorie des graphes au travers des modèles et des espèces, et priorisation de cibles thérapeutiques / Huntington's disease, gene network, transcriptomics analysis, computational biology, spectral graph theory, neurodegenerative mechanismsParmentier, Frédéric 17 September 2015 (has links)
La maladie de Huntington est une maladie neurodégénérative héréditaire qui est devenue un modèle d'étude pour comprendre la physiopathologie des maladies du cerveau associées à la production de protéines mal conformées et à la neurodégénérescence. Bien que plusieurs mécanismes aient été mis en avant pour cette maladie, dont plusieurs seraient aussi impliqués dans des pathologies plus fréquentes comme la maladie d’Alzheimer ou la maladie de Parkinson, nous ne savons toujours pas quels sont les mécanismes ou les profils moléculaires qui déterminent fondamentalement la dynamique des processus de dysfonction et de dégénérescence neuronale dans cette maladie. De même, nous ne savons toujours pas comment le cerveau peut résister aussi longtemps à la production de protéines mal conformées, ce qui suggère en fait que ces protéines ne présentent qu’une toxicité modérée ou que le cerveau dispose d'une capacité de compensation et de résilience considérable. L'hypothèse de mon travail de thèse est que l'intégration de données génomiques et transcriptomiques au travers des modèles qui récapitulent différentes phases biologiques de la maladie de Huntington peut permettre de répondre à ces questions. Dans cette optique, l'utilisation des réseaux de gènes et la mise en application de concepts issus de la théorie des graphes sont particulièrement bien adaptés à l'intégration de données hétérogènes, au travers des modèles et au travers des espèces. Les résultats de mon travail suggèrent que l'altération précoce (avant les symptômes, avant la mort cellulaire) et éventuellement dès le développement cérébral) des grandes voies de développement et de maintenance neuronale, puis la persistance voire l'aggravation de ces effets, sont à la base des processus physiopathologiques qui conduisent à la dysfonction puis à la mort neuronale. Ces résultats permettent aussi de prioriser des gènes et de générer des hypothèses fortes sur les cibles thérapeutiques les plus intéressantes à étudier d'un point de vue expérimental. En conclusion, mes recherches ont un impact à la fois fondamental et translationnel sur l'étude de la maladie de Huntington, permettant de dégager des méthodes d'analyse et des hypothèses qui pourraient avoir valeur thérapeutique pour les maladies neurodégénératives en général. / Huntington’s disease is a hereditary neurodegenerative disease that has become a model to understand physiopathological mechanisms associated to misfolded proteins that ocurs in brain diseases. Despite exciting findings that have uncover pathological mechanisms occurring in this disease and that might also be relevant to Alzheimer’s disease and Parkinson’s disease, we still do not know yet which are the mechanisms and molecular profiles that rule the dynamic of neurodegenerative processes in Huntington’s disease. Also, we do not understand clearly how the brain resist over such a long time to misfolded proteins, which suggest that the toxicity of these proteins is mild, and that the brain have exceptional compensation capacities. My work is based on the hypothesis that integration of ‘omics’ data from models that depicts various stages of the disease might be able to give us clues to answer these questions. Within this framework, the use of network biology and graph theory concepts seems particularly well suited to help us integrate heterogeneous data across models and species. So far, the outcome of my work suggest that early, pre-symptomatic alterations of signaling pathways and cellular maintenance processes, and persistency and worthening of these phenomenon are at the basis of physiopathological processes that lead to neuronal dysfunction and death. These results might allow to prioritize targets and formulate new hypotheses that are interesting to further study and test experimentally. To conclude, this work shall have a fundamental and translational impact to the field of Huntington’s disease, by pinpointing methods and hypotheses that could be valuable in a therapeutic perspective.
|
6 |
Modélisation et prédiction de la dynamique moléculaire de la maladie de Huntington par la théorie des graphes au travers des modèles et des espèces, et priorisation de cibles thérapeutiques / Huntington's disease, gene network, transcriptomics analysis, computational biology, spectral graph theory, neurodegenerative mechanismsParmentier, Frédéric 17 September 2015 (has links)
La maladie de Huntington est une maladie neurodégénérative héréditaire qui est devenue un modèle d'étude pour comprendre la physiopathologie des maladies du cerveau associées à la production de protéines mal conformées et à la neurodégénérescence. Bien que plusieurs mécanismes aient été mis en avant pour cette maladie, dont plusieurs seraient aussi impliqués dans des pathologies plus fréquentes comme la maladie d’Alzheimer ou la maladie de Parkinson, nous ne savons toujours pas quels sont les mécanismes ou les profils moléculaires qui déterminent fondamentalement la dynamique des processus de dysfonction et de dégénérescence neuronale dans cette maladie. De même, nous ne savons toujours pas comment le cerveau peut résister aussi longtemps à la production de protéines mal conformées, ce qui suggère en fait que ces protéines ne présentent qu’une toxicité modérée ou que le cerveau dispose d'une capacité de compensation et de résilience considérable. L'hypothèse de mon travail de thèse est que l'intégration de données génomiques et transcriptomiques au travers des modèles qui récapitulent différentes phases biologiques de la maladie de Huntington peut permettre de répondre à ces questions. Dans cette optique, l'utilisation des réseaux de gènes et la mise en application de concepts issus de la théorie des graphes sont particulièrement bien adaptés à l'intégration de données hétérogènes, au travers des modèles et au travers des espèces. Les résultats de mon travail suggèrent que l'altération précoce (avant les symptômes, avant la mort cellulaire) et éventuellement dès le développement cérébral) des grandes voies de développement et de maintenance neuronale, puis la persistance voire l'aggravation de ces effets, sont à la base des processus physiopathologiques qui conduisent à la dysfonction puis à la mort neuronale. Ces résultats permettent aussi de prioriser des gènes et de générer des hypothèses fortes sur les cibles thérapeutiques les plus intéressantes à étudier d'un point de vue expérimental. En conclusion, mes recherches ont un impact à la fois fondamental et translationnel sur l'étude de la maladie de Huntington, permettant de dégager des méthodes d'analyse et des hypothèses qui pourraient avoir valeur thérapeutique pour les maladies neurodégénératives en général. / Huntington’s disease is a hereditary neurodegenerative disease that has become a model to understand physiopathological mechanisms associated to misfolded proteins that ocurs in brain diseases. Despite exciting findings that have uncover pathological mechanisms occurring in this disease and that might also be relevant to Alzheimer’s disease and Parkinson’s disease, we still do not know yet which are the mechanisms and molecular profiles that rule the dynamic of neurodegenerative processes in Huntington’s disease. Also, we do not understand clearly how the brain resist over such a long time to misfolded proteins, which suggest that the toxicity of these proteins is mild, and that the brain have exceptional compensation capacities. My work is based on the hypothesis that integration of ‘omics’ data from models that depicts various stages of the disease might be able to give us clues to answer these questions. Within this framework, the use of network biology and graph theory concepts seems particularly well suited to help us integrate heterogeneous data across models and species. So far, the outcome of my work suggest that early, pre-symptomatic alterations of signaling pathways and cellular maintenance processes, and persistency and worthening of these phenomenon are at the basis of physiopathological processes that lead to neuronal dysfunction and death. These results might allow to prioritize targets and formulate new hypotheses that are interesting to further study and test experimentally. To conclude, this work shall have a fundamental and translational impact to the field of Huntington’s disease, by pinpointing methods and hypotheses that could be valuable in a therapeutic perspective.
|
7 |
Stochasticité de l'expression génique et régulation transcriptionnelle -- Modélisation de la dynamique spatiale et temporelle des structures multiprotéiquesCoulon, Antoine 01 July 2010 (has links) (PDF)
La nature stochastique de l'expression génique est maintenant clairement établie expérimentalement et apparaît comme une composante à part entière de la dynamique cellulaire. Une source importante de cette variabilité est liée au caractère dynamique des diverses structures multiprotéiques impliquées dans le processus d'expression génique. Nous étudions ici, par la modélisation, comment les interactions entre des molécules au comportement individuel probabiliste sont susceptibles de faire naître des dynamiques globales pouvant influencer l'expression génique. Nous nous concentrons plus particulièrement sur deux aspects du processus d'expression : d'une part, son caractère spatialisé au sein d'un noyau cellulaire structuré et dynamique et, d'autre part, la combinatoire des événements moléculaires stochastiques au niveau du promoteur d'un gène. Pour l'étude des phénomènes d'organisation mésoscopique au sein du noyau cellulaire, nous proposons un modèle de simulation "4D" (intégrant l'espace et le temps). Il emprunte différentes techniques aux formalismes des échelles inférieures (moléculaires) et supérieures (cellulaires), en gardant les aspects essentiels à notre étude (individualité de certaines molécules, exclusion stérique, interactions électromagnétiques, réactions chimiques . . .). Afin d'étudier spécifiquement la dynamique stochastique de la régulation transcriptionnelle, nous proposons un second modèle décrivant les événements d'association/dissociation et de modification de la chromatine en se basant sur l'affinité coopérative/compétitive des molécules et leur potentielle activité enzymatique ou de remodelage. Par des techniques analytiques et computationnelles, nous caractérisons alors l'activité du promoteur à l'aide d'outils de théorie du signal, mais aussi en reproduisant les mesures obtenues par diverses techniques expérimentales (cinétique de ChIP, FRAP, FRET, cytométrie de flux . . .). L'analyse de ce modèle démontre que l'activité spontanée du promoteur peut être complexe et structurée, présentant en particulier des dynamiques multi-échelles similaires à celles observées expérimentalement (turnover rapide des molécules, comportements cycliques lents, hétérogénéités transcriptionnelles . . .). Nous montrons enfin comment la confrontation de mesures expérimentales de diverses natures peut renseigner sur la structure du système sous-jacent. Ce modèle apparaît alors comme un cadre théorique général pour l'étude de la dynamique des promoteurs et pour l'interprétation intégrée de données expérimentales.
|
8 |
Algorithmes de prédiction et de recherche de multi-structures d'ARNSaffarian, Azadeh 16 November 2011 (has links) (PDF)
L'ARN (acide ribonucléique) est une molécule ubiquitaire qui joue plusieurs rôles fondamentaux au sein de la cellule: synthèse des protéines avec les ARN messagers, activité catalytique ou implicationdans la régulation, les ARN non-codants. Les nouvelles technologies de séquençage à haut-débit permettent de produire des milliards de séquences à moindre coût, posant de manière cruciale la question de l'analyse de ces données. L'objectif de cette thèse est de définir de nouvelles méthodes computationnelles pour aider à l'analyse de ces séquences dans le cas des ARN non-codants. Dans cette perspective, la "structure secondaire" d'un ARN, formée par l'ensemble des appariements entrebases, délivre des informations utiles pour étudier la fonction de l'ARN. Notre travail se concentre plus particulièrement sur l'ensemble des structures potentielles que peut adopter une séquence d'ARN donnée, ensemble que nous appelons "multi-structure". Nous apportons deux contributions: un algorithme pour générer systématiquement toutes les structures localement optimales composantune multi-structure, et un algorithme basé sur la recherche d'unemulti-structure pour identifier un ARN non-codant dans une séquence génomique. Ces résultats ont été mis en oeuvre dans deux logiciels, Alterna et Regliss, appliqués avec succès à des ensembles de test.
|
9 |
Applications de l'apprentissage statistique à la biologie computationnellePauwels, Edouard 14 November 2013 (has links) (PDF)
Les biotechnologies sont arrivées au point ou la quantité d'information disponible permet de penser les objets biologiques comme des systèmes complexes. Dans ce contexte, les phénomènes qui émergent de ces systèmes sont intimement liés aux spécificités de leur organisation. Cela pose des problèmes computationnels et statistiques qui sont précisément l'objet d'étude de la communauté liée à l'apprentissage statistique. Cette thèse traite d'applications de méthodes d'apprentissage pour l'étude de phénomène biologique dans une perspective de système complexe. Ces méthodes sont appliquées dans le cadre de l'analyse d'interactions protéine-ligand et d'effets secondaires, du phenotypage de populations de cellules et du plan d'expérience pour des systèmes dynamiques non linéaires partiellement observés.D'importantes quantités de données sont désormais disponibles concernant les molécules mises sur le marché, tels que les profils d'interactions protéiques et d'effets secondaires. Cela pose le problème d'intégrer ces données et de trouver une forme de structure sous tendant ces observations à grandes échelles. Nous appliquons des méthodes récentes d'apprentissage non supervisé à l'analyse d'importants jeux de données sur des médicaments. Des exemples illustrent la pertinence de l'information extraite qui est ensuite validée dans un contexte de prédiction.Les variations de réponses à un traitement entre différents individus posent le problème de définir l'effet d'un stimulus à l'échelle d'une population d'individus. Par exemple, dans le contexte de la microscopie à haut débit, une population de cellules est exposée à différents stimuli. Les variations d'une cellule à l'autre rendent la comparaison de différents traitement non triviale. Un modèle génératif est proposé pour attaquer ce problème et ses propriétés sont étudiées sur la base de données expérimentales.A l'échelle moléculaire, des comportements complexes émergent de cascades d'interactions non linéaires entre différentes espèces moléculaires. Ces non linéarités engendrent des problèmes d'identifiabilité du système. Elles peuvent cependant être contournées par des plans expérimentaux spécifiques, un des champs de recherche de la biologie des systèmes. Une stratégie Bayésienne itérative de plan expérimental est proposée est des résultats numériques basés sur des simulations in silico d'un réseau biologique sont présentées.
|
10 |
Applications de l'apprentissage statistique à la biologie computationnelle / Applications of machine learning in computational biologyPauwels, Edouard 14 November 2013 (has links)
Les biotechnologies sont arrivées au point ou la quantité d'information disponible permet de penser les objets biologiques comme des systèmes complexes. Dans ce contexte, les phénomènes qui émergent de ces systèmes sont intimement liés aux spécificités de leur organisation. Cela pose des problèmes computationnels et statistiques qui sont précisément l'objet d'étude de la communauté liée à l'apprentissage statistique. Cette thèse traite d'applications de méthodes d'apprentissage pour l'étude de phénomène biologique dans une perspective de système complexe. Ces méthodes sont appliquées dans le cadre de l'analyse d'interactions protéine-ligand et d'effets secondaires, du phenotypage de populations de cellules et du plan d'expérience pour des systèmes dynamiques non linéaires partiellement observés.D'importantes quantités de données sont désormais disponibles concernant les molécules mises sur le marché, tels que les profils d'interactions protéiques et d'effets secondaires. Cela pose le problème d'intégrer ces données et de trouver une forme de structure sous tendant ces observations à grandes échelles. Nous appliquons des méthodes récentes d'apprentissage non supervisé à l'analyse d'importants jeux de données sur des médicaments. Des exemples illustrent la pertinence de l'information extraite qui est ensuite validée dans un contexte de prédiction.Les variations de réponses à un traitement entre différents individus posent le problème de définir l'effet d'un stimulus à l'échelle d'une population d'individus. Par exemple, dans le contexte de la microscopie à haut débit, une population de cellules est exposée à différents stimuli. Les variations d'une cellule à l'autre rendent la comparaison de différents traitement non triviale. Un modèle génératif est proposé pour attaquer ce problème et ses propriétés sont étudiées sur la base de données expérimentales.A l'échelle moléculaire, des comportements complexes émergent de cascades d'interactions non linéaires entre différentes espèces moléculaires. Ces non linéarités engendrent des problèmes d'identifiabilité du système. Elles peuvent cependant être contournées par des plans expérimentaux spécifiques, un des champs de recherche de la biologie des systèmes. Une stratégie Bayésienne itérative de plan expérimental est proposée est des résultats numériques basés sur des simulations in silico d'un réseau biologique sont présentées. / Biotechnologies came to an era where the amount of information one has access to allows to think about biological objects as complex systems. In this context, the phenomena emerging from those systems are tightly linked to their organizational properties. This raises computational and statistical challenges which are precisely the focus of study of the machine learning community. This thesis is about applications of machine learning methods to study biological phenomena from a complex systems viewpoint. We apply machine learning methods in the context of protein-ligand interaction and side effect analysis, cell population phenotyping and experimental design for partially observed non linear dynamical systems.Large amount of data is available about marketed molecules, such as protein target interaction profiles and side effect profiles. This raises the issue of making sense of this data and finding structure and patterns that underlie these observations at a large scale. We apply recent unsupervised learning methods to the analysis of large datasets of marketed drugs. Examples show the relevance of extracted information which is further validated in a prediction context.The variability of the response to a treatment between different individuals poses the challenge of defining the effect of this stimulus at the level of a population of individuals. For example in the context High Content Screening, a population of cells is exposed to different stimuli. Between cell variability within a population renders the comparison of different treatments difficult. A generative model is proposed to overcome this issue and properties of the model are investigated based on experimental data.At the molecular scale, complex behaviour emerge from cascades of non linear interaction between molecular species. These non linearities leads to system identifiability issues. These can be overcome by specific experimental plan, one of the field of research in systems biology. A Bayesian iterative experimental design strategy is proposed and numerical results based on in silico biological network simulations are presented.
|
Page generated in 0.142 seconds