Global ETD Search

1	Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènes Jalabert, Fabien 05 December 2007 (has links) (PDF) Ce mémoire s'inscrit dans un axe stratégique du groupement des Ecoles des Mines : GEMBIO. Dans ce contexte, plusieurs collaborations ont été initiées, notamment avec des chercheurs de l'Institut Pasteur de Paris, de l'Inserm/Hôpitaux de Paris, et du CEA dans le cadre du programme ToxNuc-e. De ces échanges, est née notre problématique. Plus d'un millier de bases de données biologiques sont disponibles en ligne. Leur exploitation et le croisement de leurs contenus entraînent souvent ce constat des chercheurs biologistes : « J'ai souvent une vingtaine de fenêtres ouvertes sur mon écran : je m'y perds ». Souvent l'analyse et le croisement des données est fait par simple copier-coller dans un tableur. Si l'intégration de données à apporté des solutions ponctuelles à des problèmes particuliers, elle ne propose pas pour autant une réponse concrète à la multiplicité des fenêtres pour l'utilisateur, à la surcharge d'information, et à la difficulté de croiser l'information provenant de plusieurs sources hétérogènes. Nous proposons un environnement de cartographie des connaissances biologiques qui facilite l'intégration et la visualisation des données biologiques. Basé sur un métamodèle simple de graphe, I²DEE (Integrated and Interactive Data Exploration Environment) se veut souple et extensible afin de répondre aux besoins des différentes approches existantes de l'intégration. Il permet un accès homogène aux principales ressources biologiques et son adaptabilité offre des réponses visuelles personnalisées à des tâches spécifiques. Après une analyse des besoins des chercheurs biologistes et l'identification des problématiques de traitement de l'information sous-jacentes, un état de l'art de l'intégration de données hétérogènes est présenté. L'approche proposée reprend les principes existants en architecture des IHM et en cartographie géographique. L'environnement I2DEE est alors présenté à partir de son architecture et son métamodèle. Deux modules de l'environnement sont détaillés : l'entrepôt de données biologiques et la boîte à outils graphique permettant de construire rapidement des applications adaptées. Des résultats ont été obtenus dans deux contextes applicatifs distincts : l'ingénierie terminologique et ontologique, et l'analyse de données d'expression de gènes issues de puces à ADN. Ils sont discutés et analysés en regard des objectifs initialement fixés. Intégration de données biologiques visualisation ingénierie des connaissances cartographie des connaissances
2	Analyse de concepts formels guidée par des connaissances de domaine : application à la découverte de ressources génomiques sur le Web Messai, Nizar 20 March 2009 (has links) Cette thèse porte sur l'exploitation des connaissances de domaine dans un processus de découvertes de sources de données biologiques sur le Web. Tout d'abord, des ensembles de métadonnées sont utilisés pour décrire le contenu et la qualité des sources de données. Ensuite, en s'appuyant sur ces métadonnées, les sources sont organisées dans un treillis de concepts en fonction de leurs caractéristiques communes. Le treillis de concepts constitue le support de la découverte de sources de données qui s'effectue de deux manières différentes et complémentaires : par navigation et par interrogation. Dans les deux cas la découverte de sources de données peut être guidée par des connaissances du domaine. Lors d'une découverte de sources de données par navigation, les connaissances sont utilisées soit pour réduire l'espace de recherche soit pour orienter la navigation vers des concepts sectionnés. Lors d'une découverte de sources de données par interrogation, les connaissances du domaine sont soit exprimées sous la forme de préférences entre métadonnées dans la requête soit utilisées pour l'enrichissement (ou reformulation) de la requête. Pour assurer une prise en compte des connaissances du domaine plus fidèle, nous avons introduit les treillis de concepts multivalués. L'organisation des sources de données sous la forme d'un treillis de concepts multivalués permet de contrôler la taille de l'espace de recherche et d'augmenter la flexibilité et les performances du processus de découverte dans ses deux modes. La navigation peut être effectuée dans des treillis de différents niveaux de spécialisation avec la possibilité d'effectuer des zooms dynamiques permettant le passage d'un treillis à l'autre. L'interrogation bénéficie d'une augmentation de l'expressivité dans les requêtes. / This thesis deals with knowledge-based biological data sources discovery. First, domain ontologies are used for encoding metadata describing the content of biological data sources. Then the data sources are organized into a concept lattice according to their common metadata. The data source discovery process can be performed either by navigation into the obtained concept lattice or by defining queries to be inserted into the concept lattice. In both cases, domain knowledge can be used to guide the discovery. In the case of navigation, domain knowledge is used to reduce the search space and/or to guide the navigation to some concepts rather than others. In the case of querying, domain knowledge is used to express preferences between the query keywords or to refine the query. In order to take more advantage of domain knowledge, we introduce many-valued concept lattices. Several many-valued concept lattices with different levels of precision can be built from the data sources metadata set based on domain knowledge. The use of such many-valued concept lattices allows to improve the discovery process in its both forms. In the case of navigation, it is possible to consider more than one lattice and to dynamically switch from one lattice to another in a zooming operation. In the case of querying, more complex expressive queries can be defined and inserted into the many-valued concept lattice.
3	Cartographie des connaissances : l'intégration et la visualisation au service de la biologie Application à l'ingénierie des connaissances et à l'analyse de données d'expression de gènes Jalabert, Fabien 05 December 2007 (has links) (PDF) Ce mémoire s'inscrit dans un axe stratégique du groupement des Ecoles des Mines : GEMBIO. Dans ce contexte, plusieurs collaborations ont été initiées, notamment avec des chercheurs de l'Institut Pasteur de Paris, de l'Inserm/Hôpitaux de Paris, et du CEA dans le cadre du programme ToxNuc-e. De ces échanges, est née notre problématique. Plus d'un millier de bases de données biologiques sont disponibles en ligne. Leur exploitation et le croisement de leurs contenus entraînent souvent ce constat des chercheurs biologistes : « J'ai souvent une vingtaine de fenêtres ouvertes sur mon écran : je m'y perds ». Souvent l'analyse et le croisement des données est fait par simple copier-coller dans un tableur. Si l'intégration de données à apporté des solutions ponctuelles à des problèmes particuliers, elle ne propose pas pour autant une réponse concrète à la multiplicité des fenêtres pour l'utilisateur, à la surcharge d'information, et à la difficulté de croiser l'information provenant de plusieurs sources hétérogènes. Nous proposons un environnement de cartographie des connaissances biologiques qui facilite l'intégration et la visualisation des données biologiques. Basé sur un métamodèle simple de graphe, I²DEE (Integrated and Interactive Data Exploration Environment) se veut souple et extensible afin de répondre aux besoins des différentes approches existantes de l'intégration. Il permet un accès homogène aux principales ressources biologiques et son adaptabilité offre des réponses visuelles personnalisées à des tâches spécifiques. Après une analyse des besoins des chercheurs biologistes et l'identification des problématiques de traitement de l'information sous-jacentes, un état de l'art de l'intégration de données hétérogènes est présenté. L'approche proposée reprend les principes existants en architecture des IHM et en cartographie géographique. L'environnement I2DEE est alors présenté à partir de son architecture et son métamodèle. Deux modules de l'environnement sont détaillés : l'entrepôt de données biologiques et la boîte à outils graphique permettant de construire rapidement des applications adaptées. Des résultats ont été obtenus dans deux contextes applicatifs distincts : l'ingénierie terminologique et ontologique, et l'analyse de données d'expression de gènes issues de puces à ADN. Ils sont discutés et analysés en regard des objectifs initialement fixés. Intégration de données biologiques visualisation ingénierie des connaissances cartographie des connaissances
4	Caractérisation logique de données : application aux données biologiques / Logical Characterization of Data : application to Biological Data Chambon, Arthur 13 December 2017 (has links) L’analyse de groupes de données binaires est aujourd’hui un défi au vu des quantités de données collectées. Elle peut être réalisée par des approches logiques. Ces approches identifient dessous-ensembles d’attributs booléens pertinents pour caractériser les observations d’un groupe et peuvent aider l’utilisateur à mieux comprendre les propriétés de ce groupe.Cette thèse présente une approche pour caractériser des groupes de données binaires en identifiant un sous-ensemble minimal d’attributs permettant de distinguer les données de différents groupes.Nous avons défini avec précision le problème de la caractérisation multiple et proposé de nouveaux algorithmes qui peuvent être utilisés pour résoudre ses différentes variantes. Notre approche de caractérisation de données peut être étendue à la recherche de patterns (motifs) dans le cadre de l’analyse logique de données. Un pattern peut être considéré comme une explication partielle des observations positives pouvant être utilisées par les praticiens, par exemple à des fins de diagnostic. De nombreux patterns existent et plusieurs critères de préférence peuvent être ajoutés pour se concentrer sur des ensembles plus restreints (prime patterns,strong patterns,. . .). Nous proposons donc une comparaison entre ces deux méthodologies ainsi que des algorithmes pour générer des patterns. Un autre objectif est d’étudier les propriétés des solutions calculées en fonction des propriétés topologiques des instances. Des expériences sont menées sur de véritables ensembles de données biologiques. / Analysis of groups of binary data is now a challenge given the amount of collected data. It can be achieved by logical based approaches. These approaches identify subsets of relevant Boolean attributes to characterize the observations of a group and may help the user to better understand the properties of this group. This thesis presents an approach for characterizing groups of binary data by identifying a minimal subset of attributes that allows to distinguish data from different groups. We have precisely defined the multiple characterization problem and proposed new algorithms that can be used to solve its different variants. Our data characterization approach can be extended to search for patterns in the framework of logical analysis of data. A pattern can be considered as a partial explanation of the positive observations that can be used by practitioners, for instance for diagnosis purposes. Many patterns may exist and several preference criteria can be added in order to focus on more restricted sets of patterns (prime patterns, strong patterns, . . . ). We propose a comparison between these two methodologies as well as algorithms for generating patterns. The purpose is also to precisely study the properties of the solutions that are computed with regards to the topological properties of the instances. Experiments are thus conducted on real biological data. Caractérisation logique de données Données biologiques Logical Characterization of Data Biological Data Boolean Functions 004
5	Analyse de concepts formels guidée par des connaissances de domaine : Application à la découverte de ressources génomiques sur le Web Messai, Nizar 20 March 2009 (has links) (PDF) Cette thèse porte sur l'exploitation des connaissances de domaine dans un processus de découvertes de sources de données biologiques sur le Web. Tout d'abord, des ontologies de domaine sont utilisées pour représenter un ensemble de connaissances qui reflètent le contenu et la qualité des sources de données. Ensuite, en s'appuyant sur ces connaissances, les sources sont organisées dans un treillis de concepts en fonction de leurs caractéristiques communes. Le treillis de concept constitue le support de la découverte qui peut être effectuée de deux manières différentes et complémentaires : par navigation et par interrogation. Dans les deux cas la découverte peut être guidée par des connaissances de domaines. Lors d'une découverte par navigation, les connaissances sont utilisées soit pour réduire l'espace de recherche soit pour orienter la navigation vers des concepts plutôt que d'autres. Lors d'une découverte par interrogation les connaissances de domaine sont soit exprimées sous la forme de préférences entre mots clés dans la requête soit utilisées pour l'enrichissement (ou reformulation) de la requête. Pour assurer une meilleure prise en compte des connaissances de domaine nous avons introduit les treillis de concepts multivalués. L'organisation des sources sous la forme d'un treillis de concepts multivalués permet de contrôler la taille de l'espace de recherche et d'augmenter la flexibilité et les performances du processus de découverte dans ses deux modes. La navigation peut être effectuée dans des treillis de différents niveaux de précision avec la possibilité d'effectuer des zooms dynamiques permettant le passage d'un treillis à l'autre. L'interrogation bénéficie d'une augmentation de l'expressivité dans les requêtes. [INFO] Computer Science Analyse de concepts formels découverte de ressources connaissances de domaine ontologies treillis de concepts multivalués sources de données biologiques
6	Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomique Courcelles, Mathieu 12 1900 (has links) La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques. Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions. Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine. Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle. / Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies. In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions. An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein. Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method. Bio-informatique Base de données biologiques Erk Kinase Phosphorylation Protéomique quantitative Signalisation cellulaire Spectrométrie de masse Bioinformatics Biological database Mass spectrometry Phosphoproteomics Quantitative proteomics Signaling pathway Phosphoprotéomique
7	Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction / Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique Alborzi, Seyed Ziaeddin 23 February 2018 (has links) Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL / This thesis presents: 1) the development of a novel approach to find direct associations between pairs of elements linked indirectly through various common features, 2) the use of this approach to directly associate biological functions to protein domains (ECDomainMiner and GODomainMiner), and to discover domain-domain interactions, and finally 3) the extension of this approach to comprehensively annotate protein structures and sequences. ECDomainMiner and GODomainMiner are two applications to discover new associations between EC Numbers and GO terms to protein domains, respectively. They find a total of 20,728 and 20,318 non-redundant EC-Pfam and GO-Pfam associations, respectively, with F-measures of more than 0.95 with respect to a “Gold Standard” test set extracted from InterPro. Compared to around 1500 manually curated associations in InterPro, ECDomainMiner and GODomainMiner infer a 13-fold increase in the number of available EC-Pfam and GO-Pfam associations. These function-domain associations are then used to annotate thousands of protein structures and millions of protein sequences for which their domain composition is known but that currently lack experimental functional annotations. Using inferred function-domain associations and considering taxonomy information, thousands of annotation rules have automatically been generated. Then, these rules have been utilized to annotate millions of protein sequences in the TrEMBL database Graphes tripartites Similarité vectorielle Règles d'associations Bases de données biologiques Domaines protéiques Annotation fonctionnelle des protéines Interactions domaine-domaine Tripartite graphs Vector similarity Association rules Biological databases Protein domains Functional annotation of proteins Domain-domain interactions 006.312
8	Modèles bio-informatiques pour les peptides non-ribosomiques et leurs synthétases Pupin, Maude 03 December 2013 (has links) (PDF) Je présente dans ce mémoire de HDR le travail pionnier de la bio-informatique pour les peptides non-ribosomiques (PNR). Ces recherches ont été initiées sur Lille en 2006 et ont abouti à l'unique plate-forme d'analyse bio-informatique des PNR appelée Norine, dont je suis un des membres fondateurs. Les peptides non-ribosomiques font partie des petites molécules produites par les micro-organismes, bactéries et fungi, pour coloniser leur milieu. Ces peptides particuliers ont l'avantage d'avoir une grande variété de structures. En effet, ils peuvent être linéaires, mais aussi contenir des cycles et/ou des branchements et sont composés de plus de 500 briques de base différentes. Cette variété provient de leur synthèse réalisée par de gros complexes enzymatiques, les synthétases peptidiques non-ribosomiques (PNRS). Ceux-ci sélectionnent les acides aminés et d'autres composés, appelés monomères, puis les assemblent en formant des liaisons peptidiques et d'autres liaisons. Ainsi, les peptides non-ribosomiques présentent une grande diversité d'activités telles que antibiotique, anti-cancéreux ou immuno-suppresseur. Certains, comme la pénicilline, sont des médicaments employés fréquemment. Dans une première partie, je propose un regard différent sur les synthétases en associant les particularités des peptides aux fonctions enzymatiques nécessaires à les réaliser. Puis, je décris les principales étapes nécessaires à la conception d'un outil d'analyse des séquences protéiques de PNRS en précisant les particularités des outils existants. Ensuite, je présente ma contribution à l'exploration du potentiel de synthèse de PNR à partir de séquences génomiques ou protéiques à travers ma participation à la mise au point d'un protocole d'analyses bio-informatiques et à l'annotation de plusieurs génomes. Dans une seconde partie, je commence par préciser les apports de la plate-forme Norine sur la compréhension de la diversité des peptides non-ribosomiques, complétés par une étude de la chimie de ces molécules. Ensuite, je présente les quelques bases de données et outils en relation avec ces peptides, qui sont développés par ailleurs. Puis, je présente la plate-forme Norine en exposant mes contributions et en proposant la modernisation du processus de collecte des données et l'évolution des fonctionnalités d'interrogation via les structures peptidiques. Je termine par la présentation d'une nouvelle perspective : la chémo-informatique dédiée aux peptides non-ribosomiques avec pour objectif la prédiction d'une ou plusieurs synthétases capables de produire un peptide ayant une activité cible. [CHIM:CHEM] Chimie/Chemo-informatique base de données biologiques peptides non-ribosomiques comparaison de graphes prédiction d'activité
9	Identification de nouveaux substrats des kinases Erk1/2 par une approche bio-informatique, pharmacologique et phosphoprotéomique Courcelles, Mathieu 12 1900 (has links) La phosphorylation est une modification post-traductionnelle omniprésente des protéines Cette modification est ajoutée et enlevée par l’activité enzymatique respective des protéines kinases et phosphatases. Les kinases Erk1/2 sont au cœur d’une voie de signalisation importante qui régule l’activité de protéines impliquées dans la traduction, le cycle cellulaire, le réarrangement du cytosquelette et la transcription. Ces kinases sont aussi impliquées dans le développement de l’organisme, le métabolisme du glucose, la réponse immunitaire et la mémoire. Différentes pathologies humaines comme le diabète, les maladies cardiovasculaires et principalement le cancer, sont associées à une perturbation de la phosphorylation sur les différents acteurs de cette voie. Considérant l’importance biologique et clinique de ces deux kinases, connaître l’étendue de leur activité enzymatique pourrait mener au développement de nouvelles thérapies pharmacologiques. Dans ce contexte, l’objectif principal de cette thèse était de mesurer l’influence de cette voie sur le phosphoprotéome et de découvrir de nouveaux substrats des kinases Erk1/2. Une étude phosphoprotéomique de cinétique d’inhibition pharmacologique de la voie de signalisation Erk1/2 a alors été entreprise. Le succès de cette étude était basé sur trois technologies clés, soit l’enrichissement des phosphopeptides avec le dioxyde de titane, la spectrométrie de masse haut débit et haute résolution, et le développement d’une plateforme bio-informatique nommée ProteoConnections. Cette plateforme permet d’organiser les données de protéomique, évaluer leur qualité, indiquer les changements d’abondance et accélérer l’interprétation des données. Une fonctionnalité distinctive de ProteoConnections est l’annotation des sites phosphorylés identifiés (kinases, domaines, structures, conservation, interactions protéiques phospho-dépendantes). Ces informations ont été essentielles à l’analyse des 9615 sites phosphorylés sur les 2108 protéines identifiées dans cette étude, soit le plus large ensemble rapporté chez le rat jusqu’à ce jour. L’analyse des domaines protéiques a révélé que les domaines impliqués dans les interactions avec les protéines, les acides nucléiques et les autres molécules sont les plus fréquemment phosphorylés et que les sites sont stratégiquement localisés pour affecter les interactions. Un algorithme a été implémenté pour trouver les substrats potentiels des kinases Erk1/2 à partir des sites identifiés selon leur motif de phosphorylation, leur cinétique de stimulation au sérum et l’inhibition pharmacologique de Mek1/2. Une liste de 157 substrats potentiels des kinases Erk1/2 a ainsi été obtenue. Parmi les substrats identifiés, douze ont déjà été rapportés et plusieurs autres ont des fonctions associées aux substrats déjà connus. Six substrats (Ddx47, Hmg20a, Junb, Map2k2, Numa1, Rras2) ont été confirmés par un essai kinase in vitro avec Erk1. Nos expériences d’immunofluorescence ont démontré que la phosphorylation de Hmg20a sur la sérine 105 par Erk1/2 affecte la localisation nucléocytoplasmique de cette protéine. Finalement, les phosphopeptides isomériques positionnels, soit des peptides avec la même séquence d’acides aminés mais phosphorylés à différentes positions, ont été étudiés avec deux nouveaux algorithmes. Cette étude a permis de déterminer leur fréquence dans un extrait enrichi en phosphopeptides et d’évaluer leur séparation par chromatographie liquide en phase inverse. Une stratégie analytique employant un des algorithmes a été développée pour réaliser une analyse de spectrométrie de masse ciblée afin de découvrir les isomères ayant été manqués par la méthode d’analyse conventionnelle. / Phosphorylation is an omnipresent post-translational modification of proteins that regulates numerous cellular processes. This modification is controlled by the enzymatic activity of protein kinases and phosphatases. Erk1/2 kinases are central to an important signaling pathway that modulates translation, cell cycle, cytoskeleton rearrangement and transcription. They are also implicated in organism development, glucose metabolism, immune response and memory. Different human pathologies such as diabetes, cardiovascular diseases, and most importantly cancer, are associated with misregulation or mutations in members of this pathway. Considering the biological and clinical importance of those two kinases, discovering the extent of their enzymatic activity could favor the development of new pharmacological therapies. In this context, the principal objective of this thesis was to measure the influence of this pathway on the phosphoproteome and to discover new substrates of the Erk1/2 kinases. A phosphoproteomics study on the pharmacological inhibition kinetics of the Erk1/2 signaling pathway was initiated. The success of this study was based on three key technologies such as phosphopeptides enrichment with titanium dioxide, high-throughput and high-resolution mass spectrometry, and the development of ProteoConnections, a bioinformatics analysis platform. This platform is dedicated to organize proteomics data, evaluate data quality, report changes of abundance and accelerate data interpretation. A distinctive functionality of ProteoConnections is the annotation of phosphorylated sites (kinases, domains, structures, conservation, phospho-dependant protein interactions, etc.). This information was essential for the dataset analysis of 9615 phosphorylated sites identified on 2108 proteins during the study, which is, until now, the largest one reported for rat. Protein domain analysis revealed that domains implicated in proteins, nucleic acids and other molecules binding were the most frequently phosphorylated and that these sites are strategically located to affect the interactions. An algorithm was implemented to find Erk1/2 kinases potential substrates of identified sites using their phosphorylation motif, serum stimulation and Mek1/2 inhibition kinetic profile. A list of 157 potential Erk1/2 substrates was obtained. Twelve of them were previously reported and many more have functions associated to known substrates. Six substrates (Ddx47, Hmg20a, Junb, Map2k2, Numa1, and Rras2) were confirmed by in vitro kinase assays with Erk1. Our immunofluorescence experiments demonstrated that the phosphorylation of Hmg20a on serine 105 by Erk1/2 affects the nucleocytoplasmic localization of this protein. Finally, phosphopeptides positional isomers, peptides with the same amino acids sequence but phosphorylated at different positions, were studied with two new algorithms. This study allowed us to determine their frequency in an enriched phosphopeptide extract and to evaluate their separation by reverse-phase liquid chromatography. An analytical strategy that uses one of the algorithms was developed to do a targeted mass spectrometry analysis to discover the isomers that had been missed by the conventional method. Bio-informatique Base de données biologiques Erk Kinase Phosphorylation Protéomique quantitative Signalisation cellulaire Spectrométrie de masse Bioinformatics Biological database Mass spectrometry Phosphoproteomics Quantitative proteomics Signaling pathway Phosphoprotéomique
10	Designing scientific workflows following a structure and provenance-aware strategy Chen, Jiuqiang 11 October 2013 (has links) (PDF) Les systèmes de workflows disposent de modules de gestion de provenance qui collectent les informations relatives aux exécutions (données consommées et produites) permettant d'assurer la reproductibilité d'une expérience. Pour plusieurs raisons, la complexité de la structure du workflow et de ses d'exécutions est en augmentation, rendant la réutilisation de workflows plus difficile. L'objectif global de cette thèse est d'améliorer la réutilisation des workflows en fournissant des stratégies pour réduire la complexité des structures de workflow tout en préservant la provenance. Deux stratégies sont introduites. Tout d'abord, nous introduisons SPFlow un algorithme de réécriture de workflow scientifique préservant la provenance et transformant tout graphe acyclique orienté (DAG) en une structure plus simple, série-parallèle (SP). Ces structures permettent la conception d'algorithmes polynomiaux pour effectuer des opérations complexes sur les workflows (par exemple, leur comparaison) alors que ces mêmes opérations sont associées à des problèmes NP-difficile pour des structures générales de DAG. Deuxièmement, nous proposons une technique capable de réduire la redondance présente dans les workflow en détectant et supprimant des motifs responsables de cette redondance, nommés "anti-patterns". Nous avons conçu l'algorithme DistillFlow capable de transformer un workflow en un workflow sémantiquement équivalent "distillé", possédant une structure plus concise et dans laquelle on retire autant que possible les anti-patterns. Nos solutions (SPFlow et DistillFlow) ont été testées systématiquement sur de grandes collections de workflows réels, en particulier avec le système Taverna. Nos outils sont disponibles à l'adresse: https://www.lri.fr/~chenj/. workflows scientifiques provenance integration de données biologiques graphes series-paralleles

Search results