• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 207
  • 106
  • 32
  • Tagged with
  • 319
  • 155
  • 62
  • 60
  • 59
  • 58
  • 47
  • 39
  • 37
  • 36
  • 29
  • 25
  • 23
  • 21
  • 21
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
281

Extraction d’Information pour les réseaux de régulation de la graine chez Arabidopsis Thaliana. / Information Extraction for the Seed Development Regulatory Networks of Arabidopsis Thaliana.

Valsamou, Dialekti 17 January 2017 (has links)
Même si l’information est abondante dans le monde, l’information structurée, prête à être utilisée est rare. Ce travail propose l’Extraction d’Information (EI) comme une approche efficace pour la production de l’information structurée, utilisable sur la biologie, en présentant une tâche complète d’EI sur un organisme modèle, Arabidopsis thaliana. Un système d’EI se charge d’extraire les parties de texte les plus significatives et d’identifier leurs relations sémantiques. En collaboration avec des experts biologistes sur la plante A. Thaliana un modèle de connaissance a été conçu. Son objectif est de formaliser la connaissance nécessaire pour bien décrire le domaine du développement de la graine. Ce modèle contient toutes les entités et relations les connectant qui sont essentielles et peut être directement utilisé par des algorithmes. En parallèle ce modèle a été testé et appliqué sur un ensemble d’articles scientifiques du domaine, le corpus nécessaire pour l’entraînement de l’apprentissage automatique. Les experts ont annoté le texte en utilisant les entités et relations du modèle. Le modèle et le corpus annoté sont les premiers proposés pour le développement de la graine, et parmi les rares pour A. Thaliana, malgré son importance biologique. Ce modèle réconcilie les besoins d’avoir un modèle assez complexe pour bien décrirele domaine, et d’avoir assez de généralité pour pouvoir utiliser des méthodes d’apprentissage automatique. Une approche d’extraction de relations (AlvisRE) a également été élaborée et développée. Une fois les entités reconnues, l’extracteur de relations cherche à détecter les cas où le texte mentionne une relation entre elles, et identifier précisément de quel type de relation du modèle il s’agit. L’approche AlvisRE est basée sur la similarité textuelle et utilise à la fois des informations lexiques,syntactiques et sémantiques. Dans les expériences réalisées, AlvisRE donne des résultats qui sont équivalents et parfois supérieurs à l’état de l’art. En plus, AlvisRE a l’avantage de la modularité et adaptabilité en utilisant des informations sémantiques produites automatiquement. Ce dernier caractéristique permet d’attendre des performances équivalentes dans d’autres domaines. / While information is abundant in the world, structured, ready-to-use information is rare. Thiswork proposes Information Extraction (IE) as an efficient approach for producing structured,usable information on biology, by presenting a complete IE task on a model biological organism,Arabidopsis thaliana. Information Extraction is the process of extracting meaningful parts of text and identifying their semantic relations.In collaboration with experts on the plant A. Thaliana, a knowledge model was conceived. The goal of this model is providing a formal representation of the knowledge that is necessary to sufficiently describe the domain of grain development. This model contains all the entities and the relations between them which are essential and it can directly be used by algorithms. Inparallel, this model was tested and applied on a set of scientific articles of the domain. These documents constitute the corpus which is needed to train machine learning algorithms. Theexperts annotated the text using the entities and relations of the model. This corpus and this model are the first available for grain development and among very few on A. Thaliana, despite the latter’s importance in biology. This model manages to answer both needs of being complexenough to describe the domain well, and of having enough generalization for machine learning.A relation extraction approach (AlvisRE) was also elaborated and developed. After entityre cognition, the relation extractor tries to detect the cases where the text mentions that twoentities are in a relation, and identify precisely to which type of the model these relations belongto. AlvisRE’s approach is based on textual similarity and it uses all types of information available:lexical, syntactic and semantic. In the tests conducted, AlvisRE had results that are equivalentor sometimes better than the state of the art. Additionally, AlvisRE has the advantage of being modular and adaptive by using semantic information that was produced automatically. This last feature allows me to expect similar performance in other domains.
282

New computational approaches for investigating the impact of mutations on the transglucosylation activity of sucrose phosphorylase enzyme / Nouvelles approches bioinformatiques pour étudier l'impact des mutations sur l'activité de transglucosylation d'une sucrose phosphorylase

Velusamy, Mahesh 18 December 2018 (has links)
Comprendre comment les mutations impactent l’activité d’une protéine reste un défi dans le domaine des sciences protéiques. Les méthodes biochimiques traditionnellement utilisées pour résoudre ce type de questionnement sont très puissantes mais sont laborieuses à mettre en œuvre. Des approches bioinformatiques ont été développées à cet égard pour surmonter ces contraintes. Dans cette thèse, nous explorons l'utilisation d'approches bioinformatiques pour comprendre le lien entre mutations et changements d'activité. Notre modèle d'étude est une enzyme bactérienne, la sucrose phosphorylase de Bifidobacterium adolescentis (BaSP). Cette glycosyl-hydrolase de la famille 13 (GH13) suscite l’intérêt de l'industrie en raison de sa capacité à synthétiser des disaccharides et des glycoconjugués originaux. Son activité consiste à transférer un glucose d'un donneur, le saccharose, à un accepteur qui peut être un monosaccharide ou un aglycone hydroxylé. La réaction enzymatique se déroule selon un mécanisme dit « double déplacement avec rétention de configuration », ce qui nécessite la formation d'un intermédiaire covalent dit glucosyl-enzyme. Cependant, la possibilité de contrôler la régiosélectivité de ce transfert pour qu'il soit applicable au niveau industriel est un enjeumajeur. Cette thèse vise d’une part, à fournir une explication rationnelle quant aux modifications de la régiosélectivité de BaSP apportées par des mutations et d’autre part à proposer un canevas pour le contrôle de la régiosélectivité de couplage en vue de la synthèse de disaccharides pré-biotiques rares comme le kojibiose et le nigerose. Dans notre approche, nous avons émis l'hypothèse que les orientations préférées de l'accepteur dans le site catalytique après formation du glycosyl-enzyme déterminent la régiosélectivité de l'enzyme. Nous avons utilisé des approches computationnelles pour étudier l'impact des mutations sur la liaison de l'accepteur à l'intermédiaire covalent, le glucosylenzyme. À cette fin, nous avons construit des modèles à l’échelle atomique du glucosyl-enzyme pour un ensemble de variants de la BaSP pour lesquels des données expérimentales étaient disponibles. Pour y parvenir, nous avons paramétré le glucosyl-aspartyle en tant que nouveau résidu et les avons intégré dans des outils de modélisation tels que Modeller et Gromacs. Nous avons évalué la pertinence de ces paramètres et les avons ensuite appliqués à la vérification de notre hypothèse de travail par le biais d’expériences d'ancrage moléculaire. La méthodologie utilisée dans ce travail ouvre la perspective de l'utilisation d'approches bioinformatiques pour l'ingénierie de la régiosélectivité de la sucrose phosphorylase et plus généralement des glycosylhydrolases possédant un mécanisme similaire. À cet égard, un pipeline de modélisation moléculaire et d'amarrage de molécules accepteurs sur des intermédiaires covalents des enzymes de cette famille (ENZO pour Optimisation d’ENZyme) a été développé au cours de cette thèse. Son application à l’ingénierie d’autres variants de BaSP est en cours. / In this thesis, we explore the usage of computational approaches for understanding the link between mutations and changes in protein activity. Our study model is a bacterial sucrose phosphorylase enzyme from Bifidobacterium adolescentis (BaSP). This glycosyl hydrolase from family 13 (GH13) has been a focus in the industry due to its ability to synthesize original disaccharides and glycoconjugates. In fact, its activity is to transfer a glucose moiety from a donor sucrose to an acceptor which can be a monosaccharide or a hydroxylated aglycone. The enzymatic reaction proceeds by a double displacement with retention of configuration mechanism whereby a covalent glucosyl-enzyme intermediate is formed. However, it is at stake to control the regioselectivity of this transfer for it to be applicable at industrial level. This thesis aimed at providing a rational explanation for the observed impact of mutations on the regioselectivity of BaSP in view of controlling the synthesis of rare pre-biotic disaccharides like kojibiose and nigerose. We hypothesized that the preferred orientations of the acceptor determines the regioselectivity of the enzyme. In that respect, we used computational approaches to investigate the impact of mutations on the binding of the acceptor to the glucosyl-enzyme intermediate. The methodology used in this work opens the perspective of using computational approaches for engineering the regioselectivity of of glycosyl hydrolases with similar mechanism.
283

Apprentissage d'atlas cellulaires par la méthode de Factorized embeddings

Trofimov, Assya 02 1900 (has links)
Le corps humain contient plus de 3.72X10^13 cellules qui se distinguent par leur morphologie, fonction et état. Leur catalogage en atlas cellulaires c'est entamé il y a plus de 150 ans, avec l'invention des colorants cellulaires en microscopie. Notre connaissance des types cellulaires et leur phénotypes moléculaires nous permet de connaître et prédire leurs fonctions et patrons d'interactions. Ces connaissances sont à la base de la capacité à poser des diagnostics, créer des médicaments et même faire pousser des organes en biologie synthétique. Surprenamment, notre connaissance est loin d'être complète et c'est pourquoi la caractérisation systématique des cellules et l'assemblage des connaissances en atlas cellulaires est nécessaire. Le développement du séquençage à haut débit a révolutionné la biologie des systèmes et ce type de données est parfait pour la construction d'atlas cellulaires entièrement basés sur les données. Un tel atlas cellulaire contiendra une représentation des cellules par des vecteurs de nombres, où chaque vecteur encode le profil moléculaire capturant des informations biologiques de chaque cellule. Chaque expérience de séquençage d'ARN (RNA-Seq) produit des dizaines de milliers de mesures extrêmement riches en information dont l'analyse demeure non-triviale. Des algorithmes de réduction de dimensionnalité, entre autres, permettent d'extraire des données des patrons importants et encoder les échantillons dans des espaces plus interprétables. De cette manière, les cellules similaires sont groupés sur la base d'une multitude de mesures qu'offre le RNA-Seq. Nous avons donc créé un modèle, le Factorized Embedding (FE), qui permet d'organiser les données de séquençage d'ARN de la sorte. Le modèle apprend simultanément deux espaces d'encodage: un pour les échantillons et l'autre pour les gènes. Nous avons observé qu'une fois entraîné, que ce modèle groupe les échantillons sur la base de leur similarité d'expression génique et permet l'interpolation dans l'espace d'encodage et donc une certaine interprétabilité de l'espace d'encodage. Du côté de l'encodage des gènes, nous avons remarqué que les gènes se regroupaient selon leurs patrons de co-expression ainsi que selon des similarité de fonctions, trouvées via des ontologies de gènes (Gene Ontology, GO). Nous avons ensuite exploré les propriétés d'une modification du modèle FE, baptisée le Transcriptome Latent (TLT, de l'anglais The Latent Transcriptome), où l'encodage des gènes est remplacé par une fonction d'encodage de k-mers provenant de données brutes de RNA-Seq. Cette modification du modèle capture dans son espace d'encodage des séquence à la fois de l'information sur la similarité et l'abondance des séquences ADN. L'espace d'encodage a ainsi permis de détecter des anormalités génomiques tels les translocations, ainsi que des mutations spécifiques au patient, rendant cet espace de représentation utile autant pour la visualisation que pour l'analyse de données. Finalement, la dernière itération explorée dans cette thèse, du modèle FE, baptisée cette fois-ci le TCRome, encode des séquences TCR (récepteurs de cellules T) plutôt que des k-mers, venant du séquençage de répertoires immuns (TCR-Seq). Une irrégularité dans la performance du modèle a mené à une analyse des séquences plus approfondie et à la détection de deux sous-types de TCR. Nous avons analysé les répertoires TCR de plus de 1000 individus et rapportons que le répertoire TCR est composé de deux types de TCR ontogéniquement et fonctionellement distincts. Nous avons découvert des patrons distincts dans les abondances de l'un ou l'autre type, changeant en fonction du sexe, l'âge et dans le cadre de maladies telles chez les sujets portant des mutations dans le gène AIRE et dans le cadre de la maladie du greffon contre l'hôte (GVHD). Ces résultats pointent vers la nécessité d'utiliser des données de séquençage multi-modales pour la construction d'atlas cellulaires, c'est à dire en plus des séquence TCR, des données sur l'expression génique ainsi que des caractérisation moléculaires seront probablement utiles, mais leur intégration sera non-triviale. Le modèle FE (et ses modifications) est un bon candidat pour ce type d'encodage, vu sa flexibilité d'architecture et sa résilience aux données manquantes. / The human body contains over 3.72 x 10^13 cells, that distinguish themselves by their morphology, function and state. Their cataloguing into cell atlases has started over 150 years ago, with the invention of cellular stains for microscopy. Our knowledge of cell types and molecular phenotypes allows is to better know and predict their functions and interaction patterns. This knowledge is at the basis of the ability to diagnose disease, create drugs and even grow organs in synthetic biology. Surprisingly, our knowledge is far from complete and this is why a systematic characterization of cells and the assembly of cell atlases is important. The development of high throughput sequencing has revolutionized systems biology and this type of data is perfect for the construction of entirely data-driven cell atlases. Such an atlas will contain a representation of cells by vectors of numbers, where each vector encodes a molecular profile, capturing biological data about each cell. Each sequencing experiment yields tens of thousands of measurements, extremely rich in information, but their analysis remains non-trivial. Dimensionnality reduction algorithms allow to extract from the data important patterns and encode samples into interpretable spaces. This way, similar cells are grouped on the basis of a multitude of measurements that comes from high throughput sequencing. We have created a model, the Factorized Embedding (FE), that allows to organize RNA sequencing (RNA-Seq) data in such a way. The FE model learns simultaneously two encoding spaces: one for samples and one for genes. We have found that the model groups samples on the basis of similar gene expression and allows for smooth interpolation in the encoding space and thus some manner of interpretability. As for the gene encoding space, we observed that gene coordinates were grouped according to co-expression patterns as well as similarity in function, found via gene ontology (GO). We then explored a modification of the FE model, names The Latent Transcriptome (TLT), where the gene encoding function is replaced by a function encoding k-mers, calculated from raw RNA-Seq data. This modification of the model captured in the k-mer encoding space both sequence similarity and sequence abundance. The encoding space allowed for the detection of genomic abnormalities such as translocations, as well as patient-specific mutations, making the encoding space useful for both visualisation and data analysis. Finally, the last iteration of the FE model that we explored, called TCRome, encodes amino-acid TCR sequences rather than k-mers. An irregularity in the model's performance led us to discover two TCR subtypes, entirely based on their sequence. We have thus analyzed TCR repertoires of over 1000 individuals and report that the TCR repertoire is composed of two ontogenically and functionally distinct types. We have discovered distinct pattens in the abundances of each of the sub-types, changing with age, sex and in the context of some diseases such as in individuals carrying a mutated AIRE gene and in graft versus host disease (GVHD). Collectively, these results point towards the necessity to use multi-modal sequencing data for the construction of cell atlases, namely gene expression data, TCR sequencing data and possibly various molecular characterizations. The integration of all this data will however be non-trivial. The FE model (and its modifications) is a good candidate for this type of data organisation, namely because of its flexibility in architecture and resilience to missing data.
284

Épistasie en médecine évolutive

Gamache, Isabel 07 1900 (has links)
La variabilité de la réponse aux médicaments entre les individus est en grande partie attribuable aux différences génétiques causées par des mutations génétiques. Ces mutations ont émergé au cours de l'évolution humaine et peuvent être neutres, bénéfiques ou délétères en termes de survie ou de succès reproductif. Bien que de nombreuses études identifient des variants génétiques associés à des phénotypes, comme la réponse aux médicaments, peu d'attention est accordée à l'origine de ces mutations ou à leur présence au sein des populations. La médecine évolutive entre alors en jeu en étudiant les origines évolutives des mutations associées à des phénotypes. Ce domaine se situe à l'intersection de la médecine et de la biologie évolutive, et il cherche à comprendre comment le corps humain est devenu ce qu'il est aujourd'hui. Cette thèse se concentrera sur l'évolution des gènes impliqués dans la réponse aux médicaments. La première partie de cette thèse se penchera sur la relation entre les gènes ADCY9 et CETP, qui sont liés à la réponse au médicament dalcetrapib visant à réduire les événements cardiovasculaires en ciblant la protéine CETP. Une mutation dans le gène ADCY9 a été précédemment identifiée comme modulant la réponse à ce médicament. Nous avons identifié plusieurs pressions de sélection dans le gène ADCY9, mais nous avons concentré nos analyses sur son interaction épistasique, c'est-à-dire non linéaire, co-évolutive avec le gène CETP. Des effets de cette interaction sur plusieurs phénotypes ont été observés, et des mécanismes potentiels sous-tendant cette pression co-évolutive et son association avec le médicament ont été identifiés. La deuxième partie de cette thèse sera la suite d'un projet portant sur l'étude des pressions de sélection sur la superfamille des cytochromes P450. Les gènes de cette superfamille sont généralement impliqués dans la détoxification de l'organisme, y compris par la métabolisation d'environ 75% des médicaments couramment prescrits. Des analyses préliminaires ont révélé des enrichissements de pression de sélection dans deux sous-familles, à savoir les CYP3A et les CYP4F. Des phénotypes potentiellement sous pressions de sélection ont été identifiés dans la sous-famille des CYP3A au sein de la population africaine. En conclusion, l'intégration de la génétique des populations avec la transcriptomique et les études d'association phénotypiques enrichit notre compréhension des liens entre les pharmacogènes au sein de diverses populations. Cette approche représente un pas de plus vers l'amélioration de la médecine de précision. / Variability in drug response between individuals is largely due to genetic differences caused by genetic mutations. These mutations have emerged in the course of human evolution and can be neutral, beneficial or deleterious in terms of survival or reproductive success. Although many studies identify genetic variants associated with phenotypes such as drug response, little attention is paid to the origin of these mutations or their presence in the population. This is where evolutionary medicine comes in, studying the evolutionary origins of mutations associated with phenotypes. This field lies at the intersection of medicine and evolutionary biology, and seeks to understand how the human body became what it is today. This thesis will focus on the evolution of genes involved in drug response. The first part of this thesis will look at the relationship between the genes ADCY9 and CETP, linked to the response to the drug dalcetrapib aimed at reducing cardiovascular events by targeting the CETP protein. A mutation in the ADCY9 gene has been previously identified as modulating the response to this drug. We identified several selection pressures in the ADCY9 gene, but focused our analyses on the co-evolutionary epistatic interactions, meaning non-linear. Effects of this interaction on several phenotypes were observed, and potential mechanisms underlying this co-evolutionary pressure and its association with the drug were identified. The second part of this thesis will follow on from a project investigating selection pressures on the cytochrome P450 superfamily. Genes in this superfamily are generally involved in the detoxification of the body, including the metabolization of around 75% of commonly prescribed drugs. Preliminary analyses have revealed selective pressure enrichments in two subfamilies, CYP3A and CYP4F. Potential phenotypes under selective pressure were identified in the CYP3A subfamily in the African population. In conclusion, the integration of population genetics with transcriptomics and phenotypic association studies enhances our understanding of the connections among pharmacogenes across diverse populations. This approach signifies another stride towards advancing precision medicine.
285

Régression non linéaire entre les motifs des fibres nerveuses et la sensibilité cornéenne en utilisant l'apprentissage automatique

Ammarkhodja, Lamia 12 1900 (has links)
Notre projet vise à élucider la relation complexe entre la morphologie des nerfs cornéens et la sensibilité cornéenne, afin d'améliorer la compréhension et le diagnostic des pathologies oculaires. En utilisant deux types d'esthésiomètres : l'esthésiomètre sans contact (NCCA) et le Cochet-Bonnet (CBA) pour mesurer la sensibilité, et en analysant les images de microscopie confocale (IVCM) via le logiciel CCMetrics, nous avons étudié 23 individus, y compris ceux souffrant de diabète et de kératite neurotrophique. Des corrélations négatives significatives entre certains attributs neuronaux et la sensibilité cornéenne ont été identifiées. L'utilisation d'algorithmes d'apprentissage automatique, tels que K-Plus Proches Voisins (KNN), les Réseaux de Neurones (MLP), la Régression à Vecteurs de Support (SVR) et les arbres de décision, a révélé des relations non linéaires complexes. Notre étude encourage l'utilisation de l’apprentissage automatique pour détecter ces relations complexes dans le domaine médical en général et en ophtalmologie en particulier. / Our project aims to clarify the complex relationship between the morphology of corneal nerves and corneal sensitivity, to improve understanding and diagnosis of eye pathologies. We used two types of esthesiometers: a non-contact esthesiometer (NCCA) and Cochet-Bonnet (CBA) for sensitivity measurement and analyzed confocal microscopy (IVCM) images using the software CCMetrics. We studied 23 individuals, including those with diabetes and neurotrophic keratitis. Significant negative correlations between certain neuronal attributes and corneal sensitivity were identified. The use of machine learning algorithms, such as K-Nearest Neighbors (KNN), Neural Networks (MLP), Support Vector Regression (SVR), and decision trees, revealed complex non-linear relationships. Our study advocates using machine learning to detect these complex relationships in the medical field, especially in ophthalmology.
286

Analyse transcriptomique et applications en développement préclinique des médicaments

El-Hachem, Nehme 12 1900 (has links)
L’émergence des Mégadonnées (« Big Data ») en biologie moléculaire, surtout à travers la transcriptomique, a révolutionné la façon dont nous étudions diverses disciplines telles que le processus de développement du médicament ou la recherche sur le cancer. Ceci fut associé à un nouveau concept, la médecine de précision, dont le principal but est de comprendre les mécanismes moléculaires entraînant une meilleure réponse thérapeutique chez le patient. Cette thèse est à mi-chemin entre les études pharmaco — et toxicogénomiques expérimentales, et les études cliniques et translationnelles. Le but de cette thèse est surtout de montrer le potentiel et les limites de ces jeux de données et leur pertinence pour la découverte de biomarqueurs de réponse ainsi que la compréhension des mécanismes d’action/toxicité de médicaments, en vue d’utiliser ces informations à des fins thérapeutiques. L’originalité de cette thèse réside dans son approche globale pour analyser les plus larges jeux de données pharmaco/toxicogénomiques publiés à ce jour et ceci pour : 1) Aborder la notion de biomarqueurs de réponse aux médicaments en pharmacogénomique du cancer, en étudiant les facteurs discordants entre deux grandes études publiées en 2012; 2) Comprendre le mécanisme d’action des médicaments et construire une taxonomie performante en utilisant une approche intégrative; et 3) Créer un répertoire toxicogénomique à partir des hépatocytes humains, exposés à différentes classes de médicaments et composés chimiques. Mes contributions principales sont les suivantes : • J’ai développé une approche bioinformatique pour étudier les facteurs discordants entre deux grandes études pharmacogénomiques et suggérées que les différences observées émergeaient plutôt de l’absence de standardisation des mesures pharmacologiques qui pourrait limiter la validation de biomarqueurs de réponse aux médicaments. • J’ai implémenté une approche bioinformatique qui montre la supériorité de l’intégration tenant en compte des différents paramètres pour les médicaments (structure, cytotoxicité, perturbation du transcriptome) afin d’élucider leur mécanisme d’action (MoA). • J’ai développé un pipeline bioinformatique pour étudier le niveau de conservation des mécanismes moléculaires entre les études toxicogénomiques in vivo et in vitro démontrant que les hépatocytes humains sont un modèle fiable pour détecter les produits toxiques hépatocarcinogènes. Au total, nos études ont permis de fournir un cadre de travail original pour l’exploitation de différents types de données transcriptomiques pour comprendre l’impact des produits chimiques sur la biologie cellulaire. / The emergence of Big Data in molecular biology, especially through the study of transcriptomics, has revolutionized the way we look at various disciplines, such as drug development and cancer research. Big data analysis is an important part of the concept of precision medicine, which primary purpose is to understand the molecular mechanisms leading to better therapeutic response in patients. This thesis is halfway between pharmaco-toxicogenomics experimental studies, and clinical and translational studies. The aim of this thesis is mainly to show the potential and limitations of these studies and their relevance, especially for the discovery of drug response biomarkers and understanding the drug mechanisms (targets, toxicities). This thesis is an original work since it proposes a global approach to analyzing the largest pharmaco-toxicogenomic datasets available to date. The key aims were: 1) Addressing the challenge of reproducibility for biomarker discovery in cancer pharmacogenomics, by comparing two large pharmacogenomics studies published in 2012; 2) Understanding drugs mechanism of action using an integrative approach to generate a superior drug-taxonomy; and 3) Evaluating the conservation of toxicogenomic responses in primary hepatocytes vs. in vivo liver samples in order to check the feasability of cell models in toxicology studies. My main contributions can be summarized as follow: - I developed a bioinformatics pipeline to study the factors that trigger (in)consistency between two major pharmacogenomic studies. I suggested that the observed differences emerged from the non-standardization of pharmacological measurements, which could limit the validation of drug response biomarker. - I implemented a bioinformatics pipeline that demonstrated the superiority of the integrative approach, since it takes into account different parameters for the drug (structure, cytotoxicity, transcriptional perturbation) to elucidate the mechanism of action (MoA). - I developed a bioinformatics pipeline to study the level of conservation of toxicity mechanisms between the in vivo and in vitro system, showing that human hepatocytes is a reliable model for hepatocarcinogens testing. Overall, our studies have provided a unique framework to leverage various types of transcriptomic data in order to understand the impact of chemicals on cell biology.
287

Conception et analyse des biopuces à ADN en environnements parallèles et distribués / Design and analysis of DNA microarrays in parallel and distributed environments

Jaziri, Faouzi 23 June 2014 (has links)
Les microorganismes constituent la plus grande diversité du monde vivant. Ils jouent un rôle clef dans tous les processus biologiques grâce à leurs capacités d’adaptation et à la diversité de leurs capacités métaboliques. Le développement de nouvelles approches de génomique permet de mieux explorer les populations microbiennes. Dans ce contexte, les biopuces à ADN représentent un outil à haut débit de choix pour l'étude de plusieurs milliers d’espèces en une seule expérience. Cependant, la conception et l’analyse des biopuces à ADN, avec leurs formats de haute densité actuels ainsi que l’immense quantité de données à traiter, représentent des étapes complexes mais cruciales. Pour améliorer la qualité et la performance de ces deux étapes, nous avons proposé de nouvelles approches bioinformatiques pour la conception et l’analyse des biopuces à ADN en environnements parallèles. Ces approches généralistes et polyvalentes utilisent le calcul haute performance (HPC) et les nouvelles approches du génie logiciel inspirées de la modélisation, notamment l’ingénierie dirigée par les modèles (IDM) pour contourner les limites actuelles. Nous avons développé PhylGrid 2.0, une nouvelle approche distribuée sur grilles de calcul pour la sélection de sondes exploratoires pour biopuces phylogénétiques. Ce logiciel a alors été utilisé pour construire PhylOPDb: une base de données complète de sondes oligonucléotidiques pour l’étude des communautés procaryotiques. MetaExploArrays qui est un logiciel parallèle pour la détermination de sondes sur différentes architectures de calcul (un PC, un multiprocesseur, un cluster ou une grille de calcul), en utilisant une approche de méta-programmation et d’ingénierie dirigée par les modèles a alors été conçu pour apporter une flexibilité aux utilisateurs en fonction de leurs ressources matériel. PhylInterpret, quant à lui est un nouveau logiciel pour faciliter l’analyse des résultats d’hybridation des biopuces à ADN. PhylInterpret utilise les notions de la logique propositionnelle pour déterminer la composition en procaryotes d’échantillons métagénomiques. Enfin, une démarche d’ingénierie dirigée par les modèles pour la parallélisation de la traduction inverse d’oligopeptides pour le design des biopuces à ADN fonctionnelles a également été mise en place. / Microorganisms represent the largest diversity of the living beings. They play a crucial rôle in all biological processes related to their huge metabolic potentialities and their capacity for adaptation to different ecological niches. The development of new genomic approaches allows a better knowledge of the microbial communities involved in complex environments functioning. In this context, DNA microarrays represent high-throughput tools able to study the presence, or the expression levels of several thousands of genes, combining qualitative and quantitative aspects in only one experiment. However, the design and analysis of DNA microarrays, with their current high density formats as well as the huge amount of data to process, are complex but crucial steps. To improve the quality and performance of these two steps, we have proposed new bioinformatics approaches for the design and analysis of DNA microarrays in parallel and distributed environments. These multipurpose approaches use high performance computing (HPC) and new software engineering approaches, especially model driven engineering (MDE), to overcome the current limitations. We have first developed PhylGrid 2.0, a new distributed approach for the selection of explorative probes for phylogenetic DNA microarrays at large scale using computing grids. This software was used to build PhylOPDb: a comprehensive 16S rRNA oligonucleotide probe database for prokaryotic identification. MetaExploArrays, which is a parallel software of oligonucleotide probe selection on different computing architectures (a PC, a multiprocessor, a cluster or a computing grid) using meta-programming and a model driven engineering approach, has been developed to improve flexibility in accordance to user’s informatics resources. Then, PhylInterpret, a new software for the analysis of hybridization results of DNA microarrays. PhylInterpret uses the concepts of propositional logic to determine the prokaryotic composition of metagenomic samples. Finally, a new parallelization method based on model driven engineering (MDE) has been proposed to compute a complete backtranslation of short peptides to select probes for functional microarrays.
288

Sélection indirecte en évolution Darwinienne : Mécanismes et implications / Indirect selection in Darwinian evolution : mechanisms and implications

Parsons, David 08 December 2011 (has links)
Le modèle Aevol est un modèle d'évolution expérimentale in silico développé par Carole Knibbe et Guillaume Beslon pour étudier l'évolution de la structure des génomes. Aevol a permis d'identifier une très forte pression de sélection indirecte vers un certain niveau de variabilité mutationnelle du phénotype : la survie à long terme d'une lignée étant conditionnée à sa capacité à produire des mutations avantageuses sans pour autant produire trop de mutations délétères, un certain compromis entre robustesse et évolvabilité est indirectement sélectionné. Une conséquence de cette pression de sélection indirecte est le rôle central joué par le taux spontané de réarrangements chromosomiques dans la détermination de la structure du génome. Dans ce travail, nous avons modifié le modèle Aevol pour introduire d'une part un processus explicite de régulation de l'expression des gènes et d'autre part, une sensibilité aux similarités entre séquences dans les événements de recombinaison de l'ADN. Nous avons ainsi pu étudier l'effet de ces variations sur la sélection de second-ordre. Nous avons en particulier observé que celle-ci est extrêmement robuste aux choix de modélisation : les effets liés aux réarrangements sont en effet observés de la même façon lorsque les organismes possèdent un réseau de régulation (qui plus est, ces effets sont visibles sur le réseau lui-même), lorsque les réarrangements se produisent préférentiellement entre séquences similaires et lorsque les transferts horizontaux sont possibles. De plus, les effets de cette pression de sélection de second-ordre ne sont pas limités au niveau génomique : de forts taux de réarrangements tendent à donner lieu à des génomes présentant beaucoup d'opérons, très peu d'ARNs non-codants et des réseaux de régulation très simples. Au contraire, chez les organismes ayant évolué avec de faibles taux de réarrangement, la plupart des gènes sont transcrits sur des ARNs monocistroniques. Ces organismes possèdent un grand nombre d'ARNs non-codants et présentent des réseaux de régulation très complexes. Ces effets observés dans le modèle à différents niveaux d'organisation peuvent s'apparenter à de nombreuses caractéristiques observées chez les organismes réels. Ainsi les pressions sélectives indirectes observées grâce au model Aevol permettent de reproduire un large spectre de propriétés biologiques connues en ne modifiant que le seul taux de réarrangements dans le modèle. Ces mécanismes de sélection indirecte apparaissent donc comme de bons candidats pour expliquer ces mêmes observations sur les organismes réels. / The Aevol model is an in silico experimental evolution model that was specifically developped by Carole Knibbe to study the evolution of the structure of the genome. Using Aevol, a very strong second-order selective pressure towards a specific level of mutational variability of the phenotype was revealed: it was shown that since the survival of a lineage on the long term is conditionned to its ability to produce beneficial mutations while not loosing those previously found, a specific trade-off between robustness and evolvability is indirectly selected. A consequence of this indirect selective pressure is the central role played by the spontaneous rate of chromosomal rearrangements in determining the structure of the genome. More specifically, it was shown that because some rearrangements (large duplications and large deletions) have an impact not only arround their breakpoints but on the whole sequence between them, non-coding sequences are actually mutagenic for the coding sequences they surround. The consequence is a clear trend for organisms having evolved under high rearrangement rates to have very short genomes with hardly any non-coding sequences while organisms evolving in the context of low rearrangement rates have huge, mostly non-coding genomes. Here, we modified the Aevol model to introduce an explicit regulation of gene expression as well as a sensitivity to sequence similarity in DNA recombination events. We observed that the effects of the second-order pressure mentioned above are very robust to modelling choices: they are similarly observed when gene regulation is made available, when rearrangements occur preferentially between similar sequences and even when a biologically plausible process of horizontal transfer is allowed. Moreover, the effects of this second-order selective pressure are not limited to the genomic level: high rearrangement rates usually lead to genomes that have many polycistronic RNAs, almost no non-coding RNAs and very simple regulation networks. On the contrary, at low rearrangement rates organisms have most of their genes transcribed on monocistronic RNAs, they own a huge number of coding RNAs and present very complex and intricate regulation networks. These astounding effects at different levels of organization can account for many features found on real organisms. Thus, the indirect selective pressure that was identified thanks to the Aevol model allows to reproduce a large panel of known biological properties by changing the sole spontaneous rearrangement rate, making this pressure a good candidate for explaining these observations on real organisms.
289

Etude des protéines à motif PQ : Identification d'un nouveau transporteur lysosomal impliqué dans le traitement de la cystinose et analyse bioinformatique de la famille protéique / PQ-loop Protein Study : Identification of a New Lysosomal Transporter Involved in Cystinosis Treatment and Bioinformatic Analysis of its Proteic Family

Jézégou, Adrien 25 November 2014 (has links)
Le transport de composés à travers les membranes biologiques est crucial pour la physiologie des cellules eucaryotes. Cependant la fonction de nombreux transporteurs putatifs reste inconnue. C’est notamment le cas de nombreux transporteurs intracellulaires exportant les catabolites du lysosome. Le transporteur lysosomal de cystine, baptisé cystinosine, se caractérise par la présence d’un motif dupliqué appelé " boucle PQ ". Sa dysfonction entraîne une maladie lysosomale, la cystinose, caractérisée par l'accumulation de cystine dans les lysosomes. Les protéines possédant un motif PQ sont retrouvées plus souvent dans les cellules eucaryotes et, à l'exception de la cystinosine, leur fonction reste inconnue. Dans cette thèse, nous démontrons qu'une autre protéine à motif PQ, PQLC2 est le transporteur responsable de l'efflux lysosomal des acides aminés cationiques et qu'il est impliqué dans le traitement de la cystinose.L'hypothèse de départ était basée, d'une part, par sur des prédictions par analyse protéomique de la localisation lysosomale de PQLC2 et, d'autre part, sur des résultats chez S.cerevisiae impliquant les orthologues putatifs de PQLC2, situés à la membrane de la vacuole, dans l'homéostasie des acides aminés cationiques. En utilisant une approche consistant à délocaliser PQLC2 à la membrane plasmique et à acidifier le pH extracellulaire pour mimer la lumière acide du lysosome, nous avons pu, par mesure d'accumulation intracellulaire de composés radiomarqués et par mesure électrophysiologique sur cellule entière, faire la preuve du transport sélectif, actif à bas pH et de faible affinité des acides aminés cationiques par PQLC2. Dans une seconde partie, nous avons mis en évidence l'implication de ce transporteur dans l'efflux lysosomal du produit de réaction entre la cystine accumulée dans les lysosomes de cellules de patients cystinotiques et le principe actif (cystéamine) du traitement pharmacologique de la cystinose.Enfin, dans une dernière partie, nous avons effectué une analyse bioinformatique préliminaire des protéines à motif PQ qui exploitait la pseudo-symétrie de ces protéines pour identifier des résidus potentiellement impliqués dans l'activité de transport. / Transport of solutes across biological membranes is crucial to eukaryotic cell physiology. However, the function of many putative transporters remains unknown, such as the proteins responsible for lysosomal export of metabolites. Cystinosin, the lysosomal cystine exporter defective in cystinosis, is characterized by a duplicated motif termed the PQ loop. PQ-loop proteins are more frequent in eukaryotes than in prokaryotes, and, except for cystinosin, their molecular function remains unknown. Here we show that another PQ-loop protein, PQLC2, is a lysosomal transporter for cationic amino acids and that it is required for the treatment of cystinosis. The hypothesis that PQLC2 is a lysosomal metabolite transporter was based on a proteomic study predicting that PQLC2 is located at the lysosomal membrane and on a genetic study that linked putative yeast orthologues with cationic amino acid homeostasis. Using an approach that consisted in misrouting PQLC2 to the plasma membrane of frog oocytes and in acidifying the extracellular medium to mimic the acidic lysosomal lumen, we showed an accumulation of radiolabelled cationic amino acids into mRNA-injected oocytes and an electrogenic, inward current due to a selective, pH-dependent, low-affinity transport of cationic amino acids by PQLC2. Moreoever, we showed that PQLC2 exports a key chemical intermediate (cysteamine-cysteine mixed disulfide) from cystinotic lysosomes treated with the aminothiol drug cysteamine, thus explaining the mechanism underlying the current drug therapy of cystinosis. Finally, in a last chapter, we performed a preliminary bioinformatic study of the family of PQ-loop proteins that took advantage of the pseudo-symmetric structure of these proteins to identify residues potentially important for the transport activity.
290

Structuration des génomes par sélection indirecte de la variabilité mutationnelle : une approche de modélisation et de simulation

Knibbe, Carole 04 December 2006 (has links) (PDF)
A long terme, le succès évolutif d'une lignée ne dépend pas seulement de la valeur adaptative de ses fondateurs. Il dépend également de la capacité des descendants à transmettre le génotype ancestral sans mutation délétère, tout en découvrant parfois des mutations favorables. Un niveau intermédiaire de variabilité mutationnelle peut donc être, de fait, indirectement sélectionné. En simulant, à l'aide d'un modèle individu-centré, l'évolution de génomes soumis à la fois à des mutations locales et à des réarrangements chromosomiques, nous montrons que la structure du génome est un levier d'ajustement du degré de variabilité : le nombre de gènes et, de façon plus surprenante, la quantité de non codant s'ajustent en fonction du taux de mutation et de l'impact moyen des mutations géniques, maintenant ainsi un niveau constant de variabilité mutationnelle. L'émergence de ces couplages surprenants suggère que les génomes ne sont pas seulement façonnés par les biais mutationnels et les coûts sélectifs directs, mais aussi, à plus long terme, par des pressions plus indirectes.

Page generated in 0.0828 seconds