• Refine Query
  • Source
  • Publication year
  • to
  • Language
  • 3
  • 1
  • Tagged with
  • 6
  • 6
  • 4
  • 4
  • 4
  • 2
  • 2
  • 2
  • 2
  • 2
  • 1
  • 1
  • 1
  • 1
  • 1
  • About
  • The Global ETD Search service is a free service for researchers to find electronic theses and dissertations. This service is provided by the Networked Digital Library of Theses and Dissertations.
    Our metadata is collected from universities around the world. If you manage a university/consortium/country archive and want to be added, details can be found on the NDLTD website.
1

Méthodes et logiciel pour le traitement efficace des données de criblage à haut débit

Zentilli, Pablo January 2007 (has links) (PDF)
Dans ce mémoire, nous abordons le problème de la correction d'erreurs systématiques et de la recherche des composés prometteurs (i.e. «hits») dans les procédures de criblage à haut débit (HTS). Nous introduisons une nouvelle approche pour la correction des erreurs systématiques dans les procédures HTS et la comparons à quelques méthodes couramment utilisées. La nouvelle méthode, appelée «well correction» ou correction par puits, procède par une analyse des erreurs systématiques localisées au niveau des puits, à travers toute la procédure de criblage. Cette méthode permet une amélioration des résultats obtenus lors de la sélection des «hits», par des méthodes utilisant un seuil prédéfini. La correction par puits à montré des résultats supérieurs aux méthodes suggérées dans la littérature telles que: correction par soustraction de l'arrière-plan («background correction» : Kevorkov et Makarenkov, 2005a, 2005b); «median-polish» et «B score» (Brideau et al., 2003; Malo et al., 2006). Nous avons également comparé trois méthodes de recherche des «hits» utilisant des approches de groupement (i.e. «clustering»): k-mean; somme des distances inter-cluster moyennes (SASD) et distance moyenne entre clusters (AICD). Ces méthodes proposent des algorithmes différents pour mesurer la distance entre les données provenant du criblage. Les méthodes de groupement utilisant k-means et SASD ont montré des résultats intéressants, mais aucune des méthodes étudiées n'a montré des performances pouvant justifier son utilisation dans tous les cas de figure. Un logiciel, «HTS Corrector», a été développé dans le cadre de ce travail. Il intègre toutes les méthodes étudiées dans ce mémoire. D'autres fonctionnalités auxiliaires, pouvant aider le praticien dans l'analyse des résultats provenant d'une procédure HTS, ont aussi été intégrées. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Criblage à haut débit, High-throughput Screening, Erreurs systématiques, Correction de données, Méthodes de groupement, Recherche de hits, Normalisation de données.
2

Caractérisation du mode d'action d'agents anti-leishmania actuels et en développement à l'aide de criblages fonctionnels

Bigot, Sophia 11 January 2024 (has links)
Thèse ou mémoire avec insertion d'articles. / La leishmaniose est la maladie parasitaire la plus mortelle après le paludisme et il n'existe pas de vaccin chez l'homme. Des traitements sont actuellement disponibles, mais ils sont coûteux, présentent des effets secondaires non négligeables, sont peu spécifiques et des résistances émergent. Les principales molécules utilisées sont les dérivés d'antimoine pentavalent, l'amphotéricine B, la miltefosine et la paromomycine. Découvrir de nouvelles molécules, préciser le mécanisme d'action des molécules anti-leishmania connues et plus généralement étudier la résistance est donc essentiel dans la lutte contre la leishmaniose. Ceci permettra d'améliorer l'utilisation des drogues, de minimiser l'apparition de résistances et de préciser les mécanismes employés par les parasites. Dans la cadre de cette thèse, mes objectifs étaient de déterminer le potentiel thérapeutique de molécules en développement ainsi que d'élucider les mécanismes de résistance et les cibles de médicaments connus ou en développement chez Leishmania. Dans le Chapitre 1 j'ai étudié le potentiel thérapeutique de trente-huit nouveaux composés thiophène. Une sélection de mutants couplée au séquençage haut débit (Sel-seq) criblée avec le candidat GC1-19, ayant une activité plus spécifique contre L. infantum JPCM5, a permis de mettre en évidence une conversion génique au niveau du locus ABCG2, impliquée dans la résistance. L'étude de cette molécule par clonage fonctionnel couplé au séquençage haut débit (Cos-seq) a démontré que la surexpression d'une tryparédoxine peroxydase est responsable d'une faible résistance au composé GC1-19. Les dérivés thiophènes sont donc des constructions d'intérêt pour le développement de médicaments contre la leishmaniose et les criblages Sel-seq et Cos-seq sont efficaces pour déterminer quels sont les gènes impliqués dans la résistance. Afin de mieux comprendre le métabolisme des folates, j'ai réalisé une mutagenèse chimique couplée au séquençage haut débit (Mut-seq) de L. major Friedlin avec une sélection au méthotrexate (MTX) (Chapitre 2). Vingt clones ayant une diminution de la susceptibilité au MTX de 2 à 400 fois ont été séquencés. Des mutations récurrentes ont été observés dans des gènes connus pour être impliqués dans le métabolisme des folates, dont les gènes FT1, DHFR-TS et PTR1, ou dans des gènes qui n'avaient jamais été associés au métabolisme des folates comme la L-galactolactone oxidase et une méthyltransférase. Pour la première fois, j'ai mis en évidence des mutations ponctuelles et des évènements de conversion géniques dans FT1, ainsi que des mutations ponctuelles dans DHFR-TS qui confèrent de la résistance au MTX. J'ai également démontré un effet dominant positif de deux mutations dans PTR1 ainsi que d'une mutation dans DHFR-TS. La sur-expression des versions sauvages de la L-galactolactone oxidase et d'une méthyltransférase dans les mutants appropriés les resensibilise au MTX. Le Mut-seq a également montré son efficacité lorsqu'il est couplé à une sélection avec du SbIII (Chapitre 4). Il a permis de mettre enévidence la kinase CDPK1, impliquée à la fois dans la résistance à la PMM et au SbIII. Son inactivation partielle confère de la résistance au SbIII et il reste à déterminer si les mutations ponctuelles retrouvées sont responsables de la résistance observée. Ces études montrent l'importance de l'utilisation de nouveaux criblages fonctionnels, ici le Mut-seq, pour découvrir de nouveaux gènes ayant un lien avec la résistance ainsi que de nouveaux mécanismes employés par le parasite au niveau de gènes déjà associés à la résistance. Le transporteur AdoMet et les transporteurs de folate FT1 et FT5, des transporteurs membranaires de la famille des FBTs localisés sur le chromosome 10, ont été caractérisé fonctionnellement. Dans le Chapitre 3, la totalité de ce locus ainsi qu'un FBT sur le chromosome 19 ont été étudié par délétion génique et expériences de localisation cellulaire. La délétion du locus du chromosome 10, contenant 7 gènes FBT, confère de la résistance à la sinefungine et au MTX. Six de ces protéines sont situées au niveau de la membrane plasmique, tout comme le FBT présent sur le chromosome 19. La délétion de ce dernier n'impacte pas la susceptibilité au MTX. Ensemble, ces travaux de recherche montrent l'efficacité et la complémentarité des criblages génomiques Sel-seq, Mut-seq et Cos-seq pour découvrir de nouveaux mécanismes de résistance et des cibles cellulaires. Ces criblages ont montré leur utilité aussi bien en réalisant la sélection avec un médicament utilisé contre la leishmaniose en thérapie, les antimoniés, mais aussi avec un médicament utilisé contre d'autres maladies, le MTX, ou encore lors de sélections avec des composés en développement comme les dérivés thiophènes. / Discovering new molecules, clarifying the mechanism of action of known anti-leishmanial molecules and more generally studying resistance are therefore essential in the fight against leishmaniasis. This will make it possible to improve the use of drugs, reduce the appearance of resistance and clarify the mechanisms deployed by the parasites. As part of this thesis, my objectives were to determine the therapeutic potential of molecules in development as well as to elucidate the resistance mechanisms and targets of drugs known or in development against Leishmania.In Chapter 1, I studied the therapeutic potential of thirty-eight new thiophene compounds. A Sel-seq screen with the candidate GC1-19, being more active against L. infantum JPCM5, made it possible to highlight a gene conversion event at the ABCG2 locus, involved in resistance. The study of this molecule by Cos-seq screening demonstrated that the overexpression of a tryparedoxin peroxidase is responsible for low resistance to the compound GC1-19. Thiophene derivatives are therefore scaffolds of interest for the development of drugs against leishmaniasis and Sel-seq and Cos-seq screens are effective in determining which genes are involved in resistance.In order to better understand folate metabolism, I performed a Mut-seq screen coupled with methotrexate (MTX) selection in L. major Friedlin (Chapter 2). Twenty clones with a 2- to 400-fold decrease in MTX susceptibility were sequenced. Recurrent mutations have been observed in genes known to be involved in folate metabolism, including the FT1, DHFR-TS and PTR1 genes, or in genes previously not associated with folate metabolism such as Lgalactolactone oxidase and a methyltransferase. For the first time, I demonstrated point mutations and gene conversion events in FT1, as well as point mutations in DHFR-TS that confer resistance to MTX. I also demonstrated a dominant positive effect of two mutations in PTR1 as well as one mutation in DHFR-TS. Overexpression of wild-type versions of Lgalactolactone oxidase and a methyltransferase in the appropriate mutants resensitize them to MTX. Mut-seq has also shown its effectiveness when coupled with selection with SbIII (Chapter 4). It made it possible to highlight the CDPK1 kinase, involved in both resistance to paromomycin and SbIII. Its partial inactivation confers resistance to SbIII and it remains to be determined whether the point mutations found are responsible for the observed phenotype. These studies show the importance of using new functional screens, here Mutseq, to discover new genes linked to resistance as well as new mechanisms used by the parasite at the level of genes already associated with resistance.The AdoMet transporter and the folate transporters FT1 and FT5, as well as other membrane transporters of the FBT family located on chromosome 10, were functionally characterized. In Chapter 3, this entire locus as well as an FBT on chromosome 19 were studied by gene deletion and cellular localization experiments. Deletion of the chromosome 10 locus, containing 7 FBT genes, confers resistance to sinefungin and MTX. Six of these proteins are located at the plasma membrane, similarly to the FBT gene product encoded on chromosome 19. Deletion of the latter does not impact susceptibility to MTX.Together, this research shows the effectiveness and complementarity of Sel-seq, Mut-seq and Cos-seq genomic screens to discover new resistance mechanisms and cellular targets. These screenings have shown their usefulness both by carrying out selection with a drug used against leishmaniasis in therapy, antimonials, but also with a drug used against other diseases, MTX, or even during selections with compounds in development such as thiophene derivatives.
3

Statistical methods for analysis and correction of high-throughput screening data

Dragiev, Plamen 11 1900 (has links) (PDF)
Durant le criblage à haut débit (High-throughput screening, HTS), la première étape dans la découverte de médicaments, le niveau d'activité de milliers de composés chimiques est mesuré afin d'identifier parmi eux les candidats potentiels pour devenir futurs médicaments (i.e., hits). Un grand nombre de facteurs environnementaux et procéduraux peut affecter négativement le processus de criblage en introduisant des erreurs systématiques dans les mesures obtenues. Les erreurs systématiques ont le potentiel de modifier de manière significative les résultats de la sélection des hits, produisant ainsi un grand nombre de faux positifs et de faux négatifs. Des méthodes de correction des données HTS ont été développées afin de modifier les données reçues du criblage et compenser pour l'effet négatif que les erreurs systématiques ont sur ces données (Heyse 2002, Brideau et al. 2003, Heuer et al. 2005, Kevorkov and Makarenkov 2005, Makarenkov et al. 2006, Malo et al. 2006, Makarenkov et al. 2007). Dans cette thèse, nous évaluons d'abord l'applicabilité de plusieurs méthodes statistiques servant à détecter la présence d'erreurs systématiques dans les données HTS expérimentales, incluant le x2 goodness-of-fit test, le t-test et le test de Kolmogorov-Smirnov précédé par la méthode de Transformation de Fourier. Nous montrons premièrement que la détection d'erreurs systématiques dans les données HTS brutes est réalisable, de même qu'il est également possible de déterminer l'emplacement exact (lignes, colonnes et plateau) des erreurs systématiques de l'essai. Nous recommandons d'utiliser une version spécialisée du t-test pour détecter l'erreur systématique avant la sélection de hits afin de déterminer si une correction d'erreur est nécessaire ou non. Typiquement, les erreurs systématiques affectent seulement quelques lignes ou colonnes, sur certains, mais pas sur tous les plateaux de l'essai. Toutes les méthodes de correction d'erreur existantes ont été conçues pour modifier toutes les données du plateau sur lequel elles sont appliquées et, dans certains cas, même toutes les données de l'essai. Ainsi, lorsqu'elles sont appliquées, les méthodes existantes modifient non seulement les mesures expérimentales biaisées par l'erreur systématique, mais aussi de nombreuses données correctes. Dans ce contexte, nous proposons deux nouvelles méthodes de correction d'erreur systématique performantes qui sont conçues pour modifier seulement des lignes et des colonnes sélectionnées d'un plateau donné, i.e., celles où la présence d'une erreur systématique a été confirmée. Après la correction, les mesures corrigées restent comparables avec les valeurs non modifiées du plateau donné et celles de tout l'essai. Les deux nouvelles méthodes s'appuient sur les résultats d'un test de détection d'erreur pour déterminer quelles lignes et colonnes de chaque plateau de l'essai doivent être corrigées. Une procédure générale pour la correction des données de criblage à haut débit a aussi été suggérée. Les méthodes actuelles de sélection des hits en criblage à haut débit ne permettent généralement pas d'évaluer la fiabilité des résultats obtenus. Dans cette thèse, nous décrivons une méthodologie permettant d'estimer la probabilité de chaque composé chimique d'être un hit dans le cas où l'essai contient plus qu'un seul réplicat. En utilisant la nouvelle méthodologie, nous définissons une nouvelle procédure de sélection de hits basée sur la probabilité qui permet d'estimer un niveau de confiance caractérisant chaque hit. En plus, de nouvelles mesures servant à estimer des taux de changement de faux positifs et de faux négatifs, en fonction du nombre de réplications de l'essai, ont été proposées. En outre, nous étudions la possibilité de définir des modèles statistiques précis pour la prédiction informatique des mesures HTS. Remarquons que le processus de criblage expérimental est très coûteux. Un criblage virtuel, in silico, pourrait mener à une baisse importante de coûts. Nous nous sommes concentrés sur la recherche de relations entre les mesures HTS expérimentales et un groupe de descripteurs chimiques caractérisant les composés chimiques considérés. Nous avons effectué l'analyse de redondance polynomiale (Polynomial Redundancy Analysis) pour prouver l'existence de ces relations. En même temps, nous avons appliqué deux méthodes d'apprentissage machine, réseaux de neurones et arbres de décision, pour tester leur capacité de prédiction des résultats de criblage expérimentaux. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : criblage à haut débit (HTS), modélisation statistique, modélisation prédictive, erreur systématique, méthodes de correction d'erreur, méthodes d'apprentissage automatique
4

Design, synthèse et criblage de chimiothèques peptidomimétiques pour la découverte d'agents antinéoplasiques

Vézina-Dawod, Simon 24 April 2018 (has links)
Le criblage des interactions protéine-protéine représente une approche thérapeutique prometteuse et novatrice qui est encore sous-exploitées par l’industrie pharmaceutique et la recherche biomédicale. Par contre, la nature étendue de la surface d’interaction complique le développement d’inhibiteurs par les méthodes classiques de criblage avec des chimiothèques de petites molécules. En effet, l’espace chimique couvert par les structures moléculaires retrouvées au sein des chimiothèques disponibles est peu adapté à la réalité des interactions protéine-protéine. Dans le but de développer des structures privilégiées et mieux adaptées, le chimiste médicinal doit comprendre la nature de ces interactions et s’éloigner du dogme traditionnel des molécules dites « drug-like ». Les peptides sont d’excellents candidats pour inhiber et étudier ces interactions, mais leur faible perméabilité membranaire et leur sensibilité aux protéases limitent leur utilisation in vivo. Le peptidomimétisme devient alors un concept plus que pertinent pour combiner la sélectivité et l’efficacité d’interaction des peptides avec la biodisponibilité et la stabilité métabolique des molécules organiques. De nombreuses plateformes peptidomimétiques sont disponibles ou en émergence mais plusieurs défis de taille se présentent à l’horizon. En effet, l’incorporation d’une grande diversité moléculaire et l’adaptation de ces plateformes avec les méthodes de criblage biologique à haut débit ne sont que quelques exemples des défis auxquels les chimistes et biochimistes devront répondre. Cet ouvrage présente des travaux qui ont portés sur le développement et l’exploitation de diversités moléculaires peptidomimétiques de nature diverse, tant macrocyclique qu’hétérocyclique. Dans un premier temps, diverses méthodologies de synthèse novatrices ont été développées pour étendre la diversité moléculaire accessible des peptoïdes et pour permettre le criblage à haut débit de peptoïdes cycliques selon l’approche combinatoire «one-bead-one-compound». Dans un deuxième temps, la méthodologie de synthèse Ugi-deFmoc-SNAr a été développée pour permettre la synthèse rapide et efficace de benzo-1,4-diazépin-3-ones hautement diversifiées. C’est grâce à cette méthodologie qu’une chimiothèque de première génération a pu être produite et criblée sur des lignées cellulaires du cancer de l’ovaire, de la prostate et du pancréas. Un composé a d’ailleurs été identifié pour son activité antiproliférative in vitro et son activité antitumorale in vivo. Ces différents travaux répondent au même but : exploiter des structures privilégiées pour découvrir de nouveaux modulateurs d’interaction protéine-protéine ou simplement des agents bioactifs novateurs avec des propriétés pharmacologiques prometteuses. / Targeting protein-protein interactions represents an innovative and under-exploited therapeutic approach by the pharmaceutical industry and biomedical research. Because of their physicochemical nature, protein-protein interactions represent a major challenge for conventional screening methods with small molecule libraries. Indeed, the chemical space covered by the molecular structures found in the available libraries is poorly adapted to the reality of protein-protein interactions. In order to develop privileged and better adapted structures, the medicinal chemist must understand the nature of these interactions and move away from the traditional dogma of the so-called drug-like molecules. Peptides are excellent candidates for studying these interactions, nevertheless their pharmacological properties are generally disappointing in vivo. Peptidomimetism is then a more than relevant concept to combine the selectivity and efficiency of interaction against proteins with the concepts of bioavailability and metabolic stability. Many peptidomimetic platforms are available or emerging, and several major challenges are on the horizon. Indeed, the incorporation of a large molecular diversity and the adaptation of these platforms with the high throughput biological screening methods are only a few examples of the challenges that chemists and biochemists will have to meet. This work deals with the development and exploitation of different peptidomimetic molecular diversities, either macrocyclic or heterocyclic, but which serve the same purpose: to exploit privileged structures to discover new modulators of protein-protein interactions or simply innovative bioactive agents with advantageous pharmacological properties.
5

Développements de méthodologies de synthèse innovantes pour l'obtention de chimiothèques de polyélectrolytes multifonctionnalisés / Development of innovative synthetic methodologies for the design of multifunctional polyelectrolyte libraries

Benlahouès, Antoine 17 December 2018 (has links)
Les polyélectrolytes sont des polymères chargés, solubles dans l'eau, omniprésents dans les nature et capables d’interagir avec de nombreux composants cellulaires. Leur utilisation dans des essais cliniques est actuellement limitée par le manque de données fiables sur les relations entre leurs structures et leurs biopropriétés. Ce projet s'inscrit dans un programme plus vaste visant à obtenir une bibliothèque de polyélectrolytes multifonctionnalisés bien caractérisés pour le criblage de biopropriétés. Dans ce cadre, nous avons cherché à synthétiser des chaînes macromoléculaires contenant des unités maloniques C(COOH)2 situées à différentes positions le long du squelette du polymère. Ces unités peuvent être utilisées comme points de départ pour introduire plusieurs autres groupes fonctionnels en utilisant de nombreuses réactions de la chimie organique, conduisant à un grand nombre de structures à partir d'un squelette commun, y compris des copolymères. Cette thèse est schématiquement divisée en quatre parties : (a) une présentation bibliographique des relations existant entre structures et propriétés pour des polymères multifonctionnalisés, suivie d'une analyse plus spécifique de l'importance du positionnement d’esters carboxyliques le long d’une chaîne carbonée, (b) une description des efforts expérimentaux menés pour obtenir les poly(triméthylène-1,1-dicarboxylate)s, des intermédiaires clés dans la synthèse des polymères décrits dans les chapitres suivants, (c) une description de l'hydrolyse du précurseur ci-dessus, donnant l'acide poly(triméthylène-1,1-dicarboxylique), ainsi que des propriétés et de la réactivité de ce polyacide, (d) un rapport détaillé sur la synthèse de l’acide poly(triméthylène carboxylique) par décarboxylation quantitative du polyacide ci-dessus, ainsi que sur les propriétés et réactivité de ce polyacide. Dans les deux dernières sections, un accent particulier est mis sur la portée et les limites de diverses procédures de post-fonctionnalisation lorsque l'on tente d'obtenir une bibliothèque de polymères fonctionnels à partir de précurseurs polycarboxyliques / Polyelectrolytes are water-soluble charged polymers that are ubiquitous in life science and capable of interacting with many cellular constituents. Their use in clinical trials is currently limited by a lack of reliable data on the relationships linking their structures to bioproperties. This project is part of a larger program aimed at obtaining a library of well-characterized multifunctionalized polyelectrolytes for the screening of bioproperties. In this framework, we aimed at synthesizing macromolecular chains containing malonic units C(COOH)2 located at various positions alongside the polymer backbone. These units can be used as starting points to introduce several other functional groups using many reactions from organic chemistry, leading to a great number of structures from a common skeleton, including copolymers. This thesis is schematically divided into four parts: (a) a bibliographical presentation of the relationships existing between structures and properties for multifunctional polymers, followed by a more specific analysis on the importance of carboxylic esters positioning alongside a carbon chain backbone, (b) a description of experimental efforts aimed at obtaining poly(trimethylene-1,1-dicarboxylate)s, key intermediates in the synthesis of a large family of polymers described in the next chapters, (c) a depiction of the hydrolysis of the above precursor, yielding poly(trimethylene-1,1-dicarboxylic acid), as well as of the properties and reactivity of this polyacid, (d) a detailed report on the synthesis of poly(trimethylenecarboxylic acid) via the quantitative decarboxylation of the above polyacid, as well as of the properties and reactivity of this polyacid. A special focus is made in the last two sections on the scope and limitations of various post-functionalizing procedures when attempting to obtain a large library of functional polymers from polycarboxylic precursors
6

Reduced collision fingerprints and pairwise molecular comparisons for explainable property prediction using Deep Learning

MacDougall, Thomas 08 1900 (has links)
Les relations entre la structure des composés chimiques et leurs propriétés sont complexes et à haute dimension. Dans le processus de développement de médicaments, plusieurs proprié- tés d’un composé doivent souvent être optimisées simultanément, ce qui complique encore la tâche. Ce travail explore deux représentations des composés chimiques pour les tâches de prédiction des propriétés. L’objectif de ces représentations proposées est d’améliorer l’explicabilité afin de faciliter le processus d’optimisation des propriétés des composés. Pre- mièrement, nous décomposons l’algorithme ECFP (Extended connectivity Fingerprint) et le rendons plus simple pour la compréhension humaine. Nous remplaçons une fonction de hachage sujet aux collisions par une relation univoque de sous structure à bit. Nous consta- tons que ce changement ne se traduit pas par une meilleure performance prédictive d’un perceptron multicouche par rapport à l’ECFP. Toutefois, si la capacité du prédicteur est ra- menée à celle d’un prédicteur linéaire, ses performances sont meilleures que celles de l’ECFP. Deuxièmement, nous appliquons l’apprentissage automatique à l’analyse des paires molécu- laires appariées (MMPA), un paradigme de conception du développement de médicaments. La MMPA compare des paires de composés très similaires, dont la structure diffère par une modification sur un site. Nous formons des modèles de prédiction sur des paires de com- posés afin de prédire les différences d’activité. Nous utilisons des contraintes de similarité par paires comme MMPA, mais nous utilisons également des paires échantillonnées de façon aléatoire pour entraîner les modèles. Nous constatons que les modèles sont plus performants sur des paires choisies au hasard que sur des paires avec des contraintes de similarité strictes. Cependant, les meilleurs modèles par paires ne sont pas capables de battre les performances de prédiction du modèle simple de base. Ces deux études, RCFP et comparaisons par paires, visent à aborder la prédiction des propriétés d’une manière plus compréhensible. En utili- sant l’intuition et l’expérience des chimistes médicinaux dans le cadre de la modélisation prédictive, nous espérons encourager l’explicabilité en tant que composante nécessaire des modèles cheminformatiques prédictifs. / The relationships between the structure of chemical compounds and their properties are complex and high dimensional. In the drug development process, multiple properties of a compound often need to be optimized simultaneously, further complicating the task. This work explores two representations of chemical compounds for property prediction tasks. The goal of these suggested representations is improved explainability to better understand the compound property optimization process. First, we decompose the Extended Connectivity Fingerprint (ECFP) algorithm and make it more straightforward for human understanding. We replace a collision-prone hash function with a one-to-one substructure-to-bit relationship. We find that this change which does not translate to higher predictive performance of a multi- layer perceptron compared to ECFP. However, if the capacity of the predictor is lowered to that of a linear predictor, it does perform better than ECFP. Second, we apply machine learning to Matched Molecular Pair Analysis (MMPA), a drug development design paradigm. MMPA compares pairs of highly similar compounds, differing in structure by modification at one site. We train prediction models on pairs of compounds to predict differences in activity. We use pairwise similarity constraints like MMPA, but also use randomly sampled pairs to train the models. We find that models perform better on randomly chosen pairs than on pairs with strict similarity constraints. However, the best pairwise models are not able to beat the prediction performance of the simpler baseline single model. Both of these investigations, RCFP and pairwise comparisons, aim to approach property prediction in a more explainable way. By using intuition and experience of medicinal chemists within predictive modelling, we hope to encourage explainability as a necessary component of predictive cheminformatic models.

Page generated in 0.1326 seconds