Global ETD Search

161	Conception, modélisation et simulation in silico d'un nanosystème biologique artificiel pour le diagnostic médical / Design, modeling and simulation in silico of an artificial biological nanosystem for medical diagnosis Bouffard, Marc 29 September 2016 (has links) Le diagnostic médical, se fait traditionnellement, par l'examen des symptômes cliniques, puis en cherchant sur des prélèvements (sang, urine, biopsies, etc.) la présence (ou l'absence) simultanée des bio-marqueurs des diverses pathologies envisagées par le médecin. La recherche des bio-marqueurs se fait a l'aide d'équipements importants, dans un laboratoire d'analyse; les résultats étant communiqués au médecin, qui va les interpréter en appliquant un algorithme de diagnostic médical.Nous avons voulu regrouper dans un seul dispositif, pour une pathologie donnée, la détection des bio-marqueurs et une implémentation de l'algorithme de diagnostic approprié. La présence ou l'absence d'un bio-marqueur peut être représentée par une variable booléenne, et l'algorithme de diagnostic par une fonction booléenne complexe dont la valeur indiquera la présence de la pathologie ciblée.Notre dispositif de diagnostic sera un nano-calculateur biochimique artificiel dans lequel les informations logiques seront représentées par des métabolites et les calculs effectués par un réseau enzymatique synthétique. Pour réaliser ce calculateur, il a été nécessaire d'établir un fondement théorique des réseaux logiques enzymatiques. Nous avons ensuite utilisé cette théorie pour définir ce qu'est un circuit logique enzymatique et comment il calcule correctement la fonction booléenne associée. Pour des raisons de modularité et de réutilisabilité, nous avons décidé de concevoir des bibliothèques de portes logiques enzymatiques implémentant les opérateurs booléens de base, puis d'assembler ces briques de base pour obtenir le réseau enzymatique complet. J'ai donc conçu et développé deux outils logiciels, NetGate et NetBuild, qui vont réaliser automatiquement ces opérations.NetGate, qui va créer des bibliothèques contenant des centaines de portes logiques enzymatiques obtenues à partir de réseaux métaboliques d'organismes existants. Auparavant, il était nécessaire d'analyser manuellement ces réseaux métaboliques pour extraire chaque porte.NetBuild, qui va utiliser une bibliothèque de portes (par exemple créée par NetGate) et les assembler pour construire des circuits qui calculent une fonction booléenne donnée. Ces circuits utilisent comme entrées des métabolites spécifiques (par exemple: bio-marqueurs d'une pathologie) et produisent en sortie une espèce moléculaire facilement détectable (par colorimétrie par exemple). / The medical diagnosis is traditionally done by examining the clinical symptoms and by searching in samples (blood, urine, biopsies, etc.) for the simultaneous presence (or absence) of biomarkers of the various pathologies considered by the doctor. The search for biomarkers is conducted using large equipments in a specialised laboratory; The results being communicated to the doctor, who will then interpret them by applying a medical diagnostic algorithm.We wanted to combine in a single device, for a given disease, the detection of its biomarkers and an implementation of the appropriate diagnostic algorithm. The presence or absence of a biomarker can be represented by a boolean variable, and the diagnostic algorithm by a complex boolean function whose value indicates the presence of the targeted disease. Our diagnostic device is an artificial biochemical nano-computer in which logical information is represented by metabolites and the computations performed by a synthetic enzymatic network. To build this computer, it has been necessary to establish a theoretical basis of enzymatic logical networks. We then used this theory to define what an enzymatic logic network is, and how it computes correctly the associated boolean function. For modularity and reusability reasons, we decided to design libraries of enzymatic logic gates that implement basic boolean operators, and then to assemble these building blocks to get the complete logic enzymatic network. So, I have designed and developed two software tools, NetGate and NetBuild, which will automatically perform these operations.NetGate creates libraries containing hundreds of enzymatic logic gates obtained from the metabolic networks of living organisms. Before that, it was necessary to manually analyse these metabolic networks in order to extract each logic gate.NetBuild uses a library of logic gates (for example created using NetGate) and assembles them to build circuits that compute a given boolean function. These circuits use specific metabolites for its inputs (for example the biomarkers of a pathology) and produce a readily detectable molecular species (using colorimetry for example). Bioinformatique Programmation Porte Logique Réseaux métaboliques Bioinformatics Programming Logic gate Metabolics network
162	Bioinformatique pour l’exploration de la diversité inter-espèces et inter-populations : hétérogénéité & données multi-omiques / Bioinformatics for exploring inter-species and inter-population diversity : heterogenity & multi-omics data Cogne, Yannick 07 October 2019 (has links) L’exploitation conjointe des données transcriptomiques et protéomiques permet l’étude détaillée des mécanismes moléculaires induits lors de perturbations environnementales. L’assemblage de données issues du séquençage des ARNs d’organismes dit « non-modèle » permet de produire la base de données pour l’interprétation des spectres générés en protéomique shotgun. Dans ce contexte, les travaux de thèse avaient pour objectif d’optimiser l’interprétation et l’analyse des données protéomiques par le développement de concepts innovants pour la construction de bases de données protéiques et l’exploration de la biodiversité. La première étape s’est concentrée sur la mise au point d’une méthode de pré-traitement des données de séquençage basée sur les résultats d’attribution protéomique. La deuxième étape a consisté à travailler sur la réduction de la taille des bases de données en optimisant les paramètres de la recherche automatisée des régions codantes. La méthode optimisée a permis l’analyse de 7 groupes taxonomiques de Gammaridés représentatifs de la diversité retrouvée in natura. Les bases de données protéomiques ainsi produites ont permis l’analyse inter-population de 40 protéomes individuels de Gammarus pulex répartis sur deux sites de prélèvement (pollué vs référence). L’analyse statistique basée sur une approche « individu-centré » a montré une hétérogénéité de la réponse biologique au sein d’une population d’organismes suite à une perturbation environnementale. Différents sous-groupes de mécanismes moléculaires induits ont été identifiés. Enfin, l’étude de la transversalité de biomarqueurs peptidiques identifiés chez Gammarus fossarum a permis de définir les peptides communs à l’aide de l’ensemble des données protéomiques et transcriptomiques. Pour cela, un logiciel d’exploration des séquences peptidiques a été développé permettant de proposer de potentiels biomarqueurs substituts dans le cas où les peptides définis ne sont pas applicables à certaines espèces de gammare. Tous ces concepts s’intègrent dans une démarche pour améliorer et approfondir l’interprétation des données par protéogénomique. Ces travaux entrouvrent la porte à l’analyse multi-omique d’individus prélevés in natura en considérant la biodiversité inter-espèce et intra-population. / The exploitation of omics data combining transcriptomic and proteomic enables the detailed study of the molecular mechanisms of non-model organisms exposed to an environmental stress. The assembly of data from the RNA-seq of non-model organism enables to produce the protein database for the interpretation of spectra generated in shotgun proteomics. In this context, the aim of the PhD work was to optimize the interpretation and analysis of proteomic data through the development of innovative concepts for the construction of protein databases and the exploration of biodiversity. The first step focused on the development of a pretreatment method for RNA-seq data based on proteomic attribution results. The second step was to work on reducing the size of the databases by optimizing the parameters of the automated coding region search. The optimized method enabled the analysis of 7 taxonomic groups of Gammarids representative of the diversity found in natura. The proteomic databases thus produced enabled the inter-population analysis of 40 individual Gammarus pulex proteomes from two sampling sites (polluted vs reference). Statistical analysis based on an "individual" approach has shown an heterogeneity of the biological response within a population of organisms induced by an environmental stress. Different subclusters of molecular mechanisms response have been identified. Finally, the study of the transversality of the biomarkers peptides identified with Gammarus fossarum revealed which are the common ones using both proteomic and transcriptomic data. For this purpose, a software for the exploration of peptide sequences has been developed suggesting potential substitute biomarkers when the defined peptides are not available for some species of gammarids. All these concepts aim to improve the interpretation of data by proteogenomics. This work opens the door to the multi-omic analysis of individuals collected in natura by considering inter-species and intra-population biodiversity. Bioinformatique RNAseq Génomique Protéomique Protéogénomique Phylogénie & Evolution Bioinformatic RNAseq Genomic Proteomic Proteogenomic Phylogeny & evolution
163	Prédiction de la réponse aux traitements in vivo de tumeurs basées sur le profil moléculaire des tumeurs par apprentissage automatique / Prediction of tumour in vivo response to treatments using its molecular profiles via machine learning Nguyen, Cam Linh 05 June 2019 (has links) Ces dernières années, les thérapies ciblées pour le traitement du cancer, ont été introduites. Cependant, un médicament fonctionnant chez un patient peut ne pas fonctionner chez un autre. Pour éviter l'administration de traitements inefficaces, des méthodes capables de prédire les patients qui répondront à un médicament donné doivent être mises au point.Il n'est actuellement pas possible de prédire l'efficacité de la grande majorité des médicaments anticancéreux. L’apprentissage automatique (AA) est un outil particulièrement prometteur pour la médecine personnalisée. L’AA est un champ d’étude de l'intelligence artificielle ; elle concerne la mise au point et l'application d'algorithmes informatiques qui s'améliorent avec l'expérience. Dans ce cas, l'algorithme d’AA apprendra à faire la distinction entre les tumeurs sensibles et résistantes en fonction de plusieurs gènes au lieu d'un seul gène. Cette étude se concentre sur l'application de différentes approches de l’AA pour prédire la réponse à des médicaments anticancéreux des tumeurs et générer des modèles précis, biologiquement pertinentes et faciles à expliquer. / In recent years, targeted drugs for the treatment of cancer have been introduced. However, a drug that works in one patient may not work in another patient. To avoid the administration of ineffective treatments, methods that predict which patients will respond to a particular drug must be developed.Unfortunately, it is not currently possible to predict the effectiveness of most anticancer drugs. Machine learning (ML) is a particularly promising approach for personalized medicine. ML is a form of artificial intelligence; it concerns the development and application of computer algorithms that improve with experience. In this case, ML algorithm will learn to distinguish between sensitive and non-sensitive tumours based on multiple genes instead of a single gene. Our study focuses on applying different approaches of ML to predict drug response of tumours to anticancer drugs and generate models which have good accuracy, as well as are biologically relevant and easy to be explained. L'Apprentissage Automatique Oncologie de Précision Pharmacogénomique Bioinformatique Xdp Machine Learning Precision Oncology Pharmacogenomics Bioinformatics Pdx
164	Analyses génomiques et épigénomiques pour le développement d’une médecine de précision dans le myélome multiple / Genomics and epigenomics analyses to develop precision medicine in multiple myeloma Vikova, Veronika 08 October 2019 (has links) Le myélome multiple (MM) est le second cancer hématologique le plus répandu après les lymphomes. Malgré une amélioration de sa prise en charge au cours des 20 dernières années, les traitements actuels ne permettent pas d’éviter les rechutes répétitives associées au développement de mécanismes de résistance. Les résistances aux traitements sont notamment expliquées par la forte hétérogénéité de la maladie qui rend nécessaire le développement de prises en charges adaptées aux profils moléculaires des patients. L’avènement des technologies de séquençage haut-débit permet d’accéder à des niveaux de plus en plus détaillés de l’hétérogénéité moléculaire tumorale, ce qui permettra de proposer des solutions plus performantes dans l’optique de développer une médecine personnalisée. Dans cet objectif, nous avons analysé l’exome, le transcriptome et l’épigénome de cellules primaires de patients et de lignées cellulaires de MM. Sur la base de ces analyses, nous avons non seulement mis en évidence de nouveaux mécanismes impliqués dans la physiopathologie du MM mais également de nouvelles cibles thérapeutiques potentielles, des biomarqueurs pronostiques ainsi que des signatures d’orientation thérapeutiques. Les données et résultats de nos études constituent une ressource d’intérêt pour la communauté scientifique et permettront d’améliorer la prise en charge thérapeutique des patients atteints de MM. / Multiple myeloma (MM) is the second most common hematological malignancy after lymphoma. Recent advances in treatment have led to an overall survival of intensively-treated patients of 6-7 years. However, patients invariably relapse after multiple lines of treatment, with shortened intervals between relapses, and finally become resistant to all treatments, resulting in loss of clinical control over the disease in association with drug resistance. Treatment improvements will come from a better comprehension of tumorigenesis and detailed molecular analyses to develop individualized therapies taking into account the molecular heterogeneity and subclonal evolution. In this purpose, we analyzed the exome, transcriptome and epigenome of primary MM cells from patients and human MM cell lines. Our results have highlighted new mechanisms involved in the pathophysiology of MM as well as potential new therapeutic targets, prognostic signatures and theranostic biomarkers. The data and results of our studies represent an important resource to understand the mechanisms of tumor progression and drug resistance and develop new ways to diagnose and treat patients. Hématologie Myélome Multiple Traitements ciblés Bioinformatique Hematology Multiple Myeloma Targeted treatments Bioinformatics
165	Analysis of chromosome conformation data and application to cancer / Analyse de données de conformation chromosomique et application au cancer Servant, Nicolas 22 November 2017 (has links) L’organisation nucléaire de la chromatine n’est pas aléatoire. Sa structure est parfaitement contrôlée, suivant un modèle hiérarchique avec différents niveaux d’organisation et de compaction. A large échelle, chaque chromosome occupe son propre espace au sein du noyau. A plus fine résolution, un chromosome est subdivisé en compartiments actifs ou répressifs, caractérisés par un état de la chromatine plus ou moins compact. A l’échelle du méga-base, cette organisation hiérarchique peut encore être divisée en domaines topologiques (ou TADs), jusqu’à la caractérisation de boucle d’ADN facilitant les interactions entre promoteurs et régions régulatrices. Très brièvement, et bien que les méchanismes exactes restent à déterminer, il a récemment été démontré que l’organisation spatiale de la chromatine dans une cellule normale joue un rôle primordial dans la régulation et l’expression des gènes. L’organisation en domaines topologiques implique la présence de complexes protéiques insulateurs tel que CTCF/cohésine. Ces facteurs jouent un rôle de barrière en restreignant et favorisant les interactions entre éléments régulateurs et gènes à l’intérieur d’un domaine, tout en limitant les interactions entre domaines. De cette façon, deux régions appartenant au même domaine topologique pourront fréquemment interagir, alors que deux régions appartenant à des domaines distincts auront une très faible probabilité d’interaction. Dans la cellule cancéreuse, l’implication de l’épigénome et de l’organisation spatiale de la chromatine dans la progression tumorale reste à ce jour largement inexplorée. Certaines études récentes ont toutefois démontré qu’une altération de la conformation de l’ADN pouvait être associée à l’activation de certains oncogènes. Même si les mécanismes exacts ne sont pas encore connus, cela démontre que l’organisation de la chromatine est un facteur important de la tumorigenèse, permettant, dans certains cas, d’expliquer les méchanismes moléculaires à l’origine de la dérégulation de certains gènes. Parmi les cas rapportés, une alération des régions insulatrices (ou frontières) entre domaines topologiques permettrait à des régions normalement éloignées spatialement de se retrouver en contact, favorisant ainsi l’activation de certains gènes. Une caractérisation systématique de la conformation spatiale des génomes cancéreux pourrait donc permettre d’améliorer nos connaissances de la biologie des cancers. Les techniques haut-débit d’analyse de la conformation de la chromatine sont actuellement largement utilisées pour caractériser les interactions physiques entre régions du génome. Brièvement, ces techniques consistent à fixer, digérer, puis liguer ensemble deux régions du génome spatialement proches. Les fragments d’ADN chimériques ainsi générés peuvent alors être séquencés par leurs extrémités, afin de quantifier le nombre de fois où ces régions ont été trouvées en contact. Parmi les différentes variantes de ces techniques, le Hi-C associé à un séquençage profond permet l’exploration systématique de ces interactions à l’échelle du génome, offrant ainsi une vue détaillée de l’organisation tri-dimensionnelle de la chromatine d’une population cellulaire. / The chromatin is not randomly arranged into the nucleus. Instead, the nuclear organization is tightly controlled following different organization levels. Recent studies have explored how the genome is organized to ensure proper gene regulation within a constrained nuclear space. However, the impact of the epigenome, and in particular the three-dimensional topology of chromatin and its implication in cancer progression remain largely unexplored. As an example, recent studies have started to demonstrate that defects in the folding of the genome can be associated with oncogenes activation. Although the exact mechanisms are not yet fully understood, it demonstrates that the chromatin organization is an important factor of tumorigenesis, and that a systematic exploration of the three-dimensional cancer genomes could improve our knowledge of cancer biology in a near future. High-throughput chromosome conformation capture methods are now widely used to map chromatin interaction within regions of interest or across the genome. The Hi-C technique empowered by next generation sequencing was designed to explore intra and inter-chromosomal contacts at the whole genome scale and therefore offers detailed insights into the spatial arrangement of complete genomes. The aim of this project was to develop computational methods and tools, that can extract relevant information from Hi-C data, and in particular, in a cancer specific context. The presented work is divided in three parts. First, as many sequencing applications, the Hi-C technique generates a huge amount of data. Managing these data requires optimized bioinformatics workflows able to process them in reasonable time and space. To answer this need, we developped HiC-Pro, an optimized and flexible pipeline to process Hi-C data from raw sequencing reads to normalized contact maps. HiC-Pro maps reads, detects valid ligation products, generates and normalizes intra- and inter-chromosomal contact maps. In addition, HiC-Pro is compatible with all current Hi-C-based protocols. Bioinformatique Cancer Épigénetique Hi-C Normalisation Conformation Bioinformatics Hi-C Epigenetics 572.86 616.994
166	Reachability Analysis and Revision of Dynamics of Biological Regulatory Networks / Analyse d’accessibilité et révision de la dynamique dans les réseaux de régulations biologiques Chai, Xinwei 24 May 2019 (has links) Les systèmes concurrents sont un bon choix pour ajuster les données et analyser les mécanismes sous-jacents pour leur sémantique simple mais expressive. Cependant, l’apprentissage et l’analyse de tels systèmes concurrents sont difficiles pour ce qui concerne les calculs. Lorsqu’il s’agit de grands ensembles de données, les techniques les plus récentes semblent insuffisantes, que ce soit en termes d’efficacité ou de précision. Ici, nous proposons un cadre de modélisation raffiné ABAN (Asynchronous Binary Automata Network) et développons des outils pour analyser l’atteignabilité : PermReach (Reachability via Permutation search) et ASPReach (Reachability via Answer Set Programming). Nous proposons ensuite deux méthodes de construction et d’apprentissage des modèles: CRAC (Completion via Reachability And Correlations) et M2RIT (Model Revision via Reachability and Interpretation Transitions) en utilisant des données continues et discrètes pour s’ajuster au modèle et des propriétés d’accessibilité afin de contraindre les modèles en sortie. / Concurrent systems become a good choice to fit the data and analyze the underlying mechanics for their simple but expressive semantics. However, learning and analyzing such concurrent systems are computationally difficult. When dealing with big data sets, the state-of-the-art techniques appear to be insufficient, either in term of efficiency or in term of precision. In this thesis, we propose a refined modeling framework ABAN (Asynchronous Binary Automata Network) and develop reachability analysis techniques based on ABAN: PermReach (Reachability via Permutation search) and ASPReach (Reachability via Answer Set Programming). Then we propose two model learning/constructing methods: CRAC (Completion via Reachability And Correlations) and M2RIT (Model Revision via Reachability and Interpretation Transitions) using continuous and discrete data to fit the model and using reachability properties to constrain the output models. Bioinformatique Model checking Heuristique Révision de modèles Bioinformatics Model checking Heuristics Model revision
167	Traitement des données scRNA-seq issues de la technologie Drop-Seq : application à l’étude des réseaux transcriptionnels dans le cancer du sein David, Marjolaine 01 1900 (has links) Les technologies récentes de séquençage de l’ARN de cellules uniques (scRNA-seq, pour single cell RNA-seq) ont permis de quantifier le niveau d’expression des gènes au niveau de la cellules, alors que les technologies standards de séquençage de l’ARN (RNA-seq, ou bulk RNA-seq) ne permettaient de quantifier que l’expression moyenne des gènes dans un échantillon de cellules. Cette résolution supérieure a permis des avancées majeures dans le domaine de la recherche biomédicale, mais a également posé de nouveaux défis, notamment computationnels. Les données qui découlent des technologies de scRNA-seq sont en effet complexes et plus bruitées que les données de bulk RNA-seq. En outre, les technologies sont nombreuses et leur nombre explose, nécessitant chacune un prétraitement plus ou moins différent. De plus en plus de méthodes sont ainsi développées, mais il n’existe pas encore de norme établie (gold standard) pour le prétraitement et l’analyse de ces données. Le laboratoire du Dr. Mader a récemment fait l’acquisition de la technologie Drop-Seq (une technologie haut débit de scRNA-seq), nécessitant une expertise nouvelle pour le traitement des données qui en découlent. Dans ce mémoire, différentes étapes du prétraitement des données issues de la technologie Drop-Seq sont donc passées en revue et le fonctionnement de certains outils dédiés à cet effet est étudié, permettant d’établir des lignes directrices pour de futures expériences au sein du laboratoire du Dr. Mader. Cette étude est menée sur les premiers jeux de données générés avec la technologie Drop-Seq du laboratoire, issus de lignées cellulaires du cancer du sein. Les méthodes d’analyses, moins spécifiques à la technologie, ne sont pas étudiées dans ce mémoire, mais une analyse exploratoire des jeux de données du laboratoire pose les bases pour une analyse plus poussée. / Recent single cell RNA sequencing technologies (scRNA-seq) have enabled the quantification of gene expression levels at the cellular level, while standard RNA sequencing technologies (RNA-seq, or bulk RNA-seq) have only been able to quantify the average gene expression in a sample of cells. This higher resolution has allowed major advances in biomedical research, but has also raised new challenges, in particular computational ones. The data derived from scRNA-seq technologies are indeed complex and noisier than bulk RNA-seq data. In addition, the number of scRNA-seq technologies is exploding, each of them requiring a rather different pre-processing. More and more methods are thus being developed, but there is still no gold standard for the preprocessing and analysis of these data. Dr. Mader’s laboratory has recently invested in the Drop-Seq technology (a high-throughput scRNAseq technology), requiring new expertise for the processing of the resulting data. In this thesis, different steps for the pre-processing of Drop-Seq data are reviewed and the behavior of some of the dedicated tools are studied, allowing to establish guidelines for future experiments in Dr. Mader’s laboratory. This study is conducted on the first data sets generated with the Drop-Seq technology of the laboratory, derived from breast cancer cell lines. Analytical methods, less specific to the technology, are not investigated in this thesis, but an exploratory analysis of the lab’s datasets lays the foundation for further analysis. Drop-Seq scRNA-seq bio-informatique cancer du sein bioinformatics breast cancer
168	Modélisation automatisée de la structure 3-D des ARNs Lemieux, Sébastien January 2001 (has links) Thèse numérisée par la Direction des bibliothèques de l'Université de Montréal. Bioinformatique Théorie des graphes Apprentissage non-supervisé Analyse de structure Détection de motifs Optimisation combinatoire
169	Deep learning algorithms for database-driven peptide search Zumer, Jeremie 09 1900 (has links) Modern proteomics – the large-scale analysis of proteins (Graves and Haystead, 2002) – relies heavily on the analysis of complex raw experimental, time series-like data. In a typical shotgun mass spectrometry workflow where the goal is to identify proteins in solution, a complex protein mixture is prepared, digested, fractionated for example by mass range, ionized and injected into a mass spectrometer, resulting in a so-called mass spectrum which, in tandem mass spectrometry, achieves obtain amino acid-resolution signals for the detected peptides. The spectrum must be cleaned up to become suitable for further analysis, then the peaks defined by the m/z to intensity values in the spectrum can be matched to some expected peak sequence from a set of candidate peptides (which are often simply in silico digests from the source specie’s proteome), which is the process of peptide identification proper. In this work, we select and solve some current limitations in the computational side of peptide identification research. We first introduce a new, research-oriented search engine. A major question at the boundary of current proteomics research is the integration and viability of new deep learning-driven algorithms for identification. Very little work has been done on this topic so far, with Prosit (Gessulat et al., 2019) being the only such software to see integration in an existing search engine, as far as we are aware (although rescoring algorithms like Percolator (Käll et al., 2007), which typically use more classical machine learning algorithms, have been in routine use for a while by now, they are merely applied as a postprocessing step and not integrated in the engine per se). To investigate this, we develop and present a new deep learning algorithm that performs peptide length prediction from a spectrum (a first, as far as we are aware). We compute metrics based on this prediction that we use during rescoring, and demonstrate consistently improved peptide identifications. Moreover, we propose a new full spectrum prediction algorithm (in line with PredFull (Liu et al., 2020) rather than Prosit) and a novel, random forest-based rescoring algorithm and paradigm, which we integrate within our search engine. Altogether, the deep learning tools we propose show an increase of over 20% in peptide identification rates at a 1% false discovery rate (FDR) threshold. These results provide strong evidence that deep learning-based tools proposed for proteomics can greatly improve peptide identifications. / La protéomique moderne – l’analyse à grande échelle des protéines (Graves and Haystead, 2002) - dépend fortement de l’analyse de données expérimentales de série chronologique complexes. Dans un flux de travail typique de spectrométrie de masse en shotgun, où l’objectif est d’identifier les protéines en solution, un mélange complexe de protéines est préparé, digéré, fractionné par exemple par catégorie de masse ou par hydrophobicité, ionisé et injecté dans un spectromètre de masse, ce qui donne ce que l’on appel un spectre de masse. Dans le mode de spectrométrie de masse en tandem, il représente des signaux à la résolution des acides aminés sur les peptides présentes. Le spectre doit être nettoyé pour se prêter à une analyse plus approfondie, puis les pics définis par les couples de valeurs m/z et d’intensité dans le spectre peuvent être mis en correspondance avec une séquence de pics attendue selon la séquence hypothétique du peptide présent dans le spectre (qui sont souvent obtenus par digestions in-silico du protéome de l’espèce source) ; il s’agit du processus d’identification des peptides proprement dit. Dans ce travail, nous sélectionnons et résolvons certaines limitations actuelles spécifiques au côté informatique de la recherche sur l’identification des peptides. Nous introduisons d’abord un nouveau moteur d’identification axé sur la recherche. Une question majeure à la frontière actuelle en protéomique est l’intégration et la viabilité de nouveaux algorithmes basés sur l’apprentissage profond dans un contexte d’identification. Très peu de travail a été effectué sur ce sujet jusqu’à présent, Prosit (Gessulat et al., 2019) étant le seul logiciel de ce type à voir l’intégration dans un moteur de recherche préexistant, au meilleures de nos connaissances (bien que des algorithmes de rescoring comme Percolator (Käll et al., 2007) , qui utilisent généralement des algorithmes d’apprentissage automatique plus classiques, sont habituellement utilisés depuis un certain temps maintenant, ils sont simplement appliqués comme étape de post-traitement et non intégrés dans le moteur). Pour étudier ce problème, nous développons et présentons un nouvel algorithme d’apprentissage en profondeur qui effectue la prédiction de la longueur des peptides à partir d’un spectre (le premier algorithme de ce type), et calculons des métriques basées sur cette prédiction. Nous utilisons l’algorithme résultant pour démontrer des identifications de peptides constamment améliorées après intégration dans notre engin. De plus, nous proposons un nouvel algorithme de prédiction de 5 spectres complets (conforme à PredFull (Liu et al., 2020) plutôt qu’à Prosit) ainsi qu’un nouvel algorithme et paradigme de rescoring basé sur la forêt aléatoire, que nous intégrons encore à notre moteur de recherche. En somme, les outils d’apprentissage en profondeur que nous proposons démontrent une amélioration de plus de 20% des taux d’identification de peptides à un seuil de taux de fausse découverte (FDR) de 1%. Ces résultats suggèrent pour la première fois que les algorithmes d’apprentissage profonds proposés en protéomique peuvent en effet largement améliorer les identifications. Apprentissage profond Apprentissage automatique Peptide Protéomique Deep learning Machine learning Proteomics
170	Modélisation et Gestion de Flux par Systèmes Multiagents: Application à un système d'aide à la décision en épidémiologie Weber, Alexandre 29 November 2007 (has links) (PDF) Le travail présenté se situe dans le champ des systèmes complexes. Certains problèmes complexes ne possèdent pas de solution analytique ou ont une solution trop compliquée pour être mise en œuvre facilement. Les méthodes analytiques traditionnelles se posent soit d'un point de vue global (holiste) soit découpent la complexité en éléments distincts pour représenter le comportement du système par une seule entité (réductionniste). Elles sous-estiment ainsi la complexité des différents niveaux d'organisation du système et leur imbrication. De fait, il est quasiment impossible de prévoir l'évolution de tels systèmes à cause du trop grand nombre d'entités et de leurs interactions.<br />Une autre approche se base sur la modélisation du comportement de chaque élément participant à cette évolution ainsi que celle de ses interactions avec les autres éléments et avec l'environnement. Lors de ces interactions, différents types de données peuvent être échangés (information, argent, nourriture, virus, etc...). Ces échanges peuvent être vus comme un flux. Le principe est de mettre en relation des entités ayant des caractéristiques simples qui leur permettront d'interagir les unes avec les autres dans un environnement spécifique afin d'obtenir un comportement global de plus haut niveau. Comme nous pouvons l'observer dans certaines sociétés d'animaux dits sociaux, la performance collective émerge des interactions directes ou indirectes entre les individus et l'environnement : elle est le résultat d'un processus d'auto-organisation au cours duquel l'environnement et la collectivité se structurent mutuellement. L'imprévisibilité de l'évolution des systèmes complexes ne permet pas de les caractériser complètement. Par conséquent, pour modéliser et comprendre la circulation de flux dans de tels systèmes, il est nécessaire de se tourner vers la simulation. <br />Afin de tenir compte des différentes spécifications des systèmes complexes dans leur modélisation, les Systèmes MultiAgents (SMA) représentent une méthode particulièrement appropriée. Il est alors possible de représenter des phénomènes environnementaux comme la conséquence d'interactions d'agents agissant en parallèle, chaque agent étant une entité réactive et autonome. <br />Notre travail est centré sur l'étude de la gestion des flux dans les systèmes complexes par l'élaboration de Simulation Orientée Agents (SOA). En particulier, nous appliquons cette démarche à l'étude de la circulation d'un parasite (Cryptosporidium parvum) dans un écosystème. L'objectif est de mieux comprendre les différents épisodes d'infection auprès de population d'hôtes (animale ou humaine) sous des contraintes spécifiques. Étant donné que ce parasite est particulièrement résistant aux méthodes de désinfection traditionnelles, il est nécessaire de saisir les facteurs prédominants agissant dans la contamination et la propagation du parasite. <br />A cet effet, les données, recueillies auprès de biologistes, nous ont permis de concevoir un outil d'expérimentation en épidémiologie. Cette SOA permet une exploration des comportements possibles du système où circule Cryptosporidium spp.. Ainsi, un ensemble de scenarii a pu être simulé. Les résultats permettent d'évaluer la fiabilité de la modélisation, puis, d'émettre de nouvelles hypothèses concernant la dissémination du parasite.<br />Dans l'objectif d'apporter aux biologistes un outil d'aide à la décision autonome, nous avons développé un système de niveau supérieur (méta-système) capable de réaliser le monitoring d'une SOA. Ce méta-système, basé sur le concept de métaheuristique, cherche à optimiser le comportement du système en fonction d'une problématique précise en évaluant l'impact de facteurs prédéfinis sur l'évolution de la SOA. Ainsi, il est à même d'interpréter les résultats des simulations pour permettre de faire émerger, par l'auto-génération de scenarii, les causes qui influent sur la propagation du parasite. modélisation systèmes complexes gestion de flux systèmes multiagents SMA aide à la décision monitoring bioinformatique parasitologie

Search results