Spelling suggestions: "subject:"supervised 2analysis"" "subject:"supervised 3analysis""
1 |
Apprentissage de données génomiques multiples pour le diagnostic et le pronostic du cancer / Learning from multiple genomic information in cancer for diagnosis and prognosisMoarii, Matahi 26 June 2015 (has links)
De nombreuses initiatives ont été mises en places pour caractériser d'un point de vue moléculaire de grandes cohortes de cancers à partir de diverses sources biologiques dans l'espoir de comprendre les altérations majeures impliquées durant la tumorogénèse. Les données mesurées incluent l'expression des gènes, les mutations et variations de copy-number, ainsi que des signaux épigénétiques tel que la méthylation de l'ADN. De grands consortium tels que “The Cancer Genome Atlas” (TCGA) ont déjà permis de rassembler plusieurs milliers d'échantillons cancéreux mis à la disposition du public. Nous contribuons dans cette thèse à analyser d'un point de vue mathématique les relations existant entre les différentes sources biologiques, valider et/ou généraliser des phénomènes biologiques à grande échelle par une analyse intégrative de données épigénétiques et génétiques.En effet, nous avons montré dans un premier temps que la méthylation de l'ADN était un marqueur substitutif intéressant pour jauger du caractère clonal entre deux cellules et permettait ainsi de mettre en place un outil clinique des récurrences de cancer du sein plus précis et plus stable que les outils actuels, afin de permettre une meilleure prise en charge des patients.D'autre part, nous avons dans un second temps permis de quantifier d'un point de vue statistique l'impact de la méthylation sur la transcription. Nous montrons l'importance d'incorporer des hypothèses biologiques afin de pallier au faible nombre d'échantillons par rapport aux nombre de variables.Enfin, nous montrons l'existence d'un phénomène biologique lié à l'apparition d'un phénotype d'hyperméthylation dans plusieurs cancers. Pour cela, nous adaptons des méthodes de régression en utilisant la similarité entre les différentes tâches de prédictions afin d'obtenir des signatures génétiques communes prédictives du phénotypes plus précises.En conclusion, nous montrons l'importance d'une collaboration biologique et statistique afin d'établir des méthodes adaptées aux problématiques actuelles en bioinformatique. / Several initiatives have been launched recently to investigate the molecular characterisation of large cohorts of human cancers with various high-throughput technologies in order to understanding the major biological alterations related to tumorogenesis. The information measured include gene expression, mutations, copy-number variations, as well as epigenetic signals such as DNA methylation. Large consortiums such as “The Cancer Genome Atlas” (TCGA) have already gathered publicly thousands of cancerous and non-cancerous samples. We contribute in this thesis in the statistical analysis of the relationship between the different biological sources, the validation and/or large scale generalisation of biological phenomenon using an integrative analysis of genetic and epigenetic data.Firstly, we show the role of DNA methylation as a surrogate biomarker of clonality between cells which would allow for a powerful clinical tool for to elaborate appropriate treatments for specific patients with breast cancer relapses.In addition, we developed systematic statistical analyses to assess the significance of DNA methylation variations on gene expression regulation. We highlight the importance of adding prior knowledge to tackle the small number of samples in comparison with the number of variables. In return, we show the potential of bioinformatics to infer new interesting biological hypotheses.Finally, we tackle the existence of the universal biological phenomenon related to the hypermethylator phenotype. Here, we adapt regression techniques using the similarity between the different prediction tasks to obtain robust genetic predictive signatures common to all cancers and that allow for a better prediction accuracy.In conclusion, we highlight the importance of a biological and computational collaboration in order to establish appropriate methods to the current issues in bioinformatics that will in turn provide new biological insights.
|
2 |
Custom Open-Source Software Tools for Targeted and Untargeted Analysis of High Resolution Mass Spectrometry Data and Characterization of LigninLetourneau, Dane René 11 March 2025 (has links)
In den letzten Jahren ist das Interesse an freien und quelloffenen Softwaretools für die analytische Wissenschaft stark gestiegen. Dies hat zu einer Fülle von Innovationen, Kooperationen und Lösungen im Bereich der Datenanalyse geführt. Die Massenspektrometrie ist in dieser Hinsicht ein besonderer Schwerpunkt; moderne HRMS-Instrumente sind leistungsstarke Analysewerkzeuge, die in der Lage sind, eine enorme Menge an detaillierten Informationen in einem einzigen Experiment zu erzeugen. Häufig enthalten diese Datensätze Muster oder „Fingerabdrücke“ von Molekülen, die für den Analytiker mit herkömmlichen Visualisierungstools oder proprietärer Software nicht sichtbar sind. Bei „untargeted“ Experimenten kann das Ziel darin bestehen, neue und neuartige Metaboliten oder molekulare Variationen zu entdecken. In jedem Fall hat die Open-Source-Softwaregemeinschaft auf diese Herausforderungen reagiert, und es gibt jetzt eine große Vielfalt an Lösungen für die Datenverarbeitung, die Musterfindung, die Entdeckung von Molekülen und mehr. In dieser Arbeit wird die Entwicklung mehrerer Software-Tools und Algorithmen beschrieben, die darauf abzielen, aussagekräftige Informationen in HRMS-Datensätzen sowohl bei „targeted“ als auch bei „untargeted“ Analysen nach der Transformation in den Massendefektraum zu finden. Dazu gehört die Erkennung von Mustern, die sich wiederholenden Einheiten von polymeren Analyten entsprechen, und die Zuordnung von Molekülformeln zu diesen wechselnden Einheiten. Diese Methoden werden veröffentlicht und als Open-Source-Software freigegeben und dann angewandt, um Unterschiede zwischen einer Vielzahl von Ligninproben aus verschiedenen Quellen und Behandlungsprozessen zu charakterisieren und um optimale Probenvorbereitungsbedingungen für jedes Lignin für die HRMS-Analyse vorzuschlagen. Es ist zu hoffen, dass die hier vorgestellte Arbeit den Weg für künftige Analysen ebnet, die das Verständnis komplexer natürlicher Gemische mithilfe von HRMS maximieren sollen. / In recent years, there has been a dramatic rise of interest in free and open-source software tools aimed at the analytical science community. This has led to a plethora of innovations, collaborations, and solutions in the data analysis space. Mass spectrometry has been a particular area of focus in this regard; modern high-resolution MS instruments are powerful analytical tools capable of generating an enormous quantity of detailed information in a single experiment. Often these datasets contain patterns or "fingerprints" of molecules that may not be visible to the analyst using conventional visualization tools or proprietary software. In “untargeted” experiments, the goal might be to discover new and novel metabolites or molecular variations. In either case, the open-source software community has responded to these challenges, and there are now a great variety of solutions for data processing, pattern-finding, molecular discovery, and more. This thesis describes the development of several software tools and algorithms aimed at finding meaningful information in HRMS datasets in both targeted and untargeted analyses after transformation into the mass defect space. This includes recognition of patterns corresponding to repeating units of polymeric analytes and assignment of molecular formulae to these changing units. These methods are published and released as open-source software and then applied to characterize differences between a variety of lignin samples from various sources and treatment processes, and to suggest optimal sample preparation conditions for each lignin for API-HRMS analysis. It is hoped that the work presented here helps pave the way for future analyses seeking to maximize the understanding of complex natural mixtures using HRMS, and the author encourages further modification and development of the algorithms and techniques developed here to facilitate future discoveries in this ever-evolving area of research.
|
Page generated in 0.0453 seconds