Dans le cadre de mon doctorat j'ai développé des approches appliquées d'analyse de données pour effectuer une analyse multi omique du cancer de la prostate (CaP). Mon projet s'est défini en deux parties distinctes correspondant aux deux articles intégrés dans le corps de mon document. Une première partie du travail a consisté à récupérer des données omiques de différents types (RNA-Seq, Methylation, CNA, SNA, miRNA, données cliniques) associées au CaP et à les préparer avec un pipeline bioinformatique adapté. Ensuite j'ai eu pour objectif de chercher à mettre en avant de nouveaux points de contrôles de l'immunité associés à la récidive biochimique (BCR) dans le CaP au travers de ces données. Pour remplir cet objectif j'ai utilisé une approche particulière basée sur des algorithmes d'analyse en composante principale (PCA) et de régression des moindres carrés (PLS). Cela a permis de faire ressortir une famille spécifique de points de contrôle de l'immunité, la famille des LILR, qui peut potentiellement être une famille cible en immunothérapie. Dans un second temps, j'ai utilisé ces mêmes données pour développer un protocole d'analyse d'apprentissage machine (ML). Le but de ce travail était de montrer qu'il était possible de prédire si des patients allaient récidiver ou pas à partir de données RNA-Seq. J'ai montré que même avec des petits jeux de données on pouvait atteindre des scores de prédiction très bon et que les algorithmes actuels de ML prenaient bien en compte la variabilité technique de la diversité des sources de données dans le CaP. Il est donc possible d'utiliser les biobanques actuelles possédées par les structures de recherches à travers le monde pour créer des jeux de données plus importants. / As part of my PhD, I developed applied data analysis approaches to perform a multi-omic analysis of prostate cancer (CaP). My project was split into two distinct parts corresponding to the two articles integrated into the body of my document. A first part of the work consisted in recovering omics data of different types (RNA-Seq, Methylation, CNA, SNA, miRNA, clinical data) associated with CaP and preparing them with an adapted bioinformatics pipeline. Then, my goal was to seek to highlight new immunity checkpoints associated with biochemical recurrence (BCR) in CaP through these data. To fulfill this objective, I used a special approach based on Principal Component Analysis (PCA) and Partial Least Squares Regression (PLS) algorithms. This has brought out a specific family of immunity checkpoints, the LILR family, which can potentially be a target family in immunotherapy. Second, I used the same data to develop a machine learning (ML) analysis protocol. The aim of this work was to show that it was possible to predict whether or not patients would relapse from RNA-Seq data. I have shown that even with small datasets, one can achieve very good prediction scores and that current ML algorithms take into account the technical variability of the diverse data sources in the CaP. It is therefore possible to use current biobanks owned by research structures around the world to create larger datasets.
Identifer | oai:union.ndltd.org:LAVAL/oai:corpus.ulaval.ca:20.500.11794/69182 |
Date | 27 January 2024 |
Creators | Vittrant, Benjamin |
Contributors | Droit, Arnaud, Fradet, Yves |
Source Sets | Université Laval |
Language | French |
Detected Language | French |
Type | thèse de doctorat, COAR1_1::Texte::Thèse::Thèse de doctorat |
Format | 1 ressource en ligne (xi, 187 pages), application/pdf |
Rights | http://purl.org/coar/access_right/c_abf2 |
Page generated in 0.0024 seconds