Molecular genetic analyses, such as mutation analyses, are becoming increasingly important in the tumor field, especially in the context of therapy stratification. The identification of the underlying tumor entity is crucial, but can sometimes be difficult, for example in the case of metastases or the so-called Cancer of Unknown Primary (CUP) syndrome. In recent years, methylome and transcriptome utilizing machine learning (ML) approaches have been developed to enable fast and reliable tumor and tumor subtype identification. However, so far only methylome analysis have become widely used in routine diagnostics.
The present work addresses the utility of publicly available RNA-sequencing data to determine the underlying tumor entity, possible subgroups, and potential therapy options. Identification of these by ML - in particular random forest (RF) models - was the first task. The results with test accuracies of up to 99% provided new, previously unknown insights into the trained models and the corresponding entity prediction. Reducing the input data to the top 100 mRNA transcripts resulted in a minimal loss of prediction quality and could potentially enable application in clinical or real-world settings.
By introducing the ratios of these top 100 genes to each other as a new database for RF models, a novel method was developed enabling the use of trained RF models on data from other sources.
Further analysis of the transcriptomic differences of metastatic samples by visual clustering showed that there were no differences specific for the site of metastasis. Similarly, no distinct clusters were detectable when investigating primary tumors and metastases of cutaneous skin melanoma (SKCM).
Subsequently, more than half of the validation datasets had a prediction accuracy of at least 80%, with many datasets even achieving a prediction accuracy of – or close to – 100%.
To investigate the applicability of the used methods for subgroup identification, the TCGA-KIPAN dataset, consisting of the three major kidney cancer subgroups, was used. The results revealed a new, previously unknown subgroup consisting of all histopathological groups with clinically relevant characteristics, such as significantly different survival. Based on significant differences in gene expression, potential therapeutic options of the identified subgroup could be proposed.
Concludingly, in exploring the potential applicability of RNA-sequencing data as a basis for therapy prediction, it was shown that this type of data is suitable to predict entities as well as subgroups with high accuracy. Clinical relevance was also demonstrated for a novel subgroup in renal cell carcinoma. The reduction of the number of genes required for entity prediction to 100 genes, enables panel sequencing and thus demonstrates potential applicability in a real-life setting. / Molekulargenetische Analysen, wie z. B. Mutationsanalysen, gewinnen im Tumorbereich zunehmend an Bedeutung, insbesondere im Zusammenhang mit der Therapiestratifizierung. Die Identifizierung der zugrundeliegenden Tumorentität ist von entscheidender Bedeutung, kann sich aber manchmal als schwierig erweisen, beispielsweise im Falle von Metastasen oder dem sogenannten Cancer of Unknown Primary (CUP)-Syndrom. In den letzten Jahren wurden Methylom- und Transkriptom-Ansätze mit Hilfe des maschinellen Lernens (ML) entwickelt, die eine schnelle und zuverlässige Identifizierung von Tumoren und Tumorsubtypen ermöglichen. Bislang werden jedoch nur Methylomanalysen in der Routinediagnostik eingesetzt.
Die vorliegende Arbeit befasst sich mit dem Nutzen öffentlich zugänglicher RNA-Sequenzierungsdaten zur Bestimmung der zugrunde liegenden Tumorentität, möglicher Untergruppen und potenzieller Therapieoptionen. Die Identifizierung dieser durch ML - insbesondere Random-Forest (RF)-Modelle - war die erste Aufgabe. Die Ergebnisse mit Testgenauigkeiten von bis zu 99 % lieferten neue, bisher unbekannte Erkenntnisse über die trainierten Modelle und die entsprechende Entitätsvorhersage. Die Reduktion der Eingabedaten auf die 100 wichtigsten mRNA-Transkripte führte zu einem minimalen Verlust an Vorhersagequalität und könnte eine Anwendung in klinischen oder realen Umgebungen ermöglichen.
Durch die Einführung des Verhältnisses dieser Top 100 Gene zueinander als neue Datenbasis für RF-Modelle wurde eine neuartige Methode entwickelt, die die Verwendung trainierter RF-Modelle auf Daten aus anderen Quellen ermöglicht.
Eine weitere Analyse der transkriptomischen Unterschiede von metastatischen Proben durch visuelles Clustering zeigte, dass es keine für den Ort der Metastasierung spezifischen Unterschiede gab. Auch bei der Untersuchung von Primärtumoren und Metastasen des kutanen Hautmelanoms (SKCM) konnten keine unterschiedlichen Cluster festgestellt werden.
Mehr als die Hälfte der Validierungsdatensätze wiesen eine Vorhersagegenauigkeit von mindestens 80% auf, wobei viele Datensätze sogar eine Vorhersagegenauigkeit von 100% oder nahezu 100% erreichten.
Um die Anwendbarkeit der verwendeten Methoden zur Identifizierung von Untergruppen zu untersuchen, wurde der TCGA-KIPAN-Datensatz verwendet, welcher die drei wichtigsten Nierenkrebs-Untergruppen umfasst. Die Ergebnisse enthüllten eine neue, bisher unbekannte Untergruppe, die aus allen histopathologischen Gruppen mit klinisch relevanten Merkmalen, wie z. B. einer signifikant unterschiedlichen Überlebenszeit, besteht. Auf der Grundlage signifikanter Unterschiede in der Genexpression konnten potenzielle therapeutische Optionen für die identifizierte Untergruppe vorgeschlagen werden.
Zusammenfassend lässt sich sagen, dass bei der Untersuchung der potenziellen Anwendbarkeit von RNA-Sequenzierungsdaten als Grundlage für die Therapievorhersage gezeigt werden konnte, dass diese Art von Daten geeignet ist, sowohl Entitäten als auch Untergruppen mit hoher Genauigkeit vorherzusagen. Die klinische Relevanz wurde auch für eine neue Untergruppe beim Nierenzellkarzinom demonstriert. Die Verringerung der für die Entitätsvorhersage erforderlichen Anzahl von Genen auf 100 Gene ermöglicht die Sequenzierung von Panels und zeigt somit die potenzielle Anwendbarkeit in der Praxis.
Identifer | oai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:32954 |
Date | January 2023 |
Creators | Marquardt, André |
Source Sets | University of Würzburg |
Language | English |
Detected Language | English |
Type | doctoralthesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | https://creativecommons.org/licenses/by-nc-nd/4.0/deed.de, info:eu-repo/semantics/openAccess |
Page generated in 0.0086 seconds