The microbial communities that live inside the human gastrointestinal tract -the human gut
microbiome- are important for host health and wellbeing. Characterizing this new “organ”,
made up of as many cells as the human body itself, has recently become possible through
technological advances. Metagenomics, the high-throughput sequencing of DNA directly from
microbial communities, enables us to take genomic snapshots of thousands of microbes living
together in this complex ecosystem, without the need for isolating and growing them.
Quantifying the composition of the human gut microbiome allows us to investigate its
properties and connect it to host physiology and disease. The wealth of such connections was
unexpected and is probably still underestimated. Due to the fact that most of our dietary as well
as medicinal intake affects the microbiome and that the microbiome itself interacts with our
immune system through a multitude of pathways, many mechanisms have been proposed to
explain the observed correlations, though most have yet to be understood in depth.
An obvious prerequisite to characterizing the microbiome and its interactions with the host is
the accurate quantification of its composition, i.e. determining which microbes are present and
in what numbers they occur. Historically, standard practices have existed for sample handling,
DNA extraction and data analysis for many years. However, these were generally developed for
single microbe cultures and it is not always feasible to implement them in large scale
metagenomic studies. Partly because of this and partly because of the excitement that new
technology brings about, the first metagenomic studies each took the liberty to define their own
approach and protocols. From early meta-analysis of these studies it became clear that the
differences in sample handling, as well as differences in computational approaches, made
comparisons across studies very difficult. This restricts our ability to cross-validate findings of
individual studies and to pool samples from larger cohorts. To address the pressing need for
standardization, we undertook an extensive comparison of 21 different DNA extraction methods
as well as a series of other sample manipulations that affect quantification. We developed a
number of criteria for determining the measurement quality in the absence of a mock
community and used these to propose best practices for sampling, DNA extraction and library
preparation. If these were to be accepted as standards in the field, it would greatly improve
comparability across studies, which would dramatically increase the power of our inferences
and our ability to draw general conclusions about the microbiome.
Most metagenomics studies involve comparisons between microbial communities, for example
between fecal samples from cases and controls. A multitude of approaches have been proposed
to calculate community dissimilarities (beta diversity) and they are often combined with
various preprocessing techniques. Direct metagenomics quantification usually counts
sequencing reads mapped to specific taxonomic units, which can be species, genera, etc. Due to
technology-inherent differences in sampling depth, normalizing counts is necessary, for
instance by dividing each count by the sum of all counts in a sample (i.e. total sum scaling), or by
subsampling. To derive a single value for community (dis-)similarity, multiple distance
measures have been proposed. Although it is theoretically difficult to benchmark these
approaches, we developed a biologically motivated framework in which distance measures can
be evaluated. This highlights the importance of data transformations and their impact on the
measured distances.
Building on our experience with accurate abundance estimation and data preprocessing
techniques, we can now try and understand some of the basic properties of microbial
communities. In 2011, it was proposed that the space of genus level variation of the human gut
microbial community is structured into three basic types, termed enterotypes. These were
described in a multi-country cohort, so as to be independent of geography, age and other host
properties. Operationally defined through a clustering approach, they are “densely populated
areas in a multidimensional space of community composition”(source) and were proposed as a
general stratifier for the human population. Later studies that applied this concept to other
datasets raised concerns about the optimum number of clusters and robustness of the
clustering approach. This heralded a long standing debate about the existence of structure and
the best ways to determine and capture it. Here, we reconsider the concept of enterotypes, in
the context of the vastly increased amounts of available data. We propose a refined framework
in which the different types should be thought of as weak attractors in compositional space and
we try to implement an approach to determining which attractor a sample is closest to. To this
end, we train a classifier on a reference dataset to assign membership to new samples. This way,
enterotypes assignment is no longer dataset dependent and effects due to biased sampling are
minimized. Using a model in which we assume the existence of three enterotypes characterized
by the same driver genera, as originally postulated, we show the relevance of this stratification
and propose it to be used in a clinical setting as a potential marker for disease development.
Moreover, we believe that these attractors underline different rules of community assembly and
we recommend they be accounted for when analyzing gut microbiome samples.
While enterotypes describe structure in the community at genus level, metagenomic sequencing
can in principle achieve single-nucleotide resolution, allowing us to identify single nucleotide
polymorphisms (SNPs) and other genomic variants in the gut microbiome. Analysis
methodology for this level of resolution has only recently been developed and little exploration
has been done to date. Assessing SNPs in a large, multinational cohort, we discovered that the
landscape of genomic variation seems highly structured even beyond species resolution,
indicating that clearly distinguishable subspecies are prevalent among gut microbes. In several
cases, these subspecies exhibit geo-stratification, with some subspecies only found in the
Chinese population. Generally however, they present only minor dispersion limitations and are
seen across most of our study populations. Within one individual, one subspecies is commonly
found to dominate and only rarely are several subspecies observed to co-occur in the same
ecosystem. Analysis of longitudinal data indicates that the dominant subspecies remains stable
over periods of more than three years. When interrogating their functional properties we find
many differences, with specific ones appearing relevant to the host. For example, we identify a
subspecies of E. rectale that is lacking the flagellum operon and find its presence to be
significantly associated with lower body mass index and lower insulin resistance of their hosts;
it also correlates with higher microbial community diversity. These associations could not be
seen at the species level (where multiple subspecies are convoluted), which illustrates the
importance of this increased resolution for a more comprehensive understanding of microbial
interactions within the microbiome and with the host.
Taken together, our results provide a rigorous basis for performing comparative metagenomics
of the human gut, encompassing recommendations for both experimental sample processing
and computational analysis. We furthermore refine the concept of community stratification into
enterotypes, develop a reference-based approach for enterotype assignment and provide
compelling evidence for their relevance. Lastly, by harnessing the full resolution of
metagenomics, we discover a highly structured genomic variation landscape below the
microbial species level and identify common subspecies of the human gut microbiome. By
developing these high-precision metagenomics analysis tools, we thus hope to contribute to a
greatly improved understanding of the properties and dynamics of the human gut microbiome. / Die mikrobiellen Gemeinschaften innerhalb des menschlichen Darmtrakts – das menschliche
Darm-Mikrobiom - sind wichtig für das Wohlbefinden und die Gesundheit des Wirts. Die Charakterisierung dieses neuen “Organs”, welches aus ähnlich vielen Zellen besteht wie der menschliche Körper, ist in jüngster Zeit durch technologische Fortschritte möglich geworden. Die Metagenomik, die direkte Hochdurchsatz-Sequenzierung mikrobieller DNA, ermöglicht die Aufnahme “genomischer Schnappschüsse” tausender verschiedener, in einem komplexen Ökosystem zusammenlebender Bakterien, ohne dafür auf deren Isolierung und Wachstum angewiesen zu sein. Die Quantifizierung des menschlichen Mikrobioms erlaubt es uns, seine Eigenschaften zu untersuchen und Verbindungen zu Wirtsphysiologie und -krankheiten zu knüpfen. Der Reichtum dieser Informationen ist unerwartet hoch und wahrscheinlich noch immer unterbewertet. Aufgrund der Tatsache, dass der Großteil unserer Ernährung und unseres Medikamentenkonsums unser Mikrobiom, welches wiederum selbst über verschiedene Arten mit unserem Immunsystem interagiert, beeinflusst, wurden viele Mechanismen vorgeschlagen, um die beobachteten Korrelationen zu erklären. Die meisten davon sind jedoch noch nicht vollständig verstanden.
Eine offensichtliche Komponente zur Charakterisierung des Mikrobioms und dessen Interaktionen mit dem Wirt ist eine akkurate Quantifizierung seiner genauen Zusammensetzung, womit sowohl die Anwesenheit von bestimmten Bakterien als auch deren Anzahl gemeint ist. Obwohl etablierte Standardprozeduren zur Probenbehandlung, DNA- Extrahierung und Datenanalyse existieren, sind sie nicht immer für metagenomische Studien anwendbar, da sie für isolierte Bakterienkulturen entwickelt worden. Deswegen und auch wegen der Begeisterung, die neuartige Technologien mit sich bringen, nahmen sich die ersten metagenomischen Studien jeweils die Freiheit, ihre eigenen Protokolle und Herangehensweisen zu definieren. Die Metaanalyse dieser Studien zeigte, dass Unterschiede sowohl in der Probenbehandlung als auch in der statistischen Auswertung den Vergleich zwischen Studien sehr schwierig machen. Das wiederum beschneidet unsere Fähigkeit, Entdeckungen zu bestätigen und Daten über Studien hinweg zu kombinieren. Um die zwingend notwendige Standardisierung voranzutreiben haben wir einen umfassenden Vergleich von 21 verschiedenen DNA-Extraktionsmethoden sowie verschiedener weiterer Probenbehandlungen, welche Quantifizierungen beeinflussen, vorgenommen. Wir haben eine Reihe von Kriterien entwickelt, um die Messqualität in Abwesenheit von Mock-Kontrollen zu bestimmen und schlagen anhand dieser Methoden für Probenbeschaffung, DNA-Extraktion und Library- Generierung optimale Verfahren vor. Wenn diese als Standard akzeptiert werden, würde das eine stark verbesserte Vergleichbarkeit zwischen Studien ermöglichen und damit sowohl einen extremen Zuwachs an statistischer Power als auch unserer Fähigkeit, generelle Schlüsse über das Mikrobiom zu ziehen, zur Folge haben.
Die meisten metagenomischen Studien teilen ihre Datensätze auf um Vergleiche anzustellen, z.B. zwischen Stuhlproben gesunder und erkrankter Menschen. Eine Vielzahl verschiedener Ansätze, welche wiederum oft mit verschiedenen Datenvorbehandlungen kombiniert werden, wurden vorgeschlagen, um Dissimilarität zwischen Gemeinschaften (Beta-Diversität) zu berechnen. Um metagenomische Daten auf Spezies-, Genus- und höheren Ebenen zu quantifizieren werden üblicherweise reads auf Referenzgenome bestimmter taxonomischer Einheiten aligniert und gezählt. Aufgrund technologieabhängiger Unterschiede in Sequenziertiefe müssen reads normalisiert werden, z.B. indem man alle counts durch die Gesamtanzahl der counts einer Sequenzierung teilt (total sum scaling), oder durch subsampling. Für die Messung der Gemeinschafts(dis)similarität wurden viele Distanzmaße vorgeschlagen.
Da es schwierig ist diese Ansätze theoretisch zu vergleichen, haben wir ein biologisch
motiviertes Konzept entwickelt, mit dem man Distanzmaße evaluieren kann. Dies unterstreicht die Wichtigkeit der Datentransformation und dessen Einwirkung auf Distanzmaße.
Aufbauend auf unserer Erfahrung mit Häufigkeitsabschätzungen und Techniken zur Datenvorbehandlung können wir nun versuchen, grundlegende Eigenschaften mikrobieller Gemeinschaften zu verstehen. 2011 wurde vorgeschlagen, dass sich die Variation auf Genusebene im menschlichen Darm auf drei grundlegende Typen beschränkt, welche Enterotypen getauft wurden. Diese wurden in Datensätzen verschiedener Länder als unabhängig von Herkunft, Alter und anderer Wirtseigenschaften beschrieben. Die Enterotypen sind durch einen Cluster-Ansatz als „dicht besiedelte Bereiche in einem multidimensionalen Raum der Gemeinschaftszusammensetzung“ definiert und wurden als grundlegende Stratifikatoren für die menschlichen Population vorgeschlagen. Spätere Studien, welche dieses Konzept auf andere Datensätze anwandten, erhoben Zweifel bezüglich der optimalen Anzahl an Clustern und an der generellen Robustheit des Ansatzes. Dies leitete erneut eine langanhaltende Debate über die Existenz von Strukturen und die besten Wege, diese zu bestimmen und einzufangen, ein. Hier überdenken wir, in Anbetracht der stark gestiegenen Anzahl an verfügbaren Daten, das Enterotypen-Konzept. Wir schlagen ein überarbeitetes Konzept vor, in welchem die verschiedenen Enterotypen als schwache Attraktoren im multidimensionalen Raum verstanden werden und implementieren einen Ansatz zur Berechnung des Attraktors, der dem Datensatz am ähnlichsten ist. Dafür trainieren wir einen Klassifizierer auf einen Referenz- Datensatz, um neue Datensätze zuzuordnen. Damit ist Enterotypisierung nicht mehr datensatzabhängig und der Effekt von sampling bias ist minimiert. Indem wir ein Modell nutzen für das wir die Existenz dreier Enterotypen (definiert durch die selben Genera wie ursprünglich postuliert) annehmen, zeigen wir die Relevanz dieser Stratifikation und schlagen es in einem klinischen Zusammenhang als potentiellen Marker für Krankheitsfortschritt vor. Außerdem glauben wir, dass diese Attraktoren verschiedene Regeln mikrobieller Zusammensetzung widerspiegeln und schlagen vor, sie bei der Analyse von mikrobiellen Daten zu berücksichtigen.
Während Enterotypen Struktur in der Gemeinschaft auf Genusebene beschreiben, kann metagenomische Sequenzierung prinzipiell Auflösung auf Nukleotidebene erreichen, womit single nucleotide polymorphisms (SNPs) und andere genomische Variationen im Darm- Mikrobiom identifiziert werden können. Analysemethoden für dieses Auflösungsniveau wurden erst kürzlich entwickelt und bis heute wurden diese erst wenig erforscht. Wir zeigen, dass die Landschaft an genomischer Variation von SNPs in einer großen, multinationalen Kohorte sogar über die Speziesebene hinaus geht und hochgradig strukturiert ist, was das Vorkommen klar abgrenzbarer Subspezies unter Darmmikroben suggeriert. In mehreren Fällen zeigen diese Subspezies geographische Stratifikation, wobei einige Subspezies nur in chinesischen Populationen vorkommen. Im Allgemein zeigen Sie jedoch nur eine geringfügige Beschränkung der Dispersion und sind in der Mehrzahl der Populationen vorhanden. Innerhalb eines Individuums dominiert häufig eine bestimmte Subspezies, nur selten dominieren verschieden gemeinsam im gleichen Ökosystem. Eine Analyse von Zeitreihenexperimenten deutet darauf hin, dass die dominante Subspezies über Zeiträume von mehr als drei Jahren stabil bleibt. Wenn man ihre funktionalen Eigenschaften untersucht findet man viele Unterschiede, von denen bestimmte relevant für den Wirt erscheinen. Zum Beispiel identifizieren wir eine Subspezies von E. rectale, welcher das Flagellum-Operon fehlt, die signifikant assoziiert ist mit geringerem BMI und geringerer Insulinresistenz ihres Wirts; sie korreliert zudem mit höherer mikrobieller Diversität. Diese Assoziationen konnten auf Speziesebene nicht gesehen werden (auf der mehrere Subspezies überlagert sind), was die Wichtigkeit dieser erhöhten Auflösung für ein umfassenderes Verständnis mikrobieller Interaktionen innerhalb des Mikrobioms und mit dem Wirt illustriert.
Zusammenfassend bieten unsere Ergebnisse eine präzise Grundlage für vergleichende
Metagenomik des menschlichen Darms, einschließlich Empfehlungen über experimentelles Sampling und statistische Analysen. Weiterhin verfeinern wir das Konzept der Enterotypen- Stratifikation in Gemeinschaften, entwickeln referenzbasierte Ansätze für Enterotypen- Zuordnung und bieten überzeugende Beweise für ihre Relevanz. Indem wir die volle Auflösung metagenomischer Sequenzierungen nutzen entdecken wir eine Landschaft hochgradig strukturierter genomischer Variation unterhalb der Speziesebene und identifizieren gemeinsame Subspezies des menschlichen Darm-Mikrobioms. Durch die Entwicklung dieser hochpräzisen metagenomischen Untersuchungsansätze tragen wir zu einem verbesserten
Identifer | oai:union.ndltd.org:uni-wuerzburg.de/oai:opus.bibliothek.uni-wuerzburg.de:13964 |
Date | January 2016 |
Creators | Costea, Paul Igor |
Source Sets | University of Würzburg |
Language | English |
Detected Language | English |
Type | doctoralthesis, doc-type:doctoralThesis |
Format | application/pdf |
Rights | https://creativecommons.org/licenses/by/3.0/de/deed.de, info:eu-repo/semantics/openAccess |
Page generated in 0.0122 seconds