Return to search

Systematische Übersichtsarbeiten und Meta-Analysen

Systematische Übersichtsarbeiten klinischer Studien spielen bei der Beurteilung der Wirksamkeit prophylaktischer und therapeutischer Interventionen eine zentrale Rolle. Übersichtsarbeiten (im folgenden synonym mit der Bezeichnung Review gebraucht) werden dann als systematisch bezeichnet, wenn sie vordefinierte und transparente Methoden bzgl. Literatursuche, Studienselektion und Studienbewertung verwenden. Systematische Übersichtsarbeiten, bei denen die einbezogenen Studien (Primärstudien) in einer integrierenden statistischen Analyse wie eine einzige große Studie ausgewertet (gepoolt) werden, bezeichnet man als Meta-Analysen. Die vorliegende Monographie präsentiert 1. zwei größere eigene systematische Übersichtsarbeiten als Anwendungsbeispiele (Kapitel 2), 2. drei empirisch-methodische Untersuchungen zum Thema Studienqualität und deren Auswirkung auf das Ergebnis (Kapitel 3) und 3. eine Analyse der vorliegenden systematischen Übersichtsarbeiten in den Bereichen Akupunktur, Phytotherapie und Homöopathie (Kapitel 4). Sie versteht sich als Beitrag zur methodischen Diskussion und Entwicklung von systematischen Übersichtsarbeiten. Im ersten Anwendungsbeispiel wurde untersucht, ob Propranolol, Metoprolol und Flunarizin bei der prophylaktischen Behandlung der Migräne wirksamer sind als Placebo, ob die einzelnen Substanzen ähnlich wirksam sind bzw. wie wirksam sie im Vergleich zu anderen Medikamenten sind. Eingeschlossen wurden randomisierte klinische Studien an erwachsenen Migränepatienten mit mindestens 4 Wochen Dauer, in denen eine oder mehrere der genannten Substanzen mit Placebo oder einem anderen Medikament verglichen wurden. Die Literatursuche erfolgte in Medline und der Cochrane Library sowie über das Durchsuchen von Literaturverzeichnissen. Informationen zu Patienten, Interventionen und Ergebnissen wurden mit Hilfe eines vorgetesteten Formulars extrahiert. Die Qualität der Studien wurde mit drei Skalen beurteilt. Soweit möglich erfolgten Effektstärkeberechnungen für Therapieerfolg, Attackenhäufigkeit und Zahl der Patienten mit Nebenwirkungen. Eine quantitative Meta-Analyse wurde aufgrund der inkonsistenten und häufig inadäquaten Ergebnispräsentation in den Primärstudien nicht durchgeführt. Insgesamt entsprachen 57 Studien zu Propranolol (mit 25 Vergleichen vs. Placebo und 46 Vergleichen mit anderen Medikamenten), 16 zu Metoprolol (mit 4 Vergleichen vs. Placebo und 17 vs. andere) und 40 zu Flunarizin (mit 10 Vergleichen vs. Placebo und 36 vs. andere) den Einschlusskriterien. Die Qualität der Studien war in vielen Fällen unbefriedigend. Hauptproblem war die unzureichende Beschreibung von Studienabbrüchen und -ausschlüssen bzw. deren Berücksichtigung in der Analyse. Alle drei Substanzen waren in Bezug auf Therapieerfolg und Attackenzahl Placebo überlegen. Langzeiteffekte über 6 Monate hinaus und nach Absetzen können nicht sicher beurteilt werden. Mit wenigen Ausnahmen ergaben sich in Vergleichen mit anderen Substanzen keine signifikanten Unterschiede; die meisten Studien hatten jedoch zu geringe Fallzahlen, um potenziell relevante Unterschiede ausschließen zu können. Insgesamt kann die Wirksamkeit von Propranolol, Metoprolol und Flunarizin in der Migräneprophylaxe aufgrund der Konsistenz der Ergebnisse trotz der häufig unbefriedigenden Studienqualität als belegt angesehen werden. Im zweiten Anwendungsbeispiel wurde untersucht, ob Hypericumextrakte (Hypericum perforatum, Johanniskraut) bei der Behandlung von Depressionen (a) wirksamer sind als Placebo, (b) ähnlich wirksam sind wie synthetische Antidepressiva und (c) nebenwirkungsärmer sind als synthetische Antidepressiva. Eingeschlossen wurden randomisierte Studien an depressiven Patienten mit einer Therapiedauer von mindestens 4 Wochen, in denen ein Hypericummonoextrakt mit Placebo oder einem anderen Antidepressivum verglichen wurde. Die Literatursuche erfolgte in verschiedenen Datenbanken, über das Prüfen von Literaturverzeichnissen und über Kontakte mit Experten und Herstellern. Hauptzielkriterium für die Beurteilung der Wirksamkeit war der Responderanteil (meist definiert als ein Rückgang um 50% oder auf einen Wert von max. 10 auf der Hamilton Rating Scale for Depression). 33 Studien (23 Vergleiche mit Placebo, 12 mit anderen Antidepressiva) entsprachen den Einschlusskriterien. Im Vergleich zu Placebo erwiesen sich die Hypericumextrakte als deutlich überlegen, allerdings war der Effekt in neueren Studien und in Studien mit schwerer depressiven Patienten geringer ausgeprägt. Im Vergleich zu älteren und neueren Antidepressiva waren Hypericumextrakte ähnlich effektiv; Nebenwirkungen waren jedoch signifikant seltener. Aufgrund der vorliegenden Daten kann die Wirksamkeit von Hypericumextrakten bei leichten bis mittleren Depressionen als nachgewiesen gelten. Die Heterogenität in den Ergebnissen der einzelnen Studien deutet jedoch darauf hin, dass verschiedene Faktoren (möglicherweise Extraktwahl, Dosierung, Patientenklientel) die Effektivität beeinflussen. Die erste der drei empirisch-methodischen Analysen in Kapitel 3 untersucht die methodische Qualität randomisierter Studien zu Akupunktur, Phytotherapie und Homöopathie. Insgesamt 207 randomisierte Studien wurden einbezogen; diese waren im Rahmen von 5 systematischen Übersichtsarbeiten gesammelt und bewertet worden. Die Beurteilung der methodischen Qualität erfolgte mithilfe einer validierten Skala (Jadadscore) und Einzelitems. Die methodische Qualität der bewerteten Studien war in hohem Maße variabel, die Mehrzahl der Studien hatte relevante Schwächen. Hauptprobleme waren die Beschreibung der Verblindung der Gruppenzuteilung sowie von Studienabbrüchen und -ausschlüssen. Phytotherapiestudien hatten im Mittel bessere Qualität als Homöopathie- und Akupunkturstudien. Publikationen in einer Medline-gelisteten Zeitschrift, in jüngerer Vergangenheit und in englischer Sprache hatten im Mittel bessere Qualität als ältere, nicht in gelisteten Zeitschriften und in anderen Sprachen veröffentlichte Arbeiten. Die Qualitätsscores der komplementärmedizinischen Studien waren im Schnitt ähnlich wie diejenigen von Studien zu konventionellen Interventionen, die in ähnlichen Analysen bewertet worden waren. In der zweiten empirisch-methodischen Untersuchung wurde geprüft, ob ein Zusammenhang zwischen methodischer Qualität und Studienergebnis in 89 placebokontrollierten Studien zur Homöopathie besteht. Die Beurteilung der methodischen Qualität erfolgte mit zwei Skalen und Einzelkriterien. Ein potenzieller Zusammenhang zwischen methodischer Qualität wurde mit drei Methoden untersucht: Prüfung eines Zusammenhangs zwischen einzelnen Qualitätskomponenten und Studienergebnis (Komponentenanalyse), Vergleich von Studien, die eine bestimmte Minimumpunktzahl auf den Qualitätsskalen erreichten bzw. nicht erreichten (Mindestscoreanalyse), und konsekutiver Einschluss von Studien in die Meta-Analyse entsprechend den erreichten Qualitätsscores (kumulative Meta-Analyse). Mit allen drei Methoden ergab sich, dass bessere Studien weniger optimistische Ergebnisse erbracht hatten. In der dritten empirisch-methodischen Untersuchung wurde am Beispiel der klinischen Studien zu Akupunktur bei Kopfschmerzen die zuletzt angesprochene Thematik auch auf nichtkontrollierte Studien ausgeweitet. Es wurde geprüft, inwieweit sich randomisierte und nichtrandomisierte Studien in Bezug auf Patienten, Interventionen, design-unabhängige Qualitätsaspekte und Ergebnisse unterscheiden. 59 Studien (24 randomisierte und 35 nichtrandomisierte) konnten in die Analyse einbezogen werden. Randomisierte und nichtrandomisierte Studien unterschieden sich bzgl. Patienten und Interventionen zum Teil deutlich. Nichtrandomisierte Studien hatten im Schnitt schlechtere Qualität, jedoch gab es unter den randomisierten Studien sehr schlechte und unter den nichtrandomisierten auch gute Studien. Ein Randomisationsdesign und bessere Qualität waren mit weniger positiven Ergebnissen assoziiert. Die nichtrandomisierten Studien nutzten potenzielle Vorteile (bzgl. Fallzahl, Langzeitbeobachtung, Repräsentativität und Untersuchung prognostischer Faktoren) kaum. Der Einbezug nichtrandomisierter Studien in einen systematischen Review zur Evidenz für die Wirksamkeit der Akupunktur bei Kopfschmerzen hätte daher die Schlussfolgerungen kaum beeinflusst. In Kapitel 4 wurden die bis Frühjahr 2001 verfügbaren systematischen Übersichtsarbeiten zu Akupunktur, Phytotherapie und Homöopathie zusammengestellt. Die Suche erfolgte primär über die Datenbank des Bereichs Komplementärmedizin der Cochrane Collaboration und in Medline. Um als systematisch klassifiziert zu werden, mußte ein Review mindestens eines der folgenden drei Kriterien erfüllen: explizite Beschreibung von Literatursuche und Einschlusskriterien und/oder formale Beurteilung der methodischen Qualität der eingeschlossenen Studien und/oder Beschreibung und Durchführung einer quantitativen Meta-Analyse. 39 Reviews zur Akupunktur, 58 zur Phytotherapie und 18 zur Homöopathie entsprachen den Einschlusskriterien. Positive Schlussfolgerungen waren im Bereich Phytotherapie am häufigsten, bei der Akupunktur am seltensten. Die Qualität der Reviews war variabel, viele hatten jedoch relevante methodische Schwächen. Siebzehn Fragestellungen wurden von mehr als einer systematischen Übersicht bearbeitet. Die Zahl der eingeschlossenen Primärstudien variierte bei 10 von 17 Vergleichen um mehr als 50%. Unterschiede in den Einschlusskriterien und der Literatursuche erschienen als wahrscheinlichste Ursache für die Diskrepanzen, Unterschiede in der methodischen Qualität der Reviews schienen dagegen eine geringe Rolle zu spielen. Die Schlussfolgerungen waren trotz der Diskrepanzen häufig ähnlich. Die vorgelegten Anwendungsbeispiele, empirisch-methodischen Untersuchungen und die Zusammenstellung zu Akupunktur, Phytotherapie und Homöopathie demonstrieren Stärken und Schwächen von systematischen Reviews. Trotz der zu erwartenden methodischen Weiterentwicklungen werden derartige Übersichtsarbeiten auch in Zukunft mit Sorgfalt und Zurückhaltung interpretiert werden müssen. / Systematic reviews of randomized controlled trials have a central role in the assessment of the effectiveness of health care interventions. Reviews are considered systematic if they describe and use adequate methods for literature search, study selection, quality assessment and summary of study results. Meta-analyses are systematic reviews if the results of the included primary studies are pooled to calculate an overall effect size measure. This monograph reports 1) two major own systematic reviews as examples (chapter 2); 2) three empirical studies on the issue of study quality and its effect on outcome (chapter 3); and 3) an analysis of the available systematic reviews on acupuncture, herbal medicines, and homeopathy (chapter 4). The reported work aims to contribute to the further development of the methodology of systematic reviews. The first systematic review in chapter 2 investigates whether there is evidence that the prophylactic treatment of migraine with propranolol, metoprolol and flunarizine is more effective than placebo and how these drugs compare to each other and to other drugs for migraine prophylaxis. To be included studies had to be randomized trials of at least 4 weeks duration in adult migraine patients comparing one of the three drugs with placebo or another drug treatment. Studies were identified through the database Medline, the Cochrane Library, and screening of bibliographies. Information on patients, interventions, methods and results was extracted in a standardized manner. Methodological quality was assessed with three checklists. As far as possible effect size estimates were calculated for single trials for the outcomes response, frequency of attacks, and number of patients with side effects. A pooled effect size estimate was not calculated due to the inconsistent and often insufficient presentation of results in the primary studies. A total of 57 trials on propranolol (with 25 comparisons vs. placebo and 46 comparisons vs. other drugs), 16 on metoprolol (4 vs. placebo and 17 vs. other drugs), and 40 on flunarizine (10 vs. placebo and 36 vs. other drugs) met the inclusion criteria. The majority of trials had relevant methodological shortcomings. The major problems were the description of drop-outs and withdrawals and the lack of intention to treat analyses. All three drugs have been shown to be superior to placebo in respect to response rates and frequency of attacks. There is insuccifient data to assess long-term effects and duration of the treatment effects after stopping prophylaxis. Apart from few exceptions there were no statistically significant differences in effectiveness in comparisons with other drugs. However, most trials had insufficient power to rule out potentially relevant differences. Overall, despite considerable methodological shortcomings the short-term effectiveness of propranolol, metoprolol and flunarizine for migraine prophylaxis has been proven beyond reasonable doubt. The second systematic review in chapter 2 investigates whether extracts from St. John s wort (Hypericum perforatum L.) are a) more effective than placebo, b) similarly effective as synthetic drugs, and c) have less side effects than synthetic drugs in the treatment of patients suffering from depression. Randomized trials in depressed patients were included if treatment with a hypericum mono-preparation for at least 4 weeks was compared with placebo or a synthetic antidepressant. Trials were identified from a variety of databases, by screening bibliographies, and through contacts with manufacturers and experts in the field. Main outcomes measure to assess effectiveness was the proportion of responders (mostly defined as patients with a 50% reduction vs. baseline or less than 10 points on the Hamilton Rating Scale for Depression). 33 trials (with 23 comparisons with placebo, and 12 with synthetic antidepressants) met the inclusion criteria. Hypericum extracts were markedly superior to placebo; however, the effect was smaller in more recent trials and in trials with patients suffering from more severe depression. The available trials indicate that hypericum extracts are similarly effective as both older and newer synthetic antidepressants in patients with mild and moderate depression and have less side effects. The heterogeneity of the observed effects suggests that a number of variables (mainly patient characteristics and quality of trials) influences outcomes. The first of the three empirical studies on review methodology in chapter 3 investigates the quality of randomized trials of acupuncture, herbal medicines, and homeopathy. A total of 207 studies originally collected for 5 systematic reviews were included in the analyses. Methodological quality was assessed with the validated scale by Jadad et al. and a number of single quality criteria. The quality of the included trials was highly variable but the majority of trials had relevant shortcomings. Major problems were the description of concealment of randomisation, and of drop-outs and withdrawals. In average, trials on herbal remdies had better quality than acupuncture and homeopathy trials. Publication in a Medline-listed journal, in more recent years and in English language was associated with better quality ratings. Compared to a sample of studies form conventional medicine from a similar analysis the average quality of trials in the three complementary medicine areas was very similar. The second study on methodology investigates whether there is an association between methodological quality and results in 89 placebo-controlled trials on homeopathy. Methodological quality was assessed with two score systems and single quality criteria. A potential association of quality and outcome was investigated with three approaches: 1) Testing whether the fulfillment of single criteria had impact on the pooled effect estimate (component analysis); 2) whether results of trials scoring a minimal number of points were different from those of trials with lower scores (minimal score analysis); 3) entering studies consecutively into the meta-analysis depending on the number of score points achieved (cumulative meta-analysis). With all three methods trials with better methodological quality were shown to yield less optimistic results. In the third study on methodology it was investigated whether randomized and non-randomized trials of acupuncture for chronic headache differ in regard to patients, interventions, design-independent quality aspects and results. 59 studies (24 randomized and 35 non-randomized) met the inclusion criteria. Randomized and non-randomized differed significantly regarding patient characteristics and interventions. In average, non-randomized studies had lower quality; however, there were also good quality non-randomized studies and randomized trials with very low quality. Studies with random assignment and better quality in general yielded less optimistic results. The non-randomized studies rarely took advantage of the possible strengths of such designs (in respect to sample size, long-term observation, representative sampling and investigation of prognostic factors). In the case of acupuncture for chronic headache the inclusion of non-randomized studies would not have altered the conclusions of a systematic review on effectiveness. In chapter 4 the systematic reviews on acupuncture, herbal medicines and homeopathy available until spring 2001 have been summarized. Eligible reviews were identified mainly through searches in the database of the Cochrane Collaboration s Complementary Medicine Field and in Medline. To be included a review had to meet at least one of the following criteria: explicit description of literature search and inclusion criteria; formal assessment of the methodological quality of the included primary studies; performance of a quantitative meta-analysis. 39 reviews on acupuncture, 58 on herbal medicines and 18 on homeopathy met the inclusion criteria. Positive conclusions were most frequent in herbal medicine, and rare in acupuncture. The quality of reviews was variable, but many had relevant shortcomings. 17 topics were adressed by more than one systematic reviews. In 10 of these 17 topics the number of included primary studies varied by more than 50%. Differencs in selection criteria and the literature search were the most likely cause for discrepancies. Differences in methodological quality had little impact. Conclusions were often similar despite discrepanices in methods and results. The examples and empirical studies on methodology presented in this monograph demonstrate the strengths and limitations of systematic reviews. Although it can be expected that the methods of systematic reviews will be improved in the future this kind of research will still have to be interpreted with great caution.

Identiferoai:union.ndltd.org:HUMBOLT/oai:edoc.hu-berlin.de:18452/14499
Date10 February 2003
CreatorsLinde, Klaus
ContributorsKleijnen, J., Jöckel, K. H.
PublisherHumboldt-Universität zu Berlin, Medizinische Fakultät - Universitätsklinikum Charité
Source SetsHumboldt University of Berlin
LanguageGerman
Detected LanguageGerman
TypedoctoralThesis, doc-type:doctoralThesis
Formatapplication/pdf, application/octet-stream, application/octet-stream

Page generated in 0.0031 seconds