Zurück zu Kapitel 11

Prof. Harald Walach
http://harald-walach.de/methodenlehre-fuer-anfaenger/12-vitamine-ueber-die-unmoeglichkeit-die-wichtigstendinge-im-leben-in-studien-untersuchen-zu-koennen/
(12) Vitamine: über die Unmöglichkeit, die
wichtigsten Dinge im Leben in Studien
untersuchen zu können
Ein kleines Lehrstück über statistische Mächtigkeit und die Unmöglichkeit, die wichtigsten
Dinge im Leben in Studien untersuchen zu können (*)
Ich greife meinen Methodenblog nach langer Pause wieder auf, diesmal mit einer
beispielhaften Diskussion um die neuen Vitaminstudien, an denen man viel über Statistik und
Methodik lernen kann. „Genug ist genug“, titelte das Editorial der Annals of Internal
Medicine [1], das eine Serie von Publikationen – ein systematischer Review mit MetaAnalyse [2] und einige originale Arbeiten [3] zur Wirksamkeit von Vitaminen in der primären
Prävention von Krankheiten begleitete. Die Botschaft wurde von den Medien aufgegriffen
und entsprechend weitergegeben. Vitamine seien Unsinn, gesunde Ernährung wäre genug.
Das Einnehmen von Vitaminpräparaten und Supplementen sei gar gefährlich, so war zu
hören. Das sei nun endgültig klar. Was daran stimmt?
Man kann an diesen Studien und ihrer Problematik einiges veranschaulichen. Zuvor ein paar
wichtige Klärungen: Die Meta-Analyse, die wir uns genauer ansehen werden [2], fasste
Studien zusammen, die einzelne Vitamine, meistens in Einzelgabe, und manchmal auch
Multivitamine zur Primärprävention untersucht hatten. Primärprävention bedeutet: Die
Menschen, die im Rahmen von solchen Studien Vitaminpräparate genommen haben, waren
nicht krank, sondern versuchten mit Hilfe der Einnahme solcher Vitamine Krankheit zu
verhindern.
Entsprechend waren die Studien auch angelegt: langfristig und mit großen Zahlen, jedenfalls
meistens. In allen Studien wurde zur Kontrolle natürlich Placebo verwendet und die Zuteilung
erfolgte durch Zufall, also randomisiert, wie es dem momentanen Standard entspricht.
Gemessen wurde meistens die Mortalität über den Studienzeitraum, also Todesfälle an allen
möglichen Erkrankungen, oder auch die Krebsinzidenz, also das Neuauftreten einer
Krebsdiagnose. Manche Studien in der Meta-Analyse und die noch zu diskutierende Studie
von Lamas und Kollegen [3] waren sog. Sekundärpräventionsstudien. Das sind solche, bei
denen die Patienten bereits eine Erkrankung, z.B. einen Herzinfarkt wie bei Lamas et al. [3],
oder eine Angina pectoris, hatten.
Die Analyse von Fortmann et al (2013) [2] lässt in der Tat keinen großen Zweifel daran, dass
die Vitamingabe von Einzelpräparaten, in Isolation von anderen gesehen, also ohne
potenzielle synergistische Effekte in einer gesunden, gut ernährten Population ohne
Erkrankung keinen großen Sinn ergibt und die Mortalität nicht senkt, ja sogar schädlich sein
könnte, mit Ausnahme von Vitamin D. Hier ist das letzte Wort noch nicht gesprochen, denn
1
es liegt ein schwacher, kleiner, knapp nicht signifikanter Effekt zugunsten von Vitamin D vor
(Relatives Risiko = 0.94, also eine kleine Risikoreduktion um 6 %).
Bei Folsäure liegt nur eine Studie vor mit sehr hohem positivem Effekt, aber zu großer
Streuung, bei Vitamin A liegt ebenfalls nur eine Studie vor mit kleinem negativem Effekt, bei
Multivitaminen könnte man diskutieren, weil der Effekt gerade mal nicht signifikant ist bei
Mortalität und Krebs.
Aber insgesamt ist das Ergebnis doch relativ klar. Die Autoren haben nur gute und
einigermaßen gute randomisierte Studie an gesunden Menschen eingeschlossen und
Sekundärpräventionsstudien nur, wenn sie klare Hypothesen hatten. Damit verbieten sich
Schlußfolgerungen auf den Einsatz solcher Präparate bei Kranken und zwar dann, wenn sie zu
gezielter Supplementation verwendet werden. Es ist ein großer Unterschied, ob gesunde
Menschen einfach so isolierte und synthetisch hergestellte Vitamine über lange Zeit zu sich
nehmen, oder ob nach sorgfältiger Diagnose bei einer Krankheit ein Mangel festgestellt wird
und dann eine Substitution durchgeführt wird.
Außerdem wird in dieser Diskussion oft Folgendes vergessen:
1.
2.
3.
Vitamine kommen in der Natur nur in Kombination vor, wirken also immer synergistisch. Mein Paradebeispiel für
Synergismus ist ein Kind, das ein geübter Reiter ist und auf einem großen Pferd, das sich von ihm reiten
lässt, wesentlich schneller vorankommt als ohne, oder Hürden überspringen kann, das es ohne Pferd nicht
überspringen könnte. Umgekehrt würde das Pferd ohne den Reiter in der Regel weniger weit und ausdauernd
laufen und auch ohne Not nicht so hoch springen.
Vitamine sind nur eine Gruppe von schätzungsweise 10.000 oder mehr sekundären Pflanzenstoffen, die in den
natürlichen Vitaminquellen vorkommen und die möglicherweise viel bedeutsamer sind als die Vitamine selber. Sie
sind noch relativ wenig erforscht. So weiß man mittlerweile, dass etwa Farbstoffe in der Haut von Früchten,
oder Bitterstoffe und Geschmacksstoffe oft viel potentere Radikalfänger sind als die Vitamine selber.
Vitamine sind einfach historisch die erste dieser Gruppe von Stoffen, die erforscht wurden und von denen
man weiß, dass sie für den Organismus wichtig sind, weil er sie selber nicht herstellen kann. Aber selbst
wenn man Zitronensaft oder Orangensaft trinkt oder einen Apfel isst, dann nimmt man nicht einfach Vitamin
C zu sich, sondern hunderte von anderen Pflanzenstoffen.
Vitamine können, wenn sie isoliert gegeben werden, zu lange und zu hoch dosiert und vor allem auch ohne ihre
natürlichen Partner selber als freie Radikale wirken. Freie Radikale sind jene Stoffe, die beim Stoffwechsel im
Körper entstehen. Sie enthalten ein Sauerstoff- und ein Wasserstoffatom oder ein Stickstoff- und ein
Sauerstoffatom. Sie heißen deswegen „Radikale“, weil diese HO- oder NO-Moleküle Bindungsbestandteile
sind, die reagibel sind, also nach Bindungen mit anderen Molekülen suchen. Wenn Vitamine oder andere
Radikalfänger vorhanden sind, werden sie von diesen abgefangen und damit unschädlich gemacht. Wenn zu
wenig von diesen vorhanden sind, dann kommt es zum sog. „oxidativen Stress“, einem Überschuss freier
Radikale, die sich dann andere Bindungspartner suchen, z.B. organische Strukturen von Zellen, die damit
zerstört werden. Das könnte der Ursprung für manche chronische Krankheit werden. Deswegen sind
Radikalfänger, u.a. Vitamine, wichtig. Allerdings erzeugt auch der Organismus, aktivierte Makrophagen z.B.
bei einer Infektion, aktiv solche freien Radikale zur Abwehr von Bakterien und Viren. Also muss man die
Sache auch etwas von der anderen Seite betrachten. Und, hinzukommt wie gesagt, isoliert und zu hoch
dosiert können Vitamine selber zu solchen Radikalen werden.
Ausreichende Schutzstoffe haben wir nur, wenn wir möglichst wenig denaturierte Nahrung zu
uns nehmen und gesunde Ernährung im Rahmen eines Gesamtkonzeptes der
Primärprävention verstehen und nicht Vitaminpillen wie Medikamente zu uns nehmen.
Insofern ist die Schlussfolgerung, die die populäre Presse aus diesen Studien zieht: Vitamine
und Supplemente können wir uns sparen, es ist ja alles gut, etwas kurzsichtig. Wir hätten uns
das Geld für derartige Studien a priori sparen können, denn sie beantworten eigentlich eine
einigermaßen dämliche Frage, nämlich ob es sinnvoll ist, isolierte Substanzen über längere
Zeit in relativ hoher Dosis zu sich zu nehmen. Das Denken in isolierten kausalen Bezügen,
das einer solchen Konzeption zu Grunde liegt, sie ist das eigentliche Problem. Und darauf
weisen uns die Studien hin.
Dass ein etwas synergistischeres Konzept, wie das in der Studie von Lamas und Kollegen
(2013) [3] verwirklichte, u.U. vor allem in der Sekundärprävention sinnvoll sein kann, sieht
2
man, wenn man die Daten dieser Studie genauer betrachtet. Auch hier liegt kein signifikantes
Ergebnis vor, und die Studie wird also als „negativ“ kolportiert. Hier wurden Patienten, die
bereits einen Herzinfarkt hinter sich hatten, mit einer relativ hohen Dosis von verschiedenen
Präparaten behandelt, insgesamt 28 Präparaten, ein Mix aus Vitaminen und Mineralien.
Manche in hoher Dosierung, wesentlich höher als empfohlen. Für manche gibt es keine
Empfehlung, wie für Bioflavonoide. Vitamin D dagegen war mit 100 IU eher niedrig dosiert.
Aber auf jeden Fall hatten die Autoren einen wohlinformierten Versuch gemacht mit einem
physiologisch sinnvollen Cocktail zu arbeiten. Weil die Patienten daher relativ viele, große
Kapseln zu schlucken hatten, ließ die Compliance nach, ein Haupt-Problem der Studie.
Sieht man genauer hin, dann erkennt man, dass die Effekte gar nicht so schlecht waren: Die
Hazard-Ratio, also das Risiko über die Zeit hinweg, lag bei 0.89 für alle Arten von Mortalität,
war also um 11% reduziert, bei Schlaganfall lag sie bei 0.53, eine Reduktion um knapp die
Hälfte, und bei Hospitalisierungen wegen Angina pectoris lag sie bei 0.63, war also um
knapp 40% reduziert. Kardiovaskulärer Tod, ein sekundärer Endpunkt war um 20% reduziert.
Das Problem war also weniger die Tatsache, dass keine Effekte vorhanden waren, sondern
dass die Effekte geringer waren als antizipiert. Die Power-Analyse war von einer 25%igen
Reduktion beim zusammengesetzten primären Endpunkt ausgegangen. Der vorliegende Effekt
von 11% war weniger als halb so groß. Schade. Mit mehr als doppelt so vielen Patienten als
die 1708 Patienten die eingeschlossen waren, oder, anders gesprochen, ohne die Ausfälle von
fast 800 Patienten, die die Behandlung nie begonnen oder abgebrochen haben, eben weil
ihnen die Schluckerei vieler dicker Kapseln auf die Dauer zu dumm wurde, wäre die Studie
unter Garantie positiv ausgegangen und hätte Furore gemacht.
Moderne Studien werden nach „intent-to-treat“ ausgewertet. Das heißt, dass alle
Studienteilnehmer, die in eine bestimmte Gruppe gelost werden, egal ob sie die Intervention
erhalten oder nicht, egal ob sie dabeibleiben oder nicht, in die Endauswertung mit eingehen.
Wenn also ein Patient der Studiengruppe innerhalb der Studienzeit verstirbt, auch wenn er nie
eine einzige Kapsel genommen hat, dann wird er als Todesfall innerhalb der
Interventionsgruppe gerechnet, weil er einmal die „Intention“ hatte, diese „Behandlung zu
erhalten“. Man tut dies, weil man eine konservative Schätzung eines möglichen
Behandlungseffektes haben will. Und wenn eine Intervention aufgrund ihrer Komplexität,
oder hier, weil die Kapseln zu dick und zu viele sind, schlecht angenommen wird, oder weil,
wie in anderen Fällen, Patienten wegen Nebenwirkungen abbrechen, dann schlägt das eben
negativ als Therapieversager zu Buche und drückt das Ergebnis, ist aber nahe an der Realität.
Man erhält also über eine Auswertung nach „intention-to-treat“ eine konservative, realistische
Schätzung des möglichen Effekts in der untersuchten Population. Daher rührt auch in dieser
Studie die Effektverdünnung. Man hätte, wenn keine Patienten abgesprungen wären,
selbstverständlich auch den Effekt, den man antizipiert hatte, gesehen. Aber immerhin sind
fast die Hälfte aller Patienten ausgefallen. Damit hat die Studie die gleiche statistische
Mächtigkeit wie eine Studie, die nur halb so groß ist und bei der alle Patienten dabeibleiben.
Die statistische Mächtigkeit oder „Power“ wirkt sich auf die Frage aus, ob die Studie eine
hohe Wahrscheinlichkeit hat, signifikant zu werden. Das hatte sie in diesem Falle nicht.
Deswegen wurde der an sich durchaus lohnenswerte Effekt von 11% Mortalitätsreduktion
oder die 47%ige Reduktion von Schlaganfall nicht „entdeckt“ oder nicht signifikant.
Dennoch sind die Effekte bedenkenswert. Mit wenig anderen nicht-invasiven Maßnahmen
erreicht man so gute Effekte. In den berühmten Lipidsenkerstudien – die allerdings in der
Primärprävention durchgeführt wurden – sah man signifikante Effekte von maximal 3.4%
3
Risikoreduktion und die Weltpresse jubelte. Allerdings hatten die beteiligten Firmen auch
ausreichend Geld um die nötigen Patientenzahlen von mehreren Tausend einzuschließen [4].
Insofern steht das Ergebnis dieser Studie weniger schlecht da, als es rezipiert wird.
Das Problem ist eher, dass die gesamte medizinische Statistik auf eine ja-nein Entscheidung
getrimmt ist und bei einer fehlenden Signifikanz die Diskussion beendet wird. Das hängt mit
der Logik des statistischen Tests zusammen. Dieser legt folgende Überlegung zugrunde:
Angenommen, ich gehe davon aus, dass es keinen Unterschied zwischen zwei Gruppen gibt –
die sog. „Nullhypothese“ – mit welcher Wahrscheinlichkeit mache ich dann einen Fehler,
wenn ich behaupte einen solchen Unterschied gibt es nicht, angesichts der vorliegenden
Daten?
Solange die sog. Irrtums-Wahrscheinlichkeit eine gewisse, willkürlich gewählte, Grenze nicht
unterschreitet, die man im Regelfall auf 5% festgesetzt hat, gehe ich davon aus, dass der
gefundene Unterschied irrelevant, oder „nicht signifikant“ ist. Ist die Grenze unterschritten
und die Irrtums-Wahrscheinlichkeit wird kleiner als 5%, dann sage ich: diese Nullhypothese,
dass es keinen Unterschied gibt, muss aufgegeben oder verworfen werden. Damit sage ich
dann, aber erst dann: Jawohl, es gibt einen Unterschied! Und die These, dass die
experimentelle Intervention, hier der Vitaminmix, besser wirkt als das Placebo, wird
angenommen. Das ist ein bisschen so, als hätte ich die Augen für alle Unterschiede, egal wie
groß sie sind, verbunden und zwar solange, bis mir jemand die Binde abnimmt, nämlich der
statistische Test, und sagt: „so, jetzt darfst Du gucken und den Unterschied ernst nehmen“.
Vorher ist der numerisch gleiche Unterschied irrelevant.
Ob aber dieser Test signifikant wird und mir die Augenbinde abnimmt, so dass ich ihn zur
Kenntnis nehmen darf, hängt nicht von der Größe des Unterschiedes ab, sondern einzig und
allein von der Größe der Studie. Das ist nämlich die sog. statistische Mächtigkeit oder
„statistische Power“. Nochmals anders ausgedrückt: hätte ich mehr Geld oder mehr Geduld
gehabt und eine größere Stichprobe für meine Studie genommen, dann wäre irgendwann der
Tag gekommen, an dem mir der statistische Test die Augen geöffnet hätte und mir auch einen
noch so kleinen Unterschied als „wichtig“ oder „signifikant“ vorgeführt hätte. Und umgekehrt
hätte mir auch bei einem relativ großen Unterschied, so wie hier, die mangelnde statistische
Mächtigkeit die Binde auf den Augen gelassen, eben weil die Signifikanz nicht erreicht
wurde. Außer, der Unterschied wäre sehr groß gewesen, größer als antizipiert, dann wäre der
Moment des Hinsehendürfens schon früher gekommen. Denn Effektgröße, Stichprobengröße
und Signifikanz leben in einer Art Dreierbeziehung: Je größer der Effekt, umso kleiner muß –
bei gleicher Signifikanz – die Stichprobe sein, damit wir ihn entdecken. Und je kleiner der
Effekt, oder je niedriger die Signifikanzgrenze, um so größer muß die Stichprobe sein, damit
wir ihn finden.
Es gibt schon lange einen Streit in der Methodikerzunft, wie sinnvoll ein solches Vorgehen
eigentlich ist. Weil man natürlich gerne sichere Entscheidungen will, hält man an dieser Idee
des Hypothesentestens mit Hilfe von Signifikanz-Tests fest. Aber man sollte sich die
Begrenzung immer vor Augen halten und als Zusatzinformation immer die absolute Größe
des Effekts, im Verein mit der statistischen Mächtigkeit des Tests im Bewusstsein behalten.
Das ist im übrigen auch der Grund, weswegen man Meta-Analysen durchführt. Denn in ihnen
kann man die statistische Mächtigkeit über Studien hinweg akkumulieren und auch Effekte,
die in einzelnen Studien nicht signifikant waren, dann, wenn sie vorhanden sind und
einigermaßen homogen, als statistisch signifikant belegen.
4
Jedenfalls hier sollte man am Ball bleiben. Denn die Effekte in dieser Studie [3] sind groß.
Die Studienlogistik scheint Probleme gehabt zu haben, die Patienten bei der Stange zu halten,
und gerade in einem solchen Falle wäre eine per-protocol Analyse durchaus sinnvoll gewesen.
Das wäre eine Analyse, bei der man nur diejenigen Patienten betrachtet, die wirklich das
gemacht haben, was vorgesehen gewesen war. Das wäre dann eine Optimalfall-Schätzung
gewesen, also wie groß die Effekte maximal sein könnten, wenn alle brav ihren
Multivitaminmix schlucken. Man muss kein großer Hellseher sein um zu sehen, dass eine
solche Analyse mit ziemlicher Sicherheit signifikant geworden wäre.
Dass sie nicht berichtet wird, dürfte auf die Intervention eines Gutachters zurückzuführen
sein, würde ich mal schätzen, oder auf vorauseilenden Gehorsam der Autoren.
Die Studie zeigt auch, dass Nahrungsergänzung in sinnvoller Kombination und nicht in
Isolation vor allem in Krankheitsfällen nützlich ist und Effekte erzielt. Die Studien von Dean
Ornish zeigen allerdings, dass eine gesunde vegetarische Ernährung zusammen mit
Entspannung und Yoga, konsequent durchgeführt, wesentlich bessere Effekte erzielt [5,6].
Die Studien zeigen insgesamt, dass die Diskussion alles andere als abgeschlossen ist. Sie
beginnt erst. Und zwar mit einem Diskurs über wirklich sinnvolle, synergistisch sich
ergänzende gesunde Ernährung und im Krankheitsfalle mit einer wohl informierten,
ebenfalls synergistisch arbeitenden Nahrungsergänzung zusammen mit einer guten
Ernährung.
Letzteres ist, soweit wir sehen, immer noch nicht gut genug im Visier der Wissenschaft. Das
mag daran liegen, dass gesunde Ernährung kein Medikament ist, sondern verantwortliches
Verhalten und gewählte Entscheidung. Und die kann man, per definitionem, nicht in
randomisierten Studien untersuchen. Denn wir können nicht Menschen per Zufall dazu
vergattern, plötzlich Verantwortung zu übernehmen und sich gesund, bewusst und vielfältig,
womöglich noch vegetarisch zu ernähren genauso wenig wie wir Menschen, die eine solche
Entscheidung getroffen haben diese per Zufallsdekret im Rahmen einer Studie wieder
entziehen könnten.
Das Dilemma ist also, dass man ein solches wirklich interessierendes Verhalten nur in einer
natürlichen Umgebung untersuchen könnte, dort, wo es vorkommt. Das heißt, man müsste
Studien an natürlichen Kohorten machen und könnte die angeblich beste Studienmethodik,
eine randomisierte kontrollierte Studie gar nicht anwenden. Und eine Meta-Analyse, wie die
von Fortmann und Kollegen [2] hätte eine solche Studie apriori ausgeschlossen, obwohl und
auch wenn sie die einzige gewesen wäre, die wirklich valide hätte Auskunft geben können. So
wird man vielleicht sogar einen Wandel in der Methodendoktrin abwarten müssen, bis man
diese Frage wirklich kompetent untersuchen und beantworten kann.
Das ist der Grund, weswegen ich schon vor Jahren darauf hingewiesen habe, dass nur
ein Zirkel verschiedener Methoden, die sich ergänzen und die die jeweiligen Schwächen
der anderen kompensieren uns wirklich einen guten Einblick in die Brauchbarkeit einer
Intervention in der Praxis geben kann [7]. Und das ist auch der Grund, warum das
gebetsmühlenartige Wiederholen der Aussage, dass ausschließlich randomisierte Studien
wissenschaftlich seien, am besten verblindet und placebokontrolliert, geistlos, dogmatisch und
sachlich falsch ist, auch wenn es derzeit den Applaus der Mehrheit findet.
5
* Eine leicht veränderte Version dieses Textes wird als „Journal Club“ Beitrag in der nächsten
Ausgabe der Zeitschrift „Forschende Komplementärmedizin“ zu den unter 1-3 zitierten
Studien erscheinen.
← Zurück zu Kapitel 11
Weiter zu Kapitel 13 →
1.
2.
3.
4.
5.
6.
7.
Guallar, E., Stranges, S., Mulrow, C., & Appel, L. J. (2013). Enough is enough: Stop wasting money on vitamin
and mineral supplements. Annals of Internal Medicine, 159, 850-851.
Fortmann, S. P., Burda, B. U., Senger, c. A., Lin, J. S., & Whitlock, E. P. (2013). Vitamin and mineral
supplements in the primary prevention of cardiovascular disease and cancer: An updated systematic
evidence review for the U.S. preventive services task force. Annals of Internal Medicine, 159, 824-834.
Lamas, G. A., Boineau, R., Goertz, C., Mark, D. B., Rosenberg, Y., Stylianou, M., et al. (2013). Oral high-dose
multivitamins and minerals after myocardial infarction: A randomized trial. Annals of Internal Medicine, 159,
797-804.
Penston J: Fiction and Fantasy in Medical Research: The Large-Scale Randomised Trial. London, The London
Press, 2003.
Ornish D, Scherwitz LW, Billings JH, Gould KL, Merrit TA, Sparler S, Armstrong WT, Ports TA, Kirkeeide RL,
Hogeboom C, Brand RJ: Intensive lifestyle changes for reversal of coronary heart disease. Journal of the
American Medical Association 1998;280:2001-2007.
Ornish D, Scherwitz LW, Doody RS, Kesten D, McLanahan SM, Brown Se, DePuey EG, Sonnemaker, Haynes
C, Lester J, McAllister GK, Hall RJ, Burdine Ja, Gotto AM: Effects of stress management training and dietary
changes in treating ischemic heart disease. Journal of the American Medical Association 1983;249:54-59.
Walach H, Falkenberg T, Fonnebo V, Lewith G, Jonas W: Circular instead of hierarchical – Methodological
principles for the evaluation of complex interventions. BMC Medical Research Methodology 2006;6.
Prof. Dr. Dr. Harald Walach hat hier:
http://harald-walach.de/methodenlehre-fuer-anfaenger/
dies veröffentlicht:
Methodenlehre für Anfänger
Ich werde hier Schritt für Schritt ein Online-Tutorial der Methodenlehre entwickeln und
wichtige Elemente der Methodenlehre für Mediziner und medizinisch Interessierte, für
Journalisten und methodische Laien und Studierende präsentieren. Am Ende wird daraus ein
kleines Studienkompendium. Gastbeiträge sind herzlich willkommen.
Harald Walach
Inhalt
Teil 1: Evidenz: ein unreflektierter Kampfbegriff
[English Version: Part 1 - Evidence]
Teil 2: Hierarchie oder Zirkel der Erkenntnis?
[English Version: Part 2 - Hierarchy]
Teil 3: Die Konsequenzen des hierarchischen und zirkulären Modells
[English Version: Part 3 - Consequences]
Teil 4: EBM in Aktion: Ein konkretes Beispiel
[English Version: Part 4 - EBM]
Teil 5: Vom Verhältnis zwischen Empirie und Theorie (1)
[English Version: Part 5 - Empiricism]
Teil 6: Wer braucht was? Empirie und Theorie (2)
6
[English Version: Part 6 - Who needs what?]
Teil 7: Decline-Effekte und die öffentliche Repräsentanz wissenschaftlicher Ergebnisse in den
Medien
Teil 8: Industry Bias – Eine neue Form des Bias oder ein interessanter Experimentator Effekt?
Teil 9: Innere und äußere Erfahrung – Zen und Wissenschaft
Teil 10: Plausibilitätsbias und die weit verbreitete Meinung, die Homöopathie sei „widerlegt“
Teil 11: Wie wissenschaftlich ist die Komplementärmedizin? Oder: Vom Hirsch im
Blätterwald
Teil 12: Vitamine: über die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien
untersuchen zu können
Teil 13: Power-Analyse: die Magie der Statistik – Oder: Der Unterschied zwischen
Signifikanz und Relevanz
(1) Evidenz: ein unreflektierter
Kampfbegriff
[English Version: Part 1 - Evidence]
Evidence Based Medicine“ (EBM) wird in der Regel als eingedeutschter Amerikanismus und
falsch als „Evidenz Basierte Medizin“ übersetzt. Die Übersetzung ist in mehrfacher Hinsicht
falsch und der Begriff Evidenz wird in der Diskussion mit sachlich unbrauchbaren
Konnotationen aufgeladen.
„Evidence“ heisst im Englischen „Beweis“, „Klarheit“. „I have evidence that Peter poisoned
our cat“ würde heissen „Ich habe Beweise dafür, dass Peter unsere Katze vergiftet hat.“. „It is
evident that people are living longer now than they did 100 years ago“ heisst „Es ist völlig
klar und bewiesen, dass Menschen heute länger leben als vor 100 Jahren“. Im Deutschen
heisst „Evidenz“ gerade das, was keinerlei Beweises bedarf: „Es ist evident, dass die Summe
der Winkel im Dreieck 180 Grad beträgt“. „Es ist evident, dass die Durchschnittstemperatur
im Sommer höher ist als im Winter.“ „Wahre Sätze können nicht falsch sein. Das ist evident.“
Derlei Aussagen bezeichnen wir im Deutschen als evident. Das Englische „evident“ bezieht
sich, philosophisch gesprochen, auf Aussagen „a posteriori“, um mit Kant zu reden, also auf
solche, die empirischer Belege bedürfen, damit sie richtig sind. Das Deutsche „evident“
bezieht sich auf Aussagen „a priori“, die eben genau keiner Belege bedürfen, weil ihre
Richtigkeit logisch aus akzeptierten Prämissen abgeleitet ist. Soweit einmal die sprachliche
Analyse.
In diesem Sinne müsste man „evidence based medicine“ mit „Medizin, die sich auf
empirische Belege stützt“ oder „datengestützte Medizin“ übersetzen. Damit stellt sich die
Frage, was man als empirische Belege und Daten akzeptieren will, auf die man medizinisches
Handeln gründen kann. Hier taucht der zweite Fehler auf, der implizit gemacht wird:
Die Gründerväter der EBM haben klar gesagt, EBM heisst
a) die beste verfügbare Informationslage aus wissenschaftlicher Literatur PLUS
b) Die fachliche Meinung des behandelnden Arztes PLUS
c) die Präferenz und der Wunsch des Patienten.
Alle drei sollen zusammenkommen.
7
Dies wird in der deutschen Diskussion mittlerweile verkürzt wiedergeben mit der uns
Deutschen eigenen Art des vorauseilenden Kadavergehorsams gegenüber allem, was wir als
Autorität sehen und akzeptieren. Dazu kommt die menschliche Eigenart, das Denken
abzustellen sobald man einen Begriff hört, von dem man meint, alles sei damit gesagt.
Autorität, das ist die angelsächsische Welt. Also hören wir auf zu denken. Und wenn jemand
EBM sagt, dann meinen wir: nur Daten aus randomisierten, besser noch placebokontrollierten Studien zählen. Alles andere ist irrelevant. Diese Meinung ist nicht nur sachlich
falsch. Sie ist auch wissenschaftlich, gesundheitspolitisch und praktisch gefährlich. Das will
ich im folgenden Schritt für Schritt zeigen und eine sinnvollere Interpretation als die gängige
vorlegen.
Nun fangen wir an zu denken und wollen darüber nachdenken, was gute empirische Belege
sind, die medizinisches Handeln stützen können. Denn im Moment wird der Begriff
„Evidenz“ von allen möglichen und unmöglichen Leuten als Kampfbegriff in die Runde
geschleudert um das zu bekämpfen was ihnen missfällt. Kritiker der Komplementärmedizin
verwenden den Begriff um zu suggerieren, dass sie hier fehle. Kritiker der klinischen
Autoritätsmedizin verwenden ihn, um sich von ihren medizinischen Autoritätsfiguren im
Namen der Wissenschaft zu emanzipieren und die Wissenschaft als Schutz und Schild gegen
autoritäres Gehabe zu verwenden. Zulassungsbehörden verwenden ihn, um vermeintliche
Spreu von vermutlichem Weizen zu trennen. Schreiber von Übersichtsarbeiten verwenden
ihn, um sich die Sache leicht zu machen und nicht allzu viel nachdenken zu müssen;
schliesslich scheint EBM ein einfaches Rezept und einen guten Vorwand zu liefern, um nur
einen Teil der vorhandenen Information berücksichtigen zu müssen.
Genau hier wollen wir ansetzen und nachdenken:
Was genau heisst es nun, sich auf wissenschaftliche Daten zu stützen?
Welche Art von Daten, für welche Art von Fragestellung, brauchen wir?
Liegen sie vor? Wenn nein, können wir sie erzeugen? Wie genau?
Und schliesslich: Was wissen wir?
Ich schlage vor, Sie machen als Vorbereitung eine kleine Denk- und Rechercheübung:
Suchen Sie sich einen klinisch relevanten Bereich, der Ihnen in Ihrer Praxis, in Ihrem Leben
oder in Ihrer Familie öfter vorgekommen ist.
Zum Beispiel: chronische Rückenschmerzen oder chronische Polyarthritis. Schlagen Sie die
entsprechenden Leitlinien der entsprechenden Fachgesellschaft nach. Was wird dort
empfohlen? Dann fragen Sie sich: Worauf stützt sich diese Empfehlung? Verfolgen Sie die
Literatur zurück bis zu den originalen Studien. Dann sehen Sie sich a) die Ein- und
Ausschlusskriterien an und b) die Behandlungsdauer, die in dieser Studie geprüft wurde. Es
wäre auch nützlich zu überlegen ob c) die Anzahl der Patienten in der Studie gross genug
war, um potenzielle Nebenwirkungen aufzuspüren. Wenn dies nicht der Fall ist, suchen Sie d)
nach einer gross angelegten und ausreichend langen Beobachtungsstudie in der Literatur. Aus
Gründen des Copyright kann ich Ihnen nicht ersparen, diese Informationen selber zu suchen.
Teilnehmern unseres KWKM-Studiengangs wird sie im Laufe der Zeit auf unserer
geschützten Lernplattform zur Verfügung gestellt.
8
(2) Hierarchie oder Zirkel der Erkenntnis?
[English Version: Part 2 - Hierarchy]
Ich hatte ja vorgeschlagen, dass Sie sich als nächsten Schritt ein paar konkrete Beispiele
suchen, wie Daten und wissenschaftliche Information in der Medizin verwendet werden. Dazu
kommen wir dann, um alles etwas zu konkretisieren, in einem der nächsten Blog-Beiträge.
Falls Sie Ihre Hausaufgabe schon gemacht haben, ist das sehr gut, denn dann verstehen Sie
das, was ich jetzt sagen werde, noch besser.
Dann werden Sie nämlich gemerkt haben: „Evidence Based Medicine“ (EBM) unterstellt eine
Hierarchie von Erkenntnis. Sie geht davon aus, dass an der untersten Stufe, sozusagen als
Basis, klinische Anekdoten und unkontrollierte, klinische Erfahrung, also Expertenmeinungen
stehen. Dann kommen Fallserien und Fallkontrollstudien, die schon etwas systematischer
sind, aber eben immer noch Einzelfälle. Schliesslich kommen Studien an natürlichen Gruppen
von Patienten, sogenannte Kohortenstudien, bei denen Patienten, die mit einer Methode
behandelt wurden mit anderen verglichen werden, die anders behandelt wurden. Das
Entscheidende daran: die Patienten, oder ihre Ärzte, haben die entsprechende Behandlung
ausgesucht. Das sind also keine reinen Experimente, denn hier wird die Zuteilung auf die
Bedingungen rein zufällig vorgenommen. Das hat, zumindest theoretisch, den Vorteil, dass
dann die Patientenmerkmale zufällig verteilt werden und am Ende die beiden Gruppen besser
vergleichbar sind. Damit wird es wahrscheinlicher, dass ein gefundener Unterschied zwischen
den Gruppen auf die zu testende Intervention zurückzuführen ist und nicht auf zufällige
Schwankungen in der Population.
Weil das so ist geht man auch davon aus, dass solche experimentellen Studien bei denen der
Computer die Zuteilung der Patienten auf Gruppen per Zufall übernimmt – sog.
„randomisierte Studie“ von engl. „random-zufällig“ – besser sind, und deswegen stehen sie in
der Gunst der Wissenschaftler und auch der Herausgeber wissenschaftlicher Zeitschriften
höher. Das hat seine Berechtigung; dazu kommen wir später. Schliesslich kann man alle
Daten die man so in einzelnen Studien gefunden hat zu einer Meta-Analyse, also einer
zusammenfassenden Studie, zusammenführen und erhält eine Schätzung des therapeutischen
Effekts. Damit wird die Erkenntnis, so meint man, immer besser. Viele der Leitlinien, das
werden Sie gesehen haben, stützen sich auf solche Daten.
Was steckt dahinter?
Das Leitbild von der Hierarchie der Erkenntnis („hierarchy of evidence“)
Hinter dieser Vorstellung steht ein explizit hierarchisches Verständnis von Wissen oder
Erkenntnis („evidence“). Je stärker kontrolliert die Studie, je experimenteller das Vorgehen,
umso sicherer sind die Schlussfolgerungen, die man aus einer Studie ziehen kann. Das ist
zweifelsfrei der Fall. Daher geht man davon aus, dass das einzige, was wirklich wichtig ist,
diese Sicherheit der Schlussfolgerungen ist. Das nennt man im Fachjargon die interne
9
Validität, also die Gültigkeit einer Studie aufgrund ihrer methodischen Merkmale der
Kontrolle, der Zufallszuteilung und der Verblindung. Wenn man die Prämisse gelten lässt,
dass diese Sicherheit der Schlussfolgerungen das einzig wirklich interessante und wichtige
Merkmal von wissenschaftlichen Studien ist, dann kann man, in einem zweiten Schritt, sagen:
alle anderen Studien haben weniger Gültigkeit, sind also weniger „gut“, können daher auch
vernachlässigt werden, wenn solche Studien hoher „Güte“ vorliegen.
Dann kann man alle anderen Studien nur als Vorstufen und Vorbereitungen solcher
endgültiger Studien verstehen und dann, wenn solche endgültigen, randomisierten Studien
vorliegen, alle anderen vernachlässigen. In der Folge werden nur noch diese randomisierten
Studien zusammengefasst: denn oftmals schwanken auch die Ergebnisse solcher „guter“
Studien beträchtlich und es ist schwierig, den Überblick zu behalten. Dies leistet dann die
formale Meta-Analyse. Sie gibt ein statistisches Verfahren vor, wie man die Ergebnisse
verschiedener Studien mathematisch zusammenführt und daraus eine Schätzung der
vermutlich „wahren“ Effekgrösse gewinnt, die sich hinter einer Intervention in der Population
verbirgt. Im Idealfall sind die Effekte der einzelnen Studien nämlich Schätzungen dieses
„wahren“ Effektes, um den sie streuen.
Aus dieser Theorie leitet sich dann das Vorgehen ab, wie es in der Regel zur Generierung von
„Evidenz“ im modernen, wissenschaftlichen Sinne verwendet wird. Man überprüft die
vorhandenen formalen Merkmale der Studien und ordnet sie nach vermeintlicher „Güte“, also
danach, ob sie experimentell sind oder nicht, und verwendet zur Einordnung noch andere
Kriterien, zu denen wir später kommen werden. Liegen viele Befunde vor, wird die Lage
leicht unübersichtlich, denn oft widersprechen sich Studien. Daher wenden Ersteller von
Übersichtsarbeiten oder Reviews, bzw. Meta-Analytiker, gerne folgendes Verfahren an: sie
formulieren Einschlusskriterien für ihre Arbeit, z.B.: „nur randomisierte Studien, die
verblindet sind, in englischer Sprache verfasst und mit mindestens 50 Patienten pro Gruppe“.
Dadurch verringert sich der Aufwand, wissenschaftliche Literatur zu beschaffen und zu
sichten beträchtlich. Die Komplexität wird geringer und es wird leichter, eine klare Aussage
zu treffen. Wir werden zu den einzelnen Schritten und ihren Implikationen später kommen.
Hier interessiert zunächst nur das generelle Vorgehen, die Vorraussetzungen, die dahinter
stecken und die Plausibilität des gesamten Ansatzes.
Wir sehen sehr leicht: Hinter diesem Vorgehen verbirgt sich die Leitmetapher der
„Hierarchie“ oder der „Pyramide“, an deren Spitze das wirklich Wertvolle, das tatsächlich
Interessante steht, nämlich die „wahre Effektgrösse“ einer Intervention, herausdestilliert durch
die vielen einzelnen Schritte, die „unten“ getan wurden, die schliesslich zu den „wirklich
guten“ Studien, den randomisierten, geführt haben und dadurch geholfen haben, den „echten
Effekt“ zu finden. Der Rest ist unwichtig, wissenschaftliche Maische sozusagen, die nur dazu
gedient hat, die Distille der Wahrheit zu bedienen; so ähnlich wie man ein 1000 Liter Fass
Kirschen braucht um ein paar Liter Kirschschnaps zu brennen. Die Maische kriegen die Säue,
der Schnaps wird verkauft oder getrunken.
Wie plausibel und stichhaltig ist diese Theorie?
Wir analysieren diese Voraussetzung in drei Schritten. Erstens: Wir sehen uns die
paradigmatischen Voraussetzungen ein bisschen genauer an. Zweitens: Wir analysieren die
methodischen Hintergründe, die Entscheidungen und die Konsequenzen. Drittens: Wir kehren
zurück zu unserem Beispiel der leitliniengestützten Therapie und fragen, ob dieses Vorgehen
in der Praxis wirklich zu brauchbaren Ergebnissen führt.
10
1. Ist die Wirklichkeit hierarchisch?
Die Voraussetzung, die offensichtlich bei diesem Vorgehen gemacht wird, ist die der
Hierarchie. Die Wirklichkeit, auch die Erkenntnis und die Einsicht, so unterstellt man, sei
hierarchisch. Denken wir für einen Moment mal nach: Woher kennen wir Hierarchien,
Pyramiden, und dergleichen? Offensichtlich sind alle feudalen Systeme der Vergangenheit
hierarchisch geordnet. An der Spitze steht ein König oder Kaiser, ein Pharao oder Gott, von
dem alle anderen ihre Rechte und Pflichten haben und an den alle anderen wieder in ihrer
Verantwortlichkeit zurück Bericht erstatten und dem gegenüber sie verantwortlich sind.
Feudale Systeme, das hat die Geschichte gezeigt, sind nicht die flexibelsten. Sie sind anfällig
für Schwächen der Einzelnen. Solange ein sehr weiser, sehr starker und sehr gesunder Führer
an der Spitze steht, kann das System gedeihen. Dann hat der Eine immense Lasten zu tragen
und kann es vielleicht auch, und alle profitieren.
Historisch gesehen sind lange Friedenszeiten unter grossen Königen und Führern Beispiele
dafür, wenn wir etwa an das Preussen Friedrichs des Grossen denken, an das Österreich unter
Maria-Theresia, an Frankreich unter Ludwig dem Heiligen oder Ludwig dem XIV., an Rom
unter Augustus oder Hadrian. Sobald ein Führer schwach ist, kränklich, nicht lange lebt,
geistesgestört oder etwas dümmlich, wird es brenzlig. Nazideutschland ist ein Paradebeispiel
dafür, wohin hierarchische Systeme tendieren, wenn es an der Spitze krankt. Daher haben
politische Systeme in der Neuzeit Kontrollmechanismen eingebaut, die absolute Macht
beschränken und die Hierarchie bzw. die damit verbundene Machtposition beschränken.
Moderne politische Systeme, die funktionstüchtig sind, haben zwar eine hierarchische
Struktur, vor allem um Konsens zu bündeln und nach aussen zu kommunizieren, um zu
moderieren und Kräfte zu sammeln, aber sie sind immer über zyklische Rückmeldeprozesse
und Kontrollprozeduren nach und von „unten“ mit ihrer Basis verbunden.
Wie sieht es mit grossen Wirtschaftsorganisationen aus? Auch hier zeigt sich: die
erfolgreichsten Unternehmen haben über die letzten Dekaden begonnen, Hierarchien
abzuflachen und sich modulare Strukturen zu geben. Zwar gibt es natürlich CEOs, die sehr
entscheidungsgewaltig sind. Aber ein guter und moderner CEO wird sich hüten,
Entscheidungen einsam zu treffen, ohne alle Elemente seines Betriebes gut zu kennen. Auch
hier gibt es flache Hierarchien, Rückkopplungen mit der Basis, Prozeduren, bei denen die
Einzelnen Anteil an Entscheidungen und Zugriff auf Macht haben.
Wie steht es mit anderen wichtigen Bereichen im Leben? Liebe zum Beispiel? Dient alle
Liebe zu verschiedenen Menschen, zu Eltern, Freunden, Kindern, anderen Menschen nur
dazu, die eine wahre Liebe des Lebens zu nähren, die zu Ihrer Frau, Ihrem Mann, Ihrem
Freund oder Lebenspartner, Ihrer Freundin oder Lebenspartnerin? Offensichtlich nicht.
Offenbar ist es eher so: je mehr Liebe wir in einem Bereich erleben und mobilisieren können,
umso mehr haben wir auch für andere Menschen zur Verfügung. Wenn eine Liebesbeziehung
gut funktioniert und sich Partner lieben, dann strahlt diese Liebe auch auf die Kinder aus und
zurück. Offensichtlich ist dies ein sich zyklisch bereichernder und beeinflussender Prozess.
Oder organismische Systeme? Nehmen wir das Immunsystem. Gibt es hier eine zentrale
Immunerkennungsleitstelle? Nein, klarerweise nicht. Das Immunsystem ist ein hoch
vernetztes, extrem effizientes, aber dezentrales System. Wenn, dann könnte höchstens das
Gehirn als eine Zentrale gelten. Es schaltet sich aber allenfalls als Koordinationsfunktion zu,
wenn bewusstes Verhalten gefragt ist, also, wenn uns ein Erreger so zu schaffen macht, dass
wir unsere Aktivität einschränken müssen und mit Fieber ins Bett legen sollten. Ansonsten ist
das System zyklisch organisiert und eine Hierarchie im Sinne von Steuerungsprozessen, die
von oben kommen, wird nur im Ernstfall aktiviert.
11
Wie sieht es mit dem Bewusstsein und unserem neuronalen System aus? Dies ist ein
interessantes Beispiel. Denn in den Anfängen der Hirnforschung, in der Phrenologie des 19.
Jahrhunderts, war man der Meinung es gebe auch hier einen hierarchischen Aufbau und
irgendwo müsste all die Information, all das Bewusstsein in einem speziellen Zentrum und in
spezialisierten „Bewusstseinsneuronen“ zusammenlaufen. Dann müsste es
„Grossmutterneuronen“ geben, die all die Information, die mir dazu dient meine Grossmutter
zu erkennen, zusammenführen und dann den bewussten Erkenntnisakt: „Das ist meine
Grossmutter“ herbeiführen. Diese hierarchische Vorstellung hat die Forschung lange gelähmt.
Mittlerweile wissen wir, dass auch im neuronalen System ein hohes Mass an dezentraler,
modularer Organisation herrscht, und dass das Bewusstsein irgendwie überall ist und durch
die koordinierte Zusammenarbeit vieler neuronaler Zentren zustande kommt.
Es ist sogar so, dass unterschiedliche Aspekte eines Wahrnehmungsgegenstandes, also das
Aussehen, der Geruch, der Klang der Stimme, die Art der Bewegung, die Körpergrösse
meiner Grossmuter in ganz verschiedenen Zentren des Gehirns verarbeitet werden und erst
durch Koordination vermutlich zeitlicher Muster zu einer Einheit im Bewusstsein verbunden
werden. Hierarchie kommt zwar schon auch ins Spiel, aber eher so, dass bewusst gewählte
Ziele, Wertvorstellungen und Wünsche „von oben“, also aus Bereichen der Grosshirnrinde,
hemmend auf andere Zentren wirken und so für eine gewisse Einheit sorgen. Auch hier haben
wir also wieder eine sehr filigrane Mischung von zirkulär-modularen Prozessen und moderat
hierarchischen, die aber immer in Rückkopplung mit anderen Prozessen aus tiefer liegenden
Zentren zusammenarbeiten.
Ich könnte die Beispiele vermehren. Wir würden sehen: Es gibt keinen Bereich der uns
bekannten Wirklichkeit der rein hierarchisch aufgebaut ist, ausser vielleicht dem Krankenhaus
und der katholischen Kirche und vergleichbar veralteten Institutionen, die in ihrem Festhalten
an veralteten Strukturen zu erkennen geben, dass sie Kandidaten für die Sackgasse der
Evolution sind. Die Vorliebe der medizinischen Methodologie scheint mir aus dieser
impliziten medizinischen Hierarchie zu kommen, die unreflektiert auf die Methodik
übertragen wird.
Wenn man sich die Natur und die Wirklichkeit als paradigmatisches Beispiel nimmt, dann
müsste man sich eigentlich einer etwas komplexeren Metapher bedienen. Dann müsste man
zyklische Rückmeldeprozesse auch in den methodologischen Erkenntnisprozess einbauen.
2. Eine zirkuläre Alternative
Das Leitbild dafür ist ein Kreis oder meinethalben eine Spirale. Sicherlich ist Erkenntnis und
Einsicht ein Ergebnis vieler einzelner Schritte und hat insofern eine Art hierarchische
Struktur. Denn eine Einsicht ist mehr als die einzelnen Schritte, die dazu beigetragen haben.
Der springende Punkt ist aber: wir gelangen zu dieser Erkenntnis nur, wenn wir alle Schritte
in eine zyklische Gestalt bringen, also in Rückbezug zueinander und zu einer vermutlichen
Synthese der Information. Technisch gesprochen: Wenn wir eine vermeintlich richtige
Effektgrösse aus allen vorhandenen Studien isoliert haben, dann stellt sich die Frage: Wie
bewährt sich nun diese Effektgrösse, die wir aus experimentellen Studien gewonnen haben, in
der Praxis?
Können wir in der Praxis, bei allen möglichen Patienten, auch bei solchen, die gar nicht in den
untersuchten Studien eingeschlossen waren, damit rechnen, dass wir solche Effekte sehen
(und genauso wenig oder viel Nebenwirkungen wie in den Studien)? Funktioniert, was in
einer experimentellen Studie bei Patienten ohne Vorliebe für irgendein Verfahren geklappt
hat, auch bei Patienten, die skeptisch sind, die verzweifelt sind, die keinen Glauben mehr an
12
sich und die Medizin haben? Lässt sich eine Intervention, die bei Patienten mit „einfachen“
Krankheiten, ohne Mehrfachdiagnosen getestet worden ist, auch bei Patienten anwenden, die
den „wirklichen“ Patienten mehr gleichen, also bei solchen, die ausser Bluthochdruck auch
noch Depression, Angst und Diabetes haben?
Denn: in experimentellen Studien, die zur Testung von Arzneien und Interventionen auf
Wirksamkeit dienen wird zugunsten der internen Validität, also der Sicherheit der
Schlussfolgerungen, die Generalisierbarkeit der Ergebnisse, die externe Validität reduziert. In
experimentellen Studien werden Patienten sorgfältig ausgewählt. Solche mit komplizierten
Erkrankungen, mit mehrfachen Diagnosen, etc. gehen gar nicht erst in die Studie ein. Nur so
funktioniert das gegenwärtige hierarchische Modell. Daher muss das Ergebnis, das so
gewonnen wurde, rückgekoppelt werden mit der Basis, mit der Praxis. Hier müssen aber
andere Studientypen durchgeführt werden. Denn wenn man wissen will, ob andere Patienten
auch von einer Intervention profitieren, muss man möglichst ohne Ausschlusskriterien
operieren und evtl. einfach eine breite Praxisdokumentation machen. Oder man muss
natürlich vorkommende Gruppen vergleichen, solche die so und solche die anders behandelt
werden. Wenn man wissen will, ob möglicherweise die aktive Entscheidung für eine Therapie
therapeutische Potenz hat, darf man gar nicht experimentell untersuchen, denn die
experimentelle Zuweisung schaltet das möglicherweise wichtigste Element im
Therapieprozess aus, nämlich die Entscheidung des Patienten, etwas für seine Gesundheit tun
zu wollen.
Ich plädiere also für einen zyklischen Erkenntnisprozess. Wer der Meinung ist, Hierarchien
müssen trotzdem sein, der kann sich eine Hierarchie zyklischer Prozesse vorstellen, die im
Stile einer Spirale unsere Erkenntnis verfeinern und verbessern. Wie dies funktionieren kann,
dazu mehr in einem der nächsten Beiträge. Genauer habe ich dies ausgeführt und begründet in
der unten angegeben Literatur. Und interessanter Weise sehen auch führende Methodiker das
in zwischen ganz ähnlich.
← Zurück zu Kapitel 1
Weiter zu Kapitel 3 →
Literatur:
Tinetti, M. E., & Studenski, S. A. (2011). Comparative effectiveness research and patients
with multiple chronic conditions. New England Journal of Medicine, 364, 2478-2481.
Walach, H. (2006). Zirkulär statt hierarchisch – methodische Überlegungen zur Evaluation
komplexer therapeutischer Massnahmen [Circular in stead of hiearchical – methodological
considerations for evaluating complex therapeutic interventions]. In W. Bödeker & J. Kreis
(Eds.), Evidenzbasierung in Gesundheitsförderung und Prävention (pp. 33-56). Bremerhaven:
Wirschaftsverlag NW.
Walach, H., Falkenberg, T., Fonnebo, V., Lewith, G., & Jonas, W. (2006). Circular instead of
hierarchical – Methodological principles for the evaluation of complex interventions. BMC
Medical Research Methodology, 6(29).
13
(3) Konsequenzen des hierarch. und
zirkulären Modells
[English Version: Part 3 - Consequences]
Ich hatte im vorigen Kapitel die theoretischen Voraussetzungen des hierarchischen Modells
analysiert und eine Alternative, das zirkuläre Modell, vorgeschlagen. Jetzt wollen wir das
Ganze etwas vertiefen und überlegen, welche konkreten Konsequenzen sich aus den beiden
Modellen ergeben. Ich halte das hierarchische Modell für untauglich. Daraus mache ich
keinen Hehl. Ich werde dann im nächsten Kapitel an ein paar Beispielen zeigen, dass das
gegenwärtige Modell schlecht funktioniert und auf Dauer zu teuer und wissenschaftlich
unbefriedigend ist.
Die praktische Konsequenz des hierarchischen Modells
Der Vorteil der klassischen Strategie: Das Experiment
Wenn wir der Vorgabe des hierarchischen Modells folgen, dann müssen wir sobald als
möglich im Forschungsprozess experimentieren, um den „wahren“ Effekt einer Intervention
zu finden. Ich setze „wahr“ in Anführungszeichen, weil ich der Meinung bin, dass diese
„Wahrheit“ in diesem Kontext eine Fiktion ist. (Das heisst nicht, dass es keine Wahrheit gibt.
Schon der Hl. Augustinus hat in einem simplen Argument gezeigt, dass es Wahrheit als
Leitidee geben muss: Selbst derjenige, der sagt, es gäbe keine Wahrheit, beansprucht für diese
seine Aussage Wahrheit. Also muss es Wahrheit als Grenzidee geben.) Im medizinischen
Kontext ist es allerdings eine Fiktion zu glauben, es gäbe eine Wahrheit, die für alle
Menschen, in allen Kontexten und unter allen Umständen, in allen Kulturen und zu allen
Zeiten und angewandt von allen Therapeuten gleich wirksam ist. Die Standardmeinung geht
jedenfalls davon aus oder zumindest wird dies suggeriert, wenn man Aussagen liest wie: „xyz
Therapie verbessert die Rückfallquote bei chronisch Depressiven um 38%“. Im hierarchischen
Modell werden, wie früher kurz beschrieben, nach Möglichkeit experimentell erzeugte Daten
verwendet, um solche Aussagen zu erzeugen, weil diese klarere Schlussfolgerungen zulassen.
Warum? Stellen Sie sich vor, Sie hätten zwei Therapien zur Depressionsbehandlung:
“Muckelfucktherapie” und Psychopharmaka. Stellen Sie sich vor, Sie hätten zwei grosse
Gruppen von Patienten, solche, die sich für Muckelfucktherapie entscheiden, und solche, die
lieber Psychopharmaka nehmen. Nun stellen Sie nach einer gewissen Beobachtungszeit fest,
dass es den Patienten, die Muckelfucktherapie genommen haben, besser geht als den anderen.
Können wir den Unterschied auf die Therapie zurückführen? Nicht notwendigerweise. Denn
es könnte ja sein, dass z.B. alle oder viele Patienten, die sich für Muckelfucktherapie
entscheiden, eine bestimmte noch nicht bekannte genetische Veranlagung haben, die dazu
führt, dass sie Omega-3 Fettsäuren besser verstoffwechseln können, und dass Depression u.a.
auch darauf zurückzuführen ist, dass Menschen zuwenig solcher Fettsäuren haben. Wir hätten
also in unserer Muckelfuckgruppe implizit solche Menschen, die vielleicht etwas leichter von
selber wieder aus ihrer Depression finden und würden eine spontane Besserung
fälschlicherweise der Therapie zuschreiben. Oder Patienten der Muckelfuckgruppe könnten
etwas gebildeter sein. Nun wissen wir aber, dass sich besser gebildete Menschen rascher
eigene Ressourcen zur Besserung erschliessen können. Also würden wir einen Effekt der
sozialen Unterschiede übersehen, wenn wir davon ausgingen, dass die Unterschiede zwischen
den Gruppen auf die Therapie zurückzuführen seien.
14
Es gibt eine Unzahl von möglichen Einflussfaktoren auf Krankheiten. Solche die wir kennen,
wie etwa einige genetische Faktoren des Stoffwechsels, Bildung, sozialer Status, Rauchen
oder Alkoholkonsum, und viele, die wir nicht kennen. Wer weiss, vielleicht stellt sich
irgendwann heraus, dass eine Geburt im Winterhalbjahr ein Risikofaktor in Zusammenhang
mit einer bestimmten genetischen Konstellation für irgendeine Krankheit ist?
Randomisierung
Um solche bekannten und auch unbekannten Faktoren in den Griff zu bekommen, wenden
Forscher gerne einen Trick an: sie weisen die Patienten auf die Gruppen per Zufall zu, also
technisch mit einem Computerprogramm. Dadurch werden alle möglichen Einflussfaktoren so
auf beide Gruppen verteilt, dass sie überall einen gleich grossen oder kleinen Einfluss
ausüben. Wenn man dann eine Intervention einführt, die nur eine Gruppe erhält, und wenn
man sorgfältig misst, dann kann man mit einiger Sicherheit davon ausgehen, dass
Unterschiede zwischen den Gruppen mit der Intervention zu tun haben und nicht mit
Unterschieden, die schon vorher oder implizit da waren. Diese Theorie greift auf jeden Fall
dann, wenn die Studien gross genug sind, also so ca. ab 300 Patienten, und wenn der Zufall
bei seiner Ausübung nicht gestört wird, wenn man also unbeschränkt zuteilen würde.
Letzteres wird selten gemacht. Denn wenn man einfach nur würfelt, dann kann es sein, dass
die Gruppen ungleich gross werden. Das versucht man zu vermeiden, da statistisch betrachtet
immer die kleinste Gruppe bestimmt, wie mächtig der Test ist. Wenn man also einen
Unterschied von 50 Personen zwischen zwei Gruppen hat, hat man z.B. in der einen Gruppe
150 und in der anderen Gruppe 200, dann hat man 50 Personen umsonst rekrutiert. Da das
Einschliessen von Patienten in Studien teuer ist versucht man solche Unterschiede zu
vermeiden und randomisiert in Blöcken. Das heisst man beschränkt den Zufall auf Einheiten
von 4 oder 8 oder 10 o.ä., so dass sich die Gruppen maximal um so viele Patienten
unterscheiden können. Allerdings ist dann aber auch die Zufallszuteilung in ihrer Mächtigkeit
beschnitten. Aus diesem Grund funktioniert Randomisation wirklich gut erst ab ca. 150
Patienten pro Gruppe. Es wurden zwar Alternativen vorgeschlagen, die sog.
Minimierungsstrategie, bei der Computerprogramme Patienten durch Berechnung der
Unterschiede zwischen Gruppen verteilen, aber diese haben sich leider nicht durchgesetzt,
weil sie etwas komplizierter sind.
Randomisation führt also dazu, zumindest theoretisch und praktisch in grossen Studien, dass
Ausgangswerte in beiden Gruppen gleich verteilt sind. Reicht aber Randomisation schon aus?
Meistens nicht.
Homogenisieren
Meistens führen Forscher noch eine Reihe anderer Methoden ein, um ihre Studien
abzusichern. Vor allem versuchen sie, homogene Gruppen zu erzeugen. Warum? Weil sie
dann mit kleineren Patientenzahlen Effekte zeigen können. Erinnern wir uns: Patienten in
Studien einzuschliessen ist teuer. Manche schätzen, ein Patient kostet in einer längeren Studie
bis zu $ 28.000 (das sind Kosten für den Arzt, der eine Prämie kriegt, für wissenschaftliches
und ärztliches Personal, das Daten erhebt, auswertet und überwacht, etc.). Man versucht also
normalerweise mit möglichst wenig Patienten auszukommen. Das ist schon ethisch
notwendig, denn schliesslich ist jedes Experiment immer auch mit Belastungen, möglichen
Nachteilen oder Nebenwirkungen verbunden, und Ethikkommissionen achten darauf, dass
nicht unnötigerweise experimentiert wird. Wie kann man aber das feine Signal einer
Intervention vom Rauschen der Kontrollgruppe trennen? Man arbeitet mit möglichst
homogenen Gruppen. Das wird bewerkstelligt, indem man Kriterien formuliert, unter denen
man davon ausgeht, dass eine Therapie am besten funktioniert. Ausschlusskriterien sagen,
welche Patienten nicht in der Studie behandelt wurden. Häufig finden sich unter diesen
15
Kriterien abgesehen von Standardkriterien wie der Altersbegrenzung, der schwangeren und
stillenden Frauen (weil man nicht weiss, ob nicht möglicherweise eine Gefährung eintreten
kann) oder des Sprachverständnisses solche, bei denen Patienten mit bestimmen
Schweregraden einer Diagnose ausgeschlossen werden – z.B. besonders schwer Depressive,
oder leicht Depressive – oder Patienten mit mehreren Diagnosen – z.B. mit Depression und
Angst, Abhängigkeitsstörung oder Persönlichkeitsstörung. Das hat zur Folge, dass es meistens
leichter ist, in solchen experimentellen Studien Effekte zu erzeugen, die grösser sind als
diejenigen in der Kontrollbedingung – oder gleich gut, je nachdem, welche
Kontrollbedingung gewählt wird und was man zeigen will.
Andere formale und inhaltliche Voraussetzungen des Experiments
Experimente kann und darf man an Menschen nur durchführen, wenn es gute Gründe dafür
gibt. Eine der hauptsächlichen Vorbedingungen ist, dass man nicht genau weiss, was wirklich
gut funktioniert, dass also unsere Erkenntnis in der Schwebe ist („equipoise“). Das ist immer
dann der Fall, wenn man neue Interventionen testet, von denen keiner weiss, wie gut sie sind.
Eine Konsequenz dieser Situation ist, dass keiner, Behandler und Patienten, eine wirkliche
Präferenz hat oder haben sollte, die sie zu einer bestimmten Behandlung hingezogen sein
lässt. Experimente darf man auch nur dann durchführen, wenn die Patienten wissen, worauf
sie sich einlassen und zustimmen, also bewusst ihr Einverständnis geben. Praktisch sieht dies
so aus, dass man Patienten schriftlich und mündlich ausführlich erklärt, wie die Studie
aufgebaut ist, was alles passiert, wie oft sie kommen müssen, welche Fragebögen sie wann
ausfüllen müssen, welche Vorteile, und welche Nachteile sie zu erwarten haben, welche
Messungen vorgenommen werden, wie die Bedingungen aussehen die getestet werden (z.B.
Therapie und Placebo, oder zwei verschiedene Therapien) – und mit welchen
Nebenwirkungen zu rechnen ist. Des weiteren kann man solche Studien meistens nur mit
einer entsprechenden Logistik aufbauen. Die findet sich aber nur bei grossen Kliniken, in
Universitäten oder bei spezialisierten Unternehmen. Schätzungen gehen davon aus, dass nur
ungefähr 1-5% aller Patienten in klinischen Studien aus der niedergelassenen Praxis kommen,
der Rest wird in Kliniken, also in spezialisierten Behandlungszentren rekrutiert.
Das führt dazu, dass nur bestimmte Patienten in Studien eingeschlossen werden: solche,
denen es egal ist, wie sie behandelt werden und die voll und ganz der Klinik, dem
Studienzentrum oder dem Arzt vertrauen und solche, die mit Erkrankungen, die in der
niedergelassenen Praxis nicht mehr behandelbar sind, in der Klinik landen.
Der Nachteil der klassischen Strategie: mangelnde Generalisierbarkeit
Daran erkennt man den hauptsächlichen Nachteil dieser experimentellen Strategie: die
Ergebnisse sind streng genommen nur auf eine ganz kleine Zahl aller Patienten anwendbar.
Bei 95% aller Patienten wissen wir nicht, ob die gefundenen Ergebnisse überhaupt anwendbar
sind. Dies ist das Problem der Generalisierbarkeit oder der sog. „externen Validität“. Das
Schlimme daran ist folgendes: Wir wissen nicht genau, wie interne Validität, also die
methodischen Charakteristika einer Studie, und externe Validität, also die Generalisierbarkeit
auf andere Patienten miteinander zusammenhängen und können daher nicht durch
mathematische Modelle oder Überlegungen dieses Manko wettmachen. Wir wissen nur eines:
je höher die interne Validität ist, umso grösser ist die Wahrscheinlichkeit, dass die externe
Validität sinkt. Denn mit jedem ausgeschlossenen Patienten, mit jedem Ausschlusskriterium,
mit jedem Patienten der keine Lust hat, durch Zufall einer Behandlung zugeteilt zu werden;
mit jedem Patienten, der nicht in einem spezialisierten Studienzentrum behandelt wird sinkt
die Generalisierbarkeit. Dies ist weniger ein Problem für extrem dicht beforschte Gebiete, wie
etwa die akute Onkologie. Da wissen wir meistens sehr gut, was wie funktioniert, denn hier
werden die Patienten tatsächlich dort rekrutiert, wo sie auch behandelt werden. Es ist aber ein
16
grosses Problem für alle eher vagen Erkrankungen oder für Erkrankungen, die oft mit
verschiedenen anderen Diagnosen einhergehen. Und das sind die allermeisten anderen
Erkrankungen.
Ich will dies an einem Beispiel verdeutlichen: Wir haben eine Fülle von
psychopharmakologischen Depressionstherapien. Sie sind alle amtlich zugelassen, haben also
irgendwann einmal mindestens eine, in der Regel mehrere, Studien hinter sich gebracht, die
zeigen, dass sie einer Scheintherapie, in diesem Falle Placebo, überlegen waren. Für fast alle
gibt es auch eine Fülle von Studien, die zeigten, dass sie nicht besser als Placebo waren,
genauer gesagt in mehr als der Hälfte der Fälle war das der Fall, aber grosso modo
funktionieren sie. Die Effekte sind nicht überragend gross, aber alles zusammen, PlaceboEffekt und pharmakologischer Effekt ist in diesen Studien gross genug, so dass man den
Eindruck gewinnt, die Medikamente funktionieren (die Frage nach dem Placebo-Effekt
behandeln wir später). Nun wurden diese Daten alle in gezielten Experimenten gewonnen: mit
Patienten, die nur Depression hatten, nichts anderes, und zwar nicht zu stark und nicht zu
wenig depressiv, die keine Alkoholabhängigkeit hatten, wo die Depression nicht als
Folgeerscheinung anderer Erkrankungen auftrat, die keine zusätzliche Angststörung hatten
etc.
In der Praxis haben aber die meisten Depressiven noch viele andere Probleme. Deswegen hat
man eine riesige Studie angestrebt, die die Effekte von Depressionstherapie untersucht hat, so
wie sie in der Praxis stattfindet, die sog. STAR*D-Studie: In einem ausgeklügelten
Eskalationsprogramm konnten Psychiater von einer Medikation zur nächsten wechseln, wenn
die erste nicht funktioniert hat, auch Psychotherapie verordnen, bis am Schluss ganz neue,
starke und auch nebenwirkungsträchtige Medikamente zum Einsatz kamen, ganz so wie auch
in der Praxis. Das Ergebnis war ernüchternd: weniger als 50% der Patienten werden dauerhaft
(in diesem Falle mindestens ein Jahr) frei von ihrer Depression. Eine kritische Analyse zeigt
sogar, dass die Daten geschönt wurden und insgesamt weniger als 38% von dieser
pharmakologischen Therapie profitieren. Dieses Beispiel zeigt: was man aus randomisierten,
klinischen Experimenten an Erkenntnissen gewinnt, ist nicht notwendigerweise auf die Praxis
anwendbar – eben weil die Generalisierbarkeit der Ergebnisse durch das Experimentieren
selbst eingeschränkt wird.
Wir müssen also immer zwischen Scylla und Charybdis durchsegeln: auf der einen Seite
wollen wir gültige Ergebnisse, auf der anderen Seite wollen wir Ergebnisse, die anwendbar
sind. Kann man das nicht in einer richtig guten Studie gemeinsam klären? Jein. Man könnte,
in sog. „Megatrials – Riesenstudien“ meinethalben 100.000 Leute zufällig auf zwei
Bedingungen aufteilen und behandeln, keine Ausschlusskriterien ausser der Diagnose. Dann
hätte man maximal generalisierbare, experimentelle Daten. Das Problem: solche Studien sind
extrem teuer und etwa in Europa kaum durchführbar. Daher weichen Proponenten solcher
Studien nach Russland, China oder anderswo aus. Können wir dann solche Ergebnisse in
Europa verwenden? Keiner weiss es. Ausserdem könnte es sein, dass eine wertvolle
Behandlungsmethode nur bei einer bestimmten Gruppe von Patienten funktioniert. Solche
differenzierten Effekte werden in Riesenstudien übersehen. Daher kann man keine
eierlegende Wollmilchsau erfinden, die zugleich gültige und generalisierbare Ergebnisse
liefert. Vielmehr muss man auf eine Strategie ausweichen, die diese Daten in
unterschiedlichen Studien erzeugt und dann zusammenführt. Dies ist es genau, was das
zirkuläre Modell vorschlägt.
17
← Zurück zu Kapitel 2
Weiter zu Kapitel 4 →
Literatur:
Aickin, M. (1983). Some large trial properties of minimum likelihood allocation. Journal of
Statistical Planning and Inference, 8, 11-20.
Aickin, M. (2001). Randomization, balance, and the validity and efficiency of design-adaptive
allocation methods. Journal of Statistical Planning and Inference 94, 97-119.
Aickin, M. (2002). Beyond randomization. Journal of Alternative and Complementary
Medicine, 8, 765-772.
Fava, G. A., Tomba, E., & Grandi, S. (2007). The road to recovery from depression – don´t
drive today with yesterday´s map. Psychotherapy and Psychosomatics, 76, 260-265.
Khan, A., Khan, S., & Brown, W. A. (2002). Are placebo controls necessary to test new
antidepressants and anxiolytics? International Journal of Neuropsychopharmacology, 5, 193197.
Pigott, H. E., Leventhal, A. M., Alter, G. S., & Boren, J. J. (2010). Efficacy and effectiveness
of antidepressants: current status of research. Psychotherapy and Psychosomatics, 79, 267279.
Rush, J. A., Trivedi, M. H., Wisniewski, S. R., Nierenberg, A. A., Stewart, J. W., Warden, D.,
et al. (2006). Acute and longer-term outcomes in depressed outpatients requiring one or
several treatment steps: A STAR*D report American Journal of Psychiatry, 163, 1905-1917
Stewart, D. J., Whitney, S. N., & Kurzrock, R. (2010). Equipoise lost: ethics, costs, and the
regulation of cancer clinical research. Journal of Clinical Oncology, 28, 2925-2935.
Walach, H., Falkenberg, T., Fonnebo, V., Lewith, G., & Jonas, W. (2006). Circular instead of
hierarchical – Methodological principles for the evaluation of complex interventions. BMC
Medical Research Methodology, 6(29).
(4) EBM in Aktion: Ein konkretes Beispiel
[English Version: Part 4 - EBM]
Behandlung chronischer Schmerzen mit Entzündungshemmern
Ich hatte Ihnen ja ganz am Anfang vorgeschlagen, sich einmal eine beliebige
Behandlungsrichtlinie zu suchen, sich dort eine der Behandlungsroutinen anzusehen und
nachzuschauen, auf welche Daten sich diese Vorgaben stützen. Dann, so meine Idee, wäre es
nützlich, sich ein paar Originalstudien anzusehen, um zu prüfen ob die Patienten die in diesen
Studien eingeschlossen wurden mit denen vergleichbar sind, die Sie selbst in der Praxis sehen.
Die Idee dahinter (Sie erinnern sich sicherlich): Randomisierte Studien, die ja zu denen
gehören die intern valide Ergebnisse erzielen, leiden oft an mangelnder Generalisierbarkeit.
18
Genau das wollte ich an diesem Beispiel konkretisieren. Aber: wie so oft überrascht einen die
Wirklichkeit damit, dass sie bunter und schräger ist, als man sich das in den wildesten
Träumen vorstellen kann.
Folgen Sie mir daher auf meiner eigenen Reise:
Ich habe also meine Hausaufgabe gemacht (genauer gesagt: ich habe meine Assistentin
Majella gebeten, mir dabei zu helfen, bei ihr möchte ich mich an dieser Stelle mal explizit
bedanken, damit Sie auch erfahren, wer u.a. noch hinter meiner Arbeit steht). Dazu habe ich
mir die neuesten Behandlungsrichtlinien der “American Association for Anesthesiology”
gegriffen, die von der “Task Force on Chronic Pain Management”, einer eigens eingesetzten
Arbeitsgruppe 2010 publiziert wurden, also taufrisch [1]. Chronische Schmerzen, so denkt der
Normalverbraucher, werden meistens und zunächst medikamentös behandelt. Das liest man
auch in allen Originalstudien und Übersichtsarbeiten die sich mit chronischer
Schmerzbehandlung beschäftigen bereits in der Einleitung (ein paar Beispiele: [2-5]).
Rückenschmerzen, zumal chronische, machen den Hauptanteil an chronischen Schmerzen
aus. Auch die werden, logischerweise, zunächst hauptsächlich mit Schmerzmitteln behandelt.
Das leuchtet allen ein und klingt zunächst plausibel und auch sehr wissenschaftlich. Denn
wozu, wenn nicht zur Behandlung von Schmerzen, wären solche Arzneimittel zugelassen?
Das spiegelt sich auch in den „Chronic Pain Management Guidelines“ wieder: es werden eine
Fülle von Methoden besprochen und selbstverständlich gehören medikamentöse
Behandlungen zu diesen Methoden. Die Richtlinien führen aus: Man könne auch mit
nichsteroidalen antiinflammatorischen (Schmerzmittel und Entzündungshemmer) Substanzen
behandeln. Einfache Schmerzmittel, wie Aspirin, funktionieren bei chronischen Schmerzen
nicht. Das sieht man leicht daran, dass die Schmerzen immer noch bestehen und chronisch
geworden sind; unter “chronisch” versteht man hier Schmerzen, die nach 6 Monaten immer
noch da sind oder immer wieder auftreten.
Die besagten Schmerz- und Entzündungshemmer werden auch nichtsteroidale antiinflammatorische Substanzen, (NSAIDs = non-steroidal anti-inflammatory drugs) genannt.
Das sind Substanzen, die die sog. Cyclooxigenasen (Cox) hemmen. Diese Enzyme braucht
der Körper, um Prostaglandine zu synthetisieren, und sie spielen wiederum bei der
Entzündungskaskade, die zu Schmerzen führt, eine entscheidende Rolle. Von diesen
Cyclooxigenasen gibt es mindestens zwei verschiedene, die unterschiedliche Aufgaben haben.
Die alten Entzündungshemmer – Aspirin, Ibuprofen, Diclofenac – wirken auf beide. Deshalb
versuchte man Substanzen zu entwickeln, die nur Cox2 hemmen und Cox1 in Ruhe lassen.
Das gelang auch, und einige dieser Substanzen wurden zugelassen und auch als hochwirksam
gelobt. Allerdings ergaben sich bei manchen auch extrem starke Nebenwirkungen, vor allem
Todesfälle aufgrund von Herzversagen, so dass manche wieder ihre Zulassung verloren.
Bekannt ist noch der Skandal um Vioxx von Merck – einem Cox2-Hemmer. In England
machen NSAIDs 5% aller Verschreibungen überhaupt aus, 16.500 Tote durch
Nebenwirkungen gehen auf ihre Rechnung und in den USA über 100.000 Hospitalisierungen
[6].
Also: NSAIDs, die im wesentlichen Cox-Hemmer sind, werden von der Richtlinie zur
Behandlung chronischer Schmerzen empfohlen; das sei von der Literatur gestützt.
Das Literaturverzeichnis, das ist der Nachteil bei dieser Richtlinie, ist so dick, dass es nicht
mitpubliziert wurde; nicht jeder hat, wie ich, eine Majella bei der Hand, die dieser Literatur
durch das Dickicht des Internets nachläuft. Wir haben das getan und die Literaturliste
heruntergeladen und durchforstet. Folgt man den Zitaten, bezieht sich die Richtlinie auf 5
19
Studien, in Worten: fünf [3,4,6-8]. Und nicht vergessen: wir sprechen von der Behandlung
chronischer Schmerzen, insbesondere Rückenschmerzen. Sehen wir uns die Daten genauer
an:
Berry und Kollegen (1982) teilten 37 Patienten mit chronischen Rückenschmerzen (in
Worten: siebenundreissig) auf drei Gruppen auf. Eine erhielt Placebo und zwei erhielten
Naproxen, ein typisches NSAID, oder eine mittlerweile aufgegebene Substanz, Difluisal.
Schätzen Sie mal wie lange behandelt wurde? Bedenken Sie: wir reden von chronischen
Rückenschmerzen. Nein, nicht 6 Wochen, auch nicht 4, sondern 2. Das Ergebnis: Naproxen
wirkt besser als die beiden anderen Substanzen, Difluisal ist nicht besser als Placebo. Die
Schmerzen bessern sich. Langzeiteffekt? Unbekannt. Langzeitnebenwirkungen? Nicht
getestet. Teilen Sie mal 37 durch 3. Dann werden Sie sehen: so rasend viele Patienten wurden
da nicht untersucht. Was meinen Sie: Ist das eine gute Datenbasis für Generalisierungen? Ist
das eine gute Datenbasis für Langzeitanwendung an vielen Patienten, nicht nur über 2
Wochen, sondern vielleicht über 2 oder mehr Jahre?
Driessens und Kollegen (1994) untersuchten an 30 chronischen Rückenschmerzpatienten über
2 Wochen die Wirksamkeit von Ibuprofen, eines relativ bekannten Schmerz- und
Entzündungsmittels, und verglichen das mit Diclofenac, einem anderen typischen CoxHemmer; Placebo- oder Nichtbehandlungskontrolle gab es nicht. Aus der Diclofenacgruppe
zogen sich 6, aus der Ibuprofengruppe 4 Patienten wegen Nebenwirkungen zurück; ansonsten
waren die Verläufe ähnlich. Das ist eine Nebenwirkungsquote von 40% in der Diclofenacund ca. 25% in der Ibuprofengruppe. Wiederum: wir wissen nichts über Langzeiteffekte.
Die anderen drei Studien untersuchten Cox2 Hemmer. Diese Studien waren alle relativ gross
(700, 400, 300 Patienten) und untersuchten auch relativ lange (4 Wochen bis 3 Monate), einen
Cox2 Hemmer, manchmal in zwei Dosierungen gegen Placebo. Die Medikamente sind alle
wirksam. Der Nachteil: zwei der drei Studien untersuchten einen Cox2 Hemmer, der bereits
bevor die Richtlinien publiziert worden waren wieder vom Markt genommen worden war,
weil die Nebenwirkungen zu gross waren.
Es gibt also noch drei Studien, so scheint es, die den Einsatz von NSAIDs, wie gesagt die
meistgebrauchten Medikamente bei chronischen Schmerzen, stützen. Von denen sind zwei
Studien winzig und sehr kurz, geben keine Auskunft über Langzeitwirkungen und können
schon von ihrer Anlage her wenig Auskunft über Nebenwirkungen geben. Und wo sie es tun,
findet man einen hohen Prozentsatz solcher Nebenwirkungen. Die dritte Studie geht über drei
Monate. Wir wissen immer noch nicht, was passiert, wenn chronische Schmerzpatienten
solche Arzneimittel länger nehmen. Solche Daten liegen nicht vor bzw. werden von der
Leitlinie nicht zitiert.
Sieht man sich die Einschlusskriterien der Studien an so findet man, dass Patienten mit
anderen Krankheiten – Depression, Angst, anderen körperlichen Erkrankungen – nicht mit
aufgenommen worden waren. Die Generalisierbarkeit der Ergebnisse ist also eingeschränkt.
Aber Moment mal. Kann das wirklich sein, dass diese fünf Studien alles ist was wir haben?
Doch wohl eher nicht, werden Sie denken. Und Sie haben Recht. Denn wenn man ein
bisschen stöbert – und da habe ich dann auch aufgehört, weil es ausreichend ist – dann findet
man:
Im Jahre 2000 wurde ein hochkompetenter Überblick im Rahmen der Cochrane-Collaboration
publiziert [2]. Das ist eine Gruppe von Wissenschaftlern, die es sich zum Ziel gemacht hat,
20
das vorhandene Wissen aus Studien in systematischer Weise aufzuarbeiten, zur Verfügung zu
stellen und auch zu bewerten. Diese Arbeit stellt fest: immer noch (Damals, im Jahr 2000!)
gehören NSAIDs zu den meist gebrauchten Substanzen, obwohl ihre Wirksamkeit nicht
ausreichend (!) belegt sei. Diese Überblicksarbeit fasst 53 Studien zusammen, u.a. auch die
beiden früheren, die von den Guidelines zitiert werden. Sie kommt zu dem Schluss: NSAIDs
sind zur Behandlung chronischer Rückenschmerzen ungeeignet, weil sie unwirksam sind.
Dieser Befund spiegelt einen früheren wieder [5], der zum Schluss kommt, solche Substanzen
seien nur kurzfristig, also ca. 2 Wochen wirksam und für die Behandlung chronischer
Schmerzen nicht geeignet.
Berücksichtigen die Richtlinien diese Befunde? Nein. Warum nicht? Gute Frage. Was meinen
Sie?
Dieser Befund ist erschreckender, als ich das selbst in meinen kühnsten Träumen erwartet
hätte. Da werden Substanzen verwendet, die meistgebrauchten überhaupt, bei dem Syndrom
das am meisten vorkommt. Es wurden zig Studien dazu durchgeführt. Wenn man sie
überblickt zeigt sich: Die Substanzen wirken gar nicht gut genug. Aber die neuesten
Richtlinien empfehlen sie trotzdem, und alle nehmen sie ein, und riskieren viele
Nebenwirkungen. Was heisst das?
Zum einen bedeutet dies doch offensichtlich, dass in der Praxis die vermeintliche
Wissenschaftlichkeit der medizinischen Tätigkeit doch weniger stark ist, als man gemeinhin
so denkt. Das hat übrigens auch eine grossangelegte Praxisstudie in England herausgefunden
[9], die zeigt, dass Allgemeinpraktiker wissenschaftliche Information nur als eine von vielen
Informationsquellen verwenden. Viel wichtiger ist informelle Information: Beispiele und Tips
von Kollegen und ihre eigene Erfahrung.
Das bedeutet zum anderen, dass die viel beschworene wissenschaftliche Evidenz gar nicht so
ernst genommen wird, wie man denkt. Wir alle stehen unter einer Dunsthaube: wir meinen,
was so an wissenschaftlicher Medizin verkauft wird, basiert auf reinsten wissenschaftlichen
Daten. Wie wir an diesem Beispiel sehen, stimmt das offenbar nicht immer. Woher kommt
das? Ich vermute, das liegt an verschiedenen Vormeinungen und Interessen. Wir alle denken,
Medikamente wirken. Dafür sind sie ja schliesslich da. Tun sie auch, in gewissen Grenzen.
Diese Grenzen werden aber oft überstrapaziert, wie wir am Beispiel der NSAID-Therapie und
chronischen Rückenschmerzen sehen. Aber davor verschliessen alle geflissentlich die Augen.
In diesem konkreten Falle würde ein Ernstnehmen der vorliegenden Daten schon helfen und
wir würden nie im Traum auf die Idee kommen, NSAIDs zur Therapie chronischer
Schmerzen zu empfehlen. Der englische Regulator, NICE (National Institute for Clinical
Excellence) hat dies übrigens gesehen und empfiehlt in seiner neuesten Richtlinie Bewegung,
Manipulation und Mobilisation, sowie Akupunktur als die einzig wirksam Massnahmen.
Was lernen wir daraus? Auch medizinische Qualitätssicherung und Leitlinien beheben die
Entscheidungsnot nicht. Eine Untersuchung hat kürzlich gezeigt: es gibt so viele Leitlinien die
sich widersprechen – und von diesen so viele einzelne, dass sie niemand mehr zur Kenntnis
nimmt und genau das Gegenteil von dem erzeugt wird, was man haben will, nämlich
anarchistisches Verhalten [10]. Aber das nur am Rande.
Was heisst das methodisch? Die vielbeschworene EBM-Pyramide funktioniert in der Praxis
gar nicht. Zum einen sind die Studien nicht so zahlreich, wie man denkt. Zum anderen werden
die Ergebnisse dann, wenn sie einem nicht in den Kram passen, offenbar ignoriert. Warum ist
das so? Vielleicht auch deswegen, weil es andere Informationsquellen gibt, die Ärzte und
21
Patienten nutzen, die sie implizit wichtig finden, und die in den formalisierten Studien nicht
abgebildet sind. Meine Vermutung ist: Ärzte (und Patienten) haben implizit ein anderes
Erkenntnismodell vor Augen und die Vorschrift von der Evidenzhierarchie der EBM ist genau
das, was sie ist: eine Vorschrift. Und Vorschriften haben es so an sich, dass sie gerne ignoriert
oder übertreten werden, vor allem wenn sie unvernünftig sind.
Ich behaupte: Im Prinzip haben wir Menschen ein implizit multiples und zirkuläres
Erkenntnismodell vor Augen. Wir nutzen vielfältige Informationsquellen und es ist
unnatürlich, sich nur auf eine zu stützen. Aus diesem Grund allein schon kann die EBMMethode der hierarchischen Erkenntnisgewinnung nicht funktionieren. Aber es gibt auch noch
methodische Gründe, weswegen ein anderer Ansatz besser ist. Dazu dann in den folgenden
Kapiteln.
← Zurück zu Kaptitel 3
Weiter zu Kapitel 5 →
Literatur:
1.
Task Force on Chronic Pain Management: Practice guidelines for chronic pain management. Anesthesiology
2010;112:810-833.
2. van Tulder MW, Scholten RJPM, Koes BW, Deyo RA: Nonsteroidal anti-inflammatory drugs for low back pain.
Spine 2000;25:2501-2513.
3. Katz N, Ju WD, Krupa DA, Sperling RS, Rodger DB, Gertz BJ, Gimbel J, Coleman S, Fisher C, Nabizadeh S,
Borenstein D, Group VCLBPS: Efficacy and safety of rofecoxib in patients with chronic low back pain.
Results from two 4-week, randomized, placebo-controlled, parallel-group, double-blind trials. Spine
2003;28:851-859.
4. Birbara SA, Puopolo AD, Munoz DR, Sheldon EA, Mangione A, Bohidar NR, Geba GP, Group EPS: Treatment
of chronic low back pain wtih etoricoxib, a new cyclo-oxygenase-2 selective inhibitor: improvementi n pain
and disability – a randomized, placebo-controlled, 3 month trial. Journal of Pain 2003;4:307-315.
5. Koes BW, Scholten RJPM, Mens JMA, Bouter LM: Efficacy of non-steroidal anti-inflammatory drugs for lowback pain: a systematic review of randomised clinical trials. Annals of the Rheumatic Diseases 1997;56:214223.
6. Coats TL, Borenstein DG, Nangia NK, Brown MT: Effects of Valdecoxib in the treatment of chronic low back
pain: Result of a randomized, placebo-controlled trial. Clinical Therapeutics 2004;26:1249-1260.
7. Driessens M, Famaey J-P, Orloff S, Chochrad I, Cleppe D, de Brabanter G, Ginsberg F, Mindlin A, Soenen M:
Efficacy and tolerability of sustained-release ibuprofen in the treatment of patients with chronic back pain.
Current Therapeutic Research 1994;55:1283-1292.
8. Berry H, Bloom B, Hamilton EBD, Swinson DR: Naproxen sodium, diflunisal, and placebo in the treatment of
chronic back pain. Annals of the Rheumatic Diseases 1982;41:129-132.
9. Gabbay J, le May A: Evidence based guidelines or collectively constructed “mindlines”? Ethnographic study
of knowledge management in primary care. British Medical Journal 2004;329:1013-1017.
10. Carthey J, Walker S, Deelchand V, Vincent C, Griffiths WH: Breaking the rules: understanding noncompliance with policies and guidelines. British Medical Journal 2011;343:d5283.
(5) Vom Verhältnis zwischen Empirie und
Theorie 1
[English Version: Part 5 - Empiricism]
Sind wir durch Daten bekehrbar?
Wir hatten im letzten Kapitel „EBM in Aktion“ gesehen: Die aktuellen Leitlinien der
amerikanischen Gesellschaft für Anästhesiologie empfehlen zur Behandlung chronischer
22
Rückenschmerzen u.a. nichtsteroidale Entzündungshemmer (sog. NSAID), also einfache
Schmerzmittel. Sie stützen sich dabei auf fünf Studien, von denen zwei sich auf
Schmerzmittel beziehen, die aufgrund ihrer Nebenwirkungen vom Markt genommen wurden
– und von den restlichen 3 Studien sind zwei so klein und kurz, dass sie eigentlich wenig
aussagekräftig sind. Hingegen ignoriert die Leitlinie eine autoritative Überblicksarbeit mit 53
Studien, im Jahr 2000 publiziert, die zum Schluss kommt, dass Schmerzmittel zur Therapie
chronischer Rückenschmerzen unbrauchbar sind.
Ich habe dieses Beispiel nicht deswegen ausgewählt, weil ich irgend jemanden anschwärzen
wollte, sondern ich hatte es mir selbst zur Recherche- und Demonstrationsaufgabe gemacht,
weil ich einmal überprüfen wollte, wie übertragbar Daten aus solchen klinischen Studien auf
Praxispopulationen sind. Letztlich war diese Fragestellung irrelevant und auch nicht zu
beantworten, weil sich eine andere Frage in den Vordergrund schob: Wie kommt es, dass eine
wissenschaftliche Fachgesellschaft angesichts überwältigend negativer Daten, angesichts der
allseits hochgelobten „Evidenz“ konventioneller medizinischer Forschung, die es ja auch
gerade hier beileibe gibt, solche Leitlinien herausgibt? Wie kann es sein, dass
wissenschaftliche Daten – erinnern wir uns: „Evidence Based Medicine (EBM)“ heisst,
richtig übersetzt, „auf wissenschaftliche Daten gestützte Medizin“ – so eklatant ignoriert
werden?
Dafür gibt es mindestens drei Gründe:
1.
2.
3.
Teil der EBM ist auch die klinische Erfahrung des Arztes. Diese geht auf dem Weg der Befragung der FachpanelMitglieder mit in die Bewertung ein. Und diese Erfahrung kann durchaus positiv sein, obwohl
wissenschaftliche Daten ein anderes Bild zeichnen. Warum? Ganz einfach, weil der Placebo-Effekt eine
enorm große Rolle spielt, und weil man auch mit der Mobilisierung von Hoffnung, Erwartung, Entspannung
und durch schlichte Konditionierung, also Lernerfahrung aus früheren Behandlungen, erstaunlich gute
Erfolge erzielen kann. Das ist auch gar nicht schlecht, im Gegenteil. Ich war schon immer dafür zu gewinnen,
dass der beste Therapeut derjenige ist, der Selbstheileffekte beim Patienten mobilisiert. Allerdings ist es
gerade bei NSAIDs so, dass diese Effekte mit einem enorm hohen Nebenwirkungspotenzial erkauft werden.
Daher wäre es vermutlich nicht nur klüger, sondern sogar ethischer, Placebo-Effekte von Therapien zu
nutzen, die ansonsten nur sehr geringe, manchmal vielleicht gar keine spezifischen Effekte haben, dafür aber
sehr hohe Placebo-Effekte, jedenfalls bei den Patienten, die auf sie schwören. Dazu gehören vor allem
Verfahren der Komplementärmedizin; Akupunktur, Homöopathie, Radionik, Bioresonanz und Co. Also, halten
wir fest: ein Grund, warum NSAIDs immer noch in den Leitlinien stehen, ist die Tatsache, dass sie vermutlich
in den Händen der befragten Spezialisten hohe Placebo-Effekte erzeugen, vermutlich weil eben jene
Spezialisten auf sie schwören.
Es gibt einen ausgesprochenen Bias. „Bias“ ist Statistikerdeutsch und heißt „Verzerrung“. Damit ist hier eine
Verzerrung der Wahrnehmung gemeint, die dazu führt, dass die befragten Experten diese Therapien
wohlmeinender bewerten, als es aufgrund der Daten angemessen wäre. Das wollen wir heute nicht weiter
vertiefen. Der Schlüssel dazu findet sich im sog. „conflict of interest“, also im Interessenskonflikt. Es ist
bekannt und von der Presse schon oft angeprangert worden, dass in vielen Expertengremien die solche und
ähnliche Leitlinien verfassen mehrheitlich Forscher sitzen, die Forschungsgelder, Honorare oder gar Anteile
von Pharmafirmen haben, die diese Produkte herstellen. Das erzeugt Bias. Verzerrung erzeugt
Fehlwahrnehmung. Fehlwahrnehmung erzeugt Resistenz gegenüber der oft traurigen Wirklichkeit.
Das führt mich zum Dritten Punkt und zum heutigen Thema: Der Einfluss unser Vorerfahrungen. Wir sind alle in
der Regel weniger gute Empiriker, als wir es gerne hätten. Stattdessen werden wir geleitet von
Vormeinungen, die sich nur in Grenzen durch Daten verändern lassen. Und das ist die wissenschaftliche
Crux der ganzen Sache. Denn obwohl viele Menschen, Wissenschaftler zumal, so tun, als würden sie auf
empirische Daten hören, passiert in Wirklichkeit folgendes: sie haben aufgrund ihrer Ausbildung, aufgrund
ihrer Erfahrung, aufgrund dessen, was sie in ihrer Kultur und von ihren Kollegen und Gleichgesinnten gehört
haben eine bestimmte Erwartung geformt darüber, wie sich die Wirklichkeit aller Wahrscheinlichkeit nach
verhalten wird, was also vernünftigerweise zu erwarten ist. In dieses Weltbild wird all das eingeordnet, was
uns an Erfahrungen zustößt. Und wissenschaftliche empirische Daten sind auch nur eine Form der
Erfahrung, zwar eine sehr strukturierte und informativ dichte Erfahrung, aber eben nur eine unter vielen. Je
gefestigter unser Weltbild ist, je mehr Vorerfahrungen wir haben, desto schwieriger wird es für eine neue
Erfahrung, dieses unser Weltbild zu verändern. Meistens werden Erfahrungen dahingehend bewertet, ob sie
mit unserer Erwartung übereinstimmen, oder nicht. Sind sie konsistent und erwartungskonform, nehmen wir
sie dankbar, nickend und mit Wohlgefühl zur Kenntnis, speichern sie vielleicht unter der Kategorie „habe ich
doch immer schon gesagt“ ab – und gehen zur Tagesordnung über. Ist die Erfahrung, sind wissenschaftliche
Daten, inkonsistent mit der Erwartung die wir haben, haben wir zwei Möglichkeiten: wir ignorieren sie und
denken „das war jetzt eine Ausnahme“ oder „Ausreißer, Einzelfall, Zufall“. Oder aber wir nehmen die
Erfahrung ernst und müssen unsere Vormeinung ändern. Wann tun wir das? Und tun wir es überhaupt? Ich
behaupte: wir tun es selten, allzu selten. Denn wir sind von der biologischen Struktur her Bayesianer (s.u.). D.h.
wir tendieren dazu, unsere Vormeinung zu bestätigen und uns solche Informationen zu suchen, die genau das tun
23
und diejenige Informationen zu ignorieren, die unsere Vormeinung in Frage stellen. Jedenfalls in der Regel,
meistens und bei den meisten Leuten ist das so. Und leider auch allzu oft bei Wissenschaftlern.
Ich will das etwas ausführen und auch zunächst erklären, warum das möglicherweise
biologisch sinnvoll, aber wissenschaftlich gefährlich ist. Ich will auch kurz erklären, was ein
„Bayesianer“ ist; zur entsprechenden Statistik kommen wir erst später. Fangen wir von hinten
an:
Wir sind alle Bayesianer – Oder: Warum es sich lohnen könnte auf Vormeinungen zu
beharren
Thomas Bayes und Ausgangswahrscheinlichkeiten
Ein Bayesianer ist einer, der vorgeht, wie das von dem presbyterianischen Priester und
Mathematiker Thomas Bayes (1702-1761) in seinem Theorem formalisiert worden war.
Bayes hat sich u.a. auch mit Fragen der Wahrscheinlichkeit befasst. Normalerweise denken
wir über Wahrscheinlichkeit folgendermaßen: Nehmen wir an, in einer Schachtel befinden
sich 50 schwarze und 50 weiße Kugeln. Wir fragen uns dann: Wie groß ist die
Wahrscheinlichkeit, eine weiße Kugel zu ziehen, wenn alle gut durchmischt sind?
Klarerweise ½, weil es zwei Optionen gibt, die gleich oft vorkommen. Bayes drehte den
Spiess um. Er fragte sich: Angenommen ich habe ein paar Kugeln gehzogen und damit ein
klein wenig Ausgangsinformation, was weiß ich über die Kugeln in der Schachtel? Bayes
formalisierte also den Glauben über die Wirklichkeit, gegeben wir haben ein paar
Ausgangsinformationen und Erfahrungen oder empirische Daten über sie. Und er stellte fest –
was ja intuitiv ganz einleuchtend ist: wie wir Daten bewerten, also die Wirklichkeit, hängt
davon ab, was wir vorher über sie wissen, bzw. zu wissen glauben. Wissen wir wenig über
sie, ist also die Ausgangswahrscheinlichkeit (in Bayes’scher Terminologie die „prior
probability“) für ein bestimmtes Ereignis etwa genauso groß wie sein mögliches Gegenteil,
dann erreichen wir mit relativ wenig empirischem Aufwand eine bestimmte Sicherheit, wie
wir die Wirklichkeit bewerten (die sog. „posterior probability“). Das ist die Formalisierung
der Tatsache, wie empirische Wirklichkeit und Erfahrung Meinungen verändert. Wenn wir
keine dezidierte Meinung zu einem Thema haben, dann kann ein bisschen Information unsere
Meinung rasch bilden helfen bzw. uns eine gewisse Meinung vermitteln. Haben wir aber
bereits eine sehr stark geprägte und ausgesprochen klare Meinung zu einem Thema, dann
heißt das auch, dass das Gegenteil sehr unwahrscheinlich für uns ist, dass wir also sehr viel
empirische Daten und sehr viel Überzeugungsarbeit benötigen, bevor wir diese Meinung
verändern. [1]
Beispiel 1: Wenn ein Experte aufgrund einer langjährigen Ausbildung, Lektüre von zahllosen
Studien, aufgrund einer dauernden Informationsüberflutung mit Nachrichten über die
Nützlichkeit bestimmter Präparate, befördert durch ausreichend finanzielle Anreize durch
Arzneimittelhersteller erst einmal die Meinung gewonnen hat, NSAIDs seien nützliche
Arzneien, dann wird er diese Meinung erst dann aufgeben, wenn sehr gewichtige Erfahrungen
dagegen sprechen. Eine solche Erfahrung könnte sein, dass seine Frau aufgrund einer solchen
Behandlung an ernsthaften Nebenwirkungen erkrankt, oder vielleicht sogar eine Serie von
guten Studien, die ihn eines besseren belehren. Aber vermutlich würde eine einzige Studie
nicht reichen, vermutlich müssten es mehrere sein. Ein einfacher Review, auch wenn er noch
so systematisch ist, würde daran wohl nichts ändern, denn Reviews sind ja auch nichts
anderes als eine einzige Publikation, manchmal fehlerbehaftet, etc.
Beispiel 2: Wenn ein Wissenschaftler erst mal die Meinung gefasst hat, Homöopathie könne
gar nicht funktionieren, weil ja bekanntlich in homöopathischen Substanzen keine Moleküle
24
mehr drin sind, dann werden auch ganze Heerscharen von positiven Daten nichts an dieser
Meinung ändern können. Ich habe neulich auf einer Tagung das apostrophiert gesehen:
Barney Oliver, zu der Zeit Chef der Forschungabteilung bei HP, hat einmal geschrieben:
„This is the sort of thing I would not believe, even if it were true” (Das würde ich nicht mal
dann glauben, wenn es wahr wäre) Klingt zwar doof, ist aber absolut konsequent und
bayesianisch: wer einmal eine wirklich klare Vormeinung aufgrund anderer Erfahrung hat,
gibt sie nicht mehr so leicht preis.
Unser Gehirn ist eine Wirklichkeitskonstruktionsmaschine
Meiner Meinung nach ist dies biologisch vorgeprägt und macht daher auch – in Grenzen –
Sinn. Inwiefern und warum? Das hat mit unserer Neurobiologie zu tun. [2] Wir kommen auf
die Welt als einigermaßen unbeschriebene Blätter. Zwar gibt es genetisch ein paar Vorgaben,
aber im wesentlichen ist unser neuronales System noch nicht verschaltet, sondern tut dies in
den ersten Wochen, Monaten, Jahren mit enormer Geschwindigkeit und Plastizität. Diese
Plastizität bleibt zwar erhalten, aber nicht mehr mit der gleichen Dynamik wie in den frühen
Lebensjahren. Daher können kleine Kinder viele Sachen viel leichter lernen als Erwachsene –
Sport, Musikinstrumente, Sprachen, Jonglieren. Kleine Kinder in China lernen chinesisch in
drei Jahren, manche Erwachsene lernen es nie. Unsere Erfahrungen prägen uns und gestalten
die Art, wie unser Gehirn reagiert.
Wir wissen heute, dass es sehr viel konstruktiver ist, als wir denken. Der Hirnforscher Raichle
hat einmal das Wort von der dunklen Energie des Gehirns geprägt. Darunter versteht man in
etwa folgenden Sachverhalt: etwa 98% aller Gehirnaktivität, die in uns abläuft, ist damit
beschäftigt, interne Reize zu verarbeiten und nur maximal 2% aller Energie verwendet das
Gehirn darauf, Reize, die von außen kommen zu verarbeiten. Anders gesagt: Daten und
Information von außen modulieren allenfalls, was im Gehirn andauernd passiert. Was passiert
dort? Wir entwerfen eine Welt aus der Erfahrung, die wir gemacht haben, projizieren sie nach
draußen und passen diesen Entwurf nur dort an, wo er sich grob an der Wirklichkeit stößt.
Nochmals anders ausgedrückt: Wir nehmen nicht die Welt wahr, sondern wir konstruieren sie
dauernd neu, aufgrund unserer früheren Erfahrung. Was wir als Wahrnehmung der Welt
empfinden, ist „in Wirklichkeit“ (was auch immer wir jetzt darunter verstehen wollen) eine
Konstruktion, sanft moduliert durch eine zwar regelmäßige, aber doch moderate Überprüfung
an der Wirklichkeit.
Wir arbeiten nicht wie eine digitale Kamera oder sonst ein technisches Gerät, das wir
erfunden haben, das naiv und blanko die Wirklichkeit ablichtet. Wir sind mehr wie ein
Wirklichkeitsgenerator, der hin und wieder überprüft, ob die entworfene Wirklichkeit nicht
allzu sehr von der erfahrenen abweicht. Denn für das Überleben muss der Organismus nicht
die Wirklichkeit als Ganzes getreu abbilden, sondern nur Bereiche der Wirklichkeit so
passend in seine Wahrnehmung und sein Verhalten einbauen, dass das Überleben gesichert
ist.
Ein solches Vorgehen ist ja auch biologisch nicht dumm. Denn es kostet wesentlich mehr Zeit
und Energie, jede Sekunde alles wieder ganz neu von vorne zu entwerfen. Viel einfacher ist es
davon auszugehen: alles bleibt wie gewohnt – und nur das, was anders ist, wird in der
Innenrepräsentation und im Entwurf abgeändert.
So funktionieren wir biologisch als Lebewesen. Was für uns als individuelle Wesen mit
komplexem kognitivem Apparat gilt, gilt auch für uns als Wissenschaftler und gilt auch für
die Wissenschaft, die ja eine Ansammlung solcher Wissenschaftler ist. Das bedeutet: Es muss
uns gar nicht wundern, dass konventionelle Schmerztherapeuten NSAIDs bei chronischen
25
Schmerzen für wirksam halten, obwohl sie es gemäß aktueller Daten gar nicht sind. Ihre
Ausgangswahrscheinlichkeit für eine solche Aussage ist sehr hoch. So konstruieren sie die
Wirklichkeit. Daher müsste es sehr viele negative Daten geben oder eine sehr starke
Erfahrung, die sie verändert. Und deshalb wundert es mich auch nicht, auch wenn es mich
ärgert, dass Kritiker der Komplementärmedizin offenbar so datenblind sind. Auch hier gilt:
die Ausgangswahrscheinlichkeit, dass Komplementärmedizin oder Homöopathie funktioniert,
ist so gering in den Augen der Kritiker, dass selbst ein Riesenhaufen positiver Daten, den es ja
auch in manchen Bereichen gibt, kaum, oder zunächst kaum, einen Unterschied machen
würde.
Konkretisierungen und Beispiele
Sie können das durchprobieren. Ich habe ein hübsches Programm im Internet gefunden, das
Sie die entsprechenden Berechnungen vornehmen lässt; es zeigt Ihnen, wie konventionelle
statistische Ergebnisse ausgedrückt als p-Werte oder Irrtumswahrscheinlichkeiten
Vormeinungen verändern bzw. aufgrund bestehender Vormeinungen anders interpretiert
werden müssen: http://www.graphpad.com/quickcalcs/DistMenu.cfm
Gehen Sie zu „interpret a p-value“. Sie kommen zu einem Eingabe-Menü. Dieses fordert Sie
auf, einen p-Wert zu definieren. Nehmen wir an, Sie hätten eine Studie mit konventionellem
Signifikanzniveau von 0.05. Nehmen wir weiter an, die Studie hätte ordentliche statistische
Mächtigkeit gehabt, also Eingabe 90% (das werde ich in einem anderen Blog genauer
erläutern). Nun kommt die Korrektur für die Ausgangswahrscheinlichkeit. Nehmen wir an,
Sie sind Experte im Gremium und vorab der Meinung, Arzneimittel sind gut für die Welt und
Schmerzmittel wirken, auch im chronischen Fall. Ihre Ausgangswahrscheinlichkeit ist also
ebenfalls 90%.
Sie klicken auf „Berechne“ und sehen: eine einzige Studie dieser Art wird ihren Glauben, dass
Schmerzmittel wirken in eine virtuelle Sicherheit, nämlich in eine Wahrscheinlichkeit von
beinahe 100% verwandeln (Posterior probability = 0.9939). Angenommen, Sie würden in
einer solchen Situation ein nicht-signifikantes Ergebnis sehen, so wäre ihre nachgeordnete
Wahrscheinlichkeit, dass es sich dabei um einen Irrtum handelt, etwa 50%. Gehen wir davon
aus, dass die Ausgangswahrscheinlichkeit für Sie 99% ist, dass Schmerzmittel bei
chronischem Rückenschmerz wirken, dann wird ein signifikantes Ergebnis ihnen praktisch
100%ige Sicherheit bescheren und ein negatives Ergebnis Ihnen immer noch einen 91%igen
Spielraum lassen für die Interpretation, dass das Ergebnis einfach nur ein Missgriff war.
Simulieren wir umgekehrt einen Homöopathie-Skeptiker, der nur bereit ist mit einer 1%igen
Wahrscheinlichkeit anzunehmen, dass Homöopathie funktionieren kann. Eine signifikante
positive Studie dieser Art, mit 90%iger statistischer Mächtigkeit wird diese
Ausgangswahrscheinlichkeit nur auf 15% Wahrscheinlichkeit steigern. Ein negatives
hingegen seine 99%ige Sicherheit, dass es einen solchen Effekt nicht geben kann auf 99.89%
erhöhen also noch stärker in Richtung Sicherheit bewegen. Ist ein Kritiker nur bereit, mit
einem Promille davon auszugehen, dass Homöopathie funktioniert, wird eine Studie dieses
Promille zu einem Prozent verschieben.
Wir sehen: die Ausgangswahrscheinlichkeiten, die wir in unserem Kopf unterhalten, und zwar
als Resultat unserer vergangenen Erfahrung, unserer Vormeinung, unserer Eitelkeiten, oder
warum auch immer, beeinflussen sogar in einer formalisierbaren Weise, wie empirische Daten
unsere Vormeinung, unsere Sicht der Wirklichkeit verändern können oder auch nicht. Je
höher die Ausgangswahrscheinlichkeit, desto leichter akzeptieren wir ein empirisches
Ergebnis und umgekehrt. Wir sind eben alle Bayesianer. Daher können Experten NSAIDs
26
als wirksam bei chronischen Rückenschmerzen ansehen, obwohl sie es nicht sind, und
Homöopathiekritiker die vorhandenen Daten ignorieren (und dabei gleichzeitig anderen
vorwerfen, sie täten dies).
Aktuelles Beispiel: Prof. Ernst sagt, ich würde mich nicht von meinen eigenen negativen
Daten bekehren lassen und sei deshalb kein ernsthafter Wissenschaftler. Ich finde: das
Gegenteil ist der Fall. Ich habe eine der methodisch saubersten klinischen Studien zur
Homöopathie durchgeführt (sagt Ernst). [3] Diese ist negativ ausgegangen. Daraus habe ich
Konsequenzen gezogen, die vielen Homöopathen sauer aufgestoßen sind, und seither immer
gesagt, was auch immer dort passiert, es hat nichts mit einer konventionell-kausalen
Pharmakologie zu tun. Sonst würden wir anders geartete Effekte sehen. Gleichzeitig habe ich
auch noch eine Fülle anderer Erfahrungsdaten zur Verfügung: meine eigene persönliche
Erfahrung mit der Homöopathie, viele Fallberichte aus erstklassiger Hand und aus der
Literatur.
Ich habe also eine andere Ausgangswahrscheinlichkeit. Daraus habe ich den Schluss gezogen:
irgendwas ist hier ganz komisch und die einfache Hypothese „alles nur Placebo“ kann so auch
nicht stimmen. Ich habe dann ein paar Arzneimittelprüfungen gemacht. Das sind
experimentelle, verblindete Untersuchungen an Gesunden. Schon die ersten beiden
Pilotstudien haben interessante Daten zutage gefördert. Die Hauptstudie, bestehend aus zwei
Teilstudien, hat einen klaren signifikanten Effekt erzeugt. Eine zweite, davon unabhängige
Studie ebenfalls. [4] Daraus habe ich den Schluss gezogen: mindestens manchmal zeigen
homöopathische Arzneimittel andere Symptome an gesunden Freiwilligen als Placebos.
Wissenschaftslogisch heißt dies: die Aussage „Homöopathie ist immer und unter allen
Umständen gleichzusetzen mit Placebo“ kann pauschal so nicht stimmen. Nicht mehr, und
nicht weniger. Interessant ist nun folgendes: Kritiker ignorieren diesen Teil meiner Daten
geflissentlich. Als eine Spiegelredakteurin mir vor einiger Zeit per E-Mail einen Satz von
Fragen zur Homöopathie schickte, hatte ich ihr, wohl ahnend, dass sie einen
Homöopathieverriss im Begriff war zu schreiben, genau diese Daten geschickt mit der Bitte,
sie zu berücksichtigen. Das hat sie aber nicht getan.
Wochen vorher hatte die selbe Redakteurin öffentlich auf einem Podium verkündet, die
Homöopathie gehöre in die Medizingeschichte und ihre Aufgabe sei es, sie dorthin zu
befördern. Hier sehen wir Vormeinung und Pastor Bayes in Aktion. Wenn so etwas geschieht,
helfen Daten nie weiter, einfach deshalb, weil sie eine sichere Weltsicht erschüttern würden,
und das ist unbequem. Aus genau dem gleichen Grund zitiert mich Edzard Ernst auch falsch,
weil ihm der Rest meiner Daten nicht in sein theoretisches Weltbild passt. Ich finde das
schade, aber verständlich. Denn Menschen sind halt so. Wir sind, in der Regel, Bayesianer.
Ausblick
Einen guten Wissenschaftler unterscheidet von Möchtegernwissenschaftlern oder
selbsternannten Wissenschaftspäpsten normalerweise seine Bereitschaft, von Daten zu lernen,
seine Theorie der Erfahrung preiszugeben und anzupassen und die Offenheit für neue
Erfahrungen, obwohl er eine eigene Theorie hat. [5] Wie aber kann das gehen, werden Sie
sagen, nachdem wir doch offenbar als Bayesianer verdammt sind zu leben, schon aufgrund
unserer Biologie? Dafür gibt es ein kleines, aber sehr patentes Heilmittel: systematisches
Vergessen von Sicherheiten und Automatismen, systematisches Üben von Offenheit,
systematische Kultur unseres Geistes. Das kann man üben, z.B. durch Meditation, in der wir
den Geist frei machen und wieder neu ausrichten und öffnen für das Geheimnis des Lebens
und die Überraschungen, die es für uns bereithält. Je neu. Das ist die Essenz des Lebens, der
Spiritualität, und, jawohl, auch der Wissenschaft. [6] Dadurch werden wir von einem
27
vorgeprägten Bayesianer zu einem offenen Menschen. Wenn wir es nämlich schaffen, einer
empirischen Option, ob es NSAIDs bei chronischen Rückenschmerzen sind oder
Homöopathie, eine offene 50%ige Wahrscheinlichkeit einzuräumen, dass sie funktioniert,
dann reicht eine einzige gute Studie aus, um uns, im positiven Falle zu 95% zu überzeugen,
dass die Studie die Wirklichkeit abbildet und im negativen Falle ebenso. Offenheit spart
enorm Ressourcen, und würde uns viele Kämpfe ersparen.
Anmerkungen:
[1] Bayes’sche Statistik und entsprechendes Denken ist nicht ganz trivial. Daher ist es auch so
wenig verbreitet, obwohl es eigentlich viel natürlicher ist, als die herrschende frequentistische
Statistik. Ich habe als Einführung sehr nützlich gefunden die unten zitierten Arbeiten von
Pamar et al. (2001), Raha (2011) und ein sehr gutes Beispiel liefert Tressoldi (2011). Auch
die Wikipedia Einträge zum Thema „Bayes“ und „Bayesian…“ helfen weiter. Auf der
englischen Seite finden sich ein paar Anmerkungen, von denen einige weiterführen zu onlineTutorien, auf denen man sich weiter kundig machen kann.
[2] Was ich hier umreisse, ist Standard-Neurobiologie. Jedes Lehrbuch enthält entsprechende
Informationen. Ich fand sehr nützlich Roth (1997). Die zentrale Arbeit ist Raichle (2006).
[3] Siehe Walach et al. (1997). Die entsprechenden wichtigen Kritiken wurden von
Vithoulkas und Oberbaum formuliert. Meine Repliken darauf in Walach (2002a, b) und ein
paar Gedanken dazu, wohin mich diese Daten geführt haben in Walach (2000). Man muss
nicht mit mir einer Meinung sein, aber man kann hier erkennen: ich habe meine Daten ernst
genommen und meine Vormeinung drastisch geändert.
[4] Die ersten Pilotstudien waren Möllinger et al (2004) und Walach et al (2004). Die
entsprechenden Folgestudien waren Walach et al (2008) und Möllinger et al (2009): Link Ich
habe alle meine Arzneimittelprüfungsdaten zusammengefasst in einem Buchkapitel Walach
(2009).
[5] Das ist zwar trivial, ist aber immer wieder wert betont zu werden, weil es oft vergessen
geht. Gerade dieser Tage kann man es bei den Lobreden auf die neuen Nobelpreisträger
immer wieder lesen: Gutes Beispiel ist Daniel Shechtman, der Entdecker der Quasikristalle.
Er sah sie im Elektronenmikroskop, traute seinen Augen (und seiner Erfahrung) und änderte
seine Meinung, die er aus dem Lehrbuch kannte und die alle Kollegen teilten. Er widerstand
der Skepsis seiner Kollegengruppe fast 20 Jahre lang und erhielt schliesslich den Nobelpreis.
Siehe z.B. “Nobelpreis für den Glauben ans Unmögliche” oder “Nobelpreis für Chemie geht
nach Israel“.
[6] Ich habe Gedanken dazu vorgelegt in meinem Spiritualitätsbuch Walach (2011) und einem
entsprechend kleineren Kapitel in Walach (2008). Demnächst vielleicht ein Exkurs-Kapitel
zum Thema.
← Zurück zu Kapitel 4
Weiter zu Kapitel 6 →
Literatur
Möllinger, H., Schneider, R., Löffel, M., & Walach, H. (2004). A double-blind, randomized,
28
homeopathic pathogenetic trial with healthy persons: Comparing two high potencies.
Forschende Komplementärmedizin und Klassische Naturheilkunde, 11, 274-280.
Möllinger, H., Schneider, R., & Walach, H. (2009). Homeopathic pathogenetic trials produce
symptoms different from placebo. Forschende Komplementärmedizin, 16, 105-110.
Parmar, M. K. B., Griffiths, G. O., Spiegelhalter, D. J., Souhami, R. L., Altman, D. G., van
der Scheuren, E., et al. (2001). Monitoring of large randomised clinical trials: a new approach
with Bayesian methods. Lancet, 358, 375-381.
Raha, S. (2011). A critique of statistical hypothesis testing in clinical research. Journal of
Ayurveda and Integrative Medicine, 2, 105-114.
Raichle, M. E. (2006). The brain’s dark energy. Science, 314, 1249-1250.
Roth, G. (1997). Das Gehirn und seine Wirklichkeit. Kognitive Neurobiologie und ihre
philosophischen Konsequenzen. Frankfurt: Suhrkamp.
Rawlins, M. (2008). De Testimonio – On the Evidence for Decisions about the Use of
Therapeutic Interventions. The Harveian Oration. Delivered before the Fellows of the Royal
College of Physicians of London on Thursday 16 October 2008. London: Royal College of
Physicians.
Tressoldi, P. E. (2011). Extraordinary claims require extraordinary evidence: the case of nonlocal perception, a classical and Bayesian review of evidence. Frontiers in Psychology, 2(2),
Art 117.
Walach, H., Gaus, W., Haeusler, W., Lowes, T., Mussbach, D., Schamell, U., et al. (1997).
Classical homoeopathic treatment of chronic headaches. A double-blind, randomized,
placebo-controlled study. Cephalalgia, 17, 119-126.
Walach, H. (2000). Magic of signs: a non-local interpretation of homeopathy. British
Homeopathic Journal, 89, 127-140.
Walach, H. (2002a). Response to Vithoulkas: Homeopathic fantasies about science, a metacritique. Homeopathy, 91, 35-39.
Walach, H. (2002b). Reply to Vithoulkas and Oberbaum. Homeopathy, 91, 189-191.
Walach, H. (2008). Wissenschaft und Spiritualität. In G. Hüther, W. Roth & M. von Brück
(Eds.), Damit das Denken Sinn bekommt. Spiritualität, Vernunft und Selbsterkenntnis (pp.
77-96). Freiburg: Herder
Walach, H. (2009). Homeopathic pathogenetic trials – A summary of 20 years of reflection,
data collection, and analysis. In C. Witt & H. Albrecht (Eds.), New Directions in Homeopathy
Research: Advice from an Interdisciplinary Conference (pp. 43-66). Essen: KVC-Verlag.
Walach, H. (2011). Spiritualität: Warum wir die Aufklärung weiterführen müssen. Klein
Jasedow: Drachen Verlag.
29
Walach, H., Sherr, J., Schneider, R., Shabi, R., Bond, A., & Rieberer, G. (2004).
Homeopathic proving symptoms: result of a local,non-local, or placebo process? A blinded,
placebo-controlled pilot study. Homeopathy, 93, 179-185.
(6) Wer braucht was? Empirie und Theorie
2
[English Version: Part 6 - Who needs what?]
Wir haben gesehen: wissenschaftliche Daten erzeugen nicht einfach Klarheit. Denn wir haben
alle unsere Vormeinungen, die sich auf implizite Erfahrungen und Präferenzen stützen. Je
nachdem wie diese Vormeinungen gelagert sind, benötigen wir mehr, oder im Zweifelsfall
auch andere Informationen, bevor wir einer wissenschaftlichen Information Bedeutung
zuerkennen. Diesen Gedanken wollen wir in diesem und in den nächsten Kapiteln vertiefen:
Wer benötigt welche Art von Daten und Information? Und warum benötigen verschiedene
Interessenten andere Arten von Informationen? Die Engländer haben dafür eine patente
Redewendung: „Horses for Courses“ – für jede Art von Rennen ein eigenes Pferd; also eins
für die wilde Jagd im freien Feld, eines für stilvolle Kür, eines fürs Galopprennen, und fürs
Traben wieder ein anderes.
Patienten wollen Sicherheit und Effekte
Beginnen wir mit Patienten. Die wollen, wenn sie krank sind, eine Behandlung, von der sie
einigermassen sicher sein können, dass sie ihnen keine schlimmen Nebenwirkungen beschert,
und die ihnen mit einer grossen Wahrscheinlichkeit Linderung ihrer Beschwerden verschafft.
Stellen Sie sich vor Sie seien jemand, der schon seit der Jugendzeit an Migräne leidet.
Dagegen kann man pharmakologische Prophylaxe betreiben, die auch ziemlich vielen hilft.
Manche vertragen sie nicht, oder haben etwas gegen die dauerhafte Einnahme von
Medikamenten. Nehmen wir mal an, Sie hätten diese Prophylaxe nicht vertragen, weil die
einzunehmenden Pharmaka ihren Appetit und ihre sexuelle Appetenz verändert hätten, was
Ihnen unangenehm war. Sie sind also auf der Suche nach einer Alternative. Wie gehen Sie
vor?
Patienten sind Empiriker. Sie fragen herum und sprechen mit anderen Patienten, mit Freunden
und Bekannten. Sagen wir mal, ein Bekannter hätte Ihnen erzählt, dass nicht weit von Ihrem
Heimatort ein Arzt wohnt, der mit einer neuartigen Maschine, die das Energieniveau des
Menschen verändern soll, alle Arten von Schmerzen erfolgreich behandelt. Kostet zwar 300
Euro für die ersten Behandlungen, aber das war’s dann auch. Das ist es Ihnen wert, Sie gehen
hin, erhalten eine diagnostische und ein paar therapeutische Sitzungen. Das Gerät, so wird
Ihnen erklärt, nimmt die Signatur Ihrer elektromagnetischen Strahlung auf und sendet
angepasst einen ultraschwachen elektromagnetischen Puls zurück. Sie spüren diesen Impuls
gar nicht, sitzen lediglich ein paar Mal für 20 Minuten an dieses Gerät angeschlossen. Und
siehe da: über die nächsten Monate haben Sie keine Migräne mehr. Nach einem halben Jahr
kommt Ihre Migräne wieder. Sie gehen wieder hin für eine Auffrischungssitzung,
Kostenpunkt vielleicht 60 Euro, und die Migräne verschwindet wieder für das restliche halbe
Jahr. Nebenwirkungen haben Sie keine gespürt. Wie auch, die Pulse waren ja sehr schwach.
Mit einem Zeitaufwand von zweimal ca. 30 Minuten und zweimal 60 Euro pro Jahr können
30
Sie Ihre Migräne mit Hilfe dieser Anwendung zuverlässig beseitigen. Hat der Apparat
gewirkt? Ist er „wirksam“ in einem wissenschaftlichen Sinn?
Ja und nein. Für Sie als Patient hat er offensichtlich gewirkt. Denn er hat Ihre Beschwerde
beseitigt. Zumindest für einen erklecklichen Zeitraum, ohne grossen Aufwand und ohne
exorbitante Kosten. Würde man alle Patienten, die zu einem solchen Behandler kommen
dokumentieren und daraufhin befragen, wie zuverlässig ihre Symptome beseitigt worden sind,
so bekäme man ein positives Bild. Verschiedene solcher Beobachtungs- und
Dokumentationsstudien zeigen: mit einer sogenannten Bioresonanztherapie, so heisst die oben
kurz beschriebene Therapie, sind in aller Regel zwischen 80 und 85% der Patienten entweder
beschwerdefrei oder sehr stark verbessert [1-4]. Nebenwirkungen sind nicht gross beobachtet
worden. Aus Sicht der Patienten wäre also eine solche Behandlung „wirksam“, oder sagen wir
besser: erfolgreich. Denn die Beschwerden sind weg, und andere sind nicht aufgetreten.
Patienten wollen Effekte sehen und das mit einer hohen Wahrscheinlichkeit. Und Patienten
wollen Sicherheit, und das mit grosser Sicherheit.
Diese Daten sind relativ leicht zu beschaffen, indem man eine grosse Anzahl an Patienten
beobachtet, und vor allem, indem man sie beobachtet ohne eine Auswahl zu treffen oder
vorher zu wissen, was bei der Behandlung herauskommt. Dies sind prospektive, also nach
vorne gerichtete, Beobachtungsstudien. Manchmal nennt man sie auch einarmige
Kohortenstudien (einarmig deswegen, weil nur eine Gruppe beobachtet wird). Wichtig bei
solchen Studien ist, dass alle Patienten, die einer bestimmten Kategorie zugehören – etwa alle
Kopfschmerzpatienten, oder alle Schmerzpatienten, oder überhaupt alle Patienten in einem
gewissen Zeitraum – dokumentiert werden. Wichtig ist auch, dass ein Maß genommen wird,
das vom Behandler unabhängig ist, damit nicht auch noch die Vormeinung des Behandlers die
Schätzung des Therapieerfolgs beeinträchtigt.
Daher sollten solche Studien völlig vom Behandler unabhängig sein und e sollte z.B. eine
dritte Person Befragungen durchführen, Fragebögen verteilen und einsammeln – oder es
sollten Tests vorgenommen werden, die der Behandler nicht beeinflussen kann. Methodische
Kriterien für solche Studien sind publiziert worden [5]. Nehmen wir mal an, das sei hier alles
der Fall gewesen und wir wüssten aus sicherer Datenlage: 80% der Patienten profitieren von
einer solchen Bioresonanzbehandlung. Können wir dann schon davon ausgehen, dass diese
Behandlung wirksam ist? Aus Sicht der Patienten, wie gesagt, ja; aus Sicht der
Zulassungsbehörde vielleicht auch; aus Sicht der Wissenschaft vermutlich: nein. Wird die
Krankenkasse die Kosten erstatten weil sie die Behandlung als wirksam anerkennt?
Vielleicht. Wird der Arzt die Behandlung als wirksam anerkennen?
Behandler wollen eine gute Theorie, ausreichend positive Erfahrung und ein paar
wissenschaftliche Daten
Wenden wir uns den Behandlern zu. Ärzte wenden in der Regel Interventionen dann an, wenn
sie irgendwo gelernt oder erfahren haben, dass sie wirkt. Sie lernen viel von anderen
Behandlern, in Kursen, Qualitätszirkeln, Weiterbildungen und informell durch Austausch [6].
Sie wollen zwar meistens auch Studien sehen und verwenden auch wissenschaftliche
Informationen, aber nicht nur. Sie wollen meistens auch verstehen, warum etwas überhaupt
funktioniert. Darum nehmen Ärzte auch Grundlagenforschungsergebnisse gerne zur Kenntnis,
die ihnen plausibel macht, warum etwas wirken könnte. Wenn man z.B. einmal weiss, dass
die kleinen Blutgefässe in einem Menschen über 160.000 km lang sind, also etwa dreimal den
Erdball umspannen, und die Art, wie der Blutfluss vom Organismus reguliert wird immer
noch nicht verstanden ist, und wenn man einmal in einem kleinen Film gesehen hat, wie die
Applikation eines schwachen, gepulsten Magnetfeldes den Blutfluss in einem solchen
31
Minigefäss verändert, dann findet man die Möglichkeit der Wirksamkeit solcher
Behandlungen vielleicht plausibel.
Wenn einem dann Kollegen von ihren Erfolgen erzählen, oder wenn man ein paar Studien
liest, dann ist man als Arzt möglicherweise schon ausreichend gut informiert und probiert es
mal selber aus. Man macht seine eigenen Erfahrungen, also eine Art implizite
Beobachtungsstudie, und je nachdem wie selbstkritisch man ist und wie gut die Methode
wirklich wirkt, wird man sich seine Meinung bilden. Ist sie einmal gebildet, werden eine oder
zwei klinische Studien diese Meinung nur noch schwer ändern können. Denn schliesslich hat
man seine Erfahrungen gesammelt, vielleicht zehn- oder zwanzigtausend Euro in die
Anschaffung eines solchen Gerätes investiert und jede Menge zufriedene Patienten.
Behandler wollen also Daten, die von jeder Kategorie etwas liefern: Grundlagenforschung
soll zum Verständnis der Mechanismen beitragen. Klinische Forschung soll belegen, dass im
klinischen Falle mindestens manchmalVerbesserungen zu erwarten sind – und vor allem wann
und unter welchen Umständen. Idealerweise zeigt auch noch eine vergleichende Forschung
an, ob eine solche Behandlung besser ist als andere, die schon auf dem Markt sind. Aber ist
etwas wirksam, nur weil Ärzte es anwenden? Das ist sicher nicht so, denn Ärzte haben ja auch
in vielen Fällen unwirksame oder sogar schädliche Interventionen verwendet, weil die
herrschende Theorie das damals so vorgab. Denken wir nur daran, dass lange Zeit hinweg
einem Cholerakranken Wasser verweigert wurde, weil man dachte man muss die Krankheit
austrocknen.
Genau das Gegenteil, wissen wir heute, ist richtig, und die therapeutische Idee stammte aus
einer falschen Theorie. Heute sind Ärzte etwas besser ausgebildet und haben nicht nur eine
Theorie im Hinterkopf, sondern wollen auch Daten sehen. Aber meistens können sie es sich
gar nicht leisten, systematisch alle Daten zu sichten. Dazu haben sie keine Zeit. Sie verlassen
sich also auf die Zusammenfassungen, die sie so greifen können. In Ärztezeitungen und
Journalen, oder informell durch die Informationen bei Kollegen, und was eben die sog.
„Mainstream“-Journale transportieren, die viele Ärzte lesen, die Deutsche Medizinische
Wochenschrift, das British Medical Journal, Lancet, Neurology etwa, um nur einige zu
nennen. Da kommen dann vor allem Wissenschaftler zu Wort und die wissenschaftlich
gestützte Begrifflichkeit von „Wirksamkeit“.
Wissenschaftler wollen Mechanismen verstehen und Neues entdecken
Die primäre Motivation von Wissenschaftlern ist zunächst, wenn sie richtige Wissenschaftler
sind, die Neugier. Sie wollen verstehen wie Dinge funktionieren und aus diesem Verständnis
heraus neue Anwendungen entwickeln. Um das tun zu können, müssen sie ihre Karriere
entwickeln. Um die Karriere zu entwickeln, müssen sie möglichst viele und „gute“ Artikel in
„guten“ Zeitschriften publizieren. Um das tun zu können, müssen sie entweder sehr kluge
Ideen entwickeln und methodisch sauber umsetzen, oder sehr viel Geld von Stellen erhalten,
die Forschung fördern. Im Idealfall beides zusammen. Ein guter Wissenschaftler wird sich
einem Thema, z.B. ob solche Bioresonanzapparate funktionieren oder nicht, und wenn ja wie,
erst dann zuwenden, wenn es ausreichend viele Hinweise darauf gibt, dass da möglicherweise
etwas zu „holen“ ist. Dann wird vielleicht mal ein Doktorand drangesetzt, der eine Pilotstudie
sauber durchführt. Je nachdem welche Art von Wissenschaft einer betreibt, wird erst eine
Grundlagenforschungsstudie durchgeführt, oder eine kleine klinische Studie. In jedem Fall
will aber der Wissenschaftler sicherstellen, dass er es mit einem „echten“ Phänomen zu tun
hat und er nicht einer Täuschung oder einem Artefakt aufsitzt. Er wird also kontrollierte
Studien, im Idealfall Experimente durchführen. Der Unterschied zwischen Experiment und
32
natürlicher Beobachtung ist hier zentral. Deswegen werde ich auch immer wieder drauf
zurückkommen.
Im Experiment kann der Wissenschaftler nämlich manipulieren. Er schafft z.B. durch
Zufallszuteilung die Voraussetzung dafür, dass in der Kontrollgruppe und der
Experimentalgruppe alle Ausgangsbedingungen gleich sind und führt dann die experimentelle
Manipulation durch. Ein Grundlagenforscher wird vielleicht ein Testsystem, bestehend aus
einem Gewebe oder aus Zellen, einmal mit einem solchen ultraschwachen, gepulsten
Magnetfeld bestrahlen und einmal ohne Bestrahlung vermessen. Wenn er sehr raffiniert ist,
wird er sogar diejenigen, die die Messung durchführen, verblinden, d.h. ihnen die Information
vorenthalten, welche der Systeme behandelt und unbehandelt sind. Dann weiss er hinterher,
ob die Intervention „ultraschwache, gepulste, elektromagnetische Bestrahlung“ in einem
solchen Zell- oder Gewebesystem eine Veränderung herbeigeführt hat. Wenn er methodisch
richtig gut ausgebildet ist, dann wird er sogar systematische negative Kontrollen durchführen,
also Leermessungen, bei denen er so tut, als ob er eine wirkliche Messung einer wirklichen
Intervention durchführt, aber nur die Prozeduren und Messungen machen ohne irgendwelche
Interventionen (solche systematische, negative Kontrollen werden übrigens in der
konventionellen Forschung nur selten durchgeführt; in der Homöopathieforschung gehören
sie mittlerweile zum Standard).
Angenommen er hat eine Veränderung in seinem Gewebesystem nach Anwendung von
ultraschwacher elektromagnetischer Impulse gesehen: wäre das schon ein Hinweis auf
klinische Wirksamkeit? Nein, natürlich nicht. Denn in einem komplexen System wie einem
menschlichen Organismus gibt es eine Fülle von Kompensationsmechanismen, die einzelne
Effekte wieder ausgleichen können. Deswegen würde man klinische Effekte sehen wollen,
Veränderungen also, die im klinischen Falle zuverlässig auf die Intervention und nicht auf
irgendwelche zufälligen oder anderen Faktoren zurückzuführen sind. Der Wissenschaftler
wird also eine kontrollierte Untersuchung durchführen. Das geht nur, wenn er das System
aufteilt. Hier fangen die konzeptuellen Probleme an: Eine richtig gute kontrollierte Studie
kostet relativ viel Geld. Denn man braucht Personal, Geräte, muss Patienten oder Ärzte für
ihre Zeit entschädigen, usw. Wer zahlt eine solche Studie in diesem Falle? Vielleicht eine
Stiftung, vielleicht ein Gerätehersteller? Weil man Geld für solche Studien nicht leicht
bewilligt erhalten kann, werden solche Studien oft mit minimalem Budget durchgeführt. Man
muss sich dann pragmatisch beschränken und entsprechend unklar sind dann oft die
Ergebnisse. Aber weil der Wissenschaftler überleben will, publiziert er auch solche
Ergebnisse, die dann die Literatur anfüllen. Der Leser muss sich dann einen Reim auf diese
Ergebnisse machen, und das ist nicht immer leicht.
Im Falle der Bioresonanztherapie gibt es also nun ein paar interessante und positive
Grundlagenforschungsstudien [7-9], deutlich positive Daten aus der Outcome-Forschung [14], also Ergebnisse einarmiger Beobachtungsstudien, und ein paar unklare Studien, die
verblindet waren und Scheinkontrollen durchgeführt haben[10-17]. Der oberflächliche
Wissenschaftler ohne weiteres Interesse wird sagen: Nicht lohnenswert, keine deutlichen
Effekte. Der neugierige Wissenschaftler mit tieferem Interesse wird sagen: Interessant. Hier
wirkt etwas offenbar in der Praxis sehr deutlich, aber wenn man genauer hinsieht, findet man
keine deutlichen Unterschiede zwischen Kontrolle und wirklicher Intervention. Was passiert
hier genau?
Blickt man also auf die Mechanismen, so kann man, etwas vage formuliert feststellen:
ultraschwache, gepulste elektromagnetische Strahlung verändert etwas an Zellsystemen. Aber
ist das schon ausreichend, um eine klinische Wirkung plausibel zu machen? Das hängt
33
vermutlich wieder von den Vormeinungen ab. Nimmt man die Beobachtungsdaten, so sieht
man, dass Bioresonanztherapie bei vielen Patienten hilft. Viele Ärzte werden nun diese beiden
Elemente – positive Daten aus der Grundlagenforschung, positive Daten von
Beobachtungsstudien an Patienten – zusammennehmen und daraus eine Erfolgsgeschichte
basteln, deren Überschrift lautet: „Wissenschaftlich erwiesen: Bioresonanztherapie ist
wirksam.“ Aber ist das tatsächlich so? Der Wissenschaftler, der skeptische zumal, sieht
vielleicht eine andere Geschichte und will vor allem auch noch andere Typen von Daten
sehen. Und daran erkennen wir wiederum: jeder braucht andere Informationen, weil er andere
Interessen hat.
← Zurück zu Kapitel 5
Weiter zu Kapitel 7 →
Literatur
1. Herrmann E, Galle M: Retrospective surgery study of the therapeutic effectiveness of
MORA bioresonance therapy with conventional therapy resistant patients suffering from
allergies, pain and infection diseases. European Journal of Integrative Medicine 2011;in print.
2. Rahlfs VW, Rozehnal A: Wirksamkeit und Verträglichkeit der Bioresonanzbehandlung:
Ergebnisse einer retrolektiven, longitudinalen Kohortenstudie. Erfahrungsheilkunde
2008;57:462-469.
3. Schumacher P: Biophysikalische Therapie der Allergien. Stuttgart, Sonntag, 1994.
4. Uellendahl U: Darstellung der Mora-Color-Methode in der Behandlung von chronischen
funktionellen Schmerzen am Bewegungsapparat. In Sportwissenschaftliche Fakultät.
Bratislava, Univerzita Komenského Bratislave, 2008.
5. von Elm E, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP: The
Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement:
Guidelines for reporting observational studies. Annals of Internal Medicine 2007;147:573577.
6. Gabbay J, le May A: Evidence based guidelines or collectively constructed “mindlines”?
Ethnographic study of knowledge management in primary care. British Medical Journal
2004;329:1013-1017.
7. Endler PC, Pongratz W, Smith CW, Schulte J: Non-molecular information transfer from
thyroxine to frogs with regard to homeopathic toxicology. Veterinary and Human Toxicology
1995;37:259-260.
8. Islamov BI, Balabanova RM, Funtikov Va, Gotovskii YV, Meizerov EE: Effect of
bioresonance therapy on antioxidant systems in lymphocytes in patients with rheumatoid
arthritis. Byulleten Eksperimental’noi Biologii i Meditsiny 2002;134:297-290.
9. Heredia-Rojas JA, Torres-Flores AC, Rogriguez-De la Fuente AO, Mata-Cardenas R-F,
L.E., Barron-Gonzalez MP, Torres-Pantoja AC, Alcocer-Gonzalez JM: Entamoeba histolytica
34
and trichomonas vaginalis: trophozoite growth inhibitino by metronidazole electro-transferred
water. Experimental Parasitology 2011;127:80-83.
10. Schöni MH, Nikolaizik WH, Schöni-Affolter F: Efficacy trial of bioresonance in children
with atopic dermatitis. International Archives of Allergy and Immunology 1997;112:238-246.
11. Nienhaus J, Galle M: Plazebokontrollierte Studie zur Wirkung einer standardisierten
MORA-Bioresonanztherapie auf funktionelle Magen-Darm-Beschwerden. Forschende
Komplementärmedizin 2006;13:28-34.
12. Schuller J: Untersuchung zur klinischen Wirksamkeit elektronisch abgespeicherter Zahnund Gelenksnosoden bei Erkrankungen des rheumatischen Formenkreises. Forschende
Komplementärmedizin 2007;14:289-296.
13. Isik E, Galle M: Evidence for efficacy and effectiveness of the MORA bioresonance
method in smoking cessation (Abstract). In Willich SN (ed): European Conference on
Integrative Medicine. Berlin, 2011:PP 020.
14. Machowinski R, Kreisl P: Prospektive randomisierte Studie zur Überprüfung der
Behandlungserfolge mit patienteneigenen elektromagnetischen Feldern (BICOM) bei
Leberfunktionsstörungen. Gräfelfing, Institut für Regulative Medizin, 1999:77-92.
15. Kofler H, Ulmer H, Mechtler E, Falk M, Fritsch PO: Bioresonanz bei Pollinose.
Allergologie 1996;19:114-122.
16. Wille A: Bioresonanztherapie (biophysikalische Informationstherapie bei stotternden
Kindern. Forschende Komplementärmedizin 1999;Suppl. 1:50-52.
17. Yang J, Zhang L: Clinical observation of 300 children suffering from asthma treated with
BICOM 2000 bio-resonance device. InJinan, Jinan Children’s Hospital, Asthma Research
Center, o.J.
7) Decline-Effekte und die öffentliche
Repräsentanz wissenschaftlicher
Ergebnisse in den Medien
In meinem persönlichen Blog habe ich über eine Tagung berichtet, die sich mit dem sog.
Decline-Effekt oder Absinkungseffekt beschäftigte. Dahinter verbirgt sich folgendes
Phänomen: Oft zeigt sich am Anfang einer Forschungsreihe ein besonders deutlicher oder
spannender Effekt, zumindest legen Publikationen das nahe. Wenn andere diese Ergebnisse
wiederholen wollen, finden sie oft weniger deutliche Effekte. Oft nehmen die Effekte ab oder
lassen sich nicht bestätigen. Solche Absinkungs-Effekte sind in der gesamten
biomedizinischen, aber auch in der psychologischen, biologischen und vor allem
parapsychologischen Forschung zu beobachten und lange bekannt.
35
Ursachen für den Decline-Effect
Dies kommt – vor allem, aber nicht ausschließlich – von folgendem Phänomen: Oft führen
Grundlagenforscher – vor allem diese, denn sie arbeiten mit relativ rasch und einfach
durchzuführenden Assays und Experimenten – in neuen Gebieten ein paar Testversuche
durch. Die fruchten nicht und werden in die Tonne gesteckt. Dann bastelt wer ein bisschen
herum und plötzlich kommt ein signifikantes Ergebnis heraus. Das wird publiziert. Die
negativen werden natürlich nicht erwähnt. Wen interessiert das schon? Denn die Zeitschriften,
die Editoren, die Wissenschaftler, überhaupt die Öffentlichkeit ist an positiven Befunden
interessiert, nicht an negativen. Nun ist also ein neues Phänomen geboren. Weil es neu und
vielleicht sogar spektakulär ist, wird es in den bekannten Zeitschriften mit hohem Impact
veröffentlicht. Denn deren Geschäft ist es, solche neuen, aufwühlenden Befunde unter die
Leute zu bringen. Nun kommen ein paar kritische Geister, lesen das und machen es nach.
Manche ohne Erfolg. Sie denken sich dann: wir haben vielleicht was falsch gemacht und
stecken das negative Ergebnis in die Tonne. Oder, wenn sie hartnäckiger sind, glauben sie
nicht daran, dass das ursprünglich publizierte Ergebnis richtig war, führen mehrere
Replikationen und Abwandlungen durch und versuchen dann ihren negativen Befund zu
publizieren. Das wird mit Sicherheit schwieriger werden, als den ursprünglich positiven
Befund zu publizieren. Vielleicht müssen sie mehrere Journals anschreiben, ihren Text
aufgrund von kritischen Gutachten überarbeiten, noch ein paar Experimente nachliefern.
Denn es ist wahrscheinlich dass Freunde, Bekannte oder Kollegen der ursprünglichen
Forschungsgruppe, wenn nicht gar Mitglieder dieser Gruppe selbst zu den Gutachtern der
negativen Replikationsstudie gehören. Also dauert es, bis die negativen Befunde publiziert
sind, wenn sie überhaupt das Licht der Öffentlichkeit erblicken.
Und so werden Mythen gebildet
Die ursprünglich positiven Befunde schaffen es ins Bewusstsein der Öffentlichkeit: Selektive
Serotonin Reuptake Inhibitoren sind wirksam zur Behandlung der Depression! Sagt man
dann. Bis nach Jahrzehnten dann auch die negativen Studien bekannt werden und man sieht:
so wirksam sind sie nun auch wieder nicht. Bis dann ist der Mythos bereits geboren. Oder:
Aufmerksamkeits-Defizit (ADHS) ist eine Gehirnkrankheit mit einem deutlichen Problem in
den Dopamintransportern der Basalganglien, wird verkündet. Naheliegend, dass das nur
pharmakologisch zu beheben ist. Bis dann die entsprechenden Nachfolgestudien kommen, die
den ursprünglichen Befund nicht bestätigen.
Aus genau diesem Grund ist es methodisch wichtig sich genau zu überlegen, an welcher Stelle
des Forschungsprozesses sich eine Studie befindet. Ist sie die allererste, die einen neuen
Befund behauptet? Dann ist Vorsicht geboten. Ist es eine Studie, die bereits vorliegende Daten
repliziert? Dann ist es wichtig, sich die Effektgröße anzusehen. Ist sie etwa so groß wie die
ursprüngliche? Dann ist das Ergebnis robust. Ist sie wesentlich niedriger? Dann überschätzt
vermutlich der ursprüngliche Befund den Effekt. Aus genau dem Grund sind auch große
Studien sicherer und Meta-Analysen noch sicherer in der Schätzung von Effekten. Aber auch
diese können nicht darüber hinwegtäuschen dass es ein Problem dann gibt, wenn anfänglich
negative Befunde unterschlagen wurden, oder wenn spätere negative Befunde mit großer
Verzögerung oder gar nicht publiziert werden. Dann wird ein Effekt suggeriert, wo gar keiner
vorhanden ist.
Genau das hat Ioannidis (1) schon vor einiger Zeit gezeigt und damit eine heftige Debatte
losgetreten. Er hat nämlich behauptet, die meisten publizierten Forschungsergebnisse seien
falsch, genau aus dem hier oben beschriebenen Grund.
36
Repräsentanz wissenschaftlicher Ergebnisse in den Medien
Nun ist in zwei aktuellen Artikeln dieses Thema wieder aufgegriffen worden, aber mit zwei
sehr beunruhigenden Zungenschlägen (2, 3). Gonon und Kollegen (2) zeigen in ihrer Studie,
dass genau dieser Vorgang auch den öffentlichen Diskurs dominiert. Sie verwenden das
Beispiel von ADHS, suchen die sog. „Top 10“ der Studien aus, über die am meisten berichtet
wurde in der öffentlichen Presse und verfolgen ihr Schicksal. Alle diese „Top 10“ Studien
hatten spektakuläre neue Berichte über „Fortschritte“ zum Gegenstand, die die Wissenschaft
bei ADHS angeblich gemacht hatte. Verfolgt man die Berichte weiter, so blieb von diesen 10
Fortschrittsmeldungen gerade mal eine stabil. Die anderen wurden entweder später widerlegt,
oder substanziell abgeschwächt. Was nun das Besorgniserregende ist: die Presse berichtete
nur über die anfängliche Euphorie ausführlich. Die Nachfolgestudien wurden kaum mit
Aufmerksamkeit bedacht. Sie erschienen ja auch in weniger hochkarätigen Zeitschriften. Und
in vielen Fällen geistert die anfängliche positive Meinung noch immer in den Köpfen der
Öffentlichkeit herum, obwohl sie schon längst widerlegt wurde. Nur keiner hat’s gemerkt,
weil die Presse dies nicht mehr berichtet. Ist ja auch peinlich, wenn man seine eigene
Euphorie revidieren muss. Ich empfehle allen, die online einsehbare Studie selber zu lesen
bzw. sich die darin enthaltenen Grafiken anzusehen: Decline-Effekte in Hülle und Fülle und
vom Feinsten. Das stimmt nicht sehr zuversichtlich, was die Mainstream-Haltung zur
Behandlung von ADHS mit Ritalin angeht.
Die zweite Studie (3), die ein verwandtes Thema behandelt zeigt, dass unsere Presse nicht
sonderlich gut darin ist, Fehlinterpretationen zu entdecken, die Autoren ihren Studien
mitgeben, wenn nicht das gewünschte Ergebnis herausgekommen ist. Die Autoren haben fast
500 Pressemeldungen von 70 randomisierten Studien analysiert. In knapp der Hälfte der
Studien fanden sich ins Rosarot verzerrende Darstellungen der Studienergebnisse im Abstract
oder im Text der Studie. Die Autoren ließen die Daten besser und robuster erscheinen, als sie
in Wirklichkeit waren. Dadurch entsteht der gleiche Effekt, wenn die Presse diese Meinung so
transportiert. Man meint, man hätte ein positives Ergebnis gefunden, wo in Wirklichkeit gar
keines da ist. Und siehe da: die angeblich so kritischen Journalisten der Zeitungen waren
offenbar außerstande, den sogenannten „Spin“, der sich aus einer allzu wohlwollenden
Interpretation der Studienergebnisse ergibt zu entdecken und transportierten ihn weiter in
ihren Meldungen. In einer Regressionsanalyse war der einzige Prädiktor, der vorhersagen
konnte, ob in einer Pressemeldung „Spin“ auftauchte, also ein positiver Anstrich eines
ansonsten gar nicht so spektakulären Ergebnisses, die Frage, ob ein solcher „Spin“ in den
Schlußfolgerungen des Abstracts der entsprechenden Studie vorhanden war.
Was folgert der kritische Leser daraus? Richtig: Journalisten sind viel zu beschäftigt, um eine
Studie genau zu lesen; vielleicht sind sie auch nicht wirklich kompetent, das könnte auch noch
sein. Sie folgen lieber den Schlußfolgerungen, die der Autor seiner Studie selber mitgibt, und
zwar im Abstract. Vielleicht lesen sie sogar nur das Abstract. Auf jeden Fall sind die meisten
offenbar außerstande, Studien wirklich kritisch zu analysieren und zu lesen. Und so entsteht
über die Medien transportiert ein Hype über Daten und Ergebnisse, die sich mit großer
Wahrscheinlichkeit später als nicht haltbar herausstellen werden.
Was lernen wir draus? Drei Lektionen:
1. Eine Schwalbe macht keinen Sommer. Immer abwarten, ob Nachfolgestudien anfängliche
Ergebnisse bestätigen.
2. Der Sommer kommt sowieso selten und wenn, dann sehr spät. Wir leben, wissenschaftlich
gesehen, weit nördlich des Polarkreises und haben weniger wirkliche Befunde und
Durchbrüche, als wir glauben, zumindest was die Medizin und die Gesundheitswissenschaften
angeht.
37
3. Was auch immer in der Wissenschaftspresse steht: es ist eine gute Heuristik, erst mal auch
das Gegenteil dessen, was berichtet wird, für wahr zu halten.
← Zurück zu Kapitel 6
Weiter zu Kapitel 8 →
Literatur
1. Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine,
2(8), e124. http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124
2. Gonon, F., Konsman, J.-P., Cohen, D., & Boraud, T. (2012). Why most biomedical
findings echoed by newspapers turn out to be false: The case of Attention Deficit
Hyperactivity Disorder. PLoS ONE, 7(9), e44275.
http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0044275
3. Yavchitz, A., Boutron, I., Bafeta, A., Marroun, I., Charles, P., Mantz, J., et al. (2012).
Misrepresentation of randomized controlled trials in press releases and news coverage: A
cohort study PLoS Medicine, 9(9), e1001308.
http://www.plosmedicine.org/article/info%3Adoi%2F10.1371%2Fjournal.pmed.1001308
(8) Industry Bias – Eine neue Form des
Bias oder ein interessanter
Experimentator Effekt?
Bevor wir in die Details gehen, ein paar Erklärungen für diejenigen Leser, die nicht mit der
Terminologie und dem Kontext vertraut sind:
Bias ist ein Fachbegriff dafür, dass Studienergebnisse verzerrt sind. Klassischerweise geht
man in der Methodologie davon aus, dass alle möglichen Variablen Ergebnisse verzerren
können.
Wenn etwa in einer Gruppe mehr Raucher, mehr Trinker, intelligentere oder ärmere Leute
sind, könnte das das Ergebnis beeinflussen und wirksame Interventionen als unwirksam oder
unwirksame Interventionen als wirksam erscheinen lassen. Deswegen werden die
Studiengruppen durch Zufallszuteilung erzeugt, damit alle diese Variablen möglichst
balanciert sind.
Eine andere typische Form von Bias ist mangelnde Verblindung: wenn etwa Patienten oder
klinische Beurteiler die Gruppenzuteilung kennen, dann ist die Chance gegeben, dass die
Bewertung nicht unverzerrt ist.
38
Oder wenn der Studienleiter weiss, dass der nächste Patient in der Kontrollgruppe landen
wird, dann könnte es sein, dass er heimlich oder unbewusst dafür sorgt, dass der Patient
etwas aufgeschoben wird, bis er in die „richtige“ Gruppe kommt, etwa, wenn ihm dieser
Patient besonders sympathisch ist. Dieser sog. „allocation bias“ wird normalerweise
dadurch reduziert, dass Computerprogramme diese Zuteilung vornehmen.
Im neuesten Cochrane Review „Industry sponsorship and research outcome“ [1] wird
allerdings eine Form von Bias beschrieben, dessen Zustandekommen bei genauerem
Nachdenken den Glauben ins Wanken bringt, dass Wissenschaft nichts anderes tue als
die Wirklichkeit zu erforschen wie sie ist:
Nennen wir diese neue Form von Bias „Industry Bias“: Studien, die von der Industrie
finanziert werden, haben nämlich laut dieser Review öfter signifikant bessere
Ergebnisse, berichten über weniger Nebenwirkungen, und Präparate des Sponsors sind
fast 6 mal so wirksam wie Präparate der Konkurrenz, mit der sie verglichen werden.
Keine der oben angesprochenen klassischen Arten der Ergebnis-Verzerrung spielt in dieser
neuen Form von Bias eine Rolle. Die meisten Studien, die in diese Meta-Analyse eingingen
waren ihrerseits Meta-Analysen von zum Teil Hunderten von einzelnen sog. randomisierten
Studien, also von Studien, die ihre Gruppen durch Zufallszuteilung gebildet hatten.
Die Cochrane-Meta-Analyse wurde von der Cochrane-Collaboration durchgeführt, einer
Gruppe von Wissenschaftlern, die ohne weitere Interessenbindung möglichst
unbeeinflusst und vollständig die Literatur zusammenfasst. Die Cochrane-Reviews gelten
als die sorgfältigsten, weil ein klar definiertes Prozedere vorhanden ist. Der Review wird erst
beantragt und ein Protokoll muß vorgelegt werden, wie die Autoren vorgehen wollen. Es wird
begutachtet und erst dann können die Autoren weitermachen. Recherchen müssen vollständig
sein und auch die Zusammenfassung folgt einem erprobten System.
Wenn es in der klinischen Forschung also zuverlässige Ergebnisse gibt, dann hier, bei den
Reviews der Cochrane Collaboration. Die Reviews sind bekannt dafür, dass sie konservativ
sind, also Ergebnisse eher unter- als überschätzen, weil oft sehr restriktive Einschlußkriterien
gelten.
Was man wissen muss: hier wurde eine Meta-Meta-Studie von anderen, insgesamt 48
Meta-Studien oder Meta-Analysen durchgeführt. Die Datenbasis sind also einzelne MetaAnalysen, die jede für sich oft mehrere hundert Studien zusammenfassten, insgesamt 9.207
Studien über Arzneimittel und medizinische Geräte, die überwiegende Mehrzahl davon
randomisierte Studien (es sind auch einige Beobachtungsstudien dabei, weil nur so
Nebenwirkungen zuverlässig erfasst werden können).
Die Autoren stellten eine einfache Frage: gibt es Hinweise darauf, dass Studien, die von
Firmen bezahlt werden, häufiger positive Ergebnisse und weniger Nebenwirkungen
berichten als solche, die z.B. von der öffentlichen Hand finanziert werden? Das ist
deswegen wichtig, weil die größere Zahl von wissenschaftlichen Studien mittlerweile von der
Industrie bezahlt wird. Anders gesprochen: das medizinisch-klinische Wissen, das wir haben,
wurde in der Mehrzahl aus finanziellen Mitteln von Firmen bezahlt, die dieses Wissen
ihrerseits wieder nützen können, um damit Geld zu verdienen.
Dagegen ist überhaupt nichts einzuwenden, wenn, wie wir annehmen, die
wissenschaftliche Methodik objektiv ist und genau dann, wenn die geltenden methodischen
39
Kriterien eingehalten werden – Randomisiertung, Verblindung, Verblindung der Zuteilung,
etc. – und daher auch kein Unterschied zwischen den Ergebnissen von Studien besteht, die
von der Industrie oder der öffentlichen Hand finanziert werden.
Und genau hier zeigt diese Analyse: dies ist nicht der Fall. Studien, die von der Industrie
gesponsort sind, haben in 24% der Fälle bessere Ergebnisse als staatlich finanzierte.
Industriegesponsorte Studien berichten in 87% der Fälle weniger Nebenwirkungen und
kommen in 31% der Fälle zu besseren Schlussfolgerungen. Wenn in solchen Studien das
Produkt einer Firma gegen ein Vergleichsprodukt getestet wurde, dann hatte der Vergleich bei
Finanzierung durch die Industrie eine fast 6fach höhere Erfolgsrate als bei staatlicher
Finanzierung.
Man wird nun sagen: das ist doch klar. Aber bitteschön, einmal Nachdenken. Denn es ist alles
andere als klar. Alle Studien werden nach dem gleichen methodischen Standard gemacht.
Man könnte sagen, die staatlichen Studien sind halt methodisch nicht so gut. Das ist eher
unwahrscheinlich, weil solche Studien in der Regel durchgeführt werden, wenn ein Produkt
auf dem Markt ist. Also müssen sie versuchen, methodisch diejenigen Kritikpunkte
aufzugreifen, die geäußert wurden und z.B. noch grössere statistische Mächtigkeit aufweisen.
Sie haben also eher eine größere Chance, Effekte zu demonstrieren, wenn sie da sind.
Und die Analyse zeigt: die unterschiedlichen Ergebnisse lassen sich nicht durch
methodische Artefakte erklären, denn methodisch gesehen waren sogar die
industriegesponsorten etwas besser und statistisch besteht kaum ein Unterschied zwischen den
Studientypen. An methodischen Unterschieden kann es also nicht liegen.
Es bleiben aus meiner Sicht zwei Erklärungen übrig: entweder liegt ein ziemlich großer
Publikationsbias vor, d.h. die Industrie hält negativ ausgegangene Studien systematisch und
in großem Ausmaß unter Verschluß. Im Falle der Antidepressiva wurde ja belegt, dass ein
Drittel aller Ergebnisse nicht publiziert wurden [2]. Es könnte durchaus sein, dass das überall
so ist und dass Ioannidis mit seiner Einschätzung recht hat, dass die meisten
Forschungsergebnisse falsch sind [3], eben weil die negativen Ergebnisse unterschlagen
werden. Bei staatlich geförderten Studien ist das eher nicht der Fall, weil hier Forscher und
Auftraggeber ein Interesse haben ihre Daten zu publizieren.
Die zweite Erklärung wäre abenteuerlich: sie würde implizieren, dass die Intention, der
Wunsch des Forschers bzw. hier des Auftraggebers dazu führt, dass das Ergebnis in der
gewünschten Richtung ausfällt, trotz aller methodischen Maßnahmen zur Absicherung
gegen solche Effekte. Und weil solche klassischen Versuchsleitereffekte durch methodische
Sicherungen ausgeschlossen werden, müssten es nicht-klassische, also vielleicht sogar
parapsychologische Effekte sein.
Betrachten wir zum Schluß diese zwei Optionen kurz:
Publikationsbias wäre die natürliche, aber auch extrem verstörende Antwort als
Erklärung. Denn es würde bedeuten, dass zwischen 25% und 30% aller Studien, also 200 bis
300 Studien aus dem hier interessierenden Universum von Studien, unpubliziert geblieben
sind. Und nicht vergessen: jede dieser Studien kostet schätzungsweise ein bis mehrere
Millionen. Die Konsequenz daraus wäre, dass man eigentlich der wissenschaftlichen Literatur
nur in Grenzen trauen kann und praktisch immer eine Überschätzung vornimmt, die
beträchtlich ist.
40
Nimmt man hinzu, dass es durch die Gier der Presse sich immer auf erste spektakuläre
Ergebnisse zu stürzen, nicht aber Korrekturen zu publizieren auch einen öffentlichen
Wahrnehmungsbias gibt [4], dann kann man davon ausgehen, dass man eigentlich kaum
irgend einer öffentlich proklamierten Information über „medizinische Fortschritte“ trauen
sollte, bis die Information nicht durch weiterführende Replikationen erhärtet ist.
Nimmt man ausserdem hinzu, dass in industriegesponsorten Studien das
Nebenwirkungspotenzial beinahe um 90% geringer ausfällt verglichen mit anderen Studien
und dass solche Daten in der Regel aus sehr großen Beobachtungsstudien kommen (weil ja
seltene Nebenwirkungen nur berichtet werden können, wenn man tausende von Behandlungen
dokumentiert), dann liegt hier Datenfälschung in hohem Ausmaß vor.
Die andere Option würde heißen: die Grundannahmen des experimentellen Modells
sind falsch, daß man nämlich den Experimentator – in diesem Falle den Sponsor – und seine
Intention durch methodische Maßnahmen (Verblindung, Randomisierung, Verdeckung der
Zuweisung, Verblindung der Ergebniserhebung) ausschalten kann. Dann hätten wir es mit
direktem Einfluß von Intention oder Bewußtsein auf materielle Systeme zu tun.
Keine dieser Optionen ist komfortabel und man kann sich gewisser Weise aussuchen, ob
man seinen Glauben an die Solidität wissenschaftlich erzeugter Daten lieber am Felsen der
Scylla zerschellen sieht, dem enormen Publikationsbias, oder ihn lieber im Strudel der
Carybdis versinken lassen will, der Unmöglichkeit, die Intention des Experimentators aus
dem Ergebnis eines Experiments draußen zu behalten.
Den Publikationsbias kann man in den Griff bekommen, indem man nur noch registrierte
Studien zulässt und überprüft, was mit den registrierten aber nicht publizierten passiert ist. Ich
würde vermuten, dadurch wird ein Teil des Effektes erklärt. Ob damit aber auch der nichtklassische Versuchsleitereffekt als Erklärung unnötig wird, für den wir und andere den einen
oder anderen Hinweis gefunden haben [5-6]?
Vielleicht werden schon die nachfolgenden Generationen über unsere Naivität lachen, mit der
wir geglaubt haben, man könne Systeme willkürlich auseinanderreißen und dennoch gültiges
Wissen erlangen? Vielleicht sollten wir anfangen, über die Grundfesten unseres Weltbildes
nachzudenken?
← Zurück zu Kapitel 7
Weiter zu Kapitel 9 →
Quellen & Literatur
[1] Lundh, A., Sismondo, S., Lexchin, J., Busuioc, O. A., ., & Bero, L. (2012). Industry
sponsorship and research outcome. Cochrane Database of Systematic Reviews(12),
MR000033.
41
[2] Turner, E. H., Matthews, A. M., Linardatos, E., Tell, R. A., & Rosenthal, R. (2008).
Selective publication of antidepressant trials and Its influence on apparent efficacy. New
England Journal of Medicine, 358, 252-260.
[3] Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine,
2(8), e124.
[4] Gonon, F., Konsman, J.-P., Cohen, D., & Boraud, T. (2012). Why most biomedical
findings echoed by newspapers turn out to be false: The case of Attention Deficit
Hyperactivity Disorder. PLoS ONE, 7(9), e44275.
[5] Walach, H., & Schmidt, S. (1997). Empirical evidence for a non-classical experimenter
effect: An experimental, double-blind investigation of unconventional information transfer.
Journal of Scientific Exploration, 11, 59-68.
[6] Kennedy, J. E., & Taddonio, J. L. (1976). Experimenter effects in parapsychological
research. Journal of Parapsychology, 40, 1-33.






ZUR PERSON
Der klinische Psychologe, Philosoph und Wissenschaftshistoriker Prof. Dr. Dr. Harald Walach ist Professor für Forschungsmethodik komplementärer Medizin und Heilkunde und Leiter des Instituts für transkulturelle Gesundheitswissenschaften (IntraG) an der Europa-Uni Viadrina Frankfurt (Oder). Mehr über Harald Walach →
Forschung



Projekte und Forschung
Methodenlehre für Anfänger
o (13) Power-Analyse: die Magie der Statistik – Oder: Der Unterschied zwischen Signifikanz und
Relevanz
o (14) Die Magie der Statistik in Aktion: Tamiflu – „der grösste Raub der Geschichte“ – ziemlich
unbrauchbar
Ressourcen & Mediathek
Blog-Artikel






„Science Delusion“ – www.SetScienceFree.org: Ein paar Gedanken zu Rupert Sheldrake
Fasnachtswissenschaft: Warum „Szientabilität“ ein Unwort ist
Studie: Nur wer sich um sich kümmert, kann sich auch gut um andere kümmern
In Memoriam Claus Fritzsche, †14.1.2014
Geist ohne Grenzen
A call for an open, informed study of all aspects of consciousness
Blog-Kategorien




Alles & Nichts (2)
Bewusstsein (9)
Forschung (17)
Im Fokus (4)
42





Medienkompetenz (12)
Philosophie (11)
Pressemitteilungen (1)
Pressespiegel (12)
Wissenschaft (25)
Blog-Archiv




















März 2014 (2)
Februar 2014 (2)
Januar 2014 (3)
Dezember 2013 (2)
Oktober 2013 (1)
September 2013 (1)
August 2013 (1)
Juli 2013 (1)
Juni 2013 (2)
Mai 2013 (1)
März 2013 (1)
Februar 2013 (1)
Januar 2013 (1)
Dezember 2012 (1)
November 2012 (3)
Oktober 2012 (3)
September 2012 (2)
August 2012 (2)
Juli 2012 (2)
Juni 2012 (4)
Schlagwörter
Achtsamkeit Akupunktur Alternativmedizin Aristoteles Bewusstsein
CAMbrella Das
Goldene Brett Decline Effect Die Silberne Schere Edzard Ernst Europa
Forschung Gesundheitswissenschaften
Grenzforschung
Harald Walach Homöopathie Interview IntraG Islam Journalismus
Komplementärmedizin Konstruktivismus Kultur des
Bewusstseins Markus C. Schulte von Drach Medienkompetenz Medizin
Mittelalter Parapsychologie Placebo Podcast
Pressespiegel Prof. Edzard Ernst Pseudomaschienen
Psychologie Quacksalberei Radio Raumfahrt Selbsterfahrung Selbstheilung Shitstorm Skandal
Spiritualität Symposium Wissenschaft
Wissenschaftsphilosophie
(9) Innere und äußere Erfahrung – Zen
und Wissenschaft
Oder: Warum sich Zen und Wissenschaft sehr gut vertragen und warum mehr
Wissenschaftler (und andere Leute) meditieren sollten
43
Gerade komme ich von einem Zen-Sesshin zurück. Das ist eine Meditationswoche, bei der
geschwiegen und pro Tag zwischen 7 und 8 Stunden meditiert wird; in diesem Falle auch
noch 6 Stunden in einer der Nächte. Mit Meditation meine ich hier: sich nur auf den Atem
einlassen, von Moment zu Moment, ohne Gedanken zu folgen oder sich von aufsteigenden
Gefühlen hinreißen zu lassen. Wenn man das eine Weile regelmäßig, am besten täglich,
Zuhause praktiziert – und sich dann zusätzlich in solchen Intensivzeiten wie einem Sesshin
vertieft – merkt man: man kommt in einen Raum der inneren Stille, der Gedankenfreiheit, in
der der Geist wie eine stille Wasseroberfläche ist, aus der dann, manchmal, von Zeit zu Zeit,
sehr tiefgründige Einsichten aufblitzen. Oder in denen man äußere Wahrnehmung durch die
Sinne – das, was wir so hören, sehen, schmecken und spüren – plötzlich mit einer ganz
anderen Intensität und ganz neu wahrnehmen.
Wenn solche Einsichten sehr „tief“ sind, werden sie in einigen Traditionen „Erleuchtung“
genannt. Ich finde aber das Wort ein bisschen überstrapaziert. Man muß nicht immer auf
die ganz grundlegenden Einsichten warten. Auch die vielen kleinen am Wegrand zählen.
Was geschieht hier? Ich biete folgendes Denkmodell an: Wenn wir davon ausgehen, dass
unser Geist oder unser Bewußtsein und unsere körperliche Wirklichkeit, also unser
Leib, unsere Gehirnfunktionen, Ausdruck ein und der selben Wirklichkeit sind, also
komplementäre Erscheinungsformen der Wirklichkeit, dann haben wir im Prinzip zwei
Zugangswege zu dieser Wirklichkeit:
Den einen hat unsere Wissenschaft seit etwa 700 Jahren immer weiter ausgebaut. Er
führt über die Sinne zur Erfahrung der äußeren Wirklichkeit. Unsere wissenschaftliche
Methodik hat uns gelehrt, sie immer besser gegen Irrtum zu schützen und immer tiefer in die
Natur der materiellen Realität einzutauchen.
Den anderen Weg, den über das Bewußtsein, haben wir in der westlichen Welt nicht
wirklich systematisch gepflegt [1]. Philosophen haben immer wieder versucht über das, was
wir im Westen „Denken“ nennen, die Struktur der Wirklichkeit zu ergründen. Meine
Vermutung ist, dass diese Philosophen mit „Denken“ ursprünglich im Wesentlichen die
Systematisierung dessen meinten, was ich mit „innerer Erfahrung“ bezeichne. Manche
Philosophen und Theologen haben diesen inneren Zugangsweg zur Wirklichkeit noch
radikaler und systematischer gelehrt. Sie gelten gemeinhin als „Mystiker“, etwa Meister
Eckhart oder der von mir bearbeitete Hugo de Balma [2-4], ein Vorläufer von Eckhart. Aber
bei uns im Westen hat sich keine veritable und systematische Schulung dieser Innerlichkeit
entwickelt, und vor allem keine Erfahrungswissenschaft, also kein systematischer Weg der
Erkundung, der Überprüfung und des kritischen Diskurses über solche Erfahrungen.
Deswegen stehen wir ihnen auch skeptisch gegenüber und schieben sie ab ins Reich der
Esoterik, der Beliebigkeit und der subjektiven Erbaulichkeit. Ich meine hingegen: unter der
Voraussetzung, dass Bewußtsein eine gleich-ursprüngliche Manifestation von
Wirklichkeit ist wie Materie, können wir auch durch die Rückwendung des Bewußtseins
auf sich selbst diese Wirklichkeit erkunden. In den mystischen und spirituellen Traditionen
sprechen wir dann von „inneren Erfahrungen“.
Die äußere Erfahrung der Sinne zeigt uns etwas über die materielle Struktur der Welt, und
unsere Wissenschaft hat uns seit ihren Anfängen in diesem Bereich viel gelehrt. Die innere
Erfahrung zeigt uns etwas über die innere Struktur, z.B. unseres Lebens. Dann nennen wir
dies „Sinnstruktur“ oder „Sinnfindung“. Sie zeigt uns aber auch etwas über die innere
Struktur der Welt. Dann nennen wir dies „Werte“ oder „Wertfindung“, manchmal auch
44
Einsicht in theoretische Strukturen, wie sie Mathematiker oder geniale Physiker wie
Leibniz, Newton, Einstein oder Heisenberg von Zeit zu Zeit hatten. Sie hatten ihre
theoretischen Modelle ja auch nicht in der Sinnlichkeit vorgefunden, sondern in einer Art
geistigen Struktur, die sie, analog einer kleinen oder größeren spirituellen Erfahrung, „von
innen“ her, gemacht haben.
Diesen Innenzugang zur Wirklichkeit haben wir im Westen kulturell gesehen versäumt zu
systematisieren. Es gibt keine Orte – wie etwa an Schulen oder Universitäten – an denen er
wirklich sorgfältig gelehrt oder untersucht würde. Es gibt hier keine Tradition, die prüft,
nachdenkt, forscht und untersucht, welche Art von Zugang für welche Art von
Menschen besonders nützlich wäre, usw. Die Theologie wäre eigentlich ein solcher Ort, hat
sich aber aus meiner Sicht darauf beschränkt, die kognitiv-begrifflichen Strukturen zu
analysieren, die vielleicht zur Interpretation mancher Erfahrungen taugen, sie aber nicht
ersetzen.
In der Übung des Geistes – wörtlich übersetzt heißt der alte Begriff für Meditation eigentlich
„Kultur des Geistes“ – finden wir, daß wir plötzlich sinnlose Konzepte und
Voraussetzungen, die wir ungeprüft ein Leben lang mit uns herumgeschleppt haben,
durchschauen und loslassen können. Dies ist die Tradition der radikalen Prüfung unserer
Denkstrukturen und Denkvoraussetzungen, für die die Zen-Tradition, innerhalb derer ich
selber übe, bekannt ist. Das drückt sich aus in so berühmten Geschichten wie: „Was ist die
wahre Lehre?“ „Nichts von heilig, reine Weite“. Diese Tradition der radikalen Prüfung hat
Zen und eigentlich jede ernsthafte Tradition der Innerlichkeit, ob westlich oder östlich,
mit dem Anliegen der Wissenschaft gemeinsam, nämlich alle Meinungen, alles Vermuten
einer radikalen, methodisch abgesicherten Prüfung zu unterziehen.
Das Element der methodischen Absicherung ist in unserer westlichen Wissenschaft sehr gut
entwickelt und ein zentrales Bestimmungsmerkmal. Es ist im Bereich der
Meditationstraditionen schwieriger zu gewinnen. In der Zen-Tradition und anderen
spirituellen Traditionen wird es gewährleistet durch einen iterativen Prozeß, in dem der
Schüler seinem Lehrer von den Erfahrungen berichtet und dieser anhand von konkreten
praktischen Äußerungen prüft, ob die Aussagen stimmig sind – sie mit seiner eigenen
Erfahrung und denen der Tradition vergleicht. Es gibt also auch hier eine Art
Prüfkriterium der Absicherung von Erfahrung, nämlich durch die Praxis und den
Vergleich mit der Tradition [5].
Es ist vielleicht weniger leicht verstehbar und weniger allgemein zugänglich, als in der
Wissenschaft, aber nicht weniger rigoros. Schließlich gibt es auch in der Wissenschaft in
speziellen Bereichen nur wenige Fachleute, die sagen können, ob ein berichteter Befund
stichhaltig ist oder nicht, ein Modell tauglich oder nicht.
Aber sicherlich müßte man hier viel Arbeit leisten, um eine veritable Methodik der
Absicherung innerer Erfahrung zu leisten. Ursprünglich war dies das Programm, mit dem
Franz Brentano 1873 in Wien angetreten war, eine neue, erfahrungsbasierte Philosophie zu
etablieren, die dann als Psychologie Schule machte, allerdings stärker auf den Außenzugang
der Naturwissenschaften setzend.
Kultur des Geistes, etwa durch regelmäßige Meditation, könnte also nützlich sein, vor
allem für Wissenschaftler, aber auch für andere Menschen, weil sie uns hilft einen neuen
Zugang zur Wirklichkeit zu finden, nämlich den von innen her. Manchmal kann es einfach ein
kreativer Einfall sein, wie sich bestimmte Datensätze zu einer sinnvollen Struktur verbinden
45
lassen. Manchmal kann es eine kluge Idee sein, welchen Forschungsweg man als Konsequenz
aus bestimmten Erkenntnissen nun einschlagen solle. Manchmal kann es eine tiefe Einsicht
über Wertstrukturen der Wirklichkeit sein, die uns zeigt, welche Wege, vermutlich a priori,
nicht sinnvoll weiter zu gehen sind, ohne daß man erst ans Ende des Holzweges laufen muß
und wieder zurück. Viel Geldverschwendung könnte auf diese Weise vermieden werden.
Manchmal könnten es Entscheidungen und kreative Einfälle über neue Themen sein, die sich
daraus ergeben. Und manchmal könnte es eben auch eine wegweisende „Erleuchtung“ einer
ganz neuen Art von Theorie sein.
Mir scheint, wir haben zu viel langweilige Alltagswissenschaft, die viel Geld kostet und
nicht sehr weit führt. Ich glaube, dies ließe sich ändern, wenn mehr Wissenschaftler,
aber auch mehr Politiker und andere Menschen den Zugang zu ihren inneren
Inspirationsquellen systematisch freilegen würden. Durch regelmäßige Kultivierung ihres
Hauptwerkzeuges, des Geistes. Ein Wissenschaftler, der seinen Geist nicht regelmäßig übt ist
ein bißchen wie ein Sportler, der immer nur in Wettkämpfen und in Echtzeit seinen Körper
fordert, aber nie systematisch üben würde. Auch ein solcher Sportler würde vielleicht gute
Leistungen erzielen. Aber mit systematischer Übung eben bessere.
Solche Übung des Geistes stünde auch denen an, die vor allem ihren Geist einsetzen, um zu
Erkenntnis zu kommen. Und das ist nichts anderes als Übung der Meditation. Das wäre dann
auch aus meiner Sicht eine konsequente Weiterführung der Aufklärung, die dringend Not tut
[6].
← Zurück zu Kapitel 8
Weiter zu Kapitel 10 →
Quellen und Literatur
[1] Walach H: Innere Erfahrung – eine wissenschaftstheoretische Spurensuche. in Yousefi
HR, Dick C (eds): Das Wagnis des Neuen. Kontexte und Restriktionen der Wissenschaft.
Festschrift fü Klaus Fischer zum 60. Geburtstag. Nordhausen: Traugott Bautz, 2009, 415-436.
[2] Walach H: Notitia experimentalis Dei – Erfahrungserkenntnis Gottes. Studien zu Hugo de
Balmas Text “Viae Sion lugent” und deutsche übersetzung. Salzburg, Institut für Anglistik
und Amerikanistik der Universität Salzburg, 1994.
[3] Walach H: A medieval Carthusian monk’s recipe to multiple kensho: Hugh of Balma’s
approach to mystical union and some striking similarities to modern Zen teaching. Studies in
Spirituality 2009;19:199-225.
[4] Walach H: Notitia Experimentalis Dei – Experiential Knowledge of God: Hugh of
Balma’s Mystical Epistemology of Inner Experience – A Hermeneutic Reconstruction.
Salzburg, Institut für Anglistik, 2010.
[5] Walach H, Runehov ALC: The epistemological status of transpersonal psychology: The
data-base argument revisited. Journal of Consciousness Studies 2010;17:145-165.
[6] Walach H: Spiritualität: Warum wir die Aufklärung weiterführen müssen. Klein Jasedow,
Drachen Verlag, 2011.
46
(10) Plausibilitätsbias und die weit
verbreitete Meinung, die Homöopathie sei
„widerlegt“
Weitere Kapitel zum Thema “Bias”: Teil 8: Industry Bias – Eine neue Form des Bias oder ein
interessanter Experimentator Effekt? (mit einer einleitenden Erklärung des Begriffs “Bias”)
und Teil 5: Empirie und Theorie (1) – Bayes-Bias
Eine Analyse der systematischen Reviews und Meta-Analysen zur Homöopathie kommt –
außer sie wird im Detail und kenntnisreich durchgeführt – in der Regel zu der Auffassung, die
Wirksamkeit homöopathischer Arzneimittel gegenüber Placebo sei nicht ausreichend belegt.
Daraus machen dann die meisten Leser, Journalisten und auch viele Wissenschaftler die
Aussage „Homöopathie ist unwirksam“ und einige Leute, die nicht besonders tiefgründig
nachdenken oder gar ein anderweitiges Interesse verfolgen sagen dann sogar: „Die
Unwirksamkeit der Homöopathie ist wissenschaftlich bewiesen“.
Wir bemerken hier eine Steigerung: von „mangelnder Beleg des Unterschiedes zwischen
Placebo und Homöopathie“, zu „mangelnder Beleg der Wirksamkeit“, zu „Beleg der
Unwirksamkeit“. Woher kommt das? Eine neuere Arbeit von Rutten und Kollegen [1] führt
einen interessanten Begriff ein, um das verständlich zu machen: Plausibilitätsbias. Damit ist
gemeint: Was wir a-priori für denkbar, möglich und vernünftig halten, das prägt auch
die Art, wie wir mit Daten umgehen. Anhand der oft zitierten Meta-Analyse von Shang und
Kollegen [2] will ich das hier mit dem Leser durchexerzieren.
Um das Ergebnis gleich vorweg zu nehmen: es ist nicht richtig, zu sagen, Homöopathie
sei unwirksam und das sei wissenschaftlich belegt. Es wird nur so gesehen, weil sie, die
Homöopathie, den allermeisten Leuten auf den ersten Blick unplausibel erscheint.
Die Shang-Analyse [2] hat im ersten Schritt 110 homöopathische und ebenso viele
konventionelle Studien miteinander verglichen, die das gleiche Krankheitsbild behandelten
und im Rahmen einer etwa gleich großen Studie untersuchten. Nimmt man alle Studien
zusammen, dann ist das Ergebnis der konventionellen und der homöopathischen
Studien erstaunlich ähnlich: beide Interventionsformen zeigen eine kleine Überlegenheit
über Placebo. In der Tat sind sie so nahe bei einander, dass sogar die Autoren selber erstaunt
feststellen, dass es kaum einen Unterschied gibt. Sie heben sogar hervor, dass dies nicht mit
methodischen Schwächen der Homöopathiestudien zusammenhängen kann.
Denn 19% der homöopathischen, aber nur 8% der konventionellen Studien waren methodisch
sehr gut. Dann taten Shang und Kollegen etwas eher Unübliches: Anstatt alle Studien zu
analysieren, verwendeten sie in einem zweiten Analyseschritt nur 8 der 110
Homöopathiestudien und 8 ähnlich große konventionelle Studien, die aber mit ganz
anderen Krankheiten zu tun hatten. Das wurde aber erst viel später klar, als viele Leser und
Autoren protestierten und die Liste der Studien sehen wollten, die in die Analyse eingegangen
waren. Wenn man nun nur diese 8 Studien analysiert und das Analyseergebnis mit den 8
konventionellen Studien vergleicht findet man, dass diese 8 homöopathischen Studien keinen
Unterschied zwischen Homöopathie und Placebo belegen konnten, wenn man sie zusammen
nimmt, die gewählten konventionellen Studien hingegen sehr wohl.
47
Die Auswahl dieser Studien wurde nun heftig kritisiert. Zum einen, weil lange unklar
war, welche Studien dies waren. Zum anderen, weil die Auswahlkriterien willkürlich
erscheinen. Es waren die „grössten“ Studien, sagen die Autoren. Aber was ist groß? Ist eine
Studie mit 98 Patienten groß, wie meine eigene, die die letzte der 8 eingeschlossenen Studien
war [3]? Warum nicht auch eine mit 90 Patienten, die nicht mehr in die Analyse einging?
Diese Kriterien und ihre Begründung blieben intransparent [4,5]. Eine Re-Analyse der Daten
zeigte, dass sich die Schlußfolgerungen ändern, wenn man die Anzahl der Studien in der
Analyse ändert, also z.B. noch zwei oder drei oder fünf Studien mehr hinzu nimmt [6]. Eine
solche sog. „Sensitivitätsanalyse“ gehört eigentlich zum Standard jeder Meta-Analyse und
hätte den Autoren zeigen müssen, dass ihre Schlußfolgerungen nicht robust und daher auch
wissenschaftlich nicht begründet sind. Eine solche Sensitivitätsanalyse haben die Autoren
nicht vorgelegt.
Da es keinen, aber auch überhaupt gar keinen wissenschaftlichen Grund gibt, warum man
genau jene 8 und nicht vielleicht 7 oder 10 oder noch mehr nehmen sollte, bleibt die
Schlußfolgerung der Analyse wissenschaftlich fragwürdig. Interessanterweise wird diese
substanzielle Kritik von praktisch allen Autoren, die die Shang-Analyse zum Beweis der
Wirkungslosigkeit der Homöopathie zitieren, komplett ignoriert.
Ein anderes interessantes Detail: Shang und Kollegen sagen, es gäbe ein Subset von Studien
zu Atemwegsinfekten, bei denen die Homöopathie sogar sehr gut abschneide, statistisch
signifikant und mit klinisch relevanten Effektgrössen. In anderen Interpretationen wird dieses
Subset von Daten angezweifelt. Denn 11 von den insgesamt 21 Studien haben kein
eindeutig positives Ergebnis, sondern zeigen nur einen positiven, aber nichtsignifikanten Trend; sie haben also ein Problem mit der statistischen Mächtigkeit, weil
die Effekte nicht so groß und die Studien eher klein sind. Allerdings zeigt eine Analyse
der von Shang herangezogenen konventionellen Vergleichsstudien ein vergleichbares
Bild: 9 von 21 konventionellen Atemwegsinfekt-Studien sind unklar und haben keinen
signifikanten Effekt. Der zusammengefaßte Effekt ist in beiden Studienensembles also etwa
gleich. Warum geht man nun davon aus, dass die homöopathischen Studien es verfehlt haben,
Wirksamkeit zu beweisen, während man bei der Meinung bleibt, dass die konventionellen
Studien eine Wirksamkeit gezeigt hätten? In den Daten kann man diesen Unterschied nicht
sehen. Diese Ansichten sind ein Resultat eben jenes Plausibilitätsbias.
Bias bedeutet immer eine Verzerrung der Wahrnehmung. Beim Plausibilitätsbias wird die
Wahrnehmung verzerrt durch das, was wir plausibel finden: die meisten von uns haben keine
Vorstellung davon, wie Homöopathie wirken können soll. Also ignorieren wir entweder die
Daten, oder interpretieren sie nicht richtig. Rutten und Kollegen sind Kliniker und weisen
darauf hin, dass ihre apriori-Bereitschaft, Homöopathie als potenziell wirksam
anzusehen, daher kommt, dass sie zuvor selbst wiederholt klinische Effekte der
Homöopathie gesehen haben. Wer das nicht hat, interpretiert die Daten häufig anders.
Rutten und Kollegen weisen auch darauf hin, dass es in der Medizin gang und gäbe war
und immer noch ist, dass wirksame Interventionen aus Erfahrung heraus entwickelt
werden und sich durch den klinischen Einsatz bewähren, lange bevor durch Forschung
ggfls. klar wird, warum etwas wirkt.
Ein häufig genanntes Beispiel für diesen Ablauf ist Acetylsalicylsäure (ASS), bekannter unter
dem Markennamen “Aspirin”. In der Volksmedizin wurden Weidenrindentee und extrakte, die eine ähnlich wirkende Vorstufe von ASS enthalten, schon seit antiker Zeit
gegen Schmerzen verwendet. 1897 wurde ASS von Bayer synthetisiert und dann als
48
“Aspirin” vermarktet. Der Mechanismus – die Hemmung der Prostaglandinsynthese – wurde
erst 1971 aufgeklärt, und seither verstehen wir immer mehr Details des Wirkmechanismus
von Salicinverbindungen.
Es wäre klinisch betrachtet völlig unplausibel gewesen, den bewährten Einsatz von
Salicinverbindungen abzulehnen, nur weil man (noch) nicht verstanden hat, wie die
Substanzen wirken.
Bei der Homöopathie ist das Problem noch ein bisschen tiefgründiger: hier kann man sich
anhand des etablierten Wissens auf Anhieb nicht einmal vorstellen, warum sie wirken sollte.
Aber selbst das sollte allenfalls Anlass zu gesunder Skepsis sein, die ja jederzeit völlig
gerechtfertigt ist, aber sollte nicht gleich zu kompletter Ablehnung und
Wahrnehmungsverweigerung führen.
Das ist aber genau das, was derzeit in weiten Kreisen geschieht – und genau das ist
Plausibilitätsbias: eine Fehlwahrnehmung, eine Verweigerung der Wahrnehmung von
Fakten, weil sie einem nicht in den Kram des eigenen Weltbildes passen. So sollte –
eigentlich – Wissenschaft nicht vorgehen, tut es aber häufig trotzdem, vielleicht einfach weil
es den Feierabend weniger stört.
Die Moral von der Geschicht’? Die Aussage, die Unwirksamkeit der Homöopathie sei
bewiesen ist in sich selbst unwissenschaftlich, weil nicht belegbar, nicht mit den Fakten
übereinstimmend und einem Plausibilitätsbias geschuldet. Wahrscheinlich sollten wir uns
selbst viel öfter Rechenschaft über unsere Ausgangsannahmen ablegen, mit denen wir die
Welt betrachten und anhand derer wir für denkbar halten, was darin vorkommen kann, wenn
wir den Plausibilitätsbias vermeiden wollen.
← Zurück zu Kapitel 9
Weiter zu Kapitel 11 →
Quellen und Literatur
[1] Rutten, L., Mathie, R. T., Fisher, P., Goosens, M., & van Wassenhoven, M. (2012).
Plausibility and evidence: the case of homeopathy. Medical Health Care and Philosophy, doi:
10.1007/s11019-012-9413-9.
[2] Shang, A., Huwiler-Münteler, K., Nartey, L., Jüni, P., Dörig, S., Sterne, J. A. C., et al.
(2005). Are the clinical effects of homeopathy placebo effects? Comparative study of
placebo-controlled trials of homoeopathy and allopathy. Lancet, 366, 726-732.
[3] Walach, H., Gaus, W., Haeusler, W., Lowes, T., Mussbach, D., Schamell, U., et al. (1997).
Classical homoeopathic treatment of chronic headaches. A double-blind, randomized,
placebo-controlled study. Cephalalgia, 17, 119-126.
[4] Walach, H., Jonas, W., & Lewith, G. (2005). Letter to the Editor: Are the clinical effects
of homoeopathy placebo effects? Comparative study of placebo-controlled trials of
homoeopathy and allopathy. Lancet, 366, 2081.
49
[5] Fisher, P., Bell, I. R., Belon, P., Bolognani, F., Brands, M., Connolly, T., et al. (2005).
Letter to the Editor: Are the clinical effects of homoeopathy placebo effects? Lancet, 366,
2082.
[6] Lüdtke, R., & Rutten, A. L. B. (2008). The conclusions on the effectiveness of
homeopathy highly depend on the set of analyzed trials. Journal of Clinical Epidemiology, 61,
1197-1204.
(11) Wie wissenschaftlich ist die
Komplementärmedizin? Oder: Vom Hirsch
im Blätterwald
Immer wieder wird behauptet, die Komplementärmedizin sei nicht sonderlich
wissenschaftlich, die konventionelle Medizin hingegen sei wissenschaftlich und gut belegt.
Vor allem junge Blogger argumentieren manchmal so, aber auch Journalisten und
Kolleginnen und Kollegen aus dem universitären Umfeld.
Das Adjektiv „wissenschaftlich“ wird in solchen Auseinandersetzungen meiner Beobachtung
nach in mindestens drei Bedeutungen verwendet:
Fundamentalreligiös:
Mit „wissenschaftlich“ ist dann ein bestimmtes Weltbild gemeint, das bestimmte
Grundannahmen einschließt, von denen man glaubt, sie seien unabdingbarer Teil der
Wissenschaft. Überlegt man genauer, dann erkennt man relativ rasch, dass diese
Grundannahmen aus bestimmten historischen Formen von Wissenschaft oder
bestimmten Teildisziplinen von Wissenschaft entstanden sind – sie sind aber nicht
Bestandteil von Wissenschaft schlechthin. Es handelt sich dabei um die Annahmen eines
generellen Materialismus in dem Sinne, dass man davon ausgeht, einzig Materie sei wirklich,
alles andere davon abgeleitet. Diese Aussage selbst ist eine philosophische oder religiöse,
aber keine wissenschaftliche.
Häufig verwechseln Autoren die Voraussetzungen, die eine bestimmte Form von
Wissenschaft macht – und machen muß –, mit den Ergebnissen und mit den Möglichkeiten
von Wissenschaft schlechthin. Ob Komplementärmedizin in diesem Sinne „wissenschaftlich“
ist oder nicht, ist nicht geklärt. Man kann sicherlich eine materialistische Reduktion der
meisten Behauptungen vornehmen, die in der Komplementärmedizin gemacht werden.
Meistens entpuppt sich eine solche Verwendung des Begriffs „wissenschaftlich“ jedoch
als krypto-religiös. Sie ist im eigentlichen Sinne szientistisch: Die Methode der
Wissenschaft wird zu einer Weltanschauung erhoben. Bereits Husserl hat auf die Probleme
und Gefahren eines solchen Vorgehens hingewiesen [1]. Man sollte sich jedenfalls
klarmachen, dass eine solche Verwendung des Begriffs nichts mit Wissenschaft selbst zu tun
hat.
Methodisch:
Man glaubt, Komplementärmedizin sei von der Methodik her nicht gut genug empirisch
geprüft. Die Behauptung stützt sich darauf, dass moderne pharmakologische Interventionen
schon aus Gründen der Zulassung durch Doppelblindstudien evaluiert werden müssen und
50
daher eine vergleichsweise solide Datenbasis haben, jedenfalls im Durchschnitt und meistens.
Dies ist bei komplementärmedizinischen Maßnahmen nicht immer so. Meist sind sie älter und
traditionell überliefert und haben daher einen gewissen Vorsprung im Sinne einer allgemeinen
„Erfahrungsmedizin“ und rechtlich einen anderen Status.
Dass auch diese Verfahren solide wissenschaftlich untersucht gehören, darüber sind sich die
meisten Proponenten der Komplementärmedizin einig. Dies ist komplex, wie jeder weiß.
Doch trotz der methodischen Schwierigkeiten ist zum Beispiel die Akupunktur bei
Schmerzsyndromen vermutlich solider untersucht und wirksamer als viele
pharmakologische oder andere Interventionen [2,3]. Eine aktuelle Analyse der Datenbasis
der kardiologischen Leitlinien sagt, dass im Median nur 11% gut belegt sind [4], und in der
Onkologie sind es gar nur knapp 7% [5]. Ich vermute: Wenn man ganz unvoreingenommen
prüfen würde, wäre es um die „Wissenschaftlichkeit“ der Komplementärmedizin im
methodischen Sinne gar nicht so schlecht bestellt.
Sozial:
Häufig ist mit „unwissenschaftlich“ „den Konsens der Mehrheit der Fachleute
verletzend“ gemeint. Auch wenn das selten explizit erwähnt wird, so schwingt diese
Bedeutung meistens mit. Das ist in gewisser Weise sinnvoll, denn die soziale Dimension ist
auch in der Wissenschaft wichtig. So ziehen Wissenschaftsjournalisten bei ihren Artikeln
häufig „Gewährsleute“ für Wissenschaftlichkeit zum Beleg ihrer Meinungen oder
Interpretationen heran. „Wissenschaftlichkeit“ wird dann durch den Stellvertreterparameter
„Prominenz“ in der wissenschaftlichen Gemeinschaft oder Ähnliches definiert, ein soziales
Kriterium also.
Der Operationalisierung eines solchen sozialen Kriteriums will ich mich nun zuwenden und
fragen: Stimmt es, dass in diesem sozialen Sinne Komplementärmedizin
„unwissenschaftlich“, also sozial wenig rezipiert und respektiert ist? Ich stütze mich dabei auf
die internationale Gemeinschaft, denn sie ist der Referenzpunkt.
Der Hirsch-Faktor als szeintometrischer Index
Eine einfache, approximative und vielleicht auch etwas oberflächliche Methode ist die, einen
szientometrischen Index zu befragen, den sogenannten „Hirsch-Index“ [6]. Dieser Index ist
eine dimensionslose Zahl, die angibt, wie häufig, im Verhältnis zur Zahl der
Publikationen, die Arbeit eines Wissenschaftlers von anderen Wissenschaftlern weltweit
aufgegriffen wird. Sie verrechnet sozusagen die Produktivität eines Autors mit seiner
Resonanz in der Gemeinschaft. Wer viel schreibt, aber nicht gelesen wird, hat genauso einen
relativ niedrigen Hirsch-Faktor wie jener, der relativ wenig schreibt und mittelmäßig rezipiert
wird. Sein Einfluss bleibt marginal. Jemand, der nur sehr wenig schreibt, das aber in viel
gelesenen und zitierten Zeitschriften wie „Science“ und „Nature“ erscheint, hat dagegen einen
relativ hohen Hirsch-Faktor. Dasselbe kann man auch erreichen, wenn man viel schreibt, das
mittelmäßig oft aufgegriffen wird.
Außerdem sieht man an der Zitationshäufigkeit, welches Gebiet und welches Thema im
Moment „heiß“ ist, also worum sich auch viele andere Forscher kümmern. Denn wenn
jemand z.B. an der Bedeutung bestimmter Phrasierungen in akkadischen Texten des 2.
Jahrtausends v. Chr. forscht, wird er, auch wenn er extrem gut und sorgfältig arbeitet,
vielleicht eine kleine Gruppe von weltweit vielleicht 50 Spezialisten erreichen. Damit ist seine
maximale Reichweite immer beschränkt. Insofern ist der Hirsch-Faktor natürlich auch ein
sehr grobes Maß sozialer Integration. Er bildet Spezial- und Randgebiete nicht gut ab. Daher
kann man auch auf Gebieten, auf denen viele arbeiten, auf denen es viel Neues gibt und viel
Durchsatz, viel rascher zu Ehren kommen als auf anderen. Die Wissenschaft ist ein großes
51
Gedränge. Jeder will gehört werden, jeder will vorne sein, alle wollen Preise, jeder hält seine
Arbeit für die wichtigste. Im Hirsch-Faktor bildet sich das Selbstorganisationsbestreben der
sozialen Gemeinschaft der Wissenschaft ab. Was die anderen interessiert, was ihnen nützlich
vorkommt, was sie spannend und vernünftig finden, das zitieren sie. Das andere versinkt in
den Archiven und Datenbanken. Diese soziale Aufmerksamkeit ist nicht immer ohne
Verzerrung. Im Gegenteil, die Vorlieben und Abneigungen spiegeln sich darin. Dennoch
ist die Analyse des Hirsch-Faktors nützlich.
Daher habe ich mir erlaubt, diese Fingerübung einmal mit Forschern aus der
komplementärmedizinischen Szene zu machen und mit solchen, die von Journalisten
gerne und oft als Kritiker und als Gewährsleute herangezogen werden bzw. sich selber
als solche in ihren Blogs stilisieren. Ich habe dazu ein frei verfügbares Programm
verwendet, das mit verschiedenen Online-Datenbanken zusammenarbeiten kann
(http://www.harzing.com). Das Programm arbeitet mit Google-Scholar. Das ist insofern fair,
weil es das Nutzungsverhalten der „Community“ gut spiegelt und weil sich hier eine breitere
Datenbasis sammelt als in den weniger gut zugänglichen Zitierindizes der Verlage [7].
Außerdem hat diese Analyse den Vorteil, dass sie von jedem leicht repliziert, erweitert oder
aktualisiert werden kann.
Ich gehe folgendermaßen vor: Ich stelle in einer Tabelle die Kennwerte einiger
prominenter „Skeptiker“ vor, die gerne von sich behaupten, sie seien „wissenschaftlich“.
Sie positionieren sich auch gerne in der Öffentlichkeit als die Stimme der Wissenschaft.
Dann stelle ich einige Vertreter der Mainstream-Wissenschaft vor, die mir über alle
Zweifel erhaben scheinen, weil sie a) gute Positionen inne haben (z.B. Leiter von MaxPlanck Instituten, Professoren); b) innerhalb ihrer Gemeinschaft eine Art Führungsposition
innehaben (z.B. Leiter und Gründer von wissenschaftlichen Fachgesellschaften oder
Institutionen, prominente Position in der Öffentlichkeit; Klinikumsdirektor); und c) für
Gebiete stehen, die allgemein als wichtig und „wissenschaftlich“ gesehen werden
(Hirnforschung, Philosophie des Geistes, Medizin). Ich gehe dabei auch pragmatisch vor
insofern, als ich Namen wähle, die nicht doppelt oder öfter vorkommen, damit es keine
Überschneidungen gibt. Und ich wähle Namen von Personen, die ich kenne bzw. von denen
ich weiß, dass sie prominent sind. Diese Auswahl ist sicherlich subjektiv und dient eigentlich
nur der „Eichung“ der Befunde. Schließlich stelle ich in einer dritten Tabelle prominente
Vertreter der komplementärmedizinischen Forschung vor.
Tab. 1 – Hirsch Faktor einiger prominenter „Skeptiker“ oder Gewährsleuten von
„skeptischen“ Journalisten
Name
Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen
Jürgen Windeler
13
90
29
1042
Ulrich Berger
6
12
14
170
Martin Lambeck
3
11
49
58
Florian Freistetter 4
15
13
54
Tab. 2 – Hirsch-Faktor einiger prominenter deutscher und internationaler „MainstreamForscher“
52
Name
Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen
Tania Singer
27
81
20
5581
Karl Max Einhäupl
15
23
27
928
Thomas Metzinger
21
134
31
2945
Daniel Kahnemann
105
448
51
148’244
Volker Sommer
22
180
27
1’259
Franz Daschner
30
116
38
2561
Hans Christoph Diener 55
489
38
16’322
John P.A. Ioannidis
67
364
17
22’475
Sonu Shamdasani
11
76
23
735
Tab. 3 – Hirsch-Faktor einiger prominenter komplementärmedizinischer Forscher und
Autoren
Name
Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen
George Lewith
21
154
32
2004
Aviad Haramati
19
76
33
1193
Claudia Witt
25
169
22
3266
Andreas Michalsen 20
90
21
1204
Benno Brinkhaus
22
72
16
2643
Gustav Dobos
23
131
27
1684
Wayne B. Jonas
31
173
22
4739
Dieter Melchart
26
169
33
5007
Harald Walach
29
283
26
4210
Man sieht an diesen Daten sehr rasch:
Die soziale Dimension der Wissenschaft zeigt klar, dass die „Skeptiker“, die sich gern als
Epithet der Wissenschaft in der Öffentlichkeit positionieren eigentlich, wissenschaftlichsozial gesehen, randständige Figuren sind. Die Varianz der Rezeption von MainstreamWissenschaft ist riesig. Ein Autor wie Daniel Kahnemann, Psychologe und Nobelpreisträger
für Ökonomie wird enorm rezipiert und hat daher auch einen großen Hirsch-Faktor von über
100. Aber auch ein hoch-angesehener Mainstream-Wissenschaftler wie mein Freund und
Kollege Volker Sommer, der ein bekannter Evolutionsbiologe ist, eine Professur am
University-College London für evolutionäre Anthropologie hat und gleichzeitig in der
53
Universitätsleitung für Forschungsstrategie zuständig ist, hat einen Hirsch-Faktor im mittleren
Bereich. Ein andere Freund von mir, der international hoch renommierte C. G. Jung-Forscher
Sonu Shamdasani, ebenfalls Professor am University College London, aber repräsentativ für
eine eher kleine Community von Medizin-Historikern erreicht einen H-Faktor von 11, was
zeigt, dass die Zahl sehr relativ ist, je nachdem, in welchem Gebiet man tätig ist. Mein
ehemaliger Chef, Mentor und Förderer Franz Daschner, ehemaliger Institutsleiter in Freiburg
mit viel Ansehen, Preisen und weitem internationalem Renommee, hat im Laufe seiner langen
Karriere einen Hirsch-Faktor von 30 erreicht. Das übersteigt den Wert des derzeitigen Chefs
der Charité, Max Einhäupls, um einiges. Ein prominenter Neurologe wie Diener kann diese
Werte überbieten. Andere, wie Tania Singer, die noch junge Leiterin des Max-Planck Instituts
für „Social Neuroscience“ in Leipzig, oder der Philosoph Thomas Metzinger liegen in einem
Bereich, der durchaus allgemeine internationale Anerkennung und Rezeption signalisiert.
John Ioannidis wurde von mir gewählt, weil er eine Art Leuchtrakete am Methodenhimmel
darstellt. Er hat enorm weit berücksichtigte Arbeiten verfaßt, die viel zitiert und aufgegriffen
werden. Ein H-Faktor von 67 signalisiert dies.
Vergleicht man die Werte prominenter Skeptiker mit diesen Daten, so muß man klar
sagen: die Skeptiker mögen von sich selber denken, dass sie „die Wissenschaft“
repräsentieren. Faktisch wird das, was sie tun und publizieren, wenig rezipiert. Noch
hat es nennenswerte Resonanz in der Wissenschaft.
Da stehen prominente Vertreter der Komplementärmedizin um Längen besser da. Dies belegt,
was schon öfter gesagt wurde: die Komplementärmedizin ist im Mainstream
angekommen [8]. Die Werte unterscheiden sich innerhalb der Szene nicht groß und liegen
zwischen 20 und 30, genau in dem Bereich, in dem wir auch diejenigen von international
respektierten Mainstream-Forschern finden. Die Werte deutscher komplementärmedizinischer
Forscher liegen auch im internationalen Vergleich gut: Ich habe zwei Vergleichswerte
angeführt, den von Wayne Jonas, dem ehemaligen Leiter des Office of Alternative Medicine
und jetzigen Direktors des Samueli Instituts, und den von Aviad Haramati, des Leiters des
Consortiums der US-amerikanischen Institutionen und Kursleiters an der renommierten
Georgetown University in Washington.
Die deutschen Kollegen müssen sich nicht verstecken. Sie müssen sich auch nicht vor ihren
Kollegen aus dem Mainstream verstecken, und schon gar nicht vor denen, die als Kritiker
gerne behaupten, sie würden „Wissenschaftlichkeit“ repräsentieren. Wenn man sich
anschaut, wie Wissenschaft tatsächlich funktioniert, erscheint das Selbstverständnis der
„Skeptiker“ als pure Illusion und Selbsttäuschung. Anscheinend hilft der angeblich so
kritische Geist wenig, um bis zur Selbstkritik vorzustoßen.
Wenn wir also „wissenschaftlich“ pragmatisch definieren, sozial und so, wie
Wissenschaft funktioniert, können wir konstatieren: Komplementärmedizin ist
wissenschaftlicher als manches, was sich gerne als Wissenschaft versteht und verkauft
wird. Komplementärmedizin ist Wissenschaft. Das mag manche ärgern. Aber wie ich
hier gezeigt habe, ist es objektiv belegbar.
← Zurück zu Kapitel 10
Weiter zu Kapitel 12 →
54
Quellen und Literatur
1. Husserl E: Die Krisis der europäischen Wissenschaften und die transzendentale
Philosophie. Hamburg, Meiner, 1977.
2. Vickers AJ, Cronin AM, Maschino AC, Lewith GL, MacPherson H, Foster NE, Sherman
KJ, Witt CM, Linde K, Collaboratoin ftAT: Acupuncture for chronic pain: Individual patient
data meta-analysis. Archives of Internal Medicine 2012;online first.
3. Savigny P, Kuntze S, Watson P, Underwood M, Ritchie G, Cotterell M, Hill D, Browne N,
Buchanan E, Coffey P, Dixon P, Drummond C, Flanagan M, Greenough C, Griffiths M,
Halliday-Bell J, Hettinga D, Vogel S, Walsh D: Low Back Pain: early management of
persistent non-specific low back pain. London, National Collaborating Centre for Primary
Care and Royal College of General Practitioners, 2009.
4. Tricocci P, Allen JM, Kramer JM, Califf RM, Smith Jr SC: Scientific evidence underlying
the ACC/AHA clinical practice guidelines. Journal of the American Medical Association
2009;301:831-841.
5. Poonacha TK, Go RS: Level of scientific evidence underlying recommendations arising
from the National Comprehensive Cancer Network clinical practice guidelines. Journal of
Clinical Oncology 2010;29:186-191.
6. Sidiropoulos A, Katsaros D, Manolopoulos Y: Generalized Hirsch h-index for disclosing
latent facts in citation networks. Scientometrics 2007;72:253-280.
7. Larsen PO, von Ins M: The rate of growth in scientific publication and the decline in
coverage provided by Science Citation Index. Scientometrics 2010;84:575-603.
8. Brodin Danell J-A, Danell R: Publication activity in complementary and alternative
medicine. Scientometrics 2009;80:539-551.
(12) Vitamine: über die Unmöglichkeit, die
wichtigsten Dinge im Leben in Studien
untersuchen zu können
Ein kleines Lehrstück über statistische Mächtigkeit und die Unmöglichkeit, die wichtigsten
Dinge im Leben in Studien untersuchen zu können (*)
Ich greife meinen Methodenblog nach langer Pause wieder auf, diesmal mit einer
beispielhaften Diskussion um die neuen Vitaminstudien, an denen man viel über Statistik und
Methodik lernen kann. „Genug ist genug“, titelte das Editorial der Annals of Internal
Medicine [1], das eine Serie von Publikationen – ein systematischer Review mit MetaAnalyse [2] und einige originale Arbeiten [3] zur Wirksamkeit von Vitaminen in der primären
Prävention von Krankheiten begleitete. Die Botschaft wurde von den Medien aufgegriffen
und entsprechend weitergegeben. Vitamine seien Unsinn, gesunde Ernährung wäre genug.
Das Einnehmen von Vitaminpräparaten und Supplementen sei gar gefährlich, so war zu
hören. Das sei nun endgültig klar. Was daran stimmt?
55
Man kann an diesen Studien und ihrer Problematik einiges veranschaulichen. Zuvor ein paar
wichtige Klärungen: Die Meta-Analyse, die wir uns genauer ansehen werden [2], fasste
Studien zusammen, die einzelne Vitamine, meistens in Einzelgabe, und manchmal auch
Multivitamine zur Primärprävention untersucht hatten. Primärprävention bedeutet: Die
Menschen, die im Rahmen von solchen Studien Vitaminpräparate genommen haben, waren
nicht krank, sondern versuchten mit Hilfe der Einnahme solcher Vitamine Krankheit zu
verhindern.
Entsprechend waren die Studien auch angelegt: langfristig und mit großen Zahlen, jedenfalls
meistens. In allen Studien wurde zur Kontrolle natürlich Placebo verwendet und die Zuteilung
erfolgte durch Zufall, also randomisiert, wie es dem momentanen Standard entspricht.
Gemessen wurde meistens die Mortalität über den Studienzeitraum, also Todesfälle an allen
möglichen Erkrankungen, oder auch die Krebsinzidenz, also das Neuauftreten einer
Krebsdiagnose. Manche Studien in der Meta-Analyse und die noch zu diskutierende Studie
von Lamas und Kollegen [3] waren sog. Sekundärpräventionsstudien. Das sind solche, bei
denen die Patienten bereits eine Erkrankung, z.B. einen Herzinfarkt wie bei Lamas et al. [3],
oder eine Angina pectoris, hatten.
Die Analyse von Fortmann et al (2013) [2] lässt in der Tat keinen großen Zweifel daran, dass
die Vitamingabe von Einzelpräparaten, in Isolation von anderen gesehen, also ohne
potenzielle synergistische Effekte in einer gesunden, gut ernährten Population ohne
Erkrankung keinen großen Sinn ergibt und die Mortalität nicht senkt, ja sogar schädlich sein
könnte, mit Ausnahme von Vitamin D. Hier ist das letzte Wort noch nicht gesprochen, denn
es liegt ein schwacher, kleiner, knapp nicht signifikanter Effekt zugunsten von Vitamin D vor
(Relatives Risiko = 0.94, also eine kleine Risikoreduktion um 6 %).
Bei Folsäure liegt nur eine Studie vor mit sehr hohem positivem Effekt, aber zu großer
Streuung, bei Vitamin A liegt ebenfalls nur eine Studie vor mit kleinem negativem Effekt, bei
Multivitaminen könnte man diskutieren, weil der Effekt gerade mal nicht signifikant ist bei
Mortalität und Krebs.
Aber insgesamt ist das Ergebnis doch relativ klar. Die Autoren haben nur gute und
einigermaßen gute randomisierte Studie an gesunden Menschen eingeschlossen und
Sekundärpräventionsstudien nur, wenn sie klare Hypothesen hatten. Damit verbieten sich
Schlußfolgerungen auf den Einsatz solcher Präparate bei Kranken und zwar dann, wenn sie zu
gezielter Supplementation verwendet werden. Es ist ein großer Unterschied, ob gesunde
Menschen einfach so isolierte und synthetisch hergestellte Vitamine über lange Zeit zu sich
nehmen, oder ob nach sorgfältiger Diagnose bei einer Krankheit ein Mangel festgestellt wird
und dann eine Substitution durchgeführt wird.
Außerdem wird in dieser Diskussion oft Folgendes vergessen:
1.
2.
Vitamine kommen in der Natur nur in Kombination vor, wirken also immer synergistisch. Mein Paradebeispiel für
Synergismus ist ein Kind, das ein geübter Reiter ist und auf einem großen Pferd, das sich von ihm reiten
lässt, wesentlich schneller vorankommt als ohne, oder Hürden überspringen kann, das es ohne Pferd nicht
überspringen könnte. Umgekehrt würde das Pferd ohne den Reiter in der Regel weniger weit und ausdauernd
laufen und auch ohne Not nicht so hoch springen.
Vitamine sind nur eine Gruppe von schätzungsweise 10.000 oder mehr sekundären Pflanzenstoffen, die in den
natürlichen Vitaminquellen vorkommen und die möglicherweise viel bedeutsamer sind als die Vitamine selber. Sie
sind noch relativ wenig erforscht. So weiß man mittlerweile, dass etwa Farbstoffe in der Haut von Früchten,
oder Bitterstoffe und Geschmacksstoffe oft viel potentere Radikalfänger sind als die Vitamine selber.
Vitamine sind einfach historisch die erste dieser Gruppe von Stoffen, die erforscht wurden und von denen
man weiß, dass sie für den Organismus wichtig sind, weil er sie selber nicht herstellen kann. Aber selbst
wenn man Zitronensaft oder Orangensaft trinkt oder einen Apfel isst, dann nimmt man nicht einfach Vitamin
C zu sich, sondern hunderte von anderen Pflanzenstoffen.
56
3.
Vitamine können, wenn sie isoliert gegeben werden, zu lange und zu hoch dosiert und vor allem auch ohne ihre
natürlichen Partner selber als freie Radikale wirken. Freie Radikale sind jene Stoffe, die beim Stoffwechsel im
Körper entstehen. Sie enthalten ein Sauerstoff- und ein Wasserstoffatom oder ein Stickstoff- und ein
Sauerstoffatom. Sie heißen deswegen „Radikale“, weil diese HO- oder NO-Moleküle Bindungsbestandteile
sind, die reagibel sind, also nach Bindungen mit anderen Molekülen suchen. Wenn Vitamine oder andere
Radikalfänger vorhanden sind, werden sie von diesen abgefangen und damit unschädlich gemacht. Wenn zu
wenig von diesen vorhanden sind, dann kommt es zum sog. „oxidativen Stress“, einem Überschuss freier
Radikale, die sich dann andere Bindungspartner suchen, z.B. organische Strukturen von Zellen, die damit
zerstört werden. Das könnte der Ursprung für manche chronische Krankheit werden. Deswegen sind
Radikalfänger, u.a. Vitamine, wichtig. Allerdings erzeugt auch der Organismus, aktivierte Makrophagen z.B.
bei einer Infektion, aktiv solche freien Radikale zur Abwehr von Bakterien und Viren. Also muss man die
Sache auch etwas von der anderen Seite betrachten. Und, hinzukommt wie gesagt, isoliert und zu hoch
dosiert können Vitamine selber zu solchen Radikalen werden.
Ausreichende Schutzstoffe haben wir nur, wenn wir möglichst wenig denaturierte Nahrung zu
uns nehmen und gesunde Ernährung im Rahmen eines Gesamtkonzeptes der
Primärprävention verstehen und nicht Vitaminpillen wie Medikamente zu uns nehmen.
Insofern ist die Schlussfolgerung, die die populäre Presse aus diesen Studien zieht: Vitamine
und Supplemente können wir uns sparen, es ist ja alles gut, etwas kurzsichtig. Wir hätten uns
das Geld für derartige Studien a priori sparen können, denn sie beantworten eigentlich eine
einigermaßen dämliche Frage, nämlich ob es sinnvoll ist, isolierte Substanzen über längere
Zeit in relativ hoher Dosis zu sich zu nehmen. Das Denken in isolierten kausalen Bezügen,
das einer solchen Konzeption zu Grunde liegt, sie ist das eigentliche Problem. Und darauf
weisen uns die Studien hin.
Dass ein etwas synergistischeres Konzept, wie das in der Studie von Lamas und Kollegen
(2013) [3] verwirklichte, u.U. vor allem in der Sekundärprävention sinnvoll sein kann, sieht
man, wenn man die Daten dieser Studie genauer betrachtet. Auch hier liegt kein signifikantes
Ergebnis vor, und die Studie wird also als „negativ“ kolportiert. Hier wurden Patienten, die
bereits einen Herzinfarkt hinter sich hatten, mit einer relativ hohen Dosis von verschiedenen
Präparaten behandelt, insgesamt 28 Präparaten, ein Mix aus Vitaminen und Mineralien.
Manche in hoher Dosierung, wesentlich höher als empfohlen. Für manche gibt es keine
Empfehlung, wie für Bioflavonoide. Vitamin D dagegen war mit 100 IU eher niedrig dosiert.
Aber auf jeden Fall hatten die Autoren einen wohlinformierten Versuch gemacht mit einem
physiologisch sinnvollen Cocktail zu arbeiten. Weil die Patienten daher relativ viele, große
Kapseln zu schlucken hatten, ließ die Compliance nach, ein Haupt-Problem der Studie.
Sieht man genauer hin, dann erkennt man, dass die Effekte gar nicht so schlecht waren: Die
Hazard-Ratio, also das Risiko über die Zeit hinweg, lag bei 0.89 für alle Arten von Mortalität,
war also um 11% reduziert, bei Schlaganfall lag sie bei 0.53, eine Reduktion um knapp die
Hälfte, und bei Hospitalisierungen wegen Angina pectoris lag sie bei 0.63, war also um
knapp 40% reduziert. Kardiovaskulärer Tod, ein sekundärer Endpunkt war um 20% reduziert.
Das Problem war also weniger die Tatsache, dass keine Effekte vorhanden waren, sondern
dass die Effekte geringer waren als antizipiert. Die Power-Analyse war von einer 25%igen
Reduktion beim zusammengesetzten primären Endpunkt ausgegangen. Der vorliegende Effekt
von 11% war weniger als halb so groß. Schade. Mit mehr als doppelt so vielen Patienten als
die 1708 Patienten die eingeschlossen waren, oder, anders gesprochen, ohne die Ausfälle von
fast 800 Patienten, die die Behandlung nie begonnen oder abgebrochen haben, eben weil
ihnen die Schluckerei vieler dicker Kapseln auf die Dauer zu dumm wurde, wäre die Studie
unter Garantie positiv ausgegangen und hätte Furore gemacht.
Moderne Studien werden nach „intent-to-treat“ ausgewertet. Das heißt, dass alle
Studienteilnehmer, die in eine bestimmte Gruppe gelost werden, egal ob sie die Intervention
erhalten oder nicht, egal ob sie dabeibleiben oder nicht, in die Endauswertung mit eingehen.
57
Wenn also ein Patient der Studiengruppe innerhalb der Studienzeit verstirbt, auch wenn er nie
eine einzige Kapsel genommen hat, dann wird er als Todesfall innerhalb der
Interventionsgruppe gerechnet, weil er einmal die „Intention“ hatte, diese „Behandlung zu
erhalten“. Man tut dies, weil man eine konservative Schätzung eines möglichen
Behandlungseffektes haben will. Und wenn eine Intervention aufgrund ihrer Komplexität,
oder hier, weil die Kapseln zu dick und zu viele sind, schlecht angenommen wird, oder weil,
wie in anderen Fällen, Patienten wegen Nebenwirkungen abbrechen, dann schlägt das eben
negativ als Therapieversager zu Buche und drückt das Ergebnis, ist aber nahe an der Realität.
Man erhält also über eine Auswertung nach „intention-to-treat“ eine konservative, realistische
Schätzung des möglichen Effekts in der untersuchten Population. Daher rührt auch in dieser
Studie die Effektverdünnung. Man hätte, wenn keine Patienten abgesprungen wären,
selbstverständlich auch den Effekt, den man antizipiert hatte, gesehen. Aber immerhin sind
fast die Hälfte aller Patienten ausgefallen. Damit hat die Studie die gleiche statistische
Mächtigkeit wie eine Studie, die nur halb so groß ist und bei der alle Patienten dabeibleiben.
Die statistische Mächtigkeit oder „Power“ wirkt sich auf die Frage aus, ob die Studie eine
hohe Wahrscheinlichkeit hat, signifikant zu werden. Das hatte sie in diesem Falle nicht.
Deswegen wurde der an sich durchaus lohnenswerte Effekt von 11% Mortalitätsreduktion
oder die 47%ige Reduktion von Schlaganfall nicht „entdeckt“ oder nicht signifikant.
Dennoch sind die Effekte bedenkenswert. Mit wenig anderen nicht-invasiven Maßnahmen
erreicht man so gute Effekte. In den berühmten Lipidsenkerstudien – die allerdings in der
Primärprävention durchgeführt wurden – sah man signifikante Effekte von maximal 3.4%
Risikoreduktion und die Weltpresse jubelte. Allerdings hatten die beteiligten Firmen auch
ausreichend Geld um die nötigen Patientenzahlen von mehreren Tausend einzuschließen [4].
Insofern steht das Ergebnis dieser Studie weniger schlecht da, als es rezipiert wird.
Das Problem ist eher, dass die gesamte medizinische Statistik auf eine ja-nein Entscheidung
getrimmt ist und bei einer fehlenden Signifikanz die Diskussion beendet wird. Das hängt mit
der Logik des statistischen Tests zusammen. Dieser legt folgende Überlegung zugrunde:
Angenommen, ich gehe davon aus, dass es keinen Unterschied zwischen zwei Gruppen gibt –
die sog. „Nullhypothese“ – mit welcher Wahrscheinlichkeit mache ich dann einen Fehler,
wenn ich behaupte einen solchen Unterschied gibt es nicht, angesichts der vorliegenden
Daten?
Solange die sog. Irrtums-Wahrscheinlichkeit eine gewisse, willkürlich gewählte, Grenze nicht
unterschreitet, die man im Regelfall auf 5% festgesetzt hat, gehe ich davon aus, dass der
gefundene Unterschied irrelevant, oder „nicht signifikant“ ist. Ist die Grenze unterschritten
und die Irrtums-Wahrscheinlichkeit wird kleiner als 5%, dann sage ich: diese Nullhypothese,
dass es keinen Unterschied gibt, muss aufgegeben oder verworfen werden. Damit sage ich
dann, aber erst dann: Jawohl, es gibt einen Unterschied! Und die These, dass die
experimentelle Intervention, hier der Vitaminmix, besser wirkt als das Placebo, wird
angenommen. Das ist ein bisschen so, als hätte ich die Augen für alle Unterschiede, egal wie
groß sie sind, verbunden und zwar solange, bis mir jemand die Binde abnimmt, nämlich der
statistische Test, und sagt: „so, jetzt darfst Du gucken und den Unterschied ernst nehmen“.
Vorher ist der numerisch gleiche Unterschied irrelevant.
Ob aber dieser Test signifikant wird und mir die Augenbinde abnimmt, so dass ich ihn zur
Kenntnis nehmen darf, hängt nicht von der Größe des Unterschiedes ab, sondern einzig und
allein von der Größe der Studie. Das ist nämlich die sog. statistische Mächtigkeit oder
„statistische Power“. Nochmals anders ausgedrückt: hätte ich mehr Geld oder mehr Geduld
58
gehabt und eine größere Stichprobe für meine Studie genommen, dann wäre irgendwann der
Tag gekommen, an dem mir der statistische Test die Augen geöffnet hätte und mir auch einen
noch so kleinen Unterschied als „wichtig“ oder „signifikant“ vorgeführt hätte. Und umgekehrt
hätte mir auch bei einem relativ großen Unterschied, so wie hier, die mangelnde statistische
Mächtigkeit die Binde auf den Augen gelassen, eben weil die Signifikanz nicht erreicht
wurde. Außer, der Unterschied wäre sehr groß gewesen, größer als antizipiert, dann wäre der
Moment des Hinsehendürfens schon früher gekommen. Denn Effektgröße, Stichprobengröße
und Signifikanz leben in einer Art Dreierbeziehung: Je größer der Effekt, umso kleiner muß –
bei gleicher Signifikanz – die Stichprobe sein, damit wir ihn entdecken. Und je kleiner der
Effekt, oder je niedriger die Signifikanzgrenze, um so größer muß die Stichprobe sein, damit
wir ihn finden.
Es gibt schon lange einen Streit in der Methodikerzunft, wie sinnvoll ein solches Vorgehen
eigentlich ist. Weil man natürlich gerne sichere Entscheidungen will, hält man an dieser Idee
des Hypothesentestens mit Hilfe von Signifikanz-Tests fest. Aber man sollte sich die
Begrenzung immer vor Augen halten und als Zusatzinformation immer die absolute Größe
des Effekts, im Verein mit der statistischen Mächtigkeit des Tests im Bewusstsein behalten.
Das ist im übrigen auch der Grund, weswegen man Meta-Analysen durchführt. Denn in ihnen
kann man die statistische Mächtigkeit über Studien hinweg akkumulieren und auch Effekte,
die in einzelnen Studien nicht signifikant waren, dann, wenn sie vorhanden sind und
einigermaßen homogen, als statistisch signifikant belegen.
Jedenfalls hier sollte man am Ball bleiben. Denn die Effekte in dieser Studie [3] sind groß.
Die Studienlogistik scheint Probleme gehabt zu haben, die Patienten bei der Stange zu halten,
und gerade in einem solchen Falle wäre eine per-protocol Analyse durchaus sinnvoll gewesen.
Das wäre eine Analyse, bei der man nur diejenigen Patienten betrachtet, die wirklich das
gemacht haben, was vorgesehen gewesen war. Das wäre dann eine Optimalfall-Schätzung
gewesen, also wie groß die Effekte maximal sein könnten, wenn alle brav ihren
Multivitaminmix schlucken. Man muss kein großer Hellseher sein um zu sehen, dass eine
solche Analyse mit ziemlicher Sicherheit signifikant geworden wäre.
Dass sie nicht berichtet wird, dürfte auf die Intervention eines Gutachters zurückzuführen
sein, würde ich mal schätzen, oder auf vorauseilenden Gehorsam der Autoren.
Die Studie zeigt auch, dass Nahrungsergänzung in sinnvoller Kombination und nicht in
Isolation vor allem in Krankheitsfällen nützlich ist und Effekte erzielt. Die Studien von Dean
Ornish zeigen allerdings, dass eine gesunde vegetarische Ernährung zusammen mit
Entspannung und Yoga, konsequent durchgeführt, wesentlich bessere Effekte erzielt [5,6].
Die Studien zeigen insgesamt, dass die Diskussion alles andere als abgeschlossen ist. Sie
beginnt erst. Und zwar mit einem Diskurs über wirklich sinnvolle, synergistisch sich
ergänzende gesunde Ernährung und im Krankheitsfalle mit einer wohl informierten,
ebenfalls synergistisch arbeitenden Nahrungsergänzung zusammen mit einer guten
Ernährung.
Letzteres ist, soweit wir sehen, immer noch nicht gut genug im Visier der Wissenschaft. Das
mag daran liegen, dass gesunde Ernährung kein Medikament ist, sondern verantwortliches
Verhalten und gewählte Entscheidung. Und die kann man, per definitionem, nicht in
randomisierten Studien untersuchen. Denn wir können nicht Menschen per Zufall dazu
vergattern, plötzlich Verantwortung zu übernehmen und sich gesund, bewusst und vielfältig,
womöglich noch vegetarisch zu ernähren genauso wenig wie wir Menschen, die eine solche
59
Entscheidung getroffen haben diese per Zufallsdekret im Rahmen einer Studie wieder
entziehen könnten.
Das Dilemma ist also, dass man ein solches wirklich interessierendes Verhalten nur in einer
natürlichen Umgebung untersuchen könnte, dort, wo es vorkommt. Das heißt, man müsste
Studien an natürlichen Kohorten machen und könnte die angeblich beste Studienmethodik,
eine randomisierte kontrollierte Studie gar nicht anwenden. Und eine Meta-Analyse, wie die
von Fortmann und Kollegen [2] hätte eine solche Studie apriori ausgeschlossen, obwohl und
auch wenn sie die einzige gewesen wäre, die wirklich valide hätte Auskunft geben können. So
wird man vielleicht sogar einen Wandel in der Methodendoktrin abwarten müssen, bis man
diese Frage wirklich kompetent untersuchen und beantworten kann.
Das ist der Grund, weswegen ich schon vor Jahren darauf hingewiesen habe, dass nur
ein Zirkel verschiedener Methoden, die sich ergänzen und die die jeweiligen Schwächen
der anderen kompensieren uns wirklich einen guten Einblick in die Brauchbarkeit einer
Intervention in der Praxis geben kann [7]. Und das ist auch der Grund, warum das
gebetsmühlenartige Wiederholen der Aussage, dass ausschließlich randomisierte Studien
wissenschaftlich seien, am besten verblindet und placebokontrolliert, geistlos, dogmatisch und
sachlich falsch ist, auch wenn es derzeit den Applaus der Mehrheit findet.
* Eine leicht veränderte Version dieses Textes wird als „Journal Club“ Beitrag in der nächsten
Ausgabe der Zeitschrift „Forschende Komplementärmedizin“ zu den unter 1-3 zitierten
Studien erscheinen.
← Zurück zu Kapitel 11
Weiter zu Kapitel 13 →
1.
2.
3.
4.
5.
6.
7.
Guallar, E., Stranges, S., Mulrow, C., & Appel, L. J. (2013). Enough is enough: Stop wasting money on vitamin
and mineral supplements. Annals of Internal Medicine, 159, 850-851.
Fortmann, S. P., Burda, B. U., Senger, c. A., Lin, J. S., & Whitlock, E. P. (2013). Vitamin and mineral
supplements in the primary prevention of cardiovascular disease and cancer: An updated systematic
evidence review for the U.S. preventive services task force. Annals of Internal Medicine, 159, 824-834.
Lamas, G. A., Boineau, R., Goertz, C., Mark, D. B., Rosenberg, Y., Stylianou, M., et al. (2013). Oral high-dose
multivitamins and minerals after myocardial infarction: A randomized trial. Annals of Internal Medicine, 159,
797-804.
Penston J: Fiction and Fantasy in Medical Research: The Large-Scale Randomised Trial. London, The London
Press, 2003.
Ornish D, Scherwitz LW, Billings JH, Gould KL, Merrit TA, Sparler S, Armstrong WT, Ports TA, Kirkeeide RL,
Hogeboom C, Brand RJ: Intensive lifestyle changes for reversal of coronary heart disease. Journal of the
American Medical Association 1998;280:2001-2007.
Ornish D, Scherwitz LW, Doody RS, Kesten D, McLanahan SM, Brown Se, DePuey EG, Sonnemaker, Haynes
C, Lester J, McAllister GK, Hall RJ, Burdine Ja, Gotto AM: Effects of stress management training and dietary
changes in treating ischemic heart disease. Journal of the American Medical Association 1983;249:54-59.
Walach H, Falkenberg T, Fonnebo V, Lewith G, Jonas W: Circular instead of hierarchical – Methodological
principles for the evaluation of complex interventions. BMC Medical Research Methodology 2006;
60
(13) Power-Analyse: die Magie der
Statistik – Oder: Der Unterschied
zwischen Signifikanz und Relevanz
Normalerweise ist der Durchschnittsbürger und Durchschnittswissenschaftler zufrieden, wenn
er hört, ein Forschungsergebnis sei „statistisch signifikant“ gewesen. Wir meinen dann
landläufig: die Hypothese, mit der man an die Forschung ging, sei belegt, das Faktum, das
man untersucht bewiesen. Und umgekehrt, findet man kein signifikantes Ergebnis, glaubt
man, das in Frage stehende Phänomen sei nicht gefunden, also nicht existent. Deswegen
glaubt z.B. der Durchschnittsarzt, -journalist und -bürger die Bioresonanz sei als unwirksam
belegt und Homöopathie ist Placebo, und halb Amerika nimmt Lipidsenker zur
Primärprävention von Herzinfarkt, weil man glaubt das sei eine wissenschaftlich bewiesene
Tatsache.
Ich will in diesem Kapitel ein paar von diesen Meinungen genauer unter die Lupe nehmen
und zeigen, warum sie entstanden sind und die Frage stellen, wie berechtigt sie sind. Es wird
sich herausstellen: es hat mit dem zu tun, was ich die Magie der Statistik nenne. Das ist die
Frage, wie mächtig ein statistischer Test ist. Die hängt zusammen mit der Frage, wie groß der
Effekt ist, den wir untersuchen. Und davon hängt ab, wie groß die Stichprobe ist, die wir
benötigen, um den Effekt wirklich statistisch sichtbar zu machen, oder ein signifikantes
Ergebnis zu erhalten. Anders ausgedrückt: Wenn es einen systematischen Effekt gibt, egal
wie groß er ist, dann lässt er sich mit einer Untersuchung auch belegen, vorausgesetzt, wir
haben genügend Ressourcen.
Die Frage, die sich jeder Leser einer wissenschaftlichen Untersuchung stellen sollte ist nicht:
Ist eine Studie signifikant? Sondern: Ist der gezeigte Effekt, egal ob signifikant oder nicht,
klinisch und systematisch von Bedeutung? Wenn er dann auch noch signifikant ist, können
wir von einer wissenschaftlichen Bestätigung ausgehen. Wenn er nicht signifikant ist, müssen
wir uns die Frage stellen: war die Größe der Studie geeignet, den Effekt zu finden? bzw.
umgekehrt: wie groß müsste eine Studie sein, um einen Effekt von der gefundenen
Größenordnung mit einigermaßen zufriedenstellender Sicherheit statistisch absichern zu
können? Das ist die Essenz der Power-Analyse, um die es jetzt geht.
Wir haben es also in jeder wissenschaftlichen Untersuchung mit dem Spiel von insgesamt vier
Größen zu tun, die voneinander abhängen wie die Teile eines filigranen Mobile. Wenn wir
eines verändern, verändern sich alle anderen auch. Das wären:
1. Der Fehler erster Art oder der alpha-Fehler.
2. Der Fehler zweiter Art oder der beta-Fehler.
3. Die Größe des Effekts, oder die Effektgröße.
4. Die Größe der Studie oder die Anzahl von untersuchten Personen (im Falle von
klinischen oder diagnostischen Studien) bzw. die Anzahl der Beobachtungen.
Aufgrund des Umfangs dieses Kapitels ist dieses in einem PDF zusammengefasst, lesen Sie
bitte hier weiter:
Walach_Methodenlehre-Teil13_Poweranalyse
61
(14) Die Magie der Statistik in Aktion:
Tamiflu – „der grösste Raub der
Geschichte“ – ziemlich unbrauchbar
Ich hatte in meinem letzten Beitrag zur Methodenlehre den Zusammenhang zwischen
Effektgröße, Stichprobengröße und Signifikanz durchdekliniert. Wer sich das Wichtigste
gemerkt hat weiß: Auch jeder noch so kleine Effekt kann signifikant gemacht werden, wenn
er vorhanden ist, vorausgesetzt man hat die entsprechenden Mittel. Was sich alle Leser immer
wieder fragen sollten: Ist der Effekt sein Geld wert? Ist die Größe des Effekts für praktische
Zwecke groß genug? Darüber hinaus stellt sich bei kleinen Effekten natürlich immer die
Frage: Sind denn auch wirklich alle Studien bekannt und berücksichtigt? Denn klarerweise
macht bei kleinen Effekten, wenn man sie nun in Meta-Analysen oder Reviews
zusammenfasst, das Fehlen einiger negativen oder weniger stark positiver Studien gleich
einen großen Unterschied aus.
Wie dies alles zu Buche schlägt kann man an einem aktuellen Beispiel besichtigen: dem
Cochrane- Review über die Wirksamkeit von Neuraminidase-Hemmern zur Behandlung von
Grippe und zur Vorbeugung gegen Grippe-Komplikationen, der von Jefferson und Kollegen
soeben in neuer Version vorgelegt wurde [1]. Wir erinnern uns:
Im Jahr 2009 bricht eine neue Welle der Schweine-Grippe aus, die vom Virus A/H1N1
verursacht wird. Ich kann mich noch gut erinnern und war damals in England. Die Zeitungen
berichten fast hysterisch.
Es lohnt sich, heute, aus fünfjähriger Distanz, den Originalton noch einmal Revue
passieren zu lassen.
Man liest, dass höchstwahrscheinlich eine Pandemie ausbrechen werde. In anderen
Publikationen warnt die WHO hoch-offiziös vor einer Pandemie – und bekniet Regierungen,
ausreichend Tamiflu einzulagern. Dieses Medikament wird in der Frage-Antwort-Publikation
der englischen Tageszeitung „The Independent“, die ich damals regelmäßig verfolgte, der
Impfung sogar vorgezogen. Denn die sei schwierig, nicht rechtzeitig für alle einführbar.
Daher sei die logische Alternative: Tamiflu. Dieser Neuraminidasehemmer der Firma Roche,
genauso wie das Konkurrenzprodukt Relenza der Firma GlaxoSmithKline (GSK), hemme
angeblich die Weiterverbreitung der Viruspartikel, heißt es da. Dadurch könne es nicht zur
Ansteckung kommen, außerdem könne man es gleich auch prophylaktisch geben. Wird es
eine Pandemie geben? Ja, höchstwahrscheinlich. Aber, alles kein Problem: wir haben ja
Tamiflu und Relenza eingelagert. Zwar leider nicht genug, aber immerhin. Damit kriegen wir
die schlimmsten Probleme in den Griff. Wunderbar, denkt man. Oder soll man nicht doch
lieber einfach Vitamin C nehmen? Ist doch billiger, oder? Die kluge Antwort aus dem Off:
„Alternative health practitioners of homeopathy, herbal remedies and nutritional medicine
are recommending measures to protect against the flu. They are about as useful as a water
pistol against a forest fire.“ Klar. Nur die Pharmakologie, „evidence based“, mit bekannten,
im Experiment erhärteten Wirkprinzipien kann hier helfen.
Mit der Schützenhilfe derartiger Publicity ausgerüstet, unter dem Druck der WHO und der
Öffentlichkeit, machten sich unsere Regierungen daran, geschätzte 7.6 Milliarden CHF in die
Vorratshaltung von Tamiflu zu investieren. Wieviel Geld bei GSK für Relenza über die Theke
62
gegangen sind ist meines Wissens nicht bekannt. Um die Sache für die ungeduldigen Leser
abzukürzen: Das Geld war zum Fenster hinaus geschmissen. Erstens wurde aus der A H1/N1
Grippe keine Epidemie, jedenfalls keine, die schlimmer gewesen wäre als andere GrippeWellen. Zweitens wirkt Tamiflu nur sehr begrenzt gegen Grippe, wenn man sie einmal hat
und praktisch gar nicht zur Vorbeugung. Und drittens dürfte die Wirkung nicht über den
behaupteten Mechanismus laufen.
Das wird durch den Review von Jefferson und Kollegen klargestellt [1]. Peter Gøtzsche, der
Leiter des nordischen Cochrane Centers in Kopenhagen, sagt in diesem Zusammenhang
sogar: „Roche has committed what looks to me like the biggest theft in history, but no one has
yet dragged the company to court” [2, p. 28].
Starke Worte. Ich bin zwar nicht der Meinung, dass Gøtzsche Recht hat; vermutlich war der
größte Raub der neueren Geschichte die Enteignung der Klöster in England durch Heinrich
VIII., oder vielleicht der Raub der Goldschätze der indigenen Völker Amerikas, aber lassen
wir diese Detailgeplänkel. Tatsache ist: in einem Spiegelgefecht scheinen uns Roche und
GSK an der Nase herumgeführt zu haben, indem sie zunächst nur diejenigen Studien
publizierten, die die These von der Wirksamkeit untermauerten. Schon die erste Analyse der
Autorengruppe aus dem Jahr 2009 meldete Zweifel an [3]. Die Effekte waren signifikant.
Symptomreduktion um etwa einen Tag bei experimentell im Labor induzierten Infektionen.
Das war zwar nicht viel, aber immerhin. Schon damals war sichtbar, dass die Behauptung,
man könne mit Neuraminidasehemmern Grippe ganz verhindern, falsch war. Dann tauchte
plötzlich das Argument in der Debatte auf: man könne aber Komplikationen,
Krankenhausaufenthalte, Lungenentzündungen und dergleichen verhindern. Das ist ja auch
schon was (obwohl man mit 7 oder so Milliarden Franken ganze Armeen mit
Lungenentzündung im Krankenhaus behandeln könnte).
Aber nun zerrinnt der ganze Goldanstrich in der Hand der Cochrane-Reviewer zu billigem
Abklatsch. Der neue Review hat nun alle greifbaren Studien eingeschlossen, auch diejenigen,
die Roche lange zurückgehalten hat und die lange Zeit nicht publiziert waren, auch solche die
über die Zulassungsbehörden nicht erhältlich waren. Das ist Peter Doshi und einigen Leuten
der Autorengruppe zu danken, die unermüdlich über das British Medical Journal und die
Öffentlichkeit Druck ausgeübt haben, so dass Roche am Schluß alle Dokumente zur
Verfügung stellte. Die Autoren des Reviews mussten sich dann, wie sie selber sagen, durch
Tausende und Abertausende Seiten schlecht aufgearbeiteter Berichte wühlen. Im spröden Text
der offiziellen Cochrane-Publikation geht es unter, aber wer Ohren hat zu hören, der hört sehr
genau: Die Berichte waren teilweise schlecht, die Studien waren voller Fehler, Protokolle
waren nachträglich verändert, Zielkriterien während laufender Studien verändert,
Auswertungen angepasst worden, Ergebnisvariablen umdefiniert worden. Das ganze
Pandämonium methodischer Fehler begegnet einem auf den ersten 20 Seiten der
Beschreibung der eingeschlossenen Studien.
Das ging soweit, dass sogar eine ganze Reihe der freigegebenen Studien gar nicht verwendbar
waren, weil die Datenauswertung zu fragmentarisch waren. Und am Ende zeigt sich ein
geradezu peinliches, wenn nicht tragisches Ergebnis: Zwar haben, über alle Studien gesehen,
Neuraminidasehemmer, Tamiflu und Relenza, einen statistisch signifikanten Effekt. Das
Ergebnis kommt zustande durch die Zusammenfassung von Daten aus 46 Studien, davon 20
mit Oseltamivir (Tamiflu; 9623 Patienten) und 26 mit Zanamivir (Relenza; 14.628 Patienten).
Die Zeit zur ersten Symptomlinderung beträgt danach 16.8 Stunden. Also: statt 7 Tagen ist
man nur 6.3 Tage krank. Bei Zanavir war es so ähnlich: eine erste Symptomlinderung zeigt
sich nach 0.6 Tagen und eine Reduktion der mittleren Symptomdauer von 6.6 auf 6 Tage.
63
Krankenauseinweisungen und Prophylaxe, mit denen so geworben wurde? Kein Effekt.
Komplikationen? Keine Effekte? Lungenentzündung? Nur insofern, als man selbstberichtete
Symptome auswertete, nicht, wenn man radiologisch, also hart untersuchte
Lungenentzündung wertete. Dabei war der Effekt klein: 100 Patienten muss man behandeln,
um eine Lungenentzündung zu verhüten. Nur Zanavir reduziert das Risiko einer Bronchitis.
56 Menschen müssen behandelt werden, bis einer diesen Vorteil erleben kann. Oseltamivir
zeigt diesen Vorteil nicht, und keine der beiden Präparate verbessert die Gefahr an Otitis
media oder Sinusitis zu erkranken, weder bei Kindern noch bei Erwachsenen.
Andersherum die Nebenwirkungen: Tamiflu erhöht die Gefahr von Übelkeit (einer von 28
Behandelten erlebt das) und von Erbrechen (einer von 22 Behandelten). Prophylaxe-Effekte
sind vorhanden aber klein. Die Autoren folgern:
„Oseltamivir and zanamivir have small, non-specific effects on reducing the time to
alleviation of influenza symptoms in adults, but not in asthmatic children. Using either drug
as prophylaxis reduces the risk of developing symptomatic influenza. Treatment trials with
oseltamivir or zanamivir do not settle the question of whether the complications of influenza
(such as pneumonia) are reduced, because of a lack of diagnostic definitions. The use of
oseltamivir increases the risk of adverse effects, such as nausea, vomiting, psychiatric effects
and renal events in adults and vomiting in children. The lower bioavailability may explain the
lower toxicity of zanamivir compared to oseltamivir. The balance between benefits and harms
should be considered when making decisions about use of both NIs for either the prophylaxis
or treatment of influenza. The influenza virus-specific mechanism of action proposed by the
producers does not fit the clinical evidence.“ [1, p.3]
Auf gut deutsch: Es funktioniert zwar so lala, aber auf jeden Fall nicht so, wie man aufgrund
der Theorie denkt – und schon gar nicht so stark, wie behauptet. Und wichtige Fragen, etwa
ob Lungenentzündung als Komplikation verhindert werden kann, sind immer noch offen.
Angesichts der Gefahr, etwa auch der möglichen Probleme psychiatrischer Erkrankungen
oder Nierenerkrankungen, und der geringen Effektgrößen, sollte man sich gut überlegen, ob
öffentliche Geldgeber diese Substanzen finanzieren sollten. Wie war das gleich noch mit
Vitamin C und den Empfehlungen der komplementärmedizinischen Praktiker?
Wasserpistolen gegen Waldbrände? Das scheint ja auf Tamiflu und Co. in der Tat zuzutreffen
und die Autoren des Reviews denken denn auch laut darüber nach, ob nicht alte
Entzündungshemmer wie das gute alte Aspirin nicht am Ende besser wären.
Die hier analysierten Studien sind übrigens nur ein Teil der vorhandenen. Weil bei vielen
Studien die Daten nicht ausreichend detailliert berichtet wurden, konnten sie gar nicht
ausgewertet werden. Insgesamt lagen 121 Studien zu Oseltamivir vor, von denen 83 von
Roche zur Verfügung gestellt wurden, so dass die 20 Oseltamivir-Studien nur einen Bruchteil
der Daten darstellen. Wieviel all das wohl gekostet hat? Darüber geben die Berichte keine
Auskunft. Wenn wir pro Studie im Durchschnitt 2 Millionen Euro rechnen, was vermutlich zu
billig ist, dann landen wir nur für Tamiflu bei mehr als 240 Millionen Euro, schätzungsweise
mehr. Aber immer noch weit unter den mehr als 7 Milliarden Franken, die Roche mit Tamiflu
eingenommen hat.
Was lernen wir aus diesem Debakel, denn anders kann man es nicht bezeichnen?
1. Effektgrößen sind mit die wichtigsten Größen, die man sich anschauen muss, nicht die
Signifikanz.
2. Wenn es um Arzneimittelstudien und andere Produkte geht, bei denen Geld oder andere
Interessen im Spiel sind, kann man davon ausgehen, dass wichtige Informationen von
64
Interessengruppen zurückgehalten werden. Es lohnt sich, skeptisch zu sein und konservativ
bis zum Beweis des Gegenteils.
(2a: Ich habe es mir angewöhnt, vor allem dann, wenn in den Mainstream-Medien mit großem
Hallo und viel Hype die neue Lösung, oder die Ankündigung eines neuen Problems bejubelt
oder verkündet wird, zunächst mal probatorisch vom Gegenteil auszugehen, bis ich mich
durch Daten von der Richtigkeit der Behauptung überzeugen konnte.)
3. Jeder Effekt muss in Relation zu den Kosten gesehen werden. Zu den Kosten gehören nicht
nur die monetären, sondern auch Nebenwirkungen und andere Probleme. Man beachte, dass
im hier vorliegenden Beispiele die Effektgrößen der Nebenwirkungen wesentlich größer sind
als die Effektgrößen der Vorteile.
4. Mit ausreichend viel Geld kann man jeden Effekt „wissenschaftlich“ belegen. Diese
wissenschaftliche Prostitution wird erst aufhören, wenn wir von der Signifikanz weg und auf
die Effektgrößen schauen.
Wissenschaftlich scheinen wir mit diesem Beispiel an die Grenze des bestehenden Systems
der Zulassungsforschung zu stoßen. Die Autoren des Reviews sagen immer wieder, dass das
derzeit gültige System der wissenschaftlichen Bewertung unbrauchbar ist. Es erlaubt es, dass
man nur diejenigen Daten publiziert, die einem in den Kram passen und den Rest versteckt.
Auch Studienregister, die es ja mittlerweile gibt, helfen da nur begrenzt. Denn die Daten sind
Eigentum der Firma, die sie erzeugt hat. Und der ethische Standard, der einen Wissenschaftler
zur Publikation seiner Daten verpflichtet, ist nicht einklagbar. Allenfalls öffentlicher Druck,
wie hier, kann dazu führen, dass eine Firma unpublizierte Daten herausgibt. Erst wenn es ein
selbstverständlicher Standard werden würde, dass alle Daten öffentlich, über Plattformen, zur
Verfügung gestellt werden, würden sich Firmen oder Einzelne, die dies nicht tun,
unglaubwürdig machen. Aber wer könnte Hüter und Pfleger der Daten sein? Wer würde die
Plattformen finanzieren? Wer den Standard einklagen? Wenn man ausführlich über alle
möglichen Lösungen nachdenkt, dann kommt man, scheint mir, rasch immer wieder an das
Paradox, dass man ethisch-moralisches Verhalten nicht durch Regeln erzwingen kann.
← Zurück zu Kapitel 13
[1] Jefferson, T., Jones, M. A., Doshi, P., Del Mar, C. B., Hama, R., Thompson, M. J., et al.
(2014). Neuraminidase inhibitors for preventing and treating influenza in healthy adults and
children. Cochrane Database of Systematic Reviews, CD008965(April).
[2] Gøtzsche, P. C. (2013). Deadly Medicines and Organised Crime: How Big Pharma Has
Corrupted Health Care. London: Radcliff.
[3] Jefferson, T., Jones, M., Doshi, P., & Del Mar, C. (2009). Neuraminidase inhibitors for
preventing and treating influenza in healthy adults: systematic review and meta-analysis.
British Medical Journal, 339, b5106.
65
*************************************************************************************************************************
Prof. Harald Walach
Harald Walach – zur Person
Ich habe Psychologie und Philosophie parallel studiert (von 1978-1984, mit einem
Auslandsjahr in Philosophie am University College London; siehe auch meinen Lebenslauf:
Curriculum Vitae Prof. Harald Walach →).
Schon während meines Studiums haben mich zwei Dinge beschäftigt und mich seither nicht
mehr losgelassen: Was genau ist „Heilung“’? Wie ist das Verhältnis von äusserer Empirie,
wissenschaftlicher Erfahrung also, und innerer Erfahrung, also persönlicher, individueller
Erfahrung? Anders ausgedrückt: Was ist das Verhältnis von Einzelnem und Allgemeinem,
Persönlichem und Öffentlichem? Wer sich mit Philosophie beschäftigt hat, wird unschwer
sehen, dass dies seit Aristoteles zentrale und bisher auch ungelöste Fragen sind.
Die Frage nach Heilung und wie sie zustande kommt hat mich relativ rasch zur Homöopathie
und später im weiteren Sinne zur Komplementärmedizin geführt. Denn hier wird Heilung vor
allem als Selbstheilung verstanden, also als Anstoss, der dem Organismus helfen soll, sich
selber zu heilen. Das habe ich immer sehr spannend gefunden, sowohl vom
wissenschaftlichen, als auch vom gesellschaftlich-ökonomischen Standpunkt aus.
Im Laufe der Zeit sind neue Themen hinzugekommen: mich hat, ausgehend von meiner
Grundfrage, die Frage nach dem Leib-Seele Problem beschäftigt, die Frage, wie man innere
Erfahrung verstehen muss. Eine bestimmte Sparte innerer Erfahrungen sind spirituelle oder
mystische Erfahrungen, die ich ebenfalls extrem interessant finde. Auf diesem Hintergrund ist
meine historische Arbeit und die Übersetzung des Kartäusermystikers Hugo de Balma zu
verstehen, meine zweite Doktorarbeit im Fachbereich Wissenschaftstheorie und
Wissenschaftsgeschichte. Parallel und wenn ich dazu Zeit habe, arbeite ich daran weiter. Mich
interessieren dabei die historischen Zusammenhänge und die Person des Autors. Ein anderes
Projekt auf diesem Hintergrund ist die Frage, ob Brentanos Idee, Psychologie auf der
systematischen Erfahrung des Bewusstseins zu begründen, eventuell mit anderer Systematik
möglich ist. Diese Frage verfolgen derzeit vor allem Doktoranden und Post-Doktoranden.
Unsere Arbeit zum Thema Spiritualität – wie sie zu verstehen ist, welche Beziehungen zu
Heilung und Gesundheit bestehen – sind auf diesem Hintergrund einzuordnen.
In meinen laufenden Projekten → befasse ich mich mit der Frage, ob es möglich ist eine
Prävention von Demenz → über eine weitreichende Veränderung des Lebensstils zu
erreichen. Wir untersuchen den Wert von Achtsamkeit → und auf ihr beruhender
Interventionen, derzeit vor allem in der Ausbildung. Auf dem Weg zu einem Verständnis der
Heilungsprozesse sind Placebo-Effekte bzw. die Semiotik therapeutischer Prozesse von
grosser Bedeutung. Ausserdem frage ich mich schon lange, ob es denkbar und sinnvoll ist,
eine Theorie von Ganzheit zu entwickeln, in der nichtlokale Prozesse einen systematischen
66
theoretischen Ort haben. Unsere Arbeit an einer Generalisierung der Quantentheorie → findet
in diesem Kontext statt.
http://intrag.info/aktuell/das-institut/
Wie alles Begann
von Harald Walach, Klaus Küstermann, Hartmut Schröder
Die Idee, einen Masterstudiengang für den Bereich der Komplementärmedizin zu etablieren,
entstand im Mai 2007 auf der griechischen Insel Kos – bekannt als Insel des Hippokrates.
Dort – an den Wurzeln der abendländischen Medizin – finden seit dem Jahr 2000 ärztliche
Fortbildungsveranstaltungen der Internationalen Gesellschaft für Homotoxikologie und
Homöopathie (IGHH ) sowie der Internationalen Gesellschaft für Biologische Medizin
(IGBM) im Rahmen des Curriculums Biologische Medizin statt: Ein innovatives Curriculum,
das von Beginn an eine akademische Heimat an der Universität Mailand hat, wo es unter dem
Patronat von Prof. Dr. Umberto Solimine, dem Direktor des WHO-Zentrums für traditionelle
Medizin, akkreditiert ist. In Kos begegneten sich Dr. med. Klaus Küstermann, Präsident der
IGBM, und Prof. Dr. Hartmut Schröder von der Europa-Universität Viadrina in Frankfurt
(Oder) im Rahmen des Curriculums.
Hartmut Schröder stellte in einem Vortrag seine Gedanken vor … an der EuropaUniversität Viadrina … ein Institut für transkulturelle Gesundheitswissenschaften zu
gründen…
Hartmut Schröder stellte in einem Vortrag seine Gedanken vor, die Biologische Medizin
durch die Klangtherapie zu ergänzen, stellte deren antike Wurzeln in der Naturtonleiter des
großen Pythagoras dar und berichtete über seine Pläne, an der Europa-Universität Viadrina in
Fortsetzung medizinsemiotischer Vorarbeiten in Forschung und Lehre ein Institut für
transkulturelle Gesundheitswissenschaften zu gründen.
Der Funke zündete sofort und beide Seiten erkannten das große Potential einer Kooperation
zwischen Medizin und Kulturwissenschaften. Diese Verbindung steht dabei nicht nur für eine
Neuorientierung der Medizin in akademischer Hinsicht, sondern auch für eine humane
Entwicklung der Gesundheitssysteme selbst. Denn im Mittelpunkt medizinischen Handelns
muss der Mensch stehen: Der gesunde Mensch, dessen Gesundheit es zu erhalten gilt, der
kranke Mensch, dessen Gesundheit wieder bestmöglich hergestellt werden soll und
schließlich auch der sterbende Mensch, der menschlich begleitet werden möchte. Eine
wirklich humane Medizin hat es daher immer auch mit kulturellen Prozessen zu tun.
In der Folge wächst nun das wieder zusammen, was auch zusammen gehört
In der Folge wächst nun das wieder zusammen, was auch zusammen gehört: die Medizin auf
der einen Seite und die Kulturwissenschaften auf der anderen Seite. Die Gründung des
Instituts für transkulturelle Gesundheitswissenschaften am 16. November 2007 in Frankfurt
(Oder) war dafür ein erster überzeugender Ausdruck. Ein Jahr später war der
Masterstudiengang „Komplementäre Medizin – Kulturwissenschaften – Heilkunde“ bereits
Realität und startete mit einer Auftakt- und Informationsveranstaltung im Oktober 2008.
67
Neuorientierung durch Rückbesinnung sowie durch Erweiterung des Blickwinkels auf andere
Heilkulturen ist das grundlegende Programm unseres Masterstudiengangs, den wir vor allem
als Ort der Begegnung verstehen. Begegnung zwischen unterschiedlichen Heilberufen:
Ärzten, Apothekern, Psychotherapeuten. Begegnung zwischen unterschiedlichen Ansätzen
und Verfahren der traditionellen europäischen Heilkunde mit der modernen Medizin.
Begegnung schließlich zwischen den unterschiedlichen Heilkulturen: zwischen
konventioneller westlicher Medizin, Traditioneller Chinesischer Medizin, Ayurveda und
anderen traditionellen Heilsystemen.
Kulturwissenschaft kann die Medizin wieder mit ihren geisteswissenschaftlichen
Wurzeln verbinden
Ziel des Studiengangs ist es einen Überblick über die Vielzahl von Methoden und Verfahren
zu vermitteln, deren kulturelle Einbettung zu erarbeiten und die Verbindung mit
Kommunikation und Sprache zu betonen. Begegnung an sich ist Bereicherung. Doch jenseits
jeder Begegnung liegt nicht nur etwas Gemeinsames, sondern immer auch etwas Neues, was
erst in der Begegnung entstehen kann: das Transkulturelle. Dieses Transkulturelle –
verstanden als Synergie, als Geben und Nehmen zugleich – braucht einen Ort und einen
Rahmen, um auf Augenhöhe zu kommunizieren. Und es braucht Übersetzer und Mediatoren,
die diesen Prozess unterstützen und begleiten. Geleistet werden kann dies durch die
Kulturwissenschaften, die die Medizin – eine anthropologische Disziplin – wieder mit ihren
geisteswissenschaftlichen Wurzeln verbinden und ihr damit eine Neuorientierung
ermöglichen können.
Die Viadrina ist die erste deutsche Universität, die einen Masterstudiengang dieser Art
anbietet. Sie knüpft damit an die großen Traditionen der Medizinischen Fakultät der früheren
Alma Mater Viadrina an, die sich durch ihre Nähe zu Naturheilverfahren und zur Balneologie
einen Namen gemacht hat. Diese Tradition gilt es im Masterstudiengang fortzusetzen, zu
beleben und zu erweitern.
68