Prof. Harald Walach http://harald-walach.de/methodenlehre-fuer-anfaenger/12-vitamine-ueber-die-unmoeglichkeit-die-wichtigstendinge-im-leben-in-studien-untersuchen-zu-koennen/ (12) Vitamine: über die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien untersuchen zu können Ein kleines Lehrstück über statistische Mächtigkeit und die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien untersuchen zu können (*) Ich greife meinen Methodenblog nach langer Pause wieder auf, diesmal mit einer beispielhaften Diskussion um die neuen Vitaminstudien, an denen man viel über Statistik und Methodik lernen kann. „Genug ist genug“, titelte das Editorial der Annals of Internal Medicine [1], das eine Serie von Publikationen – ein systematischer Review mit MetaAnalyse [2] und einige originale Arbeiten [3] zur Wirksamkeit von Vitaminen in der primären Prävention von Krankheiten begleitete. Die Botschaft wurde von den Medien aufgegriffen und entsprechend weitergegeben. Vitamine seien Unsinn, gesunde Ernährung wäre genug. Das Einnehmen von Vitaminpräparaten und Supplementen sei gar gefährlich, so war zu hören. Das sei nun endgültig klar. Was daran stimmt? Man kann an diesen Studien und ihrer Problematik einiges veranschaulichen. Zuvor ein paar wichtige Klärungen: Die Meta-Analyse, die wir uns genauer ansehen werden [2], fasste Studien zusammen, die einzelne Vitamine, meistens in Einzelgabe, und manchmal auch Multivitamine zur Primärprävention untersucht hatten. Primärprävention bedeutet: Die Menschen, die im Rahmen von solchen Studien Vitaminpräparate genommen haben, waren nicht krank, sondern versuchten mit Hilfe der Einnahme solcher Vitamine Krankheit zu verhindern. Entsprechend waren die Studien auch angelegt: langfristig und mit großen Zahlen, jedenfalls meistens. In allen Studien wurde zur Kontrolle natürlich Placebo verwendet und die Zuteilung erfolgte durch Zufall, also randomisiert, wie es dem momentanen Standard entspricht. Gemessen wurde meistens die Mortalität über den Studienzeitraum, also Todesfälle an allen möglichen Erkrankungen, oder auch die Krebsinzidenz, also das Neuauftreten einer Krebsdiagnose. Manche Studien in der Meta-Analyse und die noch zu diskutierende Studie von Lamas und Kollegen [3] waren sog. Sekundärpräventionsstudien. Das sind solche, bei denen die Patienten bereits eine Erkrankung, z.B. einen Herzinfarkt wie bei Lamas et al. [3], oder eine Angina pectoris, hatten. Die Analyse von Fortmann et al (2013) [2] lässt in der Tat keinen großen Zweifel daran, dass die Vitamingabe von Einzelpräparaten, in Isolation von anderen gesehen, also ohne potenzielle synergistische Effekte in einer gesunden, gut ernährten Population ohne Erkrankung keinen großen Sinn ergibt und die Mortalität nicht senkt, ja sogar schädlich sein könnte, mit Ausnahme von Vitamin D. Hier ist das letzte Wort noch nicht gesprochen, denn 1 es liegt ein schwacher, kleiner, knapp nicht signifikanter Effekt zugunsten von Vitamin D vor (Relatives Risiko = 0.94, also eine kleine Risikoreduktion um 6 %). Bei Folsäure liegt nur eine Studie vor mit sehr hohem positivem Effekt, aber zu großer Streuung, bei Vitamin A liegt ebenfalls nur eine Studie vor mit kleinem negativem Effekt, bei Multivitaminen könnte man diskutieren, weil der Effekt gerade mal nicht signifikant ist bei Mortalität und Krebs. Aber insgesamt ist das Ergebnis doch relativ klar. Die Autoren haben nur gute und einigermaßen gute randomisierte Studie an gesunden Menschen eingeschlossen und Sekundärpräventionsstudien nur, wenn sie klare Hypothesen hatten. Damit verbieten sich Schlußfolgerungen auf den Einsatz solcher Präparate bei Kranken und zwar dann, wenn sie zu gezielter Supplementation verwendet werden. Es ist ein großer Unterschied, ob gesunde Menschen einfach so isolierte und synthetisch hergestellte Vitamine über lange Zeit zu sich nehmen, oder ob nach sorgfältiger Diagnose bei einer Krankheit ein Mangel festgestellt wird und dann eine Substitution durchgeführt wird. Außerdem wird in dieser Diskussion oft Folgendes vergessen: 1. 2. 3. Vitamine kommen in der Natur nur in Kombination vor, wirken also immer synergistisch. Mein Paradebeispiel für Synergismus ist ein Kind, das ein geübter Reiter ist und auf einem großen Pferd, das sich von ihm reiten lässt, wesentlich schneller vorankommt als ohne, oder Hürden überspringen kann, das es ohne Pferd nicht überspringen könnte. Umgekehrt würde das Pferd ohne den Reiter in der Regel weniger weit und ausdauernd laufen und auch ohne Not nicht so hoch springen. Vitamine sind nur eine Gruppe von schätzungsweise 10.000 oder mehr sekundären Pflanzenstoffen, die in den natürlichen Vitaminquellen vorkommen und die möglicherweise viel bedeutsamer sind als die Vitamine selber. Sie sind noch relativ wenig erforscht. So weiß man mittlerweile, dass etwa Farbstoffe in der Haut von Früchten, oder Bitterstoffe und Geschmacksstoffe oft viel potentere Radikalfänger sind als die Vitamine selber. Vitamine sind einfach historisch die erste dieser Gruppe von Stoffen, die erforscht wurden und von denen man weiß, dass sie für den Organismus wichtig sind, weil er sie selber nicht herstellen kann. Aber selbst wenn man Zitronensaft oder Orangensaft trinkt oder einen Apfel isst, dann nimmt man nicht einfach Vitamin C zu sich, sondern hunderte von anderen Pflanzenstoffen. Vitamine können, wenn sie isoliert gegeben werden, zu lange und zu hoch dosiert und vor allem auch ohne ihre natürlichen Partner selber als freie Radikale wirken. Freie Radikale sind jene Stoffe, die beim Stoffwechsel im Körper entstehen. Sie enthalten ein Sauerstoff- und ein Wasserstoffatom oder ein Stickstoff- und ein Sauerstoffatom. Sie heißen deswegen „Radikale“, weil diese HO- oder NO-Moleküle Bindungsbestandteile sind, die reagibel sind, also nach Bindungen mit anderen Molekülen suchen. Wenn Vitamine oder andere Radikalfänger vorhanden sind, werden sie von diesen abgefangen und damit unschädlich gemacht. Wenn zu wenig von diesen vorhanden sind, dann kommt es zum sog. „oxidativen Stress“, einem Überschuss freier Radikale, die sich dann andere Bindungspartner suchen, z.B. organische Strukturen von Zellen, die damit zerstört werden. Das könnte der Ursprung für manche chronische Krankheit werden. Deswegen sind Radikalfänger, u.a. Vitamine, wichtig. Allerdings erzeugt auch der Organismus, aktivierte Makrophagen z.B. bei einer Infektion, aktiv solche freien Radikale zur Abwehr von Bakterien und Viren. Also muss man die Sache auch etwas von der anderen Seite betrachten. Und, hinzukommt wie gesagt, isoliert und zu hoch dosiert können Vitamine selber zu solchen Radikalen werden. Ausreichende Schutzstoffe haben wir nur, wenn wir möglichst wenig denaturierte Nahrung zu uns nehmen und gesunde Ernährung im Rahmen eines Gesamtkonzeptes der Primärprävention verstehen und nicht Vitaminpillen wie Medikamente zu uns nehmen. Insofern ist die Schlussfolgerung, die die populäre Presse aus diesen Studien zieht: Vitamine und Supplemente können wir uns sparen, es ist ja alles gut, etwas kurzsichtig. Wir hätten uns das Geld für derartige Studien a priori sparen können, denn sie beantworten eigentlich eine einigermaßen dämliche Frage, nämlich ob es sinnvoll ist, isolierte Substanzen über längere Zeit in relativ hoher Dosis zu sich zu nehmen. Das Denken in isolierten kausalen Bezügen, das einer solchen Konzeption zu Grunde liegt, sie ist das eigentliche Problem. Und darauf weisen uns die Studien hin. Dass ein etwas synergistischeres Konzept, wie das in der Studie von Lamas und Kollegen (2013) [3] verwirklichte, u.U. vor allem in der Sekundärprävention sinnvoll sein kann, sieht 2 man, wenn man die Daten dieser Studie genauer betrachtet. Auch hier liegt kein signifikantes Ergebnis vor, und die Studie wird also als „negativ“ kolportiert. Hier wurden Patienten, die bereits einen Herzinfarkt hinter sich hatten, mit einer relativ hohen Dosis von verschiedenen Präparaten behandelt, insgesamt 28 Präparaten, ein Mix aus Vitaminen und Mineralien. Manche in hoher Dosierung, wesentlich höher als empfohlen. Für manche gibt es keine Empfehlung, wie für Bioflavonoide. Vitamin D dagegen war mit 100 IU eher niedrig dosiert. Aber auf jeden Fall hatten die Autoren einen wohlinformierten Versuch gemacht mit einem physiologisch sinnvollen Cocktail zu arbeiten. Weil die Patienten daher relativ viele, große Kapseln zu schlucken hatten, ließ die Compliance nach, ein Haupt-Problem der Studie. Sieht man genauer hin, dann erkennt man, dass die Effekte gar nicht so schlecht waren: Die Hazard-Ratio, also das Risiko über die Zeit hinweg, lag bei 0.89 für alle Arten von Mortalität, war also um 11% reduziert, bei Schlaganfall lag sie bei 0.53, eine Reduktion um knapp die Hälfte, und bei Hospitalisierungen wegen Angina pectoris lag sie bei 0.63, war also um knapp 40% reduziert. Kardiovaskulärer Tod, ein sekundärer Endpunkt war um 20% reduziert. Das Problem war also weniger die Tatsache, dass keine Effekte vorhanden waren, sondern dass die Effekte geringer waren als antizipiert. Die Power-Analyse war von einer 25%igen Reduktion beim zusammengesetzten primären Endpunkt ausgegangen. Der vorliegende Effekt von 11% war weniger als halb so groß. Schade. Mit mehr als doppelt so vielen Patienten als die 1708 Patienten die eingeschlossen waren, oder, anders gesprochen, ohne die Ausfälle von fast 800 Patienten, die die Behandlung nie begonnen oder abgebrochen haben, eben weil ihnen die Schluckerei vieler dicker Kapseln auf die Dauer zu dumm wurde, wäre die Studie unter Garantie positiv ausgegangen und hätte Furore gemacht. Moderne Studien werden nach „intent-to-treat“ ausgewertet. Das heißt, dass alle Studienteilnehmer, die in eine bestimmte Gruppe gelost werden, egal ob sie die Intervention erhalten oder nicht, egal ob sie dabeibleiben oder nicht, in die Endauswertung mit eingehen. Wenn also ein Patient der Studiengruppe innerhalb der Studienzeit verstirbt, auch wenn er nie eine einzige Kapsel genommen hat, dann wird er als Todesfall innerhalb der Interventionsgruppe gerechnet, weil er einmal die „Intention“ hatte, diese „Behandlung zu erhalten“. Man tut dies, weil man eine konservative Schätzung eines möglichen Behandlungseffektes haben will. Und wenn eine Intervention aufgrund ihrer Komplexität, oder hier, weil die Kapseln zu dick und zu viele sind, schlecht angenommen wird, oder weil, wie in anderen Fällen, Patienten wegen Nebenwirkungen abbrechen, dann schlägt das eben negativ als Therapieversager zu Buche und drückt das Ergebnis, ist aber nahe an der Realität. Man erhält also über eine Auswertung nach „intention-to-treat“ eine konservative, realistische Schätzung des möglichen Effekts in der untersuchten Population. Daher rührt auch in dieser Studie die Effektverdünnung. Man hätte, wenn keine Patienten abgesprungen wären, selbstverständlich auch den Effekt, den man antizipiert hatte, gesehen. Aber immerhin sind fast die Hälfte aller Patienten ausgefallen. Damit hat die Studie die gleiche statistische Mächtigkeit wie eine Studie, die nur halb so groß ist und bei der alle Patienten dabeibleiben. Die statistische Mächtigkeit oder „Power“ wirkt sich auf die Frage aus, ob die Studie eine hohe Wahrscheinlichkeit hat, signifikant zu werden. Das hatte sie in diesem Falle nicht. Deswegen wurde der an sich durchaus lohnenswerte Effekt von 11% Mortalitätsreduktion oder die 47%ige Reduktion von Schlaganfall nicht „entdeckt“ oder nicht signifikant. Dennoch sind die Effekte bedenkenswert. Mit wenig anderen nicht-invasiven Maßnahmen erreicht man so gute Effekte. In den berühmten Lipidsenkerstudien – die allerdings in der Primärprävention durchgeführt wurden – sah man signifikante Effekte von maximal 3.4% 3 Risikoreduktion und die Weltpresse jubelte. Allerdings hatten die beteiligten Firmen auch ausreichend Geld um die nötigen Patientenzahlen von mehreren Tausend einzuschließen [4]. Insofern steht das Ergebnis dieser Studie weniger schlecht da, als es rezipiert wird. Das Problem ist eher, dass die gesamte medizinische Statistik auf eine ja-nein Entscheidung getrimmt ist und bei einer fehlenden Signifikanz die Diskussion beendet wird. Das hängt mit der Logik des statistischen Tests zusammen. Dieser legt folgende Überlegung zugrunde: Angenommen, ich gehe davon aus, dass es keinen Unterschied zwischen zwei Gruppen gibt – die sog. „Nullhypothese“ – mit welcher Wahrscheinlichkeit mache ich dann einen Fehler, wenn ich behaupte einen solchen Unterschied gibt es nicht, angesichts der vorliegenden Daten? Solange die sog. Irrtums-Wahrscheinlichkeit eine gewisse, willkürlich gewählte, Grenze nicht unterschreitet, die man im Regelfall auf 5% festgesetzt hat, gehe ich davon aus, dass der gefundene Unterschied irrelevant, oder „nicht signifikant“ ist. Ist die Grenze unterschritten und die Irrtums-Wahrscheinlichkeit wird kleiner als 5%, dann sage ich: diese Nullhypothese, dass es keinen Unterschied gibt, muss aufgegeben oder verworfen werden. Damit sage ich dann, aber erst dann: Jawohl, es gibt einen Unterschied! Und die These, dass die experimentelle Intervention, hier der Vitaminmix, besser wirkt als das Placebo, wird angenommen. Das ist ein bisschen so, als hätte ich die Augen für alle Unterschiede, egal wie groß sie sind, verbunden und zwar solange, bis mir jemand die Binde abnimmt, nämlich der statistische Test, und sagt: „so, jetzt darfst Du gucken und den Unterschied ernst nehmen“. Vorher ist der numerisch gleiche Unterschied irrelevant. Ob aber dieser Test signifikant wird und mir die Augenbinde abnimmt, so dass ich ihn zur Kenntnis nehmen darf, hängt nicht von der Größe des Unterschiedes ab, sondern einzig und allein von der Größe der Studie. Das ist nämlich die sog. statistische Mächtigkeit oder „statistische Power“. Nochmals anders ausgedrückt: hätte ich mehr Geld oder mehr Geduld gehabt und eine größere Stichprobe für meine Studie genommen, dann wäre irgendwann der Tag gekommen, an dem mir der statistische Test die Augen geöffnet hätte und mir auch einen noch so kleinen Unterschied als „wichtig“ oder „signifikant“ vorgeführt hätte. Und umgekehrt hätte mir auch bei einem relativ großen Unterschied, so wie hier, die mangelnde statistische Mächtigkeit die Binde auf den Augen gelassen, eben weil die Signifikanz nicht erreicht wurde. Außer, der Unterschied wäre sehr groß gewesen, größer als antizipiert, dann wäre der Moment des Hinsehendürfens schon früher gekommen. Denn Effektgröße, Stichprobengröße und Signifikanz leben in einer Art Dreierbeziehung: Je größer der Effekt, umso kleiner muß – bei gleicher Signifikanz – die Stichprobe sein, damit wir ihn entdecken. Und je kleiner der Effekt, oder je niedriger die Signifikanzgrenze, um so größer muß die Stichprobe sein, damit wir ihn finden. Es gibt schon lange einen Streit in der Methodikerzunft, wie sinnvoll ein solches Vorgehen eigentlich ist. Weil man natürlich gerne sichere Entscheidungen will, hält man an dieser Idee des Hypothesentestens mit Hilfe von Signifikanz-Tests fest. Aber man sollte sich die Begrenzung immer vor Augen halten und als Zusatzinformation immer die absolute Größe des Effekts, im Verein mit der statistischen Mächtigkeit des Tests im Bewusstsein behalten. Das ist im übrigen auch der Grund, weswegen man Meta-Analysen durchführt. Denn in ihnen kann man die statistische Mächtigkeit über Studien hinweg akkumulieren und auch Effekte, die in einzelnen Studien nicht signifikant waren, dann, wenn sie vorhanden sind und einigermaßen homogen, als statistisch signifikant belegen. 4 Jedenfalls hier sollte man am Ball bleiben. Denn die Effekte in dieser Studie [3] sind groß. Die Studienlogistik scheint Probleme gehabt zu haben, die Patienten bei der Stange zu halten, und gerade in einem solchen Falle wäre eine per-protocol Analyse durchaus sinnvoll gewesen. Das wäre eine Analyse, bei der man nur diejenigen Patienten betrachtet, die wirklich das gemacht haben, was vorgesehen gewesen war. Das wäre dann eine Optimalfall-Schätzung gewesen, also wie groß die Effekte maximal sein könnten, wenn alle brav ihren Multivitaminmix schlucken. Man muss kein großer Hellseher sein um zu sehen, dass eine solche Analyse mit ziemlicher Sicherheit signifikant geworden wäre. Dass sie nicht berichtet wird, dürfte auf die Intervention eines Gutachters zurückzuführen sein, würde ich mal schätzen, oder auf vorauseilenden Gehorsam der Autoren. Die Studie zeigt auch, dass Nahrungsergänzung in sinnvoller Kombination und nicht in Isolation vor allem in Krankheitsfällen nützlich ist und Effekte erzielt. Die Studien von Dean Ornish zeigen allerdings, dass eine gesunde vegetarische Ernährung zusammen mit Entspannung und Yoga, konsequent durchgeführt, wesentlich bessere Effekte erzielt [5,6]. Die Studien zeigen insgesamt, dass die Diskussion alles andere als abgeschlossen ist. Sie beginnt erst. Und zwar mit einem Diskurs über wirklich sinnvolle, synergistisch sich ergänzende gesunde Ernährung und im Krankheitsfalle mit einer wohl informierten, ebenfalls synergistisch arbeitenden Nahrungsergänzung zusammen mit einer guten Ernährung. Letzteres ist, soweit wir sehen, immer noch nicht gut genug im Visier der Wissenschaft. Das mag daran liegen, dass gesunde Ernährung kein Medikament ist, sondern verantwortliches Verhalten und gewählte Entscheidung. Und die kann man, per definitionem, nicht in randomisierten Studien untersuchen. Denn wir können nicht Menschen per Zufall dazu vergattern, plötzlich Verantwortung zu übernehmen und sich gesund, bewusst und vielfältig, womöglich noch vegetarisch zu ernähren genauso wenig wie wir Menschen, die eine solche Entscheidung getroffen haben diese per Zufallsdekret im Rahmen einer Studie wieder entziehen könnten. Das Dilemma ist also, dass man ein solches wirklich interessierendes Verhalten nur in einer natürlichen Umgebung untersuchen könnte, dort, wo es vorkommt. Das heißt, man müsste Studien an natürlichen Kohorten machen und könnte die angeblich beste Studienmethodik, eine randomisierte kontrollierte Studie gar nicht anwenden. Und eine Meta-Analyse, wie die von Fortmann und Kollegen [2] hätte eine solche Studie apriori ausgeschlossen, obwohl und auch wenn sie die einzige gewesen wäre, die wirklich valide hätte Auskunft geben können. So wird man vielleicht sogar einen Wandel in der Methodendoktrin abwarten müssen, bis man diese Frage wirklich kompetent untersuchen und beantworten kann. Das ist der Grund, weswegen ich schon vor Jahren darauf hingewiesen habe, dass nur ein Zirkel verschiedener Methoden, die sich ergänzen und die die jeweiligen Schwächen der anderen kompensieren uns wirklich einen guten Einblick in die Brauchbarkeit einer Intervention in der Praxis geben kann [7]. Und das ist auch der Grund, warum das gebetsmühlenartige Wiederholen der Aussage, dass ausschließlich randomisierte Studien wissenschaftlich seien, am besten verblindet und placebokontrolliert, geistlos, dogmatisch und sachlich falsch ist, auch wenn es derzeit den Applaus der Mehrheit findet. 5 * Eine leicht veränderte Version dieses Textes wird als „Journal Club“ Beitrag in der nächsten Ausgabe der Zeitschrift „Forschende Komplementärmedizin“ zu den unter 1-3 zitierten Studien erscheinen. ← Zurück zu Kapitel 11 Weiter zu Kapitel 13 → 1. 2. 3. 4. 5. 6. 7. Guallar, E., Stranges, S., Mulrow, C., & Appel, L. J. (2013). Enough is enough: Stop wasting money on vitamin and mineral supplements. Annals of Internal Medicine, 159, 850-851. Fortmann, S. P., Burda, B. U., Senger, c. A., Lin, J. S., & Whitlock, E. P. (2013). Vitamin and mineral supplements in the primary prevention of cardiovascular disease and cancer: An updated systematic evidence review for the U.S. preventive services task force. Annals of Internal Medicine, 159, 824-834. Lamas, G. A., Boineau, R., Goertz, C., Mark, D. B., Rosenberg, Y., Stylianou, M., et al. (2013). Oral high-dose multivitamins and minerals after myocardial infarction: A randomized trial. Annals of Internal Medicine, 159, 797-804. Penston J: Fiction and Fantasy in Medical Research: The Large-Scale Randomised Trial. London, The London Press, 2003. Ornish D, Scherwitz LW, Billings JH, Gould KL, Merrit TA, Sparler S, Armstrong WT, Ports TA, Kirkeeide RL, Hogeboom C, Brand RJ: Intensive lifestyle changes for reversal of coronary heart disease. Journal of the American Medical Association 1998;280:2001-2007. Ornish D, Scherwitz LW, Doody RS, Kesten D, McLanahan SM, Brown Se, DePuey EG, Sonnemaker, Haynes C, Lester J, McAllister GK, Hall RJ, Burdine Ja, Gotto AM: Effects of stress management training and dietary changes in treating ischemic heart disease. Journal of the American Medical Association 1983;249:54-59. Walach H, Falkenberg T, Fonnebo V, Lewith G, Jonas W: Circular instead of hierarchical – Methodological principles for the evaluation of complex interventions. BMC Medical Research Methodology 2006;6. Prof. Dr. Dr. Harald Walach hat hier: http://harald-walach.de/methodenlehre-fuer-anfaenger/ dies veröffentlicht: Methodenlehre für Anfänger Ich werde hier Schritt für Schritt ein Online-Tutorial der Methodenlehre entwickeln und wichtige Elemente der Methodenlehre für Mediziner und medizinisch Interessierte, für Journalisten und methodische Laien und Studierende präsentieren. Am Ende wird daraus ein kleines Studienkompendium. Gastbeiträge sind herzlich willkommen. Harald Walach Inhalt Teil 1: Evidenz: ein unreflektierter Kampfbegriff [English Version: Part 1 - Evidence] Teil 2: Hierarchie oder Zirkel der Erkenntnis? [English Version: Part 2 - Hierarchy] Teil 3: Die Konsequenzen des hierarchischen und zirkulären Modells [English Version: Part 3 - Consequences] Teil 4: EBM in Aktion: Ein konkretes Beispiel [English Version: Part 4 - EBM] Teil 5: Vom Verhältnis zwischen Empirie und Theorie (1) [English Version: Part 5 - Empiricism] Teil 6: Wer braucht was? Empirie und Theorie (2) 6 [English Version: Part 6 - Who needs what?] Teil 7: Decline-Effekte und die öffentliche Repräsentanz wissenschaftlicher Ergebnisse in den Medien Teil 8: Industry Bias – Eine neue Form des Bias oder ein interessanter Experimentator Effekt? Teil 9: Innere und äußere Erfahrung – Zen und Wissenschaft Teil 10: Plausibilitätsbias und die weit verbreitete Meinung, die Homöopathie sei „widerlegt“ Teil 11: Wie wissenschaftlich ist die Komplementärmedizin? Oder: Vom Hirsch im Blätterwald Teil 12: Vitamine: über die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien untersuchen zu können Teil 13: Power-Analyse: die Magie der Statistik – Oder: Der Unterschied zwischen Signifikanz und Relevanz (1) Evidenz: ein unreflektierter Kampfbegriff [English Version: Part 1 - Evidence] Evidence Based Medicine“ (EBM) wird in der Regel als eingedeutschter Amerikanismus und falsch als „Evidenz Basierte Medizin“ übersetzt. Die Übersetzung ist in mehrfacher Hinsicht falsch und der Begriff Evidenz wird in der Diskussion mit sachlich unbrauchbaren Konnotationen aufgeladen. „Evidence“ heisst im Englischen „Beweis“, „Klarheit“. „I have evidence that Peter poisoned our cat“ würde heissen „Ich habe Beweise dafür, dass Peter unsere Katze vergiftet hat.“. „It is evident that people are living longer now than they did 100 years ago“ heisst „Es ist völlig klar und bewiesen, dass Menschen heute länger leben als vor 100 Jahren“. Im Deutschen heisst „Evidenz“ gerade das, was keinerlei Beweises bedarf: „Es ist evident, dass die Summe der Winkel im Dreieck 180 Grad beträgt“. „Es ist evident, dass die Durchschnittstemperatur im Sommer höher ist als im Winter.“ „Wahre Sätze können nicht falsch sein. Das ist evident.“ Derlei Aussagen bezeichnen wir im Deutschen als evident. Das Englische „evident“ bezieht sich, philosophisch gesprochen, auf Aussagen „a posteriori“, um mit Kant zu reden, also auf solche, die empirischer Belege bedürfen, damit sie richtig sind. Das Deutsche „evident“ bezieht sich auf Aussagen „a priori“, die eben genau keiner Belege bedürfen, weil ihre Richtigkeit logisch aus akzeptierten Prämissen abgeleitet ist. Soweit einmal die sprachliche Analyse. In diesem Sinne müsste man „evidence based medicine“ mit „Medizin, die sich auf empirische Belege stützt“ oder „datengestützte Medizin“ übersetzen. Damit stellt sich die Frage, was man als empirische Belege und Daten akzeptieren will, auf die man medizinisches Handeln gründen kann. Hier taucht der zweite Fehler auf, der implizit gemacht wird: Die Gründerväter der EBM haben klar gesagt, EBM heisst a) die beste verfügbare Informationslage aus wissenschaftlicher Literatur PLUS b) Die fachliche Meinung des behandelnden Arztes PLUS c) die Präferenz und der Wunsch des Patienten. Alle drei sollen zusammenkommen. 7 Dies wird in der deutschen Diskussion mittlerweile verkürzt wiedergeben mit der uns Deutschen eigenen Art des vorauseilenden Kadavergehorsams gegenüber allem, was wir als Autorität sehen und akzeptieren. Dazu kommt die menschliche Eigenart, das Denken abzustellen sobald man einen Begriff hört, von dem man meint, alles sei damit gesagt. Autorität, das ist die angelsächsische Welt. Also hören wir auf zu denken. Und wenn jemand EBM sagt, dann meinen wir: nur Daten aus randomisierten, besser noch placebokontrollierten Studien zählen. Alles andere ist irrelevant. Diese Meinung ist nicht nur sachlich falsch. Sie ist auch wissenschaftlich, gesundheitspolitisch und praktisch gefährlich. Das will ich im folgenden Schritt für Schritt zeigen und eine sinnvollere Interpretation als die gängige vorlegen. Nun fangen wir an zu denken und wollen darüber nachdenken, was gute empirische Belege sind, die medizinisches Handeln stützen können. Denn im Moment wird der Begriff „Evidenz“ von allen möglichen und unmöglichen Leuten als Kampfbegriff in die Runde geschleudert um das zu bekämpfen was ihnen missfällt. Kritiker der Komplementärmedizin verwenden den Begriff um zu suggerieren, dass sie hier fehle. Kritiker der klinischen Autoritätsmedizin verwenden ihn, um sich von ihren medizinischen Autoritätsfiguren im Namen der Wissenschaft zu emanzipieren und die Wissenschaft als Schutz und Schild gegen autoritäres Gehabe zu verwenden. Zulassungsbehörden verwenden ihn, um vermeintliche Spreu von vermutlichem Weizen zu trennen. Schreiber von Übersichtsarbeiten verwenden ihn, um sich die Sache leicht zu machen und nicht allzu viel nachdenken zu müssen; schliesslich scheint EBM ein einfaches Rezept und einen guten Vorwand zu liefern, um nur einen Teil der vorhandenen Information berücksichtigen zu müssen. Genau hier wollen wir ansetzen und nachdenken: Was genau heisst es nun, sich auf wissenschaftliche Daten zu stützen? Welche Art von Daten, für welche Art von Fragestellung, brauchen wir? Liegen sie vor? Wenn nein, können wir sie erzeugen? Wie genau? Und schliesslich: Was wissen wir? Ich schlage vor, Sie machen als Vorbereitung eine kleine Denk- und Rechercheübung: Suchen Sie sich einen klinisch relevanten Bereich, der Ihnen in Ihrer Praxis, in Ihrem Leben oder in Ihrer Familie öfter vorgekommen ist. Zum Beispiel: chronische Rückenschmerzen oder chronische Polyarthritis. Schlagen Sie die entsprechenden Leitlinien der entsprechenden Fachgesellschaft nach. Was wird dort empfohlen? Dann fragen Sie sich: Worauf stützt sich diese Empfehlung? Verfolgen Sie die Literatur zurück bis zu den originalen Studien. Dann sehen Sie sich a) die Ein- und Ausschlusskriterien an und b) die Behandlungsdauer, die in dieser Studie geprüft wurde. Es wäre auch nützlich zu überlegen ob c) die Anzahl der Patienten in der Studie gross genug war, um potenzielle Nebenwirkungen aufzuspüren. Wenn dies nicht der Fall ist, suchen Sie d) nach einer gross angelegten und ausreichend langen Beobachtungsstudie in der Literatur. Aus Gründen des Copyright kann ich Ihnen nicht ersparen, diese Informationen selber zu suchen. Teilnehmern unseres KWKM-Studiengangs wird sie im Laufe der Zeit auf unserer geschützten Lernplattform zur Verfügung gestellt. 8 (2) Hierarchie oder Zirkel der Erkenntnis? [English Version: Part 2 - Hierarchy] Ich hatte ja vorgeschlagen, dass Sie sich als nächsten Schritt ein paar konkrete Beispiele suchen, wie Daten und wissenschaftliche Information in der Medizin verwendet werden. Dazu kommen wir dann, um alles etwas zu konkretisieren, in einem der nächsten Blog-Beiträge. Falls Sie Ihre Hausaufgabe schon gemacht haben, ist das sehr gut, denn dann verstehen Sie das, was ich jetzt sagen werde, noch besser. Dann werden Sie nämlich gemerkt haben: „Evidence Based Medicine“ (EBM) unterstellt eine Hierarchie von Erkenntnis. Sie geht davon aus, dass an der untersten Stufe, sozusagen als Basis, klinische Anekdoten und unkontrollierte, klinische Erfahrung, also Expertenmeinungen stehen. Dann kommen Fallserien und Fallkontrollstudien, die schon etwas systematischer sind, aber eben immer noch Einzelfälle. Schliesslich kommen Studien an natürlichen Gruppen von Patienten, sogenannte Kohortenstudien, bei denen Patienten, die mit einer Methode behandelt wurden mit anderen verglichen werden, die anders behandelt wurden. Das Entscheidende daran: die Patienten, oder ihre Ärzte, haben die entsprechende Behandlung ausgesucht. Das sind also keine reinen Experimente, denn hier wird die Zuteilung auf die Bedingungen rein zufällig vorgenommen. Das hat, zumindest theoretisch, den Vorteil, dass dann die Patientenmerkmale zufällig verteilt werden und am Ende die beiden Gruppen besser vergleichbar sind. Damit wird es wahrscheinlicher, dass ein gefundener Unterschied zwischen den Gruppen auf die zu testende Intervention zurückzuführen ist und nicht auf zufällige Schwankungen in der Population. Weil das so ist geht man auch davon aus, dass solche experimentellen Studien bei denen der Computer die Zuteilung der Patienten auf Gruppen per Zufall übernimmt – sog. „randomisierte Studie“ von engl. „random-zufällig“ – besser sind, und deswegen stehen sie in der Gunst der Wissenschaftler und auch der Herausgeber wissenschaftlicher Zeitschriften höher. Das hat seine Berechtigung; dazu kommen wir später. Schliesslich kann man alle Daten die man so in einzelnen Studien gefunden hat zu einer Meta-Analyse, also einer zusammenfassenden Studie, zusammenführen und erhält eine Schätzung des therapeutischen Effekts. Damit wird die Erkenntnis, so meint man, immer besser. Viele der Leitlinien, das werden Sie gesehen haben, stützen sich auf solche Daten. Was steckt dahinter? Das Leitbild von der Hierarchie der Erkenntnis („hierarchy of evidence“) Hinter dieser Vorstellung steht ein explizit hierarchisches Verständnis von Wissen oder Erkenntnis („evidence“). Je stärker kontrolliert die Studie, je experimenteller das Vorgehen, umso sicherer sind die Schlussfolgerungen, die man aus einer Studie ziehen kann. Das ist zweifelsfrei der Fall. Daher geht man davon aus, dass das einzige, was wirklich wichtig ist, diese Sicherheit der Schlussfolgerungen ist. Das nennt man im Fachjargon die interne 9 Validität, also die Gültigkeit einer Studie aufgrund ihrer methodischen Merkmale der Kontrolle, der Zufallszuteilung und der Verblindung. Wenn man die Prämisse gelten lässt, dass diese Sicherheit der Schlussfolgerungen das einzig wirklich interessante und wichtige Merkmal von wissenschaftlichen Studien ist, dann kann man, in einem zweiten Schritt, sagen: alle anderen Studien haben weniger Gültigkeit, sind also weniger „gut“, können daher auch vernachlässigt werden, wenn solche Studien hoher „Güte“ vorliegen. Dann kann man alle anderen Studien nur als Vorstufen und Vorbereitungen solcher endgültiger Studien verstehen und dann, wenn solche endgültigen, randomisierten Studien vorliegen, alle anderen vernachlässigen. In der Folge werden nur noch diese randomisierten Studien zusammengefasst: denn oftmals schwanken auch die Ergebnisse solcher „guter“ Studien beträchtlich und es ist schwierig, den Überblick zu behalten. Dies leistet dann die formale Meta-Analyse. Sie gibt ein statistisches Verfahren vor, wie man die Ergebnisse verschiedener Studien mathematisch zusammenführt und daraus eine Schätzung der vermutlich „wahren“ Effekgrösse gewinnt, die sich hinter einer Intervention in der Population verbirgt. Im Idealfall sind die Effekte der einzelnen Studien nämlich Schätzungen dieses „wahren“ Effektes, um den sie streuen. Aus dieser Theorie leitet sich dann das Vorgehen ab, wie es in der Regel zur Generierung von „Evidenz“ im modernen, wissenschaftlichen Sinne verwendet wird. Man überprüft die vorhandenen formalen Merkmale der Studien und ordnet sie nach vermeintlicher „Güte“, also danach, ob sie experimentell sind oder nicht, und verwendet zur Einordnung noch andere Kriterien, zu denen wir später kommen werden. Liegen viele Befunde vor, wird die Lage leicht unübersichtlich, denn oft widersprechen sich Studien. Daher wenden Ersteller von Übersichtsarbeiten oder Reviews, bzw. Meta-Analytiker, gerne folgendes Verfahren an: sie formulieren Einschlusskriterien für ihre Arbeit, z.B.: „nur randomisierte Studien, die verblindet sind, in englischer Sprache verfasst und mit mindestens 50 Patienten pro Gruppe“. Dadurch verringert sich der Aufwand, wissenschaftliche Literatur zu beschaffen und zu sichten beträchtlich. Die Komplexität wird geringer und es wird leichter, eine klare Aussage zu treffen. Wir werden zu den einzelnen Schritten und ihren Implikationen später kommen. Hier interessiert zunächst nur das generelle Vorgehen, die Vorraussetzungen, die dahinter stecken und die Plausibilität des gesamten Ansatzes. Wir sehen sehr leicht: Hinter diesem Vorgehen verbirgt sich die Leitmetapher der „Hierarchie“ oder der „Pyramide“, an deren Spitze das wirklich Wertvolle, das tatsächlich Interessante steht, nämlich die „wahre Effektgrösse“ einer Intervention, herausdestilliert durch die vielen einzelnen Schritte, die „unten“ getan wurden, die schliesslich zu den „wirklich guten“ Studien, den randomisierten, geführt haben und dadurch geholfen haben, den „echten Effekt“ zu finden. Der Rest ist unwichtig, wissenschaftliche Maische sozusagen, die nur dazu gedient hat, die Distille der Wahrheit zu bedienen; so ähnlich wie man ein 1000 Liter Fass Kirschen braucht um ein paar Liter Kirschschnaps zu brennen. Die Maische kriegen die Säue, der Schnaps wird verkauft oder getrunken. Wie plausibel und stichhaltig ist diese Theorie? Wir analysieren diese Voraussetzung in drei Schritten. Erstens: Wir sehen uns die paradigmatischen Voraussetzungen ein bisschen genauer an. Zweitens: Wir analysieren die methodischen Hintergründe, die Entscheidungen und die Konsequenzen. Drittens: Wir kehren zurück zu unserem Beispiel der leitliniengestützten Therapie und fragen, ob dieses Vorgehen in der Praxis wirklich zu brauchbaren Ergebnissen führt. 10 1. Ist die Wirklichkeit hierarchisch? Die Voraussetzung, die offensichtlich bei diesem Vorgehen gemacht wird, ist die der Hierarchie. Die Wirklichkeit, auch die Erkenntnis und die Einsicht, so unterstellt man, sei hierarchisch. Denken wir für einen Moment mal nach: Woher kennen wir Hierarchien, Pyramiden, und dergleichen? Offensichtlich sind alle feudalen Systeme der Vergangenheit hierarchisch geordnet. An der Spitze steht ein König oder Kaiser, ein Pharao oder Gott, von dem alle anderen ihre Rechte und Pflichten haben und an den alle anderen wieder in ihrer Verantwortlichkeit zurück Bericht erstatten und dem gegenüber sie verantwortlich sind. Feudale Systeme, das hat die Geschichte gezeigt, sind nicht die flexibelsten. Sie sind anfällig für Schwächen der Einzelnen. Solange ein sehr weiser, sehr starker und sehr gesunder Führer an der Spitze steht, kann das System gedeihen. Dann hat der Eine immense Lasten zu tragen und kann es vielleicht auch, und alle profitieren. Historisch gesehen sind lange Friedenszeiten unter grossen Königen und Führern Beispiele dafür, wenn wir etwa an das Preussen Friedrichs des Grossen denken, an das Österreich unter Maria-Theresia, an Frankreich unter Ludwig dem Heiligen oder Ludwig dem XIV., an Rom unter Augustus oder Hadrian. Sobald ein Führer schwach ist, kränklich, nicht lange lebt, geistesgestört oder etwas dümmlich, wird es brenzlig. Nazideutschland ist ein Paradebeispiel dafür, wohin hierarchische Systeme tendieren, wenn es an der Spitze krankt. Daher haben politische Systeme in der Neuzeit Kontrollmechanismen eingebaut, die absolute Macht beschränken und die Hierarchie bzw. die damit verbundene Machtposition beschränken. Moderne politische Systeme, die funktionstüchtig sind, haben zwar eine hierarchische Struktur, vor allem um Konsens zu bündeln und nach aussen zu kommunizieren, um zu moderieren und Kräfte zu sammeln, aber sie sind immer über zyklische Rückmeldeprozesse und Kontrollprozeduren nach und von „unten“ mit ihrer Basis verbunden. Wie sieht es mit grossen Wirtschaftsorganisationen aus? Auch hier zeigt sich: die erfolgreichsten Unternehmen haben über die letzten Dekaden begonnen, Hierarchien abzuflachen und sich modulare Strukturen zu geben. Zwar gibt es natürlich CEOs, die sehr entscheidungsgewaltig sind. Aber ein guter und moderner CEO wird sich hüten, Entscheidungen einsam zu treffen, ohne alle Elemente seines Betriebes gut zu kennen. Auch hier gibt es flache Hierarchien, Rückkopplungen mit der Basis, Prozeduren, bei denen die Einzelnen Anteil an Entscheidungen und Zugriff auf Macht haben. Wie steht es mit anderen wichtigen Bereichen im Leben? Liebe zum Beispiel? Dient alle Liebe zu verschiedenen Menschen, zu Eltern, Freunden, Kindern, anderen Menschen nur dazu, die eine wahre Liebe des Lebens zu nähren, die zu Ihrer Frau, Ihrem Mann, Ihrem Freund oder Lebenspartner, Ihrer Freundin oder Lebenspartnerin? Offensichtlich nicht. Offenbar ist es eher so: je mehr Liebe wir in einem Bereich erleben und mobilisieren können, umso mehr haben wir auch für andere Menschen zur Verfügung. Wenn eine Liebesbeziehung gut funktioniert und sich Partner lieben, dann strahlt diese Liebe auch auf die Kinder aus und zurück. Offensichtlich ist dies ein sich zyklisch bereichernder und beeinflussender Prozess. Oder organismische Systeme? Nehmen wir das Immunsystem. Gibt es hier eine zentrale Immunerkennungsleitstelle? Nein, klarerweise nicht. Das Immunsystem ist ein hoch vernetztes, extrem effizientes, aber dezentrales System. Wenn, dann könnte höchstens das Gehirn als eine Zentrale gelten. Es schaltet sich aber allenfalls als Koordinationsfunktion zu, wenn bewusstes Verhalten gefragt ist, also, wenn uns ein Erreger so zu schaffen macht, dass wir unsere Aktivität einschränken müssen und mit Fieber ins Bett legen sollten. Ansonsten ist das System zyklisch organisiert und eine Hierarchie im Sinne von Steuerungsprozessen, die von oben kommen, wird nur im Ernstfall aktiviert. 11 Wie sieht es mit dem Bewusstsein und unserem neuronalen System aus? Dies ist ein interessantes Beispiel. Denn in den Anfängen der Hirnforschung, in der Phrenologie des 19. Jahrhunderts, war man der Meinung es gebe auch hier einen hierarchischen Aufbau und irgendwo müsste all die Information, all das Bewusstsein in einem speziellen Zentrum und in spezialisierten „Bewusstseinsneuronen“ zusammenlaufen. Dann müsste es „Grossmutterneuronen“ geben, die all die Information, die mir dazu dient meine Grossmutter zu erkennen, zusammenführen und dann den bewussten Erkenntnisakt: „Das ist meine Grossmutter“ herbeiführen. Diese hierarchische Vorstellung hat die Forschung lange gelähmt. Mittlerweile wissen wir, dass auch im neuronalen System ein hohes Mass an dezentraler, modularer Organisation herrscht, und dass das Bewusstsein irgendwie überall ist und durch die koordinierte Zusammenarbeit vieler neuronaler Zentren zustande kommt. Es ist sogar so, dass unterschiedliche Aspekte eines Wahrnehmungsgegenstandes, also das Aussehen, der Geruch, der Klang der Stimme, die Art der Bewegung, die Körpergrösse meiner Grossmuter in ganz verschiedenen Zentren des Gehirns verarbeitet werden und erst durch Koordination vermutlich zeitlicher Muster zu einer Einheit im Bewusstsein verbunden werden. Hierarchie kommt zwar schon auch ins Spiel, aber eher so, dass bewusst gewählte Ziele, Wertvorstellungen und Wünsche „von oben“, also aus Bereichen der Grosshirnrinde, hemmend auf andere Zentren wirken und so für eine gewisse Einheit sorgen. Auch hier haben wir also wieder eine sehr filigrane Mischung von zirkulär-modularen Prozessen und moderat hierarchischen, die aber immer in Rückkopplung mit anderen Prozessen aus tiefer liegenden Zentren zusammenarbeiten. Ich könnte die Beispiele vermehren. Wir würden sehen: Es gibt keinen Bereich der uns bekannten Wirklichkeit der rein hierarchisch aufgebaut ist, ausser vielleicht dem Krankenhaus und der katholischen Kirche und vergleichbar veralteten Institutionen, die in ihrem Festhalten an veralteten Strukturen zu erkennen geben, dass sie Kandidaten für die Sackgasse der Evolution sind. Die Vorliebe der medizinischen Methodologie scheint mir aus dieser impliziten medizinischen Hierarchie zu kommen, die unreflektiert auf die Methodik übertragen wird. Wenn man sich die Natur und die Wirklichkeit als paradigmatisches Beispiel nimmt, dann müsste man sich eigentlich einer etwas komplexeren Metapher bedienen. Dann müsste man zyklische Rückmeldeprozesse auch in den methodologischen Erkenntnisprozess einbauen. 2. Eine zirkuläre Alternative Das Leitbild dafür ist ein Kreis oder meinethalben eine Spirale. Sicherlich ist Erkenntnis und Einsicht ein Ergebnis vieler einzelner Schritte und hat insofern eine Art hierarchische Struktur. Denn eine Einsicht ist mehr als die einzelnen Schritte, die dazu beigetragen haben. Der springende Punkt ist aber: wir gelangen zu dieser Erkenntnis nur, wenn wir alle Schritte in eine zyklische Gestalt bringen, also in Rückbezug zueinander und zu einer vermutlichen Synthese der Information. Technisch gesprochen: Wenn wir eine vermeintlich richtige Effektgrösse aus allen vorhandenen Studien isoliert haben, dann stellt sich die Frage: Wie bewährt sich nun diese Effektgrösse, die wir aus experimentellen Studien gewonnen haben, in der Praxis? Können wir in der Praxis, bei allen möglichen Patienten, auch bei solchen, die gar nicht in den untersuchten Studien eingeschlossen waren, damit rechnen, dass wir solche Effekte sehen (und genauso wenig oder viel Nebenwirkungen wie in den Studien)? Funktioniert, was in einer experimentellen Studie bei Patienten ohne Vorliebe für irgendein Verfahren geklappt hat, auch bei Patienten, die skeptisch sind, die verzweifelt sind, die keinen Glauben mehr an 12 sich und die Medizin haben? Lässt sich eine Intervention, die bei Patienten mit „einfachen“ Krankheiten, ohne Mehrfachdiagnosen getestet worden ist, auch bei Patienten anwenden, die den „wirklichen“ Patienten mehr gleichen, also bei solchen, die ausser Bluthochdruck auch noch Depression, Angst und Diabetes haben? Denn: in experimentellen Studien, die zur Testung von Arzneien und Interventionen auf Wirksamkeit dienen wird zugunsten der internen Validität, also der Sicherheit der Schlussfolgerungen, die Generalisierbarkeit der Ergebnisse, die externe Validität reduziert. In experimentellen Studien werden Patienten sorgfältig ausgewählt. Solche mit komplizierten Erkrankungen, mit mehrfachen Diagnosen, etc. gehen gar nicht erst in die Studie ein. Nur so funktioniert das gegenwärtige hierarchische Modell. Daher muss das Ergebnis, das so gewonnen wurde, rückgekoppelt werden mit der Basis, mit der Praxis. Hier müssen aber andere Studientypen durchgeführt werden. Denn wenn man wissen will, ob andere Patienten auch von einer Intervention profitieren, muss man möglichst ohne Ausschlusskriterien operieren und evtl. einfach eine breite Praxisdokumentation machen. Oder man muss natürlich vorkommende Gruppen vergleichen, solche die so und solche die anders behandelt werden. Wenn man wissen will, ob möglicherweise die aktive Entscheidung für eine Therapie therapeutische Potenz hat, darf man gar nicht experimentell untersuchen, denn die experimentelle Zuweisung schaltet das möglicherweise wichtigste Element im Therapieprozess aus, nämlich die Entscheidung des Patienten, etwas für seine Gesundheit tun zu wollen. Ich plädiere also für einen zyklischen Erkenntnisprozess. Wer der Meinung ist, Hierarchien müssen trotzdem sein, der kann sich eine Hierarchie zyklischer Prozesse vorstellen, die im Stile einer Spirale unsere Erkenntnis verfeinern und verbessern. Wie dies funktionieren kann, dazu mehr in einem der nächsten Beiträge. Genauer habe ich dies ausgeführt und begründet in der unten angegeben Literatur. Und interessanter Weise sehen auch führende Methodiker das in zwischen ganz ähnlich. ← Zurück zu Kapitel 1 Weiter zu Kapitel 3 → Literatur: Tinetti, M. E., & Studenski, S. A. (2011). Comparative effectiveness research and patients with multiple chronic conditions. New England Journal of Medicine, 364, 2478-2481. Walach, H. (2006). Zirkulär statt hierarchisch – methodische Überlegungen zur Evaluation komplexer therapeutischer Massnahmen [Circular in stead of hiearchical – methodological considerations for evaluating complex therapeutic interventions]. In W. Bödeker & J. Kreis (Eds.), Evidenzbasierung in Gesundheitsförderung und Prävention (pp. 33-56). Bremerhaven: Wirschaftsverlag NW. Walach, H., Falkenberg, T., Fonnebo, V., Lewith, G., & Jonas, W. (2006). Circular instead of hierarchical – Methodological principles for the evaluation of complex interventions. BMC Medical Research Methodology, 6(29). 13 (3) Konsequenzen des hierarch. und zirkulären Modells [English Version: Part 3 - Consequences] Ich hatte im vorigen Kapitel die theoretischen Voraussetzungen des hierarchischen Modells analysiert und eine Alternative, das zirkuläre Modell, vorgeschlagen. Jetzt wollen wir das Ganze etwas vertiefen und überlegen, welche konkreten Konsequenzen sich aus den beiden Modellen ergeben. Ich halte das hierarchische Modell für untauglich. Daraus mache ich keinen Hehl. Ich werde dann im nächsten Kapitel an ein paar Beispielen zeigen, dass das gegenwärtige Modell schlecht funktioniert und auf Dauer zu teuer und wissenschaftlich unbefriedigend ist. Die praktische Konsequenz des hierarchischen Modells Der Vorteil der klassischen Strategie: Das Experiment Wenn wir der Vorgabe des hierarchischen Modells folgen, dann müssen wir sobald als möglich im Forschungsprozess experimentieren, um den „wahren“ Effekt einer Intervention zu finden. Ich setze „wahr“ in Anführungszeichen, weil ich der Meinung bin, dass diese „Wahrheit“ in diesem Kontext eine Fiktion ist. (Das heisst nicht, dass es keine Wahrheit gibt. Schon der Hl. Augustinus hat in einem simplen Argument gezeigt, dass es Wahrheit als Leitidee geben muss: Selbst derjenige, der sagt, es gäbe keine Wahrheit, beansprucht für diese seine Aussage Wahrheit. Also muss es Wahrheit als Grenzidee geben.) Im medizinischen Kontext ist es allerdings eine Fiktion zu glauben, es gäbe eine Wahrheit, die für alle Menschen, in allen Kontexten und unter allen Umständen, in allen Kulturen und zu allen Zeiten und angewandt von allen Therapeuten gleich wirksam ist. Die Standardmeinung geht jedenfalls davon aus oder zumindest wird dies suggeriert, wenn man Aussagen liest wie: „xyz Therapie verbessert die Rückfallquote bei chronisch Depressiven um 38%“. Im hierarchischen Modell werden, wie früher kurz beschrieben, nach Möglichkeit experimentell erzeugte Daten verwendet, um solche Aussagen zu erzeugen, weil diese klarere Schlussfolgerungen zulassen. Warum? Stellen Sie sich vor, Sie hätten zwei Therapien zur Depressionsbehandlung: “Muckelfucktherapie” und Psychopharmaka. Stellen Sie sich vor, Sie hätten zwei grosse Gruppen von Patienten, solche, die sich für Muckelfucktherapie entscheiden, und solche, die lieber Psychopharmaka nehmen. Nun stellen Sie nach einer gewissen Beobachtungszeit fest, dass es den Patienten, die Muckelfucktherapie genommen haben, besser geht als den anderen. Können wir den Unterschied auf die Therapie zurückführen? Nicht notwendigerweise. Denn es könnte ja sein, dass z.B. alle oder viele Patienten, die sich für Muckelfucktherapie entscheiden, eine bestimmte noch nicht bekannte genetische Veranlagung haben, die dazu führt, dass sie Omega-3 Fettsäuren besser verstoffwechseln können, und dass Depression u.a. auch darauf zurückzuführen ist, dass Menschen zuwenig solcher Fettsäuren haben. Wir hätten also in unserer Muckelfuckgruppe implizit solche Menschen, die vielleicht etwas leichter von selber wieder aus ihrer Depression finden und würden eine spontane Besserung fälschlicherweise der Therapie zuschreiben. Oder Patienten der Muckelfuckgruppe könnten etwas gebildeter sein. Nun wissen wir aber, dass sich besser gebildete Menschen rascher eigene Ressourcen zur Besserung erschliessen können. Also würden wir einen Effekt der sozialen Unterschiede übersehen, wenn wir davon ausgingen, dass die Unterschiede zwischen den Gruppen auf die Therapie zurückzuführen seien. 14 Es gibt eine Unzahl von möglichen Einflussfaktoren auf Krankheiten. Solche die wir kennen, wie etwa einige genetische Faktoren des Stoffwechsels, Bildung, sozialer Status, Rauchen oder Alkoholkonsum, und viele, die wir nicht kennen. Wer weiss, vielleicht stellt sich irgendwann heraus, dass eine Geburt im Winterhalbjahr ein Risikofaktor in Zusammenhang mit einer bestimmten genetischen Konstellation für irgendeine Krankheit ist? Randomisierung Um solche bekannten und auch unbekannten Faktoren in den Griff zu bekommen, wenden Forscher gerne einen Trick an: sie weisen die Patienten auf die Gruppen per Zufall zu, also technisch mit einem Computerprogramm. Dadurch werden alle möglichen Einflussfaktoren so auf beide Gruppen verteilt, dass sie überall einen gleich grossen oder kleinen Einfluss ausüben. Wenn man dann eine Intervention einführt, die nur eine Gruppe erhält, und wenn man sorgfältig misst, dann kann man mit einiger Sicherheit davon ausgehen, dass Unterschiede zwischen den Gruppen mit der Intervention zu tun haben und nicht mit Unterschieden, die schon vorher oder implizit da waren. Diese Theorie greift auf jeden Fall dann, wenn die Studien gross genug sind, also so ca. ab 300 Patienten, und wenn der Zufall bei seiner Ausübung nicht gestört wird, wenn man also unbeschränkt zuteilen würde. Letzteres wird selten gemacht. Denn wenn man einfach nur würfelt, dann kann es sein, dass die Gruppen ungleich gross werden. Das versucht man zu vermeiden, da statistisch betrachtet immer die kleinste Gruppe bestimmt, wie mächtig der Test ist. Wenn man also einen Unterschied von 50 Personen zwischen zwei Gruppen hat, hat man z.B. in der einen Gruppe 150 und in der anderen Gruppe 200, dann hat man 50 Personen umsonst rekrutiert. Da das Einschliessen von Patienten in Studien teuer ist versucht man solche Unterschiede zu vermeiden und randomisiert in Blöcken. Das heisst man beschränkt den Zufall auf Einheiten von 4 oder 8 oder 10 o.ä., so dass sich die Gruppen maximal um so viele Patienten unterscheiden können. Allerdings ist dann aber auch die Zufallszuteilung in ihrer Mächtigkeit beschnitten. Aus diesem Grund funktioniert Randomisation wirklich gut erst ab ca. 150 Patienten pro Gruppe. Es wurden zwar Alternativen vorgeschlagen, die sog. Minimierungsstrategie, bei der Computerprogramme Patienten durch Berechnung der Unterschiede zwischen Gruppen verteilen, aber diese haben sich leider nicht durchgesetzt, weil sie etwas komplizierter sind. Randomisation führt also dazu, zumindest theoretisch und praktisch in grossen Studien, dass Ausgangswerte in beiden Gruppen gleich verteilt sind. Reicht aber Randomisation schon aus? Meistens nicht. Homogenisieren Meistens führen Forscher noch eine Reihe anderer Methoden ein, um ihre Studien abzusichern. Vor allem versuchen sie, homogene Gruppen zu erzeugen. Warum? Weil sie dann mit kleineren Patientenzahlen Effekte zeigen können. Erinnern wir uns: Patienten in Studien einzuschliessen ist teuer. Manche schätzen, ein Patient kostet in einer längeren Studie bis zu $ 28.000 (das sind Kosten für den Arzt, der eine Prämie kriegt, für wissenschaftliches und ärztliches Personal, das Daten erhebt, auswertet und überwacht, etc.). Man versucht also normalerweise mit möglichst wenig Patienten auszukommen. Das ist schon ethisch notwendig, denn schliesslich ist jedes Experiment immer auch mit Belastungen, möglichen Nachteilen oder Nebenwirkungen verbunden, und Ethikkommissionen achten darauf, dass nicht unnötigerweise experimentiert wird. Wie kann man aber das feine Signal einer Intervention vom Rauschen der Kontrollgruppe trennen? Man arbeitet mit möglichst homogenen Gruppen. Das wird bewerkstelligt, indem man Kriterien formuliert, unter denen man davon ausgeht, dass eine Therapie am besten funktioniert. Ausschlusskriterien sagen, welche Patienten nicht in der Studie behandelt wurden. Häufig finden sich unter diesen 15 Kriterien abgesehen von Standardkriterien wie der Altersbegrenzung, der schwangeren und stillenden Frauen (weil man nicht weiss, ob nicht möglicherweise eine Gefährung eintreten kann) oder des Sprachverständnisses solche, bei denen Patienten mit bestimmen Schweregraden einer Diagnose ausgeschlossen werden – z.B. besonders schwer Depressive, oder leicht Depressive – oder Patienten mit mehreren Diagnosen – z.B. mit Depression und Angst, Abhängigkeitsstörung oder Persönlichkeitsstörung. Das hat zur Folge, dass es meistens leichter ist, in solchen experimentellen Studien Effekte zu erzeugen, die grösser sind als diejenigen in der Kontrollbedingung – oder gleich gut, je nachdem, welche Kontrollbedingung gewählt wird und was man zeigen will. Andere formale und inhaltliche Voraussetzungen des Experiments Experimente kann und darf man an Menschen nur durchführen, wenn es gute Gründe dafür gibt. Eine der hauptsächlichen Vorbedingungen ist, dass man nicht genau weiss, was wirklich gut funktioniert, dass also unsere Erkenntnis in der Schwebe ist („equipoise“). Das ist immer dann der Fall, wenn man neue Interventionen testet, von denen keiner weiss, wie gut sie sind. Eine Konsequenz dieser Situation ist, dass keiner, Behandler und Patienten, eine wirkliche Präferenz hat oder haben sollte, die sie zu einer bestimmten Behandlung hingezogen sein lässt. Experimente darf man auch nur dann durchführen, wenn die Patienten wissen, worauf sie sich einlassen und zustimmen, also bewusst ihr Einverständnis geben. Praktisch sieht dies so aus, dass man Patienten schriftlich und mündlich ausführlich erklärt, wie die Studie aufgebaut ist, was alles passiert, wie oft sie kommen müssen, welche Fragebögen sie wann ausfüllen müssen, welche Vorteile, und welche Nachteile sie zu erwarten haben, welche Messungen vorgenommen werden, wie die Bedingungen aussehen die getestet werden (z.B. Therapie und Placebo, oder zwei verschiedene Therapien) – und mit welchen Nebenwirkungen zu rechnen ist. Des weiteren kann man solche Studien meistens nur mit einer entsprechenden Logistik aufbauen. Die findet sich aber nur bei grossen Kliniken, in Universitäten oder bei spezialisierten Unternehmen. Schätzungen gehen davon aus, dass nur ungefähr 1-5% aller Patienten in klinischen Studien aus der niedergelassenen Praxis kommen, der Rest wird in Kliniken, also in spezialisierten Behandlungszentren rekrutiert. Das führt dazu, dass nur bestimmte Patienten in Studien eingeschlossen werden: solche, denen es egal ist, wie sie behandelt werden und die voll und ganz der Klinik, dem Studienzentrum oder dem Arzt vertrauen und solche, die mit Erkrankungen, die in der niedergelassenen Praxis nicht mehr behandelbar sind, in der Klinik landen. Der Nachteil der klassischen Strategie: mangelnde Generalisierbarkeit Daran erkennt man den hauptsächlichen Nachteil dieser experimentellen Strategie: die Ergebnisse sind streng genommen nur auf eine ganz kleine Zahl aller Patienten anwendbar. Bei 95% aller Patienten wissen wir nicht, ob die gefundenen Ergebnisse überhaupt anwendbar sind. Dies ist das Problem der Generalisierbarkeit oder der sog. „externen Validität“. Das Schlimme daran ist folgendes: Wir wissen nicht genau, wie interne Validität, also die methodischen Charakteristika einer Studie, und externe Validität, also die Generalisierbarkeit auf andere Patienten miteinander zusammenhängen und können daher nicht durch mathematische Modelle oder Überlegungen dieses Manko wettmachen. Wir wissen nur eines: je höher die interne Validität ist, umso grösser ist die Wahrscheinlichkeit, dass die externe Validität sinkt. Denn mit jedem ausgeschlossenen Patienten, mit jedem Ausschlusskriterium, mit jedem Patienten der keine Lust hat, durch Zufall einer Behandlung zugeteilt zu werden; mit jedem Patienten, der nicht in einem spezialisierten Studienzentrum behandelt wird sinkt die Generalisierbarkeit. Dies ist weniger ein Problem für extrem dicht beforschte Gebiete, wie etwa die akute Onkologie. Da wissen wir meistens sehr gut, was wie funktioniert, denn hier werden die Patienten tatsächlich dort rekrutiert, wo sie auch behandelt werden. Es ist aber ein 16 grosses Problem für alle eher vagen Erkrankungen oder für Erkrankungen, die oft mit verschiedenen anderen Diagnosen einhergehen. Und das sind die allermeisten anderen Erkrankungen. Ich will dies an einem Beispiel verdeutlichen: Wir haben eine Fülle von psychopharmakologischen Depressionstherapien. Sie sind alle amtlich zugelassen, haben also irgendwann einmal mindestens eine, in der Regel mehrere, Studien hinter sich gebracht, die zeigen, dass sie einer Scheintherapie, in diesem Falle Placebo, überlegen waren. Für fast alle gibt es auch eine Fülle von Studien, die zeigten, dass sie nicht besser als Placebo waren, genauer gesagt in mehr als der Hälfte der Fälle war das der Fall, aber grosso modo funktionieren sie. Die Effekte sind nicht überragend gross, aber alles zusammen, PlaceboEffekt und pharmakologischer Effekt ist in diesen Studien gross genug, so dass man den Eindruck gewinnt, die Medikamente funktionieren (die Frage nach dem Placebo-Effekt behandeln wir später). Nun wurden diese Daten alle in gezielten Experimenten gewonnen: mit Patienten, die nur Depression hatten, nichts anderes, und zwar nicht zu stark und nicht zu wenig depressiv, die keine Alkoholabhängigkeit hatten, wo die Depression nicht als Folgeerscheinung anderer Erkrankungen auftrat, die keine zusätzliche Angststörung hatten etc. In der Praxis haben aber die meisten Depressiven noch viele andere Probleme. Deswegen hat man eine riesige Studie angestrebt, die die Effekte von Depressionstherapie untersucht hat, so wie sie in der Praxis stattfindet, die sog. STAR*D-Studie: In einem ausgeklügelten Eskalationsprogramm konnten Psychiater von einer Medikation zur nächsten wechseln, wenn die erste nicht funktioniert hat, auch Psychotherapie verordnen, bis am Schluss ganz neue, starke und auch nebenwirkungsträchtige Medikamente zum Einsatz kamen, ganz so wie auch in der Praxis. Das Ergebnis war ernüchternd: weniger als 50% der Patienten werden dauerhaft (in diesem Falle mindestens ein Jahr) frei von ihrer Depression. Eine kritische Analyse zeigt sogar, dass die Daten geschönt wurden und insgesamt weniger als 38% von dieser pharmakologischen Therapie profitieren. Dieses Beispiel zeigt: was man aus randomisierten, klinischen Experimenten an Erkenntnissen gewinnt, ist nicht notwendigerweise auf die Praxis anwendbar – eben weil die Generalisierbarkeit der Ergebnisse durch das Experimentieren selbst eingeschränkt wird. Wir müssen also immer zwischen Scylla und Charybdis durchsegeln: auf der einen Seite wollen wir gültige Ergebnisse, auf der anderen Seite wollen wir Ergebnisse, die anwendbar sind. Kann man das nicht in einer richtig guten Studie gemeinsam klären? Jein. Man könnte, in sog. „Megatrials – Riesenstudien“ meinethalben 100.000 Leute zufällig auf zwei Bedingungen aufteilen und behandeln, keine Ausschlusskriterien ausser der Diagnose. Dann hätte man maximal generalisierbare, experimentelle Daten. Das Problem: solche Studien sind extrem teuer und etwa in Europa kaum durchführbar. Daher weichen Proponenten solcher Studien nach Russland, China oder anderswo aus. Können wir dann solche Ergebnisse in Europa verwenden? Keiner weiss es. Ausserdem könnte es sein, dass eine wertvolle Behandlungsmethode nur bei einer bestimmten Gruppe von Patienten funktioniert. Solche differenzierten Effekte werden in Riesenstudien übersehen. Daher kann man keine eierlegende Wollmilchsau erfinden, die zugleich gültige und generalisierbare Ergebnisse liefert. Vielmehr muss man auf eine Strategie ausweichen, die diese Daten in unterschiedlichen Studien erzeugt und dann zusammenführt. Dies ist es genau, was das zirkuläre Modell vorschlägt. 17 ← Zurück zu Kapitel 2 Weiter zu Kapitel 4 → Literatur: Aickin, M. (1983). Some large trial properties of minimum likelihood allocation. Journal of Statistical Planning and Inference, 8, 11-20. Aickin, M. (2001). Randomization, balance, and the validity and efficiency of design-adaptive allocation methods. Journal of Statistical Planning and Inference 94, 97-119. Aickin, M. (2002). Beyond randomization. Journal of Alternative and Complementary Medicine, 8, 765-772. Fava, G. A., Tomba, E., & Grandi, S. (2007). The road to recovery from depression – don´t drive today with yesterday´s map. Psychotherapy and Psychosomatics, 76, 260-265. Khan, A., Khan, S., & Brown, W. A. (2002). Are placebo controls necessary to test new antidepressants and anxiolytics? International Journal of Neuropsychopharmacology, 5, 193197. Pigott, H. E., Leventhal, A. M., Alter, G. S., & Boren, J. J. (2010). Efficacy and effectiveness of antidepressants: current status of research. Psychotherapy and Psychosomatics, 79, 267279. Rush, J. A., Trivedi, M. H., Wisniewski, S. R., Nierenberg, A. A., Stewart, J. W., Warden, D., et al. (2006). Acute and longer-term outcomes in depressed outpatients requiring one or several treatment steps: A STAR*D report American Journal of Psychiatry, 163, 1905-1917 Stewart, D. J., Whitney, S. N., & Kurzrock, R. (2010). Equipoise lost: ethics, costs, and the regulation of cancer clinical research. Journal of Clinical Oncology, 28, 2925-2935. Walach, H., Falkenberg, T., Fonnebo, V., Lewith, G., & Jonas, W. (2006). Circular instead of hierarchical – Methodological principles for the evaluation of complex interventions. BMC Medical Research Methodology, 6(29). (4) EBM in Aktion: Ein konkretes Beispiel [English Version: Part 4 - EBM] Behandlung chronischer Schmerzen mit Entzündungshemmern Ich hatte Ihnen ja ganz am Anfang vorgeschlagen, sich einmal eine beliebige Behandlungsrichtlinie zu suchen, sich dort eine der Behandlungsroutinen anzusehen und nachzuschauen, auf welche Daten sich diese Vorgaben stützen. Dann, so meine Idee, wäre es nützlich, sich ein paar Originalstudien anzusehen, um zu prüfen ob die Patienten die in diesen Studien eingeschlossen wurden mit denen vergleichbar sind, die Sie selbst in der Praxis sehen. Die Idee dahinter (Sie erinnern sich sicherlich): Randomisierte Studien, die ja zu denen gehören die intern valide Ergebnisse erzielen, leiden oft an mangelnder Generalisierbarkeit. 18 Genau das wollte ich an diesem Beispiel konkretisieren. Aber: wie so oft überrascht einen die Wirklichkeit damit, dass sie bunter und schräger ist, als man sich das in den wildesten Träumen vorstellen kann. Folgen Sie mir daher auf meiner eigenen Reise: Ich habe also meine Hausaufgabe gemacht (genauer gesagt: ich habe meine Assistentin Majella gebeten, mir dabei zu helfen, bei ihr möchte ich mich an dieser Stelle mal explizit bedanken, damit Sie auch erfahren, wer u.a. noch hinter meiner Arbeit steht). Dazu habe ich mir die neuesten Behandlungsrichtlinien der “American Association for Anesthesiology” gegriffen, die von der “Task Force on Chronic Pain Management”, einer eigens eingesetzten Arbeitsgruppe 2010 publiziert wurden, also taufrisch [1]. Chronische Schmerzen, so denkt der Normalverbraucher, werden meistens und zunächst medikamentös behandelt. Das liest man auch in allen Originalstudien und Übersichtsarbeiten die sich mit chronischer Schmerzbehandlung beschäftigen bereits in der Einleitung (ein paar Beispiele: [2-5]). Rückenschmerzen, zumal chronische, machen den Hauptanteil an chronischen Schmerzen aus. Auch die werden, logischerweise, zunächst hauptsächlich mit Schmerzmitteln behandelt. Das leuchtet allen ein und klingt zunächst plausibel und auch sehr wissenschaftlich. Denn wozu, wenn nicht zur Behandlung von Schmerzen, wären solche Arzneimittel zugelassen? Das spiegelt sich auch in den „Chronic Pain Management Guidelines“ wieder: es werden eine Fülle von Methoden besprochen und selbstverständlich gehören medikamentöse Behandlungen zu diesen Methoden. Die Richtlinien führen aus: Man könne auch mit nichsteroidalen antiinflammatorischen (Schmerzmittel und Entzündungshemmer) Substanzen behandeln. Einfache Schmerzmittel, wie Aspirin, funktionieren bei chronischen Schmerzen nicht. Das sieht man leicht daran, dass die Schmerzen immer noch bestehen und chronisch geworden sind; unter “chronisch” versteht man hier Schmerzen, die nach 6 Monaten immer noch da sind oder immer wieder auftreten. Die besagten Schmerz- und Entzündungshemmer werden auch nichtsteroidale antiinflammatorische Substanzen, (NSAIDs = non-steroidal anti-inflammatory drugs) genannt. Das sind Substanzen, die die sog. Cyclooxigenasen (Cox) hemmen. Diese Enzyme braucht der Körper, um Prostaglandine zu synthetisieren, und sie spielen wiederum bei der Entzündungskaskade, die zu Schmerzen führt, eine entscheidende Rolle. Von diesen Cyclooxigenasen gibt es mindestens zwei verschiedene, die unterschiedliche Aufgaben haben. Die alten Entzündungshemmer – Aspirin, Ibuprofen, Diclofenac – wirken auf beide. Deshalb versuchte man Substanzen zu entwickeln, die nur Cox2 hemmen und Cox1 in Ruhe lassen. Das gelang auch, und einige dieser Substanzen wurden zugelassen und auch als hochwirksam gelobt. Allerdings ergaben sich bei manchen auch extrem starke Nebenwirkungen, vor allem Todesfälle aufgrund von Herzversagen, so dass manche wieder ihre Zulassung verloren. Bekannt ist noch der Skandal um Vioxx von Merck – einem Cox2-Hemmer. In England machen NSAIDs 5% aller Verschreibungen überhaupt aus, 16.500 Tote durch Nebenwirkungen gehen auf ihre Rechnung und in den USA über 100.000 Hospitalisierungen [6]. Also: NSAIDs, die im wesentlichen Cox-Hemmer sind, werden von der Richtlinie zur Behandlung chronischer Schmerzen empfohlen; das sei von der Literatur gestützt. Das Literaturverzeichnis, das ist der Nachteil bei dieser Richtlinie, ist so dick, dass es nicht mitpubliziert wurde; nicht jeder hat, wie ich, eine Majella bei der Hand, die dieser Literatur durch das Dickicht des Internets nachläuft. Wir haben das getan und die Literaturliste heruntergeladen und durchforstet. Folgt man den Zitaten, bezieht sich die Richtlinie auf 5 19 Studien, in Worten: fünf [3,4,6-8]. Und nicht vergessen: wir sprechen von der Behandlung chronischer Schmerzen, insbesondere Rückenschmerzen. Sehen wir uns die Daten genauer an: Berry und Kollegen (1982) teilten 37 Patienten mit chronischen Rückenschmerzen (in Worten: siebenundreissig) auf drei Gruppen auf. Eine erhielt Placebo und zwei erhielten Naproxen, ein typisches NSAID, oder eine mittlerweile aufgegebene Substanz, Difluisal. Schätzen Sie mal wie lange behandelt wurde? Bedenken Sie: wir reden von chronischen Rückenschmerzen. Nein, nicht 6 Wochen, auch nicht 4, sondern 2. Das Ergebnis: Naproxen wirkt besser als die beiden anderen Substanzen, Difluisal ist nicht besser als Placebo. Die Schmerzen bessern sich. Langzeiteffekt? Unbekannt. Langzeitnebenwirkungen? Nicht getestet. Teilen Sie mal 37 durch 3. Dann werden Sie sehen: so rasend viele Patienten wurden da nicht untersucht. Was meinen Sie: Ist das eine gute Datenbasis für Generalisierungen? Ist das eine gute Datenbasis für Langzeitanwendung an vielen Patienten, nicht nur über 2 Wochen, sondern vielleicht über 2 oder mehr Jahre? Driessens und Kollegen (1994) untersuchten an 30 chronischen Rückenschmerzpatienten über 2 Wochen die Wirksamkeit von Ibuprofen, eines relativ bekannten Schmerz- und Entzündungsmittels, und verglichen das mit Diclofenac, einem anderen typischen CoxHemmer; Placebo- oder Nichtbehandlungskontrolle gab es nicht. Aus der Diclofenacgruppe zogen sich 6, aus der Ibuprofengruppe 4 Patienten wegen Nebenwirkungen zurück; ansonsten waren die Verläufe ähnlich. Das ist eine Nebenwirkungsquote von 40% in der Diclofenacund ca. 25% in der Ibuprofengruppe. Wiederum: wir wissen nichts über Langzeiteffekte. Die anderen drei Studien untersuchten Cox2 Hemmer. Diese Studien waren alle relativ gross (700, 400, 300 Patienten) und untersuchten auch relativ lange (4 Wochen bis 3 Monate), einen Cox2 Hemmer, manchmal in zwei Dosierungen gegen Placebo. Die Medikamente sind alle wirksam. Der Nachteil: zwei der drei Studien untersuchten einen Cox2 Hemmer, der bereits bevor die Richtlinien publiziert worden waren wieder vom Markt genommen worden war, weil die Nebenwirkungen zu gross waren. Es gibt also noch drei Studien, so scheint es, die den Einsatz von NSAIDs, wie gesagt die meistgebrauchten Medikamente bei chronischen Schmerzen, stützen. Von denen sind zwei Studien winzig und sehr kurz, geben keine Auskunft über Langzeitwirkungen und können schon von ihrer Anlage her wenig Auskunft über Nebenwirkungen geben. Und wo sie es tun, findet man einen hohen Prozentsatz solcher Nebenwirkungen. Die dritte Studie geht über drei Monate. Wir wissen immer noch nicht, was passiert, wenn chronische Schmerzpatienten solche Arzneimittel länger nehmen. Solche Daten liegen nicht vor bzw. werden von der Leitlinie nicht zitiert. Sieht man sich die Einschlusskriterien der Studien an so findet man, dass Patienten mit anderen Krankheiten – Depression, Angst, anderen körperlichen Erkrankungen – nicht mit aufgenommen worden waren. Die Generalisierbarkeit der Ergebnisse ist also eingeschränkt. Aber Moment mal. Kann das wirklich sein, dass diese fünf Studien alles ist was wir haben? Doch wohl eher nicht, werden Sie denken. Und Sie haben Recht. Denn wenn man ein bisschen stöbert – und da habe ich dann auch aufgehört, weil es ausreichend ist – dann findet man: Im Jahre 2000 wurde ein hochkompetenter Überblick im Rahmen der Cochrane-Collaboration publiziert [2]. Das ist eine Gruppe von Wissenschaftlern, die es sich zum Ziel gemacht hat, 20 das vorhandene Wissen aus Studien in systematischer Weise aufzuarbeiten, zur Verfügung zu stellen und auch zu bewerten. Diese Arbeit stellt fest: immer noch (Damals, im Jahr 2000!) gehören NSAIDs zu den meist gebrauchten Substanzen, obwohl ihre Wirksamkeit nicht ausreichend (!) belegt sei. Diese Überblicksarbeit fasst 53 Studien zusammen, u.a. auch die beiden früheren, die von den Guidelines zitiert werden. Sie kommt zu dem Schluss: NSAIDs sind zur Behandlung chronischer Rückenschmerzen ungeeignet, weil sie unwirksam sind. Dieser Befund spiegelt einen früheren wieder [5], der zum Schluss kommt, solche Substanzen seien nur kurzfristig, also ca. 2 Wochen wirksam und für die Behandlung chronischer Schmerzen nicht geeignet. Berücksichtigen die Richtlinien diese Befunde? Nein. Warum nicht? Gute Frage. Was meinen Sie? Dieser Befund ist erschreckender, als ich das selbst in meinen kühnsten Träumen erwartet hätte. Da werden Substanzen verwendet, die meistgebrauchten überhaupt, bei dem Syndrom das am meisten vorkommt. Es wurden zig Studien dazu durchgeführt. Wenn man sie überblickt zeigt sich: Die Substanzen wirken gar nicht gut genug. Aber die neuesten Richtlinien empfehlen sie trotzdem, und alle nehmen sie ein, und riskieren viele Nebenwirkungen. Was heisst das? Zum einen bedeutet dies doch offensichtlich, dass in der Praxis die vermeintliche Wissenschaftlichkeit der medizinischen Tätigkeit doch weniger stark ist, als man gemeinhin so denkt. Das hat übrigens auch eine grossangelegte Praxisstudie in England herausgefunden [9], die zeigt, dass Allgemeinpraktiker wissenschaftliche Information nur als eine von vielen Informationsquellen verwenden. Viel wichtiger ist informelle Information: Beispiele und Tips von Kollegen und ihre eigene Erfahrung. Das bedeutet zum anderen, dass die viel beschworene wissenschaftliche Evidenz gar nicht so ernst genommen wird, wie man denkt. Wir alle stehen unter einer Dunsthaube: wir meinen, was so an wissenschaftlicher Medizin verkauft wird, basiert auf reinsten wissenschaftlichen Daten. Wie wir an diesem Beispiel sehen, stimmt das offenbar nicht immer. Woher kommt das? Ich vermute, das liegt an verschiedenen Vormeinungen und Interessen. Wir alle denken, Medikamente wirken. Dafür sind sie ja schliesslich da. Tun sie auch, in gewissen Grenzen. Diese Grenzen werden aber oft überstrapaziert, wie wir am Beispiel der NSAID-Therapie und chronischen Rückenschmerzen sehen. Aber davor verschliessen alle geflissentlich die Augen. In diesem konkreten Falle würde ein Ernstnehmen der vorliegenden Daten schon helfen und wir würden nie im Traum auf die Idee kommen, NSAIDs zur Therapie chronischer Schmerzen zu empfehlen. Der englische Regulator, NICE (National Institute for Clinical Excellence) hat dies übrigens gesehen und empfiehlt in seiner neuesten Richtlinie Bewegung, Manipulation und Mobilisation, sowie Akupunktur als die einzig wirksam Massnahmen. Was lernen wir daraus? Auch medizinische Qualitätssicherung und Leitlinien beheben die Entscheidungsnot nicht. Eine Untersuchung hat kürzlich gezeigt: es gibt so viele Leitlinien die sich widersprechen – und von diesen so viele einzelne, dass sie niemand mehr zur Kenntnis nimmt und genau das Gegenteil von dem erzeugt wird, was man haben will, nämlich anarchistisches Verhalten [10]. Aber das nur am Rande. Was heisst das methodisch? Die vielbeschworene EBM-Pyramide funktioniert in der Praxis gar nicht. Zum einen sind die Studien nicht so zahlreich, wie man denkt. Zum anderen werden die Ergebnisse dann, wenn sie einem nicht in den Kram passen, offenbar ignoriert. Warum ist das so? Vielleicht auch deswegen, weil es andere Informationsquellen gibt, die Ärzte und 21 Patienten nutzen, die sie implizit wichtig finden, und die in den formalisierten Studien nicht abgebildet sind. Meine Vermutung ist: Ärzte (und Patienten) haben implizit ein anderes Erkenntnismodell vor Augen und die Vorschrift von der Evidenzhierarchie der EBM ist genau das, was sie ist: eine Vorschrift. Und Vorschriften haben es so an sich, dass sie gerne ignoriert oder übertreten werden, vor allem wenn sie unvernünftig sind. Ich behaupte: Im Prinzip haben wir Menschen ein implizit multiples und zirkuläres Erkenntnismodell vor Augen. Wir nutzen vielfältige Informationsquellen und es ist unnatürlich, sich nur auf eine zu stützen. Aus diesem Grund allein schon kann die EBMMethode der hierarchischen Erkenntnisgewinnung nicht funktionieren. Aber es gibt auch noch methodische Gründe, weswegen ein anderer Ansatz besser ist. Dazu dann in den folgenden Kapiteln. ← Zurück zu Kaptitel 3 Weiter zu Kapitel 5 → Literatur: 1. Task Force on Chronic Pain Management: Practice guidelines for chronic pain management. Anesthesiology 2010;112:810-833. 2. van Tulder MW, Scholten RJPM, Koes BW, Deyo RA: Nonsteroidal anti-inflammatory drugs for low back pain. Spine 2000;25:2501-2513. 3. Katz N, Ju WD, Krupa DA, Sperling RS, Rodger DB, Gertz BJ, Gimbel J, Coleman S, Fisher C, Nabizadeh S, Borenstein D, Group VCLBPS: Efficacy and safety of rofecoxib in patients with chronic low back pain. Results from two 4-week, randomized, placebo-controlled, parallel-group, double-blind trials. Spine 2003;28:851-859. 4. Birbara SA, Puopolo AD, Munoz DR, Sheldon EA, Mangione A, Bohidar NR, Geba GP, Group EPS: Treatment of chronic low back pain wtih etoricoxib, a new cyclo-oxygenase-2 selective inhibitor: improvementi n pain and disability – a randomized, placebo-controlled, 3 month trial. Journal of Pain 2003;4:307-315. 5. Koes BW, Scholten RJPM, Mens JMA, Bouter LM: Efficacy of non-steroidal anti-inflammatory drugs for lowback pain: a systematic review of randomised clinical trials. Annals of the Rheumatic Diseases 1997;56:214223. 6. Coats TL, Borenstein DG, Nangia NK, Brown MT: Effects of Valdecoxib in the treatment of chronic low back pain: Result of a randomized, placebo-controlled trial. Clinical Therapeutics 2004;26:1249-1260. 7. Driessens M, Famaey J-P, Orloff S, Chochrad I, Cleppe D, de Brabanter G, Ginsberg F, Mindlin A, Soenen M: Efficacy and tolerability of sustained-release ibuprofen in the treatment of patients with chronic back pain. Current Therapeutic Research 1994;55:1283-1292. 8. Berry H, Bloom B, Hamilton EBD, Swinson DR: Naproxen sodium, diflunisal, and placebo in the treatment of chronic back pain. Annals of the Rheumatic Diseases 1982;41:129-132. 9. Gabbay J, le May A: Evidence based guidelines or collectively constructed “mindlines”? Ethnographic study of knowledge management in primary care. British Medical Journal 2004;329:1013-1017. 10. Carthey J, Walker S, Deelchand V, Vincent C, Griffiths WH: Breaking the rules: understanding noncompliance with policies and guidelines. British Medical Journal 2011;343:d5283. (5) Vom Verhältnis zwischen Empirie und Theorie 1 [English Version: Part 5 - Empiricism] Sind wir durch Daten bekehrbar? Wir hatten im letzten Kapitel „EBM in Aktion“ gesehen: Die aktuellen Leitlinien der amerikanischen Gesellschaft für Anästhesiologie empfehlen zur Behandlung chronischer 22 Rückenschmerzen u.a. nichtsteroidale Entzündungshemmer (sog. NSAID), also einfache Schmerzmittel. Sie stützen sich dabei auf fünf Studien, von denen zwei sich auf Schmerzmittel beziehen, die aufgrund ihrer Nebenwirkungen vom Markt genommen wurden – und von den restlichen 3 Studien sind zwei so klein und kurz, dass sie eigentlich wenig aussagekräftig sind. Hingegen ignoriert die Leitlinie eine autoritative Überblicksarbeit mit 53 Studien, im Jahr 2000 publiziert, die zum Schluss kommt, dass Schmerzmittel zur Therapie chronischer Rückenschmerzen unbrauchbar sind. Ich habe dieses Beispiel nicht deswegen ausgewählt, weil ich irgend jemanden anschwärzen wollte, sondern ich hatte es mir selbst zur Recherche- und Demonstrationsaufgabe gemacht, weil ich einmal überprüfen wollte, wie übertragbar Daten aus solchen klinischen Studien auf Praxispopulationen sind. Letztlich war diese Fragestellung irrelevant und auch nicht zu beantworten, weil sich eine andere Frage in den Vordergrund schob: Wie kommt es, dass eine wissenschaftliche Fachgesellschaft angesichts überwältigend negativer Daten, angesichts der allseits hochgelobten „Evidenz“ konventioneller medizinischer Forschung, die es ja auch gerade hier beileibe gibt, solche Leitlinien herausgibt? Wie kann es sein, dass wissenschaftliche Daten – erinnern wir uns: „Evidence Based Medicine (EBM)“ heisst, richtig übersetzt, „auf wissenschaftliche Daten gestützte Medizin“ – so eklatant ignoriert werden? Dafür gibt es mindestens drei Gründe: 1. 2. 3. Teil der EBM ist auch die klinische Erfahrung des Arztes. Diese geht auf dem Weg der Befragung der FachpanelMitglieder mit in die Bewertung ein. Und diese Erfahrung kann durchaus positiv sein, obwohl wissenschaftliche Daten ein anderes Bild zeichnen. Warum? Ganz einfach, weil der Placebo-Effekt eine enorm große Rolle spielt, und weil man auch mit der Mobilisierung von Hoffnung, Erwartung, Entspannung und durch schlichte Konditionierung, also Lernerfahrung aus früheren Behandlungen, erstaunlich gute Erfolge erzielen kann. Das ist auch gar nicht schlecht, im Gegenteil. Ich war schon immer dafür zu gewinnen, dass der beste Therapeut derjenige ist, der Selbstheileffekte beim Patienten mobilisiert. Allerdings ist es gerade bei NSAIDs so, dass diese Effekte mit einem enorm hohen Nebenwirkungspotenzial erkauft werden. Daher wäre es vermutlich nicht nur klüger, sondern sogar ethischer, Placebo-Effekte von Therapien zu nutzen, die ansonsten nur sehr geringe, manchmal vielleicht gar keine spezifischen Effekte haben, dafür aber sehr hohe Placebo-Effekte, jedenfalls bei den Patienten, die auf sie schwören. Dazu gehören vor allem Verfahren der Komplementärmedizin; Akupunktur, Homöopathie, Radionik, Bioresonanz und Co. Also, halten wir fest: ein Grund, warum NSAIDs immer noch in den Leitlinien stehen, ist die Tatsache, dass sie vermutlich in den Händen der befragten Spezialisten hohe Placebo-Effekte erzeugen, vermutlich weil eben jene Spezialisten auf sie schwören. Es gibt einen ausgesprochenen Bias. „Bias“ ist Statistikerdeutsch und heißt „Verzerrung“. Damit ist hier eine Verzerrung der Wahrnehmung gemeint, die dazu führt, dass die befragten Experten diese Therapien wohlmeinender bewerten, als es aufgrund der Daten angemessen wäre. Das wollen wir heute nicht weiter vertiefen. Der Schlüssel dazu findet sich im sog. „conflict of interest“, also im Interessenskonflikt. Es ist bekannt und von der Presse schon oft angeprangert worden, dass in vielen Expertengremien die solche und ähnliche Leitlinien verfassen mehrheitlich Forscher sitzen, die Forschungsgelder, Honorare oder gar Anteile von Pharmafirmen haben, die diese Produkte herstellen. Das erzeugt Bias. Verzerrung erzeugt Fehlwahrnehmung. Fehlwahrnehmung erzeugt Resistenz gegenüber der oft traurigen Wirklichkeit. Das führt mich zum Dritten Punkt und zum heutigen Thema: Der Einfluss unser Vorerfahrungen. Wir sind alle in der Regel weniger gute Empiriker, als wir es gerne hätten. Stattdessen werden wir geleitet von Vormeinungen, die sich nur in Grenzen durch Daten verändern lassen. Und das ist die wissenschaftliche Crux der ganzen Sache. Denn obwohl viele Menschen, Wissenschaftler zumal, so tun, als würden sie auf empirische Daten hören, passiert in Wirklichkeit folgendes: sie haben aufgrund ihrer Ausbildung, aufgrund ihrer Erfahrung, aufgrund dessen, was sie in ihrer Kultur und von ihren Kollegen und Gleichgesinnten gehört haben eine bestimmte Erwartung geformt darüber, wie sich die Wirklichkeit aller Wahrscheinlichkeit nach verhalten wird, was also vernünftigerweise zu erwarten ist. In dieses Weltbild wird all das eingeordnet, was uns an Erfahrungen zustößt. Und wissenschaftliche empirische Daten sind auch nur eine Form der Erfahrung, zwar eine sehr strukturierte und informativ dichte Erfahrung, aber eben nur eine unter vielen. Je gefestigter unser Weltbild ist, je mehr Vorerfahrungen wir haben, desto schwieriger wird es für eine neue Erfahrung, dieses unser Weltbild zu verändern. Meistens werden Erfahrungen dahingehend bewertet, ob sie mit unserer Erwartung übereinstimmen, oder nicht. Sind sie konsistent und erwartungskonform, nehmen wir sie dankbar, nickend und mit Wohlgefühl zur Kenntnis, speichern sie vielleicht unter der Kategorie „habe ich doch immer schon gesagt“ ab – und gehen zur Tagesordnung über. Ist die Erfahrung, sind wissenschaftliche Daten, inkonsistent mit der Erwartung die wir haben, haben wir zwei Möglichkeiten: wir ignorieren sie und denken „das war jetzt eine Ausnahme“ oder „Ausreißer, Einzelfall, Zufall“. Oder aber wir nehmen die Erfahrung ernst und müssen unsere Vormeinung ändern. Wann tun wir das? Und tun wir es überhaupt? Ich behaupte: wir tun es selten, allzu selten. Denn wir sind von der biologischen Struktur her Bayesianer (s.u.). D.h. wir tendieren dazu, unsere Vormeinung zu bestätigen und uns solche Informationen zu suchen, die genau das tun 23 und diejenige Informationen zu ignorieren, die unsere Vormeinung in Frage stellen. Jedenfalls in der Regel, meistens und bei den meisten Leuten ist das so. Und leider auch allzu oft bei Wissenschaftlern. Ich will das etwas ausführen und auch zunächst erklären, warum das möglicherweise biologisch sinnvoll, aber wissenschaftlich gefährlich ist. Ich will auch kurz erklären, was ein „Bayesianer“ ist; zur entsprechenden Statistik kommen wir erst später. Fangen wir von hinten an: Wir sind alle Bayesianer – Oder: Warum es sich lohnen könnte auf Vormeinungen zu beharren Thomas Bayes und Ausgangswahrscheinlichkeiten Ein Bayesianer ist einer, der vorgeht, wie das von dem presbyterianischen Priester und Mathematiker Thomas Bayes (1702-1761) in seinem Theorem formalisiert worden war. Bayes hat sich u.a. auch mit Fragen der Wahrscheinlichkeit befasst. Normalerweise denken wir über Wahrscheinlichkeit folgendermaßen: Nehmen wir an, in einer Schachtel befinden sich 50 schwarze und 50 weiße Kugeln. Wir fragen uns dann: Wie groß ist die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, wenn alle gut durchmischt sind? Klarerweise ½, weil es zwei Optionen gibt, die gleich oft vorkommen. Bayes drehte den Spiess um. Er fragte sich: Angenommen ich habe ein paar Kugeln gehzogen und damit ein klein wenig Ausgangsinformation, was weiß ich über die Kugeln in der Schachtel? Bayes formalisierte also den Glauben über die Wirklichkeit, gegeben wir haben ein paar Ausgangsinformationen und Erfahrungen oder empirische Daten über sie. Und er stellte fest – was ja intuitiv ganz einleuchtend ist: wie wir Daten bewerten, also die Wirklichkeit, hängt davon ab, was wir vorher über sie wissen, bzw. zu wissen glauben. Wissen wir wenig über sie, ist also die Ausgangswahrscheinlichkeit (in Bayes’scher Terminologie die „prior probability“) für ein bestimmtes Ereignis etwa genauso groß wie sein mögliches Gegenteil, dann erreichen wir mit relativ wenig empirischem Aufwand eine bestimmte Sicherheit, wie wir die Wirklichkeit bewerten (die sog. „posterior probability“). Das ist die Formalisierung der Tatsache, wie empirische Wirklichkeit und Erfahrung Meinungen verändert. Wenn wir keine dezidierte Meinung zu einem Thema haben, dann kann ein bisschen Information unsere Meinung rasch bilden helfen bzw. uns eine gewisse Meinung vermitteln. Haben wir aber bereits eine sehr stark geprägte und ausgesprochen klare Meinung zu einem Thema, dann heißt das auch, dass das Gegenteil sehr unwahrscheinlich für uns ist, dass wir also sehr viel empirische Daten und sehr viel Überzeugungsarbeit benötigen, bevor wir diese Meinung verändern. [1] Beispiel 1: Wenn ein Experte aufgrund einer langjährigen Ausbildung, Lektüre von zahllosen Studien, aufgrund einer dauernden Informationsüberflutung mit Nachrichten über die Nützlichkeit bestimmter Präparate, befördert durch ausreichend finanzielle Anreize durch Arzneimittelhersteller erst einmal die Meinung gewonnen hat, NSAIDs seien nützliche Arzneien, dann wird er diese Meinung erst dann aufgeben, wenn sehr gewichtige Erfahrungen dagegen sprechen. Eine solche Erfahrung könnte sein, dass seine Frau aufgrund einer solchen Behandlung an ernsthaften Nebenwirkungen erkrankt, oder vielleicht sogar eine Serie von guten Studien, die ihn eines besseren belehren. Aber vermutlich würde eine einzige Studie nicht reichen, vermutlich müssten es mehrere sein. Ein einfacher Review, auch wenn er noch so systematisch ist, würde daran wohl nichts ändern, denn Reviews sind ja auch nichts anderes als eine einzige Publikation, manchmal fehlerbehaftet, etc. Beispiel 2: Wenn ein Wissenschaftler erst mal die Meinung gefasst hat, Homöopathie könne gar nicht funktionieren, weil ja bekanntlich in homöopathischen Substanzen keine Moleküle 24 mehr drin sind, dann werden auch ganze Heerscharen von positiven Daten nichts an dieser Meinung ändern können. Ich habe neulich auf einer Tagung das apostrophiert gesehen: Barney Oliver, zu der Zeit Chef der Forschungabteilung bei HP, hat einmal geschrieben: „This is the sort of thing I would not believe, even if it were true” (Das würde ich nicht mal dann glauben, wenn es wahr wäre) Klingt zwar doof, ist aber absolut konsequent und bayesianisch: wer einmal eine wirklich klare Vormeinung aufgrund anderer Erfahrung hat, gibt sie nicht mehr so leicht preis. Unser Gehirn ist eine Wirklichkeitskonstruktionsmaschine Meiner Meinung nach ist dies biologisch vorgeprägt und macht daher auch – in Grenzen – Sinn. Inwiefern und warum? Das hat mit unserer Neurobiologie zu tun. [2] Wir kommen auf die Welt als einigermaßen unbeschriebene Blätter. Zwar gibt es genetisch ein paar Vorgaben, aber im wesentlichen ist unser neuronales System noch nicht verschaltet, sondern tut dies in den ersten Wochen, Monaten, Jahren mit enormer Geschwindigkeit und Plastizität. Diese Plastizität bleibt zwar erhalten, aber nicht mehr mit der gleichen Dynamik wie in den frühen Lebensjahren. Daher können kleine Kinder viele Sachen viel leichter lernen als Erwachsene – Sport, Musikinstrumente, Sprachen, Jonglieren. Kleine Kinder in China lernen chinesisch in drei Jahren, manche Erwachsene lernen es nie. Unsere Erfahrungen prägen uns und gestalten die Art, wie unser Gehirn reagiert. Wir wissen heute, dass es sehr viel konstruktiver ist, als wir denken. Der Hirnforscher Raichle hat einmal das Wort von der dunklen Energie des Gehirns geprägt. Darunter versteht man in etwa folgenden Sachverhalt: etwa 98% aller Gehirnaktivität, die in uns abläuft, ist damit beschäftigt, interne Reize zu verarbeiten und nur maximal 2% aller Energie verwendet das Gehirn darauf, Reize, die von außen kommen zu verarbeiten. Anders gesagt: Daten und Information von außen modulieren allenfalls, was im Gehirn andauernd passiert. Was passiert dort? Wir entwerfen eine Welt aus der Erfahrung, die wir gemacht haben, projizieren sie nach draußen und passen diesen Entwurf nur dort an, wo er sich grob an der Wirklichkeit stößt. Nochmals anders ausgedrückt: Wir nehmen nicht die Welt wahr, sondern wir konstruieren sie dauernd neu, aufgrund unserer früheren Erfahrung. Was wir als Wahrnehmung der Welt empfinden, ist „in Wirklichkeit“ (was auch immer wir jetzt darunter verstehen wollen) eine Konstruktion, sanft moduliert durch eine zwar regelmäßige, aber doch moderate Überprüfung an der Wirklichkeit. Wir arbeiten nicht wie eine digitale Kamera oder sonst ein technisches Gerät, das wir erfunden haben, das naiv und blanko die Wirklichkeit ablichtet. Wir sind mehr wie ein Wirklichkeitsgenerator, der hin und wieder überprüft, ob die entworfene Wirklichkeit nicht allzu sehr von der erfahrenen abweicht. Denn für das Überleben muss der Organismus nicht die Wirklichkeit als Ganzes getreu abbilden, sondern nur Bereiche der Wirklichkeit so passend in seine Wahrnehmung und sein Verhalten einbauen, dass das Überleben gesichert ist. Ein solches Vorgehen ist ja auch biologisch nicht dumm. Denn es kostet wesentlich mehr Zeit und Energie, jede Sekunde alles wieder ganz neu von vorne zu entwerfen. Viel einfacher ist es davon auszugehen: alles bleibt wie gewohnt – und nur das, was anders ist, wird in der Innenrepräsentation und im Entwurf abgeändert. So funktionieren wir biologisch als Lebewesen. Was für uns als individuelle Wesen mit komplexem kognitivem Apparat gilt, gilt auch für uns als Wissenschaftler und gilt auch für die Wissenschaft, die ja eine Ansammlung solcher Wissenschaftler ist. Das bedeutet: Es muss uns gar nicht wundern, dass konventionelle Schmerztherapeuten NSAIDs bei chronischen 25 Schmerzen für wirksam halten, obwohl sie es gemäß aktueller Daten gar nicht sind. Ihre Ausgangswahrscheinlichkeit für eine solche Aussage ist sehr hoch. So konstruieren sie die Wirklichkeit. Daher müsste es sehr viele negative Daten geben oder eine sehr starke Erfahrung, die sie verändert. Und deshalb wundert es mich auch nicht, auch wenn es mich ärgert, dass Kritiker der Komplementärmedizin offenbar so datenblind sind. Auch hier gilt: die Ausgangswahrscheinlichkeit, dass Komplementärmedizin oder Homöopathie funktioniert, ist so gering in den Augen der Kritiker, dass selbst ein Riesenhaufen positiver Daten, den es ja auch in manchen Bereichen gibt, kaum, oder zunächst kaum, einen Unterschied machen würde. Konkretisierungen und Beispiele Sie können das durchprobieren. Ich habe ein hübsches Programm im Internet gefunden, das Sie die entsprechenden Berechnungen vornehmen lässt; es zeigt Ihnen, wie konventionelle statistische Ergebnisse ausgedrückt als p-Werte oder Irrtumswahrscheinlichkeiten Vormeinungen verändern bzw. aufgrund bestehender Vormeinungen anders interpretiert werden müssen: http://www.graphpad.com/quickcalcs/DistMenu.cfm Gehen Sie zu „interpret a p-value“. Sie kommen zu einem Eingabe-Menü. Dieses fordert Sie auf, einen p-Wert zu definieren. Nehmen wir an, Sie hätten eine Studie mit konventionellem Signifikanzniveau von 0.05. Nehmen wir weiter an, die Studie hätte ordentliche statistische Mächtigkeit gehabt, also Eingabe 90% (das werde ich in einem anderen Blog genauer erläutern). Nun kommt die Korrektur für die Ausgangswahrscheinlichkeit. Nehmen wir an, Sie sind Experte im Gremium und vorab der Meinung, Arzneimittel sind gut für die Welt und Schmerzmittel wirken, auch im chronischen Fall. Ihre Ausgangswahrscheinlichkeit ist also ebenfalls 90%. Sie klicken auf „Berechne“ und sehen: eine einzige Studie dieser Art wird ihren Glauben, dass Schmerzmittel wirken in eine virtuelle Sicherheit, nämlich in eine Wahrscheinlichkeit von beinahe 100% verwandeln (Posterior probability = 0.9939). Angenommen, Sie würden in einer solchen Situation ein nicht-signifikantes Ergebnis sehen, so wäre ihre nachgeordnete Wahrscheinlichkeit, dass es sich dabei um einen Irrtum handelt, etwa 50%. Gehen wir davon aus, dass die Ausgangswahrscheinlichkeit für Sie 99% ist, dass Schmerzmittel bei chronischem Rückenschmerz wirken, dann wird ein signifikantes Ergebnis ihnen praktisch 100%ige Sicherheit bescheren und ein negatives Ergebnis Ihnen immer noch einen 91%igen Spielraum lassen für die Interpretation, dass das Ergebnis einfach nur ein Missgriff war. Simulieren wir umgekehrt einen Homöopathie-Skeptiker, der nur bereit ist mit einer 1%igen Wahrscheinlichkeit anzunehmen, dass Homöopathie funktionieren kann. Eine signifikante positive Studie dieser Art, mit 90%iger statistischer Mächtigkeit wird diese Ausgangswahrscheinlichkeit nur auf 15% Wahrscheinlichkeit steigern. Ein negatives hingegen seine 99%ige Sicherheit, dass es einen solchen Effekt nicht geben kann auf 99.89% erhöhen also noch stärker in Richtung Sicherheit bewegen. Ist ein Kritiker nur bereit, mit einem Promille davon auszugehen, dass Homöopathie funktioniert, wird eine Studie dieses Promille zu einem Prozent verschieben. Wir sehen: die Ausgangswahrscheinlichkeiten, die wir in unserem Kopf unterhalten, und zwar als Resultat unserer vergangenen Erfahrung, unserer Vormeinung, unserer Eitelkeiten, oder warum auch immer, beeinflussen sogar in einer formalisierbaren Weise, wie empirische Daten unsere Vormeinung, unsere Sicht der Wirklichkeit verändern können oder auch nicht. Je höher die Ausgangswahrscheinlichkeit, desto leichter akzeptieren wir ein empirisches Ergebnis und umgekehrt. Wir sind eben alle Bayesianer. Daher können Experten NSAIDs 26 als wirksam bei chronischen Rückenschmerzen ansehen, obwohl sie es nicht sind, und Homöopathiekritiker die vorhandenen Daten ignorieren (und dabei gleichzeitig anderen vorwerfen, sie täten dies). Aktuelles Beispiel: Prof. Ernst sagt, ich würde mich nicht von meinen eigenen negativen Daten bekehren lassen und sei deshalb kein ernsthafter Wissenschaftler. Ich finde: das Gegenteil ist der Fall. Ich habe eine der methodisch saubersten klinischen Studien zur Homöopathie durchgeführt (sagt Ernst). [3] Diese ist negativ ausgegangen. Daraus habe ich Konsequenzen gezogen, die vielen Homöopathen sauer aufgestoßen sind, und seither immer gesagt, was auch immer dort passiert, es hat nichts mit einer konventionell-kausalen Pharmakologie zu tun. Sonst würden wir anders geartete Effekte sehen. Gleichzeitig habe ich auch noch eine Fülle anderer Erfahrungsdaten zur Verfügung: meine eigene persönliche Erfahrung mit der Homöopathie, viele Fallberichte aus erstklassiger Hand und aus der Literatur. Ich habe also eine andere Ausgangswahrscheinlichkeit. Daraus habe ich den Schluss gezogen: irgendwas ist hier ganz komisch und die einfache Hypothese „alles nur Placebo“ kann so auch nicht stimmen. Ich habe dann ein paar Arzneimittelprüfungen gemacht. Das sind experimentelle, verblindete Untersuchungen an Gesunden. Schon die ersten beiden Pilotstudien haben interessante Daten zutage gefördert. Die Hauptstudie, bestehend aus zwei Teilstudien, hat einen klaren signifikanten Effekt erzeugt. Eine zweite, davon unabhängige Studie ebenfalls. [4] Daraus habe ich den Schluss gezogen: mindestens manchmal zeigen homöopathische Arzneimittel andere Symptome an gesunden Freiwilligen als Placebos. Wissenschaftslogisch heißt dies: die Aussage „Homöopathie ist immer und unter allen Umständen gleichzusetzen mit Placebo“ kann pauschal so nicht stimmen. Nicht mehr, und nicht weniger. Interessant ist nun folgendes: Kritiker ignorieren diesen Teil meiner Daten geflissentlich. Als eine Spiegelredakteurin mir vor einiger Zeit per E-Mail einen Satz von Fragen zur Homöopathie schickte, hatte ich ihr, wohl ahnend, dass sie einen Homöopathieverriss im Begriff war zu schreiben, genau diese Daten geschickt mit der Bitte, sie zu berücksichtigen. Das hat sie aber nicht getan. Wochen vorher hatte die selbe Redakteurin öffentlich auf einem Podium verkündet, die Homöopathie gehöre in die Medizingeschichte und ihre Aufgabe sei es, sie dorthin zu befördern. Hier sehen wir Vormeinung und Pastor Bayes in Aktion. Wenn so etwas geschieht, helfen Daten nie weiter, einfach deshalb, weil sie eine sichere Weltsicht erschüttern würden, und das ist unbequem. Aus genau dem gleichen Grund zitiert mich Edzard Ernst auch falsch, weil ihm der Rest meiner Daten nicht in sein theoretisches Weltbild passt. Ich finde das schade, aber verständlich. Denn Menschen sind halt so. Wir sind, in der Regel, Bayesianer. Ausblick Einen guten Wissenschaftler unterscheidet von Möchtegernwissenschaftlern oder selbsternannten Wissenschaftspäpsten normalerweise seine Bereitschaft, von Daten zu lernen, seine Theorie der Erfahrung preiszugeben und anzupassen und die Offenheit für neue Erfahrungen, obwohl er eine eigene Theorie hat. [5] Wie aber kann das gehen, werden Sie sagen, nachdem wir doch offenbar als Bayesianer verdammt sind zu leben, schon aufgrund unserer Biologie? Dafür gibt es ein kleines, aber sehr patentes Heilmittel: systematisches Vergessen von Sicherheiten und Automatismen, systematisches Üben von Offenheit, systematische Kultur unseres Geistes. Das kann man üben, z.B. durch Meditation, in der wir den Geist frei machen und wieder neu ausrichten und öffnen für das Geheimnis des Lebens und die Überraschungen, die es für uns bereithält. Je neu. Das ist die Essenz des Lebens, der Spiritualität, und, jawohl, auch der Wissenschaft. [6] Dadurch werden wir von einem 27 vorgeprägten Bayesianer zu einem offenen Menschen. Wenn wir es nämlich schaffen, einer empirischen Option, ob es NSAIDs bei chronischen Rückenschmerzen sind oder Homöopathie, eine offene 50%ige Wahrscheinlichkeit einzuräumen, dass sie funktioniert, dann reicht eine einzige gute Studie aus, um uns, im positiven Falle zu 95% zu überzeugen, dass die Studie die Wirklichkeit abbildet und im negativen Falle ebenso. Offenheit spart enorm Ressourcen, und würde uns viele Kämpfe ersparen. Anmerkungen: [1] Bayes’sche Statistik und entsprechendes Denken ist nicht ganz trivial. Daher ist es auch so wenig verbreitet, obwohl es eigentlich viel natürlicher ist, als die herrschende frequentistische Statistik. Ich habe als Einführung sehr nützlich gefunden die unten zitierten Arbeiten von Pamar et al. (2001), Raha (2011) und ein sehr gutes Beispiel liefert Tressoldi (2011). Auch die Wikipedia Einträge zum Thema „Bayes“ und „Bayesian…“ helfen weiter. Auf der englischen Seite finden sich ein paar Anmerkungen, von denen einige weiterführen zu onlineTutorien, auf denen man sich weiter kundig machen kann. [2] Was ich hier umreisse, ist Standard-Neurobiologie. Jedes Lehrbuch enthält entsprechende Informationen. Ich fand sehr nützlich Roth (1997). Die zentrale Arbeit ist Raichle (2006). [3] Siehe Walach et al. (1997). Die entsprechenden wichtigen Kritiken wurden von Vithoulkas und Oberbaum formuliert. Meine Repliken darauf in Walach (2002a, b) und ein paar Gedanken dazu, wohin mich diese Daten geführt haben in Walach (2000). Man muss nicht mit mir einer Meinung sein, aber man kann hier erkennen: ich habe meine Daten ernst genommen und meine Vormeinung drastisch geändert. [4] Die ersten Pilotstudien waren Möllinger et al (2004) und Walach et al (2004). Die entsprechenden Folgestudien waren Walach et al (2008) und Möllinger et al (2009): Link Ich habe alle meine Arzneimittelprüfungsdaten zusammengefasst in einem Buchkapitel Walach (2009). [5] Das ist zwar trivial, ist aber immer wieder wert betont zu werden, weil es oft vergessen geht. Gerade dieser Tage kann man es bei den Lobreden auf die neuen Nobelpreisträger immer wieder lesen: Gutes Beispiel ist Daniel Shechtman, der Entdecker der Quasikristalle. Er sah sie im Elektronenmikroskop, traute seinen Augen (und seiner Erfahrung) und änderte seine Meinung, die er aus dem Lehrbuch kannte und die alle Kollegen teilten. Er widerstand der Skepsis seiner Kollegengruppe fast 20 Jahre lang und erhielt schliesslich den Nobelpreis. Siehe z.B. “Nobelpreis für den Glauben ans Unmögliche” oder “Nobelpreis für Chemie geht nach Israel“. [6] Ich habe Gedanken dazu vorgelegt in meinem Spiritualitätsbuch Walach (2011) und einem entsprechend kleineren Kapitel in Walach (2008). Demnächst vielleicht ein Exkurs-Kapitel zum Thema. ← Zurück zu Kapitel 4 Weiter zu Kapitel 6 → Literatur Möllinger, H., Schneider, R., Löffel, M., & Walach, H. (2004). A double-blind, randomized, 28 homeopathic pathogenetic trial with healthy persons: Comparing two high potencies. Forschende Komplementärmedizin und Klassische Naturheilkunde, 11, 274-280. Möllinger, H., Schneider, R., & Walach, H. (2009). Homeopathic pathogenetic trials produce symptoms different from placebo. Forschende Komplementärmedizin, 16, 105-110. Parmar, M. K. B., Griffiths, G. O., Spiegelhalter, D. J., Souhami, R. L., Altman, D. G., van der Scheuren, E., et al. (2001). Monitoring of large randomised clinical trials: a new approach with Bayesian methods. Lancet, 358, 375-381. Raha, S. (2011). A critique of statistical hypothesis testing in clinical research. Journal of Ayurveda and Integrative Medicine, 2, 105-114. Raichle, M. E. (2006). The brain’s dark energy. Science, 314, 1249-1250. Roth, G. (1997). Das Gehirn und seine Wirklichkeit. Kognitive Neurobiologie und ihre philosophischen Konsequenzen. Frankfurt: Suhrkamp. Rawlins, M. (2008). De Testimonio – On the Evidence for Decisions about the Use of Therapeutic Interventions. The Harveian Oration. Delivered before the Fellows of the Royal College of Physicians of London on Thursday 16 October 2008. London: Royal College of Physicians. Tressoldi, P. E. (2011). Extraordinary claims require extraordinary evidence: the case of nonlocal perception, a classical and Bayesian review of evidence. Frontiers in Psychology, 2(2), Art 117. Walach, H., Gaus, W., Haeusler, W., Lowes, T., Mussbach, D., Schamell, U., et al. (1997). Classical homoeopathic treatment of chronic headaches. A double-blind, randomized, placebo-controlled study. Cephalalgia, 17, 119-126. Walach, H. (2000). Magic of signs: a non-local interpretation of homeopathy. British Homeopathic Journal, 89, 127-140. Walach, H. (2002a). Response to Vithoulkas: Homeopathic fantasies about science, a metacritique. Homeopathy, 91, 35-39. Walach, H. (2002b). Reply to Vithoulkas and Oberbaum. Homeopathy, 91, 189-191. Walach, H. (2008). Wissenschaft und Spiritualität. In G. Hüther, W. Roth & M. von Brück (Eds.), Damit das Denken Sinn bekommt. Spiritualität, Vernunft und Selbsterkenntnis (pp. 77-96). Freiburg: Herder Walach, H. (2009). Homeopathic pathogenetic trials – A summary of 20 years of reflection, data collection, and analysis. In C. Witt & H. Albrecht (Eds.), New Directions in Homeopathy Research: Advice from an Interdisciplinary Conference (pp. 43-66). Essen: KVC-Verlag. Walach, H. (2011). Spiritualität: Warum wir die Aufklärung weiterführen müssen. Klein Jasedow: Drachen Verlag. 29 Walach, H., Sherr, J., Schneider, R., Shabi, R., Bond, A., & Rieberer, G. (2004). Homeopathic proving symptoms: result of a local,non-local, or placebo process? A blinded, placebo-controlled pilot study. Homeopathy, 93, 179-185. (6) Wer braucht was? Empirie und Theorie 2 [English Version: Part 6 - Who needs what?] Wir haben gesehen: wissenschaftliche Daten erzeugen nicht einfach Klarheit. Denn wir haben alle unsere Vormeinungen, die sich auf implizite Erfahrungen und Präferenzen stützen. Je nachdem wie diese Vormeinungen gelagert sind, benötigen wir mehr, oder im Zweifelsfall auch andere Informationen, bevor wir einer wissenschaftlichen Information Bedeutung zuerkennen. Diesen Gedanken wollen wir in diesem und in den nächsten Kapiteln vertiefen: Wer benötigt welche Art von Daten und Information? Und warum benötigen verschiedene Interessenten andere Arten von Informationen? Die Engländer haben dafür eine patente Redewendung: „Horses for Courses“ – für jede Art von Rennen ein eigenes Pferd; also eins für die wilde Jagd im freien Feld, eines für stilvolle Kür, eines fürs Galopprennen, und fürs Traben wieder ein anderes. Patienten wollen Sicherheit und Effekte Beginnen wir mit Patienten. Die wollen, wenn sie krank sind, eine Behandlung, von der sie einigermassen sicher sein können, dass sie ihnen keine schlimmen Nebenwirkungen beschert, und die ihnen mit einer grossen Wahrscheinlichkeit Linderung ihrer Beschwerden verschafft. Stellen Sie sich vor Sie seien jemand, der schon seit der Jugendzeit an Migräne leidet. Dagegen kann man pharmakologische Prophylaxe betreiben, die auch ziemlich vielen hilft. Manche vertragen sie nicht, oder haben etwas gegen die dauerhafte Einnahme von Medikamenten. Nehmen wir mal an, Sie hätten diese Prophylaxe nicht vertragen, weil die einzunehmenden Pharmaka ihren Appetit und ihre sexuelle Appetenz verändert hätten, was Ihnen unangenehm war. Sie sind also auf der Suche nach einer Alternative. Wie gehen Sie vor? Patienten sind Empiriker. Sie fragen herum und sprechen mit anderen Patienten, mit Freunden und Bekannten. Sagen wir mal, ein Bekannter hätte Ihnen erzählt, dass nicht weit von Ihrem Heimatort ein Arzt wohnt, der mit einer neuartigen Maschine, die das Energieniveau des Menschen verändern soll, alle Arten von Schmerzen erfolgreich behandelt. Kostet zwar 300 Euro für die ersten Behandlungen, aber das war’s dann auch. Das ist es Ihnen wert, Sie gehen hin, erhalten eine diagnostische und ein paar therapeutische Sitzungen. Das Gerät, so wird Ihnen erklärt, nimmt die Signatur Ihrer elektromagnetischen Strahlung auf und sendet angepasst einen ultraschwachen elektromagnetischen Puls zurück. Sie spüren diesen Impuls gar nicht, sitzen lediglich ein paar Mal für 20 Minuten an dieses Gerät angeschlossen. Und siehe da: über die nächsten Monate haben Sie keine Migräne mehr. Nach einem halben Jahr kommt Ihre Migräne wieder. Sie gehen wieder hin für eine Auffrischungssitzung, Kostenpunkt vielleicht 60 Euro, und die Migräne verschwindet wieder für das restliche halbe Jahr. Nebenwirkungen haben Sie keine gespürt. Wie auch, die Pulse waren ja sehr schwach. Mit einem Zeitaufwand von zweimal ca. 30 Minuten und zweimal 60 Euro pro Jahr können 30 Sie Ihre Migräne mit Hilfe dieser Anwendung zuverlässig beseitigen. Hat der Apparat gewirkt? Ist er „wirksam“ in einem wissenschaftlichen Sinn? Ja und nein. Für Sie als Patient hat er offensichtlich gewirkt. Denn er hat Ihre Beschwerde beseitigt. Zumindest für einen erklecklichen Zeitraum, ohne grossen Aufwand und ohne exorbitante Kosten. Würde man alle Patienten, die zu einem solchen Behandler kommen dokumentieren und daraufhin befragen, wie zuverlässig ihre Symptome beseitigt worden sind, so bekäme man ein positives Bild. Verschiedene solcher Beobachtungs- und Dokumentationsstudien zeigen: mit einer sogenannten Bioresonanztherapie, so heisst die oben kurz beschriebene Therapie, sind in aller Regel zwischen 80 und 85% der Patienten entweder beschwerdefrei oder sehr stark verbessert [1-4]. Nebenwirkungen sind nicht gross beobachtet worden. Aus Sicht der Patienten wäre also eine solche Behandlung „wirksam“, oder sagen wir besser: erfolgreich. Denn die Beschwerden sind weg, und andere sind nicht aufgetreten. Patienten wollen Effekte sehen und das mit einer hohen Wahrscheinlichkeit. Und Patienten wollen Sicherheit, und das mit grosser Sicherheit. Diese Daten sind relativ leicht zu beschaffen, indem man eine grosse Anzahl an Patienten beobachtet, und vor allem, indem man sie beobachtet ohne eine Auswahl zu treffen oder vorher zu wissen, was bei der Behandlung herauskommt. Dies sind prospektive, also nach vorne gerichtete, Beobachtungsstudien. Manchmal nennt man sie auch einarmige Kohortenstudien (einarmig deswegen, weil nur eine Gruppe beobachtet wird). Wichtig bei solchen Studien ist, dass alle Patienten, die einer bestimmten Kategorie zugehören – etwa alle Kopfschmerzpatienten, oder alle Schmerzpatienten, oder überhaupt alle Patienten in einem gewissen Zeitraum – dokumentiert werden. Wichtig ist auch, dass ein Maß genommen wird, das vom Behandler unabhängig ist, damit nicht auch noch die Vormeinung des Behandlers die Schätzung des Therapieerfolgs beeinträchtigt. Daher sollten solche Studien völlig vom Behandler unabhängig sein und e sollte z.B. eine dritte Person Befragungen durchführen, Fragebögen verteilen und einsammeln – oder es sollten Tests vorgenommen werden, die der Behandler nicht beeinflussen kann. Methodische Kriterien für solche Studien sind publiziert worden [5]. Nehmen wir mal an, das sei hier alles der Fall gewesen und wir wüssten aus sicherer Datenlage: 80% der Patienten profitieren von einer solchen Bioresonanzbehandlung. Können wir dann schon davon ausgehen, dass diese Behandlung wirksam ist? Aus Sicht der Patienten, wie gesagt, ja; aus Sicht der Zulassungsbehörde vielleicht auch; aus Sicht der Wissenschaft vermutlich: nein. Wird die Krankenkasse die Kosten erstatten weil sie die Behandlung als wirksam anerkennt? Vielleicht. Wird der Arzt die Behandlung als wirksam anerkennen? Behandler wollen eine gute Theorie, ausreichend positive Erfahrung und ein paar wissenschaftliche Daten Wenden wir uns den Behandlern zu. Ärzte wenden in der Regel Interventionen dann an, wenn sie irgendwo gelernt oder erfahren haben, dass sie wirkt. Sie lernen viel von anderen Behandlern, in Kursen, Qualitätszirkeln, Weiterbildungen und informell durch Austausch [6]. Sie wollen zwar meistens auch Studien sehen und verwenden auch wissenschaftliche Informationen, aber nicht nur. Sie wollen meistens auch verstehen, warum etwas überhaupt funktioniert. Darum nehmen Ärzte auch Grundlagenforschungsergebnisse gerne zur Kenntnis, die ihnen plausibel macht, warum etwas wirken könnte. Wenn man z.B. einmal weiss, dass die kleinen Blutgefässe in einem Menschen über 160.000 km lang sind, also etwa dreimal den Erdball umspannen, und die Art, wie der Blutfluss vom Organismus reguliert wird immer noch nicht verstanden ist, und wenn man einmal in einem kleinen Film gesehen hat, wie die Applikation eines schwachen, gepulsten Magnetfeldes den Blutfluss in einem solchen 31 Minigefäss verändert, dann findet man die Möglichkeit der Wirksamkeit solcher Behandlungen vielleicht plausibel. Wenn einem dann Kollegen von ihren Erfolgen erzählen, oder wenn man ein paar Studien liest, dann ist man als Arzt möglicherweise schon ausreichend gut informiert und probiert es mal selber aus. Man macht seine eigenen Erfahrungen, also eine Art implizite Beobachtungsstudie, und je nachdem wie selbstkritisch man ist und wie gut die Methode wirklich wirkt, wird man sich seine Meinung bilden. Ist sie einmal gebildet, werden eine oder zwei klinische Studien diese Meinung nur noch schwer ändern können. Denn schliesslich hat man seine Erfahrungen gesammelt, vielleicht zehn- oder zwanzigtausend Euro in die Anschaffung eines solchen Gerätes investiert und jede Menge zufriedene Patienten. Behandler wollen also Daten, die von jeder Kategorie etwas liefern: Grundlagenforschung soll zum Verständnis der Mechanismen beitragen. Klinische Forschung soll belegen, dass im klinischen Falle mindestens manchmalVerbesserungen zu erwarten sind – und vor allem wann und unter welchen Umständen. Idealerweise zeigt auch noch eine vergleichende Forschung an, ob eine solche Behandlung besser ist als andere, die schon auf dem Markt sind. Aber ist etwas wirksam, nur weil Ärzte es anwenden? Das ist sicher nicht so, denn Ärzte haben ja auch in vielen Fällen unwirksame oder sogar schädliche Interventionen verwendet, weil die herrschende Theorie das damals so vorgab. Denken wir nur daran, dass lange Zeit hinweg einem Cholerakranken Wasser verweigert wurde, weil man dachte man muss die Krankheit austrocknen. Genau das Gegenteil, wissen wir heute, ist richtig, und die therapeutische Idee stammte aus einer falschen Theorie. Heute sind Ärzte etwas besser ausgebildet und haben nicht nur eine Theorie im Hinterkopf, sondern wollen auch Daten sehen. Aber meistens können sie es sich gar nicht leisten, systematisch alle Daten zu sichten. Dazu haben sie keine Zeit. Sie verlassen sich also auf die Zusammenfassungen, die sie so greifen können. In Ärztezeitungen und Journalen, oder informell durch die Informationen bei Kollegen, und was eben die sog. „Mainstream“-Journale transportieren, die viele Ärzte lesen, die Deutsche Medizinische Wochenschrift, das British Medical Journal, Lancet, Neurology etwa, um nur einige zu nennen. Da kommen dann vor allem Wissenschaftler zu Wort und die wissenschaftlich gestützte Begrifflichkeit von „Wirksamkeit“. Wissenschaftler wollen Mechanismen verstehen und Neues entdecken Die primäre Motivation von Wissenschaftlern ist zunächst, wenn sie richtige Wissenschaftler sind, die Neugier. Sie wollen verstehen wie Dinge funktionieren und aus diesem Verständnis heraus neue Anwendungen entwickeln. Um das tun zu können, müssen sie ihre Karriere entwickeln. Um die Karriere zu entwickeln, müssen sie möglichst viele und „gute“ Artikel in „guten“ Zeitschriften publizieren. Um das tun zu können, müssen sie entweder sehr kluge Ideen entwickeln und methodisch sauber umsetzen, oder sehr viel Geld von Stellen erhalten, die Forschung fördern. Im Idealfall beides zusammen. Ein guter Wissenschaftler wird sich einem Thema, z.B. ob solche Bioresonanzapparate funktionieren oder nicht, und wenn ja wie, erst dann zuwenden, wenn es ausreichend viele Hinweise darauf gibt, dass da möglicherweise etwas zu „holen“ ist. Dann wird vielleicht mal ein Doktorand drangesetzt, der eine Pilotstudie sauber durchführt. Je nachdem welche Art von Wissenschaft einer betreibt, wird erst eine Grundlagenforschungsstudie durchgeführt, oder eine kleine klinische Studie. In jedem Fall will aber der Wissenschaftler sicherstellen, dass er es mit einem „echten“ Phänomen zu tun hat und er nicht einer Täuschung oder einem Artefakt aufsitzt. Er wird also kontrollierte Studien, im Idealfall Experimente durchführen. Der Unterschied zwischen Experiment und 32 natürlicher Beobachtung ist hier zentral. Deswegen werde ich auch immer wieder drauf zurückkommen. Im Experiment kann der Wissenschaftler nämlich manipulieren. Er schafft z.B. durch Zufallszuteilung die Voraussetzung dafür, dass in der Kontrollgruppe und der Experimentalgruppe alle Ausgangsbedingungen gleich sind und führt dann die experimentelle Manipulation durch. Ein Grundlagenforscher wird vielleicht ein Testsystem, bestehend aus einem Gewebe oder aus Zellen, einmal mit einem solchen ultraschwachen, gepulsten Magnetfeld bestrahlen und einmal ohne Bestrahlung vermessen. Wenn er sehr raffiniert ist, wird er sogar diejenigen, die die Messung durchführen, verblinden, d.h. ihnen die Information vorenthalten, welche der Systeme behandelt und unbehandelt sind. Dann weiss er hinterher, ob die Intervention „ultraschwache, gepulste, elektromagnetische Bestrahlung“ in einem solchen Zell- oder Gewebesystem eine Veränderung herbeigeführt hat. Wenn er methodisch richtig gut ausgebildet ist, dann wird er sogar systematische negative Kontrollen durchführen, also Leermessungen, bei denen er so tut, als ob er eine wirkliche Messung einer wirklichen Intervention durchführt, aber nur die Prozeduren und Messungen machen ohne irgendwelche Interventionen (solche systematische, negative Kontrollen werden übrigens in der konventionellen Forschung nur selten durchgeführt; in der Homöopathieforschung gehören sie mittlerweile zum Standard). Angenommen er hat eine Veränderung in seinem Gewebesystem nach Anwendung von ultraschwacher elektromagnetischer Impulse gesehen: wäre das schon ein Hinweis auf klinische Wirksamkeit? Nein, natürlich nicht. Denn in einem komplexen System wie einem menschlichen Organismus gibt es eine Fülle von Kompensationsmechanismen, die einzelne Effekte wieder ausgleichen können. Deswegen würde man klinische Effekte sehen wollen, Veränderungen also, die im klinischen Falle zuverlässig auf die Intervention und nicht auf irgendwelche zufälligen oder anderen Faktoren zurückzuführen sind. Der Wissenschaftler wird also eine kontrollierte Untersuchung durchführen. Das geht nur, wenn er das System aufteilt. Hier fangen die konzeptuellen Probleme an: Eine richtig gute kontrollierte Studie kostet relativ viel Geld. Denn man braucht Personal, Geräte, muss Patienten oder Ärzte für ihre Zeit entschädigen, usw. Wer zahlt eine solche Studie in diesem Falle? Vielleicht eine Stiftung, vielleicht ein Gerätehersteller? Weil man Geld für solche Studien nicht leicht bewilligt erhalten kann, werden solche Studien oft mit minimalem Budget durchgeführt. Man muss sich dann pragmatisch beschränken und entsprechend unklar sind dann oft die Ergebnisse. Aber weil der Wissenschaftler überleben will, publiziert er auch solche Ergebnisse, die dann die Literatur anfüllen. Der Leser muss sich dann einen Reim auf diese Ergebnisse machen, und das ist nicht immer leicht. Im Falle der Bioresonanztherapie gibt es also nun ein paar interessante und positive Grundlagenforschungsstudien [7-9], deutlich positive Daten aus der Outcome-Forschung [14], also Ergebnisse einarmiger Beobachtungsstudien, und ein paar unklare Studien, die verblindet waren und Scheinkontrollen durchgeführt haben[10-17]. Der oberflächliche Wissenschaftler ohne weiteres Interesse wird sagen: Nicht lohnenswert, keine deutlichen Effekte. Der neugierige Wissenschaftler mit tieferem Interesse wird sagen: Interessant. Hier wirkt etwas offenbar in der Praxis sehr deutlich, aber wenn man genauer hinsieht, findet man keine deutlichen Unterschiede zwischen Kontrolle und wirklicher Intervention. Was passiert hier genau? Blickt man also auf die Mechanismen, so kann man, etwas vage formuliert feststellen: ultraschwache, gepulste elektromagnetische Strahlung verändert etwas an Zellsystemen. Aber ist das schon ausreichend, um eine klinische Wirkung plausibel zu machen? Das hängt 33 vermutlich wieder von den Vormeinungen ab. Nimmt man die Beobachtungsdaten, so sieht man, dass Bioresonanztherapie bei vielen Patienten hilft. Viele Ärzte werden nun diese beiden Elemente – positive Daten aus der Grundlagenforschung, positive Daten von Beobachtungsstudien an Patienten – zusammennehmen und daraus eine Erfolgsgeschichte basteln, deren Überschrift lautet: „Wissenschaftlich erwiesen: Bioresonanztherapie ist wirksam.“ Aber ist das tatsächlich so? Der Wissenschaftler, der skeptische zumal, sieht vielleicht eine andere Geschichte und will vor allem auch noch andere Typen von Daten sehen. Und daran erkennen wir wiederum: jeder braucht andere Informationen, weil er andere Interessen hat. ← Zurück zu Kapitel 5 Weiter zu Kapitel 7 → Literatur 1. Herrmann E, Galle M: Retrospective surgery study of the therapeutic effectiveness of MORA bioresonance therapy with conventional therapy resistant patients suffering from allergies, pain and infection diseases. European Journal of Integrative Medicine 2011;in print. 2. Rahlfs VW, Rozehnal A: Wirksamkeit und Verträglichkeit der Bioresonanzbehandlung: Ergebnisse einer retrolektiven, longitudinalen Kohortenstudie. Erfahrungsheilkunde 2008;57:462-469. 3. Schumacher P: Biophysikalische Therapie der Allergien. Stuttgart, Sonntag, 1994. 4. Uellendahl U: Darstellung der Mora-Color-Methode in der Behandlung von chronischen funktionellen Schmerzen am Bewegungsapparat. In Sportwissenschaftliche Fakultät. Bratislava, Univerzita Komenského Bratislave, 2008. 5. von Elm E, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP: The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: Guidelines for reporting observational studies. Annals of Internal Medicine 2007;147:573577. 6. Gabbay J, le May A: Evidence based guidelines or collectively constructed “mindlines”? Ethnographic study of knowledge management in primary care. British Medical Journal 2004;329:1013-1017. 7. Endler PC, Pongratz W, Smith CW, Schulte J: Non-molecular information transfer from thyroxine to frogs with regard to homeopathic toxicology. Veterinary and Human Toxicology 1995;37:259-260. 8. Islamov BI, Balabanova RM, Funtikov Va, Gotovskii YV, Meizerov EE: Effect of bioresonance therapy on antioxidant systems in lymphocytes in patients with rheumatoid arthritis. Byulleten Eksperimental’noi Biologii i Meditsiny 2002;134:297-290. 9. Heredia-Rojas JA, Torres-Flores AC, Rogriguez-De la Fuente AO, Mata-Cardenas R-F, L.E., Barron-Gonzalez MP, Torres-Pantoja AC, Alcocer-Gonzalez JM: Entamoeba histolytica 34 and trichomonas vaginalis: trophozoite growth inhibitino by metronidazole electro-transferred water. Experimental Parasitology 2011;127:80-83. 10. Schöni MH, Nikolaizik WH, Schöni-Affolter F: Efficacy trial of bioresonance in children with atopic dermatitis. International Archives of Allergy and Immunology 1997;112:238-246. 11. Nienhaus J, Galle M: Plazebokontrollierte Studie zur Wirkung einer standardisierten MORA-Bioresonanztherapie auf funktionelle Magen-Darm-Beschwerden. Forschende Komplementärmedizin 2006;13:28-34. 12. Schuller J: Untersuchung zur klinischen Wirksamkeit elektronisch abgespeicherter Zahnund Gelenksnosoden bei Erkrankungen des rheumatischen Formenkreises. Forschende Komplementärmedizin 2007;14:289-296. 13. Isik E, Galle M: Evidence for efficacy and effectiveness of the MORA bioresonance method in smoking cessation (Abstract). In Willich SN (ed): European Conference on Integrative Medicine. Berlin, 2011:PP 020. 14. Machowinski R, Kreisl P: Prospektive randomisierte Studie zur Überprüfung der Behandlungserfolge mit patienteneigenen elektromagnetischen Feldern (BICOM) bei Leberfunktionsstörungen. Gräfelfing, Institut für Regulative Medizin, 1999:77-92. 15. Kofler H, Ulmer H, Mechtler E, Falk M, Fritsch PO: Bioresonanz bei Pollinose. Allergologie 1996;19:114-122. 16. Wille A: Bioresonanztherapie (biophysikalische Informationstherapie bei stotternden Kindern. Forschende Komplementärmedizin 1999;Suppl. 1:50-52. 17. Yang J, Zhang L: Clinical observation of 300 children suffering from asthma treated with BICOM 2000 bio-resonance device. InJinan, Jinan Children’s Hospital, Asthma Research Center, o.J. 7) Decline-Effekte und die öffentliche Repräsentanz wissenschaftlicher Ergebnisse in den Medien In meinem persönlichen Blog habe ich über eine Tagung berichtet, die sich mit dem sog. Decline-Effekt oder Absinkungseffekt beschäftigte. Dahinter verbirgt sich folgendes Phänomen: Oft zeigt sich am Anfang einer Forschungsreihe ein besonders deutlicher oder spannender Effekt, zumindest legen Publikationen das nahe. Wenn andere diese Ergebnisse wiederholen wollen, finden sie oft weniger deutliche Effekte. Oft nehmen die Effekte ab oder lassen sich nicht bestätigen. Solche Absinkungs-Effekte sind in der gesamten biomedizinischen, aber auch in der psychologischen, biologischen und vor allem parapsychologischen Forschung zu beobachten und lange bekannt. 35 Ursachen für den Decline-Effect Dies kommt – vor allem, aber nicht ausschließlich – von folgendem Phänomen: Oft führen Grundlagenforscher – vor allem diese, denn sie arbeiten mit relativ rasch und einfach durchzuführenden Assays und Experimenten – in neuen Gebieten ein paar Testversuche durch. Die fruchten nicht und werden in die Tonne gesteckt. Dann bastelt wer ein bisschen herum und plötzlich kommt ein signifikantes Ergebnis heraus. Das wird publiziert. Die negativen werden natürlich nicht erwähnt. Wen interessiert das schon? Denn die Zeitschriften, die Editoren, die Wissenschaftler, überhaupt die Öffentlichkeit ist an positiven Befunden interessiert, nicht an negativen. Nun ist also ein neues Phänomen geboren. Weil es neu und vielleicht sogar spektakulär ist, wird es in den bekannten Zeitschriften mit hohem Impact veröffentlicht. Denn deren Geschäft ist es, solche neuen, aufwühlenden Befunde unter die Leute zu bringen. Nun kommen ein paar kritische Geister, lesen das und machen es nach. Manche ohne Erfolg. Sie denken sich dann: wir haben vielleicht was falsch gemacht und stecken das negative Ergebnis in die Tonne. Oder, wenn sie hartnäckiger sind, glauben sie nicht daran, dass das ursprünglich publizierte Ergebnis richtig war, führen mehrere Replikationen und Abwandlungen durch und versuchen dann ihren negativen Befund zu publizieren. Das wird mit Sicherheit schwieriger werden, als den ursprünglich positiven Befund zu publizieren. Vielleicht müssen sie mehrere Journals anschreiben, ihren Text aufgrund von kritischen Gutachten überarbeiten, noch ein paar Experimente nachliefern. Denn es ist wahrscheinlich dass Freunde, Bekannte oder Kollegen der ursprünglichen Forschungsgruppe, wenn nicht gar Mitglieder dieser Gruppe selbst zu den Gutachtern der negativen Replikationsstudie gehören. Also dauert es, bis die negativen Befunde publiziert sind, wenn sie überhaupt das Licht der Öffentlichkeit erblicken. Und so werden Mythen gebildet Die ursprünglich positiven Befunde schaffen es ins Bewusstsein der Öffentlichkeit: Selektive Serotonin Reuptake Inhibitoren sind wirksam zur Behandlung der Depression! Sagt man dann. Bis nach Jahrzehnten dann auch die negativen Studien bekannt werden und man sieht: so wirksam sind sie nun auch wieder nicht. Bis dann ist der Mythos bereits geboren. Oder: Aufmerksamkeits-Defizit (ADHS) ist eine Gehirnkrankheit mit einem deutlichen Problem in den Dopamintransportern der Basalganglien, wird verkündet. Naheliegend, dass das nur pharmakologisch zu beheben ist. Bis dann die entsprechenden Nachfolgestudien kommen, die den ursprünglichen Befund nicht bestätigen. Aus genau diesem Grund ist es methodisch wichtig sich genau zu überlegen, an welcher Stelle des Forschungsprozesses sich eine Studie befindet. Ist sie die allererste, die einen neuen Befund behauptet? Dann ist Vorsicht geboten. Ist es eine Studie, die bereits vorliegende Daten repliziert? Dann ist es wichtig, sich die Effektgröße anzusehen. Ist sie etwa so groß wie die ursprüngliche? Dann ist das Ergebnis robust. Ist sie wesentlich niedriger? Dann überschätzt vermutlich der ursprüngliche Befund den Effekt. Aus genau dem Grund sind auch große Studien sicherer und Meta-Analysen noch sicherer in der Schätzung von Effekten. Aber auch diese können nicht darüber hinwegtäuschen dass es ein Problem dann gibt, wenn anfänglich negative Befunde unterschlagen wurden, oder wenn spätere negative Befunde mit großer Verzögerung oder gar nicht publiziert werden. Dann wird ein Effekt suggeriert, wo gar keiner vorhanden ist. Genau das hat Ioannidis (1) schon vor einiger Zeit gezeigt und damit eine heftige Debatte losgetreten. Er hat nämlich behauptet, die meisten publizierten Forschungsergebnisse seien falsch, genau aus dem hier oben beschriebenen Grund. 36 Repräsentanz wissenschaftlicher Ergebnisse in den Medien Nun ist in zwei aktuellen Artikeln dieses Thema wieder aufgegriffen worden, aber mit zwei sehr beunruhigenden Zungenschlägen (2, 3). Gonon und Kollegen (2) zeigen in ihrer Studie, dass genau dieser Vorgang auch den öffentlichen Diskurs dominiert. Sie verwenden das Beispiel von ADHS, suchen die sog. „Top 10“ der Studien aus, über die am meisten berichtet wurde in der öffentlichen Presse und verfolgen ihr Schicksal. Alle diese „Top 10“ Studien hatten spektakuläre neue Berichte über „Fortschritte“ zum Gegenstand, die die Wissenschaft bei ADHS angeblich gemacht hatte. Verfolgt man die Berichte weiter, so blieb von diesen 10 Fortschrittsmeldungen gerade mal eine stabil. Die anderen wurden entweder später widerlegt, oder substanziell abgeschwächt. Was nun das Besorgniserregende ist: die Presse berichtete nur über die anfängliche Euphorie ausführlich. Die Nachfolgestudien wurden kaum mit Aufmerksamkeit bedacht. Sie erschienen ja auch in weniger hochkarätigen Zeitschriften. Und in vielen Fällen geistert die anfängliche positive Meinung noch immer in den Köpfen der Öffentlichkeit herum, obwohl sie schon längst widerlegt wurde. Nur keiner hat’s gemerkt, weil die Presse dies nicht mehr berichtet. Ist ja auch peinlich, wenn man seine eigene Euphorie revidieren muss. Ich empfehle allen, die online einsehbare Studie selber zu lesen bzw. sich die darin enthaltenen Grafiken anzusehen: Decline-Effekte in Hülle und Fülle und vom Feinsten. Das stimmt nicht sehr zuversichtlich, was die Mainstream-Haltung zur Behandlung von ADHS mit Ritalin angeht. Die zweite Studie (3), die ein verwandtes Thema behandelt zeigt, dass unsere Presse nicht sonderlich gut darin ist, Fehlinterpretationen zu entdecken, die Autoren ihren Studien mitgeben, wenn nicht das gewünschte Ergebnis herausgekommen ist. Die Autoren haben fast 500 Pressemeldungen von 70 randomisierten Studien analysiert. In knapp der Hälfte der Studien fanden sich ins Rosarot verzerrende Darstellungen der Studienergebnisse im Abstract oder im Text der Studie. Die Autoren ließen die Daten besser und robuster erscheinen, als sie in Wirklichkeit waren. Dadurch entsteht der gleiche Effekt, wenn die Presse diese Meinung so transportiert. Man meint, man hätte ein positives Ergebnis gefunden, wo in Wirklichkeit gar keines da ist. Und siehe da: die angeblich so kritischen Journalisten der Zeitungen waren offenbar außerstande, den sogenannten „Spin“, der sich aus einer allzu wohlwollenden Interpretation der Studienergebnisse ergibt zu entdecken und transportierten ihn weiter in ihren Meldungen. In einer Regressionsanalyse war der einzige Prädiktor, der vorhersagen konnte, ob in einer Pressemeldung „Spin“ auftauchte, also ein positiver Anstrich eines ansonsten gar nicht so spektakulären Ergebnisses, die Frage, ob ein solcher „Spin“ in den Schlußfolgerungen des Abstracts der entsprechenden Studie vorhanden war. Was folgert der kritische Leser daraus? Richtig: Journalisten sind viel zu beschäftigt, um eine Studie genau zu lesen; vielleicht sind sie auch nicht wirklich kompetent, das könnte auch noch sein. Sie folgen lieber den Schlußfolgerungen, die der Autor seiner Studie selber mitgibt, und zwar im Abstract. Vielleicht lesen sie sogar nur das Abstract. Auf jeden Fall sind die meisten offenbar außerstande, Studien wirklich kritisch zu analysieren und zu lesen. Und so entsteht über die Medien transportiert ein Hype über Daten und Ergebnisse, die sich mit großer Wahrscheinlichkeit später als nicht haltbar herausstellen werden. Was lernen wir draus? Drei Lektionen: 1. Eine Schwalbe macht keinen Sommer. Immer abwarten, ob Nachfolgestudien anfängliche Ergebnisse bestätigen. 2. Der Sommer kommt sowieso selten und wenn, dann sehr spät. Wir leben, wissenschaftlich gesehen, weit nördlich des Polarkreises und haben weniger wirkliche Befunde und Durchbrüche, als wir glauben, zumindest was die Medizin und die Gesundheitswissenschaften angeht. 37 3. Was auch immer in der Wissenschaftspresse steht: es ist eine gute Heuristik, erst mal auch das Gegenteil dessen, was berichtet wird, für wahr zu halten. ← Zurück zu Kapitel 6 Weiter zu Kapitel 8 → Literatur 1. Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124. http://www.plosmedicine.org/article/info:doi/10.1371/journal.pmed.0020124 2. Gonon, F., Konsman, J.-P., Cohen, D., & Boraud, T. (2012). Why most biomedical findings echoed by newspapers turn out to be false: The case of Attention Deficit Hyperactivity Disorder. PLoS ONE, 7(9), e44275. http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0044275 3. Yavchitz, A., Boutron, I., Bafeta, A., Marroun, I., Charles, P., Mantz, J., et al. (2012). Misrepresentation of randomized controlled trials in press releases and news coverage: A cohort study PLoS Medicine, 9(9), e1001308. http://www.plosmedicine.org/article/info%3Adoi%2F10.1371%2Fjournal.pmed.1001308 (8) Industry Bias – Eine neue Form des Bias oder ein interessanter Experimentator Effekt? Bevor wir in die Details gehen, ein paar Erklärungen für diejenigen Leser, die nicht mit der Terminologie und dem Kontext vertraut sind: Bias ist ein Fachbegriff dafür, dass Studienergebnisse verzerrt sind. Klassischerweise geht man in der Methodologie davon aus, dass alle möglichen Variablen Ergebnisse verzerren können. Wenn etwa in einer Gruppe mehr Raucher, mehr Trinker, intelligentere oder ärmere Leute sind, könnte das das Ergebnis beeinflussen und wirksame Interventionen als unwirksam oder unwirksame Interventionen als wirksam erscheinen lassen. Deswegen werden die Studiengruppen durch Zufallszuteilung erzeugt, damit alle diese Variablen möglichst balanciert sind. Eine andere typische Form von Bias ist mangelnde Verblindung: wenn etwa Patienten oder klinische Beurteiler die Gruppenzuteilung kennen, dann ist die Chance gegeben, dass die Bewertung nicht unverzerrt ist. 38 Oder wenn der Studienleiter weiss, dass der nächste Patient in der Kontrollgruppe landen wird, dann könnte es sein, dass er heimlich oder unbewusst dafür sorgt, dass der Patient etwas aufgeschoben wird, bis er in die „richtige“ Gruppe kommt, etwa, wenn ihm dieser Patient besonders sympathisch ist. Dieser sog. „allocation bias“ wird normalerweise dadurch reduziert, dass Computerprogramme diese Zuteilung vornehmen. Im neuesten Cochrane Review „Industry sponsorship and research outcome“ [1] wird allerdings eine Form von Bias beschrieben, dessen Zustandekommen bei genauerem Nachdenken den Glauben ins Wanken bringt, dass Wissenschaft nichts anderes tue als die Wirklichkeit zu erforschen wie sie ist: Nennen wir diese neue Form von Bias „Industry Bias“: Studien, die von der Industrie finanziert werden, haben nämlich laut dieser Review öfter signifikant bessere Ergebnisse, berichten über weniger Nebenwirkungen, und Präparate des Sponsors sind fast 6 mal so wirksam wie Präparate der Konkurrenz, mit der sie verglichen werden. Keine der oben angesprochenen klassischen Arten der Ergebnis-Verzerrung spielt in dieser neuen Form von Bias eine Rolle. Die meisten Studien, die in diese Meta-Analyse eingingen waren ihrerseits Meta-Analysen von zum Teil Hunderten von einzelnen sog. randomisierten Studien, also von Studien, die ihre Gruppen durch Zufallszuteilung gebildet hatten. Die Cochrane-Meta-Analyse wurde von der Cochrane-Collaboration durchgeführt, einer Gruppe von Wissenschaftlern, die ohne weitere Interessenbindung möglichst unbeeinflusst und vollständig die Literatur zusammenfasst. Die Cochrane-Reviews gelten als die sorgfältigsten, weil ein klar definiertes Prozedere vorhanden ist. Der Review wird erst beantragt und ein Protokoll muß vorgelegt werden, wie die Autoren vorgehen wollen. Es wird begutachtet und erst dann können die Autoren weitermachen. Recherchen müssen vollständig sein und auch die Zusammenfassung folgt einem erprobten System. Wenn es in der klinischen Forschung also zuverlässige Ergebnisse gibt, dann hier, bei den Reviews der Cochrane Collaboration. Die Reviews sind bekannt dafür, dass sie konservativ sind, also Ergebnisse eher unter- als überschätzen, weil oft sehr restriktive Einschlußkriterien gelten. Was man wissen muss: hier wurde eine Meta-Meta-Studie von anderen, insgesamt 48 Meta-Studien oder Meta-Analysen durchgeführt. Die Datenbasis sind also einzelne MetaAnalysen, die jede für sich oft mehrere hundert Studien zusammenfassten, insgesamt 9.207 Studien über Arzneimittel und medizinische Geräte, die überwiegende Mehrzahl davon randomisierte Studien (es sind auch einige Beobachtungsstudien dabei, weil nur so Nebenwirkungen zuverlässig erfasst werden können). Die Autoren stellten eine einfache Frage: gibt es Hinweise darauf, dass Studien, die von Firmen bezahlt werden, häufiger positive Ergebnisse und weniger Nebenwirkungen berichten als solche, die z.B. von der öffentlichen Hand finanziert werden? Das ist deswegen wichtig, weil die größere Zahl von wissenschaftlichen Studien mittlerweile von der Industrie bezahlt wird. Anders gesprochen: das medizinisch-klinische Wissen, das wir haben, wurde in der Mehrzahl aus finanziellen Mitteln von Firmen bezahlt, die dieses Wissen ihrerseits wieder nützen können, um damit Geld zu verdienen. Dagegen ist überhaupt nichts einzuwenden, wenn, wie wir annehmen, die wissenschaftliche Methodik objektiv ist und genau dann, wenn die geltenden methodischen 39 Kriterien eingehalten werden – Randomisiertung, Verblindung, Verblindung der Zuteilung, etc. – und daher auch kein Unterschied zwischen den Ergebnissen von Studien besteht, die von der Industrie oder der öffentlichen Hand finanziert werden. Und genau hier zeigt diese Analyse: dies ist nicht der Fall. Studien, die von der Industrie gesponsort sind, haben in 24% der Fälle bessere Ergebnisse als staatlich finanzierte. Industriegesponsorte Studien berichten in 87% der Fälle weniger Nebenwirkungen und kommen in 31% der Fälle zu besseren Schlussfolgerungen. Wenn in solchen Studien das Produkt einer Firma gegen ein Vergleichsprodukt getestet wurde, dann hatte der Vergleich bei Finanzierung durch die Industrie eine fast 6fach höhere Erfolgsrate als bei staatlicher Finanzierung. Man wird nun sagen: das ist doch klar. Aber bitteschön, einmal Nachdenken. Denn es ist alles andere als klar. Alle Studien werden nach dem gleichen methodischen Standard gemacht. Man könnte sagen, die staatlichen Studien sind halt methodisch nicht so gut. Das ist eher unwahrscheinlich, weil solche Studien in der Regel durchgeführt werden, wenn ein Produkt auf dem Markt ist. Also müssen sie versuchen, methodisch diejenigen Kritikpunkte aufzugreifen, die geäußert wurden und z.B. noch grössere statistische Mächtigkeit aufweisen. Sie haben also eher eine größere Chance, Effekte zu demonstrieren, wenn sie da sind. Und die Analyse zeigt: die unterschiedlichen Ergebnisse lassen sich nicht durch methodische Artefakte erklären, denn methodisch gesehen waren sogar die industriegesponsorten etwas besser und statistisch besteht kaum ein Unterschied zwischen den Studientypen. An methodischen Unterschieden kann es also nicht liegen. Es bleiben aus meiner Sicht zwei Erklärungen übrig: entweder liegt ein ziemlich großer Publikationsbias vor, d.h. die Industrie hält negativ ausgegangene Studien systematisch und in großem Ausmaß unter Verschluß. Im Falle der Antidepressiva wurde ja belegt, dass ein Drittel aller Ergebnisse nicht publiziert wurden [2]. Es könnte durchaus sein, dass das überall so ist und dass Ioannidis mit seiner Einschätzung recht hat, dass die meisten Forschungsergebnisse falsch sind [3], eben weil die negativen Ergebnisse unterschlagen werden. Bei staatlich geförderten Studien ist das eher nicht der Fall, weil hier Forscher und Auftraggeber ein Interesse haben ihre Daten zu publizieren. Die zweite Erklärung wäre abenteuerlich: sie würde implizieren, dass die Intention, der Wunsch des Forschers bzw. hier des Auftraggebers dazu führt, dass das Ergebnis in der gewünschten Richtung ausfällt, trotz aller methodischen Maßnahmen zur Absicherung gegen solche Effekte. Und weil solche klassischen Versuchsleitereffekte durch methodische Sicherungen ausgeschlossen werden, müssten es nicht-klassische, also vielleicht sogar parapsychologische Effekte sein. Betrachten wir zum Schluß diese zwei Optionen kurz: Publikationsbias wäre die natürliche, aber auch extrem verstörende Antwort als Erklärung. Denn es würde bedeuten, dass zwischen 25% und 30% aller Studien, also 200 bis 300 Studien aus dem hier interessierenden Universum von Studien, unpubliziert geblieben sind. Und nicht vergessen: jede dieser Studien kostet schätzungsweise ein bis mehrere Millionen. Die Konsequenz daraus wäre, dass man eigentlich der wissenschaftlichen Literatur nur in Grenzen trauen kann und praktisch immer eine Überschätzung vornimmt, die beträchtlich ist. 40 Nimmt man hinzu, dass es durch die Gier der Presse sich immer auf erste spektakuläre Ergebnisse zu stürzen, nicht aber Korrekturen zu publizieren auch einen öffentlichen Wahrnehmungsbias gibt [4], dann kann man davon ausgehen, dass man eigentlich kaum irgend einer öffentlich proklamierten Information über „medizinische Fortschritte“ trauen sollte, bis die Information nicht durch weiterführende Replikationen erhärtet ist. Nimmt man ausserdem hinzu, dass in industriegesponsorten Studien das Nebenwirkungspotenzial beinahe um 90% geringer ausfällt verglichen mit anderen Studien und dass solche Daten in der Regel aus sehr großen Beobachtungsstudien kommen (weil ja seltene Nebenwirkungen nur berichtet werden können, wenn man tausende von Behandlungen dokumentiert), dann liegt hier Datenfälschung in hohem Ausmaß vor. Die andere Option würde heißen: die Grundannahmen des experimentellen Modells sind falsch, daß man nämlich den Experimentator – in diesem Falle den Sponsor – und seine Intention durch methodische Maßnahmen (Verblindung, Randomisierung, Verdeckung der Zuweisung, Verblindung der Ergebniserhebung) ausschalten kann. Dann hätten wir es mit direktem Einfluß von Intention oder Bewußtsein auf materielle Systeme zu tun. Keine dieser Optionen ist komfortabel und man kann sich gewisser Weise aussuchen, ob man seinen Glauben an die Solidität wissenschaftlich erzeugter Daten lieber am Felsen der Scylla zerschellen sieht, dem enormen Publikationsbias, oder ihn lieber im Strudel der Carybdis versinken lassen will, der Unmöglichkeit, die Intention des Experimentators aus dem Ergebnis eines Experiments draußen zu behalten. Den Publikationsbias kann man in den Griff bekommen, indem man nur noch registrierte Studien zulässt und überprüft, was mit den registrierten aber nicht publizierten passiert ist. Ich würde vermuten, dadurch wird ein Teil des Effektes erklärt. Ob damit aber auch der nichtklassische Versuchsleitereffekt als Erklärung unnötig wird, für den wir und andere den einen oder anderen Hinweis gefunden haben [5-6]? Vielleicht werden schon die nachfolgenden Generationen über unsere Naivität lachen, mit der wir geglaubt haben, man könne Systeme willkürlich auseinanderreißen und dennoch gültiges Wissen erlangen? Vielleicht sollten wir anfangen, über die Grundfesten unseres Weltbildes nachzudenken? ← Zurück zu Kapitel 7 Weiter zu Kapitel 9 → Quellen & Literatur [1] Lundh, A., Sismondo, S., Lexchin, J., Busuioc, O. A., ., & Bero, L. (2012). Industry sponsorship and research outcome. Cochrane Database of Systematic Reviews(12), MR000033. 41 [2] Turner, E. H., Matthews, A. M., Linardatos, E., Tell, R. A., & Rosenthal, R. (2008). Selective publication of antidepressant trials and Its influence on apparent efficacy. New England Journal of Medicine, 358, 252-260. [3] Ioannidis, J. P. (2005). Why most published research findings are false. PLoS Medicine, 2(8), e124. [4] Gonon, F., Konsman, J.-P., Cohen, D., & Boraud, T. (2012). Why most biomedical findings echoed by newspapers turn out to be false: The case of Attention Deficit Hyperactivity Disorder. PLoS ONE, 7(9), e44275. [5] Walach, H., & Schmidt, S. (1997). Empirical evidence for a non-classical experimenter effect: An experimental, double-blind investigation of unconventional information transfer. Journal of Scientific Exploration, 11, 59-68. [6] Kennedy, J. E., & Taddonio, J. L. (1976). Experimenter effects in parapsychological research. Journal of Parapsychology, 40, 1-33. ZUR PERSON Der klinische Psychologe, Philosoph und Wissenschaftshistoriker Prof. Dr. Dr. Harald Walach ist Professor für Forschungsmethodik komplementärer Medizin und Heilkunde und Leiter des Instituts für transkulturelle Gesundheitswissenschaften (IntraG) an der Europa-Uni Viadrina Frankfurt (Oder). Mehr über Harald Walach → Forschung Projekte und Forschung Methodenlehre für Anfänger o (13) Power-Analyse: die Magie der Statistik – Oder: Der Unterschied zwischen Signifikanz und Relevanz o (14) Die Magie der Statistik in Aktion: Tamiflu – „der grösste Raub der Geschichte“ – ziemlich unbrauchbar Ressourcen & Mediathek Blog-Artikel „Science Delusion“ – www.SetScienceFree.org: Ein paar Gedanken zu Rupert Sheldrake Fasnachtswissenschaft: Warum „Szientabilität“ ein Unwort ist Studie: Nur wer sich um sich kümmert, kann sich auch gut um andere kümmern In Memoriam Claus Fritzsche, †14.1.2014 Geist ohne Grenzen A call for an open, informed study of all aspects of consciousness Blog-Kategorien Alles & Nichts (2) Bewusstsein (9) Forschung (17) Im Fokus (4) 42 Medienkompetenz (12) Philosophie (11) Pressemitteilungen (1) Pressespiegel (12) Wissenschaft (25) Blog-Archiv März 2014 (2) Februar 2014 (2) Januar 2014 (3) Dezember 2013 (2) Oktober 2013 (1) September 2013 (1) August 2013 (1) Juli 2013 (1) Juni 2013 (2) Mai 2013 (1) März 2013 (1) Februar 2013 (1) Januar 2013 (1) Dezember 2012 (1) November 2012 (3) Oktober 2012 (3) September 2012 (2) August 2012 (2) Juli 2012 (2) Juni 2012 (4) Schlagwörter Achtsamkeit Akupunktur Alternativmedizin Aristoteles Bewusstsein CAMbrella Das Goldene Brett Decline Effect Die Silberne Schere Edzard Ernst Europa Forschung Gesundheitswissenschaften Grenzforschung Harald Walach Homöopathie Interview IntraG Islam Journalismus Komplementärmedizin Konstruktivismus Kultur des Bewusstseins Markus C. Schulte von Drach Medienkompetenz Medizin Mittelalter Parapsychologie Placebo Podcast Pressespiegel Prof. Edzard Ernst Pseudomaschienen Psychologie Quacksalberei Radio Raumfahrt Selbsterfahrung Selbstheilung Shitstorm Skandal Spiritualität Symposium Wissenschaft Wissenschaftsphilosophie (9) Innere und äußere Erfahrung – Zen und Wissenschaft Oder: Warum sich Zen und Wissenschaft sehr gut vertragen und warum mehr Wissenschaftler (und andere Leute) meditieren sollten 43 Gerade komme ich von einem Zen-Sesshin zurück. Das ist eine Meditationswoche, bei der geschwiegen und pro Tag zwischen 7 und 8 Stunden meditiert wird; in diesem Falle auch noch 6 Stunden in einer der Nächte. Mit Meditation meine ich hier: sich nur auf den Atem einlassen, von Moment zu Moment, ohne Gedanken zu folgen oder sich von aufsteigenden Gefühlen hinreißen zu lassen. Wenn man das eine Weile regelmäßig, am besten täglich, Zuhause praktiziert – und sich dann zusätzlich in solchen Intensivzeiten wie einem Sesshin vertieft – merkt man: man kommt in einen Raum der inneren Stille, der Gedankenfreiheit, in der der Geist wie eine stille Wasseroberfläche ist, aus der dann, manchmal, von Zeit zu Zeit, sehr tiefgründige Einsichten aufblitzen. Oder in denen man äußere Wahrnehmung durch die Sinne – das, was wir so hören, sehen, schmecken und spüren – plötzlich mit einer ganz anderen Intensität und ganz neu wahrnehmen. Wenn solche Einsichten sehr „tief“ sind, werden sie in einigen Traditionen „Erleuchtung“ genannt. Ich finde aber das Wort ein bisschen überstrapaziert. Man muß nicht immer auf die ganz grundlegenden Einsichten warten. Auch die vielen kleinen am Wegrand zählen. Was geschieht hier? Ich biete folgendes Denkmodell an: Wenn wir davon ausgehen, dass unser Geist oder unser Bewußtsein und unsere körperliche Wirklichkeit, also unser Leib, unsere Gehirnfunktionen, Ausdruck ein und der selben Wirklichkeit sind, also komplementäre Erscheinungsformen der Wirklichkeit, dann haben wir im Prinzip zwei Zugangswege zu dieser Wirklichkeit: Den einen hat unsere Wissenschaft seit etwa 700 Jahren immer weiter ausgebaut. Er führt über die Sinne zur Erfahrung der äußeren Wirklichkeit. Unsere wissenschaftliche Methodik hat uns gelehrt, sie immer besser gegen Irrtum zu schützen und immer tiefer in die Natur der materiellen Realität einzutauchen. Den anderen Weg, den über das Bewußtsein, haben wir in der westlichen Welt nicht wirklich systematisch gepflegt [1]. Philosophen haben immer wieder versucht über das, was wir im Westen „Denken“ nennen, die Struktur der Wirklichkeit zu ergründen. Meine Vermutung ist, dass diese Philosophen mit „Denken“ ursprünglich im Wesentlichen die Systematisierung dessen meinten, was ich mit „innerer Erfahrung“ bezeichne. Manche Philosophen und Theologen haben diesen inneren Zugangsweg zur Wirklichkeit noch radikaler und systematischer gelehrt. Sie gelten gemeinhin als „Mystiker“, etwa Meister Eckhart oder der von mir bearbeitete Hugo de Balma [2-4], ein Vorläufer von Eckhart. Aber bei uns im Westen hat sich keine veritable und systematische Schulung dieser Innerlichkeit entwickelt, und vor allem keine Erfahrungswissenschaft, also kein systematischer Weg der Erkundung, der Überprüfung und des kritischen Diskurses über solche Erfahrungen. Deswegen stehen wir ihnen auch skeptisch gegenüber und schieben sie ab ins Reich der Esoterik, der Beliebigkeit und der subjektiven Erbaulichkeit. Ich meine hingegen: unter der Voraussetzung, dass Bewußtsein eine gleich-ursprüngliche Manifestation von Wirklichkeit ist wie Materie, können wir auch durch die Rückwendung des Bewußtseins auf sich selbst diese Wirklichkeit erkunden. In den mystischen und spirituellen Traditionen sprechen wir dann von „inneren Erfahrungen“. Die äußere Erfahrung der Sinne zeigt uns etwas über die materielle Struktur der Welt, und unsere Wissenschaft hat uns seit ihren Anfängen in diesem Bereich viel gelehrt. Die innere Erfahrung zeigt uns etwas über die innere Struktur, z.B. unseres Lebens. Dann nennen wir dies „Sinnstruktur“ oder „Sinnfindung“. Sie zeigt uns aber auch etwas über die innere Struktur der Welt. Dann nennen wir dies „Werte“ oder „Wertfindung“, manchmal auch 44 Einsicht in theoretische Strukturen, wie sie Mathematiker oder geniale Physiker wie Leibniz, Newton, Einstein oder Heisenberg von Zeit zu Zeit hatten. Sie hatten ihre theoretischen Modelle ja auch nicht in der Sinnlichkeit vorgefunden, sondern in einer Art geistigen Struktur, die sie, analog einer kleinen oder größeren spirituellen Erfahrung, „von innen“ her, gemacht haben. Diesen Innenzugang zur Wirklichkeit haben wir im Westen kulturell gesehen versäumt zu systematisieren. Es gibt keine Orte – wie etwa an Schulen oder Universitäten – an denen er wirklich sorgfältig gelehrt oder untersucht würde. Es gibt hier keine Tradition, die prüft, nachdenkt, forscht und untersucht, welche Art von Zugang für welche Art von Menschen besonders nützlich wäre, usw. Die Theologie wäre eigentlich ein solcher Ort, hat sich aber aus meiner Sicht darauf beschränkt, die kognitiv-begrifflichen Strukturen zu analysieren, die vielleicht zur Interpretation mancher Erfahrungen taugen, sie aber nicht ersetzen. In der Übung des Geistes – wörtlich übersetzt heißt der alte Begriff für Meditation eigentlich „Kultur des Geistes“ – finden wir, daß wir plötzlich sinnlose Konzepte und Voraussetzungen, die wir ungeprüft ein Leben lang mit uns herumgeschleppt haben, durchschauen und loslassen können. Dies ist die Tradition der radikalen Prüfung unserer Denkstrukturen und Denkvoraussetzungen, für die die Zen-Tradition, innerhalb derer ich selber übe, bekannt ist. Das drückt sich aus in so berühmten Geschichten wie: „Was ist die wahre Lehre?“ „Nichts von heilig, reine Weite“. Diese Tradition der radikalen Prüfung hat Zen und eigentlich jede ernsthafte Tradition der Innerlichkeit, ob westlich oder östlich, mit dem Anliegen der Wissenschaft gemeinsam, nämlich alle Meinungen, alles Vermuten einer radikalen, methodisch abgesicherten Prüfung zu unterziehen. Das Element der methodischen Absicherung ist in unserer westlichen Wissenschaft sehr gut entwickelt und ein zentrales Bestimmungsmerkmal. Es ist im Bereich der Meditationstraditionen schwieriger zu gewinnen. In der Zen-Tradition und anderen spirituellen Traditionen wird es gewährleistet durch einen iterativen Prozeß, in dem der Schüler seinem Lehrer von den Erfahrungen berichtet und dieser anhand von konkreten praktischen Äußerungen prüft, ob die Aussagen stimmig sind – sie mit seiner eigenen Erfahrung und denen der Tradition vergleicht. Es gibt also auch hier eine Art Prüfkriterium der Absicherung von Erfahrung, nämlich durch die Praxis und den Vergleich mit der Tradition [5]. Es ist vielleicht weniger leicht verstehbar und weniger allgemein zugänglich, als in der Wissenschaft, aber nicht weniger rigoros. Schließlich gibt es auch in der Wissenschaft in speziellen Bereichen nur wenige Fachleute, die sagen können, ob ein berichteter Befund stichhaltig ist oder nicht, ein Modell tauglich oder nicht. Aber sicherlich müßte man hier viel Arbeit leisten, um eine veritable Methodik der Absicherung innerer Erfahrung zu leisten. Ursprünglich war dies das Programm, mit dem Franz Brentano 1873 in Wien angetreten war, eine neue, erfahrungsbasierte Philosophie zu etablieren, die dann als Psychologie Schule machte, allerdings stärker auf den Außenzugang der Naturwissenschaften setzend. Kultur des Geistes, etwa durch regelmäßige Meditation, könnte also nützlich sein, vor allem für Wissenschaftler, aber auch für andere Menschen, weil sie uns hilft einen neuen Zugang zur Wirklichkeit zu finden, nämlich den von innen her. Manchmal kann es einfach ein kreativer Einfall sein, wie sich bestimmte Datensätze zu einer sinnvollen Struktur verbinden 45 lassen. Manchmal kann es eine kluge Idee sein, welchen Forschungsweg man als Konsequenz aus bestimmten Erkenntnissen nun einschlagen solle. Manchmal kann es eine tiefe Einsicht über Wertstrukturen der Wirklichkeit sein, die uns zeigt, welche Wege, vermutlich a priori, nicht sinnvoll weiter zu gehen sind, ohne daß man erst ans Ende des Holzweges laufen muß und wieder zurück. Viel Geldverschwendung könnte auf diese Weise vermieden werden. Manchmal könnten es Entscheidungen und kreative Einfälle über neue Themen sein, die sich daraus ergeben. Und manchmal könnte es eben auch eine wegweisende „Erleuchtung“ einer ganz neuen Art von Theorie sein. Mir scheint, wir haben zu viel langweilige Alltagswissenschaft, die viel Geld kostet und nicht sehr weit führt. Ich glaube, dies ließe sich ändern, wenn mehr Wissenschaftler, aber auch mehr Politiker und andere Menschen den Zugang zu ihren inneren Inspirationsquellen systematisch freilegen würden. Durch regelmäßige Kultivierung ihres Hauptwerkzeuges, des Geistes. Ein Wissenschaftler, der seinen Geist nicht regelmäßig übt ist ein bißchen wie ein Sportler, der immer nur in Wettkämpfen und in Echtzeit seinen Körper fordert, aber nie systematisch üben würde. Auch ein solcher Sportler würde vielleicht gute Leistungen erzielen. Aber mit systematischer Übung eben bessere. Solche Übung des Geistes stünde auch denen an, die vor allem ihren Geist einsetzen, um zu Erkenntnis zu kommen. Und das ist nichts anderes als Übung der Meditation. Das wäre dann auch aus meiner Sicht eine konsequente Weiterführung der Aufklärung, die dringend Not tut [6]. ← Zurück zu Kapitel 8 Weiter zu Kapitel 10 → Quellen und Literatur [1] Walach H: Innere Erfahrung – eine wissenschaftstheoretische Spurensuche. in Yousefi HR, Dick C (eds): Das Wagnis des Neuen. Kontexte und Restriktionen der Wissenschaft. Festschrift fü Klaus Fischer zum 60. Geburtstag. Nordhausen: Traugott Bautz, 2009, 415-436. [2] Walach H: Notitia experimentalis Dei – Erfahrungserkenntnis Gottes. Studien zu Hugo de Balmas Text “Viae Sion lugent” und deutsche übersetzung. Salzburg, Institut für Anglistik und Amerikanistik der Universität Salzburg, 1994. [3] Walach H: A medieval Carthusian monk’s recipe to multiple kensho: Hugh of Balma’s approach to mystical union and some striking similarities to modern Zen teaching. Studies in Spirituality 2009;19:199-225. [4] Walach H: Notitia Experimentalis Dei – Experiential Knowledge of God: Hugh of Balma’s Mystical Epistemology of Inner Experience – A Hermeneutic Reconstruction. Salzburg, Institut für Anglistik, 2010. [5] Walach H, Runehov ALC: The epistemological status of transpersonal psychology: The data-base argument revisited. Journal of Consciousness Studies 2010;17:145-165. [6] Walach H: Spiritualität: Warum wir die Aufklärung weiterführen müssen. Klein Jasedow, Drachen Verlag, 2011. 46 (10) Plausibilitätsbias und die weit verbreitete Meinung, die Homöopathie sei „widerlegt“ Weitere Kapitel zum Thema “Bias”: Teil 8: Industry Bias – Eine neue Form des Bias oder ein interessanter Experimentator Effekt? (mit einer einleitenden Erklärung des Begriffs “Bias”) und Teil 5: Empirie und Theorie (1) – Bayes-Bias Eine Analyse der systematischen Reviews und Meta-Analysen zur Homöopathie kommt – außer sie wird im Detail und kenntnisreich durchgeführt – in der Regel zu der Auffassung, die Wirksamkeit homöopathischer Arzneimittel gegenüber Placebo sei nicht ausreichend belegt. Daraus machen dann die meisten Leser, Journalisten und auch viele Wissenschaftler die Aussage „Homöopathie ist unwirksam“ und einige Leute, die nicht besonders tiefgründig nachdenken oder gar ein anderweitiges Interesse verfolgen sagen dann sogar: „Die Unwirksamkeit der Homöopathie ist wissenschaftlich bewiesen“. Wir bemerken hier eine Steigerung: von „mangelnder Beleg des Unterschiedes zwischen Placebo und Homöopathie“, zu „mangelnder Beleg der Wirksamkeit“, zu „Beleg der Unwirksamkeit“. Woher kommt das? Eine neuere Arbeit von Rutten und Kollegen [1] führt einen interessanten Begriff ein, um das verständlich zu machen: Plausibilitätsbias. Damit ist gemeint: Was wir a-priori für denkbar, möglich und vernünftig halten, das prägt auch die Art, wie wir mit Daten umgehen. Anhand der oft zitierten Meta-Analyse von Shang und Kollegen [2] will ich das hier mit dem Leser durchexerzieren. Um das Ergebnis gleich vorweg zu nehmen: es ist nicht richtig, zu sagen, Homöopathie sei unwirksam und das sei wissenschaftlich belegt. Es wird nur so gesehen, weil sie, die Homöopathie, den allermeisten Leuten auf den ersten Blick unplausibel erscheint. Die Shang-Analyse [2] hat im ersten Schritt 110 homöopathische und ebenso viele konventionelle Studien miteinander verglichen, die das gleiche Krankheitsbild behandelten und im Rahmen einer etwa gleich großen Studie untersuchten. Nimmt man alle Studien zusammen, dann ist das Ergebnis der konventionellen und der homöopathischen Studien erstaunlich ähnlich: beide Interventionsformen zeigen eine kleine Überlegenheit über Placebo. In der Tat sind sie so nahe bei einander, dass sogar die Autoren selber erstaunt feststellen, dass es kaum einen Unterschied gibt. Sie heben sogar hervor, dass dies nicht mit methodischen Schwächen der Homöopathiestudien zusammenhängen kann. Denn 19% der homöopathischen, aber nur 8% der konventionellen Studien waren methodisch sehr gut. Dann taten Shang und Kollegen etwas eher Unübliches: Anstatt alle Studien zu analysieren, verwendeten sie in einem zweiten Analyseschritt nur 8 der 110 Homöopathiestudien und 8 ähnlich große konventionelle Studien, die aber mit ganz anderen Krankheiten zu tun hatten. Das wurde aber erst viel später klar, als viele Leser und Autoren protestierten und die Liste der Studien sehen wollten, die in die Analyse eingegangen waren. Wenn man nun nur diese 8 Studien analysiert und das Analyseergebnis mit den 8 konventionellen Studien vergleicht findet man, dass diese 8 homöopathischen Studien keinen Unterschied zwischen Homöopathie und Placebo belegen konnten, wenn man sie zusammen nimmt, die gewählten konventionellen Studien hingegen sehr wohl. 47 Die Auswahl dieser Studien wurde nun heftig kritisiert. Zum einen, weil lange unklar war, welche Studien dies waren. Zum anderen, weil die Auswahlkriterien willkürlich erscheinen. Es waren die „grössten“ Studien, sagen die Autoren. Aber was ist groß? Ist eine Studie mit 98 Patienten groß, wie meine eigene, die die letzte der 8 eingeschlossenen Studien war [3]? Warum nicht auch eine mit 90 Patienten, die nicht mehr in die Analyse einging? Diese Kriterien und ihre Begründung blieben intransparent [4,5]. Eine Re-Analyse der Daten zeigte, dass sich die Schlußfolgerungen ändern, wenn man die Anzahl der Studien in der Analyse ändert, also z.B. noch zwei oder drei oder fünf Studien mehr hinzu nimmt [6]. Eine solche sog. „Sensitivitätsanalyse“ gehört eigentlich zum Standard jeder Meta-Analyse und hätte den Autoren zeigen müssen, dass ihre Schlußfolgerungen nicht robust und daher auch wissenschaftlich nicht begründet sind. Eine solche Sensitivitätsanalyse haben die Autoren nicht vorgelegt. Da es keinen, aber auch überhaupt gar keinen wissenschaftlichen Grund gibt, warum man genau jene 8 und nicht vielleicht 7 oder 10 oder noch mehr nehmen sollte, bleibt die Schlußfolgerung der Analyse wissenschaftlich fragwürdig. Interessanterweise wird diese substanzielle Kritik von praktisch allen Autoren, die die Shang-Analyse zum Beweis der Wirkungslosigkeit der Homöopathie zitieren, komplett ignoriert. Ein anderes interessantes Detail: Shang und Kollegen sagen, es gäbe ein Subset von Studien zu Atemwegsinfekten, bei denen die Homöopathie sogar sehr gut abschneide, statistisch signifikant und mit klinisch relevanten Effektgrössen. In anderen Interpretationen wird dieses Subset von Daten angezweifelt. Denn 11 von den insgesamt 21 Studien haben kein eindeutig positives Ergebnis, sondern zeigen nur einen positiven, aber nichtsignifikanten Trend; sie haben also ein Problem mit der statistischen Mächtigkeit, weil die Effekte nicht so groß und die Studien eher klein sind. Allerdings zeigt eine Analyse der von Shang herangezogenen konventionellen Vergleichsstudien ein vergleichbares Bild: 9 von 21 konventionellen Atemwegsinfekt-Studien sind unklar und haben keinen signifikanten Effekt. Der zusammengefaßte Effekt ist in beiden Studienensembles also etwa gleich. Warum geht man nun davon aus, dass die homöopathischen Studien es verfehlt haben, Wirksamkeit zu beweisen, während man bei der Meinung bleibt, dass die konventionellen Studien eine Wirksamkeit gezeigt hätten? In den Daten kann man diesen Unterschied nicht sehen. Diese Ansichten sind ein Resultat eben jenes Plausibilitätsbias. Bias bedeutet immer eine Verzerrung der Wahrnehmung. Beim Plausibilitätsbias wird die Wahrnehmung verzerrt durch das, was wir plausibel finden: die meisten von uns haben keine Vorstellung davon, wie Homöopathie wirken können soll. Also ignorieren wir entweder die Daten, oder interpretieren sie nicht richtig. Rutten und Kollegen sind Kliniker und weisen darauf hin, dass ihre apriori-Bereitschaft, Homöopathie als potenziell wirksam anzusehen, daher kommt, dass sie zuvor selbst wiederholt klinische Effekte der Homöopathie gesehen haben. Wer das nicht hat, interpretiert die Daten häufig anders. Rutten und Kollegen weisen auch darauf hin, dass es in der Medizin gang und gäbe war und immer noch ist, dass wirksame Interventionen aus Erfahrung heraus entwickelt werden und sich durch den klinischen Einsatz bewähren, lange bevor durch Forschung ggfls. klar wird, warum etwas wirkt. Ein häufig genanntes Beispiel für diesen Ablauf ist Acetylsalicylsäure (ASS), bekannter unter dem Markennamen “Aspirin”. In der Volksmedizin wurden Weidenrindentee und extrakte, die eine ähnlich wirkende Vorstufe von ASS enthalten, schon seit antiker Zeit gegen Schmerzen verwendet. 1897 wurde ASS von Bayer synthetisiert und dann als 48 “Aspirin” vermarktet. Der Mechanismus – die Hemmung der Prostaglandinsynthese – wurde erst 1971 aufgeklärt, und seither verstehen wir immer mehr Details des Wirkmechanismus von Salicinverbindungen. Es wäre klinisch betrachtet völlig unplausibel gewesen, den bewährten Einsatz von Salicinverbindungen abzulehnen, nur weil man (noch) nicht verstanden hat, wie die Substanzen wirken. Bei der Homöopathie ist das Problem noch ein bisschen tiefgründiger: hier kann man sich anhand des etablierten Wissens auf Anhieb nicht einmal vorstellen, warum sie wirken sollte. Aber selbst das sollte allenfalls Anlass zu gesunder Skepsis sein, die ja jederzeit völlig gerechtfertigt ist, aber sollte nicht gleich zu kompletter Ablehnung und Wahrnehmungsverweigerung führen. Das ist aber genau das, was derzeit in weiten Kreisen geschieht – und genau das ist Plausibilitätsbias: eine Fehlwahrnehmung, eine Verweigerung der Wahrnehmung von Fakten, weil sie einem nicht in den Kram des eigenen Weltbildes passen. So sollte – eigentlich – Wissenschaft nicht vorgehen, tut es aber häufig trotzdem, vielleicht einfach weil es den Feierabend weniger stört. Die Moral von der Geschicht’? Die Aussage, die Unwirksamkeit der Homöopathie sei bewiesen ist in sich selbst unwissenschaftlich, weil nicht belegbar, nicht mit den Fakten übereinstimmend und einem Plausibilitätsbias geschuldet. Wahrscheinlich sollten wir uns selbst viel öfter Rechenschaft über unsere Ausgangsannahmen ablegen, mit denen wir die Welt betrachten und anhand derer wir für denkbar halten, was darin vorkommen kann, wenn wir den Plausibilitätsbias vermeiden wollen. ← Zurück zu Kapitel 9 Weiter zu Kapitel 11 → Quellen und Literatur [1] Rutten, L., Mathie, R. T., Fisher, P., Goosens, M., & van Wassenhoven, M. (2012). Plausibility and evidence: the case of homeopathy. Medical Health Care and Philosophy, doi: 10.1007/s11019-012-9413-9. [2] Shang, A., Huwiler-Münteler, K., Nartey, L., Jüni, P., Dörig, S., Sterne, J. A. C., et al. (2005). Are the clinical effects of homeopathy placebo effects? Comparative study of placebo-controlled trials of homoeopathy and allopathy. Lancet, 366, 726-732. [3] Walach, H., Gaus, W., Haeusler, W., Lowes, T., Mussbach, D., Schamell, U., et al. (1997). Classical homoeopathic treatment of chronic headaches. A double-blind, randomized, placebo-controlled study. Cephalalgia, 17, 119-126. [4] Walach, H., Jonas, W., & Lewith, G. (2005). Letter to the Editor: Are the clinical effects of homoeopathy placebo effects? Comparative study of placebo-controlled trials of homoeopathy and allopathy. Lancet, 366, 2081. 49 [5] Fisher, P., Bell, I. R., Belon, P., Bolognani, F., Brands, M., Connolly, T., et al. (2005). Letter to the Editor: Are the clinical effects of homoeopathy placebo effects? Lancet, 366, 2082. [6] Lüdtke, R., & Rutten, A. L. B. (2008). The conclusions on the effectiveness of homeopathy highly depend on the set of analyzed trials. Journal of Clinical Epidemiology, 61, 1197-1204. (11) Wie wissenschaftlich ist die Komplementärmedizin? Oder: Vom Hirsch im Blätterwald Immer wieder wird behauptet, die Komplementärmedizin sei nicht sonderlich wissenschaftlich, die konventionelle Medizin hingegen sei wissenschaftlich und gut belegt. Vor allem junge Blogger argumentieren manchmal so, aber auch Journalisten und Kolleginnen und Kollegen aus dem universitären Umfeld. Das Adjektiv „wissenschaftlich“ wird in solchen Auseinandersetzungen meiner Beobachtung nach in mindestens drei Bedeutungen verwendet: Fundamentalreligiös: Mit „wissenschaftlich“ ist dann ein bestimmtes Weltbild gemeint, das bestimmte Grundannahmen einschließt, von denen man glaubt, sie seien unabdingbarer Teil der Wissenschaft. Überlegt man genauer, dann erkennt man relativ rasch, dass diese Grundannahmen aus bestimmten historischen Formen von Wissenschaft oder bestimmten Teildisziplinen von Wissenschaft entstanden sind – sie sind aber nicht Bestandteil von Wissenschaft schlechthin. Es handelt sich dabei um die Annahmen eines generellen Materialismus in dem Sinne, dass man davon ausgeht, einzig Materie sei wirklich, alles andere davon abgeleitet. Diese Aussage selbst ist eine philosophische oder religiöse, aber keine wissenschaftliche. Häufig verwechseln Autoren die Voraussetzungen, die eine bestimmte Form von Wissenschaft macht – und machen muß –, mit den Ergebnissen und mit den Möglichkeiten von Wissenschaft schlechthin. Ob Komplementärmedizin in diesem Sinne „wissenschaftlich“ ist oder nicht, ist nicht geklärt. Man kann sicherlich eine materialistische Reduktion der meisten Behauptungen vornehmen, die in der Komplementärmedizin gemacht werden. Meistens entpuppt sich eine solche Verwendung des Begriffs „wissenschaftlich“ jedoch als krypto-religiös. Sie ist im eigentlichen Sinne szientistisch: Die Methode der Wissenschaft wird zu einer Weltanschauung erhoben. Bereits Husserl hat auf die Probleme und Gefahren eines solchen Vorgehens hingewiesen [1]. Man sollte sich jedenfalls klarmachen, dass eine solche Verwendung des Begriffs nichts mit Wissenschaft selbst zu tun hat. Methodisch: Man glaubt, Komplementärmedizin sei von der Methodik her nicht gut genug empirisch geprüft. Die Behauptung stützt sich darauf, dass moderne pharmakologische Interventionen schon aus Gründen der Zulassung durch Doppelblindstudien evaluiert werden müssen und 50 daher eine vergleichsweise solide Datenbasis haben, jedenfalls im Durchschnitt und meistens. Dies ist bei komplementärmedizinischen Maßnahmen nicht immer so. Meist sind sie älter und traditionell überliefert und haben daher einen gewissen Vorsprung im Sinne einer allgemeinen „Erfahrungsmedizin“ und rechtlich einen anderen Status. Dass auch diese Verfahren solide wissenschaftlich untersucht gehören, darüber sind sich die meisten Proponenten der Komplementärmedizin einig. Dies ist komplex, wie jeder weiß. Doch trotz der methodischen Schwierigkeiten ist zum Beispiel die Akupunktur bei Schmerzsyndromen vermutlich solider untersucht und wirksamer als viele pharmakologische oder andere Interventionen [2,3]. Eine aktuelle Analyse der Datenbasis der kardiologischen Leitlinien sagt, dass im Median nur 11% gut belegt sind [4], und in der Onkologie sind es gar nur knapp 7% [5]. Ich vermute: Wenn man ganz unvoreingenommen prüfen würde, wäre es um die „Wissenschaftlichkeit“ der Komplementärmedizin im methodischen Sinne gar nicht so schlecht bestellt. Sozial: Häufig ist mit „unwissenschaftlich“ „den Konsens der Mehrheit der Fachleute verletzend“ gemeint. Auch wenn das selten explizit erwähnt wird, so schwingt diese Bedeutung meistens mit. Das ist in gewisser Weise sinnvoll, denn die soziale Dimension ist auch in der Wissenschaft wichtig. So ziehen Wissenschaftsjournalisten bei ihren Artikeln häufig „Gewährsleute“ für Wissenschaftlichkeit zum Beleg ihrer Meinungen oder Interpretationen heran. „Wissenschaftlichkeit“ wird dann durch den Stellvertreterparameter „Prominenz“ in der wissenschaftlichen Gemeinschaft oder Ähnliches definiert, ein soziales Kriterium also. Der Operationalisierung eines solchen sozialen Kriteriums will ich mich nun zuwenden und fragen: Stimmt es, dass in diesem sozialen Sinne Komplementärmedizin „unwissenschaftlich“, also sozial wenig rezipiert und respektiert ist? Ich stütze mich dabei auf die internationale Gemeinschaft, denn sie ist der Referenzpunkt. Der Hirsch-Faktor als szeintometrischer Index Eine einfache, approximative und vielleicht auch etwas oberflächliche Methode ist die, einen szientometrischen Index zu befragen, den sogenannten „Hirsch-Index“ [6]. Dieser Index ist eine dimensionslose Zahl, die angibt, wie häufig, im Verhältnis zur Zahl der Publikationen, die Arbeit eines Wissenschaftlers von anderen Wissenschaftlern weltweit aufgegriffen wird. Sie verrechnet sozusagen die Produktivität eines Autors mit seiner Resonanz in der Gemeinschaft. Wer viel schreibt, aber nicht gelesen wird, hat genauso einen relativ niedrigen Hirsch-Faktor wie jener, der relativ wenig schreibt und mittelmäßig rezipiert wird. Sein Einfluss bleibt marginal. Jemand, der nur sehr wenig schreibt, das aber in viel gelesenen und zitierten Zeitschriften wie „Science“ und „Nature“ erscheint, hat dagegen einen relativ hohen Hirsch-Faktor. Dasselbe kann man auch erreichen, wenn man viel schreibt, das mittelmäßig oft aufgegriffen wird. Außerdem sieht man an der Zitationshäufigkeit, welches Gebiet und welches Thema im Moment „heiß“ ist, also worum sich auch viele andere Forscher kümmern. Denn wenn jemand z.B. an der Bedeutung bestimmter Phrasierungen in akkadischen Texten des 2. Jahrtausends v. Chr. forscht, wird er, auch wenn er extrem gut und sorgfältig arbeitet, vielleicht eine kleine Gruppe von weltweit vielleicht 50 Spezialisten erreichen. Damit ist seine maximale Reichweite immer beschränkt. Insofern ist der Hirsch-Faktor natürlich auch ein sehr grobes Maß sozialer Integration. Er bildet Spezial- und Randgebiete nicht gut ab. Daher kann man auch auf Gebieten, auf denen viele arbeiten, auf denen es viel Neues gibt und viel Durchsatz, viel rascher zu Ehren kommen als auf anderen. Die Wissenschaft ist ein großes 51 Gedränge. Jeder will gehört werden, jeder will vorne sein, alle wollen Preise, jeder hält seine Arbeit für die wichtigste. Im Hirsch-Faktor bildet sich das Selbstorganisationsbestreben der sozialen Gemeinschaft der Wissenschaft ab. Was die anderen interessiert, was ihnen nützlich vorkommt, was sie spannend und vernünftig finden, das zitieren sie. Das andere versinkt in den Archiven und Datenbanken. Diese soziale Aufmerksamkeit ist nicht immer ohne Verzerrung. Im Gegenteil, die Vorlieben und Abneigungen spiegeln sich darin. Dennoch ist die Analyse des Hirsch-Faktors nützlich. Daher habe ich mir erlaubt, diese Fingerübung einmal mit Forschern aus der komplementärmedizinischen Szene zu machen und mit solchen, die von Journalisten gerne und oft als Kritiker und als Gewährsleute herangezogen werden bzw. sich selber als solche in ihren Blogs stilisieren. Ich habe dazu ein frei verfügbares Programm verwendet, das mit verschiedenen Online-Datenbanken zusammenarbeiten kann (http://www.harzing.com). Das Programm arbeitet mit Google-Scholar. Das ist insofern fair, weil es das Nutzungsverhalten der „Community“ gut spiegelt und weil sich hier eine breitere Datenbasis sammelt als in den weniger gut zugänglichen Zitierindizes der Verlage [7]. Außerdem hat diese Analyse den Vorteil, dass sie von jedem leicht repliziert, erweitert oder aktualisiert werden kann. Ich gehe folgendermaßen vor: Ich stelle in einer Tabelle die Kennwerte einiger prominenter „Skeptiker“ vor, die gerne von sich behaupten, sie seien „wissenschaftlich“. Sie positionieren sich auch gerne in der Öffentlichkeit als die Stimme der Wissenschaft. Dann stelle ich einige Vertreter der Mainstream-Wissenschaft vor, die mir über alle Zweifel erhaben scheinen, weil sie a) gute Positionen inne haben (z.B. Leiter von MaxPlanck Instituten, Professoren); b) innerhalb ihrer Gemeinschaft eine Art Führungsposition innehaben (z.B. Leiter und Gründer von wissenschaftlichen Fachgesellschaften oder Institutionen, prominente Position in der Öffentlichkeit; Klinikumsdirektor); und c) für Gebiete stehen, die allgemein als wichtig und „wissenschaftlich“ gesehen werden (Hirnforschung, Philosophie des Geistes, Medizin). Ich gehe dabei auch pragmatisch vor insofern, als ich Namen wähle, die nicht doppelt oder öfter vorkommen, damit es keine Überschneidungen gibt. Und ich wähle Namen von Personen, die ich kenne bzw. von denen ich weiß, dass sie prominent sind. Diese Auswahl ist sicherlich subjektiv und dient eigentlich nur der „Eichung“ der Befunde. Schließlich stelle ich in einer dritten Tabelle prominente Vertreter der komplementärmedizinischen Forschung vor. Tab. 1 – Hirsch Faktor einiger prominenter „Skeptiker“ oder Gewährsleuten von „skeptischen“ Journalisten Name Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen Jürgen Windeler 13 90 29 1042 Ulrich Berger 6 12 14 170 Martin Lambeck 3 11 49 58 Florian Freistetter 4 15 13 54 Tab. 2 – Hirsch-Faktor einiger prominenter deutscher und internationaler „MainstreamForscher“ 52 Name Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen Tania Singer 27 81 20 5581 Karl Max Einhäupl 15 23 27 928 Thomas Metzinger 21 134 31 2945 Daniel Kahnemann 105 448 51 148’244 Volker Sommer 22 180 27 1’259 Franz Daschner 30 116 38 2561 Hans Christoph Diener 55 489 38 16’322 John P.A. Ioannidis 67 364 17 22’475 Sonu Shamdasani 11 76 23 735 Tab. 3 – Hirsch-Faktor einiger prominenter komplementärmedizinischer Forscher und Autoren Name Hirsch Faktor Anzahl Publikationen Anzahl Jahre Anzahl Zitationen George Lewith 21 154 32 2004 Aviad Haramati 19 76 33 1193 Claudia Witt 25 169 22 3266 Andreas Michalsen 20 90 21 1204 Benno Brinkhaus 22 72 16 2643 Gustav Dobos 23 131 27 1684 Wayne B. Jonas 31 173 22 4739 Dieter Melchart 26 169 33 5007 Harald Walach 29 283 26 4210 Man sieht an diesen Daten sehr rasch: Die soziale Dimension der Wissenschaft zeigt klar, dass die „Skeptiker“, die sich gern als Epithet der Wissenschaft in der Öffentlichkeit positionieren eigentlich, wissenschaftlichsozial gesehen, randständige Figuren sind. Die Varianz der Rezeption von MainstreamWissenschaft ist riesig. Ein Autor wie Daniel Kahnemann, Psychologe und Nobelpreisträger für Ökonomie wird enorm rezipiert und hat daher auch einen großen Hirsch-Faktor von über 100. Aber auch ein hoch-angesehener Mainstream-Wissenschaftler wie mein Freund und Kollege Volker Sommer, der ein bekannter Evolutionsbiologe ist, eine Professur am University-College London für evolutionäre Anthropologie hat und gleichzeitig in der 53 Universitätsleitung für Forschungsstrategie zuständig ist, hat einen Hirsch-Faktor im mittleren Bereich. Ein andere Freund von mir, der international hoch renommierte C. G. Jung-Forscher Sonu Shamdasani, ebenfalls Professor am University College London, aber repräsentativ für eine eher kleine Community von Medizin-Historikern erreicht einen H-Faktor von 11, was zeigt, dass die Zahl sehr relativ ist, je nachdem, in welchem Gebiet man tätig ist. Mein ehemaliger Chef, Mentor und Förderer Franz Daschner, ehemaliger Institutsleiter in Freiburg mit viel Ansehen, Preisen und weitem internationalem Renommee, hat im Laufe seiner langen Karriere einen Hirsch-Faktor von 30 erreicht. Das übersteigt den Wert des derzeitigen Chefs der Charité, Max Einhäupls, um einiges. Ein prominenter Neurologe wie Diener kann diese Werte überbieten. Andere, wie Tania Singer, die noch junge Leiterin des Max-Planck Instituts für „Social Neuroscience“ in Leipzig, oder der Philosoph Thomas Metzinger liegen in einem Bereich, der durchaus allgemeine internationale Anerkennung und Rezeption signalisiert. John Ioannidis wurde von mir gewählt, weil er eine Art Leuchtrakete am Methodenhimmel darstellt. Er hat enorm weit berücksichtigte Arbeiten verfaßt, die viel zitiert und aufgegriffen werden. Ein H-Faktor von 67 signalisiert dies. Vergleicht man die Werte prominenter Skeptiker mit diesen Daten, so muß man klar sagen: die Skeptiker mögen von sich selber denken, dass sie „die Wissenschaft“ repräsentieren. Faktisch wird das, was sie tun und publizieren, wenig rezipiert. Noch hat es nennenswerte Resonanz in der Wissenschaft. Da stehen prominente Vertreter der Komplementärmedizin um Längen besser da. Dies belegt, was schon öfter gesagt wurde: die Komplementärmedizin ist im Mainstream angekommen [8]. Die Werte unterscheiden sich innerhalb der Szene nicht groß und liegen zwischen 20 und 30, genau in dem Bereich, in dem wir auch diejenigen von international respektierten Mainstream-Forschern finden. Die Werte deutscher komplementärmedizinischer Forscher liegen auch im internationalen Vergleich gut: Ich habe zwei Vergleichswerte angeführt, den von Wayne Jonas, dem ehemaligen Leiter des Office of Alternative Medicine und jetzigen Direktors des Samueli Instituts, und den von Aviad Haramati, des Leiters des Consortiums der US-amerikanischen Institutionen und Kursleiters an der renommierten Georgetown University in Washington. Die deutschen Kollegen müssen sich nicht verstecken. Sie müssen sich auch nicht vor ihren Kollegen aus dem Mainstream verstecken, und schon gar nicht vor denen, die als Kritiker gerne behaupten, sie würden „Wissenschaftlichkeit“ repräsentieren. Wenn man sich anschaut, wie Wissenschaft tatsächlich funktioniert, erscheint das Selbstverständnis der „Skeptiker“ als pure Illusion und Selbsttäuschung. Anscheinend hilft der angeblich so kritische Geist wenig, um bis zur Selbstkritik vorzustoßen. Wenn wir also „wissenschaftlich“ pragmatisch definieren, sozial und so, wie Wissenschaft funktioniert, können wir konstatieren: Komplementärmedizin ist wissenschaftlicher als manches, was sich gerne als Wissenschaft versteht und verkauft wird. Komplementärmedizin ist Wissenschaft. Das mag manche ärgern. Aber wie ich hier gezeigt habe, ist es objektiv belegbar. ← Zurück zu Kapitel 10 Weiter zu Kapitel 12 → 54 Quellen und Literatur 1. Husserl E: Die Krisis der europäischen Wissenschaften und die transzendentale Philosophie. Hamburg, Meiner, 1977. 2. Vickers AJ, Cronin AM, Maschino AC, Lewith GL, MacPherson H, Foster NE, Sherman KJ, Witt CM, Linde K, Collaboratoin ftAT: Acupuncture for chronic pain: Individual patient data meta-analysis. Archives of Internal Medicine 2012;online first. 3. Savigny P, Kuntze S, Watson P, Underwood M, Ritchie G, Cotterell M, Hill D, Browne N, Buchanan E, Coffey P, Dixon P, Drummond C, Flanagan M, Greenough C, Griffiths M, Halliday-Bell J, Hettinga D, Vogel S, Walsh D: Low Back Pain: early management of persistent non-specific low back pain. London, National Collaborating Centre for Primary Care and Royal College of General Practitioners, 2009. 4. Tricocci P, Allen JM, Kramer JM, Califf RM, Smith Jr SC: Scientific evidence underlying the ACC/AHA clinical practice guidelines. Journal of the American Medical Association 2009;301:831-841. 5. Poonacha TK, Go RS: Level of scientific evidence underlying recommendations arising from the National Comprehensive Cancer Network clinical practice guidelines. Journal of Clinical Oncology 2010;29:186-191. 6. Sidiropoulos A, Katsaros D, Manolopoulos Y: Generalized Hirsch h-index for disclosing latent facts in citation networks. Scientometrics 2007;72:253-280. 7. Larsen PO, von Ins M: The rate of growth in scientific publication and the decline in coverage provided by Science Citation Index. Scientometrics 2010;84:575-603. 8. Brodin Danell J-A, Danell R: Publication activity in complementary and alternative medicine. Scientometrics 2009;80:539-551. (12) Vitamine: über die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien untersuchen zu können Ein kleines Lehrstück über statistische Mächtigkeit und die Unmöglichkeit, die wichtigsten Dinge im Leben in Studien untersuchen zu können (*) Ich greife meinen Methodenblog nach langer Pause wieder auf, diesmal mit einer beispielhaften Diskussion um die neuen Vitaminstudien, an denen man viel über Statistik und Methodik lernen kann. „Genug ist genug“, titelte das Editorial der Annals of Internal Medicine [1], das eine Serie von Publikationen – ein systematischer Review mit MetaAnalyse [2] und einige originale Arbeiten [3] zur Wirksamkeit von Vitaminen in der primären Prävention von Krankheiten begleitete. Die Botschaft wurde von den Medien aufgegriffen und entsprechend weitergegeben. Vitamine seien Unsinn, gesunde Ernährung wäre genug. Das Einnehmen von Vitaminpräparaten und Supplementen sei gar gefährlich, so war zu hören. Das sei nun endgültig klar. Was daran stimmt? 55 Man kann an diesen Studien und ihrer Problematik einiges veranschaulichen. Zuvor ein paar wichtige Klärungen: Die Meta-Analyse, die wir uns genauer ansehen werden [2], fasste Studien zusammen, die einzelne Vitamine, meistens in Einzelgabe, und manchmal auch Multivitamine zur Primärprävention untersucht hatten. Primärprävention bedeutet: Die Menschen, die im Rahmen von solchen Studien Vitaminpräparate genommen haben, waren nicht krank, sondern versuchten mit Hilfe der Einnahme solcher Vitamine Krankheit zu verhindern. Entsprechend waren die Studien auch angelegt: langfristig und mit großen Zahlen, jedenfalls meistens. In allen Studien wurde zur Kontrolle natürlich Placebo verwendet und die Zuteilung erfolgte durch Zufall, also randomisiert, wie es dem momentanen Standard entspricht. Gemessen wurde meistens die Mortalität über den Studienzeitraum, also Todesfälle an allen möglichen Erkrankungen, oder auch die Krebsinzidenz, also das Neuauftreten einer Krebsdiagnose. Manche Studien in der Meta-Analyse und die noch zu diskutierende Studie von Lamas und Kollegen [3] waren sog. Sekundärpräventionsstudien. Das sind solche, bei denen die Patienten bereits eine Erkrankung, z.B. einen Herzinfarkt wie bei Lamas et al. [3], oder eine Angina pectoris, hatten. Die Analyse von Fortmann et al (2013) [2] lässt in der Tat keinen großen Zweifel daran, dass die Vitamingabe von Einzelpräparaten, in Isolation von anderen gesehen, also ohne potenzielle synergistische Effekte in einer gesunden, gut ernährten Population ohne Erkrankung keinen großen Sinn ergibt und die Mortalität nicht senkt, ja sogar schädlich sein könnte, mit Ausnahme von Vitamin D. Hier ist das letzte Wort noch nicht gesprochen, denn es liegt ein schwacher, kleiner, knapp nicht signifikanter Effekt zugunsten von Vitamin D vor (Relatives Risiko = 0.94, also eine kleine Risikoreduktion um 6 %). Bei Folsäure liegt nur eine Studie vor mit sehr hohem positivem Effekt, aber zu großer Streuung, bei Vitamin A liegt ebenfalls nur eine Studie vor mit kleinem negativem Effekt, bei Multivitaminen könnte man diskutieren, weil der Effekt gerade mal nicht signifikant ist bei Mortalität und Krebs. Aber insgesamt ist das Ergebnis doch relativ klar. Die Autoren haben nur gute und einigermaßen gute randomisierte Studie an gesunden Menschen eingeschlossen und Sekundärpräventionsstudien nur, wenn sie klare Hypothesen hatten. Damit verbieten sich Schlußfolgerungen auf den Einsatz solcher Präparate bei Kranken und zwar dann, wenn sie zu gezielter Supplementation verwendet werden. Es ist ein großer Unterschied, ob gesunde Menschen einfach so isolierte und synthetisch hergestellte Vitamine über lange Zeit zu sich nehmen, oder ob nach sorgfältiger Diagnose bei einer Krankheit ein Mangel festgestellt wird und dann eine Substitution durchgeführt wird. Außerdem wird in dieser Diskussion oft Folgendes vergessen: 1. 2. Vitamine kommen in der Natur nur in Kombination vor, wirken also immer synergistisch. Mein Paradebeispiel für Synergismus ist ein Kind, das ein geübter Reiter ist und auf einem großen Pferd, das sich von ihm reiten lässt, wesentlich schneller vorankommt als ohne, oder Hürden überspringen kann, das es ohne Pferd nicht überspringen könnte. Umgekehrt würde das Pferd ohne den Reiter in der Regel weniger weit und ausdauernd laufen und auch ohne Not nicht so hoch springen. Vitamine sind nur eine Gruppe von schätzungsweise 10.000 oder mehr sekundären Pflanzenstoffen, die in den natürlichen Vitaminquellen vorkommen und die möglicherweise viel bedeutsamer sind als die Vitamine selber. Sie sind noch relativ wenig erforscht. So weiß man mittlerweile, dass etwa Farbstoffe in der Haut von Früchten, oder Bitterstoffe und Geschmacksstoffe oft viel potentere Radikalfänger sind als die Vitamine selber. Vitamine sind einfach historisch die erste dieser Gruppe von Stoffen, die erforscht wurden und von denen man weiß, dass sie für den Organismus wichtig sind, weil er sie selber nicht herstellen kann. Aber selbst wenn man Zitronensaft oder Orangensaft trinkt oder einen Apfel isst, dann nimmt man nicht einfach Vitamin C zu sich, sondern hunderte von anderen Pflanzenstoffen. 56 3. Vitamine können, wenn sie isoliert gegeben werden, zu lange und zu hoch dosiert und vor allem auch ohne ihre natürlichen Partner selber als freie Radikale wirken. Freie Radikale sind jene Stoffe, die beim Stoffwechsel im Körper entstehen. Sie enthalten ein Sauerstoff- und ein Wasserstoffatom oder ein Stickstoff- und ein Sauerstoffatom. Sie heißen deswegen „Radikale“, weil diese HO- oder NO-Moleküle Bindungsbestandteile sind, die reagibel sind, also nach Bindungen mit anderen Molekülen suchen. Wenn Vitamine oder andere Radikalfänger vorhanden sind, werden sie von diesen abgefangen und damit unschädlich gemacht. Wenn zu wenig von diesen vorhanden sind, dann kommt es zum sog. „oxidativen Stress“, einem Überschuss freier Radikale, die sich dann andere Bindungspartner suchen, z.B. organische Strukturen von Zellen, die damit zerstört werden. Das könnte der Ursprung für manche chronische Krankheit werden. Deswegen sind Radikalfänger, u.a. Vitamine, wichtig. Allerdings erzeugt auch der Organismus, aktivierte Makrophagen z.B. bei einer Infektion, aktiv solche freien Radikale zur Abwehr von Bakterien und Viren. Also muss man die Sache auch etwas von der anderen Seite betrachten. Und, hinzukommt wie gesagt, isoliert und zu hoch dosiert können Vitamine selber zu solchen Radikalen werden. Ausreichende Schutzstoffe haben wir nur, wenn wir möglichst wenig denaturierte Nahrung zu uns nehmen und gesunde Ernährung im Rahmen eines Gesamtkonzeptes der Primärprävention verstehen und nicht Vitaminpillen wie Medikamente zu uns nehmen. Insofern ist die Schlussfolgerung, die die populäre Presse aus diesen Studien zieht: Vitamine und Supplemente können wir uns sparen, es ist ja alles gut, etwas kurzsichtig. Wir hätten uns das Geld für derartige Studien a priori sparen können, denn sie beantworten eigentlich eine einigermaßen dämliche Frage, nämlich ob es sinnvoll ist, isolierte Substanzen über längere Zeit in relativ hoher Dosis zu sich zu nehmen. Das Denken in isolierten kausalen Bezügen, das einer solchen Konzeption zu Grunde liegt, sie ist das eigentliche Problem. Und darauf weisen uns die Studien hin. Dass ein etwas synergistischeres Konzept, wie das in der Studie von Lamas und Kollegen (2013) [3] verwirklichte, u.U. vor allem in der Sekundärprävention sinnvoll sein kann, sieht man, wenn man die Daten dieser Studie genauer betrachtet. Auch hier liegt kein signifikantes Ergebnis vor, und die Studie wird also als „negativ“ kolportiert. Hier wurden Patienten, die bereits einen Herzinfarkt hinter sich hatten, mit einer relativ hohen Dosis von verschiedenen Präparaten behandelt, insgesamt 28 Präparaten, ein Mix aus Vitaminen und Mineralien. Manche in hoher Dosierung, wesentlich höher als empfohlen. Für manche gibt es keine Empfehlung, wie für Bioflavonoide. Vitamin D dagegen war mit 100 IU eher niedrig dosiert. Aber auf jeden Fall hatten die Autoren einen wohlinformierten Versuch gemacht mit einem physiologisch sinnvollen Cocktail zu arbeiten. Weil die Patienten daher relativ viele, große Kapseln zu schlucken hatten, ließ die Compliance nach, ein Haupt-Problem der Studie. Sieht man genauer hin, dann erkennt man, dass die Effekte gar nicht so schlecht waren: Die Hazard-Ratio, also das Risiko über die Zeit hinweg, lag bei 0.89 für alle Arten von Mortalität, war also um 11% reduziert, bei Schlaganfall lag sie bei 0.53, eine Reduktion um knapp die Hälfte, und bei Hospitalisierungen wegen Angina pectoris lag sie bei 0.63, war also um knapp 40% reduziert. Kardiovaskulärer Tod, ein sekundärer Endpunkt war um 20% reduziert. Das Problem war also weniger die Tatsache, dass keine Effekte vorhanden waren, sondern dass die Effekte geringer waren als antizipiert. Die Power-Analyse war von einer 25%igen Reduktion beim zusammengesetzten primären Endpunkt ausgegangen. Der vorliegende Effekt von 11% war weniger als halb so groß. Schade. Mit mehr als doppelt so vielen Patienten als die 1708 Patienten die eingeschlossen waren, oder, anders gesprochen, ohne die Ausfälle von fast 800 Patienten, die die Behandlung nie begonnen oder abgebrochen haben, eben weil ihnen die Schluckerei vieler dicker Kapseln auf die Dauer zu dumm wurde, wäre die Studie unter Garantie positiv ausgegangen und hätte Furore gemacht. Moderne Studien werden nach „intent-to-treat“ ausgewertet. Das heißt, dass alle Studienteilnehmer, die in eine bestimmte Gruppe gelost werden, egal ob sie die Intervention erhalten oder nicht, egal ob sie dabeibleiben oder nicht, in die Endauswertung mit eingehen. 57 Wenn also ein Patient der Studiengruppe innerhalb der Studienzeit verstirbt, auch wenn er nie eine einzige Kapsel genommen hat, dann wird er als Todesfall innerhalb der Interventionsgruppe gerechnet, weil er einmal die „Intention“ hatte, diese „Behandlung zu erhalten“. Man tut dies, weil man eine konservative Schätzung eines möglichen Behandlungseffektes haben will. Und wenn eine Intervention aufgrund ihrer Komplexität, oder hier, weil die Kapseln zu dick und zu viele sind, schlecht angenommen wird, oder weil, wie in anderen Fällen, Patienten wegen Nebenwirkungen abbrechen, dann schlägt das eben negativ als Therapieversager zu Buche und drückt das Ergebnis, ist aber nahe an der Realität. Man erhält also über eine Auswertung nach „intention-to-treat“ eine konservative, realistische Schätzung des möglichen Effekts in der untersuchten Population. Daher rührt auch in dieser Studie die Effektverdünnung. Man hätte, wenn keine Patienten abgesprungen wären, selbstverständlich auch den Effekt, den man antizipiert hatte, gesehen. Aber immerhin sind fast die Hälfte aller Patienten ausgefallen. Damit hat die Studie die gleiche statistische Mächtigkeit wie eine Studie, die nur halb so groß ist und bei der alle Patienten dabeibleiben. Die statistische Mächtigkeit oder „Power“ wirkt sich auf die Frage aus, ob die Studie eine hohe Wahrscheinlichkeit hat, signifikant zu werden. Das hatte sie in diesem Falle nicht. Deswegen wurde der an sich durchaus lohnenswerte Effekt von 11% Mortalitätsreduktion oder die 47%ige Reduktion von Schlaganfall nicht „entdeckt“ oder nicht signifikant. Dennoch sind die Effekte bedenkenswert. Mit wenig anderen nicht-invasiven Maßnahmen erreicht man so gute Effekte. In den berühmten Lipidsenkerstudien – die allerdings in der Primärprävention durchgeführt wurden – sah man signifikante Effekte von maximal 3.4% Risikoreduktion und die Weltpresse jubelte. Allerdings hatten die beteiligten Firmen auch ausreichend Geld um die nötigen Patientenzahlen von mehreren Tausend einzuschließen [4]. Insofern steht das Ergebnis dieser Studie weniger schlecht da, als es rezipiert wird. Das Problem ist eher, dass die gesamte medizinische Statistik auf eine ja-nein Entscheidung getrimmt ist und bei einer fehlenden Signifikanz die Diskussion beendet wird. Das hängt mit der Logik des statistischen Tests zusammen. Dieser legt folgende Überlegung zugrunde: Angenommen, ich gehe davon aus, dass es keinen Unterschied zwischen zwei Gruppen gibt – die sog. „Nullhypothese“ – mit welcher Wahrscheinlichkeit mache ich dann einen Fehler, wenn ich behaupte einen solchen Unterschied gibt es nicht, angesichts der vorliegenden Daten? Solange die sog. Irrtums-Wahrscheinlichkeit eine gewisse, willkürlich gewählte, Grenze nicht unterschreitet, die man im Regelfall auf 5% festgesetzt hat, gehe ich davon aus, dass der gefundene Unterschied irrelevant, oder „nicht signifikant“ ist. Ist die Grenze unterschritten und die Irrtums-Wahrscheinlichkeit wird kleiner als 5%, dann sage ich: diese Nullhypothese, dass es keinen Unterschied gibt, muss aufgegeben oder verworfen werden. Damit sage ich dann, aber erst dann: Jawohl, es gibt einen Unterschied! Und die These, dass die experimentelle Intervention, hier der Vitaminmix, besser wirkt als das Placebo, wird angenommen. Das ist ein bisschen so, als hätte ich die Augen für alle Unterschiede, egal wie groß sie sind, verbunden und zwar solange, bis mir jemand die Binde abnimmt, nämlich der statistische Test, und sagt: „so, jetzt darfst Du gucken und den Unterschied ernst nehmen“. Vorher ist der numerisch gleiche Unterschied irrelevant. Ob aber dieser Test signifikant wird und mir die Augenbinde abnimmt, so dass ich ihn zur Kenntnis nehmen darf, hängt nicht von der Größe des Unterschiedes ab, sondern einzig und allein von der Größe der Studie. Das ist nämlich die sog. statistische Mächtigkeit oder „statistische Power“. Nochmals anders ausgedrückt: hätte ich mehr Geld oder mehr Geduld 58 gehabt und eine größere Stichprobe für meine Studie genommen, dann wäre irgendwann der Tag gekommen, an dem mir der statistische Test die Augen geöffnet hätte und mir auch einen noch so kleinen Unterschied als „wichtig“ oder „signifikant“ vorgeführt hätte. Und umgekehrt hätte mir auch bei einem relativ großen Unterschied, so wie hier, die mangelnde statistische Mächtigkeit die Binde auf den Augen gelassen, eben weil die Signifikanz nicht erreicht wurde. Außer, der Unterschied wäre sehr groß gewesen, größer als antizipiert, dann wäre der Moment des Hinsehendürfens schon früher gekommen. Denn Effektgröße, Stichprobengröße und Signifikanz leben in einer Art Dreierbeziehung: Je größer der Effekt, umso kleiner muß – bei gleicher Signifikanz – die Stichprobe sein, damit wir ihn entdecken. Und je kleiner der Effekt, oder je niedriger die Signifikanzgrenze, um so größer muß die Stichprobe sein, damit wir ihn finden. Es gibt schon lange einen Streit in der Methodikerzunft, wie sinnvoll ein solches Vorgehen eigentlich ist. Weil man natürlich gerne sichere Entscheidungen will, hält man an dieser Idee des Hypothesentestens mit Hilfe von Signifikanz-Tests fest. Aber man sollte sich die Begrenzung immer vor Augen halten und als Zusatzinformation immer die absolute Größe des Effekts, im Verein mit der statistischen Mächtigkeit des Tests im Bewusstsein behalten. Das ist im übrigen auch der Grund, weswegen man Meta-Analysen durchführt. Denn in ihnen kann man die statistische Mächtigkeit über Studien hinweg akkumulieren und auch Effekte, die in einzelnen Studien nicht signifikant waren, dann, wenn sie vorhanden sind und einigermaßen homogen, als statistisch signifikant belegen. Jedenfalls hier sollte man am Ball bleiben. Denn die Effekte in dieser Studie [3] sind groß. Die Studienlogistik scheint Probleme gehabt zu haben, die Patienten bei der Stange zu halten, und gerade in einem solchen Falle wäre eine per-protocol Analyse durchaus sinnvoll gewesen. Das wäre eine Analyse, bei der man nur diejenigen Patienten betrachtet, die wirklich das gemacht haben, was vorgesehen gewesen war. Das wäre dann eine Optimalfall-Schätzung gewesen, also wie groß die Effekte maximal sein könnten, wenn alle brav ihren Multivitaminmix schlucken. Man muss kein großer Hellseher sein um zu sehen, dass eine solche Analyse mit ziemlicher Sicherheit signifikant geworden wäre. Dass sie nicht berichtet wird, dürfte auf die Intervention eines Gutachters zurückzuführen sein, würde ich mal schätzen, oder auf vorauseilenden Gehorsam der Autoren. Die Studie zeigt auch, dass Nahrungsergänzung in sinnvoller Kombination und nicht in Isolation vor allem in Krankheitsfällen nützlich ist und Effekte erzielt. Die Studien von Dean Ornish zeigen allerdings, dass eine gesunde vegetarische Ernährung zusammen mit Entspannung und Yoga, konsequent durchgeführt, wesentlich bessere Effekte erzielt [5,6]. Die Studien zeigen insgesamt, dass die Diskussion alles andere als abgeschlossen ist. Sie beginnt erst. Und zwar mit einem Diskurs über wirklich sinnvolle, synergistisch sich ergänzende gesunde Ernährung und im Krankheitsfalle mit einer wohl informierten, ebenfalls synergistisch arbeitenden Nahrungsergänzung zusammen mit einer guten Ernährung. Letzteres ist, soweit wir sehen, immer noch nicht gut genug im Visier der Wissenschaft. Das mag daran liegen, dass gesunde Ernährung kein Medikament ist, sondern verantwortliches Verhalten und gewählte Entscheidung. Und die kann man, per definitionem, nicht in randomisierten Studien untersuchen. Denn wir können nicht Menschen per Zufall dazu vergattern, plötzlich Verantwortung zu übernehmen und sich gesund, bewusst und vielfältig, womöglich noch vegetarisch zu ernähren genauso wenig wie wir Menschen, die eine solche 59 Entscheidung getroffen haben diese per Zufallsdekret im Rahmen einer Studie wieder entziehen könnten. Das Dilemma ist also, dass man ein solches wirklich interessierendes Verhalten nur in einer natürlichen Umgebung untersuchen könnte, dort, wo es vorkommt. Das heißt, man müsste Studien an natürlichen Kohorten machen und könnte die angeblich beste Studienmethodik, eine randomisierte kontrollierte Studie gar nicht anwenden. Und eine Meta-Analyse, wie die von Fortmann und Kollegen [2] hätte eine solche Studie apriori ausgeschlossen, obwohl und auch wenn sie die einzige gewesen wäre, die wirklich valide hätte Auskunft geben können. So wird man vielleicht sogar einen Wandel in der Methodendoktrin abwarten müssen, bis man diese Frage wirklich kompetent untersuchen und beantworten kann. Das ist der Grund, weswegen ich schon vor Jahren darauf hingewiesen habe, dass nur ein Zirkel verschiedener Methoden, die sich ergänzen und die die jeweiligen Schwächen der anderen kompensieren uns wirklich einen guten Einblick in die Brauchbarkeit einer Intervention in der Praxis geben kann [7]. Und das ist auch der Grund, warum das gebetsmühlenartige Wiederholen der Aussage, dass ausschließlich randomisierte Studien wissenschaftlich seien, am besten verblindet und placebokontrolliert, geistlos, dogmatisch und sachlich falsch ist, auch wenn es derzeit den Applaus der Mehrheit findet. * Eine leicht veränderte Version dieses Textes wird als „Journal Club“ Beitrag in der nächsten Ausgabe der Zeitschrift „Forschende Komplementärmedizin“ zu den unter 1-3 zitierten Studien erscheinen. ← Zurück zu Kapitel 11 Weiter zu Kapitel 13 → 1. 2. 3. 4. 5. 6. 7. Guallar, E., Stranges, S., Mulrow, C., & Appel, L. J. (2013). Enough is enough: Stop wasting money on vitamin and mineral supplements. Annals of Internal Medicine, 159, 850-851. Fortmann, S. P., Burda, B. U., Senger, c. A., Lin, J. S., & Whitlock, E. P. (2013). Vitamin and mineral supplements in the primary prevention of cardiovascular disease and cancer: An updated systematic evidence review for the U.S. preventive services task force. Annals of Internal Medicine, 159, 824-834. Lamas, G. A., Boineau, R., Goertz, C., Mark, D. B., Rosenberg, Y., Stylianou, M., et al. (2013). Oral high-dose multivitamins and minerals after myocardial infarction: A randomized trial. Annals of Internal Medicine, 159, 797-804. Penston J: Fiction and Fantasy in Medical Research: The Large-Scale Randomised Trial. London, The London Press, 2003. Ornish D, Scherwitz LW, Billings JH, Gould KL, Merrit TA, Sparler S, Armstrong WT, Ports TA, Kirkeeide RL, Hogeboom C, Brand RJ: Intensive lifestyle changes for reversal of coronary heart disease. Journal of the American Medical Association 1998;280:2001-2007. Ornish D, Scherwitz LW, Doody RS, Kesten D, McLanahan SM, Brown Se, DePuey EG, Sonnemaker, Haynes C, Lester J, McAllister GK, Hall RJ, Burdine Ja, Gotto AM: Effects of stress management training and dietary changes in treating ischemic heart disease. Journal of the American Medical Association 1983;249:54-59. Walach H, Falkenberg T, Fonnebo V, Lewith G, Jonas W: Circular instead of hierarchical – Methodological principles for the evaluation of complex interventions. BMC Medical Research Methodology 2006; 60 (13) Power-Analyse: die Magie der Statistik – Oder: Der Unterschied zwischen Signifikanz und Relevanz Normalerweise ist der Durchschnittsbürger und Durchschnittswissenschaftler zufrieden, wenn er hört, ein Forschungsergebnis sei „statistisch signifikant“ gewesen. Wir meinen dann landläufig: die Hypothese, mit der man an die Forschung ging, sei belegt, das Faktum, das man untersucht bewiesen. Und umgekehrt, findet man kein signifikantes Ergebnis, glaubt man, das in Frage stehende Phänomen sei nicht gefunden, also nicht existent. Deswegen glaubt z.B. der Durchschnittsarzt, -journalist und -bürger die Bioresonanz sei als unwirksam belegt und Homöopathie ist Placebo, und halb Amerika nimmt Lipidsenker zur Primärprävention von Herzinfarkt, weil man glaubt das sei eine wissenschaftlich bewiesene Tatsache. Ich will in diesem Kapitel ein paar von diesen Meinungen genauer unter die Lupe nehmen und zeigen, warum sie entstanden sind und die Frage stellen, wie berechtigt sie sind. Es wird sich herausstellen: es hat mit dem zu tun, was ich die Magie der Statistik nenne. Das ist die Frage, wie mächtig ein statistischer Test ist. Die hängt zusammen mit der Frage, wie groß der Effekt ist, den wir untersuchen. Und davon hängt ab, wie groß die Stichprobe ist, die wir benötigen, um den Effekt wirklich statistisch sichtbar zu machen, oder ein signifikantes Ergebnis zu erhalten. Anders ausgedrückt: Wenn es einen systematischen Effekt gibt, egal wie groß er ist, dann lässt er sich mit einer Untersuchung auch belegen, vorausgesetzt, wir haben genügend Ressourcen. Die Frage, die sich jeder Leser einer wissenschaftlichen Untersuchung stellen sollte ist nicht: Ist eine Studie signifikant? Sondern: Ist der gezeigte Effekt, egal ob signifikant oder nicht, klinisch und systematisch von Bedeutung? Wenn er dann auch noch signifikant ist, können wir von einer wissenschaftlichen Bestätigung ausgehen. Wenn er nicht signifikant ist, müssen wir uns die Frage stellen: war die Größe der Studie geeignet, den Effekt zu finden? bzw. umgekehrt: wie groß müsste eine Studie sein, um einen Effekt von der gefundenen Größenordnung mit einigermaßen zufriedenstellender Sicherheit statistisch absichern zu können? Das ist die Essenz der Power-Analyse, um die es jetzt geht. Wir haben es also in jeder wissenschaftlichen Untersuchung mit dem Spiel von insgesamt vier Größen zu tun, die voneinander abhängen wie die Teile eines filigranen Mobile. Wenn wir eines verändern, verändern sich alle anderen auch. Das wären: 1. Der Fehler erster Art oder der alpha-Fehler. 2. Der Fehler zweiter Art oder der beta-Fehler. 3. Die Größe des Effekts, oder die Effektgröße. 4. Die Größe der Studie oder die Anzahl von untersuchten Personen (im Falle von klinischen oder diagnostischen Studien) bzw. die Anzahl der Beobachtungen. Aufgrund des Umfangs dieses Kapitels ist dieses in einem PDF zusammengefasst, lesen Sie bitte hier weiter: Walach_Methodenlehre-Teil13_Poweranalyse 61 (14) Die Magie der Statistik in Aktion: Tamiflu – „der grösste Raub der Geschichte“ – ziemlich unbrauchbar Ich hatte in meinem letzten Beitrag zur Methodenlehre den Zusammenhang zwischen Effektgröße, Stichprobengröße und Signifikanz durchdekliniert. Wer sich das Wichtigste gemerkt hat weiß: Auch jeder noch so kleine Effekt kann signifikant gemacht werden, wenn er vorhanden ist, vorausgesetzt man hat die entsprechenden Mittel. Was sich alle Leser immer wieder fragen sollten: Ist der Effekt sein Geld wert? Ist die Größe des Effekts für praktische Zwecke groß genug? Darüber hinaus stellt sich bei kleinen Effekten natürlich immer die Frage: Sind denn auch wirklich alle Studien bekannt und berücksichtigt? Denn klarerweise macht bei kleinen Effekten, wenn man sie nun in Meta-Analysen oder Reviews zusammenfasst, das Fehlen einiger negativen oder weniger stark positiver Studien gleich einen großen Unterschied aus. Wie dies alles zu Buche schlägt kann man an einem aktuellen Beispiel besichtigen: dem Cochrane- Review über die Wirksamkeit von Neuraminidase-Hemmern zur Behandlung von Grippe und zur Vorbeugung gegen Grippe-Komplikationen, der von Jefferson und Kollegen soeben in neuer Version vorgelegt wurde [1]. Wir erinnern uns: Im Jahr 2009 bricht eine neue Welle der Schweine-Grippe aus, die vom Virus A/H1N1 verursacht wird. Ich kann mich noch gut erinnern und war damals in England. Die Zeitungen berichten fast hysterisch. Es lohnt sich, heute, aus fünfjähriger Distanz, den Originalton noch einmal Revue passieren zu lassen. Man liest, dass höchstwahrscheinlich eine Pandemie ausbrechen werde. In anderen Publikationen warnt die WHO hoch-offiziös vor einer Pandemie – und bekniet Regierungen, ausreichend Tamiflu einzulagern. Dieses Medikament wird in der Frage-Antwort-Publikation der englischen Tageszeitung „The Independent“, die ich damals regelmäßig verfolgte, der Impfung sogar vorgezogen. Denn die sei schwierig, nicht rechtzeitig für alle einführbar. Daher sei die logische Alternative: Tamiflu. Dieser Neuraminidasehemmer der Firma Roche, genauso wie das Konkurrenzprodukt Relenza der Firma GlaxoSmithKline (GSK), hemme angeblich die Weiterverbreitung der Viruspartikel, heißt es da. Dadurch könne es nicht zur Ansteckung kommen, außerdem könne man es gleich auch prophylaktisch geben. Wird es eine Pandemie geben? Ja, höchstwahrscheinlich. Aber, alles kein Problem: wir haben ja Tamiflu und Relenza eingelagert. Zwar leider nicht genug, aber immerhin. Damit kriegen wir die schlimmsten Probleme in den Griff. Wunderbar, denkt man. Oder soll man nicht doch lieber einfach Vitamin C nehmen? Ist doch billiger, oder? Die kluge Antwort aus dem Off: „Alternative health practitioners of homeopathy, herbal remedies and nutritional medicine are recommending measures to protect against the flu. They are about as useful as a water pistol against a forest fire.“ Klar. Nur die Pharmakologie, „evidence based“, mit bekannten, im Experiment erhärteten Wirkprinzipien kann hier helfen. Mit der Schützenhilfe derartiger Publicity ausgerüstet, unter dem Druck der WHO und der Öffentlichkeit, machten sich unsere Regierungen daran, geschätzte 7.6 Milliarden CHF in die Vorratshaltung von Tamiflu zu investieren. Wieviel Geld bei GSK für Relenza über die Theke 62 gegangen sind ist meines Wissens nicht bekannt. Um die Sache für die ungeduldigen Leser abzukürzen: Das Geld war zum Fenster hinaus geschmissen. Erstens wurde aus der A H1/N1 Grippe keine Epidemie, jedenfalls keine, die schlimmer gewesen wäre als andere GrippeWellen. Zweitens wirkt Tamiflu nur sehr begrenzt gegen Grippe, wenn man sie einmal hat und praktisch gar nicht zur Vorbeugung. Und drittens dürfte die Wirkung nicht über den behaupteten Mechanismus laufen. Das wird durch den Review von Jefferson und Kollegen klargestellt [1]. Peter Gøtzsche, der Leiter des nordischen Cochrane Centers in Kopenhagen, sagt in diesem Zusammenhang sogar: „Roche has committed what looks to me like the biggest theft in history, but no one has yet dragged the company to court” [2, p. 28]. Starke Worte. Ich bin zwar nicht der Meinung, dass Gøtzsche Recht hat; vermutlich war der größte Raub der neueren Geschichte die Enteignung der Klöster in England durch Heinrich VIII., oder vielleicht der Raub der Goldschätze der indigenen Völker Amerikas, aber lassen wir diese Detailgeplänkel. Tatsache ist: in einem Spiegelgefecht scheinen uns Roche und GSK an der Nase herumgeführt zu haben, indem sie zunächst nur diejenigen Studien publizierten, die die These von der Wirksamkeit untermauerten. Schon die erste Analyse der Autorengruppe aus dem Jahr 2009 meldete Zweifel an [3]. Die Effekte waren signifikant. Symptomreduktion um etwa einen Tag bei experimentell im Labor induzierten Infektionen. Das war zwar nicht viel, aber immerhin. Schon damals war sichtbar, dass die Behauptung, man könne mit Neuraminidasehemmern Grippe ganz verhindern, falsch war. Dann tauchte plötzlich das Argument in der Debatte auf: man könne aber Komplikationen, Krankenhausaufenthalte, Lungenentzündungen und dergleichen verhindern. Das ist ja auch schon was (obwohl man mit 7 oder so Milliarden Franken ganze Armeen mit Lungenentzündung im Krankenhaus behandeln könnte). Aber nun zerrinnt der ganze Goldanstrich in der Hand der Cochrane-Reviewer zu billigem Abklatsch. Der neue Review hat nun alle greifbaren Studien eingeschlossen, auch diejenigen, die Roche lange zurückgehalten hat und die lange Zeit nicht publiziert waren, auch solche die über die Zulassungsbehörden nicht erhältlich waren. Das ist Peter Doshi und einigen Leuten der Autorengruppe zu danken, die unermüdlich über das British Medical Journal und die Öffentlichkeit Druck ausgeübt haben, so dass Roche am Schluß alle Dokumente zur Verfügung stellte. Die Autoren des Reviews mussten sich dann, wie sie selber sagen, durch Tausende und Abertausende Seiten schlecht aufgearbeiteter Berichte wühlen. Im spröden Text der offiziellen Cochrane-Publikation geht es unter, aber wer Ohren hat zu hören, der hört sehr genau: Die Berichte waren teilweise schlecht, die Studien waren voller Fehler, Protokolle waren nachträglich verändert, Zielkriterien während laufender Studien verändert, Auswertungen angepasst worden, Ergebnisvariablen umdefiniert worden. Das ganze Pandämonium methodischer Fehler begegnet einem auf den ersten 20 Seiten der Beschreibung der eingeschlossenen Studien. Das ging soweit, dass sogar eine ganze Reihe der freigegebenen Studien gar nicht verwendbar waren, weil die Datenauswertung zu fragmentarisch waren. Und am Ende zeigt sich ein geradezu peinliches, wenn nicht tragisches Ergebnis: Zwar haben, über alle Studien gesehen, Neuraminidasehemmer, Tamiflu und Relenza, einen statistisch signifikanten Effekt. Das Ergebnis kommt zustande durch die Zusammenfassung von Daten aus 46 Studien, davon 20 mit Oseltamivir (Tamiflu; 9623 Patienten) und 26 mit Zanamivir (Relenza; 14.628 Patienten). Die Zeit zur ersten Symptomlinderung beträgt danach 16.8 Stunden. Also: statt 7 Tagen ist man nur 6.3 Tage krank. Bei Zanavir war es so ähnlich: eine erste Symptomlinderung zeigt sich nach 0.6 Tagen und eine Reduktion der mittleren Symptomdauer von 6.6 auf 6 Tage. 63 Krankenauseinweisungen und Prophylaxe, mit denen so geworben wurde? Kein Effekt. Komplikationen? Keine Effekte? Lungenentzündung? Nur insofern, als man selbstberichtete Symptome auswertete, nicht, wenn man radiologisch, also hart untersuchte Lungenentzündung wertete. Dabei war der Effekt klein: 100 Patienten muss man behandeln, um eine Lungenentzündung zu verhüten. Nur Zanavir reduziert das Risiko einer Bronchitis. 56 Menschen müssen behandelt werden, bis einer diesen Vorteil erleben kann. Oseltamivir zeigt diesen Vorteil nicht, und keine der beiden Präparate verbessert die Gefahr an Otitis media oder Sinusitis zu erkranken, weder bei Kindern noch bei Erwachsenen. Andersherum die Nebenwirkungen: Tamiflu erhöht die Gefahr von Übelkeit (einer von 28 Behandelten erlebt das) und von Erbrechen (einer von 22 Behandelten). Prophylaxe-Effekte sind vorhanden aber klein. Die Autoren folgern: „Oseltamivir and zanamivir have small, non-specific effects on reducing the time to alleviation of influenza symptoms in adults, but not in asthmatic children. Using either drug as prophylaxis reduces the risk of developing symptomatic influenza. Treatment trials with oseltamivir or zanamivir do not settle the question of whether the complications of influenza (such as pneumonia) are reduced, because of a lack of diagnostic definitions. The use of oseltamivir increases the risk of adverse effects, such as nausea, vomiting, psychiatric effects and renal events in adults and vomiting in children. The lower bioavailability may explain the lower toxicity of zanamivir compared to oseltamivir. The balance between benefits and harms should be considered when making decisions about use of both NIs for either the prophylaxis or treatment of influenza. The influenza virus-specific mechanism of action proposed by the producers does not fit the clinical evidence.“ [1, p.3] Auf gut deutsch: Es funktioniert zwar so lala, aber auf jeden Fall nicht so, wie man aufgrund der Theorie denkt – und schon gar nicht so stark, wie behauptet. Und wichtige Fragen, etwa ob Lungenentzündung als Komplikation verhindert werden kann, sind immer noch offen. Angesichts der Gefahr, etwa auch der möglichen Probleme psychiatrischer Erkrankungen oder Nierenerkrankungen, und der geringen Effektgrößen, sollte man sich gut überlegen, ob öffentliche Geldgeber diese Substanzen finanzieren sollten. Wie war das gleich noch mit Vitamin C und den Empfehlungen der komplementärmedizinischen Praktiker? Wasserpistolen gegen Waldbrände? Das scheint ja auf Tamiflu und Co. in der Tat zuzutreffen und die Autoren des Reviews denken denn auch laut darüber nach, ob nicht alte Entzündungshemmer wie das gute alte Aspirin nicht am Ende besser wären. Die hier analysierten Studien sind übrigens nur ein Teil der vorhandenen. Weil bei vielen Studien die Daten nicht ausreichend detailliert berichtet wurden, konnten sie gar nicht ausgewertet werden. Insgesamt lagen 121 Studien zu Oseltamivir vor, von denen 83 von Roche zur Verfügung gestellt wurden, so dass die 20 Oseltamivir-Studien nur einen Bruchteil der Daten darstellen. Wieviel all das wohl gekostet hat? Darüber geben die Berichte keine Auskunft. Wenn wir pro Studie im Durchschnitt 2 Millionen Euro rechnen, was vermutlich zu billig ist, dann landen wir nur für Tamiflu bei mehr als 240 Millionen Euro, schätzungsweise mehr. Aber immer noch weit unter den mehr als 7 Milliarden Franken, die Roche mit Tamiflu eingenommen hat. Was lernen wir aus diesem Debakel, denn anders kann man es nicht bezeichnen? 1. Effektgrößen sind mit die wichtigsten Größen, die man sich anschauen muss, nicht die Signifikanz. 2. Wenn es um Arzneimittelstudien und andere Produkte geht, bei denen Geld oder andere Interessen im Spiel sind, kann man davon ausgehen, dass wichtige Informationen von 64 Interessengruppen zurückgehalten werden. Es lohnt sich, skeptisch zu sein und konservativ bis zum Beweis des Gegenteils. (2a: Ich habe es mir angewöhnt, vor allem dann, wenn in den Mainstream-Medien mit großem Hallo und viel Hype die neue Lösung, oder die Ankündigung eines neuen Problems bejubelt oder verkündet wird, zunächst mal probatorisch vom Gegenteil auszugehen, bis ich mich durch Daten von der Richtigkeit der Behauptung überzeugen konnte.) 3. Jeder Effekt muss in Relation zu den Kosten gesehen werden. Zu den Kosten gehören nicht nur die monetären, sondern auch Nebenwirkungen und andere Probleme. Man beachte, dass im hier vorliegenden Beispiele die Effektgrößen der Nebenwirkungen wesentlich größer sind als die Effektgrößen der Vorteile. 4. Mit ausreichend viel Geld kann man jeden Effekt „wissenschaftlich“ belegen. Diese wissenschaftliche Prostitution wird erst aufhören, wenn wir von der Signifikanz weg und auf die Effektgrößen schauen. Wissenschaftlich scheinen wir mit diesem Beispiel an die Grenze des bestehenden Systems der Zulassungsforschung zu stoßen. Die Autoren des Reviews sagen immer wieder, dass das derzeit gültige System der wissenschaftlichen Bewertung unbrauchbar ist. Es erlaubt es, dass man nur diejenigen Daten publiziert, die einem in den Kram passen und den Rest versteckt. Auch Studienregister, die es ja mittlerweile gibt, helfen da nur begrenzt. Denn die Daten sind Eigentum der Firma, die sie erzeugt hat. Und der ethische Standard, der einen Wissenschaftler zur Publikation seiner Daten verpflichtet, ist nicht einklagbar. Allenfalls öffentlicher Druck, wie hier, kann dazu führen, dass eine Firma unpublizierte Daten herausgibt. Erst wenn es ein selbstverständlicher Standard werden würde, dass alle Daten öffentlich, über Plattformen, zur Verfügung gestellt werden, würden sich Firmen oder Einzelne, die dies nicht tun, unglaubwürdig machen. Aber wer könnte Hüter und Pfleger der Daten sein? Wer würde die Plattformen finanzieren? Wer den Standard einklagen? Wenn man ausführlich über alle möglichen Lösungen nachdenkt, dann kommt man, scheint mir, rasch immer wieder an das Paradox, dass man ethisch-moralisches Verhalten nicht durch Regeln erzwingen kann. ← Zurück zu Kapitel 13 [1] Jefferson, T., Jones, M. A., Doshi, P., Del Mar, C. B., Hama, R., Thompson, M. J., et al. (2014). Neuraminidase inhibitors for preventing and treating influenza in healthy adults and children. Cochrane Database of Systematic Reviews, CD008965(April). [2] Gøtzsche, P. C. (2013). Deadly Medicines and Organised Crime: How Big Pharma Has Corrupted Health Care. London: Radcliff. [3] Jefferson, T., Jones, M., Doshi, P., & Del Mar, C. (2009). Neuraminidase inhibitors for preventing and treating influenza in healthy adults: systematic review and meta-analysis. British Medical Journal, 339, b5106. 65 ************************************************************************************************************************* Prof. Harald Walach Harald Walach – zur Person Ich habe Psychologie und Philosophie parallel studiert (von 1978-1984, mit einem Auslandsjahr in Philosophie am University College London; siehe auch meinen Lebenslauf: Curriculum Vitae Prof. Harald Walach →). Schon während meines Studiums haben mich zwei Dinge beschäftigt und mich seither nicht mehr losgelassen: Was genau ist „Heilung“’? Wie ist das Verhältnis von äusserer Empirie, wissenschaftlicher Erfahrung also, und innerer Erfahrung, also persönlicher, individueller Erfahrung? Anders ausgedrückt: Was ist das Verhältnis von Einzelnem und Allgemeinem, Persönlichem und Öffentlichem? Wer sich mit Philosophie beschäftigt hat, wird unschwer sehen, dass dies seit Aristoteles zentrale und bisher auch ungelöste Fragen sind. Die Frage nach Heilung und wie sie zustande kommt hat mich relativ rasch zur Homöopathie und später im weiteren Sinne zur Komplementärmedizin geführt. Denn hier wird Heilung vor allem als Selbstheilung verstanden, also als Anstoss, der dem Organismus helfen soll, sich selber zu heilen. Das habe ich immer sehr spannend gefunden, sowohl vom wissenschaftlichen, als auch vom gesellschaftlich-ökonomischen Standpunkt aus. Im Laufe der Zeit sind neue Themen hinzugekommen: mich hat, ausgehend von meiner Grundfrage, die Frage nach dem Leib-Seele Problem beschäftigt, die Frage, wie man innere Erfahrung verstehen muss. Eine bestimmte Sparte innerer Erfahrungen sind spirituelle oder mystische Erfahrungen, die ich ebenfalls extrem interessant finde. Auf diesem Hintergrund ist meine historische Arbeit und die Übersetzung des Kartäusermystikers Hugo de Balma zu verstehen, meine zweite Doktorarbeit im Fachbereich Wissenschaftstheorie und Wissenschaftsgeschichte. Parallel und wenn ich dazu Zeit habe, arbeite ich daran weiter. Mich interessieren dabei die historischen Zusammenhänge und die Person des Autors. Ein anderes Projekt auf diesem Hintergrund ist die Frage, ob Brentanos Idee, Psychologie auf der systematischen Erfahrung des Bewusstseins zu begründen, eventuell mit anderer Systematik möglich ist. Diese Frage verfolgen derzeit vor allem Doktoranden und Post-Doktoranden. Unsere Arbeit zum Thema Spiritualität – wie sie zu verstehen ist, welche Beziehungen zu Heilung und Gesundheit bestehen – sind auf diesem Hintergrund einzuordnen. In meinen laufenden Projekten → befasse ich mich mit der Frage, ob es möglich ist eine Prävention von Demenz → über eine weitreichende Veränderung des Lebensstils zu erreichen. Wir untersuchen den Wert von Achtsamkeit → und auf ihr beruhender Interventionen, derzeit vor allem in der Ausbildung. Auf dem Weg zu einem Verständnis der Heilungsprozesse sind Placebo-Effekte bzw. die Semiotik therapeutischer Prozesse von grosser Bedeutung. Ausserdem frage ich mich schon lange, ob es denkbar und sinnvoll ist, eine Theorie von Ganzheit zu entwickeln, in der nichtlokale Prozesse einen systematischen 66 theoretischen Ort haben. Unsere Arbeit an einer Generalisierung der Quantentheorie → findet in diesem Kontext statt. http://intrag.info/aktuell/das-institut/ Wie alles Begann von Harald Walach, Klaus Küstermann, Hartmut Schröder Die Idee, einen Masterstudiengang für den Bereich der Komplementärmedizin zu etablieren, entstand im Mai 2007 auf der griechischen Insel Kos – bekannt als Insel des Hippokrates. Dort – an den Wurzeln der abendländischen Medizin – finden seit dem Jahr 2000 ärztliche Fortbildungsveranstaltungen der Internationalen Gesellschaft für Homotoxikologie und Homöopathie (IGHH ) sowie der Internationalen Gesellschaft für Biologische Medizin (IGBM) im Rahmen des Curriculums Biologische Medizin statt: Ein innovatives Curriculum, das von Beginn an eine akademische Heimat an der Universität Mailand hat, wo es unter dem Patronat von Prof. Dr. Umberto Solimine, dem Direktor des WHO-Zentrums für traditionelle Medizin, akkreditiert ist. In Kos begegneten sich Dr. med. Klaus Küstermann, Präsident der IGBM, und Prof. Dr. Hartmut Schröder von der Europa-Universität Viadrina in Frankfurt (Oder) im Rahmen des Curriculums. Hartmut Schröder stellte in einem Vortrag seine Gedanken vor … an der EuropaUniversität Viadrina … ein Institut für transkulturelle Gesundheitswissenschaften zu gründen… Hartmut Schröder stellte in einem Vortrag seine Gedanken vor, die Biologische Medizin durch die Klangtherapie zu ergänzen, stellte deren antike Wurzeln in der Naturtonleiter des großen Pythagoras dar und berichtete über seine Pläne, an der Europa-Universität Viadrina in Fortsetzung medizinsemiotischer Vorarbeiten in Forschung und Lehre ein Institut für transkulturelle Gesundheitswissenschaften zu gründen. Der Funke zündete sofort und beide Seiten erkannten das große Potential einer Kooperation zwischen Medizin und Kulturwissenschaften. Diese Verbindung steht dabei nicht nur für eine Neuorientierung der Medizin in akademischer Hinsicht, sondern auch für eine humane Entwicklung der Gesundheitssysteme selbst. Denn im Mittelpunkt medizinischen Handelns muss der Mensch stehen: Der gesunde Mensch, dessen Gesundheit es zu erhalten gilt, der kranke Mensch, dessen Gesundheit wieder bestmöglich hergestellt werden soll und schließlich auch der sterbende Mensch, der menschlich begleitet werden möchte. Eine wirklich humane Medizin hat es daher immer auch mit kulturellen Prozessen zu tun. In der Folge wächst nun das wieder zusammen, was auch zusammen gehört In der Folge wächst nun das wieder zusammen, was auch zusammen gehört: die Medizin auf der einen Seite und die Kulturwissenschaften auf der anderen Seite. Die Gründung des Instituts für transkulturelle Gesundheitswissenschaften am 16. November 2007 in Frankfurt (Oder) war dafür ein erster überzeugender Ausdruck. Ein Jahr später war der Masterstudiengang „Komplementäre Medizin – Kulturwissenschaften – Heilkunde“ bereits Realität und startete mit einer Auftakt- und Informationsveranstaltung im Oktober 2008. 67 Neuorientierung durch Rückbesinnung sowie durch Erweiterung des Blickwinkels auf andere Heilkulturen ist das grundlegende Programm unseres Masterstudiengangs, den wir vor allem als Ort der Begegnung verstehen. Begegnung zwischen unterschiedlichen Heilberufen: Ärzten, Apothekern, Psychotherapeuten. Begegnung zwischen unterschiedlichen Ansätzen und Verfahren der traditionellen europäischen Heilkunde mit der modernen Medizin. Begegnung schließlich zwischen den unterschiedlichen Heilkulturen: zwischen konventioneller westlicher Medizin, Traditioneller Chinesischer Medizin, Ayurveda und anderen traditionellen Heilsystemen. Kulturwissenschaft kann die Medizin wieder mit ihren geisteswissenschaftlichen Wurzeln verbinden Ziel des Studiengangs ist es einen Überblick über die Vielzahl von Methoden und Verfahren zu vermitteln, deren kulturelle Einbettung zu erarbeiten und die Verbindung mit Kommunikation und Sprache zu betonen. Begegnung an sich ist Bereicherung. Doch jenseits jeder Begegnung liegt nicht nur etwas Gemeinsames, sondern immer auch etwas Neues, was erst in der Begegnung entstehen kann: das Transkulturelle. Dieses Transkulturelle – verstanden als Synergie, als Geben und Nehmen zugleich – braucht einen Ort und einen Rahmen, um auf Augenhöhe zu kommunizieren. Und es braucht Übersetzer und Mediatoren, die diesen Prozess unterstützen und begleiten. Geleistet werden kann dies durch die Kulturwissenschaften, die die Medizin – eine anthropologische Disziplin – wieder mit ihren geisteswissenschaftlichen Wurzeln verbinden und ihr damit eine Neuorientierung ermöglichen können. Die Viadrina ist die erste deutsche Universität, die einen Masterstudiengang dieser Art anbietet. Sie knüpft damit an die großen Traditionen der Medizinischen Fakultät der früheren Alma Mater Viadrina an, die sich durch ihre Nähe zu Naturheilverfahren und zur Balneologie einen Namen gemacht hat. Diese Tradition gilt es im Masterstudiengang fortzusetzen, zu beleben und zu erweitern. 68