Poppers Idealbild einer wissenschaftlichen Aussage bestand in der Möglichkeit einer eindeutigen experimentellen Falsifikation, doch solche Schwarz-WeißSituationen sind in der Realität äußerst selten. Aus diesem Grund haben Mathematiker wie Fisher, Neyman und Pearson in der ersten Hälfte des 20. Jahrhunderts Verfahren entwickelt, mit denen sich zumindest die "Signifikanz" experimenteller Ergebnisse messen lässt. Ihr Ziel waren objektivierbare Regeln für die Entscheidung zwischen der Annahme bzw. Ablehnung von Theorien, und die für diesen Zweck ersonnenen Methoden bilden bis heute eine wesentliche Grundlage wissenschaftlichen Arbeitens. Ein zentrales Merkmal statistischer Tests ist die Tatsache, dass sie zu einem klaren Ergebnis zu führen scheinen. Wenn ein sorgfältig durchgeführtes Experiment einen hinreichend deutlichen Effekt mit einem p-Wert kleiner als 0.05 nachweist, dann sollte dieses Resultat auf allgemeine Anerkennung stoßen. Leider ist dies aber nicht die Art und Weise, wie die Wissenschaftswelt auf neue Forschungsergebnisse reagiert. Deutliche und objektiv signifikante Ergebnisse werden oft ignoriert, während vernachlässigbare und statistisch nicht signifikante Effekte einen breiten Eindruck hinterlassen. Dieses zweifache Maß reflektiert die intuitive Einsicht in einen der wesentlichen Nachteile klassischer Hypothesentests, nämlich deren Unfähigkeit, die intrinsische Plausibilität von Hypothesen bei der Entscheidungsfindung mit in Betracht zu ziehen. Dessen ungeachtet haben Hypothesentests als Mittel der wissenschaftlichen Qualitätskontrolle bislang gute Dienste geleistet, und solange sich alle Beteiligten der damit verbundenen Einschränkungen bewusst sind, stellen Hypothesentests in der Tat einen pragmatischen Weg dar, "die Wahrheit über Alles regieren" zu lassen. Universitätsklinikum Schleswig-Holstein ©2012 1 Statistische Tests sind Regeln, anhand derer sich Wissenschaftler auf der Grundlage von Daten zwischen unvereinbaren Hypothesen über die Population entscheiden, der diese Daten entstammen. Meistens stehen dabei zwei Hypothesen zur Debatte: die Nullhypothese H0 und eine Alternativhypothese HA. Die beiden Hypothesen zu Grunde liegende wissenschaftliche Frage ist meistens so formuliert, dass eine der beiden Hypothesen wahr sein muss, d.h. H0 und HA definieren eine erschöpfende Zerlegung des "Universums" aller Möglichkeiten. Im Prinzip kann jede Hypothese zum Gegenstand eines statistischen Tests gemacht werden. In der Praxis zielen die meisten wissenschaftlichen Experimente jedoch auf ein Entscheidungsproblem ab, das einem von zwei Designs zugeordnet werden kann, nämlich einem gerichteten ("größer, kleiner", "länger, kürzer") oder einem ungerichteten ("gleich, ungleich", "ja, nein"). Universitätsklinikum Schleswig-Holstein ©2012 2 In der Statistik versteht man unter "Suffizienz" die Möglichkeit, eine Stichprobe x1,…,xn von Realisierungen von Zufallsvariablen X1,…,Xn durch eine mathematische Funktion T(x1,...,xn) zu verdichten, z.B. auf eine einzige Zahl, ohne dabei Information über einen bestimmten Verteilungsparameter θ der Zufallsvariablen zu verlieren. In diesem Fall heißt T eine "suffiziente" Statistik bezüglich θ. Sind beispielsweise die X1,…,Xn unabhängig und normalverteilt mit Erwartungswert µ, dann ist das Stichprobenmittel T ( x1 ,..., x n ) = 1 n ⋅ ∑i=1 x i n suffizient bezüglich µ. Mit anderen Worten trägt die Kenntnis jedes einzelnen Stichprobenwertes nicht mehr Information über den Erwartungswert bei als der Mittelwert der Daten. Entscheidungen hinsichtlich µ können demnach auf T(x1,...,xn) basieren, was oftmals erheblich einfacher ist, als die ganze Stichprobe x1,...,xn in die Entscheidung einzubeziehen. Suffiziente Statistiken sind für alle praktisch relevanten Inferenzprobleme bekannt, obwohl sie nicht generell existieren müssen. Für ganz abstruse Verteilungen kann die Reduktion der Daten in der Tat einen Informationsverlust bedeuten, der nur durch die Berücksichtigung jedes einzelnen Stichprobenwertes vermieden werden kann. Universitätsklinikum Schleswig-Holstein ©2012 3 Universitätsklinikum Schleswig-Holstein ©2012 4 Universitätsklinikum Schleswig-Holstein ©2012 5 Universitätsklinikum Schleswig-Holstein ©2012 6 Wenn auf Grund von Vorwissen oder theoretischen Überlegungen sicher erscheint, dass der zur Alternativhypothese gehörige Effekt nur in eine Richtung weisen kann, dann sollte ein einseitiger Test durchgeführt werden. Sind die Annahmen über die Richtung von HA korrekt, dann hat ein einseitiger Test nämlich mehr Power als der entsprechende zweiseitige Test. Wenn jedoch vor Beginn des Experiments keine stichhaltigen Argumente für oder gegen eine bestimmte Richtung von HA vorliegen, so sollte (muss) ein zweiseitiger Test durchgeführt werden. Universitätsklinikum Schleswig-Holstein ©2012 7 Die häufigste Fehlinterpretation des p-Werts ist die Annahme, es handele sich dabei um die Wahrscheinlichkeit, dass die Nullhypothese wahr ist. Wenn dem so wäre, wäre jede Nullhypothese bei einem kleinen p-Wert automatisch unwahrscheinlich. Genau diese Vorstellung ist aber falsch, da die A-posteriori Wahrscheinlichkeit einer Nullhypothese (gegeben T≥tobs) auch von der A-priori Wahrscheinlichkeit P(H0) abhängt, d.h. der H0 vor Durchführung des Experiments zugewiesenen Wahrscheinlichkeit, und von der Wahrscheinlichkeit, dass T≥tobs gilt, wenn HA zutrifft. Mit Hilfe des Bayes-Theorems folgt daraus in der Tat P(H0 | T ≥ t obs ) = P(H0 ) ⋅ p . P(H0 ) ⋅ p + [1 − P(H0 )] ⋅ P( T ≥ t obs | HA ) Als die Prinzipien der statistischen Inferenzbildung im frühen 20. Jahrhundert etabliert wurden, war Wissenschaft ein viel kleineres und kostspieligeres Unterfangen als heute. Zu jener Zeit wurden vielleicht ein paar Hundert Hypothesen pro Jahr getestet (und jedes Experiment war wohl durchdacht), so dass P(H0) klein genug war, um mit dem Kriterium "p≤0.05" hinreichend viele falsch positive Ergebnisse auszusortieren. Heute jedoch, wo ein Heer von Zeitschriften jedes Jahr Tausende von Hypothesentests publiziert, dürfte sich der relative Anteil der sinnvollen Alternativhypothesen deutlich verringert haben, was in der Folge zu einem Anstieg von P(H0) geführt hat. Als Konsequenz steht zu vermuten, dass auch der positiv prädiktive Wert kleiner p-Werte ziemlich gesunken ist. Universitätsklinikum Schleswig-Holstein ©2012 8 Vergleiche innerhalb von Individuen, wie z.B. zwischen Verum und Placebo, basieren zwar auf zwei zu unterschiedlichen Zeitpunkten erhobenen Stichproben, sie repräsentieren aber formal ein Ein-Stichproben Testproblem. Das liegt daran, dass es für die Beurteilung eines Behandlungseffekts in der Regel ausreicht, statt der ursprünglichen Messwerte nur die Differenz zwischen individuenspezifischen Messungen zu betrachten. Wann immer möglich sollten wissenschaftliche Fragen unter Verwendung eines verbundenen Designs bearbeitet werden. Dieses Design bietet die effizienteste Möglichkeit zur Reduzierung des Stichprobenfehlers, da jede Beobachtungseinheit mit dem denkbar besten Partner der anderen Behandlungsgruppe gematcht wird, nämlich sich selbst. Ein weiterer Vorteil verbundener Designs besteht darin, dass Differenzen im Gegensatz zu absoluten Messwerten oftmals einer Normalverteilung folgen. Das verbundene Design kann somit häufig von dem Powergewinn profitieren, der sich aus der Normalität der Daten ergibt. Universitätsklinikum Schleswig-Holstein ©2012 9 Universitätsklinikum Schleswig-Holstein ©2012 10 Eine Studie wie die auf dieser Folie vorgestellte setzt voraus, dass wenigstens die Probanden verblindet werden, und dass die Reihenfolge der Verabreichung von Verum und Placebo zufällig gewählt wird. Darüber hinaus muss es eine so genannte "Wash-Out"-Phase geben, um mögliche Einflüsse der ersten Gabe auf die zweite zu vermeiden (im Wesentlichen natürlich von Verum auf Placebo). Die Daten verdeutlichen noch einmal, dass Messungen von biometrischen Merkmalen an ein und demselben Individuum stark miteinander korreliert sein können. So scheinen einige Probanden grundsätzlich gute Schläfer gewesen zu sein, während andere auch nach Einnahme des Verums keine spürbare Verbesserung ihrer Schlaflosigkeit erfuhren. Dennoch scheint es unter Verum einen leichten Anstieg der durchschnittlichen Schlafdauer um eine halbe Stunde gegeben zu haben. Aber ist der gemessene Unterschied statistisch signifikant? Diese Frage lässt sich formal durch einen Ein-Stichproben t-Test der Nullhypothese µD=0 beantworten. Universitätsklinikum Schleswig-Holstein ©2012 11 Universitätsklinikum Schleswig-Holstein ©2012 12 In einem zweiseitigen Test auf dem 5% Niveau wäre die positive Differenz der Schlafdauer unter den 15 Probanden nicht statistisch signifikant von null verschieden, da die beobachtete t-Statistik (1.934) kleiner ist als der zugehörige kritische Wert t0.975,14=2.145. Ohne Vorwissen über die Schlaf verlängernde Wirkung der Substanz hätten wir also den Schluss ziehen müssen, dass das Experiment keine hinreichende Evidenz für einen Einfluss des Medikaments auf die Schlafdauer liefert (d.h. H0 müsste beibehalten werden). Universitätsklinikum Schleswig-Holstein ©2012 13 Auf dem 5% Signifikanzniveau beträgt der kritische Wert des einseitigen t-Tests t0.950,14=1.761. Da dieser Wert von der beobachteten t-Statistik übertroffen wird, würde ein einseitiger Test zum Verwerfen der H0 führen. Das Experiment weist also auf eine statistisch signifikante Verlängerung der Schlafdauer hin, aber nur wenn dies tatsächlich der einzige biologisch plausible Effekt ist, der von der fraglichen Substanz erwartet werden konnte. Universitätsklinikum Schleswig-Holstein ©2012 14 Oftmals ist ein verbundenes Design entweder technisch nicht möglich (wie z.B. eine Wash-Out-Phase bei chirurgischen Eingriffen) oder ethisch problematisch (z.B. die Messung des Blutdrucks vor und nach dem täglichen Konsum von 20 Zigaretten über einen Zeitraum von 5 Jahren). In diesem Fall muss zur Bearbeitung der jeweiligen wissenschaftlichen Fragestellung ein unverbundenes Design verwendet werden. Universitätsklinikum Schleswig-Holstein ©2012 15 Das Verfahren der Wahl für den Vergleich der Erwartungswerte zweier normalverteilter Zufallsvariabler mit gleicher Varianz σ2 ist der Zwei-Stichproben t-Test. Der Standardfehler der Differenz der beiden Stichprobenmittel wird dabei aus der "gepoolten" empirische Standardabweichung geschätzt, die wie folgt definiert ist: s pooled = (na − 1) ⋅ s 2a + (nb − 1) ⋅ s b2 . (na − 1) + (nb − 1) Damit der Zwei-Stichproben t-Test valide ist, d.h. damit T auch tatsächlich einer t-Verteilung mit der angegebenen Anzahl von Freiheitsgraden folgt, müssen die Realisierungen in den beiden Stichproben unabhängig voneinander sein. Wenn die Daten paarweise verbunden sind, d.h. wenn die Zufallsvariablen Xa und Xb nicht unabhängig sind, dann ist im Allgemeinen unklar, ob der Zwei-Stichproben t-Test konservativ ist oder nicht, d.h. ob der nominelle p-Wert das wahre Signifikanzniveau unter- oder überschätzt. Der Ein-Stichproben t-Test ist demgegenüber bei verbundenen Daten immer valide, hat aber weniger Power als der Zwei-Stichproben t-Test, wenn die Realisierungen paarweise unabhängig oder nur "schwach" abhängig voneinander sind. Ist die Abhängigkeit "stark", hat wiederum der Ein-Stichproben t-Test mehr Power. Universitätsklinikum Schleswig-Holstein ©2012 16 Den Effekt sportlicher Aktivität auf den HDL-Spiegel mit Hilfe eines verbundenen Designs untersuchen zu wollen, wäre nicht nur sehr mühsam, die beteiligten Wissenschaftler hätten dabei auch mit erheblichen Compliance-Problemen zu kämpfen. Auf der anderen Seite ist die vergleichende Analyse von aktiven und nicht-aktiven Personen sehr anfällig gegenüber dem so genannten "Confounding", d.h. dem Bias, der durch unkontrollierte HDL-relevante Faktoren hervorgerufen wird, die ihrerseits wieder mit dem Ausmaß der sportlichen Aktivität assoziiert sind. Zur Liste der möglichen Confounder gehören z.B. die Ernährung, Medikationen und genetische Dispositionen, aber auch Umwelteinflüsse oder Faktoren der Lebensführung wie etwa das Rauchen. Universitätsklinikum Schleswig-Holstein ©2012 17 Der Unterschied zwischen zwei Erwartungswerten, der in einer wissenschaftlichen Studie nachgewiesen werden soll, wird häufig durch ein Vielfaches der Standardabweichung des Merkmals statt durch die ursprüngliche Differenz ausgedrückt. Ein Vorteil dieser Darstellung besteht in der Dimensionslosigkeit des zugehörigen "Effektindexes", was wiederum Fallzahlplanungen bei normalverteilten Zufallsvariablen unabhängig von der Natur des zu untersuchenden Merkmals macht. Allerdings ist die Anwendung des Effektindexes definitionsgemäß auf Merkmale beschränkt, die unter der Annahme von H0 und HA die gleiche Varianz haben. Die beiden Formeln auf dieser Folie machen deutlich, dass der Stichprobenumfang, der bei gegebenem Signifikanzniveau zum Erreichen einer bestimmten Power erforderlich ist, im umgekehrten Verhältnis zum Effektindex steht. Je größer der Effekt, umso kleiner der erforderliche Stichprobenumfang. Da zudem z1-α kleiner ist als z1-α/2, liefern einseitige Tests - gemessen am Stichprobenumfang - die gleiche Power zu geringeren Kosten. (Beachten Sie, dass sich n an dieser Stelle auf eine von zwei gleich großen Teilstichproben bezieht, z.B. Verum und Placebo, so dass der insgesamt erforderliche Stichprobenumfang 2n beträgt). Universitätsklinikum Schleswig-Holstein ©2012 18 Pilotstudien sind notwendig, wenn es keine Vorinformation über die wahrscheinliche Größe von γ gibt. Man könnte sich z.B. vorstellen, dass die auf einer vorangegangenen Folie gezeigten HDL-Werte von 15 aktiven und 15 nicht aktiven Personen aus einer Pilotstudie herrührten. Das Ergebnis dieser Pilotstudie war eine Einschätzung der Effektgröße (γ=0.42), die wiederum für die Planung einer hinreichend umfangreichen konfirmatorischen Studie genutzt werden kann. Es zeigt sich, dass ein zweiseitiger Test zum 5% Signifikanzniveau für die Bestätigung des Effekts mit 90% Power achtmal mehr Probanden erfordern würde, als in der Pilotstudie untersucht wurden. Universitätsklinikum Schleswig-Holstein ©2012 19 Universitätsklinikum Schleswig-Holstein ©2012 20 Universitätsklinikum Schleswig-Holstein ©2012 21 Bei vorgegebenem Signifikanzniveau hängt die Power eines statistischen Tests im Wesentlichen von zwei Dingen ab: der Effektgröße und dem Stichprobenumfang. Ein statistisch signifikantes Ergebnis lässt sich auch für die winzigsten Effekte erzielen, wenn nur die zugehörige Stichprobe groß genug ist. Es kann zwar kein Zweifel daran bestehen, dass die statistische Signifikanz eines wissenschaftlichen Ergebnisses von Interesse ist, weil sich aus ihr das Vertrauen in die Schlussfolgerungen nährt, die aus dem Ergebnis gezogen werden. Statistische Signifikanz sagt aber für sich genommen nichts über die Größe eines Effekts aus, also über dessen praktische oder klinische "Signifikanz". Daher ist es wichtig, in einer wissenschaftlichen Publikation nicht nur p-Werte mitzuteilen oder zur Kenntnis zu nehmen, sondern auch Schätzungen der Effektgrößen anzugeben, vorzugsweise mit den zugehörigen Konfidenzintervallen. Universitätsklinikum Schleswig-Holstein ©2012 22 Die nicht-parametrische statistische Inferenzbildung macht jenen Teil der Testtheorie aus, der keine oder nur schwache Voraussetzungen an die formelle Gestalt der Verteilung von Zufallsvariablen (z.B. Normalität) knüpft. Nichtparametrische Verfahren werden daher oft auch (etwas irreführend) "verteilungsfrei" genannt. Viele wichtige Arbeiten über die Eigenschaften nicht-parametrischer Verfahren wurden um die Mitte des 20. Jahrhunderts von dem US-amerikanischen Mathematiker Jacob Wolfowitz publiziert. Wolfowitz, der als einer der Gründerväter der modernen Statistik gilt, wurde 1910 in Polen geboren, von wo aus er im Alter von 10 Jahren zusammen mit seinen Eltern in die USA emigrierte. Während des 2. Weltkriegs schloss sich Wolfowitz der Statistical Research Group der Columbia University an, einer der vielen wissenschaftlichen Institutionen, die zur Mitarbeit an kriegswichtigen Projekten verpflichtet worden waren. Zwischen 1951 und 1970 war Jacob Wolfowitz als Professor an der Cornell University tätig. In Folge einer Herzattacke starb er am 16. Juli 1981 in Tampa, Florida. Universitätsklinikum Schleswig-Holstein ©2012 23 Als Faustregel sind nicht-parametrische Tests in einer von drei Situationen empfehlenswert: − Die Stichprobe enthält quantitative Daten, aber die Verteilung in der zugrunde liegenden Population ist nicht normal. Der Wissenschaftler kann sich dann überlegen, ob sich seine Daten in ein normalverteiltes Merkmal transformieren lassen, z.B. durch Bildung des Logarithmus oder des Kehrwerts. Wenn dies nicht möglich ist, sollte ein nicht-parametrischer Test verwendet werden. − Die Daten sind ordinal skaliert, d.h. das Ergebnis ist ein Rang oder ein Score, so dass die Populationsverteilung ebenfalls nicht normal ist und auch nicht in eine Normalverteilung transformiert werden kann. Beispiele hierfür sind das Jahrgangsranking von Studenten, der Apgar-Score und die Sterne-Skala zum Bewerten von Filmen oder Restaurants. − Einige Daten liegen jenseits der Nachweisgrenzen, d.h. sie sind zu groß oder zu klein, um gemessen werden zu können. Selbst wenn die Populationsverteilung normal ist, können die abgeschnittenen Daten nicht mit einem parametrischen Test ausgewertet werden, da ja nicht alle Daten bekannt sind. Auf solche Stichproben lässt sich aber problemlos ein nichtparametrischer Test anwenden, indem die nicht messbaren Werte einfach durch beliebige, sehr große bzw. sehr kleine Werte ersetzt werden. Universitätsklinikum Schleswig-Holstein ©2012 24 Der Zentrale Grenzwertsatz (siehe Vorlesung 2) stellt sicher, dass parametrische Tests in großen Stichproben selbst dann gut funktionieren, wenn die Populationsverteilung der Einzelbeobachtungen nicht normal ist. Unglücklicherweise lässt sich schwer sagen, wie groß groß genug ist, da dies von der genauen Gestalt der nicht-normalen Verteilung abhängt. Solange die Verteilung aber nicht übermäßig "schräg" ist, sollten in der Praxis 20 Beobachtungseinheiten pro Gruppe für eine ausreichende Validität der meisten parametrischen Tests ausreichen. Nicht-parametrische Tests funktionieren in großen normalverteilten Stichproben ebenfalls gut, da sie dort nur geringfügig weniger Power haben als die entsprechenden parametrischen Verfahren. In kleinen Stichproben greift jedoch der Zentrale Grenzwertsatz nicht, d.h. parametrische Tests sind nicht valide und die zugehörigen p-Werte sind ungenau. Nicht-parametrische Tests haben wiederum in kleinen Stichproben nur sehr wenig Power. Unterm Strich führt dies zu einer Catch-22-Situation. Auf der einen Seite ist es sehr einfach zu entscheiden, ob die Daten in einer großen Stichprobe normalverteilt sind oder nicht. Dort ist es aber letztlich uninteressant, da nichtparametrische Tests genügend Power haben und parametrische Tests in großen Stichproben robust gegen Verletzungen der Normalitätsannahme sind. Bei kleinen Stichproben ist es auf der anderen Seite schwer zu sagen, ob die Daten normalverteilt sind oder nicht. Gerade hier macht es aber einen großen Unterschied, weil nicht-parametrische Tests nicht viel Power haben und parametrische Tests nicht sehr robust sind. Universitätsklinikum Schleswig-Holstein ©2012 25 Bei der Varianzanalyse (engl. analysis of variance, ANOVA) handelt es sich um ein statistisches Verfahren zum Vergleich der Erwartungswerte einer normalverteilten Zufallsvariablen in mehreren Teilpopulationen. Hierzu wird bei der ANOVA die Varianz der Zielgröße in Abhängigkeit von der Definition der Teilpopulationen in verschiedene Bestandteile zerlegt, und diese Bestandteile werden anschließend miteinander verglichen. Die Technik der ANOVA wurde in ihrer ursprünglichen Form erstmals in der ersten Hälfte des 20. Jahrhunderts von Sir Ronald Fisher angewandt. ANOVA ist ein nützliches Werkzeug, um die tatsächliche Ursache für die Variabilität einer Zielgröße unter mehreren möglichen Ursachen, genannt "Behandlungen" oder "Faktoren", zu identifizieren. Indem die Faktoren in vorher festgelegter Weise variiert werden und das Resultat entsprechend analysiert wird, erlaubt die ANOVA eine präzise Beurteilung der Relevanz dieser Faktoren. Die Methode ist insbesondere in der landwirtschaftlichen Forschung weit verbreitet (was über viele Jahre Fishers hauptsächliches wissenschaftliches Interessensgebiet war). Sie dient dort z.B. zur Beurteilung, inwieweit Unterschiede im Kornertrag auf die Verwendung unterschiedlicher Düngemittel oder auf unterschiedliche Bodenbedingungen (oder eine Kombination aus Beidem) zurückzuführen sind. Universitätsklinikum Schleswig-Holstein ©2012 26 Schon die nähere Betrachtung der beiden Histogramme legt den Schluss nahe, dass die Glukosedaten normalverteilt sein könnten, während die Cholesterindaten es mit hoher Wahrscheinlichkeit nicht sind. Die Verteilung des zweiten Merkmals ist ausgeprägt linkssteil, wobei die Modalklasse der Daten sogar am unteren Ende des Wertebereichs liegt. Universitätsklinikum Schleswig-Holstein ©2012 27 Es gibt ein formales statistisches Verfahren, den so genannten "KolmogorovSmirnov-Test", mit dem sich beurteilen lässt, ob die Verteilung einer Stichprobe signifikant von einer Normalverteilung abweicht. Die zugehörige Teststatistik D ist der maximale (vertikale) Abstand zwischen der empirischen Verteilungsfunktion und der Verteilungsfunktion einer Normalverteilung mit gleichem Erwartungswert und gleicher Varianz. Erinnern Sie sich daran, dass die Verteilungsfunktion F(x) einer Zufallsvariablen X jeder reellen Zahl x die Wahrscheinlichkeit zuordnet, dass X kleinere Werte als x annimmt, d.h. F(x)=P(X≤x). In der vorliegenden Stichprobe liefern die Cholesterindaten einen p-Wert von 0.082, der dicht an der Grenze zur statistischen Signifikanz liegt. Allerdings sollte ein Anpassungstest wie der hier vorgestellte die Verwendung eines liberaleren Signifikanzkriteriums rechtfertigen als normalerweise üblich, da Typ-I-Fehler weniger wichtig sind (man könnte sogar argumentieren, dass Typ-I-Fehler und Typ-II-Fehler die Rollen getauscht haben). Außerdem ist es bei kleinen Stichproben nicht nur per Augenschein schwierig festzustellen, ob Daten normalverteilt sind oder nicht. Auch der Kolmogorov-Smirnov-Test hat wenig Power, um zwischen normalverteilten und nicht-normalverteilten Daten zu unterscheiden. Ein nicht-signifikantes Testergebnis bietet daher wenig Sicherheit hinsichtlich der Normalität von Daten, wenn die Stichprobe sehr klein ist. Universitätsklinikum Schleswig-Holstein ©2012 28 Viele nicht-parametrische Testverfahren wie z.B. der Wilcoxon-, Kruskal-Wallisund Friedman-Test verwenden so genannte "Rangstatistiken". Diese Statistiken verdanken ihren Namen dem Umstand, dass sie nur vom Ranking, d.h. der Reihenfolge der Daten abhängen, und nicht von den Stichprobenwerten selbst. Der Mittelwert, der zwar ein guter und einfach zu berechnender Schätzer des Erwartungswertes ist, stellt keine Rangstatistik dar. Deshalb beziehen sich Hypothesen über die Lage nicht-normalverteilter Zufallsvariabler auch meistens nicht auf den Erwartungswert, sondern auf andere Verteilungsparameter (wie z.B. dem Median). Universitätsklinikum Schleswig-Holstein ©2012 29 Scores folgen per Definition keiner Normalverteilung, und eine Stichprobe von 10 Werten ist mit Sicherheit für die Anwendbarkeit des Zentralen Grenzwertsatzes zu klein. Die Frage, ob sich die Depressions-Scores von Patienten unter Verum und Placebo hinsichtlich ihrer Lage signifikant voneinander unterscheiden, kann daher nicht mit einem parametrischen Verfahren wie z.B. dem t-Test beantwortet werden. Universitätsklinikum Schleswig-Holstein ©2012 30 Wenn die Verteilung der Depressions-Scores in beiden Patientengruppen gleich wäre (d.h. wenn H0 richtig wäre), dann sollte die vorliegende Stichprobe eigentlich keinem systematischen Muster folgen. Mit anderen Worten würde man in den geordneten Daten eine "zufällige" Anordnung von A's und B's erwarten. Stattdessen ist aber eine klare Häufung von A's unter den hochrangigen Daten (und von B's unter den niedrigen Rängen) zu beobachten. Aber ist diese Anhäufung statistisch signifikant? Es erscheint plausibel, für die Beantwortung der Frage, ob die Anordnung der Daten mit H0 vereinbar ist oder nicht, die Rangsumme der Gruppe A oder B (welche man nimmt, ist egal) zu nutzen. Eine sehr große oder kleine Rangsumme würde offensichtlich gegen H0 sprechen. Für die eigentliche Berechnung der Wahrscheinlichkeit einer bestimmten Rangsumme ist zu berücksichtigen, dass bei Zutreffen von H0 jede Reihenfolge der Patienten gleich wahrscheinlich wäre. Man muss daher nur alle möglichen Permutationen von 5+5=10 Patienten durchlaufen und ermitteln, wie oft dabei die eine Rangsumme größer oder gleich 38 ist, und die andere kleiner oder gleich 17 (Beachten Sie, dass die relative Häufigkeit dieser Permutationen dem p-Wert der beobachteten Daten entspricht). Wie sich den meisten Statistiklehrbüchern entnehmen lässt, beträgt der kritische Wert für die Rangsumme im vorliegenden Fall 37, so dass der zugehörige p-Wert knapp unter 0.05 liegen dürfte. In der Tat lautet der genaue p-Wert 0.03175. Es gibt auch eine einseitige Version des Wilcoxon-Rangsummen-Tests, dessen kritischer Wert W0.950,5,5=35 beträgt. Universitätsklinikum Schleswig-Holstein ©2012 31 Zum Schluss werden noch statistische Tests für Situationen vorgestellt, in denen keines der beobachteten Merkmale quantitativ ist. Diese Verfahren sind angebracht, wenn es sich um Fragen hinsichtlich der Zugehörigkeit zu ungeordneten Gruppen wie z.B. Geschlecht, Nationalität oder Erkrankungszustand dreht. Die zugehörigen Tests stützen sich also auf Anzahlen und Häufigkeiten, statt auf Differenzen oder Ränge. Universitätsklinikum Schleswig-Holstein ©2012 32 In Westeuropa und Nordamerika beträgt die durchschnittliche Mortalität während eines Krankenhausaufenthalts nach Hüftbruch zwischen 3% und 8%. Bis zu 85% dieser Todesfälle gehen auf das Konto von Lungenentzündungen, Lungenembolien und Herzinfarkten. Universitätsklinikum Schleswig-Holstein ©2012 33 Der χ2 ("Chi-Quadrat")-Test dient dem Vergleich der Verteilung einer nominalen Zufallsvariablen X zwischen den unterschiedlichen Ausprägungen eines anderen nominalen Merkmals Y (oftmals die Identität einer Teilstichprobe). Wenn es sich bei Y selbst um eine Zufallsvariable handelt, so ist dieser Vergleich gleichbedeutend mit dem Testen der statistischen Unabhängigkeit von X und Y. Wenn Y nicht zufällig ist, sondern durch den Wissenschaftler vorab festgelegt wird, dann lautet die Nullhypothese "Die Verteilung von X ist unabhängig von der Ausprägung von Y". Ein Wissenschaftler kann z.B. daran interessiert sein, ob Mädchen oder Jungen in der Schule häufiger Mathematik statt Musik als Lieblingsfach angeben. Die erste nominale Variable von Interesse ist die entsprechende Vorliebe, X, mit den Ausprägungen "ja" (lieber Mathematik als Musik) oder "nein" (lieber Musik als Mathematik). Die zweite Variable, Y, ist das Geschlecht. Das Geschlecht kann selbst eine Zufallsvariable sein (wenn der Forscher z.B. 100 zufällig ausgewählte Kinder befragt) oder vorab festgelegt (wenn der Forscher 50 Jungen und 50 Mädchen zufällig auswählt und diese dann nach ihren Vorlieben fragt). Universitätsklinikum Schleswig-Holstein ©2012 34 Wenn X1, …, Xk unabhängige, standard-normalverteilte Zufallsvariable sind, dann bezeichnet man die Verteilung der Quadratsumme k χ 2 = ∑i=1 X i2 (die natürlich auch eine stetige Zufallsvariable ist) als χ2-Verteilung mit k Freiheitsgraden. Universitätsklinikum Schleswig-Holstein ©2012 35 Wie viele männliche Patienten mit einer Pneumonie wären in der Studie zu erwarten, wenn die Disposition zur Pneumonie unabhängig vom Geschlecht ist, d.h. wie groß ist e11? Die Wahrscheinlichkeit, dass eine zufällig aus der Studie ausgewählte Person männlich ist, beträgt 50/150; die Wahrscheinlichkeit, dass diese Person eine Pneumonie hatte, beträgt 15/150. Unter der Annahme der Unabhängigkeit von Geschlecht und Pneumonie, d.h. von Zeilen- und Spaltenzugehörigkeit, ergibt sich für die Wahrscheinlichkeit des gleichzeitigen Eintretens beider Ereignisse 50/150⋅15/150. Um e11 zu erhalten, muss diese Einzelwahrscheinlichkeit noch mit der Gesamtzahl der Patienten multipliziert werden, d.h. e11=150⋅50/150⋅15/150=5. Da die Zellhäufigkeiten einer zweidimensionalen Tabelle diskret sind, kann eine χ2-Statistik auch unter H0 nicht exakt, sondern nur angenähert einer χ2Verteilung folgen. Als Faustregel kann die Approximation dann als hinreichend angesehen werden, wenn die erwartete Zellhäufigkeit eij für jede Zelle mindestens 5 beträgt. Ist dies nicht der Fall, dann muss ein anderes Verfahren wie z.B. Fishers exakter Test verwendet werden. Wenn für mindestens eine Zelle 5≤eij≤ 10 zutrifft, dann wird eine so genannte "Yates-Korrektur" der χ2-Statistik empfohlen. Diese Korrektur besteht einfach darin, 0.5 von jeder Zellhäufigkeit oij abzuziehen, die größer als ihre Erwartung ist (d.h. oij>eij), und 0.5 zu jeder Zellhäufigkeit oij hinzuzuaddieren, die kleiner als ihre Erwartung ist (d.h. oij<eij). Hierbei handelt es sich um ein konservatives Verfahren, das der Teststatistik zwar keine χ2-Verteilung verleiht, dafür aber systematisch die Überschätzung der Signifikanz von Beobachtungen vermeidet. Im vorliegenden Beispiel hätte eine Yates-Korrektur aber keine Konsequenzen. Die korrigierte χ2-Statistik lautet 6.750 und ist damit ebenso hochsignifikant wie Universitätsklinikum Schleswig-Holstein ©2012 36 der unkorrigierte Wert 8.333. Universitätsklinikum Schleswig-Holstein ©2012 ‹Nr.› Der McNemar-Test eignet sich zur Beurteilung der Signifikanz von Änderungen bei abhängigen, nominal skalierten Messwerten. Ein klassisches Beispiel hierfür ist die Klärung der Frage, ob eine Wahlkampagne die Tendenz der Wähler zur Unterstützung oder Ablehnung eines Kandidaten geändert hat. Obwohl wieder zwei nominale Variable eine Rolle spielen ("vor" und "nach" der Kampagne, beide jeweils mit den Ausprägungen "Unterstützung" bzw. "Ablehnung"), sind die zugehörigen Beobachtungen per Design nicht unabhängig. Darum sieht der McNemar-Test auch etwas anders aus als der klassische χ2-Test. Mit etwas Nachdenken wird nämlich rasch klar, dass die Wähler, die bei Ihrer Meinung geblieben sind (d.h. o11 und o22), keine Information über die Wirksamkeit der Kampagne liefern. Sie tauchen daher in der McNemar-Statistik auch nicht auf. Universitätsklinikum Schleswig-Holstein ©2012 37 Universitätsklinikum Schleswig-Holstein ©2012 38 Das hier dargestellte Szenario ist in der wissenschaftlichen Forschung als "multiples Testproblem" bekannt. Es entsteht, wenn einen Forscher beim statistischen Testen einer Vielzahl von Hypothesen neben den Einzelergebnissen auch die so genannte "family-wise error rate (FWER)" interessiert. Die FWER ist die Wahrscheinlichkeit, mit der mindestens eine richtige Nullhypothese verworfen wird. Ein Skeptiker gegenüber Naturheilmitteln wäre z.B. nicht daran interessiert, ob ein BESTIMMTES Mittel fälschlicherweise als wirksam eingestuft wird, sondern ob dies für IRGENDEINS passiert. Eine solche Person würde also die FWER kontrollieren wollen. Universitätsklinikum Schleswig-Holstein ©2012 39 Im schlimmsten Fall, wenn nämlich 20 wahre Nullhypothesen in 20 unabhängigen Stichproben jeweils zum 5% Signifikanzniveau getestet werden (d.h. αtest=0.05), würde man im Mittel "allein durch Zufall" eine Nullhypothese ablehnen. Die Wahrscheinlichkeit, mit der mindestens eine der 20 wahren Nullhypothesen verworfen wird, beträgt 1-0.9520=0.64, oder 64%. Universitätsklinikum Schleswig-Holstein ©2012 40 Die Bonferroni-Korrektur für multiples Testen besteht in der Wahl des testspezifischen Signifikanzniveaus αtest als Quotient aus dem multiplen Signifikanzniveau α und der Anzahl der durchgeführten Tests n. Dabei versteht man unter "multiplem Signifikanzniveau" die vom Wissenschaftler vor Durchführung seines Experiments festgelegt Schranke für die FWER. Obwohl dies eine einfache und nahe liegende Methode zur Kontrolle der FWER ist, bringt die Bonferroni-Korrektur eine Reihe von Problemen mit sich. Wenn die Stichproben, an denen die Tests durchgeführt werden, nicht unabhängig voneinander sind, so ist die bedingte Wahrscheinlichkeit für einen Typ-I-Fehler in einem bestimmten Test, gegeben dass in keinem anderen Test ein Typ-I-Fehler passiert ist, in der Regel kleiner als αtest. Die BonferroniKorrektur ist in solchen Fällen sehr konservativ und führt zu einem unnötigen Powerverlust. Für solche Fälle stehen andere, unglücklicherweise sehr viel kompliziertere Verfahren zur Verfügung, um bei einer Korrektur für multiples Testen die Abhängigkeit von Daten in Rechnung zu stellen. Wenn die Bonferroni-Korrektur zur generellen Voraussetzung für die Akzeptanz statistisch signifikanter Ergebnisse gemacht würde, wäre zu befürchten, dass Wissenschaftler die wahre Anzahl der durchgeführten, und dabei insbesondere der nicht signifikanten Tests verschweigen. Carlo Bonferroni war ein italienischer Mathematiker, der zuerst in Bari und später in Florenz einen Lehrstuhl für Finanzmathematik innehatte. Im Laufe seiner Karriere entwickelte Bonferroni eine ausgeprägt frequentistische Sicht der Wahrscheinlichkeit und leugnete schon die reine Möglichkeit, dass subjektivistische Vorstellungen Gegenstand einer mathematischen Wahrscheinlichkeitstheorie sein könnten. Universitätsklinikum Schleswig-Holstein ©2012 41 Universitätsklinikum Schleswig-Holstein ©2012 42 Der Stichprobenumfang sollte bei "sauberer" Planung einer wissenschaftlichen Studie VOR Beginn der Studie feststehen. Zudem wird das Signifikanzniveau nur dann eingehalten, wenn am Ende der Studie nur EINE statistische Auswertung wie geplant stattfindet. Werden Zwischenauswertungen vorgenommen, so "verbrauchen" diese jedes Mal einen Teil des Signifikanzniveaus. Diesem Umstand muss der Wissenschaftler durch geeignete Anpassung (d.h. Reduzierung) des Signifikanzniveaus bei der Zwischen- und Endauswertung Rechnung tragen. Die Anwendung verschiedener statistischer Tests auf ein und dieselben Daten kann sinnvoll sein, wenn diese Tests unterschiedliche Aspekte der Daten beleuchten. Allerdings sieht sich der Wissenschaftler dabei eventuell einem multiplen Testproblem gegenüber, was wiederum eine Korrektur der testspezifischen Signifikanzniveaus für die Anzahl der bereits durchgeführten Tests erfordert. Das Signifikanzniveau eines statistischen Tests wird grundsätzlich vor dessen Durchführung festgelegt, d.h. aus einem "signifikanten" Ergebnis kann kein "hoch signifikantes" werden. Das nachträgliche Anpassen des Signifikanzniveaus würde dem "Verschieben der Torpfosten" gleichkommen. Sollte das Ergebnis einer wissenschaftlichen Studie in weitaus deutlicherem Widerspruch zur Nullhypothese stehen, als durch das Signifikanzniveau zum Ausdruck kommt, so kann dies durch Mitteilung des p-Wertes dokumentiert werden. Universitätsklinikum Schleswig-Holstein ©2012 43 Universitätsklinikum Schleswig-Holstein ©2012 44