Testen von Hypothesen M. Kresken 1 Testen von Hypothesen • Im medizinisch-biologischen Bereich können wissenschaftliche Hypothesen meist nicht direkt bewiesen werden, da „unbekannte“ Faktoren eventuell vorhandene deterministische Gesetzmäßigkeiten „stören“. • Die Gültigkeit einer wissenschaftlichen Hypothese wird überprüft, indem ein konkretes Experiment benutzt wird, um die Vereinbarkeit der Hypothese mit der Realität zu klären. M. Kresken 2 Testen von Hypothesen • Wird beispielsweise untersucht, ob eine bestimmte Operationsmethode den Blutzuckerspiegel beeinflusst, muss zusätzlich die Tatsache berücksichtigt werden, dass mehrfache Blutzuckerbestimmungen beim gleichen Patienten zufällige (biologische) Schwankungen aufweisen. • Auch bei fehlendem Einfluss werden die Messungen der Blutzuckerwerte eines Patienten vor und nach der Operation voneinander abweichen. • Sind die beobachteten Blutzuckerveränderungen jedoch ausschließlich durch Zufallsschwankungen bedingt, kann man erwarten, dass diese Differenzen im Mittel sehr klein sind, also nur zufällig vom Erwartungswert Null abweichen. M. Kresken 3 Testen von Hypothesen • Auf dieser Tatsache basiert die Konstruktion von Beurteilungskriterien für die Hypothese. • Hypothesen der Art „Es besteht kein Unterschied.“ oder „Beobachtete Unterschiede weichen nur zufällig von Null ab.“ werden in der Statistik als Nullhypothese (H0) bezeichnet. • Die zu H0 komplementäre Aussage heißt Alternativhypothese (H1). • Um die Hypothese „Die beobachteten Unterschiede weichen nur zufällig von Null ab.“ beurteilen zu können, werden Modelle der Wahrscheinlichkeitsrechnung herangezogen. M. Kresken 4 Binominaltest • Beispiel: Zur Verbesserung der Compliance einer notwendigen Vitamintherapie werden 11 Kindern in zufälliger Reihenfolge Brausetabletten zweier verschiedener Geschmacksrichtungen – Orangen- und Bananengeschmack – verabreicht. • Jedes Kind sollte über die bevorzugte Geschmacksrichtung entscheiden. M. Kresken 5 Binominaltest • Folgende Überlegungen: - Besteht bei den Kindern keine systematische Bevorzugung einer der beiden Geschmacksrichtungen, so ist zu erwarten, dass die eine Hälfte der Kinder Orangengeschmack und die andere Hälfte Bananengeschmack bevorzugt („unentschieden“ ist dabei nicht zugelassen). - Untersucht man eine zufällige Stichprobe von Kindern, so wird unter der Voraussetzung gleichwahrscheinlicher Entscheidungen für Orangen- oder Bananengeschmack die Abfolge der Ergebnisse für den Betrachter zufällig erscheinen. - In diesem Fall wäre die Entscheidung in jedem einzelnen Experiment für Orangen- oder Bananengeschmack gleichbedeutend mit dem Auftreten von Kopf oder Zahl beim wiederholten Werfen einer Münze. M. Kresken 6 Binominaltest • Folgende Überlegungen II: - Somit ist die Anzahl der „Erfolge“ – in diesem Fall die Bevorzugung von Orangengeschmack – binominal (n,p)-verteilt. - Dabei ist p die Wahrscheinlichkeit für die Bevorzugung von Orangengeschmack und n der Stichprobenumfang. - Geht man davon aus, dass es keine Präferenz für eine der beiden Geschmacksrichtungen gibt, wird für dieses Beispiel die Nullhypothese für den Parameter p der Binominalverteilung H0: p = 0,5 und entsprechend die komplementäre Alternativhypothese H1: p 0,5 nahe gelegt. M. Kresken 7 Binominaltest • Folgende Überlegungen III: - Da die Alternative eine Bevorzugung einer der beiden Geschmacksrichtungen beschreibt – mathematisch durch p 0,5 formuliert -, kann also sowohl p > 0,5 (Bevorzugung von Orangengeschmack) als auch p < 0,5 (Bevorzugung von Bananengeschmack) zutreffen. - Eine solche Formulierung der Alternativhypothese heißt deshalb zweiseitig. - Als Prüfgröße zur Beurteilung von H0 wird die Zufallsvariable „Zahl der Bevorzugungen von Orangengeschmack in einer Stichprobe vom Umfang n“ betrachtet. - Liegt die Zahl der Bevorzugungen von Orangengeschmack nahe bei n - entscheidet sich also die überwiegende Mehrzahl der Kinder im Versuch für Orangengeschmack -, so hat man gute Gründe, die Gültigkeit der Nullhypothese anzuzweifeln. - Das Ergebnis des Versuchs „spricht“ dann eher für die Alternativhypothese, die hier als eine Bevorzugung von Orangengeschmack interpretiert wird. - Aus den Ergebnissen wird im Allgemeinen der so genannte Wert der Prüfgröße berechnet. - Anhand dieses Wertes lassen sich die Versuchsausgänge unter Gültigkeit von H0 in extrem oder nicht extrem bewerten. - Die Prüfgröße beim Binominaltest ist die Anzahl k der Erfolge bzw. Bevorzugungen. M. Kresken 8 Binominaltest • Folgende Überlegungen IV: - Wenn die Nullhypothese (p = 0,5) gilt, sind die Anzahlen k der Kinder, die Orangengeschmack bevorzugen, unter n = 11 befragten Kindern (11, 0,5)-verteilt. - Daraus geht hervor, dass der Versuch durchaus mit extremen Ergebnissen, d. h. Anzahlen k von Bevorzugungen von Orangengeschmack enden kann, falls die Nullhypothese zutrifft. - So ist die Wahrscheinlichkeit für 10 oder 11 Bevorzugungen von Orangengeschmack: 11 11 ( ) • ( ) + ( ) • ( ) = (11 + 1) • 11 10 1 2 11 11 1 2 1 12 = = 0,0059. 2048 2048 - Wenn p = 0,5 gilt, so wäre es genauso wenig wahrscheinlich, 0 oder 1 Bevorzugung von Orangengeschmack wie 10 oder 11 zu erhalten, d.h. 0 oder 1 Bevorzugungen wären ein genauso extremes Ergebnis wie 10 oder 11. - Insgesamt ist dann die Wahrscheinlichkeit für die extremen Anzahlen 0,1,10 oder 11 Bevorzugungen gegeben durch: 12 + 12 M. Kresken 2048 = 0,0117 9 Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,5) M. Kresken 10 Signifikanzniveau • Die zentrale Bedeutung der Nullhypothese (H0) ist, dass sie Annahmen zur Formulierung eines Wahrscheinlichkeitsmodells festlegt. • Lassen sich die tatsächlichen Beobachtungen durch das so festgelegte Modell nur unzugänglich erklären, werden die ursprünglichen Annahmen (die Nullhypothese) als unhaltbar verworfen. • Die Denkweise ist dabei die folgende: Unter der Annahme der Richtigkeit der Nullhypothese ist man in der Lage, die Verteilung der Prüfgröße (im Beispiel war dies die Zahl der Bevorzugungen) vor Beginn des Versuchs zu spezifizieren. • So können Aussagen über das voraussichtliche Versuchsergebnis gemacht werden. • Es wird ein Bereich angegeben, in dem der Wert der Prüfgröße mit einer bestimmten (hohen), vor Versuchsbeginn festzulegenden Wahrscheinlichkeit zu finden sein wird (z.B. 95% oder 99%). • In den komplementären Bereich fällt bei Zutreffen der Nullhypothese die Prüfgröße nur mit einer geringen Wahrscheinlichkeit von = 0,05 (5%) bzw. 0,01 (1%), der so genannten Irrtumswahrscheinlichkeit. M. Kresken 11 Signifikanzniveau • Fällt der Wert der Prüfgröße in diesen Ablehnbereich oder Verwerfungsbereich, so ist ein Ereignis eingetreten, dem bei Zutreffen der Nullhypothese nur eine geringe Wahrscheinlichkeit zukommt. • In diesem Falle wird man sich daher dafür entscheiden, die Nullhypothese fallen zu lassen: Die Nullhypothese wird verworfen. • Fällt die Realisation der Prüfgröße nicht in den Ablehnbereich (also in den Annahmebereich), so hat das Experiment keine gewichtigen statistischen Gründe geliefert, die Nullhypothese anzuzweifeln. Die Nullhypothese wird nicht verworfen. • Wird vor dem Versuch die Irrtumswahrscheinlichkeit von = 0,05 (5%) gewählt, so bedeutet dies, dass im Durchschnitt in 5 von 100 gleichartigen Experimenten der Test zu einer fälschlichen Ablehnung der Nullhypothese führt. • D.h. für den Fall, dass die Nullhypothese zutrifft, wird sie mit 5% Wahrscheinlichkeit irrtümlicherweise abgelehnt. • Die Wahrscheinlichkeit = 0,05 (5%) heißt auch Signifikanzniveau. M. Kresken 12 Signifikanzniveau • Häufig wird die Entscheidung bei einem statistischen Test an Hand des p-Wertes und nicht des Wertes der Prüfgröße getroffen. (Leider wird in der üblichen Nomenklatur der Buchstabe p auch für den Parameter der Binominalverteilung verwendet.) • Der p-Wert gibt die Wahrscheinlichkeit an, vorliegende oder extremere Versuchsgänge zu beobachten, wenn die Nullhypothese zutrifft. • Die Berechnung erfolgt über den beobachteten Wert der Prüfgröße. • Die Entscheidungsregel für bzw. gegen das Verwerfen der Nullhypothese lässt sich dann – analog zum Vergleich des beobachteten Wertes der Prüfgröße mit dem Schwellenwert – an Hand des Vergleiches des p-Wertes mit dem Signifikanzniveau (häufig 0,05) in der Form verwerfe die Nullhypothese, falls gilt: p bzw. verwerfe die Nullhypothese nicht, falls gilt: p > formulieren. M. Kresken 13 Zweiseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5) M. Kresken 14 Signifikanzniveau • Da die Richtung der Bevorzugung vor Versuchsbeginn unbekannt ist, wird ein zweiseitiger symmetrischer Bereich so gewählt, dass der Ablehnbereich in je einen unteren sowie einen oberen 2,5%-Bereich zerfällt. • Man spricht von einem zweiseitigen Niveau--Test mit zugehörigem zweiseitigen 5%-Ablehnbereich bzw. dem zweiseitigen p-Wert. • Im Gegensatz dazu wird bei einem einseitigen Niveau--Test beispielsweise die einseitige Nullhypothese H0: p 0,5 gegen die einseitige Alternativhypothese H1: p > 0,5 auf dem Signifikanzniveau geprüft. • Dabei ist man an der Aussage „der Anteil p ist größer als 0,5“ interessiert. • Der einseitige 5%-Ablehnbereich ist dann durch die Ergebnisse k = 9,10,11 gegeben, da die einseitige Nullhypothese nur verworfen wird, wenn die Anzahl der Bevorzugungen von Orangengeschmack nahe bei n liegt. • Die Auswahl, ob eine medizinische Fragestellung „einseitig“ oder „zweiseitig“ geprüft werden soll, ist vor dem Test auf Grund sachlogischer Überlegungen festzulegen. M. Kresken 15 Einseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5) M. Kresken 16 Signifikanzniveau Beispiel: • Nehmen wir an, dass 10 Kinder Tabletten mit Orangengeschmack bevorzugt hätten. • Dann ergibt sich auf Grund der Beobachtung von 10 Bevorzugungen ein einseitiger p-Wert von 0,0059, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich dem Wert von k = 10 sind (also 10 und 11). • Der entsprechende zweiseitige Wert beträgt p = 0,0117, berechnet als Wahrscheinlichkeit für Werte von k, die größer oder gleich k = 10 bzw. kleiner oder gleich k = 11-10 = 1 sind (also 0,1,10,11). • Wurde vor Studienbeginn das Signifikanzniveau von 5% für den zweiseitigen Wert gewählt, so lautet die Testentscheidung, da der p-Wert von 0,0117 kleiner als das Signifikanzniveau von 5% ist, dass die Nullhypothese zu verwerfen ist. • Gleichzeitig ist im Fall eines signifikanten zweiseitigen Testergebnisses die einseitige Interpretation – hier signifikant höhere Anteil von Bevorzugungen von Orangengeschmack – zulässig. M. Kresken 17 Fehler 1. und 2. Art • Trifft man auf Grund des erläuterten Verfahrens eine Entscheidung, so kann diese richtig oder falsch sein. • Die möglichen Ergebnisse des Entscheidungsprozesses lassen sich in einer Vierfeldertafel beschreiben. Entscheidungsschema eines statistischen Tests Testentscheidung lautet: Nullhypothese ist tatsächlich Nullhypothese richtig falsch nicht verwerfen richtige Entscheidung falsche Entscheidung „Fehler 2. Art“ verwerfen falsche Entscheidung „Fehler 1. Art“ richtige Entscheidung M. Kresken 18 Fehler 1. und 2. Art • Die Bedeutung einer Fehlentscheidung hängt von der betrachteten Fragestellung ab; es ist im Allgemeinen ohne weitere Annahmen nicht möglich, Wahrscheinlichkeiten für beide Fehlerarten anzugeben. • Legt man jedoch einen Bereich fest, in welchem die Werte der Prüfgröße erwartet werden, wenn die Nullhypothese richtig ist, so ist dies gleichbedeutend mit der Festlegung der Wahrscheinlichkeit für einen Fehler 1. Art. • Der Bereich wird dabei derart gewählt, dass der folgende Schluss möglich ist: Ist die Nullhypothese richtig, kommen Werte außerhalb dieses Bereiches, des so genannten „Annahmebereiches“, nur mit einer bestimmten vorgegebenen Wahrscheinlichkeit (der so genannten Irrtumswahrscheinlichkeit) vor. M. Kresken 19 Fehler 1. und 2. Art • Offensichtlich ist diese Irrtumswahrscheinlichkeit identisch mit der Wahrscheinlichkeit für den Fehler 1. Art. Die Wahl der Irrtumswahrscheinlichkeit ist im Prinzip freigestellt und hängt mit dem bereits angesprochenen Entscheidungsrisiko zusammen. • Im Bereich der medizinischen Forschung haben sich Werte von 0,05 (5%) und 0,01 (1%) eingebürgert. • Wie schon erläutert, bedeutet das Signifikanzniveau die Wahrscheinlichkeit für „falsch-positive“ Testentscheidungen, die nur auftreten können, wenn die Nullhypothese zutrifft. M. Kresken 20 Fehler 1. und 2. Art • Die Wahrscheinlichkeit für einen Fehler 2. Art kann im Allgemeinen nicht quantifiziert werden. • Vorstellungen über die Größenordnung von ergeben sich, wenn man in einer Modellrechnung die Alternativhypothese in Form einer Punkthypothese (etwa p = 0,8) spezifiziert und damit berechnet. M. Kresken 21 Fehler 1. und 2. Art • Beispiel: Wir gehen davon aus, dass bei dem Test „Präferenz von Orangengeschmack“ ein zweiseitiger Test zum Signifikanzniveau = 0,05 geplant war. • Um die Wahrscheinlichkeit für den Fehler 2. Art quantifizieren zu können, nehmen wir an, dass die Kinder eine klare Präferenz für Orangengeschmack von p = 0,8 haben. • Somit wäre unter der Alternativhypothese H1: p = 0,8 die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(11, 0,8)-verteilt. • Für eine Stichprobe vom Umfang n = 11 befragter Kinder erhält man dann die die folgende Verteilung (nächstes Chart): M. Kresken 22 Wahrscheinlichkeitsfunktion der Binominalverteilung (11, 0,8) M. Kresken 23 Fehler 1. und 2. Art 11 1 10 10 1 11 ( )•( ) +( )•( ) •( )+( )•( ) •( )+( )•( ) 11 0 0,2 11 1 0,8 0,2 11 10 0,8 0,2 11 11 0,8 = 0,3221 • Tatsächlich würde man sich also lediglich mit der Wahrscheinlichkeit von p = 0,3221 (also ca. 32%) für eine Ablehnung der Nullhypothese (k = 0,1,10,11) entscheiden, falls die Alternative in der Form p = 0,8 zutrifft. M. Kresken 24 Fehler 1. und 2. Art • Die konkrete Formulierung der relevanten punktuellen Alternativhypothese vor Versuchsbeginn ist im Allgemeinen ein schwieriges, manchmal jedoch auf Grund sachlogischer Argumente zumindest annährend zu lösendes Problem. • Zuweilen geht man jedoch von einer punktförmigen Alternativhypothese aus, um den Mindest-Stichprobenumfang des Versuchs berechnen zu können. • Dabei gibt der Unterschied zwischen dem Wert unter der Nullhypothese (in unserem Beispiel p = 0,5) und dem Wert der Alternativhypothese (gemäß der Annahme p = 0,8, Unterschied 0,3) den Effekt an, den es aufzudecken gilt. • Der mindestnotwendige Stichprobenumfang „zum Aufdecken des relevanten Unterschiedes bei vorgegebener Sicherheit“ kann wie folgt abgeschätzt werden: M. Kresken 25 Fehler 1. und 2. Art • Aus der Theorie ist bekannt, dass sich mit wachsendem Stichprobenumfang die konkurrierenden Wahrscheinlichkeitsmodelle unter der Null- und Alternativhypothese immer mehr unterscheiden. • Das bedeutet, dass bei vorgegebenem Fehler 1. Art und wachsendem Stichprobenumfang die Wahrscheinlichkeit für einen Fehler 2. Art kleiner wird. • Mit wachsendem Stichprobenumfang steigt also die Chance, Abweichungen von der Nullhypothese auch zu entdecken. • Die Wahrscheinlichkeit für die korrekte Ablehnung der Nullhypothese nennt man die Macht (POWER) eines Tests. POWER = 1 – „Wahrscheinlichkeit für einen Fehler 2. Art“ = „Wahrscheinlichkeit für korrektes Verwerfen der Nullhypothese“ M. Kresken 26 Fehler 1. und 2. Art • Beispiel: Nimmt man an, dass der Anteil der Kinder, die Orangengeschmack bevorzugen, tatsächlich p = 0,8 ist, so wäre bei Gültigkeit der Alternative die Zufallsvariable „Zahl der Kinder, die Orangengeschmack bevorzugen“(n, 0,8)-verteilt. • In den folgenden Abbildungen ist die Verteilung der Prüfgröße k für H0: p = 0,5 und H1: p = 0,8 für die Stichprobenumfänge n = 25 und n = 50 veranschaulicht. M. Kresken 27 Wahrscheinlichkeitsfunktion der Binominalverteilung (25, 0,5) und (25, 0,8) M. Kresken 28 Wahrscheinlichkeitsfunktion der Binominalverteilung (50, 0,5) und (50, 0,8) M. Kresken 29 Fehler 1. und 2. Art • Die zweiseitigen 5%-Ablehnungsbereiche für den Binominaltest mit n = 25 setzen sich aus den Ergebnissen k = 0,....7 und k = 18,....25 bzw. für n = 50 aus den Ergebnissen k = 0,....17 und k = 33,....50 zusammen. • Der folgende Tabelle entnimmt man die Macht (POWER) des zweiseitigen Binominaltests mit den punktförmigen Hypothesen in Abhängigkeit vom Stichprobenumfang n (H0: p = 0,5 und H1: p = 0,8) M. Kresken 30 Macht (POWER) des zweiseitigen Binominaltests in Abhängigkeit vom Stickprobenumfang (H0: p = 0,5 und H1: p = 0,8) M. Kresken n Wahrscheinlichkeit für einen Fehler 2. Art (%) POWER = 1 - (%) 11 67,8 32,2 15 35,2 64,8 20 19,6 80,4 25 10,9 89,1 30 6,1 93,9 35 3,4 96,6 40 1,9 98,1 45 1,1 98,9 50 0,6 99,4 100 0 100 31 Fehler 1. und 2. Art • Versuchsplanerische Konsequenzen lassen sich aus der Tabelle folgendermaßen ziehen: • Können auf Grund berechtigter medizinischer Annahmen die konkurrierenden Wahrscheinlichkeitsmodelle in der Form (H0: p = 0,5 und H1: p = 0,8) spezifiziert werden oder, anders formuliert, ist man an der Entdeckung einer relevanten Anteilsdifferenz von 0,3 gegenüber der Nullhypothese interessiert und möchte diesen Unterschied auch tatsächlich mit 90% Wahrscheinlichkeit entdecken, so wird ein Stichprobenumfang von mehr als n=25 (exakt berechnet 28) benötigt. • Offensichtlich gilt, dass im Falle einer geringeren Anteilsdifferenz die entsprechende Power sinkt und damit ein größerer Stichprobenumfang benötigt wird. M. Kresken 32