Prinzipien des statistischen Testens • Entscheidungsfindung • Exakter Binomialtest als Beispiel • Statistische Tests – – – Nullhypothese Alternativhypothese Fehlentscheidungen 1 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Ausgangspunkt: Forschungshypothese Beispiele: 1. Klinische Studien: These: Neues Präparat größere therapeutische Wirkung als die herkömmlichen 2. Geburtshypothese: These: mehr Jungen- als Mädchengeburten 2 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Überprüfung solcher Fragestellungen anhand empirischer Forschung Beachte: - Fragestellungen Aussagen über Grundgesamtheit (GG) formuliert über Parameter der GG nicht vollständig überprüfbar, i.d.R. nur die Konsequenzen zur empirischen Überprüfung Operationalisierung notwendig, d.h. Festlegung beobachtbarer Variablen, die zur Erfassung der eigentlichen Fragestellung geeignet sind z.B. bessere Heilung bedingt durch neues Medikament, messbar über Veränderung bestimmter Laborparameter 3 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Dabei wichtig: Festlegung von Einflussvariable (unabhängig) Verabreichung des Medikaments Zielvariablen (abhängig) Veränderung relevanter Laborparameter Zur empirischen Überprüfung notwendig: Festlegung eines Prüfplans Kontrolle von Störvariablen (Confounder) zusätzliche Einflussgrößen auf abh. Variablen und mit interessierender Einflussgröße assoziiert Einhaltung des Prüfplans Abweichungen notieren 4 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Von Interesse: Ist beobachtetes Phänomen in Stichproben (Heilung unter Medikament) reines Zufallsprodukt oder mit großer Sicherheit auf Medikament zurückzuführen? Dazu notwendig: Formale Entscheidungsregel Statistischer Test 5 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Beispiel: Exakter Binomialtest Vermutung: mehr Jungen- als Mädchengeburten Studienplan: Zähle Geburten (keine Mehrlinge) getrennt nach Geschlecht innerhalb von 24 Stunden in einem Krankenhaus 10 Geburten 6 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Überlegung: • Jungen- und Mädchengeburten gleich wahrscheinlich • Was ist bei 6 Jungen und 4 Mädchen? gleich wahrscheinlich? • Jedes dieser Ereignisse möglich, auch wenn Anzahl in Wirklichkeit gleich Wahrscheinlichkeiten dafür aber gering mehr Jungen als Mädchen 7 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Formale Beschreibung 1 Junge wir geboren Xi mit P(Xi 1) 0 sonst Damit: Aussagen über Verhältnis Jungen- und Mädchengeburten formulierbar über : 1 gleich viele Jungen und Mädchen 2 1 mehr Jungen als Mädchen 2 statistisches Testproblem Nullhypothese H0 : 1 2 vs. Alternativhypothese vs. H1 : 1 (Forschungshypothese) 8 2 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Zur Überprüfung des Testproblems: Verdichtung der Info aus Stichprobe in Prüfgröße bzw. Teststatistik Wichtig: Anhand Teststatistik Entscheidung darüber, ob eher H0 oder H1 für Grundgesamtheit zutrifft, d.h. H0 und H1 Aussagen über GG und nicht über die Stichprobe Hier: Prüfgröße : Anzahl der Jungen Falls Y>c 10 Y Xi i1 für geeigneten „kritischen“ Wert c Entscheidung für H1! Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 9 Aber: Wie ist c zu wählen? Dazu: Annahme gerechtfertigt, dass Geburten unabhängig Xi ~ Binomial (n 10, 0.5) H0 y P(Y=y) 0 1 2 3 4 5 0.001 0.01 0.044 0.117 0.205 0.246 10 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 B (10, 0.1) Skizze: 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 7 8 9 10 11 Außerdem: Unter H0 erwartet: 5 Jungengeburten d.h. Y > 5 spricht für H1 Aber wie groß müssen Werte sein, dass ihr Zustandekommen unter H0 extrem unwahrscheinlich ist? Was ist „extrem unwahrscheinlich“? üblich: 0.01, 0.05, 0.1 Signifikanzniveau Konstruktion des sogenannten Ablehnungsbereichs, der alle Werte enthält, - die für H1 sprechen - deren Wahrscheinlichkeit insgesamt Simulation mit R Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 12 Beispiel: n 10, 0.5, 0.1, Y ~ Bin (10,0.5) H0 Ablehnungsbereich enthält alle y-Werte, also Anzahl von Jungengeburten, die größer 5 zusammengenommen unter H0 eine Wahrscheinlichkeit von höchstens 0.1 besitzen Da PH PH PH PH 0 0 0 0 (10 Jungengebu rten) 0.001 0.011 (9 Jungengebu rten) 0.01 0.055 (8 Jungengebu rten) 0.044 (7 Jungengebu rten) 0.117 0.1 Ablehnungs bereich C {8,9,10} 13 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Interpretation: 8, 9, 10 Jungengeburten sind unter der Annahme, dass Jungenund Mädchengeburten gleich wahrscheinlich sind, nur mit einer Wahrscheinlichkeit von höchstens 10% möglich so klein, dass Schluss naheliegend: H1 gilt! Man sagt: H0 kann zugunsten von H1 verworfen werden. 14 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Damit: Statistischer Test liefert objektive Entscheidung „H0 beibehalten“ bzw. „Beobachtungen liefern stat. nicht signifikantes Ergebnis“ „H0 ablehnen“ bzw. „Beobachtungen liefern statistisch signifikantes Ergebnis“ aber Vorsicht! statistischer Test kann nur entscheiden, ob Ergebnis im statistischen Sinn signifikant, also statistisch bedeutend, aber nicht, ob auch unter substanzwissenschaftlichen Gesichtspunkt Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 15 Also: Stat. Signifikanz nicht immer gleich biologischer Relevanz Bewertung der Biologischen Relevanz eventuell unter Einbeziehung der Nebenkriterien (z.B. positive / negative Nebenwirkungen, Wohlbefinden des Patienten, Allgemeinzustand) Abb. 1: Statistische Signifikanz und biologische Relevanz Statistische Signifikanz Biologische Relevanz ja nein ja + - nein - + Wichtig: Inhaltliche Interpretierbarkeit der Ergebnisse Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 16 Beispiel: Biologisch relevante Blutdrucksenkung (BDS), wenn BDS > 10/5 mmHg bei Patienten mit leichtem bis mittelschwerem Bluthochdruck. Blutdruck vorher Blutdruck nachher („Baseline“) („nach Gabe der Mittels“) Y0 Y1 H0 : 1 0 bio log isch Relevant, wenn 0 1 10 / 5 mmHg H1 : 1 0 Biolog. Relevanz Stat. Signifikanz ja ja ja nein nein ja nein nein Y0 Y1 10/5 und Ablehnung von H0 Y0 Y1 10/5 und Nicht - Ablehnung von H0 Y0 Y1 10/5 und Ablehnung von H0 Y0 Y1 10/5 und Nicht - Ablehnung von H0 17 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Außerdem möglich: Fehlentscheidungen Test entscheidet mehr Jungen- als Mädchengeburten, obwohl tatsächlich gleich viele gleich viele Jungen- und Mädchengeburten, obwohl tatsächlich mehr Jungen, d.h. - H0 wird verworfen, obwohl H0 wahr Fehler 1. Art (-Fehler) H0 wird beibehalten, obwohl H1 wahr Fehler 2. Art (-Fehler) 18 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Damit sind folgende Ausgänge eines Tests möglich: Abb. 2: Hypothese wahr nicht wahr lehnt ab Fehler 1. Art (-Fehler) richtig lehnt nicht ab richtig Fehler 2. Art (-Fehler) Test 19 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Beachte: stat. Test med. Test bei beiden Fehlentscheidungen möglich Testproblem bei med. Test (Diagnose) H0: Patient gesund vs. H1: Patient krank Ziel: med. Test mit großer Genauigkeit bei Einstufung von • gesundem Patienten als gesund hohe Spezifität geringe Wahrscheinlichkeit für Fehler 1. Art • krankem Patienten als krank hohe Sensitivität geringe Wahrscheinlichkeit für Fehler 2. Art Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 20 Merke: • • • Konstruktion statistischer Tests so, dass Kontrolle über Wahrscheinlichkeit für Fehler 1. Art durch kleine vorgegebene obere Schranke Signifikanzniveau Sicherheitswahrscheinlichkeit 1 - keine Kontrolle über Wahrscheinlichkeit für Fehler 2. Art Suche nach bestem Test: unter allen Tests zum Niveau für vorliegendes Testproblem derjenige mit geringster Wahrscheinlichkeit für Fehler 2. Art Fallzahl-Bestimmung durch Festlegung der „Power“ des Tests bei einem bestimmten Wirkunterschied unter Berücksichtigung der Streuung des Hauptzielkriteriums. Power: Funktion, die abhängt vom wahren Wirkunterschied (|1-0| im BDS-Beispiel) und der Streuung. 21 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Damit: • • Nullhypothese höchstens mit Wahrscheinlichkeit fälschlicherweise verworfen Wahrscheinlichkeit für den Fehler 2. Art nicht vorgegeben abhängig von gewählter Alternative, je näher wahrer Parameter an (nicht wahrem) Wert aus H0, desto größer Wahrscheinlichkeit für Fehler 2. Art Ungleichbehandlung beider Fehlerarten Grund für Formulierung eigentlicher Forschungsfrage als statistische Alternative: Entscheidung für H1 durch statistisch abgesichert! 22 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Zur Veranschaulichung: Steht Angeklagter vor Gericht, so lautet H0: „Angeklagter ist unschuldig“ und H1: „Angeklagter ist schuldig“ H0 und H1 so formuliert, da Gericht Schuld des Angeklagten beweisen muss, nicht Angeklagter Unschuld Fehler 1. Art: Unschuldiger wird verurteilt Fehler 2. Art: Schuldiger wird nicht verurteilt 23 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006 Beachte: Wichtig für Auswahl eines „besten“ statistischen Tests: Verteilungsmodell hängt ab vom Skalenniveau und Wertebereich der Ausprägungen der interessierenden Größe 24 Vorlesung: Biometrie für Studierende der Veterinärmedizin 12.1.2006