Beispiel

Werbung
Prinzipien des statistischen Testens
•
Entscheidungsfindung
•
Exakter Binomialtest als Beispiel
•
Statistische Tests
–
–
–
Nullhypothese
Alternativhypothese
Fehlentscheidungen
1
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Ausgangspunkt:
Forschungshypothese
Beispiele:
1.
Klinische Studien:
These: Neues Präparat größere therapeutische Wirkung als die
herkömmlichen
2.
Geburtshypothese:
These: mehr Jungen- als Mädchengeburten
2
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Überprüfung solcher Fragestellungen anhand
empirischer Forschung
Beachte:
-
Fragestellungen
Aussagen über Grundgesamtheit (GG)
formuliert über Parameter der GG
nicht vollständig überprüfbar, i.d.R. nur die Konsequenzen
zur empirischen Überprüfung Operationalisierung notwendig,
d.h. Festlegung beobachtbarer Variablen, die zur Erfassung
der eigentlichen Fragestellung geeignet sind z.B. bessere
Heilung bedingt durch neues Medikament, messbar über
Veränderung bestimmter Laborparameter
3
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Dabei wichtig:
Festlegung von
Einflussvariable (unabhängig)
Verabreichung des
Medikaments
Zielvariablen (abhängig)
Veränderung relevanter
Laborparameter
Zur empirischen Überprüfung notwendig:
Festlegung eines Prüfplans
Kontrolle von Störvariablen (Confounder)
 zusätzliche Einflussgrößen auf abh. Variablen und mit
interessierender Einflussgröße assoziiert
Einhaltung des Prüfplans
Abweichungen notieren
4
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Von Interesse:
Ist beobachtetes Phänomen in Stichproben (Heilung unter
Medikament) reines Zufallsprodukt oder mit großer Sicherheit auf
Medikament zurückzuführen?
Dazu notwendig:
Formale Entscheidungsregel
 Statistischer Test
5
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Beispiel:
Exakter Binomialtest
Vermutung:
mehr Jungen- als Mädchengeburten
Studienplan:
Zähle Geburten (keine Mehrlinge) getrennt nach
Geschlecht innerhalb von 24 Stunden in einem
Krankenhaus
 10 Geburten
6
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Überlegung:
•
Jungen- und Mädchengeburten gleich wahrscheinlich 
•
Was ist bei 6 Jungen und 4 Mädchen?
gleich wahrscheinlich?
•
Jedes dieser Ereignisse möglich, auch wenn Anzahl in
Wirklichkeit gleich  Wahrscheinlichkeiten dafür aber gering
 mehr Jungen als Mädchen
7
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Formale Beschreibung
 1 Junge wir geboren
Xi  
mit P(Xi  1)  
0
sonst

Damit:
Aussagen über Verhältnis Jungen- und Mädchengeburten
formulierbar über :
1
 gleich viele Jungen und Mädchen
2
1
   mehr Jungen als Mädchen
2

statistisches Testproblem
Nullhypothese
H0 :  
1
2
vs.
Alternativhypothese
vs.
H1 :  
1 (Forschungshypothese) 8
2
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Zur Überprüfung des Testproblems:
Verdichtung der Info aus Stichprobe in Prüfgröße bzw. Teststatistik
Wichtig:
Anhand Teststatistik Entscheidung darüber, ob eher H0 oder H1 für
Grundgesamtheit zutrifft, d.h. H0 und H1 Aussagen über GG und
nicht über die Stichprobe
Hier:
Prüfgröße : Anzahl der Jungen
Falls
Y>c
10
Y   Xi
i1
für geeigneten „kritischen“ Wert c
 Entscheidung für H1!
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
9
Aber:
Wie ist c zu wählen?
Dazu:
Annahme gerechtfertigt, dass Geburten unabhängig
  Xi ~ Binomial (n  10,   0.5)
H0
y
P(Y=y)
0
1
2
3
4
5
0.001
0.01
0.044
0.117
0.205
0.246
10
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
B (10, 0.1)
Skizze:
0,3
0,25
0,2
0,15
0,1
0,05
0
0
1
2
3
4
5
6
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
7
8
9
10
11
Außerdem:
Unter H0 erwartet: 5 Jungengeburten d.h. Y > 5 spricht für H1

Aber wie groß müssen Werte sein, dass ihr Zustandekommen
unter H0 extrem unwahrscheinlich ist?
Was ist „extrem unwahrscheinlich“?

üblich: 0.01, 0.05, 0.1

Signifikanzniveau 

Konstruktion des sogenannten Ablehnungsbereichs,
der alle Werte enthält,
- die für H1 sprechen
- deren Wahrscheinlichkeit insgesamt  
Simulation mit R
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
12
Beispiel:
n  10,   0.5,   0.1, Y ~ Bin (10,0.5)

H0
Ablehnungsbereich enthält alle y-Werte, also Anzahl von
Jungengeburten, die
größer 5
zusammengenommen unter H0 eine Wahrscheinlichkeit
von höchstens 0.1 besitzen
Da
PH
PH
PH
PH
0
0
0
0
(10 Jungengebu rten)  0.001 

  0.011 
(9 Jungengebu rten)  0.01 
  0.055

(8 Jungengebu rten)  0.044

(7 Jungengebu rten)  0.117  0.1
 Ablehnungs bereich C  {8,9,10}
13
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Interpretation:
8, 9, 10 Jungengeburten sind unter der Annahme, dass Jungenund Mädchengeburten gleich wahrscheinlich sind, nur mit einer
Wahrscheinlichkeit von höchstens 10% möglich

so klein, dass Schluss naheliegend: H1 gilt!
Man sagt:
H0 kann zugunsten von H1 verworfen werden.
14
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Damit:
Statistischer Test
liefert
objektive Entscheidung
„H0 beibehalten“
bzw. „Beobachtungen liefern stat.
nicht signifikantes Ergebnis“
„H0 ablehnen“
bzw. „Beobachtungen liefern
statistisch signifikantes Ergebnis“
aber Vorsicht!
statistischer Test kann nur entscheiden, ob Ergebnis im
statistischen Sinn signifikant, also statistisch bedeutend, aber
nicht, ob auch unter substanzwissenschaftlichen Gesichtspunkt
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
15
Also:
Stat. Signifikanz nicht immer gleich biologischer Relevanz
Bewertung der Biologischen Relevanz eventuell unter Einbeziehung
der Nebenkriterien (z.B. positive / negative Nebenwirkungen,
Wohlbefinden des Patienten, Allgemeinzustand)
Abb. 1:
Statistische Signifikanz und biologische Relevanz
Statistische Signifikanz
Biologische
Relevanz
ja
nein
ja
+
-
nein
-
+
Wichtig: Inhaltliche Interpretierbarkeit der Ergebnisse
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
16
Beispiel:
Biologisch relevante Blutdrucksenkung (BDS), wenn BDS > 10/5
mmHg bei Patienten mit leichtem bis mittelschwerem
Bluthochdruck.
Blutdruck vorher
Blutdruck nachher
(„Baseline“)
(„nach Gabe der Mittels“)
Y0
Y1
H0 : 1  0
bio log isch Relevant, wenn
0  1  10 / 5 mmHg
H1 : 1  0
Biolog. Relevanz
Stat. Signifikanz
ja
ja
ja
nein
nein
ja
nein
nein
Y0  Y1  10/5 und Ablehnung von H0
Y0  Y1  10/5 und Nicht - Ablehnung von H0
Y0  Y1  10/5 und Ablehnung von H0
Y0  Y1  10/5 und Nicht - Ablehnung von H0
17
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Außerdem möglich:
Fehlentscheidungen
Test entscheidet
mehr Jungen- als Mädchengeburten, obwohl tatsächlich gleich
viele
gleich viele Jungen- und Mädchengeburten, obwohl tatsächlich
mehr Jungen,
d.h.
-
H0 wird verworfen, obwohl H0 wahr
 Fehler 1. Art (-Fehler)
H0 wird beibehalten, obwohl H1 wahr
 Fehler 2. Art (-Fehler)
18
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Damit sind folgende Ausgänge eines Tests möglich:
Abb. 2:
Hypothese
wahr
nicht wahr
lehnt ab
Fehler 1. Art
(-Fehler)
richtig
lehnt nicht ab
richtig
Fehler 2. Art
(-Fehler)
Test
19
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Beachte:
stat. Test
med. Test
bei beiden Fehlentscheidungen möglich
Testproblem bei med. Test (Diagnose)
H0: Patient gesund
vs.
H1: Patient krank
Ziel:
med. Test mit großer Genauigkeit bei Einstufung von
•
gesundem Patienten als gesund
 hohe Spezifität
 geringe Wahrscheinlichkeit für Fehler 1. Art
•
krankem Patienten als krank
 hohe Sensitivität
 geringe Wahrscheinlichkeit für Fehler 2. Art
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
20
Merke:
•
•
•
Konstruktion statistischer Tests so, dass Kontrolle über
Wahrscheinlichkeit für Fehler 1. Art durch kleine vorgegebene
obere Schranke
 Signifikanzniveau 
 Sicherheitswahrscheinlichkeit 1 - 
keine Kontrolle über Wahrscheinlichkeit für Fehler 2. Art
 Suche nach bestem Test:
unter allen Tests zum Niveau  für vorliegendes
Testproblem derjenige mit geringster Wahrscheinlichkeit
für Fehler 2. Art
Fallzahl-Bestimmung durch Festlegung der „Power“ des Tests
bei einem bestimmten Wirkunterschied unter
Berücksichtigung der Streuung des Hauptzielkriteriums.
Power: Funktion, die abhängt vom wahren Wirkunterschied
(|1-0| im BDS-Beispiel) und der Streuung.
21
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Damit:
•
•
Nullhypothese höchstens mit Wahrscheinlichkeit 
fälschlicherweise verworfen
Wahrscheinlichkeit für den Fehler 2. Art nicht vorgegeben
 abhängig von gewählter Alternative, je näher wahrer
Parameter an (nicht wahrem) Wert aus H0, desto größer
Wahrscheinlichkeit für Fehler 2. Art
Ungleichbehandlung beider Fehlerarten
 Grund für Formulierung eigentlicher Forschungsfrage als
statistische Alternative: Entscheidung für H1 durch  statistisch
abgesichert!
22
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Zur Veranschaulichung:
Steht Angeklagter vor Gericht, so lautet
H0: „Angeklagter ist unschuldig“
und
H1: „Angeklagter ist schuldig“
H0 und H1 so formuliert, da Gericht Schuld des Angeklagten
beweisen muss, nicht Angeklagter Unschuld
Fehler 1. Art: Unschuldiger wird verurteilt
Fehler 2. Art: Schuldiger wird nicht verurteilt
23
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Beachte:
Wichtig für Auswahl eines „besten“
statistischen Tests:
Verteilungsmodell
hängt ab
vom Skalenniveau und Wertebereich
der Ausprägungen der
interessierenden Größe
24
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 12.1.2006
Herunterladen