Biometrie_Teil_9 - Antiinfectives Intelligence

Werbung
Testen von
Hypothesen
M. Kresken
1
Testen von Hypothesen
• Im medizinisch-biologischen Bereich können wissenschaftliche
Hypothesen meist nicht direkt bewiesen werden, da
„unbekannte“ Faktoren eventuell vorhandene deterministische
Gesetzmäßigkeiten „stören“.
• Die Gültigkeit einer wissenschaftlichen Hypothese wird
überprüft, indem ein konkretes Experiment benutzt wird, um die
Vereinbarkeit der Hypothese mit der Realität zu klären.
M. Kresken
2
Testen von Hypothesen
• Wird beispielsweise untersucht, ob eine bestimmte
Operationsmethode den Blutzuckerspiegel beeinflusst, muss
zusätzlich die Tatsache berücksichtigt werden, dass mehrfache
Blutzuckerbestimmungen beim gleichen Patienten zufällige
(biologische) Schwankungen aufweisen.
• Auch bei fehlendem Einfluss werden die Messungen der
Blutzuckerwerte eines Patienten vor und nach der Operation
voneinander abweichen.
• Sind die beobachteten Blutzuckerveränderungen jedoch
ausschließlich durch Zufallsschwankungen bedingt, kann man
erwarten, dass diese Differenzen im Mittel sehr klein sind, also
nur zufällig vom Erwartungswert Null abweichen.
M. Kresken
3
Testen von Hypothesen
• Auf dieser Tatsache basiert die Konstruktion von
Beurteilungskriterien für die Hypothese.
• Hypothesen der Art „Es besteht kein Unterschied.“ oder
„Beobachtete Unterschiede weichen nur zufällig von Null ab.“
werden in der Statistik als Nullhypothese (H0) bezeichnet.
• Die zu H0 komplementäre Aussage heißt Alternativhypothese
(H1).
• Um die Hypothese „Die beobachteten Unterschiede weichen nur
zufällig von Null ab.“ beurteilen zu können, werden Modelle der
Wahrscheinlichkeitsrechnung herangezogen.
M. Kresken
4
Binominaltest
• Beispiel: Zur Verbesserung der Compliance einer notwendigen
Vitamintherapie werden 11 Kindern in zufälliger Reihenfolge
Brausetabletten zweier verschiedener Geschmacksrichtungen –
Orangen- und Bananengeschmack – verabreicht.
• Jedes Kind sollte über die bevorzugte Geschmacksrichtung
entscheiden.
M. Kresken
5
Binominaltest
• Folgende Überlegungen:
- Besteht bei den Kindern keine systematische Bevorzugung einer
der beiden Geschmacksrichtungen, so ist zu erwarten, dass die
eine Hälfte der Kinder Orangengeschmack und die andere Hälfte
Bananengeschmack bevorzugt („unentschieden“ ist dabei nicht
zugelassen).
- Untersucht man eine zufällige Stichprobe von Kindern, so wird
unter der Voraussetzung gleichwahrscheinlicher Entscheidungen
für Orangen- oder Bananengeschmack die Abfolge der
Ergebnisse für den Betrachter zufällig erscheinen.
- In diesem Fall wäre die Entscheidung in jedem einzelnen
Experiment für Orangen- oder Bananengeschmack
gleichbedeutend mit dem Auftreten von Kopf oder Zahl beim
wiederholten Werfen einer Münze.
M. Kresken
6
Binominaltest
• Folgende Überlegungen II:
- Somit ist die Anzahl der „Erfolge“ – in diesem Fall die
Bevorzugung von Orangengeschmack – binominal
(n,p)-verteilt.
- Dabei ist p die Wahrscheinlichkeit für die Bevorzugung von
Orangengeschmack und n der Stichprobenumfang.
- Geht man davon aus, dass es keine Präferenz für eine der
beiden Geschmacksrichtungen gibt, wird für dieses Beispiel die
Nullhypothese für den Parameter p der Binominalverteilung
H0: p = 0,5
und entsprechend die komplementäre Alternativhypothese
H1: p  0,5
nahe gelegt.
M. Kresken
7
Binominaltest
• Folgende Überlegungen III:
- Da die Alternative eine Bevorzugung einer der beiden Geschmacksrichtungen
beschreibt – mathematisch durch p  0,5 formuliert -, kann also sowohl p > 0,5
(Bevorzugung von Orangengeschmack) als auch p < 0,5 (Bevorzugung von
Bananengeschmack) zutreffen.
- Eine solche Formulierung der Alternativhypothese heißt deshalb zweiseitig.
- Als Prüfgröße zur Beurteilung von H0 wird die Zufallsvariable „Zahl der
Bevorzugungen von Orangengeschmack in einer Stichprobe vom Umfang n“
betrachtet.
- Liegt die Zahl der Bevorzugungen von Orangengeschmack nahe bei n - entscheidet
sich also die überwiegende Mehrzahl der Kinder im Versuch für Orangengeschmack
-, so hat man gute Gründe, die Gültigkeit der Nullhypothese anzuzweifeln.
- Das Ergebnis des Versuchs „spricht“ dann eher für die Alternativhypothese, die hier
als eine Bevorzugung von Orangengeschmack interpretiert wird.
- Aus den Ergebnissen wird im Allgemeinen der so genannte Wert der Prüfgröße
berechnet.
- Anhand dieses Wertes lassen sich die Versuchsausgänge unter Gültigkeit von H0 in
extrem oder nicht extrem bewerten.
- Die Prüfgröße beim Binominaltest ist die Anzahl k der Erfolge bzw. Bevorzugungen.
M. Kresken
8
Binominaltest
• Folgende Überlegungen IV:
- Wenn die Nullhypothese (p = 0,5) gilt, sind die Anzahlen k der Kinder, die
Orangengeschmack bevorzugen, unter n = 11 befragten Kindern
(11, 0,5)-verteilt.
- Daraus geht hervor, dass der Versuch durchaus mit extremen Ergebnissen,
d. h. Anzahlen k von Bevorzugungen von Orangengeschmack enden kann,
falls die Nullhypothese zutrifft.
- So ist die Wahrscheinlichkeit für 10 oder 11 Bevorzugungen von
Orangengeschmack:
11
11
( ) • ( ) + ( ) • ( ) = (11 + 1) •
11
10
1
2
11
11
1
2
1
12
=
= 0,0059.
2048
2048
- Wenn p = 0,5 gilt, so wäre es genauso wenig wahrscheinlich, 0 oder 1
Bevorzugung von Orangengeschmack wie 10 oder 11 zu erhalten, d.h. 0
oder 1 Bevorzugungen wären ein genauso extremes Ergebnis wie 10 oder
11.
- Insgesamt ist dann die Wahrscheinlichkeit für die extremen Anzahlen 0,1,10
oder 11 Bevorzugungen gegeben durch:
12 + 12
M. Kresken
2048
= 0,0117
9
Wahrscheinlichkeitsfunktion der
Binominalverteilung (11, 0,5)
M. Kresken
10
Signifikanzniveau
• Die zentrale Bedeutung der Nullhypothese (H0) ist, dass sie Annahmen zur
Formulierung eines Wahrscheinlichkeitsmodells festlegt.
• Lassen sich die tatsächlichen Beobachtungen durch das so festgelegte Modell
nur unzugänglich erklären, werden die ursprünglichen Annahmen (die
Nullhypothese) als unhaltbar verworfen.
• Die Denkweise ist dabei die folgende: Unter der Annahme der Richtigkeit der
Nullhypothese ist man in der Lage, die Verteilung der Prüfgröße (im Beispiel
war dies die Zahl der Bevorzugungen) vor Beginn des Versuchs zu
spezifizieren.
• So können Aussagen über das voraussichtliche Versuchsergebnis gemacht
werden.
• Es wird ein Bereich angegeben, in dem der Wert der Prüfgröße mit einer
bestimmten (hohen), vor Versuchsbeginn festzulegenden Wahrscheinlichkeit zu
finden sein wird (z.B. 95% oder 99%).
• In den komplementären Bereich fällt bei Zutreffen der Nullhypothese die
Prüfgröße nur mit einer geringen Wahrscheinlichkeit von  = 0,05 (5%) bzw.
0,01 (1%), der so genannten Irrtumswahrscheinlichkeit.
M. Kresken
11
Signifikanzniveau
• Fällt der Wert der Prüfgröße in diesen Ablehnbereich oder Verwerfungsbereich,
so ist ein Ereignis eingetreten, dem bei Zutreffen der Nullhypothese nur eine
geringe Wahrscheinlichkeit zukommt.
• In diesem Falle wird man sich daher dafür entscheiden, die Nullhypothese fallen
zu lassen:
Die Nullhypothese wird verworfen.
• Fällt die Realisation der Prüfgröße nicht in den Ablehnbereich (also in den
Annahmebereich), so hat das Experiment keine gewichtigen statistischen
Gründe geliefert, die Nullhypothese anzuzweifeln.
Die Nullhypothese wird nicht verworfen.
• Wird vor dem Versuch die Irrtumswahrscheinlichkeit von  = 0,05 (5%) gewählt,
so bedeutet dies, dass im Durchschnitt in 5 von 100 gleichartigen Experimenten
der Test zu einer fälschlichen Ablehnung der Nullhypothese führt.
• D.h. für den Fall, dass die Nullhypothese zutrifft, wird sie mit 5%
Wahrscheinlichkeit irrtümlicherweise abgelehnt.
• Die Wahrscheinlichkeit  = 0,05 (5%) heißt auch Signifikanzniveau.
M. Kresken
12
Signifikanzniveau
• Häufig wird die Entscheidung bei einem statistischen Test an Hand des
p-Wertes und nicht des Wertes der Prüfgröße getroffen. (Leider wird in der
üblichen Nomenklatur der Buchstabe p auch für den Parameter der
Binominalverteilung verwendet.)
• Der p-Wert gibt die Wahrscheinlichkeit an, vorliegende oder extremere
Versuchsgänge zu beobachten, wenn die Nullhypothese zutrifft.
• Die Berechnung erfolgt über den beobachteten Wert der Prüfgröße.
• Die Entscheidungsregel für bzw. gegen das Verwerfen der Nullhypothese lässt
sich dann – analog zum Vergleich des beobachteten Wertes der Prüfgröße mit
dem Schwellenwert – an Hand des Vergleiches des p-Wertes mit dem
Signifikanzniveau  (häufig 0,05) in der Form
verwerfe die Nullhypothese, falls gilt: p  
bzw.
verwerfe die Nullhypothese nicht, falls gilt: p > 
formulieren.
M. Kresken
13
Zweiseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)
M. Kresken
14
Signifikanzniveau
• Da die Richtung der Bevorzugung vor Versuchsbeginn unbekannt ist, wird ein
zweiseitiger symmetrischer Bereich so gewählt, dass der Ablehnbereich in je
einen unteren sowie einen oberen 2,5%-Bereich zerfällt.
• Man spricht von einem zweiseitigen Niveau--Test mit zugehörigem
zweiseitigen 5%-Ablehnbereich bzw. dem zweiseitigen p-Wert.
• Im Gegensatz dazu wird bei einem einseitigen Niveau--Test beispielsweise die
einseitige Nullhypothese H0: p  0,5 gegen die einseitige Alternativhypothese
H1: p > 0,5 auf dem Signifikanzniveau  geprüft.
• Dabei ist man an der Aussage „der Anteil p ist größer als 0,5“ interessiert.
• Der einseitige 5%-Ablehnbereich ist dann durch die Ergebnisse k = 9,10,11
gegeben, da die einseitige Nullhypothese nur verworfen wird, wenn die Anzahl
der Bevorzugungen von Orangengeschmack nahe bei n liegt.
• Die Auswahl, ob eine medizinische Fragestellung „einseitig“ oder „zweiseitig“
geprüft werden soll, ist vor dem Test auf Grund sachlogischer Überlegungen
festzulegen.
M. Kresken
15
Einseitiger 5% Ablehnbereich beim Binominaltest (11, 0,5)
M. Kresken
16
Signifikanzniveau
Beispiel:
• Nehmen wir an, dass 10 Kinder Tabletten mit Orangengeschmack bevorzugt
hätten.
• Dann ergibt sich auf Grund der Beobachtung von 10 Bevorzugungen ein
einseitiger p-Wert von 0,0059, berechnet als Wahrscheinlichkeit für Werte von
k, die größer oder gleich dem Wert von k = 10 sind (also 10 und 11).
• Der entsprechende zweiseitige Wert beträgt p = 0,0117, berechnet als
Wahrscheinlichkeit für Werte von k, die größer oder gleich k = 10 bzw. kleiner
oder gleich k = 11-10 = 1 sind (also 0,1,10,11).
• Wurde vor Studienbeginn das Signifikanzniveau von 5% für den zweiseitigen
Wert gewählt, so lautet die Testentscheidung, da der p-Wert von 0,0117 kleiner
als das Signifikanzniveau von 5% ist, dass die Nullhypothese zu verwerfen ist.
• Gleichzeitig ist im Fall eines signifikanten zweiseitigen Testergebnisses die
einseitige Interpretation – hier signifikant höhere Anteil von Bevorzugungen von
Orangengeschmack – zulässig.
M. Kresken
17
Fehler 1. und 2. Art
• Trifft man auf Grund des erläuterten Verfahrens eine Entscheidung,
so kann diese richtig oder falsch sein.
• Die möglichen Ergebnisse des Entscheidungsprozesses lassen sich
in einer Vierfeldertafel beschreiben.
Entscheidungsschema eines statistischen Tests
Testentscheidung
lautet:
Nullhypothese ist tatsächlich
Nullhypothese
richtig
falsch
nicht verwerfen
richtige Entscheidung
falsche Entscheidung
„Fehler 2. Art“
verwerfen
falsche Entscheidung
„Fehler 1. Art“
richtige Entscheidung
M. Kresken
18
Fehler 1. und 2. Art
• Die Bedeutung einer Fehlentscheidung hängt von der betrachteten
Fragestellung ab; es ist im Allgemeinen ohne weitere Annahmen
nicht möglich, Wahrscheinlichkeiten für beide Fehlerarten
anzugeben.
• Legt man jedoch einen Bereich fest, in welchem die Werte der
Prüfgröße erwartet werden, wenn die Nullhypothese richtig ist, so ist
dies gleichbedeutend mit der Festlegung der Wahrscheinlichkeit für
einen Fehler 1. Art.
• Der Bereich wird dabei derart gewählt, dass der folgende Schluss
möglich ist: Ist die Nullhypothese richtig, kommen Werte außerhalb
dieses Bereiches, des so genannten „Annahmebereiches“, nur mit
einer bestimmten vorgegebenen Wahrscheinlichkeit (der so
genannten Irrtumswahrscheinlichkeit) vor.
M. Kresken
19
Fehler 1. und 2. Art
• Offensichtlich ist diese Irrtumswahrscheinlichkeit identisch mit der
Wahrscheinlichkeit für den Fehler 1. Art. Die Wahl der
Irrtumswahrscheinlichkeit ist im Prinzip freigestellt und hängt mit
dem bereits angesprochenen Entscheidungsrisiko zusammen.
• Im Bereich der medizinischen Forschung haben sich Werte von
0,05 (5%) und 0,01 (1%) eingebürgert.
• Wie schon erläutert, bedeutet das Signifikanzniveau die
Wahrscheinlichkeit für „falsch-positive“ Testentscheidungen, die nur
auftreten können, wenn die Nullhypothese zutrifft.
M. Kresken
20
Fehler 1. und 2. Art
• Die Wahrscheinlichkeit  für einen Fehler 2. Art kann im
Allgemeinen nicht quantifiziert werden.
• Vorstellungen über die Größenordnung von  ergeben sich, wenn
man in einer Modellrechnung die Alternativhypothese in Form einer
Punkthypothese (etwa p = 0,8) spezifiziert und damit  berechnet.
M. Kresken
21
Fehler 1. und 2. Art
• Beispiel: Wir gehen davon aus, dass bei dem Test „Präferenz von
Orangengeschmack“ ein zweiseitiger Test zum Signifikanzniveau
 = 0,05 geplant war.
• Um die Wahrscheinlichkeit für den Fehler 2. Art quantifizieren zu
können, nehmen wir an, dass die Kinder eine klare Präferenz für
Orangengeschmack von p = 0,8 haben.
• Somit wäre unter der Alternativhypothese H1: p = 0,8 die
Zufallsvariable „Zahl der Kinder, die Orangengeschmack
bevorzugen“(11, 0,8)-verteilt.
• Für eine Stichprobe vom Umfang n = 11 befragter Kinder erhält man
dann die die folgende Verteilung (nächstes Chart):
M. Kresken
22
Wahrscheinlichkeitsfunktion der
Binominalverteilung (11, 0,8)
M. Kresken
23
Fehler 1. und 2. Art
11
1
10
10
1
11
( )•( ) +( )•( ) •( )+( )•( ) •( )+( )•( )
11
0
0,2
11
1
0,8
0,2
11
10
0,8
0,2
11
11
0,8
= 0,3221
• Tatsächlich würde man sich also lediglich mit der Wahrscheinlichkeit
von p = 0,3221 (also ca. 32%) für eine Ablehnung der
Nullhypothese (k = 0,1,10,11) entscheiden, falls die Alternative in
der Form p = 0,8 zutrifft.
M. Kresken
24
Fehler 1. und 2. Art
• Die konkrete Formulierung der relevanten punktuellen
Alternativhypothese vor Versuchsbeginn ist im Allgemeinen ein
schwieriges, manchmal jedoch auf Grund sachlogischer Argumente
zumindest annährend zu lösendes Problem.
• Zuweilen geht man jedoch von einer punktförmigen
Alternativhypothese aus, um den Mindest-Stichprobenumfang des
Versuchs berechnen zu können.
• Dabei gibt der Unterschied zwischen dem Wert unter der
Nullhypothese (in unserem Beispiel p = 0,5) und dem Wert der
Alternativhypothese (gemäß der Annahme p = 0,8, Unterschied 0,3)
den Effekt an, den es aufzudecken gilt.
• Der mindestnotwendige Stichprobenumfang „zum Aufdecken des
relevanten Unterschiedes bei vorgegebener Sicherheit“ kann wie
folgt abgeschätzt werden:
M. Kresken
25
Fehler 1. und 2. Art
• Aus der Theorie ist bekannt, dass sich mit wachsendem
Stichprobenumfang die konkurrierenden
Wahrscheinlichkeitsmodelle unter der Null- und Alternativhypothese
immer mehr unterscheiden.
• Das bedeutet, dass bei vorgegebenem Fehler 1. Art und
wachsendem Stichprobenumfang die Wahrscheinlichkeit für einen
Fehler 2. Art kleiner wird.
• Mit wachsendem Stichprobenumfang steigt also die Chance,
Abweichungen von der Nullhypothese auch zu entdecken.
• Die Wahrscheinlichkeit für die korrekte Ablehnung der
Nullhypothese nennt man die Macht (POWER) eines Tests.
POWER = 1 – „Wahrscheinlichkeit für einen Fehler 2. Art“
= „Wahrscheinlichkeit für korrektes Verwerfen der Nullhypothese“
M. Kresken
26
Fehler 1. und 2. Art
• Beispiel: Nimmt man an, dass der Anteil der Kinder, die
Orangengeschmack bevorzugen, tatsächlich p = 0,8 ist, so wäre bei
Gültigkeit der Alternative die Zufallsvariable „Zahl der Kinder, die
Orangengeschmack bevorzugen“(n, 0,8)-verteilt.
• In den folgenden Abbildungen ist die Verteilung der Prüfgröße k für
H0: p = 0,5 und H1: p = 0,8 für die Stichprobenumfänge n = 25 und
n = 50 veranschaulicht.
M. Kresken
27
Wahrscheinlichkeitsfunktion der
Binominalverteilung (25, 0,5) und (25, 0,8)
M. Kresken
28
Wahrscheinlichkeitsfunktion der
Binominalverteilung (50, 0,5) und (50, 0,8)
M. Kresken
29
Fehler 1. und 2. Art
• Die zweiseitigen 5%-Ablehnungsbereiche für den Binominaltest mit
n = 25 setzen sich aus den Ergebnissen k = 0,....7 und k = 18,....25
bzw. für n = 50 aus den Ergebnissen k = 0,....17 und k = 33,....50
zusammen.
• Der folgende Tabelle entnimmt man die Macht (POWER) des
zweiseitigen Binominaltests mit den punktförmigen Hypothesen in
Abhängigkeit vom Stichprobenumfang n (H0: p = 0,5 und H1: p =
0,8)
M. Kresken
30
Macht (POWER) des zweiseitigen Binominaltests in Abhängigkeit
vom Stickprobenumfang (H0: p = 0,5 und H1: p = 0,8)
M. Kresken
n
Wahrscheinlichkeit  für
einen Fehler 2. Art (%)
POWER = 1 - 
(%)
11
67,8
32,2
15
35,2
64,8
20
19,6
80,4
25
10,9
89,1
30
6,1
93,9
35
3,4
96,6
40
1,9
98,1
45
1,1
98,9
50
0,6
99,4
100
0
100
31
Fehler 1. und 2. Art
• Versuchsplanerische Konsequenzen lassen sich aus der Tabelle
folgendermaßen ziehen:
• Können auf Grund berechtigter medizinischer Annahmen die
konkurrierenden Wahrscheinlichkeitsmodelle in der Form (H0: p =
0,5 und H1: p = 0,8) spezifiziert werden oder, anders formuliert, ist
man an der Entdeckung einer relevanten Anteilsdifferenz von 0,3
gegenüber der Nullhypothese interessiert und möchte diesen
Unterschied auch tatsächlich mit 90% Wahrscheinlichkeit
entdecken, so wird ein Stichprobenumfang von mehr als n=25
(exakt berechnet  28) benötigt.
• Offensichtlich gilt, dass im Falle einer geringeren Anteilsdifferenz die
entsprechende Power sinkt und damit ein größerer
Stichprobenumfang benötigt wird.
M. Kresken
32
Herunterladen