Der Binomialtest - Statistikpaket.de

Werbung
www.statistikpaket.de
1.4 Der Binomialtest
Mit dem Binomialtest kann eine Hypothese bezüglich der
Wahrscheinlichkeit für das Auftreten einer Kategorie einer
dichotomen (es kommen nur zwei Ausprägungen vor, z.B. 0 und 1)
Zufallsvariablen anhand einer Stichprobe getestet werden. Dabei
besteht die Stichprobe demnach aus Beobachtungen mit zwei
Ausprägungen, die als Realisierungen von unabhängigen Bernoulliverteilten Zufallsvariablen (mit dem Parameter p, mit 0 < p < 1)
angesehen werden. Die Wahrscheinlichkeit für das Auftreten der
ersten Ausprägung ist gleich p, während folglich die
Wahrscheinlichkeit für das Auftreten der zweiten Ausprägung gleich
1 - p ist. Zählt man nun aus, wie häufig eine Ausprägung vorkommt,
so erhält man eine Realisierung k einer binomialverteilten
Zufallsvariablen. Dieser Test ist daher eigentlich ein parametrisches
Verfahren, da wir einen Test bezüglich des Parameters p der
Bernoulliverteilung durchführen.
Die Hypothesen:
Zweiseitig
H0: p = p0
gegen
H1: p  p0
Einseitig
H0: p • p0
gegen
H1: p < p0
H0: p ” p0
gegen
H1: p > p0
Bevor wir in einem Beispiel mit Statistikpaket.de den Test
durchführen, zeigen wir, wie man beispielsweise mit Tabellen für die
Binomialverteilung den Test durchführen könnte, wie es u.a. in der
Oberstufe getan wird. Wir gehen hier noch mal speziell genauer auf
die Berechung des p-Wertes ein, wie wir es beim t-Test getan hatten,
da es sich bei der Binomialverteilung um eine diskrete Verteilung
handelt, die zudem im Allgemeinen nicht (d.h. nicht für alle p)
symmetrisch ist.
Seite 38
www.statistikpaket.de
Test 1 (einseitig bzw. linksseitig):
H0: p • p0
gegen
H1: p < p0
H0 wird verworfen, wenn k „zu klein“ ist, womit der kritische Bereich
auf der linken Seite liegt. Bei gegebenem Signifikanzniveau (= Fehler
1. Art) D muss in der Tabelle mit den entsprechenden n und p = p0 das
größte ko abgelesen werden, für welches
P(X ” ko) ” D
gilt. Der kritische Bereich oder Ablehnungsbereich von H0 ist dann
K = {0, 1, …, ko}.
Für ein System wie Statistikpaket.de muss kein Wert aus einer Tabelle
gesucht werden. Hier wird dann wieder ein p-Wert ausgegeben. Es gilt:
p-Wert = P(X ” k).
Ist dieser kleiner oder gleich D, so kann die Nullhypothese verworfen
werden. Zusätzlich wird beim Binomialtest auch der kritische Bereich
mit ausgegeben.
Beispiel 1: Bei einem Glücksspiel wird behauptet, dass man mit einer
Wahrscheinlichkeit von 20% gewinnt. Man vermutet, dass die
Wahrscheinlichkeit geringer ist.
Also formuliert man die Hypothesen:
H0: p • 0,2
gegen
H1: p < 0,2
Seite 39
www.statistikpaket.de
Das Spiel wird 100-mal gespielt, wobei man nur 14-mal gewinnt.
Kann man auf einem Signifikanzniveau von 5% nachweisen, dass die
Gewinnwahrscheinlichkeit geringer als 20% ist?
P(X ” ko) ” 0,05
Tabelle:
n = 100; p = 0,2
P(X ” k)
k
12
0,0253
13
0,0469
14
0,0804
15
0,1285
16
0,1923
Also ist k0 = 13 und der kritische Bereich oder Ablehnungsbereich
von H0 ist
K = {0, 1, …, 13}.
Da 14-mal gewonnen wurde und 14 nicht im kritischen Bereich liegt,
kann H0 nicht verworfen werden. Hat man zusätzlich die Vermutung,
dass die Gewinnwahrscheinlichkeit nur 10% beträgt, dann könnte man
auch den Fehler 2. Art, also E, berechnen. Unter der www-Adresse
Statistikpaket.de/Verteilungen/Binomialverteilung.html können die
Wahrscheinlichkeiten der obigen Tabelle berechnet werden.
Hier kann man im obigen Beispiel einen Alternativtest formulieren:
H0: p = 0,2
gegen
H1: p = 0,1
Es gilt:
E = P(„H0 wird nicht verworfen“ | H0 ist falsch) = P(X > 13 | p = 0,1)
= 1 - P(X ” 13 | p = 0,1)
Seite 40
www.statistikpaket.de
Nun kann die Wahrscheinlichkeit P(X ” 13) aus der Tabelle der
Binomialverteilung mit n = 100 und p = 0,1 abgelesen oder über die
oben beschriebene Adresse berechnet werden.
Damit ergibt sich E = 1 – 0,8761 = 0,1239 = 12,39%.
Test 2 (einseitig bzw. rechtsseitig):
H0: p ” p0
gegen
H1: p > p0
H0 wird verworfen, wenn k „zu groß“ ist, womit der kritische Bereich
auf der rechten Seite liegt. Bei gegebenem Signifikanzniveau
(= Fehler 1. Art) D muss in der Tabelle mit den entsprechenden n und
p = p0 das kleinste ku abgelesen werden, für welches
P(X • ku) ” D
gilt, bzw.
P(X • ku) = 1 - P(X ” ku – 1) ” D oder 1 - D ” P(X ” ku – 1) .
Dabei ist zu beachten, dass aus der Tabelle ku – 1 abgelesen wird. Der
kritische Bereich oder Ablehnungsbereich von H0 ist dann
K = {ku, …, n}.
H0 kann auch verworfen werden, wenn der
p-Wert = 1 - P(X ” k – 1) ” D.
Beispiel 2: Bei einem Medikament wird behauptet, dass eine
bestimmte Nebenwirkung mit einer Wahrscheinlichkeit von 10%
auftritt. Man vermutet, dass die Wahrscheinlichkeit größer ist, denn
Seite 41
www.statistikpaket.de
bei 50 Patienten, die das Medikament erhielten, hatten 10 diese
Nebenwirkung. Also formuliert man die Hypothesen:
H0: p ” 0,1
gegen
H1: p > 0,1
Kann man auf einem Signifikanzniveau von 5% nachweisen, dass die
Wahrscheinlichkeit für diese Nebenwirkung höher 10% ist?
P(X • ku) ” 0,05 bzw. 1 – 0,05 = 0,95 ” P(X ” ku – 1)
Wähle das kleinste ku aus der Tabelle, für welches diese Bedingung
gilt.
Tabelle:
n = 50; p = 0,1
P(X ” k)
K
8
0,9421
9
0,9755
10
0,9906
11
0,9968
12
0,9990
Somit ist ku - 1 = 9 bzw. ku = 10.
Der kritische Bereich oder Ablehnungsbereich von H0 ist
K = {10, 11, …, 50}.
Da diese Nebenwirkung 10-mal auftrat und 10 im kritischen Bereich
liegt, kann H0 verworfen werden.
Seite 42
www.statistikpaket.de
Test 3 (zweiseitig):
H0: p = p0
gegen
H1: p  p0
H0 wird verworfen, wenn k „zu klein oder groß“ ist, womit der
kritische Bereich auf beiden Seiten liegt, deshalb der Ausdruck
zweiseitiger Test. Dazu muss in der Tabelle mit den entsprechenden n
und p = p0 das größte ko und das kleinste ku abgelesen werden, für
welche
P(X ” ko) ” D/2 und P(X • ku) ” D/2
gelten. Der kritische Bereich ist dann
K = {0, 1, …, ko} ª {ku , …, n}.
Also muss entsprechend wie in den einseitigen Fällen (1 und 2)
vorgegangen werden, nur mit dem halbem Wert von D. Da somit die
Nullhypothese verworfen werden kann, wenn
2 ˜ P(X d k ) d D oder 2 ˜ (1 P(X d k 1)) d D
gilt, ist der zweiseitige p-Wert gegeben durch:
p-Wert = min { 2 ˜ P(X d k ) , 2 ˜ (1 P(X d k 1)) , 1}
In der obigen Menge ist auch die 1 enthalten, denn falls
k = E(X) = n·p ± Û gilt, ist P(X ” k) > 0,5 und P(X • k) > 0,5!
Es folgt der Output von Statistikpaket.de (zum ersten Beispiel).
Seite 43
www.statistikpaket.de
Für n = 100 und k = 14 gilt:
H0: p = 0.2
gegen
H1: p <> 0.2
p-Werte
kritische Bereiche
für alpha = 5%
kritische Bereiche
für alpha = 1%
H0: p >= 0.2
gegen
H1: p < 0.2
H0: p <= 0.2
gegen
H1: p > 0.2
0.1608874422761 0.080443721138051 0.95308776283921
K = {0,..., 11} ª
{29, ..., 100 }
K = {0,..., 9} ª
{ 32, ..., 100 }
K = {0,..., 13 }
K = { 28, ..., 100 }
K = {0,..., 10 }
K = { 31, ..., 100 }
Zur Berechnung des Beispiels mit Statistikpaket.de muss entweder
(was Sie nicht tun sollten) die Stichprobe unter v1 komplett
eingegeben werden, z.B. 14 mal „gewonnen“ und dann 86 mal
„verloren“ und dann im Menü ‘Univariate Statistik ‘Binomialtest
gewählt werden, womit das folgende Fenster erscheint:
Seite 44
www.statistikpaket.de
Hier können Sie dann neben p0 den hypothetischen Wert für p
eingeben, d.h. im Beispiel 0,2 und dann ‘berechnen wählen.
Oder Sie können auch das Eingeben der kompletten Stichprobe
umgehen (was hier natürlich zum empfehlen ist) und direkt in dieses
Menü wechseln (über ‘Univariate Statistik ‘Binomialtest). Hier
können auch unabhängig von einer zuvor eingegebenen (oder nicht
eingegebenen) Stichprobe die Werte für n und k eingetragen werden
(hier n = 100 und k = 14).
Bei dem Binomialtest und dem Chi-Quadrat-Test auf Unabhängigkeit
ist es auch möglich, Texte für die Ausprägungen der Variablen
einzugeben, d.h. nicht nur Zahlenwerte. Bei größeren Datenmengen
sollte man hier aber eine Kodierung verwenden und generell auch
keine Sätze für die einzelnen Ausprägungen eingeben, sonder nur
Seite 45
www.statistikpaket.de
Wörter, Buchstaben oder Zahlen. In unserem Beispiel könnte man
beispielsweise die Ausprägungen „gewonnen“ mit 0 und die
Ausprägung „verloren“ mit 1 kodieren oder auch umgekehrt, wobei
dann aber das System für k die absolute Häufigkeit für
„verloren“ einträgt, da das System für k die erste absolute Häufigkeit
in der nach Ausprägungen aufsteigend sortierten Häufigkeitstabelle
nimmt.
Bemerkung: Für n • 200 und np(1-p) > 9 erscheinen im Output
approximative p-Werte. Da
z
k E(X)
Var(X)
k np
np(1 p)
mit p = p0
(unter H0) asymptotisch standardnormalverteilt ist, werden als
(approximative) p-Werte 2(1-FN(0,1)(|z|)), FN(0,1)(z) und 1-FN(0,1)(z)
ausgegeben, wobei eine Stetigkeitskorrektur verwendet wird.
Umsetzung mit SAS:
data dat1;
input anzahl x;
datalines;
14 1
86 2
run;
proc freq data=dat1 order = data;
tables x / binomial(p = 0.2);
weight anzahl;
exact binomial;
run;
Seite 46
www.statistikpaket.de
SAS-Output zur Prozedur FREQ:
Das SAS System
Die Prozedur FREQ
x Häufigkeit Prozent Kumulative Kumulativer
Häufigkeit Prozentwert
1
14
14.00
14
14.00
2
86
86.00
100
100.00
Binomialverhältnis für x = 1
Verhältnis (P)
0.1400
ASE
0.0347
95% Untere Konf.grenze
0.0720
95% Obere Konf.grenze
0.2080
Exakte Konfidenzgrenzen
95% Untere Konf.grenze
0.0787
95% Obere Konf.grenze
0.2237
Test von H0: Verhältnis = 0.2
ASE unter H0
0.0400
-1.5000
Z
Einseitige Pr < Z
0.0668
Zweiseitige Pr > |Z|
0.1336
Exakter Test
Einseitige Pr <= P
Seite 47
0.0804
www.statistikpaket.de
Test von H0: Verhältnis = 0.2
Zweiseitig = 2 * Einseitig
0.1609
Stichprobengröße = 100
Seite 48
Herunterladen