Skript - walser-h-m.ch

Werbung
Hans Walser
Mathematik 2 für Naturwissenschaften
Modul 207
Testen von Hypothesen 1
Hans Walser: Modul 207, Testen von Hypothesen 1
ii
Inhalt
1 Testen von Hypothesen ...............................................................................................1 1.1 Knabengeburten ...................................................................................................1 1.2 Wirkt das Medikament? .......................................................................................2 1.2.1 Beispiel: n = 10 ...........................................................................................2 1.2.2 Beispiel: n = 20 ...........................................................................................3 1.3 Fehlermöglichkeiten .............................................................................................4 1.3.1 Fehler erster Art ..........................................................................................4 1.3.2 Fehler zweiter Art .......................................................................................5 1.4 Ist die Münze gefälscht? .......................................................................................7 2 Mittelwert einer Stichprobe .........................................................................................9 2.1 Vertrauensintervall ...............................................................................................9 2.1.1 Beispiel .....................................................................................................10 2.1.2 Vorgehen...................................................................................................12 2.2 Vergleich der Mittelwerte zweier Normalverteilungen......................................12 2.2.1 Unabhängige Stichproben .........................................................................12 2.2.2 Gepaarte Stichproben................................................................................14 3 Varianzenquotienten-Test ..........................................................................................15 3.1 Vergleich zweier Pipettier-Methoden ................................................................15 3.2 Vorgehen ............................................................................................................17 4 Zusammenfassung .....................................................................................................17 4.1 Testen von Hypothesen ......................................................................................17 4.1.1 Fehler ........................................................................................................17 4.1.2 Vorgehen...................................................................................................17 4.2 Mittelwert einer Stichprobe ................................................................................18 4.2.1 Mittelwert einer Stichprobe. Vertrauensintervall .....................................18 4.2.2 Vergleich der Mittelwerte zweier Normalverteilungen ............................18 4.3 Varianzenquotienten-Test ..................................................................................19 Modul 207 für die Lehrveranstaltung Mathematik 2 für Naturwissenschaften
Sommer 2006 Probeversion
Sommer 2007 Ergänzungen und Korrekturen
Frühjahr 2008 Geändertes Layout. Fehlerkorrekturen
Frühjahr 2009 Fehlerkorrektur
Frühjahr 2010 Fehlerkorrektur. Erweiterung
Frühjahr 2011 Fehlerkorrekturen
Frühjahr 2014 Überarbeitung und Kürzungen
last modified: 8. November 2013
Hans Walser
Mathematisches Institut, Rheinsprung 21, 4051 Basel
www.walser-h-m.ch/hans
Hans Walser: Modul 207, Testen von Hypothesen 1
1
1 Testen von Hypothesen
Es geht darum, eine Hypothese über eine Wahrscheinlichkeit p auf Grund einer Stichprobe entweder beizubehalten oder zu verwerfen.
1.1 Knabengeburten
John Arbuthnot, 1667 - 1735
John ARBUTHNOT stellte auf Grund von Eintragungen in Kirchenbüchern (Taufregister)
fest, dass in 82 aufeinander folgenden Jahren mehr Knaben als Mädchen geboren wurden. Er überlegte nun folgendermaßen:
Nullhypothese H 0 : Der Erwartungswert für den Anteil der Knabengeburten in einem
Jahr ist 50%. Nun gibt es aber Schwankungen. Die Wahrscheinlichkeit, dass wir in einem bestimmten Jahr mehr als 50% Knabengeburten haben, ist 12 .
Zwischenbemerkung: Wir haben hier die Zahl 0.5 in zwei verschiedenen Bedeutungen:
Zum einen als Erwartungswert des Anteiles der Knabengeburten (50%), zum anderen
als Wahrscheinlichkeit 12 , diesen Erwartungswert im Einzelfall zu übertreffen.
Die Wahrscheinlichkeit, dass in 82 aufeinanderfolgenden Jahren mehr Knaben als Mäd-
()
82
≈ 0 . Dies ist praktisch ausgeschlossen, daher kann
chen geboren werden, ist somit 12
die Nullhypothese H 0 , nämlich dass der Knabenanteil an den Geburten 50% beträgt,
verworfen werden. Man wird annehmen, dass der Knabenanteil mehr als 50% ist.
Bemerkungen:
• Wir haben hier einen einseitigen Test durchgeführt. Der Fall „Knabenanteil weniger
als 50%“ steht nicht zur Diskussion.
• Bei diesem Test wird keine Aussage über den effektiven Wert des Knabenanteils
gemacht. (Er beträgt in der Schweiz etwa 51.4%)
Hans Walser: Modul 207, Testen von Hypothesen 1
2
1.2 Wirkt das Medikament?
Die meisten Leute werden von selbst wieder gesund. Es ist daher schwierig, über die
Wirkung eines Medikamentes schlüssige Aussagen zu machen. Dazu folgendes Beispiel:
Bei einer bestimmten Krankheit sei es so, dass ohne Medikament 70% der von der
Krankheit befallenden von selbst wieder gesund werden.
Nun wird ein (neues) Medikament an n = 10 Patienten getestet. Wir gehen davon aus,
dass das Medikament nicht schadet, sondern höchstens nützt; wir haben also einen einseitigen Test. Ab welcher Anzahl von Genesenden können wir sagen, dass das Medikament wirklich nützt?
Vorgehen: Nullhypothese H 0 : das Medikament nützt nichts.
Wir wählen vor der Durchführung des Experimentes eine kritische Zahl m von Genesenden und studieren das Ereignis E: m oder mehr Patienten werden gesund.
Wie groß ist P ( E ) ?
1.2.1 Beispiel: n = 10
Wir benötigen die Tabelle für die summierte binomische Verteilung:
0.001
0.01
0.05
0.1
1/6
0.2
0.25
0.3
0.4
0.5
n
10
10
10
10
p
x
0
1
2
3
0.990
1.000
1.000
1.000
0.904
0.996
1.000
1.000
0.599
0.914
0.988
0.999
0.349
0.736
0.930
0.987
0.162
0.485
0.775
0.930
0.107
0.376
0.678
0.879
0.056
0.244
0.526
0.776
0.028
0.149
0.383
0.650
0.006
0.046
0.167
0.382
0.001
0.011
0.055
0.172
10
10
10
10
4
5
6
7
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.998
1.000
1.000
1.000
0.985
0.998
1.000
1.000
0.967
0.994
0.999
1.000
0.922
0.980
0.996
1.000
0.850
0.953
0.989
0.998
0.633
0.834
0.945
0.988
0.377
0.623
0.828
0.945
10
10
10
8
9
10
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.998
1.000
1.000
0.989
0.999
1.000
Die Sache ist trickreich, da p = 0.7 fehlt. Wir müssen uns mit p = 0.3 behelfen. Für die
Gegenüberlegung wird aus „mindestens m“ nun „höchstens 10 – m“.
P( E ) =
Hans Walser: Modul 207, Testen von Hypothesen 1
3
Für m = 9 erhalten wir P ( E ) = 0.149 = 14.9% . Ein Verwerfen der Nullhypothese H 0
beinhaltet eine Irrtumswahrscheinlichkeit von 14.9%.
Für m = 10 erhalten wir P ( E ) = 0.028 = 2.8% . Wir können die Nullhypothese H 0 also
mit einer Irrtumswahrscheinlichkeit von 2.8% verwerfen.
1.2.2 Beispiel: n = 20
Wir erhöhen den Umfang n des Versuches und testen das Medikament an 20 Patienten.
Wir benötigen wieder die Tabelle für die summierte binomische Verteilung:
n
20
20
20
20
20
20
20
20
20
20
p
x
0
1
2
3
4
5
6
7
8
9
0.001
0.01
0.05
0.1
1/6
0.2
0.25
0.3
0.4
0.5
0.980
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.818
0.983
0.999
1.000
1.000
1.000
1.000
1.000
1.000
1.000
0.358
0.736
0.925
0.984
0.997
1.000
1.000
1.000
1.000
1.000
0.122
0.392
0.677
0.867
0.957
0.989
0.998
1.000
1.000
1.000
0.026
0.130
0.329
0.567
0.769
0.898
0.963
0.989
0.997
0.999
0.012
0.069
0.206
0.411
0.630
0.804
0.913
0.968
0.990
0.997
0.003
0.024
0.091
0.225
0.415
0.617
0.786
0.898
0.959
0.986
0.001
0.008
0.035
0.107
0.238
0.416
0.608
0.772
0.887
0.952
0.000
0.001
0.004
0.016
0.051
0.126
0.250
0.416
0.596
0.755
0.000
0.000
0.000
0.001
0.006
0.021
0.058
0.132
0.252
0.412
Die Sache ist trickreich, da p = 0.7 fehlt. Wir müssen uns mit p = 0.3 behelfen. Für die
Gegenüberlegung wird aus „mindestens m“ nun „höchstens 20 – m“.
Für m = 18 erhalten wir P ( E ) = 0.035 = 3.5% . Wir können die Nullhypothese H 0 also
mit einer Irrtumswahrscheinlichkeit von 3.5% verwerfen.
Hans Walser: Modul 207, Testen von Hypothesen 1
4
1.3 Fehlermöglichkeiten
Wir können uns in zweifacher Hinsicht irren.
Fehlerarten
1.3.1 Fehler erster Art
Es ist kein Wolf im Wald. Auf Grund falsch gedeuteter Spuren nehmen wir aber an, es
habe einen Wolf im Wald.
Die Nullhypothese H 0 stimmt, das heißt das Medikament ist wirkungslos, wird aber auf
Grund eines zufällig guten Ergebnisses verworfen. Wir nehmen also fälschlicherweise
an, dass das Medikament nicht unwirksam ist. Ein solcher Fehler wird als Fehler erster
Art bezeichnet. Beim Beispiel mit n = 20, p = 0.7 und der kritischen Zahl m = 18 ist die
Wahrscheinlichkeit für einen Fehler erster Art α = 3.5% .
Hat es einen Wolf im Wald?
Hans Walser: Modul 207, Testen von Hypothesen 1
5
1.3.2 Fehler zweiter Art
Es ist ein Wolf im Wald. Da wir aber keine Spuren sehen, nehmen wir fälschlicherweise
an, es habe keinen Wolf im Wald.
Die Nullhypothese H 0 ist falsch, wird aber nicht verworfen. Ein solcher Fehler wird als
Fehler zweiter Art bezeichnet. Wie groß ist seine Wahrscheinlichkeit β ?
Für die Berechnung von β benötigen wir eine Zusatzinformation, nämlich die Erfolgswahrscheinlichkeit des Medikamentes.
Beispiel: Annahme: Bei Verwendung des Medikamentes werden 80% der Patienten
gesund. (Beachte: 70% der Patienten werden ohnehin gesund. Die Wirkung des Medikamentes ist nicht sehr groß, aber immerhin da.)
Auf 20 Patienten werden also durchschnittlich 16 bei der Verwendung des Medikamentes gesund. Unsere kritische Zahl ist aber erst bei m = 18. Die Wahrscheinlichkeit β,
dass die Nullhypothese H 0 fälschlicherweise beibehalten wird, ist also sehr groß. Wir
erhalten:
Es ist also β = 79.4% .
Die folgende Grafik veranschaulicht den Fall für 20 Patienten.
0.2
⎛⎜ 20⎞ k 2 0− k
0.8 0.2
⎝k⎠
⎛⎜ 20⎞ k 20− k
0.7 0.3
⎝k⎠
0.1
5
10
15
20
20 Patienten
Die Kurven für p = 0.7 (Nullhypothese H 0 ) und p = 0.8 überlappen sich zu einem großen Teil, so dass eine scharfe Unterscheidung nicht möglich ist.
Hans Walser: Modul 207, Testen von Hypothesen 1
6
Für n = 100 sieht die Sache schon besser aus:
n = 100
0.08
0.04
50
60
70
80
90
100 k
Situation für n = 100
Für die kritische Zahl m = 76 erhalten wir bei der Nullhypothese H 0 mit p = 0.7 eine
Wahrscheinlichkeit für einen Fehler erster Art von α = 0.114 = 11.4% (immer noch zu
groß!) und für p = 0.8 eine Wahrscheinlichkeit für einen Fehler zweiter Art von
β = 0.129 = 12.9% .
Für n = 1000 ist mit m = 751 eine scharfe Trennung möglich:
n = 1000
0.03
0.02
0.01
700
800
Situation für n = 1000
k
Hans Walser: Modul 207, Testen von Hypothesen 1
7
1.4 Ist die Münze gefälscht?
Hier ist
H 0 : p(Kopf ) = 12
und
H1 : p(Kopf ) ≠ 12 , also p(Kopf ) > 12 oder p(Kopf ) < 12
Wir müssen daher zweiseitig testen.
Beispiel: n = 10, Verwerfungsbereich für H 0 : {0,1, 2,
8, 9,10}
Wir benötigen die Tabelle für die summierte binomische Verteilung. Für p = 0.5 gibt es
eine spezielle Tabelle.
n
x
0
1
2
3
1
2
3
4
5
6
7
8
9
10
0.500
1.000
0.250
0.750
1.000
0.125
0.500
0.875
1.000
0.063
0.313
0.688
0.938
0.031
0.188
0.500
0.813
0.016
0.109
0.344
0.656
0.008
0.063
0.227
0.500
0.004
0.035
0.145
0.363
0.002
0.020
0.090
0.254
0.001
0.011
0.055
0.172
Beispiel: n = 20, Verwerfungsbereich für H 0 : {0, ..., 4,
16, ..., 20}
Summierte binomische Verteilung für p = 0.5
n
x
0
1
2
3
4
5
6
11
12
13
14
15
16
17
18
19
20
0.000
0.006
0.033
0.113
0.274
0.500
0.726
0.000
0.003
0.019
0.073
0.194
0.387
0.613
0.000
0.002
0.011
0.046
0.133
0.291
0.500
0.000
0.001
0.006
0.029
0.090
0.212
0.395
0.000
0.000
0.004
0.018
0.059
0.151
0.304
0.000
0.000
0.002
0.011
0.038
0.105
0.227
0.000
0.000
0.001
0.006
0.025
0.072
0.166
0.000
0.000
0.001
0.004
0.015
0.048
0.119
0.000
0.000
0.000
0.002
0.010
0.032
0.084
0.000
0.000
0.000
0.001
0.006
0.021
0.058
Hans Walser: Modul 207, Testen von Hypothesen 1
8
Umkehrung der Fragestellung: n = 20. Der Verwerfungsbereich soll möglichst groß
sein, aber so, dass α ≤ 5% .
Dies führt zum Verwerfungsbereich {0, ..., 5,
15, ..., 20} .
Für den Fall n = 100 wenden wir die Normalverteilung an.
0.08
0.04
k
10
20
30
40
50
60
70
80
90 100
Verwerfungsbereich
Für α ≤ 5% erhalten wir den Verwerfungsbereich {0, ..., 39,
61, ...,100} .
Hans Walser: Modul 207, Testen von Hypothesen 1
9
2 Mittelwert einer Stichprobe
2.1 Vertrauensintervall
Wir gehen aus von einer Stichprobe aus einer normalverteilten Grundgesamtheit und
fragen, was wir über den Mittelwert µ0 dieser Grundgesamtheit sagen können. Dabei ist
zu beachten, dass die Grundgesamtheit fest gegeben ist. Damit ist auch ihr Mittelwert
µ0 fest gegeben, allerdings leider nicht bekannt.
Wenn wir mehrere Stichproben aus dieser gegebenen Grundgesamtheit machen, werden
die Mittelwerte x natürlich variieren. Die folgenden Überlegungen beziehen sich auf
eine spezifische Stichprobe. Damit ist dann auch das berechnete 95%Vertrauensintervall von dieser Stichprobe abhängig. Es überdeckt mit einer Wahrscheinlichkeit von 95% den festen Mittelwert µ0 der Grundgesamtheit. Bei einer anderen Stichprobe aus derselben Grundgesamtheit werden wir ein anderes 95%Vertrauensintervall finden.
Zur Berechnung eines 95%-Vertrauensintervalles verwenden wir die so genannte Studentsche t-Verteilung. Sie wurde von William Sealy Gosset eingeführt, der unter dem
Pseudonym „Student“ publizierte. Den t-Test entwickelte er zur Bearbeitung von kleinen Stichproben zur Qualitätskontrolle in einer Brauerei.
William Sealy Gosset, 1876-1937
Hans Walser: Modul 207, Testen von Hypothesen 1
10
2.1.1 Beispiel
Wir haben folgende acht Messwerte:
4.4
5.8
Für diese Messwerte gilt:
3.7
9.2
4.1
3.8
5.3
3.7
s
x = 5, sx = SDx = 1.8655, SE x = x = 0.6595
8
Zur Beantwortung der Frage, ob eine bestimmte Zahl µ0 als Mittelwert möglich ist,
verwenden wir die Testgröße:
x −µ
t = SE 0
x
Wir wollen zum Beispiel die Nullhypothese µ = µ0 = 4 gegen die Alternative
µ ≠ µ0 = 4 auf dem Signifikanzniveau α = 5% austesten. Der Test ist zweiseitig, da
sowohl die Alternative µ > µ0 = 4 wie auch die Alternative µ < µ0 = 4 in Betracht gezogen wird. Für die Testgröße erhalten wir:
x −µ
5−4 = 1.5163
t Exp = SE 0 = 0.6595
x
Nun gehen wir in die Tabelle der t-Verteilung. Dazu benötigen wir noch den Freiheitsgrad. Dieser ist allgemein:
ν = n −1
In unserem Beispiel ist also ν = n −1 = 8 −1 = 7 .
Relevanter Ausschnitt aus der Tabelle:
FG
ν
0.50
0.20
6
7
8
9
10
0.718
0.711
0.706
0.703
0.700
1.440
1.415
1.397
1.383
1.372
Irrtumswahrscheinlichkeit α für den zweiseitigen Test
0.10
0.05
0.02
0.01
0.002
0.001
1.943
1.895
1.860
1.833
1.812
2.441
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.208
4.785
4.501
4.297
4.144
5.959
5.408
5.041
4.781
4.587
0.0001
9.082
7.885
7.120
6.594
6.211
Schranken der t-Verteilung
Aus der Tabelle lesen wir den kritischen Schrankenwert t krit = 2.365 ab. Da
t Exp = 1.5163 kleiner als dieser kritische Schrankenwert ist, können wir die Nullhypothese, also µ = µ0 = 4 , beibehalten.
Nun prüfen wir als Variante die Nullhypothese µ = µ0 = 3. Hier ergibt sich:
x −µ
5−3 = 3.0326
t Exp = SE 0 = 0.6595
x
Dieser Wert ist größer als der kritische Schrankenwert t krit = 2.365 ; die Nullhypothese
muss also abgelehnt werden.
Hans Walser: Modul 207, Testen von Hypothesen 1
11
Im folgenden eine Tabelle mit verschiedenen Nullhypothesen:
x −µ
µ0
t Exp = SE 0
x
Entscheid
3
3.4
3.8
4.2
4.6
5
5.4
5.8
6.2
6.6
7
3.03260045
2.42608036
1.81956027
1.21304018
0.60652009
0
0.60652009
1.21304018
1.81956027
2.42608036
3.03260045
Nullhypothese ablehnen
Nullhypothese ablehnen
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese beibehalten
Nullhypothese ablehnen
Nullhypothese ablehnen
Feldversuch
Nun ist es natürlich so, das nur eine der Nullhypothesen richtig sein kann. Wie sind also
die vielen Fälle „ Nullhypothese beibehalten “ zu verstehen?
Hier kommt die Idee des Signifikanzniveaus 5% zum Tragen: Wenn wir eine Nullhypothese aus dem grünen Bereich „ Nullhypothese beibehalten “ annehmen, liegen wir mit
einer Wahrscheinlichkeit von 95% richtig und mit einer Wahrscheinlichkeit von 5%
falsch. Die 5% sind also die Irrtumswahrscheinlichkeit.
Der grüne Bereich ist ein so genanntes 95%-Vertrauensintervall für den Mittelwert.
Seine Grenzen ergeben sich offensichtlich dadurch, dass wir von der Mitte (also von
x = 5 ) ausgehend in beiden Richtungen die Zahl t krit ⋅ SE x = 2.365 ⋅ 0.6595 = 1.5597
abtragen.
Konkret haben wir ein 95%-Vertrauensintervall:
[ 5 − 2.365 ⋅ 0.6595,
5 + 2.365 ⋅ 0.6595 ] = [ 3.4403, 6.5597 ]
Unsere Überlegungen könnten suggerieren, dass die Mittelwerte µ variabel sind. Das
ist aber falsch, da die Grundgesamtheit und damit deren Mittelwert fest gegeben sind.
Wir haben nur rein gedanklich verschiedene Mittelwerte angenommen und rechnerisch
durchexerziert. Tatsächlich ist es aber so, dass die Stichproben und damit x und die
s
Folgedaten s x = SDx und SE x = x und damit auch die 95%-Vertrauensintervalle varin
ieren können.
Hans Walser: Modul 207, Testen von Hypothesen 1
12
2.1.2 Vorgehen
Vertrauensintervall zum Niveau 1− α :
⎡⎣ x − tα ,ν ⋅ SE x , x + tα ,ν ⋅ SE x ⎤⎦
Dabei bedeutet tα ,ν die kritische Schranke für das Signifikanzniveau α und ν Freiheitsgrade. ν = n −1
Häufig verwendete Schreibweise: x ± tα ,ν ⋅ SE x
2.2 Vergleich der Mittelwerte zweier Normalverteilungen
Getestet werden soll, ob die Mittelwerte µ x und µy zweier normalverteilter Grundgesamtheiten gleich oder verschieden sind. Die Varianz braucht nicht bekannt zu sein,
wird aber als gleich vorausgesetzt.
Wir brauchen dazu wiederum die so genannte Studentsche t-Verteilung.
Für den Test brauchen wir zwei Stichproben. Die folgenden beiden Fälle sind praktisch
besonders wichtig:
1. Die beiden Stichproben sind unabhängig und nicht notwendigerweise gleich groß.
2. Die beiden Stichproben sind gleich groß; je ein Wert der einen und je ein Wert der
anderen gehören zusammen, weil sie von demselben Individuum stammen. Beispiele: Körpergewicht vor und nach einer Abmagerungskur. Messwerte vom selben Objekt bei Messung mit zwei verschiedenen Messgeräten. In diesem Fall sprechen wir
von gepaarten Stichproben.
2.2.1 Unabhängige Stichproben
Beispiel: In einer Klinik in Bologna wurde bei n x = 288 Knaben das Durchschnittsgewicht x = 3300 g und die Standardabweichung sx = 470 g gemessen. Bei n y = 269
Mädchen ergab sich das Durchschnittsgewicht y = 3050 g bei einer Standardabweichung von sy = 460 g.
Nun testen wir die Nullhypothese, dass Knaben und Mädchen bei der Geburt gleich
schwer sind, gegen die Alternative, dass Knaben schwerer sind als Mädchen. Wir haben
also einen einseitigen Test. Als Signifikanzniveau wählen wir 1%.
Testgröße:
x−y
t = SE
x−y
Dabei ist der im Nenner erscheinende Ausdruck der Standardfehler für die Differenz
x − y und wird wie folgt berechnet:
SE x −y =
1
nx
+
1
ny
sx2 ( n x −1) +sy2 ( n y −1)
n x +n y −2
Somit erhalten wir für die Testgröße:
=
n x +n y
nxny
sx2 ( n x −1) +sy2 ( n y −1)
n x +n y −2
Hans Walser: Modul 207, Testen von Hypothesen 1
t= x−y
nx ny
nx +ny
13
nx +ny −2
sx2
( nx −1)+sy2 ( ny −1)
In unserem Beispiel bedeutet das:
t= x−y
nx +ny −2
nx ny
nx +ny
sx2
( nx −1)+sy2 ( ny −1)
= 250 288⋅269
557
555
470 2 ⋅287+460 2 ⋅268
≈ 6.3379
Und nun gehen wir in die t-Tabelle. Wir haben ν = n x + n y − 2 Freiheitsgrade. In unserem Fall ist ν = n x + n y − 2 = 287 + 269 − 2 = 555 . Auweia, das ist nicht in der Tabelle.
Aber zwischen ν = 500 und ν = ∞ gibt es eh keine großen Unterschiede mehr. Weil wir
einseitig testen, müssen wir unten in die Tabelle einsteigen.
Tabelle, relevanter Ausschnitt:
200
0.676
1.286
1.653
1.972
2.345
2.601
3.131
3.340
3.970
500
0.675
1.283
1.648
1.965
2.334
2.586
3.107
3.310
3.92.2
∞
0.674
1.226
1.645
1.960
2.326
2.575
3.090
3.290
3.890
FG
0.25
0.10
0.05
0.025
0.01
0.005
0.001
0.0005
0.00005
ν
Irrtumswahrscheinlichkeit α für den einseitigen Test
Schranken der t-Verteilung
Somit erhalten wir auf dem Signifikanzniveau 1% den kritischen Schrankenwert
t krit ≈ 2.334 . Dies ist deutlich kleiner als unsere berechnete Testgröße t ≈ 6.3379 . Wir
können also die Nullhypothese verwerfen. Mädchen sind das leichte Geschlecht, wenigstens in Bologna.
2.2.1.1 Vorgehen
1. Schritt: Signifikanzniveau wählen. Entscheid, ob zweiseitig oder einseitig testen
2. Testgröße berechnen: t = x − y
nx ny
nx +ny
nx +ny −2
sx2
( nx −1)+sy2 ( ny −1)
3. Freiheitsgrad: ν = n x + n y − 2
4. Kritische Schranke aus der Tabelle
5. Vergleich mit Testgröße. Resultat in Worten formulieren
Hans Walser: Modul 207, Testen von Hypothesen 1
14
2.2.2 Gepaarte Stichproben
Abmagerungskur: 12 erwachsene Männer unterziehen sich einer Abmagerungskur. Es
interessierte die Frage, ob die Kur das Körpergewicht tatsächlich verringert. Bei den
Probanden wird das Körpergewicht am Anfang und am Ende der Kur gemessen.
vorher - nachher
Die Messwerte:
Proband Anfangsgewicht Endgewicht
Differenz
i
xi [kg]
yi [kg]
xi – yi = di [kg]
1
84.5
83
1.5
2
72.5
72.5
0
3
79
74.5
4.5
4
88.5
89.5
-1
5
104.5
94
10.5
6
83
77.5
5.5
7
93.5
95.5
-2
8
77
70
7
9
76.5
75
1.5
10
98.5
94.5
4
11
79.5
73.5
6
12
92
83.5
8.5
x = 85.750
y = 81.917
d = 3.833
sx = 9.781
sy = 9.409
sd = 3.898
Die Nullhypothese: Die Abmagerungskur wirkt nicht beziehungsweise µ x = µ y oder
µd = 0 soll auf dem Signifikanzniveau α = 5% geprüft werden.
Die x- und die y-Werte sind gepaart, weil die Einzelwerte einander paarweise zugeordnet sind. Jedes Gewicht der einen Stichprobe hat einen besonderen Zusammenhang zum
zeilengleichen Wert der anderen Stichprobe: Die beiden Werte stammen vom gleichen
Probanden. Dadurch sind die beiden Stichproben voneinander abhängig. Die Anwendung des t-Tests für unabhängige Stichproben zur Prüfung der Nullhypothese wäre also
falsch.
Hans Walser: Modul 207, Testen von Hypothesen 1
15
Allgemein:
Zwei Stichproben sind gepaart, wenn je ein Wert der einen Stichprobe einen besonderen Zusammenhang mit einem bestimmten Wert der anderen Stichprobe hat.
Bei gepaarten Stichproben untersucht man die Paardifferenzen. Die Paardifferenzen
bilden eine neue Stichprobe, die mit Hilfe des Ein-Stichproben-t-Tests geprüft werden kann.
Im unserem Beispiel der Abmagerungskur werden die 12 Differenzen di zur Prüfung
der Nullhypothese H 0 : µd = 0 benützt. Die Testgröße (empirischer t-Wert) berechnet
sich:
3.83 ≅ 3.4037
t = SEd = sd = 3.898
d
d
n
12
Da der empirische t-Wert = 3.4037 größer ist als der entsprechende Schrankenwert (12
Männer ergeben Freiheitsgrad 11; es wird zweiseitig auf dem Signifikanzniveau 5%
getestet)
t FG=11 (α = 5%) = 2.201
wird die Nullhypothese abgelehnt. Die Männer magern also tatsächlich ab.
3 Varianzenquotienten-Test
Um den t-Test anwenden zu dürfen, mussten wir in den beiden Grundgesamtheiten,
denen die zu vergleichenden Stichproben entstammen, dieselben Varianzen voraussetzen, also σ 2x = σ 2y .
Wie können wir diese Bedingung der Varianzgleichheit prüfen?
3.1 Vergleich zweier Pipettier-Methoden
Bei Messwiederholungen werden folgende Nettogewichte festgestellt:
1
2
3
4
5
6
7
8
9
10
automatische Pipette
0.4882
0.5088
0.5122
0.4975
0.5019
0.5001
0.4998
0.4829
0.4982
0.5102
Mittelwert: 0.49998
Streuung: 0.00928
1
2
3
4
5
6
7
8
manuelle Pipette
0.5011
0.5011
0.4992
0.5063
0.4991
0.5026
0.5005
0.5009
Mittelwert: 0.50135
Streuung: 0.002293
Hans Walser: Modul 207, Testen von Hypothesen 1
16
Hat die automatische Pipette eine größere Streuung?
Testgröße:
FExp =
s x2
s y2
Wegen der Organisation der Tabelle muss im Zähler die größere der beiden Zahlen stehen. Im Idealfall gleicher Varianz muss diese Testgröße in der Nähe von 1 liegen. Je
größer die Testgröße ist, um so mehr weichen die Varianzen voneinander ab.
In unserem Beispiel muss x für die automatische Pipettierung stehen und y für die manuelle:
x = 0.49998
s x = 0.00928 und y = 0.50135
s y = 0.002293
Wir erhalten für die Testgröße:
FExp =
sx2
sy2
2
= 0.0092802 ≈ 16.3790
0.002293
Das ist recht viel, so dass ein Unterschied der Varianzen zu befürchten ist.
Nun gehen wir in die Tabelle für α = 5% . Die Freiheitsgrade sind ν x = 10 − 1 = 9 und
νy = 8 − 1 = 7 .
Freiheitsgrade für den Nenner
(kleinere Varianz)
Tabelle (relevanter Ausschnitt):
1
2
3
4
5
1
161
18.5
10.1
7.71
6.61
2
199
19.0
9.55
6.94
5.79
6
7
8
9
10
5.99
5.59
5.32
5.12
4.96
5.14
4.74
4.46
4.26
4.10
Freiheitsgrade für den Zähler (größere Varianz)
3
4
5
6
7
8
216
225
230
234
237
239
19.2
19.2
19.3
19.3
19.4
19.4
9.28
9.12
9.01
8.94
8.89
8.85
6.59
6.39
6.26
6.16
6.09
6.04
5.41
5.19
5.05
4.95
4.88
4.82
4.76
4.35
4.07
3.86
3.71
4.53
4.12
3.84
3.63
3.48
4.39
3.97
3.69
3.48
3.33
4.28
3.87
3.58
3.37
3.22
4.21
3.79
3.50
3.29
3.14
4.15
3.73
3.44
3.23
3.07
9
241
19.4
8.81
6.00
4.77
10
242
19.4
8.79
5.96
4.74
4.10
3.68
3.39
3.18
3.02
4.06
3.64
3.35
3.14
2.98
Schranken der F-Verteilung für das Signifikanzniveau 5%
Aus der Tabelle erhalten wir in unserem Beispiel den kritischen Schrankenwert
Fkrit = 3.68 . Dieser ist deutlich kleiner als FExp ≈ 16.3790 ; wir müssen also die Nullhypothese verwerfen. Die automatische Pipette hat eine größere Streuung.
Hans Walser: Modul 207, Testen von Hypothesen 1
17
3.2 Vorgehen
1. Schritt: Signifikanzniveau wählen.
2. Testgröße berechnen: F =
sx2
sy2
, Zähler größer als Nenner
3. Freiheitsgrade: ν x = n x −1, ν y = n y −1
4. Kritische Schranke aus der Tabelle
5. Vergleich mit Testgröße. Nullhypothese beibehalten, wenn Testgröße kleiner als
kritische Schranke. Sonst verwerfen. Resultat in Worten formulieren
4
Zusammenfassung
4.1 Testen von Hypothesen
Es geht darum, eine Hypothese über eine Wahrscheinlichkeit p auf Grund einer Stichprobe entweder beizubehalten oder zu verwerfen.
Nullhypothese H 0 : Es bleibt alles beim alten
Alternativhypothese H1
Wenn unter der Annahme von H 0 ein Ergebnis von sehr kleiner Wahrscheinlichkeit
(Signifikanzniveau, zum Beispiel 5%) eintritt, wird H 0 verworfen.
4.1.1 Fehler
Fehler erster Art: Nullhypothese H 0 stimmt, wird aber auf Grund eines zufällig extremen Ergebnisses verworfen. Wahrscheinlichkeit eines Fehlers erster Art wird mit α
bezeichnet.
Fehler zweiter Art: Nullhypothese H 0 ist falsch, wird aber auf Grund eines zufällig
nicht extremen Ergebnisses beibehalten. Wahrscheinlichkeit eines Fehlers zweiter Art
wird mit β bezeichnet.
Beispiel: Nullhypothese H 0 : Er liebt sie nicht.
Fehler erster Art: Sie geht eine Beziehung ein, obwohl H 0 zutrifft.
Fehler zweiter Art: Sie geht keine Beziehung ein, obwohl H 0 falsch ist.
4.1.2 Vorgehen
- Signifikanzniveau festlegen
- Entscheid ob einseitig oder zweiseitig testen
- Unter Annahme von H 0 Verwerfungsbereich berechnen (Binomialverteilung oder
Normalverteilung)
- Experiment durchführen.
Hans Walser: Modul 207, Testen von Hypothesen 1
18
4.2 Mittelwert einer Stichprobe
Tabelle Studentsche t-Verteilung
4.2.1 Mittelwert einer Stichprobe. Vertrauensintervall
Standardfehler: SE x =
sx
n
x −µ
Testgröße für µ0 als Mittelwert: t = SE 0
x
Vertrauensintervall zum Niveau 1 − α :
⎡⎣ x − tα ,ν ⋅ SE x , x + tα ,ν ⋅ SE x ⎤⎦
Dabei bedeutet tα ,ν die kritische Schranke für das Signifikanzniveau α und ν Freiheitsgrade, ν = n − 1
Schreibweise: x ± tα ,ν ⋅ SE x
4.2.2 Vergleich der Mittelwerte zweier Normalverteilungen
4.2.2.1 Unabhängige Stichproben
Nullhypothese: µ x = µ y
- α wählen
- Entscheiden, ob zweiseitig oder einseitig testen
x−y
- Testgröße: t Exp = SE
= x−y
x−y
nx ny
nx +ny
nx +ny −2
sx2
( nx −1)+sy2 ( ny −1)
- Freiheitsgrad: ν = nx + ny − 2
- Aus Tabelle t krit ablesen.
- Falls t Exp > t krit
⇒
Nullhypothese verwerfen
4.2.2.2 Gepaarte Stichproben
Zwei Stichproben sind gepaart, wenn je ein Wert der einen Stichprobe einen besonderen Zusammenhang mit einem bestimmten Wert der anderen Stichprobe hat.
Nullhypothese: µ x = µ y
- α wählen
- Entscheiden, ob zweiseitig oder einseitig testen
- Testgröße: t Exp = SEd = sd , dabei ist di = xi − yi
d
d
n
- Freiheitsgrad: ν = n − 1
Hans Walser: Modul 207, Testen von Hypothesen 1
19
- Aus Tabelle t krit ablesen. Bei t Exp > t krit Nullhypothese verwerfen
4.3 Varianzenquotienten-Test
Tabelle F-Verteilung
Nullhypothese: σ x = σ y
- Signifikanzniveau wählen
- Testgröße berechnen: F =
sx2
sy2
, Zähler größer als Nenner
- Freiheitsgrade: ν x = nx − 1 , ν y = ny − 1
- Kritische Schranke aus der Tabelle. Vergleich mit Testgröße. Nullhypothese beibehalten, wenn Testgröße kleiner als kritische Schranke. Sonst verwerfen. Resultat in
Worten formulieren
Herunterladen