Statistik für BiologInnen - Institut für Mathematik und

Statistik für BiologInnen
Wolfgang Desch
Institut für Mathematik
und Wissenschaftliches Rechnen
Karl-Franzens-Universität Graz
1.
2.
3.
4.
5.
6.
Beschreibende Statistik
Zufallsgrößen
Statistisches Schätzen und Testen
Wechselwirkungen zwischen Merkmalen
Übungen
Tabellen und Literatur
KAPITEL 1
Beschreibende Statistik
Übersicht:
1 Merkmale und Häufigkeiten
1.1. Merkmalstypen und absolute Häufigkeiten
1.2. Kumulative Häufigkeiten und Histogramme
2 Kennzahlen
2.1. Perzentile
2.2. Mittelwert
2.3. Varianz und Standardabweichung
2.4. Andere Kennzahlen auf Grundlage von Summationen
2.5. Kennzahlen für nominale Merkmale
3 Zusammenhang zwischen zwei Merkmalen
3.1. Regressionsgerade
3.2. Korrelation
1.1. Merkmale und Häufigkeiten
Übersicht:
1. Merkmalstypen und absolute Häufigkeiten
2. Kumulative Häufigkeiten und Histogramme
1.1.1. Merkmalstypen und absolute Häufigkeiten.
Übersicht:
1.
2.
3.
4.
Merkmale
Skalenniveaus
Absolute und relative Häufigkeit
Stabdiagramm und Kreisdiagramm
1.1.1.1. Merkmale.
Statistische Aussagen machen Angaben über die Häufigkeit des Auftretens bestimmter Eigenschaften innerhalb einer (meist großen) Grundgesamtheit von Individuen (Merkmalsträgern), oder die Häufigkeit des Auftretens bestimmter Ereignisse bei einer großen Anzahl von Versuchen. Die einzelnen Individuen heißen die
Merkmalsträger, die Kriterien, durch die sie sich unterscheiden, die Merkmale. Bei
jedem Merkmalsträger findet sich das Merkmal in einer bestimmten Ausprägung.
In den seltensten Fällen kann die ganze Grundgesamtheit untersucht werden, oft
zieht man zur Untersuchung nur eine Stichprobe heran, um von dieser auf die ganze
1
2
1. BESCHREIBENDE STATISTIK
Grundgesamtheit (mit entsprechender Vorsicht) Rückschlüsse zu ziehen. Die Anzahl der Merkmalsträger in der Stichprobe heißt der Stichprobenumfang und wird
in Formeln oft mit n bezeichnet.
Tipp 1.1.1.1. Auch wenn es ganz einfach ist: Machen Sie sich bei jedem statistischen Problem klar, wer die Merkmalsträger sind, was die Grundgesamtheit ist,
welche Merkmale untersucht sind und welche Ausprägungen vorkommen können.
Eine besondere Falle ist, dass sowohl Ausprägungen als auch Häufigkeiten durch
Zahlenwerte ausgedrückt werden können.
1.1.1.2. Skalenniveaus.
Merkmale kommen auf verschiedenen Skalenniveaus vor. Aus dem Skalenniveau
ergibt sich, welche statistischen Methoden verwendet werden dürfen. Daher werden
bereits bei der Anlage der Merkmale in Statistikprogrammen die Skalenniveaus
eingegeben. Man unterscheidet die folgenden Skalenniveaus:
Definition 1.1.1.2. Es gibt Merkmale auf folgenden Skalenniveaus:
1) nominal: Die Gesamtheit ist in gleichberechtigte Kategorien unterteilt.
Die Ausprägung besteht darin, zu welcher Kategorie der Merkmalsträger
gehört.
2) ordinal: Die Ausprägungen stellen eine Rangordnung dar.
3) intervallskaliert: Die Ausprägungen sind Zahlenwerte, mit denen Rechnungen sinnvoll sind. Man kann z.B. (durch Subtraktion) den Abstand
zweier Ausprägungen angeben.
4) verhältnis-skaliert: Die Ausprägungen liegen auf einer Skala mit absolutem Nullpunkt. Z.B. ist die Aussage: “Das Merkmal ist bei A doppelt
so stark wie bei B” sinnvoll.
Intervall- oder verhältnisskalierte Merkmale bezeichnet man auch als metrisch.
Beispiel 1.1.1.3. Die hygienischen Verhältnisse in einem Katzenheim mit einigen hundert InsassInnen sind ins Gerede gekommen. Zur Überprüfung werden
20 Katzen nach verschiedenen Gesichtspunkten untersucht. Die Erhebung ergibt
folgende Tabelle, von der wir nur die ersten Zeilen und Spalten angeben:
Name
Alexis
August
Betty
Caesar
Dora
.
..
Geschlecht
m,w
m
m
w
m
w
.
..
Allgemeinzustand
1–5, 1=sehr gut
2
4
1
3
2
.
..
Gewicht
kg
3.4
2.6
5.1
3.1
4.2
.
..
Aktivität
1–5, 1=hyperaktiv
1
3
2
5
2
.
..
Anzahl Flöhe
gezählt
0
1
0
4
1
.
..
...
...
...
...
...
...
Diskussion: In diesem Beispiel sind die Merkmalsträger die Katzen. Die Grundgesamtheit sind
die Katzen des Tierheims, von denen eine Stichprobe mit Stichprobenumfang 20 entnommen
wurde. Jede Zeile der Tabelle gehört zu einem Merkmalsträger der Stichprobe. Die beobachteten
Merkmale und ihre Ausprägungen sind:
Merkmal
Skalenniveau mögliche Ausprägungen
Geschlecht
nominal
m,w
Allgemeinzustand
ordinal
sehr gut – ganz schlecht
Gewicht
metrisch
Zahlenwert in kg
Aktivität
ordinal
hyperaktiv – lethargisch
metrisch
ganze Zahlen
Anzahl Flöhe
.
.
.
..
..
..
1.1. MERKMALE UND HÄUFIGKEITEN
3
¤
Tipp 1.1.1.4. Wenn ein Merkmal durch eine Zahl angegeben wird, muss es
deshalb noch lange nicht metrisch sein!
1.1.1.3. Absolute und relative Häufigkeit.
Definition 1.1.1.5. Die absolute Häufigkeit einer Ausprägung eines Merkmals in einer Gesamtheit ist die Anzahl der Merkmalsträger, die das Merkmal in
der gegebenen Ausprägung aufweisen.
Die relative Häufigkeit einer Ausprägung ist die absolute Häufigkeit, gebrochen
durch die Anzahl aller Merkmalsträger der Gesamtheit.
Absolute und relative Häufigkeiten gibt es sowohl innerhalb der Grundgesamtheit als auch innerhalb der Stichprobe. Sehr oft besteht die Aufgabe der Statistik
darin, die uns unbekannten Häufigkeiten in der Grundgesamtheit auf Grund der
gegebenen Häufigkeiten innerhalb einer Stichprobe zu schätzen.
Beispiel 1.1.1.6. Die Untersuchungen über die hygienischen Verhältnisse in
einem Katzenheim (Beispiel 1.1.1.3) beinhalten insbesondere eine Zählung der Flöhe
auf jeder Katze der Stichprobe. Das Ergebnis dieser Detailuntersuchung wurde in
der folgenden Häufigkeitstabelle zusammengefasst:
Katzen mit
keinem Floh
1 Floh
2 Flöhen
3 Flöhen
4 Flöhen
5 Flöhen
mehr Flöhen
Gesamt:
Anzahl
5
3
4
4
3
1
0
20
Anteil an der Stichprobe
0.25
0.15
0.20
0.20
0.15
0.05
0.00
1.00
Diskussion: Die Tabelle ist nach den Ausprägungen eines Merkmals, nämlich der Anzahl der Flöhe,
sortiert: Jede Zeile entspricht einer Ausprägung. Die Tabelle enthält die absoluten Häufigkeiten.
Zum Beispiel ist 5 die absolute Häufigkeit der Ausprägung “kein Floh”, es gab in der Stichprobe
5 Katzen, auf denen gar kein Floh gefunden wurde. Das ist ein Viertel der gesamten Stichprobe,
daher ist ein Viertel = 0.25 die relative Häufigkeit der Ausprägung “kein Floh”. Die Summe aller
absoluten Häufigkeiten ist der Stichprobenumfang: Es wurden 20 Katzen gezählt. Die relativen
Häufigkeiten müssen sich immer auf 1 summieren. ¤
Beispiel 1.1.1.7. Wie unterscheiden sich die Tabellen in Beispiel 1.1.1.3 und
Beispiel 1.1.1.6, und wie kann man aus diesen Tabellen die absoluten Häufigkeiten
der Ausprägungen des Merkmals “Anzahl der Flöhe” ablesen?
Diskussion: Die Tabelle in Beispiel 1.1.1.3 ist nach Merkmalsträgern geordnet: Jeder Katze gehört
eine Zeile. Wäre die Tabelle im Beispiel vollständig angegeben, könnte man die absoluten Häufigkeiten jeder Ausprägung bestimmen, indem man einfach die Zeilen zählt, in denen die entsprechende Ausprägung vorkommt.
Die Tabelle in Beispiel 1.1.1.6 ist nach Ausprägungen sortiert: Jede Zeile entspricht einer
möglichen Anzahl von Flöhen. Die absoluten Häufigkeiten sind direkt in der zweiten Spalte ablesbar. ¤
4
1. BESCHREIBENDE STATISTIK
1.1.1.4. Stabdiagramm und Kreisdiagramm.
Wir lernen hier noch zwei Methoden kennen, Häufigkeitsverteilungen grafisch
darzustellen. Es gibt noch viele andere Methoden, Sie müssen nur aufmerksam die
Zeitungen durchblättern, um weitere Möglichkeiten zu entdecken.
Methode 1.1.1.8. Ein Stabdiagramm zeigt in horizontaler Anordnung die verschiedenen Ausprägungen eines Merkmals. Über jeder Ausprägung wird ein Balken in der Höhe der absoluten oder relativen Häufigkeit eingezeichnet. Eine Skala
auf der senkrechten Achse ermöglicht das Ablesen der Häufigkeiten. Absolute und
relative Häufigkeiten werden durch dasselbe Stabdiagramm, nur mit unterschiedlicher Skala, dargestellt. Stabdiagramme sind für alle Skalenniveaus (sogar nominal)
möglich.
Beispiel 1.1.1.9. Die Häufigkeitsverteilung der Ausprägungen des Merkmals
“Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle (aus Beispielen 1.1.1.3 und
1.1.1.6) ist durch ein Stabdiagramm darzustellen:
Katzen mit
keinem Floh
1 Floh
2 Flöhen
3 Flöhen
4 Flöhen
5 Flöhen
mehr Flöhen
Gesamt:
Anzahl
5
3
4
4
3
1
0
20
Anteil an der Stichprobe
0.25
0.15
0.20
0.20
0.15
0.05
0.00
1.00
Diskussion: Zunächst müssen wir den Platz einteilen. Es gibt 6 Ausprägungen, für die wir je einen
senkrechten Balken zeichnen, die wir in gleichen Abständen auf der Zeichnung anbringen. Die
größte absolute Häufigkeit ist 5, daher brauchen wir Platz für Balken bis zur Höhe 5. Entsprechend
legen wir die senkrechte Skala fest. Wir zeichnen nun zu jeder Ausprägung den Balken in Höhe
der absoluten Häufigkeit. Ein Stabdiagramm reicht zur Beschreibung der absoluten und relativen
Häufigkeit, wir bringen eine Skala für die absolute und eine für die relative Häufigkeit an. Eine
absolute Häufigkeit von 2 entspricht einer relativen Häufigkeit von 0.1.
Stabdiagramm zu Beispiel 1.1.1.6
¤
1.1. MERKMALE UND HÄUFIGKEITEN
5
Methode 1.1.1.10. Im Kreisdiagramm (Tortendiagramm) wird jeder Ausprägung ein Sektor eines Kreises zugewiesen, dessen Anteil an der gesamten Kreisfläche die relative Häufigkeit der Ausprägung ist. Es gilt also für den Winkel des
Sektors (in Grad):
Winkel = 360 · relative Häufigkeit
Kreisdiagramme lassen sich für Merkmale aller Skalenniveaus anfertigen.
Beispiel 1.1.1.11. Die Häufigkeitsverteilung der Ausprägungen des Merkmals
“Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle aus Beispiel 1.1.1.9 ist
durch ein Kreisdiagramm darzustellen.
Diskussion: Aus den relativen Häufigkeiten ergeben sich die Winkel der Sektoren (die entsprechenden Bruchteile von 360◦ ):
Ausprägung
0
1
2
3
4
5
¤
rel. Häufigkeit
0.25
0.15
0.20
0.20
0.15
0.05
Winkel (◦ )
90
54
72
72
54
18
Kreisdiagramm zu Beispiel 1.1.1.6
Tipp 1.1.1.12. In Zeitungen finden Sie oft Diagramme, die mit allen möglichen Grafikeffekten verziert und “interessanter” gemacht sind: Menschenfiguren
oder Geldstapel statt Balken, verschiedene Schattenwürfe, eingeblendete Bilder,
und mehr Kitsch von dieser Sorte. Ersparen Sie sich bei der Anfertigung Ihrer Grafiken diese unnötige Arbeit und vermeiden Sie alle Effekte, die von der wesentlichen
Information ablenken: Sie machen die Grafik nur unübersichtlicher.
6
1. BESCHREIBENDE STATISTIK
Was Sie jetzt können:
Begriffe und Wissen: Merkmal, Merkmalsträger, Grundgesamtheit, Stichprobe, Umfang einer Gesamtheit, Ausprägung, Skalenniveau, absolute und relative Häufigkeiten.
Methoden: Lesen und Aufstellen von Häufigkeitstabellen, Berechnen
relativer Häufigkeiten aus absoluten Häufigkeiten und Umfang der
Gesamtheit, Erstellen von Stab- und Kreisdiagrammen.
1.1.2. Kumulative Häufigkeiten und Histogramme.
Übersicht:
1. Kumulative Häufigkeiten
2. Histogramm und empirische Verteilungsfunktion
3. Klasseneinteilung
1.1.2.1. Kumulative Häufigkeiten.
Definition 1.1.2.1. Für ein ordinales oder metrisches Merkmal ist die absolute kumulative Häufigkeit einer Ausprägung x die Anzahl der Merkmalsträger,
die das Merkmal in der gegebenen Ausprägung x oder einer in der Ordnung unter
x liegenden Ausprägung aufweisen.
Die relative kumulative Häufigkeit ist die absolute kumulative Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit.
Merksatz 1.1.2.2.
Die absolute Häufigkeit einer Klasse von Ausprägungen beantwortet die
Frage: “Wieviele Merkmalsträger befinden sich in der Klasse.”
Die relative Häufigkeit einer Klasse von Ausprägungen beantwortet die
Frage: “Welcher Anteil der Merkmalsträger befindet sich in der Klasse.”
Die absolute kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Wieviele Merkmalsträger haben Ausprägungen, die
kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?”
Die relative kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Welcher Anteil der Merkmalsträger hat Ausprägungen,
die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?”
Beispiel 1.1.2.3. Eine Längenmessung von Insekten ergab folgende Tabelle:
Länge (mm)
inkl. 5 bis exkl. 7
inkl. 7 bis exkl. 8
inkl. 8 bis exkl. 9
inkl. 9 bis inkl. 13
Anzahl Insekten
5
15
20
10
Berechnen Sie den Stichprobenumfang, die relativen Häufigkeiten sowie die absoluten und relativen kumulativen Häufigkeiten.
1.1. MERKMALE UND HÄUFIGKEITEN
7
Diskussion: Das Merkmal ist die Länge der Insekten, die möglichen Ausprägungen sind positive
Zahlen in der Größenordnung bis etwa 15 mm. Um eine Tabelle zu erstellen und nicht für jedes
Insekt eine andere Zahl einzutragen, wurden die Längen in Klassen geteilt. (Typischerweise nimmt
man gleich breite Klassen, aber diesmal wurden zwei Klassen mit Breite 1 mm und zwei breitere
Klassen für die ganz großen und ganz kleinen Insekten gewählt.) Die Anzahl der Insekten in jeder
Längenklasse ist die absolute Häufigkeit der Klasse.
Summiert man alle absoluten Häufigkeiten, so erhält man den Stichprobenumfang, also n =
50. Dividiert man die absoluten Häufigkeiten durch den Stichprobenumfang, so erhält man die
relativen Häufigkeiten.
Die absolute kumulative Häufigkeit jeder Klasse ist die Summe der absoluten Häufigkeiten
aller Klassen zwischen der untersten Klasse und der betrachteten Klasse. Für die Klasse 5–7 mm
ist das zugleich ihre absolute Häufigkeit, denn es gibt keine kleinere Klasse, also 5. Nun folgt die
Klasse 7–8 mm, es kommt eine absolute Häufigkeit von 15 dazu, damit beträgt die kumulative
Häufigkeit 20. Die Klasse 8–9 mm trägt eine absolute Häufigkeit von 20 bei, diese summieren sich
zu einer kumulativen Häufigkeit von 40. Letztlich liefert die Klasse 9–13 mm noch eine absolute
Häufigkeit von 10, die absolute kumulative Häufigkeit dieser Klasse ist daher 50. Da dies die
oberste Klasse ist, ist nun die ganze Stichprobe aufgebraucht: Die absolute kumulative Häufigkeit
ist der Stichprobenumfang.
Die relativen kumulativen Häufigkeiten kann man ebenso berechnen, nur dass man relative
Häufigkeiten summiert. Man kann auch die absoluten kumulativen Häufigkeiten durch den Stichprobenumfang dividieren. Beide Methoden liefern dasselbe Ergebnis. Am Ende steht folgende
Tabelle da:
Länge (mm)
xi
inkl. 5 bis exkl. 7
inkl. 7 bis exkl. 8
inkl. 8 bis exkl. 9
inkl. 9 bis inkl. 13
Summe
Häufigkeiten
absolut relativ
ai
fi
5
0.1
15
0.3
20
0.4
10
0.2
50
1.00
kumulative Häufigkeiten
absolut
relativ
ki
Fi
5
0.1
20
0.4
40
0.8
50
1.0
¤
1.1.2.2. Histogramm und empirische Verteilungsfunktion.
Methode 1.1.2.4. Die Häufigkeiten der Ausprägungen metrischer Merkmale
lassen sich als Histogramm darstellen, wenn die Daten in Klassen gruppiert sind.
Jede Klasse ist durch ihre untere und obere Klassengrenze festgelegt, Ausprägungen innerhalb dieses Intervalls werden zu dieser Klasse gezählt. Es wird zu Beginn
festgelegt, ob Ausprägungen, die genau an der Grenze zweier Klassen liegen, zur
oberen oder zur unteren Klasse gezählt werden. Die Klassenbreite ist die Differenz von der oberen und der unteren Klassengrenze. Die Besetzungsdichte einer
Klasse errechnet sich durch die Formel
relative Häufigkeit
Besetzungsdichte =
.
Klassenbreite
Auf der waagrechten Achse werden die Klassengrenzen aufgetragen, darüber Rechtecke in der Höhe der Besetzungsdichten. Die Flächen dieser Rechtecke sind dann
gerade die relativen Häufigkeiten der Klassen.
Methode 1.1.2.5. Die kumulativen Ausprägungen metrischer Merkmale lassen
sich durch die empirische Verteilungsfunktion darstellen, wenn die Daten in
Klassen gruppiert sind (vgl. Methode 1.1.2.4). Auf der waagrechten Achse werden
die Klassengrenzen aufgetragen. Über der oberen Grenze jeder Klasse wird senkrecht
ihre kumulative Häufigkeit aufgetragen, an der untersten Klassengrenze wird 0 aufgetragen. Die Punkte werden durch Geraden verbunden, sodass sich ein Polygonzug
ergibt.
8
1. BESCHREIBENDE STATISTIK
Beispiel 1.1.2.6. Die Daten aus Beispiel 1.1.2.3 sind durch ein Histogramm
darzustellen, die empirische Verteilungsfunktion ist einzuzeichnen.
Diskussion: Die Besetzungsdichten ergeben sich als relative Häufigkeiten gebrochen durch die
Klassenbreite:
Ausprägung
5–7
7–8
8–9
9 – 13
Klassenbreite
2
1
1
4
rel. Häufigkeit
0.1
0.3
0.4
0.2
Besetzungsdichte
0.05
0.3
0.4
0.05
kum. rel. H.
0.1
0.4
0.8
1.0
Wir zeichnen Histogrammbalken jeweils waagrecht vom Anfang zum Ende jeder Klasse, als
Höhe verwenden wir die eben errechneten Besetzungsdichten. Die empirische Verteilungsfunktion
setzt sich aus Geradenstücken zusammen. Sie beginnt am unteren Ende der untersten Klasse, also
bei Länge 5, mit dem Wert 0. Am oberen Ende jeder Klasse erreicht die empirische Verteilungsfunktion die relative kumulative Häufigkeit dieser Klasse.
1
0.9
0.8
relative Haeufigkeit
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
5
¤
6
7
8
9
Laenge
10
11
12
13
Histogramm und empirische Verteilungsfunktion zu Beispiel 1.1.2.6
Merksatz 1.1.2.7. Die Fläche der Balken eines Histogramms über einer Klasse
ist gerade die relative Häufigkeit dieser Klasse.
Die Steigung der empirischen Verteilungsfunktion über einer Klasse ist gerade
die Besetzungsdichte. Die empirische Verteilungsfunktion steigt umso schneller, je
höher die Histogrammbalken sind.
1.1.2.3. Klasseneinteilung.
Um in dieser Vorlesung nicht immer “inklusive” — “exklusive” schreiben zu
müssen, führen wir noch eine sehr bequeme Schreibweise ein.
Definition 1.1.2.8. Seien a und b zwei Zahlen mit a ≤ b. Wir definieren die
folgenden Intervalle:
[a, b] die Menge aller Zahlen zwischen a und b, wobei a und b mitgerechnet
werden (“abgeschlossenes Intervall”).
(a, b) die Menge aller Zahlen zwischen a und b, wobei a und b nicht mitgerechnet werden (“offenes Intervall”).
[a, b) die Menge aller Zahlen zwischen a und b, wobei a mitgerechnet und
b nicht mitgerechnet wird (“halboffenes Intervall”).
(a, b] die Menge aller Zahlen zwischen a und b, wobei a nicht mitgerechnet
und b mitgerechnet wird (“halboffenes Intervall”).
1.1. MERKMALE UND HÄUFIGKEITEN
9
Wir sind Klasseneinteilungen schon bei der grafischen Methode des Histogramms begegnet. Um den Sinn einer Klasseneinteilung zu verstehen, beginnen
wir mit einem Beispiel:
Beispiel 1.1.2.9. In einer Studie wurden 40 Schlangen einer kleinen Natternart
vermessen, es ergaben sich folgende Längen:
Länge (cm)
Ausprägung
29
32
45
46
49
50
52
53
54
56
58
Anzahl
abs. Häuf.
1
1
2
1
3
2
1
2
3
2
1
kum. Häuf.
1
2
4
5
8
10
11
13
16
18
19
Länge (cm)
Ausprägung
61
62
63
64
65
67
69
70
72
75
81
Anzahl
abs. Häuf.
1
3
2
3
2
3
2
1
1
2
1
kum. Häuf.
20
23
25
28
30
33
35
36
37
39
40
Diese Daten sind grafisch darzustellen.
Diskussion: Wir beginnen mit einer Variante des Stabdiagramms, wobei wir waagrecht die Länge
der Schlagen auftragen, und darüber senkrecht die Anzahl der Schlangen dieser Länge.
0.08
rel. Haeufigkeit
0.06
0.04
0.02
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 ohne Klasseneinteilung
Dieses Diagramm ist sehr unübersichtlich, es finden sich viele gleich hohe Stäbe und dazwischen viele Lücken. Je nachdem, ob zufällig zwei oder drei Schlangen auf den Zentimeter gleich
lang waren, finden sich Stäbe, die höher sind als 1/40. Ob genau zwei Schlangen derselben Länge
gefunden wurden, oder sich die Längen der Schlangen um einen Zentimeter unterscheiden, ist
biologisch irrelevant. Daher ist die Höhe der Stäbe eher ein Zufallsprodukt ohne biologische Bedeutung, wesentlich ist, wo sich die Stäbe häufen, was weniger bequem abzulesen ist.
Eine bessere Vorstellung erhält man, wenn man die Tiere in Klassen teilt:
Größe
sehr klein
klein
mittel
groß
sehr groß
Klassen (cm)
[29,40)
[40,50)
[50,60)
[60,70)
[70,81]
Klassenmitte
34.5
45.0
55.0
65.0
75.5
abs. Häufigkeit
2
6
11
16
5
10
1. BESCHREIBENDE STATISTIK
Außer den Häufigkeiten und Klassengrenzen haben wir auch die Klassenmitte angegeben, den
Mittelwert von oberer und unterer Klassengrenze. Für den Fall, dass man für weitere Rechnungen
einen Zahlenwert für die Längen der Schlangen jeder Klasse braucht, kann man die Klassenmitte
heranziehen.
Die folgende Grafik zeigt das Histogramm für diese Klasseneinteilung. Dies ist wesentlich
übersichtlicher und informativer. Man sieht, dass die Längen zwischen 60 und 70 cm am häufigsten
auftreten. In Richtung größere Längen fällt die Häufigkeit sehr schnell ab. In Richtung auf die
kleineren Längen fällt die Häufigkeit langsamer ab. Es liegt eine schiefe Häufigkeitsverteilung vor.
0.04
rel. Haeufigkeit
0.03
0.02
0.01
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit Klasseneinteilung
In der folgenden Grafik zeichnen wir zweimal die empirische Verteilungsfunktion: Durchgezogen ohne Klasseneinteilung (d.h., die Klassenbreiten sind hier jeweils 1 cm), und strichliert mit
der obigen Klasseneinteilung. Man sieht, dass sich die Klasseneinteilung auf die empirische Verteilungsfunktion nicht wesentlich auswirkt, der Polygonzug ist nur etwas weniger “zittrig”. Alles,
was auf kumulativen Häufigkeiten beruht, wird durch Klasseneinteilungen nicht stark verändert.
1
kumulative rel. Haeufigkeit
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
20
30
40
50
60
Laenge cm
70
80
90
Empirische Verteilungsfunktion zu Beispiel 1.1.2.9 mit und ohne Klasseneinteilung
Die letzten beiden Grafiken zeigen die Wirkung einer gröberen und einer feineren Klasseneinteilung. Die folgende Klasseneinteilung ist eindeutig zu grob, fast alle Information ist verloren
gegangen.
1.1. MERKMALE UND HÄUFIGKEITEN
11
rel. Haeufigkeit
0.03
0.02
0.01
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit grober Klasseneinteilung
Die folgende Klasseneinteilung ist feiner. Sie zeigt eine zweigipfelige Verteilung. Das könnte
ein Zufallsprodukt auf Grund der feinen Klasseneinteilung sein. Wenn die Klassen klein sind, kann
durch Zufall leicht eine leer oder unterbesetzt ausfallen.
0.05
0.045
0.04
rel. Haeufigkeit
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit feiner Klasseneinteilung
¤
Methode 1.1.2.10. Bei umfangreichen Datensätzen mit einem metrischen Merkmal kann man eine Klasseneinteilung vornehmen, indem man im Bereich der möglichen Realisierungen Klassengrenzen festlegt, wodurch der Bereich in halboffene Intervalle, die Klassen, aufteilt wird.
Soll zu Rechenzwecken jeder Klasse als Ausprägung nicht ein Intervall, sondern
eine Zahl zugeordnet werden, so bietet sich dafür der Mittelwert zwischen unterer
und oberer Klassengrenze an.
Merksatz 1.1.2.11. Wie viele und wie breit die Klassen einer Klasseneinteilung sein sollen, richtet sich nach dem Zweck der Studie. Der wesentliche Vorteil
einer gröberen Klasseneinteilung ist die Übersichtlichkeit der Darstellung. Andererseits fällt durch eine gröbere Klasseneinteilung auch mehr Information weg, denn
12
1. BESCHREIBENDE STATISTIK
statt der genauen Zahlenwerte der Ausprägungen werden jetzt nur mehr Intervalle
erfasst.
Statistische Kennzahlen errechnet man am besten an Hand der unklassifizierten Daten, während grafische Darstellungen und Übersichtstabellen oft mit der
Klasseneinteilung informativer ausfallen.
Alle Kennzahlen und Methoden, die auf kumulativen Häufigkeiten beruhen,
werden von Klasseneinteilungen nur sehr gering beeinflusst.
Was Sie jetzt können:
Begriffe und Wissen: Absolute und relative kumulative Häufigkeit.
Methoden: Berechnen und interpretieren von kumulativen Häufigkeiten. Histogramm und empirische Verteilungsfunktion. Klasseneinteilung, ihre Vorteile und Nachteile.
1.2. Kennzahlen
Übersicht:
1.
2.
3.
4.
5.
Perzentile
Mittelwert
Varianz und Standardabweichung
Weitere Kennzahlen auf Grundlage von Summationen
Kennzahlen für nominale Daten
1.2.1. Perzentile.
Übersicht:
1.
2.
3.
4.
Definition des Perzentils
Perzentile für metrische Daten mit Klasseneinteilung
Spannweite und Quartilsabstand
Box-Whisker-Diagramm
1.2.1.1. Definition des Perzentils.
Definition 1.2.1.1. Seien x1 , x2 , · · · , xm die Ausprägungen eines ordinalen
(oder metrischen) Merkmals, aufsteigend der Größe nach geordnet. Seien F1 , · · · , Fm
die zugehörigen relativen kumulativen Häufigkeiten. Sei a eine Zahl zwischen 0 und
100. Das a%-Perzentil ist jene Ausprägung xi , bei der die relative kumulative
Häufigkeit Fi erstmals den Wert a/100 erreicht und überschreitet.
Erreicht die kumulative Häufigkeit bei der Ausprägung xi exakt den Wert a/100
(ohne ihn zu überschreiten), so geben manche Autoren als a%-Perzentil das Paar
(xi , xi+1 ) an. Bei metrischen Daten kann man auch das arithmetische Mittel 12 (xi +
xi+1 ) angeben.
Einige Perzentile besitzen besondere Bedeutung und haben eigene Namen:
1.2. KENNZAHLEN
13
Definition 1.2.1.2. Die folgenden Perzentile besitzen Eigennamen:
0%
25%
50%
75%
100%
Minimum: Die kleinste Ausprägung, die vorkommt.
Erstes Quartil oder unteres Quartil.
Median oder Zweites Quartil.
Drittes Quartil oder oberes Quartil.
Maximum: Die größte Ausprägung, die vorkommt.
Das a%-Perzentil bezeichnet man auch als das
a
100
- Quantil.
Häufig werden auch das 10%-Perzentil und das 90%-Perzentil angegeben.
Merksatz 1.2.1.3. Das a%-Perzentil ist eine Kenngröße der Lage. Es gibt Antwort auf die Frage: Bei welcher Ausprägung liegt die Grenze zwischen den unteren
a Prozent und den oberen 100 − a Prozent der Stichprobe oder der Gesamtheit?
Beispiel 1.2.1.4. Eine Statistik sagt, dass das 90%-Perzentil des Körpergewichtes von Kindern eines gewissen Alters bei 35 kg liegt. Was heißt das?
Diskussion: Die kumulative Häufigkeit erreicht (und überschreitet) bei 35 kg erstmals 90%. Das
heißt: 90% der Kinder dieses Alters wiegen höchstens 35 kg, die anderen 10% der Kinder sind
schwerer. ¤
Beispiel 1.2.1.5. Ein Test in einer Klasse von 20 StudentInnen ergab folgende
Noten:
Note
1
Anzahl Studierende 5
2
11
3
1
4
2
5
1
Bestimmen Sie den Median, die Quartile und das 20%-Perzentil.
Diskussion: Wir beginnen mit einer Tabelle der Häufigkeiten, insbesondere der kumulativen relativen Häufigkeiten:
Note
1
2
3
4
5
ges.
abs.
5
11
1
2
1
20
Häufigkeit
rel. rel. kum.
0.25
0.25
0.55
0.8
0.05
0.85
0.10
0.95
0.05
1.00
1.00
Die ersten 50% werden bei der Note 2 erreicht und überschritten, daher liegt der Median bei
der Note 2.
Die ersten 25% werden bei der Note 1 erreicht, aber erst bei der Note 2 überschritten. Das
erste Quartil liegt zwischen den Noten 1 und 2, wir können auch sagen, das erste Quartil liegt auf
1.5.
Die ersten 75% werden bei der Note 2 erreicht und überschritten. Daher liegt das dritte
Quartil bei der Note 2. Sie sehen, dass in diesem Fall Median und drittes Quartil zusammenfallen.
Die ersten 20% werden bei der Note 1 erreicht und überschritten. Das 20%-Perzentil liegt bei
der Note 1. ¤
14
1. BESCHREIBENDE STATISTIK
1.2.1.2. Perzentile für metrische Merkmale mit Klasseneinteilung.
Für metrische Daten, die in Intervalle gruppiert sind, ist die obige Definition
des Perzentils unbefriedigend. Nach der obigen Definition ist das Perzentil in diesem Fall eine Klasse, ein Intervall. Man hätte lieber eine einzelne Zahl anstelle eines
Intervalls. Wie grob die obige Definition ist, sieht man gut im vorigen Beispiel, wo
Median und drittes Quartil in eine Klasse zusammenfallen. Für metrische Merkmale, die in Intervalle klassifiziert sind, gibt es daher eine zweite, feinere Definition
der Perzentile.
Definition 1.2.1.6 (Perzentile für Daten mit Klasseneinteilung). Sei X ein
metrisches Merkmal und a ∈ [0, 100] eine Zahl. Das a%-Perzentil von X ist jene
Ausprägung x , für den die empirische Verteilungsfunktion F den Wert F (x) =
a/100 annimmt. Es gilt die Formel:
a
100
− F (xi )
.
F (xi+1 ) − F (xi )
Dabei sind xi , xi+1 die untere und obere Grenze jener Klasse, in der die kumulative
Häufigkeit erstmals den Wert a/100 übersteigt. F (xi ), F (xi+1 ) sind die Werte der
empirischen Verteilungsfunktion, zugleich die kumulativen Häufigkeiten der Klassen
[xi−1 , xi ) bzw. [xi , xi+1 ).
a%-Perzentil = xi + (xi+1 − xi )
Beispiel 1.2.1.7. Die Längen von 40 Schlangen einer kleinen Vipernart wurden
gemessen. Es ergab sich folgende Häufigkeitstabelle:
Länge
[30, 40)
[40, 50)
[50, 60)
[60, 70)
[70, 80]
gesamt
absolut
2
6
10
16
6
40
Häufigkeiten
relativ rel. kumulativ
0.05
0.05
0.15
0.20
0.25
0.45
0.40
0.85
0.15
1.00
1.00
Bestimmen Sie Median, Quartile und 20%-Perzentil nach der Definition 1.2.1.6
für gehäufte metrische Daten.
Diskussion: Die folgende Grafik zeigt die empirische Verteilungsfunktion. Erinnern Sie sich, dass
diese Funktion jeweils an der oberen Grenze einer Klasse durch die kumulative Häufigkeit dieser
Klasse definiert ist, und zwischen den Klassengrenzen durch ein Geradenstück interpoliert wird:
empirische Verteilungsfunktion
1
0.75
50% Niveau
0.5
0.25
Median bei 61.25
0
20
30
40
50
60
70
80
Laenge
Beispiel 1.2.1.7: Empirische Verteilungsfunktion
90
1.2. KENNZAHLEN
15
Wir berechnen nun die Perzentile nach der Formel:
Perzentil
Prozent
Klassengrenzen
untere obere
kum. rel.
Häufigkeiten
untere obere
Perzentil
Formel
Wert
1. Quartil
25%
50
60
0.20
0.45
0.25−0.20
50 + (60 − 50) 0.45−0.20
=
52.00
Median
50%
60
70
0.45
0.85
0.50−0.45
60 + (70 − 60) 0.85−0.45
=
61.25
3. Quartil
75%
60
70
0.45
0.85
0.75−0.45
60 + (70 − 60) 0.85−0.45
=
67.50
20%-Perzentil
20%
50
60
0.20
0.45
0.20−0.20
50 + (60 − 50) 0.45−0.20
=
50.00
Sie sehen, dass diese Methode zum Beispiel im Stande ist, Median und drittes Quartil zu
unterscheiden, obwohl beide in derselben Klasse liegen. ¤
Tipp 1.2.1.8. SPSS berechnet für metrische, nicht in Klassen gruppierte, Daten
das a% Perzentil nach folgender Formel: Gegeben seien die Daten x1 , · · · , xn in
aufsteigender Reihenfolge. Sei
a
k=
(n + 1),
100
Ist k eine ganze Zahl, so wähle xk als das a-Perzentil. Ist k eine Bruchzahl m + r
mit ganzer Zahl m und Rest r ∈ (0, 1), so berechne das a-Perzentil durch
xm + r(xm+1 − xm ).
SPSS hat aber auch die Möglichkeit, Perzentile für in Klassen gruppierte Daten zu
berechnen. Dazu müssen die Mittelpunkte der Klassen eingegeben werden.
1.2.1.3. Spannweite und Quartilsabstand.
Definition 1.2.1.9. Sei X ein metrisches Merkmal.
Die Spannweite von X ist die Differenz von Maximum minus Minimum.
Der Quartilsabstand (manchmal auch Interquartilsabstand genannt) ist
die Differenz 3. Quartil minus 1. Quartil.
Merksatz 1.2.1.10. Spannweite und Quartilsabstand sind Kenngrößen der
Streuung. Je größer diese Zahlen sind, desto stärker streuen die Daten.
Beispiel 1.2.1.11. Bestimmen Sie für die Stichprobe aus Beispiel 1.2.1.7 die
Spannweite und den Quartilsabstand (berechnet nach der Definition 1.2.1.6 der
Perzentile für klassifizierte metrische Daten).
Diskussion: Aus den Lösungen von Beispiel 1.2.1.7 entnehmen wir folgende Werte:
Minimum
1. Quartil
Median
3. Quartil
Maximum
30.00
52.00
61.25
67.50
80.00
Daraus errechnen sich:
Spannweite
Quartilsabstand
¤
80-30 =
67.50-52.00 =
50
15.50
16
1. BESCHREIBENDE STATISTIK
Warum man den Quartilsabstand lieber als Streuungsmaß einsetzt als die Spannweite, erklärt das nächste Beispiel.
Beispiel 1.2.1.12. An einer Baustelle gilt eine Geschwindigkeitsbeschränkung
auf 30 km h. Eine kurze Radarmessung ergab an 10 vorbeifahrenden Autofahrern
folgende Werte
Messung Nr.
Geschwindigkeit
1
30.3
2
28.6
3
29.4
4
31.5
5
42.0
6
27.0
7
30.2
8
30.8
9
32.0
10
30.2
Die Mannschaft will eben die Radargeräte abbauen, da dirigiert Eberhard Wunderwarzenschwein seinen Ferrari mit 286.9 km/h durch die Meßstelle.
Welche Auswirkungen hat dieser extreme Wert (Ausreißer) auf die Statistik?
Diskussion: Wir beginnen mit einer Tabelle der Ausprägungen und ihrer relativen kumulativen
Häufigkeiten mit und ohne Ausreißer. (Die relativen Häufigkeiten sind zugleich die Werte der
empirischen Verteilungsfunktion an den gegebenen Stellen):
Geschwindigkeit
27.0
28.6
29.4
30.2
30.3
30.8
31.5
32.0
42.0
286.9
gesamt
Häufigkeiten ohne Ausreißer
abs. rel.
rel. kum.
1
0.1
0.1
1
0.1
0.2
1
0.1
0.3
2
0.2
0.5
1
0.1
0.6
1
0.1
0.7
1
0.1
0.8
1
0.1
0.9
1
0.1
1.0
0
0.0
1.0
10
1.0
Häufigkeiten mit Ausreißer
abs.
rel.
rel. kum.
1
0.091
0.091
1
0.091
0.182
1
0.091
0.273
2
0.182
0.455
1
0.091
0.545
1
0.091
0.636
1
0.091
0.727
1
0.091
0.818
1
0.091
0.909
1
0.091
1.000
11
1.0
Wir berechnen die Perzentile, Quartilsabstand und Spannweite mit und ohne Ausreißer:
Perzentil
Minimum
1. Quartil
Median
3. Quartil
Maximum
Spannweite
Quartilsabstand
ohne Ausreißer
27.00
29.40
30.25
31.50
42.00
15
2.10
mit Ausreißer
27. 00
29.40
30.30
32.00
286.90
259.90
2.60
Sie sehen, dass der extrem hohe Ausreißer natürlich Maximum und Spannweite stark verändert.
Die Quartile und der Quartilsabstand verändern sich nur geringfügig. ¤
Merksatz 1.2.1.13. Perzentile und Quartilsabstand sind äußerst robust (unempfindlich) gegen allfällige Ausreißer. Dagegen hängen natürlich Maximum, Minimum und Spannweite extrem empfindlich von Ausreißern ab.
Merksatz 1.2.1.14. Ein statistischer Ausreißer ist ein Datenwert oder Datensatz, dessen Wert weitab vom Grossteil der Daten einer Statistik liegen. Das
Auftreten eines Ausreißers kann unterschiedliche Gründe haben:
1) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die aber für die vorliegende Untersuchung nicht bedeutend
sind.
2) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die auf Phänomene hinweisen, die in der vorliegenden Untersuchung erfaßt werden sollten.
1.2. KENNZAHLEN
17
3) Der Ausreißer entsteht durch einen Meß- oder Beobachtungsfehler, oder
durch einen Fehler in der Weiterleitung der Daten.
Es gibt statistische Methoden, Ausreißer aufzufinden und zu kennzeichnen. Unter
welchem der drei obigen Gesichtspunkte der Ausreißer betrachtet werden muss, liegt
in der Verantwortung des Untersuchenden und kann mit rein formalen statistischen
Methoden nicht geklärt werden.
1.2.1.4. Box-Whisker-Plot.
Methode 1.2.1.15. Einen Boxplot oder Box-Whisker-Plot aus einer Stichprobe eines metrischen Merkmals erstellt man folgendermaßen:
Rechnerische Vorbereitung:
1) Median, Quartile und Quartilsabstand werden errechnet.
2) Es werden die “inneren Grenzen” bestimmt:
erstes Quartil - 1.5 × Quartilsabstand
drittes Quartil + 1.5 × Quartilsabstand
3) Es werden die “äußeren Grenzen” bestimmt:
erstes Quartil - 3 × Quartilsabstand
drittes Quartil + 3 × Quartilsabstand
4) Es werden die Daten identifiziert, welche zwischen den inneren und
äußeren Grenzen liegen, dieses sind die suspekten Ausreißer.
5) Es werden die Daten identifiziert, welche außerhalb der äußeren Grenzen liegen, dieses sind die sehr suspekten Ausreißer.
6) Es werden der größte und kleinste Wert der verbleibenden Daten bestimmt, wir bezeichnen diese als Maximum und Minimum innerhalb
der inneren Grenzen.
Zeichnung:
7) Es wird senkrecht eine Skala angelegt, die vom Minimum bis zum Maximum aller Ausprägungen reicht. (Man kann die Skala auch waagrecht anlegen, alle weiteren Schritte erfolgen dann entsprechend gedreht.)
8) Median und Quartile werden durch kleine übereinanderliegende waagrechte Striche eingezeichnet. Die Quartile werden dann durch senkrechte Striche verbunden, sodaß sich eine Box mit einem Teilstrich
im Median ergibt.
9) Das Maximum und Minimum innerhalb der inneren Grenzen werden ebenfalls durch waagrechte Striche eingezeichnet. Diese werden
je durch einen senkrechten Strich in der Mitte mit der Box verbunden
(“Whiskers”).
10) Die suspekten Ausreißer werden mit einem Kreis eingezeichnet.
11) Die sehr suspekten Ausreißer werden mit einem Stern eingezeichnet.
In einer vereinfachten Methode verzichtet man auf die Analyse der Ausreisser und
zeichnet die Whisker vom dritten Quartil bis zum Maximum, und vom Minimum
bis zum ersten Quartil.
Beispiel 1.2.1.16. Gewichtsmessung an einer Stichprobe aus einer Rattenpopulation ergab folgende Kennzahlen (Gewichte in g):
Minimum
erstes Quartil
Median
drittes Quartil
Maximum
100
150
250
300
450
18
1. BESCHREIBENDE STATISTIK
Stellen Sie diese Daten durch einen Box-Whisker-Plot dar (ohne Analyse der
Ausreisser), und kennzeichnen Sie darin den Median, die Spannweite, und den Quartilsabstand.
Boxplot zu Beispiel 1.2.1.16
Beispiel 1.2.1.17. In zwei aufeinanderfolgenden Jahren wurde eine Lehrveranstaltung abgehalten. Bei den Schlusstests waren jeweils hundert Punkte erreichbar.
Für jedes Jahr wurde eine Tabelle der erreichten Punktewertungen erstellt. Die
Ergebnisse der beiden Studienjahre sind je durch einen Boxplot zusammengefasst:
100,0
1
80,0
2
Punkte
1
60,0
40,0
20,0
2
1
2
1
0,0
2003
2004
Jahr
Boxplots zu Beispiel 1.2.1.17
Interpretieren Sie die Grafik.
Diskussion: Die Hälfte der Studierenden im Jahr 2003 hatte Punktezahlen zwischen ca. 40 und 50,
insgesamt lagen die Punktezahlen zwischen ca. 2 und 98, wobei so extreme Werte aber nur durch
wenige (6) Ausreisser angenommen wurden. Die restlichen Ergebnisse lagen im Bereich zwischen
ca. 25 und 65. Die Hälfte der Studierenden hatte eine bessere Punktezahl als ca. 45.
1.2. KENNZAHLEN
19
Die Hälfte der Studierenden im Jahr 2004 hatte Punktezahlen zwischen ca. 35 und 50, die
Ergebnisse lagen insgesamt zwischen ca. 5 und 90. Abgesehen von 4 Ausreissern lagen die Punktezahlen im Bereich zwischen ca. 25 und 70. Die Hälfte der Studierenden hatte eine bessere Note
als ca. 40.
Die Ergebnisse der beiden Jahre sind nicht sehr verschieden. Der Vergleich der Mediane lässt
die Studierenden des ersten Jahres etwas besser abschneiden. Betrachtet man die Quartilsabstände
oder die Spannweite der Ergebnisse ohne Berücksichtigung der Ausreißer, so sieht man, dass der
Jahrgang 2004 etwas mehr zu streuen scheint.
Sie sehen, dass durch Boxplots viel Information auf kleinem Raum gegeben werden kann.
¤
Was Sie jetzt können:
Begriffe und Wissen: Unterschied zwischen Kenngrößen der Lage
und Kenngrößen der Streuung. Perzentile, Median, Quartil, Quantil, Maximum, Minimum, Quartilsabstand, Spannweite. Statistische
Ausreißer.
Methoden: Bestimmen und interpretieren von Perzentilen und den
damit verwandten statistischen Kenngrößen. Boxplots zeichnen und
interpretieren.
1.2.2. Mittelwert.
Übersicht:
1. Summenzeichen
2. Mittelwert
2. Varianten der Berechnung des Mittelwertes
1.2.2.1. Summenzeichen.
Viele Formeln in der Statistik summieren Häufigkeiten oder Ausprägungen von
vielen Daten. Um Formeln mit solchen Summen exakt und doch bequem aufzuschreiben, gibt es das Summenzeichen.
Definition 1.2.2.1. Seien x1 , x2 , · · · , xn Zahlen. Sei 1 ≤ p ≤ q ≤ n. Das
Summenzeichen bedeutet:
q
X
xi = xp + xp+1 + · · · + xq−1 + xq .
i=p
(D.h., addiere die Werte xi , wobei i von p bis q läuft.)
Tipp 1.2.2.2. Die Benennung des Summationsindex spielt keine Rolle, er ist
nur ein Name für die Nummern, die durchgezählt werden. Die folgenden beiden
Summen ergeben dasselbe:
6
6
X
X
xt =
xi .
t=2
i=2
20
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.2.3. In der folgenden Tabelle sind Zahlen a1 , · · · , a4 und b1 , · · · , b4
gegeben. Bestimmen Sie die folgenden Summen:
P4
P4
ai ,
i=1
j=1 bj ,
P
P4
P4
4
2a
−
3b
,
2
t
t
³P t=1 at −
´ ³3P t=1 bt ,´
P4t=1
4
4
n=1 bn ,
n=1 an
n=1 an bn ,
³
´
2
P4
P
4
2
,
k=1 ak ,
k=1 ak
P4
k=1 23.
i ai bi
1 4 3
2 5 2
3 2 0
4 3 1
Diskussion: In der folgenden Tabelle fassen wir alle Additionen zusammen, die wir durchführen:
i
1
2
3
4
Summe
Damit haben wir:
4
X
ai
4
5
2
3
14
bi
3
2
0
1
6
2ai
8
10
4
6
4
X
ai = 14,
i=1
4
X
3bi
9
6
0
3
2ai − 3bi
-1
4
4
3
10
ebenso:
t=1
2
4
X
Ã
an bn = 25,
aber:
n=1
at − 3
4
X
Ã
a2k
= 54,
aber:
4
X
4
X
bt = 2 × 14 − 3 × 6 = 10,
t=1
!Ã
an
n=1
k=1
4
X
23
23
23
23
23
92
bj = 6,
t=1
4
X
a2i
16
25
4
9
54
j=1
2at − 3bt = 10
4
X
ai bi
12
10
0
3
25
!2
ak
4
X
!
bn
= 14 × 6 = 84,
n=1
= 142 = 196,
k=1
23 = 92.
k=1
¤
Merksatz 1.2.2.4. Für das Summenzeichen gelten folgende Regeln:
a) Summen von Summen und Differenzen darf man in zwei Summen zerlegen:

 

q
q
q
X
X
X
(ai ± bi ) = 
ai  ± 
bi  .
i=p
i=p
i=p
b) Konstante Faktoren darf man aus der Summe herausheben:
q
X
(k · ai ) = k ·
i=p
q
X
ai .
i=p
c) Es ist nicht gleichgültig, ob man zuerst multipliziert und dann summiert
oder umgekehrt:

 

q
q
q
X
X
X
(ai · bi ) 6= 
ai  · 
bi  .
i=p
i=p
i=p
1.2. KENNZAHLEN
21
d) Es ist nicht gleichgültig, ob man zuerst quadriert und dann summiert oder
umgekehrt:

2
q
q
X
X
a2i 6= 
ai  .
i=p
i=p
e) Wird n mal dieselbe Zahl k summiert, so ergibt sich nk.
q
X
k = (q − p + 1)k.
i=p
1.2.2.2. Mittelwert.
Definition 1.2.2.5. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe
sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen
Merkmales x für die Merkmalsträger Nummer 1 · · · n. Der Mittelwert x von x
innerhalb dieser Gesamtheit (Stichprobe) ist dann
n
x=
1X
xi
n i=1
(Häufig wird auch die Schreibweise µ(x) oder µx für den Mittelwert von x verwendet.)
Wir geben der Vollständigkeit halber bereits hier die Definition einer weiteren
Kenngröße der Lage an, obwohl sie zu den Kenngrößen der nominalen Merkmale
gehört:
Definition 1.2.2.6. Der Modal eines Merkmals ist jene Ausprägung, die am
häufigsten vorkommt. (Ein Merkmal kann mehrere Modale haben!)
Merksatz 1.2.2.7. Mittelwert, Median und Modal sind Kenngrößen der Lage.
1) Der Mittelwert gibt den Durchschnittswert der Ausprägung eines metrischen Merkmals innerhalb einer Gesamtheit an. Den Mittelwert kann man
nur von metrischen Merkmalen angeben.
2) Der Median gibt die Grenze an, die die untere und obere Hälfte der Ausprägungen trennt. Den Median kann von zu ordinalen (und metrischen)
Merkmalen angeben.
3) Der Modal gibt dagegen an, welche Ausprägung am häufigsten vorkommt,
also wo der Gipfel des Stabdiagramms liegt. Den Modal gibt es auch zu
nominalen, und damit zu allen Merkmalen.
Mittelwert, Median, und Modal müssen nicht auf denselben Wert fallen.
Beispiel 1.2.2.8. Das folgende Stabdiagramm und die dazugehörige Statistik
nach SPSS zeigt eine deutlich linksgipfelige Verteilung. Vergleichen Sie Modal, Median und Mittelwert.
22
1. BESCHREIBENDE STATISTIK
Prozent
30
20
10
0
,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
Auspraegung
Eine linksgipfelige Verteilung
N
gültig
fehlend
Mittelwert
Modus
Standardabweichung
Varianz
Spannweite
Minimum
Maximum
Perzentile
25
50
75
63
0
3.4286
2.00
2.2484
5.055
10.00
0.00
10.00
2.0000
3.0000
4.0000
Diskussion: Der Mittelwert (3.4286) liegt deutlich rechts vom Median (3.0000). Der Median wird
nur von der Anzahl und Reihung der Daten, nicht von ihren Zahlenwerten beeinflußt. In den
Mittelwert gehen auch die Zahlenwerte ein. Bei der linksgipfeligen Verteilung sind die Daten im
unteren Bereich dicht gedrängt, im oberen Bereich weit gestreut. Der Median trennt die untere
und die obere Hälfte. Da die Daten in der oberen Hälfte aber weit gestreut sind und zahlenmäßig
hoch hinauf gehen, wird der Mittelwert weiter nach rechts gezogen. In der Statistik finden wir
auch den Modal (Modus, 2.0000), also den Gipfel. Er liegt bei der linksgipfeligen Verteilung noch
weiter links als der Median. Außerdem finden wir die Quartile, Maximum und Minimum, und die
Spannweite. Die Streuungskennzahlen Standardabweichung und Varianz werden wir im nächsten
Unterabschnitt kennenlernen.
¤
Tipp 1.2.2.9. Stellen Sie sich ein Stabdiagramm oder Histogramm vor, als
wären die Balken aus Ziegeln auf einem Brett aufgestapelt. Wenn Sie das Brett
auf einer einzigen Stütze schaukeln lassen, müssen Sie es unter dem Mittelwert
unterstützen, damit es in der Waage bleibt.
1.2.2.3. Varianten zur Berechnung des Mittelwertes.
Methode 1.2.2.10. Den Mittelwert einer Stichprobe kann man auf verschiedene Arten berechnen:
1.2. KENNZAHLEN
23
1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn
gegeben, so ist
n
1X
x=
xi .
n i=1
2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist der Mittelwert
m
x=
1X
ai xi .
n i=1
Dabei ist der Stichprobenumfang
n=
m
X
ai .
i=1
3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist der Mittelwert
x=
m
X
fi x i .
i=1
Beispiel 1.2.2.11. In einer Klasse von 10 Schülern kommen bei einer Schularbeit die Noten von 1 bis 3 vor. Wir geben die Tabelle der Noten in drei verschiedenen
Formen. Wie ist der Mittelwert der Noten?
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
Note
1
3
1
2
3
2
2
1
1
2
Note
1
2
3
absolute Häufigkeit
5
3
2
Note
1
2
3
relative Häufigkeit
0.5
0.3
0.2
Diskussion: Alle drei folgenden Wege führen zum Mittelwert:
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
10 SchülerInnen
Mittelwert
¤
xi
Note
1
3
1
2
3
1
2
1
1
2
Summe 17
17/10=1.7
xi
Note
1
2
3
Summe
Mittelwert
ai
abs. H.
5
3
2
10
xi
Note
1
2
3
Mittelwert
fi
rel. H.
0.5
0.3
0.2
x i ai
5
6
6
17
17/10 = 1.7
xi fi
0.5
0.6
0.6
1.7
24
1. BESCHREIBENDE STATISTIK
Merksatz 1.2.2.12. Achten Sie bei der Berechnung von Mittelwert und Varianz auf folgende Frage: Stellen die Zeilen Ihrer Tabelle jeweils nur einen Datensatz
dar, oder steht in jeder Zeile eine Häufigkeitsangabe, sodass eine Zeile sich auf mehrere Individuen bezieht? Falls eine Häufigkeitsangabe steht, muss die Häufigkeit in
die Berechnung des Mittelwertes und der Varianz einbezogen werden.
Was Sie jetzt können:
Begriffe und Wissen: Mittelwert, Modal
Methoden: Umgang mit dem Summenzeichen, Berechnung
des Mittelwertes
1.2.3. Varianz und Standardabweichung.
Übersicht:
1. Streuung
2. Varianz und Standardabweichung
3. Faustregel zur Interpretation der Standardabweichung
1.2.3.1. Streuung.
Merkmale kommen in der Grundgesamtheit fast immer in mehreren verschiedenen Ausprägungen vorkommen (andere Merkmale werden erst gar nicht statistisch
untersucht). Nun kann ein Merkmal entweder stark streuen, das heißt, es kommt
in vielen verschiedenen Ausprägungen vor, und Unterschiede werden oft beobachtet, oder es streut schwach, es kommen fast immer die gleiche oder ganz ähnliche
Ausprägungen vor. Wenn wir aus der Grundgesamtheit eine Stichprobe entnehmen, spielt der Zufall mit, welche Ausprägungen in der Stichprobe vorkommen.
Streut das Merkmal schwach, so ist der Einfluß des Zufalls auf die Stichprobe geringm, weil ja ohnehin fast immer ganz ähnliche Ausprägungen vorkommen: Mit
großer Wahrscheinlichkeit haben wir auch diese Ausprägungen fast durchwegs in der
Stichprobe. Sind dagegen die Ausprägungen in der Grundgesamtheit bunt gemischt,
spielt der Zufall eine große Rolle bei der Zusammensetzung der Stichprobe. Es wird
dann, durch diesen Einfluss des Zufalls, wesentlich riskanter und schwieriger, aus
der Stichprobe Rückschlüsse auf die Grundgesamtheit zu machen.
Merksatz 1.2.3.1. Wenn ein Merkmal stark streut, dann
1) hat der Zufall viel Einfluß auf alle Vorgänge, in denen dieses Merkmal
involviert ist, z.B. auf die Zusammensetzung von Stichproben,
2) sind Schlüsse, die auf Grund von Stichproben über dieses Merkmal gemacht werden, unsicher und mit großer Vorsicht vorzunehmen.
1.2. KENNZAHLEN
25
Daten mit verschiedener Lage und Streuung
Um die Sicherheit unserer Schlüsse zu beurteilen, brauchen wir also ein Maß
dafür, wie stark ein Merkmal streut. Solche Maße sind, wie wir schon wissen, die
Spannweite und der Quartilsabstand, die auf Basis der Perzentile ermittelt werden.
Auf Grundlage von Summenformeln werden dagegen die Varianz und die Standardabweichung eingeführt.
1.2.3.2. Varianz und Standardabweichung.
Definition 1.2.3.2. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe
sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen
Merkmales x für die Merkmalsträger Nummer 1 · · · n. Sei x der Mittelwert von
x innerhalb dieser Gesamtheit. Die Varianz von x innerhalb dieser Gesamtheit
(Stichprobe) ist dann
n
1X
σ 2 (x) =
(xi − x)2 .
n i=1
Die Quadratwurzel aus der Varianz heißt Standardabweichung:
p
σ(x) = σ 2 (x)
Tipp 1.2.3.3.
1) Verschiedene Schreibweisen werden für die Varianz eingeführt, z.B. s2 , σ 2
oder Var(x). Um zu spezifizieren, dass sich eine Varianz auf das Merkmal
x bezieht, kann wiederum σ 2 (x) oder σx2 geschrieben werden.
2) Das Quadrat über σ 2 als Kürzel der Varianz sieht zunächst willkürlich aus,
ist aber konsistent mit der Schreibweise σ für die Standardabweichung.
3) Manche Autoren definieren die Varianz von vorneherein mit
n
1 X
2
σ (x) =
(xi − x)2 .
n − 1 i=1
Wir werden noch sehen, unter welchen Umständen man mit dem Nenner n − 1 statt n rechnen muss. Vorläufig warnen wir nur, dass also die
Definition der Varianz von Autor zu Autor verschieden ist. Insbesondere
rechnen Statistikpakete üblicherweise mit n − 1.
26
1. BESCHREIBENDE STATISTIK
Merksatz 1.2.3.4.
1) Varianz und Standardabweichung sind Kenngrößen der Streuung. Je größer
die Varianz, desto mehr streuen die Daten.
2) Die Varianz ist immer positiv.
3) Die Varianz ist nur dann gleich Null, wenn alle Merkmalsträger dieselbe
Ausprägung haben.
4) Als alternative Kenngrößen der Streuung kennen wir bereits die Spannweite und den Quartilsabstand.
Diskussion: Das ist leicht zu verstehen: Die Summanden (xi −x)2 sind immer positiv, daher ergibt
sich eine positive Summe. Diese ist (wegen der Positivität der Summanden) nur dann exakt Null,
wenn alle Summanden gleich null sind. Je weiter die Ausprägung xi vom Mittelwert entfernt ist,
desto größer ist der Summand (xi − x)2 . Eine große Varianz tritt also dann auf, wenn häufig
Ausprägungen vorkommen, die vom Mittelwert stark abweichen. ¤
Genau wie beim Mittelwert gibt es verschiedene Wege, die Varianz zu berechnen, je nachdem, ob die Daten pro Merkmalsträger oder als Liste der Häufigkeiten
vorliegen. In jedem dieser Fälle gibt es wiederum zwei Rechenwege:
Methode 1.2.3.5. Die Varianz einer Stichprobe mit Stichprobenumfang n kann
man auf verschiedene Arten berechnen:
1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn
und ihr Mittelwert x gegeben, so ist die Varianz
n
σ 2 (x) =
n
1X
1X 2
(xi − x)2 =
x − x2 .
n i=1
n i=1 i
2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist die Varianz
m
σ 2 (x) =
n
1X
1X
ai (xi − x)2 =
ai x2i − x2 .
n i=1
n i=1
Dabei ist der Stichprobenumfang
n=
m
X
ai .
i=1
3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist die Varianz
σ 2 (x) =
m
X
i=1
fi (xi − x)2 =
m
X
i=1
fi x2i − x2 .
1.2. KENNZAHLEN
27
Diskussion: Es läßt sich leicht zeigen, dass die jeweils zweite Formel dasselbe liefert wie die jeweils
erste. Wir beweisen das für die Situation, wenn die Daten pro Merkmalsträger gegeben sind:
n
1X
(xi − x)2 =
n i=1
=
n
1X 2
(x − 2xxi + x2i ) =
n i=1 i
=
n
n
n
1X 2
1X
1X 2
xi −
2xxi +
x =
n i=1
n i=1
n i=1
=
n
n
1X
1
1X 2
xi − 2x
xi + nx2 =
n i=1
n i=1
n
=
n
1X 2
x − 2x2 + x2 =
n i=1 i
=
n
1X 2
x − x2 .
n i=1 i
¤
Beispiel 1.2.3.6. Berechnen Sie die Varianz und Standardabweichung zu den
Daten aus Beispiel 1.2.2.11 auf alle 6 möglichen Arten.
Diskussion: Wir beginnen mit den zwei Möglichkeiten, wenn die Daten pro Merkmalsträger angeführt sind:
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
n = 10
durch n:
Wurzel:
xi
Note
1
3
1
2
3
1
2
1
1
2
17
x = 1.7
xi − x
(xi − x)2
-0.7
1.3
-0.7
0.3
1.3
-0.7
0.3
-0.7
-0.7
0.3
0.49
1.69
0.49
0.09
1.69
0.49
0.09
0.49
0.49
0.09
6.10
0.61
0.781
σ 2 (x) =
σ(x) ≈
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
n = 10
durch n:
-x2
Wurzel:
xi
Note
1
3
1
2
3
1
2
1
1
2
17
x = 1.7
σ 2 (x) =
σ(x) ≈
x2i
1
9
1
4
9
1
4
1
1
4
35
3.50
-2.89
0.61
0.781
Die zweite Variante ist angenehmer, denn man muss nicht für jeden Term separat den Mittelwert abziehen.
Bei Angabe der absoluten Häufigkeiten bieten sich folgende Wege an:
xi
ai
xi ai xi − x (xi − x)2 ai (xi − x)2
Note
abs. H.
1
5
5
-0.7
0.49
2.45
2
3
6
0.3
0.09
0.27
3
2
6
1.3
1.69
3.38
Summe
10
17
6.1
durch n
1.7
σ 2 (x) =
0.61
Wurzel
σ(x) ≈
0.781
28
1. BESCHREIBENDE STATISTIK
xi
1
2
3
ai
5
3
2
10
xi ai
5
6
6
17
1.7
durch 10:
−x2
σ 2 (x) =
σ(x) ≈
Wurzel
x2i ai
5
12
18
35
3.5
- 2.89
0.61
0.781
Bei Angabe der relativen Häufigkeiten rechnen wir:
xi
fi
xi fi xi − x (xi − x)2
Note
rel. H.
1
0.5
0.5
-0.7
0.49
2
0.3
0.6
0.3
0.09
3
0.2
0.6
1.3
1.69
Summe
1.7
σ 2 (x) =
Wurzel
σ(x) ≈
xi
1
2
3
fi
0.5
0.3
0.2
xi ai
5
6
6
1.7
−x2
Wurzel
σ 2 (x) =
σ(x) ≈
fi (xi − x)2
0.245
0.027
0.338
0.61
0.781
x2i fi
0.5
1.2
1.8
3.5
- 2.89
0.61
0.781
¤
1.2.3.3. Faustregel zur Interpretation der Standardabweichung.
Varianz und Standardabweichung sagen dasselbe aus, es ist ja die Varianz einfach das Quadrat der Standardabweichung. Die Standardabweichung ist aber leichter anschaulich zu interpretieren:
Merksatz 1.2.3.7. Zur Interpretation der Standardabweichung gilt die folgende Faustregel: Ist ein metrisches Merkmal annähernd normalverteilt (d.h., das
Histogramm hat ungefähr die Form einer Gaußschen Glockenkurve) mit Mittelwert
x und Standardabweichung σ, so finden sich
im Intervall x ∈ [x − σ, x + σ] circa 68 Prozent der Merkmalsträger
im Intervall x ∈[x − 2σ, x + 2σ] circa 95 Prozent der Merkmalsträger
im Intervall x ∈[x − 3σ, x + 3σ] circa 99.7Prozent der Merkmalsträger
Merksatz 1.2.3.8. Für jede beliebige Verteilung gilt die wesentlich vorsichtigere Schätzung nach der Chebychev-Ungleichung (sprich: Tschebischeff):
Ist k > 1, so findet sich auf jeden Fall
im Intervall x ∈ [x − kσ, x + kσ]
mindestens
der Anteil 1 − k12 der Merkmalsträger.
Beispiel 1.2.3.9. Das Gewicht von Äpfeln einer gewissen Sorte hat einen Mittelwert von 160 g bei einer Standardabweichung von 30 g. Welcher Anteil der Äpfel
liegt in der Gewichtsklasse von 100–220 g? Sind Äpfel mit weniger als 70 g Gewicht
häufig?
1.2. KENNZAHLEN
29
Diskussion: Wenn wir davon ausgehen dürfen, dass das Gewicht der Äpfel annähernd normalverteilt ist, können wir die Faustregel verwenden. Im Bereich x ± 2σ = 160 ± 60 liegen circa 95%
der Äpfel. Ein Apfel mit 70 g weicht vom Mittelwert um das Dreifache der Standardabweichung
ab, das ist nach der Faustregel schon sehr selten, nämlich ca. 0.3%, und davon liegt wieder etwa
nur die Hälfte unter 70 g und die andere Hälfte über 250 g. Wenn die Faustregel gilt, sind nur
ca. 0.15% der Äpfel leichter als 70 g.
Wenn das Gewicht der Äpfel nicht normalverteilt ist (z.B. Mischung einer großen und einer
kleinen Sorte, sodass viele sehr große und viele sehr kleine Äpfel dabei sind), haben wir nur
die Chebychev-Ungleichung. Im Bereich x ± 2σ = 160 ± 60 liegen auf jeden Fall mindestens
1 − 14 = 75% der Äpfel. Immerhin ein Neuntel aller Äpfel kann im Gewicht um das Dreifache der
Standardabweichung vom Mittelwert entfernt sein. ¤
Methode 1.2.3.10. Gegeben sei ein Merkmal mit seinem Mittelwert x und seiner Standardabweichung σ(x). Um festzustellen, ob eine Ausprägung x eher häufig
oder selten ist, standardisieren wir den Wert der Ausprägung:
x−x
z=
σ(x)
Nach der Faustregel kommen Werte von z außerhalb von [−2, 2] in circa 5% aller
Fälle, außerhalb von [−3, 3] nur in 0.3% aller Fälle, und Werte von z außerhalb
von [−4, 4] extrem selten vor. Voraussetzung für die Anwendung der Faustregel ist,
dass das Merkmal annähernd normalverteilt ist.
Nach der Chebychev-Ungleichung kommen Werte von z außerhalb von [−2, 2]
in höchstens 25% aller Fälle, außerhalb von [−3, 3] höchstens in 1/9 ≈ 11% aller
Fälle, und auërhalb von [−4, 4] in höchstens 1/16 = 6.25% aller Fälle vor.
Beispiel 1.2.3.11. Im Rahmen von vielen Messungen wurde die Schadstoffbelastung eines Gewässers mit einem bestimmten Schadstoff mit durchschnittlich
5 mg/l bei einer Standardabweichung von 0.2 mg/l angegeben. Sind Messungen von
6 mg/l ungewöhnlich?
Diskussion: Wir standardisieren:
6−5
=5
0.2
Eine Messung von 6 mg/l weicht vom Mittelwert um das Fünffache der Standardabweichung ab.
Das kommt nur sehr selten vor. ¤
z=
In der Ausgabe von Statistikprogrammen und in den Rezepten statistischer
Schätzer und Tests werden Sie oft dem folgenden Begriff begegnen:
Definition 1.2.3.12. Wird die Varianz eines metrischen Merkmals aus einer
Stichprobe von n Merkmalsträgern berechnet, so sagt man, diese Varianz hat n − 1
Freiheitsgrade.
Diese Sprechweise überträgt sich auch auf weitere aus dieser Varianz hergeleiteten Größen.
Diskussion: Warum n − 1 und nicht n? Überlegen wir, aus wievielen unabhängigen Daten die
Varianz hochgerechnet wird. Die Zahlen
(x1 − x), · · · , (xn − x),
aus denen die Varianz als Mittelwert der Quadrate berechnet wird, sind nämlich nicht unabhängig.
Wenn die ersten n − 1 von diesen Werten bekannt sind, kann man sich den letzten ausrechnen,
denn alle zusammen summieren sich auf Null. Das liegt daran, dass x genau der Mittelwert ist:
n
n
X
X
xi − nx = nx − nx = 0.
(xi − x) =
i=1
i=1
Damit bleiben nur n − 1 unabhängige Größen über.
¤
30
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.3.13. Zum Vergleich der Varianzen zweier Gesamtheiten entnimmt man jeder Gesamtheit eine Stichprobe und schätzt daraus die Varianz der
Gesamtheit. Sei n1 der Stichprobenumfang der ersten Stichprobe, und s21 die geschätzte Varianz der ersten Gesamtheit, analog n2 und s22 . Aus dem Verhältnis F = s21 /s22
zieht man Schlüsse über das Verhältnis der beiden Varianzen. Da F aus Varianzen
von Stichproben errechnet wurde, hat F Freiheitsgrade. Welche Freiheitsgrade hat
F?
Diskussion: s21 hat n1 − 1 Freiheitsgrade, und s22 hat n2 − 1 Freiheitsgrade. Man sagt, F hat n1 − 1
Freiheitsgrade des Zählers und n2 − 1 Freiheitsgrade des Nenners. Diese Information ist wichtig,
wenn wir den Wert von F aus der Stichprobe mit den Perzentilen einer geeigneten Verteilung, der
F-Verteilung (die wir noch kennen lernen werden) vergleichen. Es gibt nämlich in Wirklichkeit eine
ganze Familie verschiedener F-Verteilungen, eine für jedes Paar von Freiheitsgraden des Zählers
und des Nenners. ¤
Was Sie jetzt können:
Begriffe und Wissen: Streuung, Bedeutung der Streuung für die
Interpretation von Daten, Varianz, Standardabweichung, Freiheitsgrade.
Methoden: Berechnung von Varianz und Standardabweichung. Interpretation der Standardabweichung eines Datensatzes. Standardisierung.
1.2.4. Weitere Kennzahlen auf Grundlage von Summationen.
Übersicht:
1. Variationskoeffizient
2. Schiefe und Kurtosis
1.2.4.1. Variationskoeffizient.
Man wird oft erwarten, dass Merkmale, die an sich große Ausprägungen zeigen,
auch größere Werte der Streuung haben. Aus diesem Grund hat man den Variationskoeffizienten eingeführt, der die Standardabweichung in Relation zur Größe des
Mittelwertes setzt:
Definition 1.2.4.1. Sei x ein metrisches Merkmal mit Mittelwert x 6= 0 und
Standardabweichung σ(x) in einer bestimmte Gesamtheit (kann auch eine Stichprobe sein). Der Variationskoeffizient von x innerhalb dieser Gesamtheit ist
cV (x) =
σ(x)
|x|
Beispiel 1.2.4.2. Zwei Käferarten wurden der Länge nach vermessen. Es ergaben sich folgende Tabellen:
Art 1
Art 2
Mittelwert
12 mm 52 mm
Standardabweichung 2 mm 4 mm
Vergleichen Sie Mittelwert und Streuung der Längen dieser Tiere.
1.2. KENNZAHLEN
31
Diskussion: Zunächst stellen wir fest, dass die beiden Arten sehr verschieden groß sind. Die erste
Art mit mittlerer Länge 12 mm ist ein ansehnlicher Käfer, aber die zweite Art ist im Mittel über
4 mal so lang. Es handelt sich um eine sehr eindrucksvolle Käferart! Eine grobe Interpretation der
Standardabweichung gibt: Etwa 95% der Käfer der ersten Art sind zwischen 8 und 16 mm lang,
etwa 95% der Käfer der zweiten Art sind zwischen 44 und 60 mm lang. Es ist keine Überraschung,
dass die größere Art auch größerer Streuung in den Längen aufweist. Vergleichen wir aber die
Variationskoeffizienten:
Art 1
12 mm
2 mm
2/12 ≈ 1.67
Mittelwert
Standardabweichung
Variationskoeffizient
Art 2
52 mm
4 mm
4/52 ≈ 0.77
Relativ gesehen, im Vergleich zur Größe, streuen die Längen der zweiten Art deutlich weniger
als die der ersten Art.
¤
1.2.4.2. Schiefe und Kurtosis.
Mittelwert und Varianz werden mit den Potenzen 1 und 2 ausgerechnet. Baut
man ähnliche Formeln für höhere Potenzen, so erhält man die sogenannten höheren
Momente einer Verteilung. Sie geben Auskunft über die Form der Verteilung. Die
folgenden Formeln müssen Sie sich nicht merken, aber Sie sollten wissen, wie die
Maße Schiefe und Kurtosis, die wir jetzt einführen, interpretiert werden.
Definition 1.2.4.3. In einer Gesamtheit (kann eine Stichprobe sein) sei ein metrisches Merkmal x mit den möglichen Ausprägungen x1 , · · · , xm und dazugehörigen relativen Häufigkeiten f1 , · · · , fm vertreten. Der Mittelwert von x innerhalb
dieser Gesamtheit sei x, und die Standardabweichung sei σ(x).
Die Schiefe von x ist definiert durch
m
1 X
fi (xi − x)3
3
σ (x) i=1
Die Kurtosis von x ist definiert durch
m
1 X
fi (xi − x)4
4
σ (x) i=1
Den Exzess bestimmt man aus der Kurtosis durch Subtraktion von 3:
m
1 X
fi (xi − x)4 − 3
σ 4 (x) i=1
Analoge Definitionen für Schiefe, Kurtosis und Exzess können auch für Zufallsvariablen gegeben werden.
Merksatz 1.2.4.4.
Interpretation der Schiefe:
> 0: Linksgipfelige Verteilung, kleine Streuung im unteren Bereich, hohe Streuung oberhalb des Mittelwertes.
= 0: Die Verteilung streut annähernd symmetrisch um den Mittelwert.
< 0: Rechtsgipfelige Verteilung, große Streuung im unteren Bereich, kleine
Streuung im oberen Bereich.
32
1. BESCHREIBENDE STATISTIK
Interpretation der Schiefe
Merksatz 1.2.4.5. Interpretation des Exzesses: Die Varianz eines Merkmals
kann zustande kommen, indem die meisten Daten eine mäßige Abweichung vom
Mittelwert aufweisen. Dieselbe Varianz kann aber auch entstehen, indem viele Daten sehr stark vom Mittelwert abweichen, und dafür viele Daten ganz nahe am
Mittelwert liegen. Der Exzess gibt darüber Auskunft, und zwar:
> 0: Sehr kleine und sehr große Abweichungen vom Mittelwert sind häufig. Daher ein steiler, spitzer Gipfel, relativ wenig Daten im Bereich mittelgroßer
Streuung, und lange, dicke “Schwänze” im Bereich hoher Streuung.
= 0: z.B. Normalverteilung
< 0: Mittelgroße Abweichungen vom Mittelwert sind häufig. Stumpfer, breiter
Gipfel, dann relativ schnell fallende Schultern und dünne Schwänze.
(Die Zahl 3 in der Definition des Exzesses ist gerade die Kurtosis der Normalverteilung. Damit ist der Exzess so definiert, dass die Normalverteilung gerade bei Null
liegt.)
Tipp 1.2.4.6. Vorsicht, manche Autoren verwenden auch das Wort Exzess für
das, was wir Kurtosis genannt haben, und umgekehrt. SPSS rechnet unter der
Bezeichnung “Schiefe” und “Kurtosis” modifizierte Formeln, die aber auch im Sinne
von Merksatz refs:schiefe intepretiert werden können. Insbesondere ist auch bei
SPSS die Schiefe symmetrischer Verteilungen gleich Null, und die Kurtosis der
Normalverteilung gleich Null.
1.2. KENNZAHLEN
33
Interpretation der Kurtosis
Tipp 1.2.4.7. Schiefe und Exzess werden unter dazu verwendet, ob Daten
annähernd normalverteilt sind (also die Histogramme annähernd die Form der
Gaußschen Glockenkurve haben). Weichen Schiefe und Exzess einer Stichprobe weit
von Null ab, sind die Daten auch in der Grundgesamtheit, der die Stichprobe entnommen ist, voraussichtlich nicht normalverteilt. Das ist deshalb wichtig zu beurteilen, weil viele Verfahren der Statistik nur für normalverteilte Daten funktionieren.
Was Sie jetzt können:
Begriffe und Wissen: Variationskoeffizient, Schiefe, Kurtosis, Exzess
1.2.5. Kennzahlen für nominale Daten.
Übersicht:
1. Modal und Diversität
2. Kreuztabellen
3. Unabhängigkeit von Merkmalen
1.2.5.1. Modal und Diversität.
Definition 1.2.5.1. Sei x ein Merkmal. Der Modal von x ist jene Ausprägung,
die am häufigsten angenommen wird. Kommen mehrere Ausprägungen ex aequo auf
die größte absolute Häufigkeit, so ist jede dieser Ausprägungen ein Modal von x,
und x besitzt mehrere Modale.
Modale lassen sich natürlich für alle Merkmale definieren: Nominale, ordinale
und metrische.
34
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.5.2. Bei der Untersuchung des Kleinräuber-Bestandes eines Ökosystems wurden gezählt
Art
Anzahl
Marder
5
Iltis
2
Wiesel
5
Mauswiesel
4
Wo liegt der Modal dieser Stichprobe?
Diskussion: Das Merkmal ist “Tierart”, ein nominales Merkmal in vier möglichen Ausprägungen.
Die größte absolute Häufigkeit in dieser Stichprobe ist 5 und wird zweimal angenommen. Die
beiden Modale sind “Marder” und “Wiesel”.
¤
Um die “Streuung” eines nominalen Merkmals zu beurteilen, kann man sich nur
fragen, ob eine der Ausprägungen fast alle Merkmalsträger auf sich konzentriert,
oder ob alle Ausprägungen ungefähr gleich häufig sind. Je gleichmäßiger sich die
Merkmalsträger auf je mehr Ausprägungen verteilen, desto größer ist die Diversität
des Merkmals.
Definition 1.2.5.3. Sei x ein nominales Merkmal mit den möglichen Ausprägungen x1 , · · · , xm , und ihren absoluten Häufigkeiten a1 , · · · , am und relativen
Häufigkeiten f1 , · · · , fm innerhalb einer Gesamtheit aus n Merkmalsträgern (kann
eine Stichprobe sein).
Der Diversitätsindex von x innerhalb dieser Gesamtheit ist
m
m
X
1X
H=−
fi ln(fi ) = ln(n) −
ai ln(ai ).
n i=1
i=1
Die Eveness nach Shannon–Wiener ist
H
E=
ln(m)
(Für die Eveness verwendet man auch die Schreibweise E = Hkorr : “korrigierter
Diversitätsindex”.)
Merksatz 1.2.5.4. Sei x ein nominales Merkmal mit m verschiedenen möglichen Ausprägungen. Der Diversitätsindex kann Werte zwischen 0 und ln(m) annehmen, dabei gilt:
H = ln(m) falls alle Ausprägungen gleich häufig, also mit relativer Häufigkeit 1/m vorkommen.
H = 0 falls eine Ausprägung allein vorkommt, das heißt, eine relative
Häufigkeit ist 1, dafür sind alle anderen relativen Häufigkeiten Null.
Die Eveness ist so umskaliert, dass sie Werte zwischen 0 und 1 annimmt.
Beispiel 1.2.5.5. In Hessen und Sachsen wurden Stichproben von Kleinräubern
erhoben. Die Ergebnisse finden sich in folgender Tabelle:
Art
Marder
Wiesel
Iltis
Mauswiesel
gesamt
Hessen Sachsen
5
34
5
2
5
2
5
2
20
40
In welchem Bundesstaat ist die Diversität der Kleinräuber größer?
1.2. KENNZAHLEN
35
Diskussion: Auf ersten Blick hat Sachsen (zumindest die dortige Stichprobe) die kleinere Diversität: Man kann etwas überspitzt sagen, die Kleinräuberpopulation setzt sich in erster Linie aus
Mardern zusammen, mit kleinen Einstreuungen anderer Arten. Dagegen verteilt sich in Hessen
die Population gleichmäßig auf vier Arten. Damit erwarten wir für Hessen eine Eveness von 1
(exakt), und für Sachsen eine Eveness deutlich kleiner als 1. Es folgt die genaue Rechnung:
Art
Marder
Iltis
Wiesel
Mauswiesel
Diversitätsindex
/ ln(4)
Eveness
fi
0.25
0.25
0.25
0.25
Hessen
− ln(fi ) −fi ln(fi )
1.3863
0.3466
1.3863
0.3466
1.3863
0.3466
1.3863
0.3466
1.3863
/1.3863
1.000
fi
0.85
0.05
0.05
0.05
Hessen
− ln(fi ) −fi ln(fi )
1.6252
0.1381
2.9957
0.1498
2.9957
0.1498
2.9957
0.1498
0.5875
/1.3863
0.4238
¤
1.2.5.2. Kreuztabellen.
Beispiel 1.2.5.6. Eine Kosmetikfirma überprüft die Akzeptanz ihrer Hautcremes. 40 ProbandInnen, je 20 von dunklem und hellem Hauttyp, hatten drei verschiedene Präparate A,B,C zu testen und sich letztlich für eines davon zu entscheiden.
Es ergab sich folgende Tabelle:
Bevorzugte Creme
A B
C
Hauttyp
hell
8 8
dunkel
12 8
gesamt
20 16
4
0
4
gesamt
20
20
40
Die obige Tabelle ist eine Kreuztabelle:
Definition 1.2.5.7. Betrachtet werden nominale Merkmale mit jeweils k beziehungsweise m möglichen Ausprägungen: x1 , · · · , xk bzw. y1 , · · · , ym . Die Häufigkeiten dieser Ausprägungen können in einer k × m-Kreuztabelle dargestellt werden:
Im Kern der Tabelle befinden sich k Zeilen und m Spalten, in diesen steht
die gemischte Häufigkeitsverteilung:
Jede Zeile entspricht einer Ausprägung xi .
Jede Spalte entspricht einer Ausprägung yj .
Am Schnittpunkt der Zeile i mit der Spalte j steht die Häufigkeit,
mit der das Paar von Ausprägungen (xi , yj ) angenommen wird.
Am rechten und unteren Rand der Tabellen stehen die Randverteilungen:
Am rechten Rand der Tabelle befinden sich die Zeilensummen: In der
i-ten Zeile am Rand steht die Häufigkeit, mit der die Ausprägung xi
angenommen wird.
Am unteren Rand der Tabelle befinden sich die Spaltensummen: In
der j-ten Spalte am Rand steht die Häufigkeit, mit der die Ausprägung yj angenommen wird.
In der rechten unteren Ecke steht der Umfang der Gesamtheit, die in der
Tabelle erfasst wurde.
Kreuztabellen können für absolute und relative Häufigkeiten angelegt werden.
36
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.5.8. Wie sieht die Kreuztabelle der relativen Häufigkeiten für
Beispiel 1.2.5.6 aus?
Diskussion: Alle Häufigkeiten sind durch den Stichprobenumfang n = 40 (dieser befindet sich im
rechten unteren Eck der Kreuztabelle der absoluten Häufigkeiten) dividiert:
Bevorzugte Creme
A
B
C
Hauttyp
hell
dunkel
gesamt
0.2
0.3
0.5
0.2
0.2
0.4
gesamt
0.1
0.0
0.1
0.5
0.5
1.0
¤
1.2.5.3. Unabhängigkeit von Merkmalen.
Besteht zwischen zwei nominalen Merkmalen X, Y ein statistischer Zusammenhang? Unabhängigkeit bedeutet, dass Kenntnis eines Merkmals keinerlei Information über das andere Merkmal beiträgt. Das heißt, dass die Wahrscheinlichkeitsverteilung der Ausprägungen xi von X nicht davon abhängt, welche Ausprägung
yj von Y ein Merkmalsträger hat. Sind x1 , · · · , xk die Ausprägungen von X mit
den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk die Ausprägungen von Y
mit den Wahrscheinlichkeiten q1 , · · · , qm , so sieht im Fall der Unabhängigkeit die
Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y
folgendermaßen aus:
x1
x2
..
.
y1
p 1 q1
p 2 q1
..
.
y2
p1 q2
p2 q2
..
.
···
···
···
ym
p1 qm
p2 qm
..
.
gesamt
p1
p2
..
.
xk
gesamt
pk q1
q1
pk q2
q2
···
···
pk qm
qm
pk
1
Beispiel 1.2.5.9. Wie sehen die gemischten absoluten Häufigkeiten der folgenden Kreuztabelle aus, wenn die beiden Merkmale unabhängig sind:
Bevorzugte Creme
A B
C
Hauttyp
hell
dunkel
gesamt
20 16
gesamt
4
20
20
40
Diskussion: Der Stichprobenumfang ist 40. Die relative Häufigkeit des hellen Hauttyps ist 20
= 0.5,
40
20
= 0.5. Damit wäre bei Unabhängigkeit die
die relative Häufigkeit der bevorzugten Creme A ist 40
relative Häufigkeit der Kombination “heller Hauttyp bevorzugt Creme A” 0.5×0.5 = 0.25. Die absolute Häufigkeit ergibt sich durch die Multiplikation mit dem Stichprobenumfang: 0.25 × 40 = 10.
Zusammenfassend wurde die folgende Rechnung durchgeführt, aus der sich der Stichprobenumfang
einmal kürzen lässt:
20
20 × 20
20
×
× 40 =
.
40
40
40
Wir erhalten also die Rechenregel
Zeilensumme × Spaltensumme
Stichprobenumfang
Die vollständig ergänzte Tabelle ist
1.2. KENNZAHLEN
37
Bevorzugte Creme
A
B
C
Hauttyp
hell
dunkel
gesamt
10
10
20
8
8
16
gesamt
2
2
4
20
20
40
¤
Natürlich werden die relativen Häufigkeiten einer Stichprobe, auch von unabhängigen Merkmalen, nicht exakt diese Multiplikationsregel erfüllen. Wir führen
Maßzahlen ein, welche ausdrückt, wie weit die Daten einer Kreuztabelle von Unabhängigkeit entfernt sind.
Definition 1.2.5.10. Gegeben sei eine m×n-Kreuztabelle mit absoluten Häufigkeiten bi,j für zwei nominale Merkmale mit den Ausprägungen x1 , · · · , xk und
y1 , · · · , ym . Jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj . Die Randhäufigkeiten seien zi (die Zeilensummen) und sj (die
Spaltensummen). Die Maßzahl χ2 zur Beurteilung der Unabhängigkeit wird folgendermaßen berechnet:
1) Die erwarteten Häufigkeiten sind
zi sj
eij =
.
n
2) Berechnung von χ2 :
χ2 =
k X
m
k X
m
X
X
b2ij
(bij − eij )2
=
− n.
eij
e
i=1 j=1
i=1 j=1 ij
3) Zum Zweck statistischer Tests: Die Anzahl der Freiheitsgrade von χ2 ist
ν = (k − 1)(m − 1).
Diskussion: Die erwarteten Häufigkeiten sind jene Häufigkeiten, welche sich aus den Randhäufigkeiten z1 , · · · , zk und s1 , · · · , sm ergeben, wenn die Merkmale tatsächlich unabhängig sind. In
diesem Fall wäre bij = eij , und damit wäre χ2 = 0. Klar, dass χ2 umso größer wird, je weiter die
beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij abweichen. Damit ist χ2 ein
Mass für die Abhängigkeit zwischen den beiden Merkmalen.
¤
Beispiel 1.2.5.11. Bestimmen Sie χ2 für die Kreuztabelle aus Beispiel 1.2.5.6.
Diskussion: Die beobachteten Häufigkeiten sind
bij
hell
dunkel
gesamt
A
8
12
20
B
8
8
16
C
4
0
4
gesamt
20
20
40
Die Tabelle der erwarteten Häufigkeiten wurde bereits in Beispiel 1.2.5.9 bestimmt:
ei
hell
dunkel
gesamt
A
10
10
20
B
8
8
16
C
2
2
4
gesamt
20
20
40
Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und summieren χ2 :
b2ij /eij
hell
dunkel
gesamt
−n
χ2
A
6.4
14.4
20.8
B
8.0
8.0
16.0
C
8.0
0
8.0
gesamt
22.4
22.4
44.8
-40.0
4.8
38
1. BESCHREIBENDE STATISTIK
Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade.
¤
Je größer χ2 , desto stärker entfernt sich die Tabelle von einer Tabelle statistisch
unabhängiger Daten. Aber wann ist χ2 groß? Wir werden später im Rahmen der
Testtheorie darauf zurückkommen. Für jetzt errechnen wir eine Maßzahl, welche
leichter zu interpretieren ist:
Definition 1.2.5.12. Gegeben sei eine Tabelle von absoluten Häufigkeiten bij
der Kombinationen von Ausprägungen x1 , · · · , xk und y1 , · · · , ym zweier nominaler
Merkmale X, Y aus einer Stichprobe des Umfanges n. Aus dieser Tabelle sei χ2 wie
in Definition 1.2.5.10 berechnet.
1) Der Kontingenzkoeffizient der Tabelle ist
s
χ2
C=
.
2
χ +n
2) Der korrigierte Kontingenzkoeffizient ist
r
u
Ckorr = C
,
u−1
wobei u der kleinere der beiden Werte k, m ist.
Merksatz 1.2.5.13. Der Kontingenzkoeffizient und der korrigierte Kontingenzkoeffizient sind Masszahlen für die Abhängigkeit zwischen X und Y . Kontingenzkoeffizient 0 bedeutet perfekte Unabhängigkeit der Daten aus den Stichproben. Der
korrigierte Kontingenzkoeffizient ist so skaliert, dass er als höchsten Wert exakt 1
annehmen kann.
Beispiel 1.2.5.14. Bestimmen Sie χ2 , den Kontingenzkoeffizienten und den
korrigierten Kontingenzkoeffizienten der folgenden Tabelle. Wie würden Sie die Unabhängigkeit der Merkmale einschätzen?
x1
x2
x3
gesamt
y1
0
0
4
4
y2
4
0
0
4
y3
0
0
0
0
y4
0
2
0
2
gesamt
4
2
4
10
Diskussion: Zunächst stellen wir fest, dass hier ein Extremfall der Abhängigkeit vorliegt: Wenn x
bekannt ist, liegt auch bereits y fest, und umgekehrt. Daher erwarten wir uns ein hohes χ2 und
einen korrigierten Kontingenzkoeffizienten von 1.
Wir führen nun die Rechnung durch:
bij
x1
x2
x3
sj
eij
x1
x2
x3
sj
y1
0
0
4
4
y2
4
0
0
4
y3
0
0
0
0
y4
0
2
0
2
y1
1.6
0.8
1.6
4
y2
1.6
0.8
1.6
4
y3
0
0
0
0
y4
0.8
0.4
0.8
2
zi
4
2
4
10
zi
4
2
4
10
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
b2ij /eij
x1
x2
x3
gesamt
−n
χ2
y1
0
0
10
4
y2
10
0
0
4
y3
0
0
0
0
y4
0
10
0
2
gesamt
10
10
10
30
-10
20
Es ist also
χ2 = 30 mit 6 Freiheitsgraden,
r
r
20
2
=
≈ 0.8165,
C=
20 + 10
3
u = Minimum von 3 und 4 = 3,
r
3
Ckorr = C
= 1.
2
¤
Was Sie jetzt können:
Begriffe und Wissen: Modal, Diversität, Eveness, Kreuztabelle,
Randverteilung, Unabhängigkeit, χ2 , Kontingenzkoeffizient.
Methoden: Bestimmen und Interpretation von Diversität und Eveness, Erstellen und Lesen von Kreuztabellen, Berechnen des χ2 zur Beurteilung der Unabhängigkeit von Daten in Kreuztabellen, Berechnen
des Kontingenzkoeffizienten und des korrigierten Kontingenzkoeffizienten.
1.3. Zusammenhang zwischen zwei Merkmalen
Übersicht:
1. Berechnung der Regressionsgeraden
2. Vorhersage durch die Regressionsgerade und Residuen
3. Korrelation
1.3.1. Berechnung der Regressionsgeraden.
Übersicht:
1. Regressionsgerade als Approximation nach kleinsten Quadraten
2. Berechnung der Regressionsgeraden
3. Interpretation der Geradenparameter
39
40
1. BESCHREIBENDE STATISTIK
1.3.1.1. Regressionsgerade als Approximation nach kleinsten Quadraten.
Beispiel 1.3.1.1. Gegeben sind die Ergebnisse von 5 Experimenten, in denen
jeweils gleichzeitig ein Wert x und ein Wert y bestimmt wurden. Stellen Sie eine
Geradengleichung
y = b0 + b1 x
auf, die möglichst gut zu diesen Daten passt. Erster Schritt: Wie beurteilt man, ob
eine Gerade gut zu den Daten passt?
x 0
y 0
1
1
2
0
3 4
3 3
Diskussion: Das folgende Bild zeigt die Datenpunkte als schwarze Kreise in der x, y-Ebene. Ein
solches Diagramm heißt Streudiagramm oder Punktwolke (engl. Scatterplot). Eingezeichnet sind
mehrere Geraden. Wir beurteilen die Güte der Geraden visuell:
Vergleich verschiedener Geraden zur Wiedergabe von Datenpunkten
a) Gerade (a) passt bestimmt nicht optimal zu den Daten. Würde man die ganze Gerade
parallel nach unten verschieben, würde der Datensatz viel besser wiedergegeben. Der
Parameter b0 ist bei dieser Gerade zu hoch.
b) Gerade (b) passt zwar nach der Lage besser, aber die Steigung (also der Parameter b1 )
ist zu gering. So kommt es, dass fast alle Daten für kleine x-Werte über der Geraden
liegen, und dafür die Daten bei großen x-Werten unter der Geraden liegen.
c) Gerade (c) passt ziemlich gut. Eine gut angepasste Gerade erkennt man daran, dass
die Datenpunkte wie zufällig gleichmäßig manchmal über und manchmal unter der
Geraden verstreut liegen.
Für den Computer ist dieser visuelle Vergleich natürlich nicht möglich, zumindest nicht einfach. Wir suchen also ein einfaches mathematisches Kriterium für die Güte einer Geraden: In der
folgenden Grafik sehen Sie wieder die Datenpunkte und eine Gerade. Wie zu erwarten, liegen die
Punkte nicht exakt auf einer Geraden. Zu jedem xi gehört daher einerseits der Wert yi aus dem
Datensatz, andererseits der Wert ŷi = b0 + b1 xi , der auf der Geraden über xi liegt. Die Differenz
ei = yi − ŷi gibt an, wie weit die Gerade den Datenpunkt xi , yi verfehlt. Der Wert ei heißt Approximationsfehler oder Residuum. Je kleiner die Beträge der Residuen insgesamt sind, desto näher
verläuft die Gerade an den Datenpunkten.
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
41
Approximationsfehler
Daher wird eine Gerade dann besonders gut passen, wenn die Quadratsumme der Residuen
möglichst klein ist. ¤
Methode 1.3.1.2 (Streudiagramm). Gegeben seien zwei metrische Merkmale und zu diesen die Ausprägungen von n Merkmalsträgern, also die Datenpaare
x1 , y1 , · · · , xn , yn . In einem Streudiagramm (Punktwolke) wird jedes Datenpaar als
Punkt dargestellt, mit der waagrechten Koordinate xi und der senkrechten Koordinate yi .
Definition 1.3.1.3. Gegeben seine Datenpaare x1 , y1 , · · · , xn , yn von Ausprägungen zweier metrischer Merkmale, beobachtet an n Merkmalsträgern. Die
Regressionsgerade durch diese Daten ist jene Gerade, deren Residuen den kleinsten
quadratischen Fehler ergeben:
n
X
(yi − ŷi )2 wird minimiert.
i=1
Man sagt auch, die Regressionsgerade ist jene Gerade, die an die Daten nach dem
Prinzip der kleinsten Quadrate angepasst ist.
Diskussion: Es gibt einige Gründe, gerade die Quadrate der Residuen als Maß für die Anpassungsgüte heranzuziehen. (Man könnte ja auch, z.B., den größte Absolutbetrag unter den Residuen, oder die Summe der vierten Potenzen verwenden). Zunächst führen die Quadrate auf besonders einfache Formeln, sodass man die Regressionsgerade auch mit Bleistift und Papier berechnen
kann, wenn es sein muss. Andererseits ist die Regressionsgerade unter bestimmten statistischen
Voraussetzungen die beste Schätzung, diese werden wir später unter dem Titel Lineare Regression
noch genauer diskutieren. Letztlich ist die Quadratsumme der Residuen ein Kompromiss, was die
Robustheit betrifft. Die Summe der Beträge der Residuen würde auf Ausreisser fast gar nicht
reagieren, während der größte Betrag der Residuen äußerst sensibel auf Ausreisser ist. ¤
Beispiel 1.3.1.4. Die folgende Grafik zeigt die Punktwolke eines mittelgroßen
Datensatzes. An 192 ProbandInnen wurden (unter anderem) Calcium- und Magnesiumspiegel im Blut gemessen. Anschließend erfolge leichte körperliche Belastung
42
1. BESCHREIBENDE STATISTIK
durch Fahrradergometrie, und dann wurden die Elektrolyte neuerlich bestimmt.
Die Grafik zeigt in x-Richtung den Ca-Spiegel vor dem Belastungsversuch, in yRichtung die Verschiebung des Mg-Spiegels durch den Versuch. (Daten von S. Porta.) Das Statistikprogramm hat die bestmögliche Gerade durch die Daten gelegt.
Die Datenpunkte wirken wie zufällig über und unter der Geraden verstreut. Die
Gerade zeigt einen leicht fallenden Trend. Je mehr Ca die ProbandInnen im Ruhezustand im Blut haben, desto eher tendieren sie zu einer Abwärtsverschiebung des
Mg während des Versuches.
(Es darf Sie nicht stören, dass die Magnesiumwerte waagrecht wie Ketten “aufgereiht” erscheinen,
dies liegt daran, dass die Messungen auf 0.01 mmol/L genau erfolgt sind, sodass die Datenpunkte
stets auf ganzzahligen Vielfachen von 0.01 liegen.)
0.1
0.15
0.08
0.1
0.05
0.06
0
0.04
−0.05
0.02
−0.1
0
−0.02
−0.04
−0.06
0.95
1
1.05
1.1
1.15
1.2
1.25
Regression vom Calciumspiegel auf die Verschiebung des Mg-Spiegels bei leichter Belastung
1.3.1.2. Berechnung der Regressionsgeraden.
Beispiel 1.3.1.5. Berechnen Sie die Regressionsgerade zu den Daten aus Beispiel 1.3.1.1:
x 0
y 0
1
1
2
0
3 4
3 3
Diskussion: Zur Berechnung der Regressionsgeraden erstellen wir eine Tabelle der n = 5 Daten
x1 , · · · , x5 und y1 , · · · , y5 . Wir bestimmen zunächst die Stichprobenmittelwerte x von x und y
von y, und bilden anschließend, wie zur Berechnung der Varianzen, die Summen
SSX =
n
X
(xi − x)2 ,
i=1
n
X
SSY =
(yi − y)2 ,
i=1
n
X
SXY =
(xi − x)(yi − y).
i=1
(SSX steht für “sum of squares: X”, Quadratsumme für X. SSY steht für “sum of squares Y”.
Dividiert man SSX und SSY durch n − 1 = 4, erhält man, wie wir bereits wissen, Schätzwerte für
die Varianz von x und von y. Dividiert man SXY durch n, erhält man die Kovarianz zwischen x
und y, über die wir im nächsten Abschnitt mehr erfahren werden.)
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
Summe
gemittelt
Daten
xi
yi
0
0
1
1
2
0
3
3
4
3
10
7
2
=x
xi − x
-2
-1
0
1
2
yi − y
-1.4
-0.4
-1.4
1.6
1.6
Statistik der Daten
(xi − x)2 (yi − y)2
4
1.96
1
0.16
0
1.96
1
2.56
4
2.56
10
9.20
= SSX
= SSY
43
(xi − x)(zi − y)
2.8
0.4
0
1.6
3.2
8.0
= SXY
1.4
=y
Wir bestimmen nun die Koeffizienten der Regressionsgeraden und den sogenannten Korrelationskoeffizienten mit folgenden Formeln:
SXY
8
=
= 0.8,
SSX
10
b0 = y − b1 x = 1.4 − 0.8 · 2 = −0.2,
b1 =
SXY
8.0
r= √
= √
= 0.834.
10.0 · 9.2
SSX · SSY
Damit erhalten wir als Regressionsgerade die Gerade
y = 0.8x − 0.2.
Auf die Bedeutung des Korrelationskoeffizienten kommen wir noch zu sprechen.
Die folgende Grafik zeigt die Daten mit der Regressionsgeraden (rot) und den Residuen, also
den Abweichungen der Datenpunkte von der Gerade (blau).
4
3.5
3
2.5
2
1.5
¤
1
0.5
0
−0.5
−1
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Daten und Regressionsgerade von Beispiel 1.3.1.1
Methode 1.3.1.6 (Regressionsgerade). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn .
Gesucht ist die Regressionsgerade y = b0 + b1 x, sowie der Korrelationskoeffizient r.
44
1. BESCHREIBENDE STATISTIK
Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt:
n
x=
1X
xi ,
n i=1
y=
1X
yi ,
n i=1
n
SSX =
SSY =
n
X
(xi − x)2 (=
i=1
i=1
n
X
n
X
(yi − y)2 (=
i=1
SXY =
n
X
n
X
x2i − n(x)2 ),
yi2 − n(y)2 ),
i=1
(xi − x)(yi − y)(=
i=1
n
X
xi yi − nx̄ȳ),
i=1
SXY
,
SSX
b0 = y − b1 x,
SXY
r= √
.
SSX · SSY
b1 =
Die folgende Variante liefert dasselbe Ergebnis:
Methode 1.3.1.7 (Alternative zur Berechnung der Regressionsgeraden). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn . Gesucht ist die Regressionsgerade
y = b0 + b1 x, sowie der Korrelationskoeffizient r. Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt:
n
x=
1X
xi ,
n i=1
y=
1X
yi ,
n i=1
n
n
σx2 =
1X 2
1
x − x2 (= SSX, Varianz von x),
n i=1 i
n
σy2 =
1
1X
(yi − y)2 (= SSY, Varianz von y),
n i=1
n
n
n
Cov(x, y) =
1X
1
xi yi − xy(= SXY, Kovarianz von x und y),
n i=1
n
Cov(x, y)
,
σx2
b0 = y − b1 x,
b1 =
Cov(x, y)
.
r= q
σx2 σy2
Diskussion: Mit dieser Variante sieht die Berechnung der Regressionsgeraden für Beispiel 1.3.1.1
folgendermaßen aus:
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
xi
0
1
2
3
4
10
2
=x
Summe:
dividiert durch n = 5
Abzüge:
x2i
0
1
4
9
16
30
6
yi2
0
1
0
9
9
19
3.8
xi yi
0
1
0
9
12
22
4.4
-4
2
= σx2
-1.96
1.84
= σy2
-2.8
1.6
= Cov(x, y)
yi
0
1
0
3
3
7
1.4
=y
45
Und nun werden die Parameter fertig berechnet:
b1
=
b0
=
r
=
1.6
= 0.8,
2
1.4 − 0.8 × 2 = −0.2,
1.6
√
= 0.834.
2 × 1.84
¤
1.3.1.3. Interpretation der Geradenparameter.
Merksatz 1.3.1.8. Die Parameter b0 , b1 einer Geraden y = b0 + b1 x haben
folgende Bedeutung:
b0 : gibt den Schnittpunkt der Geraden auf der y-Achse an. Vergrösserung von
b0 bewirkt, dass die Gerade in y-Richtung parallelverschobe wird.
b1 : gibt die Steigung der Geraden an. Je größer b1 , desto steiler die Gerade.
Schreitet man in x-Richtung um h Einheiten fort, steigt die Gerade um
b1 h Einheiten an. Negative b1 bedeutet, dass die Gerade fällt.
Interpretation der Parameter einer Geraden
Beispiel 1.3.1.9. Für Beispiel 1.3.1.1 wurde die Regressionsgerade y = −0.2 +
0.8x errechnet. Was kann aus diesen Daten abgelesen werden?
46
1. BESCHREIBENDE STATISTIK
Diskussion: Der Parameter b0 = −0.2 sagt, dass die Regressionsgerade durch den Punkt x = 0,
y = −0.2 läuft. Das ist letztlich eine Angabe, wie hoch ungefähr die y-Werte liegen, und weniger
informativ als der Mittelwert y = 1.4. In der linearen Regression spielt b0 meist nur die Rolle eines
Zwischenergebnisses.
Wichtiger ist aber die Interpretation von b1 = 0.8, denn dieser Parameter gibt einen Zusammenhang zwischen x und y an. Da b1 positiv ist, schließen wir, dass im Allgemeinen mit
steigendem x auch der Wert von y ansteigt. Steigt x um eine Einheit an, so vergrößert sich im
Durchschnitt y um 0.8 Einheiten. Natürlich ist das nur ein allgemeiner Trend, denn tatsächlich
liegen die Daten ja nicht exakt auf der Geraden. ¤
Merksatz 1.3.1.10. Wird der Zusammenhang zweier metrischer Merkmale
durch eine Regressionsgerade y = b0 + b1 x wiedergegeben, so drückt der Parameter
b1 einen Trend aus: Steigt x um eine Einheit, so steigt im Durchschnitt y um b1
Einheiten. Insbesondere bedeutet:
b1 > 0 Zu größeren x gehören im Allgemeinen auch größere y.
b1 < 0 Zu größeren x gehören im Allgemeinen kleinere y.
Bei der Interpretation ist aber zu bedenken, dass die Daten möglicherweise durch
eine Gerade gar nicht gut wiedergegeben werden können.
Was Sie jetzt können:
Begriffe und Wissen: Regressionsgerade, Streudiagramm, Methode
der kleinsten Quadrate.
Methoden: Berechnung der Regressionsgeraden, Interpretation der
Geradenparameter.
1.3.2. Vorhersage durch die Regressionsgerade und Residuen.
Übersicht:
1.
2.
3.
4.
Vorhersagen mit der Regressionsgeraden
Residuen und Schwankungen
Warum spricht man von “erklärter Schwankung”?
Die Wichtigkeit der grafischen Darstellung
1.3.2.1. Vorhersagen mit der Regressionsgeraden.
Die Regressionsgerade ist ein mathematisches Modell, eine Formel, mit der
man versucht, die Daten in vereinfachter Weise darzustellen. Wenn nun ein neuer
Datenwert x betrachtet wird, liefert die Formel einen Wert für y: Wir können das
mathematische Modell dazu verwenden, Vorhersagen zu treffen.
Beispiel 1.3.2.1. Gegeben seien die Daten für x und y aus Beispiel 1.3.1.1.
Welchen Wert würden Sie für y vorhersagen, wenn x = 2.5? Welches y erwarten Sie
bei x = 50?
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
47
Diskussion: Mit Hilfe der Regressionsgeraden haben wir eine Näherungsformel für den Zusammenhang zwischen x und y gefunden. Zum Beispiel kennen wir für x = 2.5 keinen Wert von y. Die
Geradengleichung würde aber als “vorausgesagten Wert” den Wert ŷ = 0.8·2.5−0.2 = 1.8 ergeben.
Für x = 50 erhalten wir ŷ = 0.8 · 50 − 0.2 = 39.8. Unsere Vorhersagen sind aber mit Vorsicht zu
verwenden. Zunächst wissen wir, dass ja auch die gegebenen Daten nicht exakt auf einer Geraden
liegen. Wir müssen damit rechnen, dass auch das Ergebnis eines Versuches mit x = 2.5 nicht exakt
den y-Wert ergeben wird, den die Gerade vorhersagt. Der Wert ŷ = 1.8 ist nur die bestmögliche
Vorhersage, die wir aus der bisher vorliegenden Information treffen können. Noch problematischer
ist die Vorhersage bei x = 50. Der Satz der bekannten Daten liegt zwischen x = 0 und x = 4. Es
ist sehr fraglich, ob der Trend, der sich in diesem Bereich näherungsweise abzeichnet, noch bis zu
x = 50 anhält. Auch würde eine ganz kleine Änderung des Wertes von b1 bereits den vorhergesagten Wert ŷ stark beeinflussen, wodurch diese Vorhersage selbst dann ziemlich unsicher ist, wenn
tatsächlich bis zu x = 50 annähernd eine Gerade angenommen wird. Die folgende Grafik zeigt die
Regressionsgerade und den vorhergesagten Wert für x = 50 mit den Daten aus Beispiel 1.3.1.1
(blau, Kreise), sowie den gleichen Daten, wobei nur der letzte y-Wert der Daten von 3 auf 3.5
abgeändert wurde (rot, Sterne). Der Punkt x = 50 wirkt an der Regressionsgerade wie das Ende
eines langen Hebels, er hat einen hohen “Hebelwert” (“Leverage”).
50
40
30
20
¤
10
0
−10
−10
0
10
20
30
40
50
60
Auswirkung kleiner Änderungen der Daten im Bereich x = 0 · · · 5, auf eine Vorhersage für
x = 50
Methode 1.3.2.2 (Voraussage mittels der Regressionsgeraden). Aus einem bestehenden Satz von Datenpaaren x1 , y1 , · · · , xn , yn soll ein Wert für y vorhergesagt
werden, für den Fall dass x = x0 . Wir treffen die Voraussage
ŷ = b0 + b1 x0 .
Dabei sind b0 und b1 die Koeffizienten der Regressionsgeraden, die aus den Daten
x1 , y1 , · · · , xn , yn berechnet wird.
Diese Methode ist nur brauchbar, wenn die Datenpunkte xi , yi annähernd auf
einer Geraden liegen, und der Wert x0 nicht zu weit vom Intervall entfernt liegt,
welches durch x1 , · · · , xn abgedeckt wird.
Merksatz 1.3.2.3. Für den Mittelwert x̄ sagt die Regressionsgerade genau den
Mittelwert ȳ voraus.
1.3.2.2. Residuen und Schwankungen.
Beispiel 1.3.2.4. Wir vergleichen jetzt die Werte yi des Datensatzes aus Beispiel 1.3.1.1 mit den Werten, welche die Regressionsgerade für die entsprechenden
xi vorhersagen würde: ŷi = b0 + b1 xi .
48
1. BESCHREIBENDE STATISTIK
Diskussion: In der Abbildung zu Beispiel 1.3.1.1 sind die Datenpaare xi , ŷi als rote Kreise auf
der Regressionsgerade eingezeichnet. Die folgende Tabelle zeigt noch einmal die Werte der Datenpunkte, sowie die vorausgesagten Werte ŷi . Wir sehen, dass die Mittelwerte von y und ŷ gleich
sind. Besonders interessant sind die Abweichungen der Vorhersage von den gegebenen Daten, die
sogenannten Residuen ei = yi − ŷi . Diese Abstände sind in der Illustration zu Beispiel 1.3.1.1
blau eingezeichnet. Je geringer die Residuen sind, desto besser passt die Gerade zu den Daten.
Der Mittelwert der Residuen ist immer Null.
Daten
vorhergesagte Werte
Residuen
xi
yi
ŷi
ŷi − y (ŷi − y)2 ei = yi − ŷi
e2i
0
0
-0.2
-1.6
2.56
0.2
0.04
1
1
0.6
-0.8
0.64
0.4
0.16
2
0
1.4
0.0
0.00
-1.4
1.96
3
3
2.2
0.8
0.64
0.8
0.64
4
3
3.0
1.6
2.56
0.0
0.00
Summe
10
7
7
6.40
0
2.80
= SSR
= SSE
gemittelt
2
1.4
1.4
0
= x = y = ŷ
=e
Wir bilden nun zwei Quadratsummen:
SSR =
n
X
(ŷ − ȳ)2 ,
i=1
n
n
X
X
SSE =
(y − ŷ)2 =
e2i .
i=1
i=1
Die Summe SSR ist ein Maß für die Schwankung der y-Werte, welche durch die Gerade vorhergesagt werden (im Vergleich zu SSY, welches die Schankung der y-Werte der gegebenen Daten
misst). Eine einfache Rechnung ergibt
SSR =
n
n
n
X
X
X
(b1 xi + b0 − ȳ)2 =
(b1 xi + b0 − b1 x̄ − b0 )2 = b21
(xi − x̄)2 = b21 SSX .
i=1
i=1
i=1
Tatsächlich zeigt unsere Tabelle SSR = 6.40 = 0.82 · 10 = b21 SSX. Diese Gleichung läßt sich
umgangssprachlich folgendermassen interpretieren: Die Werte von ŷ hängen durch eine Geradengleichung von den Werten von x ab. Sie schwanken umso mehr, je mehr die x-Werte schwanken,
und je steiler die Gerade ist, durch die sie bestimmt werden.
Die Summe SSE ist ein Maß für die Abweichung der y-Daten von der Regressionsgeraden.
Je kleiner SSE, desto besser passt die Gerade zu den Daten. SSE = 0 würde bedeuten, dass alle
Datenpunkte exakt auf der Geraden liegen. Vergleicht man die Summen SSE, SSR und SSY, so
sieht man aus der Tabelle:
6.40 + 2.80 = 9.20,
SSR + SSE = SSY .
Diese Gleichung gilt immer, wenn die Quadratsummen wie oben aus der Regressionsgeraden ermittelt wurden. Die Schwankung der y-Werte setzt sich additiv zusammen aus der Schwankung
der Werte ŷ, welche ihrerseits direkt von der Schwankung der x-Werte abhängt, und der Quadratsumme der Residuen. Geht man davon aus, dass zwischen x und y zumindest statistisch ein
Zusammenhang besteht, so versteht sich, dass verschiedene Werte von x auch verschiedene Werte
von y liefern. SSR ist jener Anteil der Schwankung von y, der sich auf die Verschiedenheit der
zugehörigen x-Werte zurückführen lässt, während SSE jene Schwankung ist, die unabhänig von x
noch dazukommt.
SSR 6.40 69.6% Schwankung, welche durch die Schwankung der x-Werte erklärt wird,
SSE 2.80 30.4% Schwankung der Residuen, nicht erklärter Teil der Schwankung von y,
SSY 9.20 100% Gesamte Schwankung von y.
Das Bestimmtheitsmaß
SSR
= 0.696 = 69.6%
SSY
sagt aus, welcher Anteil der Gesamtschwankung von y auf die Schwankung von x zurückgeführt
werden kann. Je näher B an 1 liegt, desto besser passt die Gerade zu den Daten. ¤
B=
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
49
Definition 1.3.2.5. Zu einem Satz von Datenpaaren x1 , y1 , · · · , xn , yn mit
Mittelwerten x̄, ȳ betrachten wir die Regressionsgerade y = b0 + b1 x. Dann sind:
ŷi = b0 + b1 xi
die vorhergesagten Werte von y,
ei = y i −
ŷ
die Residuen,
i
Pn
SSR = P i=1 (ŷi − ȳ)2 die durch die Regression erklärte Schwankung von y,
n
die durch die Regression nicht erklärte Schwankung von y,
SSE = i=1 e2i
SSR
B = SSY
das Bestimmtheitsmass der Regression.
Merksatz 1.3.2.6. Es gelten folgende Eigenschaften:
ŷi Die vorhergesagten Werte sind jene Werte, die y annehmen würde, wenn
die Geradengleichung für alle Daten exakt gelten würde. Ihr Mittelwert
ist ȳ. Ihre Schwankung SSR ist der Anteil der Schwankung von y, der sich
auf einen linearen Zusammenhang zwischen x und y zurückführen lässt.
Es gilt die Formel
SSR = b21 SSX .
ei Die Residuen sind die Abweichungen der y-Werte von den Werten, welche
die Regressionsgerade vorhersagt. Ihr Mittelwert ist 0. Die Schwankung
SSE ist der Anteil der Schwankung von y, der sich nicht auf einen linearen
Zusammenhang zwischen y und x erklären lässt. Es gilt die Formel
SSE + SSR = SSY .
Außerdem ist SSE ein Maß für die Güte der Anpassung der Daten durch
eine Gerade. Die Regressionsgerade ist genau so bestimmt, dass die Quadratsumme SSE der Residuen möglichst klein wird. Man sagt auch: Die
Regressionsgerade ist an die Daten nach dem Prinzip der kleinsten Quadrate (“least squares”) angepasst.
B Das Bestimmtheitsmaß drückt aus, wie groß der Anteil der durch die Regression erklärten Schwankung von y an der Gesamtschwankung von y
ist. Es liegt immer zwischen 0 und 1. Im Fall B = 0 gibt es überhaupt
keinen linearen Zusammenhang zwischen x und y, im Fall B = 1 liegen
alle Datenpunkte exakt auf einer Geraden.
Bemerkung 1.3.2.7.
Wir sprechen hier etwas verschwommen von “Schwankungen”. Würden
wir SSX, SSY usw. durch den Stichprobenumfang n dividieren, würden
wir Varianzen erhalten.
Zur Nomenklatur:
SSR . . . Schwankung der Regressionsgeraden,
SSE . . . Schwankung der Errors, also der Residuen.
1.3.2.3. Warum spricht man von “erklärter Schwankung?”
Beispiel 1.3.2.8. Im Diagramm links unten wurden jeweils nebeneinander für
20 Merkmalsträger die Ausprägungen von zwei metrischen Merkmalen X1 blau und
Y1 rot eingetragen. Zur besseren Sichtbarkeit wurden die Datenpunkte durch Linien verbunden. Über dem Diagramm wir das Bestimmtheitsmaß bei einer linearen
Regression von X1 auf Y1 angegeben. Das Diagramm rechts unten wurde ebenso
für zwei andere Merkmale X2 , Y2 angefertigt. Vergleichen Sie die Schwankungen
von X und Y für jedes der beiden Diagramme.
50
1. BESCHREIBENDE STATISTIK
B = 0.88
B = 0.01
1.5
2
1
1.5
0.5
X (blau), Y (rot)
X (blau), Y (rot)
1
0
−0.5
−1
−1.5
0.5
0
−0.5
−2
−1
−2.5
−3
0
5
10
15
20
−1.5
0
5
Nummer der Realisierung
10
15
20
Nummer der Realisierung
Diskussion: Wir betrachten zunächst das linke Diagramm. Zwar ist Y1 meist kleiner als X1 , aber
das Auf und Ab der Schwankungen von X1 wird von Y1 einigermaßen genau, wenn auch in verkleinertem Maßstab wiedergegeben. Wenn man annimmt, dass Y1 bis auf eine kleine Zufallsstörung
durch eine Regression Y1 = b1 X1 + b0 festgelegt ist, so folgt auch, dass bis auf den Beitrag der
Störung die Variable Y1 die Schwankungen von X1 nachvollzieht. Auf diese Weise kann das Regressionsmodell die Schwankungen von Y1 mit Hilfe der Schwankungen von X1 erklären. Es bleibt
ein kleiner Rest, der von X1 unabhängig ist, denn Y1 vollzieht nicht ganz exakt maßstabgetreu
die Schwankungen von X1 nach. Dieser Rest bleibt auch im Regressionsmodell unerklärt. Das
Bestimmtheitsmaß von 0.88 sagt, dass 88% der Varianz von Y1 auf Schwankungen von X1 zurückzuführen sind. Die restlichen 12% sind Schwankungen infolge der zufälligen Abweichung von Y1
von der Regressionsgeraden.
Im rechten Diagramm sieht man keinen Zusammenhang zwischen den Schwankungen von
X2 und Y2 . Das Bestimmtheitsmaß von 0.01 zeigt, dass nur 1% der Schwankungen von Y2 durch
lineare Regression auf X2 zurückgeführt werden können. Ein t-Test auf den Regressionsparameter b2 würde zeigen, dass keine Abhängigkeit zwischen X2 und Y2 mit vernünftiger statistischer
Signifikanz nachweisbar ist.
In diesem Beispiel haben wir mit dem Auge einen Zusammenhang zwischen X1 und Y1
festgestellt, weil eine deutliche Ähnlichkeit der Schwankungen zu beobachten war. Hinter den
Formeln der linearen Regression versteckt sich im Prinzip eine Auswertung der Ähnlichkeit und
Verschiedenheit der Schwankungen der Variablen. ¤
Merksatz 1.3.2.9. Hinter den Formeln der linearen Regression versteckt sich
im Prinzip eine Auswertung der Ähnlichkeit und Verschiedenheit der Schwankungen
der Merkmale.
1.3.2.4. Die Wichtigkeit der grafischen Darstellung.
Beispiel 1.3.2.10. Die folgenden vier Punktwolken zeigen Datensätze, diein
der Literatur als Quartett von Anscombe bekannt sind. Obwohl sie so unterschiedlich aussehen, besitzen sie fast genau dieselben Mittelwerte, Quadratsummen und
Regressionsgeraden. Erklären Sie anhand der unten abgebildeten Punktwolken, inwieweit die Daten von Geraden abweichen.
x̄
ȳ
9.0 7.5
SSX SSY
110.0 41.2
SSE b0
68.8 3.0
b1
0.5
B
0.67
r
0.82
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
10
10
y2
15
y1
15
51
5
5
0
0
10
x1
0
0
20
10
10
20
10
x4
20
y4
15
y3
15
10
x2
5
5
0
0
10
x3
20
0
0
Punktwolken von Anscombe’s Quartett
Diskussion: Datensatz 1 wird durch eine Gerade leidlich gut wiedergegeben. Die Abweichungen
von der Geraden sind zwar der Größe nach beträchtlich, jedoch wirken sie zufällig.
Datensatz 2 zeigt eine ganz deutliche nichtlineare Abhängigkeit zwischen x und y. Tatschlich
werden die Daten durch die Parabel
y = −0.13x2 + 2.78x − 5.99
fast perfekt wiedergegeben. Weil diese Abhängigkeit aber einer Parabel und keiner Geraden entspricht, bleibt das Bestimmtheitsmaß nur bei 0.67, und die Gerade passt nicht besonders gut.
Datensatz 3 zeigt fast eine perfekte Gerade, aber einer der Datenpunkte ist ein Ausreisser.
Ohne diesen Ausreisser würde sich ein viel höheres Bestimmtheitsmaß und eine flachere Regressionsgerade ergeben.
Datensatz 4 hat für fast alle Punkte denselben x-Wert, bis auf einen Ausreisser. Ohne diesen
Ausreisser ließe sich gar keine Regressionsgerade berechnen (es wäre SSX = 0 und damit würde
eine Division durch Null folgen).
¤
Tipp 1.3.2.11. Führen Sie keine lineare Regression durch, ohne vorher die Daten möglichst gründlich grafisch dargestellt und überprüft zu haben. Beachten Sie
insbesondere:
• Zwischen Daten mit einem geringen Bestimmtheitsmaß kann immer noch
ein sehr deutlicher, aber nichtlinearer Zusammenhang bestehen. Korrelationskoeffizient und Bestimmtheitsmaß messen nur lineare Zusammenhänge.
• Die Regressionsgerade ist empfindlich auf Ausreisser. Einzelne, fernab vom
Großteil der Daten liegende Werte von x und y können die Regressionsgerade drastisch verändern.
• Auch für Daten, welche schlecht zu einer Geraden passen, ergibt die Formel eine Regressionsgerade. Typischerweise ist die Regressionsgerade für
Daten mit kleinem Korrelationskoeffizienten flach.
52
1. BESCHREIBENDE STATISTIK
Was Sie jetzt können:
Begriffe und Wissen: Voraussage durch ein mathematisches Modell, Residuen, erklärte und unerklärte Schwankung, Bestimmtheitsmaß, SSR + SSE = SSY, Kennzahlen ohne Grafik sind manchmal
irreführend.
Methoden: Voraussage durch die Regressionsgerade, Berechnung der
Residuen und Schwankungen, Interpretation des Bestimmtheitsmaßes, Beurteilung von linearen Regressionen an Hand von Grafiken.
Bemerkung: Obwohl Sie in diesem Kapitel die notwendigen Formeln zur Berechnung der
Schwankungen finden, wird von Ihnen nicht erwartet, dass Sie die Rechnungen mit Bleistift
und Papier durchführen können, dazu hat man Computerprogramme. Daher wurde auch oben
nicht auf die verschiedenen Abkürzungen und Rechenvorteile eingegangen, die sich anbieten
würden.
1.3.3. Korrelation.
Übersicht:
1. Kovarianz
2. Pearsonscher Korrelationskoeffizient
3. Spearmanscher Rangkorrelationskoeffizient
1.3.3.1. Kovarianz.
Definition 1.3.3.1. Seien x1 , · · · , xn und y1 , · · · , yn die Ausprägungen zweier
metrischer Merkmale in einer Gesamtheit des Umfanges n. Die Mittelwerte seien x
und y.
Die Kovarianz der beiden Merkmale ist
n
1X
Cov(x, y) =
(xi − x)(yi − y)
n i=1
(In der Notation der Quadratsummen in der linearen Regression ist das
1
n
SXY.)
Merksatz 1.3.3.2. Die Kovarianz eines Merkmals mit sich selbst ist die Varianz:
Cov(x, x) = σx2 .
Merksatz 1.3.3.3.
Die Kovarianz zwischen x und y ist dann positiv, wenn zwischen x und y
ein positiver Trend besteht: Je größer x, desto größer (zumindest meistens)
auch y.
Die Kovarianz zwischen x und y ist dann negativ, wenn zwischen x und y
ein gegenläufiger Trend besteht: Grösseren x entsprechen zumeist kleinere
y.
Der Betrag der Kovarianz wird typischerweise groß, wenn x und y große
Varianzen haben.
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
53
Diskussion:
Die folgende Abbildung zeigt je 40 Realisierungen von 3 Paaren von Merkmalen, die allesamt
als Mittelwerte 0 besitzen:
0
0
Zur Erklärung der Kovarianz
Markierung
Zufallsvariablen Varianzen
Kovarianz
rote Kreise
x1 , y1
σx1 = σy1 = 1
Cov(x1 , y1 ) = 0.7
blaue Quadrate x2 , y2
σx2 = σy2 = 1
Cov(x2 , y2 ) = −0.7
grüne Sterne
x3 , y3
σx3 = σy3 = 0.3 Cov(x3 , y3 ) = 0.063
Die x, y-Ebene ist in vier Quadranten geteilt, am Schnittpunkt der Quadranten liegen die
Mittelwerte (in diesem Fall der Nullpunkt). Der Quadrant rechts oben und der Quadrant links
unten wird bevorzugt von Merkmalen erreicht, zwischen denen ein positiver Trend besteht: Positives x − x̄ entspricht zumeist einem positiven y − ȳ. Dies gilt für die Paare x1 , y1 und x3 , y3 . In
diesen Quadranten ist (x − x̄)(y − ȳ) positiv, daher haben solche Merkmale eine positive Kovarianz. Merkmale mit einem gegenläufigen Trend treffen bevorzugt in die Quadranten links oben und
rechts unten, dort ist (x − x̄)(y − ȳ) negativ, und daher ist auch die Kovarianz solcher Merkmale
negativ. In unserem Beispiel trifft das für das Paar x2 , y2 zu. Merkmale mit hohen Varianzen
liegen häufig weitab von den Mittelwerten. Zum Beispiel trifft das Paar x1 , y1 zumeist weiter weg
vom Schnittpunkt der Quadranten als das Paar x3 , y3 . Beide Paare zeigen den gleichen positiven
Trend, jedoch summieren sich größere Zahlenwerte zur Kovarianz des ersten Paares: Je größer die
Varianz der einzelnen Merkmale, desto größer im Allgemeinen auch der Betrag der Kovarianz.
¤
1.3.3.2. Pearsonscher Korrelationskoeffizient.
Da die Kovarianz sowohl von der Varianz der einzelnen Merkmale als auch von der Wechselwirkung zwischen beiden beeinflusst wird, destillieren wir aus ihr eine Kenngröße, die ausschließlich
die Wechselwirkung beschreibt. Diese erhalten wir, indem wir x und y standardisieren:
x − x̄
y − ȳ
x1 =
, y1 =
.
σx
σy
Da diese beiden neuen Merkmale auf Varianz 1 standardisiert sind, enthält die Kovarianz von x1
und y1 keine Information über die Varianzen mehr, sondern nur mehr über den Zusammenhang
zwischen den beiden Merkmale. Die Kovarianz zwischen x1 und y1 ist die Korrelation, die wir nun
definieren:
Definition 1.3.3.4. Seien x und y zwei metrische Merkmale mit Standardabweichungen σx , σy .
Die Korrelation (der Spearmansche Korrelationskoeffizient) von x und y ist
Cor(x, y) =
Cov(x, y)
.
σx σy
54
1. BESCHREIBENDE STATISTIK
Ist die Korrelation (und damit automatisch auch die Kovarianz) von x und y gleich
Null, so heißen x und y unkorrelierte Merkmale.
Bemerkung 1.3.3.5. Cor(x, y) ist genau der in der linearen Regression berechnete Korrelationskoeffizient
SXY
r= √
.
SSX · SSY
Merksatz 1.3.3.6. Die Korrelation eines Merkmales mit sich selbst ist immer
1.
Merksatz 1.3.3.7. Die Korrelation drückt aus, ob zwischen zwei Zufallsvariablen ein linearer Zusammenhang besteht:
1) Die Korrelation liegt immer zwischen -1 und 1.
2) Eine Korrelation von +1 bedeutet, dass ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 > 0 gilt. Eine Korrelation von -1 bedeutet, dass
ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 < 0 besteht.
3) Eine Korrelation von 0 bedeutet, dass zwischen y und x kein linearer
Zusammenhang besteht.
4) Bei einer Korrelation zwischen 0 und 1 (bzw. zwischen -1 und 0) lässt
sich y zerlegen: Y = b0 + b1 x + z, dabei ist b1 > 0 (bzw. b1 < 0), und z
hat Mittelwert 0 und eine geringere Varianz als y. Das heißt, ein Teil von
y lässt sich durch einen linearen Zusammenhang auf x zurückführen. Je
größer der Betrag der Korrelation, desto größer der Anteil von y, der auf
x zurückgeführt werden kann.
Beispiel 1.3.3.8. Die folgende Abbildung zeigt vier Datensätze und ihre Korrelationskoeffizienten r. Beachten Sie die Zusammenhänge
• zwischen den Absolutbeträgen von r und der Güte der Anpassung durch
eine Geraden,
• zwischen dem Vorzeichen von r und dem positiven oder negativen Trend.
r=0.99
r=0.42
20
0
y
50
y
30
10
0
0
−50
10
20
x
r=−0.63
30
−100
0
20
20
x
r=−0.86
30
10
0
y
y
0
−20
−40
0
10
−10
−20
10
20
x
30
−30
0
10
20
30
x
Vergleich von Datensätzen mit verschiedenen Korrelationskoeffizienten
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
55
Merksatz 1.3.3.9. Sind zwei Merkmale unabhängig, so ist ihre Kovarianz und
ihre Korrelation null. Es gibt aber auch abhängige Merkmale, die unkorreliert sind.
Kovarianz und Korrelation messen nur lineare Zusammenhänge.
Diskussion: In der folgenden Grafik besteht zwischen x und y der exakte Zusammenhang y =
x2 + 1. Trotzdem sind die Merkmale unkorreliert, die Regressionsgerade (rot eingezeichnet) liegt
völlig waagrecht.
¤
Zwei abhängige Merkmale, die trotzdem unkorreliert sind
1.3.3.3. Spearmanscher Rangkorrelationskoeffizient.
Der Korrelationskoeffizient beschreibt Zusammenhänge zwischen metrischen Merkmalen. Statistische Methoden zur Behandlung ordinaler Daten beruhen auf der Zuweisung von Rangzahlen:
Methode 1.3.3.10 (Rangzuweisung für ordinale Daten). Seien x1 , x2 , · · · , xn
Ausprägungen eines ordinalen Merkmals für n Merkmalsträger. Zur Verwendung
mit verschiedenen statistischen Methoden werden den Merkmalsträgern folgendermaßen Ränge zugeordnet:
1) Der Merkmalsträger mit der kleinsten Ausprägung erhält Rang 1, die
nächsthöhere Rang 2, usw., die höchste Rang n.
2) Eine Bindung (tie) ist die Situation, wenn im Verlauf dieses Verfahrens an
k > 1 Merkmalsträger mit gleich hohen Ausprägungen Ränge zu vergeben
sind. Der nächste zu vergebende Rang sei m. Dann wird das arithmetische
Mittel der für diese k Merkmalsträger bereitstehenden Ränge
m + (m + 1) + · · · + (m + k − 1)
k
an alle k Merkmalsträger als Rang vergeben. Die Plätze m · · · (m + k − 1)
sind nun vergeben, und der nächste Merkmalsträger erhält Rang m + k.
Methode 1.3.3.11 (Spearmanscher Rangkorrelationskoeffizient). Der Spearmansche Rangkorrelationskoeffizient ρ dient zur Beurteilung, ob zwischen zwei ordinalen Merkmalen x und y ein positiver oder gegenläufiger Trend besteht:
1) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu höheren
Ausprägungen von y.
2) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu niedrigeren
Ausprägungen von y.
56
1. BESCHREIBENDE STATISTIK
3) Der größtmögliche Betrag von ρ ist 1. Ist ρ = 1, so sind die Ränge der
Merkmalsträger durch x genauso geordnet wie durch y. Ist ρ = −1, so
ist die Anordnung der Merkmalsträger durch x genau gegenläufig wie die
Anordnung durch y.
Zur Berechnung von ρ seien n Merkmalsträger mit den Ausprägungen x1 , · · · , xn
und y1 , · · · , yn gegeben. Den Merkmalsträgern wird sowohl durch xi als auch durch
yi jeweils ein Rang zugewiesen (Methode 1.3.3.10): Rx,i , Ry,i . Zwischen den Rängen
Rx,i und Ry,i wird dann der Pearsonsche Korrelationskoeffizient berechnet.
Bei keinen Bindungen liefert auch die folgende Formel den Rangkorrelationskoeffizienten. (Gibt es nur wenige Bindungen, kann die Formel als Näherungsformel
verwendet werden.):
Es werden die Differenzen di = Rx,i − Ry,i berechnet, und es ist
Pn
6 i=1 d2i
ρ=1−
.
n(n2 − 1)
Beispiel 1.3.3.12. Bei einem Wettbewerb traten dieselben 8 BewerberInnen
(A,. . . ,H) in zwei Disziplinen an. Die Ergebnisse waren:
Disziplin 1) in der Reihung vom besten zum schlechtesten Platz: A,D,G,C,H,B,E,F.
Disziplin 2) in der Reihung vom besten zum schlechtesten Platz: C,D,(ex aequo A,G,H),B,F,E.
Berechnen Sie den Spearmanschen Rangkorrelationskoeffizient.
Diskussion: Weil es nur eine Bindung gibt, begnügen wir uns mit der schnelleren, näherungsweisen
Berechnung. Beachten Sie, wie wir die Rangvergabe der Bindung behandeln. In Disziplin 2 kommen
nach den ersten zwei Plätzen drei TeilnehmerInnen A, G, H, auf den nächsten Platz. Die Plätze
drei bis fünf werden ausgemittelt, das gibt 4, und dieser Rang wird an A,G und H vergeben.
Anschließend wird mit Platz 6 weitergezählt.
BewerberIn
Ränge
Differenz d2i
(1) (2)
A
1
4
-3
9
B
6
6
0
0
C
4
1
3
9
D
2
2
0
0
E
7
8
-1
1
F
8
7
1
1
G
3
4
-1
1
H
5
4
1
1
Summe
22
Der Rangkorrelationskoeffizient ist dann
6 · 22
ρ≈1−
≈ 0.74
8(82 − 1)
Der Rangkorrelationskoeffizient könnte zwischen -1 und 1 liegen. Da er deutlich größer als 0
ist, besteht ein positiver Zusammenhang zwischen den Ergebnissen in den beiden Disziplinen. Im
Allgemeinen haben BewerberInnen, die in Disziplin 1 besser abgeschnitten haben, auch Disziplin 2
besser bestanden. ¤
Was Sie jetzt können:
Begriffe und Wissen: Kovarianz, Pearsonscher Korrelationskoeffizient, Interpretation des Korrelationskoeffizienten, unkorreliert ist nicht
unabhängig, Spearmanscher Rangkorrelationskoeffizient.
Methoden: Berechnung und Interpretation von Korrelationskoeffizienten und Rangkorrelationskoeffizienten, Rangzuweisung bei ordinalen Daten.
KAPITEL 2
Zufallsgrößen
Übersicht:
1. Zufall und Wahrscheinlichkeit
1.1. Wo wird Zufall berücksichtigt?
1.2. Wahrscheinlichkeit
2. Zufallsvariablen
2.1. Verteilung von Zufallsvariablen
2.2. Statistische Kennzahlen für Zufallsvariablen
3. Normalverteilung
3.1. Normalverteilung
3.2. Umgang mit Normalverteilungstabellen
3.3. Der zentrale Grenzwertsatz
2.1. Zufall und Wahrscheinlichkeit
Übersicht:
1. Wo wird Zufall berücksichtigt?
2. Wahrscheinlichkeit
2.1.1. Wo wird Zufall berücksichtigt.
Übersicht:
1. Zufallsexperiment und Zufallsvariable
2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird.
2.1.1.1. Zufallsexperiment und Zufallsvariable.
Eine wichtige Aufgabe der Statistik ist, die Zuverlässigkeit von Aussagen abzuschätzen, die
Unsicherheiten auf Grund von Zufallseinflüssen enthalten. Eine Stichprobe von Kakteen kann
zufällig aus besonders “blühfaulen” Exemplaren bestehen und dadurch kann die Abschätzung der
Blütenanzahl dieser Kakteen verfälscht werden. Wir brauchen daher einen mathematischen Begriff
einer Größe, die vom Zufall abhängt: Die Zufallsgröße. Die folgende “Definition” ist im mathematischen Sinn keine exakte Definition. Sie ist eine Handhabe für den intuitiven Hausgebrauch.
Definition 2.1.1.1. Ein Zufallsexperiment ist ein Vorgang, der
57
58
2. ZUFALLSGRÖSSEN
• aus einer vorgegebenen Menge von Möglichkeiten ein Ergebnis ermittelt,
• nach festen Regeln abläuft,
• (zumindest theoretisch) beliebig oft wiederholbar ist.
Jedes mögliche Ergebnis eines Zufallsexperimentes heißt Elementarereignis. Die
Menge aller Elementarereignisse ist der Ereignisraum und wird oft mit Ω bezeichnet.
Wenn das Ergebnis eines Zufallsexperimentes eine Zahl ist, nennen wir diese
eine Zufallsvariable oder Zufallsgröße. Jede Durchführung des Zufallsexperimentes liefert einen neuen Zahlenwert, diesen nennen wir eine Realisierung der
Zufallsgröße.
Es hat sich eingebürgert, Zufallsgrößen mit Großbuchstaben zu bezeichnen, und
ihre Realisierungen mit Kleinbuchstaben.
Schreibweise 2.1.1.2. Wenn eine Größe nicht vom Zufall abhängt, bezeichnen
wir sie als deterministisch.
Definition 2.1.1.3. Eine Zufallsgröße heisst diskret, wenn sie nur einzelne,
voneinander isolierte Zahlenwerte als Realisierung annehmen kann (typischerweise
z.B. ganze Zahlen). Eine diskrete Zufallsgröße, die nur zwei Werte annehmen kann
(0/1, ja/nein) heisst dichotom. Kann eine Zufallsgröße Zahlenwerte aus einem
ganzen Intervall annehmen, so heißt sie stetig.
Tipp 2.1.1.4. Es hängt von der Problemstellung ab, welche Größen als fest und
welche als Zufallsgrößen angesehen werden. Fragen Sie sich: Welche Zufallseffekte
sind für meine Diskussion wesentlich? Größen, die von diesen Effekten beeinflusst
werden, müssen als Zufallsgrößen angesehen werden.
2.1.1.2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird.
Beispiel 2.1.1.5. Die Größe der Schnecken der Art Cylindrus obtusus im Hochschwabgebiet soll ermittelt werden. Ein Forscherteam geht auf die Berge und sammelt und vermißt alle Exemplare, die gefunden werden. Am Ende soll aus der
Statistik die mittlere Gehäusehöhe aller Cylindrus obtusus im untersuchten Gebiet
angegeben werden. Mit Hilfe von statistischen Methoden kann man beurteilen, wie
genau der Mittelwert der Höhen der Sammlung den Mittelwert aller Gehäusehöhen
wiedergibt.
Diskussion: In diesem Beispiel kann der Zufall das Ergebnis beeinflussen: Finden die Sammler
eine repräsentative Stichprobe, oder zufällig hauptsächlich überdurchschnittlich große Exemplare? Der Zufallseffekt, dessen Auswirkungen die Statistik abschätzen soll, tritt hier beim Sammeln
der Schnecken auf. Das Ziel der Arbeit ist eine Schätzung der Größe “mittlere Gehäusehöhe aller
Schnecken im Hochschwabgebiet”. Diese Zahl ist unbekannt, wird aber vom Zufall der Schneckensuche nicht beeinflusst. Dies ist also — in dieser Aufgabenstellung — ein Parameter, der geschätzt
werden soll, aber keine Zufallsgröße.
Dagegen ist die Höhe der einzelnen gefundenen Schneckenhäuser eine Zufallsgröße: Jede gefundene Schnecke liefert eine neue Realisierung. Bezeichnen wir mit H die Zufallsgröße: “Höhe
der gefunden Schneckenhäuser”. Wenn die Forscher zuerst eine Schnecke mit 12 mm, dann mit
14 mm, dann mit 9 mm Gehäusehöhe finden, dann sind die Zahlen h1 = 12, h2 = 14, h3 = 9
Realisierungen der Zufallsgröße H.
Auch der Mittelwert der Höhen aller gesammelten Schneckenhäuser ist in unserem Kontext
eine Zufallsgröße, denn er hängt ja davon ab, welche Schnecken im Einzelnen gefunden werden.
Soll man die Gehäusehöhe der einzelnen Schnecken als diskrete oder stetige Zufallsvariable
auffassen? Beides läßt sich rechtfertigen. Im Grunde ist jede Zahl in einem natürlich sinnvollen
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
59
Intervall (etwa 8 bis 18 mm) als Ergebnis möglich. Das spricht für eine stetige Zufallsgröße.
Andererseits erlaubt die Schiebelehre nur Messungen auf 0.1 mm genau, und in Hinblick auf den
Zeitaufwand wird wahrscheinlich nur auf 1 mm genauso gemessen. So gesehen ist der Messwert
eine diskrete Zufallsgröße. Den Mittelwert der Messungen aus der ganzen Stichprobe betrachten
wir jedenfalls in der Praxis als stetig. Haarespalter könnten einwenden, dass in einer Stichprobe
von 1000 Schnecken bei einer Messung auf 1 mm genau der Mittelwert nur ganzzahlige Vielfache
von 0.001 annehmen könnte, also streng genommen diskret ist. ¤
Beispiel 2.1.1.6. Der Prozentsatz aller BefürworterInnen einer Partei in Österreich soll geschätzt werden. Eine Stichprobe wird zu diesem Thema befragt. Mit
Hilfe von statistischen Methoden kann man abschätzen, wie groß die Stichprobe
sein muss, damit der Anteil der BefürworterInnen in der Stichprobe den Anteil der
BefürworterInnen in der ganzen Bevölkerung mit ausreichend großer Wahrscheinlichkeit ausreichend genau wiedergibt.
Diskussion: Auch hier besteht der Zufall in der Wahl der Stichprobe. Wir gehen in dieser Untersuchung davon aus, dass der Prozentsatz der BefürworterInnen unter allen WählerInnen (also
in der Grundgesamtheit) eine feste, wenn auch unbekannte Zahl ist. Könnten wir alle ÖsterreicherInnen befragen, hätten wir diese Zahl exakt. Die Antwort jeder einzelnen befragten Person
hängt aber vom Zufall ab, welche Person gerade für die Stichprobe ausgewählt wird. Für jede
befragte Person setzen wir in die Liste eine 1, wenn sie die Partei befürwortet, und 0, wenn sie die
Partei nicht befürwortet. Dies ist eine diskrete, dichotome Zufallsvariable, jede Person liefert eine
Realisierung. Aus der Stichprobe ermitteln wir den Prozentsatz der Personen, die für die Partei
stimmt. Auch das ist eine Zufallsvariable. Wenn verschiedene Meinungsforschungsinstitute ihre
Stichproben machen, erhalten sie verschiedene Realisierungen. ¤
Beispiel 2.1.1.7. Es soll der Trend bestimmt werden, nach dem sich der Anteil
der BefürworterInnen der Partei aus Beispiel 2.1.1.6 im Lauf der Monate entwickelt.
Wir erheben die Anteile der BefürworterInnen monatlich. Wir unterstellen für den
Anteil X(t) im Monat Nummer t eine einfache Geradengleichung (also ein lineares
Wachsen oder Abfallen): X(t) = b1 t + b0 + Z(t). Dabei sind b0 , b1 feste unbekannte Parameter, und Z(t) eine zufällige Störung, mit der wir ausdrücken, dass
die Anteile natürlich nie exakt einer Geradengleichung folgen werden, sondern nur
näherungsweise. Mit Hilfe von statistischen Methoden kann man aus der Folge der
monatlich erhobenen Anteile die Parameter b0 , b1 schätzen, und angeben, wie gut
das einfache Modell den tatsächlichen Trend wiedergibt, und wie stark die zufälligen
Abweichungen vom Trend sind.
Diskussion: Der Zufall in diesem Beispiel besteht darin, dass sich die Anzahl der BefürworterInnen nicht genau nach dem Trend entwickelt, sondern zusätzlich stärkeren oder schwächeren
Schwankungen unterworfen ist, die wir nicht erklären können und als rein zufällig ansehen. In diesem Beispiel betrachten wir den Trend als gegeben: die Parameter b0 , b1 sind feste Zahlen, auch
wenn wir sie nicht kennen und erst mit Hilfe von geeigneten Methoden schätzen müssen. Dagegen
ist die Störung Z eine Zufallsgröße: Jeden Monat wird sie neu realisiert. Manchmal weicht der
tatsächliche Anteil ein wenig nach oben, manchmal nach unten von der theoretischen Formel ab.
Damit unterliegt aber auch der Anteil X(t) dem Zufall und wird in dieser Studie als Zufallsgröße
betrachtet. Beachten Sie aber: Wenn wir nun aus den erhobenen Daten die Regressionsgerade
berechnen: X = b̂0 + b̂1 Z, so berechnen wir Schätzwerte, einen Schätzwert b̂0 für den uns unbekannten Parameter b0 , und einen Schätzwert b̂1 für den uns unbekannten Parameter b1 . Da die
erhobenen Daten vom Zufall abhängen, sind auch die daraus berechneten geschätzten Parameter
b̂0 , b̂1 Zufallsgrößen.
¤
60
2. ZUFALLSGRÖSSEN
Anteil Waehler
0.3
Anteil laut Modell
Zufallseffekt
Anteil beobachtet
0.29
0.28
0
2
4
6
8
10
Monat
Trend aus Beispiel 2.1.1.7: Trendkurve und beobachtete Werte
Was Sie jetzt können:
Begriffe und Wissen: Zufallsexperiment, Zufallsvariable (Zufallsgröße), Ereignisraum, Elementarereignis.
Methoden: Feststellen, welche Größen in einer Studie als Zufallsgrößen und welche als deterministisch zu betrachten sind.
2.1.2. Wahrscheinlichkeit.
Übersicht:
1. Ereignis und Wahrscheinlichkeit
2. Bedingte Wahrscheinlichkeit
3. Unabhängigkeit
2.1.2.1. Ereignis und Wahrscheinlichkeit.
Auf Grund des Ergebnisses eines Zufallsexperimentes kann man sagen, ob gewisse Ereignisse eingetreten sind oder nicht. Mathematisch erfolgt die Definition
eines Ereignisses in der Sprache der Mengenlehre. Zur Erinnerung (an Definition 2.1.1.1): Der Ereignisraum eines Zufallsexperimentes ist die Menge aller möglichen Ergebnisse (Elementarereignisse).
Definition 2.1.2.1. Sei Ω der Ereignisraum eines Zufallsexperimentes. Ein
Ereignis ist eine Teilmenge von Ω. Das Ereignis A tritt ein, wenn das Zufallsexperiment ein Elementarereignis liefert, das in der Menge A enthalten ist.
Das Ereignis ∅, die leere Menge, tritt nie ein. Das Ereignis Ω, der gesamte
Ereignisraum, tritt immer ein. Es heißt daher das sichere Ereignis.
Definition 2.1.2.2. Sind A, B zwei Ereignisse, so lassen sich durch die mengentheoretischen Operation Durchschnitt, Vereinigung und Komplement die folgenden
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
61
Ereignisse bilden:
A ∩ B: Sowohl A als auch B treten ein.
A ∪ B: Entweder A oder B oder beide gemeinsam treten ein.
A:
Das Ereignis A tritt nicht ein.
Man sagt, zwei zwei Ereignisse A und B schließen einander aus, wenn sie
nie gemeinsam eintreten können (also wenn gilt: A ∩ B = ∅).
Ob ein Ereignis eintritt oder nicht, hängt vom Zufallsexperiment ab. Wir können vorher
bestenfalls Aussagen treffen, wie wahrscheinlich das Ereignis ist. Die mathematisch exakte Definition der Wahrscheinlichkeit ist heikel. Das Folgende ist nur eine intuitive Erklärung, die für die
praktische Arbeit aber ausreicht.
Definition 2.1.2.3. Sei A ein Ereignis. Die Zahl P (A), die Wahrscheinlichkeit von A, liegt zwischen 0 und 1 (100%). Würde man das Zufallsexperiment in
einer sehr langen Serie von unabhängigen Versuchen wiederholen, würde der Anteil
der Fälle, in denen A auftritt, annähernd P (A) betragen. (Je länger die Versuchsserie, umso genauer.)
Die Wahrscheinlichkeit des leeren Ereignisses P (∅) beträgt Null, die Wahrscheinlichkeit des sicheren Ereignisses P (Ω) ist Eins.
Der Buchstabe P steht für probability (=Wahrscheinlichkeit). Viele Schwierigkeiten liegen
auf dem Weg, aus dieser Idee einen mathematisch definierten Begriff zu destillieren. Würde man
zum Beispiel annehmen, dass alle Ereignisse Wahrscheinlichkeiten haben, würde man sich in Widersprüche verwickeln. Alle diese Feinheiten betreffen aber zum Glück die praktische Arbeit nicht.
Wir können sie getrost den Fachleuten überlassen.
Die folgenden Rechenregeln über Wahrscheinlichkeiten sind unmittelbar einleuchtend:
Merksatz 2.1.2.4. Seien A und B Ereignisse, welche Wahrscheinlichkeiten
besitzen. Es gilt:
a) P (A) = 1 − P (A).
b) Schließen sich A und B gegenseitig aus, dann ist P (A∪B) = P (A)+P (B).
c) Jedenfalls gilt P (A ∪ B) + P (A ∩ B) = P (A) + P (B).
Diskussion: Regeln (a) und (b) sind unmittelbar einleuchtend. Dass Regel (c) gilt, überlegt man
an Hand des folgenden Venn-Diagrammes:
B
B ohne A
A
A und B
A ohne B
Zerlegung der Vereinigung zweier Ereignisse
62
2. ZUFALLSGRÖSSEN
Das Ereignis A∪B setzt sich aus drei Ereignissen zusammen, die einander jeweils ausschließen:
A ∩ B (A und B treten beide ein),
A \ B (A tritt ein, aber B tritt nicht ein),
B \ A (B tritt ein, aber A tritt nicht ein).
Die Wahrscheinlichkeiten dieser drei Ereignisse summieren sich zur Wahrscheinlichkeit von A ∪ B:
P (A ∪ B) = P (A ∩ B) + P (A \ B) + P (B \ A).
Andererseits bilden die Ereignisse A ∩ B und A \ B gemeinsam das Ereignis A. Ebenso läßt sich
das Ereignis B zerlegen.
P (A)
=
P (A ∩ B) + P (A \ B),
P (B)
=
P (A ∩ B) + P (B \ A).
Wir setzen diese drei Formeln ein und erhalten
P (A ∪ B) + P (A ∩ B)
=
[P (A ∩ B) + P (A \ B) + P (B \ A)] + P (A ∩ B),
P (A) + P (B)
=
[P (A ∩ B) + P (A \ B)] + [P (B \ A) + P (A ∩ B)].
In beiden Fällen ist die rechte Seite dieselbe. Also ist P (A ∪ B) + P (A ∩ B) = P (A) + P (B).
¤
2.1.2.2. Bedingte Wahrscheinlichkeit.
Häufig tritt die Frage auf, ob zwischen zwei Merkmalen oder Ereignissen Zusammenhänge
gelten. Ändert sich unsere Einschätzung der Wahrscheinlichkeit eines Ereignisses A, wenn wir
Information über ein Ereignis B besitzen. Neigen Patienten mit erhöhtem Bierkonsum eher zu
Bluthochdruck als Patienten mit geringem Bierkonsum? Geben Kühe in Ställen, die mit MozartMusik beschallt werden, mehr Milch als unmusikalische Kühe?
Definition 2.1.2.5. Seien A und B zwei Ereignisse. Das Symbol P (A | B)
bezeichnet die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Sie
gibt die Wahrscheinlichkeit an, dass das Ereignis A eintritt, wenn bekannt ist, dass
das Ereignis B eintritt.
Tipp 2.1.2.6. Unterscheiden Sie sorgfältig die folgenden Wahrscheinlichkeiten:
• P (A): Unbedingte Wahrscheinlichkeit, dass Ereignis A eintritt. Keine Vorinformation.
• P (A∩B): Unbedingte Wahrscheinlichkeit, dass sowohl Ereignis A als auch
Ereignis B eintritt. Keine Vorinformation.
• P (A | B): Bedingte Wahrscheinlichkeit, dass A eintritt, wenn die Information bekannt ist, dass Ereignis B eintritt.
• P (B | A): Bedingte Wahrscheinlichkeit, dass B eintritt, wenn die Information bekannt ist, dass Ereignis A eintritt.
Beispiel 2.1.2.7. Unter den PatientInnen, welche mit einer bestimmten Diagnose XXX eingeliefert werden, werden die Symptome Kopfschmerzen und Fieber
betrachtet. Die folgende Vierfeldertafel gibt an, welcher Anteil der Patienten Kopfschmerzen und Fieber hat:
ja
Fieber
ja
nein
0.2
0.1
gesamt
0.3
Kopfschmerzen
nein
gesamt
0.4
0.6
0.3
0.4
0.7
1.0
Analysieren Sie die Tabelle. Insbesondere: Wie groß ist die Wahrscheinlichkeit,
dass eine mit Diagnose XXX eingelieferte Person Kopfschmerzen hat, wenn sie
Fieber hat?
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
63
Diskussion: Zur Abkürzung betrachten wir die folgenden Ereignisse, die mit jeder neu eingelieferten PatientIn eintreffen können:
F Die eingelieferte Person hat Fieber.
K Die eingelieferte Person hat Kopfschmerzen.
Im Inneren der Tabelle befinden sich die Wahrscheinlichkeiten, dass Personen die Symptome
zeigen. Zum Beispiel finden wir links oben die Wahrscheinlichkeit, dass eine Person, welche mit der
Diagnose XXX eingeliefert wird, unter Kopfschmerzen leidet und auch Fieber hat: P (K ∩F ) = 0.2.
Dass eine Person Kopfschmerzen aber kein Fieber hat, tritt mit Wahrscheinlichkeit P (K ∩F ) = 0.1
ein.
An den Rändern finden wir die Wahrscheinlichkeiten der einzelnen Ereignisse, zum Beispiel
ist die zweite Spaltensumme die Wahrscheinlichkeit, dass eine eingelieferte Person kein Fieber
hat: P (F ) = 0.4. Die Summe der ersten Zeile gibt die Wahrscheinlichkeit, dass eine Person unter
Kopfschmerzen leidet: P (K) = 0.3.
Nun fragen wir: Wie groß ist die Wahrscheinlichkeit, dass eine mit Diagnose XXX eingelieferte
Person Kopfschmerzen hat, wenn sie Fieber hat, wir fragen also nach der bedingten Wahrscheinlichkeit P (K | F ). Der Anteil aller PatientInnen mit Fieber ist P (F ) = 0.6. Der Anteil der
PatientInnen, welche zusätzlich Kopfschmerzen hat, bezogen auf die Gesamtheit aller Personen,
ist P (K ∩ F ) = 0.2. Also leidet ein Drittel der eingelieferten Personen, welche Fieber zeigen, auch
Kopfschmerzen:
P (K | F ) =
0.2
1
P (K ∩ F )
=
= .
P (F )
0.6
3
¤
Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Formel für die bedingte
Wahrscheinlichkeit:
Merksatz 2.1.2.8. Seien A und B zwei Ereignisse. Für die bedingte Wahrscheinlichkeit von A unter Bedingung, dass B gilt, gilt die Formel
P (A | B) =
P (A ∩ B)
.
P (B)
Beispiel 2.1.2.9. Ein Promille einer Bevölkerungsgruppe sind von einer bestimmten Krankheit befallen. Ein Labortest fällt bei 90 Prozent aller Erkrankten
positiv aus, aber auch bei 1 Prozent aller Gesunden. Eine Person unterzieht sich
dem Test, und der Test ist positiv. Wie groß ist die Wahrscheinlichkeit, dass diese
Person erkrankt ist.
Diskussion: Zunächst betrachten wir die Angaben. Wir haben zwei Ereignisse:
K “Die Person ist krank”,
T “Der Test fällt positiv aus”.
Die Angaben enthalten folgende Information:
• P (K) = 0.001, denn 1 Promille von allen (keine Vorinformation) ist krank.
• P (T | K) = 0.9, denn der Test fällt bei 90% aller Kranken positiv aus. Eine bedingte
Wahrscheinlichkeit, die nur auf Kranke anwendbar ist.
• P (T | K) = 0.01, denn der Test fällt bei 1% der Gesunden positiv aus. Eine bedingte
Wahrscheinlichkeit, die nur auf Gesunde anwendbar ist.
• P (K | T ) =? ist gefragt: Die bedingte Wahrscheinlichkeit, dass eine Person krank ist,
wenn die Information gegeben ist, dass ihr Test positiv ausfällt.
Die folgende Grafik, ein Ereignisbaum, zeigt, wie wir die Aufgabe analysieren:
64
2. ZUFALLSGRÖSSEN
0.9
krank und Test positiv
0.00090
0.1
krank und Test negativ
0.00010
krank
0.001
0.001
Gesamtheit
1.0
0.999
0.01
gesund und Test positiv
0.00999
0.99
gesund und Test negativ
0.98901
gesund
0.999
Test positiv
0.01089
P(krank | Test positiv) =
0.00090
0.01089
= 0.08264
Beispiel 2.1.2.9: Ereignisbaum
• Die Gesamtpopulation, insgesamt 100%=1, zerfällt in zwei Teile: Die Kranken (0.001)
und die Gesunden (0.999).
• Die Kranken zerfallen wieder in zwei Gruppen:
– Die Kranken mit positivem Test: das ist der Anteil 0.9 der Kranken. Weil die
Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil
der Kranken mit positivem Test an der Grundgesamtheit 0.001 × 0.9 = 0.0009.
– Die Kranken mit negativem Test: das ist der Anteil 0.1 der Kranken. Weil die
Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil
der Kranken mit negativem Test an der Grundgesamtheit 0.001 × 0.1 = 0.0001.
• Die Gesunden zerfallen ebenfalls in zwei Gruppen:
– Die Gesunden mit positivem Test, Anteil 0.01 der Gesunden, also Anteil 0.999 ×
0.01 = 0.00999 der Gesamtbevölkerung.
– Die Gesunden mit negativem Test, Anteil 0.99 der Gesunden, also Anteil 0.999 ×
0.99 = 0.98901 der Gesamtbevölkerung.
• Die Bevölkerung mit positivem Test besteht aus den Kranken mit positivem Test (Anteil 0.00090 der Gesamtheit) und den Gesunden mit positivem Test (Anteil 0.00999
der Gesamtheit). Das ergibt insgesamt den Anteil 0.00090 + 0.00999 = 0.01089 der
Gesamtheit.
• Unter allen Personen mit positivem Test (Anteil 0.01089 der Gesamtheit) befinden sich
die Kranken mit postivem Test (Anteil 0.00090 der Gesamtheit). Daher beträgt der
Anteil der Kranken unter den Personen mit positivem Test 0.00090/0.01089 ≈ 0.08264.
Nur 8.3 % der Personen mit positivem Test sind tatsächlich krank! Das Ergebnis erscheint zunächst
paradox, man hätte dem Test größere Treffsicherheit zugetraut. Aber die Kranken sind in der
Population so selten, dass der Anteil der Gesunden, die zufällig trotzdem einen positiven Test
haben, den Anteil der tatsächlich Kranken deutlich überwiegt.
¤
Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Bayessche Formel:
Merksatz 2.1.2.10 (Formel von Bayes). Seien A und B Ereignisse. Gegeben sei
die (unbedingte) Wahrscheinlichkeit P (A) von A und die beiden bedingten Wahrscheinlichkeiten P (B | A), P (B | A) von B unter den beiden Bedingungen dass A
eintritt oder nicht. Die bedingte Wahrscheinlichkeit P (A | B) von A, wenn bekannt
ist dass B eintritt, errechnet sich
P (A | B) =
P (A) · P (B | A)
.
P (A) · P (B | A) + P (A) · P (B | A)
2.1.2.3. Unabhängigkeit.
Wir haben jetzt in mehreren Beispielen gesehen, dass Information über ein Ereignis die
Einschätzung der Wahrscheinlichkeit eines anderen Ereignisses wesentlich beeinflussen kann. Natürlich
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
65
gibt es auch Ereignisse, die aufeinander gar keinen Einfluss haben, sodass die Information über
das erste Ereignis keinerlei Hinweise auf das andere Ereignis enthält.
Definition 2.1.2.11. Zwei Ereignisse A, B heißen unabhängig, wenn eine
der folgenden drei Beziehungen gilt. In diesem Fall gelten auch immer die anderen
beiden.
P (A | B) = P (A),
P (B | A) = P (B),
P (A ∩ B) = P (A) · P (B).
Diskussion: Die erste Gleichung sagt, dass Information über B nichts an der Einschätzung der
Wahrscheinlichkeit von A ändert. Die unbedingte Wahrscheinlichkeit von A ist auch die bedingte
Wahrscheinlichkeit von A unter der Bedingung B. Die zweite Gleichung sagt ebenso, dass Information über A keine neuen Hinweise auf B bringt. Dass die drei Gleichungen in Wirklichkeit alle
dasselbe aussagen, folgert man leicht aus der Formel der bedingten Wahrscheinlichkeit:
P (A | B) =
P (A ∩ B)
.
P (B)
Daher gilt: Ist P (A ∩ B) = P (A)P (B), dann ist P (A | B) = P (A)P (B)/P (B) = P (A), und
umgekehrt. Dieselbe Überlegung kann man auch für P (B | A) anstellen.
¤
Merksatz 2.1.2.12.
• Unabhängigkeit und Abhängigkeit sind statistische Eigenschaften. Wenn
zwei Ereignisse im statistischen Sinn abhängig sind, beweist das noch lange
nicht, dass zwischen beiden ein kausaler Zusammenhang besteht.
• Andererseits wird bei statistischen Betrachtungen oft die Unabhängigkeit
von Ereignissen vorausgesetzt, zwischen denen kein kausaler Zusammenhang besteht. Wählt man, z.B., rein zufällig eine Stichprobe aus einer
Grundgesamtheit, so geht man in anschließenden statistischen Untersuchungen davon aus, dass die Auswahl der einzelnen Merkmalsträger unabhängig ist.
Unabhängigkeit kann man auch von mehr als zwei Ereignissen oder für Zufallsvariablen definieren. Die Definition ist etwas umständlich:
Definition 2.1.2.13.
Seien A1 , A2 , · · · , An Ereignisse. Wir sagen, dass diese Ereignisse unabhängig sind, wenn jedes Ereignis Ai von jedem Ereignis B unabhängig
ist, das sich mit Hilfe der anderen Aj (j 6= i) durch Negation, Durchschnitt
und Vereinigung bilden läßt.
Seien X1 , X2 , · · · , Xn Zufallsvariable. Wir sagen, dass diese Zufallsvariablen unabhängig sind, wenn alle Ereignisse Bi , die sich mit Hilfe von
jeweils Xi ausdrücken lassen, unabhängig sind.
Beispiel 2.1.2.14. Angenommen, in einer Personengruppe sind Geschlecht
(0: männlich, 1: weiblich), Magnesiumgehalt im Blut (mmol/ml) und Blutzucker
(mmol/ml) unabhängige Zufallsvariablen. 30% dieser Personen haben niedrigen Magnesiumspiegel (definiert durch einen geeigneten Grenzwert). Welcher Prozentsatz
der Männer mit erhöhtem Blutdruck (definiert durch einen geeigneten Standardwert) hat niedrigen Magnesiumspiegel?
Diskussion: Aus der Gruppe wird eine Person zufällig ausgewählt. Es sind dann zum Beispiel auch
die folgenden Ereignisse unabhängig:
66
2. ZUFALLSGRÖSSEN
B1 : Die ausgewählte Person ist männlich.
B2 : Die Person hat erhöhten Blutzuckerwert.
B3 : Die ausgewählte Person hat niedrigen Magnesiumspiegel.
Die Information über Ereignisse B1 und B2 ändert nichts an der Einschätzung der Wahrscheinlichkeit von Ereignis B3 . Laut Angabe ist die Wahrscheinlichkeit von B3 in dieser Personengruppe
P (B3 ) = 0.3. Daher ist auch P (B3 | B1 ∧B2 ) = 0.3. Es haben auch 30% der Männer mit erhöhtem
Blutzucker niedriges Magnesium. ¤
Was Sie jetzt können:
Begriffe und Wissen: Ereignisse, Wahrscheinlichkeit, Rechenregeln
der Wahrscheinlichkeitsrechnung, ausschließende Ereignisse, bedingte
Wahrscheinlichkeit, Unabhängigkeit von Ereignissen und Zufallsvariablen.
Methoden: Entscheidungsbaum.
2.2. Zufallsvariablen
Übersicht:
1. Verteilung von Zufallsvariablen
2. Statistische Kennzahlen von Zufallsvariablen
2.2.1. Verteilung von Zufallsvariablen.
Übersicht:
1. Verteilung diskreter Zufallsvariablen
2. Verteilung stetiger Zufallsvariablen
2.2.1.1. Verteilung diskreter Zufallsvariablen.
Wie die Realisierung einer Zufallsvariablen ausfällt, weiß man erst nach dem Zufallsexperiment. Dagegen kann man von vielen Zufallsgrößen vor dem Versuch angeben, welche Realisierung
wie wahrscheinlich ist.
Definition 2.2.1.1. Die Gesetzmäßigkeit, nach der die Wahrscheinlichkeiten
der einzelnen Realisierungen einer Zufallsgröße bestimmt werden, heißt das Verteilungsgesetz oder kurz die Verteilung der Zufallsgröße.
Definition 2.2.1.2. Die Verteilungsfunktion F (x) einer Zufallsgröße X gibt
die Wahrscheinlichkeit an, dass eine Realisierung einen Wert kleiner oder gleich x
annimmt:
F (x) = P (X ≤ x).
2.2. ZUFALLSVARIABLEN
67
Beispiel 2.2.1.3. Mit einem fairen Würfel wird gewürfelt. Die erhaltene Augenzahl ist eine Zufallsgröße, die wir mit X bezeichnen. Welche Realisierungen sind
möglich, und wie lautet das Verteilungsgesetz?
Diskussion: Es gibt sechs verschiedene Augenzahlen, die herauskommen können (nämlich 1 – 6).
Weil der Würfel fair ist, kommt jede Augenzahl mit derselben Wahrscheinlichkeit, nämlich je ein
Sechstel, vor. Hier ist die Tabelle der Realisierungen und ihrer Wahrscheinlichkeiten:
Realisierung
xi
1
2
3
4
5
6
Wahrscheinlichkeit
P (X = xi )
1/6
1/6
1/6
1/6
1/6
1/6
Verteilungsfunktion
P (X ≤ xi )
1/6
2/6
3/6
4/6
5/6
1
¤
Methode 2.2.1.4. Die Verteilung einer diskreten Zufallsgröße X kann auf drei
Arten angegeben werden:
a) Eine Tabelle, die alle möglichen Realisierungen und ihre Wahrscheinlichkeiten aufzählt.
b) Eine Tabelle, die alle möglichen Realisierungen und die Verteilungsfunktion aufzählt.
c) Eine Formel.
Für eine Zufallsvariable spielt die Verteilung dieselbe Rolle wie die Häufigkeit für ein Merkmal innerhalb einer Gesamtheit. Dabei entspricht die Wahrscheinlichkeit, dass eine Realisierung
auftritt, der relativen Häufigkeit des Merkmals, während die Verteilungsfunktion der kumulativen
relativen Häufigkeit entspricht.
Beispiel 2.2.1.5. An einer Kreuzung ereignet sich im Durchschnitt alle 2 Tage
ein Unfall. Wie wahrscheinlich ist, dass sich morgen dort 0,1,2,3. . . Unfälle ereignen?
Diskussion: Wir fragen nach der Zufallsvariablen: X=“Anzahl der Unfälle an dieser Kreuzung an
einem bestimmten Tag” und ihrer Verteilung. Das Beispiel soll hier nur zeigen, wie man die Verteilung angibt, nicht, wie man gerade auf diese Formel kommt. Wenn man davon ausgeht, dass die
Unfälle voneinander unabhängig passieren, handelt es sich um eine Poisson-verteilte Zufallsgröße
mit Mittelwert µ = 0.5. Es gilt die Formel
P (x = k) =
1 −0.5
e
(0.5)k .
k!
In Tabellenform (für die ersten paar Realisierungen, denn rein theoretisch gibt es unendlich viele):
Realisierung
k
0
1
2
3
4
..
.
Wahrscheinlichkeit
P (X = k)
0.607
0.303
0.076
0.013
0.002
..
.
Verteilungfunktion
P (X ≤ k)
0.607
0.910
0.986
0.998
≈ 1.0
..
.
Wir zeigen noch ein Stabdiagramm für die Wahrscheinlichkeiten, sowie die Verteilungsfunktion:
68
2. ZUFALLSGRÖSSEN
Wahrscheinlichkeit
0.8
0.6
0.4
0.2
Verteilungsfunktion
0
1
2
x
3
4
0
1
2
x
3
4
1
0.8
0.6
0.4
0.2
0
−1
¤
0
5
Stabdiagramm und Verteilungsfunktion einer Poissonverteilung
Merksatz 2.2.1.6. Die Verteilungsfunktion einer diskreten Zufallsvariablen
bleibt zwischen den Werten der möglichen Realisierungen konstant. An den Stellen,
die als Realisierung in Frage kommen, springt sie um die Wahrscheinlichkeit dieser
Realisierung aufwärts.
Beispiel 2.2.1.7. Wir beziehen uns auf die Kreuzung aus Beispiel 2.2.1.5. Wie
wahrscheinlich ist, dass an einem bestimmten Tag mindestens ein, aber höchstens
3 Unfälle an dieser Kreuzung geschehen?
Diskussion: Wir können die Tabelle der einzelnen Wahrscheinlichkeiten ablesen und die Wahrscheinlichkeiten für 1,2,3 addieren:
P (1 ≤ X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = 0.303 + 0.076 + 0.013 = 0.392.
Wir können aber auch (und das ist in der Praxis meistens bequemer) die Tabelle der Verteilungsfunktion verwenden:
P (1 ≤ X ≤ 3) = P (X ≤ 3) − P (X ≤ 0) = 0.998 − 0.607 = 0.391.
(Der Unterschied in der letzten Dezimalstelle kommt daher, dass die letzte Stelle in beiden Tabellen
gerundet war.) ¤
2.2.1.2. Verteilung stetiger Zufallsvariablen.
Auch die Angabe der Verteilung einer stetigen Zufallsvariablen kann durch die Verteilungsfunktion erfolgen. Die Definition der Verteilungsfunktion erfolgt genauso wie für diskrete Zufallsvariablen. Zur Erinnerung wiederholen wir die Definition 2.2.1.2:
Definition: Sei X eine beliebige Zufallsvariable. Die Verteilungsfunktion F (x)
gibt die Wahrscheinlichkeit an, dass Realisierungen von X kleiner oder gleich x
ausfallen:
F (x) = P (X ≤ x).
Es ist aber nicht mehr sinnvoll, die Wahrscheinlichkeiten einzelner Realisierungen anzugeben. Typischerweise ist die Wahrscheinlichkeit, dass ein einzelner Wert angenommen wird, gleich
Null. (Fast sicher wird die Temperatur morgen früh nicht exakt 6.00000. . . Grad betragen, sondern zumindest eine sehr kleine — vielleicht gar nicht messbare — Dezimalstelle wird von Null
abweichen.) Anstelle des Stabdiagramms oder Histogramms tritt jetzt die Dichtefunktion:
2.2. ZUFALLSVARIABLEN
69
Definition 2.2.1.8. Sei X eine stetige Zufallsgröße. Die Fläche unter der Dichtefunktion f zwischen zwei Werten a, b gibt die Wahrscheinlichkeit an, dass die
Zufallsgröße eine Realisierung im Intervall (a, b) annimmt.
Z b
P (a ≤ X ≤ b) =
f (x) dx.
a
Bemerkung 2.2.1.9. Während viele Begriffe für stetige Zufallsvariablen, wie
etwa die Dichte und viele Kennzahlen, mit Hilfe von Integralen definiert werden
müssen, werden wir in der Praxis die Integralrechnung nicht benötigen. Die Auswertung der Integrale haben uns schon die TheoretikerInnen abgenommen, die die
Tabellenwerke und Computerprogramme erstellt haben, welche wir in der Praxis
verwenden.
Beispiel 2.2.1.10. Die Grafik zeigt die Verteilungsfunktion und Dichtefunktion
einer standard-normalverteilten Zufallsvariablen. Wie liest man daraus die Wahrscheinlichkeit ab, dass eine Realisierung in das Intervall [-1,1] fällt?
1
Verteilung F(x)
0.8
0.6
0.63
0.4
0.2
0
−3
−2
−1
0
x
1
2
3
1
2
3
0.4
Dichte f(x)
0.3
0.2
0.63
0.1
0
−3
−2
−1
0
x
Verteilungs- und Dichtefunktion der Standardnormalverteilung
Diskussion: Wir bezeichnen mit Z eine standardnormalverteilte Zufallsgröße. (Der Buchstabe Z
hat sich für standardnormalverteilte Zufallsgrößen eingebürgert.) Wir lesen die Verteilungsfunktion bei den Werten x = ±1 ab:
P (Z ≤ 1)
=
F (1) ≈ 0.84
P (Z ≤ −1)
=
F (−1) ≈ 0.16
Im Intervall [−1, 1] liegt jedes x mit x ≤ 1 aber nicht x < −1. Daher ist
P (Z ∈ [−1, 1]) = P (Z ≤ 1) − P (Z ≤ −1) ≈ 0.84 − 0.16 = 0.68.
Unter der Dichtekurve sehen wir dieselbe Wahrscheinlichkeit als Fläche zwischen den senkrechten
Linien x = −1 und x = 1. ¤
Merksatz 2.2.1.11. Die folgende Tabelle beschreibt die typische Form der
Verteilungsfunktion und Dichtefunktion.
70
2. ZUFALLSGRÖSSEN
Verteilungsfunktion F :
Positiv und monoton steigend.
Geht gegen 0 für x → −∞,
geht gegen 1 für x → ∞
In Bereichen, die oft angenommen werden, steigt die Verteilungskurve stark
an.
Dichtefunktion f :
Positiv.
Die Fläche unter der gesamten Dichtekurve ist 1.
Die Dichtefunktion geht gegen 0 für
x → ±∞.
In Bereichen, die oft angenommen werden, ist die Dichtefunktion hoch.
Merksatz 2.2.1.12. Die Verteilung einer stetigen Zufallsvariablen kann auf
zwei Arten beschrieben werden:
a) Die Verteilungsfunktion.
b) Die Dichtefunktion.
Beide Funktionen können entweder durch Formeln oder durch Tabellen angegeben
werden. Die Kurve der Dichtefunktion ist ein gutes Mittel, die Verteilung einer
Zufallsvariablen zu veranschaulichen. Für rechnerische Zwecke ist die Verteilungsfunktion nützlicher, weil sie direkt — ohne Flächenberechnung — eine Wahrscheinlichkeit angibt.
Was Sie jetzt können:
Begriffe und Wissen: Verteilung und Verteilungsfunktion einer diskreten Zufallsvariablen, Beschreibung der Verteilung mittels Tabelle
der Wahrscheinlichkeiten, Tabelle der Verteilungsfunktion, oder Formeln. Verteilungsfunktion und Dichtefunktion einer stetigen Zufallsvariablen.
2.2.2. Statistische Kennzahlen von Zufallsvariablen.
Übersicht:
1. Erwartungswert von Zufallsvariablen
2. Varianz und Standardabweichung von Zufallsvariablen
3. Perzentile von Zufallsvariablen
2.2.2.1. Erwartungswert von Zufallsvariablen.
Analog zum Mittelwert und zur Standardabweichung von Merkmalen kann man solche Kenngrößen auch für Zufallsvariablen definieren. Ersetzt man die relativen Häufigkeiten in der Berechnung von Mittelwert und Varianz durch die Wahrscheinlichkeit der möglichen Realisierungen,
erhält man direkt die entsprechenden Definitionen für diskrete Zufallsvariablen:
Definition 2.2.2.1. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·.
Wir sagen, X besitzt den Erwartungswert E(X), wenn die folgende Summe existiert (was für endliche Summen immer gilt, aber bei unendlich vielen möglichen
Ausprägungen nicht immer gelten muss):
X
E(X) =
pi xi .
i=1,2,···
2.2. ZUFALLSVARIABLEN
71
Beispiel 2.2.2.2. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie den
Erwartungswert der Zufallsvariablen “Geworfene Augenzahl”.
Diskussion: Wir erstellen eine Tabelle der Verteilung: Mögliche Realisierungen und ihre Wahrscheinlichkeiten:
xi
Realisierung
1
2
3
4
5
6
Summe
pi
Wahrscheinlichkeit
1/6
1/6
1/6
1/6
1/6
1/6
1
xi pi
1/6
2/6
3/6
4/6
5/6
6/6
E(X) = 21/6 = 3.5
¤
Bemerkung 2.2.2.3. Auch für stetige Zufallsvariablen kann man einen Erwartungswert definieren, allerdings benötigt man dafür Integralrechnung, daher werden
wir in dieser Vorlesung keine Definition geben. Die Interpretation des Erwartungswertes ist aber für stetige und diskrete Zufallsvariablen dieselbe.
Merksatz 2.2.2.4. Den Erwartungswert einer Zufallsgröße kann man folgendermaßen interpretieren: Wird die Zufallsgröße in sehr vielen unabhängigen Versuchen immer neu realisiert, so liegt der Mittelwert der Realisierungen mit großer
Wahrscheinlichkeit nahe bei E(X). Die Übereinstimmung wird umso besser, je mehr
Realisierungen durchgeführt werden (“Gesetz der großen Zahlen”).
Diskussion: Die mathematisch exakte Formulierung des Gesetzes der großen Zahlen muss mit
Hilfe von Grenzwerten erfolgen. Sie ist keineswegs selbstverständlich, sondern muss mit einigem
Aufwand mathematisch bewiesen werden. ¤
2.2.2.2. Varianz und Standardabweichung von Zufallsvariablen.
Definition 2.2.2.5. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·. Die Zufallsgröße X besitze einen Erwartungswert E(X).
Wir sagen, X besitzt die Varianz σ(X) wenn die folgende Summe existiert:
X
X
2
σ 2 (X) =
pi (xi − E(X))2 =
pi x2i − (E(X)) .
i=1,2,···
i=1,2,···
Die Standardabweichung von X ist die Wurzel der Varianz:
p
σ(X) = σ 2 (X).
2
Für die Varianz gibt es auch die Schreibweisen Var(X) oder σX
.
Varianz und Standardabweichung kann man mit Hilfe von Integralen auch für stetige Zufallsvariable definieren.
Beispiel 2.2.2.6. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie Varianz und Standardabweichung der Zufallsvariable “Geworfene Augenzahl”.
72
2. ZUFALLSGRÖSSEN
Diskussion: Wir wiederholen die Tabelle der Verteilung aus Beispiel 2.2.2.2 und fügen eine weitere
Spalte hinzu:
xi
Realisierung
1
2
3
4
5
6
Summe
−E(X)2
Wurzel
pi
Wahrscheinlichkeit
1/6
1/6
1/6
1/6
1/6
1/6
1
xi pi
x2i pi
1/6
2/6
3/6
4/6
5/6
6/6
E(X) = 21/6 = 3.5
1/6
4/6
9/6
16/6
25/6
36/6
91/6 ≈ 15.17
−12.25
σ 2 (X) ≈ 2.92
σ(X) ≈ 1.71
¤
Merksatz 2.2.2.7. Ist eine Zufallsvariable X annähernd normalverteilt, so gilt:
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.68 in das Intervall E(X) ± σ(X).
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.95 in das Intervall E(X) ± 2σ(X).
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.997 in das Intervall E(X) ± 3σ(X).
Merksatz 2.2.2.8. Für jede Zufallsgröße X, welche einen Erwartungswert und
eine Standardabweichung besitzt, gilt: Ist k > 1 eine Zahl, so liegt X mit einer
Wahrscheinlichkeit von mindestens 1 − k12 im Intervall E(X) ± kσ(X).
Beispiel 2.2.2.9. Die Tageshöchsttemperatur in einer bestimmten Stadt für
Tage im Monat August liegt im langjährigen Mittel bei 34 Grad, mit einer Standardabweichung von 4 Grad. Interpretieren Sie diese Zahlen.
Diskussion: Wenn man davon ausgeht, dass die Tageshöchsttemperatur annähernd normalverteilt ist (Glockenkurve), hätte man etwa 95% aller Tage des August mit Höchsttemperaturen im
Bereich 34±2×4, also zwischen 26 und 42 Grad. Allerdings ist diese Annahme nicht selbstverständlich, man könnte sich auch eine zweigipfelige Verteilung vorstellen, mit einem Gipfel mit hohen
Temperaturen für Sonnentage, und einem niedrigeren Gipfel für Regentage. Nach der ChebychevUngleichung liegen aber mit Sicherheit 75% (=1-1/4) aller Tage ihre Höchsttemperaturen zwischen
26 und 42 Grad. ¤
Beispiel 2.2.2.10. Die folgende Grafik zeigt die Dichtekurven dreier Normalverteilungen. Schätzen Sie für die drei Verteilungen jeweils Erwartungswert und
Varianz.
2.2. ZUFALLSVARIABLEN
73
0.4
a
b
Dichtefunktion
0.3
0.2
c
0.1
0
−4
−2
0
x
2
4
Dichtekurven dreier Normalverteilungen
Diskussion: Die Dichtekurve der Normalverteilung ist symmetrisch um den Gipfel angeordnet,
daher fällt der Mittelwert mit dem Gipfel zusammen. Verteilungen a und c haben ihren Mittelwert
bei -1, während Verteilung c ihren Mittelwert bei +1.5 hat.
Schwieriger ist die Standardabweichung zu schätzen. Etwa 68% der Fläche unter der Dichtekurve liegt im Bereich E(X) ± σ(X). Für Verteilungen a und b ist die Standardabweichung
jeweils 1: Es liegen 68% der Fläche zwischen -2 und 0 für a beziehungsweise zwischen 0.5 und
2.5 für b. Die Standardabweichung von Verteilung c ist 2: Es liegen 68% der Fläche zwischen -3
und 1. Selbstverständlich ist mit Augenmaß unter der Dichtekurve nur eine ganz grobe Schätzung
möglich. ¤
Bemerkung 2.2.2.11. Auch andere Kennzahlen, die wir von Merkmalen kennen, zum Beispiel Schiefe und Kurtosis, lassen sich analog für Zufallsvariablen definieren.
2.2.2.3. Perzentile von Zufallsvariablen.
Definition 2.2.2.12. Sei X eine (diskrete oder stetige) Zufallsvariable mit
Verteilungsfunktion F , und sei a eine Zahl zwischen 0 und 1. Das a-Quantil (100aPerzentil) γa von X ist jener Wert γa , für den die Verteilungsfunktion den Wert
a annimmt: F (γa ) = a, anders ausgedrückt: Die Wahrscheinlichkeit, dass Realisierungen von X kleiner oder gleich γa ausfallen, ist
P (X ≤ γa ) = a.
Insbesondere ist der Median γ0.5 jener Wert, für den gilt, dass die Wahrscheinlichkeit P (X ≤ γ0.5 ) exakt 1/2 beträgt.
Im Sonderfall, dass die Verteilungskurve für ein ganzes Intervall auf dem Wert a
stehen bleibt, wählt man für γa den kleinsten Wert x mit der Eigenschaft F (x) = a.
Dieser Fall tritt gelegentlich bei diskreten Zufallsvariablen auf.
Beispiel 2.2.2.13. Die folgende Grafik zeigt die Dichte- und Verteilungsfunktion einer stetigen Zufallsvariablen, welche nur positive Werte annimmt. Eingezeichnet sind die Quartile.
74
2. ZUFALLSGRÖSSEN
Dichtefunktion
0.4
0.3
0.2
0.1
25%
25%
0
0
1
25%
2
25%
3
4
5
6
4
5
6
x
Verteilungsfunktion
1
0.75
0.5
0.25
1.
Quartil
0
0
1
Median
3.
Quartil
2
3
x
Dichte- und Verteilungsfunktion mit Quartilen
Diskussion: Die Quartile sind dort, wo die Verteilungsfunktion die Werte 0.25, 0.5 und 0.75 erreicht. Das ist also ungefähr bei 1 (1. Quartil), 1.8 (Median) und 2.7 (3. Quartil). Zeichnet man
die Quantile bei der Dichtekurve ein, so teilen sie die Fläche unter der Dichtekurve in Viertel.
Sie sehen insbesondere, dass der Median und der Modal (der Gipfel der Dichtekurve) durchaus
nicht zusammenfallen müssen. Hier liegt der Gipfel fast schon beim ersten Quartil. ¤
Was Sie jetzt können:
Begriffe und Wissen: Erwartungswert, Varianz und Standardabweichung, Perzentile von Zufallsvariablen.
Methoden: Interpretation von Erwartungswert und Standardabweichung.
2.3. Normalverteilung
Übersicht:
1. Normalverteilung und Standardnormalverteilung
2. Umgang mit Normalverteilungstabellen
3. Der zentrale Grenzwertsatz
2.3.1. Normalverteilung und Standardnormalverteilung.
Übersicht:
1. Definition der Normalverteilung
2. Standardisierung von Normalverteilungen
3. χ2 -Verteilung, t-Verteilung und F-Verteilung
2.3. NORMALVERTEILUNG
75
2.3.1.1. Definition der Normalverteilung.
Wir definieren in diesem Kapitel die Normalverteilung. Die besondere Bedeutung dieser Verteilung werden wir erst verstehen, wenn wir in Unterabschnitt 2.3.3
über den zentralen Grenzwertsatz gesprochen haben. Grob gesprochen, erhält man
Normalverteilungen dann, wenn sich viele unabhängige Zufallsgrößen überlagern,
so wie das bei Mittelwerten von großen Stichproben der Fall ist, aber auch z.B. bei
verrauschten (also mit Zufallsfehlern überlagerten) physikalischen Messungen.
Definition 2.3.1.1. Eine stetige Zufallsvariable X heißt normalverteilt mit
Mittel µ und Standardabweichung σ, wenn die Dichtefunktion f von X folgende
Gestalt hat:
(x−µ)2
1
f (x) = √ e− 2σ2 .
σ 2π
Wir schreiben als Kurzschreibweise: X ∼ N (µ, σ).
Ist X normalverteilt mit Mittel 0 und Standardabweichung 1, so heißt X standardnormalverteilt.
Merksatz 2.3.1.2. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Dann
gilt:
1) Erwartungswert, Median und Modal von X liegen gemeinsam bei E(X) =
µ.
2) Die Standardabweichung von X ist σ(X) = σ.
3) Die Dichtekurve ist symmetrisch um den Mittelwert. Schiefe und Exzess
sind 0.
Beispiel 2.3.1.3. Die folgende Grafik zeigt die Dichtekurven von vier Normalverteilungen:
Mittelwert
µ
Standardabweichung σ
-2 -1 0
1
0.5 2 1 0.75
0.8
µ = −2, σ = 0.5
0.7
Dichtefunktion
0.6
µ = 2, σ = 0.75
0.5
µ = 0, σ = 1
0.4
0.3
µ = −1, σ = 2
0.2
0.1
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
x
Dichtekurven von Normalverteilungen
Diskussion: Alle Dichtekurven von Normalverteilungen haben die Form der Gaußschen Glockenkurve. Die Dichtekurve der Normalverteilung N (µ, σ) erhält man, indem man
1) Die Kurve der Standardnormalverteilung so verschiebt, dass der Gipfel auf µ fällt.
76
2. ZUFALLSGRÖSSEN
2) Die Kurve nun um den Faktor σ in der x-Richtung streckt und dafür in der y-Richtung
staucht, sodass die Fläche unter der Kurve 1 bleibt.
68% der Fläche unter der Dichtekurve liegen im Bereich µ ± σ.
¤
Schreibweise 2.3.1.4. Für standardnormalverteilte Zufallsvariablen wird bevorzugt der Buchstabe Z verwendet.
2.3.1.2. Standardisierung von Normalverteilungen.
Es gibt unendlich viele verschiedene Normalverteilung, eine zu jedem möglichen
Paar von Mittelwert und Standardabweichung. Trotzdem kann man die Verteilungsfunktionen zu allen dieser Normalverteilungen aus einer einzigen Tabelle ablesen,
nämlich der Tabelle der Standardnormalverteilung. Das wird durch den folgenden
Satz ermöglicht:
Merksatz 2.3.1.5. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Aus X
bilden wir durch Standardisierung eine neue Zufallsvariable
Z=
X −µ
.
σ
Dann ist Z standardnormalverteilt.
Merksatz 2.3.1.6. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable und Z
die zugehörige standardisierte Zufallsvariable. Die Umrechnung zwischen X und Z
erfolgt durch die Formeln:
Z=
X −µ
, und umgekehrt: X = µ + σZ.
σ
Beispiel 2.3.1.7. Sei X normalverteilt mit Mittel 3 und Standardabweichung
4. Sei Z die zugehörige standardisierte Zufallsvariable.
1) Wenn eine Realisierung von X den Wert 6 ergibt, wie groß ist dann die
Realisierung von Z?
2) Wenn eine Realisierung von Z den Wert -0.5 ergibt, wie groß ist dann die
Realisierung von X?
3) In welchem Bereich liegt Z, wenn X im Intervall [0, 6] liegt?
Diskussion:
1) Sei X = 6. Dann ist Z = 6−3
= 0.75.
4
2) Sei Z = −0.5. Dann ist X = 3 + 4 × (−0.5) = 1.
3) Ist X = 6, so wissen wir bereits: Z = 0.75. Ist X = 0, so ist Z =
liegt Z in [−0.75, 0.75], wenn X in [0, 6] liegt.
0−3
4
= −0.75. Daher
¤
2.3.1.3. χ2 -Verteilung, t-Verteilung und F-Verteilung.
Die χ2 -Verteilung tritt überall dort auf, wo Quadratsummen von normalverteilten Zufallsvariablen gebildet werden, und das geschieht zum Beispiel bei der Berechnung von Varianzen von
Stichproben aus normalverteilten Zufallsvariablen. Werden geschätzte Mittelwerte und geschätzte Varianzen verknüpft, so treten Verteilungen auf, die aus Normalverteilung und χ2 -Verteilung
kombiniert werden. Diese Verteilungen werden manchmal auch als Prüfverteilungen bezeichnet,
weil sie in vielen statistischen Tests verwendet werden. Wir werden diese Verteilungen in diesem
Unterabschnitt kurz einführen.
2.3. NORMALVERTEILUNG
77
Definition 2.3.1.8. Seien Z1 , Z2 , · · · , Zν unabhängige, standardnormalverteilte Zufallsvariable. Die Verteilung der Zufallsvariablen
χ2 = Z12 + Z22 + · · · + Zν2
heißt dann χ2 -Verteilung (sprich: Chi-Quadrat) mit ν Freiheitsgraden.
Es gibt auch eine relativ einfache explizite Formel für die Dichtefunktion der χ2 -Verteilungen,
die wir aber nicht brauchen werden. Für die Praxis braucht man die Perzentile, und die findet
man in geeigneten Tabellen.
Merksatz 2.3.1.9. Während die Normalverteilung die “natürliche” Verteilung
für geschätzte Mittelwerte ist, wurde die χ2 -Verteilung gerade so definiert, dass sie
bei geschätzten Varianzen auftritt: Wir nehmen vorweg:
Wird von einer N (µ, σ)-normalverteilten Zufallsvariablen X eine Stichprobe
von n unabhängigen Realisierungen x1 , · · · , xn erhoben, und daraus die Quadratsumme der Abweichungen vom Mittelwert gebildet
S=
n
X
(xi − x)2 ,
i=1
2
2
dann hat S/σ eine χ -Verteilung mit n − 1 Freiheitsgraden.
Merksatz 2.3.1.10. Die χ2 -Verteilung mit ν Freiheitsgraden nimmt nur positive Werte an. Ihr Erwartungswert ist ν, ihre Varianz ist 2ν.
Beispiel 2.3.1.11. Die folgende Grafik zeigt die Dichtekurven der χ2 -Verteilungen
mit den Freiheitsgraden 1 · · · 5.
1
0.9
0.8
0.7
0.6
n= 1
0.5
n= 2
0.4
n= 3
0.3
n= 4
n= 5
0.2
0.1
0
0
1
2
3
4
5
6
7
8
Dichtekurven der χ2 -Verteilungen mit n Freiheitsgraden
Diskussion: Sie sehen insbesondere, dass die Dichtekurve für einen Freiheitsgrad als einzige für
x → 0 gegen unendlich geht (trotzdem bleibt die Fläche unter der gesamten Dichtekurve endlich,
nämlich 1). Je höher der Freiheitsgrad, desto flacher die Dichtekurve, und desto weiter rechts der
Modal. Den negativen Bereich haben wir nicht gezeichnet. Im ganzen negativen Bereich ist die
Dichte exakt Null, denn die χ2 -Verteilung kann nur positive Werte annehmen.
¤
78
2. ZUFALLSGRÖSSEN
Außer der χ2 -Verteilung kommen auch sehr häufig die folgenden beiden Verteilungen vor,
welche wir nicht exakt definieren, sondern von denen wir nur den Anwendungsbereich umschreiben.
Den Nutzen solcher Verteilungen werden wir erst sehen, wenn wir uns mit den Problemen des
statistisches Schätzens und Testens befassen.
Merksatz 2.3.1.12.
1) Die Studentsche t-Verteilung tritt immer dort auf, wo aus einer Stichprobe
ein Mittelwert geschätzt und mit Hilfe einer ebenfalls aus der Stichprobe
geschätzten Standardabweichung standardisiert wird. Die t-Verteilung hat
Mittelwert 0 und eine glockenförmige Dichtekurve ähnlich wie die Standardnormalverteilung, nur etwas breiter. Es gibt t-Verteilungen für alle
Freiheitsgrade ν = 1, 2, 3 · · ·. Je höher der Freiheitsgrad, desto schlanker
die Glocke, und desto geringer die Streuung. Die t-Verteilung für unendlich viele Freiheitsgrade ist die Standardnormalverteilung.
2) Die F-Verteilung tritt immer dort auf, wo (zu Vergleichszwecken) der
Quotient von zwei aus Stichproben geschätzten Varianzen gebildet wird.
F-verteilte Zufallsvariable sind immer positiv. Die Kurvenform der FVerteilung ähnelt leicht der χ2 -Verteilung. Die F-Verteilung hat jeweils
zwei Freiheitsgrade, den Freiheitsgrad des Zählers und den Freiheitsgrad
des Nenners.
Was Sie jetzt können:
Begriffe und Wissen: Normalverteilung, Standardnormalverteilung, χ2 -Verteilung, Studentsche t-Verteilung, F-Verteilung.
Methoden: Standardisierung einer normalverteilten Zufallsvariablen.
2.3.2. Umgang mit Normalverteilungstabellen.
Übersicht:
1.
2.
3.
4.
5.
Tabelle der Verteilungsfunktion der Standardnormalverteilung
Anwendung der Tabelle der Verteilungsfunktion
Tabelle der kritischen Werte der Studentschen t-Verteilung
Tabelle der kritischen Werte der χ2 -Verteilung
Anwendung der Tabellen der kritischen Werte
2.3.2.1. Tabelle der Verteilungsfunktion der Standardnormalverteilung.
2.3. NORMALVERTEILUNG
79
Verteilungsfunktion der Standardnormalverteilung Z
Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990
Die Tabelle zeigt nicht genau die Verteilungsfunktion, sondern die Wahrscheinlichkeit, dass die Realisierungen einer standardnormalverteilten Zufallsvariablen Z
in das Intervall [0, z] fallen. Der ganzzahlige Teil und die erste Dezimale von z zeigen, in welcher Zeile der Tabelle gesucht wird, die zweite Dezimale von z zeigt, in
welcher Spalte zu suchen ist. Im Inneren der Tabelle findet sich dann die gesuchte
Wahrscheinlichkeit.
Beispiel 2.3.2.1. Wie groß ist die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable Werte zwischen Null und 0.75 annimmt?
Diskussion: Wir lesen die Tabelle für x = 0.75 ab:
0.00
0.01
...
0.05
0.0 0.0000 0.0040 . . .
0.0199
0.1 0.0398 0.0438 . . .
0.0596
.
.
.
.
..
..
..
..
0.7 0.2580 0.2611 . . . 0.2734
..
..
..
..
.
.
.
.
Es ergibt sich der Wert P (Z ∈ [0, 0.75]) = 0.2734.
¤
...
...
...
...
0.09
0.0359
0.0753
.
..
0.2852
..
.
80
2. ZUFALLSGRÖSSEN
2.3.2.2. Anwendung der Tabelle der Verteilungsfunktion.
Beispiel 2.3.2.2. Bestimmen Sie für eine standardnormalverteilte Zufallsvariable Z die Wahrscheinlichkeit P (Z ≤ −1 oder 2 ≤ Z).
Diskussion:
Schritt 1 und 2: Wir skizzieren die Dichtekurve der Normalverteilung, also die Gaußsche Glockenkurve. Sie ist symmetrisch um die y-Achse. Wir dunkeln den Bereich unter der Dichtekurve für
x ≥ 2 und x ≤ −1 ab. Diese Fläche ist die gesuchte Wahrscheinlichkeit.
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Dichtekurve und gesuchter Bereich
Schritt 3: Die Tabelle bezieht sich auf die Standardnormalverteilung, und genau das ist das Verteilungsgesetz von Z. Wir dürfen die Tabelle also verwenden, ohne Z irgendwie abzuändern. (Sehr oft
hat man normalverteilte Zufallsvariablen, die aber nicht standardisiert sind, etwa mit Mittelwert
ungleich Null. Hier müßte man erst auf die Standardnormalverteilung umrechnen. Das sehen wir
in einem späteren Abschnitt.)
Schritt 4: Die Tabelle zeigt nicht die Verteilungsfunktion selbst, sondern die Wahrscheinlichkeit,
dass Z zwischen 0 und x liegt:
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Was die Tabelle zeigt
Schritt 5:
a) Die Fläche zwischen 0 und 2 läßt sich direkt aus der Tabelle ablesen.
2.3. NORMALVERTEILUNG
81
b) Die Fläche zwischen -1 und 0 ist dieselbe wie zwischen 0 und 1, denn die Dichtekurve
der Normalverteilung ist symmetrisch um die y-Achse. Daher erhalten wir auch diese
Fläche direkt aus der Tabelle.
c) Die Fläche unter der gesamten Dichtekurve ist 1.
d) Die gesuchte Fläche ist genau der Bereich, der von den beiden Flächen a,b nicht bedeckt
ist.
0.4772
0.3413
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Auflösung der Flächen
Schritt 6: Die Ablesung der Tabelle erfolgt folgendermaßen: Der ganzzahlige Teil und die erste
Dezimalstelle von x bestimmen die Zeile, die zweite Dezimalstelle bestimmt die Spalte. Um Fläche
(a) zu bestimmen, lesen wir also in der Tabelle für x = 2.00 ab:
0.0
..
.
2.0
.
..
0.00
0.0000
..
.
0.4772
.
..
...
...
...
0.09
0.0359
..
.
0.4817
.
..
Damit ist also die Fläche (a): P (0 ≤ Z ≤ 2) = 0.4772. Ebenso können wir die Fläche (b) in der
Tabelle für x = 1.00 ablesen: P (−1 ≤ Z ≤ 0) = P (0 ≤ Z ≤ 1) = 0.3413.
Schritt 7: Die gesuchte Fläche ergibt sich durch Subtraktion: 1 - 0.4772 - 0.3413 = 0.1815.
¤
Tipp 2.3.2.3. Wenn Sie mit Tabellen arbeiten, nehmen Sie sich die Zeit, die
Dichtefunktion wenigstens grob zu skizzieren, wie beschrieben. Sie können damit
viele Fehler vermeiden und die Plausibilität Ihres Resultates überprüfen!
Beispiel 2.3.2.4. Sei X eine normalverteilte Zufallsvariable mit Mittelwert 0.72
und Standardabweichung 0.5. Wie groß ist die Wahrscheinlichkeit, dass X Werte
zwischen 0 und 2 annimmt?
Diskussion: Um die Tabelle der Standardnormalverteilung anzuwenden, müssen wir zunächst X
standardisieren:
X − 1.7
Z=
0.5
Wir benötigen die standardisierten Werte für X = 0 und X = 2.
X
Z
0 -1.44
2
2.56
Es liegt also X genau dann zwischen 0 und 2, wenn Z zwischen -1.44 und 2.56 liegt.
82
2. ZUFALLSGRÖSSEN
Wir machen nun eine Skizze der Dichtekurve einer standardnormalverteilten Zufallsvariablen:
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4
−3
−2
−1
0
1
2
3
4
Zu Beispiel 2.3.2.4
Aus der Tabelle der Standardnormalverteilung entnehmen wir:
• Die Wahrscheinlichkeit, dass Z zwischen Null und 1.44 liegt, beträgt 0.4251.
• Die Wahrscheinlichkeit, dass Z zwischen Null und 2.56 liegt, beträgt 0.4948.
Nach unserer Skizze müssen sich diese beiden Wahrscheinlichkeiten summiert werden. Die Wahrscheinlichkeit, dass Z zwischen -1.44 und 2.56 liegt, beträgt 0.9199. Dies ist zugleich die Wahrscheinlichkeit, dass X zwischen 0 und 2 liegt. ¤
Methode 2.3.2.5. Gegeben ist eine Zufallsvariable X mit bekannter und tabellierter Verteilungsfunktion, und ein Bereich B. Gesucht ist die Wahrscheinlichkeit,
dass X in den Bereich B fällt.
Schritt 1: Skizzieren Sie die Dichtefunktion der Zufallsvariablen.
Schritt 2: Zeichen Sie den Bereich B ein: Die Fläche unter der Dichtekurve ist die
gesuchte Wahrscheinlichkeit. Dies ist aber nur eine Skizze . . .
Schritt 3: Stellen Sie sicher, dass Ihre Tabelle wirklich zur richtigen Verteilungsfunktion gehört. Manchmal muss man Zufallsvariablen erst umskalieren, um
zu einer tabellierten Verteilungsfunktion zu gelangen.
Schritt 4: Überzeugen Sie sich, welche Wahrscheinlichkeiten Ihre Tabelle angibt. Nicht
immer ist der Tabellenwert die Verteilungsfunktion.
Schritt 5: Lösen Sie die gesuchte Fläche unter der Dichtekurve (also Bereich B) als
Summe und Differenz von Flächen auf, die direkt aus der Tabelle ablesbar
sind. Bei Bedarf verwenden Sie auch, dass die Fläche unter der gesamten
Dichtekurve gleich 1 ist.
Schritt 6: Lesen Sie für die einzelnen Flächen der Auflösung die Tabellenwerte ab.
Schritt 7: Bestimmen Sie die gesuchte Wahrscheinlichkeit durch entsprechende Addition und Subtraktion der Tabellenwerte.
2.3.2.3. Tabelle der kritischen Werte der Studentschen t-Verteilung.
Definition 2.3.2.6. Der kritische Wert für α einer Zufallsvariablen ist das
(1 − α)-Quantil. Das heißt, die Wahrscheinlichkeit, dass Realisierungen der Zufallsvariablen größer als der kritische Wert ausfallen, ist gerade α.
2.3. NORMALVERTEILUNG
83
0.4
0.35
kritischer Wert
für α = 0.05
bei Z=1.645
0.3
0.25
0.2
0.15
0.1
0.05
95%
0
−3
−2
−1
5%
0
1
2
3
Kritischer Wert der Standardnormalverteilung für α = 0.05
Quantile der t-Verteilung
α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt.
α
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
0,1
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
0,00025
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,290
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,660
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,984
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,364
2,326
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,626
2,576
127,321
14,089
7,453
5,598
4,773
4,317
4,029
3,833
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030
2,971
2,915
2,871
2,807
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,174
3,090
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,551
3,460
3,390
3,290
1273,155
44,703
16,326
10,305
7,976
6,788
6,082
5,617
5,291
5,049
4,863
4,717
4,597
4,499
4,417
4,346
4,286
4,233
4,187
4,146
4,109
4,077
4,047
4,021
3,997
3,974
3,954
3,935
3,918
3,902
3,788
3,681
3,598
3,481
84
2. ZUFALLSGRÖSSEN
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
0,05
α
0,025
0,01
0,005
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
51,805
63,167
74,397
85,527
96,578
107,565
118,498
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
55,758
67,505
79,082
90,531
101,879
113,145
124,342
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
59,342
71,420
83,298
95,023
106,629
118,136
129,561
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
63,691
76,154
88,379
100,425
112,329
124,116
135,807
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,335
53,672
66,766
79,490
91,952
104,215
116,321
128,299
140,170
Die Tabellen zeigen einige ausgesuchte, besonders oft gebrauchte Quantile der
t-Verteilung bzw. der χ2 -Verteilung. Die Spalte, welche mit α indiziert ist, zeigt
den kritischen Wert für α, also das (1 − α)-Quantil. Jede Zeile gehört zu einer
Verteilung mit einem bestimmten Freiheitsgrad. Die letzte Zeile der t-Tabelle gehört
zur Standardnormalverteilung.
2.3.2.4. Anwendung der Tabellen der kritischen Werte.
Beispiel 2.3.2.7. Wo liegt das 99%-Perzentil der t-Verteilung mit 6 Freiheitsgraden? Wo liegt das 99%-Perzentil der Standardnormalverteilung?
Diskussion: Das 99%-Perzentil ist der kritische Wert für α = 0.01. Für die t-Verteilung mit 6
Freiheitsgraden finden wir den Wert 3.143. Für die Standardnormalverteilung (unendlich viele
Freiheitsgrade) finden wir den Wert 2.326. ¤
Beispiel 2.3.2.8. Wo liegt das 95%-Perzentil einer N(8,3)-normalverteilten Zufallsvariablen X?
2.3. NORMALVERTEILUNG
85
Diskussion: Laut Tabelle liegt das 95%-Perzentil einer standardnormalverteilten Zufallsvariablen
Z bei Z = 1.645. Wenn Z = 1.645 ist, dann ist X = 8 + 3 × 1.645 = 12.935. Nun ist die
Wahrscheinlichkeit P (Z ≤ 1.645) = 0.95 dasselbe wie die Wahrscheinlichkeit P (X ≤ 12.935).
Also liegt das 95%-Perzentil von X bei 12.935. ¤
Beispiel 2.3.2.9. Wie groß muss z sein, damit für eine standardnormalverteilte Zufallsvariable Z gilt: Die Wahrscheinlichkeit, dass Z außerhalb des Intervalls
[−z, z] liegt, ist 0.05.
Diskussion: Es gibt zwei Möglichkeiten, dass Z außerhalb von [−z, z] zu liegen kommt, nämlich
Z < −z oder Z > z:
0.4
0.35
0.3
0.25
0.2
.
0.15
0.1
P(Z>1.96)=0.025
P(Z<−1.96)=0.025
0.05
0
−4
−3
−2
−1
0
1
2
3
4
Zu Beispiel 2.3.2.9
Die Wahrscheinlichkeit beider Möglichkeiten soll sich laut Problemstellung zu 0.05 summieren,
sodass wir jeder der beiden Möglichkeiten die Wahrscheinlichkeit α = 0.025 zugestehen. Das
gesuchte z ist also der kritische Wert der Standardnormalverteilung zu α = 0.025, und das ist laut
Tabelle 1.960. ¤
Tipp 2.3.2.10. Die Quantile der Standardnormalverteilung findet man in Tabellen der Quantile der t-Verteilung (die wir bald besprechen werden) mit ∞ Freiheitsgraden.
Wer oft mit Hilfe von Tabellen statistische Tests durchführt, kennt die folgenden
Quantile der Standardnormalverteilung meist schon auswendig:
α
Quantil bei
0.1
1.282
0.05
1.645
0.025
1.960
0.01
2.326
0.005
2.576
Hier ist α die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable ihre Realisierung oberhalb des Quantils annimmt.
Beispiel 2.3.2.11. Wie groß muss x sein, damit eine χ2 -verteilte Zufallsvariable
mit 10 Freiheitsgraden nur in 5% aller Fälle einen Wert größer als x annimmt?
Diskussion: Wir suchen den kritischen Wert einer χ2 -verteilten Zufallsvariablen mit 10 Freiheitsgraden für α = 0.05. Die Tabelle zeigt den Wert x = 18.307.
¤
Bemerkung 2.3.2.12. Für viele andere wichtige Verteilungen gibt es ebenfalls
Tabellen. Mit der Verbreitung bequemer Statistikpakete für Computer verlieren
diese Tabellenwerke langsam ihre Bedeutung im statistischen Alltag.
86
2. ZUFALLSGRÖSSEN
Was Sie jetzt können:
Methoden: Umgang mit Tabellen zur Bestimmung von Wahrscheinlichkeiten und kritischen Werten.
2.3.3. Zentraler Grenzwertsatz.
Übersicht:
1. Rechenregeln für Erwartungswert und Varianz
2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen
Realisierungen einer Zufallsvariablen
3. Der zentrale Grenzwertsatz
2.3.3.1. Rechenregeln für Erwartungswert und Varianz.
Wenn man zwei Zufallsvariablen realisiert und von den Realisierungen die Summe bildet,
ist diese Zahl wieder das Ergebnis eines Zufallsexperimentes, also eine Zufallsvariable. In statistischen Untersuchungen arbeiten wir mit Stichproben, und ihren Mittelwerten und Varianzen.
Eine Zufallsstichprobe besteht, mathematisch gesprochen, aus n unabhängigen Realisierungen einer Zufallsvariablen. Der Mittelwert der Stichprobe wird daraus gebildet, dass alle Realisierungen
addiert und am Ende mit 1/n multipliziert werden. Um die Eigenschaften des Stichprobenmittelwertes als Zufallsvariable zu charakterisieren, müssen wir also verfolgen, was geschieht, wenn
Zufallsvariable addiert und letztlich mit Konstanten multipliziert werden.
Definition 2.3.3.1. Seien X, X1 , X2 , . . . , Xn Zufallsvariablen und k eine Zahl.
1) Die Realisierungen der Zufallsvariable X1 + · · · + Xn erhält man, indem
man zunächst jedes Xi realisiert, und dann die Realisierungen addiert.
2) Die Realisierungen der Zufallsvariablen kX erhält man, indem man zunächst
X realisiert, und dann die Realisierung mit k multipliziert.
Beispiel 2.3.3.2. Seien Z1 , Z2 unabhängige Realisierungen einer Zufallsvariablen
Z. Was ist der Unterschied zwischen Z1 + Z2 und 2Z?
Stellen Sie die Verteilungen für den Fall auf, dass Z durch den Wurf mit einer
fairen Münze realisiert wird: Kopf = 1, Wappen = 0.
Diskussion: Für Z1 + Z2 wird Z in zwei unabhängigen Versuchen realisiert, und dann die Summe
gebildet. Für 2Z wird nur eine Realisierung ermittelt, und diese mit 2 multipliziert.
Als Beispiel der Wurf mit einer fairen Münze. Zunächst die Verteilung von Z:
mögliche
Realisierungen
xi
0
1
Wahrscheinlichkeit
pi
0.5
0.5
Nun die Verteilung von 2Z:
mögliche
Realisierungen
xi
0
2
Dagegen die Verteilung von Z1 + Z2 :
Wahrscheinlichkeit
pi
0.5
0.5
Realisierung
von Z
0
1
2.3. NORMALVERTEILUNG
mögliche
Realisierungen
xi
0
1
2
Wahrscheinlichkeit
pi
0.25
0.5
0.25
87
Realisierungen
von Z1 , Z2
0,0
0,1 oder 1,0
1,1
¤
Die folgenden Rechenregeln gelten für Erwartungswert und Varianz:
Merksatz 2.3.3.3. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
den Erwartungswert gelten folgende Rechenregeln:
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ),
E(kX) = kE(X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch für die Multiplikation
E(X1 × · · · × Xn ) = E(X1 ) × · · · × E(Xn ).
Merksatz 2.3.3.4. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
die Varianz gelten folgende Rechenregeln:
σ 2 (kX) = k 2 σ 2 (X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch
σ 2 (X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ).
Als unmittelbare Folge erhalten wir für die Standardabweichung:
Merksatz 2.3.3.5. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
die Standardabweichung gelten folgende Rechenregeln:
σ(kX) = |k|σ 2 (X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch
p
σ(X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ).
Merksatz 2.3.3.6.
1) Damit sich die Varianzen addieren, müssen die Zufallsvariablen unabhängig
sein.
2) Es addieren sich die Varianzen, nicht die Standardabweichungen. Bei unabhängigen Zufallsvariablen X1 , · · · , Xn gehen die Standardabweichungen
wie die Längen rechtwinkeliger Dreiecke im Satz von Pythagoras.
Beispiel 2.3.3.7. Dieses triviale Beispiel zeigt, wie wichtig die Unabhängigkeit
für die obigen Rechenregeln ist. Sei X eine Zufallsvariable mit Varianz σ 2 (X). Wir
benennen Y = −X. Bestimmen Sie die Varianz von X + Y .
Diskussion: Wenn X und Y unabhängig wären, würde gelten
σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) = 2σ 2 (X).
Beachten Sie aber, dass X und Y nicht unabhängig sind: Mit der Realisierung von X liegt bereits
die Realisierung von Y fest. Tatsächlich ist immer
X + Y = X − X = 0,
sodass σ 2 (X + Y ) = 0.
¤
88
2. ZUFALLSGRÖSSEN
Beispiel 2.3.3.8. Sei X eine Zufallsvariable mit Erwartungswert E(X) = 5
und Standardabweichung σ(X) = 2. Seien X1 , · · · , X9 unabhängige Realisierungen von X. Berechnen Sie Erwartungswert und Standardabweichung der folgenden
Zufallsvariablen:
S = 9X,
T =
9
X
Xi ,
i=1
9
U=
1X
Xi .
9 i=1
Diskussion:
E(S) = E(9X) = 9E(X) = 45,
σ 2 (S) = σ 2 (9X) = 81σ 2 (X) = 324,
σ(S) = σ(9X) = 9σ(X) = 18,
Ã
E(T ) = E
9
X
!
Xi
=
i=1
σ 2 (T ) = σ 2
Ã 9
X
!
Xi
i=1
σ(T ) = σ
Ã 9
X
9
X
E(Xi ) = 9 × 5 = 45,
i=1
=
9
X
σ 2 (Xi ) = 9 × 4 = 36,
i=1
!
Xi
i=1
v
u 9
uX
√
=t
σ 2 (Xi ) = 9 × σ(X) = 6,
i=1
1
1
E(U ) = E( T ) = E(T ) = 5,
9
9
1
1 2
4
σ 2 (U ) = σ 2 ( T ) =
σ (T ) = ,
9
81
9
1
2
1
σ(U ) = σ( T ) = σ(T ) = .
9
9
3
¤
2.3.3.2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen Realisierungen einer Zufallsvariablen.
Merksatz 2.3.3.9. Seien x1 , · · · , xn eine Stichprobe aus n unabhängigen Realisierungen einer Zufallsvariablen X mit Erwartungswert E(X) und Standardabweichung σ(X). Dann ist auch das Stichprobenmittel eine Zufallsvariable:
x=
1
(X1 + · · · + Xn ) :
n
Es gilt dann:
E(x) = E(X),
1
σ(x) = √ σ(X).
n
√Tipp 2.3.3.10. Die Standardabweichung des Mittelwertes ist proportional zu
1/ n. Durch große Stichprobenumfänge wird sichergestellt, dass der Mittelwert
nicht allzu sehr schwankt. Um die Standardabweichung des Mittelwertes zu halbieren, muss der Stichprobenumfang vervierfacht werden.
2.3. NORMALVERTEILUNG
89
Beispiel 2.3.3.11. Sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Drei Personen versuchen, den unbekannten
Erwartungswert zu schätzen:
A) Person A realisiert die Zufallsvariable einmal, und verwendet das Ergebnis
als Schätzer für den Erwartungswert von X.
B) Person B erhebt eine Stichprobe von vier unabhängigen Realisierungen,
und verwendet den Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X.
C) Person C erhebt hundert unabhängige Realisierungen, und verwendet den
Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X.
Alle drei Personen berechnen als Schätzer eine Zufallsvariable, deren Mittelwert der
gesuchte Parameter, nämlich der Erwartungswert von X ist. Die Standardabweichung der drei Schätzer sind aber verschieden. Wie groß sind die Standardabweichungen, und welche Auswirkung hat das auf die Güte der Schätzung?
Diskussion:
A) Person A verwendet eine Realisierung von X als Schätzer, die Standardabweichung ist
daher 8.
B) verwendet ein Stichprobenmittel mit Umfang n = 4. Die Standardabweichung dieses
Mittelwertes ist √1 8 = 4.
4
C) verwendet ein Stichprobenmittel mit Umfang n = 100. Die Standardabweichung dieses
Mittelwertes ist √ 1 8 = 0.8.
100
Alle drei Schätzmethoden unterliegen dem Zufall, die geschätzten Zahlen sind Zufallsvariablen. Die
Erwartungswerte aller drei Schätzer sind der gesuchte Parameter, insofern sind alle drei Schätzer
geeignet. Die Standardabweichung ist aber umso kleiner, je größer die Stichprobe ist, und wenn
der Schätzer eine kleine Standardabweichung hat, bedeutet das, dass er nur selten weit von seinem
Mittelwert abweicht. Das heißt wiederum, dass mit großer Wahrscheinlichkeit der Schätzer nahe
am gesuchten Parameter liegt. ¤
Merksatz 2.3.3.12. Die Untersuchung einer Zufallsvariablen durch große Stichproben statt einzelner Realisierungen hat den Zweck, die Streuung der Ergebnisse
klein zu halten, und damit den Einfluss des Zufalls möglichst einzudämmen.
Beispiel 2.3.3.13. Wie in Beispiel 2.3.3.11 sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Der unbekannte Erwartungswert soll durch den Mittelwert einer Stichprobe des Umfanges n geschätzt
werden. Wie groß muss n sein, damit die Standardabweichung des Stichprobenmittelwertes nicht größer als 0.1 ist?
Diskussion: Die Standardabweichung des Stichprobenmittelwertes ist
1
8
√ σ(X) = √ .
n
n
Es soll also gelten:
8
√ ≤ 0.1,
n
d.h.
√
n ≥ 80,
d.h.
n ≥ 6400.
¤
2.3.3.3. Der zentrale Grenzwertsatz.
Wir beginnen mit einer der wichtigsten Eigenschaften der Normalverteilung:
Merksatz 2.3.3.14. Die Normalverteilung ist eine stabile Verteilung, das heißt:
Sind X und Y zwei unabhängige normalverteilte Zufallsvariable, und ist k eine Zahl,
so sind auch die Zufallsvariablen kX und X + Y normalverteilt.
90
2. ZUFALLSGRÖSSEN
Diskussion: In anderen Worten: Aus normalverteilten unabhängigen Zufallsvariablen erhält man
durch Multiplikation mit festen Zahlen und durch Addition nur wieder normalverteilte Zufallsvariable.
¤
Beispiel 2.3.3.15. Seien X ∼ N (3, 1), Y ∼ N (1, 5) und Z ∼ N (4, 6) drei
unabhängige normalverteilte Zufallsvariablen mit Erwartungswerten 3 bzw. 1 bzw.
4 und Standardabweichungen 1, 5, bzw. 6. Welche Verteilung hat die Zufallsvariable
U = 10X + Y + Z?
Diskussion: Wegen der Stabilität der Normalverteilung ist auch U wieder normalverteilt. Die
Mittelwerte summieren sich. Beachtet man noch, dass E(10X) = 10E(X), so erhält man
E(U ) = 10 × 3 + 1 + 4 = 35.
Auch die Varianzen summieren sich. (Unabhängigkeit war ja vorausgesetzt.) Die Varianz σ 2 (10X) =
100σ 2 (X). Wir erhalten
σ 2 (U ) = 100 × 12 + 52 + 62 = 161,
√
σ(U ) = 161 ≈ 12.69.
Die Zufallsvariable U ist N (35, 12.69)-normalverteilt.
¤
Als unmittelbare Folgerung erhalten wir:
Merksatz 2.3.3.16. Sei X eine normalverteilte Zufallsvariable mit Mittelwert
µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X,
und sei x das Stichprobenmittel
√ daraus. Dann ist x normalverteilt mit Mittelwert
µ und Standardabweichung σ/ n.
Die besondere Bedeutung der Normalverteilung kommt aber vom folgenden Satz:
Merksatz 2.3.3.17 (Zentraler Grenzwertsatz). Sei X eine beliebige Zufallsvariable mit Erwartungswert µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X und sei x das Stichprobenmittel davon. Wenn n
ausreichend groß ist, dann
√ ist x annähernd normalverteilt mit Mittelwert µ und
Standardabweichung σ/ n.
Diskussion: Eine mathematisch scharfe Formulierung dieses Satzes benötigt die Sprache der Grenzwertrechnung in Verbindung mit Wahrscheinlichkeitstheorie. ¤
Tipp 2.3.3.18. In der Praxis geht man davon aus, dass ein Stichprobenmittel
aus einer Stichprobe des Umfanges 30 oder mehr so gut wie normalverteilt ist.
Beispiel 2.3.3.19. Sei Y eine χ2 -verteilte Zufallsvariable mit einem Freiheitsgrad.
Der Erwartungswert von Y ist daher 1, die Standardabweichung von Y ist
√
2. Die folgende Grafik zeigt die Dichtekurven der Stichprobenmittelwerte von ν
unabhängigen Realisierungen von Y .
2.3. NORMALVERTEILUNG
91
4.5
4
ν=200
3.5
3
ν=1
2.5
2
ν=2
1.5
ν=3
ν=50
ν=4
ν=10
1
0.5
0
0
0.5
1
1.5
2
2.5
3
Dichtekurven von Mittelwerten aus ν unabhängigen Realisierungen einer χ2 -verteilten
Zufallsvariablen mit 1 Freiheitsgrad.
Diskussion: Während die Verteilung von Y , die χ2 -Verteilung mit einem Freiheitsgrad, eine ganz
andere Form als eine Glockenkurve hat, werden für große ν die Dichtekurven der Stichprobenmittel
immer ähnlicher zu Normalverteilungskurven. Für ν = 50 ist die Normalverteilungskurve schon
sehr gut nachgebildet. ¤
Wir fassen unsere bisherigen Ergebnisse über den Stichprobenmittelwert zusammen: Wir kennen seine Eigenschaften so gut wie vollständig!
Merksatz 2.3.3.20. Sei X eine Zufallsvariable mit Erwartungswert E(X) = µ
und Standardabweichung σ(X) = σ. Sei x das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt
1) Der Erwartungswert von x ist µ, damit ist x ein erwartungstreuer Schätzer
für µ.
p
2) Die Standardabweichung von x ist σ/ (n). Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht.
3) Ist X normalverteilt, so ist auch x normalverteilt.
4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥
30), so ist x annähernd normalverteilt.
Was Sie jetzt können:
Begriffe und Wissen: Rechenregeln für Erwartungswert und Varianz, Eigenschaften des Mittelwertes. Auswirkung des Stichprobenumfanges auf die Standardabweichung des Stichprobenmittelwertes.
Zentraler Grenzwertsatz.
KAPITEL 3
Statistisches Schätzen und Testen
Übersicht:
1. Schätzen und Testen
1.1. Statistisches Schätzen von Parametern
1.2. Einige wichtige Punktschätzer
1.3. Schema eines statistischen Tests
1.4. Beispiele von statistischen Tests
2. t-Test
2.1. Konfidenzintervall für den Mittelwert
2.2. t-Test auf den Mittelwert
2.3. Vergleichstests auf Basis des t-Tests
3. Binomialverteilung
3.1. Abzählen
3.2. Binomialverteilung und Binomialtest
3.3. Normalapproximation der Binomialverteilung
4. Parameterfreie Methoden
4.1. Anpassung von Verteilungen
4.2. χ2 -Tests für nominale Daten
4.3. Tests für ordinale Daten
3.1. Schätzen und Testen
Übersicht:
1.
2.
3.
4.
Punktschätzer und Intervallschätzer
Einige wichtige Punktschätzer
Schema eines statistischen Tests
Beispiele von statistischen Tests
3.1.1. Statistisches Schätzen von Parametern.
Übersicht:
1. Schließende Statistik
2. Punktschätzer und Intervallschätzer
3. Punktschätzer als Zufallsvariable
93
94
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.1.1.1. Schließende Statistik.
Wenn eine Aussage über eine Grundgesamtheit auf Grund von Stichproben gewonnen werden soll, besteht immer das Risiko, dass durch den Zufall eine Stichprobe gewählt wird, die die
Eigenschaften der Grundgesamtheit sehr verzerrt wiedergibt. Fehler kann man reduzieren, indem
man die Stichprobe repräsentativ wählt und willkürliche Verfälschungen vermeidet, und indem
man eine ausreichend große Stichprobe untersucht. Trotzdem bleibt ein Restrisiko bestehen.
Die Methoden der schließenden Statistik dienen dazu, dieses Restrisiko zu quantifizieren:
1) Wie groß ist das Fehlerrisiko, wenn ich aus einer Stichprobe gegebener Größe einen
Schluss ziehe?
2) Wie groß muss eine Stichprobe gewählt werden, um das Fehlerrisiko kleiner als einen
vorgegebenen Wert zu machen?
3) Systematische Verfahren, die nach strengen Regeln ablaufen, liefern in einem vorgegebenen Prozentsatz aller Fälle ein richtiges Resultat, wenn sie immer wieder angewendet
werden.
Leider läßt sich nicht mehr Sicherheit gewinnen. Der Einzelfall kann immer noch, auch bei sorgfältigster Arbeitsweise, einer der Ausnahmefälle sein, in denen der Zufall einen Fehlschluss verursacht.
Merksatz 3.1.1.1. Schließende Statistik stellt Methoden bereit, um Schlüsse
von Stichproben auf eine Grundgesamtheit zu gewinnen, und die Wahrscheinlichkeit
der unvermeidbaren Zufallsfehler bei diesen Schlüssen zu quantifizieren. Ein statistischer Test gibt Antworten auf Ja-Nein-Fragen. Ein statistischer Schätzer
behandelt Fragen, die mit Zahlenwerten zu beantworten sind.
3.1.1.2. Punktschätzer und Intervallschätzer.
Definition 3.1.1.2.
Ein Punktschätzer ist ein Verfahren, das nach einer festen Formel aus gegebenen Daten einer Stichprobe einen Parameter einer Grundgesamtheit oder einer
Zufallsvariablen schätzt.
Ein k%-Konfidenzintervall ist ein Verfahren, das nach einer festen Formel
aus gegebenen Daten einen Parameter einer Grundgesamtheit oder einer Zufallsvariablen in ein Intervall eingrenzt, und zwar so, dass bei häufiger und regelmäßiger
Anwendung des Verfahrens der Parameter in k Prozent aller Fälle richtig eingegrenzt wird.
Tipp 3.1.1.3. Lassen Sie sich von der Bezeichnung “Schätzung” nicht irreleiten.
Statistische Schätzung besteht in sehr exakten und reproduzierbaren Verfahren und
ist keine “Tangens Daumen mal Pi”-Mathematik. Die StatistikerInnen erlauben sich
dabei keine Ungenauigkeiten. Die einzige Unsicherheit — und deshalb redet man
von Schätzung — kommt von den unvermeidbaren Auswirkungen des Zufalls auf
die Stichprobennahme.
Beispiel 3.1.1.4. In einer Meinungsumfrage wurden 4000 Personen befragt,
ob sie für eine neue Gesetzesvorlage stimmen würden. 600 der Befragten (das sind
15%) würden dafür stimmen. Die Stichprobe entspricht in ihrer Zusammensetzung
der Zusammensetzung der gesamten wahlberechtigten Bevölkerung eines Landes.
Wieviel Prozent aller Wahlberechtigten würden für die Gesetzesvorlage stimmen?
Diskussion: Wir suchen einen Parameter über die Gesamtheit aller Wahlberechtigten des Landes:
Nämlich den Anteil derer, die für die Gesetzesvorlage stimmen würden. Dies ist keine Zufallsgröße,
wenn wir alle Wahlberechtigten befragen könnten, hätten wir diese Zahl fixiert. Wir haben aber nur
den Mittelwert aus einer Stichprobe, das waren 15%. Diese Zahl ist eine Zufallsgröße: Es hängt
3.1. SCHÄTZEN UND TESTEN
95
von der Auswahl der Stichprobe ab, ob sie etwas größer oder kleiner ausfällt. Unsere Aufgabe
besteht also darin, einen Parameter aus einer Zufallsgröße zu schätzen.
Unsere erste Schätzung ist sicherlich: Der Anteil der Pro-Stimmen in der wahlberechtigten
Bevölkerung ist geschätzt 15%. Das ist ein Punktschätzer: Aus den Daten der Stichprobe wird systematisch mittels eines reproduzierbaren Verfahrens ein Schätzwert für den gesuchten Parameter
ermittelt.
Der Punktschätzer läßt aber eine wichtige Frage offen: Wie genau dürfen wir den Schätzwert
nehmen? Liegt der Anteil der Pro-Stimmen zwischen 14% und 16%, oder zwischen 10% und 20%?
Ein Schätzer, der den Parameter in ein Intervall eingrenzt, ist ein Intervallschätzer.
Je breiter wir das Intervall angeben, desto weniger werden wir uns irren, aber umso weniger informativ wird unsere Antwort ausfallen. Geben wir dagegen ein sehr enges Intervall an,
ist natürlich die Wahrscheinlichkeit groß, dass wir den Parameter nicht richtig eingrenzen. Trefferwahrscheinlichkeit und Genauigkeit der Aussage müssen gegeneinander in einem Kompromiss
abgewogen werden.
Wenn wir in ein Statistikprogramm diese Daten eingeben und ein Konfidenzintervall mit 95%
Konfidenz anfordern, könnte folgende Ausgabe erfolgen:
Stichprobenumfang:
positive :
Anteil:
Standardfehler des Anteils:
Konfidenz:
Konfidenzintervall:
untere Schranke
obere Schranke
4000
600
0.015
0.00565
95%
0.1389
0.1611
Wir sehen zunächst unsere Daten, und den daraus geschätzten Anteil der Pro-Stimmen. Da
diese Größe eine Zufallsgröße ist, hat sie eine Streuung, und diese wird durch den Standardfehler
ausgedrückt. Die Konfidenz haben wir selbst eingegeben. Das Konfidenzintervall für den Anteil
der Pro-Stimmen in der wahlberechtigten Bevölkerung ist
95% Konfidenzintervall: [0.1389, 0.1611] .
Das heißt, nach unserer Methode ergibt sich eine Schätzung, dass der Anteil der Pro-Stimmen
zwischen 13.89% und 16.11% liegt. Allerdings grenzt diese Methode nur in 19 von 20 Fällen den
Anteil richtig ein. Wenn wir eine bessere Trefferquote erzielen wollen, müssen wir eine höhere
Konfidenz wählen:
99% Konfidenzintervall: [0.1355, 0.1645] .
Sie sehen, dass wir die höhere Trefferwahrscheinlichkeit mit einem breiteren Intervall, also einer
ungenaueren Einschätzung des Parameters, bezahlen.
Wie die Berechnung des Konfidenzintervalls tatsächlich erfolgt ist, werden wir später lernen.
¤
Merksatz 3.1.1.5. Es besteht ein Kompromiss zwischen der Genauigkeit der
Schätzung eines Parameters, der Qualität der zugrundeliegenden Daten, und der
Trefferwahrscheinlichkeit des Konfidenzintervalls:
a) Je höher die Konfidenz, also je geringer die Wahrscheinlichkeit einer Fehleinschätzung, desto breiter ist das Konfidenzintervall.
b) Je kleiner die Stichprobe, desto breiter das Konfidenzintervall.
c) Je stärker die Streuung der Daten, desto breiter das Konfidenzintervall.
Beispiel 3.1.1.6. Ein Verein für Konsumentenschutz untersucht das Füllgewicht von Kaffeepackungen verschiedener Firmen: Stimmt das tatsächliche Füllgewicht mit der aufgedruckten Gewichtsangabe wirklich überein? Im gegenständlichen Fall wurden 64 Packungen einer Firma untersucht, das mittlere Füllgewicht
96
3. STATISTISCHES SCHÄTZEN UND TESTEN
der Stichprobe lag bei 498 Gramm, mit einer Standardabweichung von 6 Gramm.
Durch ein Statistikprogramm wurde das 99%-Konfidenzintervall berechnet.
Stichprobenumfang:
Mittelwert der Stichprobe:
Varianz:
Standardabweichung
Standardfehler des Mittelwertes
Konfidenz:
Konfidenzintervall für den Mittelwert:
Untere Schranke
Obere Schranke
64
498
36
6
0.75
99%
500.07
495.93
Was bedeutet die Tabelle?
Diskussion: Die Tabelle zeigt uns zunächst die zugrundeliegenden Daten der Stichprobe mit ihren
wichtigsten Kennzahlen: Den Mittelwert (zugleich unser Punktschätzer für das mittlere Gewicht
aller Kaffeepäckchen dieser Firma) und die Standardabweichung als Maß, wie stark die Daten
dieser Stichprobe streuen. Der Punktschätzer für den Mittelwert ist aber eine Zufallsvariable, weil
er von der Stichprobe abhängt, und hat als solche eine Streuung, welche als Standardfehler des
Mittelwertes ausgewiesen ist. Letztlich wird das Konfidenzintervall aus diesen Daten berechnet:
99% Konfidenzintervall: [495.93, 500.07] .
Wir grenzen also das mittlere Gewicht der Kaffeepäckchen zwischen 495.93 und 500.07 Gramm
ein. Es kann immer noch sein, dass wir diesmal eine extreme Stichprobe erfaßt haben, und diese
Einschätzung falsch ist. Aber ein solcher Fehler passiert bei Einsatz dieser Methode nur in einem
von hundert Fällen.
¤
Beispiel 3.1.1.7. Das 99%-Konfidenzintervall für das mittlere Gewicht der
Kaffeepackungen einer Firma wurde in Beispiel 3.1.1.6 mit [495.93, 500.07] angegeben. Heißt das, dass 99% aller Kaffeepackungen dieser Firma ein Gewicht zwischen
495.93 und 500.07 Gramm haben?
Diskussion: Nein! Das Konfidenzintervall schätzt das mittlere Gewicht aller Kaffeepackungen der
Firma, und die Schätzmethode grenzt in 99% aller Fälle den Mittelwert richtig ein. Es ist keine
Aussage über die Gewichte der einzelnen Päckchen und deren Streuung gemacht. ¤
3.1.1.3. Punktschätzer als Zufallsvariable.
Merksatz 3.1.1.8. Aus einer Grundgesamtheit wird eine Stichprobe entnommen, und daraus soll durch einen Punktschätzer ein Parameter geschätzt werden.
1) Da sich die Daten der Stichprobe durch Zufallseinflüsse ergeben, sind sie
Zufallsvariable.
2) Da sich der Schätzer aus den Daten der Stichprobe errechnet, ist er ebenfalls eine Zufallsvariable.
3) Dagegen ist der gesuchte Parameter der Grundgesamtheit eine feste Zahl,
auch wenn wir sie nicht kennen. Er ist keine Zufallsvariable.
Wir führen noch eine weit verbreitete Schreibweise ein:
Definition 3.1.1.9. Sei a ein Parameter. Wenn für a ein Punktschätzer eingerichtet wird, bezeichnen wir diesen Schätzer oft mit â (sprich: a Dach).
Diskussion: Es ist also a eine feste, aber uns unbekannte Zahl, die wir möglichst genau ermitteln wollen. Dagegen wird â aus der Stichprobe nach gegebenen Formeln errechnet und ist eine
Zufallsvariable, die je nach Stichprobe verschieden ausfallen kann.
¤
3.1. SCHÄTZEN UND TESTEN
97
Die Eigenschaften von Zufallsvariablen werden (unter anderem) durch statistische Kennzahlen ausgedrückt. Als Zufallsvariable hat ein Punktschätzer (normalerweise) einen Erwartungswert und eine Standardabweichung. Wir interpretieren die Rolle dieser Werte für die Praxis des
Schätzens.
Definition 3.1.1.10. Ein Punktschätzer â für einen Parameter a heißt erwartungstreu (englisch: unbiased), wenn gilt:
E(â) = a.
Wenn die Differenz des Erwartungswertes des Schätzers vom Parameter |E(â) − a|
zwar nicht exakt Null ist, aber für grosse Stichprobenumfänge gegen Null geht,
heißt der Schätzer asymptotisch erwartungstreu.
Diskussion: Jeder Schätzer wird manchmal den gesuchten Parameter überschätzen und manchmal unterschätzen. Ob ein Schätzer systematisch eher zum Überschätzen, oder systematisch eher
zum Unterschätzen neigt, zeigt sich am Erwartungswert. Wenn der Erwartungswert des Schätzers
exakt der gesuchte Parameter ist, wird der Schätzer weder systematisch überschätzen noch unterschätzen.
¤
Merksatz 3.1.1.11. Ein erwartungstreuer Punktschätzer ist umso besser, je
geringer seine Varianz (und damit seine Standardabweichung) ist.
Diskussion: Jeder Schätzer weicht im Einzelfall mehr oder weniger vom gesuchten Parameter ab.
Ein guter Schätzer weicht aber in den meisten Fällen möglichst wenig vom gesuchten Parameter
ab, er hat also eine geringe Streuung. ¤
Definition 3.1.1.12. Der Standardfehler eines Schätzers ist seine Standardabweichung.
Beispiel 3.1.1.13. Ein Statistikprogramm könnte folgende Tabelle nach Analyse einer Häufigkeitstabelle ausgeben:
Stichprobenumfang
Mittelwert
Varianz
Standardabweichung
Standardfehler des Mittelwertes
95% Konfidenzintervall
untere
obere
100
8
1.21
1.1
0.11
7.7844
8.2156
Vergleichen Sie die Standardabweichung und den Standardfehler des Mittelwertes.
Diskussion: Wir gehen die Daten Stück für Stück durch.
Der Stichprobenumfang ist 100. SPSS geht davon aus, dass diese Daten eine Stichprobe aus
einer weit größeren Gesamtheit darstellen.
Der Mittelwert der Stichprobe ist 8. Zugleich ist dies ein Schätzer für den Mittelwert innerhalb
der ganzen Grundgesamtheit.
Die Varianz der Stichprobe ist 1.21, die Standardabweichung die Wurzel davon, also 1.1.
SPSS berechnet allerdings die Varianz mit dem Nenner
s2 (x) =
n
1 X
(xi − x)2 .
n − 1 i=1
Den Grund dafür werden wir bald genauer besprechen. Dies ist nämlich ein besserer Schätzer für
die Varianz der Grundgesamtheit: er ist erwartungstreu. Wie interpretieren wir die Standardabweichung der Grundgesamtheit? Nach der Faustregel (wenn sie anwendbar ist), liegen etwa 95%
der Daten der Grundgesamtheit zwischen 5.8 und 10.2 (8 ± 2 × 1.1).
98
3. STATISTISCHES SCHÄTZEN UND TESTEN
Der Standardfehler des Schätzers dagegen ist die Standardabweichung der Zufallsvariablen,
die den
√ Mittelwert aus einer Stichprobe von 100 schätzt. Sie ist viel kleiner (nämlich um den Faktor 100 = 10, wie wir noch lernen werden) als die Standardabweichung der Grundgesamtheit!
Wenn wir viele Hunderter-Stichproben aus dieser Grundgesamtheit entnehmen, können wir damit
rechnen, in 95% aller Fälle der Stichprobenmittelwert vom tatsächlichen Mittelwert der Grundgesamtheit um höchstens ±0.22 (= 2 × 0.11) abweicht. Würden wir Stichproben des Umfangs 400
statt 100 nehmen, wäre der Standardfehler des Mittelwertes noch kleiner (nämlich um die Hälfte,
wie wir später sehen werden).
Auf Grund solcher Überlegungen errechnet sich, wie wir noch sehen werden, das 95% Konfidenzintervall als der Bereich 8 ± 0.22. (Die Zahlenwerte sind etwas genauer, der Faktor 2 wurde
hier durch den genaueren Wert 1.96 ersetzt.) ¤
Definition 3.1.1.14. Ein Punktschätzer für einen Parameter heißt konsistent, wenn sich beliebig genaue Schätzwerte mit beliebig hoher Wahrscheinlichkeit
erreichen lassen, sofern nur die Stichproben groß genung angelegt werden.
Diskussion: Diese “Definition” ist mathematisch verwaschen. Eine sorgfältige Definition benötigt
den mathematischen Apparat der Grenzwertrechnung. Die wesentliche Aussage ist: Der Schätzer
kann mit beliebiger Genauigkeit arbeiten, man muss nur ausreichend große Stichproben nehmen.
Je genauer der Schätzer sein soll, desto größere Stichproben. ¤
Merksatz 3.1.1.15. Ein guter Punktschätzer ist (zumindest asymptotisch)
erwartungstreu, hat eine kleine Varianz, und ist konsistent.
Was Sie jetzt können:
Wissen und Begriffe: Problematik des statistischen Schätzens.
Punkt- und Intervallschätzer, Punktschätzer als Zufallsvariable, Rolle
von Erwartungswert und Varianz eines Schätzers, Standardfehler des
Schätzers.
Methoden: Interpretation von Konfidenzintervallen.
3.1.2. Einige wichtige Punktschätzer.
Übersicht:
1.
2.
3.
4.
Schätzer für Anteile
Schätzer für den Erwartungswert einer Zufallsvariablen
Schätzer für die Varianz einer Zufallsvariablen
Maximum Likelihood - Schätzer
3.1.2.1. Schätzer für Anteile.
In einer Grundgesamtheit sei ein dichotomes Merkmal mit den zwei Ausprägungen “positiv”
und “negativ” vertreten. Das Schätzen des positiven Bevölkerungsanteils ist eine der häufigsten
Aufgaben in der Statistik, und der Schätzer ist, wie es dem Hausverstand entsprechen würde,
einfach der Anteil der positiven Merkmalsträger in der Stichprobe. Wir kennen die Theorie der
Verteilung für diesen Schätzer noch nicht, es ist die Binomialverteilung. Trotzdem bringen wir
bereits der Vollständigkeit halber hier die Eigenschaften dieses wichtigen Schätzers:
3.1. SCHÄTZEN UND TESTEN
99
Merksatz 3.1.2.1. In einer Grundgesamtheit sei ein dichotomes Merkmal mit
den zwei Ausprägungen “positiv” und “negativ” vertreten. Es sei p der Anteil der
positiven Merkmalsträger in der Grundgesamtheit. Eine Stichprobe von n Merkmalsträgern wird entnommen, diese enthalte k positive und n − k negative Merkmalsträger.
Als Schätzer für den Anteil p verwenden wir den Anteil der positiven Merkmalsträger in der Stichprobe:
k
p̂ = .
n
Dann gilt:
1.) Der Schätzer p̂ hat als Erwartungswert
E(p̂) = p,
ist also erwartungstreu.
2.) Die Standardabweichung des Schätzers ist
r
p(1 − p)
σ(p̂) =
.
n
3.) Insbesondere geht der Standardfehler des Schätzers gegen Null, wenn n
gegen unendlich geht, und daraus folgt, dass der Schätzer konsistent ist.
4.) Ist der Stichprobenumfang ausreichend groß, so istq
p̂ annähernd normal. Als Faustreverteilt mit Mittelwert p und Standardabweichung p(1−p)
n
gel gilt: Man kann Normalverteilung anwenden, wenn gilt
np(1 − p) ≥ 9.
Tipp 3.1.2.2. Auch für kleine Stichprobenumfänge kennt man exakt die Verteilung von p̂. Es ist k = np̂ eine binomialverteilte Zufallsvariable. Wir greifen das
im Abschnitt über die Binomialverteilung wieder auf.
3.1.2.2. Schätzer für den Erwartungswert einer Zufallsvariablen.
Den Erwartungswert einer Zufallsvariablen schätzen wir aus einer Stichprobe mit dem Stichprobenmittelwert. Die Eigenschaften des Stichprobenmittelwertes haben wir schon in Merksatz
2.3.3.20 festgehalten und wiederholen sie hier:
Merksatz 3.1.2.3. Sei X eine Zufallsvariable mit Erwartungswert E(X) und
Standardabweichung σ(X). Als Schätzer für E(X) verwenden wir x, das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt
1) Der Erwartungswert von x ist
E(x) = E(X),
damit ist x ein erwartungstreuer Schätzer für E(X).
2) Die Standardabweichung von x ist
σ(X)
σ(x) = √ .
n
Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht.
Daraus folgt dass x ein konsistenter Schätzer für E(X) ist.
3) Ist X normalverteilt, so ist auch x normalverteilt.
4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥
30), so ist x annähernd normalverteilt.
100
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.1.2.3. Schätzer für die Varianz einer Zufallsvariablen.
Nach Merksatz 2.3.3.20 haben wir also umfassende Informationen über die Eigenschaften
des Stichprobenmittels als Schätzer für den Erwartungswert einer Zufallsvariablen. Allerdings
geht in diese Information die Standardabweichung der Zufallsvariablen ein. Und wenn wir den
Erwartungswert erst schätzen müssen, kennen wir normalerweise die Standardabweichung ebenso
wenig. Alles was uns bleibt, ist diese Standardabweichung aus der Stichprobe zu schätzen.
Es liegt nahe, einfach die Varianz der Stichprobe als Schätzer der Varianz der Zufallsvariablen
anzugeben. Allerdings ist dieser Schätzer nicht erwartungstreu, er würde die Varianz systematisch
ein wenig unterschätzen. Wir definieren einen besseren Schätzer:
Definition 3.1.2.4. Sei X eine Zufallsvariable. Sei x1 , · · · , xn eine Stichprobe
von n unabhängigen Realisierungen von X. Sei x das Stichprobenmittel aus diesen
Realisierungen.
Wir definieren die Kenngröße
n
1 X
(xi − x)2
s2x =
n − 1 i=1
Ã n
!
n
1X 2
2
=
x −x .
n − 1 n i=1 i
p
sx = s2x .
Merksatz 3.1.2.5. Sei X eine Zufallsvariable mit Erwartungswert E(X) und
Varianz σ 2 (X). Seien x1 , · · · , xn unabhängige Realisierungen von X. Sei x das
Stichprobenmittel.
Dann ist s2x ein erwartungstreuer Schätzer der Varianz σ 2 (X).
Beispiel 3.1.2.6. Eine Stichprobe von 5 zufällig ausgewählten Ratten aus dem
Pariser Kanalsystem ergab folgende Gewichte in kg:
0.2 0.4 0.4 0.3 0.2
Schätzen Sie Mittelwert und Standardabweichung der Gewichte der Ratten im
Pariser Kanalsystem. Wie groß ist der Standardfehler des geschätzten Mittelwertes?
Diskussion: Wir stellen die wohlbekannte Tabelle zur Berechnung von Erwartungswert und Varianz
auf:
xi
xi − x
(xi − x)2
0.2
-0.1
0.01
0.4
0.1
0.01
0.4
0.1
0.01
0.3
0.0
0.00
0.2
-0.1
0.01
Summe:
1.5
0.04
durch 5: 0.3 durch 4:
0.01
= s2x
=x
Der geschätzte Mittelwert der Gewichte der Pariser Ratten ist also, ebenso wie das Stichprobenmittel, 0.3 kg. Obwohl die Varianz der Gewichte der Ratten dieser Stichprobe 0.04/5 = 0.008
wäre, schätzen wir die Varianz der Gewichte aller Pariser Ratten mit s2x =√0.04/4 = 0.01. Die
geschätzte Standardabweichung der Gewichte aller Pariser Ratten ist somit 0.01 = 0.1.
Wenn wir die Standardabweichung σ
√ der Gewichte der Pariser Kanalratten genau wüssten,
wäre der Standardfehler von x gerade σ/ 5. Die beste Information über σ, die wir haben, ist der
Schätzwert sx , wir schätzen also den Standardfehler von x durch
0.1
√ ≈ 0.048.
5
3.1. SCHÄTZEN UND TESTEN
101
Nach der Faustregel gilt: Wenn wir systematisch Fünfer-Stichproben von Pariser Kanalratten
erheben, liegt das Stichprobenmittel in 95% der Fälle um nicht mehr als 0.096 vom tatsächlichen
Mittelwert der Gewichte aller Pariser Ratten entfernt.
¤
Tipp 3.1.2.7. Unterscheiden Sie sorgfältig folgende Varianzen:
1) σ 2P
(X): die Varianz der Zufallsvariablen X, die geschätzt werden soll.
n
2) n1 i=1 (xi −x)2 : die Varianz der Stichprobe, als Daten für sich genommen.
Pn
1
2
3) s2x = n−1
i=1 (xi − x) : die Schätzung der Varianz von X auf Grund der
Stichprobe.
4) σ 2 (x): die Varianz des Stichprobenmittelwertes, also das Quadrat des
Standardfehlers des Mittelwertes.
Tipp 3.1.2.8. SPSS geht bei der Analyse von Häufigkeitstabellen davon aus,
dass es sich um Stichproben handelt, und der Anwender an den Parametern der
Grundgesamtheit, nicht der Stichprobe, interessiert ist. Daher gibt SPSS von Haus
aus als Standardabweichung den Schätzer sx aus.
Geht man von normalverteilten Zufallsvariablen aus, kann man auch über die Verteilungsform
von s2x Auskunft geben:
Merksatz 3.1.2.9. Sei X eine normalverteilte Zufallsvariable mit Erwartungswert E(X) und Standardabweichung σ(X). Seien x1 , · · · , xn unabhängige Realisierungen von X, seien x und s2x das Stichprobenmittel und die geschätzte Varianz
aus diesen Realisierungen. Dann gilt:
1) Die Zufallsvariable
(n − 1)s2x
σ2
ist χ2 -verteilt mit n − 1 Freiheitsgraden.
2) Die Zufallsvariablen s2x und x sind unabhängig.
3.1.2.4. Maximum Likelihood - Schätzer.
Es gibt natürlich auch andere Parameter als Anteile, Erwartungswerte oder Varianzen, beispielsweise die Parameter der Geraden bei linearer Regression. In komplizierteren mathematischen
Modellen, welche von Statistikprogrammen angeboten werden, lassen sich die Parameter nicht immer durch eine einfache Formel schätzen. Statistikprogramme verwenden zur Schätzung solcher
Parameter oft das Prinzip der Maximum Likelihood-Schätzung.
Definition 3.1.2.10. Die Verteilung eines Merkmales in einer Grundgesamtheit sei durch eine Formel gegeben, welche aber von einem Parameter θ abhängt,
d.h., für jeden Zahlenwert von θ liegt eine andere Verteilung vor. Dieser Parameter
soll aus einer Stichprobe geschätzt werden.
1.) Besitzt eine Grundgesamtheit den Wert ν als Parameter, so tritt das
vorliegende Stichprobenergebnis mit einer bestimmten Wahrscheinlichkeit
(bzw. Wahrscheinlichkeitsdichte) auf. Diese Wahrscheinlichkeit heißt die
Likelihood von ν, wir schreiben L(ν).
2.) Der Maximum Likelihood-Schätzer für θ ist jene Zahl θ̂, für welche bei
dem gegebenen Stichprobenergebnis die Likelihood am größten ist.
Als Beispiel zeigen wir einen Maximum Likelihood-Schätzer für einen Anteil, obwohl wir ja
für diesen einfachen Fall bereits eine bequeme Formel wüssten.
102
3. STATISTISCHES SCHÄTZEN UND TESTEN
Beispiel 3.1.2.11. In einer großen, aber überalterten Obstplantage sind viele
der Bäume mit Misteln bewachsen. Eine Stichprobe von 5 Bäumen wird untersucht.
Auf dem ersten, dritten und vierten Baum befanden sich Misteln, die anderen beiden Bäume waren frei davon. Schätzen Sie den Anteil der mistelbewachsenen Bäume
in der gesamten Plantage.
Diskussion: Der gesuchte Parameter in dieser Aufgabe ist p, der Anteil der mistelbewachsenen
Bäume unter allen Bäumen der Plantage. Nach Merksatz 3.1.2.1 können wir ihn durch den Anteil
in der Stichprobe schätzen, unser Schätzer ist also
3
p̂ = = 0.6.
5
Wir wollen aber in diesem Beispiel den Likelihood-Schätzer erklären: Zunächst müssen wir klären,
was die Likelihood ist. Angenommen, der Anteil der Mistelbäume in einer Plantage wäre ν. Wie
groß ist dann die Wahrscheinlichkeit, dass genau auf dem ersten, dritten und vierten Baum einer
Stichprobe von 5 Bäumen Misteln gefunden werden?
Die Wahrscheinlichkeit, auf dem ersten Baum Misteln zu finden, wäre ν. Die Wahrscheinlichkeit, auf dem zweiten Baum Misteln zu finden, wäre 1 − ν. Damit wäre die Wahrscheinlichkeit,
dass auf dem ersten Baum Misteln sind, auf dem zweiten aber keine, das Produkt ν(1 − ν). Denkt
man so weiter, dann ist die Wahrscheinlichkeit, dass genau der erste, dritte und vierte Baum von
Misteln befallen ist
L(ν) = ν (1 − ν) ν ν (1 − ν) = ν 3 (1 − ν)2 .
Dies ist die Likelihood von ν bei der gegebene Datenlage.
Wir suchen nun jenen Wert von ν, für den die Likelihood möglichst groß wird. Maximumprobleme kann man, wie wir noch aus der Schule wissen, gelegentlich durch Differenzieren und
anschließendes Nullsetzen der Ableitung lösen. Die Ableitung ist nach der Produkt- und Kettenregel
d
L(ν) = 3ν 2 (1 − ν)2 − 2ν 3 (1 − ν).
dν
Setzen wir die Ableitung auf Null, erhalten wir (außer ν = 1 und ν = 0)
3ν 2 (1 − ν)2 − 2ν 3 (1 − ν) = 0
3(1 − ν) − 2ν = 0
ν=
3
.
5
Dieses spezielle ν, also 35 , ist der Maximum Likelihood-Schätzer für p. Tatsächlich ist für Schätzung
von Anteilen bei dichotomen Merkmalen immer der Anteil in der Stichprobe auch der Maximum
Likelihood-Schätzer. ¤
Tipp 3.1.2.12. In der Praxis wird der Maximum Likelihood-Schätzer normalerweise nicht durch Differenzieren gefunden. Es gibt ausgefeilte Computerprogramme
zum Suchen von Maximumstellen. In Statistikpaketen sind diese eingebaut, sodass
der Benutzer von der Maximumsuche gar nichts merkt.
Was Sie jetzt können:
Wissen und Begriffe: Eigenschaften der Schätzer für Anteile von
positiven Merkmalsträgern bei dichotomen Merkmalen, für Erwartungswerte und Varianzen. Unterscheidung von Varianz und Standardabweichung der Stichprobe, tatsächlicher und geschätzter Varianz
und Standardabweichung der Grundgesamtheit, Varianz und Standardabweichung des Stichprobenmittelwerts. Prinzip der Maximum
Likelihood-Schätzung.
Methoden: Schätzung von Anteilen positiver Merkmalsträger, Erwartungswerten und Varianzen.
3.1. SCHÄTZEN UND TESTEN
103
3.1.3. Schema eines statistischen Tests.
Übersicht:
1.
2.
3.
4.
Hypothesen
Wie funktioniert ein statistischer Test
Grundbegriffe des statistischen Tests
Beispiel zur Erklärung der Grundbegriffe
3.1.3.1. Hypothesen.
Definition 3.1.3.1. Eine Hypothese ist eine Aussage, die entweder wahr oder
falsch sein kann. Die Frage nach einer Hypothese kann also immer mit Ja/Nein
beantwortet werden. Im statistischen Test bezieht sich die Hypothese stets auf die
zu untersuchende Grundgesamtheit, nie auf die Stichprobe.
Diskussion: Einige Beispiele von Hypothesen:
a) Das mittlere Gewicht der Kürbisse einer bestimmten Sorte ist größer als 1.2 kg.
b) Es besteht kein Unterschied in der Spitalsaufenthaltsdauer zwischen Patienten, die mit
Methode A und solchen, die mit Methode B behandelt wurden.
c) Die Ereignisse: “Ein Patient raucht mehr als 20 Zigaretten täglich” und “Ein Patient
hat erhöhten Blutdruck” sind abhängig.
d) Mehr als 30% aller sechsjährigen Kinder sind übergewichtig.
e) Kraftfahrer mit roten Autos übertreten häufiger Geschwindigkeitsbeschränkungen als
Kraftfahrer mit anders gefärbten Fahrzeugen.
Die folgenden Fragen führen auf keine Hypothesen:
e) Wieviele kg Äpfel trägt durchschnittlich ein Baum der Sorte Kronprinz Rudolf? (Keine
ja-nein-Frage. Hier soll ein Parameter geschätzt werden, nämlich der mittlere Ertrag
eines Obstbaums.)
f) Mit einer Signifikanz von 95% ist belegt, dass zwischen dem Faktor “Intensität der
Düngung” und der Variablen “Größe der Blüte” ein Zusammenhang besteht. (“Es besteht ein Zusammenhang zwischen Düngung und Größe der Blüte” ist eine Hypothese.
Die Signifikanz sagt aber etwas über die Stärke der ermittelten Daten aus, also über
die angestellte Untersuchung, nicht über die Grundgesamtheiten.)
¤
3.1.3.2. Wie funktioniert ein statistischer Test?
Das folgende Beispiel erklärt, in eine Geschichte verpackt, wie ein statistischer Test funktioniert.
Beispiel 3.1.3.2. Von dem hochgelahrten Doctorn Fausto, welcher der Hexerey, Statistic und allerley mehr Teuffels-Künst gepflogen, und von einem fahrenden
Studioso, so aber in Wahrheyt der Leybhafftige gewesen.
104
3. STATISTISCHES SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Faust erhält in seiner Studierstube Besuch von einem fahrenden Studiosus der Naturwissenschaften. Die beiden beginnen
ein frivoles Würfelspiel um die Erkenntnis von Gut und Böse.
Nach 10 Würfen hat der Studiosus 9 Sechser geworfen.
Es werden Daten erhoben. Der
Zufall spielt mit, z.B. durch eine Stichprobenentnahme.
F: 9 Sechser in 10 Würfen. Dieser Würfel ist gezinkt.
Wir stellen eine Hypothese auf:
H1 : “Dieser Würfel wirft bevorzugt Sechser.” Wir nennen
das die Alternativhypothese.
Können wir mit den erhobenen
Daten diese Hypothese beweisen?
S.: Dieser Würfel ist fair und
unschuldig wie ein neugeborenes
Lamm. Ich hatte bisher einfach
viel Glück.
Die Daten könnten auch ein
Zufallstreffer sein. Der Alternativhypothese steht die
Nullhypothese gegenüber: H0 :
“Dieser Würfel wirft Sechser
mit einer Wahrscheinlichkeit
von 1/6.”
Wenn das so ist, dann lassen
Sie doch den Würfel untersuchen. Ich werde ihn in ein Wasserglas legen, und wir werden sehen, dass sich die Sechs immer
nach oben dreht.
Faust will schon nach seinem Famulus rufen, um das Experiment vorzubereiten. Der Studiosus reicht ihm bereitwillig den
Würfel, da schießt zufällig eine Stichflamme aus der Erde und
der Würfel verbrennt
So ein Pech, jetzt können wir
den Würfel gar nicht mehr überprüfen.
Zur Überprüfung stehen nur
die erhobenen Daten zur
Verfügung.
Und Sie können mir getrost glauben, dass dieser Würfel fair war.
Oder ist es denn unmöglich, dass
man 9 Sechser wirft?
Es gibt keinen unanfechtbaren
Beweis für die Alternativhypothese. Solche Daten könnten
auch zustandekommen, wenn
die Nullhypothese gilt.
Die Wahrscheinlichkeit könnte aber für die Alternativhypothese sprechen.
Aber äußerst unwahrscheinlich!
Sie würden also jeden, der mit
10 Würfen neun oder gar zehn
Sechser wirft, der Falschspielerei
verdächtigen?
Das würde ich.
3.1. SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Wenn Sie so leichtfertig mit Ihren Unterstellungen sind, kommt
jeder, der ein wenig Glück hat,
bei Ihnen in den Verruf, ein
Schwindler zu sein.
Wenn wir die Daten als Beweis für die Alternativhypothese ansehen, riskieren wir einen
Fehler: Es könnte die Nullhypothese H0 gelten, und wir
glauben an H1 . Das ist ein Fehler erster Art, ein α-Fehler.
Wenn sich herumspricht, dass
Sie hier Sechser um Sechser werfen und ich vertraue Ihnen noch
immer, werden bald alle Scharlatane und Falschspieler der Welt
hier aufkreuzen und auf meiner
Tasche liegen.
Wenn wir aus den Daten nicht
auf die Alternativhypothese
schließen, riskieren wir auch
einen Fehler: Es könnte H1
gelten, aber wir bemerken es
nicht. Das ist ein Fehler zweiter
Art, ein β-Fehler.
Geben Sie zu, wenn hundert Besucher hier mit Ihnen spielen,
wird vielleicht einer der Besucher
viel Glück haben. Und Sie werden ihm zu Unrecht Betrug vorwerfen. Können Sie eine solche
Ungerechtigkeit mit Ihrer akademischen Ehre vereinbaren?
Einen von hundert zu Unrecht
beschuldigen? Nein, das würde
ich nie riskieren! Aber einen
von tausend, dieses Risiko gehe ich ein. Dann wäre es wirklich allzu unwahrscheinlich, dass
gerade Sie dieses unglückliche
Würstchen sind.
Es gilt! Wenn es wahr ist, dass
mehr als einer von hunderttausend, die mit einem fairen
Würfel spielen, auf 9 oder mehr
Sechser in 10 Würfen kommen,
dann will ich zugeben, dass Sie
einfach Glück gehabt haben.
105
Da wir jedenfalls einen Fehler
riskieren, müssen wir aushandeln, wieviel Risiko wir eingehen können oder wollen.
Einen von tausend! So leichtfertig ziehen heutzutage schon
die Gelehrten ihre Schlüsse? Ja,
wenn Sie sagen würden, einer
von hunderttausend, da müsste
auch ich zustimmen, dass Sie
nach bestem Gewissen und in
Gerechtigkeit entscheiden.
Es gilt!
Eine Feuerhand schreibt an die Wand: α = 0.00001.
Das Signifikanzniveau α des
Tests legen wir “willkürlich”
fest: Wir erlauben, dass in
einer Situation, in der in
Wirklichkeit H0 gilt, mit
Wahrscheinlichkeit α trotzdem
irrtümlich H1 als bewiesen
betrachtet wird. Je kleiner α,
desto geringer ist das Risiko,
einen Fehler erster Art zu
begehen, aber dafür vergrößert
sich die Gefahr eines Fehlers
der zweiten Art.
106
3. STATISTISCHES SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Nehmen wir an, jemand wirft
zehnmal mit einem fairen
Würfel. Wenn er neun oder zehn
Sechser wirft, würde ich ihn als
Falschspieler bezeichnen. Wie
groß ist die Wahrscheinlichkeit,
dass ihm das geschieht?
Angenommen, wir entscheiden bei einer Datenlage wie
der gegenwärtigen immer für
die Alternativhypothese. Wenn
dann einmal in Wirklichkeit
die Nullhypothese gilt, kann es
durch Zufall geschehen, dass
Daten entstehen, die ebenso
stark für die Alternativhypothese sprechen wie die Daten,
die uns derzeit vorliegen. In
diesem Fall würden wir also
einen α-Fehler begehen. Aber
wie wahrscheinlich ist das?
Insgesamt sind 610 = 60466176
Ergebnisse möglich. Davon eines mit lauter Sechsern, und 50
mit je 9 Sechsern. (In jedem
der 10 Würfe könnte die “NichtSechs” geworfen sein, und die
Zahlen von 1 bis 5 wären
als “Nicht-Sechs” möglich.) —
Die Wahrscheinlichkeit ist p =
51
= 8.434 × 10−7 .
60466176
p ist die Wahrscheinlichkeit,
dass unter der Nullhypothese Daten entstehen, welche die
Alternativhypothese so deutlich unterstützen wie das vorliegende Datenmaterial. Diese
Wahrscheinlichkeit p lässt sich
aus den Daten berechnen.
8.434 × 10−7 . Viel weniger als
1/100000! Von einer Million, die
fair spielen, riskiert nicht einmal einer, dass ich ihn zu Unrecht beschuldige. Ich bleibe dabei, Sie sind ein Falschspieler.
Dieser Würfel war unfair.
Ein Risiko von α = 10−5 für
einen α-Fehler haben wir als
erlaubt ausgehandelt. Wenn
wir bei dieser Datenlage für die
Alternativhypothese entscheiden, würde das Risiko eines αFehlers nur p = 8.434 × 10−7
betragen. Es ist also p < α.
Wir können daher die Alternativhypothese als bewiesen betrachten und die Nullhypothese zurückweisen.
Dieses gelehrte Hokuspokus versteht doch nicht einmal der Teufel!
Es öffnet sich der Boden und S. fährt in einer Schwefelwolke
unter schauerlichen Flüchen auf die Statistik in die Hölle.
3.1.3.3. Grundbegriffe des statistischen Tests.
Methode 3.1.3.3. Ein statistischer Test ist ein Verfahren, ja/nein-Fragen
bei Risiko eines Fehlers systematisch zu entscheiden, sodass das Risiko des Fehlers
eingeschätzt werden kann. Grundsätzlich ist ein statistischer Test folgendermaßen
aufgebaut:
1: Man stellt eine Nullhypothese H0 und eine Alternativhypothese H1
auf. Die beiden Hypothesen schließen sich gegenseitig aus.
2: Man wählt ein Signifikanzniveau α zwischen 0 und 1.
3: Man erhebt die Daten.
4: Man errechnet aus den Daten die Teststatistik, das ist eine Prüfgröße,
die ausdrückt, wie gut die Daten die Alternativhypothese unterstützen.
3.1. SCHÄTZEN UND TESTEN
107
5: Man bestimmt aus der Teststatistik den p-Wert, das ist die bedingte
Wahrscheinlichkeit p, dass man unter der Bedingung H0 eine Teststatistik
erhält, welche die Alternativhypothese so gut unterstützt wie die ermittelten Daten.
6: Man entscheidet nach folgender Regel:
– Ist α < p, dann sind Daten wie die gefundenen auch unter der Nullhypothese nicht so selten, dass man auf Grund dieser Daten die Nullhypothese widerlegen könnte. Die Nullhypothese wird nicht abgelehnt.
– Ist α ≥ p, so sind Daten wie die gefundenen unter der Nullhypothese
ausreichend unwahrscheinlich, sodass man die Nullhypothese ablehnen kann, und die Alternativhypothese als signifikant untermauert
betrachtet.
Merksatz 3.1.3.4. Ein statistischer Test kann auf zwei Arten ausgehen:
a) Die Nullhypothese wird abgelehnt. Sie widerspricht den gefundenen Daten stark. Die Alternativhypothese ist zwar nicht bewiesen, aber mit der
vorgegebenen Signifikanz untermauert.
b) Die Nullhypothese wird nicht abgelehnt, weil sich zwischen den gefundenen Daten und der Nullhypothese kein deutlicher Widerspruch ergibt. Der
Grund kann darin liegen, dass die Nullhypothese ohnehin richtig ist, oder
dass das Datenmaterial einfach nicht stark genug ist, um sie zu widerlegen. Die Alternativhypothese ist in diesem Fall nicht widerlegt, es steht
nur fest, dass sie mit dem vorliegenden Datenmaterial nicht signifikant
untermauert werden kann.
Daraus ergibt sich die Strategie zum Erstellen von Hypothesen:
Tipp 3.1.3.5.
• Bringen Sie die Fragestellung der Untersuchung auf die Form: “Sprechen
die gefundenen Daten so stark für Annahme A, dass man mit ihnen die
Annahme B widerlegen kann?” Die Annahme A nimmt dann die Rolle der
Alternativhypothese, die Annahme B die Rolle der Nullhypothese.
• Die Nullhypothese muss so scharf formuliert sein, dass man auf ihrer Basis
Wahrscheinlichkeiten berechnen kann. Die Alternativhypothese dagegen
muss nur eine Richtung ausdrücken, und keine exakten Zahlen geben.
Definition 3.1.3.6. Ein Test heißt zweiseitig, wenn die Teststatistik die Alternativhypothese unterstützt, wenn sie nach oben oder nach unten von einem vorgegebenen Wert stark abweicht. Unterstützt entweder nur eine sehr hohe Teststatistik, oder nur eine sehr niedere Teststatistik die Alternativhypothese, so heißt der
Test einseitig.
Definition 3.1.3.7. Bei der Auswertung des Tests sind 4 Situationen möglich:
Nullhypothese trifft zu
Alternativhypothese trifft zu
Test spricht für
Nullhypothese Alternativhypothese
OK
α-Fehler
β-Fehler
OK
Den α-Fehler bezeichnet man auch als Fehler erster Art, den β-Fehler als
Fehler zweiter Art.
108
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.1.3.8.
• Der α-Wert eines Testes gibt an, wie wahrscheinlich ein α-Fehler auftritt.
Wird in einer großen Anzahl von Studien immer mit dem Signifikanzniveau α getestet, so kommen auf je 100 Fälle, in denen die Nullhypothese
gilt, im Durchschnitt 100 × α Fälle, in denen irrigerweise der Test zugunsten der Alternativhypothese ausfällt.
• Über die Wahrscheinlichkeit des β-Fehlers sagt das Signifikanzniveau unmittelbar nichts aus. Jedoch wird bei kleinem α automatisch die Wahrscheinlichkeit eines β-Fehlers größer.
• Dagegen ergibt sich der p-Wert durch Rechnung aus den Daten. Die Rechnung baut auf der Annahme auf, dass die Nullhypothese gilt.
Tipp 3.1.3.9. Die Festlegung des Signifikanzniveaus α erfolgt durch die Person,
die die Untersuchung durchführt. Je kleiner das Signifikanzniveau, desto stärker
müssen die Daten für die Alternativhypothese sprechen, um die Nullhypothese
abzulehnen. Desto seltener kann also ein α-Fehler auftreten, und desto häufiger
ein β-Fehler. Man wählt ein kleines Signifikanzniveau, wenn man einen α-Fehler
dringender vermeiden will als einen β-Fehler. Typische Signifikanzniveaus liegen
zwischen 0.1 und 5 Prozent.
3.1.3.4. Beispiel zur Erklärung der Grundbegriffe.
Beispiel 3.1.3.10. Eine Konsumentenschutzorganisation untersucht die Füllmengen von Kaffeepackungen. Stichproben von 500-Gramm-Packungen einer Firma
werden gewogen. Wenn das mittlere Gewicht der Stichprobe deutlich geringer als
500 Gramm ist, kommt die Firma auf eine schwarze Liste.
Diskussion: Dies ist ein klassisches Beispiel für einen t-Test, wie wir ihn später kennenlernen
werden. Für jetzt soll an diesem Beispiel die Problematik des statistischen Testens, das Stellen
von Hypothesen, und die Interpretation des Ergebnisses illustriert werden. Viele Details dieses
Tests werden Sie erst nur sehr vage verstehen. Sie klären sich, wenn wir in der Lehrveranstaltung
weiter fortschreiten.
Wir sind mit einer Ja-Nein-Frage konfrontiert: Verkauft die Firma zu leichte Packungen oder
nicht? Zur Beantwortung der Frage können wir nicht alle Kaffeepackungen der Firma nachwiegen,
wir sind auf eine Stichprobe angewiesen, und diese kann rein zufällig grossteils aus zu leichten
Packungen bestehen, selbst wenn die Firma im Durchschnitt 500 Gramm in die Päckchen abfüllt.
Wann kann eine Stichprobe (im Rahmen einer gegebenen Unsicherheit) zumindest untermauern,
dass die Päckchen der Firma im Mittel zu leicht sind, und wann müssen wir eher damit rechnen,
dass das Stichprobenergebnis ein Zufallstreffer ist? Hier ist also ein statistischer Test angebracht.
Wir beginnen mit der Stellung der Hypothesen. Die Grundfrage eines statistischen Tests
lautet immer: “Können die Daten die Nullhypothese widerlegen?” In unserem Fall lautet die Frage:
“Beweisen die Daten, dass die Päckchen der Firma zu leicht sind, also nicht im Durchschnitt 500
Gramm enthalten?” Wir stellen also die Hypothesen:
H0 Nullhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt 500 Gramm
Kaffee.
H1 Alternativhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt weniger als 500 Gramm Kaffee.
Beachten Sie, dass die Nullhypothese eine exakte Zahlenangabe enthält (“ = 500 g”), auf Grund
derer sich Wahrscheinlichkeiten errechnen lassen werden. Die Alternativhypothese zeigt einen
Trend an (“weniger als 500 g”). Der Test ist einseitig: Eine Stichprobe mit mittlerem Gewicht weit
unter 500 Gramm spricht für die Alternativhypothese. Eine Stichprobe mit einem Gewicht von
viel über 500 Gramm würde zwar auch der Nullhypothese widersprechen, aber nicht zugunsten der
Alternativhypothese. Wir würden also in einem solchen Fall lieber die Nullhypothese beibehalten.
(Eine zweiseitige Alternativhypothese wäre: “Die Päckchen der Firma enthalten im Durchschnitt
nicht exakt 500 Gramm.”)
3.1. SCHÄTZEN UND TESTEN
109
Da die Hypothesen stehen, können wir uns überlegen, welche Fehler passieren können.
Ein α-Fehler tritt ein, wenn in Wirklichkeit H0 gilt, aber der Test zu Gunsten von H1 ausgeht.
Das ist der Fall, wenn die Firma ordnungsgemäß im Durchschnitt 500 Gramm in ihre Päckchen
füllt, aber die Stichprobe zufällig aus unterdurchschnittlich leichten Päckchen zusammengesetzt
war. Die Firma wird dann zu Unrecht von der Konsumentenschutzorganisation beschuldigt.
Ein β-Fehler tritt ein, wenn H1 gilt, aber vom Test nicht entdeckt wird. Die Firma füllt in
diesem Fall tatsächlich im Durchschnitt zu wenig Kaffee in die Päckchen, aber die Stichprobe
enthält zufällig nicht ausreichend viele auffällig leichte Packungen, und die Konsumentenschützer
entdecken nicht, dass zu wenig Kaffee für zu viel Geld über die Theke wandert.
Keiner der beiden Fehler lässt sich völlig ausschließen. Nehmen wir an, die Konsumentenschützer testen immer mit einer Signifkanz von α = 0.05. Von 100 Firmen, die ordnungsgemäß
abfüllen und untersucht werden, werden dann 5 zu Unrecht beschuldigt. Und wieviele Firmen,
die zuwenig abfüllen, bleiben trotz der Untersuchung unentdeckt? Die Signifikanz sagt nichts
darüber aus, denn das ist ein β-Fehler. Es hängt auch davon ab, um wieviel die Päckchen einer
Firma zu leicht sind. Extrem leichte Abfüllmengen werden eher entdeckt, als wenn eine Firma im
Durchschnitt nur ein halbes Gramm zu wenig abfüllt.
Die Wahl der Signifikanz hängt davon ab, ob wir den α-Fehler oder den β-Fehler mehr
fürchten. Wir verwenden in diesem Test die verbreitete Wahl α = 0.05 (man sagt auch: 95%
Konfidenz).
Die einzelnen Daten der Stichprobe werden in ein Statistikprogramm eingegeben und mit
einer geeigneten Methode ausgewertet, in unserem Fall ist das der t-Test, wie wir später erfahren
werden. Als Ausgabe liefert das Programm möglicherweise folgende Tabelle:
Stichprobenumfang
Mittelwert
Varianz
Standardabweichung
Vergleichswert
t
Freiheitsgrade
p einseitig
p zweiseitig
64
498
36
6
500
-2.6667
63
0.00486
0.00972
Die ersten Zahlen beschreiben die Daten der Stichprobe: 64 Päckchen wurden untersucht,
das mittlere Gewicht lag bei 498 Gramm, also unter dem Sollwert 500 Gramm. Aus Varianz
und Standardabweichung sehen wir, wie stark die Gewichte der einzelnen Päckchen streuen. Die
Standardabweichung spielt eine Schlüsselrolle in der Beurteilung der Daten: Je geringer die Daten
streuen, je weniger Unterschied zwischen den einzelnen Meßwerten ist, als desto zuverlässiger kann
man sie einschätzen, und desto sicherer kann man aus ihnen Schlüsse ziehen.
Die folgenden Zeilen beziehen sich direkt auf den statistischen Test. Verglichen wird mit dem
Sollwert aus der Nullhypothese: “H0 : Das mittlere Gewicht aller Päckchen der Firma ist 500.”
Die Teststatistik t quantifiziert in geeigneter Weise die Abweichung der gegebenen Daten vom
Vergleichswert. Auch wenn wir zur Zeit mit der Formel noch wenig anfangen können, sollen Sie
hier sehen, dass der t-Wert direkt aus den statistischen Kennzahlen der Stichprobe errechnet wird.
Mittelwert − Vergleichswert p
t=
Stichprobenumfang
Standardabweichung
Die Anzahl der Freiheitsgrade gibt an, wieviele unabhängige Daten in die Standardabweichung einfließen, die der Berechnung von t zugrunde liegt. Aus t errechnen sich die p-Werte, wovon uns nur
der einseitige Test interessiert, da wir eine einseitige Alternativhypothese gestellt haben. Hätten
wir kein Statistikprogramm zur Verfügung, müssten wir in einer geeigneten Tabelle nachschlagen. Vergleichen wir den einseitigen p-Wert p = 0.00486 mit dem vorgegebenen Signifikanzniveau
α = 0.05, so stellen wir fest, dass p kleiner ist als α. Wir können daher die Nullhypothese zurückweisen: Die Daten erhärten mit einem Signifikanzniveau von 5% (tatsächlich mit 0.00486), dass
die Päckchen der Firma im Durchschnitt zu leicht sind.
Die Stichprobe von dieser Firma ist also so extrem leicht, dass wir davon ausgehen können,
dass die Firma tatsächlich im Durchschnitt zu wenig Kaffee einfüllt. Auch eine Firma, die im
Durchschnitt 500 Gramm abfüllt, kann unter unglücklichen Umständen ein so schlechtes Stichprobenergebnis haben. Aber die Wahrscheinlichkeit, dass ihr das widerfährt, ist nur 0.00486. Dieses
110
3. STATISTISCHES SCHÄTZEN UND TESTEN
Risiko nehmen wir in Kauf. Wir haben uns bei der Wahl des Signifikanzniveaus für ein Fehlerrisiko
bis zu 0.05 entschieden. ¤
Was Sie jetzt können:
Wissen und Begriffe: Schließende Statistik, Problematik des Schließens aus zufälligen Daten. Test, Null- und Alternativhypothesen (H0
und H1 ), Teststatistik, einseitige und zweiseitige Tests. Fehler erster
und zweiter Art, (α- und β-Fehler), Signifikanzniveau des Tests (α)
und der Daten (p).
Methoden: Grundstrategie zum statistischen Testen, Erstellen von
Hypothesen, Auswertung eines Tests durch Vergleich von α und p.
3.1.4. Beispiele von statistischen Tests.
Übersicht:
Verschiedene Beispiele zu statistischen Tests
Es geht in diesem Abschnitt nur darum, Hypothesen zu stellen und Testergebnisse
zu interpretieren. Die Testverfahren werden wir später besprechen. Sie werden
daher vieles, was Sie in diesem Abschnitt finden, jetzt erst vage verstehen.
Alle Beispiele in diesem Abschnitt sind dem Buch: A. Bühl und P.
Zöfel, SPSS 12, 9. Aufl., Pearson 2005, entnommen. Diesem Buch
liegt eine Datendiskette bei.
Einer der Datenfiles (hyper.sav) zum Buch A. Bühl und P. Zöfel, SPSS 12
(9. Aufl., Pearson 2005) enthält Daten von BluthochdruckpatientInnen. Von 174
PatientInnen sind folgende Merkmale erfasst:
num
med
g
a
gr
gew
rrs0
rrs1
rrs6
rrs12
chol0
chol1
chol6
chol12
bz0
bz1
bz6
bz12
ak
Patientennummer
erhaltenes Medikament (“Alphasan” oder “Betasan”)
Geschlecht
Alter bei Einweisung
Körpergröße
Körpergewicht
systolischer Blutdruck bei Einweisung
systolischer Blutdruck, 1 Monat nach Behandlungsbeginn
systolischer Blutdruck, 6 Monate nach Behandlungsbeginn
systolischer Blutdruck, 12 Monate nach Behandlungsbeginn
Cholesterin bei Einweisung
Cholesterin, 1 Monat nach Behandlungsbeginn
Cholesterin, 6 Monate nach Behandlungsbeginn
Cholesterin, 12 Monate nach Behandlungsbeginn
Blutzucker bei Einweisung
Blutzucker, 1 Monat nach Behandlungsbeginn
Blutzucker, 6 Monate nach Behandlungsbeginn
Blutzucker, 12 Monate nach Behandlungsbeginn
Altersklassen (0–55, 56–65, 66–75, 76–)
nominal
nominal
nominal
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
ordinal
3.1. SCHÄTZEN UND TESTEN
111
Beispiel 3.1.4.1. Ist das Alter neu eingewiesener PatientInnen annähernd normalverteilt, oder muss aus den Daten gefolgert werden, dass die Verteilung des
Alters neueingewiesener Patienten deutlich von der Normalverteilung abweicht?
(Solche Fragen spielen deshalb eine Rolle, weil für annähernd normalverteilte Zufallsgrößen stärkere statistische Methoden zur Verfügung stehen.)
Diskussion:
H0 Nullhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist eine normalverteilte Zufallsgröße.
H1 Alternativhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist nicht normalverteilt.
α Signifikanzniveau: α = 0.05.
Bevor wir testen, überprüfen wir noch an Hand des Histogramms, ob vom Augenschein
her wesentliche Einwände gegen eine Normalverteilung bestehen. Natürlich können wir von der
Stichprobe nicht die exakte Wiedergabe einer Normalverteilungskurve erwarten. Jedoch scheint
auf ersten Blick kein wesentlicher Einwand gegen eine Normalverteilung zu bestehen.
Histogramm
25
H ufigkeit
20
15
10
5
Mittelwert =62,11
Std.-Abw. =11,548
N =174
0
30
40
50
60
70
80
90
Alter
Beispiel 3.1.4.1: Histogramm der Altersverteilung der ProbandInnen
Um zu testen, ob die gegebenen Daten Realisierungen einer Zufallsgröße mit einer bestimmten
Wahrscheinlichkeitsverteilung (hier: Normalverteilung) sein können, verwendet man Anpassungstest. SPSS bietet unter anderem den Anpassungstest von Kolmogorov-Smirnov. Die Ausgabe des
Tests finden wir in folgender Tabelle:
Kolmogorov-Smirnov-Anpassungstest
Alter
174
Mittelwert
62.11
Standardabweichung 11.548
absolut
0.059
Extremste Differenzen
positiv
0.055
negativ
-0.059
Kolmogorov-Smirnov Z
0.785
Asymptotische Signifikanz (2-seitig)
0.569
a ) Die zu testende Verteilung ist eine Normalverteilung
b ) Aus den Daten berechnet
N
Parameter der
Normalverteilung (a,b)
Die Tabelle zeigt zunächst, dass die Untersuchung auf einem Stichprobenumfang von 174
ProbandInnen beruht. Am besten passt eine Normalverteilung mit Mittelwert 62.11 und Standardabweichung 11.548. Die folgenden extremsten Differenzen sind die größten Abweichungen der
empirischen Verteilungsfunktion unserer Daten von der Verteilungskurve der Normalverteilung.
Aus diesen wird der p-Wert auf dem Umweg über eine Teststatistik Z berechnet. Wie das geschieht,
überlassen wir dem Programm. Am Ende der Tabelle finden wir endlich die entscheidende Zahl,
112
3. STATISTISCHES SCHÄTZEN UND TESTEN
nämlich den p-Wert von 0.569. Da wir auf α = 0.05 testen, ist also p > α, und die Nullhypothese
wird nicht zurückgewiesen. (Die Bemerkung, dass der p-Wert asymptotisch ist, bedeutet, dass hier
eine geeignete Näherungsformel angewendet wurde, die für praktische Zwecke ausreichend genau
ist.)
Das Ergebnis des statistischen Tests ist also: Die Daten belegen nicht mit Signifikanzniveau
0.05, dass das Alter der Hochdruckpatienten einer anderen Verteilung als einer Normalverteilung
folgt. Damit ist keineswegs bewiesen, dass es wirklich normalverteilt ist, aber für uns bleibt die
Folgerung, dass zumindest auf Grund der vorliegenden Daten keine ernsten Bedenken erhoben
werden müssen, wenn wir das Merkmal Alter mit statistischen Verfahren untersuchen, die eine
Normalverteilung voraussetzen. ¤
Beispiel 3.1.4.2. Ist der Blutzucker bei neu aufgenommenen Hypertoniepatienten annähernd normalverteilt, oder geben die Daten deutlich Anlass, eine andere
Verteilung zu vermuten?
Diskussion: Wir führen den gleichen Test wie in Beispiel 3.1.4.1 durch. Zunächst werfen wir einen
Blick auf das Histogramm mit eingezeichneter Normalverteilungskurve: Dem Augenschein nach
passt die Normalverteilung nicht gut, die Verteilung ist deutlich linksgipfelig. Um den Mittelwert
von circa 100 gruppiert sich die Mehrzahl der Fälle, jedoch gibt es einen langen Schwanz von sehr
hohen Blutzuckerwerten, wogegen niedrige Blutzuckerwerte eher selten sind.
Histogramm
80
H ufigkeit
60
40
20
Mittelwert =103,99
Std.-Abw. =35,608
N =174
0
100
200
300
400
Blutzucker, Ausgangswert
Beispiel 3.1.4.2: Verteilung des Blutzuckers
Wir testen die Hypothesen
H0 Nullhypothese: Der Blutzucker ist in der Gesamtheit der neuaufgenommenen HypertoniepatientInnen normalverteilt.
H1 Alternativhypothese: Der Blutzucker ist in dieser Personengruppe nicht normalverteilt.
α Signifikanzniveau 0.05.
Kolmogorov-Smirnov-Anpassungstest
Blutzucker
Ausgangswert
N
174
Parameter der
Mittelwert
103.99
Normalverteilung (a,b) Standardabweichung
35.608
absolut
0.190
Extremste Differenzen
positiv
0.190
negativ
-0.156
Kolmogorov-Smirnov Z
2.512
Asymptotische Signifikanz (2-seitig)
0.000
a ) Die zu testende Verteilung ist eine Normalverteilung
b ) Aus den Daten berechnet
3.1. SCHÄTZEN UND TESTEN
113
Die Signifikanz ist nun, auf drei Dezimalen genau, p = 0.000, viel kleiner als α = 0.05.
Die Daten belegen daher mit hoher statistischer Signifikanz, dass der Blutzucker neuzugegangener Hypertoniepatienten keiner Normalverteilung genügt.
¤
Tipp 3.1.4.3. Beachten Sie, wie wir den Ausgang des Kolmogorov-SmirnovTests interpretiert haben:
p > α in Beispiel 3.1.4.1: H0 wurde nicht zurückgewiesen. Die Daten beweisen
nicht, dass eine andere Verteilung als eine Normalverteilung vorliegt. Es
ist durchaus nicht gesichert, dass das Alter in der Personengruppe neu
hospitalisierter Hypertoniepatienten normalverteilt ist, aber die gegebenen Daten widersprechen zumindest nicht einer solchen Annahme.
p < α in Beispiel 3.1.4.2: H0 wurde zurückgewiesen. Die Daten untermauern signifikant, dass eine andere Verteilung als eine Normalverteilung vorliegt.
Soweit man durch Statistik von einer Stichprobe auf die Gesamtheit schließen kann, können wir als gesichert betrachten, dass für den Blutzucker
keine Normalverteilung in Frage kommt.
Beispiel 3.1.4.4. Die PatientInnen wurden mit zwei verschiedenen Medikamenten behandelt. Ehe man die Wirkung der Medikamente vergleicht, muss sichergestellt sein, dass die beiden Gruppen ähnlich konfiguriert sind, sodass der Vergleich
nicht durch Unterschiede in der Zusammensetzung der Gruppen verfälscht wird. Besteht ein Unterschied zwischen dem mittleren Alter der mit Alphasan behandelten
Patientengruppe und der mit Betasan behandelten Gruppe?
Diskussion: Es geht hier um den Vergleich zweier Mittelwerte für zwei Gesamtheiten, aus denen
je eine Stichprobe entnommen wurde.
H0 Nullhypothese: Das mittlere Alter ist für beide Gesamtheiten gleich.
H1 Alternativhypothese: Das mittlere Alter der beiden Gesamtheiten ist verschieden (zweiseitige Alternativhypothese).
α Signifikanzniveau: α = 0.05.
SPSS liefert folgende Tabelle. Vor dem t-Test für den Mittelwertsvergleich befindet sich aber
noch ein zweiter Test, der Levene-Test für Varianzhomogenität. Es gibt nämlich zwei verschiedene
Verfahren des t-Tests zum Vergleich zweier unabhängiger Stichproben, einer davon arbeitet mit
der Voraussetzung der Varianzhomogenität, d.i., dass die getestete Größe (hier das Alter) in
beiden Gesamtheiten (Alphasan- und Betasan-PatientInnen) gleich stark streut. Bevor man diese
Methode verwendet, muss aber sichergestellt sein, dass die Daten nicht zwingend darauf hinweisen,
dass die Streuung in den beiden Gesamtheiten verschieden ist.
Test bei unabhängigen Stichproben
Varianz
Levene-Test
Varianzgleichh.
F
Sig.
t
gleich
nicht
gleich
0.543
0.462
dF
0.151
172
0.151
171.249
T-Test
Mittelwertgleichheit
Sig.
Mittlere Standard2-seit. Differenz
fehler
d. Diff.
0.880
0.264
1.756
95% Konf.int.
d. Diff.
untere obere
-3.201 3.730
0.880
-3.202
0.264
1.756
3.730
Für den Levenetest sind die Hypothesen
H0 Nullhypothese: Die Varianz der Zufallsgröße “Alter” ist in den beiden Gruppen (mit
Alphasan bzw. mit Betasan behandelte PatientInnen) gleich.
H1 Alternativhypothese: Die Varianz des Alters ist in den beiden Gruppen verschieden.
114
3. STATISTISCHES SCHÄTZEN UND TESTEN
Typischerweise verläßt man sich auf die Homogenität, wenn im Levene-Test bei α = 0.05 die
Nullhypothese nicht zurückgewiesen werden muss.
In unserem Fall liefert der Levene-Test einen p-Wert von 0.462, weit über 0.05. Wir müssen
daher die Nullhypothese auf Grund unserer Daten nicht zurückweisen: Die vorliegenden Daten
untermauern nicht signifikant, dass die Varianzen des Alters bei den beiden Patientengruppen
verschieden sind.
Daher dürfen wir mit der Annahme der Varianzhomogenität weiterarbeiten. Tatsächlich liefern in unserem Fall beide Verfahren annähernd identische Werte. Der Unterschied der Mittelwerte
des Alters in beiden Gruppen beträgt 0.264. Daraus errechnet sich die Teststatistik t und der pWert 0.88. Dieser ist sehr viel größer als 0.05. Daher wird die Nullhypothese nicht zurückgewiesen.
Unsere Daten zwingen uns nicht zur Annahme, dass das Alter der PatientInnen auf die Vergabe
der Medikamente Einfluss genommen hat.
Übrigens finden wir in der Tabelle auch einen Intervallschätzer für die Differenz. Wir kennen
ja nur den Unterschied der Stichproben, und das ist eine Zufallsvariable. Wie stark diese streut,
kann man dem Standardfehler der Differenz entnehmen. Aus unseren Daten kann man mit 95%
Konfidenz schätzen, dass der tatsächliche Unterschied der Altersmittelwerte der beiden Gruppen
zwischen -3.201 und 3.730 liegt. Die Konfidenz bedeutet: Diese Intervallgrenzen wurden so berechnet, dass bei häufiger Anwendung dieser Methoden in 95% aller Fälle die tatsächliche Differenz
richtig eingegrenzt wurde. ¤
Beispiel 3.1.4.5. Beeinflusst die Behandlung den Blutdruck? Wir testen: Kann
aus den Daten mit einem Signifikanzniveau von α = 0.001 geschlossen werden, dass
der Blutdruck der behandelten PatientInnen sich im Mittelwert innerhalb von 6
Monaten ändert?
Diskussion: Wir stellen die Hypothesen:
H0 Nullhypothese: Der Differenz zwischen dem Blutdruck bei Behandlungsbeginn und dem
Blutdruck 6 Monate nach Behandlungsbeginn beträgt im Mittel Null.
H1 Alternativhypothese: Die Differenz zwischen dem Blutdruck bei Behandlungsbeginn
und dem Blutdruck 6 Monate nach Behandlungsbeginn ist im Mittel ungleich Null.
(Zweiseitige Alternativhypothese).
α Signifikanzniveau α = 0.001.
Hier haben wir eine Stichprobe von PatientInnen, und zu jedem Merkmalsträger zwei Werte:
den Blutdruck bei Neuzugang und 6 Monate nach Behandlungsbeginn. Von diesen beiden Merkmalen soll der Mittelwert verglichen werden. Wir sprechen von einem Mittelwertsvergleich bei
gepaarten Stichproben.
SPSS liefert folgendes Ergebnis:
Gepaarte Differenzen
Blutdruck Ausgang – Blutdruck nach 6 Monaten
MittelStandardStandardfehler 95% Konfid.int.
wert
abweichung
des Mittelw.
der Differenz
Untere Obere
20.460
15.685
1.189
18.113 22.807
T
df
Sig
2-seitig
17.206
173
0.000
Das Programm gibt uns einige statistische Kennzahlen zur Differenz des Blutdrucks zu Beginn
und 6 Monate seit Beginn der Behandlung an. Die Differenz beträgt im Mittel 20.46 mm Hg. Die
Standardabweichung ist ein Maß dafür, wie stark die Differenz streut. Da wir den Mittelwert der
Differenz nur für die Stichprobe kennen, und auf die Gesamtheit aller HypertoniepatientInnen,
die jemals in Behandlung kommen, schließen wollen, ist mit dem Mittelwert ein Schätzfehler
verbunden, der durch den Standardfehler quantifiziert wird. Der Mittelwert für die Gesamtheit
wird mit 95% Konfidenz zwischen 18.113 und 22.807 eingegrenzt. Diese Methode grenzt in 19 von
20 Fällen den Mittelwert richtig ein.
Aus dem Mittelwert der Differenz und seiner Streuung wird die Teststatistik t errechnet,
und aus dieser die zweiseitige Signifikanz. Auf drei Stellen gerundet ist das 0.000. Damit ist die
3.2. T-TEST
115
Nullhypothese zurückgewiesen. Die Daten belegen mit großer statistischer Signifikanz, dass sich 6
Monate nach Behandlungsbeginn im Durchschnitt der Blutdruck ändert. ¤
Beispiel 3.1.4.6. Senkt die Therapie langfristig den Blutdruck in einen medizinisch günstigen Bereich? Wir testen: Beträgt der Blutdruck ein Jahr nach Behandlungsbeginn im Durchschnitt weniger als 150 mm Hg?
Diskussion: Wir stellen die Hypothesen:
H0 Nullhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt
150 mm Hg.
H1 Alternativhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt weniger als 150 mm Hg. (Einseitige Alternativhypothese).
α Signifikanzniveau α = 0.05.
Für den Test eines einzelnen Mittelwertes aus einer Stichprobe setzen wir den t-Test ein.
SPSS liefert:
N
Mittelwert
Standardabweichung
174
148.36
13.137
Standardfehler
des Mittelwertes
0.996
Der Mittelwert 12 Monate nach Beginn liegt für unsere Stichprobe tatsächlich unter 150 mm Hg.
Für die Gesamtheit aller Hypertoniepatienten, die in Behandlung kommen, ist dies aber nur ein
Schätzwert, der mit einem Fehler behaftet ist, der durch den Standardfehler quantifiziert wird.
Berechtigt unsere Stichprobe tatsächlich zu dem Schluss, dass der mittlere Blutdruck für die Gesamtheit unter 150 mm Hg gesenkt wird, oder könnte das einfach ein glücklicher Zufallstreffer
sein? Der Test gibt Auskunft:
Testwert = 150
T
df
Sig.
2-seitig
-1.645
173
0.102
Mittlere
Differenz
-1.638
95% Konfidenzintervall
der Differenz
untere
obere
-3.60
0.33
Die zweiseitige Signifikanz beträgt 0.102. Die Theorie sagt, wie wir noch sehen werden, dass
die einseitige Signifikanz bei diesem Test die Hälfte der zweiseitigen ist. Also ist p = 0.051 > α,
und die Nullhypothese kann nicht zurückgewiesen werden. Aus unseren Daten kann nicht mit
einem Signifikanzniveau von 0.05 geschlossen werden, dass die Behandlung den Blutdruck im
Durchschnitt über alle PatientInnen unter 150 mm Hg senkt. ¤
Was Sie jetzt können:
Methoden: Hypothesen stellen. In konkreten Fällen interpretieren,
was α- und β-Fehler bedeuten. Statistische Tests durch Vergleich von
α und p auswerten und das Ergebnis interpretieren.
3.2. t-Test
Übersicht:
1. Konfidenzintervall für den Mittelwert
2. t-Test auf den Mittelwert
3. Vergleichstests auf Basis des t-Tests
116
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.1. Konfidenzintervall für den Mittelwert.
Übersicht:
1. Die Rolle der t-Verteilung
2. Berechnung des Konfidenzintervalles für Mittelwerte
3. Große Stichproben
3.2.1.1. Die Rolle der t-Verteilung.
Das folgende theoretische Resultat bildet die Grundlage des t-Tests, eines des wichtigsten
und bekanntesten statistischen Tests:
Merksatz 3.2.1.1. Seien x1 , x2 , · · · , xn unabhängige Realisierungen
einer ZuPn
fallsvariablen X mit Erwartungswert E(Xi ) = µ. Sei x = n1 i=1 Xi der Mittelwert
Pn
1
2
der Realisierungen, und sei s2x = n−1
i=1 (Xi − x) die Schätzung der Varianz von
X auf Grund der Realisierungen. Sei
x − µ√
t=
n.
sx
1) Ist X normalverteilt, so ist t eine t-verteilte Zufallsvariable mit n − 1
Freiheitsgraden.
2) Ist X beliebig und n ausreichend groß (Faustregel: n ≥ 30), so ist t eine
annähernd standardnormalverteilte Zufallsvariable.
Diskussion: Der Mittelwert x ist normalverteilt mit Erwartungswert µ und Standardabweichung
√
σx / n, dabei ist σx die Standardabweichung von X. Demnach wäre die Standardisierung von x,
nämlich
x − µ√
n,
σx
eine standardnormalverteilte Zufallsvariable. Da uns aber zur Standardisierung in der Praxis nur
der Schätzer s2x für σx2 zugänglich ist, interessiert uns der Fall, dass mit sx statt σx standardisiert
wird. ¤
3.2.1.2. Berechnung des Konfidenzintervalls für Mittelwerte.
Wir wissen, dass das Stichprobenmittel ein erwartungstreuer und konsistenter Punktschätzer
für den Erwartungswert einer Zufallsvariablen ist. Wir entwickeln jetzt einen geeigneten Intervallschätzer.
Methode 3.2.1.2 (Konfidenzintervall für E(X), auch kleine Stichproben).
• Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X.
• Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X.
• Bedingung: X ist (annähernd) normalverteilt.
• Konfidenz: 1 − α
Das Konfidenzintervall berechnet sich nach der folgenden Methode:
1) Die Anzahl der Freiheitsgrade ist ν = n − 1.
2) Entnehmen Sie der Tabelle das (1 − α2 )-Quantil der t-Verteilung mit n − 1
Freiheitsgraden. Das ist jenes Quantil tα/2 , sodass Realisierungen einer tverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als tα/2 ausfallen.
3.2. T-TEST
117
3) Die halbe Breite des Konfidenzintervalls ist
sx
b = √ tα/2 .
n
4) Die Mitte des Konfidenzintervalles ist x.
5) Das Konfidenzintervall ist also
[x − b, x + b].
• Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X)
eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert
richtig eingegrenzt.
• Anmerkung: Für große Stichproben (n ≥ 30) kann statt der t-Verteilung
auch die Standardnormalverteilung herangezogen werden.
Diskussion: Sei µ der (uns unbekannte) Erwartungswert von X. Nach Merksatz 3.2.1.1 ist die
Zufallsvariable
x − µ√
t=
n
sx
t-verteilt mit n − 1 Freiheitsgraden. Daher gilt für diese Variable:
α
P (t > tα/2 ) = .
2
Da die t-Verteilung eine symmetrische Dichtekurve hat, gilt ebenso
α
P (t < −tα/2 ) =
2
und damit insgesamt:
P (|t| > tα/2 ) = α.
Nun überlegen wir, in welchen Fällen |t| größer als tα/2 ausfällt:
|t| > tα/2 ist dasselbe wie
¯
¯
¯x − µ√ ¯
¯
n¯¯ > tα/2 d.h.
¯ s
x
sx
|x − µ| > √ tα/2 = b.
n
Der gesuchte Erwartungswert µ weicht von x genau dann um mehr als b ab, wenn |t| > tα/2 . Und
das passiert nur mit Wahrscheinlichkeit α. ¤
Beispiel 3.2.1.3. 16 Exemplare von Styriacus rotundus L. wurden auf ihren
Bierverbrauch getestet. Es ergab sich als Stichprobenmittel ein täglicher Bierverbrauch von 2.2 Litern, bei einer geschätzten Standardabweichung von 0.4 Litern.
Bestimmen Sie ein 95%-Konfidenzintervall für den täglichen Bierverbrauch von Styriacus rotundus und interpretieren Sie das Resultat.
Diskussion: Wir müssen die Bedingung voraussetzen, dass der tägliche Bierverbrauch in dieser
Population eine annähernd normalverteilte Zufallsgröße ist. Wir haben die Daten n = 16, x = 2.2,
sx = 0.4. Wir erreichen 95% Konfidenz mit α = 0.05.
1) Die Anzahl der Freiheitsgrade ist 16-1=15.
2) Wir suchen den kritischen Wert t0.025 in der Tabelle der t-Verteilung bei 15 Freiheitsgraden: Es ergibt sich t0.025 = 2.131.
3) Die halbe Breite des Konfidenzintervalles ist
0.4
b = √ × 2.131 = 0.2131.
16
4) Die Mitte des Konfidenzintervalles ist 2.2.
5) Das 95% Konfidenzintervall für den mittleren täglichen Bierverbrauch ist
[2.2 − 0.2131, 2.2 + 0.2131] = [1.9869, 2.4131].
118
3. STATISTISCHES SCHÄTZEN UND TESTEN
Wir haben aus einer Stichprobe geschätzt, wieviel Bier am Tag durchschnittlich pro Person in der
Population von S. r. verbraucht werden. Unsere Methode ist ein Kompromiß zwischen einer groben
Schätzung, die dafür oft recht hat, und einer genauen Schätzung, die aber mit geringerer Wahrscheinlichkeit den Wert richtig eingrenzt: Unser Intervall ist so berechnet, dass die Schätzmethode
in 95% aller Fälle recht hat. ¤
Beispiel 3.2.1.4. Gesetzt die Daten aus Beispiel 3.2.1.3. Bestimmen Sie ein
Intervall, sodass der tägliche Bierverbrauch von ungefähr 95% aller Exemplare von
S. r. innerhalb dieses Intervalles eingegrenzt ist.
Diskussion: Das gesuchte Intervall hat nichts mit einem Konfidenzintervall für den Mittelwert zu
tun. Diese Aufgabe ist also anders als Beispiel 3.2.1.3 zu lösen.
Wir gehen von der Annahme aus, dass der tägliche Bierbedarf eine normalverteilte Zufallsgröße ist. Als Erwartungswert haben wir 2.2 Liter geschätzt, als Standardabweichung 0.4 Liter.
Ist X der tägliche Bierbedarf, so ist durch Standardisierung
X − 2.2
Z=
0.4
standardnormalverteilt. Laut Tabelle der Standardnormalverteilung (t-Verteilung mit Freiheitsgrad ∞) finden wir das 97.5%-Perzentil der Standardnormalverteilung bei 1.96. Damit ist
P (−1.96 ≤ Z ≤ 1.96) = 0.95.
Wir transformieren die Standardisierung zurück
Z = −1.96
⇔
X = 2.2 − 0.4 × 1.96 = 1.416,
Z = 1.96
⇔
X = 2.2 + 0.4 × 1.96 = 2.984.
95% der Exemplare von S. r. haben einen täglichen Bierverbrauch zwischen 1.4 und 3.0 Litern.
Dieses Intervall ist ungefähr 4 mal so breit wie das Konfidenzintervall. Das kommt daher,
dass dieses Intervall auf der Standardabweichung σ(X) von X gegründet ist, während in das
√
Konfidenzintervall die Standardabweichung des Schätzers σ(X)/ 16 einfließt. Dass das Verhältnis
nicht genau 1:4 ist, kommt daher, dass für das Konfidenzintervall die t-Verteilung eingesetzt wurde.
¤
3.2.1.3. Grosse Stichproben.
Methode 3.2.1.5 (Konfidenzintervall für E(X), große Stichproben).
• Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X.
• Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X.
• Bedingung: n ist ausreichend groß, Faustregel: n ≥ 30. (Es muß nicht
vorausgesetzt werden, dass X normalverteilt ist.)
• Konfidenz: 1 − α
Das Konfidenzintervall berechnet sich nach der folgenden Methode:
1) Entnehmen Sie der Tabelle das (1− α2 )-Quantil der Standardnormalverteilung. Das ist jenes Quantil Zα/2 , sodass Realisierungen einer standardnormalverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als Zα/2
ausfallen.
2) Die halbe Breite des Konfidenzintervalls ist
sx
b = √ Zα/2 .
n
3) Die Mitte des Konfidenzintervalles ist x.
4) Das Konfidenzintervall ist also
[x − b, x + b].
3.2. T-TEST
119
• Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X)
eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert
richtig eingegrenzt.
Diskussion: Im Prinzip funktioniert diese Methode wie das Konfidenzintervall für kleine Stichproben. Jedoch ist nach dem zentralen Grenzwertsatz für große Stichproben der Mittelwert auch
dann annähernd normalverteilt, wenn X selbst eine völlig andere Verteilung hat. Bei einer großen
Zahl von Freiheitsgraden kann auch die t-Verteilung durch die Standardnormalverteilung ersetzt
werden. ¤
Beispiel 3.2.1.6. Bei einem Intelligenztest schnitten 400 ProbandInnen einer bestimmten Bevölkerungsgruppe mit einem mittleren IQ von 110 bei einer
(aus der Stichprobe geschätzten) Standardabweichung von 15 ab. Bestimmen Sie
ein 99%-Konfidenzintervall für den mittleren Intelligenzquotienten dieser Bevölkerungssschicht. Wie groß müßte der Stichprobenumfang angelegt sein, um bei derselben Konfidenz den mittleren IQ auf ±1 genau zu schätzen?
Diskussion: Bei einem Stichprobenumfang von n = 400 kann unbedenklich die Methode 3.2.1.5
für große Stichproben eingesetzt werden:
= 0.005. Aus der Tabelle der Quantile der t-Verteilung entnehmen wir (bei
1) α = 0.01, α
2
“Freiheitsgrad ∞”) das entsprechende 0.995-Quantil der Standardnormalverteilung:
Z0.005 = 2.576.
2) Die halbe Breite ist
15
sx
· 2.576 = 1.932.
b = √ · Zα/2 = √
n
400
3) Die Mitte des Konfidenzintervalles ist
x = 110.
4) Das Konfidenzintervall ist daher
[x − b, x + b] = [108.068, 111.932] .
Das Konfidenzintervall umfasst ungefähr 110 ± 2. Um es auf die halbe Breite, also 110 ± 1 zu
reduzieren, muss der Stichprobenumfang vervierfacht werden. Wir benötigen eine Stichprobe von
ungefähr 1600 ProbandInnen. ¤
Merksatz 3.2.1.7. Ein Konfidenzintervall für den Mittelwert einer Zufallsgröße wird unter folgenden Bedingungen schmäler: (Die Schätzung wird also genauer)
1) Wenn die Konfidenz geringer, also α größer angesetzt wird.
2) Wenn der Stichprobenumfang vergrößert
√ wird. Die Breite ist bei großen
Stichproben indirekt proportional zu n.
3) Eine Zufallsvariable mit geringerer Streuung geschätzt wird. Die Breite
ist direkt proportional zur geschätzten Standardabweichung der Zufallsvariablen.
Was Sie jetzt können:
Wissen und Begriffe: Rolle der t-Verteilung bei standardisierten
Mittelwerten. Zusammenhang zwischen Breite des Konfidenzintervalles, Konfidenz und Stichprobenumfang. Verständnis, warum die Formel für das Konfidenzintervall gilt.
Methoden: Berechnung und Interpretation von Konfidenzintervallen
für Mittelwerte von Zufallsvariablen.
120
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.2. t-Test auf den Mittelwert.
Übersicht:
1. Wie der t-Test funktioniert
2. Beispiele zum t-Test
3.2.2.1. Wie der t-Test funktioniert.
Methode 3.2.2.1 (t-Test auf den Erwartungswert einer Zufallsvariablen).
• Statistischer Test, ob der Erwartungswert einer Zufallsvariablen X von
einer vorgegebenen Zahl µ abweicht.
H0 : Nullhypothese: Der Erwartungswert E(X) ist exakt µ.
H1 : Alternativhypothese (drei Varianten):
(a) Der Erwartungswert von X ist größer als µ (einseitig).
(b) Der Erwartungswert von X ist kleiner als µ (einseitig).
(c) Der Erwartungswert von X ist ungleich µ (zweiseitig).
α: Vorgegebenen Signifikanz α.
• Datenmaterial: x1 , · · · , xn sind n unabhängige Realisierungen von X, daraus errechnet das Stichprobenmittel x und die geschätzte Varianz s2x .
• Bedingungen: Entweder ist X annähernd normalverteilt, oder der Stichprobenumfang ausreichend groß (Faustregel: n > 30).
Der Test wird folgendermaßen durchgeführt:
1) Anzahl der Freiheitsgrade für die Wahl der t-Verteilung: ν = n − 1.
Ist ν ≥ 30, kann anstelle der t-Verteilung die Standardnormalverteilung
(“Freiheitsgrad ∞”) verwendet werden.
2) Aus der Tabelle der Quantile der t-Verteilung entnimmt man, je nach
Alternativhypothese
(a,b) bei den einseitigen Tests den Wert tα , das ist jener Wert, sodass die
Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit
α größer als tα ausfallen.
(c) beim zweiseitigen Test den Wert tα/2 , das ist jener Wert, sodass die
Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit
α/2 größer als tα/2 ausfallen.
3) Man berechnet die Teststatistik
x−µ √
· n.
t=
sx
4) Je nach Alternativhypothese entscheidet man:
(a) Ist t ≥ tα , so ist die Nullhypothese zurückzuweisen.
(b) Ist t ≤ tα , so ist die Nullhypothese zurückzuweisen.
(c) Ist |t| ≥ tα/2 , so ist die Nullhypothese zurückzuweisen.
Der Test wird folgendermaßen interpretiert:
• Ergebnis: H1 proklamiert einen Unterschied zwischen dem unbekannten
Erwartungswert E(X) und der gegebenen Zahl µ. Wenn die Nullhypothese
zurückgewiesen wird, gilt dieser Unterschied als statistisch untermauert
mit Signifikanz α. Wenn die Nullhypothese nicht zurückgewiesen wird,
kann der in H1 proklamierte Unterschied nicht mit der geforderten Signifikanz durch die Daten unterstützt werden.
3.2. T-TEST
121
• Fehlerwahrscheinlichkeit: Der statistische Test wird nur im Anteil α aller
Fälle, in denen in Wirklichkeit E(X) = µ gilt, die Nullhypothese zu Unrecht zurückweisen und den in H1 -angegebenen Unterschied unterstützen.
Diskussion: Um das Verfahren zu verstehen, erinnern wir uns, wie ein Test funktioniert. Wir
vergleichen zwei Werte:
α: Die vorgegebene Signifikanz des Tests, also die erlaubte Wahrscheinlichkeit eines αFehlers unter Nullhypothese.
p: Die aus den Daten errechnete Wahrscheinlichkeit, dass eine Teststatistik unter Bedingung der Nullhypothese die Alternativhypothese mindestens so gut unterstützt wie die
aus unseren Daten errechnete Teststatistik.
Ist p ≤ α, so gilt die Alternativhypothese als signifikant untermauert. Eine Teststatistik wie die von
uns errechnete ist unter Annahme der Nullhypothese ausreichend unwahrscheinlich, daher können
wir die Nullhypothese zurückweisen. Ist dagegen p > α, so wird die Nullhypothese beibehalten.
Die Daten reichen zumindest nicht aus, um die Alternativhypothese signifikant zu stützen.
Im Fall des t-Testes ist die Teststatistik die Zufallsvariable
t=
x−µ √
· n.
sx
Je nach Alternativhypothese gilt: Die Teststatistik unterstützt die Alternativhypothese:
(a) H1 : E(X) > µ, wenn t eine ausreichend große positive Zahl ist. (Denn dann ist x − µ
eine ausreichend große positive Zahl, und da x ein Schätzer für E(X) ist, spricht das
für E(X) > µ.)
(b) H1 : E(X) < µ, wenn t eine ausreichend große negative Zahl ist.
(c) H1 : E(X) 6= µ, wenn t eine ausreichend große positive oder negative Zahl ist.
Für kleine Stichproben machen wir die Voraussetzung, dass X annähernd normalverteilt ist.
Gehen wir von der Nullhypothese E(X) = µ aus, so hat in diesem Fall nach Merksatz 3.2.1.1
die Zufallsvariable t eine t-Verteilung mit n − 1 Freiheitsgraden. Für große Stichproben machen
wir keine Voraussetzung an X, doch auf Grund des zentralen Grenzwertsatzes ist t nach Merksatz 3.2.1.1 annähernd standardnormalverteilt, und das entspricht dem Grenzfall einer t-Verteilung
für Freiheitsgrad ∞.
Um unübersichtlichen Schreibaufwand zu ersparen, setzen wir diese Diskussion nur für den
Fall b: Alternativhypothese H1 : E(X) < µ fort. Die anderen beiden Fälle sind ganz analog zu erklären. Unsere Teststatistik ist also t-verteilt, wenn die Nullhypothese gilt. Die Teststatistik spricht
für H1 , wenn t ausreichend weit auf der negativen Seite liegt. Damit ist p die Wahrscheinlichkeit,
dass eine t-verteilte Zufallsvariable einen Wert liefert, der kleiner als das aus den Daten errechnete
t ausfällt. Die folgenden beiden Grafiken zeigen die Dichtekurve der t-Verteilung. Eingezeichnet
ist der kritische Wert −tα . Dieser ist gerade so gewählt, dass eine t-verteilte Zufallsvariable mit
Wahrscheinlichkeit α Realisierungen liefert, welche noch kleiner als −tα sind. Diese Wahrscheinlichkeit wurde mit senkrechter Schraffierung unter der Dichtekurve eingetragen. Ebenso wurde in
beide Diagramme mit waagrechter Schraffierung die Wahrscheinlichkeit p. Wir können zwei Fälle
unterscheiden:
122
3. STATISTISCHES SCHÄTZEN UND TESTEN
p
α
−tα
t
0
Einseitiger t-Test, H1 : E(X) < µ:
Fall t > −tα
Ist t > −tα , so ist p > α, und die Nullhypothese wird beibehalten.
α
p
t
−tα
0
Einseitiger t-Test, H1 : E(X) < µ:
Fall t < −tα
Ist t ≤ −tα , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als
signifikant untermauert.
Wir bemerken noch, warum im Fall des zweiseitigen Tests der Wert von t mit tα/2 verglichen
werden muss. In diesem Fall hat nämlich die Teststatistik zwei Wege, H1 zu unterstützen, nämlich
durch sehr große positive oder durch sehr große negative Werte. Jedem dieser zwei Wege gestehen
wir unter der Nullhypothese eine Wahrscheinlichkeit von α/2 zu. Die folgenden beiden Grafiken
zeigen die Dichtekurve der t-Verteilung und die Wahrscheinlichkeiten p und α beim zweiseitigen
t-Test:
3.2. T-TEST
123
p/2
p/2
α/2
α/2
−tα/2
−t
0
Zweiseitiger t-Test, H1 : E(X) 6= µ:
tα/2
t
Fall |t| < tα/2
Ist |t| < tα/2 , so ist p > α, und die Nullhypothese wird beibehalten.
α/2
α/2
p/2
p/2
−t −tα/2
0
Zweiseitiger t-Test, H1 : E(X) 6= µ:
t
α/2
t
Fall |t| > tα/2
Ist |t| ≥ tα/2 , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als
signifikant untermauert.
¤
Merksatz 3.2.2.2. Der p-Wert eines einseitigen t-Tests ist stets die Hälfte des
p-Wertes des zweiseitigen Tests.
3.2.2.2. Beispiele zum t-Test.
Beispiel 3.2.2.3. Wie schwer sind die hintersten Backenzähne des Süßwasserreptils Pseudoleviathan caledonicus Nessie? Nach jahrzehntelanger Feldarbeit
gelang einem Forscherteam die Identifizierung von 5 Backenzähnen mit folgenden
Gewichten:
124
3. STATISTISCHES SCHÄTZEN UND TESTEN
Fund Nummer
Gewicht (Gramm)
1
9.8
2
3
11.2 10.7
4
10.1
5
10.9
Kann aus diesen Daten mit einem Signifikanznivau von α = 0.05 geschlossen
werden, dass die hintersten Backenzähne von Pseudoleviathan caledonicus N. im
Mittel mehr als 10 Gramm wiegen?
Diskussion: Wir suchen nach dem Erwartungswert der Zufallsvariablen X: Gewicht eines Weisheitszahns von P.c.N.. Wir erstellen die Hypothesen
H0 : Nullhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist 10 Gramm
(also E(X) = 10).
H1 : Alternativhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist größer
als 10 Gramm (also E(X) > 10), einseitig.
Um einen t-Test anzuwenden, müssen wir von der Annahme ausgehen, dass das Gewicht der
Backenzähne von P.c.N. zumindest annähernd normalverteilt ist, denn der Stichprobenumfang
ist mit n = 5 sehr klein. Um die Unabhängigkeit der 5 Realisierungen zu gewährleisten, sollten
die 5 Backenzähne wenigstens von 5 verschiedenen Schädelfunden stammen. Wenn wir von dieser
Annahme ausgehen, bereiten wir zunächst die Teststatistik vor, indem wir Stichprobenmittel und
die geschätzte Standardabweichung berechnen:
Fund
1
2
3
4
5
Summe
durch 5
−x2
x=
Korrekturfaktor ×5/4
Wurzel
Gewicht
xi
9.8
11.2
10.7
10.1
10.9
52.7
10.54
s2x =
sx =
x2i
96.04
125.44
114.49
102.01
118.81
556.79
111.3580
111.0916
0.2664
0.3330
0.5771
Wir führen nun die Schritte des Tests durch:
1) Anzahl der Freiheitsgrade ν = 5 − 1 = 4.
2) Kritischer Wert aus der Tabelle der t-Verteilung mit 4 Freiheitsgraden: t0.05 = 2.132.
3)
t=
x−µ √
10.54 − 10 √
· n=
· 5 = 2.092.
sx
0.5771
4) t = 2.092 < tα = 2.132, daher wird die Nullhypothese nicht zurückgewiesen.
Aus den vorliegenden Daten läßt sich nicht mit einer Signifikanz von 0.05 die Behauptung untermauern, dass die hinteren Backenzähne von P.c.N. im Durchschnitt mehr als 10 Gramm wiegen.
¤
Beispiel 3.2.2.4. Führen Sie den Test aus Beispiel 3.2.2.3 mittels SPSS durch.
Diskussion: Die 5 Daten werden als metrische Variable “Gewicht” (Label: “Gewicht eines Weisheitszahns von P.c.N.”) in den Dateneditor eingegeben. Unter dem Menupunkt “Analysieren Mittelwerte vergleichen” findet sich die Prozedur “T-Test mit einer Stichprobe”. Wir wählen die
(einzige) Variable “Gewicht” als Testvariable, und den Wert µ = 10 der Nullhypothese als Testwert. Daraufhin gibt das Programm folgende Tabellen aus:
3.2. T-TEST
125
Statistik bei einer Stichprobe
N Mittelwert
Standardabweichung
Gewicht eines
Weisheitszahnes
von P.c.N.
5
10,5400
,57706
Standardfehler des
Mittelwertes
,25807
Test bei einer Stichprobe
Testwert = 10
Gewicht eines
Weisheitszahnes
von P.c.N.
T
df
Sig. (2-seitig)
Mittlere
Differenz
2,092
4
,105
,54000
95% Konfidenzintervall
der Differenz
untere
obere
-,1765
1,2565
Die erste Tabelle entspricht unserer Vorbereitung der Statistik. Es werden Stichprobenumfang, Stichprobenmittel und geschätzte Standardabweichung errechnet. Außerdem wird der Standardfehler des Mittelwertes geschätzt. Dies ist die Standardabweichung der Zufallsvariablen x.
√
√
Wie wir bereits wissen, ist das σ(X)/ n, geschätzt durch sx / n.
In der zweiten Tabelle wird der t-Test ausgeführt. Es werden die Werte der Teststatistik t, die
Anzahl der Freiheitsgrade, und die zweiseitige Signifikanz angegeben. Das ist der Wert von p für
den zweiseitigen Test. Im einseitigen Test entsteht p aber nur an einem Ende der Glockenkurve.
Daher ist die einseitige Signifikanz nur die Hälfte der zweiseitigen (Merksatz 3.2.2.2), und wir
müssen für unseren Fall eine Nebenrechnung auswerten:
0.105
= 0.0525.
2
Allerdings gilt trotzdem p > α für unser gewähltes α = 0.05, daher kann die Nullhypothese nicht
zurückgewiesen werden.
p=
Außerdem zeigt die Tabelle des Tests die Differenz von x − µ, und ein 95%-Konfidenzintervall
von E(X)−µ. Die Differenz E(X)−10 kann also (bei Konfidenz von 95%) im Intervall [−0, 1765, 1.2565]
eingegrenzt werden. ¤
Tipp 3.2.2.5.
1) Bei der Durchführung von Tests durch SPSS erhält man direkt den p-Wert.
Die Signifikanz muss daher nicht eingegeben werden. Bei der Auswertung
der Ausgabe vergleicht dann der Untersuchende, ob der Wert von p (im
Programm als Signifikanz bezeichnet) das gewünschte Signifikanzniveau α
unterschreitet und damit H0 zurückgewiesen wird.
2) Grundsätzlich ist die Berechnung des p-Wertes auch bei der “händischen”
Rechnung mit Tabelle eine korrekte Vorgangsweise. Während man für die
Standardnormalverteilung noch meistens die notwendige Tabelle hätte,
wäre eine Sammlung von Tabellen der Verteilungsfunktion der t-Verteilungen für alle Freiheitsgrade zu umfangreich für eine handliche Tabelle. Daher vergleicht man im händischen Rechnen lieber mit Hilfe der
Quantile.
Beispiel 3.2.2.6. Ein Aufnahmetest soll so ausgelegt werden, dass 100 Punkte
zu vergeben sind, und die von MaturantInnen durchschnittlich erreichte Punktezahl bei 60% liegt. In einer Versuchsreihe wurde einer repräsentativen Stichprobe
von 64 Testpersonen eine Entwurfsversion dieses Tests vorgelegt. Sie kamen dabei
im Mittel auf 57 Punkte, bei einer geschätzten Standardabweichung von 8 Punkten. Die Verteilung war deutlich linksgipfelig. Muss aus diesen Daten geschlossen
126
3. STATISTISCHES SCHÄTZEN UND TESTEN
werden, dass die zu erwartende Durchschnittspunktezahl von ProbandInnen bei diesem Testentwurf nicht auf 60 Punkten liegt, und daher ein neuer Entwurf entwickelt
werden? (Signifikanzniveau α = 0.01.)
Diskussion: Wir testen den Erwartungswert der Zufallsvariablen X: Punktezahl einer Probandin
bei der vorliegenden Version des Testes.
H0 : Der Erwartungswert der Punktezahl eines Probanden ist exakt 60 (E(X) = 60).
H1 : Der Erwartungswert der Punktezahl eines Probanden ist nicht exakt 60 (E(X) 6= 60),
zweiseitig.
Da die Stichprobe groß ist, brauchen wir für die Anwendung des t-Testes keine Zusatzannahmen
über die Verteilungsform von X. Zwar ist X nicht normalverteilt sondern stark linksgipfelig, trotzdem kann auf Grund des zentralen Grenzwertsatzes mit der Normalverteilung getestet werden!
Wir führen nun den Test durch:
1) Freiheitsgrade: ∞. Wegen der großen Stichprobe verwenden wir die Standardnormalverteilung.
2) Da der Test zweiseitig ist, testen wir mit tα/2 . In der Tabelle der Quantile der tVerteilung, Zeile für die Standardnormalverteilung, finden wir t0.005 = 2.576.
3) Wir berechnen die Teststatistik:
t=
57 − 60 √
· 64 = −3.
8
4) Es ist
|t| = 3 ≥ 2.576 = tα/2 .
Daher ist die Nullhypothese zurückzuweisen.
Wir können und müssen mit Signifikanz von 0.01 aus diesen Daten schließen, dass die Durchschnittspunktezahl für ProbandInnen bei diesem Test nicht exakt 60 ist. Eine verbesserte Version
muss vorbereitet werden.
¤
Tipp 3.2.2.7. Es ist bei allen statistischen Tests wichtig, dass die Hypothesenstellung nicht aus einer Sichtung des verwendeten Datenmaterials resultiert. Im
Falle des einseitigen t-Tests wäre die Vorgangsweise des Heimwerker-Statistikers
Hokuspokus Schwindlibus fehlerhaft:
1) Hokus sichtet zuerst, ob x > µ ist.
2) Hokus erstellt die Alternativhypothese:
– Falls x > µ, schreibt er H1 : x > µ.
– Falls x < µ, schreibt er H1 : x < µ.
3) Dann führt er einen einseitigen Test aus.
Diskussion: In Wirklichkeit testet die Methode von Hokuspokus Schwindlibus mit Signifikanz 2α
die zweiseitige Alternativhypothese E(X) 6= µ. Weil er nämlich zuerst x ansieht, bevor er die
Alternativhypothese stellt, wird seine Teststatistik t auf jeden Fall das Vorzeichen haben, das
seine Alternativhypothese unterstützt. Er verdoppelt damit die Wahrscheinlichkeit, dass sein t für
H1 spricht, und damit auch die Wahrscheinlichkeit eines α-Fehlers. ¤
Was Sie jetzt können:
Begriffe und Wissen: Verständnis, warum der t-Test auf Mittelwerte von Zufallsvariablen funktioniert.
Methoden: t-Test, einseitig und zweiseitig. Anwendung und Interpretation, Bedingungen für die Anwendbarkeit des t-Tests.
3.2. T-TEST
127
3.2.3. Vergleichstests auf Basis des t-Tests.
Übersicht:
1.
2.
3.
4.
Verbundene und unabhängige Stichproben
t-Test für unabhängige Stichproben
t-Test für verbundene Stichproben
F-Test zum Vergleich von Varianzen
3.2.3.1. Verbundene und unabhängige Stichproben.
Merksatz 3.2.3.1. Wenn die Erwartungswerte zweier Zufallsvariablen verglichen werden sollen, gibt es mehrere Varianten des t-Tests. Welche man wählt, hängt
wesentlich von der Art der Stichproben ab:
Wurde für jede der beiden Zufallsvariablen eine neue, eigene Stichprobe erhoben
(“unabhängige Stichproben”), oder wurden für jeden Merkmalsträger einer gemeinsamen Stichprobe je beide Zufallsvariablen realisiert (“verbundene Stichproben”)?
Beispiel 3.2.3.2. Der Erfolg eines Tennistrainings soll getestet werden, indem
die Spielstärke von 10 Probanden vor dem Training und 10 Probanden nach dem
Training ermittelt wird. Erklären Sie den Unterschied eines Versuches mit verbundenen Stichproben und mit unabhängigen Stichproben.
Diskussion: In einem Versuchsplan mit unabhängigen Stichproben würde man 10 ProbandInnen zufällig auswählen, welche das Training nicht absolviert haben. Anschließend würde man
unabhängig 10 neue ProbandInnen wählen, die das Training absolviert haben.
Im Versuchsplan mit verbundenen Stichproben wählt man 10 ProbandInnen, welche das
Training noch nicht absolviert haben, und ermittelt ihre Spielstärke. Anschließend läßt man die
selben 10 ProbandInnen das Training absolvieren, und ermittelt ihre Spielstärke aufs Neue.
Damit wird eine Unsicherheitsquelle völlig ausgeschaltet: Im Versuch mit unabhängigen Stichproben könnte es im Extremfall passieren, dass die erste Stichprobe aus äußerst begabten SpielerInnen besteht, während die zweite Stichprobe aus wenig begabten SpielerInnen zusammengesetzt
ist. Die Wirksamkeit des Trainings würde in diesem Fall stark unterschätzt. Dagegen wird bei
verbundenen Stichproben die Spielweise derselben Person vor und nach dem Training verglichen,
und die Streuung der natürlichen Begabung der SpielerInnen hat somit keinen Einfluß auf das
Ergebnis.
In der rechnerischen Durchführung zeigt sich, dass die geschätzte Standardabweichung sd im
Normalfall deutlich kleiner ist, als die (wegen der Abhängigkeit hier ungültige) Schätzung mit der
Formel für unabhängige Stichproben ergeben würde. ¤
Merksatz 3.2.3.3. In einen Vergleichstest mit unabhängigen Stichproben gehen unter anderem als Unsicherheitsfaktoren ein (und rechnerisch als Varianzen)
ein:
• Mögliche Verschiedenheiten in der Zusammensetzung der beiden Stichproben,
• die Verschiedenheit von Mitgliedern der Stichproben untereinander.
In einen Vergleichstest mit verbundenen Stichproben werden diese beiden Unsicherheitsfaktoren ausgeschaltet, weil von jedem Merkmalsträger der Unterschied
der beiden Realisierungen festgehalten wird.
128
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.3.2. t-Test für unabhängige Stichproben.
Wir diskutieren nun die einzelnen Varianten des t-Tests zum Vergleich von Erwartungswerten. Durch die Verbreitung der Computerprogramme ist es nicht wahrscheinlich, dass Sie in die
Lage kommen werden, solche Tests händisch durchzurechnen. Sie müssen aber wissen, welche Tests
wann angewendet werden können. Wir geben daher hier keine Details der Rechnung, wohl aber die
Hypothesenstellung und das notwendige Datenmaterial für die einzelnen Tests an. Falls Sie die genaue Rezeptur benötigen, finden Sie diese in der einschlägigen Lehrbuchliteratur. Empfehlenswert
ist z.B. das Buch von W. Köhler, G. Schachtel, P. Voleske, Biostatistik, Springer-Verlag.
Prinzipiell funktionieren t-Tests, indem ein geschätzter Mittelwert standardisiert wird, und
die so berechnete Teststatistik mit einer t-verteilten Zufallsvariablen verglichen wird. Bei Vergleichstests werden die Mittelwerte für zwei Zufallsvariablen erhoben, und ihre Differenz gebildet.
Nun muss zur Standardisierung eine Standardabweichung geschätzt werden. Der Schätzung liegen zwei Datentabellen, je eine für jede verglichene Zufallsvariable, zugrunde. Wenn man davon
ausgehen kann, dass beide Zufallsvariablen dieselbe Standardabweichung haben, können zur gemeinsamen Schätzung dieser Varianz beide Tabellen vereint werden. Andernfalls müssen zwei
Varianzen separat geschätzt werden.
Merksatz 3.2.3.4. Zum Vergleich der Mittelwerte unabhängiger Stichproben
gibt es zwei verschiedene Varianten des t-Tests, je nachdem, ob Varianzhomogenität
angenommen werden kann oder nicht. Man spricht von Varianzhomogenität,
wenn sich die beiden Zufallsvariablen zwar möglicherweise durch den Erwartungswert unterscheiden könnten, aber jedenfalls die Standardabweichung der beiden
verglichenen Zufallsvariablen dieselbe ist.
Methode 3.2.3.5 (t-Test zum Vergleich unabhängiger Stichproben).
• Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und
X2 sich genau um einen Wert µ unterscheiden:
H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) =
µ.
H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige
Variante der Alternativhypothese:
(a) E(X1 ) − E(X2 ) > µ, einseitig.
(b) E(X1 ) − E(X2 ) < µ, einseitig.
(a) E(X1 ) − E(X2 ) 6= µ, zweiseitig.
α: Signifikanz α.
• Datenmaterial: Zwei unabhängige Stichproben, bestehend aus unabhängigen Realisierungen, je eine für X1 mit Umfang n1 und eine für X2 mit
Umfang n2 . Daraus jeweils ermittelt die Stichprobenmittelwerte x1 , x2 und
die geschätzten Varianzen s21 , s22 .
• Bedingungen:
– Entweder, die Zufallsvariablen X1 , X2 sind (annähernd) normalverteilt oder beide Stichprobenumfänge sind ausreichend groß (Faustregel: n1 ≥ 30 und n2 ≥ 30.)
– Je nachdem, ob Varianzhomogenität angenommen werden kann oder
nicht, stehen zwei verschiedene Formeln zur Auswertung des Tests
zur Verfügung.
Tipp 3.2.3.6.
3.2. T-TEST
129
1) Grundsätzlich ist die Methode mit Varianzhomogenität schärfer, das heißt,
bei gleicher Signifikanz (gleicher Wahrscheinlichkeit eines α-Fehlers) neigt
die Methode mit Varianzhomogenität weniger zu β-Fehlern. Daher greift
man zur Methode mit Varianzhomogenität, wenn nicht die Daten darauf
hinweisen, dass die Varianzen beider Zufallsvariablen verschieden sind.
2) Ob man die Annahme gleicher Varianzen machen kann, läßt sich durch
einen F-Test oder als Alternative durch einen Levene-Test überprüfen.
Zeigen diese Tests einen signifikanten Unterschied zwischen den Varianzen,
muss man zur Methode mit verschiedenen Varianzen greifen.
Diskussion: Es ist verständlich, dass die Methode mit Varianzhomogenität schärfer ist. Varianzhomogenität ist eine zusätzliche Information ist, und mit mehr Information sind schärfere und
verlässlichere Schlüsse möglich.
¤
Beispiel 3.2.3.7. Es wird behauptet, dass die Ratten in Graz fetter sind als
in Linz. Läßt sich das statistisch nachweisen? Es wurden zwei Stichproben von
Ratten gewogen und die Ergebnisse in SPSS eingegeben. Die Statistik der beiden
Stichproben sieht man aus der folgenden Tabelle:
Ort
N
Mittelwert
Graz 20 384.3
Linz 30 342.7
StandardStandardabweichung fehler des MW
71,2
15.9
64.7
11.8
Kann aus diesen Daten mit einem Signifikanzniveau von 0.05 geschlossen werden, dass das Durchschnittsgewicht der Ratten in Graz größer ist als das Durchschnittsgewicht der Ratten in Linz?
Diskussion: Die Zufallsvariable X1 “Gewicht einer Ratte aus Graz” wird durch den Fang und die
Wägung einer Ratte aus Graz realisiert. Mit X2 bezeichnen wir die Zufallsvariable “Gewicht einer
Ratte aus Linz”. Wir testen folgende Hypothesen
H0 : Nullhypothese: Das mittlere Gewicht der Ratten in Graz ist genauso groß wie das der
Ratten in Linz. (E(X1 ) = E(X2 )).
H1 : Alternativhypothese: Das mittlere Gewicht der Ratten in Graz ist größer das der Ratten
in Linz. (E(X1 ) > E(X2 )), einseitig.
Wir haben zwei unabhängige Stichproben. Wir haben SPSS den t-Test für zwei unabhängige
Stichproben durchführen lassen und erhalten folgendes Ergebnis:
Test bei unabhängigen Stichproben
Varianz
Levene-Test
Varianzgleichh.
F
Sig.
t
dF
gleich
nicht
gleich
0.390
0.844
2.141
48
2.099
38.1
T-Test
Mittelwertgleichheit
Sig.
Mittlere Standard2-seit. Differenz
fehler
d. Diff.
0.037
41.633
19.447
95% Konf.int.
d. Diff.
untere obere
2.533 80.734
0.042
1.492
41.633
19.830
81.774
Zunächst sehen wir den Levene-Test an, um zu entscheiden, welche der beiden Varianten des
Tests einzusetzen ist. Können wir Varianzhomogenität annehmen? Die Hypothesen des LeveneTests sind
H0 Beide Zufallsvariablen haben dieselbe Standardabweichung.
H1 Die Varianzen der Zufallsvariablen sind verschieden (zweiseitig).
Wir wollen den Levene-Test auf das Signifikanzniveau 0.05 auslegen.
Die Teststatistik F ist ein Hilfsresultat für den Levene-Test. Der p-Wert des Levene-Tests
liegt bei 0.844. Da dies weit größer als 0.05 ist, wird die Nullhypothese nicht abgelehnt. Die Daten
geben keinen Anlass zur Annahme, dass die Varianzen der Gewichte der beiden Rattenpopulationen verschieden sind. Daher können wir ruhig Varianzhomogenität annehmen, und verfolgen die
130
3. STATISTISCHES SCHÄTZEN UND TESTEN
Ergebnisse des t-Tests in der ersten Zeile. (In der zweiten Zeile sind die Ergebnisse des t-Tests für
die Version ohne Varianzhomogenität. Wir sehen aber, dass die zweite Zeile hier nicht auffällig
andere Ergebnisse liefert.)
Die Teststatistik des t-Tests ist t=2.141. Wenn die Nullhypothese gilt, ist diese t-verteilt
mit dF=48 Freiheitsgraden. Für einen zweiseitigen Test hätte man den p-Wert von 0.037. Der
einseitige Test hat nur den halben p-Wert, also p = 0.019. Da p kleiner ist als das gewünschte
Signifikanzniveau α = 0.05, wird die Nullhypothese zurückgewiesen. Die Daten untermauern also
mit Signifikanz von 0.05, dass das Durchschnittsgewicht der Grazer Ratten größer ist als das der
Linzer Ratten.
Außerdem zeigt die Tabelle die Differenz der mittleren Gewichte der beiden Populationen
mit einem Punktschätzer (Mittlere Differenz = 41.633) und seinem Standardfehler, sowie durch
ein Konfidenzintervall. ¤
3.2.3.3. t-Test für verbundene Stichproben.
Der t-Test zum Vergleich der Mittelwerte verbundener Stichproben für zwei Zufallsvariablen
X1 und X2 ist einfach ein t-Test auf die Nullhypothese: die Zufallsvariable D = X1 − X2 hat
den Erwartungswert Null. Es wird also für jeden Merkmalsträger die Differenz seiner beiden
Realisierungen berechnet, und mit diesen Differenzen ein t-Test durchgeführt.
Methode 3.2.3.8 (t-Test zum Vergleich verbundener Stichproben).
• Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und
X2 sich genau um einen Wert µ unterscheiden:
H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) =
µ.
H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige
Variante der Alternativhypothese:
(a) E(X1 ) − E(X2 ) > µ, einseitig.
(b) E(X1 ) − E(X2 ) < µ, einseitig.
(a) E(X1 ) − E(X2 ) 6= µ, zweiseitig.
α: Signifikanz α.
• Datenmaterial: Eine Stichprobe, bestehend aus n Paaren aus je einer Realisierung von X1 und einer Realisierung von X2 :
x11 , · · · , x1n Realisierungen von X1 ,
x21 , · · · , x2n Realisierungen von X2 .
Die Paare sind voneinander unabhängig.
• Bedingungen: Entweder, die Zufallsvariablen X1 , X2 sind (annähernd)
normalverteilt oder der Stichprobenumfang ist ausreichend groß (Faustregel: n ≥ 30.) (Keine Annahme über Varianzhomogenität.)
Beispiel 3.2.3.9. Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten,
Hausübungsbeispiele besonders streng zu bewerten. Um das zu überprüfen, haben
sich einige Studierende beider Gruppen paarweise zusammengetan. Insgesamt 8
Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die Hausübung gemeinsam, und gibt identische Exemplare
in der Gruppe A und B ab. Die Bewertung in Punkten durch die beiden Lehrenden
sieht man in der folgenden Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
3.2. T-TEST
131
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
Diskussion: Hier liegt ein Vergleich von Mittelwerten der Zufallsvariablen X1 : “Von A vergebene
Punkte” und X2 : “Von B vergebene Punkte” vor. Beachten Sie die große Streuung der Punktezahlen in jeder Gruppe, offensichtlich waren die Hausarbeiten von sehr unterschiedlicher Qualität.
Durch die Wahl eines Versuchs mit verbundenen Stichproben wird diese Streuung eliminiert.
Wir testen
H0 : Der Lehrende in Gruppe A vergibt im Durchschnitt ebenso viele Punkte wie der Lehrende in Gruppe B.
H1 : Der Lehrende in Gruppe A vergibt im Durchschnitt weniger Punkte als der Lehrende
in Gruppe B. (einseitig).
α: Signifikanzniveau α = 0.1.
SPSS liefert die folgenden Tabellen:
Mittelwert
N
5.38
6.13
8
8
PrueferA
PrueferB
Mittelwert
Standardabweichung
2.825
2.748
Standard
fehler des MW
.999
.972
Gepaarte Differenzen
StandardStandardabweichung fehler des MW
T
df
Sig
2 seitig
-1.821
7
.111
PrueferA –
-.750
1.724
.412
PrueferB
Die erste Tabelle ist nur eine Übersicht über die Statistiken der Ergebnisse bei Prüfer A und
Prüfer B separat. Wir sehen, dass der Mittelwert der von B vergebenen Punkte höher ist als von
A. Die zweite Tabelle zeigt die Ergebnisse des t-Tests. Hier wird mit der Zufallsvariable
D = Punktezahl bei Prüfer A minus Punktezahl bei Prüfer B
gerechnet. Die ersten drei Spalten der Tabelle geben die Statistik von D an: Das Stichprobenmittel ist negativ, im Durchschnitt vergibt A weniger Punkte als B. Es werden noch die Standardabweichung von D und der Standardfehler des Stichprobenmittels angegeben. Vergleichen Sie
die Standardabweichung der gepaarten Differenzen mit den Standardabweichungen der einzelnen
Stichproben in der Tabelle darüber. Ein Teil der Streuung der einzelnen Stichproben kommt daher,
weil sehr unterschiedlich gute Hausaufgaben abgegeben wurden. Die Differenzen werden jeweils
von den Bewertungen derselben Hausarbeit durch beide Prüfer gebildet, der Einfluss der Qualität
der Hausarbeit selbst hat sich durch die Subtraktion weggehoben. Die Streuung der Differenzen
ist daher deutlich geringer.
Die nächsten drei Spalten geben den t-Test wieder: Die Teststatistik t, die Anzahl der Freiheitsgrade (7 bei 8 Daten, wie wir wissen), und den p-Wert. SPSS weist die zweiseitige Signifikanz,
also den p-Wert für den zweiseitigen Test aus. Der p-Wert des einseitigen Tests ist nur halb so
groß. Daher ist für den einseitigen Test p = 0.056 im Vergleich zu α = 0.1. Daher wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.1 untermauert, dass der Lehrende A im
Durchschnitt weniger Punkte vergibt als der Lehrende B.
Im Nachspiel wendet der Lehrende A ein, dass seine Punktevergabe keiner Normalverteilung
folgt, sondern eher zweigipfelig ist: ein Großteil der Hausarbeiten ist ziemlich gut, und ein anderer
Teil ist ziemlich schlecht. Daher sei der obige Test bei diesem kleinen Stichprobenumfang nicht anwendbar. Den Studierenden wird als Hausaufgabe aufgetragen, eine parameterfreie Methode zum
Vergleich zweier Zufallsvariablen in der Literatur zu suchen und an diesem Beispiel durchzuführen.
¤
132
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.3.4. F-Test zum Vergleich von Varianzen.
Wichtiger als die Schätzung einzelner Varianzen ist der Vergleich von Varianzen. Wir haben
bereits beim Vergleich von Mittelwerten die Bedingung der Varianzhomogenität kennengelernt.
Der folgende Test ist eine Methode, um sie zu überprüfen. Bei der Beurteilung komplexerer statistischer Modelle spielt der Vergleich von Varianzen oft eine wichtige Rolle. Wir werden später
sehen, dass die Methode der Varianzanalyse in einem Vergleichstest von Varianzen gipfelt. —
Tabellen zur F-Verteilung findet man in fast allen Lehrbüchern der Statistik und statistischen
Tabellenwerken.
Methode 3.2.3.10 (F-Test nach Fisher zum Vergleich von Varianzen).
• Test, ob die Varianzen σ12 , σ22 zweier Zufallsvariablen X1 , X2 gleich sind.
• Hypothesen:
H0 : Die Varianzen der beiden Zufallsvariablen sind exakt gleich (σ12 =
σ22 ).
H1 : Es gibt zwei einseitige und eine zweiseitige Variante der Alternativhypothese:
(a) Die Varianz von X1 ist größer als die Varianz von X2 (σ12 >
σ22 ), einseitig.
(b) Die Varianz von X1 ist kleiner als die Varianz von X2 (σ12 <
σ22 ), einseitig.
(c) Die Varianz von X1 ist ungleich der Varianz von X2 (σ12 6= σ22 ),
zweiseitig.
α: Signifikanz α.
• Datenmaterial: Zwei Schätzungen s21 , s22 der Varianzen aus unabhängigen
Stichproben von X1 und X2 , mit ν1 bzw. ν2 Freiheitsgraden.
• Bedingung: X1 und X2 sind (annähernd) normalverteilt.
Der Test wird folgendermaßen durchgeführt:
1) Teststatistik und Freiheitsgrade des Zählers und Nenners: Je nach Alternativhypothese
(a) (einseitig):
F =
s21
, νZ = ν1 , νN = ν2 .
s22
F =
s22
, νZ = ν2 , νN = ν1 .
s21
(b) (einseitig):
(c) (zweiseitig):

s21


F = s22 , νZ = ν1 , νN = ν2 ,


F =
s22
,
s21
νZ = ν2 , νN = ν1 ,
falls s21 ≥ s22 ,
falls s21 < s22 .
(Beim zweiseitigen Test kommt die Variable mit der größeren geschätzten Varianz in den Zähler. Beim einseitigen Test kommt die Variable
in den Zähler, die nach der Alternativhypothese größer sein sollte.)
2) Kritischer Wert: Aus der Tabelle der Quantile der F -Verteilung mit νZ
Freiheitsgraden des Zählers und νN Freiheitsgraden des Nenners entnimmt
man den kritischen Wert:
(a,b) (einseitig): Fα , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α Realisierungen größer als Fα liefert.
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
133
(c) (zweiseitig): Fα/2 , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α/2 Realisierungen größer als Fα/2 liefert.
3) Entscheidung: Ist F ≥ Fα bzw. F ≥ Fα/2 , so wird die Nullhypothese
zurückgewiesen.
Diskussion: Der Test beruht darauf, dass der Quotient der geschätzten Varianzen
s2
1
s2
2
aus un-
abhängigen Stichproben für zwei standardnormalverteilte Zufallsvariablen eine bekannte Verteilung hat, nämlich die F-Verteilung mit ν1 Freiheitsgraden des Zählers und ν2 Freiheitsgraden des
Nenners.
¤
Was Sie jetzt können:
Methoden: Von den folgenden Tests wissen Sie, für welche Hypothesen und
und unter welchen Bedingungen man sie anwenden kann. Die genauen Rechenvorschriften finden Sie bei Bedarf in Lehr- und Handbüchern. Zumeist führt man
T-Tests
zum Vergleich von Mittelwerten bei unabhängigen Stichproben, Varianten mit und ohne Annahme der Varianzgleichheit. T-Test zum
Vergleich von Mittelwerten bei gebundenen Stichproben. F-Test zum
Vergleich von Varianzen.
solche Tests heute ohnehin mit Hilfe von Computerprogrammen durch.
3.3. Binomialverteilung und Binomialtest
Übersicht:
1. Abzählen
2. Binomialverteilung und Binomialtest
3. Normalapproximation der Binomialverteilung
3.3.1. Abzählen.
Übersicht:
1. n faktorielle
2. Binomialkoeffizienten
3. k Objekte aus n Objekten auswählen
134
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.3.1.1. n faktorielle.
Definition 3.3.1.1. Sei n eine natürliche (= positive ganze) Zahl. Die Zahl n!
n faktorielle, Fakultät von n wird definiert durch
n! = 1.2.3. · · · .(n − 1).n
Als zweckmäßige Konvention erweist sich die Definition 0! = 1.
Beispiel 3.3.1.2. Aus der folgenden Tabelle sieht man, dass n! sehr schnell
ansteigt:
n
n!
1
1
2
2
3
6
4
24
5
120
6
720
7
5 040
8
40 320
9
362 880
10 3 628 800
n
11
12
13
14
15
16
17
18
19
20
n!
39 916 800
479 001 600
6 227 020 800
87 178 291 200
≈ 1.307 · 1012
≈ 2.092 · 1013
≈ 3.557 · 1014
≈ 6.402 · 1015
≈ 1.216 · 1017
≈ 2.433 · 1018
Beispiel 3.3.1.3. Es gibt eine Ausgabe der theologischen Schriften des Bernhard von Clairvaux in 10 Bänden. Wieviele Möglichkeiten gibt es, die Bücher nebeneinander ins Regal zu stellen, wenn auf die Bandnummer nicht Rücksicht genommen
wird?
Diskussion: Wir beginnen links im Regal. Es stehen 10 Bände zur Auswahl, das gibt 10 Möglichkeiten für den Band ganz links. Nun liegen noch 9 Bände zur Aufstellung bereit, das gibt 9
Möglichkeiten, das Buch am zweiten Standort auszuwählen. Bisher hatten wir schon 10.9=90
Möglichkeiten für die ersten 2 Stellen. Für den dritten Platz liegen noch 8 Bücher bereit. Insgesamt ergeben sich
10 × 9 × 8 × · · · × 1 = 10! = 3628800
Möglichkeiten.
¤
Merksatz 3.3.1.4. Es gibt n! verschiedene Möglichkeiten, n Objekte auf n
Plätze anzuordnen.
3.3.1.2. Binomialkoeffizienten.
Beispiel 3.3.1.5.
1) Wieviele Möglichkeiten gibt es, aus den Zahlen von 1 bis 45 sechs verschiedene Zahlen auszuwählen, wobei es auf die Reihenfolge der Auswahl
nicht ankommt?
2) Wie groß ist die Wahrscheinlichkeit, mit einem Tipp einen Lottosechser
zu gewinnen?
Diskussion: Wir beginnen unsere Überlegung so, als würde die Reihenfolge der Auswahl eine Rolle
spielen. Für den ersten der sechs Plätze stehen 45 Zahlen zur Wahl, für den zweiten nur mehr 44,
für den dritten nur mehr 43 und so weiter, das ergibt
45 × 44 × 43 × 42 × 41 × 40 = 5 864 443 200
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
135
Möglichkeiten, allerdings unter der Bedingung, dass zwei Tipps als verschieden betrachtet werden,
wenn dieselben Zahlen in verschiedener Reihenfolge angeordnet werden. Weil es aber auf die
Reihenfolge in Wirklichkeit nicht ankommt, sind zum Beispiel folgende Tipps identisch:
Tipp A
Tipp B
Tipp C
3
12
30
4
4
7
7
3
25
12
30
12
25
7
4
30
25
3
Weil jeder Tipp aus 6 verschiedenen Zahlen besteht, und sich 6 Zahlen in 6! = 720 verschiedenen Möglichkeiten anordnen lassen, wird also nach der obigen Methode unter den 5864443200
Varianten jeder einzelne Tipp 720 mal aufgezählt. Es gibt daher “nur”
5864443200
45 × 44 × 43 × 42 × 41 × 40
=
= 8 145 060
6×5×4×3×2×1
720
verschiedene Möglichkeiten.
Weil bei einem fairen Auslosungssystem alle Möglichkeiten gleich wahrscheinlich gezogen
werden, ist die Wahrscheinlichkeit, mit einem Tipp einen Sechser zu landen,
1
≈ 1.23 · 10−7 .
8145060
¤
Definition 3.3.1.6. Seien n und k ganze Zahlen größer oder gleich Null mit
n ≥ k. Der Binomialkoeffizient n über k ist
µ ¶
n!
n · (n − 1) · · · (n − k + 1)
n
=
=
.
k
k!(n − k)!
k · (k − 1) · · · 1
Als zweckmäßig erweist sich µ
folgende
Erweiterung der Definition: Ist k < 0 oder
¶
n
k > n eine ganze Zahl, so ist
= 0.
k
Diskussion: Beachten Sie: Beim zweiten Bruch in der Definition stehen im Zähler und im Nenner
jeweils k Faktoren.
Die beiden Brüche in der Definition sehen auf ersten Blick verschieden aus, jedoch ergibt sich
dieselbe Zahl. Man muss nur den zweiten Bruch mit (n − k)! erweitern:
n · (n − 1) · · · (n − k + 1) · (n − k)!
n · (n − 1) · · · (n − k + 1)
=
k!
k!(n − k)!
n · (n − 1) · · · (n − k + 1) · (n − k) · (n − k − 1) · · · 1
n!
=
=
.
k!(n − k)!
k!(n − k)!
Obwohl man es den Brüchen auf ersten Blick nicht ansieht, lassen sie sich immer kürzen,
sodass der Binomialkoeffizient eine ganze Zahl ist. ¤
Beispiel 3.3.1.7. Berechnen Sie die Binomialkoeffizienten
µ ¶ µ ¶ µ ¶ µ ¶ µ ¶
6
6
6
6
6
,
,
,
,
.
4
2
1
0
8
Diskussion:
¤
µ ¶
6
4
µ ¶
6
2
µ ¶
6
1
µ ¶
6
0
µ ¶
6
8
=
=
=
=
=
6×5×4×3
= 15,
4×3×2×1
6×5
= 15,
2×1
6
= 6,
1
6!
= 1,
6! × 0!
0.
136
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.3.1.8. Es gilt immer:
µ ¶
µ ¶
n
n
=
= 1,
0
n
¶
µ ¶
µ
n
n
=
= n,
1
n−1
µ
¶
µ ¶
n
n
=
.
k
n−k
Im Hinblick auf die Diskussion zu Beispiel 3.3.1.5 sehen wir:
Merksatz 3.3.1.9. Wenn es auf die Reihenfolge nicht ankommt, gibt es
µ ¶
n
k
Möglichkeiten, aus n Objekten k Objekte auszuwählen.
Über Binomialkoeffizienten gibt es noch sehr viel zu sagen. Wir begnügen uns hier mit der
Erklärung, wie es zum Namen kommt. Der Ausdruck (a + b) besteht aus zwei Teilen, ist also ein
sogenanntes Binom. Wie man die Potenzen von Binomen bildet, klärt der Binomische Lehrsatz:
Merksatz 3.3.1.10 (Binomischer Lehrsatz).
µ ¶
µ ¶
µ ¶
µ ¶
n 0 n
n 1 n−1
n 2 n−2
n n 0
n
(a + b) =
a b +
a b
+
a b
+ ··· +
a b .
0
1
2
n
Die Binomialkoeffizienten sind also die Koeffizienten in dieser Formel für die Potenzen der Binome.
Diskussion: Zum Beispiel ergeben sich für n = 2 und n = 3 die folgenden, in der Schule wohlbekannten und beliebten Rechenregeln:
µ ¶
µ ¶
µ ¶
2
2
2
a2 b0
a1 b1 +
a0 b2 +
(a + b)2 =
2
1
0
=b2 + 2ab + a2 ,
µ ¶
µ ¶
µ ¶
µ ¶
3
3
3
3
a2 b1 +
a3 b0
a1 b2 +
(a + b)3 =
a0 b3 +
2
3
1
0
=b3 + 3ab2 + 3a2 b + a3 .
¤
3.3.1.3. k Objekte aus n Objekten auswählen.
Merksatz 3.3.1.11. Wenn aus n Objekten k Objekte ausgewählt werden, sind
zwei Kriterien zu berücksichtigen:
1.) Spielt die Reihenfolge eine Rolle, in der die Objekte ausgewählt werden?
Wird also jedes Objekt für einen anderen Zweck gewählt? Gelten also zwei
Möglichkeiten, dieselben Objekte auszuwählen, aber in verschiedener Reihenfolge, als zwei verschiedene Möglichkeiten oder als dieselbe Möglichkeit?
2.) Sind Wiederholungen zulässig? Darf also dasselbe Objekt mehrmals gewählt
werden?
Daraus ergibt sich dann die Anzahl der verschiedenen Möglichkeiten, k aus n Objekten auszuwählen, nach 4 verschiedenen Formeln:
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
Wiederholungen
zulässig
Wiederholungen
unzulässig
Reihenfolge spielt eine Rolle
nk
n · (n − 1) · · · (n − k + 1)
|
{z
}
k Faktoren
Reihenfolge spielt keine Rolle
µ
¶
n+k−1
k
µ ¶
n
k
137
Was Sie jetzt können:
Wissen und Begriffe: Faktorielle und Binomialkoeffizienten
Methoden: Abzählen von Möglichkeiten, aus n Objekten k Objekte
auszuwählen.
3.3.2. Binomialverteilung und Binomialtest.
Übersicht:
1. Binomialverteilung
2. Stichproben dichotomer Merkmale
3. Binomialtest
3.3.2.1. Binomialverteilung.
Beispiel 3.3.2.1. 30% aller Bäume in der Umgebung eines bekannten gallischen
Dorfes sind mit Misteln bewachsen. Der Druide Miraculix besteigt auf gut Glück 5
verschiedene Bäume. Wie groß ist die Wahrscheinlichkeit, dass er darunter genau 2
Bäume mit Misteln gefunden hat?
Diskussion: Wir zerlegen die Überlegung in zwei Teile. Zunächst hat der Druide 5 Bäume bestiegen,
sagen wir, die Bäume A,B,C,D,E. Dann gibt es verschiedene Möglichkeiten darunter genau 2
Mistelträger
zu finden, zum Beispiel AB, oder AC, oder CE, und so weiter. Insgesamt gibt es
µ ¶
5
= 10 Möglichkeiten, 2 Bäume unter 5 Bäumen als potentielle Mistelträger auszuwählen.
2
Von diesen 10 Möglichkeiten betrachten wir eine genauer. Wie groß ist zum Beispiel die
Wahrscheinlichkeit, dass genau die Bäume A und C Mistelträger sind, und die restlichen drei
Bäume keine Misteln hatten? Mit Wahrscheinlichkeit 0.3 hat A Misteln, mit Wahrscheinlichkeit
1 − 0.3 = 0.7 hat B keine Misteln. Damit haben wir eine Wahrscheinlichkeit von 0.3 × 0.7, dass
A Misteln hat, und gleichzeitig B keine Misteln hat. Führen wir die Überlegung für die Bäume
C,D,E weiter, so erhalten wir eine Wahrscheinlichkeit von
0.3 × 0.7 × 0.3 × 0.7 × 0.7 = 0.32 × 0.75−2
dass A und C Misteln hatten, und die restlichen drei Bäume nicht. Beachten Sie, dass der Faktor
0.3 zweimal, und der Faktor 0.7 dreimal vorkommt.
Für jede der 10 Kombinationen von 2 aus 5 Bäumen als Mistelträgern ergibt sich dieselbe
Überlegung, und am Ende finden wir folgende Wahrscheinlichkeit, dass genau 2 aus 5 Bäumen
Misteln hatten:
µ ¶
5
0.32 (1 − 0.3)5−2 = 0.3087.
2
¤
138
3. STATISTISCHES SCHÄTZEN UND TESTEN
Definition 3.3.2.2. Eine Zufallsgröße X heißt B(n, p)-binomialverteilt, wenn
sie als Realisierungen die Werte 0 · · · n annehmen kann, und die Wahrscheinlichkeit,
dass als Realisierung die Zahl k angenommen wird, nach der folgenden Formel berechnet werden kann:
µ ¶
n
P (X = k) =
pk (1 − p)n−k .
k
Wenn wir die Überlegungen aus Beispiel 3.3.2.1 nachvollziehen, kommen wir zu folgendem
Merksatz:
Merksatz 3.3.2.3. Ein Zufallsexperiment Y soll nur zwei Ausgänge haben:
“positiv” und “negativ”. Dabei sei p die Wahrscheinlichkeit, dass der Ausgang
positiv ist. Wird das Zufallsexperiment in n unabhängigen Versuchen realisiert, und
bezeichnet X die Anzahl der Versuche, in denen das Experiment positiv ausgeht,
so ist X eine B(n, p)-binomialverteilte Zufallsvariable.
3.3.2.2. Stichproben mit dichotomen Merkmalen.
Als Spezialfall von Merksatz 3.3.2.3 ergibt sich:
Merksatz 3.3.2.4. Ein dichotomes Merkmal in einer Population habe die Ausprägungen “positiv” und “negativ”. Dabei sei p die relative Häufigkeit der positiven
Merkmalsträger in der Gesamtpopulation. Aus der Population wird eine Stichprobe des Umfanges n so entnommen, dass sich durch die Entnahme der Stichprobe
die Anteile von positiven und negativen Merkmalsträgern nicht (bzw. nicht wesentlich) verschieben. Bezeichnet X die Anzahl der positiven Merkmalsträger in der
Stichprobe, so ist X eine (annähernd) B(n, p)-binomialverteilte Zufallsvariable.
Beispiel 3.3.2.5. In einem Käfig sitzen 5 Ratten. Zwei davon beißen jede Hand,
die nach ihnen greift, die andern drei beißen nicht, sondern lassen sich gerne kraulen.
1) Andrea fischt zwei (verschiedene) Ratten aus dem Käfig. Ist die Anzahl
der bissigen Ratten, die sie erwischt, binomialverteilt?
2) Barbara greift zweimal blind in den Käfig nach einer Ratte, ohne sie aber
herauszunehmen. Ist die Anzahl der Bisse, die sie ausfasst, binomialverteilt?
3) 40% der Ratten im Kanalsystem von Palermo sind bissig. Claudia fischt 2
Ratten aus dem Kanal. Ist die Anzahl der bissigen Ratten, die sie erwischt,
binomialverteilt?
Diskussion: Zu Beginn sitzen 5 Ratten im Käfig, davon sind 40% bissig. Nehmen wir an, Andrea
hat die erste Ratte entnommen, und diese hat gebissen. Nun sitzen noch 4 Ratten im Käfig, aber
davon ist nur mehr eine bissig, das sind 25%. Durch die Entnahme der Stichprobe hat sich der
Anteile der “positiven” bissigen Ratten verschoben. Keine Binomialverteilung!
Barbara dagegen entnimmt die Ratte nicht, es kann sein, dass sie das zweite Mal nach derselben Ratte greift. Durch die Stichprobenwahl verschiebt sich der Anteil der bissigen Ratten nicht,
er ist nach wie vor 40%. Binomialverteilung B(2, 0.4).
Im Hinblick auf die dem Verfasser unbekannte, aber zweifellos ehrfurchtgebietende Zahl der
Ratten im Kanal von Palermo kann die Entnahme von zwei Ratten den Anteil der bissigen Tiere
nicht wesentlich verschieben. Daher ist die Anzahl der bissigen Tiere, die Claudia findet, zumindest
in hervorragender Näherung B(2, 0.4)-binomialverteilt. ¤
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
139
3.3.2.3. Binomialtest.
Methode 3.3.2.6 (Binomialtest). Statistischer Test auf den Anteil “positiver”
Merkmalsträger in einer Grundgesamtheit.
• Ein dichotomes Merkmal sei in einer Grundgesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten. Sei γ eine vorgegebene Zahl zwischen 0 und 1.
• Hypothesen:
H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ.
H1 : Alternativhypothese: Der Anteil der positiven Merkmalsträger ist kleiner als γ (einseitig).
α: Signifikanzniveau α.
• Daten: Eine Stichprobe von n zufällig und unabhängig ausgewählten Merkmalsträgern. Darunter befinden sich k positive.
• Bedingungen: Die Entnahme der Stichprobe ändert nicht (wesentlich) den
Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit.
Der Test wird folgendermaßen durchgeführt:
1) Berechnung des p-Wertes: p ist die kumulative Wahrscheinlichkeit p =
P (0 ≤ X ≤ k) für eine B(n, γ)-binomialverteilte Zufallsvariable X.
2) Ist p ≤ α, so wird die Nullhypothese zurückgewiesen.
Beispiel 3.3.2.7. In einem Versuch wurde untersucht, ob sich KohlreutheriaExtrakte zur Bekämpfung von roten Nacktschnecken (Arion lusitanicus) eignen.
Von 40 Nacktschnecken überlebten 2 die nächsten 24 Stunden nach der Behandlung
mit einer bestimmten Dosis von Kohlreuteria-Extrakt. Folgt mit einer Signifikanz
von 0.05, dass rote Nacktschnecken mit einer Wahrscheinlichkeit von weniger als
20% einen Tag lang die Berührung mit Kohlreutheria überleben?
Diskussion: Wir stellen die Hypothesen:
H0 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können,
ist 0.2 = 20%.
H1 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können,
ist kleiner als 0.2.
Um den Test durchzuführen, brauchen wir die kumulative Wahrscheinlichkeit P (X ≤ 2) für
eine B(40, 0.2)-binomialverteilte Zufallsgröße X.
j
0
1
2
µ ¶
40
j
1
40
780
0.2j
1
0.2
0.04
0.840−j
10−4
1.329 ·
1.662 · 10−4
2.077 · 10−4
P (X = j)
10−4
1.329 ·
1.329 · 10−3
6.480 · 10−3
P (X ≤ j)
1.329 · 10−4
1.462 · 10−3
7.942 · 10−3
Insbesondere ist also die kumulative Wahrscheinlichkeit
p = P (X ≤ 2) ≈ 7.942 · 10−3 ≤ 0.05,
daher kann die Nullhypothese zurückgewiesen werden. Es ist signifikant untermauert, dass Kohlreutheria mehr als 80% der roten Nacktschnecken innerhalb eines Tages tötet. ¤
Tipp 3.3.2.8. Für die kumulativen Verteilungen der Binomialverteilung gibt es
natürlich Tabellen. Für große Stichprobenumfänge verwendet man ein Näherungsverfahren (Methode 3.3.3.6).
140
3. STATISTISCHES SCHÄTZEN UND TESTEN
Was Sie jetzt können:
Wissen und Begriffe: Binomialverteilung.
Methoden: Erkennen von Situationen, auf welche die Binomialverteilung anwendbar ist. Binomialtest auf Anteile.
3.3.3. Normalapproximation der Binomialverteilung.
Übersicht:
1. Normalapproximation
2. Test auf Anteile bei großen Stichproben
3. Konfidenzintervall für Anteile bei großen Stichproben
3.3.3.1. Normalapproximation. Wir bemerken zunächst, dass Erwartungswert und Standardabweichung binomialverteilter Zufallsvariablen einfache Formeln haben:
Merksatz 3.3.3.1. Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Dann
gilt:
1) Der Erwartungswert von X beträgt E(X) = np. p
2) Die Standardabweichung von X beträgt σ(X) = np(1 − p).
Beispiel 3.3.3.2. Vergleichen Sie das Stabdiagramm einer B(10, 0.4)-binomialverteilten
Zufallsgröße X mit der Dichtekurve einer Normalverteilung Y mit demselben Erwartungswert und derselben Standardabweichung.
Diskussion: Nach Merksatz 3.3.3.1 sind Erwartungswert und Standardabweichung der binomialverteilten Zufallsvariablen X gegeben:
√
√
E(X) = 10 × 0.4 = 4, σ(X) = 10 × 0.4 × 0.6 = 2.4 ≈ 1.55.
Wir berechnen die Häufigkeiten der 11 möglichen Ausprägungen von X:
µ
¶
10
0.4k
0.610−k P (X = k)
k
0
1 1
0.00605 0.00605
1
10 0.4
0.01008 0.04031
2
45 0.16
0.01680 0.12093
3
120 0.064
0.02799 0.21499
4
210 0.0256
0.04666 0.25082
5
252 0.01024 0.07776 0.20066
6
210 0.00410 0.1296
0.11148
7
120 0.00164 0.216
0.04247
8
45 0.00655 0.36
0.01062
9
10 0.00026 0.6
0.00157
10
1 0.00010 1
0.00010
Wir stellen nun ein Stabdiagramm dieser Verteilung her, wobei
√ wir die Breite der Stäbe mit
1 wählen. Zum Vergleich zeichnen wir die Dichtekurve der N (4, 2.4)-Normalverteilung ein.
k
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
141
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
6
B(10, 0.4)-Binomialverteilung und N (4,
7
√
8
9
10
2.4)-Normalverteilung
Wir sehen, dass die Dichtekurve der Normalverteilung das Stabdiagramm der Binomialverteilung ziemlich gut annähert.
¤
Merksatz 3.3.3.3 (Normalapproximation der Binomialverteilung). Für große
n kann eine B(n, p)-binomialverteilte Zufallsvariable näherungsweise
durch eine
p
Normalverteilung mit Mittelwert np und Standardabweichung np(1 − p) ersetzt
werden. Als Faustregel gilt: Diese Näherung darf verwendet werden, wenn
np(1 − p) ≥ 9.
Beispiel 3.3.3.4. Eine Zufallsvariable X ist B(50, 0.3)-binomialverteilt. Wie
groß ist die Wahrscheinlichkeit, dass X eine Realisierung zwischen 10 und 20 annimmt?
Diskussion: Die exakte Rechnung wäre
µ
P (10 ≤ X ≤ 20) =
¶
µ ¶
µ ¶
50
50
50
0.310 0.540 +
0.311 0.539 + · · · +
0.320 0.530 .
10
11
20
Diese Rechnung ist nicht nur mühsam. Einerseits sind die Binomialkoeffizienten sehr große Zahlen,
andererseits sind die hohen Potenzen von 0.3 und 0.7 sehr klein. Die Rundungsfehler dieser langwierigen Rechnung könnten sich sehr unangenehm aufschaukeln, und trotz der exakten Formel
könnte das Ergebnis auf Grund dieser Fehler sehr ungenau ausfallen.
Wir überprüfen daher, ob wir in diesem Fall auf die Normalapproximation zurückgreifen
können. Tatsächlich ist
50 × 0.3 × (1 − 0.3) = 10.5 > 9,
also darf die Normalapproximation verwendet werden.
142
3. STATISTISCHES SCHÄTZEN UND TESTEN
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
5
10
15
20
B(50, 0.3)-Binomialverteilung und N (15,
25
√
30
10.5)-Normalverteilung
Betrachten Sie das obige Diagramm. Die Fläche der Balken über 10, 11, · · · , 20 gemeinsam
ergeben die gesuchte Wahrscheinlichkeit. Wir nehmen statt dessen die Fläche unter der Dichtekurve. Beachten Sie, dass jeder Balken die Breite 1 hat. Die Fläche beginnt also nicht bei 10, sondern
bei 9.5, und endet nicht bei 20, sondern bei 20.5. (Diese Überlegung, nicht die Fläche zwischen
den Balkenmitten, sondern von Balkenende zu Balkenende zu berechnen, heißt die Stetigkeitskorrektur.) Sei also nun
√ Y eine normalverteilte Zufallsvariable mit Mittelwert 50 × 0.3 = 50 und
Standardabweichung 10.5. Wir suchen die Wahrscheinlichkeit, dass Y zwischen 9.5 und 20.5 zu
liegen kommt.
Wir standardisieren zunächst:
Y − 15
Z= √
.
10.55
Insbesondere ist
für Y = 20.5 ist Z ≈ 1.70,
für Y = 9, 5 ist Z ≈ −1.70.
Aus der Tabelle der Standardnormalverteilung entnehmen wir
P (0 ≤ Z ≤ 1.70) = 0.4554.
Daher ist
P (9.5 ≤ Y ≤ 20.5) = P (−1.70 ≤ Z ≤ 1.70) = 2 × 0.4554 = 0.9108.
(Die exakte Rechnung mit MATLAB ergab 0.9120.)
¤
Methode 3.3.3.5 (Normalapproximation der Binomialverteilung mit Stetigkeitskorrektur). Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Gesucht ist
die Wahrscheinlichkeit P (k1 ≤ X ≤ k2 ) mit zwei ganzen Zahlen k1 , k2 . Sei
np(1 − p) ≥ 9,
sodass die Normalapproximation zulässig ist.
Dann definiert man eine
p normalverteilte Zufallsvariable Y mit Mittelwert np
und Standardabweichung np(1 − p) und berechnet näherungsweise:
P (k1 ≤ X ≤ k2 ) ≈ P (k1 − 0.5 ≤ Y ≤ k2 + 0.5).
Die zweite Wahrscheinlichkeit erhält man durch Standardisierung und mit Hilfe
einer Tabelle für die Standardnormalverteilung.
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
143
3.3.3.2. Test auf Anteile bei großen Stichproben.
Die Normalapproximation erlaubt vor allem eine näherungsweise Durchführung des Binomialtests auf Anteile von Populationen bei großen Stichproben:
Methode 3.3.3.6 (Näherung des Binomialtests für große Stichproben). Statistischer Test auf den Anteil von “positiven” Merkmalsträgern in einer Gesamtheit.
• Ein dichotomes Merkmal X sei in einer Gesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten.
• Hypothesen:
H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ.
H1 : Es gibt eine einseitige und eine zweiseitige Variante der Alternativhypothese:
a) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist größer als γ (einseitig).
b) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist ungleich γ (zweinseitig).
α: Signifikanzniveau α.
• Daten: Eine zufällige Stichprobe von n verschiedenen Merkmalsträgern.
Darunter befinden sich k positive Merkmalsträger. Der Anteil der positiven Merkmalsträger in der Stichprobe beträgt γ̂ = k/n.
• Bedingungen: nγ(1 − γ) ≥ 9. Die Entnahme der Stichprobe ändert nicht
(wesentlich) den Anteil der positiven Merkmalsträger in der Gesamtheit.
Der Test wird folgendermaßen durchgeführt:
1) Teststatistik
γ̂ − γ
Z=p
.
γ(1 − γ)/n
2) Kritische Werte aus der Tabelle der Quantile der Standardnormalverteilung: Für den einseitigen Test Zα , für den zweiseitigen Test Zα/2 .
3)
a) Einseitiger Test: Wenn Z ≥ Zα , dann wird die Nullhypothese zurückgewiesen.
b) Zweiseitiger Test: Wenn |Z| ≥ Zα/2 , dann wird die Nullhypothese
zurückgewiesen.
Beispiel 3.3.3.7. Auf eine unfangreiche Befragung von 10000 Personen im
Alter über 30 Jahre gaben 40.2% an, schon einmal im Leben längere Zeit unter Schlafstörungen gelitten zu haben. Folgt mit einer Signifikanz von 0.05, dass
mindestens 40% aller Personen im Alter über 30 im längere Zeit hindurch unter
Schlafstörungen gelitten haben?
Diskussion: Dies ist ein einseitiger Binomialtest.
H0 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt 0.4=40
H1 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt mehr als 0.4.
Der große Stichprobenumfang rechtfertigt mühelos die Normalapproximation:
10000 × 0.4 × 0.6 = 2400 ≥ 9.
Berechnung der Teststatistik:
0.402 − 0.4
Z= p
= 0.408.
0.4(1 − 0.4)/10000
144
3. STATISTISCHES SCHÄTZEN UND TESTEN
Der kritische Wert der Standardnormalverteilung für α = 0.05 wird aus der Tabelle der Quantile
der t-Verteilung, “Freiheitsgrad ∞”, entnommen:
Z0.05 = 1.645.
Da Z < Zα , wird die Nullhypothese nicht zurückgewiesen. Diese Daten untermauern nicht mit
Signifikanz 0.05, dass mehr als 40% aller Menschen der betroffenen Altersklasse längere Zeit
Schlafstörungen hatten. ¤
3.3.3.3. Konfidenzintervall für Anteile bei großen Stichproben.
Methode 3.3.3.8 (Konfidenzintervall für Anteile, große Stichproben). In einer
Grundgesamtheit sei ein dichotomes Merkmal mit den Ausprägungen “positiv” und
“negativ” vertreten. Eine Stichprobe von n zufällig ausgewählten Merkmalsträgern
enthalte k positive Merkmalsträger. Der Anteil der positiven in der Stichprobe ist
daher γ̂ = k/n.
Es sei nγ̂(1 − γ̂) ≥ 9, und die Stichprobe sei so entnommen, dass durch die
Entnahme der Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit
nicht wesentlich verändert wird.
Ein 1 − α-Konfidenzintervall für den Anteil der positiven Merkmalsträger in
der Grundgesamtheit errechnet sich folgendermaßen:
1) Man entnimmt der Tabelle den kritischen Wert Zα/2 der Standardnormalverteilung.
2) Die halbe Breite des Konfidenzintervalls ist
r
γ̂(1 − γ̂)
b = Zα/2
.
n
3) Das Konfidenzintervall ist
[γ̂ − b, γ̂ + b].
Beispiel 3.3.3.9. In einer Umfrage unter 400 StudentInnen stimmten 56 Personen für mehr Übungen aus Statistik. Ermitteln Sie ein 95%-Konfidenzintervall
für den Anteil aller StudentInnen, welche sich für mehr Übungen aus Statistik aussprechen würden.
Diskussion: Es ist γ̂ = 56/400 = 0.14.
Dürfen wir die Normalapproximation einsetzen? Es ist 400 × 0.14 × 0.86 = 48.16 ≥ 9, also
dürfen wir hier mit Normalverteilung arbeiten.
Der kritische Wert der Standardnormalverteilung für α/2 = 0.025 ist
Z0.025 = 1.96.
Damit errechnet sich die halbe Breite des Konfidenzintervalles
r
0.14 × 0.86
b = 1.96
≈ 0.034.
400
Das Konfidenzintervall ist daher
[0.106, 0.174].
Zwischen 10% und 18% liegt der Anteil der Studierenden, die gerne mehr Übungen aus Statistik
hätten. ¤
Was Sie jetzt können:
Wissen und Begriffe: Erwartungswert und Standardabweichung
der Binomialverteilung, Approximation der Binomialverteilung durch
Normalverteilung.
Methoden: Test und Konfidenzintervall für Anteile positiver Merkmalsträger bei großen Stichproben.
3.4. PARAMETERFREIE METHODEN
145
3.4. Parameterfreie Methoden
Übersicht:
1. Anpassungstests
2. χ2 -Tests für nominale Daten
3. Tests für ordinale Daten
3.4.1. Anpassungstests.
Übersicht:
1) Kolmogorov-Smirnov-Test
2) Grafische Methoden
3.4.1.1. Kolmogorov-Smirnov-Test.
Merksatz 3.4.1.1. Anpassungstests dienen dazu, zu entscheiden, ob einer
Stichprobe eine bestimmte Wahrscheinlichkeitsverteilung zugrundeliegt.
Viele statistische Verfahren setzen zum Beispiel normalverteilte Zufallsvariablen voraus. Mit
Anpassungstests kann man testen, ob eine Zufallsvariable, deren Realisierungen aus einer Stichprobe bekannt sind, normalverteilt ist.
Methode 3.4.1.2 (Kolmogorov-Smirnov-Anpassungstest).
• Statistischer Test, ob Zufallsvariable X (bzw. ein metrisches Merkmal)
nach einer gegebenen Wahrscheinlichkeitsverteilung verteilt ist. Dabei sei
Φ die Verteilungsfunktion der gegebenen Verteilung.
• Hypothesen und Signifikanz:
H0 : Nullhypothese: Die Verteilungsfunktion von X ist die vorgegebene
Funktion Φ.
H1 : Alternativhypothese: Die Verteilungsfunktion von X ist nicht gleich
Φ (zweiseitig).
α: Signifikanzniveau: α.
• Datenmaterial: n unabhängige Realisierungen von X, daraus errechnet die
relativen kumulativen Häufigkeiten.
• Bedingung: Die Verteilungsfunktion Φ wurde nicht auf Grund der getesteten Daten gewählt. Es wurden auch keine Parameter von Φ aus den
getesteten Daten geschätzt.
Der Test wird folgendermaßen durchgeführt:
1) Tragen Sie in einem Diagramm waagrecht x, senkrecht sowohl die Verteilungsfunktion Φ als auch die relativen Häufigkeiten FProbe auf. (Die
relativen Häufigkeiten ergeben eine steigende Treppe.)
2) Teststatistik (Kolmogorov-Smirnov-Statistik): K ist der größte senkrechten Abstand (aufwärts oder abwärts) zwischen den Kurven Φ und FProbe .
3) Aus der Tabelle der kritischen Werte für den Kolmogorov-Smirnov-Test
entnehmen Sie den Wert Kα für die gewünschte Signifikanz α.
4) Falls |K| ≥ Kα , wird die Nullhypothese zurückgewiesen.
146
3. STATISTISCHES SCHÄTZEN UND TESTEN
Die folgende Grafik zeigt, wie man im Diagramm der Verteilungsfunktionen die KolmogorovSmirnov-Statistik findet:
1
größter Abstand:
Kolmogorov−Smirnov−
Statistik
0.5
blau: kumulative
relative Häufigkeiten
rot: Verteilungsfunktion
0
Kolmogorov-Smirnov-Statistik
Quantile der Kolmogorov-Smirnov-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt.
n
α
1
2
3
4
5
0.2
0.90
0.68
0.56
0.49
0.45
0.1
0.95
0.78
0.64
0.56
0.51
0.05
0.98
0.84
0.71
0.62
0.56
0.01
0.99
0.93
0.83
0.73
0.67
6
7
8
9
10
0.41
0.38
0.36
0.34
0.32
0.47
0.44
0.41
0.39
0.37
0.52
0.49
0.46
0.43
0.41
0.62
0.58
0.54
0.51
0.49
11
12
13
14
15
0.31
0.30
0.28
0.27
0.27
0.35
0.34
0.32
0.31
0.30
0.39
0.38
0.36
0.35
0.34
0.47
0.45
0.43
0.42
0.40
16
17
18
19
20
0.26
0.25
0.24
0.24
0.23
0.30
0.29
0.28
0.27
0.26
0.33
0.32
0.31
0.30
0.29
0.39
0.38
0.37
0.36
0.35
25
30
35
40
45
0.21
0.19
0.18
0.17
0.16
0.24
0.22
0.21
0.19
0.18
0.26
0.24
0.23
0.21
0.20
0.32
0.29
0.27
0.25
0.24
groß
1.07
√
n
1.22
√
n
1.36
√
n
1.63
√
n
Tipp 3.4.1.3. Der Kolmogorov-Smirnov-Test wird bei großen Stichproben (n ≥
500) sehr leicht signifikant: Zum Beispiel werden Zufallsvariablen, die nicht exakt
3.4. PARAMETERFREIE METHODEN
147
normalverteilt sind, durch den KS-Test dann erkannt. Oft braucht man aber nicht,
dass eine Zufallsvariable exakt einer Verteilung Φ folgt, sondern nur, dass sie näherungsweise vergleichbare Eigenschaften wie Φ hat.
Beispiel 3.4.1.4. Entstammen die folgenden Daten von Realisierungen einer
Zufallsvariablen, die über das Intervall [0, 1] gleichverteilt ist? (D.h., deren Dichtefunktion auf [0, 1] konstant 1, und außerhalb dieses Intervalles Null ist.) Signifikanznivau: 0.05.
Daten: Stichprobe von 10 Realisierungen mit den Werten
Realisierung Nr.
Wert
1
0.05
2
0.08
3
0.18
4
0.25
5
6
0.47 0.64
7
0.64
8
0.85
9
0.86
10
0.94
Diskussion: Die kumulativen relativen Häufigkeiten springen an den einzelnen Datenpunkten um
je ein Zehntel aufwärts. (Beachten Sie den doppelten Sprung an der Stelle 0.64). Die Verteilungsfunktion der Gleichverteilung wächst im Intervall [0, 1] linear von 0 auf 1. Damit ergibt sich das
folgende Bild:
1
Verteilungs−
funktion: rot
0.9
0.8
größte Abweichung
nach unten: 0.14
0.7
0.6
0.5
0.4
kumulative relative
Häufigkeiten: blau
0.3
0.2
größte Abweichung
nach oben: 0.15
KS−Statistik
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Verteilungsfunktion und kumulative relative Häufigkeiten zu Beispiel 3.4.1.4
Die maximale Abweichung der beiden Kurven finden wir bei 0.25 mit dem Wert 0.15.
Vergleichen wir mit dem kritischen Wert für n = 10 und α = 0.05:
Kα = 0.41
so erhalten wir
K = 0.15 < 0.41 = Kα .
Daher wird die Nullhypothese nicht zurückgewiesen. Es kann nicht mit Signifikanzniveau 0.05
geschlossen werden, dass diese Daten von einer anderen als einer gleichverteilten Zufallsvariablen
stammen.
¤
Um eine Zufallsvariable auf Normalverteilung N (µ, σ) zu testen, werden normalerweise die
Parameter µ und σ geschätzt, und erst anschließend ein Anpassungstest durchgeführt. Der KolmogorovSmirnov-Test erlaubt nicht das vorherige Schätzen von Parametern. Dieses Problem wurde durch
die sogenannte Lillefors-Korrektur des Kolmogorov-Smirnov-Tests zur Testung auf Normalverteilung gelöst.
Methode 3.4.1.5 (Lillefors-Korrektur des Kolmogorov-Smirnov-Tests).
• Statistischer Test, ob eine Zufallsvariable X normalverteilt ist.
• Hypothesen:
148
3. STATISTISCHES SCHÄTZEN UND TESTEN
H0 : Nullhypothese: X ist normalverteilt.
H1 : Alternativhypothese: X ist nicht normalverteilt.
α: Signifikanzniveau: α.
• Datenmaterial: n unabhängige Realisierungen x1 , · · · , xn von X.
Der Test wird folgendermaßen durchgeführt:
1) Aus den Daten x1 · · · xn werden Mittelwert x und Standardabweichung sx
nach den üblichen Formeln geschätzt.
2) Die Daten werden mit den geschätzten Parametern standardisiert Z =
X−x
sx :
xi − x
zi =
.
sx
3) Es werden die Verteilungsfunktion der Standardnormalverteilung und die
beobachteten kumulativen relativen Häufigkeiten von Z auf Grund der
standardisierten Daten z1 , · · · , zn aufgetragen wie im Kolmogorov-SmirnovTest, und die Kolmogorov-Smirnov-Statistik K ermittelt.
4) Aus einer Tabelle für die Lillefors-Korrektur des K.S.-Tests entnimmt
man den kritischen Wert Kα für das gegebene Signifikanzniveau α und
den Stichprobenumfang n.
5) Ist K ≥ Kα , so wird die Nullhypothese zurückgewiesen.
Tabellen zur Lillefors-Korrektur findet man allerdings gar nicht so leicht in der Lehrbuchliteratur, weshalb hier eine solche abgedruckt werden soll. Die folgende Tabelle stammt aus dem sehr
nützlichen Nachschlagewerk H. Rinner, Taschenbuch der Statistik, 3. Aufl., Verlag Harri Deutsch,
2003.
Quantile der Kolmogorov-Smirnov-Lillefors-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test
mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt.
n
α
4
5
0.2
0.300
0.285
0.1
0.352
0.315
0.05
0.381
0.337
0.01
0.417
0.405
6
7
8
9
10
0.265
0.247
0.233
0.223
0.215
0.294
0.276
0.261
0.249
0.239
0.319
0.300
0.285
0.271
0.258
0.364
0.348
0.331
0.311
0.294
11
12
13
14
15
0.206
0.199
0.190
0.183
0.177
0.230
0.223
0.214
0.207
0.201
0.249
0.242
0.234
0.227
0.220
0.284
0.275
0.268
0.261
0.257
16
17
18
19
20
0.173
0.169
0.166
0.163
0.160
0.195
0.189
0.184
0.179
0.174
0.213
0.206
0.200
0.195
0.190
0.250
0.245
0.239
0.235
0.231
25
30
0.142
0.131
0.158
0.144
0.173
0.161
0.200
0.187
groß
0.736
√
n
0.805
√
n
0.886
√
n
1.031
√
n
3.4. PARAMETERFREIE METHODEN
149
Bemerkung 3.4.1.6. Sei X eine Zufallsvariable. Es gibt mehrere Tests, welche
mit Hilfe von Schiefe und Kurtosis die folgenden Hypothesen testen:
H0 : X ist normalverteilt.
H1 : X ist nicht normalverteilt.
Diskussion: Bekanntlich hat eine normalverteilte Zufallsvariable die Schiefe Null und die Kurtosis
3. Wenn die Stichprobe als Schätzwerte deutlich andere Schiefe und Kurtosis ergibt, wird die
Alternativhypothese unterstützt, dass die zugrundeliegende Zufallsvariable nicht normalverteilt
ist. ¤
3.4.1.2. Grafische Methoden.
Wir zeigen noch zwei bequeme grafische Methoden, eine Menge von Daten mit einer vorgegebenen Verteilung zu vergleichen. Eine grafische Sichtung von Daten vor der Anwendung statistischer Verfahren ist in jedem Fall unbedingt zu empfehlen.
Das folgende Beispiel dient als Vorbereitung zum Verständnis der grafischen Verfahren, die
wir anschließend einführen werden:
Beispiel 3.4.1.7. Die folgende Grafik zeigt die Verteilungskurve einer Zufallsvariablen X. Eingezeichnet sind auch und die Quantile für 81 , 28 usw., die drei
Quartile sind dabei deutlich hervorgehoben. Vier unabhängige Realisierungen von
X werden erhoben und anschließend der Größe nach geordnet: x1 ≤ x2 ≤ x3 ≤ x4 .
Wo würde man auf Grund der Verteilungskurve ungefähr die 4 Werte xi erwarten?
erstes
Viertel
zweites
Viertel
drittes
Viertel
viertes
Viertel
Diskussion: Das erste Viertel der Daten fällt in den Bereich vor dem ersten Quartil. Daher erwarten wir, zumindest heuristisch, den untersten der vier Werte, also x1 , in diesem Bereich, etwa
in der Nähe des 18 -Quantils. Der nächste Wert wird voraussichtlich in den Bereich zwischen dem
ersten und zweiten Quartil fallen, wir erwarten ihn etwa in der Nähe des 83 -Quantils. Der nächstfolgende Wert wird voraussichtlich in der Nähe des 58 -Quantils liegen, der Wert x4 in der Nähe
des 78 -Quantils. Das ist natürlich nur Heuristik. Wenn der Zufall es will, könnten auch alle vier
Realisierungen zum Beispiel weit unter das erste Quartil fallen, doch werden solche Fälle nicht oft
auftreten. ¤
Methode 3.4.1.8 (P-P-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer
Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen
Verteilungsfunktion Φ entspricht.
150
3. STATISTISCHES SCHÄTZEN UND TESTEN
1) Die Realisierungen werden der Größe nach geordnet:
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn .
2) Wir zeichnen ein Achsenkreuz x ∈ [0, 1], y ∈ [0, 1].
3) Wir tragen n Datenpunkte auf, und zwar
– waagrecht: Die Zahlen
n − 0.5
0.5 1.5 2.5
,
,
,··· ,
n n n
n
– senkrecht: Die Werte
Φ(x1 ), Φ(x2 ), · · · , Φ(xn )
(Damit sind für jede Realisierung xi waagrecht die beobachtete kumulative
Häufigkeit und senkrecht die nach der Verteilungsfunktion Φ erwartete
kumulative Häufigkeit aufgezeichnet.)
4) Die Daten entsprechen gut der vorgegebenen Verteilungsfunktion, wenn sie
nahe an der Diagonalen x = y liegen.
1
-Quantils liegt, x2 vorDiskussion: Wir erwarten, dass der unterste Wert x1 in der Nähe des 2n
3
aussichtlich in der Nähe des 2n -Quantils, und so weiter. Wenn das wirklich so ist, sind für die
Zufallsvariable X also die Wahrscheinlichkeiten
P (X ≤ x1 ) ≈
1
,
n
P (X ≤ x2 ) ≈
3
,
n
···
Ist, zum Vergleich, eine Zufallsvariable Y nach der Verteilungsfunktion Φ verteilt, so ist die Wahrscheinlichkeit
P (Y ≤ xi ) = Φ(xi ).
Wir tragen nun waagrecht die (vermuteten) Wahrscheinlichkeiten P (X ≤ xi ) und senkrecht die
Wahrscheinlichkeiten P (Y ≤ xi ) auf. Wenn wirklich X so wie Y nach der Verteilungsfunktion Φ
verteilt ist, müssten diese Wahrscheinlichkeiten für X und Y dieselben sein, und die aufgetragenen
Punkte auf der Diagonalen liegen. ¤
Beispiel 3.4.1.9. Sind die folgenden Daten annähernd standardnormalverteilt?
Zeichnen Sie ein P-P-Diagramm:
Realisierung Nummer:
xi
1
-1.5
2
-1.0
3
-0.5
4
-0.3
5
-0.2
6
0.1
7
0.2
8
0.8
9
1.2
10
1.8
Diskussion: Der Stichprobenumfang ist n = 10. Wir verwenden zunächst die Tabelle der Verteilungsfunktion der Standardnormalverteilung:
Nummer
i
1
2
3
4
5
6
7
8
9
10
waagrecht
i−0.5
10
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
Wir fertigen jetzt die Zeichnung an:
Realisierung
xi
-1.5
-1.0
-0.5
-0.3
-0.2
0.1
0.2
0.8
1.2
1.8
senkrecht
F (xi )
0.0668
0.1587
0.3085
0.3821
0.4207
0.5398
0.5793
0.7881
0.8849
0.9641
3.4. PARAMETERFREIE METHODEN
151
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
P-P-Diagramm zu Beispiel 3.4.1.9
Die Daten liegen einigermaßen genau auf der Diagonalen, daher passen sie gut zu einer
standardnormalverteilten Zufallsvariablen. ¤
Methode 3.4.1.10 (Q-Q-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer
Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen
Verteilungsfunktion Φ entspricht.
1) Die Realisierungen werden der Größe nach geordnet:
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn .
2) Wir zeichnen ein Achsenkreuz. Auf der x-Achse müssen die Realisierungen xi Platz finden. Auf der y-Achse muss der Bereich Platz finden, auf
den eine nach Φ verteilte Zufallsvariable mit großer Wahrscheinlichkeit
(nämlich 1 − n1 ) fällt.
3) Wir tragen n Datenpunkte auf, und zwar
– waagrecht: Die Werte
x1 , x2 , · · · , xn
– senkrecht: Die γ-Quantile einer nach Verteilungsfunktion Φ verteilten
Zufallsvariable für
0.5 1.5
n − 0.5
,
,··· ,
.
n n
n
Es stehen also waagrecht die beobachteten γ-Quantile, senkrecht die nach
Φ erwarteten theoretischen γ-Quantile.
4) Die Daten entsprechen der vorgegebenen Verteilungsfunktion Φ gut, wenn
die gezeichneten Punkte näherungsweise auf der Diagonalen x = y liegen.
γ=
Diskussion: Wieder nehmen wir an, dass die 2i−1
-Quantile von X voraussichtlich nahe bei xi
n
liegen, und vergleichen mit einer Zufallsvariable Y , welche nach der Verteilungsfunktion Φ verteilt
-Quantile von X und senkrecht die entsprechenden
ist. Diesmal tragen wir aber waagrecht die 2i−1
n
Quantile von Y auf. Wenn X und Y dieselbe Verteilungsfunktion Φ haben, müssen die Quantile
für X und Y dieselben sein, und die aufgetragenen Punkte liegen auf der Diagonalen. ¤
152
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.4.1.11. Zur Beurteilung, ob eine Zufallsgröße normalverteilt ist,
eignet sich das Q-Q-Diagramm besonders gut. Man muss nämlich gar nicht zuvor
die Parameter der Normalverteilung schätzen:
Wenn man ein Q-Q-Diagramm einer Stichprobe gegen eine Standardnormalverteilung zeichnet, so ergibt sich annähernd eine Gerade, wenn der Stichprobe eine
Normalverteilung N (µ, σ) zugrundeliegt. Dabei ist 1/σ die Steigung der Geraden,
und µ der Achsenabschnitt auf der waagrechten Achse.
Beispiel 3.4.1.12. Sind die folgenden Daten annähernd normalverteilt? Zeichnen Sie ein Q-Q-Diagramm:
Realisierung Nummer: 1 2 3 4 5
6 7 8
9 10
xi
2 10 12 15 20 20 23 30 36 42
Diskussion: Der Stichprobenumfang ist n = 10. Wir erstellen zunächst die Tabelle der aufzutragenden Werte. Wir benötigen diesmal mehr Quantile der Standardnormalverteilung, als wir in der
kurzen Tabelle der Quantile der t-Verteilung finden. Wir ermitteln die Quantile etwas mühsam
durch “Rückwärts-Ablesen” der Tabelle der Verteilungsfunktion.
Nummer
i
1
2
3
4
5
6
7
8
9
10
waagrecht
xi
2
10
12
15
20
20
23
30
36
42
γ
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
senkrecht
γ-Quantil
-1.64
-1.04
-0.67
-0.38
-0.12
0.12
0.38
0.67
1.04
1.64
Wir fertigen jetzt die Zeichnung an:
2.5
2
1.5
Quantile
1
senkrecht
1 Einheit
0.5
0
waagrecht
ca 12 Einheiten
−0.5
Mittelwert
ca 22
−1
−1.5
−2
0
5
10
15
20
25
x
30
35
40
45
50
Q-Q-Diagramm zu Beispiel 3.4.1.12
Die Punkte liegen annähernd auf einer Geraden durch den Punkt x = 22, y = 0 mit Steigung
1/12. Daher passen die Daten gut zu einer Normalverteilung mit Mittelwert 22 und Standardabweichung 12. ¤
3.4. PARAMETERFREIE METHODEN
153
Was Sie jetzt können:
Begriffe und Wissen: Anpassungstests
Methoden
Kolmogorov-Smirnov-Test,
PP-Diagramm,
QQDiagramm, Ablesen der Parameter einer Normalverteilung aus
einem QQ-Diagramm.
3.4.2. χ2 -Tests für nominale Daten.
Übersicht:
1. Anpassungstest für nominale Daten
2. Unabhängigkeit nominaler Daten
3.4.2.1. Anpassungstest für nominale Daten.
Die folgende Methode dient dazu, die Häufigkeitsverteilung der Ausprägungen
eines nominalen Merkmales mit einer vorgegebenen Wahrscheinlichkeitsverteilung
zu vergleichen:
Methode 3.4.2.1 (χ2 -Anpassungstest für nominale Daten).
• Test, ob ein nominales Merkmal mit endlich vielen Ausprägungen x1 , · · · , xk
einer bestimmten Wahrscheinlichkeitsverteilung folgt.
• Hypothesen:
H0 : Die Wahrscheinlichkeiten für das Auftreten der Ausprägungen x1 , · · · , xk
sind p1 , · · · , pk .
H1 : Mindestens eine der Ausprägungen xi tritt mit einer anderen Wahrscheinlichkeit als pi auf.
α: Signifikanz α.
• Datenmaterial: Eine Stichprobe von n unabhängigen Realisierungen des
Merkmals, mit beobachteten absoluten Häufigkeiten b1 , · · · , bk der einzelnen Ausprägungen.
• Bedingungen: Ausreichend große Stichprobe: npi ≥ 1 für alle i. (Und
Pk
Pk
natürlich muss gelten: i=1 pi = 1, n = i=1 bi .)
Der Test wird folgendermaßen durchgeführt:
1) Man berechnet die erwarteten absoluten Häufigkeiten der einzelnen Ausprägungen nach der Formel
ei = npi .
2) Teststatistik
χ2 =
k
X
(bi − ei )2
i=1
ei
=
k
X
b2
i
i=1
ei
− n.
3) Anzahl der Freiheitsgrade: k − 1.
4) Aus der Tabelle der Quantile der χ2 -Verteilung mit k − 1 Freiheitsgraden
entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt.
5) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen.
154
3. STATISTISCHES SCHÄTZEN UND TESTEN
Diskussion: Klar, dass χ2 umso größer ausfällt, je mehr die beobachteten Häufigkeiten von den
erwarteten Häufigkeiten abweichen. Das Verfahren ist eine Näherungsmethode: Für ausreichend
große Stichproben ist die Teststatistik χ2 annähernd χ2 -verteilt. Es gibt nur k − 1 unabhängige
P
Zahlen (bi − ei ), denn die Summe ki=1 (bi − ei ) = n − n = 0. Entsprechend verwenden wir eine
χ2 -Verteilung mit k − 1 Freiheitsgraden. ¤
Beispiel 3.4.2.2. Bei einer Pflanzenart sei ein Gen in einer dominanten (A) und
einer rezessiven (a) Form vertreten. Gemischterbige Pflanzen (Aa) haben die äußere
Erscheinungsform (Phänotyp) A. Wenn nur gemischterbige Pflanzen miteinander
gekreuzt werden, treten die Genotypen mit folgenden Wahrscheinlichkeiten auf:
Genotyp
AA Aa
Wahrscheinlichkeit 0.25 0.5
aa
0.25
Eine Stichprobe von 20 Pflanzen wurde genetisch untersucht und ergab folgende
Genotypen:
Genotyp
Anzahl Pflanzen
AA Aa aa
8
8
4
gesamt
20
Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass
die Wahrscheinlichkeitsverteilung der Genotypen in der Population, aus der die
Stichprobe entstammt, nicht dem Gesetz 14 — 12 — 41 folgt (und daher die Pflanzen
nicht die erste Generation nach einer durchwegs gemischterbigen Generation sind)?
Diskussion: Wir testen:
H0 : Die relativen Häufigkeiten der einzelnen Genotypen in der Grundgesamtheit sind je
0.25 für die beiden reinerbigen, und 0.5 für den gemischterbigen Genotypen.
H1 : Mindestens einer der 3 Genotypen hat eine andere relative Häufigkeit.
Wir fassen unsere Nebenrechnungen in der folgenden Tabelle zusammen: Beispielsweise ergibt
sich die erwartete absolute Häufigkeit des Genotyps AA durch
ei = n · pi = 20 × 0.25 = 5.
Genotyp
AA
Aa
aa
Summe
−n
χ2
theoretische
beobachtete
erwartete
Wahrscheinlichkeit
pi
0.25
0.50
0.25
Häufigkeit
bi
8
8
4
20
Häufigkeit
ei
5
10
5
20
b2
i
ei
12.8
6.4
3.2
22.4
-20.000
2.4
Da es 3 verschiedene Ausprägungen gibt, hat χ2 zwei Freiheitsgrade. Aus der Tabelle der
Quantile der χ2 -Verteilung entnehmen wir für α = 0.05 den kritischen Wert
χ2α = 5.991.
Damit ist
χ2 = 2.4 < 5.991 = χ2α ,
und die Nullhypothese kann nicht zurückgewiesen werden. Es ist durchaus denkbar, dass die
Stichprobe aus einer Generation nach einer durchwegs gemischterbigen Pflanzenmenge entstammt.
¤
Tipp 3.4.2.3. Die Bedingung, dass jede Ausprägung mindestens die erwartete
Häufigkeit ei ≥ 1 haben soll, läßt sich gelegentlich erreichen, indem man mehrere
seltene Ausprägungen zu einer Klasse zusammenfasst.
3.4. PARAMETERFREIE METHODEN
155
Methode 3.4.2.4 (Anpassungstest mit geschätzten Parametern). Der Test aus
Methode 3.4.2.1 ist natürlich nur fair, wenn zur Auswahl der theoretischen Verteilung p1 , · · · , pk nicht die getesteten Daten herangezogen wurden. Es gibt aber
folgende Modifikation:
Wird das Datenmaterial mit einer Familie von Verteilungen mit m verschiedenen Parametern verglichen, indem zunächst die m Parameter aus den Daten
geschätzt wurden, und dann für die somit festgelegte Verteilung der Anpassungstest
durchgeführt wird, so sind an Stelle von k − 1 nur k − m − 1 Freiheitsgrade zu
wählen. Es muss aber mindestens ein Freiheitsgrad übrig sein: k − m − 1 > 0.
3.4.2.2. Unabhängigkeit nominaler Daten.
Wir greifen auf Unterabschnitt 1.2.5 zurück und erinnern uns: Seien x1 , · · · , xk die Ausprägungen eines nominalen Merkmals X mit den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk
die Ausprägungen eines nominalen Merkmals Y mit den Wahrscheinlichkeiten q1 , · · · , qm . Die
beiden Merkmale sind dann unabhängig, wenn die Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y folgendermaßen aussieht:
x1
x2
.
..
xk
gesamt
y1
p1 q1
p2 q1
.
..
pk q1
q1
y2
p1 q2
p2 q2
.
..
pk q2
q2
···
···
···
···
···
ym
p1 qm
p2 qm
.
..
pk qm
qm
gesamt
p1
p2
.
..
pk
1
Als Maßzahl für die Unabhängigkeit haben wir in Definition 1.2.5.10 die Zahl χ2 (und ausserdem den Kontingenzkoeffizienten und den korrigierten Kontingenzkoeffizienten) eingeführt. Mittels
χ2 können wir die Unabhängigkeit zweier Merkmale testen:
Methode 3.4.2.5 (χ2 -Test auf Unabhängigkeit nominaler Merkmale).
• Statistischer Test, ob zwei nominale Merkmale mit je endlich vielen Ausprägungen x1 , · · · , xk bzw. y1 , · · · , ym statistisch abhängig sind.
• Hypothesen:
H0 : Die Stichprobe entstammt einer Grundgesamtheit, in der die Merkmale unabhängig sind.
H1 : Die Merkmale sind abhängig.
α: Signifikanzniveau α.
• Datenmaterial: Eine Stichprobe von n zufällig gewählten Merkmalsträgern.
Daraus erhoben: bij =beobachtete absolute Häufigkeit der Merkmalskombination (xi , yj ).
• Bedingungen: Alle erwarteten Häufigkeiten eij (siehe unten) sind größer
oder gleich 1. Gegebenenfalls sind mehrere seltenere Ausprägungen zu einer Klasse zusammenzufassen, um diese Bedingung zu erfüllen.
Der Test wird folgendermaßen durchgeführt:
1) Die beobachteten absoluten Häufigkeiten werden in eine Tabelle zusammengefaßt, jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj .
2) Die Zeilensummen z1 , · · · , zk sind die beobachteten absoluten Häufigkeiten
der Ausprägungen von X, die Spaltensummen s1 , · · · , sm sind die beobachteten absoluten Häufigkeiten der Ausprägungen von Y :
zi =
m
X
j=1
bij , sj =
k
X
i=1
bij .
156
3. STATISTISCHES SCHÄTZEN UND TESTEN
3) Der Stichprobenumfang n ist
n=
k
X
zi =
i=1
m
X
sj .
j=1
4) Die erwarteten Häufigkeiten sind
zi sj
eij =
.
n
5) Teststatistik:
χ2 =
k X
k X
m
m
X
X
b2ij
(bij − eij )2
=
− n.
eij
e
i=1 j=1 ij
i=1 j=1
6) Die Anzahl der Freiheitsgrade ist ν = (k − 1)(m − 1).
7) Aus der Tabelle der Quantile der χ2 -Verteilung mit ν Freiheitsgraden entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt.
8) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen.
Diskussion: Die erwarteten Häufigkeiten ergeben sich aus den beobachteten Gesamthäufigkeiten
z1 , · · · , zk und s1 , · · · , sm , wenn die Merkmale tatsächlich unabhängig sind. Klar, dass χ2 umso
größer wird, je weiter die beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij
abweichen. Damit ist χ2 ein Mass für die Abhängigkeit zwischen den beiden Merkmalen. ¤
Beispiel 3.4.2.6. Die Hauskatzenpopulation in zwei griechischen Dörfern besteht aus einfarbigen, getigerten und gefleckten Katzen. Ist die Zeichnung der Hauskatzen in den beiden Dörfern verschieden? Aus jedem Dorf wurde eine Stichprobe
von 50 Katzen erfasst, dabei fanden sich
Zeichnung
einfarbig getigert gefleckt gesamt
Herkunft
Dorf A
Dorf B
gesamt
16
24
40
20
16
36
14
10
24
50
50
100
Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass
die Zeichnung der Hauskatzen in beiden Dörfern verschieden verteilt ist, also ein
statistischer Zusammenhang zwischen der Herkunft einer Katzen und ihrer Fellzeichnung besteht?
Diskussion: Die beobachteten Häufigkeiten sind
bij
Dorf A
Dorf B
gesamt
einfarbig
16
24
40
getigert
20
16
36
gefleckt
14
10
24
gesamt
50
50
100
Wir bestimmen die Tabelle der erwarteten Häufigkeiten. Beispielsweise ist
50 × 36
e12 =
= 18.
100
eij
Dorf A
Dorf B
gesamt
einfarbig
20
20
40
getigert
18
18
36
gefleckt
12
12
24
gesamt
50
50
100
Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und errechnen χ2 :
3.4. PARAMETERFREIE METHODEN
b2ij /eij
Dorf A
Dorf B
gesamt
−n
χ2
einfarbig
12.8
28.8
41.6
getigert
22.2
14.2
36.4
gefleckt
16.3
8.3
24.7
157
gesamt
51.4
51.4
102.7
-100.0
2.7
Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade. Der kritische Wert der χ2 -Verteilung für 2
Freiheitsgrade und α = 0.05 ist
χ2α = 5.991.
Es ist also
χ2 = 2.7 < 5.991 = χ2α .
Daher wird die Nullhypothese nicht zurückgewiesen. Aus diesen Daten ergibt sich kein signifikanter
Zusammenhang zwischen Heimatdorf und Fellzeichnung. ¤
Was Sie jetzt können:
Methoden: χ2 -Anpassungstest für nominale Daten. χ2 -Unabhängigkeitstest für nominale Daten.
3.4.3. Tests für ordinale Daten.
Übersicht:
1. Vorzeichentest auf den Median ordinaler Daten
2. Rangsummenstests für ordinale Daten
3.4.3.1. Vorzeichentest auf den Median ordinaler Daten.
Methode 3.4.3.1 (Vorzeichentest).
• Statistischer Test, ob der Median eines ordinalen Merkmals X exakt auf
einem vorgegebenen Wert m liegt.
• Hypothesen:
H0 : Nullhypothese: Der Median von X ist exakt m.
H1 : Es gibt zwei einseitige und eine zweiseitige Form der Alternativhypothese:
(a) Der Median von X ist größer als m (einseitig).
(b) Der Median von X ist kleiner als m (einseitig).
(c) Der Median von X ist ungleich m (zweiseitig).
α: Signifikanzniveau: α.
• Datenmaterial: Eine Stichprobe von N unabhängigen Realisierungen x1 · · · xN
des Merkmals X.
• Bedingungen: X ist mindestens ordinalskaliert.
Der Test wird folgendermaßen durchgeführt:
1) Wir zählen
k+ = Anzahl der Realisierungen xi aus der Stichprobe mit xi > m
k− = Anzahl der Realisierungen xi aus der Stichprobe mit xi < m
n = k+ + k−
(Realisierungen mit xi = m werden in diesem Test nicht weiter berücksichtigt.)
158
3. STATISTISCHES SCHÄTZEN UND TESTEN
2) Der p-Wert des Tests ergibt sich aus einer B(n, 0.5)-Binomialverteilung:
(a) (H1 : Median von X ist größer als m:) p = kumulative Häufigkeit der
B(n, 0.5)-Binomialverteilung für k = k− .
(b) (H1 : Median von X ist kleiner als m:) p = kumulative Häufigkeit der
B(n, 0.5)-Binomialverteilung für k = k+ .
(c) (H1 : Median von X ist ungleich m:) Sei k der kleinere Wert von
k+ , k− . Dann ist p/2 die kumulative Häufigkeit der B(n, 0.5)-Binomialverteilung für k.
Diskussion: Wenn der Median von X bei m liegt, ist für Realisierungen 6= m die Wahrscheinlichkeit, dass eine Realisierung über m liegt, exakt 1/2. Damit ist die Anzahl der Realisierungen über
m in einer Stichprobe von n unabhängigen Realisierungen binomialverteilt nach B(n, 1/2). Der
Vorzeichentest ist somit einfach ein Binomialtest auf den Anteil der positiven Differenzen.
¤
Das folgende Beispiel zeigt, dass sich der Vorzeichentest, ähnlich wie der t-Test, auch zum
Vergleich von zwei verbundenen Stichproben eignet. Einen effektiveren Test dafür, den WilcoxonTest, lernen wir im nächsten Abschnitt kennen. Jedoch setzt dieser stetig verteilte Merkmale
voraus.
Beispiel 3.4.3.2. Wir führen für Beispiel 3.2.3.9 einen parameterfreien Test
durch:
Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele
besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende
beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die
Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab.
Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden
Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
Diskussion: Da die Vergabe von Noten voraussichtlich nicht normalverteilt ist, und die Stichprobe
klein ist, hatten wir Bedenken gegen die in Beispiel 3.2.3.9 eingesetzte Methode des t-Tests zum
Vergleich verbundener Stichproben. Werden die Punkte nur ganzzahlig vergeben, so sind die getesteten Zufallsvariablen (Benotung einer Arbeit durch A, Benotung einer Arbeit durch B) diskret,
sodass auch gegen den Wilcoxon-Test 3.4.3.4 Einwände erhoben werden können. Wir können aber
den Vorzeichentest auf die Differenz der Punktewertungen anwenden, und die Hypothesen testen:
H0 : Der Median der Punktedifferenz zwischen A und B liegt bei Null.
H1 : Der Median der Punktedifferenz zwischen A und B liegt unter Null.
Durchführung des Tests:
Paar
Bewertung A
Bewertung B
Differenz A-B
1
5
5
0
2
10
10
0
3
7
9
-2
4
4
3
1
5
2
4
-2
6
2
3
-1
7
5
7
-2
8
8
8
0
3.4. PARAMETERFREIE METHODEN
159
Es bleiben 5 Differenzen übrig, die ungleich Null sind. Davon sind 4 kleiner als Null. Wir
haben also:
n=5
k+ = 1
k− = 4.
Die kumulative Häufigkeit der B(5, 21 )-Binomialverteilung finden wir in einer Tabelle, sie läßt
sich aber auch leicht ausrechnen:
µ ¶
5
· 0.50 · 0.55 = 0.55 = 0.03125
0
µ ¶
5
P (k = 1) =
· 0.51 · 0.54 = 5 · 0.55 = 0.15625
1
P (k = 0) =
zusammengezählt:
P (k ≤ 1) = 0.1875.
Dies ist der p-Wert des Tests. Zum Vergleich ist
α = 0.1 < 0.1875 = p.
Daher läßt sich nicht mit Signifikanz von 0.1 schließen, dass der Lehrende A weniger Punkte
vergibt als der Lehrende B.
Im Vergleich zu Beispiel 3.2.3.9 sehen Sie, dass der Vorzeichentest weniger leicht signifikant
wird als der t-Test. Der t-Test arbeitet mit starken zusätzlichen Voraussetzungen, nämlich dass
die getesteten Zufallsvariablen normalverteilt sind. Mit stärkeren Annahmen lassen sich natürlich
auch leichter Schlüsse ziehen. Die Ergebnisse der Berechnung widersprechen sich auch nicht:
• Ergebnis des t-Tests: Wenn wir zusätzlich annehmen können, dass die Noten normalverteilt sind, kann aus den gegebenen Daten mit Signifikanz von 0.1 geschlossen werden,
dass der Lehrende A im Durchschnitt weniger Punkte vergibt als der Lehrende B.
• Ergebnis des Vorzeichentests: Wenn wir keine Annahmen über die Verteilung der Noten
machen, können wir aus den gegebenen Daten nicht mit Signifikanz von 0.1 schließen,
dass die Differenz der Punkte von A minus Punkte von B ihren Median unter Null hat.
Das kann zwar durchaus wahr sein, nur kann es nicht aus unserer Stichprobe gefolgert
werden.
¤
3.4.3.2. Vergleichstests für ordinale Daten.
Die Versionen des t-Tests zum Vergleich von metrischen Daten setzen voraus, dass entweder die Stichprobenumfänge groß sind, oder die einzelnen Zufallsvariablen zumindest annähernd
normalverteilt sind. Wenn keine dieser beiden Bedingungen erfüllt ist, muss man eine Methode einsetzen, die nicht auf der Normalverteilung beruht. Wie bei den t-Tests gibt es auch hier
verschiedene Methoden für unabhängige und verbundene Stichproben.
Methode 3.4.3.3. Um die Mediane von ordinalen oder metrischen Merkmalen
zu vergleichen, gibt es Methoden, welche auf Rangsummen beruhen und nicht die
Normalverteilung einsetzen:
1.) Bei verbundenen (gepaarten) Stichproben den Wilcoxon-Test für verbundene Stichproben.
2.) Bei zwei unabhängigen Stichproben den Mann-Whitney U-Test oder den
Wilcoxon-Test für unabhängige Stichproben. (Obwohl diese beiden Tests
mit verschiedenen Formeln arbeiten, liefern sie letztlich denselben p-Wert.)
3.) Um festzustellen, ob bei mehreren ordinalen Merkmalen mindestens eines
in der Lage von den anderen abweicht, gibt es den Kruskal-Wallis Test.
160
3. STATISTISCHES SCHÄTZEN UND TESTEN
Um Ihnen eine Vorstellung zu geben, wie ein Rangsummentest funktioniert, diskutieren wir
den Wilcoxon-Test für verbundene Stichproben im Detail.
Methode 3.4.3.4 (Wilcoxon-Test zum Vergleich verbundener Stichproben).
• Statistischer Test, ob die Mediane zweier Zufallsgrößen X1 ,X2 gleich
sind.
• Hypothesen:
H0 : Die Mediane der beiden Zufallsgrößen sind gleich.
H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante:
(a) Der Median von X1 liegt über dem Median von X2 (einseitig).
(b) Der Median von X liegt unter dem Median von X2 (einseitig).
(c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig).
α: Signifikanzniveau α.
• Datenmaterial: Eine Stichprobe von N unabhängigen Probanden, für jeden
Probanden je eine Realisierung von X1 und X2 :
x11 , · · · , x1N Realisierungen von X1
x21 , · · · , x2N Realisierungen von X2
• Bedingungen: Die Merkmale müssen metrisch mit stetigen Verteilungen
sein, sodass man Differenzen berechnen kann. Die Verteilungen haben dieselbe Form, nur möglicherweise gegeneinander parallelverschoben, sodass
die Mediane verschieden sind. Sie müssen aber nicht normalverteilt sein,
und die Stichproben können klein sein.
Der Test wird folgendermaßen durchgeführt:
1) Für jeden Probanden wird die Differenz di = x1i − x2i berechnet.
2) Daten mit Differenz 0 werden aus der Statistik ausgeschlossen. Sei n die
Anzahl der verbleibenden Differenzen.
3) Die Differenzen werden gemeinsam der Größe ihrer Absolutbeträge nach
aufsteigend geordnet, wobei man sich merkt, welcher Betrag zu einer positiven Differenz und welcher Betrag zu einer negativen Differenz gehört.
4) Den Realisierungen werden in aufsteigender Reihenfolge die Rangzahlen
1, 2, · · · , (n1 + n2 ) zugeteilt.
4a) Wenn mehrere Realisierungen genau gleich groß sind, spricht man von
Bindungen. In diesem Fall bestimmt man, welche Rangzahlen diesen Realisierungen insgesamt zufallen würden, und teilt diese Rangzahlen zu gleichen Teilen (arithmetisches Mittel) auf die gleich großen Realisierungen
auf.
5) Man bestimmt W + und W − als die Summe der Rangzahlen, die den positiven beziehungsweise negativen Differenzen zugekommen sind.
6) Teststatistik: Aus der Tabelle des Wilcoxon-Tests lesen wir für den einseitigen Test den Wert Wα bzw. für den zweiseitigen Test Wα/2 ab. Zu
jedem Stichprobenumfang n gehört ein anderer kritischer Wert.
7) Je nach Alternativhypothese entscheidet man:
(a) (H1 : Median von X1 > Median von X2 ): Falls W − < Wα , wird die
Nullhypothese zurückgewiesen.
(b) (H1 : Median von X1 < Median von X2 ): Falls W + < Wα , wird die
Nullhypothese zurückgewiesen.
(c) (H1 : Median von X1 6= Median von X2 ): Sei W der kleinere der
beiden Werte W + , W − . Falls W < Wα/2 , wird die Nullhypothese
zurückgewiesen.
3.4. PARAMETERFREIE METHODEN
161
Diskussion: Hat X1 einen größeren Median als X2 , so werden die negativen Differenzen X1 − X2
seltener und zumeist kleiner sein als die positiven, sie werden daher niedrigere Ränge belegen.
Damit wird die Rangsumme der negativen Differenzen, also W − klein, und W + wird groß. Also
unterstützt ein kleines W − die Alternativhypothese: Der Median von X1 ist größer als der Median
von X2 . ¤
Kritische Werte für den Wilcoxon-Test für verbundene Stichproben
α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang.
α
n
6
7
8
9
10
0.05
0.025
0.01
2
3
5
8
10
0
2
3
5
8
0
1
3
5
11
12
13
14
15
13
17
21
25
30
10
13
17
21
25
16
17
18
19
20
35
41
47
53
60
21
22
23
24
25
0.005
0.05
0.025
0.01
0.005
0
1
3
α
n
36
37
38
39
40
227
241
256
271
286
208
221
235
249
264
185
498
211
224
238
171
182
194
207
220
7
9
12
15
19
5
7
9
12
15
41
42
43
44
45
302
319
336
353
371
279
294
310
327
343
252
266
281
296
312
233
247
261
276
291
29
34
40
46
52
23
27
32
37
43
19
23
27
32
37
46
47
48
49
50
389
407
426
446
466
361
378
396
415
434
328
345
362
379
397
307
322
339
355
373
67
75
83
91
100
58
65
73
81
89
49
55
62
69
76
42
48
54
61
68
51
52
53
54
55
486
507
529
550
573
453
473
494
514
536
416
434
454
473
493
390
408
427
445
465
26
27
28
29
30
110
119
130
140
151
98
107
116
126
137
84
92
101
110
120
75
83
91
100
109
56
57
58
59
60
595
618
642
666
690
557
579
602
625
648
514
535
556
578
600
484
504
525
546
567
31
32
33
34
35
163
175
187
200
213
147
159
170
182
195
130
140
151
162
173
118
128
138
148
159
61
62
63
64
65
715
741
767
793
820
672
697
721
747
772
623
646
669
693
718
589
611
634
657
681
Tipp 3.4.3.5. In Beispiel 3.4.3.2 haben wir einen Medianvergleich für verbundene Stichproben durch einen Vorzeichentest durchgeführt. Der Wilcoxon-Test hat gegenüber dem Vorzeichentest den Vorteil, dass er nicht nur die Information ausnützt,
welche der Paardifferenzen positiv und welche negativ sind, sondern auch die Größen
der Paardifferenzen. Dadurch ist er aber auch sensibler auf Ausreißer. Anders als
der Vorzeichentest sind der Mann-Whitney-U-Test und der Wilcoxon-Test ziemlich
stark, fast so stark wie der t-Test. Dafür werden aber auch zusätzliche Voraussetzungen benötigt.
Beispiel 3.4.3.6. Beeinflußt das Medikament XXX die Reaktionszeit beim Autofahren? Mit einer Versuchseinrichtung wurde an 10 Personen die Reaktionszeit
ohne Medikament und eine halbe Stunde nach Einnahme des Medikamentes gemessen. Es ergab sich folgende Tabelle:
Person
Reaktionszeit
ohne Medikament
mit Medikament
A
B
C
D
E
F
G
H
I
J
0.40
0.45
0.60
0.68
0.81
0.86
0.75
0.73
0.72
0.80
0.46
0.44
0.64
0.64
0.98
0.98
0.84
0.91
0.52
0.58
162
3. STATISTISCHES SCHÄTZEN UND TESTEN
Läßt sich mit Signifikanz von 0.05 schließen, dass der Median der Reaktionszeit
nach Einnahme von XXX größer ist der Median der Reaktionszeit ohne Einfluß von
XXX?
Diskussion: Wir führen einen einseitigen Wilcoxon-Test durch.
H0 : Die Mediane der Reaktionszeiten mit und ohne XXX sind gleich.
H1 : Der Median der Reaktionszeit mit XXX ist größer als der Median der Reaktionszeit
ohne XXX.
ohne Medikament
mit Medikament
Differenz
0.40
0.45
-0.05
0.60
0.68
-0.08
0.81
0.86
-0.05
0.75
0.73
0.02
0.72
0.80
-0.08
0.46
0.44
0.02
0.64
0.64
0.00
0.98
0.98
0.00
0.84
0.91
-0.07
0.52
0.58
-0.06
Es bleiben n = 8 Differenzen übrig, die nicht gleich Null sind. Wir ordnen diese nach der
Größe ihrer Beträge.
geordnet
negative Differenzen
positive Differenzen
Rangplätze
negative Differenzen
positive Differenzen
0.02
1.5
-0.05
-0.05
-0.06
-0.07
-0.08
-0.08
3.5
3.5
5
6
7.5
7.5
0.02
1.5
Rangsummen
33
3
Wir testen H1 : Median von X1 kleiner als Median von X2 . Daher ist unsere Teststatistik die
Rangsumme
W = W + = 3.
Aus der Tabelle für den Wilcoxon-Test mit Stichprobenumfang n = 8 entnehmen wir den kritischen
Wert für α = 0.05 und Stichprobenumfang n = 8:
W0.05 = 5.
Also ist
W = 3 ≤ 5 = Wα
und die Nullhypothese ist zurückzuweisen. Aus diesen Daten folgt signifikant, dass das Medikament
die Reaktionszeit verlängert. ¤
Methode 3.4.3.7 (Mann-Whitney-U-Test für unabhängige Stichproben).
• Statistischer Test, ob die Mediane zweier Zufallsvariablen X1 , X2 gleich
sind.
• Hypothesen
H0 : Die Mediane der Zufallsvariablen sind gleich.
H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante:
(a) Der Median von X1 liegt über dem Median von X2 (einseitig).
(b) Der Median von X1 liegt unter dem Median von X2 (einseitig).
(c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig).
α: Signifikanzniveau α.
• Datenmaterial: Zwei voneinander unabhängige Stichproben von jeweils n1
unabhängigen Realisierungen von X1 und n2 unabhängigen Realisierungen
von X2 .
• Bedingungen: X1 und X2 haben stetige Verteilungen und dieselbe Form
der Verteilung, nur parallelverschoben, sodass die Mediane ungleich sein
können. (Ohne diese Bedingung testet der U-Test die Nullhypothese: “Die
Verteilungen sind gleich” gegen die Alternativhypothese “Die Verteilungen
sind ungleich”.)
3.4. PARAMETERFREIE METHODEN
163
Diskussion: Bei diesem Test werden die Daten beider Stichproben zunächst gemeinsam auf n1 +
n2 Rangplätze angeordnet. Es wird dann für jede Stichprobe die Summe der von ihr belegten
Rangplätze ermittelt. Aus diesen beiden Rangsummen wird eine Teststatistik berechnet und mit
einer Tabelle für den Mann-Whitney Test verglichen. ¤
Beispiel 3.4.3.8. Ein Weinversand legt seinen Sendungen eine Antwortkarte
bei, mit der die Kunden ihre Zufriedenheit mit den erhaltenen Weinen auf der
Skala 0% bis 100% beurteilen können. Für den Wein California Carboxyle Valley
kamen insgesamt 6 Antworten, für den Wein Grinzinger Protonenringelspiel kamen
4 Antworten. Die folgende Tafel zeigt die Ergebnisse. Kann geschlossen werden,
dass die Kundschaft die beiden Weine unterschiedlich beurteilt? (Signifikanzniveau
0.1).
Carboxyle Valley
50 60
Protonenringelspiel 20 80
70
90
90
50
30
50
Diskussion: Wir testen
H0 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind gleich.
H1 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind verschieden.
SPSS liefert folgende Tabellen:
Bezeichnung
Carboxyle Valley
Grinzinger Protonenringelspiel
gesamt
N
6
4
10
mittlerer Rang
5.42
5.63
Rangsumme
32.50
22.50
Mann-Whitney U
11.50
Wilcoxon W
32.50
Asymptotische Signifikanz (2-seitig)
0.914
Exakte Signifikanz (2* einseitig)
0.914a
a nicht für Bindungen korrigiert
Die erste Tabelle zeigt die Stichprobenumfänge, die Rangsummen, und daraus berechnet den
mittleren Rang, den die Weine der jeweiligen Stichprobe belegen. Wir sehen, dass die mittleren
Ränge sich nicht sehr unterscheiden, Grinzing schneidet eine Spur schlechter ab als Kalifornien.
Die zweite Tabelle zeigt die Teststatistiken sowohl nach Mann-Whitney als auch nach Wilcoxon,
und die daraus errechnete Signifikanz. Mit einem p-Wert von 0.914 kann die Nullhypothese nicht
zurückgewiesen werden. Aus diesen Daten kann nicht gefolgert werden, dass die beiden Weine bei
den KonsumentInnen verschieden gut ankommen.
Oft bietet SPSS zwei Rechenverfahren an, ein asymptotisches mit Näherungsformel, und ein
exaktes. Bei großen Stichproben liefert das asymptotische Verfahren sehr ähnliche Resultate wie
das zeit- und rechenaufwändige exakte Verfahren, und man kann sich mit dem Näherungsverfahren
begnügen. Bei kleinen Stichproben sollte man sich nur auf das exakte Verfahren verlassen. In vielen
Fällen kann man bei SPSS das exakte Verfahren an- oder abwählen. In unserem Beispiel liefern
beide Methoden bis auf drei Dezimalen denselben Zahlenwert.
Streng genommen gelten die Mann-Whitney-U Tabellen nur für Daten ohne Bindungen (also
ohne ex-aequo Rangplätze) und müssten noch korrigiert werden, wenn Bindungen auftreten. Allerdings verwendet man, wenn nur einige wenige Bindungen auftreten, unbesorgt die unkorrigierten
Tabellen. ¤
Methode 3.4.3.9 (Kruskal-Wallis-H-Test ).
• Parameterfreier statistischer Test, ob mehrere Zufallsvariablen X1 , · · · , Xk
gleich verteilt sind.
• Hypothesen
H0 : Die Verteilungen aller Zufallsvariablen sind gleich.
H1 : Mindestens zwei von den k Zufallsvariablen weichen in der Lage voneinander ab.
α: Signifikanzniveau α.
164
3. STATISTISCHES SCHÄTZEN UND TESTEN
• Datenmaterial: Zu jeder Zufallsvariablen Xj eine Stichprobe von jeweils
nj unabhängigen Realisierungen.
• Bedingungen: Keine Normalverteilungsbedingung! Mindestens 5 Merkmalsträger in jeder Stichprobe.
Diskussion: Auch dieser Test beruht, wie der Mann-Whitney-U-Test, auf Rangsummen.
¤
Tipp 3.4.3.10. Wir haben bisher keine Variante des t-Tests zum Vergleich von
mehr als 2 Mittelwerten kennengelernt. Wenn Normalverteilung vorausgesetzt wird,
verwendet man statt des Kruskal-Wallis-Tests die Varianzanalyse.
Was Sie jetzt können:
Methoden: Vorzeichentest, Mann-Whitney-U-Test, Wilcoxon-Test
für verbundene Stichproben, Kruskal-Wallis-Test. Sie wissen von diesen Methoden, wann man sie anwendet, und wissen, dass sie auf
Grundlage von Rangornungen funktionieren. Die genauen Formeln
und Tabellen finden Sie gegebenenfalls in der Lehr- und Handbuchliteratur.
KAPITEL 4
Wechselwirkungen zwischen Merkmalen
Übersicht:
1. Varianzanalyse
1.1. Prinzip der einfaktoriellen Varianzanalyse
1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse
1.3. Post hoc Tests
1.4. Zweifaktorielle Varianzanalyse
2. Lineare Regression
2.1 Modell der linearen Regression
2.2 Interpretation der Ergebnisse und Modelldiagnostik
4.1. Varianzanalyse
Übersicht:
1.
2.
3.
4.
Prinzip der einfaktoriellen Varianzanalyse
Durchführung der einfaktoriellen Varianzanalyse
Post hoc Tests
Zweifaktorielle Varianzanalyse
4.1.1. Prinzip der einfaktoriellen Varianzanalyse.
Übersicht:
Einflüsse von Faktoren zeigen sich in der Streuung
Feste und zufällige Faktorstufen
Variabilität innerhalb und zwischen den Faktorstufen
4.1.1.1. Einflüsse von Faktoren zeigen sich in der Streuung.
Beispiel 4.1.1.1. Bei allen folgenden Versuchen werden die Messwerte streuen.
Welche Ursachen können die Streuungen haben?
1)
2)
3)
4)
Eine Person wird 3 mal gewogen.
5 Personen gleichen Alters und Geschlechtes werden je 3 mal gewogen.
Es werden je 5 Frauen und 5 Männer jeweils 3 mal gewogen.
Aus jeder der folgenden Altersstufen: 10 Jahre, 30 Jahre, 60 Jahre werden
je 5 Frauen und 5 Männer jeweils 3 mal gewogen.
165
166
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Diskussion: 1.) Auch wenn dieselbe Person öfters gewogen wird, werden die Messwerte nicht exakt
gleich sein. Einerseits schleichen sich bei jeder Messung Fehler ein. Andererseits schwankt auch
das Gewicht einzelner Personen (zum Beispiel schwerer knapp nach einer reichlichen Mahlzeit).
2.) Werden mehrere Personen gleichen Alters und Geschlechts gewogen, so kommt zu den
obigen Ursachen für die Streuung noch die bekannte Tatsache, dass auch Personen gleichen Alters
und Geschlechtes sehr unterschiedlich schwer sein können. Wir haben eine Streuung innerhalb der
Alters- und Geschlechtsklasse.
3.) Frauen und Männer sind unterschiedlich groß und schwer. Zu den Streuungen auf Grund
der Verschiedenheit aller Menschen untereinander kommt noch der systematische Unterschied
zwischen den Geschlechtern. Das Geschlecht ist ein Faktor, der das Gewicht beeinflusst. Daher
wird die Streuung der Gewichte innerhalb von Gruppen mit gemischten Geschlecht im Allgemeinen
größer sein als die Streuung innerhalb reiner Frauen- oder Männergruppen.
4.) Natürlich sind Kinder viel leichter als Erwachsene. Das Alter ist ein weiterer Faktor,
der das Gewicht beeinflusst. Die Streuung der Gewichte innerhalb von Gruppen, die mehrere
Altersstufen umfassen, wird normalerweise größer sein als die Streuung der Gewichte innerhalb
einer Altersklasse. ¤
Definition 4.1.1.2. Die Varianzanalyse (englisch ANOVA, analysis of variance) ist eine Methode, festzustellen, ob ein oder mehrere nominale Merkmale F1 , F2 , · · · ein metrisches Merkmal X beeinflussen. Die nominalen Merkmale
F1 , F2 , · · · heißen die Faktoren, ihre Ausprägungen sind die Faktorstufen. Das
metrische Merkmal X heißt die Zielvariable oder abhängige Variable.
4.1.1.2. Feste und zufällige Faktorstufen.
In der Versuchsplanung für eine Varianzanalyse gibt es grundsätzlich zwei Strategien:
Definition 4.1.1.3.
1) Bei der Varianzanalyse mit festen Effekten wird systematisch zu jeder
Stufe des Faktors eine Stichprobe angelegt.
2) Bei der Varianzanalyse mit zufälligen Effekten ergeben sich die Faktorstufen aus der zufälligen Auswahl der Stichprobe.
Beispiel 4.1.1.4. Haben verschiedene Exemplare derselben Gattung von Passiflora unterschiedlich große Früchte? 5 Exemplare von Passiflora werden zufällig
ausgewählt, und unter gleichen Bedingungen gehalten. Jede ausgereifte Frucht wird
gewogen. Unter welches Modell von Varianzanalyse fällt dieses Problem?
Diskussion: Zielvariable ist das Gewicht der Frucht, Faktor ist das einzelne Exemplar. Die Frage
bezieht sich nicht auf die ausgewählten 5 Exemplare, sondern generell, ob verschiedene Faktorstufen (Exemplare) unterschiedlich große Früchte haben. Aus allen möglichen Faktorstufen wurden
5 zufällig ausgewählt. Daher liegt hier eine Varianzanalyse mit zufälligen Effekten vor. ¤
Beispiel 4.1.1.5. Haben die Apfelsorten Schafnase, Kronprinz Rudolf, Oststeirische Zitronette unterschiedlich große Früchte? Von jeder der drei Sorten wurden
10 Bäume zufällig ausgewählt und je 20 Früchte davon gewogen. Unter welches
Modell der Varianzanalyse fällt dieses Problem?
Diskussion: Zielvariable ist wieder das Gewicht der Frucht, Faktor die Apfelsorte in den drei Stufen
Schafnase, Kronprinz, Zitronette. Die Frage dreht sich diesmal um drei spezielle Faktorstufen
(nämlich um den Vergleich genau der drei genannten Sorten), und zu jeder Faktorstufe wurde
gezielt eine Stichprobe angelegt. Das ist eine Varianzanalyse mit festen Effekten. ¤
4.1. VARIANZANALYSE
167
4.1.1.3. Variabilität innerhalb und zwischen den Faktorstufen.
Damit die Rechnungen einfach und durchsichtig bleiben, verwenden wir in diesem Beispiel
unrealistische Zahlenwerte und extrem kleine Stichproben.
Beispiel 4.1.1.6. Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es ergaben sich folgende Längen:
Art
A B C
1 1 8
3 3 6
3 2
1 2
Welche Mittelwerte und Streuungen lassen sich innerhalb dieser Stichprobe
errechnen, und welche Freiheitsgrade gehören zu diesen Streuungen?
Vergleichen Sie die Streuung, die auf die Unterschiede der Arten zurückzuführen
ist, mit der Streuung, die darauf zurückzuführen ist, dass die Käfer innerhalb einer
Art verschieden groß sind.
Diskussion: Wir werden unsere Daten immer in der folgenden Form und mit der folgenden Nomenklatur anschreiben:
j
i
1
2
..
.
Summen
Stichprobenumfänge
Mittelwerte
1
x11
x12
..
.
T1
n1
x1
Faktorstufen
2
···
x21 · · ·
x22 · · ·
..
.
T2
···
n2
···
x2
···
Für unsere Daten ergibt das die Tabelle:
1 2
1
1 1
2
3 3
3
3 2
4
1 2
Ti 8 8
ni 4 4
xi 2 2
total
k
xk1
xk2
..
.
Tk
nk
xk
Gesamtsumme
Gesamtumfang
Gesamtmittelwert
3
8
6
total
14
2
7
T = 30
N = 10
x=3
T
N
x
Beachten Sie, dass der Gesamtmittelwert das gewichtete Mittel der drei Mittelwerte der
Faktorstufen ist:
4×2+4×2+2×7
.
x=
4+4+2
Wir wenden uns nun den Streuungen zu. Zunächst schätzen wir die Varianz aus der gesamten
Stichprobe, also
1 X
(xij − x)2 .
N − 1 i,j
Die Quadratsumme ohne Division durch N − 1 werden wir als SST (Summe der Quadrate total)
bezeichnen.
Die folgende Tabelle liefert die Quadrate der Abweichungen vom Gesamtmittelwert: Zum
Beispiel ist der erste Eintrag
(x11 − x)2 = (1 − 3)2 = 4.
168
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
1
4
0
0
4
8
1
2
3
4
Summe
2
4
0
1
1
6
3
25
9
total
34
48
Wir erhalten
SST = 48.
Als geschätzte Varianz aus der gesamten Stichprobe ergibt sich MST (Mittel der Quadratsummen
total):
M ST = 48/9 ≈ 5.33.
Diese Varianz hat 9 Freiheitsgrade.
Wir wollen nun nur jenen Teil der Streuung schätzen, der nicht durch die Unterschiede zwischen den Arten entsteht, sondern nur dadurch, dass jeder Käfer in der Größe mehr oder weniger
vom Mittelwert seiner eigenen Art abweicht. Die Tabelle ist ebenso gebaut wie die vorige, jedoch
werden die Quadrate der Abweichungen der xij von ihren eigenen Klassenmittelwerten statt vom
Gesamtmittelwert berechnet. Zum Beispiel ist der erste Eintrag
(x11 − x1 )2 = (1 − 2)2 = 1.
1
1
1
1
1
4
1
2
3
4
Summe
2
1
1
0
0
2
3
1
1
total
2
8
Wir benennen die erhaltene Quadratsumme SSI (Summe der Quadrate innerhalb der Faktorstufen) und die daraus geschätzte Varianz MSI. Da wir zur Berechnung dieser Varianz drei
Mittelwerte bilden mußten, wurden von 10 Daten 3 Freiheitsgrade verbraucht, und es bleiben 7
Freiheitsgrade.
SSI = 8
M SI = 8/7 ≈ 1.143
Nun berechnen wir die Streuung, die durch die Unterschiede der Arten entsteht. Wir errechnen also aus den Mittelwerten der drei Faktorstufen eine Varianz. Dabei berücksichtigen wir,
welche Stichprobenumfänge hinter jedem der drei Mittelwerte stehen, wir berechnen also eine
gewichtete Quadratsumme:
i
xi
ni
ni (xi − x)2
1
2
4
4
2
2
4
4
3
7
2
32
total
3
40
Die erhaltene Quadratsumme bezeichnen wir SSZ (Summe der Quadrate zwischen den Faktorstufen), die daraus geschätzte Varianz mit MSZ. Da wir aus drei Werten eine Varianz unter
Berücksichtigung eines (gewichteten) Mittelwertes errechnet haben, hat MSZ zwei Freiheitsgrade.
SSZ = 40
M SZ = 40/2 = 20
Wir stellen noch einmal die drei Quadratsummen einander gegenüber:
Z
I
T
Zwischen den
Faktorstufen
Innerhalb der
Faktorstufen
gesamt
SS
Quadratsumme
40
dF
Freiheitsgrade
2
MS
Varianz
20
8
7
8/7
48
9
48/9
4.1. VARIANZANALYSE
169
Wir beobachten, dass sich nicht nur die Freiheitsgrade, sondern vor allem auch die Quadratsummen addieren:
SST = SSZ + SSI.
Diese wichtige Formel ist keineswegs selbstverständlich, aber mit etwas mathematischem Geschick
kann man sie beweisen. Es hätte also genügt, SST und SSZ auszurechnen, SSI hätten wir dann
durch eine einfache Subtraktion erhalten.
Nun vergleichen wir die geschätzten Varianzen. MSZ ist deutlich größer als MSI, daher ist
nicht zu erwarten, dass MSZ nur auf Grund der zufälligen Größendifferenzen der Käfer, die sich
ja auch in MSI manifestieren, entsteht, sondern die Käferart bei der Größe kräftig mitmischt. Je
größer MSZ im Vergleich zu MSI ausfällt, umso stärker sprechen die Daten für die Annahme eines
Einflusses der Käferart auf die Größe. Um diese Gedanken zu quantifizieren, betrachten wir den
Quotienten
F =
M SZ
= 17.5.
M SI
Unter geeigneten Annahmen ist das Verhältnis geschätzter Varianzen F-verteilt, hier mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Laut Tabelle liegt eine F-verteilte
Zufallsvariable mit diesen Freiheitsgraden nur mit Wahrscheinlichkeit 0.05 über dem kritischen
Wert
F0.05 = 4.737.
Damit können wir mit Signifkanzniveau 0.05 schließen, dass ein Einfluss von der Käferart auf die
Größe besteht, anders ausgedrückt, dass nicht alle drei Arten im Mittel gleich groß sind. ¤
Merksatz 4.1.1.7. Die Grundidee der Varianzanalyse ist, eine Stichprobe von
mehreren Gruppen mit konstanten Faktorstufen zu untersuchen. Wenn die Streuung
der Zielvariablen in der gesamten Stichprobe signifikant größer ist als die Streuung
innerhalb der einzelnen Gruppen mit konstanten Faktorstufen, so läßt sich folgern,
dass die Faktoren Einfluss auf die Zielvariable haben.
Was Sie jetzt können:
Begriffe und Wissen: Grundkonzept der einfaktoriellen Varianzanalyse, Variabilität innerhalb und zwischen den Faktorstufen.
Zufällige und feste Faktorstufen.
4.1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse.
Übersicht:
1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren
2. Durchführung der Varianzanalyse
170
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
4.1.2.1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren.
Jede statistische Methode baut auf Voraussetzungen über die untersuchten Merkmale auf.
Zum Beispiel wissen wir, dass der t-Test angewendet werden kann, wenn die untersuchten Zufallsvariablen normalverteilt sind. Auf dieser mathematischen Annahme bauen die Rechengesetze
des t-Tests auf. Die Annahme trifft aber nicht immer zu, und ist oft auch nur annäherungsweise
erfüllt. Wenn wir für Merkmale oder Zufallsvariablen eine mathematische Struktur voraussetzen,
sprechen wir von einem Modell.
Merksatz 4.1.2.1. Einer einfaktoriellen Varianzanalyse liegt folgendes Modell
zugrunde:
1. Für jede der Faktorstufen i = 1, 2, · · · , k ist die abhängige Variable Yi eine
Zufallsvariable
Yi = µi + σZ,
2. Dabei ist Z eine standardnormalverteilte Zufallsvariable.
3. Der Parameter µi ist der Mittelwert von Yi .
4. Der Parameter σ ist die Standardabweichung von Yi , diese ist für alle
Faktorstufen i = 1, 2, · · · , k dieselbe.
Die Varianzanalyse testet die Hypothesen
H0 : µ1 = µ2 = · · · = µk .
H1 : Mindestens zwei Werte µi , µj sind ungleich.
Diskussion: Die Erhebung einer Stichprobe für die Faktorstufe i wird also als Stichprobe von
Realisierungen einer Zufallsvariablen Yi betrachtet. Dabei werden aber wesentliche Annahmen
gemacht:
Die Zufallsvariablen Yi sind normalverteilt.
Die Standardabweichung hängt nicht von der Faktorstufe ab (Varianzhomogenität).
Auch die Grundfrage, ob das metrische Merkmal von den Faktorstufen abhängt, lässt sich durch
das Modell ausdrücken: Haben die verschiedenen Zufallsvariablen alle denselben Mittelwert? ¤
Tipp 4.1.2.2. Nur für (annähernd) normalverteilte Merkmale, deren Standardabweichung (fast) nicht von den Faktorstufen abhängt, ist die Varianzanalyse gültig.
(In anderen Situationen bietet sich als parameterfreie Methode der Kruskal-Wallis
H-Test an.)
Bemerkung 4.1.2.3. Man kann die Varianzanalyse auch als einen Vergleich
zweier Modelle ansehen: Wieder ist für jede Faktorstufe i = 1, 2, · · · , k die abhängige
Variable Yi eine Zufallsvariable:
Modell B
Modell A
(einfaches Modell)
(komplexes Modell)
Yi = µ + σZ
Yi = µi + σZ
mit
mit
Z standardnormalverteilt
Z standardnormalverteilt
µ Mittelwert von Yi
µi Mittelwert von Yi
(derselbe für alle i)
(können verschieden sein)
σ Standardabweichung von Yi σ Standardabweichung von Yi
(dieselbe für alle i)
(dieselbe für alle i)
Die Varianzanalyse testet dann die Hypothesen:
H0 : Es gilt das einfache Modell A.
H1 : Es gilt das komplexere Modell B.
4.1. VARIANZANALYSE
171
Diskussion: Tatsächlich ist Modell A das einfachere, es hat nur 2 Parameter, nämlich µ und σ.
Dagegen hat Modell B insgesamt k + 1 Parameter, nämlich σ, µ1 , µ2 , · · · , µk . Damit lässt sich
Modell B besser an Daten anpassen, das heißt, mehr von den Daten wird durch die Parameter
beschrieben, und für die zufällige Streuung, die durch σ repräsentiert wird, bleibt weniger übrig.
Tatsächlich findet wird die Varianzanalyse oft herangezogen, um einfachere mit komplexeren Modellen zu vergleichen. ¤
4.1.2.2. Durchführung der Varianzanalyse.
Methode 4.1.2.4 (Einfaktorielle Varianzanalyse mit festen Effekten). Statistischer Test, ob ein nominales Merkmal (Faktor) auf ein metrisches Merkmal X
(Zielvariable) Einfluß nimmt.
• Hypothesen:
H0 : Nullhypothese: Für alle Faktorstufen hat das Merkmal X denselben
Mittelwert.
H1 : Alternativhypothese: Es gibt mindestens ein Paar von Faktorstufen,
für welche X verschiedene Mittelwerte hat.
α: Signifikanzniveau: α.
• Daten: Unabhängige Stichproben von je mindestens 2 Realisierungen von
X für jede Faktorstufe.
• Nomenklatur:
Anzahl der Faktorstufen
k
Stichprobenumfänge für die Faktorstufen n1 · · · nk
Gesamtstichprobenumfang
N = n1 + · · · + nk
Realisierungen für Faktorstufe i
xi1 · · · xini
• Bedingungen:
– Für jede feste Faktorstufe ist X normalverteilt mit Mittelwert µi und
Standardabweichung σ.
– Die Standardabweichung von X ist für alle Faktorstufen dieselbe.
(“Varianzhomogenität”).
– Die Stichproben jeder Faktorstufe für sich bestehen aus unabhängigen
Realisierungen, und die Stichproben der Faktorstufen untereinander
sind ebenfalls unabhängig.
– Für jede Faktorstufe wurde eine Stichprobe gezielt erhoben. (Feste
Effekte).
Durchführung des Testes:
1) Für jede Faktorstufe i = 1 · · · k berechnet man die Summe der Realisierungen:
ni
X
Ti =
xij .
j=1
Daraus berechnet man die Gesamtsumme
T =
k
X
Ti .
i=1
1a) Die Mittelwerte werden zwar in der weiteren Durchführung der Varianzanalyse selbst nicht gebraucht, sind aber für die darauf folgenden Analysen
wertvoll:
Ti
T
xi = , x = .
ni
N
172
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
2) Die Gesamtvariabilität SST ist
SST =
ni
k X
X
k
x2ij −
i=1 j=1
n
i
XX
T2
2
=
x2ij − N x
N
i=1 j=1
Diese Variabilität hat N − 1 Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M ST =
SST
.
N −1
3) Die Variabilität zwischen den Faktorstufen ist
SSZ =
k
X
T2
i
i=1
ni
k
−
X
T2
2
=
ni x2i − N x .
N
i=1
Diese Variabilität hat k − 1 Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M SZ =
SSZ
.
k−1
4) Die Variabilität innerhalb der Faktorstufen ist
SSZ = SST − SSI.
Diese Variabilität hat N − k Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M SI =
SSI
.
N −k
5) Die Teststatistik ist
F =
M SZ
M SI
6) Aus einer Tabelle der Quantile der F-Verteilung mit k − 1 Freiheitsgraden des Zählers und N − k Freiheitsgraden des Nenners sucht man Fα so,
dass eine F-verteilte Zufallsvariable mit diesen Freiheitsgraden mit Wahrscheinlichkeit α größer als Fα ausfällt.
7) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen, und ein Einfluss
des Faktors auf die Zielvariable ist mit Signifikanzniveau α statistisch untermauert.
4.1. VARIANZANALYSE
173
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
161,446
18,513
10,128
7,709
6,608
5,987
5,591
5,318
5,117
4,965
4,844
4,747
4,667
4,600
4,543
4,494
4,451
4,414
4,381
4,351
4,325
4,301
4,279
4,260
4,242
4,225
4,210
4,196
4,183
4,171
4,085
4,001
3,936
3,841
199,499
19,000
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
3,982
3,885
3,806
3,739
3,682
3,634
3,592
3,555
3,522
3,493
3,467
3,443
3,422
3,403
3,385
3,369
3,354
3,340
3,328
3,316
3,232
3,150
3,087
2,996
215,707
19,164
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
3,587
3,490
3,411
3,344
3,287
3,239
3,197
3,160
3,127
3,098
3,072
3,049
3,028
3,009
2,991
2,975
2,960
2,947
2,934
2,922
2,839
2,758
2,696
2,605
224,583
19,247
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
3,357
3,259
3,179
3,112
3,056
3,007
2,965
2,928
2,895
2,866
2,840
2,817
2,796
2,776
2,759
2,743
2,728
2,714
2,701
2,690
2,606
2,525
2,463
2,372
230,160
19,296
9,013
6,256
5,050
4,387
3,972
3,688
3,482
3,326
3,204
3,106
3,025
2,958
2,901
2,852
2,810
2,773
2,740
2,711
2,685
2,661
2,640
2,621
2,603
2,587
2,572
2,558
2,545
2,534
2,449
2,368
2,305
2,214
233,988
19,329
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
3,095
2,996
2,915
2,848
2,790
2,741
2,699
2,661
2,628
2,599
2,573
2,549
2,528
2,508
2,490
2,474
2,459
2,445
2,432
2,421
2,336
2,254
2,191
2,099
236,767
19,353
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
3,012
2,913
2,832
2,764
2,707
2,657
2,614
2,577
2,544
2,514
2,488
2,464
2,442
2,423
2,405
2,388
2,373
2,359
2,346
2,334
2,249
2,167
2,103
2,010
238,884
19,371
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
2,948
2,849
2,767
2,699
2,641
2,591
2,548
2,510
2,477
2,447
2,420
2,397
2,375
2,355
2,337
2,321
2,305
2,291
2,278
2,266
2,180
2,097
2,032
1,938
240,543
19,385
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
2,896
2,796
2,714
2,646
2,588
2,538
2,494
2,456
2,423
2,393
2,366
2,342
2,320
2,300
2,282
2,265
2,250
2,236
2,223
2,211
2,124
2,040
1,975
1,880
Beispiel 4.1.2.5. Rechnen Sie Beispiel 4.1.1.6 nach der obigen Methode nach:
Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es
ergaben sich folgende Längen:
Art
A B C
1 1 8
3 3 6
3 2
1 2
Kann aus diesen Daten mit Signifikanzniveau α = 0.05 geschlossen werden,
dass die Durchschnittslänge der Käfer nicht für alle drei Arten gleich ist?
Diskussion: Schritt 1) Bestimmung der Stichprobensummen:
174
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
i
Ti
ni
xi
1
1
3
3
1
8
4
2
2
1
3
2
2
8
4
2
3
8
6
total
14
2
7
T = 30
N = 10
x=3
Schritt 2) Gesamte Variabilität:
SST
=
12 + 32 + 33 + 12 + 12 + 32 + 22 + 22 + 82 + 62 −
302
= 48,
10
Freiheitsgrade
10 − 1 = 9,
48
≈ 5.3333.
M ST =
9
Schritt 3) Variabilität zwischen den Faktorstufen:
82
82
142
302
+
+
−
= 40,
4
4
2
10
Freiheitsgrade
3 − 1 = 2,
40
= 20.
M SZ =
2
Schritt 4) Variabilität innerhalb der Faktorstufen:
SSZ
=
SSI
=
Freiheitsgrade
M SI
=
48 − 40 = 8,
10 − 3 = 7,
8
≈ 1.1429.
7
Schritt 5) Vergleichstabelle und Teststatistik:
SS
40
8
48
Z
I
T
dF
2
7
9
MS
20
1.1429
5.3333
F
17.5
Schritt 6) Kritischer Wert der F-Verteilung mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners für α = 0.05 aus der Tabelle:
F0.05 = 4.737.
Schritt 7) Testentscheidung: Weil
F = 17.5 > 4.737 = F0.05 ,
wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.05 untermauert, dass die
mittlere Größe für mindestens zwei der Käferarten verschieden ist. ¤
Beispiel 4.1.2.6. Für Beispiel 4.1.2.5 wurde in SPSS eine einfaktorielle Varianzanalyse durchgeführt. Der Test soll für das Signifikanzniveau α = 0.05 durchgeführt werden. Das Programm liefert die folgende Tabelle:
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
Quadratsumme
40
8
48
dF
2
7
9
Mittel der
Quadrate
20
1.143
F
Signifikanz
17.5
0.002
Diskussion: Die Tabelle zeigt die Variabilitäten zwischen und innerhalb der Gruppen, sowie die
totale Variabilität. Daneben jeweils ihre Freiheitsgrade und die daraus geschätzten Varianzen.
F ist der Wert der Teststatistik MSZ/MSI und die Signifikanz der p-Wert des F-Tests bei 2
Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Da p = 0.002 < 0.05 = α, wird
die Nullhypothese zurückgewiesen. Aus den Daten kann geschlossen werden, dass mindestens zwei
der drei Käferarten sich in der Durchschnittsgröße unterscheiden. ¤
4.1. VARIANZANALYSE
175
Was Sie jetzt können:
Begriffe und Wissen: Modell und Bedingungen der einfaktoriellen
Varianzanalyse.
Methoden: Einfaktorielle Varianzanalyse mit festen Faktoren.
4.1.3. Post-hoc Tests.
Übersicht:
1.
2.
2.
4.
5.
Problematik des Testens nach Sichten der Daten
Geplanter t-Test
Signifikanz des Einzeltests und der Serie
Bonferroni-Korrektur
Erst sichten, dann testen?
4.1.3.1. Problematik des Testens nach Sichten der Daten.
Wenn die Varianzanalyse ergeben hat, dass zwischen den Faktorstufen signifikante Unterschiede bestehen, wollen wir natürlich auch wissen, welche Stufen sich von welchen unterscheiden. Grundsätzlich steht für die Frage, ob sich zwei Gesamtheiten unterscheiden, der t-Test für
unabhängige Stichproben zur Verfügung. Die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen und eine geschätzte Varianz (nämlich SQI) für den t-Test hat schon die Berechnung
der Varianzanalyse geliefert. Daher wird der Vergleich der einzelnen Faktorstufen rechentechnisch
keinen großen Aufwand mehr machen.
Es ist jedoch problematisch, sehr viele t-Tests anzusetzen. Wenn auch der einzelne Test
vielleicht mit einem kleinen Signifikanzniveau α angesetzt wird, steigt die Wahrscheinlichkeit,
dass unter vielen Tests mindestens einmal eine Nullhypothese zu Unrecht abgelehnt wird, stark
an. Auch sind die Tests, wenn ein Mittelwert in mehreren Tests verwendet wird, nicht mehr
unabhängig, so dass sich die Fehlerwahrscheinlichkeiten nicht mehr exakt ableiten lassen.
Noch komplizierter wird das Problem, wenn wir — was wir natürlich in Wirklichkeit am
liebsten wollen — erst die Mittelwerte ansehen, und dann jene heraussuchen, die am weitesten
auseinanderliegen. Wenn wir nun mit diesen ausgewählten Mittelwerten einen t-Test durchführen
würden, wäre die Wahrscheinlichkeit, ein (scheinbar) signifikantes Ergebnis zu erhalten, übermäßig
groß. Denn natürlich ist es viel wahrscheinlicher, dass der t-Wert über einen kritischen Tabellenwert steigt, wenn erst aus vielen Mittelwerten die beiden entferntesten ausgewählt werden, und
daraus t errechnet wird, als wenn einfach zwei Mittelwerte vorgegeben sind.
Wir werden also für Tests, die wir erst nach Sichtung der Ergebnisse der Varianzanalyse
ansetzen, besondere Methoden brauchen.
Definition 4.1.3.1.
Die Hypothesen eines a-priori Test werden festgelegt, bevor die Mittelwerte der Faktorstufen bekannt sind. (Die tatsächliche Durchführung der
Berechnung erfolgt aber nach der Varianzanalyse mit Hilfe der in der Varianzanalyse errechneten Zwischengrößen.)
Ein a-posteriori oder post-hoc Test wird erst angesetzt, nachdem die
Ergebnisse der Varianzanalyse, insbesondere die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen, gesichtet wurden.
176
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
4.1.3.2. Geplanter t-Test.
Wir beginnen mit einer a-priori Methode ohne vorheriges Ansehen der Mittelwerte. Vielleicht
haben wir schon vor der Durchführung der Varianzanalyse die Vermutung, dass ganz bestimmte
Faktorstufen unterschiedliche Wirkung auf die Zielvariable haben. Wenn wir einige wenige bestimmte Paare auf jeden Fall vergleichen wollen, eignet sich der folgende Test. Er ist einfach eine
Sammlung von t-Tests zum Vergleich unabhängiger Stichproben.
Methode 4.1.3.2 (LSD-Test, least significant difference, geplanter multipler
t-Test). Statistischer Test im Zusammenhang mit einer Varianzanalyse über k
Faktorstufen. Unterscheiden sich bestimmte ausgewählte Paare von Faktorstufen
bezüglich der Zielvariablen?
• Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test:
H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i
und Stufe j gleich.
H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die
beiden Faktorstufen verschieden. (zweiseitig).
α: Signifikanzniveau α für jeden einzelnen Test separat.
• Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen
für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen
MSI aus der Varianzanalyse.
• Bedingungen:
– Jede Faktorstufe kommt höchstens in einem Vergleichspaar vor.
– Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen
mindestens 2 Faktorstufen.
– Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die
Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich.
– Die Vergleichspaare werden vor Sichtung der Mittelwerte ausgewählt.
Der Test wird folgendermaßen durchgeführt:
1) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI).
2) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert tα/2
mit N − k Freiheitsgraden entnommen.
3) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet:
s
ni + nj
GD = tα/2 M SI
.
ni nj
3a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich:
ni = n, so muss die Grenzdifferenz nur einmal berechnet werden:
r
2
GD = tα/2 M SI .
n
4) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied.
Diskussion: Das ist einfach eine Aneinanderreihung von t-Tests für 2 unabhängige Stichproben.
Statt jeweils die Varianz für jedes Paar neu zu schätzen, nehmen wir die Schätzung MSI aus der
Varianzanalyse. MSI schätzt ja gerade, was wir brauchen: Den Anteil der Streuung, die nicht auf
Unterschiede zwischen den Faktorstufen zurückzuführen ist.
Nachteil dieses Tests ist, dass wir nicht alle Paare vergleichen dürfen, sondern noch vor
Sichtung der Daten einige wenige auswählen müssen, die uns besonders interessant erscheinen.
¤
4.1. VARIANZANALYSE
177
Beispiel 4.1.3.3. 5 verschiedene Käsesorten werden verglichen. Bestehen Unterschiede im Fettgehalt? Es wird insbesondere vermutet, dass Sorte E deutlich
fetter als A und B ist. Die Ergebnisse der Varianzanalyse werden erwartet. Wir
setzen einen LSD-Test an, ob B und E unterschiedlichen Fettgehalt haben:
H0 : B und E haben im Mittel denselben Fettgehalt.
H1 : Der mittlere Fettgehalt von E ist größer als von B. (einseitig)
α: Signifikanzniveau: 0.05.
Leider dürfen wir keinen zweiten LSD für A und E ansetzen, sonst käme E in zwei
Vergleichen vor.
Von jeder Sorte wurde eine Stichprobe vom Umfang 5 erhoben. Der mittlere
Fettgehalt in % für jede der Stichproben ist unten tabelliert:
Sorte
Fettgehalt (Stichprobenmittel)
A
46
B
47
C
50
D
51
E
56
Die Varianzanalyse ergab:
zwischen Stufen
innerhalb Stufen
gesamt
Quadratsumme
310
140
450
dF
4
20
24
Varianz
77.5
7
18.75
F
11.07
Signifikanz
.000
Diskussion: Wir haben k = 5 Faktorstufen, bei gleich großen Stichproben für jede Faktorstufe
ni = n = 5, und einem Gesamtstichprobenumfang von N = 25. Die Varianzanalyse ergab einen
signifikanten Unterschied zwischen den Faktorstufen.
Wir führen nun den LSD-Test durch. Der ANOVA-Tabelle entnehmen wir SQI = 7 sowie
die Anzahl der Freiheitsgrade 20. Da der Test einseitig angesetzt ist, entnehmen wir der Tabelle
den kritischen Wert der t-Verteilung für α = 0.05 und 20 Freiheitsgrade:
t0.05 = 1.725.
Der kleinste signifikante Abstand (Grenzdifferenz) ist dann
r
r
2
7×2
≈ 2.886.
GD = tα M SI = 1.725
n
5
Die Mittelwerte für Faktorstufen B und E entnehmen wir der Tabelle der Mittelwerte:
xE − xB = 56 − 47 = 9.
Also gilt
xE − xB = 9 ≥ 2.886 = GD.
Wir können daher die Nullhypothese zurückweisen. Unsere Analyse untermauert signifkant, dass
Käsesorte E im Durchschnitt einen höheren Fettgehalt hat als Sorte B. ¤
4.1.3.3. Signifikanz des Einzeltests und der Serie.
Wenn wir 5 Faktoren haben und jeden mit jedem durch einen t-Test vergleichen wollen, so
ergibt das 10 t-Tests. Nehmen wir an, wir testen mit α = 0.05 und alle Faktoren haben denselben
Mittelwert. Jeder der t-Tests spricht dann mit einer Wahrscheinlichkeit von 0.95 für H0 . Die
Wahrscheinlichkeit, dass alle 10 Tests für H0 sprechen, ist allerdings nur mehr 0.9510 ≈ 0.6,
das heißt, die Wahrscheinlichkeit, dass unter allen diesen Tests mindestens einer für H1 spricht,
ist bereits 0.4. Daher ist es nicht sinnvoll, ohne weitere Vorsichtsmaßnahmen sehr viele Tests
durchzuführen, und dann die signifikanten herauszuklauben.
Merksatz 4.1.3.4. Wenn wir eine Serie von Tests durchführen, müssen wir
unterscheiden:
1) Das Signifikanzniveau der Serie. Dies ist das erlaubte Risiko, dass innerhalb der gesamten Serie eine Nullhypothese zu Unrecht zurückgewiesen
wird.
178
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
2) Das Signifikanzniveau des einzelnen Tests. Dies ist die erlaubte Risiko,
dass in diesem einen Test die Nullhypothese zu Unrecht zurückgewiesen
wird.
Natürlich ist das Signifikanzniveau der Serie größer als das des Einzeltests. Als
vorsichtige Faustregel gilt: Das Signifikanzniveau einer Serie von Tests ist nur geringfügig kleiner als die Summe der Signifikanzniveaus der einzelnen Tests.
4.1.3.4. Bonferroni-Korrektur.
Die folgende Methode kontrolliert das Signifikanzniveau der gesamten Vergleichsserie. Sie erlaubt, alle möglichen Vergleiche anzusetzen. Damit ist sie eine post-hoc Methode, einfach deshalb,
weil Nachsehen in den Ergebnissen der Varianzanalyse ohnehin keinen Einfluss auf die Hypothesenstellung hat.
Merksatz 4.1.3.5. Die Bonferroni-Korrektur dient dazu, eine Serie von m
Tests mit einer Signifikanz α für die gesamte Testserie durchzuführen. Man führt
zu diesem Zweck einfach jeden Einzeltest mit einer Signifikanz von α/m aus.
Es gibt verfeinerte Varianten des Bonferroni-Verfahrens, welche die verschiedenen Vergleiche mit unterschiedlichen Signifikanzniveaus durchführen, sodass sich als Signifikanzniveau der
gesamten Vergleichsserie wieder α ergibt.
Methode 4.1.3.6 (Bonferroni-Korrektur des multiplen t-Tests). Statistischer
Test, welche Faktorstufen einer Varianzanalyse über k Faktorstufen sich bezüglich
der Zielvariablen unterscheiden. Jede Stufe wird mit jeder Stufe verglichen.
• Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test:
H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i
und Stufe j gleich.
H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die
beiden Faktorstufen verschieden. (zweiseitig).
α: Signifikanzniveau α für die gesamte Vergleichsserie.
• Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen
für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen
MSI aus der Varianzanalyse.
• Bedingungen:
– Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen
mindestens 2 Faktorstufen.
– Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die
Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich.
Der Test wird folgendermaßen durchgeführt:
1) m ist die Anzahl der Vergleiche, das ist m = k(k−1)
.
2
2) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI).
3) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert
tα/(2m) mit N − k Freiheitsgraden entnommen.
4) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet:
s
GD = tα/(2m)
M SI
ni + nj
.
ni nj
4.1. VARIANZANALYSE
179
4a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich:
ni = n, so muss die Grenzdifferenz nur einmal berechnet werden:
r
2
GD = tα/(2m) M SI .
n
5) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied.
Diskussion: Der Unterschied zum LSD-Test besteht nur in der vorsichtigeren Handhabe von α.
Erlaubt man für jeden einzelnen Test eine Wahrscheinlichkeit von α/m, dass die Nullhypothese zu
Unrecht zurückgewiesen wird, so ergibt das insgesamt eine Fehlerwahrscheinlichkeit, die kleiner als
α ist. Das Verfahren ist konservativ, das heißt, es wird nur selten zu Unrecht eine Nullhypothese
zurückweisen, wird also selten ein Paar von Faktorstufen als signifikant unterschiedlich ausweisen.
¤
Definition 4.1.3.7. Ein Testverfahren heißt konservativ, wenn es nur selten
Nullhypothesen zurückweist und daher nur bei großer Sicherheit Daten als signifikant ausweist.
Beispiel 4.1.3.8. Untersuchen Sie die 5 Käsesorten der Studie Beispiel 4.1.3.3
systematisch nach Paaren, für welche der Fettgehalt signifikant verschieden ist.
Signifikanzniveau der gesamten Testserie sei 0.05.
Die Studie baut auf je einer Stichprobe mit Umfang 5 für jede Käsesorte auf.
Die Mittelwerte und die Tabelle der Varianzanalyse waren in dieser Studie:
Sorte
Fettgehalt (Stichprobenmittel)
zwischen Stufen
innerhalb Stufen
gesamt
Quadratsumme
310
140
450
dF
4
20
24
A
46
B
47
Varianz
77.5
7
18.75
C
50
D
51
F
11.07
E
56
Signifikanz
.000
Diskussion: Da nun alle möglichen Paare verglichen werden sollen, können wir nicht den LSD-Test
anwenden sondern greifen auf Bonferroni zurück. Insgesamt haben wir
5(5 − 1)
= 10
2
Vergleiche. Testen wir jeden einzelnen Vergleich mit Signifikanz 0.01, so erhalten wir als Signifikanzniveau für die gesamte Serie 10 × 0.005 = 0.1. Da die Tests zweiseitig sind, entnehmen wir
der Tabelle den kritischen t-Wert für 0.005 bei 20 Freiheitsgraden:
t0.005 = 2, 845.
Der kleinste signifikante Abstand nach Bonferroni ist dann
r
r
2M SI
2×7
GDBonferroni = t0.0025
= 3.153
≈ 5.276.
n
5
Wir erstellen nun eine Tabelle aller Differenzen der Mittelwerte und vergleichen diese mit dem
kritischen Abstand. Für alle Paare mit
|xi − xj | ≥ GDBonferroni = 5.276
ist die Nullhypothese zurückzuweisen. Für diese Paare ist also signifikant untermauert, dass die
beiden Käsesorten im Durchschnitt unterschiedlichen Fettgehalt haben. Wir markieren diese Paare
in der Tabelle mit einem Sternchen ∗. (Natürlich müßten wir in Wirklichkeit nur die halbe Tabelle
ausfüllen, die Werte unter der Diagonalen sind die Spiegelung der Werte über der Diagonalen, mit
umgedrehtem Vorzeichen. Auf der Diagonalen steht immer Null.)
180
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Faktor
A
B
C
D
E
xi
46
47
50
51
56
A
46
0
-1
-4
-5
-10*
B
47
1
0
-3
-4
-9*
C
50
4
3
0
-1
-6*
D
51
5
4
1
0
-5
E
56
10*
9*
6*
5
0
Der Bonferroni-Test findet signifikante Unterschiede im Fettgehalt bei folgenden paarweisen
Vergleichen: Käsesorte A mit E, Sorte B mit E, und Sorte C mit E. ¤
4.1.3.5. Erst sichten, dann testen?
Die nächstliegende Methode wäre, nach der Varianzanalyse zunächst die Paare mit den
größten Mittelwertunterschieden herauszupicken und auf Signifikanz des Unterschiedes zu testen.
Allerdings muss jetzt in Rechnung gestellt werden, dass man aus k Mittelwerten die beiden weitest entfernten wählt: Natürlich bekommt man im Durchschnitt einen größeren Abstand, wenn
man aus mehreren Mittelwerten die entferntesten wählt, als wenn man von vorneherein nur 2
Mittelwerte zum Vergleich hat. Daher würde beim Vergleich mit einer t-Tabelle übermäßig oft
die Nullhypothese (H0 : “Mittelwerte sind gleich”) zurückgewiesen werden. Es gibt aber andere Testverteilungen und darauf aufgebaute A-posteriori Tests, die diesen Effekt einrechnen (z.B.
Student-Newman-Keuls Test).
Was Sie jetzt können:
Begriffe und Wissen: Geplante Tests. Problematik des Testens a
posteriori: Signifikanz der Serie und Signifikanz des Einzeltests, Testen
von Hypothesen nach Sichten der Daten.
Methoden: Geplanter t-Test, Bonferroni-Korrektur.
4.1.4. Zweifaktorielle Varianzanalyse.
Übersicht:
1.
2.
2.
3.
4.
Problemstellung an einem Beispiel
Analyse der Mittelwerte
Hierarchie der Modelle
Quadratsummen
Testen der Modelle gegeneinander
Dieses Kapitel wurde vor allem in die Vorlesung aufgenommen, um Ihnen an einem Beispiel eine Hierarchie ineinandergeschachtelter einfacherer und komplexerer statistischer Modelle
vorzuführen.
4.1.4.1. Problemstellung an einem Beispiel.
Beispiel 4.1.4.1. Unter Schulkindern der 4. Volksschulklasse in einer Bevölkerungsgruppe soll eine bestimmte Fähigkeit getestet werden. Dabei wurde die Bevölkerung unterteilt:
in drei Einkommensschichten: reich, durchschnittlich, arm,
und in zwei Wohnlagen: Stadt und Land.
Haben Einkommen der Eltern und Wohnlage einen Einfluss auf die untersuchte
Fähigkeit der Schulkinder? Aus jeder Kombination Einkommen-Wohnlage wurde je
eine Stichprobe von 4 Kindern getestet, die erreichten Punkte sind in der folgenden
Tabelle angegeben:
4.1. VARIANZANALYSE
Land
Summe
Mittelwert
Stadt
Summe
Mittelwert
ges. Einkommenklasse:
Summe
Mittelwert
181
reich
mittel
arm
13
14
14
15
56
14
30
32
33
33
128
32
7
9
10
10
36
9
28
29
29
30
116
29
6
6
7
9
28
7
28
28
28
32
116
29
184
23
152
19
144
18
ges. Stadt
und Land
120
10
360
30
480
20
Diskussion: Zum Unterschied von der einfaktoriellen Varianzanalyse wird nun die Abhängigkeit
eines metrischen Merkmals von zwei nominalen Merkmalen untersucht. Die Tabelle zeigt die Ergebnisse der Stichproben für jede Kombination der Faktorstufen. Jede Stichprobe umfasst 4 Merkmalsträger. Insgesamt wurden 24 Kinder getestet. In der Tabelle wurden gleich die Mittelwerte der
sechs einzelnen Stichproben berechnet. Unten finden Sie die Mittelwerte je für die drei Einkommensklassen (zu jeder Einkommensklasse gehören 8 Kinder), und rechts die Mittelwerte je für eine
Wohnlage (zu jeder Wohnlage gehören 12 Kinder). Im rechten unteren Eck steht der Mittelwert
über die gesamte Probe. ¤
Merksatz 4.1.4.2. Die zweifaktorielle Varianzanalyse untersucht folgende
Fragestellung: Gegeben sei ein metrisches Merkmal (Zielvariable oder abhängige Variable) und zwei nominale Merkmale (Faktoren) mit je endlich vielen Ausprägungen
(den Faktorstufen). Gibt es einen statistischen Zusammenhang zwischen den Faktoren und dem Mittelwert der abhängigen Variablen? Wenn ja, haben beide Faktoren
Einfluss, oder nur einer der Faktoren? Beeinflussen sich die Faktoren gegenseitig in
ihrer Wirkung auf die Zielvariable (Potenzierung oder gegenseitige Abschwächung)?
In der Tabelle unseres Beispiels 4.1.4.1 wurde zu jeder möglichen Kombination von Einkommensgruppe und Wohnlage eine Stichprobe erhoben. Da 2 Faktorstufen der Wohnlage (Stadt Land) und drei Faktorstufen der Einkommensgruppe (reich - mittel - arm) vorliegen, gibt das
insgesamt 6 Stichproben.
Merksatz 4.1.4.3. Ein vollständiger Versuch in einer zweifaktoriellen Varianzanalyse besteht aus je einer Stichprobe zu jeder möglichen Kombination von
zwei Faktorstufen.
4.1.4.2. Analyse der Mittelwerte.
In der folgenden Tabelle finden Sie noch einmal die Mittelwerte der Stichproben zu den
sechs Faktorkombinationen, sowie unten die Mittelwerte der drei Einkommenstufen, und rechts
die Mittelwerte der zwei Wohnlagen. Die Bedeutung der weiteren Einträge werden sich in der
folgenden Analyse ergeben:
182
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
reich
mittel
arm
14
9
7
erwartet ohne Wechselwirkungen:
Beitrag Wechselwirkungen:
Stadt
tatsächlicher Mittelwert:
13
1
9
0
8
-1
32
29
29
erwartet ohne Wechselwirkungen:
Beitrag Wechselwirkungen:
gesamte Einkommensgruppe:
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Einkommensgruppe:
33
-1
29
0
28
1
23
20
3
19
20
-1
18
20
-2
Land
tatsächlicher Mittelwert:
alle Einkommen
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Wohnlage:
10
20
-10
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Wohnlage:
30
20
10
Gesamtmittelwert:
20
Wir beginnen die Analyse rechts unten, wo wir finden, dass die gesamte Probe einen Mittelwert von 20 Punkten liefert. Der Mittelwert für die Landkinder ist aber nur 10, dafür beträgt
der Mittelwert für die Stadtkinder 30. Die Wohnlage scheint also einen Beitrag zur abhängigen
Variablen zu leisten: Am Land im Durchschnitt -10, in der Stadt im Durchschnitt 10. Diese Beiträge summieren sich auf 0. Landkinder haben anscheinend einen deutlichen Nachteil gegenüber
Stadtkindern, zumindest was die geteste Fähigkeit betrifft.
Nun führen wir dieselbe Analyse mit dem Faktor “Einkommenstufe” durch. Der Mittelwert
für die reichen Kinder beträgt 23, also um 3 besser als der Gesamtmittelwert. Für die Kinder der
mittleren Einkommenstufe liegt der Mittelwert bei 19, um 1 Punkt weniger als der Gesamtmittelwert, und die Kinder der armen Bevölkerungsschicht erreichen im Mittel nur 18, um zwei Punkte
weniger als der Gesamtdurchschnitt. Also liefert auch der Faktor Einkommenstufe einen Beitrag:
+3 für Reiche, -1 für durchschnittliche Einkommen, und -2 für Kinder aus armen Verhältnissen.
Wieder summieren sich diese drei Beiträge auf Null. Allerdings ist der Effekt des Einkommens
weit weniger deutlich ausgeprägt als der Effekt des Wohnorts. Ist es nur ein Zufallseffekt, oder ist
er statistisch signifikant?
Wenn wir also die Beiträge der beiden Faktoren ermittelt haben, könnten wir jetzt für jede
Kombination der Faktorstufen eine zumindest plausible Vorhersage auf den Mittelwert machen:
Der Gesamtmittelwert ist 20. Aber zum Beispiel haben reiche Landkinder einen Malus von -10
durch die Wohnlage am Land, aber wieder einen Bonus von 3 durch die guten Einkommensverhältnisse. Wir erwarten also einen Mittelwert von 20 − 10 + 3 = 13 für reiche Landkinder.
Der tatsächliche Mittelwert der entsprechenden Stichprobe ist aber 14, um 1 besser als erwartet.
Ebenso hätten arme Stadtkinder einen Bonus von 10 durch die Wohnlage und einen Malus von -2
durch das schlechte Einkommen, das ergibt einen erwarteten Mittelwert von 28. Der tatsächliche
Mittelwert der Stichprobe ist 29, um 1 besser als erwartet.
In der Berechnung der erwarteten Mittelwerte sind wir davon ausgegangen, dass jeder Faktor
seinen Beitrag zur Verbesserung oder Verschlechterung einbringt, und sich diese beiden Beiträge
einfach zum Gesamtdurchschnitt addieren. Es könnten sich die Faktoren aber gegenseitig beeinflussen. Vielleicht wirkt sich der Wohnort auf reiche und arme Kinder ganz verschieden aus: Ein
Einfamilienhaus auf dem Land mit großem Garten ist vielleicht kindgerechter als eine noch so vornehme Stadtwohnung. Arme Kinder in der Stadt spielen vielleicht eher auf der Straße, während
reiche möglicherweise meist in der Wohnung eingesperrt sind. Wenn die Wirkung eines Faktors auf
die Zielvariable für verschiedene Faktorstufen des anderen Faktors verschieden ausfällt, sprechen
wir von Wechselwirkungen. Im vorigen Absatz haben wir gesehen, dass möglicherweise Wechselwirkungen auftreten, wenn auch nur in unauffälligem Ausmaß. Für jede der Stichprobe haben wir
einen entsprechenden Korrekturbeitrag gefunden: Am Land 1, 0 , -1 je nach Einkommen, in der
Stadt -1, 0 , 1 je nach Einkommen. Beachten Sie auch, dass sich diese Korrekturbeiträge in jeder
Wohnlage und in jeder Einkommenstufe jeweils auf Null summieren.
Merksatz 4.1.4.4. Wenn in einer zwei- oder mehrfaktoriellen Varianzanalyse
oder in einer Regressionsrechnung die Wirkung eines Faktors auf die Zielvariable
durch die Ausprägungen eines anderen Faktors verändert werden kann, sprechen
wir von Wechselwirkungen.
4.1. VARIANZANALYSE
183
4.1.4.3. Hierarchie der Modelle.
Je nachdem, welche Einflüsse für wichtig erachtet werden, und welche als Zufallseffekte verworfen werden, ergeben sich mehrere verschiedene statistische Modelle für die Situation. Die Aufgabe der Varianzanalyse wird dann sein, herauszufinden, welches der Modelle am besten passt,
welche Effekte also als signifikant angesehen werden.
Bauen wir zum Beispiel ein Modell, in dem der Einfluss des Wohnorts und der Einkommensverhältnisse ernst genommen werden, aber Wechselwirkungen zwischen den Faktorstufen
ausgeschlossen werden. Dann haben wir für reiche Landkinder einen erwarteten Mittelwert von
20 − 10 + 3, dazu kommt aber zweifellos noch eine Streuung innerhalb der Population der reichen Landkinder, welche wir durch eine normalverteilte Zufallsvariable σZ darstellen. Dabei ist
Z standardnormalverteilt, σZ hat also Mittelwert 0 und Standardabweichung σ. Das Testergebnis eines reichen Landkindes ist dann eine Zufallsvariable YLand,reich , die sich folgendermaßen
zusammensetzt:
YLand,reich
YLand,reich
=
=
20
µ
+
+
(−10)
αLand
+
+
3
βreich
+
+
σZ
σZ
Ebenso ist das Modell für das Testergebnis eines Stadtkindes aus durchschnittlichen Verhältnissen
YStadt,mittel
YStadt,mittel
=
=
20
µ
+
+
10
αStadt
+
+
(−1)
βmittel
+
+
σZ
σZ
Sollen auch Wechselwirkungen zwischen den Faktoren eingerechnet werden, führen wir auch noch
die Korrekturterme für die einzelnen Stichproben ein, z.B.
YLand,reich
YLand,reich
=
=
20
µ
+(−10)
+αLand
+3
+βreich
+1
+γLand,reich
+σZ
+σZ
Auf diese Weise erhalten wir ein komplexeres Modell. Sollen aber nur die Einflüsse des Wohnortes
eingebaut sein, und wird der Faktor Einkommenstufe als irrelevant angesehen, fällt das Modell
entsprechend einfacher aus:
YLand,reich
YLand,reich
=
=
20
µ
+
+
(−10)
αLand
+
+
σZ
σZ
Insgesamt kommen wir auf 5 verschiedene Modelle:
Modell
1.)
berücksichtigt
keine Faktorwirkungen
Gleichung
Yij = µ + σZ
Zusatzbedingungen
2a.)
Wohnlage
Yij = µ + αi + σZ
α1 + α2 = 0
2b.)
Einkommen
Yij = µ + βj + σZ
β1 + β2 + β3 = 0
3.)
Wohnlage
und Einkommen
4.)
Wohnlage
und Einkommen
und Wechselwirkungen
Yij = µ + αi + βj + σZ
Yij = µ + αi + βj + γij + σZ
P
α = 0,
Pi i
j βj = 0
P
Pi αi = 0,
β =0
Pj j
γ
= 0,
Pi ij
j γij = 0
In allen Modellen ist σ ≥ 0 und Z eine standardnormalverteilte Zufallsvariable.
Der Index i durchläuft die Faktorstufen Land - Stadt,
der Index j durchläuft die Faktorstufen reich - mittel - arm.
Die αi , βj , γi,j und σ sind hier Modellparameter, welche sich aus den Daten schätzen lassen.
Tatsächlich haben wir ja alle bis auf σ bereits durch die Analyse der Mittelwerte berechnet.
Beachten Sie auch, dass wir eigentlich nur das komplexeste Modell 4 formulieren müssten.
Die einfacheren Modelle erhalten wir aus Modell 4 durch Nullsetzen bestimmter Parameter. Zum
Beispiel erhalten wir Modell 2b, wenn wir in Modell 4 alle γij und alle αi auf Null setzen.
Merksatz 4.1.4.5. Das allgemeine Modell der zweifaktoriellen Varianzanalyse
ist
Yij = µ + αi + βj + γij + σZ.
184
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Der Index i durchläuft dabei die Faktorstufen des ersten Faktors, der Index j
durchläuft die Faktorstufen des zweiten Faktors. Dabei haben die Parameter folgende Bedeutung:
µ Mittelwert der Gesamtheit
αi Einfluss des ersten Faktors auf den Mittelwert
βj Einfluss des zweiten Faktors auf den Mittelwert
γij Wechselwirkung zwischen den Faktoren
σ Zufällige Effekte
Die Parameter αi , βj , γi,j werden durch Vergleich der Stichprobenmittelwerte ermittelt.
Durch Nullsetzen bestimmter Mengen von Parametern werden einfachere Modelle
aus dem allgemeinen abgeleitet.
(Die Rolle des Parameters σ wird gleich unten besprochen.)
4.1.4.4. Quadratsummen.
Noch immer ist die Frage offen, für welches Modell wir uns letztlich entscheiden sollen. Den
Schlüssel wird uns eine genauere Analyse der Zufallseffekte, also von σZ liefern.
Wir beginnen mit einer Analyse des einfachsten Modells 1: Hier sind keine Wirkungen von
Faktoren eingebaut. Der Mittelwert für alle Situationen ist 20, alles andere wird als Zufallseffekt erklärt. Das heißt, alle Parameter αi , βj , γij sind in diesem Modell durch Definition des
Modells gleich Null gesetzt. Die folgende Tabelle zeigt, wie die Stichprobenergebnisse vom Gesamtmittelwert 20 abweichen (“Fehler”). Die Stichprobenergebnisse sind die Realisierungen von
Yij = µ + σZ. Da wir µ abgezogen haben, verbleiben in der Liste die Realisierungen von σZ.
Aus diesen Realisierungen schätzen wir die Varianz von σZ. Da der Mittelwert von σZ gerade
0 ist, erhalten wir die Varianz durch die Quadratsumme der Realisierungen, dividiert durch die
Anzahl der Freiheitsgrade. 24 Daten wurden erhoben, ein Mittelwert, nämlich µ = 20, wurde vor
Berechnung der Varianz abgezogen, daher hat diese geschätzte Varianz 23 Freiheitsgrade:
Modell 1)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βj
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
0
20
-7
-6
-6
-6
146
0
20
-13
-11
-10
-10
419
0
20
-14
-14
-13
-11
682
0
20
10
12
13
13
582
0
0
20
18
19
19
20
326
0
0
20
18
18
18
22
336
0
αi
0
0
µ = 20
2562
23
111.4
Wir machen in der folgenden Tabelle die gleiche Analyse für Modell 2a. Hier ist der Einfluss
des Wohnortes eingerechnet, das heißt, die Parameter αi sind die aus der Analyse der Mittelwerte
berechneten Beiträge des Wohnortes, während βj und γij nach wie vor auf Null gesetzt bleiben.
Nun sind die vorausgesagten Mittelwerte für die Gruppen Land und Stadt verschieden, und den
Daten besser angepasst, nämlich 10 für das Land, und 30 für die Stadt. Entsprechend fallen
die Abweichungen der Daten von den vorausgesagten Mittelwerten meist kleiner aus, und es
ergibt sich eine kleinere Quadratsumme. Nun wurden vor der Berechnung der Quadratsummen
drei Parameter zum Abzug verwendet, nämlich µ, α1 und α2 . Allerdings sind α1 und α2 nicht
unabhängig, weil sie sich auf Null summieren. Es wurden also vorher zwei Parameter geschätzt, µ
4.1. VARIANZANALYSE
185
und α1 , der dritte ergibt sich zwangsläufig α2 = −α1 . Von 24 Daten verbleiben daher 24 − 2 = 22
Freiheitsgrade.
Modell 2a)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βj
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
0
10
3
4
4
5
66
0
10
-3
-1
0
0
10
0
10
-4
-4
-4
-1
42
0
30
0
2
3
3
22
0
0
30
-2
-1
-1
0
6
0
0
30
-2
-2
-2
2
16
0
αi
-10
10
µ = 20
162
22
7.4
Die geschätzte Varianz in Modell 2a, nämlich 7.4, ist viel kleiner als die in Modell 1. Durch das
Einbeziehen der Faktorstufen Land-Stadt kann das Modell viel besser den Daten angepasst werden.
Offensichtlich entsteht ein sehr beachtlicher Teil der Streuung der Gesamtstichprobe dadurch,
dass zwischen Land- und Stadtkindern im Mittel ein deutlicher Unterschied besteht. Modell 1
kann diesen Unterschied nicht formulieren und nicht erklären, er bleibt als Zufallseffekt unerklärt.
Modell 2 erklärt diesen Unterschied, indem α1 und α2 deutlich verschieden sind. Der Zufall muss
nur mehr die Streuungen erklären, welche nicht aus dem Stadt-Land-Gegensatz herleitbar sind.
Als letztes Beispiel analysieren wir das komplexeste Modell 4, das beide Faktoren und auch
deren Wechselwirkungen inkludiert.
Modell 4)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βi
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
1
14
-1
0
0
1
2
0
9
-2
0
1
1
6
-1
7
-1
-1
0
2
6
-1
32
-2
0
1
1
6
3
0
29
-1
0
0
1
2
-1
1
29
-1
-1
-1
3
12
-2
αi
-10
10
µ = 20
34
18
1.89
Die Parameter αi , βj , γij wurden in der Analyse der Mittelwerte berechnet. Nun hat jede
Faktorkombination ihren eigenen vorausgesagten Mittelwert, entsprechend klein fallen die Fehler
aus. Nur eine Quadratsumme von 18 bleibt durch den Zufall zu erklären, im Vergleich dazu musste
in Modell 1 durch den Zufall eine Quadratsumme von 2562 erklärt werden. Vor der Berechnung
mussten geschätzt werden: µ, α1 (dann ergibt sich automatisch α2 ), β1 und β2 (dann ergibt
sich automatisch β3 , weil die Summe der drei βj Null ergibt), γ11 (dann ergibt sich automatisch
γ21 = −γ11 ) und letztlich γ12 (dann ergeben sich automatisch γ22 = −γ12 , γ13 = −γ11 − γ12 und
186
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
γ23 = −γ13 . Also mussten 6 unabhängige Parameter geschätzt werden, und von 24 Daten bleiben
18 Freiheitsgrade. Man kann auch folgendermaßen überlegen: Modell 4 ist gerade so konstruiert,
dass für jede Faktorenkombination ein eigener Mittelwert gebildet wird. Das ergibt 6 geschätzte
Mittelwerte aus 24 Daten, und es bleiben 18 Freiheitsgrade.
Natürlich kann man dieselbe Analyse auch für die übrigen Modelle 2b und 3 anstellen.
Tipp 4.1.4.6. In der praktischen händischen Rechnung werden diese Tabellen
nicht ausgerechnet. Es gibt, wie bei der einfaktoriellen Varianzanalyse, zahlreiche
Rechenvorteile und Abkürzungen.
Merksatz 4.1.4.7. Im Modell der Varianzanalyse ist
µ + αi + βj + γij
der vorausgesagte Mittelwert der Zielvariablen Yij für die Faktorstufenkombination
i, j. Sei SSM die Quadratsumme der Realisierungen von
Yij − µ − αi − βj − γij
im gegebenen Modell und sei ν die Anzahl der Freiheitsgrade.
1.) ν ist die Anzahl der Daten, abzüglich der Anzahl der unabhängigen Parameter, welche vor Berechnung der Quadratsummen geschätzt und abgezogen werden mussten.
c2 = SSM ergibt einen Schätzwert für die Varianz von σZ, und damit ein
2.) σ
ν
Maß für den Einfluss des Zufalls.
3.) Die Quadratsumme SSM ist ein Maß dafür, wieviel Schwankung der Zielvariablen durch den Zufall erklärt werden muss. Je kleiner sie ist, desto
genauer erklärt das Modell die Daten, und desto weniger Einfluss kommt
dem Zufall zu.
4.) Die Parameter (Mittelwert und Beiträge der Faktoren) sind genau so
beschaffen, dass die Quadratsummen durch den Abzug der Parameter
möglichst klein werden. Erhält man ein einfacheres Modell durch Nullsetzen von gewissen Parametern aus einem komplexeren Modell, so ist die
Quadratsumme des einfacheren Modells größer als die des komplexeren
Modells.
4.1.4.5. Testen der Modelle gegeneinander.
Die folgende Tabelle zeigt eine Übersicht über alle 5 Modelle, mit ihren Quadratsummen,
Freiheitsgraden und geschätzten σ̂. Außerdem wird jedes Modell mit dem nächsten einfacheren
Modell verglichen.
Modell
1)
2a)
Differenz
2b)
Differenz
3)
Differenz
Differenz
4)
Differenz
auf Modell 1:
auf Modell 1:
auf Modell 2a:
auf Modell 2b:
auf Modell 3:
Quadratsumme
2562
162
2400
2450
112
50
112
2400
34
16
Freiheitsgrade
23
22
1
21
2
20
2
1
18
2
Mittel der
Quadrate
111.4
7.4
2400
116.7
56
2.5
56
2400
1.89
8
F
F0.05
324.3*
4.301
0.48
3.467
22.4*
960*
3.493
4.351
4.23*
3.555
Betrachten wir zum Beispiel Modell 2a, welches nur die Wohnlage berücksichtigt. Die Quadratsumme der Fehler ist 162. Das nächst einfachere Modell ist Modell 1, wir erhalten es aus
Modell 2a durch Nullsetzen von α1 und α2 . Die Quadratsumme von Modell 1 muss also größer
4.1. VARIANZANALYSE
187
sein, sie beträgt 2562. Das macht einen Unterschied von 2400 auf die Quadratsumme von Modell 2a. Dies ist der Anteil der von Modell 1 noch nicht erklärten Schwankungen, welche durch
den Faktor Wohnlage in Modell 2a erklärt werden können. Wir haben also folgende Zerlegung
Von Modell 1 nicht erklärte Schwankungen
Von Modell 2 erklärter Anteil
Von Modell 2 nicht erklärter Anteil
2562
2400
162
23 Freiheitsgrade
1 Freiheitsgrad
22 Freiheitsgrade
geschätzte Varianz 111.4
geschätzte Varianz 2400
geschätzte Varianz 7.4
Testen wir die Hypothesen
H0 : Es gilt Modell 1, also α1 = α2 = 0 (d.h. der Faktor Wohnlage hat keinen Einfluss auf
die Leistungen der Kinder)
H1 : Es gilt Modell 2a mit α1 6= 0 oder α2 6= 0.
α: Signifikanzniveau 0.05.
Für die Alternativhypothese spricht, dass durch Einbringen der Wohnlage in Modell 2a ein
großer Anteil von Schwankung erklärt werden kann, der ohne Berücksichtigung der Wohnlage nur
als Zufallsschwankung gedeutet wurde. Als Teststatistik verwenden wir
F =
Von Modell 2a erklärte Varianz
2400
=
= 324.3.
Von Modell 2a nicht erklärte Varianz
7.4
Je größer F ist, desto stärker sprechen die Daten für die Alternativhypothese. Als Vergleichswert
dient der kritische Wert Fα einer F-Verteilung mit 1 Freiheitsgrad des Zählers und 22 Freiheitsgraden des Nenners. Für α = 0.05 ist das 4.301. Da F = 324.3 ≥ 4.301 = Fα , ist die Alternativhypothese untermauert: Aus den Daten kann gefolgert werden, dass die Wohnlage Einfluss auf
das Abschneiden der Kinder in diesem Test hat.
Dagegen liefert der gleiche Vergleich zwischen Modell 2b und Modell 1 keinen signifikanten
Einfluss durch den Faktor Einkommen. Modelle 2a und 2b können nicht direkt durch einen F-Test
miteinander verglichen werden: Keines von beiden ist ein Spezialfall des anderen.
Methode 4.1.4.8 (F-Test zum Vergleich von Modellen in der Varianzanalyse). Wir betrachten zwei Modelle Modell A und Modell B in einer Varianzanalyse.
Dabei sei Modell A das einfachere Modell im Sinne, dass Modell A aus Modell B
hervorgeht, indem man in Modell B einige Parameter auf Null festlegt. Die Fehlerquadratsummen in den Modellen seien SSMA bzw. SSMB , mit den Freiheitsgraden
νA und νB . Es gilt dann jedenfalls: SSMA ≥ SSMB und νA > νB .
1) Die Quadratsumme von A wird folgendermaßen zerlegt
Von Modell A nicht erklärt
Von Modell B erklärt
Von Modell B nicht erklärt
Quadratsumme
Freiheitsgrade
SSMA
νA
SSMA − SSMB
νA − νB
SSMB
νB
Mittel der
Quadrate
MSMA =
MSMD =
SSMA
νA
SSMA − SSMB
νA −νB
MSMB =
SSMB
νB
2) Wir testen die Hypothesen:
H0 : Es gilt das einfachere Modell A.
H1 : Es gilt das komplexere Modell B.
α: Signifikanzniveau α.
3) Die Teststatistik ist
MSMD
F =
.
MSMB
4) Der kritische Wert ist Fα für eine F-Verteilung mit νA − νB Freiheitsgraden des Zählers und νB Freiheitsgraden des Nenners.
5) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen.
188
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
In der Tabelle der 5 Modelle wurden alle Vergleichstests ausgeführt. Wir sehen, dass jedenfalls
Modell 2a statt Modell 1 gilt, jedoch wird Modell 3 signifikant gegenüber Modell‘2a unterstützt,
sodass wir auch das Einkommen als einflussreichen Faktor berücksichtigen, auch wenn der Test
von Modell 2b gegen Modell 1 nicht signifikant war. Letztlich wird aber auch der Test von Modell 4
gegenüber Modell 3 signifikant, sodass wir Wechselwirkungen zwischen den Faktoren Einkommen
und Wohnlage annehmen müssen. Aus solchen Wechselwirkungen erklärt sich auch, dass der Test
auf den Faktor Einkommen allein nicht signifikant wurde, während der Test auf das Faktorenpaar
Einkommen und Wohnlage gegen Wohnlage allein signifikant war.
Was Sie jetzt können:
Begriffe und Wissen: Sie kennen das Prinzip und den Anwendungsbereich der zweifaktoriellen Varianzanalyse. Hierarchien von Modellen.
Methoden: F-Test zwischen ineinandergeschachtelten Modellen.
4.2. Lineare Regression
Übersicht:
1. Modell der linearen Regression
2. Interpretation der Ergebnisse und Modelldiagnostik
Wiederholen Sie vor dieser Sektion die Berechnung und Interpretation der Regressionsgeraden (Sektion 1.3).
4.2.1. Modell der linearen Regression.
Übersicht:
1. Zielsetzung und lineares Regressionsmodell
2. Vorteil einer multiplen Analyse gegenüber mehreren einfachen Regressionen
3. Die Modellhierarchie und Strategien zur Modellauswahl
4.2.1.1. Zielsetzung und lineares Regressionsmodell.
Varianzanalyse deckt Zusammenhänge zwischen einem oder mehreren nominalen unabhängigen Variablen (Faktoren) und einer abhängigen metrischen Variablen auf. Lineare Regression
dagegen deckt lineare Zusammenhänge zwischen einer oder mehreren unabhängigen (erklärenden)
Variablen und einer abhängigen Variablen auf.
Beispiel 4.2.1.1. An einer Abteilung eines Krankenhauses, die auf Behandlung
von Bluthochdruck spezialisiert ist, werden bei allen Neuaufnahmen unter anderem
die Daten Alter, Körpergewicht, Körpergröße, systolischer Blutdruck, Cholesterin
erhoben. Ein wesentliches Merkmal für den Behandlungsfortschritt ist der systolische Blutdruck 6 Monate nach der Aufnahme. Um mögliche Zusammenhänge zwischen den Aufnahmedaten und dem Blutdruck 6 Monate später aufzudecken, wurde
eine multiple Regression angesetzt, wobei die Aufnahmedaten als erklärende (“unabhängige”) Variable und der Blutdruck nach 6 Monaten als abhängige Variable
eingesetzt wurden.
Quelle: A. Bühl, P. Zöfel, SPSS 12. 9. Auflage, Pearson, 2005.
4.2. LINEARE REGRESSION
189
Diskussion: Alle gegebenen Messdaten und Laborwerte sind von Patient zu Patient verschieden,
sie sind Zufallsvariable, abhängig vom Ergebnis des Experiments: Ein neuer Patient wird untersucht. Wenn auch für den einzelnen Patienten aus den Labordaten zum Aufnahmezeitpunkt nicht
eindeutig der Blutdruck nach einem halben Jahr Behandlung bestimmt werden kann, so erwartet
man doch einen statistischen Zusammenhang. Allerdings wissen wir zu Beginn der Studie nicht,
welche von den Daten zum Aufnahmezeitpunkt bestimmend für den Blutdruck nach 6 Monaten
sein werden. Diese Daten festzustellen, wird eines der wichtigsten Ergebnisse der Regression sein.
¤
Definition 4.2.1.2. Das Modell der multiplen linearen Regression für die unabhängigen Variablen (erklärenden Variablen, Einflussvariablen) X1 , · · · , Xk und
die abhängige Variable Y lautet:
Y = b0 + b1 X1 + b2 X2 + · · · + bk Xk + σZ,
dabei sind b0 , b1 , · · · , bk und σ > 0 die Modellparameter. Z ist eine standardnormalverteilte Zufallsvariable, welche von X1 , · · · , Xk unabhängig ist.
Diskussion: Das Modell sagt also, dass sich Y nach einem linearen Gesetz aus den Xi berechnen
lässt, wobei allerdings noch ein unvorhersagbarer Zufallseffekt hinzukommt. Dieser wird durch
σZ beschrieben. Je größer σ, desto stärker der Einfluss des Zufalls, und desto unsicherer die
Berechnung von Y aus den Xi .
Obwohl die Variablen X1 , · · · , Xk die “unabhängigen” Variablen in der Regression heißen,
ist nicht verlangt, dass sie im statistischen Sinn voneinander unabhängige Zufallsvariable sind.
Sehr wohl ist aber verlangt, dass Z von den restlichen X1 , · · · , Xk unabhängig ist.
¤
Merksatz 4.2.1.3. Das Modell der linearen Regression zerlegt die abhängige
Variable Y in die Summe von zwei Teilen:
1.) einen Teil, der sich aus den erklärenden Variablen (zumindest theoretisch)
exakt vorherberechnen läßt: b0 + b1 X1 + · · · + bk Xk . Der Zufall wirkt auf
diesen Teil höchstens insofern, als die Xk selbst vom Zufall abhängen
können.
2.) einen Teil, der von den erklärenden Variablen statistisch unabhängig und
rein vom Zufall bestimmt ist: σZ.
Je geringer der Anteil des zufälligen Teils am Gesamtergebnis ist, desto genauer
lässt sich Y aus den Variablen Xi vorhersagen.
Allerdings bleiben uns die Parameter b0 , · · · , bk , welche man zur Berechnung
des deterministischen Teiles braucht, in Wirklichkeit unbekannt. Die Regressionrechnung liefert aber Schätzwerte für diese Parameter.
Methode 4.2.1.4. Bei der linearen Regression sind n unabhängige Datensätze
x1,1
..
.
, ···
,
xk,1
..
.
,
y1
..
.
x1,n
, ···
,
xk,n
,
yn
von Realisierungen von X1 , · · · , Xk , Y gegeben. Durch die Regressionsrechnung werden Schätzer für die Modellparameter b̂1 , · · · , b̂k , σ̂ und deren Genauigkeit bestimmt,
sowie die Güte der Datenanpassung ermittelt. Computerprogramme liefern uns auf
einen Schlag die erforderlichen Rechenergebnisse. Wir werden die Formeln, die dabei verwendet werden, nicht im Detail vorstellen. Wichtig ist aber die Interpretation
der Ergebnisse.
190
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Tipp 4.2.1.5. Ebenso wie es Paare von Merkmalen gibt, die zwar in einem
deutlichen nichtlinearen Zusammenhang stehen, aber zu keiner Regressionsgerade
passen und daher (fast oder sogar ganz) unkorreliert sind, kann auch eine multiple
lineare Regression nur lineare Zusammenhänge zwischen Merkmalen aufdecken.
Definition 4.2.1.6. Eine lineare Regression mit nur einer erklärenden Variablen heißt einfache Regression. Bei mehreren erklärenden Variablen spricht man
von multipler Regression. Werden gleichzeitig auch mehrere abhängige Variablen
betrachtet, spricht man von multivariater Regression.
Diskussion: Eine einfache lineare Regression ist rechnerisch nichts Anderes als die Berechnung
einer Regressionsgeraden. Vom Standpunkt der schließenden Statistik kommt noch dazu, dass für
die Parameter und Modelle Signifikanzschätzungen vorgenommen werden.
¤
4.2.1.2. Vorteil einer multiplen Analyse im Gegensatz zu mehreren einfachen
Regressionen.
Während sich die einfache Regression auf die Wechselwirkung von zwei Variablen miteinander
beschränkt, kann die multiple Reaktion das Netzwerk von Wechselwirkungen mehrerer erklärender Variablen untereinander und zur abhängigen Variablen ausloten. Die Wechselwirkungen der
erklärenden Variablen untereinander sind von entscheidender Bedeutung. Es ist eine sehr wesentliche Entscheidung, welche Variablen in die Liste der erklärenden Variablen aufgenommen werden.
Läßt man eine wichtige Variable weg, kann das Ergebnis der gesamten Studie verfälscht sein, wie
die beiden folgenden Beispiele zeigen:
Beispiel 4.2.1.7. Ist das Tragen von Zündhölzern krebsfördernd? Eine Studie,
die nur zwei dichotome Variablen vergleicht: “Proband trägt gewöhnlich Zündhölzer
bei sich”, “Proband hat Lungenkrebs”, könnte eine solche Behauptung signifikant
untermauern. Denn Raucher unterliegen einem höheren Krebsrisiko, aber sie tragen
auch öfter Zündhölzer bei sich. Um keinen Trugschlüssen aufzusitzen, muss in eine
seriöse Studie auch die Variable “Anzahl der gerauchten Zigaretten pro Tag” (oder
ähnlich) eingebaut werden.
Beispiel 4.2.1.8. Verkürzt Bettruhe die Heilung von leichten Virusinfektionen?
Eine Studie an ProbandInnen, die im letzten Jahr eine leichte Virusinfektion hatten,
und nur die Variablen “PatientIn befolgte Bettruhe”, ”Heilungsdauer der Infektion”
würde eine solche Behauptung möglicherweise nicht unterstützen, vielleicht sogar
ins Gegenteil verkehren. Denn die PatientInnen mit den schweren, und daher auch
lang dauernden Infektionen werden sich eher zur Bettruhe entschließen. Baut man
in die Studie eine Variable ein, die die Schwere der Infektion bewertet, wird der
Zusammenhang zwischen Bettruhe und Genesungsdauer anders beurteilt werden.
Merksatz 4.2.1.9. Wir betrachten die Wirkung einer Einflussvariablen X auf
eine abhängige Variable Y .
1.) Ein Confounder ist eine Variable Z, welche mit X korreliert ist, und kausale Einflüsse auf Z ausübt. Ein Confounder kann in einer Regression von
X auf Y eine Wirkung von X auf Y vortäuschen. Um dieser Täuschung
zu entgehen, muss der Confounder in die Liste der Einflussvariablen der
Regression aufgenommen werden.
2.) Ein Suppressor ist ein Confounder, der einen bestehenden Zusammenhang
zwischen X und Y verschleiert.
4.2. LINEARE REGRESSION
191
Beispiel 4.2.1.10. Verkürzt Alkoholkonsum die Lebensdauer? Welche Auswirkungen hätte es auf eine Studie zu diesem Thema, wenn man die möglichen “Confounder” Blutdruck, Cholesterin, Leberwerte in die multiple Regression einschließt?
Diskussion: Das Ergebnis wäre wahrscheinlich, dass zwar Bluthochdruck, erhöhtes Cholesterin und
schlechte Leberfunktionen mit kürzerer Lebensdauer einhergehen, doch der Zusammenhang zwischen Alkoholkonsum und Lebensdauer nicht signifikant ausgewiesen würde. Viele der Wege, über
die Alkohol auf die Lebensdauer wirkt, wurden schon als eigene erklärende Variablen zugelassen.
¤
4.2.1.3. Modellhierarchie und Strategien zur Modellauswahl.
Bei der multiplen Regression steht eine Vielzahl von möglichen Modellen zur Auswahl, je
nachdem, welche Variablen eingeschlossen werden. Bei k Variablen gibt es 2k mögliche Modelle.
Typischerweise steht zu Beginn der Untersuchung nicht fest, welche der erklärenden Variablen in
das endgültige Modell aufgenommen werden sollen.
Beispiel 4.2.1.11. Bei einer multiplen Regression von 2 erklärenden Variablen
auf eine abhängige Variable sind folgende vier Modelle möglich:
Y
=
b0
Y
Y
Y
=
=
=
b0
b0
b0
+ σZ
+
+
b1 X1
b1 X1
+
+
b2 X2
b2 X2
+ σZ
+ σZ
+ σZ
(triviales Modell:
Y von beiden Xi unabhängig),
(Y von X1 abhängig),
(Y von X2 abhängig),
(volles Modell).
Merksatz 4.2.1.12. Es ist nicht unbedingt das komplexeste Modell das beste:
Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Andererseits gilt: Je mehr Parameter geschätzt werden müssen, desto unsicherer sind die
Schätzungen der einzelnen Parameter.
Man könnte einfach alle Modelle durchrechnen, und jedes mit jedem vergleichen. Bei vielen
erklärenden Variablen wird das aber äußerst umfangreich und unübersichtlich, daher gibt es andere
Strategien. Sie beruhen auf dem Signifikanzniveau einer Variablen in einem Modell (vgl. Methode 4.2.2.1: Zu jeder Variablen im Modell kann ein Signifikanzniveau berechnet werden. Je kleiner
dieses ist, desto wichtiger ist die Variable im Modell.)
Methode 4.2.1.13. Bei der multiplen linearen Regression gibt es mehrere Systeme, die verschiedenen Modelle abzusuchen und zu vergleichen:
1) Alle Modelle: Man rechnet die Regression für alle möglichen Modelle durch
und wählt am Ende das beste Modell aus. Nachteil: Bei vielen Variablen
sind das sehr viele Modelle.
2) Einschlussmethode: Man legt eine Signifikanzschwelle für Einschluss fest.
Man berechnet zunächst das triviale Modell. Dann bestimmt man für jede Variable die Signifikanz p, die sie hätte, wenn man sie in das Modell
einbauen würde. Die Variable mit dem kleinsten Signifikanzniveau wird
eingebaut, falls das Niveau unter der Signifikanzschwelle für den Einbau
liegt. Das neue Modell wird durchgerechnet. Für das neue Modell überprüft man wieder alle noch nicht eingebauten Variablen. Die Variable mit
der kleinsten Signifikanz wird eingebaut, falls die Signifikanz unter dem
Schwellwert liegt. So baut man das Modell immer weiter aus, bis keine
von den noch nicht eingefügten Variablen ein Signifikanznivau unter der
Schwelle für den Einschluss erreicht.
192
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
3) Ausschlussmethode: Man legt ein Signifikanznivau für den Ausschluss fest.
Man beginnt mit dem vollen Modell (alle Variablen eingebaut) und bestimmt, welche Variable den höchsten p-Wert hat. Liegt das Signifikanznivau dieser Variablen über der Schwelle, so lässt man sie aus dem Modell
weg. Dieser Schritt wird solange wiederholt, bis ein Modell übrigbleibt, in
dem alle enthalten Variablen Signifikanzniveaus unterhalb der Schwelle
besitzen.
4) Schrittweise Methode: Eine Mischung aus Einschluss- und Ausschlussmethode. Man beginnt mit dem trivialen Modell und baut weitere Modelle, indem man entweder Variablen hinzufügt oder weglässt, bis man ein Modell
erhält, in dem alle enthaltenen Variablen signifikant sind, und keine nicht
enthaltene Variable signifikant würde, wenn man sie hinzunähme. Die Signifikanzsschwelle für den Einschluss muss kleiner sein als die Schwelle
für den Ausschluss, sonst pendelt am Ende ständig eine Variable zwischen
Einschluss und Ausschluss hin und her, und das Programm findet kein
Ende der Rechnung.
Statistikpaketen kann man bei Ansatz einer multiplen Regression vorgeben, nach
welcher dieser Strategien sie die Modelle durchsuchen sollen. Die Ausgabe enthält
dann die Parameter und deren Signifikanzen, sowie andere statistische Kennwerte
separat für jedes der durchsuchten Modelle.
Was Sie jetzt können:
Begriffe und Wissen: Einfache und multiple lineare Regression,
Modell der linearen Regression, Confounder und Suppressor, Modellhierarchie.
4.2.2. Interpretation der Ergebnisse und Modelldiagnostik.
Übersicht:
1.
2.
3.
4.
Interpretation der Parameter und ihre Signifikanz
Vorhersage und Residuen
Quadratsummen und Vergleich der Modelle untereinander
Multikollinearität
4.2.2.1. Interpretation der Parameter und ihrer Signifikanz.
Methode 4.2.2.1 (Interpretation der Regressionsparameter bei multipler Regression). Wenn die Variable Nummer i im Modell eingeschlossen ist, sagt der
Modellparameter bi folgendes aus: Erhöht man Xi um eine Einheit, und lässt alle
anderen Variablen Xj unverändert, so steigt Y im Mittel um bi Einheiten.
Aus den Daten lassen sich erwartungstreue Schätzer b̂i für alle eingeschlossenen Variablen berechnen, dazu lassen sich auch Standardfehler des Schätzers und
Konfidenzintervalle angeben.
Zum Parameter bi gehört auch eine Signifikanz. Diese ist der p-Wert für folgenden Test:
H0 : Es gilt das Modell mit allen Variablen, die im vorliegenden Modell eingeschlossen sind, ausser der Variablen i.
H1 : Es gilt das vorliegende Modell mit bi 6= 0.
4.2. LINEARE REGRESSION
193
Ist das Signifikanzniveau von bi kleiner als ein vorgegebenes Signifikanzniveau α,
so bedeutet das, dass ein Einfluss der Variablen Xi auf die abhängige Variable Y
statistisch untermauert werden kann.
Merksatz 4.2.2.2. Der Parameter b̂i hängt auch wesentlich davon ab, welche
andere Variablen im Modell eingeschlossen sind. In den beiden Modellen
Y = b0 + b1 X1 + σZ,
Y = b0 + b1 X1 + b2 X2 + σZ,
hat b̂1 normalerweise bei denselben Daten verschiedene Zahlenwerte und auch verschiedene Signifikanzen.
Ist der Parameter bi signifikant, so ist statistisch untermauert, dass die Variable Xi einen
Einfluss auf Y hat. Wie stark dieser Einfluss ist, ist eine ganz andere Frage.
Beispiel 4.2.2.3. Für drei Zufallsvariablen X1 , X2 , Y gelte das Modell
Y = 0.2X1 + 20X2 + 5Z.
Dabei sei Z standardnormalverteilt und von X1 und X2 unabhängig. Die Standardabweichung von X1 sei ungefähr 1000, die Standardabweichung von X2 sei ungefähr
0.01. Wie stark wird Y durch die Zufallsvariablen X1 , X2 beeinflusst?
Diskussion: Der unabhängige Zufallsanteil in Y ist 5Z. Da Z die Standardabweichung 1 hat, beträgt die Standardabweichung des zufälligen “Rauschens” in Y also 5. Die Variable X2 hat die
Standardabweichung 0.01. Daher hat der Beitrag 20X2 dieser Variablen zu Y die Standardabweichung 20×0.01 = 0.2, deutlich geringer als das Zufallsrauschen. Dagegen hat der Beitrag 0.2X1 zu
Y die Standardabweichung 0.2 × 1000 = 200. Der größte Teil der Schwankung von Y entsteht also
aus der Einwirkung von X1 , obwohl gerade b1 der kleinste Koeffizient im Modell ist. Dagegen ist
die Wirkung von X2 trotz des großen Koeffizienten b2 vor dem Hintergrund des Zufallsrauschens
nur bei großen Datenmengen überhaupt auszunehmen.
¤
Um die Stärke der Auswirkung der Variablen vergleichen zu können, standardisiert man die
Regressionsparameter:
Methode 4.2.2.4 (Standardisierte Regressionsparameter bei multipler Regression). Wir betrachten ein Regressionsmodell
Y = b0 + b1 X1 + · · · + bk Xk + σZ.
Es seien σ̂(Xi ) und σ̂(Y ) die aus der Stichprobe geschätzten Standardabweichungen
von Xi und Y .
Die Parameter
σ̂(Xi )
β̂i =
b̂i
σ̂(Yi )
heißen die standardisierten Regressionsparameter.
Die standardisierten Regressionsparameter sind ein Maß für die Stärke des Einflusses von Xi auf Y . Je größer β̂i , desto stärkeren Einfluss übt Xi auf Y aus.
Beispiel 4.2.2.5. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem
schrittweisen Verfahren angesetzt. Schwellwert der Signifikanz für Einschluss war
0,05, für Ausschluss 0,10. SPSS lieferte unter anderem folgende Tabellen:
194
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Koeffizienten
Nicht standard.
Koeffizienten
B
Standardfehler
Modell
1
(Konstante)
3
Konfid.intervall
für B (95%)
UnterObergrenze
grenze
T
Signifikanz
7,930
,000
71,641
118,821
4,725
,000
,191
,465
6,766
,000
59,788
109,047
95,141
11,997
,328
,069
84,417
12,477
syst. Blutdruck
Ausgangswert
,312
,069
,322
4,554
,000
,177
,448
Alter
,217
,082
,187
2,635
,009
,054
,379
68,572
13,360
5,133
,000
42,200
94,944
syst. Blutdruck
Ausgangswert
,278
,068
,287
4,080
,000
,143
,413
Alter
,296
,085
,255
3,484
,001
,128
,464
Körpergewicht
,228
,078
,215
2,924
,004
,074
Abhängige Variable: Systolischer Blutdruck nach 6 Monaten.
,382
syst. Blutdruck
Ausgangswert
2
standard.
Koeff.
Beta
(Konstante)
(Konstante)
,339
Ausgeschlossene Variablen
Modell
1
2
3
Alter
Cholesterin
Körpergewicht
Körpergrösse
Blutzucker
Cholesterin
Körpergewicht
Körpergrösse
Blutzucker
Cholesterin
Körpergrösse
Blutzucker
Beta In
,187
,077
,133
-,115
,166
,050
,215
-,058
,150
,055
-,125
,124
T
2,635
1,027
1,853
-1,606
2,300
,673
2,924
- ,765
2,098
,753
-1,634
1,757
Signifikanz
,009
,306
,066
,110
,023
,502
,004
,446
,037
,453
,104
,081
Was kann man aus diesen Tabellen ablesen?
Diskussion: Das Programm hat drei verschiedene Modelle durchgerechnet. Abhängige Variable war
der systolische Blutdruck 6 Monate nach Behandlungsbeginn. In Modell 1 war nur der Blutdruck
bei Aufnahme als erklärende Variable zugelassen. In Modell 2 wurde zusätzlich das Alter als
erklärende Variable herangezogen, Modell 3 nimmt dazu noch das Körpergewicht. Obwohl wir
dem Programm die schrittweise Methode vorgegeben hatten, welche sowohl erlaubt, Variablen
einzuschließen, als auch wieder Variablen zu entfernen, hat das Programm hier hintereinander
drei Variablen eingeschlossen, keine ausgeschlossen, und dann geendet.
Für jedes der drei Modelle werden Schätzungen und Signifikanzen für die Koeffizienten angegeben. Zum Beispiel betrachten wir den Tabellenteil für Modell 2:
Wir finden zunächst die Liste der eingeschlossenen Einflussvariablen, in der nächsten Spalte,
mit B bezeichnet, die Schätzwerte für die Regressionsparameter. Das geschätzte Modell wäre also:
Druck nach 6 Monaten = 84.417 + 0.312 × Anfangsdruck + 0.217 × Alter + zufällige Störung.
Die standardisierten Koeffizienten (hier Beta genannt) sind
β̂Anfangsdruck = 0.322,
β̂Alter = 0.187.
Der Einfluss des Anfangsdruckes ist also etwas stärker als der Einfluss des Alters. Alle drei Parameter sind stark signifikant, der p-Wert ist auf drei Stellen genau gleich Null. Daher kann für
jeden Parameter die Hypothese, dass er in Wirklichkeit Null ist, mit hoher Signifikanz zurückgewiesen werden. In der Tabelle finden wir auch Konfidenzintervalle für die Parameter, sowie den
4.2. LINEARE REGRESSION
195
Standardfehler des Schätzers des Parameters und die t-Statistik, aus der die Signifikanz berechnet
wird, als Nebenergebnisse.
Vergleichen wir das zweite Modell mit Modell 3, so stellen wir fest, dass nicht nur eine neue
Variable, das Körpergewicht, eingeschlossen wurde. Auch die Parameter der beiden schon im Modell 2 vorhandenen Variablen und ihre Signifikanzen haben sich etwas geändert. Diese Änderung
könnte viel stärker ausfallen, wenn zwischen Ausgangsblutdruck und Körpergewicht oder Alter
und Körpergewicht starke Zusammenhänge bestehen. Dass sich die Parameter wenigstens in der
Größenordnung nicht sehr geändert haben, ist beruhigend. Es zeigt, dass Wechselwirkungen zwischen den drei erklärenden Variablen die Regression nicht allzu stark durcheinander bringen. Wir
stellen auch fest, dass im dritten Modell alle Parameter signifikant sind, am wenigsten signifikant
das Körpergewicht mit p = 0.004. Es besteht kein Grund, eine Variable wegzulassen.
Ob ein Grund bestünde, eine Variable aufzunehmen, sieht man in der Tabelle der ausgeschlossenen Variablen. Betrachten wir wieder Modell 2. Ausgeschlossen von diesem Modell waren Cholesterin, Körpergewicht, Körpergröße und Blutzucker. Für jede dieser Variablen zeigt die Tabelle die
Werte, die sie bekäme, wenn man sie als nächstes einschließen würde. Betrachten wir zunächst die
Signifikanzen. Das Körpergewicht hat die deutlichste Signifikanz mit nur 0.004. Blutzucker wäre
immerhin noch signifikant mit 0.037. In Modell 3 wird daher das Körpergewicht aufgenommen
werden, und tatsächlich finden wir es dort mit der Signifikanz 0.004. Die Spalte Beta In gibt den
standardisierten Koeffizienten an, den die Variable bekommt, wenn sie aufgenommen wird. Wir
finden für das Körpergewicht 0.215, auch dieser Wert findet sich in der Koeffiziententabelle von
Modell 3 wieder. Die Spalte T zeigt die t-Statistik, mit der die Signifikanzen berechnet wurden.
Betrachten wir nun die ausgeschlossenen Variablen zu Modell 3, sehen wir, dass keine davon
signifikant würde, wenn sie in das Modell aufgenommen würde. Daher wird keine weitere Variable
aufgenommen.
¤
4.2.2.2. Voraussage und Residuen.
Methode 4.2.2.6 (Vorhersage mittels linearer Regression). Wir gehen davon aus, dass eine lineare Regression von den erklärenden metrischen Merkmalen
X1 , · · · , Xk auf das metrische abhängige Merkmal Y nach dem Modell
Y = b0 + b1 X1 + · · · + bk Xk + σZ
zu den geschätzten Parametern
b̂0 , b̂1 , · · · b̂k , σ̂
geführt hat.
Seien x1 , x2 , · · · , xk gegebene Zahlen. Für die Situation, dass die Variablen Xi
durch die Werte xi realisiert werden, wird durch das Modell ein Schätzer von Y
gegeben:
ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk .
Der Wert ŷ heißt der vom Modell vorhergesagte Wert und ist ein erwartungstreuer
Schätzer für Y .
Liegt zugleich eine Realisierung y von Y in dieser Situation vor, so heißt die
Abweichung dieser Realisierung vom vorhergesagten Wert
e = y − ŷ
das Residuum.
Diskussion: Laut Modell zerfällt Y in einen vorhersagbaren Teil b0 + b1 X1 + · · · + bk Xk und einen
rein zufälligen Teil σZ. Da aber für die Parameter bi nur Schätzwerte b̂i bekannt sind, haben wir
den folgenden Schätzer für den vorhersagbaren Teil: Ŷ = b̂0 + b̂1 X1 + · · · + b̂k Xk . Der zufällige
Teil σZ wird dann durch Y − Ŷ , also durch die Residuen, geschätzt.
¤
Merksatz 4.2.2.7. Ein und derselbe vorhergesagte Wert
ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk
aus einer linearen Regression lässt sich auf zwei verschiedene Weisen interpretieren:
196
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
1. In einer Realisierung sind die erklärenden Variablen X1 , · · · , Xk durch
die Zahlenwerte x1 , · · · , xk realisiert. Was ist die Realisierung von Y ?
(Vorhersage des Einzelwertes.)
2. Was ist der Mittelwert aller Realisierungen von Y in den Fällen, in denen
X1 , · · · , Xk durch die Zahlen x1 , · · · , xk realisiert werden?
Während der Zahlenwert der Vorhersage in beiden Fällen ŷ ist, sind die Konfidenzintervalle der Vorhersage verschieden: Die Vorhersage des Mittelwertes hat ein
wesentlich schmäleres Konfidenzintervall als die Vorhersage des Einzelwertes.
Diskussion: Bei der Vorhersage des Einzelwertes muss eine Realisierung von
b0 + b1 x1 + · · · + bk xk + σZ
geschätzt werden. Einerseits können die bi nur geschätzt werden, durch die geschätzten Parameter
b̂i . Vor allem ist aberder Zufallsanteil Z ist völlig unbekannt.
Bei der Vorhersage des Mittelwertes muss
b0 + b1 x1 + · · · + bk xk
geschätzt werden. Die Unsicherheit dieses Schätzers beruht also nur darauf, dass die Parameter
bi nur als Schätzwerte b̂i vorliegen. ¤
Bemerkung 4.2.2.8. Die folgenden Faktoren beeinflussen die Unsicherheit der
Vorhersage, und damit die Breite der Konfidenzintervalle:
1) Vorhersage des Einzelwertes ist unsicherer als Vorhersage des Mittelwertes.
2) Unsicherheit in der Schätzung der Parameter b̂i .
3) Starker Beitrag des Zufalls, also großes σ̂.
4) Daten für x1 , · · · , xk , welche weit entfernt von den Datensätzen liegen,
aus denen die Regressionsparameter geschätzt wurden.
Umgekehrt kann sich die Schätzung der Parameter stark ändern, wenn man einen
Datensatz zur Regression dazunimmt, welcher von den anderen Datensätzen weit
entfernt liegt. Man sagt, dass solche Datensätze einen starken Hebelwert haben.
Diskussion: Statistikprogramme können zu jedem Datensatz den Hebelwert berechnen. Auf Datensätze mit besonders großem Hebelwert reagiert die Regression besonders empfindlich, daher
empfiehlt es sich, solche Daten besonders sorgfältig nachzuprüfen. Sind es vielleicht Ausreisser?
¤
Merksatz 4.2.2.9. Da die Residuen Schätzer für den Teil σZ sind, müssen
sie annähernd normalverteilt mit Mittelwert 0 sein. Ausserdem müssen sie von
den erklärenden Variablen Xi annähernd unabhängig sein. Eine Überprüfung der
Residuen auf diese Kriterien heißt Residuendiagnostik.
Ergibt die Residuendiagnostik, dass diese Bedingungen verletzt sind, sind die Voraussetzungen für die lineare Regression nicht gegeben. Die Punktschätzer der Parameter funktionieren allerdings auch mit einem linearen Modell, in dem Z nicht normalverteilt ist, sondern nur Mittelwert 0 und endliche Varianz hat. Die Signifikanzniveaus, welche das Programm errechnet, sind aber in diesem Fall nicht verlässlich.
Zeigen sich deutliche Abhängigkeiten der Residuen von den erklärenden Variablen,
so ist die Regression jedenfalls zu verwerfen.
4.2. LINEARE REGRESSION
197
4.2.2.3. Quadratsummen und Vergleich der Modelle untereinander.
Methode 4.2.2.10 (Erklärte und nicht erklärte Schwankung). Für die metrischen Variablen X1 , · · · , Xk als erklärende Variablen und Y als abhängige Variablen
wird an Hand der n Datensätze
x1,1 , · · · , xk,1 , , y1
..
..
..
.
.
.
x1,n
,
···
,
xk,n
, , yn
eine lineare Regression
Y = b0 + b1 X1 + · · · + bk Xk + σZ
durchgeführt. Mit b̂i bezeichnen wir wie üblich den Schätzwert für bi , welcher in der
Regressionsrechnung bestimmt wird. Es sei y der Stichprobenmittelwert von y, und
für jeden Datensatz sei ŷi der vom Modell vorhergesagte Wert
ŷi = b̂0 + b̂1 x1,i + · · · + b̂k xk,i .
Wir betrachten die folgenden Quadratsummen
n
X
SSY =
(yi − y)2 , Gesamtschwankung von Y ,
i=1
SSR =
n
X
(ŷi − y)2 , erklärte Schwankung, ”regression”
i=1
SSE
=
n
X
(yi − ŷi )2 , nicht erklärte Schwankung, ”error”.
i=1
Es gilt die Summenformel
SSY = SSE + SSR .
Diesen Quadratsummen entsprechen die Freiheitsgrade:
Für SSY: Freiheitsgrad n − 1,
für SSE: Freiheitsgrad n − 1 − k (für jeden herangezogenen Parameter
einen Freiheitsgrad weniger),
für SSR: Freiheitsgrad k.
Das Bestimmtheitsmaß der Regression ist
SSR
SSE
R2 =
=1−
SSY
SSY
R2 liegt immer zwischen 0 und 1. Es drückt aus, welcher Anteil der Gesamtschwankung von Y durch die Regression erklärt werden kann. Bei R2 = 1 werden die Daten
der abhängigen Variablen Y perfekt durch die Regression aus den Daten der Xi vorhergesagt. Bei √R2 = 0 ist keinerlei Voraussage für Y auf Grund der Xi möglich.
Die Zahl R = R2 heißt der multiple Korrelationskoeffizient.
Diskussion: Die Gesamtschwankung ist jene Quadratsumme, aus der sich die Stichprobenvarianz
von Y berechnet, also ein Maß dafür, wie stark die Variable Y streut. Laut Modell besteht Y aus
zwei Teilen:
Y
= [b0 + b1 X1 + · · · bk Xk ] + σZ.
Der erste Teil hängt deterministisch von den Xi ab. Wenn die Xi Schwankungen unterworfen sind,
schwankt der deterministiche Teil natürlich mit. Die Schwankungen des ersten Teils werden durch
SSR wiedergegeben, nur dass wir, weil wir ja die bi nicht kennen, stattdessen die Schätzwerte b̂i
in die Formel einsetzen. Der zweite Teil σZ ist von den Xi unabhängig und reines Zufallsergebnis.
Seine Schwankung wird durch SSE wiedergegeben. Da die beiden Teile voneinander unabhängig
sind, summieren sie sich zur Gesamtschwankung:
SSY = SSE + SSR.
198
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Je größer SSR und je kleiner SSE ist, desto besser kann das Modell die Schwankungen von Y
auf Grund der Werte der Xi erklären, und desto kleiner ist der Anteil der Schwankungen von Y ,
welche unerklärt bleiben und nur dem Zufall zugeschrieben werden können.
SSE kann man auch einfach als die Quadratsumme der Residuen auffassen, also der Abweichungen der beobachteten Werte von Y von den vorhergesagten Werten. Je kleiner diese Fehlerquadratsumme ausfällt, desto besser gibt das Modell die tatsächlich beobachteten Werte wieder.
¤
Merksatz 4.2.2.11. Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Enthält ein Regressionsmodell I alle Variablen, welche in einem
einfacheren Modell I enthalten sind, so hat automatisch Modell II das höhere Bestimmtheitsmaß. Andererseits gilt: Je mehr Parameter geschätzt werden müssen,
desto unsicherer sind die Schätzungen der einzelnen Parameter. Es gibt mehrere
Methoden, einen Kompromiss zu finden und ein Modell auszusuchen, welches mit
einer nicht allzu großen Anzahl von Parametern ein ausreichend hohes Bestimmtheitsmaß erreicht.
Beispielsweise kann man das Modell mit dem höchsten korrigierten Bestimmtheitsmaß wählen:
SSE /(n − k − 1)
2
Rkorr
=1−
.
SSY /(n − 1)
Ähnlich wie der Vergleich verschiedener Modelle bei der zweifaktoriellen Varianzanalyse (vgl.
Methode 4.1.4.8) kann man auch ineinandergeschachtelte Modelle der multiplen Regression durch
einen F-Test vergleichen:
Methode 4.2.2.12 (Varianzanalyse bei multipler Regression). Wir vergleichen zwei multiple Regressionsmodelle, von denen eines mehr unabhängige Variable
berücksichtigt als das andere:
Modell 0
Y = b0 + b1 X1 + · · · + bp Xp + σZ,
Modell 1
Y = b0 + b1 X1 + · · · + bp Xp + bp+1 Xp+1 + · · · + bq Xq + σZ.
Getestet werden die Hypothesen
H0 : Es gilt das einfachere Modell 0.
H1 : Es gilt das komplexere Modell 1, wobei nicht alle der Koeffizienten bp+1 , · · · , bq
gleich Null sind.
Zu jedem der Modelle gehören die Quadratsummen und deren Mittelwerte:
erklärt
Residuen
Gesamt
Modell 0
Quadratsumme Freiheitsgrade
SSR0
p
SSE0
n−1−p
SSY
n−1
Modell 1
Quadratsumme Freiheitsgrade
SSR1
q
SSE1
n−1−q
SSY
n−1
Der Zuwachs an erklärter Quadratsumme durch das komplexere Modell ist
SSR1 − SSR0 mit q − p Freiheitsgraden. Daher ist
(SSR1 − SSR0 )/(q − p)
F =
SSE1 /(n − 1 − q)
ein Maß für die Überlegenheit des komplexeren Modells über das einfachere. Der
Test geht zugunsten von H1 aus, wenn F größer ist als der kritische Wert der FVerteilung mit q − p Freiheitsgraden des Zählers und n − 1 − q Freiheitsgraden des
Nenners.
Statistikpakete liefern insbesondere für jedes Modell den Vergleich mit dem trivialen Modell.
4.2. LINEARE REGRESSION
199
Beispiel 4.2.2.13. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem
schrittweisen Verfahren angesetzt. SPSS lieferte unter anderem folgende Tabellen:
Modellzusammenfassungd
Modell
a
b
c
d
R
R-Quadrat
1
,339a
,115
2
,387b
,149
3
,436c
,190
Einflussvariablen: (Konstante),
Einflussvariablen: (Konstante),
Einflussvariablen: (Konstante),
Abhängige Variable: Blutdruck
ANOVA
Modell
1
2
3
Korrigiertes Standardfehler
R-Quadrat
des Schätzers
,110
12,663
,139
12,449
,176
12,184
Blutdruck Ausgangswert
Blutdruck Ausgangswert, Alter
Blutdruck Ausgangswert, Alter, Körpergewicht
nach 6 Monaten
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Quadratsumme
3579,023
27579,167
31158,190
4654,942
26503,248
31158,190
5923,676
25234,513
31158,190
df
1
172
173
2
171
173
3
170
173
Mittel der
Quadrate
3579,023
160,344
F
Signifikanz
22,321
,000
2327,471
154,990
15,017
,000
1974,559
148,438
13,302
,000
Diskussion: Aus der Modellzusammenfassung sieht man, dass das Programm drei verschiedene
Modelle untersucht hat: Zunächst wurde als Einflussvariable außer der Konstanten nur der Ausgangswert des systolischen Blutdrucks aufgenommen. Im Modell 2 wurde zusätzlich das Alter
eingeschlossen, in Modell 3 noch dazu das Körpergewicht. Man sieht, dass mit steigender Komplexität auch das Bestimmtheitsmaß steigt: R2 ist für das Modell mit einer erklärenden Variablen
0.115, bei drei erklärenden Variablen 0.190. Das korrigierte Bestimmtheitsmaß steigt ebenfalls,
aber nicht so schnell wie R2 , da die Anzahl der Parameter größer wird. Würde das korrigierte Bestimmtheitsmaß fallen, müsste man schließen, dass der Mehraufwand an Parametern für die
größeren Modelle sich nicht lohnt. In diesem Fall geben wir dem komplexesten Modell den Vorzug,
da auch das korrigierte Bestimmtheitsmass für dieses Modell am größten ausfällt. Der Standardfehler des Schätzers ist der Schätzwert σ̂. Je größer der Anteil der Schwankung von Y ist, der
durch die Einflussvariablen erklärt wird, desto geringere Schwankung muss von Z beigetragen
werden. Daher sinkt σ̂, wenn das Bestimmtheitsmaß steigt.
Die Tabelle der Varianzanalysen testet jedes der Modelle gegen das triviale Modell (Y unabhängig von allen Einflussvariablen). In jedem Fall erhalten wir eine sehr deutliche Signifikanz
(Null auf drei Stellen), das triviale Modell kann mit großer Signifikanz zu Gunsten von jedem der
drei durchgerechneten Modelle abgelehnt werden. Jedenfalls besteht ein deutlicher Einfluss der
erklärenden Variablen auf den Blutdruck nach 6 Monaten. In der Tabelle finden wir für jedes der
drei Modelle untereinander die Quadratsummen SSR (erklärte Schwankung), SSE (unerklärte
Schwankung), sowie SSY , die Gesamtschwankung, welche vom Modell unabhängig ist. Daneben
die Freiheitsgrade. Zum Beispiel gibt es im zweiten Modell zwei erklärende Variablen. Daher hat
SSR zwei Freiheitsgrade. Aus 174 Datensätzen verbleiben für SSY noch 173 Freiheitsgrade, damit
entfallen auf SSE genau 171 Freiheitsgrade. Die Quadratmittelwerte sind die Quadratsummen, dividiert durch die Freiheitsgrade, und F ist die Teststatistik für den F -Test, aus dem die Signifikanz
berechnet wird.
¤
4.2.2.4. Multikollinearität.
Die Wechselwirkungen zwischen den erklärenden Variablen können die Qualität
der Regression entscheidend beeinflussen. Im Idealfall hat man lauter erklärende Variablen, die voneinander unabhängig sind. Dieser Fall ist normalerweise nicht erfüllt.
Abhängigkeiten zwischen den erklärenden Variablen nennt man Multikollinearität.
200
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Beispiel 4.2.2.14. Eine Datenbank über GrippepatientInnen beinhaltet sowohl
die Körpertemperatur in Celsius als auch in Fahrenheit. In einer multiplen Regression werden in die Liste der Einflussvariablen unter anderem auch beide Maße der
Körpertemperatur aufgenommen:
X1 Körpertemperatur in Celsius.
X2 Körpertemperatur in Fahrenheit.
X3 usw.: Andere erklärende Variablen.
Was geschieht?
Diskussion: Für den Anfang betrachten wir ein Modell, in dem b2 auf Null gesetzt wird, anders
ausgedrückt, in dem die Variable “Körpertemperatur in Fahrenheit” nicht vorkommt. Wenn die
Körpertemperatur die abhängige Variable beeinflußt, muss der Koeffizient b1 ungleich Null sein,
sagen wir z.B. b1 = 3.6. Erhöhung der Körpertemperatur um 1◦ C bewirkt eine durchschnittliche
Erhöhung der abhängigen Variablen um 3.6.
Y = b0 + 3.6X1 + 0 + b3 X3 + · · · .
Nun nehmen wir die Variable X2 hinzu und lassen dafür X1 weg. Erhöht sich die Körpertemperatur
um 1◦ C, so erhöht sie sich um etwa 1.8◦ F. Erhöht man also die Temperatur um 1◦ F, erhöht sich
die abhängige Variable im Durchschnitt um 3.6/1.8 = 2.
Y = b0 + 0 + 2X2 + b3 X3 + · · · .
Nun sind aber beide Variable, X1 und X2 im Modell enthalten. Beide Sätze von Parametern:
b1 = 3.6,
b2 = 0.0
b1 = 0.0,
b2 = 2.0
beschreiben genau denselben Zusammenhang, und passen daher exakt gleich gut zu den Daten,
ebenso wie etwa die Wahl
b1 = 5.4,
b2 = −1.0.
Die Modellparameter sind also nicht eindeutig bestimmbar.
Nach der Umrechnungsformel wäre X2 = 1.8X1 + 32. In der Praxis werden sich aber, weil
ja nur auf ganze Grad abgelesen und daher gerundet wird, die Ablesungen in der Celsius- und
Fahrenheitskala von dieser Formel um eine ganz kleine Störung unterscheiden. Dieser Zufall entscheidet dann, auf welchen Parameter, b1 oder b2 , die Regression das Hauptgewicht legt. Das
Statistikpaket wird also Parameter ausrechnen, diese werden aber extrem breite Konfidenzbreiten
haben, und selbst dann große p-Werte besitzen, wenn die Körpertemperatur in Wirklichkeit eine
sehr wesentliche Rolle für die abhängige Variable spielt.
¤
Merksatz 4.2.2.15 (Multikollinearität). Multikollinearität in einer multiplen
Regression liegt vor, wenn zwischen den Einflussvariablen deutliche lineare Zusammenhänge vorhanden sind. Multikollinearität bewirkt, dass die Parameter unsichere
Schätzungen (große Konfidenzintervalle) und übermäßig große p-Werte haben.
Multilinearität wird vermieden, indem Variablen, die durch andere erklärenden
Variablen bereits weitgehend festgelegt sind, nicht in die Liste der erklärenden
Variablen aufgenommen werden.
Statistikpakete geben zu den Variablen die sogenannte Toleranz an, eine Zahl
zwischen 0 und 1. Eine Toleranz von 1 sagt, dass zwischen dieser Variablen und den
anderen erklärenden Variablen keinerlei linearer Zusammenhang besteht. Bei einer
Toleranz von Null läßt sich die Variable mit Hilfe der anderen erklärenden Variablen
bereits eindeutig festlegen. Toleranzen unter 0.25 sind suspekt auf Multikollinearität, Toleranzen unter 0.1 zeigen ernste Multikollinearitäten an. Der sogenannte
Variance Inflation Factor ist der Reziprokwert der Toleranz.
4.2. LINEARE REGRESSION
201
Was Sie jetzt können:
Begriffe und Wissen: Hauptergebnisse einer Regressionsrechnung.
Bedeutung der Quadratsummen und F-Test zwischen Modellen. Rolle
der Residuendiagnostik. Multikollinearität.
Methoden: Interpretation der folgenden Ergebnisse einer multiplen
Regression: geschätzte Parameter und ihre Konfidenzintervalle, Signifikanz eines Parameters, standardisierte Parameter, erklärte und
nicht erklärte Quadratsumme, Bestimmtheitsmaß und korrigiertes
Bestimmtheitsmaß.
KAPITEL 5
Übungen
Übersicht:
Dieses Kapitel enthält Übungsbeispiele zum Stoff des Skriptums, welche mit
Hilfe des Statistik-Softwarepaketes SPSS zu lösen sind. Die Beispiele wurden
mit der deutschen Version von SPSS 14 getestet.
1. Dateneingabe und erste Schritte zur Analyse
2. Navigieren und Editieren im Viewer
3. Diagramme
4. Explorative Datenanalyse, Transformationen
5. Vergleichstests
6. Nominale Daten und Anpassungstests
7. Varianzanalyse
8. Lineare Regression
Die Übungen beziehen sich auf folgende Datenfiles, welche Sie von meiner Homepage herunterladen
können:
www.uni-graz.at\ desch\Inhalt.html
(Link Lehre, Beschreibung der Lehrveranstaltung Statistik für BiologInnen)
Die verwendeten Files sind teils reale, aber gekürzte Daten, teils fiktive Daten.
• kurztests.sav: Ergebnisse von drei Kurztests in einer mathematischen Lehrveranstaltung. Eigene Daten.
• wasserbilanz.sav: Niederschlags- und Abflusshöhen in den alten Bundesländern der
BRD nach Monaten. U. Maniak, Hydrologie und Wasserwirtschaft, 3. Aufl., Springer 1988.
• phwerte.txt pH-Werte vor und nach geringfügiger ergometrischer Belastung. S. Porta
und MitarbeiterInnen.
• ergodaten.sav: Blutgase, Laktat und Elektrolyte vor und nach geringfügiger ergometrischer Belastung. S. Porta und MitarbeiterInnen.
• stoerfall.sav: Meldepflichtige Störfälle in verfahrenstechnischen Anlagen in den Monaten der Jahre 2000 – 2005. Zentrale Melde- und Auswertestelle für Störfälle in Verfahrenstechnischen Anlagen, BRD, Homepage.
• aepfel.sav: Gewichte von Äpfeln nach Sorten und Herkunft. Fiktive Daten.
• troglophyli.sav: Zählung von Troglophylus in einem steirischen Stollen im Februar.
B. Freitag.
Die Verwendung dieser Datenfiles zu anderen Zwecken als als Übungsmaterial ist unzulässig.
203
204
5. ÜBUNGEN
5.1. Dateneingabe und erste Schritte zur Analyse
Aufgabe 5.1.1 (Vorbereitung).
1. Loggen Sie mit Ihrem Studierenden-Account ein.
2. Legen Sie sich auf Laufwerk H einen Datenordner Statistik an, auf dem
Sie später Ihre Files ablegen können.
3. Starten Sie SPSS deutsch im Terminalserver.
Erreichbar im Internet unter http://www-ts.kfunigraz.ac.at
4. Auf die Frage der Dateneingabe wählen Sie: “Neue Daten eingeben” und
beginnen mit Aufgabe 5.1.2.
Aufgabe 5.1.2. In dieser Aufgabe wird gezeigt, wie man Daten in SPSS eingibt.
20 zahme Ratten werden nach Farbe und Geschlecht sortiert und gewogen. Es ergibt
sich die Tabelle:
Farbe
weiss
weiss
weiss
weiss
weiss
grau
grau
grau
andere
andere
Geschlecht
weiblich
weiblich
weiblich
männlich
männlich
weiblich
weiblich
männlich
weiblich
männlich
Gewicht (Gramm)
250,00
220,00
180,00
220,00
unbekannt
160,00
240,00
170,00
310,00
280,00
Farbe
weiss
weiss
weiss
weiss
grau
grau
grau
grau
andere
andere
Geschlecht
weiblich
weiblich
männlich
männlich
weiblich
weiblich
männlich
männlich
weiblich
männlich
Gewicht (Gramm)
210
180
230
240
190
270
250
260
230
200
Legen Sie in SPSS diese Daten an:
1.) Legen Sie in der Variablenansicht Variablen für Farbe, Geschlecht und
Gewicht an. Die nominalen Merkmale Farbe und Geschlecht sollen numerisch gespeichert werden, mit Wertelabels 1...weiss, 2...grau, 0...andere
Farbe; 1...weiblich, 2...männlich. Fehlende Werte im Gewicht sollen als
999 gespeichert werden.
1.1 Öffnen Sie die Variablenansicht. Jede Zeile gehört zu einer Variablen. Sie erklären
jetzt, welche Variablen vorkommen und welche Eigenschaften sie haben.
1.2 Name: (Vorsicht mit Zahlen und Sonderzeichen. Zahlen nicht an erste Stelle, nicht alle
Sonderzeichen dürfen vorkommmen.) z.B. Color, Sex, Weight.
1.3 Typ: Wird die Variable intern als Zahl oder String (Wort) gespeichert? Tip: Speichern
Sie auch nominale Variable als numerisch. (Aber natürlich: Stringvariablen z.B. für
Namen in Adressverwaltung etc.)
1.4 Spaltenformat: Der interne für die Variable bereitgestellte Datenspeicherplatz. Hier
z.B. 8.
1.5 Dezimalstellen: Anzahl der Dezimalstellen. 0 für ganzzahlige. z.B. 2 für Gewicht.
1.6 Variablenlabel: Eine genauere Bezeichnung der Variablen, v.a. bei kurzen Namen. Z.B.
Geschlecht, Farbe, Gewicht.
1.7 Wertelabels: Erklären, welche Zahlen welche Farbe und welches Geschlecht bedeuten.
Klicken Sie die Box mit Wertelabels, es erscheint ein graues Quadrat. Klicken Sie
darauf, dann erscheint ein Fenster. Hier können Sie immer eine Ausprägung mit einem
Wertelabel versehen. Z.B. bei Farbe: Wert: 0 – Label: andere – Hinzufügen, Wert 1 –
Label weiss – Hinzufügen, usw.
1.8 Fehlende Werte: Was soll in der Tabelle stehen, wenn der Wert nicht bekannt ist. z.B.
bei Gewicht: einzelner Wert 999.
1.9 Spalten: Die Anzahl der Spalten im Dateneditor. Hier z.B. 8.
1.10 Ausrichtung: links, Mitte, rechts im Dateneditor.
1.11 Messniveau: nominale, ordinale oder metrische Merkmale?
2. Tragen Sie nun die einzelnen Daten in der Datenansicht ein.
2.1
2.2
2.3
2.4
2.5
Wechseln Sie von der Variablenansicht in die Datenansicht
Für jede Variable ist bereits eine Spalte reserviert.
Jede Zeile gehört zu einem Merkmalsträger, also einer Ratte.
Tragen Sie zuerst das Gewicht der ersten Ratte aus der Tabelle ein.
Wenn Sie nun die Farbe der ersten Ratte eintragen, können Sie 1 für weiss eintragen. Bequemer ist aber das Auswahlmenu unter dem kleinen Pfeil im entsprechenden
Kästchen.
2.6 Stellen Sie die Tabelle fertig.
3. Schalten Sie im Dateneditor die Variablenlabels ein und aus.
4. Speichern Sie den Datenfile unter dem Titel aufgabe12.sav.
5. Laden Sie den Datenfile neu.
5.1.
DATENEINGABE UND ERSTE SCHRITTE ZUR ANALYSE
205
Aufgabe 5.1.3. In dieser Aufgabe machen wir erste Schritte zur Datenanalyse in SPSS
Falls er noch nicht geladen ist, laden Sie den Datenfile aufgabe12.sav aus Aufgabe 5.1.2.
1. Erstellen Sie eine Übersicht über die eingegebenen Daten:
1.1 Menüpunkt Analysieren – Berichte – Bericht in Zeilen.
1.2 Wählen Sie die Datenspalten an. Markieren Sie dazu im linken Feld (das alle Variablen
zeigt) je eine Variable und verschieben sie mit dem Pfeil in das rechte Feld “Datenspalten”. Versuchen Sie verschiedene Variablen zwischen links und recht hin und her zu
schieben. Markieren Sie auch mit gedrückter CTRL-Taste mehrere Variablen zugleich,
um sie zu verschieben. Probieren Sie auch die Wirkung des Schalters “Zurücksetzen”
aus.
1.3 Verwenden Sie letztlich die Variablen Farbe und Gewicht als Datenvariablen, die Variable Geschlecht als Breakvariable.
1.4 Kreuzen Sie an: Fälle anzeigen.
1.5 Schalten Sie auf OK, und betrachten Sie die Tabelle im Viewer.
2. Erstellen Sie eine Häufigkeitstabelle für die Farbe, mit Kreisdiagramm.
2.1
2.2
2.3
2.4
2.5
2.6
SPSS-Menu Analysieren –Deskriptive Statistik – Häufigkeiten.
Wählen Sie als Variable “Farbe”.
Wählen Sie unter Statistik gar nichts an.
Wählen Sie unter Diagramme: “Kreisdiagramm”.
“Häufigkeitstabelle anzeigen” ankreuzen.
OK. Interpretieren Sie das Ergebnis im Viewer.
3.1
3.2
3.3
3.4
3.5
3.6
SPSS-Menu Analysieren – Deskriptive Statistik – Häufigkeiten.
Wählen Sie als Variable “Gewicht”.
Unter Statistik kreuzen Sie die gewünschten Parameter an.
Unter Diagramme: “Histogramm”
Häufigkeitstabelle nicht anzeigen.
OK. Interpretieren Sie das Ergebnis im Viewer.
3. Erstellen Sie eine Häufigkeitstabelle für das Gewicht, und ermitteln Sie
Mittelwert, Standardabweichung, Minimum, Maximum und Median des
Gewichts. Erstellen Sie ein Histogramm.
4 Speichern Sie die Ausgabe als aufgabe13.spo.
5 Ganz unten am Bildschirm befindet sich eine Leiste, an der Sie zwischen
Datenansicht und Viewer hin und her schalten können.
206
5. ÜBUNGEN
5.2. Navigieren und Editieren im Viewer
Aufgabe 5.2.1. Wir zeigen, wie man im Viewer navigieren kann.
Laden Sie die Daten aufgabe12.sav aus Aufgabe 5.1.2 und die Ausgabe aufgabe13.spo
von Aufgabe 5.1.3.
1. Erstellen Sie zusätzlich eine Kreuztabelle für Geschlecht und Farbe.
1.1
1.2
1.3
1.4
1.5
Menu Analysieren – Deskriptive Statistik – Kreuztabellen
Zeilenvariable: Geschlecht. Spaltenvariable: Farbe.
Statistik: keine
Zellen: Prozente sowohl zeilenweise, als auch spaltenweise, als auch gesamt.
OK. Interpretieren Sie die Tabelle.
2. Speichern Sie die Ausgabe als aufgabe21.spo.
3. Machen Sie sich mit der Gliederung links im Viewer vertraut.
3.1 Navigieren Sie durch Anklicken der Gliederung zu den verschiedenen Ausgabepunkten.
3.2 Durch doppeltes Anklicken der Buchsymbole können Sie Teile der Ausgabe verstecken
und wieder öffnen.
3.3 Sie können die Reihenfolge der Ausgabe durch Ziehen mit der Maus in der Gliederung
umstellen.
3.4 Löschen Sie einzelne Ausgabepunkte: Rechte Maustaste, Ausschneiden, oder mit der
Entf-Taste. Mit Bearbeiten – Rückgängig können Sie das Löschen wieder rückgängig
machen.
4. Machen Sie sich mit den Strukturelementen einer einzelnen Ausgabe vertraut, z.B. am Histogramm:
4.1 Titel: Häufigkeiten. Alle SPSS-Analysen beginnen in der Ausgabe mit einem Titel und
den beiden folgenden Punkten:
4.2 Anmerkungen: (diese sind im Default geschlossen, öffnen Sie durch Doppelklicken auf
das Buchsymbol in der Gliederung). Sie sind ein Protokoll, mit welchen Daten und
Zusatzbedingungen die Analyse zustandegekommen ist, sowie die Befehle in SPSSProgrammiersprache, welche dieselbe Analyse ergeben würden.
4.3 Arbeitsdatei: Die verwendeten Daten.
4.4 Statistiken: Nun beginnen die Ergebnisse. Zunächst, wieviele Daten verwendet wurden,
es wird angegeben, dass ein Datum fehlt (ein Gewicht war als unbekannt eingegeben).
Anschließend die angeforderten Kenngrößen.
4.5 Histogramm: Das gewünschte Histogramm. Je nach Analyse kann die Liste der Ergebnisse sehr umfangreich werden.
Aufgabe 5.2.2. Wir zeigen, wie man Tabellen und Diagramme im Viewer editieren kann.
Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1.
1. Editieren Sie den Titel des Berichtes.
1.1 Doppelklicken Sie den Titel, es erscheint das Bearbeitungsfenster.
1.2 Ändern Sie Text des Titels, Schriftfont, Größe, Stil nach Ihrem Geschmack.
1.3 Bei Bedarf (z.B. großer Schriftgröße) können Sie das Fenster des Titels an seinem
Rahmen vergrößern oder verkleinern.
1.4 Bei Schließen des Bearbeitungsfensters wird die Änderung in die Ausgabe übernommen.
2. Ändern Sie Text in der Berichtstabelle.
2.1 Doppelklicken Sie die Tabelle. Es wird ein Rahmen darum sichtbar.
2.2 In diesem Rahmen können Sie Text ändern. (z.B. von “weiblich” auf “Damen”, die
Zahlen ändert man natürlich nur, wenn man die Statistik fälschen will).
2.3 Wenn Sie irgendwo ausserhalb der Tabelle klicken, verschwindet der Rahmen wieder.
3. Editieren Sie das Histogramm.
3.1 Doppelklicken Sie das Histogramm, es erschient der Diagramm-Editor.
3.2 Doppelklicken Sie die Beschriftung “Häufigkeiten” der y-Achse. Es erscheint ein Fenster mit den Eigenschaften der y-Achse. Sie können die Art der Achsenteilung, die
Größe des gesamten Histogramms und den Stil Beschriftung ändern. Erst wenn Sie
auf “Zuweisen” drücken, wird die Änderung übernommen.
3.3 Klicken Sie, noch während das Eigenschaftenfenster geöffnet ist, noch einmal auf die
Beschriftung “Häufigkeiten”. Sie können jetzt den Text der Beschriftung ändern.
3.4 Schließen Sie das Eigenschaftsfenster der y-Achse und doppelklicken Sie jetzt auf einen
Balken des Histogramms. Es erscheint das Eigenschaftsfenster des Histogramms selbst.
3.5 Unter der Karte “Optionen für Histogramme” ändern Sie die Anzahl der Balken: 15
Balken, verankert bei 100. Wählen Sie nun selbst eine möglichst günstige Anzahl oder
Breite der Balken, und geben Sie dem Histogramm eine gefällige Farbe.
3.6 Schließen Sie das Eigenschaftsfenster des Histogramms. Suchen Sie nach weiteren editierbaren Objekten in der Grafik und verändern Sie nach Ihrem Gutdünken. Schließen
Sie dann den Diagramm-Editor.
4. Editieren Sie die Kreuztabelle.
4.1 Doppelklicken Sie die Kreuztabelle. Es öffnet sich ein Fenster Pivot-Leisten. (Sie
können die Pivot-Leisten auch öffnen mit dem Menupunkt: Pivot).
4.2 Im Fenster Pivot-Leisten finden sich drei farbige Quadrate, diese stehen für Statistik
(die Prozente), Geschlecht und Farbe. Verschieben Sie die Quadrate zwischen den
Bereichen Zeilen / Spalten / Schicht hin und her und beachten Sie, wie sich die Tabelle
dabei verändert.
5.2.
NAVIGIEREN UND EDITIEREN IM VIEWER
207
Aufgabe 5.2.3. Wir übertragen Daten aus der Ausgabe in andere Dateien.
Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1.
1. Exportieren Sie das Kreisdiagramm als JPG-File aufgabe23.jpg.
1.1 Klicken Sie einmal auf das Kreisdiagramm. Es wird ein Rahmen sichtbar.
1.2 Klicken Sie die rechte Maustaste. Wählen Sie Exportieren.
1.3 Wählen Sie: Export: Nur Diagramme. Was: ausgewählte Diagramme. Exportdatei:
H:\statistik\aufgabe22. Datentyp: JPG.
1.4 Überzeugen Sie sich, dass ein JPG-File aufgabe23.jpg in Ihrem Ordner H:\statistik
liegt und das Kreisdiagramm enthält.
2. Übertragen Sie Teile der Ausgabe in eine Word-Datei.
2.1 Starten Sie eine neue Word-Datei.
2.2 Klicken Sie ein Objekt (Grafik, Tabelle, Text) mit der Maus an, sodass der Rahmen
sichtbar wird.
2.3 Klicken Sie die rechte Maustaste, wählen Sie “Kopieren”.
2.4 Gehen Sie mit der Maus in das Word-Dokument. Rechte Maustaste: “Einfügen”.
208
5. ÜBUNGEN
5.3. Diagramme
Aufgabe 5.3.1. Erstellen und interpretieren von Balkendiagrammen
Laden Sie die Datei kurztests.sav, die Ihnen zur Verfügung gestellt wird. Die Datei
enthält die anonymisierten Ergebnisse der ersten drei Kurztests einer mathematischen Lehrveranstaltung
im WS 2007. Jede Zeile ist ein abgegebenes Testblatt. Es sind festgehalten:
Punkte: Erreichte Punktezahl, erreichbar waren jeweils 4 Punkte.
Test: Erster, zweiter oder dritter Kurztest
Stud: Kennzahl der oder des Studierenden
Gesch: Geschlecht der oder des Studierenden (1 . . . weiblich, 2 . . . männlich)
1. Erstellen Sie ein Balkendiagramm, aus dem man ersieht, wieviel Studierende bei den drei Kurztests jeweils teilgenommen haben. Also für jeden
Kurztest ein Balken, die Höhe des Balkens bedeutet die Anzahl der teilnehmenden Studierenden.
1.1 SPSS-Menu Grafiken – Balken
1.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf
den Schalter Definieren.
1.3 Balken bedeuten Häufigkeiten
1.4 Kategorienvariable: Test
1.5 OK. Interpretieren Sie die Ausgabe.
2. Erstellen Sie ein Balkendiagramm: Zu jedem Kurztest je ein Balken für
weibliche und männliche Studierende, die Höhe des Balkens bedeutet die
durchschnittliche in diesem Kurztest erreichte Punktezahl.
2.1 SPSS-Menu Grafiken – Balken
2.2 Wählen Sie: Gruppiert, Auswertung über Kategorien einer Variablen, und gehen Sie
auf den Schalter Definieren.
2.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte. Das ist gewünscht. Sollten Sie stattdessen z.B. die Summe
der Punkte wollen, könnten Sie das mit dem Schalter Statistik ändern erreichen.
2.4 Kategorienvariable: Test, Gruppen definieren durch Gesch.
2.5 Gehen Sie auf den Schalter Optionen. Kreuzen Sie an: Fehlerbalken erstellen. Balken
bedeuten: Standardabweichung, 1-fach.
2.6 OK. Sie sehen je für die drei Kurzstests und beide Geschlechter die erreichte durchschnittliche Punktezahl, die Fehlerbalken grenzen ±1× Standardabweichung der Punktezahl ein. Für das unterschiedliche Abschneiden der beiden Geschlechter im dritten
Kurztest habe ich keine Erklärung.
3. Dieselbe Aufgabe wie Teil 2 dieser Aufgabe in einer anderen Darstellungsform: Erstellen Sie je ein Balkendiagramm für jedes Geschlecht. Die Höhe
des Balkens zeigt den Mittelwert der erreichten Punktezahl.
3.1 SPSS-Menu Grafiken – Balken
3.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf
den Schalter Definieren.
3.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte.
3.4 Kategorienvariable: Test
3.5 Felder anordnen in Zeilen nach Geschlecht
3.6 Schalten Sie die Fehlerbalken in Optionen ab.
3.7 OK. Vergleichen Sie das Diagramm mit dem Diagramm aus Teil 2 dieser Aufgabe.
4. Erstellen Sie ein Balkendiagramm: Für jede(n) Studierende(n) ein Balken. Höhe des Balkens bedeutet die erreichte Punktezahl. Der Balken ist
senkrecht in drei Bereiche für jeden Kurztest gegliedert.
4.1 SPSS-Menu Grafiken – Balken
4.2 Wählen Sie: Gestaffelt, Auswertung über Kategorien einer Variablen, und gehen Sie
auf den Schalter Definieren.
4.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte. Schalten Sie mit Statistik ändern auf Summe der Punkte
um.
4.4 Kategorienvariable: Stud
4.5 Stapel nach Test.
4.6 OK. Interpretieren Sie das Diagramm.
5.3.
DIAGRAMME
209
Aufgabe 5.3.2. Erstellen von Liniendiagrammen
Laden Sie die Datei wasserbilanz.sav, die zur Verfügung gestellt wird.
Die Datei
zeigt für 24 Monate die mittlere Niederschlagshöhe und die mittlere Abflusshöhe in mm für die alten
Bundesländer der BRD. Die Abflußhöhe beschreibt die Wassermenge, die durch Grundwasser und Flüsse
weggetragen wird. Das restliche Niederschlagswasser verschwindet durch Verdunstung. Jede Zeile entspricht einem Monat, gespeichert wurden Jahreszahl und Monat, sowie die Niederschlagshöhe N und die
Abflusshöhe A.
1. Zeichnen Sie eine Kurve, auf der waagrecht die Monate, senkrecht die
durchschnittliche Niederschlagshöhe im jeweiligen Monat aufgetragen ist.
(Der Durchschnitt wird demnach jeweils über zwei Werte gebildet, weil
zu jedem Monat Messwerte aus zwei Jahren vorliegen.)
1.1 Grafiken – Linie
1.2 Einfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren.
1.3 Linie entspricht: anderer Statistik, Niederschlagshöhe (SPSS schaltet automatisch auf
Mittelwert dieser Variablen. Andere Auswahl wäre durch den Schalte Statistik ändern
möglich.
1.4 Kategorienvariable: Monat.
2. Zeichnen Sie wie oben die durchschnittliche Niederschlagshöhe für jeden
Monat, jedoch im selben Diagramm auch die durchschnittliche Abflusshöhe.
2.1 Grafiken – Linie
2.2 Mehrfache Linie. Kategorien mehrerer Variablen (nämlich Niederschlag und Abflusshöhe). Definieren.
2.3 Linien entsprechen: Niederschlagshöhe, Abflusshöhe.
2.4 Kategorienvariable: Monat.
3. Zeichnen Sie die Niederschlagshöhe für jeden Monat, und zwar im selben
Diagramm drei Kurven für jedes Jahr 1958, 1959, 1960.
3.1
3.2
3.3
3.4
3.5
Grafiken – Linie
Mehrfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren.
Linie entspricht: anderer Statistik, Niederschlagshöhe
Kategorienvariable: Monat.
Linien definieren durch: Jahr
4. Zeichnen Sie ein Diagramm, in dem waagrecht die Monate aufgetragen
sind, und darüber je ein senkrechter Balken, an welchem kleinster Wert,
größter Wert und Mittelwert der für diesen Monat gemessenen Niederschlagswerte markiert sind. Im selben Diagramm werden in einer anderen
Farbe analog Balken für die Abflusshöhen eingetragen.
4.1 Grafiken – Hoch-Tief
4.2 Gruppiert: Hoch-Tief-Schluss. Auswertung über mehrere Variablen (nämlich Niederschlag und Abfluss). Definieren.
4.3 Variablenset 1: Hoch: Niederschlag. Statistik ändern: Maximalwert. Tief: Niederschlag.
Statistik ändern: Minimum. Schluss: Niederschlagswert (Mean). Weiter im Variablenset.
4.4 Variablenset 2: Hoch: Abflusshöhe. Statistik ändern: Maximalwert. Tief: Abflusshöhe.
Statistik ändern: Minimum. Schluss: Abflusshöhe (Mean).
4.5 Kategorienvariable: Monat
Aufgabe 5.3.3. Zeichnen von Streudiagrammen (Punktwolken)
Laden Sie (falls nicht schon geladen) die Datei wasserbilanz.sav.
1. Erstellen Sie ein Streudiagramm, in dem jeder der 24 Mess-Monate als
Punkt aufgetragen ist. Waagrecht aufgetragen: Niederschlagshöhe, senkrecht aufgetragen: Abflusshöhe. Beschriften Sie die Punkte durch die Monate.
1.1
1.2
1.3
1.4
1.5
Grafiken – Streudiagramme
Einfaches Streudiagramm. Definieren.
y-Achse: Abflusshöhe. x-Achse: Niederschlagshöhe. Fallbeschriftung: Monat.
Optionen: Fallbeschriftung anzeigen.
Gibt es einen Zusammenhang zwischen Niederschlagshöhe und Abflusshöhe?
210
5. ÜBUNGEN
5.4. Explorative Datenanalyse, Transformationen
Aufgabe 5.4.1. Wir zeigen, wie man Daten aus einem Textfile importieren kann.
1. Laden Sie die Daten aus dem (bereitgestellten) Textfile phwerte.txt.
Der File enthält pH-Werte von Blutproben von ProbandInnen jeweils vor und nach einer
geringfügigen körperlichen Belastung durch Ergometrie.
1.1 Datei öffnen, Dateityp: Text (txt). File phwerte.txt öffnen.
1.2 Die Datei hat kein vordefiniertes Format.
1.3 Die Daten sind im Textfile in Spalten mit fester Breite angeordnet, es gibt kein Trennzeichen. Die erste Zeile enthält die Variablennamen.
1.4 Beginnend mit Zeile 2, ist jede Zeile ein Fall. Alle Fälle laden.
1.5 SPSS erkennt die Spalten selbst, es sollten keine Korrekturen nötig sein.
1.6 Jede Variable ist mit der im File gegebenen Namen gekennzeichnet und ist vom Typ
Komma. (Um die einzelnen Variablen zu schalten, klicken Sie die Spalten in der Tabelle
an.) SPSS sucht nach der letzten Spalte noch eine Variable V3, diese nicht importieren.
1.7 Eingabeformat nicht speichern, Daten nicht in die Zwischenablage, fertig stellen.
1.8 Speichern Sie den Datenfile unter aufgabe41.sav.
Aufgabe 5.4.2. Erstansicht von Daten. Ausreisser entdecken. Wie man Daten auswählt.
Falls noch nicht geladen, laden Sie den File aufgabe41.sav.
1. Verschaffen Sie sich einen ersten Überblick über den pH-Wert vor der
Ergometrie (Variable PHvor) mit Mittelwert, Ausreissern, Box-Whisker
Plot, Histogramm und Stengel-Blatt-Diagramm.
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
Analysieren - Deskriptive Statistiken - Explorative Datenanalyse
Abhängige Variable: PHvor. Keine Faktoren. Statistik und Diagramme anzeigen.
Statistik: Deskriptive Statistiken, Ausreisser.
Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt,
Histogramm.
OK.
Interpretieren Sie das Stengel-Blatt-Diagramm.
Warum ist das Histogramm so wenig informativ?
Beachten Sie die Liste der Extremwerte. Ein pH-Wert von 5.51 ist physiologisch unmöglich!
Betrachten Sie den Boxplot. Auch hier finden Sie den Ausreisser und seine Fallnummer
417. In welchem Bereich findet sich der Großteil der pH-Werte ungefähr?
Sehen Sie im Datenfile nach, ob Fall 417 auch nach der Ergometrie eine so extrem
niedrige pH-Angabe PHnach hat.
2. Um die physiologisch unmöglichen Ausreisser auszuschließen, arbeiten Sie
nur mit den Fällen weiter, für die der pH-Wert nicht kleiner als 7.3 ist.
2.1 Daten - Fälle auswählen
2.2 Falls Bedingung zutrifft.
2.3 Schalter: Falls. Es öffnet sich ein Fenster zum Bearbeiten der Bedingung. Mit Tastatur
und Mausklick erstellen Sie die Bedingung PHvor >= 7.3 (Dezimalzeichen Punkt, nicht
Komma).
2.4 Weiter. OK. In der Datenansicht zeigt eine neue Variable “filter”, welche Daten ausgewählt wurden.
2.5 Heben Sie die Auswahl wieder auf, indem Sie in Daten - Fälle auswählen auf “alle Fälle” schalten. Schalten Sie dann wieder auf “Falls Bedingung” zurück, um die
Auswahl zu treffen.
3. Wiederholen Sie die explorative Datenanalyse für PHvor nun, wenn die
Ausreisser weggefiltert sind. Überprüfen Sie auch, ob der pH-Wert annähernd
normalverteilt sein kann. Geben Sie für den Mittelwert des pH vor der Ergometrie ein 99%-Konfidenzintervall an.
3.1 Analysieren - Deskriptive Statistiken - Explorative Datenanalyse
3.2 Abhängige Variable: PHvor (gefiltert). Keine Faktoren. Statistik und Diagramme anzeigen.
3.3 Statistik: Deskriptive Statistiken. Konfidenzintervall für den Mittelwert: 99%.
3.4 Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt,
Histogramm. Normalverteilungsdiagramme mit Tests.
3.5 OK. Interpretieren Sie die Ausgabe. Wenn sie die Anmerkungen öffnen, finden Sie
einen Hinweis, dass Sie nur mit ausgefilterten Daten gearbeitet haben.
3.6 Wo liegt der Mittelwert des pH-Wertes vor der Ergometrie? (Punkt- und Konfidenzschätzer)
3.7 Können sie in weiteren Arbeiten an diesen Daten davon ausgehen, dass der pH-Wert
annähernd normalverteilt ist?
5.4.
EXPLORATIVE DATENANALYSE, TRANSFORMATIONEN
211
Aufgabe 5.4.3. Berechnen neuer Variablen aus den Daten.
Falls noch nicht geladen, laden Sie die Datei aufgabe41.sav.
1. Berechnen Sie eine neue Variable PHshift = PHnach - PHvor, welche also
die Veränderung des pH-Wertes durch die Ergometrie beschreibt.
1.1 Transformieren - Berechnen
1.2 Als Name der Zielvariablen geben Sie PHshift ein.
1.3 In das Formelfeld können Sie Variablen aus der Variablenliste mit der Pfeiltaste transportieren, und mit der Tastatur oder durch Mausklick auf dem Rechnerfeld Formeln
schreiben. Schreiben Sie die Formel
PHnach - PHvor.
1.4 OK. In der Datenansicht entsteht eine neue Spalte mit den Differenzen der ersten
beiden Spalten. Auch in der Variablenansicht ist die neue Variable eingetragen.
2. Konstruieren Sie aus der Variablen PHshift eine neue Variable pHsteigt
mit den Werten +1, falls der pH nach der Ergometrie höher ist als vorher,
-1, falls pH gefallen ist, und 0, falls der pH-Wert gleich bleibt.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Transformieren - Umkodieren - in andere Variablen (eine neue Variable entsteht)
Verschieben Sie die Variable PHshift in das Fenster.
Name der Ausgabevariablen: PHsteigt. Beschriftung: Steigt oder fällt pH-Wert
Schalter Alte und Neue Werte. Sie können jetzt eine Liste von Regeln erstellen, nach
denen die neue Variable erstellt wird.
Alter Wert: 0, Neuer Wert: 0. Hinzufügen.
Alter Wert: Kleinster bis 0. Neuer Wert: -1. Hinzufügen.
Alter Wert: 0 bis größter. Neuer Wert: 1. Hinzufügen. Weiter.
OK. In der Datenansicht entsteht eine neue Spalte.
In der Variablenansicht können Sie Wertelabels einführen und die neue Variable als
nominale Variable erklären
212
5. ÜBUNGEN
5.5. Vergleichstests
Aufgabe 5.5.1. Konfidenzintervall und t-Test auf die Lage eines Mittelwertes.
Laden Sie den File ergodaten.sav.
Die Datei enthält Daten für pH, den Partialdruck von CO2 und die Konzentrationen von HCO3 ,
Laktat, sowie der Elektrolyte Mg, Ca, K und Na, jeweils vor und nach einer geringfügigen körperlichen
Belastung durch Ergometrie. Daten von S. Porta, leicht abgeändert.
1. Bestimmen sie ein 98%-Konfidenzintervall für die Mittelwerte des pHWertes und des Partialdruckes von CO2 in Ruhe (PHvor, PCO2vor).
1.1 Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe
1.2 Testvariablen PHvor, PCO2vor.
1.3 Testwert 0 (für die Abweichung der Variablen von diesem Testwert berechnet das
Programm das Konfidenzintervall.)
1.4 Optionen: 98% Konfidenzintervall.
1.5 Ok. In der Ausgabe finden Sie eine Statistik der verwendeten Daten, und die Konfidenzintervalle. Die angegebene Signifikanz ist der p-Wert für die Hypothese, dass
der Mittelwert vom Testwert 0 abweicht. In diesem Zusammenhang ist dies biologisch
nicht aussagekräftig. Warum?
2. Ist der Mittelwert des pH-Wertes in Ruhe für Frauen größer als 7.46?
Führen Sie mit der Variablen PHvor einen einseitigen t-Test mit Signifikanzniveau 0.10 durch.
2.1
2.2
2.3
2.4
2.5
2.6
Erstellen Sie die Hypothesen des Testes auf einem Blatt Papier.
Daten - Fälle auswählen - Falls (vgl. Aufgabe 5.4.2, Teil 2).
Bedingung im Fenster konstruieren: Sex = 0. Weiter. OK.
Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe
Variablen: PHvor. Testwert: 7,46.
OK. Sie erhalten die Statistik der verwendeten Daten und das Ergebnis des Tests mit
den Nebenergebnissen T (der Wert von t im t-Test) und df (Anzahl der Freiheitsgrade,
bei 113 Daten sind das 112 Freiheitsgrade), sowie den p-Wert für den zweiseitigen Test.
2.7 Der p-Wert des einseitigen Tests ist nur die Hälfte des p-Wertes für den zweiseitigen
Test.
2.8 Wie geht der Test aus?
Aufgabe 5.5.2. t-Test zum Vergleich von Mittelwerten für gepaarte Stichproben und tTest für 2 unabhängige Stichproben.
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. (Vgl. Aufgabe 5.5.1).
Schalten Sie, falls noch vom vorigen Beispiel anders eingestellt, die Datenauswahl auf “alle Fälle”.
1. Bewirkt die Ergometrie eine Erhöhung des Laktatspiegels? Vergleichen
Sie die Mittelwerte der Variablen Laktatnach und Laktatvor mittels eines
einseitigen t-Tests mit Signifikanzniveau 0.05.
1.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf.
1.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen
Stichproben?
1.3 Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben.
1.4 Klicken Sie beide Variablen Laktatnach, Laktatvor und bringen Sie sie dann durch die
Pfeiltaste ins Variablenfeld.
1.5 OK. Sie sehen die Statistik der verwendeten Daten, ferner, dass zwischen Laktatvor und Laktatnach eine signifikant untermauerte positive Korrelation besteht, und
schließlich das Testergebnis mit Statistiken über die Differenz Laktatnach-Laktatvor,
den Nebenergebnissen t und den Freiheitsgraden, sowie dem zweiseitigen p-Wert.
1.6 Wie geht der Test aus?
2. Haben Frauen einen anderen Kaliumspiegel in Ruhe als Männer? Vergleichen Sie die Mittelwerte von Kvor für Frauen und für Männer mittels
eines zweiseitigen t-Tests mit Signifikanzniveau 0.05.
2.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf.
2.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen
Stichproben?
2.3 Analysieren - Mittelwerte vergleichen - T-Test für unabhängige Stichproben.
2.4 Testvariable: Kvor. Gruppenvariable: Sex (sie teilt die Stichprobe in die beiden Stichproben, welche verglichen werden sollen.)
2.5 Gruppen definieren: Gruppe 1: Wert 0 (Frauen), Gruppe 2: Wert 1 (Männer). Weiter.
2.6 OK. Sie sehen die Statistik der verwendeten Daten und die Ergebnisse des Tests.
2.7 Können Sie von Varianzhomogenität ausgehen? Betrachten Sie das Ergebnis des LeveneTests und entscheiden Sie, in welcher Zeile der Testergebnisse Sie weiterlesen müssen.
2.8 Sie finden die üblichen Nebenrechnungen, sowie den p-Wert für den zweiseitigen Test.
Wie geht der Test aus?
5.5.
VERGLEICHSTESTS
213
Aufgabe 5.5.3. Parameterfreie Tests für gepaarte Stichproben.
Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele
besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende
beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die
Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab.
Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden
Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.10 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
1. Geben Sie die Daten in SPSS ein. Jede Spalte entspricht einem Prüfer,
jede Zeile einer Hausübung. Vgl. Aufgabe 5.1.2).
1.1 Eröffnen Sie ein neues Datendokument.
1.2 Legen Sie in der Variablenansicht die Variablen APunkte und BPunkte als metrische
Variablen an.
1.3 Tragen Sie die Punkte in der Datenansicht ein.
1.4 Speichern Sie die Datei unter aufgabe53.sav.
2. Welchen der folgenden Tests würden Sie verwenden, und warum? T-Test
für verbundene Stichproben, Wilcoxon-Test für verbundene Stichproben,
Vorzeichentest?
2.1 Entscheiden Sie sich für eine Methode und begründen Sie Ihre Entscheidung.
2.2 Ist es wichtig, sich zuerst für eine Methode zu entscheiden, oder kann man erst alle
drei Methoden durchspielen und die Entscheidung dann treffen?
2.3 Schreiben Sie sich die Hypothesen in Worten auf.
3. Vergleichen Sie die Variablen APunkte, BPunkte durch einen einseitigen
t-Test für gepaarte Stichproben. Vgl. Aufgabe 5.5.2, Teil 1.
3.1
3.2
3.3
3.4
Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben
Testvariablen APunkte, BPunkte
Interpretieren Sie das Ergebnis. Wie geht der Test aus?
Speichern Sie zur Sicherheit und zum späteren Vergleich die Ausgabe als aufgabe3.spo.
4. Vergleichen Sie die Variablen APunkte, BPunkte durch einen WilcoxonTest und einen Vorzeichentest für gepaarte Stichproben.
4.1
4.2
4.3
4.4
4.5
4.6
Analysieren - Nichtparametrische Tests - Zwei verbundene Stichproben
Bringen Sie das Variablenpaar APunkte, BPunkte in das Fenster der Testvariablen.
Wählen Sie Wilcoxon-Test und Vorzeichentest.
Schalter Exakt: exakte Rechnung, falls sie nicht länger als 5 Minuten braucht. Weiter.
OK. Sie sehen je eine Ausgabe für den Wilcoxon-Test und den Vorzeichen-Test.
Bei beiden Tests sehen Sie erst eine Übersicht über die Daten. Es gibt drei Bindungen:
die drei Hausübungen, die von beiden Prüfern gleich bewertet wurden. Eine Arbeit
wurde von Prüfer A besser bewertet als von Prüfer B. Der Wilcoxon-Test zählt nicht
nur die positiven und negativen Differenzen, sondern arbeitet mit Rangsummen.
4.7 Wie gehen die beiden Tests aus?
4.8 Bei diesem geringen Stichprobenumfang weichen die exakten Ergebnisse stark von
den asymptotischen (Näherungsformeln) ab. Verlassen Sie sich nur auf die exakten
Ergebnisse, die Näherungsformeln sind für große Stichproben.
5. Vergleichen Sie die Ergebnisse der drei Tests.
5.1 Welcher Test zeigt die höchste Signifikanz, und warum?
5.2 Die drei Tests zeigen verschiedene p-Werte. Also müsste die ganze Statistik ein Schwindel sein, der sich selbst widerspricht. Oder doch nicht?
214
5. ÜBUNGEN
5.6. Nominale Daten und Anpassungstests
Aufgabe 5.6.1. Häufigkeitstabellen anlegen, Binomialtest auf Anteile
Ein neues Medikamentes gegen Schnupfen wird getestet. In einem ersten Test von
20 ProbandInnen stellte sich bei 12 ProbandInnen innerhalb von 24 Stunden eine
Verbesserung des Zustandes ein. Kann mit einem Signifikanzniveau von 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen
innerhalb von 24 Stunden eine Verbesserung bewirkt?
1. Legen Sie die Daten in SPSS an. Sie müssen dazu nicht 20 Datenzeilen anlegen,
sondern gehen Sie wie folgt vor:
1.1 Legen Sie in einem neuen SPSS-Datenblatt in der Variablenansicht die Variablen Erfolg
(nominal dichotom mit Wertelabels Verbesserung / keine Verbesserung) und Häufigkeit
(metrisch) an.
1.2 Die Datenansicht besteht aus zwei Zeilen mit den Werten: Erfolg Verbesserung, Häufigkeit 12, und Erfolg keine Verbesserung, Häufigkeit 8. Hier entspricht also nicht jeder
Merkmalsträger, sondern jede Ausprägung der Variablen Erfolg einer Datenzeile.
1.3 Daten - Fälle gewichten - Gewichten mit Häufigkeit. Durch diesen Schritt wird festgelegt, dass die beiden Zeilen nicht je zu einem, sondern zu 12 bzw. 8 Merkmalsträgern
gehören.
2. Stellen Sie die Hypothesen des Tests in Worten auf.
3. Führen Sie einen einseitigen Binomialtest durch.
3.1
3.2
3.3
3.4
Analysieren - Nichtparametrische Tests - Binomial
Testvariable: Erfolg. Testwert: 0,4.
Schalter Exakt: Exakt falls Rechnung weniger als 5 Minuten dauert.
OK. Wie geht der Test aus?
4. Versuchen Sie den Test mit anderen Nullhypothesen:
4.1 Versuchen Sie den gleichen Test mit dem Testwert 0,8. SPSS rechnet normalerweise mit
der Alternativhypothese: “Die Wahrscheinlichkeit, dass ein Merkmalsträger in Gruppe
1 fällt, ist größer als der Testwert.” Jedoch würde ein solcher Test bei dieser Datenlage
nicht sinnvoll sein, und SPSS wählt automatisch eine passende Alternativhypothese!
4.2 Versuchen sie den Test mit Testwert 0,5. SPSS rechnet für diesen speziellen Testwert
mit einer zweiseitigen Alternativhypothese. Halbieren Sie diese, wenn Sie den p-Wert
für einen einseitigen Test brauchen.
5. In einem größer angelegten Versuch zeigte sich, dass das Medikament bei
450 von 1000 PatientInnen Verbesserungen brachte. Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen Verbesserungen bringt?
5.1 Ändern Sie die Daten in der Datenansicht auf 450 Erfolge und 550 Misserfolge ab.
5.2 Führen Sie den Binomialtest durch. Statt exakt rechnen Sie diesmal nur asymptotisch.
5.3 Wie geht der Test aus?
Aufgabe 5.6.2. χ2 -Anpassungstest für nominale Merkmale
Ein genetisches Merkmal sei in einer Population in der dominanten Form A und
der rezessiven Form a vertreten. Kreuzt man nur Individuen mit gemischtem Genotyp Aa miteinander, sind in der nächsten Generationen die drei Genotypen mit
folgenden Wahrscheinlichkeiten verteilt:
AA Aa
aa
0.25 0.50 0.25
In einer Versuchsgruppe wurden folgende Häufigkeiten beobachtet:
AA Aa aa gesamt
4
14 2
20
Kann mit Signifikanznivau 0.05 geschlossen werden, dass diese Gruppe nicht nur
aus Nachkommen von gemischterbigen Eltern besteht?
1. Legen Sie die Daten an.
1.1 Zwei Variablen: Genotyp (nominal, Wertelabels 1=AA, 2=Aa, 3=aa) und Häufigkeit
(metrisch). Eine Datenzeile für jeden Genotyp.
1.2 Daten - Fälle gewichten - gewichten mit Häufigkeit.
2. Schreiben Sie die Hypothesen des Tests auf.
3. Führen Sie einen χ2 -Anpassungstest durch.
3.1 Analysieren - Nichtparametrische Tests - Chi-Quadrat
3.2 Testvariable: Genotyp
3.3 Werte: Eingeben, und zwar die drei Werte 0.25, 0.5, 0.25 nacheinander, jeweils einen
Wert eintippen und hinzufügen.
3.4 Exakte Rechnung. OK.
3.5 Wie geht der Test aus?
5.6.
NOMINALE DATEN UND ANPASSUNGSTESTS
215
Aufgabe 5.6.3. Kreuztabellen anlegen und χ2 -Test auf Unabhängigkeit nominaler Merkmale.
Um die Aktivität von drei Affen zu vergleichen, wurde für jeden Affen in Abständen
von je Viertelstunden in einer Liste erfasst, womit der Affe in der jeweiligen Viertelstunde vornehmlich beschäftigt war. Nach Erfassung von 25 Stunden gesamt für
jedes Tier ergab sich folgende Tabelle:
Adam Beatrice Caesar gesamt
dösen oder schlafen
40
45
43
128
klettern
35
32
28
105
12
10
15
37
fressen
andere
13
13
14
40
gesamt
100
100
100
300
1. Legen Sie die Daten in SPSS an.
1.1 Zwei nominale Variablen Affe (Wertelabels Adam, Beatrice, Caesar) und Aktivität
(dösen, klettern, fressen, andere), und eine metrische Variable Häufigkeit.
1.2 Je eine Datenzeile für jede Kombination je eines Affen mit einer Tätigkeit, z.B.
“Adam dösen 40”.
1.3 Fälle gewichten mit Häufigkeit.
2. Erstellen Sie eine Kreuztabelle, die die obige Tabelle wiedergibt, und aus
der man sieht, welchen Prozentsatz seiner Zeit jeder Affe für die verschiedenen Tätigkeiten aufwendet.
2.1 Analysieren - Deskriptive Statistiken - Kreuztabellen
2.2 Zeilenvariable: Aktivität. Spaltenvariable: Affe.
2.3 Zellen: Prozente spaltenweise.
3. Lässt sich mit einem Signifikanzniveau von 0.05 schließen, dass nicht alle
drei Affen ihre Zeit nach denselben Proportionen aufteilen? Führen Sie
einen χ2 -Test auf Unabhängigkeit aus.
3.1
3.2
3.3
3.4
Analysieren - Deskriptive Statistiken - Kreuztabellen.
Zeilen und Spalten wie vorhin.
Statistik: Chi-Quadrat.
Wie geht der Test aus?
Aufgabe 5.6.4. Kolmogorov-Smirnov-Test
Laden Sie den (bereitgestellten) Datenfile stoerfall.sav. Der File zeigt, aufgeschlüsselt
nach Jahr 2000–2005 und Monat, die Anzahl der meldepflichtigen Störfälle in verfahrenstechnischen
Anlagen in der BRD. Jede Zeile beschreibt einen Monat. (Quelle: Zentrale Melde- und Auswertestelle für
Störfälle in Verfahrenstechnischen Anlagen, ZEMA). Sollten die Störfälle voneinander unabhängig und
unabhängig vom Monat auftreten, so muss die Anzahl der Störfälle eine poissonverteilte Zufallsvariable
sein, welche in jedem Monat neu realisiert wird. Unter gewissen Umständen kann eine Poissonverteilung
auch durch eine Normalverteilung angenähert werden.
1. Erstellen Sie ein Balkendiagramm, das zeigt, wieviele meldepflichtige Störfälle
in den einzelnen Jahren 2000 bis 2005 aufgetreten sind.
1.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen
1.2 Kategorienachse: Jahr
1.3 Balken bedeuten: andere Statistik, nämlich Summe der Zahlen der gemeldeten Störfälle.
2. Erstellen Sie ein Balkendiagramm, das zeigt, in wievielen der erfassten
Monate je 0,1,2,3 usw. Störfälle aufgetreten sind.
2.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen
2.2 Kategorienachse: Anzahl der Störfälle
2.3 Balken bedeuten: Anzahl der Fälle (jeder Fall ist ein Monat).
3. Weicht die Anzahl der Störfälle pro Monat deutlich von einer Poissonverteilung / einer Normalverteilung ab? Führen Sie einen KolmogorovSmirnov-Test mit Signifikanzniveau 0.05 durch.
3.1 Schreiben Sie die Hypothesen des Tests auf.
3.2 Analysieren - Nichtparametrische Tests - Kolmogorov-Smirnov bei einer Stichprobe
3.3 Testvariable: Zahl der gemeldeten Störfälle. Verteilungen auswählen: Normalverteilung, Poissonverteilung
3.4 OK. Wie gehen die Tests aus?
216
5. ÜBUNGEN
5.7. Varianzanalyse
Aufgabe 5.7.1. Einfaktorielle Varianzanalyse
Laden Sie die (bereitgestellte) Datei aepfel.sav.
Diese (fiktiven) Daten beschreiben die
Gewichte von Stichproben von 5 verschiedenen Sorten Äpfeln, welche aus 3 verschiedenen Obstplantagen
stammen. Jede Zeile ist ein Apfel, die drei Variablen geben an, zu welcher Sorte (A . . . E) der Apfel
gehört, aus welcher Plantage (A . . . C) er stammt, und wie schwer er ist.
1. Machen Sie sich durch eine Kreuztabelle und durch einen Box-Whisker
Plot für jede Art einen Überblick über die Stichprobe.
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
Analysieren - Deskriptive Statistik - Kreuztabellen
Zeilen: Art. Spalten: Plantage.
Schalter Zellen: Prozentangabe bezogen auf den Gesamtumfang
OK. Wieviele Äpfel sind in der Stichprobe.
Ist die Stichprobe ausgeglichen, d.h., ist der Umfang der Stichprobe zu jeder Faktorkombination gleich groß?
Analysieren - Deskriptive Statistik - Explorative Datenanalyse
Faktoren: Art. Abhängige Variable: Gewicht. Nur Diagramme anzeigen.
Diagramme: Box Whisker, Faktorstufen gemeinsam.
OK. Welche Arten sind besonders schwer?
2. Ist das mittlere Gewicht der Apfelsorten verschieden? Erstellen Sie eine
einfaktorielle Varianzanalyse für die abhängige Variable Gewicht mit dem
Faktor Art. Überprüfen Sie die Varianzhomogenität mit Signifikanzniveau
0.05. Rechnen Sie auch (für den folgenden Punkt 3.) gleich folgende PostHoc Analysen mit: LSD, Bonferroni, Scheffe, Student-Newman-Keuls.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Analysieren - Mittelwerte vergleichen - Einfaktorielle Varianzanalyse
Abhängige Variable: Gewicht. Faktor: Art
Optionen: Test auf Varianzhomogenität, deskriptive Statistik
Post Hoc: LSD, Bonferroni, Scheffe, SNK
OK.
Welche Durchschnittsgewichte haben die einzelnen Arten?
Müssen wir damit rechnen, dass die Gewichte der einzelnen Arten verschiedene Varianzen haben? Welche Auswirkungen hätte das auf die Varianzanalyse?
2.8 Was bedeuten die Quadratsummen in der Tabelle der ANOVA? Wie geht der Test
aus?
3. Vergleichen Sie die einzelnen Arten untereinander mit Hilfe der Post-HocMethoden.
3.1 Zwischen welchen Paaren von Arten gibt es signifikante Unterschiede? Sehen Sie in
der Scheffe-Kreuztabelle nach. (Der Scheffe-Test ist so ausgelegt, dass die Gesamtsignifikanz des Tests 0.05 ist.)
3.2 Vergleichen Sie die Signifikanzen in der LSD und der Bonferroni-Tabelle. Welche Tabelle verwendet man wann?
3.2 Lassen sich die Arten in mehrere Gruppen ungefähr gleich schwerer Arten unterteilen?
Interpretieren Sie die Student-Newman-Keuls Tabelle.
Aufgabe 5.7.2. Zweifaktorielle Varianzanalyse
Laden Sie, falls noch nicht geladen, die Datei aepfel.sav.
1. Erstellen Sie eine zweifaktorielle Varianzanalyse für die abhängige Variable
Gewicht mit dem ersten Faktor Art und dem zweiten Faktor Plantage.
1.1 Analysieren - Allgemeine lineare Modelle - Univariat
1.2 abhängige Variable: Gewicht. Faktoren: zuerst Art, dann Plantage einfügen.
1.3 Schalter Modell: Quadratsumme Typ I. Gesättigtes Modell: Alle Faktoren und Wechselwirkungen werden berücksichtigt. Konstanten Term einschließen.
1.4 Diagramme: Horizontale Achse: Art. Separate Linien für Plantagen.
1.5 Optionen: Residuendiagramme.
1.6 OK
1.7 Analysieren Sie die Varianzanalyse der Zwischensubjekteffekte. Liefert der Faktor Art
einen signifikanten Beitrag? Wird das Modell signifikant besser, wenn der Faktor Plantage dazugenommen wird?
1.8 Die Residuen sind die Abweichungen der tatsächlich beobachteten Werte von den
Werten, welche das Modell vorhersagt. Sie sollten von den vorhergesagten Werten
unabhängig sein. Zeigt das Residuendiagramm eine deutliche Abhängigkeit?
1.9 Warum sind die Residuen nicht unabhängig von den beobachteten Werten?
1.10 Vergleichen Sie die mittleren Gewichte der Arten für die drei Plantagen an Hand der
Liniendiagramme. Wird eine Wechselwirkung zwischen Art und Plantage sichtbar?
2. Wiederholen Sie die zweifaktorielle Varianzanalyse mit umgekehrter Reihenfolge der Faktoren Plantage und Art.
2.1 Ansetzen der Analyse wie oben, nur dass nun der Faktor Plantage zuerst kommt. Die
Diagramme können jetzt abgeschaltet werden.
2.2 Die Zahlenwerte in der ANOVA-Tabelle sind verändert und haben eine andere Bedeutung, z.B. bedeutet der Wert bei Plantage nun nicht den Anteil der Varianz, der erklärt
wird, wenn Plantage zum Faktor Art dazugenommen wird, sondern jenen Anteil der
Varianz, der erklärt wird, wenn Plantage als erster Faktor ins Spiel kommt.
5.7.
VARIANZANALYSE
217
2.3 Bei ausgeglichenen Designs kommt es auf die Reihung der Faktoren nicht an. Bei
unausgegleichenen Experimenten (wie hier) rechnet man besser mit Summen vom Typ
III, diese schätzen den Einfluss jedes Faktors separat.
Aufgabe 5.7.3. Kruskal-Wallis-Test
Laden Sie die (bereitgestellte) Datei troglophyli.sav. Troglophylus, ein heuschreckenähnliches Insekt, lebt im Sommer im Freien und überwintert in Höhlen. In den Höhlen schlüpfen auch die
Larven. Eine steirischen Höhle wurde in Tiefenintervalle von 0-10m, 10-20m, usw. unterteilt, und in jedem Intervall die Anzahl der Weibchen, Männchen und Larven gezählt. Ausserdem wurden Temperatur
und Luftfeuchte in jedem Intervall gemessen. Daten: Bernd Freitag, auszugsweise.
1. Jede Zeile beschreibt mehrere Troglophyli, nämlich alle Individuen eines
Geschlechts in einem Tiefenabschnitt. Gewichten Sie die Fälle adäquat.
1.1 Daten - Fälle gewichten
1.2 Gewichten mit Anzahl Troglophyli.
2. Verschaffen Sie sich mit einem gruppierten Stabdiagramm Übersicht, in
welchen Tiefen die drei Ausprägungen Larve, Weibchen, Männchen bevorzugt leben.
2.1 Grafiken - Balken
2.2 Gruppiert, über Kategorien einer Variablen
2.3 Schalter Definieren: Höhe bedeutet Anzahl der Fälle. Kategorienachse: Tiefe. Gruppen:
Sex.
2.4 OK. Interpretieren Sie das Balkendiagramm.
2.5 Ist die Zufallsvariable Tiefe für die einzelnen Geschlechter annähernd normalverteilt?
3. Überprüfen Sie durch einen Kruskal-Wallis H-Test, ob der Faktor Geschlecht einen Einfluss auf die Variable Tiefe hat. (Leben also die drei
Geschlechter bevorzugt in verschiedenen Tiefen?) Signifikanzniveau 0.05.
3.1 Analysieren - Nichtparametrische Tests - K unabhängige Stichproben
3.2 Kruskal-Wallis Test. Abhängige Variable: Tiefe. Gruppe: Sex, im Bereich 0–2.
3.3 Wie geht der Test aus?
218
5. ÜBUNGEN
5.8. Regression
Aufgabe 5.8.1. Korrelationskoeffizienten
Laden Sie die Datei ergodaten.sav (vgl. Aufgabe 5.5.1). Die vier Elektrolyte Mg,
Ca, Na, K (in Ruhe, also Daten vor der Ergometrie) sollen auf mögliche lineare
Zusammenhänge untersucht werden.
1. Bestimmen Sie die Korrelationskoeffizienten für jedes Paar von Elektrolyten.
1.1 Analysieren - Korrelation - bivariat
1.2 Variablen: Cavor, Kvor, Mgvor, Navor. Pearsonscher Korrelationskoeffizient, zweiseitige Signifikanz.
1.3 Schalter Optionen: Mittelwerte und Standardabweichungen.
1.4 OK. Überprüfen Sie für jedes Paar von Elektrolyten an Hand der Korrelationskoeffizienten: Verhalten sie sich eher gleich- oder gegenläufig?
1.5 Welche dieser Zusammenhänge zwischen den Elektrolyten sind statistisch untermauerbar?
1.6 Was bedeutet ein relativ kleiner Korrelationskoeffizient mit einer deutlichen statistischen Signifikanz (p sehr klein)?
1.7 Was muss man bedenken, wenn man für viele Variablen gleichzeitig alle Korrelationen
auf Signifikanz testet?
2. Erstellen Sie ein Streudiagramm mit waagrecht K und senkrecht Na, eines
mit waagrecht Ca und senkrecht Na. Vergleichen Sie die Streudiagramme
mit den berechneten Korrelationskoeffizienten.
2.1 Grafiken - Streudiagramme - Einfaches Streudiagramm
2.2 x-Achse Kvor, y-Achse Navor. OK.
2.3 Das zweite Streudiagramm geht ebenso.
3. Es ist bekannt, dass manche der Elektrolyte deutlich mit pH und Blutgasen korrelieren. Ist der Zusammenhang zwischen Mg und Ca eine Scheinkorrelation, mit pH und Blutgasen als Confounders? Bestimmen Sie die
partiellen Korrelationen zwischen den Elektrolyten unter Kontrolle von
pH, PCO2 und HCO3 (jeweils vor der Ergometrie).
3.1 Analysieren - Korrelation - Partiell
3.2 Variablen: Cavor, Kvor, Mgvor, Navor. Kontrollvariablen PHvor, PCO2vor, HCO3vor.
OK.
3.3 Welche Korrelationen zwischen den 4 Elektrolyten bleiben signifikant, wenn man pH
und Blutgase kontrolliert?
Aufgabe 5.8.2. Lineare Regression
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann der pH-Wert
nach der Ergometrie aus den Messwerten vor der Ergometrie vorhergesagt werden?
Führen Sie eine multiple lineare Regression durch.
1. Setzen Sie die Regression an.
1.1 Analysieren - Regression - Linear
1.2 Abhängige Variable PHnach, unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Mgvor, Navor, PCO2vor, PHvor.
1.3 Schrittweises Verfahren.
1.4 Schalter Optionen: Signifikanz(= Wahrscheinlichkeits-)wert für Einschluss: 0.05, Ausschluss: 0.1. Konstante ins Modell einbeziehen. OK.
2. Analysieren Sie die Tabelle: Modellzusammenfassung
2.1 Wieviele Modelle hat SPSS durchgerechnet, und welche Variablen kommen darin vor?
2.2 Welche Bestimmtheitsmaße erzielen die Modelle, welches Modell hat das höchste Bestimmtheitsmaß?
2.3 Welchen Schätzwert liefern die Modelle für σ, die Standardabweichung des Zufallsanteils?
2.4 Welches Modell würden Sie endgültig auswählen?
3. Analysieren Sie die Koeffiziententabelle.
3.1 Wie sieht die Regressionsformel nach Modell 3 aus? Schreiben Sie sich die Formel des
Modells auf.
3.2 Kann mit einer Signifikanzniveau von 0.05 geschlossen werden, dass ein Einfluss von
Mg vor der Ergometrie auf den pH nach der Ergometrie vorliegt?
3.3 Wenn Mg vor der Ergometrie um 1 mEq/l erhöht wird, und alle anderen Variablen
vor der Ergometrie unverändert bleiben: Um welchen Betrag und in welche Richtung
ändert sich im Durchschnitt der pH-Wert nach der Ergometrie?
3.4 Welcher Effekt wirkt sich am Ende stärker auf den pH-Wert nach der Ergometrie aus:
Der Einfluss von Mg oder der Einfluss von HCO3?
3.5 Sowohl Modell 2 als auch Modell 3 enthalten die Variable PHvor, aber mit verschiedenen Koeffizienten. Ist das ein Widerspruch?
4. Analysieren Sie die Tabelle der ausgeschlossenen Variablen.
4.1 Die Variable HCO3vor kommt in Modell 2 nicht vor und wird in Modell 3 aufgenommen. Vergleichen Sie die Werte für diese Variable in der Koeffiziententabelle (Modell 3)
und der Tabelle der nicht aufgenommenen Variablen (Modell 2).
5.8.
REGRESSION
219
4.2 Nach der Henderson-Hasselbalch’schen Gleichung besteht ein Zusammenhang zwischen
pH-Wert, Partialdruck von CO2 und Konzentration von HCO3 . Die Toleranz der Variablen PCO2vor zu Modell 2 und zu Modell 3 fallen sehr verschieden aus. Erklären
Sie, warum.
5. Analysieren Sie die Tabelle der Varianzanalyse.
5.1 Wie groß ist die Gesamtschwankung des pH-Wertes nach der Ergometrie?
5.2 Welchen Anteil der Gesamtschwankung kann Modell 2 erklären, und welcher bleibt
unerklärt? Welche Freiheitsgrade gehören zu diesen Anteilen?
5.3 Zu welchem Test sind in der ANOVA-Tabellen die Signifikanzen ausgegeben, und wie
geht der Test aus?
5.4 Welcher Anteil der Gesamtschwankung wird zusätzlich erklärt, wenn man Modell 2
durch Modell 3 ersetzt?
6. Fassen Sie zusammen: Von welchen Variablen hängt der pH-Wert nach der
Ergometrie ab, und wie gut lässt er sich aus diesen Variablen vorhersagen?
Aufgabe 5.8.3. Lineare Regression: Modelldiagnostik
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann die Konzentration des Mg in Ruhe (vor Ergometrie) aus den anderen Ruheparametern vorhergesagt werden? Führen Sie eine lineare Regression durch, und machen Sie zu dieser
Regression eine Modelldiagnostik.
1. Setzen Sie die Regression an.
1.1 Analysieren - Regression - Linear
1.2 Abhängige Variable: Mgvor. Unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Navor, PCO2vor, PHvor. Schrittweise Methode.
1.3 Statistiken: Schätzer für Regressionskoeffizienten. Änderung in R2 . Residuen: Fallweise Diagnose bei Ausreissern außerhalb 3facher Standardabweichung. Kollinearitätsdiagnose.
1.4 Diagramme: Standardisierte Residuen im Histogramm und Normalverteilungsdiagramm.
Streudiagramm mit waagrecht standardisiertem vorhergesagtem Mgvor (*ZPRED)
und senkrecht standardisierten Residuen (*ZRESID).
1.5 Speichern: Residuen (nicht standardisiert), Cook’s Distanz.
2. Was sind die Ergebnisse der Regression?
2.1
2.2
2.3
2.4
Welche Modelle wurden durchgerechnet, welche Variablen kommen darin vor?
Welcher Anteil der Gesamtschwankung des Mg wird durch die Modelle erklärt?
Welchem der durchgerechneten Modelle geben Sie den Vorzug?
Für welche Variablen lässt sich mit Signifikanzniveau 0.05 nachweisen, dass sie auf Mg
einen Einfluss haben.
2.5 Welche Variablen haben den stärksten Einfluss auf Mg?
3. Untersuchen Sie die Residuen
3.1 Datenpunkte mit extrem hohen oder niedrigen Residuen finden sich in der Tabelle
fallweise Diagnose.
3.2 Analysieren Sie die Tabelle Residuenstatistik. In welchem Bereich liegen die vorhergesagten Werte, in welchem Bereich liegen die Residuen? Vergleichen Sie die Standardabweichung der nicht standardisierten Residuen mit dem “Standardfehler des Schätzers”
in der Modellzusammenfassung.
3.3 Sind die Residuen annähernd normalverteilt? Betrachten Sie das PP-Diagramm und
das Histogramm.
3.4 Sind die Residuen unabhängig vom vorhergesagten Wert? Betrachten Sie das Streudiagramm.
3.5 Sind die Residuen unabhängig von der erklärenden Variablen pH-Wert? Erstellen Sie
ein Streudiagramm mit waagrecht PHvor und senkrecht Residuen.
4. Gibt es Datensätze auf die die Regression besonders stark reagieren würde?
4.1 Machen Sie mit Hilfe von Analysieren - Deskriptive Statistik - Explorative Datenanalyse einen Box-Whisker Plot und ein Histogramm sowie eine Tabelle der Extremwerte
der Cookschen Distanz. Datenpunkte mit hoher Cookscher Distanz sind solche, auf
die die Regression besonders stark reagiert. Faustregel: Cooksche Distanz unter 1 ist
unbedenklich.
5. Gibt es Hinweise auf Multikollinearität?
5.1 Gibt es unter den aufgenommenen Variablen welche mit niedriger Toleranz? (Toleranzen unter 0.25 gelten als suspekt.)
KAPITEL 6
Tabellen und Literatur
Übersicht:
1) Tabellen
2) Literatur
6.1. Tabellen
Übersicht:
1
2
3–4
5–6
7–8
9–10
11–12
13
14
15
16
17
18
Verteilungsfunktion der Standardnormalverteilung
Quantile der t-Verteilung
Quantile der χ2 -Verteilung
Perzentile der F-Verteilung (α = 10%)
Perzentile der F-Verteilung (α = 5%)
-Perzentile der F-Verteilung (α = 2.5%)
Perzentile der F-Verteilung (α = 0.1%)
Kritische Werte für die Kolmogorov-Smirnov-Statistik
Kritische Werte für den Kolmogorov-Smirnov-Lillefors Test
Binomialkoeffizienten
Kumulative Häufigkeiten der B(n, 0.5)-Binomialverteilung
Kritische Werte für den Mann-Whitney-U-Test
Kritische Werte für den Wilcoxon-Test
α ist hier die Wahrscheinlichkeit, dass die Zufallsvariable über dem Tabellenwert liegt. Die
Tabelle zu α = 0.025 zeigt also das 97.5%-Perzentil.
221
222
6. TABELLEN UND LITERATUR
Tabelle 1
Verteilungsfunktion der Standardnormalverteilung Z
Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990
6.1. TABELLEN
223
Tabelle 2
Quantile der t-Verteilung
α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt.
α
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
0,1
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
0,00025
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,290
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,660
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,984
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,364
2,326
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,626
2,576
127,321
14,089
7,453
5,598
4,773
4,317
4,029
3,833
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030
2,971
2,915
2,871
2,807
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,174
3,090
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,551
3,460
3,390
3,290
1273,155
44,703
16,326
10,305
7,976
6,788
6,082
5,617
5,291
5,049
4,863
4,717
4,597
4,499
4,417
4,346
4,286
4,233
4,187
4,146
4,109
4,077
4,047
4,021
3,997
3,974
3,954
3,935
3,918
3,902
3,788
3,681
3,598
3,481
224
6. TABELLEN UND LITERATUR
Tabelle 3
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,995
0,990
α
0,975
0,950
0,900
0,000039
0,010025
0,071723
0,206984
0,411751
0,675733
0,989251
1,344403
1,734911
2,155845
2,603202
3,073785
3,565042
4,074659
4,600874
5,142164
5,697274
6,264766
6,843923
7,433811
8,033602
8,642681
9,260383
9,886199
10,519647
11,160218
11,807655
12,461281
13,121067
13,786682
20,706577
27,990825
35,534397
43,275305
51,171933
59,196327
67,327533
0,000157
0,020100
0,114832
0,297107
0,554297
0,872083
1,239032
1,646506
2,087889
2,558199
3,053496
3,570551
4,106900
4,660415
5,229356
5,812197
6,407742
7,014903
7,632698
8,260368
8,897172
9,542494
10,195689
10,856349
11,523951
12,198177
12,878468
13,564666
14,256406
14,953464
22,164201
29,706725
37,484796
45,441700
53,539983
61,754019
70,064995
0,000982
0,050636
0,215795
0,484419
0,831209
1,237342
1,689864
2,179725
2,700389
3,246963
3,815742
4,403778
5,008738
5,628724
6,262123
6,907664
7,564179
8,230737
8,906514
9,590772
10,282907
10,982330
11,688534
12,401146
13,119707
13,843881
14,573373
15,307854
16,047051
16,790756
24,433058
32,357385
40,481707
48,757536
57,153152
65,646592
74,221882
0,003932
0,102586
0,351846
0,710724
1,145477
1,635380
2,167349
2,732633
3,325115
3,940295
4,574809
5,226028
5,891861
6,570632
7,260935
7,961639
8,671754
9,390448
10,117006
10,850799
11,591316
12,338009
13,090505
13,848422
14,611396
15,379163
16,151395
16,927876
17,708381
18,492667
26,509296
34,764236
43,187966
51,739263
60,391459
69,126018
77,929442
0,015791
0,210721
0,584375
1,063624
1,610309
2,204130
2,833105
3,489537
4,168156
4,865178
5,577788
6,303796
7,041500
7,789538
8,546753
9,312235
10,085183
10,864937
11,650912
12,442601
13,239596
14,041490
14,847954
15,658679
16,473405
17,291880
18,113889
18,939235
19,767740
20,599245
29,050516
37,688637
46,458885
55,328945
64,277842
73,291079
82,358127
6.1. TABELLEN
225
Tabelle 4
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
0,05
α
0,025
0,01
0,005
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
51,805
63,167
74,397
85,527
96,578
107,565
118,498
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
55,758
67,505
79,082
90,531
101,879
113,145
124,342
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
59,342
71,420
83,298
95,023
106,629
118,136
129,561
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
63,691
76,154
88,379
100,425
112,329
124,116
135,807
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,335
53,672
66,766
79,490
91,952
104,215
116,321
128,299
140,170
226
6. TABELLEN UND LITERATUR
Tabelle 5
Quantile der F-Verteilung
0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
des Zaehlers
5
1
2
3
4
39,864
8,526
5,538
4,545
4,060
3,776
3,589
3,458
3,360
3,285
3,225
3,177
3,136
3,102
3,073
3,048
3,026
3,007
2,990
2,975
2,961
2,949
2,937
2,927
2,918
2,909
2,901
2,894
2,887
2,881
2,835
2,791
2,756
2,706
49,500
9,000
5,462
4,325
3,780
3,463
3,257
3,113
3,006
2,924
2,860
2,807
2,763
2,726
2,695
2,668
2,645
2,624
2,606
2,589
2,575
2,561
2,549
2,538
2,528
2,519
2,511
2,503
2,495
2,489
2,440
2,393
2,356
2,303
53,593
9,162
5,391
4,191
3,619
3,289
3,074
2,924
2,813
2,728
2,660
2,606
2,560
2,522
2,490
2,462
2,437
2,416
2,397
2,380
2,365
2,351
2,339
2,327
2,317
2,307
2,299
2,291
2,283
2,276
2,226
2,177
2,139
2,084
55,833
9,243
5,343
4,107
3,520
3,181
2,961
2,806
2,693
2,605
2,536
2,480
2,434
2,395
2,361
2,333
2,308
2,286
2,266
2,249
2,233
2,219
2,207
2,195
2,184
2,174
2,165
2,157
2,149
2,142
2,091
2,041
2,002
1,945
57,240
9,293
5,309
4,051
3,453
3,108
2,883
2,726
2,611
2,522
2,451
2,394
2,347
2,307
2,273
2,244
2,218
2,196
2,176
2,158
2,142
2,128
2,115
2,103
2,092
2,082
2,073
2,064
2,057
2,049
1,997
1,946
1,906
1,847
6
7
8
9
58,204
9,326
5,285
4,010
3,405
3,055
2,827
2,668
2,551
2,461
2,389
2,331
2,283
2,243
2,208
2,178
2,152
2,130
2,109
2,091
2,075
2,060
2,047
2,035
2,024
2,014
2,005
1,996
1,988
1,980
1,927
1,875
1,834
1,774
58,906
9,349
5,266
3,979
3,368
3,014
2,785
2,624
2,505
2,414
2,342
2,283
2,234
2,193
2,158
2,128
2,102
2,079
2,058
2,040
2,023
2,008
1,995
1,983
1,971
1,961
1,952
1,943
1,935
1,927
1,873
1,819
1,778
1,717
59,439
9,367
5,252
3,955
3,339
2,983
2,752
2,589
2,469
2,377
2,304
2,245
2,195
2,154
2,119
2,088
2,061
2,038
2,017
1,999
1,982
1,967
1,953
1,941
1,929
1,919
1,909
1,900
1,892
1,884
1,829
1,775
1,732
1,670
59,857
9,381
5,240
3,936
3,316
2,958
2,725
2,561
2,440
2,347
2,274
2,214
2,164
2,122
2,086
2,055
2,028
2,005
1,984
1,965
1,948
1,933
1,919
1,906
1,895
1,884
1,874
1,865
1,857
1,849
1,793
1,738
1,695
1,632
6.1. TABELLEN
227
Tabelle 6
Quantile der F-Verteilung
0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
des Zaehlers
40
60
10
15
20
30
60,195
9,392
5,230
3,920
3,297
2,937
2,703
2,538
2,416
2,323
2,248
2,188
2,138
2,095
2,059
2,028
2,001
1,977
1,956
1,937
1,920
1,904
1,890
1,877
1,866
1,855
1,845
1,836
1,827
1,819
1,763
1,707
1,663
1,599
61,220
9,425
5,200
3,870
3,238
2,871
2,632
2,464
2,340
2,244
2,167
2,105
2,053
2,010
1,972
1,940
1,912
1,887
1,865
1,845
1,827
1,811
1,796
1,783
1,771
1,760
1,749
1,740
1,731
1,722
1,662
1,603
1,557
1,487
61,740
9,441
5,184
3,844
3,207
2,836
2,595
2,425
2,298
2,201
2,123
2,060
2,007
1,962
1,924
1,891
1,862
1,837
1,814
1,794
1,776
1,759
1,744
1,730
1,718
1,706
1,695
1,685
1,676
1,667
1,605
1,543
1,494
1,421
62,265
9,458
5,168
3,817
3,174
2,800
2,555
2,383
2,255
2,155
2,076
2,011
1,958
1,912
1,873
1,839
1,809
1,783
1,759
1,738
1,719
1,702
1,686
1,672
1,659
1,647
1,636
1,625
1,616
1,606
1,541
1,476
1,423
1,342
62,529
9,466
5,160
3,804
3,157
2,781
2,535
2,361
2,232
2,132
2,052
1,986
1,931
1,885
1,845
1,811
1,781
1,754
1,730
1,708
1,689
1,671
1,655
1,641
1,627
1,615
1,603
1,592
1,583
1,573
1,506
1,437
1,382
1,295
62,794
9,475
5,151
3,790
3,140
2,762
2,514
2,339
2,208
2,107
2,026
1,960
1,904
1,857
1,817
1,782
1,751
1,723
1,699
1,677
1,657
1,639
1,622
1,607
1,593
1,581
1,569
1,558
1,547
1,538
1,467
1,395
1,336
1,240
100
150
∞
63,007
9,481
5,144
3,778
3,126
2,746
2,497
2,321
2,189
2,087
2,005
1,938
1,882
1,834
1,793
1,757
1,726
1,698
1,673
1,650
1,630
1,611
1,594
1,579
1,565
1,551
1,539
1,528
1,517
1,507
1,434
1,358
1,293
1,185
63,114
9,485
5,141
3,772
3,119
2,738
2,488
2,312
2,179
2,077
1,994
1,927
1,870
1,822
1,781
1,744
1,713
1,684
1,659
1,636
1,616
1,597
1,580
1,564
1,549
1,536
1,523
1,512
1,501
1,491
1,416
1,337
1,270
1,151
63,328
9,491
5,134
3,761
3,105
2,722
2,471
2,293
2,159
2,055
1,972
1,904
1,846
1,797
1,755
1,718
1,686
1,657
1,631
1,607
1,586
1,567
1,549
1,533
1,518
1,504
1,491
1,478
1,467
1,456
1,377
1,291
1,214
1,000
228
6. TABELLEN UND LITERATUR
Tabelle 7
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
161,446
18,513
10,128
7,709
6,608
5,987
5,591
5,318
5,117
4,965
4,844
4,747
4,667
4,600
4,543
4,494
4,451
4,414
4,381
4,351
4,325
4,301
4,279
4,260
4,242
4,225
4,210
4,196
4,183
4,171
4,085
4,001
3,936
3,841
199,499
19,000
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
3,982
3,885
3,806
3,739
3,682
3,634
3,592
3,555
3,522
3,493
3,467
3,443
3,422
3,403
3,385
3,369
3,354
3,340
3,328
3,316
3,232
3,150
3,087
2,996
215,707
19,164
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
3,587
3,490
3,411
3,344
3,287
3,239
3,197
3,160
3,127
3,098
3,072
3,049
3,028
3,009
2,991
2,975
2,960
2,947
2,934
2,922
2,839
2,758
2,696
2,605
224,583
19,247
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
3,357
3,259
3,179
3,112
3,056
3,007
2,965
2,928
2,895
2,866
2,840
2,817
2,796
2,776
2,759
2,743
2,728
2,714
2,701
2,690
2,606
2,525
2,463
2,372
230,160
19,296
9,013
6,256
5,050
4,387
3,972
3,688
3,482
3,326
3,204
3,106
3,025
2,958
2,901
2,852
2,810
2,773
2,740
2,711
2,685
2,661
2,640
2,621
2,603
2,587
2,572
2,558
2,545
2,534
2,449
2,368
2,305
2,214
233,988
19,329
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
3,095
2,996
2,915
2,848
2,790
2,741
2,699
2,661
2,628
2,599
2,573
2,549
2,528
2,508
2,490
2,474
2,459
2,445
2,432
2,421
2,336
2,254
2,191
2,099
236,767
19,353
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
3,012
2,913
2,832
2,764
2,707
2,657
2,614
2,577
2,544
2,514
2,488
2,464
2,442
2,423
2,405
2,388
2,373
2,359
2,346
2,334
2,249
2,167
2,103
2,010
238,884
19,371
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
2,948
2,849
2,767
2,699
2,641
2,591
2,548
2,510
2,477
2,447
2,420
2,397
2,375
2,355
2,337
2,321
2,305
2,291
2,278
2,266
2,180
2,097
2,032
1,938
240,543
19,385
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
2,896
2,796
2,714
2,646
2,588
2,538
2,494
2,456
2,423
2,393
2,366
2,342
2,320
2,300
2,282
2,265
2,250
2,236
2,223
2,211
2,124
2,040
1,975
1,880
6.1. TABELLEN
229
Tabelle 8
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
des Zaehlers
40
60
100
150
∞
241,882
19,396
8,785
5,964
4,735
4,060
3,637
3,347
3,137
2,978
2,854
2,753
2,671
2,602
2,544
2,494
2,450
2,412
2,378
2,348
2,321
2,297
2,275
2,255
2,236
2,220
2,204
2,190
2,177
2,165
2,077
1,993
1,927
1,831
245,949
19,429
8,703
5,858
4,619
3,938
3,511
3,218
3,006
2,845
2,719
2,617
2,533
2,463
2,403
2,352
2,308
2,269
2,234
2,203
2,176
2,151
2,128
2,108
2,089
2,072
2,056
2,041
2,027
2,015
1,924
1,836
1,768
1,666
248,016
19,446
8,660
5,803
4,558
3,874
3,445
3,150
2,936
2,774
2,646
2,544
2,459
2,388
2,328
2,276
2,230
2,191
2,155
2,124
2,096
2,071
2,048
2,027
2,007
1,990
1,974
1,959
1,945
1,932
1,839
1,748
1,676
1,571
250,096
19,463
8,617
5,746
4,496
3,808
3,376
3,079
2,864
2,700
2,570
2,466
2,380
2,308
2,247
2,194
2,148
2,107
2,071
2,039
2,010
1,984
1,961
1,939
1,919
1,901
1,884
1,869
1,854
1,841
1,744
1,649
1,573
1,459
251,144
19,471
8,594
5,717
4,464
3,774
3,340
3,043
2,826
2,661
2,531
2,426
2,339
2,266
2,204
2,151
2,104
2,063
2,026
1,994
1,965
1,938
1,914
1,892
1,872
1,853
1,836
1,820
1,806
1,792
1,693
1,594
1,515
1,394
252,196
19,479
8,572
5,688
4,431
3,740
3,304
3,005
2,787
2,621
2,490
2,384
2,297
2,223
2,160
2,106
2,058
2,017
1,980
1,946
1,916
1,889
1,865
1,842
1,822
1,803
1,785
1,769
1,754
1,740
1,637
1,534
1,450
1,318
253,043
19,486
8,554
5,664
4,405
3,712
3,275
2,975
2,756
2,588
2,457
2,350
2,261
2,187
2,123
2,068
2,020
1,978
1,940
1,907
1,876
1,849
1,823
1,800
1,779
1,760
1,742
1,725
1,710
1,695
1,589
1,481
1,392
1,243
253,465
19,489
8,545
5,652
4,392
3,698
3,260
2,959
2,739
2,572
2,439
2,332
2,243
2,169
2,105
2,049
2,001
1,958
1,920
1,886
1,855
1,827
1,802
1,779
1,757
1,738
1,719
1,702
1,686
1,672
1,564
1,453
1,359
1,197
254,311
19,496
8,526
5,628
4,365
3,669
3,230
2,928
2,707
2,538
2,404
2,296
2,206
2,131
2,066
2,010
1,960
1,917
1,878
1,843
1,812
1,783
1,757
1,733
1,711
1,691
1,672
1,654
1,638
1,622
1,509
1,389
1,283
1,000
230
6. TABELLEN UND LITERATUR
Tabelle 9
Quantile der F-Verteilung
0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
647,793
38,506
17,443
12,218
10,007
8,813
8,073
7,571
7,209
6,937
6,724
6,554
6,414
6,298
6,200
6,115
6,042
5,978
5,922
5,871
5,827
5,786
5,750
5,717
5,686
5,659
5,633
5,610
5,588
5,568
5,424
5,286
5,179
5,024
799,482
39,000
16,044
10,649
8,434
7,260
6,542
6,059
5,715
5,456
5,256
5,096
4,965
4,857
4,765
4,687
4,619
4,560
4,508
4,461
4,420
4,383
4,349
4,319
4,291
4,265
4,242
4,221
4,201
4,182
4,051
3,925
3,828
3,689
864,151
39,166
15,439
9,979
7,764
6,599
5,890
5,416
5,078
4,826
4,630
4,474
4,347
4,242
4,153
4,077
4,011
3,954
3,903
3,859
3,819
3,783
3,750
3,721
3,694
3,670
3,647
3,626
3,607
3,589
3,463
3,343
3,250
3,116
899,599
39,248
15,101
9,604
7,388
6,227
5,523
5,053
4,718
4,468
4,275
4,121
3,996
3,892
3,804
3,729
3,665
3,608
3,559
3,515
3,475
3,440
3,408
3,379
3,353
3,329
3,307
3,286
3,267
3,250
3,126
3,008
2,917
2,786
921,835
39,298
14,885
9,364
7,146
5,988
5,285
4,817
4,484
4,236
4,044
3,891
3,767
3,663
3,576
3,502
3,438
3,382
3,333
3,289
3,250
3,215
3,183
3,155
3,129
3,105
3,083
3,063
3,044
3,026
2,904
2,786
2,696
2,566
937,114
39,331
14,735
9,197
6,978
5,820
5,119
4,652
4,320
4,072
3,881
3,728
3,604
3,501
3,415
3,341
3,277
3,221
3,172
3,128
3,090
3,055
3,023
2,995
2,969
2,945
2,923
2,903
2,884
2,867
2,744
2,627
2,537
2,408
948,203
39,356
14,624
9,074
6,853
5,695
4,995
4,529
4,197
3,950
3,759
3,607
3,483
3,380
3,293
3,219
3,156
3,100
3,051
3,007
2,969
2,934
2,902
2,874
2,848
2,824
2,802
2,782
2,763
2,746
2,624
2,507
2,417
2,288
956,643
39,373
14,540
8,980
6,757
5,600
4,899
4,433
4,102
3,855
3,664
3,512
3,388
3,285
3,199
3,125
3,061
3,005
2,956
2,913
2,874
2,839
2,808
2,779
2,753
2,729
2,707
2,687
2,669
2,651
2,529
2,412
2,321
2,192
963,279
39,387
14,473
8,905
6,681
5,523
4,823
4,357
4,026
3,779
3,588
3,436
3,312
3,209
3,123
3,049
2,985
2,929
2,880
2,837
2,798
2,763
2,731
2,703
2,677
2,653
2,631
2,611
2,592
2,575
2,452
2,334
2,244
2,114
6.1. TABELLEN
231
Tabelle 10
Quantile der F-Verteilung
0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
968,634
39,398
14,419
8,844
6,619
5,461
4,761
4,295
3,964
3,717
3,526
3,374
3,250
3,147
3,060
2,986
2,922
2,866
2,817
2,774
2,735
2,700
2,668
2,640
2,613
2,590
2,568
2,547
2,529
2,511
2,388
2,270
2,179
2,048
984,874
39,431
14,253
8,657
6,428
5,269
4,568
4,101
3,769
3,522
3,330
3,177
3,053
2,949
2,862
2,788
2,723
2,667
2,617
2,573
2,534
2,498
2,466
2,437
2,411
2,387
2,364
2,344
2,325
2,307
2,182
2,061
1,968
1,833
993,081
39,448
14,167
8,560
6,329
5,168
4,467
3,999
3,667
3,419
3,226
3,073
2,948
2,844
2,756
2,681
2,616
2,559
2,509
2,464
2,425
2,389
2,357
2,327
2,300
2,276
2,253
2,232
2,213
2,195
2,068
1,944
1,849
1,708
1001,405
39,465
14,081
8,461
6,227
5,065
4,362
3,894
3,560
3,311
3,118
2,963
2,837
2,732
2,644
2,568
2,502
2,445
2,394
2,349
2,308
2,272
2,239
2,209
2,182
2,157
2,133
2,112
2,092
2,074
1,943
1,815
1,715
1,566
des Zaehlers
40
1005,596
39,473
14,036
8,411
6,175
5,012
4,309
3,840
3,505
3,255
3,061
2,906
2,780
2,674
2,585
2,509
2,442
2,384
2,333
2,287
2,246
2,210
2,176
2,146
2,118
2,093
2,069
2,048
2,028
2,009
1,875
1,744
1,640
1,484
60
100
150
∞
1009,787
39,481
13,992
8,360
6,123
4,959
4,254
3,784
3,449
3,198
3,004
2,848
2,720
2,614
2,524
2,447
2,380
2,321
2,270
2,223
2,182
2,145
2,111
2,080
2,052
2,026
2,002
1,980
1,959
1,940
1,803
1,667
1,558
1,388
1013,163
39,488
13,956
8,319
6,080
4,915
4,210
3,739
3,403
3,152
2,956
2,800
2,671
2,565
2,474
2,396
2,329
2,269
2,217
2,170
2,128
2,090
2,056
2,024
1,996
1,969
1,945
1,922
1,901
1,882
1,741
1,599
1,483
1,296
1014,851
39,491
13,938
8,299
6,059
4,893
4,188
3,716
3,380
3,128
2,932
2,775
2,647
2,539
2,448
2,370
2,302
2,242
2,190
2,142
2,100
2,062
2,027
1,995
1,966
1,940
1,915
1,892
1,871
1,851
1,708
1,563
1,442
1,239
1018,260
39,498
13,902
8,257
6,015
4,849
4,142
3,670
3,333
3,080
2,883
2,725
2,595
2,487
2,395
2,316
2,247
2,187
2,133
2,085
2,042
2,003
1,968
1,935
1,906
1,878
1,853
1,829
1,807
1,787
1,637
1,482
1,347
1,000
232
6. TABELLEN UND LITERATUR
Tabelle 11
Quantile der F-Verteilung
0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
4052,185
98,502
34,116
21,198
16,258
13,745
12,246
11,259
10,562
10,044
9,646
9,330
9,074
8,862
8,683
8,531
8,400
8,285
8,185
8,096
8,017
7,945
7,881
7,823
7,770
7,721
7,677
7,636
7,598
7,562
7,314
7,077
6,895
6,635
4999,340
99,000
30,816
18,000
13,274
10,925
9,547
8,649
8,022
7,559
7,206
6,927
6,701
6,515
6,359
6,226
6,112
6,013
5,926
5,849
5,780
5,719
5,664
5,614
5,568
5,526
5,488
5,453
5,420
5,390
5,178
4,977
4,824
4,605
5403,534
99,164
29,457
16,694
12,060
9,780
8,451
7,591
6,992
6,552
6,217
5,953
5,739
5,564
5,417
5,292
5,185
5,092
5,010
4,938
4,874
4,817
4,765
4,718
4,675
4,637
4,601
4,568
4,538
4,510
4,313
4,126
3,984
3,782
5624,257
99,251
28,710
15,977
11,392
9,148
7,847
7,006
6,422
5,994
5,668
5,412
5,205
5,035
4,893
4,773
4,669
4,579
4,500
4,431
4,369
4,313
4,264
4,218
4,177
4,140
4,106
4,074
4,045
4,018
3,828
3,649
3,513
3,319
5763,955
99,302
28,237
15,522
10,967
8,746
7,460
6,632
6,057
5,636
5,316
5,064
4,862
4,695
4,556
4,437
4,336
4,248
4,171
4,103
4,042
3,988
3,939
3,895
3,855
3,818
3,785
3,754
3,725
3,699
3,514
3,339
3,206
3,017
5858,950
99,331
27,911
15,207
10,672
8,466
7,191
6,371
5,802
5,386
5,069
4,821
4,620
4,456
4,318
4,202
4,101
4,015
3,939
3,871
3,812
3,758
3,710
3,667
3,627
3,591
3,558
3,528
3,499
3,473
3,291
3,119
2,988
2,802
5928,334
99,357
27,671
14,976
10,456
8,260
6,993
6,178
5,613
5,200
4,886
4,640
4,441
4,278
4,142
4,026
3,927
3,841
3,765
3,699
3,640
3,587
3,539
3,496
3,457
3,421
3,388
3,358
3,330
3,305
3,124
2,953
2,823
2,639
5980,954
99,375
27,489
14,799
10,289
8,102
6,840
6,029
5,467
5,057
4,744
4,499
4,302
4,140
4,004
3,890
3,791
3,705
3,631
3,564
3,506
3,453
3,406
3,363
3,324
3,288
3,256
3,226
3,198
3,173
2,993
2,823
2,694
2,511
6022,397
99,390
27,345
14,659
10,158
7,976
6,719
5,911
5,351
4,942
4,632
4,388
4,191
4,030
3,895
3,780
3,682
3,597
3,523
3,457
3,398
3,346
3,299
3,256
3,217
3,182
3,149
3,120
3,092
3,067
2,888
2,718
2,590
2,407
6.1. TABELLEN
233
Tabelle 12
Quantile der F-Verteilung
0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
des Zaehlers
40
60
100
150
∞
6055,925
99,397
27,228
14,546
10,051
7,874
6,620
5,814
5,257
4,849
4,539
4,296
4,100
3,939
3,805
3,691
3,593
3,508
3,434
3,368
3,310
3,258
3,211
3,168
3,129
3,094
3,062
3,032
3,005
2,979
2,801
2,632
2,503
2,321
6156,974
99,433
26,872
14,198
9,722
7,559
6,314
5,515
4,962
4,558
4,251
4,010
3,815
3,656
3,522
3,409
3,312
3,227
3,153
3,088
3,030
2,978
2,931
2,889
2,850
2,815
2,783
2,753
2,726
2,700
2,522
2,352
2,223
2,039
6208,662
99,448
26,690
14,019
9,553
7,396
6,155
5,359
4,808
4,405
4,099
3,858
3,665
3,505
3,372
3,259
3,162
3,077
3,003
2,938
2,880
2,827
2,780
2,738
2,699
2,664
2,632
2,602
2,574
2,549
2,369
2,198
2,067
1,878
6260,350
99,466
26,504
13,838
9,379
7,229
5,992
5,198
4,649
4,247
3,941
3,701
3,507
3,348
3,214
3,101
3,003
2,919
2,844
2,778
2,720
2,667
2,620
2,577
2,538
2,503
2,470
2,440
2,412
2,386
2,203
2,028
1,893
1,696
6286,427
99,477
26,411
13,745
9,291
7,143
5,908
5,116
4,567
4,165
3,860
3,619
3,425
3,266
3,132
3,018
2,920
2,835
2,761
2,695
2,636
2,583
2,536
2,492
2,453
2,417
2,384
2,354
2,325
2,299
2,114
1,936
1,797
1,592
6312,970
99,484
26,316
13,652
9,202
7,057
5,824
5,032
4,483
4,082
3,776
3,535
3,341
3,181
3,047
2,933
2,835
2,749
2,674
2,608
2,548
2,495
2,447
2,403
2,364
2,327
2,294
2,263
2,234
2,208
2,019
1,836
1,692
1,473
6333,925
99,491
26,241
13,577
9,130
6,987
5,755
4,963
4,415
4,014
3,708
3,467
3,272
3,112
2,977
2,863
2,764
2,678
2,602
2,535
2,476
2,422
2,373
2,329
2,289
2,252
2,218
2,187
2,158
2,131
1,938
1,749
1,598
1,358
6344,635
99,491
26,202
13,539
9,094
6,951
5,720
4,929
4,380
3,979
3,673
3,432
3,237
3,076
2,942
2,827
2,728
2,641
2,565
2,498
2,438
2,384
2,335
2,291
2,250
2,213
2,179
2,147
2,118
2,091
1,896
1,703
1,546
1,288
6365,967
99,500
26,125
13,463
9,020
6,880
5,650
4,859
4,311
3,909
3,602
3,361
3,165
3,004
2,868
2,753
2,653
2,566
2,489
2,421
2,360
2,305
2,256
2,211
2,169
2,131
2,097
2,064
2,034
2,006
1,805
1,601
1,427
1,000
234
6. TABELLEN UND LITERATUR
Tabelle 13
Binomialkoeffizienten
µ ¶
n
k
n
k
0
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
1
1
1
2
1
1
3
3
1
1
4
6
4
1
1
5
10
10
5
1
1
6
15
20
15
6
1
7
21
35
35
21
1
8
28
56
70
56
1
9
36
84
126
126
1
10
45
120
210
252
1
7
1
28
8
1
84
36
9
1
210
120
45
10
1
6
7
8
9
10
n
k
0
1
2
3
4
5
11
12
13
14
15
16
17
18
19
20
1
11
55
165
330
462
1
12
66
220
495
792
1
13
78
286
715
1287
1
14
91
364
1001
2002
1
15
105
455
1365
3003
1
16
120
560
1820
4368
1
17
136
680
2380
6188
1
18
153
816
3060
8568
1
19
171
969
3876
11628
1
20
190
1140
4845
15504
6
7
8
9
10
462
330
165
55
11
924
792
495
220
66
1716
1716
1287
715
286
3003
3432
3003
2002
1001
5005
6435
6435
5005
3003
8008
11440
12870
11440
8008
12376
19448
24310
24310
19448
18564
31824
43758
48620
43758
27132
50388
75582
92378
92378
38760
77520
125970
167960
184756
11
12
13
14
15
1
12
1
78
13
1
364
91
14
1
1365
455
105
15
1
4368
1820
560
120
16
12376
6188
2380
680
136
31824
18564
8568
3060
816
75582
50388
27132
11628
3876
167960
125970
77520
38760
15504
1
17
1
153
18
1
969
171
19
1
4845
1140
190
20
1
16
17
18
19
20
6.1. TABELLEN
235
Tabelle 14
Kumulative Häufigkeiten der
B(n, 0.5)-Binomialverteilung
µ ¶
Pk
i=0
n −n
2
i
n
k
0
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
0,50000
1,00000
1,00000
1,00000
1,00000
1,00000
0,25000
0,75000
1,00000
1,00000
1,00000
1,00000
0,12500
0,50000
0,87500
1,00000
1,00000
1,00000
0,06250
0,31250
0,68750
0,93750
1,00000
1,00000
0,03125
0,18750
0,50000
0,81250
0,96875
1,00000
0,01563
0,10938
0,34375
0,65625
0,89063
0,98438
0,00781
0,06250
0,22656
0,50000
0,77344
0,93750
0,00391
0,03516
0,14453
0,36328
0,63672
0,85547
0,00195
0,01953
0,08984
0,25391
0,50000
0,74609
0,00098
0,01074
0,05469
0,17188
0,37695
0,62305
6
7
8
9
10
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
0,99219
1,00000
1,00000
1,00000
1,00000
0,96484
0,99609
1,00000
1,00000
1,00000
0,91016
0,98047
0,99805
1,00000
1,00000
0,82813
0,94531
0,98926
0,99902
1,00000
n
k
0
1
2
3
4
5
11
12
13
14
15
16
17
18
19
20
0,00049
0,00586
0,03271
0,11328
0,27441
0,50000
0,00024
0,00317
0,01929
0,07300
0,19385
0,38721
0,00012
0,00171
0,01123
0,04614
0,13342
0,29053
0,00006
0,00092
0,00647
0,02869
0,08978
0,21198
0,00003
0,00049
0,00369
0,01758
0,05923
0,15088
0,00002
0,00026
0,00209
0,01064
0,03841
0,10506
0,00001
0,00014
0,00117
0,00636
0,02452
0,07173
0,00000
0,00007
0,00066
0,00377
0,01544
0,04813
0,00000
0,00004
0,00036
0,00221
0,00961
0,03178
0,00000
0,00002
0,00020
0,00129
0,00591
0,02069
6
7
8
9
10
0,72559
0,88672
0,96729
0,99414
0,99951
0,61279
0,80615
0,92700
0,98071
0,99683
0,50000
0,70947
0,86658
0,95386
0,98877
0,39526
0,60474
0,78802
0,91022
0,97131
0,30362
0,50000
0,69638
0,84912
0,94077
0,22725
0,40181
0,59819
0,77275
0,89494
0,16615
0,31453
0,50000
0,68547
0,83385
0,11894
0,24034
0,40726
0,59274
0,75966
0,08353
0,17964
0,32380
0,50000
0,67620
0,05766
0,13159
0,25172
0,41190
0,58810
11
12
13
14
15
1,00000
1,00000
1,00000
1,00000
1,00000
0,99976
1,00000
1,00000
1,00000
1,00000
0,99829
0,99988
1,00000
1,00000
1,00000
0,99353
0,99908
0,99994
1,00000
1,00000
0,98242
0,99631
0,99951
0,99997
1,00000
0,96159
0,98936
0,99791
0,99974
0,99998
0,92827
0,97548
0,99364
0,99883
0,99986
0,88106
0,95187
0,98456
0,99623
0,99934
0,82036
0,91647
0,96822
0,99039
0,99779
0,74828
0,86841
0,94234
0,97931
0,99409
16
17
18
19
20
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
0,99999
1,00000
1,00000
1,00000
1,00000
0,99993
1,00000
1,00000
1,00000
1,00000
0,99964
0,99996
1,00000
1,00000
1,00000
0,99871
0,99980
0,99998
1,00000
1,00000
236
6. TABELLEN UND LITERATUR
Tabelle 15
Quantile der Kolmogorov-Smirnov-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt.
n
α
1
2
3
4
5
0.2
0.90
0.68
0.56
0.49
0.45
0.1
0.95
0.78
0.64
0.56
0.51
0.05
0.98
0.84
0.71
0.62
0.56
0.01
0.99
0.93
0.83
0.73
0.67
6
7
8
9
10
0.41
0.38
0.36
0.34
0.32
0.47
0.44
0.41
0.39
0.37
0.52
0.49
0.46
0.43
0.41
0.62
0.58
0.54
0.51
0.49
11
12
13
14
15
0.31
0.30
0.28
0.27
0.27
0.35
0.34
0.32
0.31
0.30
0.39
0.38
0.36
0.35
0.34
0.47
0.45
0.43
0.42
0.40
16
17
18
19
20
0.26
0.25
0.24
0.24
0.23
0.30
0.29
0.28
0.27
0.26
0.33
0.32
0.31
0.30
0.29
0.39
0.38
0.37
0.36
0.35
25
30
35
40
45
0.21
0.19
0.18
0.17
0.16
0.24
0.22
0.21
0.19
0.18
0.26
0.24
0.23
0.21
0.20
0.32
0.29
0.27
0.25
0.24
groß
1.07
√
n
1.22
√
n
1.36
√
n
1.63
√
n
6.1. TABELLEN
237
Tabelle 16
Quantile der Kolmogorov-Smirnov-Lillefors-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test
mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt.
n
α
4
5
0.2
0.300
0.285
0.1
0.352
0.315
0.05
0.381
0.337
0.01
0.417
0.405
6
7
8
9
10
0.265
0.247
0.233
0.223
0.215
0.294
0.276
0.261
0.249
0.239
0.319
0.300
0.285
0.271
0.258
0.364
0.348
0.331
0.311
0.294
11
12
13
14
15
0.206
0.199
0.190
0.183
0.177
0.230
0.223
0.214
0.207
0.201
0.249
0.242
0.234
0.227
0.220
0.284
0.275
0.268
0.261
0.257
16
17
18
19
20
0.173
0.169
0.166
0.163
0.160
0.195
0.189
0.184
0.179
0.174
0.213
0.206
0.200
0.195
0.190
0.250
0.245
0.239
0.235
0.231
25
30
0.142
0.131
0.158
0.144
0.173
0.161
0.200
0.187
groß
0.736
√
n
0.805
√
n
0.886
√
n
1.031
√
n
238
6. TABELLEN UND LITERATUR
Tabelle 17
Kritische Werte für den Mann-Whitney U-Test
α = 0.05 zweiseitig. n1 , n2 sind die Stichprobenumfänge.
n1
n2
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
-
-
0
0
1
2
6
7
8
9
10
-
0
0
0
1
1
2
2
3
2
3
4
4
5
11
12
13
14
15
-
0
1
1
1
1
3
4
4
5
5
16
17
18
19
20
-
1
2
2
2
2
21
22
23
24
25
-
26
27
28
29
30
11
12
13
14
15
3
5
6
7
8
5
6
8
10
11
8
10
12
14
13
15
17
17
20
23
6
7
8
9
10
9
11
12
13
14
13
14
16
17
19
16
18
20
22
24
19
22
24
26
29
23
26
28
31
34
6
6
7
7
8
11
11
12
13
14
15
17
18
19
20
21
22
24
25
27
26
28
30
32
34
31
34
36
38
41
3
3
3
3
3
8
9
9
10
10
15
16
17
17
18
22
23
24
25
27
29
30
32
33
35
36
38
40
42
44
-
4
4
4
4
5
11
11
12
13
13
19
20
21
22
23
28
29
30
32
33
37
38
40
42
43
31
32
33
34
35
-
5
5
5
5
6
14
14
15
15
16
24
24
25
26
27
34
35
37
38
39
36
37
38
39
40
0
0
6
6
6
7
7
16
17
17
18
18
28
29
30
31
31
40
41
43
44
45
16
17
18
19
20
26
29
33
36
39
30
33
37
40
44
37
41
45
49
45
50
54
55
59
64
37
39
42
45
48
42
45
48
52
55
47
51
55
58
62
53
57
61
65
69
59
63
67
72
76
64
69
74
78
83
70
75
80
85
90
75
81
86
92
98
87
93
99
105
99
106
112
113
119
43
45
48
50
53
50
53
56
59
62
58
61
64
67
71
65
69
73
76
80
73
77
81
85
89
80
85
89
94
98
127
88
93
98
102
107
96
101
106
111
117
103
109
115
120
126
111
117
123
129
135
119
125
132
138
145
126
133
140
147
154
134
141
149
156
163
46
48
50
52
54
55
57
60
62
65
64
67
70
73
76
74
77
80
83
87
83
87
90
94
98
93
97
101
105
109
102
107
111
116
120
112
117
122
127
131
122
127
132
138
143
132
137
143
149
154
141
147
154
160
166
151
158
164
171
177
161
168
175
182
189
171
178
186
193
200
45
46
48
50
51
56
58
60
62
64
67
69
72
74
77
78
81
84
87
89
90
93
96
99
103
101
105
108
112
116
113
117
121
125
129
125
129
133
138
142
136
141
146
151
156
148
153
159
164
169
160
166
171
177
183
172
178
184
190
196
184
190
197
203
210
196
203
210
217
224
208
215
222
230
237
53
55
56
58
59
66
68
70
72
74
79
81
84
86
89
92
95
98
101
103
106
109
112
115
119
119
123
127
130
134
133
137
141
145
149
147
151
156
160
165
161
165
170
175
180
174
180
185
190
196
188
194
200
206
211
202
209
215
221
227
216
223
230
236
243
231
238
245
252
258
245
252
259
267
274
6.1. TABELLEN
239
Tabelle 18
Kritische Werte für den Wilcoxon-Test für verbundene Stichproben
α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang.
α
n
6
7
8
9
10
0.05
0.025
0.01
2
3
5
8
10
0
2
3
5
8
0
1
3
5
11
12
13
14
15
13
17
21
25
30
10
13
17
21
25
16
17
18
19
20
35
41
47
53
60
21
22
23
24
25
0.005
0.05
0.025
0.01
0.005
0
1
3
α
n
36
37
38
39
40
227
241
256
271
286
208
221
235
249
264
185
498
211
224
238
171
182
194
207
220
7
9
12
15
19
5
7
9
12
15
41
42
43
44
45
302
319
336
353
371
279
294
310
327
343
252
266
281
296
312
233
247
261
276
291
29
34
40
46
52
23
27
32
37
43
19
23
27
32
37
46
47
48
49
50
389
407
426
446
466
361
378
396
415
434
328
345
362
379
397
307
322
339
355
373
67
75
83
91
100
58
65
73
81
89
49
55
62
69
76
42
48
54
61
68
51
52
53
54
55
486
507
529
550
573
453
473
494
514
536
416
434
454
473
493
390
408
427
445
465
26
27
28
29
30
110
119
130
140
151
98
107
116
126
137
84
92
101
110
120
75
83
91
100
109
56
57
58
59
60
595
618
642
666
690
557
579
602
625
648
514
535
556
578
600
484
504
525
546
567
31
32
33
34
35
163
175
187
200
213
147
159
170
182
195
130
140
151
162
173
118
128
138
148
159
61
62
63
64
65
715
741
767
793
820
672
697
721
747
772
623
646
669
693
718
589
611
634
657
681
240
6. TABELLEN UND LITERATUR
6.2. Literatur
Es gibt unzählige Lehrbücher der Statistik für Naturwissenschaften, darunter
viele sehr gute. Die folgende Auswahl erhebt keinen Anspruch auf Vollständigkeit
und ist durchaus subjektiv gefärbt. Ich zitiere die mir vorliegenden Auflagen, sicher
haben manche der Werke inzwischen Neuauflagen erfahren.
Lehrbücher und Einführungen:
• W. Köhler, G. Schachtel, P. Voleske, Biostatistik, 3. Auflage, Springer
2002. (Taschenbuch) Speziell auf die Bedürfnisse der Biologie zugeschnitten. Trotz
des Taschenbuchformates sehr reichhaltig, sorgfältig erklärt, und mit vielen Methoden.
Mein Tipp als Grundlage zum Lernen!
• R. J. Lorenz, Grundbegriffe der Biometrie, 3. Auflage, Gustav Fischer
Verlag, 1992. (Taschenbuch) Dieses Buch umfasst nicht sehr viele Methoden, der
Autor gibt sich aber besondere Mühe um das Grundverständnis. Leicht lesbar.
• R. Leonhart, Lehrbuch Statistik, Einstieg und Vertiefung, Verlag Hans
Huber 2004. (Hardcover) Sehr viele Methoden! Der Autor gibt sich viel Mühe, die
praktische Relevanz und den Sinn der Methoden zu erklären. Beachtung verdient auch
die Sorgfalt, mit der die übersichtliche Gestaltung des Buches durchdacht wurde. Vom
Beginn des Buches, der für meinen Geschmack etwas zu gelehrt aufgemacht sind “Eine
Messung ist eine homomorphe Abbildung” sollte man sich nicht abschrecken lassen.
Ich warte gespannt auf die zweite Auflage.
• W. Mendenhall, T. Sincich, Statistics for Engineers and the Sciences, 4th
ed., Prentice Hall 1995. (Hardcover, Englisch). Für meinen Geschmack das
beste Statistiklehrbuch, das mir untergekommen ist. Sorgfältig erklärt, mit sehr vielen
Übungsbeispielen, die wirklich aus der Praxis kommen. Umfangreich an Seiten, daher
etwas langatmiger zu lesen.
• M. Monka, N. M. Schöneck, W. Voss, Statistik am PC, Lösungen mit Excel. Carl Hanser Verlag, 2008. Umfangreicher Text, denn es wird großer Wert auf
gut lesbare, verständliche und trotzdem fundierte Erklärung gelegt. Viele Methoden
bis zur multiplen Regression und (allerdings nur kurz) Varianzanalyse. Ein besonderer Vorteil des Buches liegt in der Verwendung und Erklärung des allgegenwärtigen
Programmes Excel.
Weiterführende Literatur über multivariate Statistik: Gerade in den Biowissenschaften trifft man oft auf Studien mit Vergleich vieler verschiedener Merkmale und
Faktoren. Für solche Situationen wurden die Methoden der multivariaten Statistik
erfunden, für die in einer Grundvorlesung leider keine Zeit bleibt.
• J. F. Hair, R. E. Anderson, R. L. Tatham, W. C. Black, Multivariable Data
Analysis, 5th ed., Prentice Hall 1998. (Englisch, Hardcover) Eines der vielen
Lehrbücher über multivariate Statistik, nach meiner Ansicht besonders gut gelungen.
Jede Methode ein Kapitel, die Kapitel lassen sich voneinander unabhängig lesen, sodass
man gezielt lernen kann, was man braucht. Zu jeder Methode eine Fallstudie. Keine
Formeln, gut lesbar für Nicht-Mathematiker.
• M. H. Katz, Multivariable Analysis, A practical guide for clinicians, Cambridge University Press 1999. (Englisch, Paperback) Kein Lehrbuch der multivariaten Statistik, aber eine sehr nützliche Ergänzung, die auf die praktischen Details
und Hindernisse eingeht, auf die man bei der Umsetzung multivariater Methoden in
klinischen Studien stößt.
Tabellen, Computer, Sonstiges:
• A. Bühl, P. Zöfel, SPSS 12, Einführung in die moderne Datenanalyse
unter Windows, 9. Auflage, Pearson 2005. (Hardcover. Beiliegend CD mit
6.2. LITERATUR
241
Datenfiles). Sehr gut erklärte und umfangreiche Einführung in SPSS, gut geeignet
zum Selbststudium, und auch zum Auffinden und Herauspicken einzelner Methoden.
Praxisnahe Beispiele auf Datendiskette.
• W. Krämer, So lügt man mit Statistik, Piper 2000. (Taschenbuch). Pointierte, sehr unterhaltsame Illustration, wie Statistik oft absichtlich oder unabsichtlich
missbräuchlich und irreführend angewendet wird. Anregende Lektüre, vor allem, wenn
man selbst in die Situation kommt, Daten darzustellen.
• H. Rinne, Taschenbuch der Statistik, 3. Auflage, Verlag Harri Deutsch
2003. (Taschenbuch, Kunststoffeinband) Sammlung von Tabellen, Formeln, Verteilungen, Methoden im Überblick. Kein Lehrbuch, sondern ein Nachschlagebuch für
jemand, der viel Statistik braucht.