Statistik für BiologInnen - Institut für Mathematik und

Werbung
Statistik für BiologInnen
Wolfgang Desch
Institut für Mathematik
und Wissenschaftliches Rechnen
Karl-Franzens-Universität Graz
1.
2.
3.
4.
5.
6.
Beschreibende Statistik
Zufallsgrößen
Statistisches Schätzen und Testen
Wechselwirkungen zwischen Merkmalen
Übungen
Tabellen und Literatur
KAPITEL 1
Beschreibende Statistik
Übersicht:
1 Merkmale und Häufigkeiten
1.1. Merkmalstypen und absolute Häufigkeiten
1.2. Kumulative Häufigkeiten und Histogramme
2 Kennzahlen
2.1. Perzentile
2.2. Mittelwert
2.3. Varianz und Standardabweichung
2.4. Andere Kennzahlen auf Grundlage von Summationen
2.5. Kennzahlen für nominale Merkmale
3 Zusammenhang zwischen zwei Merkmalen
3.1. Regressionsgerade
3.2. Korrelation
1.1. Merkmale und Häufigkeiten
Übersicht:
1. Merkmalstypen und absolute Häufigkeiten
2. Kumulative Häufigkeiten und Histogramme
1.1.1. Merkmalstypen und absolute Häufigkeiten.
Übersicht:
1.
2.
3.
4.
Merkmale
Skalenniveaus
Absolute und relative Häufigkeit
Stabdiagramm und Kreisdiagramm
1.1.1.1. Merkmale.
Statistische Aussagen machen Angaben über die Häufigkeit des Auftretens bestimmter Eigenschaften innerhalb einer (meist großen) Grundgesamtheit von Individuen (Merkmalsträgern), oder die Häufigkeit des Auftretens bestimmter Ereignisse bei einer großen Anzahl von Versuchen. Die einzelnen Individuen heißen die
Merkmalsträger, die Kriterien, durch die sie sich unterscheiden, die Merkmale. Bei
jedem Merkmalsträger findet sich das Merkmal in einer bestimmten Ausprägung.
In den seltensten Fällen kann die ganze Grundgesamtheit untersucht werden, oft
zieht man zur Untersuchung nur eine Stichprobe heran, um von dieser auf die ganze
1
2
1. BESCHREIBENDE STATISTIK
Grundgesamtheit (mit entsprechender Vorsicht) Rückschlüsse zu ziehen. Die Anzahl der Merkmalsträger in der Stichprobe heißt der Stichprobenumfang und wird
in Formeln oft mit n bezeichnet.
Tipp 1.1.1.1. Auch wenn es ganz einfach ist: Machen Sie sich bei jedem statistischen Problem klar, wer die Merkmalsträger sind, was die Grundgesamtheit ist,
welche Merkmale untersucht sind und welche Ausprägungen vorkommen können.
Eine besondere Falle ist, dass sowohl Ausprägungen als auch Häufigkeiten durch
Zahlenwerte ausgedrückt werden können.
1.1.1.2. Skalenniveaus.
Merkmale kommen auf verschiedenen Skalenniveaus vor. Aus dem Skalenniveau
ergibt sich, welche statistischen Methoden verwendet werden dürfen. Daher werden
bereits bei der Anlage der Merkmale in Statistikprogrammen die Skalenniveaus
eingegeben. Man unterscheidet die folgenden Skalenniveaus:
Definition 1.1.1.2. Es gibt Merkmale auf folgenden Skalenniveaus:
1) nominal: Die Gesamtheit ist in gleichberechtigte Kategorien unterteilt.
Die Ausprägung besteht darin, zu welcher Kategorie der Merkmalsträger
gehört.
2) ordinal: Die Ausprägungen stellen eine Rangordnung dar.
3) intervallskaliert: Die Ausprägungen sind Zahlenwerte, mit denen Rechnungen sinnvoll sind. Man kann z.B. (durch Subtraktion) den Abstand
zweier Ausprägungen angeben.
4) verhältnis-skaliert: Die Ausprägungen liegen auf einer Skala mit absolutem Nullpunkt. Z.B. ist die Aussage: “Das Merkmal ist bei A doppelt
so stark wie bei B” sinnvoll.
Intervall- oder verhältnisskalierte Merkmale bezeichnet man auch als metrisch.
Beispiel 1.1.1.3. Die hygienischen Verhältnisse in einem Katzenheim mit einigen hundert InsassInnen sind ins Gerede gekommen. Zur Überprüfung werden
20 Katzen nach verschiedenen Gesichtspunkten untersucht. Die Erhebung ergibt
folgende Tabelle, von der wir nur die ersten Zeilen und Spalten angeben:
Name
Alexis
August
Betty
Caesar
Dora
.
..
Geschlecht
m,w
m
m
w
m
w
.
..
Allgemeinzustand
1–5, 1=sehr gut
2
4
1
3
2
.
..
Gewicht
kg
3.4
2.6
5.1
3.1
4.2
.
..
Aktivität
1–5, 1=hyperaktiv
1
3
2
5
2
.
..
Anzahl Flöhe
gezählt
0
1
0
4
1
.
..
...
...
...
...
...
...
Diskussion: In diesem Beispiel sind die Merkmalsträger die Katzen. Die Grundgesamtheit sind
die Katzen des Tierheims, von denen eine Stichprobe mit Stichprobenumfang 20 entnommen
wurde. Jede Zeile der Tabelle gehört zu einem Merkmalsträger der Stichprobe. Die beobachteten
Merkmale und ihre Ausprägungen sind:
Merkmal
Skalenniveau mögliche Ausprägungen
Geschlecht
nominal
m,w
Allgemeinzustand
ordinal
sehr gut – ganz schlecht
Gewicht
metrisch
Zahlenwert in kg
Aktivität
ordinal
hyperaktiv – lethargisch
metrisch
ganze Zahlen
Anzahl Flöhe
.
.
.
..
..
..
1.1. MERKMALE UND HÄUFIGKEITEN
3
¤
Tipp 1.1.1.4. Wenn ein Merkmal durch eine Zahl angegeben wird, muss es
deshalb noch lange nicht metrisch sein!
1.1.1.3. Absolute und relative Häufigkeit.
Definition 1.1.1.5. Die absolute Häufigkeit einer Ausprägung eines Merkmals in einer Gesamtheit ist die Anzahl der Merkmalsträger, die das Merkmal in
der gegebenen Ausprägung aufweisen.
Die relative Häufigkeit einer Ausprägung ist die absolute Häufigkeit, gebrochen
durch die Anzahl aller Merkmalsträger der Gesamtheit.
Absolute und relative Häufigkeiten gibt es sowohl innerhalb der Grundgesamtheit als auch innerhalb der Stichprobe. Sehr oft besteht die Aufgabe der Statistik
darin, die uns unbekannten Häufigkeiten in der Grundgesamtheit auf Grund der
gegebenen Häufigkeiten innerhalb einer Stichprobe zu schätzen.
Beispiel 1.1.1.6. Die Untersuchungen über die hygienischen Verhältnisse in
einem Katzenheim (Beispiel 1.1.1.3) beinhalten insbesondere eine Zählung der Flöhe
auf jeder Katze der Stichprobe. Das Ergebnis dieser Detailuntersuchung wurde in
der folgenden Häufigkeitstabelle zusammengefasst:
Katzen mit
keinem Floh
1 Floh
2 Flöhen
3 Flöhen
4 Flöhen
5 Flöhen
mehr Flöhen
Gesamt:
Anzahl
5
3
4
4
3
1
0
20
Anteil an der Stichprobe
0.25
0.15
0.20
0.20
0.15
0.05
0.00
1.00
Diskussion: Die Tabelle ist nach den Ausprägungen eines Merkmals, nämlich der Anzahl der Flöhe,
sortiert: Jede Zeile entspricht einer Ausprägung. Die Tabelle enthält die absoluten Häufigkeiten.
Zum Beispiel ist 5 die absolute Häufigkeit der Ausprägung “kein Floh”, es gab in der Stichprobe
5 Katzen, auf denen gar kein Floh gefunden wurde. Das ist ein Viertel der gesamten Stichprobe,
daher ist ein Viertel = 0.25 die relative Häufigkeit der Ausprägung “kein Floh”. Die Summe aller
absoluten Häufigkeiten ist der Stichprobenumfang: Es wurden 20 Katzen gezählt. Die relativen
Häufigkeiten müssen sich immer auf 1 summieren. ¤
Beispiel 1.1.1.7. Wie unterscheiden sich die Tabellen in Beispiel 1.1.1.3 und
Beispiel 1.1.1.6, und wie kann man aus diesen Tabellen die absoluten Häufigkeiten
der Ausprägungen des Merkmals “Anzahl der Flöhe” ablesen?
Diskussion: Die Tabelle in Beispiel 1.1.1.3 ist nach Merkmalsträgern geordnet: Jeder Katze gehört
eine Zeile. Wäre die Tabelle im Beispiel vollständig angegeben, könnte man die absoluten Häufigkeiten jeder Ausprägung bestimmen, indem man einfach die Zeilen zählt, in denen die entsprechende Ausprägung vorkommt.
Die Tabelle in Beispiel 1.1.1.6 ist nach Ausprägungen sortiert: Jede Zeile entspricht einer
möglichen Anzahl von Flöhen. Die absoluten Häufigkeiten sind direkt in der zweiten Spalte ablesbar. ¤
4
1. BESCHREIBENDE STATISTIK
1.1.1.4. Stabdiagramm und Kreisdiagramm.
Wir lernen hier noch zwei Methoden kennen, Häufigkeitsverteilungen grafisch
darzustellen. Es gibt noch viele andere Methoden, Sie müssen nur aufmerksam die
Zeitungen durchblättern, um weitere Möglichkeiten zu entdecken.
Methode 1.1.1.8. Ein Stabdiagramm zeigt in horizontaler Anordnung die verschiedenen Ausprägungen eines Merkmals. Über jeder Ausprägung wird ein Balken in der Höhe der absoluten oder relativen Häufigkeit eingezeichnet. Eine Skala
auf der senkrechten Achse ermöglicht das Ablesen der Häufigkeiten. Absolute und
relative Häufigkeiten werden durch dasselbe Stabdiagramm, nur mit unterschiedlicher Skala, dargestellt. Stabdiagramme sind für alle Skalenniveaus (sogar nominal)
möglich.
Beispiel 1.1.1.9. Die Häufigkeitsverteilung der Ausprägungen des Merkmals
“Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle (aus Beispielen 1.1.1.3 und
1.1.1.6) ist durch ein Stabdiagramm darzustellen:
Katzen mit
keinem Floh
1 Floh
2 Flöhen
3 Flöhen
4 Flöhen
5 Flöhen
mehr Flöhen
Gesamt:
Anzahl
5
3
4
4
3
1
0
20
Anteil an der Stichprobe
0.25
0.15
0.20
0.20
0.15
0.05
0.00
1.00
Diskussion: Zunächst müssen wir den Platz einteilen. Es gibt 6 Ausprägungen, für die wir je einen
senkrechten Balken zeichnen, die wir in gleichen Abständen auf der Zeichnung anbringen. Die
größte absolute Häufigkeit ist 5, daher brauchen wir Platz für Balken bis zur Höhe 5. Entsprechend
legen wir die senkrechte Skala fest. Wir zeichnen nun zu jeder Ausprägung den Balken in Höhe
der absoluten Häufigkeit. Ein Stabdiagramm reicht zur Beschreibung der absoluten und relativen
Häufigkeit, wir bringen eine Skala für die absolute und eine für die relative Häufigkeit an. Eine
absolute Häufigkeit von 2 entspricht einer relativen Häufigkeit von 0.1.
Stabdiagramm zu Beispiel 1.1.1.6
¤
1.1. MERKMALE UND HÄUFIGKEITEN
5
Methode 1.1.1.10. Im Kreisdiagramm (Tortendiagramm) wird jeder Ausprägung ein Sektor eines Kreises zugewiesen, dessen Anteil an der gesamten Kreisfläche die relative Häufigkeit der Ausprägung ist. Es gilt also für den Winkel des
Sektors (in Grad):
Winkel = 360 · relative Häufigkeit
Kreisdiagramme lassen sich für Merkmale aller Skalenniveaus anfertigen.
Beispiel 1.1.1.11. Die Häufigkeitsverteilung der Ausprägungen des Merkmals
“Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle aus Beispiel 1.1.1.9 ist
durch ein Kreisdiagramm darzustellen.
Diskussion: Aus den relativen Häufigkeiten ergeben sich die Winkel der Sektoren (die entsprechenden Bruchteile von 360◦ ):
Ausprägung
0
1
2
3
4
5
¤
rel. Häufigkeit
0.25
0.15
0.20
0.20
0.15
0.05
Winkel (◦ )
90
54
72
72
54
18
Kreisdiagramm zu Beispiel 1.1.1.6
Tipp 1.1.1.12. In Zeitungen finden Sie oft Diagramme, die mit allen möglichen Grafikeffekten verziert und “interessanter” gemacht sind: Menschenfiguren
oder Geldstapel statt Balken, verschiedene Schattenwürfe, eingeblendete Bilder,
und mehr Kitsch von dieser Sorte. Ersparen Sie sich bei der Anfertigung Ihrer Grafiken diese unnötige Arbeit und vermeiden Sie alle Effekte, die von der wesentlichen
Information ablenken: Sie machen die Grafik nur unübersichtlicher.
6
1. BESCHREIBENDE STATISTIK
Was Sie jetzt können:
Begriffe und Wissen: Merkmal, Merkmalsträger, Grundgesamtheit, Stichprobe, Umfang einer Gesamtheit, Ausprägung, Skalenniveau, absolute und relative Häufigkeiten.
Methoden: Lesen und Aufstellen von Häufigkeitstabellen, Berechnen
relativer Häufigkeiten aus absoluten Häufigkeiten und Umfang der
Gesamtheit, Erstellen von Stab- und Kreisdiagrammen.
1.1.2. Kumulative Häufigkeiten und Histogramme.
Übersicht:
1. Kumulative Häufigkeiten
2. Histogramm und empirische Verteilungsfunktion
3. Klasseneinteilung
1.1.2.1. Kumulative Häufigkeiten.
Definition 1.1.2.1. Für ein ordinales oder metrisches Merkmal ist die absolute kumulative Häufigkeit einer Ausprägung x die Anzahl der Merkmalsträger,
die das Merkmal in der gegebenen Ausprägung x oder einer in der Ordnung unter
x liegenden Ausprägung aufweisen.
Die relative kumulative Häufigkeit ist die absolute kumulative Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit.
Merksatz 1.1.2.2.
Die absolute Häufigkeit einer Klasse von Ausprägungen beantwortet die
Frage: “Wieviele Merkmalsträger befinden sich in der Klasse.”
Die relative Häufigkeit einer Klasse von Ausprägungen beantwortet die
Frage: “Welcher Anteil der Merkmalsträger befindet sich in der Klasse.”
Die absolute kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Wieviele Merkmalsträger haben Ausprägungen, die
kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?”
Die relative kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Welcher Anteil der Merkmalsträger hat Ausprägungen,
die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?”
Beispiel 1.1.2.3. Eine Längenmessung von Insekten ergab folgende Tabelle:
Länge (mm)
inkl. 5 bis exkl. 7
inkl. 7 bis exkl. 8
inkl. 8 bis exkl. 9
inkl. 9 bis inkl. 13
Anzahl Insekten
5
15
20
10
Berechnen Sie den Stichprobenumfang, die relativen Häufigkeiten sowie die absoluten und relativen kumulativen Häufigkeiten.
1.1. MERKMALE UND HÄUFIGKEITEN
7
Diskussion: Das Merkmal ist die Länge der Insekten, die möglichen Ausprägungen sind positive
Zahlen in der Größenordnung bis etwa 15 mm. Um eine Tabelle zu erstellen und nicht für jedes
Insekt eine andere Zahl einzutragen, wurden die Längen in Klassen geteilt. (Typischerweise nimmt
man gleich breite Klassen, aber diesmal wurden zwei Klassen mit Breite 1 mm und zwei breitere
Klassen für die ganz großen und ganz kleinen Insekten gewählt.) Die Anzahl der Insekten in jeder
Längenklasse ist die absolute Häufigkeit der Klasse.
Summiert man alle absoluten Häufigkeiten, so erhält man den Stichprobenumfang, also n =
50. Dividiert man die absoluten Häufigkeiten durch den Stichprobenumfang, so erhält man die
relativen Häufigkeiten.
Die absolute kumulative Häufigkeit jeder Klasse ist die Summe der absoluten Häufigkeiten
aller Klassen zwischen der untersten Klasse und der betrachteten Klasse. Für die Klasse 5–7 mm
ist das zugleich ihre absolute Häufigkeit, denn es gibt keine kleinere Klasse, also 5. Nun folgt die
Klasse 7–8 mm, es kommt eine absolute Häufigkeit von 15 dazu, damit beträgt die kumulative
Häufigkeit 20. Die Klasse 8–9 mm trägt eine absolute Häufigkeit von 20 bei, diese summieren sich
zu einer kumulativen Häufigkeit von 40. Letztlich liefert die Klasse 9–13 mm noch eine absolute
Häufigkeit von 10, die absolute kumulative Häufigkeit dieser Klasse ist daher 50. Da dies die
oberste Klasse ist, ist nun die ganze Stichprobe aufgebraucht: Die absolute kumulative Häufigkeit
ist der Stichprobenumfang.
Die relativen kumulativen Häufigkeiten kann man ebenso berechnen, nur dass man relative
Häufigkeiten summiert. Man kann auch die absoluten kumulativen Häufigkeiten durch den Stichprobenumfang dividieren. Beide Methoden liefern dasselbe Ergebnis. Am Ende steht folgende
Tabelle da:
Länge (mm)
xi
inkl. 5 bis exkl. 7
inkl. 7 bis exkl. 8
inkl. 8 bis exkl. 9
inkl. 9 bis inkl. 13
Summe
Häufigkeiten
absolut relativ
ai
fi
5
0.1
15
0.3
20
0.4
10
0.2
50
1.00
kumulative Häufigkeiten
absolut
relativ
ki
Fi
5
0.1
20
0.4
40
0.8
50
1.0
¤
1.1.2.2. Histogramm und empirische Verteilungsfunktion.
Methode 1.1.2.4. Die Häufigkeiten der Ausprägungen metrischer Merkmale
lassen sich als Histogramm darstellen, wenn die Daten in Klassen gruppiert sind.
Jede Klasse ist durch ihre untere und obere Klassengrenze festgelegt, Ausprägungen innerhalb dieses Intervalls werden zu dieser Klasse gezählt. Es wird zu Beginn
festgelegt, ob Ausprägungen, die genau an der Grenze zweier Klassen liegen, zur
oberen oder zur unteren Klasse gezählt werden. Die Klassenbreite ist die Differenz von der oberen und der unteren Klassengrenze. Die Besetzungsdichte einer
Klasse errechnet sich durch die Formel
relative Häufigkeit
Besetzungsdichte =
.
Klassenbreite
Auf der waagrechten Achse werden die Klassengrenzen aufgetragen, darüber Rechtecke in der Höhe der Besetzungsdichten. Die Flächen dieser Rechtecke sind dann
gerade die relativen Häufigkeiten der Klassen.
Methode 1.1.2.5. Die kumulativen Ausprägungen metrischer Merkmale lassen
sich durch die empirische Verteilungsfunktion darstellen, wenn die Daten in
Klassen gruppiert sind (vgl. Methode 1.1.2.4). Auf der waagrechten Achse werden
die Klassengrenzen aufgetragen. Über der oberen Grenze jeder Klasse wird senkrecht
ihre kumulative Häufigkeit aufgetragen, an der untersten Klassengrenze wird 0 aufgetragen. Die Punkte werden durch Geraden verbunden, sodass sich ein Polygonzug
ergibt.
8
1. BESCHREIBENDE STATISTIK
Beispiel 1.1.2.6. Die Daten aus Beispiel 1.1.2.3 sind durch ein Histogramm
darzustellen, die empirische Verteilungsfunktion ist einzuzeichnen.
Diskussion: Die Besetzungsdichten ergeben sich als relative Häufigkeiten gebrochen durch die
Klassenbreite:
Ausprägung
5–7
7–8
8–9
9 – 13
Klassenbreite
2
1
1
4
rel. Häufigkeit
0.1
0.3
0.4
0.2
Besetzungsdichte
0.05
0.3
0.4
0.05
kum. rel. H.
0.1
0.4
0.8
1.0
Wir zeichnen Histogrammbalken jeweils waagrecht vom Anfang zum Ende jeder Klasse, als
Höhe verwenden wir die eben errechneten Besetzungsdichten. Die empirische Verteilungsfunktion
setzt sich aus Geradenstücken zusammen. Sie beginnt am unteren Ende der untersten Klasse, also
bei Länge 5, mit dem Wert 0. Am oberen Ende jeder Klasse erreicht die empirische Verteilungsfunktion die relative kumulative Häufigkeit dieser Klasse.
1
0.9
0.8
relative Haeufigkeit
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
5
¤
6
7
8
9
Laenge
10
11
12
13
Histogramm und empirische Verteilungsfunktion zu Beispiel 1.1.2.6
Merksatz 1.1.2.7. Die Fläche der Balken eines Histogramms über einer Klasse
ist gerade die relative Häufigkeit dieser Klasse.
Die Steigung der empirischen Verteilungsfunktion über einer Klasse ist gerade
die Besetzungsdichte. Die empirische Verteilungsfunktion steigt umso schneller, je
höher die Histogrammbalken sind.
1.1.2.3. Klasseneinteilung.
Um in dieser Vorlesung nicht immer “inklusive” — “exklusive” schreiben zu
müssen, führen wir noch eine sehr bequeme Schreibweise ein.
Definition 1.1.2.8. Seien a und b zwei Zahlen mit a ≤ b. Wir definieren die
folgenden Intervalle:
[a, b] die Menge aller Zahlen zwischen a und b, wobei a und b mitgerechnet
werden (“abgeschlossenes Intervall”).
(a, b) die Menge aller Zahlen zwischen a und b, wobei a und b nicht mitgerechnet werden (“offenes Intervall”).
[a, b) die Menge aller Zahlen zwischen a und b, wobei a mitgerechnet und
b nicht mitgerechnet wird (“halboffenes Intervall”).
(a, b] die Menge aller Zahlen zwischen a und b, wobei a nicht mitgerechnet
und b mitgerechnet wird (“halboffenes Intervall”).
1.1. MERKMALE UND HÄUFIGKEITEN
9
Wir sind Klasseneinteilungen schon bei der grafischen Methode des Histogramms begegnet. Um den Sinn einer Klasseneinteilung zu verstehen, beginnen
wir mit einem Beispiel:
Beispiel 1.1.2.9. In einer Studie wurden 40 Schlangen einer kleinen Natternart
vermessen, es ergaben sich folgende Längen:
Länge (cm)
Ausprägung
29
32
45
46
49
50
52
53
54
56
58
Anzahl
abs. Häuf.
1
1
2
1
3
2
1
2
3
2
1
kum. Häuf.
1
2
4
5
8
10
11
13
16
18
19
Länge (cm)
Ausprägung
61
62
63
64
65
67
69
70
72
75
81
Anzahl
abs. Häuf.
1
3
2
3
2
3
2
1
1
2
1
kum. Häuf.
20
23
25
28
30
33
35
36
37
39
40
Diese Daten sind grafisch darzustellen.
Diskussion: Wir beginnen mit einer Variante des Stabdiagramms, wobei wir waagrecht die Länge
der Schlagen auftragen, und darüber senkrecht die Anzahl der Schlangen dieser Länge.
0.08
rel. Haeufigkeit
0.06
0.04
0.02
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 ohne Klasseneinteilung
Dieses Diagramm ist sehr unübersichtlich, es finden sich viele gleich hohe Stäbe und dazwischen viele Lücken. Je nachdem, ob zufällig zwei oder drei Schlangen auf den Zentimeter gleich
lang waren, finden sich Stäbe, die höher sind als 1/40. Ob genau zwei Schlangen derselben Länge
gefunden wurden, oder sich die Längen der Schlangen um einen Zentimeter unterscheiden, ist
biologisch irrelevant. Daher ist die Höhe der Stäbe eher ein Zufallsprodukt ohne biologische Bedeutung, wesentlich ist, wo sich die Stäbe häufen, was weniger bequem abzulesen ist.
Eine bessere Vorstellung erhält man, wenn man die Tiere in Klassen teilt:
Größe
sehr klein
klein
mittel
groß
sehr groß
Klassen (cm)
[29,40)
[40,50)
[50,60)
[60,70)
[70,81]
Klassenmitte
34.5
45.0
55.0
65.0
75.5
abs. Häufigkeit
2
6
11
16
5
10
1. BESCHREIBENDE STATISTIK
Außer den Häufigkeiten und Klassengrenzen haben wir auch die Klassenmitte angegeben, den
Mittelwert von oberer und unterer Klassengrenze. Für den Fall, dass man für weitere Rechnungen
einen Zahlenwert für die Längen der Schlangen jeder Klasse braucht, kann man die Klassenmitte
heranziehen.
Die folgende Grafik zeigt das Histogramm für diese Klasseneinteilung. Dies ist wesentlich
übersichtlicher und informativer. Man sieht, dass die Längen zwischen 60 und 70 cm am häufigsten
auftreten. In Richtung größere Längen fällt die Häufigkeit sehr schnell ab. In Richtung auf die
kleineren Längen fällt die Häufigkeit langsamer ab. Es liegt eine schiefe Häufigkeitsverteilung vor.
0.04
rel. Haeufigkeit
0.03
0.02
0.01
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit Klasseneinteilung
In der folgenden Grafik zeichnen wir zweimal die empirische Verteilungsfunktion: Durchgezogen ohne Klasseneinteilung (d.h., die Klassenbreiten sind hier jeweils 1 cm), und strichliert mit
der obigen Klasseneinteilung. Man sieht, dass sich die Klasseneinteilung auf die empirische Verteilungsfunktion nicht wesentlich auswirkt, der Polygonzug ist nur etwas weniger “zittrig”. Alles,
was auf kumulativen Häufigkeiten beruht, wird durch Klasseneinteilungen nicht stark verändert.
1
kumulative rel. Haeufigkeit
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
20
30
40
50
60
Laenge cm
70
80
90
Empirische Verteilungsfunktion zu Beispiel 1.1.2.9 mit und ohne Klasseneinteilung
Die letzten beiden Grafiken zeigen die Wirkung einer gröberen und einer feineren Klasseneinteilung. Die folgende Klasseneinteilung ist eindeutig zu grob, fast alle Information ist verloren
gegangen.
1.1. MERKMALE UND HÄUFIGKEITEN
11
rel. Haeufigkeit
0.03
0.02
0.01
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit grober Klasseneinteilung
Die folgende Klasseneinteilung ist feiner. Sie zeigt eine zweigipfelige Verteilung. Das könnte
ein Zufallsprodukt auf Grund der feinen Klasseneinteilung sein. Wenn die Klassen klein sind, kann
durch Zufall leicht eine leer oder unterbesetzt ausfallen.
0.05
0.045
0.04
rel. Haeufigkeit
0.035
0.03
0.025
0.02
0.015
0.01
0.005
0
20
30
40
50
60
Laenge cm
70
80
90
Stabdiagramm zu Beispiel 1.1.2.9 mit feiner Klasseneinteilung
¤
Methode 1.1.2.10. Bei umfangreichen Datensätzen mit einem metrischen Merkmal kann man eine Klasseneinteilung vornehmen, indem man im Bereich der möglichen Realisierungen Klassengrenzen festlegt, wodurch der Bereich in halboffene Intervalle, die Klassen, aufteilt wird.
Soll zu Rechenzwecken jeder Klasse als Ausprägung nicht ein Intervall, sondern
eine Zahl zugeordnet werden, so bietet sich dafür der Mittelwert zwischen unterer
und oberer Klassengrenze an.
Merksatz 1.1.2.11. Wie viele und wie breit die Klassen einer Klasseneinteilung sein sollen, richtet sich nach dem Zweck der Studie. Der wesentliche Vorteil
einer gröberen Klasseneinteilung ist die Übersichtlichkeit der Darstellung. Andererseits fällt durch eine gröbere Klasseneinteilung auch mehr Information weg, denn
12
1. BESCHREIBENDE STATISTIK
statt der genauen Zahlenwerte der Ausprägungen werden jetzt nur mehr Intervalle
erfasst.
Statistische Kennzahlen errechnet man am besten an Hand der unklassifizierten Daten, während grafische Darstellungen und Übersichtstabellen oft mit der
Klasseneinteilung informativer ausfallen.
Alle Kennzahlen und Methoden, die auf kumulativen Häufigkeiten beruhen,
werden von Klasseneinteilungen nur sehr gering beeinflusst.
Was Sie jetzt können:
Begriffe und Wissen: Absolute und relative kumulative Häufigkeit.
Methoden: Berechnen und interpretieren von kumulativen Häufigkeiten. Histogramm und empirische Verteilungsfunktion. Klasseneinteilung, ihre Vorteile und Nachteile.
1.2. Kennzahlen
Übersicht:
1.
2.
3.
4.
5.
Perzentile
Mittelwert
Varianz und Standardabweichung
Weitere Kennzahlen auf Grundlage von Summationen
Kennzahlen für nominale Daten
1.2.1. Perzentile.
Übersicht:
1.
2.
3.
4.
Definition des Perzentils
Perzentile für metrische Daten mit Klasseneinteilung
Spannweite und Quartilsabstand
Box-Whisker-Diagramm
1.2.1.1. Definition des Perzentils.
Definition 1.2.1.1. Seien x1 , x2 , · · · , xm die Ausprägungen eines ordinalen
(oder metrischen) Merkmals, aufsteigend der Größe nach geordnet. Seien F1 , · · · , Fm
die zugehörigen relativen kumulativen Häufigkeiten. Sei a eine Zahl zwischen 0 und
100. Das a%-Perzentil ist jene Ausprägung xi , bei der die relative kumulative
Häufigkeit Fi erstmals den Wert a/100 erreicht und überschreitet.
Erreicht die kumulative Häufigkeit bei der Ausprägung xi exakt den Wert a/100
(ohne ihn zu überschreiten), so geben manche Autoren als a%-Perzentil das Paar
(xi , xi+1 ) an. Bei metrischen Daten kann man auch das arithmetische Mittel 12 (xi +
xi+1 ) angeben.
Einige Perzentile besitzen besondere Bedeutung und haben eigene Namen:
1.2. KENNZAHLEN
13
Definition 1.2.1.2. Die folgenden Perzentile besitzen Eigennamen:
0%
25%
50%
75%
100%
Minimum: Die kleinste Ausprägung, die vorkommt.
Erstes Quartil oder unteres Quartil.
Median oder Zweites Quartil.
Drittes Quartil oder oberes Quartil.
Maximum: Die größte Ausprägung, die vorkommt.
Das a%-Perzentil bezeichnet man auch als das
a
100
- Quantil.
Häufig werden auch das 10%-Perzentil und das 90%-Perzentil angegeben.
Merksatz 1.2.1.3. Das a%-Perzentil ist eine Kenngröße der Lage. Es gibt Antwort auf die Frage: Bei welcher Ausprägung liegt die Grenze zwischen den unteren
a Prozent und den oberen 100 − a Prozent der Stichprobe oder der Gesamtheit?
Beispiel 1.2.1.4. Eine Statistik sagt, dass das 90%-Perzentil des Körpergewichtes von Kindern eines gewissen Alters bei 35 kg liegt. Was heißt das?
Diskussion: Die kumulative Häufigkeit erreicht (und überschreitet) bei 35 kg erstmals 90%. Das
heißt: 90% der Kinder dieses Alters wiegen höchstens 35 kg, die anderen 10% der Kinder sind
schwerer. ¤
Beispiel 1.2.1.5. Ein Test in einer Klasse von 20 StudentInnen ergab folgende
Noten:
Note
1
Anzahl Studierende 5
2
11
3
1
4
2
5
1
Bestimmen Sie den Median, die Quartile und das 20%-Perzentil.
Diskussion: Wir beginnen mit einer Tabelle der Häufigkeiten, insbesondere der kumulativen relativen Häufigkeiten:
Note
1
2
3
4
5
ges.
abs.
5
11
1
2
1
20
Häufigkeit
rel. rel. kum.
0.25
0.25
0.55
0.8
0.05
0.85
0.10
0.95
0.05
1.00
1.00
Die ersten 50% werden bei der Note 2 erreicht und überschritten, daher liegt der Median bei
der Note 2.
Die ersten 25% werden bei der Note 1 erreicht, aber erst bei der Note 2 überschritten. Das
erste Quartil liegt zwischen den Noten 1 und 2, wir können auch sagen, das erste Quartil liegt auf
1.5.
Die ersten 75% werden bei der Note 2 erreicht und überschritten. Daher liegt das dritte
Quartil bei der Note 2. Sie sehen, dass in diesem Fall Median und drittes Quartil zusammenfallen.
Die ersten 20% werden bei der Note 1 erreicht und überschritten. Das 20%-Perzentil liegt bei
der Note 1. ¤
14
1. BESCHREIBENDE STATISTIK
1.2.1.2. Perzentile für metrische Merkmale mit Klasseneinteilung.
Für metrische Daten, die in Intervalle gruppiert sind, ist die obige Definition
des Perzentils unbefriedigend. Nach der obigen Definition ist das Perzentil in diesem Fall eine Klasse, ein Intervall. Man hätte lieber eine einzelne Zahl anstelle eines
Intervalls. Wie grob die obige Definition ist, sieht man gut im vorigen Beispiel, wo
Median und drittes Quartil in eine Klasse zusammenfallen. Für metrische Merkmale, die in Intervalle klassifiziert sind, gibt es daher eine zweite, feinere Definition
der Perzentile.
Definition 1.2.1.6 (Perzentile für Daten mit Klasseneinteilung). Sei X ein
metrisches Merkmal und a ∈ [0, 100] eine Zahl. Das a%-Perzentil von X ist jene
Ausprägung x , für den die empirische Verteilungsfunktion F den Wert F (x) =
a/100 annimmt. Es gilt die Formel:
a
100
− F (xi )
.
F (xi+1 ) − F (xi )
Dabei sind xi , xi+1 die untere und obere Grenze jener Klasse, in der die kumulative
Häufigkeit erstmals den Wert a/100 übersteigt. F (xi ), F (xi+1 ) sind die Werte der
empirischen Verteilungsfunktion, zugleich die kumulativen Häufigkeiten der Klassen
[xi−1 , xi ) bzw. [xi , xi+1 ).
a%-Perzentil = xi + (xi+1 − xi )
Beispiel 1.2.1.7. Die Längen von 40 Schlangen einer kleinen Vipernart wurden
gemessen. Es ergab sich folgende Häufigkeitstabelle:
Länge
[30, 40)
[40, 50)
[50, 60)
[60, 70)
[70, 80]
gesamt
absolut
2
6
10
16
6
40
Häufigkeiten
relativ rel. kumulativ
0.05
0.05
0.15
0.20
0.25
0.45
0.40
0.85
0.15
1.00
1.00
Bestimmen Sie Median, Quartile und 20%-Perzentil nach der Definition 1.2.1.6
für gehäufte metrische Daten.
Diskussion: Die folgende Grafik zeigt die empirische Verteilungsfunktion. Erinnern Sie sich, dass
diese Funktion jeweils an der oberen Grenze einer Klasse durch die kumulative Häufigkeit dieser
Klasse definiert ist, und zwischen den Klassengrenzen durch ein Geradenstück interpoliert wird:
empirische Verteilungsfunktion
1
0.75
50% Niveau
0.5
0.25
Median bei 61.25
0
20
30
40
50
60
70
80
Laenge
Beispiel 1.2.1.7: Empirische Verteilungsfunktion
90
1.2. KENNZAHLEN
15
Wir berechnen nun die Perzentile nach der Formel:
Perzentil
Prozent
Klassengrenzen
untere obere
kum. rel.
Häufigkeiten
untere obere
Perzentil
Formel
Wert
1. Quartil
25%
50
60
0.20
0.45
0.25−0.20
50 + (60 − 50) 0.45−0.20
=
52.00
Median
50%
60
70
0.45
0.85
0.50−0.45
60 + (70 − 60) 0.85−0.45
=
61.25
3. Quartil
75%
60
70
0.45
0.85
0.75−0.45
60 + (70 − 60) 0.85−0.45
=
67.50
20%-Perzentil
20%
50
60
0.20
0.45
0.20−0.20
50 + (60 − 50) 0.45−0.20
=
50.00
Sie sehen, dass diese Methode zum Beispiel im Stande ist, Median und drittes Quartil zu
unterscheiden, obwohl beide in derselben Klasse liegen. ¤
Tipp 1.2.1.8. SPSS berechnet für metrische, nicht in Klassen gruppierte, Daten
das a% Perzentil nach folgender Formel: Gegeben seien die Daten x1 , · · · , xn in
aufsteigender Reihenfolge. Sei
a
k=
(n + 1),
100
Ist k eine ganze Zahl, so wähle xk als das a-Perzentil. Ist k eine Bruchzahl m + r
mit ganzer Zahl m und Rest r ∈ (0, 1), so berechne das a-Perzentil durch
xm + r(xm+1 − xm ).
SPSS hat aber auch die Möglichkeit, Perzentile für in Klassen gruppierte Daten zu
berechnen. Dazu müssen die Mittelpunkte der Klassen eingegeben werden.
1.2.1.3. Spannweite und Quartilsabstand.
Definition 1.2.1.9. Sei X ein metrisches Merkmal.
Die Spannweite von X ist die Differenz von Maximum minus Minimum.
Der Quartilsabstand (manchmal auch Interquartilsabstand genannt) ist
die Differenz 3. Quartil minus 1. Quartil.
Merksatz 1.2.1.10. Spannweite und Quartilsabstand sind Kenngrößen der
Streuung. Je größer diese Zahlen sind, desto stärker streuen die Daten.
Beispiel 1.2.1.11. Bestimmen Sie für die Stichprobe aus Beispiel 1.2.1.7 die
Spannweite und den Quartilsabstand (berechnet nach der Definition 1.2.1.6 der
Perzentile für klassifizierte metrische Daten).
Diskussion: Aus den Lösungen von Beispiel 1.2.1.7 entnehmen wir folgende Werte:
Minimum
1. Quartil
Median
3. Quartil
Maximum
30.00
52.00
61.25
67.50
80.00
Daraus errechnen sich:
Spannweite
Quartilsabstand
¤
80-30 =
67.50-52.00 =
50
15.50
16
1. BESCHREIBENDE STATISTIK
Warum man den Quartilsabstand lieber als Streuungsmaß einsetzt als die Spannweite, erklärt das nächste Beispiel.
Beispiel 1.2.1.12. An einer Baustelle gilt eine Geschwindigkeitsbeschränkung
auf 30 km h. Eine kurze Radarmessung ergab an 10 vorbeifahrenden Autofahrern
folgende Werte
Messung Nr.
Geschwindigkeit
1
30.3
2
28.6
3
29.4
4
31.5
5
42.0
6
27.0
7
30.2
8
30.8
9
32.0
10
30.2
Die Mannschaft will eben die Radargeräte abbauen, da dirigiert Eberhard Wunderwarzenschwein seinen Ferrari mit 286.9 km/h durch die Meßstelle.
Welche Auswirkungen hat dieser extreme Wert (Ausreißer) auf die Statistik?
Diskussion: Wir beginnen mit einer Tabelle der Ausprägungen und ihrer relativen kumulativen
Häufigkeiten mit und ohne Ausreißer. (Die relativen Häufigkeiten sind zugleich die Werte der
empirischen Verteilungsfunktion an den gegebenen Stellen):
Geschwindigkeit
27.0
28.6
29.4
30.2
30.3
30.8
31.5
32.0
42.0
286.9
gesamt
Häufigkeiten ohne Ausreißer
abs. rel.
rel. kum.
1
0.1
0.1
1
0.1
0.2
1
0.1
0.3
2
0.2
0.5
1
0.1
0.6
1
0.1
0.7
1
0.1
0.8
1
0.1
0.9
1
0.1
1.0
0
0.0
1.0
10
1.0
Häufigkeiten mit Ausreißer
abs.
rel.
rel. kum.
1
0.091
0.091
1
0.091
0.182
1
0.091
0.273
2
0.182
0.455
1
0.091
0.545
1
0.091
0.636
1
0.091
0.727
1
0.091
0.818
1
0.091
0.909
1
0.091
1.000
11
1.0
Wir berechnen die Perzentile, Quartilsabstand und Spannweite mit und ohne Ausreißer:
Perzentil
Minimum
1. Quartil
Median
3. Quartil
Maximum
Spannweite
Quartilsabstand
ohne Ausreißer
27.00
29.40
30.25
31.50
42.00
15
2.10
mit Ausreißer
27. 00
29.40
30.30
32.00
286.90
259.90
2.60
Sie sehen, dass der extrem hohe Ausreißer natürlich Maximum und Spannweite stark verändert.
Die Quartile und der Quartilsabstand verändern sich nur geringfügig. ¤
Merksatz 1.2.1.13. Perzentile und Quartilsabstand sind äußerst robust (unempfindlich) gegen allfällige Ausreißer. Dagegen hängen natürlich Maximum, Minimum und Spannweite extrem empfindlich von Ausreißern ab.
Merksatz 1.2.1.14. Ein statistischer Ausreißer ist ein Datenwert oder Datensatz, dessen Wert weitab vom Grossteil der Daten einer Statistik liegen. Das
Auftreten eines Ausreißers kann unterschiedliche Gründe haben:
1) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die aber für die vorliegende Untersuchung nicht bedeutend
sind.
2) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die auf Phänomene hinweisen, die in der vorliegenden Untersuchung erfaßt werden sollten.
1.2. KENNZAHLEN
17
3) Der Ausreißer entsteht durch einen Meß- oder Beobachtungsfehler, oder
durch einen Fehler in der Weiterleitung der Daten.
Es gibt statistische Methoden, Ausreißer aufzufinden und zu kennzeichnen. Unter
welchem der drei obigen Gesichtspunkte der Ausreißer betrachtet werden muss, liegt
in der Verantwortung des Untersuchenden und kann mit rein formalen statistischen
Methoden nicht geklärt werden.
1.2.1.4. Box-Whisker-Plot.
Methode 1.2.1.15. Einen Boxplot oder Box-Whisker-Plot aus einer Stichprobe eines metrischen Merkmals erstellt man folgendermaßen:
Rechnerische Vorbereitung:
1) Median, Quartile und Quartilsabstand werden errechnet.
2) Es werden die “inneren Grenzen” bestimmt:
erstes Quartil - 1.5 × Quartilsabstand
drittes Quartil + 1.5 × Quartilsabstand
3) Es werden die “äußeren Grenzen” bestimmt:
erstes Quartil - 3 × Quartilsabstand
drittes Quartil + 3 × Quartilsabstand
4) Es werden die Daten identifiziert, welche zwischen den inneren und
äußeren Grenzen liegen, dieses sind die suspekten Ausreißer.
5) Es werden die Daten identifiziert, welche außerhalb der äußeren Grenzen liegen, dieses sind die sehr suspekten Ausreißer.
6) Es werden der größte und kleinste Wert der verbleibenden Daten bestimmt, wir bezeichnen diese als Maximum und Minimum innerhalb
der inneren Grenzen.
Zeichnung:
7) Es wird senkrecht eine Skala angelegt, die vom Minimum bis zum Maximum aller Ausprägungen reicht. (Man kann die Skala auch waagrecht anlegen, alle weiteren Schritte erfolgen dann entsprechend gedreht.)
8) Median und Quartile werden durch kleine übereinanderliegende waagrechte Striche eingezeichnet. Die Quartile werden dann durch senkrechte Striche verbunden, sodaß sich eine Box mit einem Teilstrich
im Median ergibt.
9) Das Maximum und Minimum innerhalb der inneren Grenzen werden ebenfalls durch waagrechte Striche eingezeichnet. Diese werden
je durch einen senkrechten Strich in der Mitte mit der Box verbunden
(“Whiskers”).
10) Die suspekten Ausreißer werden mit einem Kreis eingezeichnet.
11) Die sehr suspekten Ausreißer werden mit einem Stern eingezeichnet.
In einer vereinfachten Methode verzichtet man auf die Analyse der Ausreisser und
zeichnet die Whisker vom dritten Quartil bis zum Maximum, und vom Minimum
bis zum ersten Quartil.
Beispiel 1.2.1.16. Gewichtsmessung an einer Stichprobe aus einer Rattenpopulation ergab folgende Kennzahlen (Gewichte in g):
Minimum
erstes Quartil
Median
drittes Quartil
Maximum
100
150
250
300
450
18
1. BESCHREIBENDE STATISTIK
Stellen Sie diese Daten durch einen Box-Whisker-Plot dar (ohne Analyse der
Ausreisser), und kennzeichnen Sie darin den Median, die Spannweite, und den Quartilsabstand.
Boxplot zu Beispiel 1.2.1.16
Beispiel 1.2.1.17. In zwei aufeinanderfolgenden Jahren wurde eine Lehrveranstaltung abgehalten. Bei den Schlusstests waren jeweils hundert Punkte erreichbar.
Für jedes Jahr wurde eine Tabelle der erreichten Punktewertungen erstellt. Die
Ergebnisse der beiden Studienjahre sind je durch einen Boxplot zusammengefasst:
100,0
1
80,0
2
Punkte
1
60,0
40,0
20,0
2
1
2
1
0,0
2003
2004
Jahr
Boxplots zu Beispiel 1.2.1.17
Interpretieren Sie die Grafik.
Diskussion: Die Hälfte der Studierenden im Jahr 2003 hatte Punktezahlen zwischen ca. 40 und 50,
insgesamt lagen die Punktezahlen zwischen ca. 2 und 98, wobei so extreme Werte aber nur durch
wenige (6) Ausreisser angenommen wurden. Die restlichen Ergebnisse lagen im Bereich zwischen
ca. 25 und 65. Die Hälfte der Studierenden hatte eine bessere Punktezahl als ca. 45.
1.2. KENNZAHLEN
19
Die Hälfte der Studierenden im Jahr 2004 hatte Punktezahlen zwischen ca. 35 und 50, die
Ergebnisse lagen insgesamt zwischen ca. 5 und 90. Abgesehen von 4 Ausreissern lagen die Punktezahlen im Bereich zwischen ca. 25 und 70. Die Hälfte der Studierenden hatte eine bessere Note
als ca. 40.
Die Ergebnisse der beiden Jahre sind nicht sehr verschieden. Der Vergleich der Mediane lässt
die Studierenden des ersten Jahres etwas besser abschneiden. Betrachtet man die Quartilsabstände
oder die Spannweite der Ergebnisse ohne Berücksichtigung der Ausreißer, so sieht man, dass der
Jahrgang 2004 etwas mehr zu streuen scheint.
Sie sehen, dass durch Boxplots viel Information auf kleinem Raum gegeben werden kann.
¤
Was Sie jetzt können:
Begriffe und Wissen: Unterschied zwischen Kenngrößen der Lage
und Kenngrößen der Streuung. Perzentile, Median, Quartil, Quantil, Maximum, Minimum, Quartilsabstand, Spannweite. Statistische
Ausreißer.
Methoden: Bestimmen und interpretieren von Perzentilen und den
damit verwandten statistischen Kenngrößen. Boxplots zeichnen und
interpretieren.
1.2.2. Mittelwert.
Übersicht:
1. Summenzeichen
2. Mittelwert
2. Varianten der Berechnung des Mittelwertes
1.2.2.1. Summenzeichen.
Viele Formeln in der Statistik summieren Häufigkeiten oder Ausprägungen von
vielen Daten. Um Formeln mit solchen Summen exakt und doch bequem aufzuschreiben, gibt es das Summenzeichen.
Definition 1.2.2.1. Seien x1 , x2 , · · · , xn Zahlen. Sei 1 ≤ p ≤ q ≤ n. Das
Summenzeichen bedeutet:
q
X
xi = xp + xp+1 + · · · + xq−1 + xq .
i=p
(D.h., addiere die Werte xi , wobei i von p bis q läuft.)
Tipp 1.2.2.2. Die Benennung des Summationsindex spielt keine Rolle, er ist
nur ein Name für die Nummern, die durchgezählt werden. Die folgenden beiden
Summen ergeben dasselbe:
6
6
X
X
xt =
xi .
t=2
i=2
20
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.2.3. In der folgenden Tabelle sind Zahlen a1 , · · · , a4 und b1 , · · · , b4
gegeben. Bestimmen Sie die folgenden Summen:
P4
P4
ai ,
i=1
j=1 bj ,
P
P4
P4
4
2a
−
3b
,
2
t
t
³P t=1 at −
´ ³3P t=1 bt ,´
P4t=1
4
4
n=1 bn ,
n=1 an
n=1 an bn ,
³
´
2
P4
P
4
2
,
k=1 ak ,
k=1 ak
P4
k=1 23.
i ai bi
1 4 3
2 5 2
3 2 0
4 3 1
Diskussion: In der folgenden Tabelle fassen wir alle Additionen zusammen, die wir durchführen:
i
1
2
3
4
Summe
Damit haben wir:
4
X
ai
4
5
2
3
14
bi
3
2
0
1
6
2ai
8
10
4
6
4
X
ai = 14,
i=1
4
X
3bi
9
6
0
3
2ai − 3bi
-1
4
4
3
10
ebenso:
t=1
2
4
X
Ã
an bn = 25,
aber:
n=1
at − 3
4
X
Ã
a2k
= 54,
aber:
4
X
4
X
bt = 2 × 14 − 3 × 6 = 10,
t=1
!Ã
an
n=1
k=1
4
X
23
23
23
23
23
92
bj = 6,
t=1
4
X
a2i
16
25
4
9
54
j=1
2at − 3bt = 10
4
X
ai bi
12
10
0
3
25
!2
ak
4
X
!
bn
= 14 × 6 = 84,
n=1
= 142 = 196,
k=1
23 = 92.
k=1
¤
Merksatz 1.2.2.4. Für das Summenzeichen gelten folgende Regeln:
a) Summen von Summen und Differenzen darf man in zwei Summen zerlegen:

 

q
q
q
X
X
X
(ai ± bi ) = 
ai  ± 
bi  .
i=p
i=p
i=p
b) Konstante Faktoren darf man aus der Summe herausheben:
q
X
(k · ai ) = k ·
i=p
q
X
ai .
i=p
c) Es ist nicht gleichgültig, ob man zuerst multipliziert und dann summiert
oder umgekehrt:

 

q
q
q
X
X
X
(ai · bi ) 6= 
ai  · 
bi  .
i=p
i=p
i=p
1.2. KENNZAHLEN
21
d) Es ist nicht gleichgültig, ob man zuerst quadriert und dann summiert oder
umgekehrt:

2
q
q
X
X
a2i 6= 
ai  .
i=p
i=p
e) Wird n mal dieselbe Zahl k summiert, so ergibt sich nk.
q
X
k = (q − p + 1)k.
i=p
1.2.2.2. Mittelwert.
Definition 1.2.2.5. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe
sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen
Merkmales x für die Merkmalsträger Nummer 1 · · · n. Der Mittelwert x von x
innerhalb dieser Gesamtheit (Stichprobe) ist dann
n
x=
1X
xi
n i=1
(Häufig wird auch die Schreibweise µ(x) oder µx für den Mittelwert von x verwendet.)
Wir geben der Vollständigkeit halber bereits hier die Definition einer weiteren
Kenngröße der Lage an, obwohl sie zu den Kenngrößen der nominalen Merkmale
gehört:
Definition 1.2.2.6. Der Modal eines Merkmals ist jene Ausprägung, die am
häufigsten vorkommt. (Ein Merkmal kann mehrere Modale haben!)
Merksatz 1.2.2.7. Mittelwert, Median und Modal sind Kenngrößen der Lage.
1) Der Mittelwert gibt den Durchschnittswert der Ausprägung eines metrischen Merkmals innerhalb einer Gesamtheit an. Den Mittelwert kann man
nur von metrischen Merkmalen angeben.
2) Der Median gibt die Grenze an, die die untere und obere Hälfte der Ausprägungen trennt. Den Median kann von zu ordinalen (und metrischen)
Merkmalen angeben.
3) Der Modal gibt dagegen an, welche Ausprägung am häufigsten vorkommt,
also wo der Gipfel des Stabdiagramms liegt. Den Modal gibt es auch zu
nominalen, und damit zu allen Merkmalen.
Mittelwert, Median, und Modal müssen nicht auf denselben Wert fallen.
Beispiel 1.2.2.8. Das folgende Stabdiagramm und die dazugehörige Statistik
nach SPSS zeigt eine deutlich linksgipfelige Verteilung. Vergleichen Sie Modal, Median und Mittelwert.
22
1. BESCHREIBENDE STATISTIK
Prozent
30
20
10
0
,00
1,00
2,00
3,00
4,00
5,00
6,00
7,00
8,00
9,00
10,00
Auspraegung
Eine linksgipfelige Verteilung
N
gültig
fehlend
Mittelwert
Modus
Standardabweichung
Varianz
Spannweite
Minimum
Maximum
Perzentile
25
50
75
63
0
3.4286
2.00
2.2484
5.055
10.00
0.00
10.00
2.0000
3.0000
4.0000
Diskussion: Der Mittelwert (3.4286) liegt deutlich rechts vom Median (3.0000). Der Median wird
nur von der Anzahl und Reihung der Daten, nicht von ihren Zahlenwerten beeinflußt. In den
Mittelwert gehen auch die Zahlenwerte ein. Bei der linksgipfeligen Verteilung sind die Daten im
unteren Bereich dicht gedrängt, im oberen Bereich weit gestreut. Der Median trennt die untere
und die obere Hälfte. Da die Daten in der oberen Hälfte aber weit gestreut sind und zahlenmäßig
hoch hinauf gehen, wird der Mittelwert weiter nach rechts gezogen. In der Statistik finden wir
auch den Modal (Modus, 2.0000), also den Gipfel. Er liegt bei der linksgipfeligen Verteilung noch
weiter links als der Median. Außerdem finden wir die Quartile, Maximum und Minimum, und die
Spannweite. Die Streuungskennzahlen Standardabweichung und Varianz werden wir im nächsten
Unterabschnitt kennenlernen.
¤
Tipp 1.2.2.9. Stellen Sie sich ein Stabdiagramm oder Histogramm vor, als
wären die Balken aus Ziegeln auf einem Brett aufgestapelt. Wenn Sie das Brett
auf einer einzigen Stütze schaukeln lassen, müssen Sie es unter dem Mittelwert
unterstützen, damit es in der Waage bleibt.
1.2.2.3. Varianten zur Berechnung des Mittelwertes.
Methode 1.2.2.10. Den Mittelwert einer Stichprobe kann man auf verschiedene Arten berechnen:
1.2. KENNZAHLEN
23
1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn
gegeben, so ist
n
1X
x=
xi .
n i=1
2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist der Mittelwert
m
x=
1X
ai xi .
n i=1
Dabei ist der Stichprobenumfang
n=
m
X
ai .
i=1
3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist der Mittelwert
x=
m
X
fi x i .
i=1
Beispiel 1.2.2.11. In einer Klasse von 10 Schülern kommen bei einer Schularbeit die Noten von 1 bis 3 vor. Wir geben die Tabelle der Noten in drei verschiedenen
Formen. Wie ist der Mittelwert der Noten?
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
Note
1
3
1
2
3
2
2
1
1
2
Note
1
2
3
absolute Häufigkeit
5
3
2
Note
1
2
3
relative Häufigkeit
0.5
0.3
0.2
Diskussion: Alle drei folgenden Wege führen zum Mittelwert:
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
10 SchülerInnen
Mittelwert
¤
xi
Note
1
3
1
2
3
1
2
1
1
2
Summe 17
17/10=1.7
xi
Note
1
2
3
Summe
Mittelwert
ai
abs. H.
5
3
2
10
xi
Note
1
2
3
Mittelwert
fi
rel. H.
0.5
0.3
0.2
x i ai
5
6
6
17
17/10 = 1.7
xi fi
0.5
0.6
0.6
1.7
24
1. BESCHREIBENDE STATISTIK
Merksatz 1.2.2.12. Achten Sie bei der Berechnung von Mittelwert und Varianz auf folgende Frage: Stellen die Zeilen Ihrer Tabelle jeweils nur einen Datensatz
dar, oder steht in jeder Zeile eine Häufigkeitsangabe, sodass eine Zeile sich auf mehrere Individuen bezieht? Falls eine Häufigkeitsangabe steht, muss die Häufigkeit in
die Berechnung des Mittelwertes und der Varianz einbezogen werden.
Was Sie jetzt können:
Begriffe und Wissen: Mittelwert, Modal
Methoden: Umgang mit dem Summenzeichen, Berechnung
des Mittelwertes
1.2.3. Varianz und Standardabweichung.
Übersicht:
1. Streuung
2. Varianz und Standardabweichung
3. Faustregel zur Interpretation der Standardabweichung
1.2.3.1. Streuung.
Merkmale kommen in der Grundgesamtheit fast immer in mehreren verschiedenen Ausprägungen vorkommen (andere Merkmale werden erst gar nicht statistisch
untersucht). Nun kann ein Merkmal entweder stark streuen, das heißt, es kommt
in vielen verschiedenen Ausprägungen vor, und Unterschiede werden oft beobachtet, oder es streut schwach, es kommen fast immer die gleiche oder ganz ähnliche
Ausprägungen vor. Wenn wir aus der Grundgesamtheit eine Stichprobe entnehmen, spielt der Zufall mit, welche Ausprägungen in der Stichprobe vorkommen.
Streut das Merkmal schwach, so ist der Einfluß des Zufalls auf die Stichprobe geringm, weil ja ohnehin fast immer ganz ähnliche Ausprägungen vorkommen: Mit
großer Wahrscheinlichkeit haben wir auch diese Ausprägungen fast durchwegs in der
Stichprobe. Sind dagegen die Ausprägungen in der Grundgesamtheit bunt gemischt,
spielt der Zufall eine große Rolle bei der Zusammensetzung der Stichprobe. Es wird
dann, durch diesen Einfluss des Zufalls, wesentlich riskanter und schwieriger, aus
der Stichprobe Rückschlüsse auf die Grundgesamtheit zu machen.
Merksatz 1.2.3.1. Wenn ein Merkmal stark streut, dann
1) hat der Zufall viel Einfluß auf alle Vorgänge, in denen dieses Merkmal
involviert ist, z.B. auf die Zusammensetzung von Stichproben,
2) sind Schlüsse, die auf Grund von Stichproben über dieses Merkmal gemacht werden, unsicher und mit großer Vorsicht vorzunehmen.
1.2. KENNZAHLEN
25
Daten mit verschiedener Lage und Streuung
Um die Sicherheit unserer Schlüsse zu beurteilen, brauchen wir also ein Maß
dafür, wie stark ein Merkmal streut. Solche Maße sind, wie wir schon wissen, die
Spannweite und der Quartilsabstand, die auf Basis der Perzentile ermittelt werden.
Auf Grundlage von Summenformeln werden dagegen die Varianz und die Standardabweichung eingeführt.
1.2.3.2. Varianz und Standardabweichung.
Definition 1.2.3.2. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe
sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen
Merkmales x für die Merkmalsträger Nummer 1 · · · n. Sei x der Mittelwert von
x innerhalb dieser Gesamtheit. Die Varianz von x innerhalb dieser Gesamtheit
(Stichprobe) ist dann
n
1X
σ 2 (x) =
(xi − x)2 .
n i=1
Die Quadratwurzel aus der Varianz heißt Standardabweichung:
p
σ(x) = σ 2 (x)
Tipp 1.2.3.3.
1) Verschiedene Schreibweisen werden für die Varianz eingeführt, z.B. s2 , σ 2
oder Var(x). Um zu spezifizieren, dass sich eine Varianz auf das Merkmal
x bezieht, kann wiederum σ 2 (x) oder σx2 geschrieben werden.
2) Das Quadrat über σ 2 als Kürzel der Varianz sieht zunächst willkürlich aus,
ist aber konsistent mit der Schreibweise σ für die Standardabweichung.
3) Manche Autoren definieren die Varianz von vorneherein mit
n
1 X
2
σ (x) =
(xi − x)2 .
n − 1 i=1
Wir werden noch sehen, unter welchen Umständen man mit dem Nenner n − 1 statt n rechnen muss. Vorläufig warnen wir nur, dass also die
Definition der Varianz von Autor zu Autor verschieden ist. Insbesondere
rechnen Statistikpakete üblicherweise mit n − 1.
26
1. BESCHREIBENDE STATISTIK
Merksatz 1.2.3.4.
1) Varianz und Standardabweichung sind Kenngrößen der Streuung. Je größer
die Varianz, desto mehr streuen die Daten.
2) Die Varianz ist immer positiv.
3) Die Varianz ist nur dann gleich Null, wenn alle Merkmalsträger dieselbe
Ausprägung haben.
4) Als alternative Kenngrößen der Streuung kennen wir bereits die Spannweite und den Quartilsabstand.
Diskussion: Das ist leicht zu verstehen: Die Summanden (xi −x)2 sind immer positiv, daher ergibt
sich eine positive Summe. Diese ist (wegen der Positivität der Summanden) nur dann exakt Null,
wenn alle Summanden gleich null sind. Je weiter die Ausprägung xi vom Mittelwert entfernt ist,
desto größer ist der Summand (xi − x)2 . Eine große Varianz tritt also dann auf, wenn häufig
Ausprägungen vorkommen, die vom Mittelwert stark abweichen. ¤
Genau wie beim Mittelwert gibt es verschiedene Wege, die Varianz zu berechnen, je nachdem, ob die Daten pro Merkmalsträger oder als Liste der Häufigkeiten
vorliegen. In jedem dieser Fälle gibt es wiederum zwei Rechenwege:
Methode 1.2.3.5. Die Varianz einer Stichprobe mit Stichprobenumfang n kann
man auf verschiedene Arten berechnen:
1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn
und ihr Mittelwert x gegeben, so ist die Varianz
n
σ 2 (x) =
n
1X
1X 2
(xi − x)2 =
x − x2 .
n i=1
n i=1 i
2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist die Varianz
m
σ 2 (x) =
n
1X
1X
ai (xi − x)2 =
ai x2i − x2 .
n i=1
n i=1
Dabei ist der Stichprobenumfang
n=
m
X
ai .
i=1
3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist die Varianz
σ 2 (x) =
m
X
i=1
fi (xi − x)2 =
m
X
i=1
fi x2i − x2 .
1.2. KENNZAHLEN
27
Diskussion: Es läßt sich leicht zeigen, dass die jeweils zweite Formel dasselbe liefert wie die jeweils
erste. Wir beweisen das für die Situation, wenn die Daten pro Merkmalsträger gegeben sind:
n
1X
(xi − x)2 =
n i=1
=
n
1X 2
(x − 2xxi + x2i ) =
n i=1 i
=
n
n
n
1X 2
1X
1X 2
xi −
2xxi +
x =
n i=1
n i=1
n i=1
=
n
n
1X
1
1X 2
xi − 2x
xi + nx2 =
n i=1
n i=1
n
=
n
1X 2
x − 2x2 + x2 =
n i=1 i
=
n
1X 2
x − x2 .
n i=1 i
¤
Beispiel 1.2.3.6. Berechnen Sie die Varianz und Standardabweichung zu den
Daten aus Beispiel 1.2.2.11 auf alle 6 möglichen Arten.
Diskussion: Wir beginnen mit den zwei Möglichkeiten, wenn die Daten pro Merkmalsträger angeführt sind:
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
n = 10
durch n:
Wurzel:
xi
Note
1
3
1
2
3
1
2
1
1
2
17
x = 1.7
xi − x
(xi − x)2
-0.7
1.3
-0.7
0.3
1.3
-0.7
0.3
-0.7
-0.7
0.3
0.49
1.69
0.49
0.09
1.69
0.49
0.09
0.49
0.49
0.09
6.10
0.61
0.781
σ 2 (x) =
σ(x) ≈
SchülerIn
Andrea
Barbara
Clemens
Dieter
Erhard
Fatimah
Gertrud
Hildegard
Istvan
Jan
n = 10
durch n:
-x2
Wurzel:
xi
Note
1
3
1
2
3
1
2
1
1
2
17
x = 1.7
σ 2 (x) =
σ(x) ≈
x2i
1
9
1
4
9
1
4
1
1
4
35
3.50
-2.89
0.61
0.781
Die zweite Variante ist angenehmer, denn man muss nicht für jeden Term separat den Mittelwert abziehen.
Bei Angabe der absoluten Häufigkeiten bieten sich folgende Wege an:
xi
ai
xi ai xi − x (xi − x)2 ai (xi − x)2
Note
abs. H.
1
5
5
-0.7
0.49
2.45
2
3
6
0.3
0.09
0.27
3
2
6
1.3
1.69
3.38
Summe
10
17
6.1
durch n
1.7
σ 2 (x) =
0.61
Wurzel
σ(x) ≈
0.781
28
1. BESCHREIBENDE STATISTIK
xi
1
2
3
ai
5
3
2
10
xi ai
5
6
6
17
1.7
durch 10:
−x2
σ 2 (x) =
σ(x) ≈
Wurzel
x2i ai
5
12
18
35
3.5
- 2.89
0.61
0.781
Bei Angabe der relativen Häufigkeiten rechnen wir:
xi
fi
xi fi xi − x (xi − x)2
Note
rel. H.
1
0.5
0.5
-0.7
0.49
2
0.3
0.6
0.3
0.09
3
0.2
0.6
1.3
1.69
Summe
1.7
σ 2 (x) =
Wurzel
σ(x) ≈
xi
1
2
3
fi
0.5
0.3
0.2
xi ai
5
6
6
1.7
−x2
Wurzel
σ 2 (x) =
σ(x) ≈
fi (xi − x)2
0.245
0.027
0.338
0.61
0.781
x2i fi
0.5
1.2
1.8
3.5
- 2.89
0.61
0.781
¤
1.2.3.3. Faustregel zur Interpretation der Standardabweichung.
Varianz und Standardabweichung sagen dasselbe aus, es ist ja die Varianz einfach das Quadrat der Standardabweichung. Die Standardabweichung ist aber leichter anschaulich zu interpretieren:
Merksatz 1.2.3.7. Zur Interpretation der Standardabweichung gilt die folgende Faustregel: Ist ein metrisches Merkmal annähernd normalverteilt (d.h., das
Histogramm hat ungefähr die Form einer Gaußschen Glockenkurve) mit Mittelwert
x und Standardabweichung σ, so finden sich
im Intervall x ∈ [x − σ, x + σ] circa 68 Prozent der Merkmalsträger
im Intervall x ∈[x − 2σ, x + 2σ] circa 95 Prozent der Merkmalsträger
im Intervall x ∈[x − 3σ, x + 3σ] circa 99.7Prozent der Merkmalsträger
Merksatz 1.2.3.8. Für jede beliebige Verteilung gilt die wesentlich vorsichtigere Schätzung nach der Chebychev-Ungleichung (sprich: Tschebischeff):
Ist k > 1, so findet sich auf jeden Fall
im Intervall x ∈ [x − kσ, x + kσ]
mindestens
der Anteil 1 − k12 der Merkmalsträger.
Beispiel 1.2.3.9. Das Gewicht von Äpfeln einer gewissen Sorte hat einen Mittelwert von 160 g bei einer Standardabweichung von 30 g. Welcher Anteil der Äpfel
liegt in der Gewichtsklasse von 100–220 g? Sind Äpfel mit weniger als 70 g Gewicht
häufig?
1.2. KENNZAHLEN
29
Diskussion: Wenn wir davon ausgehen dürfen, dass das Gewicht der Äpfel annähernd normalverteilt ist, können wir die Faustregel verwenden. Im Bereich x ± 2σ = 160 ± 60 liegen circa 95%
der Äpfel. Ein Apfel mit 70 g weicht vom Mittelwert um das Dreifache der Standardabweichung
ab, das ist nach der Faustregel schon sehr selten, nämlich ca. 0.3%, und davon liegt wieder etwa
nur die Hälfte unter 70 g und die andere Hälfte über 250 g. Wenn die Faustregel gilt, sind nur
ca. 0.15% der Äpfel leichter als 70 g.
Wenn das Gewicht der Äpfel nicht normalverteilt ist (z.B. Mischung einer großen und einer
kleinen Sorte, sodass viele sehr große und viele sehr kleine Äpfel dabei sind), haben wir nur
die Chebychev-Ungleichung. Im Bereich x ± 2σ = 160 ± 60 liegen auf jeden Fall mindestens
1 − 14 = 75% der Äpfel. Immerhin ein Neuntel aller Äpfel kann im Gewicht um das Dreifache der
Standardabweichung vom Mittelwert entfernt sein. ¤
Methode 1.2.3.10. Gegeben sei ein Merkmal mit seinem Mittelwert x und seiner Standardabweichung σ(x). Um festzustellen, ob eine Ausprägung x eher häufig
oder selten ist, standardisieren wir den Wert der Ausprägung:
x−x
z=
σ(x)
Nach der Faustregel kommen Werte von z außerhalb von [−2, 2] in circa 5% aller
Fälle, außerhalb von [−3, 3] nur in 0.3% aller Fälle, und Werte von z außerhalb
von [−4, 4] extrem selten vor. Voraussetzung für die Anwendung der Faustregel ist,
dass das Merkmal annähernd normalverteilt ist.
Nach der Chebychev-Ungleichung kommen Werte von z außerhalb von [−2, 2]
in höchstens 25% aller Fälle, außerhalb von [−3, 3] höchstens in 1/9 ≈ 11% aller
Fälle, und auërhalb von [−4, 4] in höchstens 1/16 = 6.25% aller Fälle vor.
Beispiel 1.2.3.11. Im Rahmen von vielen Messungen wurde die Schadstoffbelastung eines Gewässers mit einem bestimmten Schadstoff mit durchschnittlich
5 mg/l bei einer Standardabweichung von 0.2 mg/l angegeben. Sind Messungen von
6 mg/l ungewöhnlich?
Diskussion: Wir standardisieren:
6−5
=5
0.2
Eine Messung von 6 mg/l weicht vom Mittelwert um das Fünffache der Standardabweichung ab.
Das kommt nur sehr selten vor. ¤
z=
In der Ausgabe von Statistikprogrammen und in den Rezepten statistischer
Schätzer und Tests werden Sie oft dem folgenden Begriff begegnen:
Definition 1.2.3.12. Wird die Varianz eines metrischen Merkmals aus einer
Stichprobe von n Merkmalsträgern berechnet, so sagt man, diese Varianz hat n − 1
Freiheitsgrade.
Diese Sprechweise überträgt sich auch auf weitere aus dieser Varianz hergeleiteten Größen.
Diskussion: Warum n − 1 und nicht n? Überlegen wir, aus wievielen unabhängigen Daten die
Varianz hochgerechnet wird. Die Zahlen
(x1 − x), · · · , (xn − x),
aus denen die Varianz als Mittelwert der Quadrate berechnet wird, sind nämlich nicht unabhängig.
Wenn die ersten n − 1 von diesen Werten bekannt sind, kann man sich den letzten ausrechnen,
denn alle zusammen summieren sich auf Null. Das liegt daran, dass x genau der Mittelwert ist:
n
n
X
X
xi − nx = nx − nx = 0.
(xi − x) =
i=1
i=1
Damit bleiben nur n − 1 unabhängige Größen über.
¤
30
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.3.13. Zum Vergleich der Varianzen zweier Gesamtheiten entnimmt man jeder Gesamtheit eine Stichprobe und schätzt daraus die Varianz der
Gesamtheit. Sei n1 der Stichprobenumfang der ersten Stichprobe, und s21 die geschätzte Varianz der ersten Gesamtheit, analog n2 und s22 . Aus dem Verhältnis F = s21 /s22
zieht man Schlüsse über das Verhältnis der beiden Varianzen. Da F aus Varianzen
von Stichproben errechnet wurde, hat F Freiheitsgrade. Welche Freiheitsgrade hat
F?
Diskussion: s21 hat n1 − 1 Freiheitsgrade, und s22 hat n2 − 1 Freiheitsgrade. Man sagt, F hat n1 − 1
Freiheitsgrade des Zählers und n2 − 1 Freiheitsgrade des Nenners. Diese Information ist wichtig,
wenn wir den Wert von F aus der Stichprobe mit den Perzentilen einer geeigneten Verteilung, der
F-Verteilung (die wir noch kennen lernen werden) vergleichen. Es gibt nämlich in Wirklichkeit eine
ganze Familie verschiedener F-Verteilungen, eine für jedes Paar von Freiheitsgraden des Zählers
und des Nenners. ¤
Was Sie jetzt können:
Begriffe und Wissen: Streuung, Bedeutung der Streuung für die
Interpretation von Daten, Varianz, Standardabweichung, Freiheitsgrade.
Methoden: Berechnung von Varianz und Standardabweichung. Interpretation der Standardabweichung eines Datensatzes. Standardisierung.
1.2.4. Weitere Kennzahlen auf Grundlage von Summationen.
Übersicht:
1. Variationskoeffizient
2. Schiefe und Kurtosis
1.2.4.1. Variationskoeffizient.
Man wird oft erwarten, dass Merkmale, die an sich große Ausprägungen zeigen,
auch größere Werte der Streuung haben. Aus diesem Grund hat man den Variationskoeffizienten eingeführt, der die Standardabweichung in Relation zur Größe des
Mittelwertes setzt:
Definition 1.2.4.1. Sei x ein metrisches Merkmal mit Mittelwert x 6= 0 und
Standardabweichung σ(x) in einer bestimmte Gesamtheit (kann auch eine Stichprobe sein). Der Variationskoeffizient von x innerhalb dieser Gesamtheit ist
cV (x) =
σ(x)
|x|
Beispiel 1.2.4.2. Zwei Käferarten wurden der Länge nach vermessen. Es ergaben sich folgende Tabellen:
Art 1
Art 2
Mittelwert
12 mm 52 mm
Standardabweichung 2 mm 4 mm
Vergleichen Sie Mittelwert und Streuung der Längen dieser Tiere.
1.2. KENNZAHLEN
31
Diskussion: Zunächst stellen wir fest, dass die beiden Arten sehr verschieden groß sind. Die erste
Art mit mittlerer Länge 12 mm ist ein ansehnlicher Käfer, aber die zweite Art ist im Mittel über
4 mal so lang. Es handelt sich um eine sehr eindrucksvolle Käferart! Eine grobe Interpretation der
Standardabweichung gibt: Etwa 95% der Käfer der ersten Art sind zwischen 8 und 16 mm lang,
etwa 95% der Käfer der zweiten Art sind zwischen 44 und 60 mm lang. Es ist keine Überraschung,
dass die größere Art auch größerer Streuung in den Längen aufweist. Vergleichen wir aber die
Variationskoeffizienten:
Art 1
12 mm
2 mm
2/12 ≈ 1.67
Mittelwert
Standardabweichung
Variationskoeffizient
Art 2
52 mm
4 mm
4/52 ≈ 0.77
Relativ gesehen, im Vergleich zur Größe, streuen die Längen der zweiten Art deutlich weniger
als die der ersten Art.
¤
1.2.4.2. Schiefe und Kurtosis.
Mittelwert und Varianz werden mit den Potenzen 1 und 2 ausgerechnet. Baut
man ähnliche Formeln für höhere Potenzen, so erhält man die sogenannten höheren
Momente einer Verteilung. Sie geben Auskunft über die Form der Verteilung. Die
folgenden Formeln müssen Sie sich nicht merken, aber Sie sollten wissen, wie die
Maße Schiefe und Kurtosis, die wir jetzt einführen, interpretiert werden.
Definition 1.2.4.3. In einer Gesamtheit (kann eine Stichprobe sein) sei ein metrisches Merkmal x mit den möglichen Ausprägungen x1 , · · · , xm und dazugehörigen relativen Häufigkeiten f1 , · · · , fm vertreten. Der Mittelwert von x innerhalb
dieser Gesamtheit sei x, und die Standardabweichung sei σ(x).
Die Schiefe von x ist definiert durch
m
1 X
fi (xi − x)3
3
σ (x) i=1
Die Kurtosis von x ist definiert durch
m
1 X
fi (xi − x)4
4
σ (x) i=1
Den Exzess bestimmt man aus der Kurtosis durch Subtraktion von 3:
m
1 X
fi (xi − x)4 − 3
σ 4 (x) i=1
Analoge Definitionen für Schiefe, Kurtosis und Exzess können auch für Zufallsvariablen gegeben werden.
Merksatz 1.2.4.4.
Interpretation der Schiefe:
> 0: Linksgipfelige Verteilung, kleine Streuung im unteren Bereich, hohe Streuung oberhalb des Mittelwertes.
= 0: Die Verteilung streut annähernd symmetrisch um den Mittelwert.
< 0: Rechtsgipfelige Verteilung, große Streuung im unteren Bereich, kleine
Streuung im oberen Bereich.
32
1. BESCHREIBENDE STATISTIK
Interpretation der Schiefe
Merksatz 1.2.4.5. Interpretation des Exzesses: Die Varianz eines Merkmals
kann zustande kommen, indem die meisten Daten eine mäßige Abweichung vom
Mittelwert aufweisen. Dieselbe Varianz kann aber auch entstehen, indem viele Daten sehr stark vom Mittelwert abweichen, und dafür viele Daten ganz nahe am
Mittelwert liegen. Der Exzess gibt darüber Auskunft, und zwar:
> 0: Sehr kleine und sehr große Abweichungen vom Mittelwert sind häufig. Daher ein steiler, spitzer Gipfel, relativ wenig Daten im Bereich mittelgroßer
Streuung, und lange, dicke “Schwänze” im Bereich hoher Streuung.
= 0: z.B. Normalverteilung
< 0: Mittelgroße Abweichungen vom Mittelwert sind häufig. Stumpfer, breiter
Gipfel, dann relativ schnell fallende Schultern und dünne Schwänze.
(Die Zahl 3 in der Definition des Exzesses ist gerade die Kurtosis der Normalverteilung. Damit ist der Exzess so definiert, dass die Normalverteilung gerade bei Null
liegt.)
Tipp 1.2.4.6. Vorsicht, manche Autoren verwenden auch das Wort Exzess für
das, was wir Kurtosis genannt haben, und umgekehrt. SPSS rechnet unter der
Bezeichnung “Schiefe” und “Kurtosis” modifizierte Formeln, die aber auch im Sinne
von Merksatz refs:schiefe intepretiert werden können. Insbesondere ist auch bei
SPSS die Schiefe symmetrischer Verteilungen gleich Null, und die Kurtosis der
Normalverteilung gleich Null.
1.2. KENNZAHLEN
33
Interpretation der Kurtosis
Tipp 1.2.4.7. Schiefe und Exzess werden unter dazu verwendet, ob Daten
annähernd normalverteilt sind (also die Histogramme annähernd die Form der
Gaußschen Glockenkurve haben). Weichen Schiefe und Exzess einer Stichprobe weit
von Null ab, sind die Daten auch in der Grundgesamtheit, der die Stichprobe entnommen ist, voraussichtlich nicht normalverteilt. Das ist deshalb wichtig zu beurteilen, weil viele Verfahren der Statistik nur für normalverteilte Daten funktionieren.
Was Sie jetzt können:
Begriffe und Wissen: Variationskoeffizient, Schiefe, Kurtosis, Exzess
1.2.5. Kennzahlen für nominale Daten.
Übersicht:
1. Modal und Diversität
2. Kreuztabellen
3. Unabhängigkeit von Merkmalen
1.2.5.1. Modal und Diversität.
Definition 1.2.5.1. Sei x ein Merkmal. Der Modal von x ist jene Ausprägung,
die am häufigsten angenommen wird. Kommen mehrere Ausprägungen ex aequo auf
die größte absolute Häufigkeit, so ist jede dieser Ausprägungen ein Modal von x,
und x besitzt mehrere Modale.
Modale lassen sich natürlich für alle Merkmale definieren: Nominale, ordinale
und metrische.
34
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.5.2. Bei der Untersuchung des Kleinräuber-Bestandes eines Ökosystems wurden gezählt
Art
Anzahl
Marder
5
Iltis
2
Wiesel
5
Mauswiesel
4
Wo liegt der Modal dieser Stichprobe?
Diskussion: Das Merkmal ist “Tierart”, ein nominales Merkmal in vier möglichen Ausprägungen.
Die größte absolute Häufigkeit in dieser Stichprobe ist 5 und wird zweimal angenommen. Die
beiden Modale sind “Marder” und “Wiesel”.
¤
Um die “Streuung” eines nominalen Merkmals zu beurteilen, kann man sich nur
fragen, ob eine der Ausprägungen fast alle Merkmalsträger auf sich konzentriert,
oder ob alle Ausprägungen ungefähr gleich häufig sind. Je gleichmäßiger sich die
Merkmalsträger auf je mehr Ausprägungen verteilen, desto größer ist die Diversität
des Merkmals.
Definition 1.2.5.3. Sei x ein nominales Merkmal mit den möglichen Ausprägungen x1 , · · · , xm , und ihren absoluten Häufigkeiten a1 , · · · , am und relativen
Häufigkeiten f1 , · · · , fm innerhalb einer Gesamtheit aus n Merkmalsträgern (kann
eine Stichprobe sein).
Der Diversitätsindex von x innerhalb dieser Gesamtheit ist
m
m
X
1X
H=−
fi ln(fi ) = ln(n) −
ai ln(ai ).
n i=1
i=1
Die Eveness nach Shannon–Wiener ist
H
E=
ln(m)
(Für die Eveness verwendet man auch die Schreibweise E = Hkorr : “korrigierter
Diversitätsindex”.)
Merksatz 1.2.5.4. Sei x ein nominales Merkmal mit m verschiedenen möglichen Ausprägungen. Der Diversitätsindex kann Werte zwischen 0 und ln(m) annehmen, dabei gilt:
H = ln(m) falls alle Ausprägungen gleich häufig, also mit relativer Häufigkeit 1/m vorkommen.
H = 0 falls eine Ausprägung allein vorkommt, das heißt, eine relative
Häufigkeit ist 1, dafür sind alle anderen relativen Häufigkeiten Null.
Die Eveness ist so umskaliert, dass sie Werte zwischen 0 und 1 annimmt.
Beispiel 1.2.5.5. In Hessen und Sachsen wurden Stichproben von Kleinräubern
erhoben. Die Ergebnisse finden sich in folgender Tabelle:
Art
Marder
Wiesel
Iltis
Mauswiesel
gesamt
Hessen Sachsen
5
34
5
2
5
2
5
2
20
40
In welchem Bundesstaat ist die Diversität der Kleinräuber größer?
1.2. KENNZAHLEN
35
Diskussion: Auf ersten Blick hat Sachsen (zumindest die dortige Stichprobe) die kleinere Diversität: Man kann etwas überspitzt sagen, die Kleinräuberpopulation setzt sich in erster Linie aus
Mardern zusammen, mit kleinen Einstreuungen anderer Arten. Dagegen verteilt sich in Hessen
die Population gleichmäßig auf vier Arten. Damit erwarten wir für Hessen eine Eveness von 1
(exakt), und für Sachsen eine Eveness deutlich kleiner als 1. Es folgt die genaue Rechnung:
Art
Marder
Iltis
Wiesel
Mauswiesel
Diversitätsindex
/ ln(4)
Eveness
fi
0.25
0.25
0.25
0.25
Hessen
− ln(fi ) −fi ln(fi )
1.3863
0.3466
1.3863
0.3466
1.3863
0.3466
1.3863
0.3466
1.3863
/1.3863
1.000
fi
0.85
0.05
0.05
0.05
Hessen
− ln(fi ) −fi ln(fi )
1.6252
0.1381
2.9957
0.1498
2.9957
0.1498
2.9957
0.1498
0.5875
/1.3863
0.4238
¤
1.2.5.2. Kreuztabellen.
Beispiel 1.2.5.6. Eine Kosmetikfirma überprüft die Akzeptanz ihrer Hautcremes. 40 ProbandInnen, je 20 von dunklem und hellem Hauttyp, hatten drei verschiedene Präparate A,B,C zu testen und sich letztlich für eines davon zu entscheiden.
Es ergab sich folgende Tabelle:
Bevorzugte Creme
A B
C
Hauttyp
hell
8 8
dunkel
12 8
gesamt
20 16
4
0
4
gesamt
20
20
40
Die obige Tabelle ist eine Kreuztabelle:
Definition 1.2.5.7. Betrachtet werden nominale Merkmale mit jeweils k beziehungsweise m möglichen Ausprägungen: x1 , · · · , xk bzw. y1 , · · · , ym . Die Häufigkeiten dieser Ausprägungen können in einer k × m-Kreuztabelle dargestellt werden:
Im Kern der Tabelle befinden sich k Zeilen und m Spalten, in diesen steht
die gemischte Häufigkeitsverteilung:
Jede Zeile entspricht einer Ausprägung xi .
Jede Spalte entspricht einer Ausprägung yj .
Am Schnittpunkt der Zeile i mit der Spalte j steht die Häufigkeit,
mit der das Paar von Ausprägungen (xi , yj ) angenommen wird.
Am rechten und unteren Rand der Tabellen stehen die Randverteilungen:
Am rechten Rand der Tabelle befinden sich die Zeilensummen: In der
i-ten Zeile am Rand steht die Häufigkeit, mit der die Ausprägung xi
angenommen wird.
Am unteren Rand der Tabelle befinden sich die Spaltensummen: In
der j-ten Spalte am Rand steht die Häufigkeit, mit der die Ausprägung yj angenommen wird.
In der rechten unteren Ecke steht der Umfang der Gesamtheit, die in der
Tabelle erfasst wurde.
Kreuztabellen können für absolute und relative Häufigkeiten angelegt werden.
36
1. BESCHREIBENDE STATISTIK
Beispiel 1.2.5.8. Wie sieht die Kreuztabelle der relativen Häufigkeiten für
Beispiel 1.2.5.6 aus?
Diskussion: Alle Häufigkeiten sind durch den Stichprobenumfang n = 40 (dieser befindet sich im
rechten unteren Eck der Kreuztabelle der absoluten Häufigkeiten) dividiert:
Bevorzugte Creme
A
B
C
Hauttyp
hell
dunkel
gesamt
0.2
0.3
0.5
0.2
0.2
0.4
gesamt
0.1
0.0
0.1
0.5
0.5
1.0
¤
1.2.5.3. Unabhängigkeit von Merkmalen.
Besteht zwischen zwei nominalen Merkmalen X, Y ein statistischer Zusammenhang? Unabhängigkeit bedeutet, dass Kenntnis eines Merkmals keinerlei Information über das andere Merkmal beiträgt. Das heißt, dass die Wahrscheinlichkeitsverteilung der Ausprägungen xi von X nicht davon abhängt, welche Ausprägung
yj von Y ein Merkmalsträger hat. Sind x1 , · · · , xk die Ausprägungen von X mit
den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk die Ausprägungen von Y
mit den Wahrscheinlichkeiten q1 , · · · , qm , so sieht im Fall der Unabhängigkeit die
Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y
folgendermaßen aus:
x1
x2
..
.
y1
p 1 q1
p 2 q1
..
.
y2
p1 q2
p2 q2
..
.
···
···
···
ym
p1 qm
p2 qm
..
.
gesamt
p1
p2
..
.
xk
gesamt
pk q1
q1
pk q2
q2
···
···
pk qm
qm
pk
1
Beispiel 1.2.5.9. Wie sehen die gemischten absoluten Häufigkeiten der folgenden Kreuztabelle aus, wenn die beiden Merkmale unabhängig sind:
Bevorzugte Creme
A B
C
Hauttyp
hell
dunkel
gesamt
20 16
gesamt
4
20
20
40
Diskussion: Der Stichprobenumfang ist 40. Die relative Häufigkeit des hellen Hauttyps ist 20
= 0.5,
40
20
= 0.5. Damit wäre bei Unabhängigkeit die
die relative Häufigkeit der bevorzugten Creme A ist 40
relative Häufigkeit der Kombination “heller Hauttyp bevorzugt Creme A” 0.5×0.5 = 0.25. Die absolute Häufigkeit ergibt sich durch die Multiplikation mit dem Stichprobenumfang: 0.25 × 40 = 10.
Zusammenfassend wurde die folgende Rechnung durchgeführt, aus der sich der Stichprobenumfang
einmal kürzen lässt:
20
20 × 20
20
×
× 40 =
.
40
40
40
Wir erhalten also die Rechenregel
Zeilensumme × Spaltensumme
Stichprobenumfang
Die vollständig ergänzte Tabelle ist
1.2. KENNZAHLEN
37
Bevorzugte Creme
A
B
C
Hauttyp
hell
dunkel
gesamt
10
10
20
8
8
16
gesamt
2
2
4
20
20
40
¤
Natürlich werden die relativen Häufigkeiten einer Stichprobe, auch von unabhängigen Merkmalen, nicht exakt diese Multiplikationsregel erfüllen. Wir führen
Maßzahlen ein, welche ausdrückt, wie weit die Daten einer Kreuztabelle von Unabhängigkeit entfernt sind.
Definition 1.2.5.10. Gegeben sei eine m×n-Kreuztabelle mit absoluten Häufigkeiten bi,j für zwei nominale Merkmale mit den Ausprägungen x1 , · · · , xk und
y1 , · · · , ym . Jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj . Die Randhäufigkeiten seien zi (die Zeilensummen) und sj (die
Spaltensummen). Die Maßzahl χ2 zur Beurteilung der Unabhängigkeit wird folgendermaßen berechnet:
1) Die erwarteten Häufigkeiten sind
zi sj
eij =
.
n
2) Berechnung von χ2 :
χ2 =
k X
m
k X
m
X
X
b2ij
(bij − eij )2
=
− n.
eij
e
i=1 j=1
i=1 j=1 ij
3) Zum Zweck statistischer Tests: Die Anzahl der Freiheitsgrade von χ2 ist
ν = (k − 1)(m − 1).
Diskussion: Die erwarteten Häufigkeiten sind jene Häufigkeiten, welche sich aus den Randhäufigkeiten z1 , · · · , zk und s1 , · · · , sm ergeben, wenn die Merkmale tatsächlich unabhängig sind. In
diesem Fall wäre bij = eij , und damit wäre χ2 = 0. Klar, dass χ2 umso größer wird, je weiter die
beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij abweichen. Damit ist χ2 ein
Mass für die Abhängigkeit zwischen den beiden Merkmalen.
¤
Beispiel 1.2.5.11. Bestimmen Sie χ2 für die Kreuztabelle aus Beispiel 1.2.5.6.
Diskussion: Die beobachteten Häufigkeiten sind
bij
hell
dunkel
gesamt
A
8
12
20
B
8
8
16
C
4
0
4
gesamt
20
20
40
Die Tabelle der erwarteten Häufigkeiten wurde bereits in Beispiel 1.2.5.9 bestimmt:
ei
hell
dunkel
gesamt
A
10
10
20
B
8
8
16
C
2
2
4
gesamt
20
20
40
Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und summieren χ2 :
b2ij /eij
hell
dunkel
gesamt
−n
χ2
A
6.4
14.4
20.8
B
8.0
8.0
16.0
C
8.0
0
8.0
gesamt
22.4
22.4
44.8
-40.0
4.8
38
1. BESCHREIBENDE STATISTIK
Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade.
¤
Je größer χ2 , desto stärker entfernt sich die Tabelle von einer Tabelle statistisch
unabhängiger Daten. Aber wann ist χ2 groß? Wir werden später im Rahmen der
Testtheorie darauf zurückkommen. Für jetzt errechnen wir eine Maßzahl, welche
leichter zu interpretieren ist:
Definition 1.2.5.12. Gegeben sei eine Tabelle von absoluten Häufigkeiten bij
der Kombinationen von Ausprägungen x1 , · · · , xk und y1 , · · · , ym zweier nominaler
Merkmale X, Y aus einer Stichprobe des Umfanges n. Aus dieser Tabelle sei χ2 wie
in Definition 1.2.5.10 berechnet.
1) Der Kontingenzkoeffizient der Tabelle ist
s
χ2
C=
.
2
χ +n
2) Der korrigierte Kontingenzkoeffizient ist
r
u
Ckorr = C
,
u−1
wobei u der kleinere der beiden Werte k, m ist.
Merksatz 1.2.5.13. Der Kontingenzkoeffizient und der korrigierte Kontingenzkoeffizient sind Masszahlen für die Abhängigkeit zwischen X und Y . Kontingenzkoeffizient 0 bedeutet perfekte Unabhängigkeit der Daten aus den Stichproben. Der
korrigierte Kontingenzkoeffizient ist so skaliert, dass er als höchsten Wert exakt 1
annehmen kann.
Beispiel 1.2.5.14. Bestimmen Sie χ2 , den Kontingenzkoeffizienten und den
korrigierten Kontingenzkoeffizienten der folgenden Tabelle. Wie würden Sie die Unabhängigkeit der Merkmale einschätzen?
x1
x2
x3
gesamt
y1
0
0
4
4
y2
4
0
0
4
y3
0
0
0
0
y4
0
2
0
2
gesamt
4
2
4
10
Diskussion: Zunächst stellen wir fest, dass hier ein Extremfall der Abhängigkeit vorliegt: Wenn x
bekannt ist, liegt auch bereits y fest, und umgekehrt. Daher erwarten wir uns ein hohes χ2 und
einen korrigierten Kontingenzkoeffizienten von 1.
Wir führen nun die Rechnung durch:
bij
x1
x2
x3
sj
eij
x1
x2
x3
sj
y1
0
0
4
4
y2
4
0
0
4
y3
0
0
0
0
y4
0
2
0
2
y1
1.6
0.8
1.6
4
y2
1.6
0.8
1.6
4
y3
0
0
0
0
y4
0.8
0.4
0.8
2
zi
4
2
4
10
zi
4
2
4
10
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
b2ij /eij
x1
x2
x3
gesamt
−n
χ2
y1
0
0
10
4
y2
10
0
0
4
y3
0
0
0
0
y4
0
10
0
2
gesamt
10
10
10
30
-10
20
Es ist also
χ2 = 30 mit 6 Freiheitsgraden,
r
r
20
2
=
≈ 0.8165,
C=
20 + 10
3
u = Minimum von 3 und 4 = 3,
r
3
Ckorr = C
= 1.
2
¤
Was Sie jetzt können:
Begriffe und Wissen: Modal, Diversität, Eveness, Kreuztabelle,
Randverteilung, Unabhängigkeit, χ2 , Kontingenzkoeffizient.
Methoden: Bestimmen und Interpretation von Diversität und Eveness, Erstellen und Lesen von Kreuztabellen, Berechnen des χ2 zur Beurteilung der Unabhängigkeit von Daten in Kreuztabellen, Berechnen
des Kontingenzkoeffizienten und des korrigierten Kontingenzkoeffizienten.
1.3. Zusammenhang zwischen zwei Merkmalen
Übersicht:
1. Berechnung der Regressionsgeraden
2. Vorhersage durch die Regressionsgerade und Residuen
3. Korrelation
1.3.1. Berechnung der Regressionsgeraden.
Übersicht:
1. Regressionsgerade als Approximation nach kleinsten Quadraten
2. Berechnung der Regressionsgeraden
3. Interpretation der Geradenparameter
39
40
1. BESCHREIBENDE STATISTIK
1.3.1.1. Regressionsgerade als Approximation nach kleinsten Quadraten.
Beispiel 1.3.1.1. Gegeben sind die Ergebnisse von 5 Experimenten, in denen
jeweils gleichzeitig ein Wert x und ein Wert y bestimmt wurden. Stellen Sie eine
Geradengleichung
y = b0 + b1 x
auf, die möglichst gut zu diesen Daten passt. Erster Schritt: Wie beurteilt man, ob
eine Gerade gut zu den Daten passt?
x 0
y 0
1
1
2
0
3 4
3 3
Diskussion: Das folgende Bild zeigt die Datenpunkte als schwarze Kreise in der x, y-Ebene. Ein
solches Diagramm heißt Streudiagramm oder Punktwolke (engl. Scatterplot). Eingezeichnet sind
mehrere Geraden. Wir beurteilen die Güte der Geraden visuell:
Vergleich verschiedener Geraden zur Wiedergabe von Datenpunkten
a) Gerade (a) passt bestimmt nicht optimal zu den Daten. Würde man die ganze Gerade
parallel nach unten verschieben, würde der Datensatz viel besser wiedergegeben. Der
Parameter b0 ist bei dieser Gerade zu hoch.
b) Gerade (b) passt zwar nach der Lage besser, aber die Steigung (also der Parameter b1 )
ist zu gering. So kommt es, dass fast alle Daten für kleine x-Werte über der Geraden
liegen, und dafür die Daten bei großen x-Werten unter der Geraden liegen.
c) Gerade (c) passt ziemlich gut. Eine gut angepasste Gerade erkennt man daran, dass
die Datenpunkte wie zufällig gleichmäßig manchmal über und manchmal unter der
Geraden verstreut liegen.
Für den Computer ist dieser visuelle Vergleich natürlich nicht möglich, zumindest nicht einfach. Wir suchen also ein einfaches mathematisches Kriterium für die Güte einer Geraden: In der
folgenden Grafik sehen Sie wieder die Datenpunkte und eine Gerade. Wie zu erwarten, liegen die
Punkte nicht exakt auf einer Geraden. Zu jedem xi gehört daher einerseits der Wert yi aus dem
Datensatz, andererseits der Wert ŷi = b0 + b1 xi , der auf der Geraden über xi liegt. Die Differenz
ei = yi − ŷi gibt an, wie weit die Gerade den Datenpunkt xi , yi verfehlt. Der Wert ei heißt Approximationsfehler oder Residuum. Je kleiner die Beträge der Residuen insgesamt sind, desto näher
verläuft die Gerade an den Datenpunkten.
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
41
Approximationsfehler
Daher wird eine Gerade dann besonders gut passen, wenn die Quadratsumme der Residuen
möglichst klein ist. ¤
Methode 1.3.1.2 (Streudiagramm). Gegeben seien zwei metrische Merkmale und zu diesen die Ausprägungen von n Merkmalsträgern, also die Datenpaare
x1 , y1 , · · · , xn , yn . In einem Streudiagramm (Punktwolke) wird jedes Datenpaar als
Punkt dargestellt, mit der waagrechten Koordinate xi und der senkrechten Koordinate yi .
Definition 1.3.1.3. Gegeben seine Datenpaare x1 , y1 , · · · , xn , yn von Ausprägungen zweier metrischer Merkmale, beobachtet an n Merkmalsträgern. Die
Regressionsgerade durch diese Daten ist jene Gerade, deren Residuen den kleinsten
quadratischen Fehler ergeben:
n
X
(yi − ŷi )2 wird minimiert.
i=1
Man sagt auch, die Regressionsgerade ist jene Gerade, die an die Daten nach dem
Prinzip der kleinsten Quadrate angepasst ist.
Diskussion: Es gibt einige Gründe, gerade die Quadrate der Residuen als Maß für die Anpassungsgüte heranzuziehen. (Man könnte ja auch, z.B., den größte Absolutbetrag unter den Residuen, oder die Summe der vierten Potenzen verwenden). Zunächst führen die Quadrate auf besonders einfache Formeln, sodass man die Regressionsgerade auch mit Bleistift und Papier berechnen
kann, wenn es sein muss. Andererseits ist die Regressionsgerade unter bestimmten statistischen
Voraussetzungen die beste Schätzung, diese werden wir später unter dem Titel Lineare Regression
noch genauer diskutieren. Letztlich ist die Quadratsumme der Residuen ein Kompromiss, was die
Robustheit betrifft. Die Summe der Beträge der Residuen würde auf Ausreisser fast gar nicht
reagieren, während der größte Betrag der Residuen äußerst sensibel auf Ausreisser ist. ¤
Beispiel 1.3.1.4. Die folgende Grafik zeigt die Punktwolke eines mittelgroßen
Datensatzes. An 192 ProbandInnen wurden (unter anderem) Calcium- und Magnesiumspiegel im Blut gemessen. Anschließend erfolge leichte körperliche Belastung
42
1. BESCHREIBENDE STATISTIK
durch Fahrradergometrie, und dann wurden die Elektrolyte neuerlich bestimmt.
Die Grafik zeigt in x-Richtung den Ca-Spiegel vor dem Belastungsversuch, in yRichtung die Verschiebung des Mg-Spiegels durch den Versuch. (Daten von S. Porta.) Das Statistikprogramm hat die bestmögliche Gerade durch die Daten gelegt.
Die Datenpunkte wirken wie zufällig über und unter der Geraden verstreut. Die
Gerade zeigt einen leicht fallenden Trend. Je mehr Ca die ProbandInnen im Ruhezustand im Blut haben, desto eher tendieren sie zu einer Abwärtsverschiebung des
Mg während des Versuches.
(Es darf Sie nicht stören, dass die Magnesiumwerte waagrecht wie Ketten “aufgereiht” erscheinen,
dies liegt daran, dass die Messungen auf 0.01 mmol/L genau erfolgt sind, sodass die Datenpunkte
stets auf ganzzahligen Vielfachen von 0.01 liegen.)
0.1
0.15
0.08
0.1
0.05
0.06
0
0.04
−0.05
0.02
−0.1
0
−0.02
−0.04
−0.06
0.95
1
1.05
1.1
1.15
1.2
1.25
Regression vom Calciumspiegel auf die Verschiebung des Mg-Spiegels bei leichter Belastung
1.3.1.2. Berechnung der Regressionsgeraden.
Beispiel 1.3.1.5. Berechnen Sie die Regressionsgerade zu den Daten aus Beispiel 1.3.1.1:
x 0
y 0
1
1
2
0
3 4
3 3
Diskussion: Zur Berechnung der Regressionsgeraden erstellen wir eine Tabelle der n = 5 Daten
x1 , · · · , x5 und y1 , · · · , y5 . Wir bestimmen zunächst die Stichprobenmittelwerte x von x und y
von y, und bilden anschließend, wie zur Berechnung der Varianzen, die Summen
SSX =
n
X
(xi − x)2 ,
i=1
n
X
SSY =
(yi − y)2 ,
i=1
n
X
SXY =
(xi − x)(yi − y).
i=1
(SSX steht für “sum of squares: X”, Quadratsumme für X. SSY steht für “sum of squares Y”.
Dividiert man SSX und SSY durch n − 1 = 4, erhält man, wie wir bereits wissen, Schätzwerte für
die Varianz von x und von y. Dividiert man SXY durch n, erhält man die Kovarianz zwischen x
und y, über die wir im nächsten Abschnitt mehr erfahren werden.)
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
Summe
gemittelt
Daten
xi
yi
0
0
1
1
2
0
3
3
4
3
10
7
2
=x
xi − x
-2
-1
0
1
2
yi − y
-1.4
-0.4
-1.4
1.6
1.6
Statistik der Daten
(xi − x)2 (yi − y)2
4
1.96
1
0.16
0
1.96
1
2.56
4
2.56
10
9.20
= SSX
= SSY
43
(xi − x)(zi − y)
2.8
0.4
0
1.6
3.2
8.0
= SXY
1.4
=y
Wir bestimmen nun die Koeffizienten der Regressionsgeraden und den sogenannten Korrelationskoeffizienten mit folgenden Formeln:
SXY
8
=
= 0.8,
SSX
10
b0 = y − b1 x = 1.4 − 0.8 · 2 = −0.2,
b1 =
SXY
8.0
r= √
= √
= 0.834.
10.0 · 9.2
SSX · SSY
Damit erhalten wir als Regressionsgerade die Gerade
y = 0.8x − 0.2.
Auf die Bedeutung des Korrelationskoeffizienten kommen wir noch zu sprechen.
Die folgende Grafik zeigt die Daten mit der Regressionsgeraden (rot) und den Residuen, also
den Abweichungen der Datenpunkte von der Gerade (blau).
4
3.5
3
2.5
2
1.5
¤
1
0.5
0
−0.5
−1
−0.5
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
Daten und Regressionsgerade von Beispiel 1.3.1.1
Methode 1.3.1.6 (Regressionsgerade). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn .
Gesucht ist die Regressionsgerade y = b0 + b1 x, sowie der Korrelationskoeffizient r.
44
1. BESCHREIBENDE STATISTIK
Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt:
n
x=
1X
xi ,
n i=1
y=
1X
yi ,
n i=1
n
SSX =
SSY =
n
X
(xi − x)2 (=
i=1
i=1
n
X
n
X
(yi − y)2 (=
i=1
SXY =
n
X
n
X
x2i − n(x)2 ),
yi2 − n(y)2 ),
i=1
(xi − x)(yi − y)(=
i=1
n
X
xi yi − nx̄ȳ),
i=1
SXY
,
SSX
b0 = y − b1 x,
SXY
r= √
.
SSX · SSY
b1 =
Die folgende Variante liefert dasselbe Ergebnis:
Methode 1.3.1.7 (Alternative zur Berechnung der Regressionsgeraden). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn . Gesucht ist die Regressionsgerade
y = b0 + b1 x, sowie der Korrelationskoeffizient r. Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt:
n
x=
1X
xi ,
n i=1
y=
1X
yi ,
n i=1
n
n
σx2 =
1X 2
1
x − x2 (= SSX, Varianz von x),
n i=1 i
n
σy2 =
1
1X
(yi − y)2 (= SSY, Varianz von y),
n i=1
n
n
n
Cov(x, y) =
1X
1
xi yi − xy(= SXY, Kovarianz von x und y),
n i=1
n
Cov(x, y)
,
σx2
b0 = y − b1 x,
b1 =
Cov(x, y)
.
r= q
σx2 σy2
Diskussion: Mit dieser Variante sieht die Berechnung der Regressionsgeraden für Beispiel 1.3.1.1
folgendermaßen aus:
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
xi
0
1
2
3
4
10
2
=x
Summe:
dividiert durch n = 5
Abzüge:
x2i
0
1
4
9
16
30
6
yi2
0
1
0
9
9
19
3.8
xi yi
0
1
0
9
12
22
4.4
-4
2
= σx2
-1.96
1.84
= σy2
-2.8
1.6
= Cov(x, y)
yi
0
1
0
3
3
7
1.4
=y
45
Und nun werden die Parameter fertig berechnet:
b1
=
b0
=
r
=
1.6
= 0.8,
2
1.4 − 0.8 × 2 = −0.2,
1.6
√
= 0.834.
2 × 1.84
¤
1.3.1.3. Interpretation der Geradenparameter.
Merksatz 1.3.1.8. Die Parameter b0 , b1 einer Geraden y = b0 + b1 x haben
folgende Bedeutung:
b0 : gibt den Schnittpunkt der Geraden auf der y-Achse an. Vergrösserung von
b0 bewirkt, dass die Gerade in y-Richtung parallelverschobe wird.
b1 : gibt die Steigung der Geraden an. Je größer b1 , desto steiler die Gerade.
Schreitet man in x-Richtung um h Einheiten fort, steigt die Gerade um
b1 h Einheiten an. Negative b1 bedeutet, dass die Gerade fällt.
Interpretation der Parameter einer Geraden
Beispiel 1.3.1.9. Für Beispiel 1.3.1.1 wurde die Regressionsgerade y = −0.2 +
0.8x errechnet. Was kann aus diesen Daten abgelesen werden?
46
1. BESCHREIBENDE STATISTIK
Diskussion: Der Parameter b0 = −0.2 sagt, dass die Regressionsgerade durch den Punkt x = 0,
y = −0.2 läuft. Das ist letztlich eine Angabe, wie hoch ungefähr die y-Werte liegen, und weniger
informativ als der Mittelwert y = 1.4. In der linearen Regression spielt b0 meist nur die Rolle eines
Zwischenergebnisses.
Wichtiger ist aber die Interpretation von b1 = 0.8, denn dieser Parameter gibt einen Zusammenhang zwischen x und y an. Da b1 positiv ist, schließen wir, dass im Allgemeinen mit
steigendem x auch der Wert von y ansteigt. Steigt x um eine Einheit an, so vergrößert sich im
Durchschnitt y um 0.8 Einheiten. Natürlich ist das nur ein allgemeiner Trend, denn tatsächlich
liegen die Daten ja nicht exakt auf der Geraden. ¤
Merksatz 1.3.1.10. Wird der Zusammenhang zweier metrischer Merkmale
durch eine Regressionsgerade y = b0 + b1 x wiedergegeben, so drückt der Parameter
b1 einen Trend aus: Steigt x um eine Einheit, so steigt im Durchschnitt y um b1
Einheiten. Insbesondere bedeutet:
b1 > 0 Zu größeren x gehören im Allgemeinen auch größere y.
b1 < 0 Zu größeren x gehören im Allgemeinen kleinere y.
Bei der Interpretation ist aber zu bedenken, dass die Daten möglicherweise durch
eine Gerade gar nicht gut wiedergegeben werden können.
Was Sie jetzt können:
Begriffe und Wissen: Regressionsgerade, Streudiagramm, Methode
der kleinsten Quadrate.
Methoden: Berechnung der Regressionsgeraden, Interpretation der
Geradenparameter.
1.3.2. Vorhersage durch die Regressionsgerade und Residuen.
Übersicht:
1.
2.
3.
4.
Vorhersagen mit der Regressionsgeraden
Residuen und Schwankungen
Warum spricht man von “erklärter Schwankung”?
Die Wichtigkeit der grafischen Darstellung
1.3.2.1. Vorhersagen mit der Regressionsgeraden.
Die Regressionsgerade ist ein mathematisches Modell, eine Formel, mit der
man versucht, die Daten in vereinfachter Weise darzustellen. Wenn nun ein neuer
Datenwert x betrachtet wird, liefert die Formel einen Wert für y: Wir können das
mathematische Modell dazu verwenden, Vorhersagen zu treffen.
Beispiel 1.3.2.1. Gegeben seien die Daten für x und y aus Beispiel 1.3.1.1.
Welchen Wert würden Sie für y vorhersagen, wenn x = 2.5? Welches y erwarten Sie
bei x = 50?
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
47
Diskussion: Mit Hilfe der Regressionsgeraden haben wir eine Näherungsformel für den Zusammenhang zwischen x und y gefunden. Zum Beispiel kennen wir für x = 2.5 keinen Wert von y. Die
Geradengleichung würde aber als “vorausgesagten Wert” den Wert ŷ = 0.8·2.5−0.2 = 1.8 ergeben.
Für x = 50 erhalten wir ŷ = 0.8 · 50 − 0.2 = 39.8. Unsere Vorhersagen sind aber mit Vorsicht zu
verwenden. Zunächst wissen wir, dass ja auch die gegebenen Daten nicht exakt auf einer Geraden
liegen. Wir müssen damit rechnen, dass auch das Ergebnis eines Versuches mit x = 2.5 nicht exakt
den y-Wert ergeben wird, den die Gerade vorhersagt. Der Wert ŷ = 1.8 ist nur die bestmögliche
Vorhersage, die wir aus der bisher vorliegenden Information treffen können. Noch problematischer
ist die Vorhersage bei x = 50. Der Satz der bekannten Daten liegt zwischen x = 0 und x = 4. Es
ist sehr fraglich, ob der Trend, der sich in diesem Bereich näherungsweise abzeichnet, noch bis zu
x = 50 anhält. Auch würde eine ganz kleine Änderung des Wertes von b1 bereits den vorhergesagten Wert ŷ stark beeinflussen, wodurch diese Vorhersage selbst dann ziemlich unsicher ist, wenn
tatsächlich bis zu x = 50 annähernd eine Gerade angenommen wird. Die folgende Grafik zeigt die
Regressionsgerade und den vorhergesagten Wert für x = 50 mit den Daten aus Beispiel 1.3.1.1
(blau, Kreise), sowie den gleichen Daten, wobei nur der letzte y-Wert der Daten von 3 auf 3.5
abgeändert wurde (rot, Sterne). Der Punkt x = 50 wirkt an der Regressionsgerade wie das Ende
eines langen Hebels, er hat einen hohen “Hebelwert” (“Leverage”).
50
40
30
20
¤
10
0
−10
−10
0
10
20
30
40
50
60
Auswirkung kleiner Änderungen der Daten im Bereich x = 0 · · · 5, auf eine Vorhersage für
x = 50
Methode 1.3.2.2 (Voraussage mittels der Regressionsgeraden). Aus einem bestehenden Satz von Datenpaaren x1 , y1 , · · · , xn , yn soll ein Wert für y vorhergesagt
werden, für den Fall dass x = x0 . Wir treffen die Voraussage
ŷ = b0 + b1 x0 .
Dabei sind b0 und b1 die Koeffizienten der Regressionsgeraden, die aus den Daten
x1 , y1 , · · · , xn , yn berechnet wird.
Diese Methode ist nur brauchbar, wenn die Datenpunkte xi , yi annähernd auf
einer Geraden liegen, und der Wert x0 nicht zu weit vom Intervall entfernt liegt,
welches durch x1 , · · · , xn abgedeckt wird.
Merksatz 1.3.2.3. Für den Mittelwert x̄ sagt die Regressionsgerade genau den
Mittelwert ȳ voraus.
1.3.2.2. Residuen und Schwankungen.
Beispiel 1.3.2.4. Wir vergleichen jetzt die Werte yi des Datensatzes aus Beispiel 1.3.1.1 mit den Werten, welche die Regressionsgerade für die entsprechenden
xi vorhersagen würde: ŷi = b0 + b1 xi .
48
1. BESCHREIBENDE STATISTIK
Diskussion: In der Abbildung zu Beispiel 1.3.1.1 sind die Datenpaare xi , ŷi als rote Kreise auf
der Regressionsgerade eingezeichnet. Die folgende Tabelle zeigt noch einmal die Werte der Datenpunkte, sowie die vorausgesagten Werte ŷi . Wir sehen, dass die Mittelwerte von y und ŷ gleich
sind. Besonders interessant sind die Abweichungen der Vorhersage von den gegebenen Daten, die
sogenannten Residuen ei = yi − ŷi . Diese Abstände sind in der Illustration zu Beispiel 1.3.1.1
blau eingezeichnet. Je geringer die Residuen sind, desto besser passt die Gerade zu den Daten.
Der Mittelwert der Residuen ist immer Null.
Daten
vorhergesagte Werte
Residuen
xi
yi
ŷi
ŷi − y (ŷi − y)2 ei = yi − ŷi
e2i
0
0
-0.2
-1.6
2.56
0.2
0.04
1
1
0.6
-0.8
0.64
0.4
0.16
2
0
1.4
0.0
0.00
-1.4
1.96
3
3
2.2
0.8
0.64
0.8
0.64
4
3
3.0
1.6
2.56
0.0
0.00
Summe
10
7
7
6.40
0
2.80
= SSR
= SSE
gemittelt
2
1.4
1.4
0
= x = y = ŷ
=e
Wir bilden nun zwei Quadratsummen:
SSR =
n
X
(ŷ − ȳ)2 ,
i=1
n
n
X
X
SSE =
(y − ŷ)2 =
e2i .
i=1
i=1
Die Summe SSR ist ein Maß für die Schwankung der y-Werte, welche durch die Gerade vorhergesagt werden (im Vergleich zu SSY, welches die Schankung der y-Werte der gegebenen Daten
misst). Eine einfache Rechnung ergibt
SSR =
n
n
n
X
X
X
(b1 xi + b0 − ȳ)2 =
(b1 xi + b0 − b1 x̄ − b0 )2 = b21
(xi − x̄)2 = b21 SSX .
i=1
i=1
i=1
Tatsächlich zeigt unsere Tabelle SSR = 6.40 = 0.82 · 10 = b21 SSX. Diese Gleichung läßt sich
umgangssprachlich folgendermassen interpretieren: Die Werte von ŷ hängen durch eine Geradengleichung von den Werten von x ab. Sie schwanken umso mehr, je mehr die x-Werte schwanken,
und je steiler die Gerade ist, durch die sie bestimmt werden.
Die Summe SSE ist ein Maß für die Abweichung der y-Daten von der Regressionsgeraden.
Je kleiner SSE, desto besser passt die Gerade zu den Daten. SSE = 0 würde bedeuten, dass alle
Datenpunkte exakt auf der Geraden liegen. Vergleicht man die Summen SSE, SSR und SSY, so
sieht man aus der Tabelle:
6.40 + 2.80 = 9.20,
SSR + SSE = SSY .
Diese Gleichung gilt immer, wenn die Quadratsummen wie oben aus der Regressionsgeraden ermittelt wurden. Die Schwankung der y-Werte setzt sich additiv zusammen aus der Schwankung
der Werte ŷ, welche ihrerseits direkt von der Schwankung der x-Werte abhängt, und der Quadratsumme der Residuen. Geht man davon aus, dass zwischen x und y zumindest statistisch ein
Zusammenhang besteht, so versteht sich, dass verschiedene Werte von x auch verschiedene Werte
von y liefern. SSR ist jener Anteil der Schwankung von y, der sich auf die Verschiedenheit der
zugehörigen x-Werte zurückführen lässt, während SSE jene Schwankung ist, die unabhänig von x
noch dazukommt.
SSR 6.40 69.6% Schwankung, welche durch die Schwankung der x-Werte erklärt wird,
SSE 2.80 30.4% Schwankung der Residuen, nicht erklärter Teil der Schwankung von y,
SSY 9.20 100% Gesamte Schwankung von y.
Das Bestimmtheitsmaß
SSR
= 0.696 = 69.6%
SSY
sagt aus, welcher Anteil der Gesamtschwankung von y auf die Schwankung von x zurückgeführt
werden kann. Je näher B an 1 liegt, desto besser passt die Gerade zu den Daten. ¤
B=
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
49
Definition 1.3.2.5. Zu einem Satz von Datenpaaren x1 , y1 , · · · , xn , yn mit
Mittelwerten x̄, ȳ betrachten wir die Regressionsgerade y = b0 + b1 x. Dann sind:
ŷi = b0 + b1 xi
die vorhergesagten Werte von y,
ei = y i −
ŷ
die Residuen,
i
Pn
SSR = P i=1 (ŷi − ȳ)2 die durch die Regression erklärte Schwankung von y,
n
die durch die Regression nicht erklärte Schwankung von y,
SSE = i=1 e2i
SSR
B = SSY
das Bestimmtheitsmass der Regression.
Merksatz 1.3.2.6. Es gelten folgende Eigenschaften:
ŷi Die vorhergesagten Werte sind jene Werte, die y annehmen würde, wenn
die Geradengleichung für alle Daten exakt gelten würde. Ihr Mittelwert
ist ȳ. Ihre Schwankung SSR ist der Anteil der Schwankung von y, der sich
auf einen linearen Zusammenhang zwischen x und y zurückführen lässt.
Es gilt die Formel
SSR = b21 SSX .
ei Die Residuen sind die Abweichungen der y-Werte von den Werten, welche
die Regressionsgerade vorhersagt. Ihr Mittelwert ist 0. Die Schwankung
SSE ist der Anteil der Schwankung von y, der sich nicht auf einen linearen
Zusammenhang zwischen y und x erklären lässt. Es gilt die Formel
SSE + SSR = SSY .
Außerdem ist SSE ein Maß für die Güte der Anpassung der Daten durch
eine Gerade. Die Regressionsgerade ist genau so bestimmt, dass die Quadratsumme SSE der Residuen möglichst klein wird. Man sagt auch: Die
Regressionsgerade ist an die Daten nach dem Prinzip der kleinsten Quadrate (“least squares”) angepasst.
B Das Bestimmtheitsmaß drückt aus, wie groß der Anteil der durch die Regression erklärten Schwankung von y an der Gesamtschwankung von y
ist. Es liegt immer zwischen 0 und 1. Im Fall B = 0 gibt es überhaupt
keinen linearen Zusammenhang zwischen x und y, im Fall B = 1 liegen
alle Datenpunkte exakt auf einer Geraden.
Bemerkung 1.3.2.7.
Wir sprechen hier etwas verschwommen von “Schwankungen”. Würden
wir SSX, SSY usw. durch den Stichprobenumfang n dividieren, würden
wir Varianzen erhalten.
Zur Nomenklatur:
SSR . . . Schwankung der Regressionsgeraden,
SSE . . . Schwankung der Errors, also der Residuen.
1.3.2.3. Warum spricht man von “erklärter Schwankung?”
Beispiel 1.3.2.8. Im Diagramm links unten wurden jeweils nebeneinander für
20 Merkmalsträger die Ausprägungen von zwei metrischen Merkmalen X1 blau und
Y1 rot eingetragen. Zur besseren Sichtbarkeit wurden die Datenpunkte durch Linien verbunden. Über dem Diagramm wir das Bestimmtheitsmaß bei einer linearen
Regression von X1 auf Y1 angegeben. Das Diagramm rechts unten wurde ebenso
für zwei andere Merkmale X2 , Y2 angefertigt. Vergleichen Sie die Schwankungen
von X und Y für jedes der beiden Diagramme.
50
1. BESCHREIBENDE STATISTIK
B = 0.88
B = 0.01
1.5
2
1
1.5
0.5
X (blau), Y (rot)
X (blau), Y (rot)
1
0
−0.5
−1
−1.5
0.5
0
−0.5
−2
−1
−2.5
−3
0
5
10
15
20
−1.5
0
5
Nummer der Realisierung
10
15
20
Nummer der Realisierung
Diskussion: Wir betrachten zunächst das linke Diagramm. Zwar ist Y1 meist kleiner als X1 , aber
das Auf und Ab der Schwankungen von X1 wird von Y1 einigermaßen genau, wenn auch in verkleinertem Maßstab wiedergegeben. Wenn man annimmt, dass Y1 bis auf eine kleine Zufallsstörung
durch eine Regression Y1 = b1 X1 + b0 festgelegt ist, so folgt auch, dass bis auf den Beitrag der
Störung die Variable Y1 die Schwankungen von X1 nachvollzieht. Auf diese Weise kann das Regressionsmodell die Schwankungen von Y1 mit Hilfe der Schwankungen von X1 erklären. Es bleibt
ein kleiner Rest, der von X1 unabhängig ist, denn Y1 vollzieht nicht ganz exakt maßstabgetreu
die Schwankungen von X1 nach. Dieser Rest bleibt auch im Regressionsmodell unerklärt. Das
Bestimmtheitsmaß von 0.88 sagt, dass 88% der Varianz von Y1 auf Schwankungen von X1 zurückzuführen sind. Die restlichen 12% sind Schwankungen infolge der zufälligen Abweichung von Y1
von der Regressionsgeraden.
Im rechten Diagramm sieht man keinen Zusammenhang zwischen den Schwankungen von
X2 und Y2 . Das Bestimmtheitsmaß von 0.01 zeigt, dass nur 1% der Schwankungen von Y2 durch
lineare Regression auf X2 zurückgeführt werden können. Ein t-Test auf den Regressionsparameter b2 würde zeigen, dass keine Abhängigkeit zwischen X2 und Y2 mit vernünftiger statistischer
Signifikanz nachweisbar ist.
In diesem Beispiel haben wir mit dem Auge einen Zusammenhang zwischen X1 und Y1
festgestellt, weil eine deutliche Ähnlichkeit der Schwankungen zu beobachten war. Hinter den
Formeln der linearen Regression versteckt sich im Prinzip eine Auswertung der Ähnlichkeit und
Verschiedenheit der Schwankungen der Variablen. ¤
Merksatz 1.3.2.9. Hinter den Formeln der linearen Regression versteckt sich
im Prinzip eine Auswertung der Ähnlichkeit und Verschiedenheit der Schwankungen
der Merkmale.
1.3.2.4. Die Wichtigkeit der grafischen Darstellung.
Beispiel 1.3.2.10. Die folgenden vier Punktwolken zeigen Datensätze, diein
der Literatur als Quartett von Anscombe bekannt sind. Obwohl sie so unterschiedlich aussehen, besitzen sie fast genau dieselben Mittelwerte, Quadratsummen und
Regressionsgeraden. Erklären Sie anhand der unten abgebildeten Punktwolken, inwieweit die Daten von Geraden abweichen.
x̄
ȳ
9.0 7.5
SSX SSY
110.0 41.2
SSE b0
68.8 3.0
b1
0.5
B
0.67
r
0.82
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
10
10
y2
15
y1
15
51
5
5
0
0
10
x1
0
0
20
10
10
20
10
x4
20
y4
15
y3
15
10
x2
5
5
0
0
10
x3
20
0
0
Punktwolken von Anscombe’s Quartett
Diskussion: Datensatz 1 wird durch eine Gerade leidlich gut wiedergegeben. Die Abweichungen
von der Geraden sind zwar der Größe nach beträchtlich, jedoch wirken sie zufällig.
Datensatz 2 zeigt eine ganz deutliche nichtlineare Abhängigkeit zwischen x und y. Tatschlich
werden die Daten durch die Parabel
y = −0.13x2 + 2.78x − 5.99
fast perfekt wiedergegeben. Weil diese Abhängigkeit aber einer Parabel und keiner Geraden entspricht, bleibt das Bestimmtheitsmaß nur bei 0.67, und die Gerade passt nicht besonders gut.
Datensatz 3 zeigt fast eine perfekte Gerade, aber einer der Datenpunkte ist ein Ausreisser.
Ohne diesen Ausreisser würde sich ein viel höheres Bestimmtheitsmaß und eine flachere Regressionsgerade ergeben.
Datensatz 4 hat für fast alle Punkte denselben x-Wert, bis auf einen Ausreisser. Ohne diesen
Ausreisser ließe sich gar keine Regressionsgerade berechnen (es wäre SSX = 0 und damit würde
eine Division durch Null folgen).
¤
Tipp 1.3.2.11. Führen Sie keine lineare Regression durch, ohne vorher die Daten möglichst gründlich grafisch dargestellt und überprüft zu haben. Beachten Sie
insbesondere:
• Zwischen Daten mit einem geringen Bestimmtheitsmaß kann immer noch
ein sehr deutlicher, aber nichtlinearer Zusammenhang bestehen. Korrelationskoeffizient und Bestimmtheitsmaß messen nur lineare Zusammenhänge.
• Die Regressionsgerade ist empfindlich auf Ausreisser. Einzelne, fernab vom
Großteil der Daten liegende Werte von x und y können die Regressionsgerade drastisch verändern.
• Auch für Daten, welche schlecht zu einer Geraden passen, ergibt die Formel eine Regressionsgerade. Typischerweise ist die Regressionsgerade für
Daten mit kleinem Korrelationskoeffizienten flach.
52
1. BESCHREIBENDE STATISTIK
Was Sie jetzt können:
Begriffe und Wissen: Voraussage durch ein mathematisches Modell, Residuen, erklärte und unerklärte Schwankung, Bestimmtheitsmaß, SSR + SSE = SSY, Kennzahlen ohne Grafik sind manchmal
irreführend.
Methoden: Voraussage durch die Regressionsgerade, Berechnung der
Residuen und Schwankungen, Interpretation des Bestimmtheitsmaßes, Beurteilung von linearen Regressionen an Hand von Grafiken.
Bemerkung: Obwohl Sie in diesem Kapitel die notwendigen Formeln zur Berechnung der
Schwankungen finden, wird von Ihnen nicht erwartet, dass Sie die Rechnungen mit Bleistift
und Papier durchführen können, dazu hat man Computerprogramme. Daher wurde auch oben
nicht auf die verschiedenen Abkürzungen und Rechenvorteile eingegangen, die sich anbieten
würden.
1.3.3. Korrelation.
Übersicht:
1. Kovarianz
2. Pearsonscher Korrelationskoeffizient
3. Spearmanscher Rangkorrelationskoeffizient
1.3.3.1. Kovarianz.
Definition 1.3.3.1. Seien x1 , · · · , xn und y1 , · · · , yn die Ausprägungen zweier
metrischer Merkmale in einer Gesamtheit des Umfanges n. Die Mittelwerte seien x
und y.
Die Kovarianz der beiden Merkmale ist
n
1X
Cov(x, y) =
(xi − x)(yi − y)
n i=1
(In der Notation der Quadratsummen in der linearen Regression ist das
1
n
SXY.)
Merksatz 1.3.3.2. Die Kovarianz eines Merkmals mit sich selbst ist die Varianz:
Cov(x, x) = σx2 .
Merksatz 1.3.3.3.
Die Kovarianz zwischen x und y ist dann positiv, wenn zwischen x und y
ein positiver Trend besteht: Je größer x, desto größer (zumindest meistens)
auch y.
Die Kovarianz zwischen x und y ist dann negativ, wenn zwischen x und y
ein gegenläufiger Trend besteht: Grösseren x entsprechen zumeist kleinere
y.
Der Betrag der Kovarianz wird typischerweise groß, wenn x und y große
Varianzen haben.
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
53
Diskussion:
Die folgende Abbildung zeigt je 40 Realisierungen von 3 Paaren von Merkmalen, die allesamt
als Mittelwerte 0 besitzen:
0
0
Zur Erklärung der Kovarianz
Markierung
Zufallsvariablen Varianzen
Kovarianz
rote Kreise
x1 , y1
σx1 = σy1 = 1
Cov(x1 , y1 ) = 0.7
blaue Quadrate x2 , y2
σx2 = σy2 = 1
Cov(x2 , y2 ) = −0.7
grüne Sterne
x3 , y3
σx3 = σy3 = 0.3 Cov(x3 , y3 ) = 0.063
Die x, y-Ebene ist in vier Quadranten geteilt, am Schnittpunkt der Quadranten liegen die
Mittelwerte (in diesem Fall der Nullpunkt). Der Quadrant rechts oben und der Quadrant links
unten wird bevorzugt von Merkmalen erreicht, zwischen denen ein positiver Trend besteht: Positives x − x̄ entspricht zumeist einem positiven y − ȳ. Dies gilt für die Paare x1 , y1 und x3 , y3 . In
diesen Quadranten ist (x − x̄)(y − ȳ) positiv, daher haben solche Merkmale eine positive Kovarianz. Merkmale mit einem gegenläufigen Trend treffen bevorzugt in die Quadranten links oben und
rechts unten, dort ist (x − x̄)(y − ȳ) negativ, und daher ist auch die Kovarianz solcher Merkmale
negativ. In unserem Beispiel trifft das für das Paar x2 , y2 zu. Merkmale mit hohen Varianzen
liegen häufig weitab von den Mittelwerten. Zum Beispiel trifft das Paar x1 , y1 zumeist weiter weg
vom Schnittpunkt der Quadranten als das Paar x3 , y3 . Beide Paare zeigen den gleichen positiven
Trend, jedoch summieren sich größere Zahlenwerte zur Kovarianz des ersten Paares: Je größer die
Varianz der einzelnen Merkmale, desto größer im Allgemeinen auch der Betrag der Kovarianz.
¤
1.3.3.2. Pearsonscher Korrelationskoeffizient.
Da die Kovarianz sowohl von der Varianz der einzelnen Merkmale als auch von der Wechselwirkung zwischen beiden beeinflusst wird, destillieren wir aus ihr eine Kenngröße, die ausschließlich
die Wechselwirkung beschreibt. Diese erhalten wir, indem wir x und y standardisieren:
x − x̄
y − ȳ
x1 =
, y1 =
.
σx
σy
Da diese beiden neuen Merkmale auf Varianz 1 standardisiert sind, enthält die Kovarianz von x1
und y1 keine Information über die Varianzen mehr, sondern nur mehr über den Zusammenhang
zwischen den beiden Merkmale. Die Kovarianz zwischen x1 und y1 ist die Korrelation, die wir nun
definieren:
Definition 1.3.3.4. Seien x und y zwei metrische Merkmale mit Standardabweichungen σx , σy .
Die Korrelation (der Spearmansche Korrelationskoeffizient) von x und y ist
Cor(x, y) =
Cov(x, y)
.
σx σy
54
1. BESCHREIBENDE STATISTIK
Ist die Korrelation (und damit automatisch auch die Kovarianz) von x und y gleich
Null, so heißen x und y unkorrelierte Merkmale.
Bemerkung 1.3.3.5. Cor(x, y) ist genau der in der linearen Regression berechnete Korrelationskoeffizient
SXY
r= √
.
SSX · SSY
Merksatz 1.3.3.6. Die Korrelation eines Merkmales mit sich selbst ist immer
1.
Merksatz 1.3.3.7. Die Korrelation drückt aus, ob zwischen zwei Zufallsvariablen ein linearer Zusammenhang besteht:
1) Die Korrelation liegt immer zwischen -1 und 1.
2) Eine Korrelation von +1 bedeutet, dass ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 > 0 gilt. Eine Korrelation von -1 bedeutet, dass
ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 < 0 besteht.
3) Eine Korrelation von 0 bedeutet, dass zwischen y und x kein linearer
Zusammenhang besteht.
4) Bei einer Korrelation zwischen 0 und 1 (bzw. zwischen -1 und 0) lässt
sich y zerlegen: Y = b0 + b1 x + z, dabei ist b1 > 0 (bzw. b1 < 0), und z
hat Mittelwert 0 und eine geringere Varianz als y. Das heißt, ein Teil von
y lässt sich durch einen linearen Zusammenhang auf x zurückführen. Je
größer der Betrag der Korrelation, desto größer der Anteil von y, der auf
x zurückgeführt werden kann.
Beispiel 1.3.3.8. Die folgende Abbildung zeigt vier Datensätze und ihre Korrelationskoeffizienten r. Beachten Sie die Zusammenhänge
• zwischen den Absolutbeträgen von r und der Güte der Anpassung durch
eine Geraden,
• zwischen dem Vorzeichen von r und dem positiven oder negativen Trend.
r=0.99
r=0.42
20
0
y
50
y
30
10
0
0
−50
10
20
x
r=−0.63
30
−100
0
20
20
x
r=−0.86
30
10
0
y
y
0
−20
−40
0
10
−10
−20
10
20
x
30
−30
0
10
20
30
x
Vergleich von Datensätzen mit verschiedenen Korrelationskoeffizienten
1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN
55
Merksatz 1.3.3.9. Sind zwei Merkmale unabhängig, so ist ihre Kovarianz und
ihre Korrelation null. Es gibt aber auch abhängige Merkmale, die unkorreliert sind.
Kovarianz und Korrelation messen nur lineare Zusammenhänge.
Diskussion: In der folgenden Grafik besteht zwischen x und y der exakte Zusammenhang y =
x2 + 1. Trotzdem sind die Merkmale unkorreliert, die Regressionsgerade (rot eingezeichnet) liegt
völlig waagrecht.
¤
Zwei abhängige Merkmale, die trotzdem unkorreliert sind
1.3.3.3. Spearmanscher Rangkorrelationskoeffizient.
Der Korrelationskoeffizient beschreibt Zusammenhänge zwischen metrischen Merkmalen. Statistische Methoden zur Behandlung ordinaler Daten beruhen auf der Zuweisung von Rangzahlen:
Methode 1.3.3.10 (Rangzuweisung für ordinale Daten). Seien x1 , x2 , · · · , xn
Ausprägungen eines ordinalen Merkmals für n Merkmalsträger. Zur Verwendung
mit verschiedenen statistischen Methoden werden den Merkmalsträgern folgendermaßen Ränge zugeordnet:
1) Der Merkmalsträger mit der kleinsten Ausprägung erhält Rang 1, die
nächsthöhere Rang 2, usw., die höchste Rang n.
2) Eine Bindung (tie) ist die Situation, wenn im Verlauf dieses Verfahrens an
k > 1 Merkmalsträger mit gleich hohen Ausprägungen Ränge zu vergeben
sind. Der nächste zu vergebende Rang sei m. Dann wird das arithmetische
Mittel der für diese k Merkmalsträger bereitstehenden Ränge
m + (m + 1) + · · · + (m + k − 1)
k
an alle k Merkmalsträger als Rang vergeben. Die Plätze m · · · (m + k − 1)
sind nun vergeben, und der nächste Merkmalsträger erhält Rang m + k.
Methode 1.3.3.11 (Spearmanscher Rangkorrelationskoeffizient). Der Spearmansche Rangkorrelationskoeffizient ρ dient zur Beurteilung, ob zwischen zwei ordinalen Merkmalen x und y ein positiver oder gegenläufiger Trend besteht:
1) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu höheren
Ausprägungen von y.
2) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu niedrigeren
Ausprägungen von y.
56
1. BESCHREIBENDE STATISTIK
3) Der größtmögliche Betrag von ρ ist 1. Ist ρ = 1, so sind die Ränge der
Merkmalsträger durch x genauso geordnet wie durch y. Ist ρ = −1, so
ist die Anordnung der Merkmalsträger durch x genau gegenläufig wie die
Anordnung durch y.
Zur Berechnung von ρ seien n Merkmalsträger mit den Ausprägungen x1 , · · · , xn
und y1 , · · · , yn gegeben. Den Merkmalsträgern wird sowohl durch xi als auch durch
yi jeweils ein Rang zugewiesen (Methode 1.3.3.10): Rx,i , Ry,i . Zwischen den Rängen
Rx,i und Ry,i wird dann der Pearsonsche Korrelationskoeffizient berechnet.
Bei keinen Bindungen liefert auch die folgende Formel den Rangkorrelationskoeffizienten. (Gibt es nur wenige Bindungen, kann die Formel als Näherungsformel
verwendet werden.):
Es werden die Differenzen di = Rx,i − Ry,i berechnet, und es ist
Pn
6 i=1 d2i
ρ=1−
.
n(n2 − 1)
Beispiel 1.3.3.12. Bei einem Wettbewerb traten dieselben 8 BewerberInnen
(A,. . . ,H) in zwei Disziplinen an. Die Ergebnisse waren:
Disziplin 1) in der Reihung vom besten zum schlechtesten Platz: A,D,G,C,H,B,E,F.
Disziplin 2) in der Reihung vom besten zum schlechtesten Platz: C,D,(ex aequo A,G,H),B,F,E.
Berechnen Sie den Spearmanschen Rangkorrelationskoeffizient.
Diskussion: Weil es nur eine Bindung gibt, begnügen wir uns mit der schnelleren, näherungsweisen
Berechnung. Beachten Sie, wie wir die Rangvergabe der Bindung behandeln. In Disziplin 2 kommen
nach den ersten zwei Plätzen drei TeilnehmerInnen A, G, H, auf den nächsten Platz. Die Plätze
drei bis fünf werden ausgemittelt, das gibt 4, und dieser Rang wird an A,G und H vergeben.
Anschließend wird mit Platz 6 weitergezählt.
BewerberIn
Ränge
Differenz d2i
(1) (2)
A
1
4
-3
9
B
6
6
0
0
C
4
1
3
9
D
2
2
0
0
E
7
8
-1
1
F
8
7
1
1
G
3
4
-1
1
H
5
4
1
1
Summe
22
Der Rangkorrelationskoeffizient ist dann
6 · 22
ρ≈1−
≈ 0.74
8(82 − 1)
Der Rangkorrelationskoeffizient könnte zwischen -1 und 1 liegen. Da er deutlich größer als 0
ist, besteht ein positiver Zusammenhang zwischen den Ergebnissen in den beiden Disziplinen. Im
Allgemeinen haben BewerberInnen, die in Disziplin 1 besser abgeschnitten haben, auch Disziplin 2
besser bestanden. ¤
Was Sie jetzt können:
Begriffe und Wissen: Kovarianz, Pearsonscher Korrelationskoeffizient, Interpretation des Korrelationskoeffizienten, unkorreliert ist nicht
unabhängig, Spearmanscher Rangkorrelationskoeffizient.
Methoden: Berechnung und Interpretation von Korrelationskoeffizienten und Rangkorrelationskoeffizienten, Rangzuweisung bei ordinalen Daten.
KAPITEL 2
Zufallsgrößen
Übersicht:
1. Zufall und Wahrscheinlichkeit
1.1. Wo wird Zufall berücksichtigt?
1.2. Wahrscheinlichkeit
2. Zufallsvariablen
2.1. Verteilung von Zufallsvariablen
2.2. Statistische Kennzahlen für Zufallsvariablen
3. Normalverteilung
3.1. Normalverteilung
3.2. Umgang mit Normalverteilungstabellen
3.3. Der zentrale Grenzwertsatz
2.1. Zufall und Wahrscheinlichkeit
Übersicht:
1. Wo wird Zufall berücksichtigt?
2. Wahrscheinlichkeit
2.1.1. Wo wird Zufall berücksichtigt.
Übersicht:
1. Zufallsexperiment und Zufallsvariable
2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird.
2.1.1.1. Zufallsexperiment und Zufallsvariable.
Eine wichtige Aufgabe der Statistik ist, die Zuverlässigkeit von Aussagen abzuschätzen, die
Unsicherheiten auf Grund von Zufallseinflüssen enthalten. Eine Stichprobe von Kakteen kann
zufällig aus besonders “blühfaulen” Exemplaren bestehen und dadurch kann die Abschätzung der
Blütenanzahl dieser Kakteen verfälscht werden. Wir brauchen daher einen mathematischen Begriff
einer Größe, die vom Zufall abhängt: Die Zufallsgröße. Die folgende “Definition” ist im mathematischen Sinn keine exakte Definition. Sie ist eine Handhabe für den intuitiven Hausgebrauch.
Definition 2.1.1.1. Ein Zufallsexperiment ist ein Vorgang, der
57
58
2. ZUFALLSGRÖSSEN
• aus einer vorgegebenen Menge von Möglichkeiten ein Ergebnis ermittelt,
• nach festen Regeln abläuft,
• (zumindest theoretisch) beliebig oft wiederholbar ist.
Jedes mögliche Ergebnis eines Zufallsexperimentes heißt Elementarereignis. Die
Menge aller Elementarereignisse ist der Ereignisraum und wird oft mit Ω bezeichnet.
Wenn das Ergebnis eines Zufallsexperimentes eine Zahl ist, nennen wir diese
eine Zufallsvariable oder Zufallsgröße. Jede Durchführung des Zufallsexperimentes liefert einen neuen Zahlenwert, diesen nennen wir eine Realisierung der
Zufallsgröße.
Es hat sich eingebürgert, Zufallsgrößen mit Großbuchstaben zu bezeichnen, und
ihre Realisierungen mit Kleinbuchstaben.
Schreibweise 2.1.1.2. Wenn eine Größe nicht vom Zufall abhängt, bezeichnen
wir sie als deterministisch.
Definition 2.1.1.3. Eine Zufallsgröße heisst diskret, wenn sie nur einzelne,
voneinander isolierte Zahlenwerte als Realisierung annehmen kann (typischerweise
z.B. ganze Zahlen). Eine diskrete Zufallsgröße, die nur zwei Werte annehmen kann
(0/1, ja/nein) heisst dichotom. Kann eine Zufallsgröße Zahlenwerte aus einem
ganzen Intervall annehmen, so heißt sie stetig.
Tipp 2.1.1.4. Es hängt von der Problemstellung ab, welche Größen als fest und
welche als Zufallsgrößen angesehen werden. Fragen Sie sich: Welche Zufallseffekte
sind für meine Diskussion wesentlich? Größen, die von diesen Effekten beeinflusst
werden, müssen als Zufallsgrößen angesehen werden.
2.1.1.2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird.
Beispiel 2.1.1.5. Die Größe der Schnecken der Art Cylindrus obtusus im Hochschwabgebiet soll ermittelt werden. Ein Forscherteam geht auf die Berge und sammelt und vermißt alle Exemplare, die gefunden werden. Am Ende soll aus der
Statistik die mittlere Gehäusehöhe aller Cylindrus obtusus im untersuchten Gebiet
angegeben werden. Mit Hilfe von statistischen Methoden kann man beurteilen, wie
genau der Mittelwert der Höhen der Sammlung den Mittelwert aller Gehäusehöhen
wiedergibt.
Diskussion: In diesem Beispiel kann der Zufall das Ergebnis beeinflussen: Finden die Sammler
eine repräsentative Stichprobe, oder zufällig hauptsächlich überdurchschnittlich große Exemplare? Der Zufallseffekt, dessen Auswirkungen die Statistik abschätzen soll, tritt hier beim Sammeln
der Schnecken auf. Das Ziel der Arbeit ist eine Schätzung der Größe “mittlere Gehäusehöhe aller
Schnecken im Hochschwabgebiet”. Diese Zahl ist unbekannt, wird aber vom Zufall der Schneckensuche nicht beeinflusst. Dies ist also — in dieser Aufgabenstellung — ein Parameter, der geschätzt
werden soll, aber keine Zufallsgröße.
Dagegen ist die Höhe der einzelnen gefundenen Schneckenhäuser eine Zufallsgröße: Jede gefundene Schnecke liefert eine neue Realisierung. Bezeichnen wir mit H die Zufallsgröße: “Höhe
der gefunden Schneckenhäuser”. Wenn die Forscher zuerst eine Schnecke mit 12 mm, dann mit
14 mm, dann mit 9 mm Gehäusehöhe finden, dann sind die Zahlen h1 = 12, h2 = 14, h3 = 9
Realisierungen der Zufallsgröße H.
Auch der Mittelwert der Höhen aller gesammelten Schneckenhäuser ist in unserem Kontext
eine Zufallsgröße, denn er hängt ja davon ab, welche Schnecken im Einzelnen gefunden werden.
Soll man die Gehäusehöhe der einzelnen Schnecken als diskrete oder stetige Zufallsvariable
auffassen? Beides läßt sich rechtfertigen. Im Grunde ist jede Zahl in einem natürlich sinnvollen
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
59
Intervall (etwa 8 bis 18 mm) als Ergebnis möglich. Das spricht für eine stetige Zufallsgröße.
Andererseits erlaubt die Schiebelehre nur Messungen auf 0.1 mm genau, und in Hinblick auf den
Zeitaufwand wird wahrscheinlich nur auf 1 mm genauso gemessen. So gesehen ist der Messwert
eine diskrete Zufallsgröße. Den Mittelwert der Messungen aus der ganzen Stichprobe betrachten
wir jedenfalls in der Praxis als stetig. Haarespalter könnten einwenden, dass in einer Stichprobe
von 1000 Schnecken bei einer Messung auf 1 mm genau der Mittelwert nur ganzzahlige Vielfache
von 0.001 annehmen könnte, also streng genommen diskret ist. ¤
Beispiel 2.1.1.6. Der Prozentsatz aller BefürworterInnen einer Partei in Österreich soll geschätzt werden. Eine Stichprobe wird zu diesem Thema befragt. Mit
Hilfe von statistischen Methoden kann man abschätzen, wie groß die Stichprobe
sein muss, damit der Anteil der BefürworterInnen in der Stichprobe den Anteil der
BefürworterInnen in der ganzen Bevölkerung mit ausreichend großer Wahrscheinlichkeit ausreichend genau wiedergibt.
Diskussion: Auch hier besteht der Zufall in der Wahl der Stichprobe. Wir gehen in dieser Untersuchung davon aus, dass der Prozentsatz der BefürworterInnen unter allen WählerInnen (also
in der Grundgesamtheit) eine feste, wenn auch unbekannte Zahl ist. Könnten wir alle ÖsterreicherInnen befragen, hätten wir diese Zahl exakt. Die Antwort jeder einzelnen befragten Person
hängt aber vom Zufall ab, welche Person gerade für die Stichprobe ausgewählt wird. Für jede
befragte Person setzen wir in die Liste eine 1, wenn sie die Partei befürwortet, und 0, wenn sie die
Partei nicht befürwortet. Dies ist eine diskrete, dichotome Zufallsvariable, jede Person liefert eine
Realisierung. Aus der Stichprobe ermitteln wir den Prozentsatz der Personen, die für die Partei
stimmt. Auch das ist eine Zufallsvariable. Wenn verschiedene Meinungsforschungsinstitute ihre
Stichproben machen, erhalten sie verschiedene Realisierungen. ¤
Beispiel 2.1.1.7. Es soll der Trend bestimmt werden, nach dem sich der Anteil
der BefürworterInnen der Partei aus Beispiel 2.1.1.6 im Lauf der Monate entwickelt.
Wir erheben die Anteile der BefürworterInnen monatlich. Wir unterstellen für den
Anteil X(t) im Monat Nummer t eine einfache Geradengleichung (also ein lineares
Wachsen oder Abfallen): X(t) = b1 t + b0 + Z(t). Dabei sind b0 , b1 feste unbekannte Parameter, und Z(t) eine zufällige Störung, mit der wir ausdrücken, dass
die Anteile natürlich nie exakt einer Geradengleichung folgen werden, sondern nur
näherungsweise. Mit Hilfe von statistischen Methoden kann man aus der Folge der
monatlich erhobenen Anteile die Parameter b0 , b1 schätzen, und angeben, wie gut
das einfache Modell den tatsächlichen Trend wiedergibt, und wie stark die zufälligen
Abweichungen vom Trend sind.
Diskussion: Der Zufall in diesem Beispiel besteht darin, dass sich die Anzahl der BefürworterInnen nicht genau nach dem Trend entwickelt, sondern zusätzlich stärkeren oder schwächeren
Schwankungen unterworfen ist, die wir nicht erklären können und als rein zufällig ansehen. In diesem Beispiel betrachten wir den Trend als gegeben: die Parameter b0 , b1 sind feste Zahlen, auch
wenn wir sie nicht kennen und erst mit Hilfe von geeigneten Methoden schätzen müssen. Dagegen
ist die Störung Z eine Zufallsgröße: Jeden Monat wird sie neu realisiert. Manchmal weicht der
tatsächliche Anteil ein wenig nach oben, manchmal nach unten von der theoretischen Formel ab.
Damit unterliegt aber auch der Anteil X(t) dem Zufall und wird in dieser Studie als Zufallsgröße
betrachtet. Beachten Sie aber: Wenn wir nun aus den erhobenen Daten die Regressionsgerade
berechnen: X = b̂0 + b̂1 Z, so berechnen wir Schätzwerte, einen Schätzwert b̂0 für den uns unbekannten Parameter b0 , und einen Schätzwert b̂1 für den uns unbekannten Parameter b1 . Da die
erhobenen Daten vom Zufall abhängen, sind auch die daraus berechneten geschätzten Parameter
b̂0 , b̂1 Zufallsgrößen.
¤
60
2. ZUFALLSGRÖSSEN
Anteil Waehler
0.3
Anteil laut Modell
Zufallseffekt
Anteil beobachtet
0.29
0.28
0
2
4
6
8
10
Monat
Trend aus Beispiel 2.1.1.7: Trendkurve und beobachtete Werte
Was Sie jetzt können:
Begriffe und Wissen: Zufallsexperiment, Zufallsvariable (Zufallsgröße), Ereignisraum, Elementarereignis.
Methoden: Feststellen, welche Größen in einer Studie als Zufallsgrößen und welche als deterministisch zu betrachten sind.
2.1.2. Wahrscheinlichkeit.
Übersicht:
1. Ereignis und Wahrscheinlichkeit
2. Bedingte Wahrscheinlichkeit
3. Unabhängigkeit
2.1.2.1. Ereignis und Wahrscheinlichkeit.
Auf Grund des Ergebnisses eines Zufallsexperimentes kann man sagen, ob gewisse Ereignisse eingetreten sind oder nicht. Mathematisch erfolgt die Definition
eines Ereignisses in der Sprache der Mengenlehre. Zur Erinnerung (an Definition 2.1.1.1): Der Ereignisraum eines Zufallsexperimentes ist die Menge aller möglichen Ergebnisse (Elementarereignisse).
Definition 2.1.2.1. Sei Ω der Ereignisraum eines Zufallsexperimentes. Ein
Ereignis ist eine Teilmenge von Ω. Das Ereignis A tritt ein, wenn das Zufallsexperiment ein Elementarereignis liefert, das in der Menge A enthalten ist.
Das Ereignis ∅, die leere Menge, tritt nie ein. Das Ereignis Ω, der gesamte
Ereignisraum, tritt immer ein. Es heißt daher das sichere Ereignis.
Definition 2.1.2.2. Sind A, B zwei Ereignisse, so lassen sich durch die mengentheoretischen Operation Durchschnitt, Vereinigung und Komplement die folgenden
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
61
Ereignisse bilden:
A ∩ B: Sowohl A als auch B treten ein.
A ∪ B: Entweder A oder B oder beide gemeinsam treten ein.
A:
Das Ereignis A tritt nicht ein.
Man sagt, zwei zwei Ereignisse A und B schließen einander aus, wenn sie
nie gemeinsam eintreten können (also wenn gilt: A ∩ B = ∅).
Ob ein Ereignis eintritt oder nicht, hängt vom Zufallsexperiment ab. Wir können vorher
bestenfalls Aussagen treffen, wie wahrscheinlich das Ereignis ist. Die mathematisch exakte Definition der Wahrscheinlichkeit ist heikel. Das Folgende ist nur eine intuitive Erklärung, die für die
praktische Arbeit aber ausreicht.
Definition 2.1.2.3. Sei A ein Ereignis. Die Zahl P (A), die Wahrscheinlichkeit von A, liegt zwischen 0 und 1 (100%). Würde man das Zufallsexperiment in
einer sehr langen Serie von unabhängigen Versuchen wiederholen, würde der Anteil
der Fälle, in denen A auftritt, annähernd P (A) betragen. (Je länger die Versuchsserie, umso genauer.)
Die Wahrscheinlichkeit des leeren Ereignisses P (∅) beträgt Null, die Wahrscheinlichkeit des sicheren Ereignisses P (Ω) ist Eins.
Der Buchstabe P steht für probability (=Wahrscheinlichkeit). Viele Schwierigkeiten liegen
auf dem Weg, aus dieser Idee einen mathematisch definierten Begriff zu destillieren. Würde man
zum Beispiel annehmen, dass alle Ereignisse Wahrscheinlichkeiten haben, würde man sich in Widersprüche verwickeln. Alle diese Feinheiten betreffen aber zum Glück die praktische Arbeit nicht.
Wir können sie getrost den Fachleuten überlassen.
Die folgenden Rechenregeln über Wahrscheinlichkeiten sind unmittelbar einleuchtend:
Merksatz 2.1.2.4. Seien A und B Ereignisse, welche Wahrscheinlichkeiten
besitzen. Es gilt:
a) P (A) = 1 − P (A).
b) Schließen sich A und B gegenseitig aus, dann ist P (A∪B) = P (A)+P (B).
c) Jedenfalls gilt P (A ∪ B) + P (A ∩ B) = P (A) + P (B).
Diskussion: Regeln (a) und (b) sind unmittelbar einleuchtend. Dass Regel (c) gilt, überlegt man
an Hand des folgenden Venn-Diagrammes:
B
B ohne A
A
A und B
A ohne B
Zerlegung der Vereinigung zweier Ereignisse
62
2. ZUFALLSGRÖSSEN
Das Ereignis A∪B setzt sich aus drei Ereignissen zusammen, die einander jeweils ausschließen:
A ∩ B (A und B treten beide ein),
A \ B (A tritt ein, aber B tritt nicht ein),
B \ A (B tritt ein, aber A tritt nicht ein).
Die Wahrscheinlichkeiten dieser drei Ereignisse summieren sich zur Wahrscheinlichkeit von A ∪ B:
P (A ∪ B) = P (A ∩ B) + P (A \ B) + P (B \ A).
Andererseits bilden die Ereignisse A ∩ B und A \ B gemeinsam das Ereignis A. Ebenso läßt sich
das Ereignis B zerlegen.
P (A)
=
P (A ∩ B) + P (A \ B),
P (B)
=
P (A ∩ B) + P (B \ A).
Wir setzen diese drei Formeln ein und erhalten
P (A ∪ B) + P (A ∩ B)
=
[P (A ∩ B) + P (A \ B) + P (B \ A)] + P (A ∩ B),
P (A) + P (B)
=
[P (A ∩ B) + P (A \ B)] + [P (B \ A) + P (A ∩ B)].
In beiden Fällen ist die rechte Seite dieselbe. Also ist P (A ∪ B) + P (A ∩ B) = P (A) + P (B).
¤
2.1.2.2. Bedingte Wahrscheinlichkeit.
Häufig tritt die Frage auf, ob zwischen zwei Merkmalen oder Ereignissen Zusammenhänge
gelten. Ändert sich unsere Einschätzung der Wahrscheinlichkeit eines Ereignisses A, wenn wir
Information über ein Ereignis B besitzen. Neigen Patienten mit erhöhtem Bierkonsum eher zu
Bluthochdruck als Patienten mit geringem Bierkonsum? Geben Kühe in Ställen, die mit MozartMusik beschallt werden, mehr Milch als unmusikalische Kühe?
Definition 2.1.2.5. Seien A und B zwei Ereignisse. Das Symbol P (A | B)
bezeichnet die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Sie
gibt die Wahrscheinlichkeit an, dass das Ereignis A eintritt, wenn bekannt ist, dass
das Ereignis B eintritt.
Tipp 2.1.2.6. Unterscheiden Sie sorgfältig die folgenden Wahrscheinlichkeiten:
• P (A): Unbedingte Wahrscheinlichkeit, dass Ereignis A eintritt. Keine Vorinformation.
• P (A∩B): Unbedingte Wahrscheinlichkeit, dass sowohl Ereignis A als auch
Ereignis B eintritt. Keine Vorinformation.
• P (A | B): Bedingte Wahrscheinlichkeit, dass A eintritt, wenn die Information bekannt ist, dass Ereignis B eintritt.
• P (B | A): Bedingte Wahrscheinlichkeit, dass B eintritt, wenn die Information bekannt ist, dass Ereignis A eintritt.
Beispiel 2.1.2.7. Unter den PatientInnen, welche mit einer bestimmten Diagnose XXX eingeliefert werden, werden die Symptome Kopfschmerzen und Fieber
betrachtet. Die folgende Vierfeldertafel gibt an, welcher Anteil der Patienten Kopfschmerzen und Fieber hat:
ja
Fieber
ja
nein
0.2
0.1
gesamt
0.3
Kopfschmerzen
nein
gesamt
0.4
0.6
0.3
0.4
0.7
1.0
Analysieren Sie die Tabelle. Insbesondere: Wie groß ist die Wahrscheinlichkeit,
dass eine mit Diagnose XXX eingelieferte Person Kopfschmerzen hat, wenn sie
Fieber hat?
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
63
Diskussion: Zur Abkürzung betrachten wir die folgenden Ereignisse, die mit jeder neu eingelieferten PatientIn eintreffen können:
F Die eingelieferte Person hat Fieber.
K Die eingelieferte Person hat Kopfschmerzen.
Im Inneren der Tabelle befinden sich die Wahrscheinlichkeiten, dass Personen die Symptome
zeigen. Zum Beispiel finden wir links oben die Wahrscheinlichkeit, dass eine Person, welche mit der
Diagnose XXX eingeliefert wird, unter Kopfschmerzen leidet und auch Fieber hat: P (K ∩F ) = 0.2.
Dass eine Person Kopfschmerzen aber kein Fieber hat, tritt mit Wahrscheinlichkeit P (K ∩F ) = 0.1
ein.
An den Rändern finden wir die Wahrscheinlichkeiten der einzelnen Ereignisse, zum Beispiel
ist die zweite Spaltensumme die Wahrscheinlichkeit, dass eine eingelieferte Person kein Fieber
hat: P (F ) = 0.4. Die Summe der ersten Zeile gibt die Wahrscheinlichkeit, dass eine Person unter
Kopfschmerzen leidet: P (K) = 0.3.
Nun fragen wir: Wie groß ist die Wahrscheinlichkeit, dass eine mit Diagnose XXX eingelieferte
Person Kopfschmerzen hat, wenn sie Fieber hat, wir fragen also nach der bedingten Wahrscheinlichkeit P (K | F ). Der Anteil aller PatientInnen mit Fieber ist P (F ) = 0.6. Der Anteil der
PatientInnen, welche zusätzlich Kopfschmerzen hat, bezogen auf die Gesamtheit aller Personen,
ist P (K ∩ F ) = 0.2. Also leidet ein Drittel der eingelieferten Personen, welche Fieber zeigen, auch
Kopfschmerzen:
P (K | F ) =
0.2
1
P (K ∩ F )
=
= .
P (F )
0.6
3
¤
Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Formel für die bedingte
Wahrscheinlichkeit:
Merksatz 2.1.2.8. Seien A und B zwei Ereignisse. Für die bedingte Wahrscheinlichkeit von A unter Bedingung, dass B gilt, gilt die Formel
P (A | B) =
P (A ∩ B)
.
P (B)
Beispiel 2.1.2.9. Ein Promille einer Bevölkerungsgruppe sind von einer bestimmten Krankheit befallen. Ein Labortest fällt bei 90 Prozent aller Erkrankten
positiv aus, aber auch bei 1 Prozent aller Gesunden. Eine Person unterzieht sich
dem Test, und der Test ist positiv. Wie groß ist die Wahrscheinlichkeit, dass diese
Person erkrankt ist.
Diskussion: Zunächst betrachten wir die Angaben. Wir haben zwei Ereignisse:
K “Die Person ist krank”,
T “Der Test fällt positiv aus”.
Die Angaben enthalten folgende Information:
• P (K) = 0.001, denn 1 Promille von allen (keine Vorinformation) ist krank.
• P (T | K) = 0.9, denn der Test fällt bei 90% aller Kranken positiv aus. Eine bedingte
Wahrscheinlichkeit, die nur auf Kranke anwendbar ist.
• P (T | K) = 0.01, denn der Test fällt bei 1% der Gesunden positiv aus. Eine bedingte
Wahrscheinlichkeit, die nur auf Gesunde anwendbar ist.
• P (K | T ) =? ist gefragt: Die bedingte Wahrscheinlichkeit, dass eine Person krank ist,
wenn die Information gegeben ist, dass ihr Test positiv ausfällt.
Die folgende Grafik, ein Ereignisbaum, zeigt, wie wir die Aufgabe analysieren:
64
2. ZUFALLSGRÖSSEN
0.9
krank und Test positiv
0.00090
0.1
krank und Test negativ
0.00010
krank
0.001
0.001
Gesamtheit
1.0
0.999
0.01
gesund und Test positiv
0.00999
0.99
gesund und Test negativ
0.98901
gesund
0.999
Test positiv
0.01089
P(krank | Test positiv) =
0.00090
0.01089
= 0.08264
Beispiel 2.1.2.9: Ereignisbaum
• Die Gesamtpopulation, insgesamt 100%=1, zerfällt in zwei Teile: Die Kranken (0.001)
und die Gesunden (0.999).
• Die Kranken zerfallen wieder in zwei Gruppen:
– Die Kranken mit positivem Test: das ist der Anteil 0.9 der Kranken. Weil die
Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil
der Kranken mit positivem Test an der Grundgesamtheit 0.001 × 0.9 = 0.0009.
– Die Kranken mit negativem Test: das ist der Anteil 0.1 der Kranken. Weil die
Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil
der Kranken mit negativem Test an der Grundgesamtheit 0.001 × 0.1 = 0.0001.
• Die Gesunden zerfallen ebenfalls in zwei Gruppen:
– Die Gesunden mit positivem Test, Anteil 0.01 der Gesunden, also Anteil 0.999 ×
0.01 = 0.00999 der Gesamtbevölkerung.
– Die Gesunden mit negativem Test, Anteil 0.99 der Gesunden, also Anteil 0.999 ×
0.99 = 0.98901 der Gesamtbevölkerung.
• Die Bevölkerung mit positivem Test besteht aus den Kranken mit positivem Test (Anteil 0.00090 der Gesamtheit) und den Gesunden mit positivem Test (Anteil 0.00999
der Gesamtheit). Das ergibt insgesamt den Anteil 0.00090 + 0.00999 = 0.01089 der
Gesamtheit.
• Unter allen Personen mit positivem Test (Anteil 0.01089 der Gesamtheit) befinden sich
die Kranken mit postivem Test (Anteil 0.00090 der Gesamtheit). Daher beträgt der
Anteil der Kranken unter den Personen mit positivem Test 0.00090/0.01089 ≈ 0.08264.
Nur 8.3 % der Personen mit positivem Test sind tatsächlich krank! Das Ergebnis erscheint zunächst
paradox, man hätte dem Test größere Treffsicherheit zugetraut. Aber die Kranken sind in der
Population so selten, dass der Anteil der Gesunden, die zufällig trotzdem einen positiven Test
haben, den Anteil der tatsächlich Kranken deutlich überwiegt.
¤
Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Bayessche Formel:
Merksatz 2.1.2.10 (Formel von Bayes). Seien A und B Ereignisse. Gegeben sei
die (unbedingte) Wahrscheinlichkeit P (A) von A und die beiden bedingten Wahrscheinlichkeiten P (B | A), P (B | A) von B unter den beiden Bedingungen dass A
eintritt oder nicht. Die bedingte Wahrscheinlichkeit P (A | B) von A, wenn bekannt
ist dass B eintritt, errechnet sich
P (A | B) =
P (A) · P (B | A)
.
P (A) · P (B | A) + P (A) · P (B | A)
2.1.2.3. Unabhängigkeit.
Wir haben jetzt in mehreren Beispielen gesehen, dass Information über ein Ereignis die
Einschätzung der Wahrscheinlichkeit eines anderen Ereignisses wesentlich beeinflussen kann. Natürlich
2.1. ZUFALL UND WAHRSCHEINLICHKEIT
65
gibt es auch Ereignisse, die aufeinander gar keinen Einfluss haben, sodass die Information über
das erste Ereignis keinerlei Hinweise auf das andere Ereignis enthält.
Definition 2.1.2.11. Zwei Ereignisse A, B heißen unabhängig, wenn eine
der folgenden drei Beziehungen gilt. In diesem Fall gelten auch immer die anderen
beiden.
P (A | B) = P (A),
P (B | A) = P (B),
P (A ∩ B) = P (A) · P (B).
Diskussion: Die erste Gleichung sagt, dass Information über B nichts an der Einschätzung der
Wahrscheinlichkeit von A ändert. Die unbedingte Wahrscheinlichkeit von A ist auch die bedingte
Wahrscheinlichkeit von A unter der Bedingung B. Die zweite Gleichung sagt ebenso, dass Information über A keine neuen Hinweise auf B bringt. Dass die drei Gleichungen in Wirklichkeit alle
dasselbe aussagen, folgert man leicht aus der Formel der bedingten Wahrscheinlichkeit:
P (A | B) =
P (A ∩ B)
.
P (B)
Daher gilt: Ist P (A ∩ B) = P (A)P (B), dann ist P (A | B) = P (A)P (B)/P (B) = P (A), und
umgekehrt. Dieselbe Überlegung kann man auch für P (B | A) anstellen.
¤
Merksatz 2.1.2.12.
• Unabhängigkeit und Abhängigkeit sind statistische Eigenschaften. Wenn
zwei Ereignisse im statistischen Sinn abhängig sind, beweist das noch lange
nicht, dass zwischen beiden ein kausaler Zusammenhang besteht.
• Andererseits wird bei statistischen Betrachtungen oft die Unabhängigkeit
von Ereignissen vorausgesetzt, zwischen denen kein kausaler Zusammenhang besteht. Wählt man, z.B., rein zufällig eine Stichprobe aus einer
Grundgesamtheit, so geht man in anschließenden statistischen Untersuchungen davon aus, dass die Auswahl der einzelnen Merkmalsträger unabhängig ist.
Unabhängigkeit kann man auch von mehr als zwei Ereignissen oder für Zufallsvariablen definieren. Die Definition ist etwas umständlich:
Definition 2.1.2.13.
Seien A1 , A2 , · · · , An Ereignisse. Wir sagen, dass diese Ereignisse unabhängig sind, wenn jedes Ereignis Ai von jedem Ereignis B unabhängig
ist, das sich mit Hilfe der anderen Aj (j 6= i) durch Negation, Durchschnitt
und Vereinigung bilden läßt.
Seien X1 , X2 , · · · , Xn Zufallsvariable. Wir sagen, dass diese Zufallsvariablen unabhängig sind, wenn alle Ereignisse Bi , die sich mit Hilfe von
jeweils Xi ausdrücken lassen, unabhängig sind.
Beispiel 2.1.2.14. Angenommen, in einer Personengruppe sind Geschlecht
(0: männlich, 1: weiblich), Magnesiumgehalt im Blut (mmol/ml) und Blutzucker
(mmol/ml) unabhängige Zufallsvariablen. 30% dieser Personen haben niedrigen Magnesiumspiegel (definiert durch einen geeigneten Grenzwert). Welcher Prozentsatz
der Männer mit erhöhtem Blutdruck (definiert durch einen geeigneten Standardwert) hat niedrigen Magnesiumspiegel?
Diskussion: Aus der Gruppe wird eine Person zufällig ausgewählt. Es sind dann zum Beispiel auch
die folgenden Ereignisse unabhängig:
66
2. ZUFALLSGRÖSSEN
B1 : Die ausgewählte Person ist männlich.
B2 : Die Person hat erhöhten Blutzuckerwert.
B3 : Die ausgewählte Person hat niedrigen Magnesiumspiegel.
Die Information über Ereignisse B1 und B2 ändert nichts an der Einschätzung der Wahrscheinlichkeit von Ereignis B3 . Laut Angabe ist die Wahrscheinlichkeit von B3 in dieser Personengruppe
P (B3 ) = 0.3. Daher ist auch P (B3 | B1 ∧B2 ) = 0.3. Es haben auch 30% der Männer mit erhöhtem
Blutzucker niedriges Magnesium. ¤
Was Sie jetzt können:
Begriffe und Wissen: Ereignisse, Wahrscheinlichkeit, Rechenregeln
der Wahrscheinlichkeitsrechnung, ausschließende Ereignisse, bedingte
Wahrscheinlichkeit, Unabhängigkeit von Ereignissen und Zufallsvariablen.
Methoden: Entscheidungsbaum.
2.2. Zufallsvariablen
Übersicht:
1. Verteilung von Zufallsvariablen
2. Statistische Kennzahlen von Zufallsvariablen
2.2.1. Verteilung von Zufallsvariablen.
Übersicht:
1. Verteilung diskreter Zufallsvariablen
2. Verteilung stetiger Zufallsvariablen
2.2.1.1. Verteilung diskreter Zufallsvariablen.
Wie die Realisierung einer Zufallsvariablen ausfällt, weiß man erst nach dem Zufallsexperiment. Dagegen kann man von vielen Zufallsgrößen vor dem Versuch angeben, welche Realisierung
wie wahrscheinlich ist.
Definition 2.2.1.1. Die Gesetzmäßigkeit, nach der die Wahrscheinlichkeiten
der einzelnen Realisierungen einer Zufallsgröße bestimmt werden, heißt das Verteilungsgesetz oder kurz die Verteilung der Zufallsgröße.
Definition 2.2.1.2. Die Verteilungsfunktion F (x) einer Zufallsgröße X gibt
die Wahrscheinlichkeit an, dass eine Realisierung einen Wert kleiner oder gleich x
annimmt:
F (x) = P (X ≤ x).
2.2. ZUFALLSVARIABLEN
67
Beispiel 2.2.1.3. Mit einem fairen Würfel wird gewürfelt. Die erhaltene Augenzahl ist eine Zufallsgröße, die wir mit X bezeichnen. Welche Realisierungen sind
möglich, und wie lautet das Verteilungsgesetz?
Diskussion: Es gibt sechs verschiedene Augenzahlen, die herauskommen können (nämlich 1 – 6).
Weil der Würfel fair ist, kommt jede Augenzahl mit derselben Wahrscheinlichkeit, nämlich je ein
Sechstel, vor. Hier ist die Tabelle der Realisierungen und ihrer Wahrscheinlichkeiten:
Realisierung
xi
1
2
3
4
5
6
Wahrscheinlichkeit
P (X = xi )
1/6
1/6
1/6
1/6
1/6
1/6
Verteilungsfunktion
P (X ≤ xi )
1/6
2/6
3/6
4/6
5/6
1
¤
Methode 2.2.1.4. Die Verteilung einer diskreten Zufallsgröße X kann auf drei
Arten angegeben werden:
a) Eine Tabelle, die alle möglichen Realisierungen und ihre Wahrscheinlichkeiten aufzählt.
b) Eine Tabelle, die alle möglichen Realisierungen und die Verteilungsfunktion aufzählt.
c) Eine Formel.
Für eine Zufallsvariable spielt die Verteilung dieselbe Rolle wie die Häufigkeit für ein Merkmal innerhalb einer Gesamtheit. Dabei entspricht die Wahrscheinlichkeit, dass eine Realisierung
auftritt, der relativen Häufigkeit des Merkmals, während die Verteilungsfunktion der kumulativen
relativen Häufigkeit entspricht.
Beispiel 2.2.1.5. An einer Kreuzung ereignet sich im Durchschnitt alle 2 Tage
ein Unfall. Wie wahrscheinlich ist, dass sich morgen dort 0,1,2,3. . . Unfälle ereignen?
Diskussion: Wir fragen nach der Zufallsvariablen: X=“Anzahl der Unfälle an dieser Kreuzung an
einem bestimmten Tag” und ihrer Verteilung. Das Beispiel soll hier nur zeigen, wie man die Verteilung angibt, nicht, wie man gerade auf diese Formel kommt. Wenn man davon ausgeht, dass die
Unfälle voneinander unabhängig passieren, handelt es sich um eine Poisson-verteilte Zufallsgröße
mit Mittelwert µ = 0.5. Es gilt die Formel
P (x = k) =
1 −0.5
e
(0.5)k .
k!
In Tabellenform (für die ersten paar Realisierungen, denn rein theoretisch gibt es unendlich viele):
Realisierung
k
0
1
2
3
4
..
.
Wahrscheinlichkeit
P (X = k)
0.607
0.303
0.076
0.013
0.002
..
.
Verteilungfunktion
P (X ≤ k)
0.607
0.910
0.986
0.998
≈ 1.0
..
.
Wir zeigen noch ein Stabdiagramm für die Wahrscheinlichkeiten, sowie die Verteilungsfunktion:
68
2. ZUFALLSGRÖSSEN
Wahrscheinlichkeit
0.8
0.6
0.4
0.2
Verteilungsfunktion
0
1
2
x
3
4
0
1
2
x
3
4
1
0.8
0.6
0.4
0.2
0
−1
¤
0
5
Stabdiagramm und Verteilungsfunktion einer Poissonverteilung
Merksatz 2.2.1.6. Die Verteilungsfunktion einer diskreten Zufallsvariablen
bleibt zwischen den Werten der möglichen Realisierungen konstant. An den Stellen,
die als Realisierung in Frage kommen, springt sie um die Wahrscheinlichkeit dieser
Realisierung aufwärts.
Beispiel 2.2.1.7. Wir beziehen uns auf die Kreuzung aus Beispiel 2.2.1.5. Wie
wahrscheinlich ist, dass an einem bestimmten Tag mindestens ein, aber höchstens
3 Unfälle an dieser Kreuzung geschehen?
Diskussion: Wir können die Tabelle der einzelnen Wahrscheinlichkeiten ablesen und die Wahrscheinlichkeiten für 1,2,3 addieren:
P (1 ≤ X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = 0.303 + 0.076 + 0.013 = 0.392.
Wir können aber auch (und das ist in der Praxis meistens bequemer) die Tabelle der Verteilungsfunktion verwenden:
P (1 ≤ X ≤ 3) = P (X ≤ 3) − P (X ≤ 0) = 0.998 − 0.607 = 0.391.
(Der Unterschied in der letzten Dezimalstelle kommt daher, dass die letzte Stelle in beiden Tabellen
gerundet war.) ¤
2.2.1.2. Verteilung stetiger Zufallsvariablen.
Auch die Angabe der Verteilung einer stetigen Zufallsvariablen kann durch die Verteilungsfunktion erfolgen. Die Definition der Verteilungsfunktion erfolgt genauso wie für diskrete Zufallsvariablen. Zur Erinnerung wiederholen wir die Definition 2.2.1.2:
Definition: Sei X eine beliebige Zufallsvariable. Die Verteilungsfunktion F (x)
gibt die Wahrscheinlichkeit an, dass Realisierungen von X kleiner oder gleich x
ausfallen:
F (x) = P (X ≤ x).
Es ist aber nicht mehr sinnvoll, die Wahrscheinlichkeiten einzelner Realisierungen anzugeben. Typischerweise ist die Wahrscheinlichkeit, dass ein einzelner Wert angenommen wird, gleich
Null. (Fast sicher wird die Temperatur morgen früh nicht exakt 6.00000. . . Grad betragen, sondern zumindest eine sehr kleine — vielleicht gar nicht messbare — Dezimalstelle wird von Null
abweichen.) Anstelle des Stabdiagramms oder Histogramms tritt jetzt die Dichtefunktion:
2.2. ZUFALLSVARIABLEN
69
Definition 2.2.1.8. Sei X eine stetige Zufallsgröße. Die Fläche unter der Dichtefunktion f zwischen zwei Werten a, b gibt die Wahrscheinlichkeit an, dass die
Zufallsgröße eine Realisierung im Intervall (a, b) annimmt.
Z b
P (a ≤ X ≤ b) =
f (x) dx.
a
Bemerkung 2.2.1.9. Während viele Begriffe für stetige Zufallsvariablen, wie
etwa die Dichte und viele Kennzahlen, mit Hilfe von Integralen definiert werden
müssen, werden wir in der Praxis die Integralrechnung nicht benötigen. Die Auswertung der Integrale haben uns schon die TheoretikerInnen abgenommen, die die
Tabellenwerke und Computerprogramme erstellt haben, welche wir in der Praxis
verwenden.
Beispiel 2.2.1.10. Die Grafik zeigt die Verteilungsfunktion und Dichtefunktion
einer standard-normalverteilten Zufallsvariablen. Wie liest man daraus die Wahrscheinlichkeit ab, dass eine Realisierung in das Intervall [-1,1] fällt?
1
Verteilung F(x)
0.8
0.6
0.63
0.4
0.2
0
−3
−2
−1
0
x
1
2
3
1
2
3
0.4
Dichte f(x)
0.3
0.2
0.63
0.1
0
−3
−2
−1
0
x
Verteilungs- und Dichtefunktion der Standardnormalverteilung
Diskussion: Wir bezeichnen mit Z eine standardnormalverteilte Zufallsgröße. (Der Buchstabe Z
hat sich für standardnormalverteilte Zufallsgrößen eingebürgert.) Wir lesen die Verteilungsfunktion bei den Werten x = ±1 ab:
P (Z ≤ 1)
=
F (1) ≈ 0.84
P (Z ≤ −1)
=
F (−1) ≈ 0.16
Im Intervall [−1, 1] liegt jedes x mit x ≤ 1 aber nicht x < −1. Daher ist
P (Z ∈ [−1, 1]) = P (Z ≤ 1) − P (Z ≤ −1) ≈ 0.84 − 0.16 = 0.68.
Unter der Dichtekurve sehen wir dieselbe Wahrscheinlichkeit als Fläche zwischen den senkrechten
Linien x = −1 und x = 1. ¤
Merksatz 2.2.1.11. Die folgende Tabelle beschreibt die typische Form der
Verteilungsfunktion und Dichtefunktion.
70
2. ZUFALLSGRÖSSEN
Verteilungsfunktion F :
Positiv und monoton steigend.
Geht gegen 0 für x → −∞,
geht gegen 1 für x → ∞
In Bereichen, die oft angenommen werden, steigt die Verteilungskurve stark
an.
Dichtefunktion f :
Positiv.
Die Fläche unter der gesamten Dichtekurve ist 1.
Die Dichtefunktion geht gegen 0 für
x → ±∞.
In Bereichen, die oft angenommen werden, ist die Dichtefunktion hoch.
Merksatz 2.2.1.12. Die Verteilung einer stetigen Zufallsvariablen kann auf
zwei Arten beschrieben werden:
a) Die Verteilungsfunktion.
b) Die Dichtefunktion.
Beide Funktionen können entweder durch Formeln oder durch Tabellen angegeben
werden. Die Kurve der Dichtefunktion ist ein gutes Mittel, die Verteilung einer
Zufallsvariablen zu veranschaulichen. Für rechnerische Zwecke ist die Verteilungsfunktion nützlicher, weil sie direkt — ohne Flächenberechnung — eine Wahrscheinlichkeit angibt.
Was Sie jetzt können:
Begriffe und Wissen: Verteilung und Verteilungsfunktion einer diskreten Zufallsvariablen, Beschreibung der Verteilung mittels Tabelle
der Wahrscheinlichkeiten, Tabelle der Verteilungsfunktion, oder Formeln. Verteilungsfunktion und Dichtefunktion einer stetigen Zufallsvariablen.
2.2.2. Statistische Kennzahlen von Zufallsvariablen.
Übersicht:
1. Erwartungswert von Zufallsvariablen
2. Varianz und Standardabweichung von Zufallsvariablen
3. Perzentile von Zufallsvariablen
2.2.2.1. Erwartungswert von Zufallsvariablen.
Analog zum Mittelwert und zur Standardabweichung von Merkmalen kann man solche Kenngrößen auch für Zufallsvariablen definieren. Ersetzt man die relativen Häufigkeiten in der Berechnung von Mittelwert und Varianz durch die Wahrscheinlichkeit der möglichen Realisierungen,
erhält man direkt die entsprechenden Definitionen für diskrete Zufallsvariablen:
Definition 2.2.2.1. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·.
Wir sagen, X besitzt den Erwartungswert E(X), wenn die folgende Summe existiert (was für endliche Summen immer gilt, aber bei unendlich vielen möglichen
Ausprägungen nicht immer gelten muss):
X
E(X) =
pi xi .
i=1,2,···
2.2. ZUFALLSVARIABLEN
71
Beispiel 2.2.2.2. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie den
Erwartungswert der Zufallsvariablen “Geworfene Augenzahl”.
Diskussion: Wir erstellen eine Tabelle der Verteilung: Mögliche Realisierungen und ihre Wahrscheinlichkeiten:
xi
Realisierung
1
2
3
4
5
6
Summe
pi
Wahrscheinlichkeit
1/6
1/6
1/6
1/6
1/6
1/6
1
xi pi
1/6
2/6
3/6
4/6
5/6
6/6
E(X) = 21/6 = 3.5
¤
Bemerkung 2.2.2.3. Auch für stetige Zufallsvariablen kann man einen Erwartungswert definieren, allerdings benötigt man dafür Integralrechnung, daher werden
wir in dieser Vorlesung keine Definition geben. Die Interpretation des Erwartungswertes ist aber für stetige und diskrete Zufallsvariablen dieselbe.
Merksatz 2.2.2.4. Den Erwartungswert einer Zufallsgröße kann man folgendermaßen interpretieren: Wird die Zufallsgröße in sehr vielen unabhängigen Versuchen immer neu realisiert, so liegt der Mittelwert der Realisierungen mit großer
Wahrscheinlichkeit nahe bei E(X). Die Übereinstimmung wird umso besser, je mehr
Realisierungen durchgeführt werden (“Gesetz der großen Zahlen”).
Diskussion: Die mathematisch exakte Formulierung des Gesetzes der großen Zahlen muss mit
Hilfe von Grenzwerten erfolgen. Sie ist keineswegs selbstverständlich, sondern muss mit einigem
Aufwand mathematisch bewiesen werden. ¤
2.2.2.2. Varianz und Standardabweichung von Zufallsvariablen.
Definition 2.2.2.5. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·. Die Zufallsgröße X besitze einen Erwartungswert E(X).
Wir sagen, X besitzt die Varianz σ(X) wenn die folgende Summe existiert:
X
X
2
σ 2 (X) =
pi (xi − E(X))2 =
pi x2i − (E(X)) .
i=1,2,···
i=1,2,···
Die Standardabweichung von X ist die Wurzel der Varianz:
p
σ(X) = σ 2 (X).
2
Für die Varianz gibt es auch die Schreibweisen Var(X) oder σX
.
Varianz und Standardabweichung kann man mit Hilfe von Integralen auch für stetige Zufallsvariable definieren.
Beispiel 2.2.2.6. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie Varianz und Standardabweichung der Zufallsvariable “Geworfene Augenzahl”.
72
2. ZUFALLSGRÖSSEN
Diskussion: Wir wiederholen die Tabelle der Verteilung aus Beispiel 2.2.2.2 und fügen eine weitere
Spalte hinzu:
xi
Realisierung
1
2
3
4
5
6
Summe
−E(X)2
Wurzel
pi
Wahrscheinlichkeit
1/6
1/6
1/6
1/6
1/6
1/6
1
xi pi
x2i pi
1/6
2/6
3/6
4/6
5/6
6/6
E(X) = 21/6 = 3.5
1/6
4/6
9/6
16/6
25/6
36/6
91/6 ≈ 15.17
−12.25
σ 2 (X) ≈ 2.92
σ(X) ≈ 1.71
¤
Merksatz 2.2.2.7. Ist eine Zufallsvariable X annähernd normalverteilt, so gilt:
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.68 in das Intervall E(X) ± σ(X).
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.95 in das Intervall E(X) ± 2σ(X).
• Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd
0.997 in das Intervall E(X) ± 3σ(X).
Merksatz 2.2.2.8. Für jede Zufallsgröße X, welche einen Erwartungswert und
eine Standardabweichung besitzt, gilt: Ist k > 1 eine Zahl, so liegt X mit einer
Wahrscheinlichkeit von mindestens 1 − k12 im Intervall E(X) ± kσ(X).
Beispiel 2.2.2.9. Die Tageshöchsttemperatur in einer bestimmten Stadt für
Tage im Monat August liegt im langjährigen Mittel bei 34 Grad, mit einer Standardabweichung von 4 Grad. Interpretieren Sie diese Zahlen.
Diskussion: Wenn man davon ausgeht, dass die Tageshöchsttemperatur annähernd normalverteilt ist (Glockenkurve), hätte man etwa 95% aller Tage des August mit Höchsttemperaturen im
Bereich 34±2×4, also zwischen 26 und 42 Grad. Allerdings ist diese Annahme nicht selbstverständlich, man könnte sich auch eine zweigipfelige Verteilung vorstellen, mit einem Gipfel mit hohen
Temperaturen für Sonnentage, und einem niedrigeren Gipfel für Regentage. Nach der ChebychevUngleichung liegen aber mit Sicherheit 75% (=1-1/4) aller Tage ihre Höchsttemperaturen zwischen
26 und 42 Grad. ¤
Beispiel 2.2.2.10. Die folgende Grafik zeigt die Dichtekurven dreier Normalverteilungen. Schätzen Sie für die drei Verteilungen jeweils Erwartungswert und
Varianz.
2.2. ZUFALLSVARIABLEN
73
0.4
a
b
Dichtefunktion
0.3
0.2
c
0.1
0
−4
−2
0
x
2
4
Dichtekurven dreier Normalverteilungen
Diskussion: Die Dichtekurve der Normalverteilung ist symmetrisch um den Gipfel angeordnet,
daher fällt der Mittelwert mit dem Gipfel zusammen. Verteilungen a und c haben ihren Mittelwert
bei -1, während Verteilung c ihren Mittelwert bei +1.5 hat.
Schwieriger ist die Standardabweichung zu schätzen. Etwa 68% der Fläche unter der Dichtekurve liegt im Bereich E(X) ± σ(X). Für Verteilungen a und b ist die Standardabweichung
jeweils 1: Es liegen 68% der Fläche zwischen -2 und 0 für a beziehungsweise zwischen 0.5 und
2.5 für b. Die Standardabweichung von Verteilung c ist 2: Es liegen 68% der Fläche zwischen -3
und 1. Selbstverständlich ist mit Augenmaß unter der Dichtekurve nur eine ganz grobe Schätzung
möglich. ¤
Bemerkung 2.2.2.11. Auch andere Kennzahlen, die wir von Merkmalen kennen, zum Beispiel Schiefe und Kurtosis, lassen sich analog für Zufallsvariablen definieren.
2.2.2.3. Perzentile von Zufallsvariablen.
Definition 2.2.2.12. Sei X eine (diskrete oder stetige) Zufallsvariable mit
Verteilungsfunktion F , und sei a eine Zahl zwischen 0 und 1. Das a-Quantil (100aPerzentil) γa von X ist jener Wert γa , für den die Verteilungsfunktion den Wert
a annimmt: F (γa ) = a, anders ausgedrückt: Die Wahrscheinlichkeit, dass Realisierungen von X kleiner oder gleich γa ausfallen, ist
P (X ≤ γa ) = a.
Insbesondere ist der Median γ0.5 jener Wert, für den gilt, dass die Wahrscheinlichkeit P (X ≤ γ0.5 ) exakt 1/2 beträgt.
Im Sonderfall, dass die Verteilungskurve für ein ganzes Intervall auf dem Wert a
stehen bleibt, wählt man für γa den kleinsten Wert x mit der Eigenschaft F (x) = a.
Dieser Fall tritt gelegentlich bei diskreten Zufallsvariablen auf.
Beispiel 2.2.2.13. Die folgende Grafik zeigt die Dichte- und Verteilungsfunktion einer stetigen Zufallsvariablen, welche nur positive Werte annimmt. Eingezeichnet sind die Quartile.
74
2. ZUFALLSGRÖSSEN
Dichtefunktion
0.4
0.3
0.2
0.1
25%
25%
0
0
1
25%
2
25%
3
4
5
6
4
5
6
x
Verteilungsfunktion
1
0.75
0.5
0.25
1.
Quartil
0
0
1
Median
3.
Quartil
2
3
x
Dichte- und Verteilungsfunktion mit Quartilen
Diskussion: Die Quartile sind dort, wo die Verteilungsfunktion die Werte 0.25, 0.5 und 0.75 erreicht. Das ist also ungefähr bei 1 (1. Quartil), 1.8 (Median) und 2.7 (3. Quartil). Zeichnet man
die Quantile bei der Dichtekurve ein, so teilen sie die Fläche unter der Dichtekurve in Viertel.
Sie sehen insbesondere, dass der Median und der Modal (der Gipfel der Dichtekurve) durchaus
nicht zusammenfallen müssen. Hier liegt der Gipfel fast schon beim ersten Quartil. ¤
Was Sie jetzt können:
Begriffe und Wissen: Erwartungswert, Varianz und Standardabweichung, Perzentile von Zufallsvariablen.
Methoden: Interpretation von Erwartungswert und Standardabweichung.
2.3. Normalverteilung
Übersicht:
1. Normalverteilung und Standardnormalverteilung
2. Umgang mit Normalverteilungstabellen
3. Der zentrale Grenzwertsatz
2.3.1. Normalverteilung und Standardnormalverteilung.
Übersicht:
1. Definition der Normalverteilung
2. Standardisierung von Normalverteilungen
3. χ2 -Verteilung, t-Verteilung und F-Verteilung
2.3. NORMALVERTEILUNG
75
2.3.1.1. Definition der Normalverteilung.
Wir definieren in diesem Kapitel die Normalverteilung. Die besondere Bedeutung dieser Verteilung werden wir erst verstehen, wenn wir in Unterabschnitt 2.3.3
über den zentralen Grenzwertsatz gesprochen haben. Grob gesprochen, erhält man
Normalverteilungen dann, wenn sich viele unabhängige Zufallsgrößen überlagern,
so wie das bei Mittelwerten von großen Stichproben der Fall ist, aber auch z.B. bei
verrauschten (also mit Zufallsfehlern überlagerten) physikalischen Messungen.
Definition 2.3.1.1. Eine stetige Zufallsvariable X heißt normalverteilt mit
Mittel µ und Standardabweichung σ, wenn die Dichtefunktion f von X folgende
Gestalt hat:
(x−µ)2
1
f (x) = √ e− 2σ2 .
σ 2π
Wir schreiben als Kurzschreibweise: X ∼ N (µ, σ).
Ist X normalverteilt mit Mittel 0 und Standardabweichung 1, so heißt X standardnormalverteilt.
Merksatz 2.3.1.2. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Dann
gilt:
1) Erwartungswert, Median und Modal von X liegen gemeinsam bei E(X) =
µ.
2) Die Standardabweichung von X ist σ(X) = σ.
3) Die Dichtekurve ist symmetrisch um den Mittelwert. Schiefe und Exzess
sind 0.
Beispiel 2.3.1.3. Die folgende Grafik zeigt die Dichtekurven von vier Normalverteilungen:
Mittelwert
µ
Standardabweichung σ
-2 -1 0
1
0.5 2 1 0.75
0.8
µ = −2, σ = 0.5
0.7
Dichtefunktion
0.6
µ = 2, σ = 0.75
0.5
µ = 0, σ = 1
0.4
0.3
µ = −1, σ = 2
0.2
0.1
0
−5
−4
−3
−2
−1
0
1
2
3
4
5
x
Dichtekurven von Normalverteilungen
Diskussion: Alle Dichtekurven von Normalverteilungen haben die Form der Gaußschen Glockenkurve. Die Dichtekurve der Normalverteilung N (µ, σ) erhält man, indem man
1) Die Kurve der Standardnormalverteilung so verschiebt, dass der Gipfel auf µ fällt.
76
2. ZUFALLSGRÖSSEN
2) Die Kurve nun um den Faktor σ in der x-Richtung streckt und dafür in der y-Richtung
staucht, sodass die Fläche unter der Kurve 1 bleibt.
68% der Fläche unter der Dichtekurve liegen im Bereich µ ± σ.
¤
Schreibweise 2.3.1.4. Für standardnormalverteilte Zufallsvariablen wird bevorzugt der Buchstabe Z verwendet.
2.3.1.2. Standardisierung von Normalverteilungen.
Es gibt unendlich viele verschiedene Normalverteilung, eine zu jedem möglichen
Paar von Mittelwert und Standardabweichung. Trotzdem kann man die Verteilungsfunktionen zu allen dieser Normalverteilungen aus einer einzigen Tabelle ablesen,
nämlich der Tabelle der Standardnormalverteilung. Das wird durch den folgenden
Satz ermöglicht:
Merksatz 2.3.1.5. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Aus X
bilden wir durch Standardisierung eine neue Zufallsvariable
Z=
X −µ
.
σ
Dann ist Z standardnormalverteilt.
Merksatz 2.3.1.6. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable und Z
die zugehörige standardisierte Zufallsvariable. Die Umrechnung zwischen X und Z
erfolgt durch die Formeln:
Z=
X −µ
, und umgekehrt: X = µ + σZ.
σ
Beispiel 2.3.1.7. Sei X normalverteilt mit Mittel 3 und Standardabweichung
4. Sei Z die zugehörige standardisierte Zufallsvariable.
1) Wenn eine Realisierung von X den Wert 6 ergibt, wie groß ist dann die
Realisierung von Z?
2) Wenn eine Realisierung von Z den Wert -0.5 ergibt, wie groß ist dann die
Realisierung von X?
3) In welchem Bereich liegt Z, wenn X im Intervall [0, 6] liegt?
Diskussion:
1) Sei X = 6. Dann ist Z = 6−3
= 0.75.
4
2) Sei Z = −0.5. Dann ist X = 3 + 4 × (−0.5) = 1.
3) Ist X = 6, so wissen wir bereits: Z = 0.75. Ist X = 0, so ist Z =
liegt Z in [−0.75, 0.75], wenn X in [0, 6] liegt.
0−3
4
= −0.75. Daher
¤
2.3.1.3. χ2 -Verteilung, t-Verteilung und F-Verteilung.
Die χ2 -Verteilung tritt überall dort auf, wo Quadratsummen von normalverteilten Zufallsvariablen gebildet werden, und das geschieht zum Beispiel bei der Berechnung von Varianzen von
Stichproben aus normalverteilten Zufallsvariablen. Werden geschätzte Mittelwerte und geschätzte Varianzen verknüpft, so treten Verteilungen auf, die aus Normalverteilung und χ2 -Verteilung
kombiniert werden. Diese Verteilungen werden manchmal auch als Prüfverteilungen bezeichnet,
weil sie in vielen statistischen Tests verwendet werden. Wir werden diese Verteilungen in diesem
Unterabschnitt kurz einführen.
2.3. NORMALVERTEILUNG
77
Definition 2.3.1.8. Seien Z1 , Z2 , · · · , Zν unabhängige, standardnormalverteilte Zufallsvariable. Die Verteilung der Zufallsvariablen
χ2 = Z12 + Z22 + · · · + Zν2
heißt dann χ2 -Verteilung (sprich: Chi-Quadrat) mit ν Freiheitsgraden.
Es gibt auch eine relativ einfache explizite Formel für die Dichtefunktion der χ2 -Verteilungen,
die wir aber nicht brauchen werden. Für die Praxis braucht man die Perzentile, und die findet
man in geeigneten Tabellen.
Merksatz 2.3.1.9. Während die Normalverteilung die “natürliche” Verteilung
für geschätzte Mittelwerte ist, wurde die χ2 -Verteilung gerade so definiert, dass sie
bei geschätzten Varianzen auftritt: Wir nehmen vorweg:
Wird von einer N (µ, σ)-normalverteilten Zufallsvariablen X eine Stichprobe
von n unabhängigen Realisierungen x1 , · · · , xn erhoben, und daraus die Quadratsumme der Abweichungen vom Mittelwert gebildet
S=
n
X
(xi − x)2 ,
i=1
2
2
dann hat S/σ eine χ -Verteilung mit n − 1 Freiheitsgraden.
Merksatz 2.3.1.10. Die χ2 -Verteilung mit ν Freiheitsgraden nimmt nur positive Werte an. Ihr Erwartungswert ist ν, ihre Varianz ist 2ν.
Beispiel 2.3.1.11. Die folgende Grafik zeigt die Dichtekurven der χ2 -Verteilungen
mit den Freiheitsgraden 1 · · · 5.
1
0.9
0.8
0.7
0.6
n= 1
0.5
n= 2
0.4
n= 3
0.3
n= 4
n= 5
0.2
0.1
0
0
1
2
3
4
5
6
7
8
Dichtekurven der χ2 -Verteilungen mit n Freiheitsgraden
Diskussion: Sie sehen insbesondere, dass die Dichtekurve für einen Freiheitsgrad als einzige für
x → 0 gegen unendlich geht (trotzdem bleibt die Fläche unter der gesamten Dichtekurve endlich,
nämlich 1). Je höher der Freiheitsgrad, desto flacher die Dichtekurve, und desto weiter rechts der
Modal. Den negativen Bereich haben wir nicht gezeichnet. Im ganzen negativen Bereich ist die
Dichte exakt Null, denn die χ2 -Verteilung kann nur positive Werte annehmen.
¤
78
2. ZUFALLSGRÖSSEN
Außer der χ2 -Verteilung kommen auch sehr häufig die folgenden beiden Verteilungen vor,
welche wir nicht exakt definieren, sondern von denen wir nur den Anwendungsbereich umschreiben.
Den Nutzen solcher Verteilungen werden wir erst sehen, wenn wir uns mit den Problemen des
statistisches Schätzens und Testens befassen.
Merksatz 2.3.1.12.
1) Die Studentsche t-Verteilung tritt immer dort auf, wo aus einer Stichprobe
ein Mittelwert geschätzt und mit Hilfe einer ebenfalls aus der Stichprobe
geschätzten Standardabweichung standardisiert wird. Die t-Verteilung hat
Mittelwert 0 und eine glockenförmige Dichtekurve ähnlich wie die Standardnormalverteilung, nur etwas breiter. Es gibt t-Verteilungen für alle
Freiheitsgrade ν = 1, 2, 3 · · ·. Je höher der Freiheitsgrad, desto schlanker
die Glocke, und desto geringer die Streuung. Die t-Verteilung für unendlich viele Freiheitsgrade ist die Standardnormalverteilung.
2) Die F-Verteilung tritt immer dort auf, wo (zu Vergleichszwecken) der
Quotient von zwei aus Stichproben geschätzten Varianzen gebildet wird.
F-verteilte Zufallsvariable sind immer positiv. Die Kurvenform der FVerteilung ähnelt leicht der χ2 -Verteilung. Die F-Verteilung hat jeweils
zwei Freiheitsgrade, den Freiheitsgrad des Zählers und den Freiheitsgrad
des Nenners.
Was Sie jetzt können:
Begriffe und Wissen: Normalverteilung, Standardnormalverteilung, χ2 -Verteilung, Studentsche t-Verteilung, F-Verteilung.
Methoden: Standardisierung einer normalverteilten Zufallsvariablen.
2.3.2. Umgang mit Normalverteilungstabellen.
Übersicht:
1.
2.
3.
4.
5.
Tabelle der Verteilungsfunktion der Standardnormalverteilung
Anwendung der Tabelle der Verteilungsfunktion
Tabelle der kritischen Werte der Studentschen t-Verteilung
Tabelle der kritischen Werte der χ2 -Verteilung
Anwendung der Tabellen der kritischen Werte
2.3.2.1. Tabelle der Verteilungsfunktion der Standardnormalverteilung.
2.3. NORMALVERTEILUNG
79
Verteilungsfunktion der Standardnormalverteilung Z
Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990
Die Tabelle zeigt nicht genau die Verteilungsfunktion, sondern die Wahrscheinlichkeit, dass die Realisierungen einer standardnormalverteilten Zufallsvariablen Z
in das Intervall [0, z] fallen. Der ganzzahlige Teil und die erste Dezimale von z zeigen, in welcher Zeile der Tabelle gesucht wird, die zweite Dezimale von z zeigt, in
welcher Spalte zu suchen ist. Im Inneren der Tabelle findet sich dann die gesuchte
Wahrscheinlichkeit.
Beispiel 2.3.2.1. Wie groß ist die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable Werte zwischen Null und 0.75 annimmt?
Diskussion: Wir lesen die Tabelle für x = 0.75 ab:
0.00
0.01
...
0.05
0.0 0.0000 0.0040 . . .
0.0199
0.1 0.0398 0.0438 . . .
0.0596
.
.
.
.
..
..
..
..
0.7 0.2580 0.2611 . . . 0.2734
..
..
..
..
.
.
.
.
Es ergibt sich der Wert P (Z ∈ [0, 0.75]) = 0.2734.
¤
...
...
...
...
0.09
0.0359
0.0753
.
..
0.2852
..
.
80
2. ZUFALLSGRÖSSEN
2.3.2.2. Anwendung der Tabelle der Verteilungsfunktion.
Beispiel 2.3.2.2. Bestimmen Sie für eine standardnormalverteilte Zufallsvariable Z die Wahrscheinlichkeit P (Z ≤ −1 oder 2 ≤ Z).
Diskussion:
Schritt 1 und 2: Wir skizzieren die Dichtekurve der Normalverteilung, also die Gaußsche Glockenkurve. Sie ist symmetrisch um die y-Achse. Wir dunkeln den Bereich unter der Dichtekurve für
x ≥ 2 und x ≤ −1 ab. Diese Fläche ist die gesuchte Wahrscheinlichkeit.
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Dichtekurve und gesuchter Bereich
Schritt 3: Die Tabelle bezieht sich auf die Standardnormalverteilung, und genau das ist das Verteilungsgesetz von Z. Wir dürfen die Tabelle also verwenden, ohne Z irgendwie abzuändern. (Sehr oft
hat man normalverteilte Zufallsvariablen, die aber nicht standardisiert sind, etwa mit Mittelwert
ungleich Null. Hier müßte man erst auf die Standardnormalverteilung umrechnen. Das sehen wir
in einem späteren Abschnitt.)
Schritt 4: Die Tabelle zeigt nicht die Verteilungsfunktion selbst, sondern die Wahrscheinlichkeit,
dass Z zwischen 0 und x liegt:
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Was die Tabelle zeigt
Schritt 5:
a) Die Fläche zwischen 0 und 2 läßt sich direkt aus der Tabelle ablesen.
2.3. NORMALVERTEILUNG
81
b) Die Fläche zwischen -1 und 0 ist dieselbe wie zwischen 0 und 1, denn die Dichtekurve
der Normalverteilung ist symmetrisch um die y-Achse. Daher erhalten wir auch diese
Fläche direkt aus der Tabelle.
c) Die Fläche unter der gesamten Dichtekurve ist 1.
d) Die gesuchte Fläche ist genau der Bereich, der von den beiden Flächen a,b nicht bedeckt
ist.
0.4772
0.3413
−3
−2
−1
0
1
2
3
Beispiel 2.3.2.2: Auflösung der Flächen
Schritt 6: Die Ablesung der Tabelle erfolgt folgendermaßen: Der ganzzahlige Teil und die erste
Dezimalstelle von x bestimmen die Zeile, die zweite Dezimalstelle bestimmt die Spalte. Um Fläche
(a) zu bestimmen, lesen wir also in der Tabelle für x = 2.00 ab:
0.0
..
.
2.0
.
..
0.00
0.0000
..
.
0.4772
.
..
...
...
...
0.09
0.0359
..
.
0.4817
.
..
Damit ist also die Fläche (a): P (0 ≤ Z ≤ 2) = 0.4772. Ebenso können wir die Fläche (b) in der
Tabelle für x = 1.00 ablesen: P (−1 ≤ Z ≤ 0) = P (0 ≤ Z ≤ 1) = 0.3413.
Schritt 7: Die gesuchte Fläche ergibt sich durch Subtraktion: 1 - 0.4772 - 0.3413 = 0.1815.
¤
Tipp 2.3.2.3. Wenn Sie mit Tabellen arbeiten, nehmen Sie sich die Zeit, die
Dichtefunktion wenigstens grob zu skizzieren, wie beschrieben. Sie können damit
viele Fehler vermeiden und die Plausibilität Ihres Resultates überprüfen!
Beispiel 2.3.2.4. Sei X eine normalverteilte Zufallsvariable mit Mittelwert 0.72
und Standardabweichung 0.5. Wie groß ist die Wahrscheinlichkeit, dass X Werte
zwischen 0 und 2 annimmt?
Diskussion: Um die Tabelle der Standardnormalverteilung anzuwenden, müssen wir zunächst X
standardisieren:
X − 1.7
Z=
0.5
Wir benötigen die standardisierten Werte für X = 0 und X = 2.
X
Z
0 -1.44
2
2.56
Es liegt also X genau dann zwischen 0 und 2, wenn Z zwischen -1.44 und 2.56 liegt.
82
2. ZUFALLSGRÖSSEN
Wir machen nun eine Skizze der Dichtekurve einer standardnormalverteilten Zufallsvariablen:
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−4
−3
−2
−1
0
1
2
3
4
Zu Beispiel 2.3.2.4
Aus der Tabelle der Standardnormalverteilung entnehmen wir:
• Die Wahrscheinlichkeit, dass Z zwischen Null und 1.44 liegt, beträgt 0.4251.
• Die Wahrscheinlichkeit, dass Z zwischen Null und 2.56 liegt, beträgt 0.4948.
Nach unserer Skizze müssen sich diese beiden Wahrscheinlichkeiten summiert werden. Die Wahrscheinlichkeit, dass Z zwischen -1.44 und 2.56 liegt, beträgt 0.9199. Dies ist zugleich die Wahrscheinlichkeit, dass X zwischen 0 und 2 liegt. ¤
Methode 2.3.2.5. Gegeben ist eine Zufallsvariable X mit bekannter und tabellierter Verteilungsfunktion, und ein Bereich B. Gesucht ist die Wahrscheinlichkeit,
dass X in den Bereich B fällt.
Schritt 1: Skizzieren Sie die Dichtefunktion der Zufallsvariablen.
Schritt 2: Zeichen Sie den Bereich B ein: Die Fläche unter der Dichtekurve ist die
gesuchte Wahrscheinlichkeit. Dies ist aber nur eine Skizze . . .
Schritt 3: Stellen Sie sicher, dass Ihre Tabelle wirklich zur richtigen Verteilungsfunktion gehört. Manchmal muss man Zufallsvariablen erst umskalieren, um
zu einer tabellierten Verteilungsfunktion zu gelangen.
Schritt 4: Überzeugen Sie sich, welche Wahrscheinlichkeiten Ihre Tabelle angibt. Nicht
immer ist der Tabellenwert die Verteilungsfunktion.
Schritt 5: Lösen Sie die gesuchte Fläche unter der Dichtekurve (also Bereich B) als
Summe und Differenz von Flächen auf, die direkt aus der Tabelle ablesbar
sind. Bei Bedarf verwenden Sie auch, dass die Fläche unter der gesamten
Dichtekurve gleich 1 ist.
Schritt 6: Lesen Sie für die einzelnen Flächen der Auflösung die Tabellenwerte ab.
Schritt 7: Bestimmen Sie die gesuchte Wahrscheinlichkeit durch entsprechende Addition und Subtraktion der Tabellenwerte.
2.3.2.3. Tabelle der kritischen Werte der Studentschen t-Verteilung.
Definition 2.3.2.6. Der kritische Wert für α einer Zufallsvariablen ist das
(1 − α)-Quantil. Das heißt, die Wahrscheinlichkeit, dass Realisierungen der Zufallsvariablen größer als der kritische Wert ausfallen, ist gerade α.
2.3. NORMALVERTEILUNG
83
0.4
0.35
kritischer Wert
für α = 0.05
bei Z=1.645
0.3
0.25
0.2
0.15
0.1
0.05
95%
0
−3
−2
−1
5%
0
1
2
3
Kritischer Wert der Standardnormalverteilung für α = 0.05
Quantile der t-Verteilung
α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt.
α
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
0,1
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
0,00025
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,290
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,660
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,984
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,364
2,326
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,626
2,576
127,321
14,089
7,453
5,598
4,773
4,317
4,029
3,833
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030
2,971
2,915
2,871
2,807
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,174
3,090
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,551
3,460
3,390
3,290
1273,155
44,703
16,326
10,305
7,976
6,788
6,082
5,617
5,291
5,049
4,863
4,717
4,597
4,499
4,417
4,346
4,286
4,233
4,187
4,146
4,109
4,077
4,047
4,021
3,997
3,974
3,954
3,935
3,918
3,902
3,788
3,681
3,598
3,481
84
2. ZUFALLSGRÖSSEN
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
0,05
α
0,025
0,01
0,005
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
51,805
63,167
74,397
85,527
96,578
107,565
118,498
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
55,758
67,505
79,082
90,531
101,879
113,145
124,342
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
59,342
71,420
83,298
95,023
106,629
118,136
129,561
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
63,691
76,154
88,379
100,425
112,329
124,116
135,807
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,335
53,672
66,766
79,490
91,952
104,215
116,321
128,299
140,170
Die Tabellen zeigen einige ausgesuchte, besonders oft gebrauchte Quantile der
t-Verteilung bzw. der χ2 -Verteilung. Die Spalte, welche mit α indiziert ist, zeigt
den kritischen Wert für α, also das (1 − α)-Quantil. Jede Zeile gehört zu einer
Verteilung mit einem bestimmten Freiheitsgrad. Die letzte Zeile der t-Tabelle gehört
zur Standardnormalverteilung.
2.3.2.4. Anwendung der Tabellen der kritischen Werte.
Beispiel 2.3.2.7. Wo liegt das 99%-Perzentil der t-Verteilung mit 6 Freiheitsgraden? Wo liegt das 99%-Perzentil der Standardnormalverteilung?
Diskussion: Das 99%-Perzentil ist der kritische Wert für α = 0.01. Für die t-Verteilung mit 6
Freiheitsgraden finden wir den Wert 3.143. Für die Standardnormalverteilung (unendlich viele
Freiheitsgrade) finden wir den Wert 2.326. ¤
Beispiel 2.3.2.8. Wo liegt das 95%-Perzentil einer N(8,3)-normalverteilten Zufallsvariablen X?
2.3. NORMALVERTEILUNG
85
Diskussion: Laut Tabelle liegt das 95%-Perzentil einer standardnormalverteilten Zufallsvariablen
Z bei Z = 1.645. Wenn Z = 1.645 ist, dann ist X = 8 + 3 × 1.645 = 12.935. Nun ist die
Wahrscheinlichkeit P (Z ≤ 1.645) = 0.95 dasselbe wie die Wahrscheinlichkeit P (X ≤ 12.935).
Also liegt das 95%-Perzentil von X bei 12.935. ¤
Beispiel 2.3.2.9. Wie groß muss z sein, damit für eine standardnormalverteilte Zufallsvariable Z gilt: Die Wahrscheinlichkeit, dass Z außerhalb des Intervalls
[−z, z] liegt, ist 0.05.
Diskussion: Es gibt zwei Möglichkeiten, dass Z außerhalb von [−z, z] zu liegen kommt, nämlich
Z < −z oder Z > z:
0.4
0.35
0.3
0.25
0.2
.
0.15
0.1
P(Z>1.96)=0.025
P(Z<−1.96)=0.025
0.05
0
−4
−3
−2
−1
0
1
2
3
4
Zu Beispiel 2.3.2.9
Die Wahrscheinlichkeit beider Möglichkeiten soll sich laut Problemstellung zu 0.05 summieren,
sodass wir jeder der beiden Möglichkeiten die Wahrscheinlichkeit α = 0.025 zugestehen. Das
gesuchte z ist also der kritische Wert der Standardnormalverteilung zu α = 0.025, und das ist laut
Tabelle 1.960. ¤
Tipp 2.3.2.10. Die Quantile der Standardnormalverteilung findet man in Tabellen der Quantile der t-Verteilung (die wir bald besprechen werden) mit ∞ Freiheitsgraden.
Wer oft mit Hilfe von Tabellen statistische Tests durchführt, kennt die folgenden
Quantile der Standardnormalverteilung meist schon auswendig:
α
Quantil bei
0.1
1.282
0.05
1.645
0.025
1.960
0.01
2.326
0.005
2.576
Hier ist α die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable ihre Realisierung oberhalb des Quantils annimmt.
Beispiel 2.3.2.11. Wie groß muss x sein, damit eine χ2 -verteilte Zufallsvariable
mit 10 Freiheitsgraden nur in 5% aller Fälle einen Wert größer als x annimmt?
Diskussion: Wir suchen den kritischen Wert einer χ2 -verteilten Zufallsvariablen mit 10 Freiheitsgraden für α = 0.05. Die Tabelle zeigt den Wert x = 18.307.
¤
Bemerkung 2.3.2.12. Für viele andere wichtige Verteilungen gibt es ebenfalls
Tabellen. Mit der Verbreitung bequemer Statistikpakete für Computer verlieren
diese Tabellenwerke langsam ihre Bedeutung im statistischen Alltag.
86
2. ZUFALLSGRÖSSEN
Was Sie jetzt können:
Methoden: Umgang mit Tabellen zur Bestimmung von Wahrscheinlichkeiten und kritischen Werten.
2.3.3. Zentraler Grenzwertsatz.
Übersicht:
1. Rechenregeln für Erwartungswert und Varianz
2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen
Realisierungen einer Zufallsvariablen
3. Der zentrale Grenzwertsatz
2.3.3.1. Rechenregeln für Erwartungswert und Varianz.
Wenn man zwei Zufallsvariablen realisiert und von den Realisierungen die Summe bildet,
ist diese Zahl wieder das Ergebnis eines Zufallsexperimentes, also eine Zufallsvariable. In statistischen Untersuchungen arbeiten wir mit Stichproben, und ihren Mittelwerten und Varianzen.
Eine Zufallsstichprobe besteht, mathematisch gesprochen, aus n unabhängigen Realisierungen einer Zufallsvariablen. Der Mittelwert der Stichprobe wird daraus gebildet, dass alle Realisierungen
addiert und am Ende mit 1/n multipliziert werden. Um die Eigenschaften des Stichprobenmittelwertes als Zufallsvariable zu charakterisieren, müssen wir also verfolgen, was geschieht, wenn
Zufallsvariable addiert und letztlich mit Konstanten multipliziert werden.
Definition 2.3.3.1. Seien X, X1 , X2 , . . . , Xn Zufallsvariablen und k eine Zahl.
1) Die Realisierungen der Zufallsvariable X1 + · · · + Xn erhält man, indem
man zunächst jedes Xi realisiert, und dann die Realisierungen addiert.
2) Die Realisierungen der Zufallsvariablen kX erhält man, indem man zunächst
X realisiert, und dann die Realisierung mit k multipliziert.
Beispiel 2.3.3.2. Seien Z1 , Z2 unabhängige Realisierungen einer Zufallsvariablen
Z. Was ist der Unterschied zwischen Z1 + Z2 und 2Z?
Stellen Sie die Verteilungen für den Fall auf, dass Z durch den Wurf mit einer
fairen Münze realisiert wird: Kopf = 1, Wappen = 0.
Diskussion: Für Z1 + Z2 wird Z in zwei unabhängigen Versuchen realisiert, und dann die Summe
gebildet. Für 2Z wird nur eine Realisierung ermittelt, und diese mit 2 multipliziert.
Als Beispiel der Wurf mit einer fairen Münze. Zunächst die Verteilung von Z:
mögliche
Realisierungen
xi
0
1
Wahrscheinlichkeit
pi
0.5
0.5
Nun die Verteilung von 2Z:
mögliche
Realisierungen
xi
0
2
Dagegen die Verteilung von Z1 + Z2 :
Wahrscheinlichkeit
pi
0.5
0.5
Realisierung
von Z
0
1
2.3. NORMALVERTEILUNG
mögliche
Realisierungen
xi
0
1
2
Wahrscheinlichkeit
pi
0.25
0.5
0.25
87
Realisierungen
von Z1 , Z2
0,0
0,1 oder 1,0
1,1
¤
Die folgenden Rechenregeln gelten für Erwartungswert und Varianz:
Merksatz 2.3.3.3. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
den Erwartungswert gelten folgende Rechenregeln:
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ),
E(kX) = kE(X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch für die Multiplikation
E(X1 × · · · × Xn ) = E(X1 ) × · · · × E(Xn ).
Merksatz 2.3.3.4. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
die Varianz gelten folgende Rechenregeln:
σ 2 (kX) = k 2 σ 2 (X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch
σ 2 (X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ).
Als unmittelbare Folge erhalten wir für die Standardabweichung:
Merksatz 2.3.3.5. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für
die Standardabweichung gelten folgende Rechenregeln:
σ(kX) = |k|σ 2 (X).
Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch
p
σ(X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ).
Merksatz 2.3.3.6.
1) Damit sich die Varianzen addieren, müssen die Zufallsvariablen unabhängig
sein.
2) Es addieren sich die Varianzen, nicht die Standardabweichungen. Bei unabhängigen Zufallsvariablen X1 , · · · , Xn gehen die Standardabweichungen
wie die Längen rechtwinkeliger Dreiecke im Satz von Pythagoras.
Beispiel 2.3.3.7. Dieses triviale Beispiel zeigt, wie wichtig die Unabhängigkeit
für die obigen Rechenregeln ist. Sei X eine Zufallsvariable mit Varianz σ 2 (X). Wir
benennen Y = −X. Bestimmen Sie die Varianz von X + Y .
Diskussion: Wenn X und Y unabhängig wären, würde gelten
σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) = 2σ 2 (X).
Beachten Sie aber, dass X und Y nicht unabhängig sind: Mit der Realisierung von X liegt bereits
die Realisierung von Y fest. Tatsächlich ist immer
X + Y = X − X = 0,
sodass σ 2 (X + Y ) = 0.
¤
88
2. ZUFALLSGRÖSSEN
Beispiel 2.3.3.8. Sei X eine Zufallsvariable mit Erwartungswert E(X) = 5
und Standardabweichung σ(X) = 2. Seien X1 , · · · , X9 unabhängige Realisierungen von X. Berechnen Sie Erwartungswert und Standardabweichung der folgenden
Zufallsvariablen:
S = 9X,
T =
9
X
Xi ,
i=1
9
U=
1X
Xi .
9 i=1
Diskussion:
E(S) = E(9X) = 9E(X) = 45,
σ 2 (S) = σ 2 (9X) = 81σ 2 (X) = 324,
σ(S) = σ(9X) = 9σ(X) = 18,
Ã
E(T ) = E
9
X
!
Xi
=
i=1
σ 2 (T ) = σ 2
à 9
X
!
Xi
i=1
σ(T ) = σ
à 9
X
9
X
E(Xi ) = 9 × 5 = 45,
i=1
=
9
X
σ 2 (Xi ) = 9 × 4 = 36,
i=1
!
Xi
i=1
v
u 9
uX
√
=t
σ 2 (Xi ) = 9 × σ(X) = 6,
i=1
1
1
E(U ) = E( T ) = E(T ) = 5,
9
9
1
1 2
4
σ 2 (U ) = σ 2 ( T ) =
σ (T ) = ,
9
81
9
1
2
1
σ(U ) = σ( T ) = σ(T ) = .
9
9
3
¤
2.3.3.2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen Realisierungen einer Zufallsvariablen.
Merksatz 2.3.3.9. Seien x1 , · · · , xn eine Stichprobe aus n unabhängigen Realisierungen einer Zufallsvariablen X mit Erwartungswert E(X) und Standardabweichung σ(X). Dann ist auch das Stichprobenmittel eine Zufallsvariable:
x=
1
(X1 + · · · + Xn ) :
n
Es gilt dann:
E(x) = E(X),
1
σ(x) = √ σ(X).
n
√Tipp 2.3.3.10. Die Standardabweichung des Mittelwertes ist proportional zu
1/ n. Durch große Stichprobenumfänge wird sichergestellt, dass der Mittelwert
nicht allzu sehr schwankt. Um die Standardabweichung des Mittelwertes zu halbieren, muss der Stichprobenumfang vervierfacht werden.
2.3. NORMALVERTEILUNG
89
Beispiel 2.3.3.11. Sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Drei Personen versuchen, den unbekannten
Erwartungswert zu schätzen:
A) Person A realisiert die Zufallsvariable einmal, und verwendet das Ergebnis
als Schätzer für den Erwartungswert von X.
B) Person B erhebt eine Stichprobe von vier unabhängigen Realisierungen,
und verwendet den Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X.
C) Person C erhebt hundert unabhängige Realisierungen, und verwendet den
Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X.
Alle drei Personen berechnen als Schätzer eine Zufallsvariable, deren Mittelwert der
gesuchte Parameter, nämlich der Erwartungswert von X ist. Die Standardabweichung der drei Schätzer sind aber verschieden. Wie groß sind die Standardabweichungen, und welche Auswirkung hat das auf die Güte der Schätzung?
Diskussion:
A) Person A verwendet eine Realisierung von X als Schätzer, die Standardabweichung ist
daher 8.
B) verwendet ein Stichprobenmittel mit Umfang n = 4. Die Standardabweichung dieses
Mittelwertes ist √1 8 = 4.
4
C) verwendet ein Stichprobenmittel mit Umfang n = 100. Die Standardabweichung dieses
Mittelwertes ist √ 1 8 = 0.8.
100
Alle drei Schätzmethoden unterliegen dem Zufall, die geschätzten Zahlen sind Zufallsvariablen. Die
Erwartungswerte aller drei Schätzer sind der gesuchte Parameter, insofern sind alle drei Schätzer
geeignet. Die Standardabweichung ist aber umso kleiner, je größer die Stichprobe ist, und wenn
der Schätzer eine kleine Standardabweichung hat, bedeutet das, dass er nur selten weit von seinem
Mittelwert abweicht. Das heißt wiederum, dass mit großer Wahrscheinlichkeit der Schätzer nahe
am gesuchten Parameter liegt. ¤
Merksatz 2.3.3.12. Die Untersuchung einer Zufallsvariablen durch große Stichproben statt einzelner Realisierungen hat den Zweck, die Streuung der Ergebnisse
klein zu halten, und damit den Einfluss des Zufalls möglichst einzudämmen.
Beispiel 2.3.3.13. Wie in Beispiel 2.3.3.11 sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Der unbekannte Erwartungswert soll durch den Mittelwert einer Stichprobe des Umfanges n geschätzt
werden. Wie groß muss n sein, damit die Standardabweichung des Stichprobenmittelwertes nicht größer als 0.1 ist?
Diskussion: Die Standardabweichung des Stichprobenmittelwertes ist
1
8
√ σ(X) = √ .
n
n
Es soll also gelten:
8
√ ≤ 0.1,
n
d.h.
√
n ≥ 80,
d.h.
n ≥ 6400.
¤
2.3.3.3. Der zentrale Grenzwertsatz.
Wir beginnen mit einer der wichtigsten Eigenschaften der Normalverteilung:
Merksatz 2.3.3.14. Die Normalverteilung ist eine stabile Verteilung, das heißt:
Sind X und Y zwei unabhängige normalverteilte Zufallsvariable, und ist k eine Zahl,
so sind auch die Zufallsvariablen kX und X + Y normalverteilt.
90
2. ZUFALLSGRÖSSEN
Diskussion: In anderen Worten: Aus normalverteilten unabhängigen Zufallsvariablen erhält man
durch Multiplikation mit festen Zahlen und durch Addition nur wieder normalverteilte Zufallsvariable.
¤
Beispiel 2.3.3.15. Seien X ∼ N (3, 1), Y ∼ N (1, 5) und Z ∼ N (4, 6) drei
unabhängige normalverteilte Zufallsvariablen mit Erwartungswerten 3 bzw. 1 bzw.
4 und Standardabweichungen 1, 5, bzw. 6. Welche Verteilung hat die Zufallsvariable
U = 10X + Y + Z?
Diskussion: Wegen der Stabilität der Normalverteilung ist auch U wieder normalverteilt. Die
Mittelwerte summieren sich. Beachtet man noch, dass E(10X) = 10E(X), so erhält man
E(U ) = 10 × 3 + 1 + 4 = 35.
Auch die Varianzen summieren sich. (Unabhängigkeit war ja vorausgesetzt.) Die Varianz σ 2 (10X) =
100σ 2 (X). Wir erhalten
σ 2 (U ) = 100 × 12 + 52 + 62 = 161,
√
σ(U ) = 161 ≈ 12.69.
Die Zufallsvariable U ist N (35, 12.69)-normalverteilt.
¤
Als unmittelbare Folgerung erhalten wir:
Merksatz 2.3.3.16. Sei X eine normalverteilte Zufallsvariable mit Mittelwert
µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X,
und sei x das Stichprobenmittel
√ daraus. Dann ist x normalverteilt mit Mittelwert
µ und Standardabweichung σ/ n.
Die besondere Bedeutung der Normalverteilung kommt aber vom folgenden Satz:
Merksatz 2.3.3.17 (Zentraler Grenzwertsatz). Sei X eine beliebige Zufallsvariable mit Erwartungswert µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X und sei x das Stichprobenmittel davon. Wenn n
ausreichend groß ist, dann
√ ist x annähernd normalverteilt mit Mittelwert µ und
Standardabweichung σ/ n.
Diskussion: Eine mathematisch scharfe Formulierung dieses Satzes benötigt die Sprache der Grenzwertrechnung in Verbindung mit Wahrscheinlichkeitstheorie. ¤
Tipp 2.3.3.18. In der Praxis geht man davon aus, dass ein Stichprobenmittel
aus einer Stichprobe des Umfanges 30 oder mehr so gut wie normalverteilt ist.
Beispiel 2.3.3.19. Sei Y eine χ2 -verteilte Zufallsvariable mit einem Freiheitsgrad.
Der Erwartungswert von Y ist daher 1, die Standardabweichung von Y ist
√
2. Die folgende Grafik zeigt die Dichtekurven der Stichprobenmittelwerte von ν
unabhängigen Realisierungen von Y .
2.3. NORMALVERTEILUNG
91
4.5
4
ν=200
3.5
3
ν=1
2.5
2
ν=2
1.5
ν=3
ν=50
ν=4
ν=10
1
0.5
0
0
0.5
1
1.5
2
2.5
3
Dichtekurven von Mittelwerten aus ν unabhängigen Realisierungen einer χ2 -verteilten
Zufallsvariablen mit 1 Freiheitsgrad.
Diskussion: Während die Verteilung von Y , die χ2 -Verteilung mit einem Freiheitsgrad, eine ganz
andere Form als eine Glockenkurve hat, werden für große ν die Dichtekurven der Stichprobenmittel
immer ähnlicher zu Normalverteilungskurven. Für ν = 50 ist die Normalverteilungskurve schon
sehr gut nachgebildet. ¤
Wir fassen unsere bisherigen Ergebnisse über den Stichprobenmittelwert zusammen: Wir kennen seine Eigenschaften so gut wie vollständig!
Merksatz 2.3.3.20. Sei X eine Zufallsvariable mit Erwartungswert E(X) = µ
und Standardabweichung σ(X) = σ. Sei x das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt
1) Der Erwartungswert von x ist µ, damit ist x ein erwartungstreuer Schätzer
für µ.
p
2) Die Standardabweichung von x ist σ/ (n). Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht.
3) Ist X normalverteilt, so ist auch x normalverteilt.
4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥
30), so ist x annähernd normalverteilt.
Was Sie jetzt können:
Begriffe und Wissen: Rechenregeln für Erwartungswert und Varianz, Eigenschaften des Mittelwertes. Auswirkung des Stichprobenumfanges auf die Standardabweichung des Stichprobenmittelwertes.
Zentraler Grenzwertsatz.
KAPITEL 3
Statistisches Schätzen und Testen
Übersicht:
1. Schätzen und Testen
1.1. Statistisches Schätzen von Parametern
1.2. Einige wichtige Punktschätzer
1.3. Schema eines statistischen Tests
1.4. Beispiele von statistischen Tests
2. t-Test
2.1. Konfidenzintervall für den Mittelwert
2.2. t-Test auf den Mittelwert
2.3. Vergleichstests auf Basis des t-Tests
3. Binomialverteilung
3.1. Abzählen
3.2. Binomialverteilung und Binomialtest
3.3. Normalapproximation der Binomialverteilung
4. Parameterfreie Methoden
4.1. Anpassung von Verteilungen
4.2. χ2 -Tests für nominale Daten
4.3. Tests für ordinale Daten
3.1. Schätzen und Testen
Übersicht:
1.
2.
3.
4.
Punktschätzer und Intervallschätzer
Einige wichtige Punktschätzer
Schema eines statistischen Tests
Beispiele von statistischen Tests
3.1.1. Statistisches Schätzen von Parametern.
Übersicht:
1. Schließende Statistik
2. Punktschätzer und Intervallschätzer
3. Punktschätzer als Zufallsvariable
93
94
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.1.1.1. Schließende Statistik.
Wenn eine Aussage über eine Grundgesamtheit auf Grund von Stichproben gewonnen werden soll, besteht immer das Risiko, dass durch den Zufall eine Stichprobe gewählt wird, die die
Eigenschaften der Grundgesamtheit sehr verzerrt wiedergibt. Fehler kann man reduzieren, indem
man die Stichprobe repräsentativ wählt und willkürliche Verfälschungen vermeidet, und indem
man eine ausreichend große Stichprobe untersucht. Trotzdem bleibt ein Restrisiko bestehen.
Die Methoden der schließenden Statistik dienen dazu, dieses Restrisiko zu quantifizieren:
1) Wie groß ist das Fehlerrisiko, wenn ich aus einer Stichprobe gegebener Größe einen
Schluss ziehe?
2) Wie groß muss eine Stichprobe gewählt werden, um das Fehlerrisiko kleiner als einen
vorgegebenen Wert zu machen?
3) Systematische Verfahren, die nach strengen Regeln ablaufen, liefern in einem vorgegebenen Prozentsatz aller Fälle ein richtiges Resultat, wenn sie immer wieder angewendet
werden.
Leider läßt sich nicht mehr Sicherheit gewinnen. Der Einzelfall kann immer noch, auch bei sorgfältigster Arbeitsweise, einer der Ausnahmefälle sein, in denen der Zufall einen Fehlschluss verursacht.
Merksatz 3.1.1.1. Schließende Statistik stellt Methoden bereit, um Schlüsse
von Stichproben auf eine Grundgesamtheit zu gewinnen, und die Wahrscheinlichkeit
der unvermeidbaren Zufallsfehler bei diesen Schlüssen zu quantifizieren. Ein statistischer Test gibt Antworten auf Ja-Nein-Fragen. Ein statistischer Schätzer
behandelt Fragen, die mit Zahlenwerten zu beantworten sind.
3.1.1.2. Punktschätzer und Intervallschätzer.
Definition 3.1.1.2.
Ein Punktschätzer ist ein Verfahren, das nach einer festen Formel aus gegebenen Daten einer Stichprobe einen Parameter einer Grundgesamtheit oder einer
Zufallsvariablen schätzt.
Ein k%-Konfidenzintervall ist ein Verfahren, das nach einer festen Formel
aus gegebenen Daten einen Parameter einer Grundgesamtheit oder einer Zufallsvariablen in ein Intervall eingrenzt, und zwar so, dass bei häufiger und regelmäßiger
Anwendung des Verfahrens der Parameter in k Prozent aller Fälle richtig eingegrenzt wird.
Tipp 3.1.1.3. Lassen Sie sich von der Bezeichnung “Schätzung” nicht irreleiten.
Statistische Schätzung besteht in sehr exakten und reproduzierbaren Verfahren und
ist keine “Tangens Daumen mal Pi”-Mathematik. Die StatistikerInnen erlauben sich
dabei keine Ungenauigkeiten. Die einzige Unsicherheit — und deshalb redet man
von Schätzung — kommt von den unvermeidbaren Auswirkungen des Zufalls auf
die Stichprobennahme.
Beispiel 3.1.1.4. In einer Meinungsumfrage wurden 4000 Personen befragt,
ob sie für eine neue Gesetzesvorlage stimmen würden. 600 der Befragten (das sind
15%) würden dafür stimmen. Die Stichprobe entspricht in ihrer Zusammensetzung
der Zusammensetzung der gesamten wahlberechtigten Bevölkerung eines Landes.
Wieviel Prozent aller Wahlberechtigten würden für die Gesetzesvorlage stimmen?
Diskussion: Wir suchen einen Parameter über die Gesamtheit aller Wahlberechtigten des Landes:
Nämlich den Anteil derer, die für die Gesetzesvorlage stimmen würden. Dies ist keine Zufallsgröße,
wenn wir alle Wahlberechtigten befragen könnten, hätten wir diese Zahl fixiert. Wir haben aber nur
den Mittelwert aus einer Stichprobe, das waren 15%. Diese Zahl ist eine Zufallsgröße: Es hängt
3.1. SCHÄTZEN UND TESTEN
95
von der Auswahl der Stichprobe ab, ob sie etwas größer oder kleiner ausfällt. Unsere Aufgabe
besteht also darin, einen Parameter aus einer Zufallsgröße zu schätzen.
Unsere erste Schätzung ist sicherlich: Der Anteil der Pro-Stimmen in der wahlberechtigten
Bevölkerung ist geschätzt 15%. Das ist ein Punktschätzer: Aus den Daten der Stichprobe wird systematisch mittels eines reproduzierbaren Verfahrens ein Schätzwert für den gesuchten Parameter
ermittelt.
Der Punktschätzer läßt aber eine wichtige Frage offen: Wie genau dürfen wir den Schätzwert
nehmen? Liegt der Anteil der Pro-Stimmen zwischen 14% und 16%, oder zwischen 10% und 20%?
Ein Schätzer, der den Parameter in ein Intervall eingrenzt, ist ein Intervallschätzer.
Je breiter wir das Intervall angeben, desto weniger werden wir uns irren, aber umso weniger informativ wird unsere Antwort ausfallen. Geben wir dagegen ein sehr enges Intervall an,
ist natürlich die Wahrscheinlichkeit groß, dass wir den Parameter nicht richtig eingrenzen. Trefferwahrscheinlichkeit und Genauigkeit der Aussage müssen gegeneinander in einem Kompromiss
abgewogen werden.
Wenn wir in ein Statistikprogramm diese Daten eingeben und ein Konfidenzintervall mit 95%
Konfidenz anfordern, könnte folgende Ausgabe erfolgen:
Stichprobenumfang:
positive :
Anteil:
Standardfehler des Anteils:
Konfidenz:
Konfidenzintervall:
untere Schranke
obere Schranke
4000
600
0.015
0.00565
95%
0.1389
0.1611
Wir sehen zunächst unsere Daten, und den daraus geschätzten Anteil der Pro-Stimmen. Da
diese Größe eine Zufallsgröße ist, hat sie eine Streuung, und diese wird durch den Standardfehler
ausgedrückt. Die Konfidenz haben wir selbst eingegeben. Das Konfidenzintervall für den Anteil
der Pro-Stimmen in der wahlberechtigten Bevölkerung ist
95% Konfidenzintervall: [0.1389, 0.1611] .
Das heißt, nach unserer Methode ergibt sich eine Schätzung, dass der Anteil der Pro-Stimmen
zwischen 13.89% und 16.11% liegt. Allerdings grenzt diese Methode nur in 19 von 20 Fällen den
Anteil richtig ein. Wenn wir eine bessere Trefferquote erzielen wollen, müssen wir eine höhere
Konfidenz wählen:
99% Konfidenzintervall: [0.1355, 0.1645] .
Sie sehen, dass wir die höhere Trefferwahrscheinlichkeit mit einem breiteren Intervall, also einer
ungenaueren Einschätzung des Parameters, bezahlen.
Wie die Berechnung des Konfidenzintervalls tatsächlich erfolgt ist, werden wir später lernen.
¤
Merksatz 3.1.1.5. Es besteht ein Kompromiss zwischen der Genauigkeit der
Schätzung eines Parameters, der Qualität der zugrundeliegenden Daten, und der
Trefferwahrscheinlichkeit des Konfidenzintervalls:
a) Je höher die Konfidenz, also je geringer die Wahrscheinlichkeit einer Fehleinschätzung, desto breiter ist das Konfidenzintervall.
b) Je kleiner die Stichprobe, desto breiter das Konfidenzintervall.
c) Je stärker die Streuung der Daten, desto breiter das Konfidenzintervall.
Beispiel 3.1.1.6. Ein Verein für Konsumentenschutz untersucht das Füllgewicht von Kaffeepackungen verschiedener Firmen: Stimmt das tatsächliche Füllgewicht mit der aufgedruckten Gewichtsangabe wirklich überein? Im gegenständlichen Fall wurden 64 Packungen einer Firma untersucht, das mittlere Füllgewicht
96
3. STATISTISCHES SCHÄTZEN UND TESTEN
der Stichprobe lag bei 498 Gramm, mit einer Standardabweichung von 6 Gramm.
Durch ein Statistikprogramm wurde das 99%-Konfidenzintervall berechnet.
Stichprobenumfang:
Mittelwert der Stichprobe:
Varianz:
Standardabweichung
Standardfehler des Mittelwertes
Konfidenz:
Konfidenzintervall für den Mittelwert:
Untere Schranke
Obere Schranke
64
498
36
6
0.75
99%
500.07
495.93
Was bedeutet die Tabelle?
Diskussion: Die Tabelle zeigt uns zunächst die zugrundeliegenden Daten der Stichprobe mit ihren
wichtigsten Kennzahlen: Den Mittelwert (zugleich unser Punktschätzer für das mittlere Gewicht
aller Kaffeepäckchen dieser Firma) und die Standardabweichung als Maß, wie stark die Daten
dieser Stichprobe streuen. Der Punktschätzer für den Mittelwert ist aber eine Zufallsvariable, weil
er von der Stichprobe abhängt, und hat als solche eine Streuung, welche als Standardfehler des
Mittelwertes ausgewiesen ist. Letztlich wird das Konfidenzintervall aus diesen Daten berechnet:
99% Konfidenzintervall: [495.93, 500.07] .
Wir grenzen also das mittlere Gewicht der Kaffeepäckchen zwischen 495.93 und 500.07 Gramm
ein. Es kann immer noch sein, dass wir diesmal eine extreme Stichprobe erfaßt haben, und diese
Einschätzung falsch ist. Aber ein solcher Fehler passiert bei Einsatz dieser Methode nur in einem
von hundert Fällen.
¤
Beispiel 3.1.1.7. Das 99%-Konfidenzintervall für das mittlere Gewicht der
Kaffeepackungen einer Firma wurde in Beispiel 3.1.1.6 mit [495.93, 500.07] angegeben. Heißt das, dass 99% aller Kaffeepackungen dieser Firma ein Gewicht zwischen
495.93 und 500.07 Gramm haben?
Diskussion: Nein! Das Konfidenzintervall schätzt das mittlere Gewicht aller Kaffeepackungen der
Firma, und die Schätzmethode grenzt in 99% aller Fälle den Mittelwert richtig ein. Es ist keine
Aussage über die Gewichte der einzelnen Päckchen und deren Streuung gemacht. ¤
3.1.1.3. Punktschätzer als Zufallsvariable.
Merksatz 3.1.1.8. Aus einer Grundgesamtheit wird eine Stichprobe entnommen, und daraus soll durch einen Punktschätzer ein Parameter geschätzt werden.
1) Da sich die Daten der Stichprobe durch Zufallseinflüsse ergeben, sind sie
Zufallsvariable.
2) Da sich der Schätzer aus den Daten der Stichprobe errechnet, ist er ebenfalls eine Zufallsvariable.
3) Dagegen ist der gesuchte Parameter der Grundgesamtheit eine feste Zahl,
auch wenn wir sie nicht kennen. Er ist keine Zufallsvariable.
Wir führen noch eine weit verbreitete Schreibweise ein:
Definition 3.1.1.9. Sei a ein Parameter. Wenn für a ein Punktschätzer eingerichtet wird, bezeichnen wir diesen Schätzer oft mit â (sprich: a Dach).
Diskussion: Es ist also a eine feste, aber uns unbekannte Zahl, die wir möglichst genau ermitteln wollen. Dagegen wird â aus der Stichprobe nach gegebenen Formeln errechnet und ist eine
Zufallsvariable, die je nach Stichprobe verschieden ausfallen kann.
¤
3.1. SCHÄTZEN UND TESTEN
97
Die Eigenschaften von Zufallsvariablen werden (unter anderem) durch statistische Kennzahlen ausgedrückt. Als Zufallsvariable hat ein Punktschätzer (normalerweise) einen Erwartungswert und eine Standardabweichung. Wir interpretieren die Rolle dieser Werte für die Praxis des
Schätzens.
Definition 3.1.1.10. Ein Punktschätzer â für einen Parameter a heißt erwartungstreu (englisch: unbiased), wenn gilt:
E(â) = a.
Wenn die Differenz des Erwartungswertes des Schätzers vom Parameter |E(â) − a|
zwar nicht exakt Null ist, aber für grosse Stichprobenumfänge gegen Null geht,
heißt der Schätzer asymptotisch erwartungstreu.
Diskussion: Jeder Schätzer wird manchmal den gesuchten Parameter überschätzen und manchmal unterschätzen. Ob ein Schätzer systematisch eher zum Überschätzen, oder systematisch eher
zum Unterschätzen neigt, zeigt sich am Erwartungswert. Wenn der Erwartungswert des Schätzers
exakt der gesuchte Parameter ist, wird der Schätzer weder systematisch überschätzen noch unterschätzen.
¤
Merksatz 3.1.1.11. Ein erwartungstreuer Punktschätzer ist umso besser, je
geringer seine Varianz (und damit seine Standardabweichung) ist.
Diskussion: Jeder Schätzer weicht im Einzelfall mehr oder weniger vom gesuchten Parameter ab.
Ein guter Schätzer weicht aber in den meisten Fällen möglichst wenig vom gesuchten Parameter
ab, er hat also eine geringe Streuung. ¤
Definition 3.1.1.12. Der Standardfehler eines Schätzers ist seine Standardabweichung.
Beispiel 3.1.1.13. Ein Statistikprogramm könnte folgende Tabelle nach Analyse einer Häufigkeitstabelle ausgeben:
Stichprobenumfang
Mittelwert
Varianz
Standardabweichung
Standardfehler des Mittelwertes
95% Konfidenzintervall
untere
obere
100
8
1.21
1.1
0.11
7.7844
8.2156
Vergleichen Sie die Standardabweichung und den Standardfehler des Mittelwertes.
Diskussion: Wir gehen die Daten Stück für Stück durch.
Der Stichprobenumfang ist 100. SPSS geht davon aus, dass diese Daten eine Stichprobe aus
einer weit größeren Gesamtheit darstellen.
Der Mittelwert der Stichprobe ist 8. Zugleich ist dies ein Schätzer für den Mittelwert innerhalb
der ganzen Grundgesamtheit.
Die Varianz der Stichprobe ist 1.21, die Standardabweichung die Wurzel davon, also 1.1.
SPSS berechnet allerdings die Varianz mit dem Nenner
s2 (x) =
n
1 X
(xi − x)2 .
n − 1 i=1
Den Grund dafür werden wir bald genauer besprechen. Dies ist nämlich ein besserer Schätzer für
die Varianz der Grundgesamtheit: er ist erwartungstreu. Wie interpretieren wir die Standardabweichung der Grundgesamtheit? Nach der Faustregel (wenn sie anwendbar ist), liegen etwa 95%
der Daten der Grundgesamtheit zwischen 5.8 und 10.2 (8 ± 2 × 1.1).
98
3. STATISTISCHES SCHÄTZEN UND TESTEN
Der Standardfehler des Schätzers dagegen ist die Standardabweichung der Zufallsvariablen,
die den
√ Mittelwert aus einer Stichprobe von 100 schätzt. Sie ist viel kleiner (nämlich um den Faktor 100 = 10, wie wir noch lernen werden) als die Standardabweichung der Grundgesamtheit!
Wenn wir viele Hunderter-Stichproben aus dieser Grundgesamtheit entnehmen, können wir damit
rechnen, in 95% aller Fälle der Stichprobenmittelwert vom tatsächlichen Mittelwert der Grundgesamtheit um höchstens ±0.22 (= 2 × 0.11) abweicht. Würden wir Stichproben des Umfangs 400
statt 100 nehmen, wäre der Standardfehler des Mittelwertes noch kleiner (nämlich um die Hälfte,
wie wir später sehen werden).
Auf Grund solcher Überlegungen errechnet sich, wie wir noch sehen werden, das 95% Konfidenzintervall als der Bereich 8 ± 0.22. (Die Zahlenwerte sind etwas genauer, der Faktor 2 wurde
hier durch den genaueren Wert 1.96 ersetzt.) ¤
Definition 3.1.1.14. Ein Punktschätzer für einen Parameter heißt konsistent, wenn sich beliebig genaue Schätzwerte mit beliebig hoher Wahrscheinlichkeit
erreichen lassen, sofern nur die Stichproben groß genung angelegt werden.
Diskussion: Diese “Definition” ist mathematisch verwaschen. Eine sorgfältige Definition benötigt
den mathematischen Apparat der Grenzwertrechnung. Die wesentliche Aussage ist: Der Schätzer
kann mit beliebiger Genauigkeit arbeiten, man muss nur ausreichend große Stichproben nehmen.
Je genauer der Schätzer sein soll, desto größere Stichproben. ¤
Merksatz 3.1.1.15. Ein guter Punktschätzer ist (zumindest asymptotisch)
erwartungstreu, hat eine kleine Varianz, und ist konsistent.
Was Sie jetzt können:
Wissen und Begriffe: Problematik des statistischen Schätzens.
Punkt- und Intervallschätzer, Punktschätzer als Zufallsvariable, Rolle
von Erwartungswert und Varianz eines Schätzers, Standardfehler des
Schätzers.
Methoden: Interpretation von Konfidenzintervallen.
3.1.2. Einige wichtige Punktschätzer.
Übersicht:
1.
2.
3.
4.
Schätzer für Anteile
Schätzer für den Erwartungswert einer Zufallsvariablen
Schätzer für die Varianz einer Zufallsvariablen
Maximum Likelihood - Schätzer
3.1.2.1. Schätzer für Anteile.
In einer Grundgesamtheit sei ein dichotomes Merkmal mit den zwei Ausprägungen “positiv”
und “negativ” vertreten. Das Schätzen des positiven Bevölkerungsanteils ist eine der häufigsten
Aufgaben in der Statistik, und der Schätzer ist, wie es dem Hausverstand entsprechen würde,
einfach der Anteil der positiven Merkmalsträger in der Stichprobe. Wir kennen die Theorie der
Verteilung für diesen Schätzer noch nicht, es ist die Binomialverteilung. Trotzdem bringen wir
bereits der Vollständigkeit halber hier die Eigenschaften dieses wichtigen Schätzers:
3.1. SCHÄTZEN UND TESTEN
99
Merksatz 3.1.2.1. In einer Grundgesamtheit sei ein dichotomes Merkmal mit
den zwei Ausprägungen “positiv” und “negativ” vertreten. Es sei p der Anteil der
positiven Merkmalsträger in der Grundgesamtheit. Eine Stichprobe von n Merkmalsträgern wird entnommen, diese enthalte k positive und n − k negative Merkmalsträger.
Als Schätzer für den Anteil p verwenden wir den Anteil der positiven Merkmalsträger in der Stichprobe:
k
p̂ = .
n
Dann gilt:
1.) Der Schätzer p̂ hat als Erwartungswert
E(p̂) = p,
ist also erwartungstreu.
2.) Die Standardabweichung des Schätzers ist
r
p(1 − p)
σ(p̂) =
.
n
3.) Insbesondere geht der Standardfehler des Schätzers gegen Null, wenn n
gegen unendlich geht, und daraus folgt, dass der Schätzer konsistent ist.
4.) Ist der Stichprobenumfang ausreichend groß, so istq
p̂ annähernd normal. Als Faustreverteilt mit Mittelwert p und Standardabweichung p(1−p)
n
gel gilt: Man kann Normalverteilung anwenden, wenn gilt
np(1 − p) ≥ 9.
Tipp 3.1.2.2. Auch für kleine Stichprobenumfänge kennt man exakt die Verteilung von p̂. Es ist k = np̂ eine binomialverteilte Zufallsvariable. Wir greifen das
im Abschnitt über die Binomialverteilung wieder auf.
3.1.2.2. Schätzer für den Erwartungswert einer Zufallsvariablen.
Den Erwartungswert einer Zufallsvariablen schätzen wir aus einer Stichprobe mit dem Stichprobenmittelwert. Die Eigenschaften des Stichprobenmittelwertes haben wir schon in Merksatz
2.3.3.20 festgehalten und wiederholen sie hier:
Merksatz 3.1.2.3. Sei X eine Zufallsvariable mit Erwartungswert E(X) und
Standardabweichung σ(X). Als Schätzer für E(X) verwenden wir x, das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt
1) Der Erwartungswert von x ist
E(x) = E(X),
damit ist x ein erwartungstreuer Schätzer für E(X).
2) Die Standardabweichung von x ist
σ(X)
σ(x) = √ .
n
Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht.
Daraus folgt dass x ein konsistenter Schätzer für E(X) ist.
3) Ist X normalverteilt, so ist auch x normalverteilt.
4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥
30), so ist x annähernd normalverteilt.
100
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.1.2.3. Schätzer für die Varianz einer Zufallsvariablen.
Nach Merksatz 2.3.3.20 haben wir also umfassende Informationen über die Eigenschaften
des Stichprobenmittels als Schätzer für den Erwartungswert einer Zufallsvariablen. Allerdings
geht in diese Information die Standardabweichung der Zufallsvariablen ein. Und wenn wir den
Erwartungswert erst schätzen müssen, kennen wir normalerweise die Standardabweichung ebenso
wenig. Alles was uns bleibt, ist diese Standardabweichung aus der Stichprobe zu schätzen.
Es liegt nahe, einfach die Varianz der Stichprobe als Schätzer der Varianz der Zufallsvariablen
anzugeben. Allerdings ist dieser Schätzer nicht erwartungstreu, er würde die Varianz systematisch
ein wenig unterschätzen. Wir definieren einen besseren Schätzer:
Definition 3.1.2.4. Sei X eine Zufallsvariable. Sei x1 , · · · , xn eine Stichprobe
von n unabhängigen Realisierungen von X. Sei x das Stichprobenmittel aus diesen
Realisierungen.
Wir definieren die Kenngröße
n
1 X
(xi − x)2
s2x =
n − 1 i=1
à n
!
n
1X 2
2
=
x −x .
n − 1 n i=1 i
p
sx = s2x .
Merksatz 3.1.2.5. Sei X eine Zufallsvariable mit Erwartungswert E(X) und
Varianz σ 2 (X). Seien x1 , · · · , xn unabhängige Realisierungen von X. Sei x das
Stichprobenmittel.
Dann ist s2x ein erwartungstreuer Schätzer der Varianz σ 2 (X).
Beispiel 3.1.2.6. Eine Stichprobe von 5 zufällig ausgewählten Ratten aus dem
Pariser Kanalsystem ergab folgende Gewichte in kg:
0.2 0.4 0.4 0.3 0.2
Schätzen Sie Mittelwert und Standardabweichung der Gewichte der Ratten im
Pariser Kanalsystem. Wie groß ist der Standardfehler des geschätzten Mittelwertes?
Diskussion: Wir stellen die wohlbekannte Tabelle zur Berechnung von Erwartungswert und Varianz
auf:
xi
xi − x
(xi − x)2
0.2
-0.1
0.01
0.4
0.1
0.01
0.4
0.1
0.01
0.3
0.0
0.00
0.2
-0.1
0.01
Summe:
1.5
0.04
durch 5: 0.3 durch 4:
0.01
= s2x
=x
Der geschätzte Mittelwert der Gewichte der Pariser Ratten ist also, ebenso wie das Stichprobenmittel, 0.3 kg. Obwohl die Varianz der Gewichte der Ratten dieser Stichprobe 0.04/5 = 0.008
wäre, schätzen wir die Varianz der Gewichte aller Pariser Ratten mit s2x =√0.04/4 = 0.01. Die
geschätzte Standardabweichung der Gewichte aller Pariser Ratten ist somit 0.01 = 0.1.
Wenn wir die Standardabweichung σ
√ der Gewichte der Pariser Kanalratten genau wüssten,
wäre der Standardfehler von x gerade σ/ 5. Die beste Information über σ, die wir haben, ist der
Schätzwert sx , wir schätzen also den Standardfehler von x durch
0.1
√ ≈ 0.048.
5
3.1. SCHÄTZEN UND TESTEN
101
Nach der Faustregel gilt: Wenn wir systematisch Fünfer-Stichproben von Pariser Kanalratten
erheben, liegt das Stichprobenmittel in 95% der Fälle um nicht mehr als 0.096 vom tatsächlichen
Mittelwert der Gewichte aller Pariser Ratten entfernt.
¤
Tipp 3.1.2.7. Unterscheiden Sie sorgfältig folgende Varianzen:
1) σ 2P
(X): die Varianz der Zufallsvariablen X, die geschätzt werden soll.
n
2) n1 i=1 (xi −x)2 : die Varianz der Stichprobe, als Daten für sich genommen.
Pn
1
2
3) s2x = n−1
i=1 (xi − x) : die Schätzung der Varianz von X auf Grund der
Stichprobe.
4) σ 2 (x): die Varianz des Stichprobenmittelwertes, also das Quadrat des
Standardfehlers des Mittelwertes.
Tipp 3.1.2.8. SPSS geht bei der Analyse von Häufigkeitstabellen davon aus,
dass es sich um Stichproben handelt, und der Anwender an den Parametern der
Grundgesamtheit, nicht der Stichprobe, interessiert ist. Daher gibt SPSS von Haus
aus als Standardabweichung den Schätzer sx aus.
Geht man von normalverteilten Zufallsvariablen aus, kann man auch über die Verteilungsform
von s2x Auskunft geben:
Merksatz 3.1.2.9. Sei X eine normalverteilte Zufallsvariable mit Erwartungswert E(X) und Standardabweichung σ(X). Seien x1 , · · · , xn unabhängige Realisierungen von X, seien x und s2x das Stichprobenmittel und die geschätzte Varianz
aus diesen Realisierungen. Dann gilt:
1) Die Zufallsvariable
(n − 1)s2x
σ2
ist χ2 -verteilt mit n − 1 Freiheitsgraden.
2) Die Zufallsvariablen s2x und x sind unabhängig.
3.1.2.4. Maximum Likelihood - Schätzer.
Es gibt natürlich auch andere Parameter als Anteile, Erwartungswerte oder Varianzen, beispielsweise die Parameter der Geraden bei linearer Regression. In komplizierteren mathematischen
Modellen, welche von Statistikprogrammen angeboten werden, lassen sich die Parameter nicht immer durch eine einfache Formel schätzen. Statistikprogramme verwenden zur Schätzung solcher
Parameter oft das Prinzip der Maximum Likelihood-Schätzung.
Definition 3.1.2.10. Die Verteilung eines Merkmales in einer Grundgesamtheit sei durch eine Formel gegeben, welche aber von einem Parameter θ abhängt,
d.h., für jeden Zahlenwert von θ liegt eine andere Verteilung vor. Dieser Parameter
soll aus einer Stichprobe geschätzt werden.
1.) Besitzt eine Grundgesamtheit den Wert ν als Parameter, so tritt das
vorliegende Stichprobenergebnis mit einer bestimmten Wahrscheinlichkeit
(bzw. Wahrscheinlichkeitsdichte) auf. Diese Wahrscheinlichkeit heißt die
Likelihood von ν, wir schreiben L(ν).
2.) Der Maximum Likelihood-Schätzer für θ ist jene Zahl θ̂, für welche bei
dem gegebenen Stichprobenergebnis die Likelihood am größten ist.
Als Beispiel zeigen wir einen Maximum Likelihood-Schätzer für einen Anteil, obwohl wir ja
für diesen einfachen Fall bereits eine bequeme Formel wüssten.
102
3. STATISTISCHES SCHÄTZEN UND TESTEN
Beispiel 3.1.2.11. In einer großen, aber überalterten Obstplantage sind viele
der Bäume mit Misteln bewachsen. Eine Stichprobe von 5 Bäumen wird untersucht.
Auf dem ersten, dritten und vierten Baum befanden sich Misteln, die anderen beiden Bäume waren frei davon. Schätzen Sie den Anteil der mistelbewachsenen Bäume
in der gesamten Plantage.
Diskussion: Der gesuchte Parameter in dieser Aufgabe ist p, der Anteil der mistelbewachsenen
Bäume unter allen Bäumen der Plantage. Nach Merksatz 3.1.2.1 können wir ihn durch den Anteil
in der Stichprobe schätzen, unser Schätzer ist also
3
p̂ = = 0.6.
5
Wir wollen aber in diesem Beispiel den Likelihood-Schätzer erklären: Zunächst müssen wir klären,
was die Likelihood ist. Angenommen, der Anteil der Mistelbäume in einer Plantage wäre ν. Wie
groß ist dann die Wahrscheinlichkeit, dass genau auf dem ersten, dritten und vierten Baum einer
Stichprobe von 5 Bäumen Misteln gefunden werden?
Die Wahrscheinlichkeit, auf dem ersten Baum Misteln zu finden, wäre ν. Die Wahrscheinlichkeit, auf dem zweiten Baum Misteln zu finden, wäre 1 − ν. Damit wäre die Wahrscheinlichkeit,
dass auf dem ersten Baum Misteln sind, auf dem zweiten aber keine, das Produkt ν(1 − ν). Denkt
man so weiter, dann ist die Wahrscheinlichkeit, dass genau der erste, dritte und vierte Baum von
Misteln befallen ist
L(ν) = ν (1 − ν) ν ν (1 − ν) = ν 3 (1 − ν)2 .
Dies ist die Likelihood von ν bei der gegebene Datenlage.
Wir suchen nun jenen Wert von ν, für den die Likelihood möglichst groß wird. Maximumprobleme kann man, wie wir noch aus der Schule wissen, gelegentlich durch Differenzieren und
anschließendes Nullsetzen der Ableitung lösen. Die Ableitung ist nach der Produkt- und Kettenregel
d
L(ν) = 3ν 2 (1 − ν)2 − 2ν 3 (1 − ν).
dν
Setzen wir die Ableitung auf Null, erhalten wir (außer ν = 1 und ν = 0)
3ν 2 (1 − ν)2 − 2ν 3 (1 − ν) = 0
3(1 − ν) − 2ν = 0
ν=
3
.
5
Dieses spezielle ν, also 35 , ist der Maximum Likelihood-Schätzer für p. Tatsächlich ist für Schätzung
von Anteilen bei dichotomen Merkmalen immer der Anteil in der Stichprobe auch der Maximum
Likelihood-Schätzer. ¤
Tipp 3.1.2.12. In der Praxis wird der Maximum Likelihood-Schätzer normalerweise nicht durch Differenzieren gefunden. Es gibt ausgefeilte Computerprogramme
zum Suchen von Maximumstellen. In Statistikpaketen sind diese eingebaut, sodass
der Benutzer von der Maximumsuche gar nichts merkt.
Was Sie jetzt können:
Wissen und Begriffe: Eigenschaften der Schätzer für Anteile von
positiven Merkmalsträgern bei dichotomen Merkmalen, für Erwartungswerte und Varianzen. Unterscheidung von Varianz und Standardabweichung der Stichprobe, tatsächlicher und geschätzter Varianz
und Standardabweichung der Grundgesamtheit, Varianz und Standardabweichung des Stichprobenmittelwerts. Prinzip der Maximum
Likelihood-Schätzung.
Methoden: Schätzung von Anteilen positiver Merkmalsträger, Erwartungswerten und Varianzen.
3.1. SCHÄTZEN UND TESTEN
103
3.1.3. Schema eines statistischen Tests.
Übersicht:
1.
2.
3.
4.
Hypothesen
Wie funktioniert ein statistischer Test
Grundbegriffe des statistischen Tests
Beispiel zur Erklärung der Grundbegriffe
3.1.3.1. Hypothesen.
Definition 3.1.3.1. Eine Hypothese ist eine Aussage, die entweder wahr oder
falsch sein kann. Die Frage nach einer Hypothese kann also immer mit Ja/Nein
beantwortet werden. Im statistischen Test bezieht sich die Hypothese stets auf die
zu untersuchende Grundgesamtheit, nie auf die Stichprobe.
Diskussion: Einige Beispiele von Hypothesen:
a) Das mittlere Gewicht der Kürbisse einer bestimmten Sorte ist größer als 1.2 kg.
b) Es besteht kein Unterschied in der Spitalsaufenthaltsdauer zwischen Patienten, die mit
Methode A und solchen, die mit Methode B behandelt wurden.
c) Die Ereignisse: “Ein Patient raucht mehr als 20 Zigaretten täglich” und “Ein Patient
hat erhöhten Blutdruck” sind abhängig.
d) Mehr als 30% aller sechsjährigen Kinder sind übergewichtig.
e) Kraftfahrer mit roten Autos übertreten häufiger Geschwindigkeitsbeschränkungen als
Kraftfahrer mit anders gefärbten Fahrzeugen.
Die folgenden Fragen führen auf keine Hypothesen:
e) Wieviele kg Äpfel trägt durchschnittlich ein Baum der Sorte Kronprinz Rudolf? (Keine
ja-nein-Frage. Hier soll ein Parameter geschätzt werden, nämlich der mittlere Ertrag
eines Obstbaums.)
f) Mit einer Signifikanz von 95% ist belegt, dass zwischen dem Faktor “Intensität der
Düngung” und der Variablen “Größe der Blüte” ein Zusammenhang besteht. (“Es besteht ein Zusammenhang zwischen Düngung und Größe der Blüte” ist eine Hypothese.
Die Signifikanz sagt aber etwas über die Stärke der ermittelten Daten aus, also über
die angestellte Untersuchung, nicht über die Grundgesamtheiten.)
¤
3.1.3.2. Wie funktioniert ein statistischer Test?
Das folgende Beispiel erklärt, in eine Geschichte verpackt, wie ein statistischer Test funktioniert.
Beispiel 3.1.3.2. Von dem hochgelahrten Doctorn Fausto, welcher der Hexerey, Statistic und allerley mehr Teuffels-Künst gepflogen, und von einem fahrenden
Studioso, so aber in Wahrheyt der Leybhafftige gewesen.
104
3. STATISTISCHES SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Faust erhält in seiner Studierstube Besuch von einem fahrenden Studiosus der Naturwissenschaften. Die beiden beginnen
ein frivoles Würfelspiel um die Erkenntnis von Gut und Böse.
Nach 10 Würfen hat der Studiosus 9 Sechser geworfen.
Es werden Daten erhoben. Der
Zufall spielt mit, z.B. durch eine Stichprobenentnahme.
F: 9 Sechser in 10 Würfen. Dieser Würfel ist gezinkt.
Wir stellen eine Hypothese auf:
H1 : “Dieser Würfel wirft bevorzugt Sechser.” Wir nennen
das die Alternativhypothese.
Können wir mit den erhobenen
Daten diese Hypothese beweisen?
S.: Dieser Würfel ist fair und
unschuldig wie ein neugeborenes
Lamm. Ich hatte bisher einfach
viel Glück.
Die Daten könnten auch ein
Zufallstreffer sein. Der Alternativhypothese steht die
Nullhypothese gegenüber: H0 :
“Dieser Würfel wirft Sechser
mit einer Wahrscheinlichkeit
von 1/6.”
Wenn das so ist, dann lassen
Sie doch den Würfel untersuchen. Ich werde ihn in ein Wasserglas legen, und wir werden sehen, dass sich die Sechs immer
nach oben dreht.
Faust will schon nach seinem Famulus rufen, um das Experiment vorzubereiten. Der Studiosus reicht ihm bereitwillig den
Würfel, da schießt zufällig eine Stichflamme aus der Erde und
der Würfel verbrennt
So ein Pech, jetzt können wir
den Würfel gar nicht mehr überprüfen.
Zur Überprüfung stehen nur
die erhobenen Daten zur
Verfügung.
Und Sie können mir getrost glauben, dass dieser Würfel fair war.
Oder ist es denn unmöglich, dass
man 9 Sechser wirft?
Es gibt keinen unanfechtbaren
Beweis für die Alternativhypothese. Solche Daten könnten
auch zustandekommen, wenn
die Nullhypothese gilt.
Die Wahrscheinlichkeit könnte aber für die Alternativhypothese sprechen.
Aber äußerst unwahrscheinlich!
Sie würden also jeden, der mit
10 Würfen neun oder gar zehn
Sechser wirft, der Falschspielerei
verdächtigen?
Das würde ich.
3.1. SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Wenn Sie so leichtfertig mit Ihren Unterstellungen sind, kommt
jeder, der ein wenig Glück hat,
bei Ihnen in den Verruf, ein
Schwindler zu sein.
Wenn wir die Daten als Beweis für die Alternativhypothese ansehen, riskieren wir einen
Fehler: Es könnte die Nullhypothese H0 gelten, und wir
glauben an H1 . Das ist ein Fehler erster Art, ein α-Fehler.
Wenn sich herumspricht, dass
Sie hier Sechser um Sechser werfen und ich vertraue Ihnen noch
immer, werden bald alle Scharlatane und Falschspieler der Welt
hier aufkreuzen und auf meiner
Tasche liegen.
Wenn wir aus den Daten nicht
auf die Alternativhypothese
schließen, riskieren wir auch
einen Fehler: Es könnte H1
gelten, aber wir bemerken es
nicht. Das ist ein Fehler zweiter
Art, ein β-Fehler.
Geben Sie zu, wenn hundert Besucher hier mit Ihnen spielen,
wird vielleicht einer der Besucher
viel Glück haben. Und Sie werden ihm zu Unrecht Betrug vorwerfen. Können Sie eine solche
Ungerechtigkeit mit Ihrer akademischen Ehre vereinbaren?
Einen von hundert zu Unrecht
beschuldigen? Nein, das würde
ich nie riskieren! Aber einen
von tausend, dieses Risiko gehe ich ein. Dann wäre es wirklich allzu unwahrscheinlich, dass
gerade Sie dieses unglückliche
Würstchen sind.
Es gilt! Wenn es wahr ist, dass
mehr als einer von hunderttausend, die mit einem fairen
Würfel spielen, auf 9 oder mehr
Sechser in 10 Würfen kommen,
dann will ich zugeben, dass Sie
einfach Glück gehabt haben.
105
Da wir jedenfalls einen Fehler
riskieren, müssen wir aushandeln, wieviel Risiko wir eingehen können oder wollen.
Einen von tausend! So leichtfertig ziehen heutzutage schon
die Gelehrten ihre Schlüsse? Ja,
wenn Sie sagen würden, einer
von hunderttausend, da müsste
auch ich zustimmen, dass Sie
nach bestem Gewissen und in
Gerechtigkeit entscheiden.
Es gilt!
Eine Feuerhand schreibt an die Wand: α = 0.00001.
Das Signifikanzniveau α des
Tests legen wir “willkürlich”
fest: Wir erlauben, dass in
einer Situation, in der in
Wirklichkeit H0 gilt, mit
Wahrscheinlichkeit α trotzdem
irrtümlich H1 als bewiesen
betrachtet wird. Je kleiner α,
desto geringer ist das Risiko,
einen Fehler erster Art zu
begehen, aber dafür vergrößert
sich die Gefahr eines Fehlers
der zweiten Art.
106
3. STATISTISCHES SCHÄTZEN UND TESTEN
Faust
Student
Kommentar
Nehmen wir an, jemand wirft
zehnmal mit einem fairen
Würfel. Wenn er neun oder zehn
Sechser wirft, würde ich ihn als
Falschspieler bezeichnen. Wie
groß ist die Wahrscheinlichkeit,
dass ihm das geschieht?
Angenommen, wir entscheiden bei einer Datenlage wie
der gegenwärtigen immer für
die Alternativhypothese. Wenn
dann einmal in Wirklichkeit
die Nullhypothese gilt, kann es
durch Zufall geschehen, dass
Daten entstehen, die ebenso
stark für die Alternativhypothese sprechen wie die Daten,
die uns derzeit vorliegen. In
diesem Fall würden wir also
einen α-Fehler begehen. Aber
wie wahrscheinlich ist das?
Insgesamt sind 610 = 60466176
Ergebnisse möglich. Davon eines mit lauter Sechsern, und 50
mit je 9 Sechsern. (In jedem
der 10 Würfe könnte die “NichtSechs” geworfen sein, und die
Zahlen von 1 bis 5 wären
als “Nicht-Sechs” möglich.) —
Die Wahrscheinlichkeit ist p =
51
= 8.434 × 10−7 .
60466176
p ist die Wahrscheinlichkeit,
dass unter der Nullhypothese Daten entstehen, welche die
Alternativhypothese so deutlich unterstützen wie das vorliegende Datenmaterial. Diese
Wahrscheinlichkeit p lässt sich
aus den Daten berechnen.
8.434 × 10−7 . Viel weniger als
1/100000! Von einer Million, die
fair spielen, riskiert nicht einmal einer, dass ich ihn zu Unrecht beschuldige. Ich bleibe dabei, Sie sind ein Falschspieler.
Dieser Würfel war unfair.
Ein Risiko von α = 10−5 für
einen α-Fehler haben wir als
erlaubt ausgehandelt. Wenn
wir bei dieser Datenlage für die
Alternativhypothese entscheiden, würde das Risiko eines αFehlers nur p = 8.434 × 10−7
betragen. Es ist also p < α.
Wir können daher die Alternativhypothese als bewiesen betrachten und die Nullhypothese zurückweisen.
Dieses gelehrte Hokuspokus versteht doch nicht einmal der Teufel!
Es öffnet sich der Boden und S. fährt in einer Schwefelwolke
unter schauerlichen Flüchen auf die Statistik in die Hölle.
3.1.3.3. Grundbegriffe des statistischen Tests.
Methode 3.1.3.3. Ein statistischer Test ist ein Verfahren, ja/nein-Fragen
bei Risiko eines Fehlers systematisch zu entscheiden, sodass das Risiko des Fehlers
eingeschätzt werden kann. Grundsätzlich ist ein statistischer Test folgendermaßen
aufgebaut:
1: Man stellt eine Nullhypothese H0 und eine Alternativhypothese H1
auf. Die beiden Hypothesen schließen sich gegenseitig aus.
2: Man wählt ein Signifikanzniveau α zwischen 0 und 1.
3: Man erhebt die Daten.
4: Man errechnet aus den Daten die Teststatistik, das ist eine Prüfgröße,
die ausdrückt, wie gut die Daten die Alternativhypothese unterstützen.
3.1. SCHÄTZEN UND TESTEN
107
5: Man bestimmt aus der Teststatistik den p-Wert, das ist die bedingte
Wahrscheinlichkeit p, dass man unter der Bedingung H0 eine Teststatistik
erhält, welche die Alternativhypothese so gut unterstützt wie die ermittelten Daten.
6: Man entscheidet nach folgender Regel:
– Ist α < p, dann sind Daten wie die gefundenen auch unter der Nullhypothese nicht so selten, dass man auf Grund dieser Daten die Nullhypothese widerlegen könnte. Die Nullhypothese wird nicht abgelehnt.
– Ist α ≥ p, so sind Daten wie die gefundenen unter der Nullhypothese
ausreichend unwahrscheinlich, sodass man die Nullhypothese ablehnen kann, und die Alternativhypothese als signifikant untermauert
betrachtet.
Merksatz 3.1.3.4. Ein statistischer Test kann auf zwei Arten ausgehen:
a) Die Nullhypothese wird abgelehnt. Sie widerspricht den gefundenen Daten stark. Die Alternativhypothese ist zwar nicht bewiesen, aber mit der
vorgegebenen Signifikanz untermauert.
b) Die Nullhypothese wird nicht abgelehnt, weil sich zwischen den gefundenen Daten und der Nullhypothese kein deutlicher Widerspruch ergibt. Der
Grund kann darin liegen, dass die Nullhypothese ohnehin richtig ist, oder
dass das Datenmaterial einfach nicht stark genug ist, um sie zu widerlegen. Die Alternativhypothese ist in diesem Fall nicht widerlegt, es steht
nur fest, dass sie mit dem vorliegenden Datenmaterial nicht signifikant
untermauert werden kann.
Daraus ergibt sich die Strategie zum Erstellen von Hypothesen:
Tipp 3.1.3.5.
• Bringen Sie die Fragestellung der Untersuchung auf die Form: “Sprechen
die gefundenen Daten so stark für Annahme A, dass man mit ihnen die
Annahme B widerlegen kann?” Die Annahme A nimmt dann die Rolle der
Alternativhypothese, die Annahme B die Rolle der Nullhypothese.
• Die Nullhypothese muss so scharf formuliert sein, dass man auf ihrer Basis
Wahrscheinlichkeiten berechnen kann. Die Alternativhypothese dagegen
muss nur eine Richtung ausdrücken, und keine exakten Zahlen geben.
Definition 3.1.3.6. Ein Test heißt zweiseitig, wenn die Teststatistik die Alternativhypothese unterstützt, wenn sie nach oben oder nach unten von einem vorgegebenen Wert stark abweicht. Unterstützt entweder nur eine sehr hohe Teststatistik, oder nur eine sehr niedere Teststatistik die Alternativhypothese, so heißt der
Test einseitig.
Definition 3.1.3.7. Bei der Auswertung des Tests sind 4 Situationen möglich:
Nullhypothese trifft zu
Alternativhypothese trifft zu
Test spricht für
Nullhypothese Alternativhypothese
OK
α-Fehler
β-Fehler
OK
Den α-Fehler bezeichnet man auch als Fehler erster Art, den β-Fehler als
Fehler zweiter Art.
108
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.1.3.8.
• Der α-Wert eines Testes gibt an, wie wahrscheinlich ein α-Fehler auftritt.
Wird in einer großen Anzahl von Studien immer mit dem Signifikanzniveau α getestet, so kommen auf je 100 Fälle, in denen die Nullhypothese
gilt, im Durchschnitt 100 × α Fälle, in denen irrigerweise der Test zugunsten der Alternativhypothese ausfällt.
• Über die Wahrscheinlichkeit des β-Fehlers sagt das Signifikanzniveau unmittelbar nichts aus. Jedoch wird bei kleinem α automatisch die Wahrscheinlichkeit eines β-Fehlers größer.
• Dagegen ergibt sich der p-Wert durch Rechnung aus den Daten. Die Rechnung baut auf der Annahme auf, dass die Nullhypothese gilt.
Tipp 3.1.3.9. Die Festlegung des Signifikanzniveaus α erfolgt durch die Person,
die die Untersuchung durchführt. Je kleiner das Signifikanzniveau, desto stärker
müssen die Daten für die Alternativhypothese sprechen, um die Nullhypothese
abzulehnen. Desto seltener kann also ein α-Fehler auftreten, und desto häufiger
ein β-Fehler. Man wählt ein kleines Signifikanzniveau, wenn man einen α-Fehler
dringender vermeiden will als einen β-Fehler. Typische Signifikanzniveaus liegen
zwischen 0.1 und 5 Prozent.
3.1.3.4. Beispiel zur Erklärung der Grundbegriffe.
Beispiel 3.1.3.10. Eine Konsumentenschutzorganisation untersucht die Füllmengen von Kaffeepackungen. Stichproben von 500-Gramm-Packungen einer Firma
werden gewogen. Wenn das mittlere Gewicht der Stichprobe deutlich geringer als
500 Gramm ist, kommt die Firma auf eine schwarze Liste.
Diskussion: Dies ist ein klassisches Beispiel für einen t-Test, wie wir ihn später kennenlernen
werden. Für jetzt soll an diesem Beispiel die Problematik des statistischen Testens, das Stellen
von Hypothesen, und die Interpretation des Ergebnisses illustriert werden. Viele Details dieses
Tests werden Sie erst nur sehr vage verstehen. Sie klären sich, wenn wir in der Lehrveranstaltung
weiter fortschreiten.
Wir sind mit einer Ja-Nein-Frage konfrontiert: Verkauft die Firma zu leichte Packungen oder
nicht? Zur Beantwortung der Frage können wir nicht alle Kaffeepackungen der Firma nachwiegen,
wir sind auf eine Stichprobe angewiesen, und diese kann rein zufällig grossteils aus zu leichten
Packungen bestehen, selbst wenn die Firma im Durchschnitt 500 Gramm in die Päckchen abfüllt.
Wann kann eine Stichprobe (im Rahmen einer gegebenen Unsicherheit) zumindest untermauern,
dass die Päckchen der Firma im Mittel zu leicht sind, und wann müssen wir eher damit rechnen,
dass das Stichprobenergebnis ein Zufallstreffer ist? Hier ist also ein statistischer Test angebracht.
Wir beginnen mit der Stellung der Hypothesen. Die Grundfrage eines statistischen Tests
lautet immer: “Können die Daten die Nullhypothese widerlegen?” In unserem Fall lautet die Frage:
“Beweisen die Daten, dass die Päckchen der Firma zu leicht sind, also nicht im Durchschnitt 500
Gramm enthalten?” Wir stellen also die Hypothesen:
H0 Nullhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt 500 Gramm
Kaffee.
H1 Alternativhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt weniger als 500 Gramm Kaffee.
Beachten Sie, dass die Nullhypothese eine exakte Zahlenangabe enthält (“ = 500 g”), auf Grund
derer sich Wahrscheinlichkeiten errechnen lassen werden. Die Alternativhypothese zeigt einen
Trend an (“weniger als 500 g”). Der Test ist einseitig: Eine Stichprobe mit mittlerem Gewicht weit
unter 500 Gramm spricht für die Alternativhypothese. Eine Stichprobe mit einem Gewicht von
viel über 500 Gramm würde zwar auch der Nullhypothese widersprechen, aber nicht zugunsten der
Alternativhypothese. Wir würden also in einem solchen Fall lieber die Nullhypothese beibehalten.
(Eine zweiseitige Alternativhypothese wäre: “Die Päckchen der Firma enthalten im Durchschnitt
nicht exakt 500 Gramm.”)
3.1. SCHÄTZEN UND TESTEN
109
Da die Hypothesen stehen, können wir uns überlegen, welche Fehler passieren können.
Ein α-Fehler tritt ein, wenn in Wirklichkeit H0 gilt, aber der Test zu Gunsten von H1 ausgeht.
Das ist der Fall, wenn die Firma ordnungsgemäß im Durchschnitt 500 Gramm in ihre Päckchen
füllt, aber die Stichprobe zufällig aus unterdurchschnittlich leichten Päckchen zusammengesetzt
war. Die Firma wird dann zu Unrecht von der Konsumentenschutzorganisation beschuldigt.
Ein β-Fehler tritt ein, wenn H1 gilt, aber vom Test nicht entdeckt wird. Die Firma füllt in
diesem Fall tatsächlich im Durchschnitt zu wenig Kaffee in die Päckchen, aber die Stichprobe
enthält zufällig nicht ausreichend viele auffällig leichte Packungen, und die Konsumentenschützer
entdecken nicht, dass zu wenig Kaffee für zu viel Geld über die Theke wandert.
Keiner der beiden Fehler lässt sich völlig ausschließen. Nehmen wir an, die Konsumentenschützer testen immer mit einer Signifkanz von α = 0.05. Von 100 Firmen, die ordnungsgemäß
abfüllen und untersucht werden, werden dann 5 zu Unrecht beschuldigt. Und wieviele Firmen,
die zuwenig abfüllen, bleiben trotz der Untersuchung unentdeckt? Die Signifikanz sagt nichts
darüber aus, denn das ist ein β-Fehler. Es hängt auch davon ab, um wieviel die Päckchen einer
Firma zu leicht sind. Extrem leichte Abfüllmengen werden eher entdeckt, als wenn eine Firma im
Durchschnitt nur ein halbes Gramm zu wenig abfüllt.
Die Wahl der Signifikanz hängt davon ab, ob wir den α-Fehler oder den β-Fehler mehr
fürchten. Wir verwenden in diesem Test die verbreitete Wahl α = 0.05 (man sagt auch: 95%
Konfidenz).
Die einzelnen Daten der Stichprobe werden in ein Statistikprogramm eingegeben und mit
einer geeigneten Methode ausgewertet, in unserem Fall ist das der t-Test, wie wir später erfahren
werden. Als Ausgabe liefert das Programm möglicherweise folgende Tabelle:
Stichprobenumfang
Mittelwert
Varianz
Standardabweichung
Vergleichswert
t
Freiheitsgrade
p einseitig
p zweiseitig
64
498
36
6
500
-2.6667
63
0.00486
0.00972
Die ersten Zahlen beschreiben die Daten der Stichprobe: 64 Päckchen wurden untersucht,
das mittlere Gewicht lag bei 498 Gramm, also unter dem Sollwert 500 Gramm. Aus Varianz
und Standardabweichung sehen wir, wie stark die Gewichte der einzelnen Päckchen streuen. Die
Standardabweichung spielt eine Schlüsselrolle in der Beurteilung der Daten: Je geringer die Daten
streuen, je weniger Unterschied zwischen den einzelnen Meßwerten ist, als desto zuverlässiger kann
man sie einschätzen, und desto sicherer kann man aus ihnen Schlüsse ziehen.
Die folgenden Zeilen beziehen sich direkt auf den statistischen Test. Verglichen wird mit dem
Sollwert aus der Nullhypothese: “H0 : Das mittlere Gewicht aller Päckchen der Firma ist 500.”
Die Teststatistik t quantifiziert in geeigneter Weise die Abweichung der gegebenen Daten vom
Vergleichswert. Auch wenn wir zur Zeit mit der Formel noch wenig anfangen können, sollen Sie
hier sehen, dass der t-Wert direkt aus den statistischen Kennzahlen der Stichprobe errechnet wird.
Mittelwert − Vergleichswert p
t=
Stichprobenumfang
Standardabweichung
Die Anzahl der Freiheitsgrade gibt an, wieviele unabhängige Daten in die Standardabweichung einfließen, die der Berechnung von t zugrunde liegt. Aus t errechnen sich die p-Werte, wovon uns nur
der einseitige Test interessiert, da wir eine einseitige Alternativhypothese gestellt haben. Hätten
wir kein Statistikprogramm zur Verfügung, müssten wir in einer geeigneten Tabelle nachschlagen. Vergleichen wir den einseitigen p-Wert p = 0.00486 mit dem vorgegebenen Signifikanzniveau
α = 0.05, so stellen wir fest, dass p kleiner ist als α. Wir können daher die Nullhypothese zurückweisen: Die Daten erhärten mit einem Signifikanzniveau von 5% (tatsächlich mit 0.00486), dass
die Päckchen der Firma im Durchschnitt zu leicht sind.
Die Stichprobe von dieser Firma ist also so extrem leicht, dass wir davon ausgehen können,
dass die Firma tatsächlich im Durchschnitt zu wenig Kaffee einfüllt. Auch eine Firma, die im
Durchschnitt 500 Gramm abfüllt, kann unter unglücklichen Umständen ein so schlechtes Stichprobenergebnis haben. Aber die Wahrscheinlichkeit, dass ihr das widerfährt, ist nur 0.00486. Dieses
110
3. STATISTISCHES SCHÄTZEN UND TESTEN
Risiko nehmen wir in Kauf. Wir haben uns bei der Wahl des Signifikanzniveaus für ein Fehlerrisiko
bis zu 0.05 entschieden. ¤
Was Sie jetzt können:
Wissen und Begriffe: Schließende Statistik, Problematik des Schließens aus zufälligen Daten. Test, Null- und Alternativhypothesen (H0
und H1 ), Teststatistik, einseitige und zweiseitige Tests. Fehler erster
und zweiter Art, (α- und β-Fehler), Signifikanzniveau des Tests (α)
und der Daten (p).
Methoden: Grundstrategie zum statistischen Testen, Erstellen von
Hypothesen, Auswertung eines Tests durch Vergleich von α und p.
3.1.4. Beispiele von statistischen Tests.
Übersicht:
Verschiedene Beispiele zu statistischen Tests
Es geht in diesem Abschnitt nur darum, Hypothesen zu stellen und Testergebnisse
zu interpretieren. Die Testverfahren werden wir später besprechen. Sie werden
daher vieles, was Sie in diesem Abschnitt finden, jetzt erst vage verstehen.
Alle Beispiele in diesem Abschnitt sind dem Buch: A. Bühl und P.
Zöfel, SPSS 12, 9. Aufl., Pearson 2005, entnommen. Diesem Buch
liegt eine Datendiskette bei.
Einer der Datenfiles (hyper.sav) zum Buch A. Bühl und P. Zöfel, SPSS 12
(9. Aufl., Pearson 2005) enthält Daten von BluthochdruckpatientInnen. Von 174
PatientInnen sind folgende Merkmale erfasst:
num
med
g
a
gr
gew
rrs0
rrs1
rrs6
rrs12
chol0
chol1
chol6
chol12
bz0
bz1
bz6
bz12
ak
Patientennummer
erhaltenes Medikament (“Alphasan” oder “Betasan”)
Geschlecht
Alter bei Einweisung
Körpergröße
Körpergewicht
systolischer Blutdruck bei Einweisung
systolischer Blutdruck, 1 Monat nach Behandlungsbeginn
systolischer Blutdruck, 6 Monate nach Behandlungsbeginn
systolischer Blutdruck, 12 Monate nach Behandlungsbeginn
Cholesterin bei Einweisung
Cholesterin, 1 Monat nach Behandlungsbeginn
Cholesterin, 6 Monate nach Behandlungsbeginn
Cholesterin, 12 Monate nach Behandlungsbeginn
Blutzucker bei Einweisung
Blutzucker, 1 Monat nach Behandlungsbeginn
Blutzucker, 6 Monate nach Behandlungsbeginn
Blutzucker, 12 Monate nach Behandlungsbeginn
Altersklassen (0–55, 56–65, 66–75, 76–)
nominal
nominal
nominal
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
metrisch
ordinal
3.1. SCHÄTZEN UND TESTEN
111
Beispiel 3.1.4.1. Ist das Alter neu eingewiesener PatientInnen annähernd normalverteilt, oder muss aus den Daten gefolgert werden, dass die Verteilung des
Alters neueingewiesener Patienten deutlich von der Normalverteilung abweicht?
(Solche Fragen spielen deshalb eine Rolle, weil für annähernd normalverteilte Zufallsgrößen stärkere statistische Methoden zur Verfügung stehen.)
Diskussion:
H0 Nullhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist eine normalverteilte Zufallsgröße.
H1 Alternativhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist nicht normalverteilt.
α Signifikanzniveau: α = 0.05.
Bevor wir testen, überprüfen wir noch an Hand des Histogramms, ob vom Augenschein
her wesentliche Einwände gegen eine Normalverteilung bestehen. Natürlich können wir von der
Stichprobe nicht die exakte Wiedergabe einer Normalverteilungskurve erwarten. Jedoch scheint
auf ersten Blick kein wesentlicher Einwand gegen eine Normalverteilung zu bestehen.
Histogramm
25
H ufigkeit
20
15
10
5
Mittelwert =62,11
Std.-Abw. =11,548
N =174
0
30
40
50
60
70
80
90
Alter
Beispiel 3.1.4.1: Histogramm der Altersverteilung der ProbandInnen
Um zu testen, ob die gegebenen Daten Realisierungen einer Zufallsgröße mit einer bestimmten
Wahrscheinlichkeitsverteilung (hier: Normalverteilung) sein können, verwendet man Anpassungstest. SPSS bietet unter anderem den Anpassungstest von Kolmogorov-Smirnov. Die Ausgabe des
Tests finden wir in folgender Tabelle:
Kolmogorov-Smirnov-Anpassungstest
Alter
174
Mittelwert
62.11
Standardabweichung 11.548
absolut
0.059
Extremste Differenzen
positiv
0.055
negativ
-0.059
Kolmogorov-Smirnov Z
0.785
Asymptotische Signifikanz (2-seitig)
0.569
a ) Die zu testende Verteilung ist eine Normalverteilung
b ) Aus den Daten berechnet
N
Parameter der
Normalverteilung (a,b)
Die Tabelle zeigt zunächst, dass die Untersuchung auf einem Stichprobenumfang von 174
ProbandInnen beruht. Am besten passt eine Normalverteilung mit Mittelwert 62.11 und Standardabweichung 11.548. Die folgenden extremsten Differenzen sind die größten Abweichungen der
empirischen Verteilungsfunktion unserer Daten von der Verteilungskurve der Normalverteilung.
Aus diesen wird der p-Wert auf dem Umweg über eine Teststatistik Z berechnet. Wie das geschieht,
überlassen wir dem Programm. Am Ende der Tabelle finden wir endlich die entscheidende Zahl,
112
3. STATISTISCHES SCHÄTZEN UND TESTEN
nämlich den p-Wert von 0.569. Da wir auf α = 0.05 testen, ist also p > α, und die Nullhypothese
wird nicht zurückgewiesen. (Die Bemerkung, dass der p-Wert asymptotisch ist, bedeutet, dass hier
eine geeignete Näherungsformel angewendet wurde, die für praktische Zwecke ausreichend genau
ist.)
Das Ergebnis des statistischen Tests ist also: Die Daten belegen nicht mit Signifikanzniveau
0.05, dass das Alter der Hochdruckpatienten einer anderen Verteilung als einer Normalverteilung
folgt. Damit ist keineswegs bewiesen, dass es wirklich normalverteilt ist, aber für uns bleibt die
Folgerung, dass zumindest auf Grund der vorliegenden Daten keine ernsten Bedenken erhoben
werden müssen, wenn wir das Merkmal Alter mit statistischen Verfahren untersuchen, die eine
Normalverteilung voraussetzen. ¤
Beispiel 3.1.4.2. Ist der Blutzucker bei neu aufgenommenen Hypertoniepatienten annähernd normalverteilt, oder geben die Daten deutlich Anlass, eine andere
Verteilung zu vermuten?
Diskussion: Wir führen den gleichen Test wie in Beispiel 3.1.4.1 durch. Zunächst werfen wir einen
Blick auf das Histogramm mit eingezeichneter Normalverteilungskurve: Dem Augenschein nach
passt die Normalverteilung nicht gut, die Verteilung ist deutlich linksgipfelig. Um den Mittelwert
von circa 100 gruppiert sich die Mehrzahl der Fälle, jedoch gibt es einen langen Schwanz von sehr
hohen Blutzuckerwerten, wogegen niedrige Blutzuckerwerte eher selten sind.
Histogramm
80
H ufigkeit
60
40
20
Mittelwert =103,99
Std.-Abw. =35,608
N =174
0
100
200
300
400
Blutzucker, Ausgangswert
Beispiel 3.1.4.2: Verteilung des Blutzuckers
Wir testen die Hypothesen
H0 Nullhypothese: Der Blutzucker ist in der Gesamtheit der neuaufgenommenen HypertoniepatientInnen normalverteilt.
H1 Alternativhypothese: Der Blutzucker ist in dieser Personengruppe nicht normalverteilt.
α Signifikanzniveau 0.05.
Kolmogorov-Smirnov-Anpassungstest
Blutzucker
Ausgangswert
N
174
Parameter der
Mittelwert
103.99
Normalverteilung (a,b) Standardabweichung
35.608
absolut
0.190
Extremste Differenzen
positiv
0.190
negativ
-0.156
Kolmogorov-Smirnov Z
2.512
Asymptotische Signifikanz (2-seitig)
0.000
a ) Die zu testende Verteilung ist eine Normalverteilung
b ) Aus den Daten berechnet
3.1. SCHÄTZEN UND TESTEN
113
Die Signifikanz ist nun, auf drei Dezimalen genau, p = 0.000, viel kleiner als α = 0.05.
Die Daten belegen daher mit hoher statistischer Signifikanz, dass der Blutzucker neuzugegangener Hypertoniepatienten keiner Normalverteilung genügt.
¤
Tipp 3.1.4.3. Beachten Sie, wie wir den Ausgang des Kolmogorov-SmirnovTests interpretiert haben:
p > α in Beispiel 3.1.4.1: H0 wurde nicht zurückgewiesen. Die Daten beweisen
nicht, dass eine andere Verteilung als eine Normalverteilung vorliegt. Es
ist durchaus nicht gesichert, dass das Alter in der Personengruppe neu
hospitalisierter Hypertoniepatienten normalverteilt ist, aber die gegebenen Daten widersprechen zumindest nicht einer solchen Annahme.
p < α in Beispiel 3.1.4.2: H0 wurde zurückgewiesen. Die Daten untermauern signifikant, dass eine andere Verteilung als eine Normalverteilung vorliegt.
Soweit man durch Statistik von einer Stichprobe auf die Gesamtheit schließen kann, können wir als gesichert betrachten, dass für den Blutzucker
keine Normalverteilung in Frage kommt.
Beispiel 3.1.4.4. Die PatientInnen wurden mit zwei verschiedenen Medikamenten behandelt. Ehe man die Wirkung der Medikamente vergleicht, muss sichergestellt sein, dass die beiden Gruppen ähnlich konfiguriert sind, sodass der Vergleich
nicht durch Unterschiede in der Zusammensetzung der Gruppen verfälscht wird. Besteht ein Unterschied zwischen dem mittleren Alter der mit Alphasan behandelten
Patientengruppe und der mit Betasan behandelten Gruppe?
Diskussion: Es geht hier um den Vergleich zweier Mittelwerte für zwei Gesamtheiten, aus denen
je eine Stichprobe entnommen wurde.
H0 Nullhypothese: Das mittlere Alter ist für beide Gesamtheiten gleich.
H1 Alternativhypothese: Das mittlere Alter der beiden Gesamtheiten ist verschieden (zweiseitige Alternativhypothese).
α Signifikanzniveau: α = 0.05.
SPSS liefert folgende Tabelle. Vor dem t-Test für den Mittelwertsvergleich befindet sich aber
noch ein zweiter Test, der Levene-Test für Varianzhomogenität. Es gibt nämlich zwei verschiedene
Verfahren des t-Tests zum Vergleich zweier unabhängiger Stichproben, einer davon arbeitet mit
der Voraussetzung der Varianzhomogenität, d.i., dass die getestete Größe (hier das Alter) in
beiden Gesamtheiten (Alphasan- und Betasan-PatientInnen) gleich stark streut. Bevor man diese
Methode verwendet, muss aber sichergestellt sein, dass die Daten nicht zwingend darauf hinweisen,
dass die Streuung in den beiden Gesamtheiten verschieden ist.
Test bei unabhängigen Stichproben
Varianz
Levene-Test
Varianzgleichh.
F
Sig.
t
gleich
nicht
gleich
0.543
0.462
dF
0.151
172
0.151
171.249
T-Test
Mittelwertgleichheit
Sig.
Mittlere Standard2-seit. Differenz
fehler
d. Diff.
0.880
0.264
1.756
95% Konf.int.
d. Diff.
untere obere
-3.201 3.730
0.880
-3.202
0.264
1.756
3.730
Für den Levenetest sind die Hypothesen
H0 Nullhypothese: Die Varianz der Zufallsgröße “Alter” ist in den beiden Gruppen (mit
Alphasan bzw. mit Betasan behandelte PatientInnen) gleich.
H1 Alternativhypothese: Die Varianz des Alters ist in den beiden Gruppen verschieden.
114
3. STATISTISCHES SCHÄTZEN UND TESTEN
Typischerweise verläßt man sich auf die Homogenität, wenn im Levene-Test bei α = 0.05 die
Nullhypothese nicht zurückgewiesen werden muss.
In unserem Fall liefert der Levene-Test einen p-Wert von 0.462, weit über 0.05. Wir müssen
daher die Nullhypothese auf Grund unserer Daten nicht zurückweisen: Die vorliegenden Daten
untermauern nicht signifikant, dass die Varianzen des Alters bei den beiden Patientengruppen
verschieden sind.
Daher dürfen wir mit der Annahme der Varianzhomogenität weiterarbeiten. Tatsächlich liefern in unserem Fall beide Verfahren annähernd identische Werte. Der Unterschied der Mittelwerte
des Alters in beiden Gruppen beträgt 0.264. Daraus errechnet sich die Teststatistik t und der pWert 0.88. Dieser ist sehr viel größer als 0.05. Daher wird die Nullhypothese nicht zurückgewiesen.
Unsere Daten zwingen uns nicht zur Annahme, dass das Alter der PatientInnen auf die Vergabe
der Medikamente Einfluss genommen hat.
Übrigens finden wir in der Tabelle auch einen Intervallschätzer für die Differenz. Wir kennen
ja nur den Unterschied der Stichproben, und das ist eine Zufallsvariable. Wie stark diese streut,
kann man dem Standardfehler der Differenz entnehmen. Aus unseren Daten kann man mit 95%
Konfidenz schätzen, dass der tatsächliche Unterschied der Altersmittelwerte der beiden Gruppen
zwischen -3.201 und 3.730 liegt. Die Konfidenz bedeutet: Diese Intervallgrenzen wurden so berechnet, dass bei häufiger Anwendung dieser Methoden in 95% aller Fälle die tatsächliche Differenz
richtig eingegrenzt wurde. ¤
Beispiel 3.1.4.5. Beeinflusst die Behandlung den Blutdruck? Wir testen: Kann
aus den Daten mit einem Signifikanzniveau von α = 0.001 geschlossen werden, dass
der Blutdruck der behandelten PatientInnen sich im Mittelwert innerhalb von 6
Monaten ändert?
Diskussion: Wir stellen die Hypothesen:
H0 Nullhypothese: Der Differenz zwischen dem Blutdruck bei Behandlungsbeginn und dem
Blutdruck 6 Monate nach Behandlungsbeginn beträgt im Mittel Null.
H1 Alternativhypothese: Die Differenz zwischen dem Blutdruck bei Behandlungsbeginn
und dem Blutdruck 6 Monate nach Behandlungsbeginn ist im Mittel ungleich Null.
(Zweiseitige Alternativhypothese).
α Signifikanzniveau α = 0.001.
Hier haben wir eine Stichprobe von PatientInnen, und zu jedem Merkmalsträger zwei Werte:
den Blutdruck bei Neuzugang und 6 Monate nach Behandlungsbeginn. Von diesen beiden Merkmalen soll der Mittelwert verglichen werden. Wir sprechen von einem Mittelwertsvergleich bei
gepaarten Stichproben.
SPSS liefert folgendes Ergebnis:
Gepaarte Differenzen
Blutdruck Ausgang – Blutdruck nach 6 Monaten
MittelStandardStandardfehler 95% Konfid.int.
wert
abweichung
des Mittelw.
der Differenz
Untere Obere
20.460
15.685
1.189
18.113 22.807
T
df
Sig
2-seitig
17.206
173
0.000
Das Programm gibt uns einige statistische Kennzahlen zur Differenz des Blutdrucks zu Beginn
und 6 Monate seit Beginn der Behandlung an. Die Differenz beträgt im Mittel 20.46 mm Hg. Die
Standardabweichung ist ein Maß dafür, wie stark die Differenz streut. Da wir den Mittelwert der
Differenz nur für die Stichprobe kennen, und auf die Gesamtheit aller HypertoniepatientInnen,
die jemals in Behandlung kommen, schließen wollen, ist mit dem Mittelwert ein Schätzfehler
verbunden, der durch den Standardfehler quantifiziert wird. Der Mittelwert für die Gesamtheit
wird mit 95% Konfidenz zwischen 18.113 und 22.807 eingegrenzt. Diese Methode grenzt in 19 von
20 Fällen den Mittelwert richtig ein.
Aus dem Mittelwert der Differenz und seiner Streuung wird die Teststatistik t errechnet,
und aus dieser die zweiseitige Signifikanz. Auf drei Stellen gerundet ist das 0.000. Damit ist die
3.2. T-TEST
115
Nullhypothese zurückgewiesen. Die Daten belegen mit großer statistischer Signifikanz, dass sich 6
Monate nach Behandlungsbeginn im Durchschnitt der Blutdruck ändert. ¤
Beispiel 3.1.4.6. Senkt die Therapie langfristig den Blutdruck in einen medizinisch günstigen Bereich? Wir testen: Beträgt der Blutdruck ein Jahr nach Behandlungsbeginn im Durchschnitt weniger als 150 mm Hg?
Diskussion: Wir stellen die Hypothesen:
H0 Nullhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt
150 mm Hg.
H1 Alternativhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt weniger als 150 mm Hg. (Einseitige Alternativhypothese).
α Signifikanzniveau α = 0.05.
Für den Test eines einzelnen Mittelwertes aus einer Stichprobe setzen wir den t-Test ein.
SPSS liefert:
N
Mittelwert
Standardabweichung
174
148.36
13.137
Standardfehler
des Mittelwertes
0.996
Der Mittelwert 12 Monate nach Beginn liegt für unsere Stichprobe tatsächlich unter 150 mm Hg.
Für die Gesamtheit aller Hypertoniepatienten, die in Behandlung kommen, ist dies aber nur ein
Schätzwert, der mit einem Fehler behaftet ist, der durch den Standardfehler quantifiziert wird.
Berechtigt unsere Stichprobe tatsächlich zu dem Schluss, dass der mittlere Blutdruck für die Gesamtheit unter 150 mm Hg gesenkt wird, oder könnte das einfach ein glücklicher Zufallstreffer
sein? Der Test gibt Auskunft:
Testwert = 150
T
df
Sig.
2-seitig
-1.645
173
0.102
Mittlere
Differenz
-1.638
95% Konfidenzintervall
der Differenz
untere
obere
-3.60
0.33
Die zweiseitige Signifikanz beträgt 0.102. Die Theorie sagt, wie wir noch sehen werden, dass
die einseitige Signifikanz bei diesem Test die Hälfte der zweiseitigen ist. Also ist p = 0.051 > α,
und die Nullhypothese kann nicht zurückgewiesen werden. Aus unseren Daten kann nicht mit
einem Signifikanzniveau von 0.05 geschlossen werden, dass die Behandlung den Blutdruck im
Durchschnitt über alle PatientInnen unter 150 mm Hg senkt. ¤
Was Sie jetzt können:
Methoden: Hypothesen stellen. In konkreten Fällen interpretieren,
was α- und β-Fehler bedeuten. Statistische Tests durch Vergleich von
α und p auswerten und das Ergebnis interpretieren.
3.2. t-Test
Übersicht:
1. Konfidenzintervall für den Mittelwert
2. t-Test auf den Mittelwert
3. Vergleichstests auf Basis des t-Tests
116
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.1. Konfidenzintervall für den Mittelwert.
Übersicht:
1. Die Rolle der t-Verteilung
2. Berechnung des Konfidenzintervalles für Mittelwerte
3. Große Stichproben
3.2.1.1. Die Rolle der t-Verteilung.
Das folgende theoretische Resultat bildet die Grundlage des t-Tests, eines des wichtigsten
und bekanntesten statistischen Tests:
Merksatz 3.2.1.1. Seien x1 , x2 , · · · , xn unabhängige Realisierungen
einer ZuPn
fallsvariablen X mit Erwartungswert E(Xi ) = µ. Sei x = n1 i=1 Xi der Mittelwert
Pn
1
2
der Realisierungen, und sei s2x = n−1
i=1 (Xi − x) die Schätzung der Varianz von
X auf Grund der Realisierungen. Sei
x − µ√
t=
n.
sx
1) Ist X normalverteilt, so ist t eine t-verteilte Zufallsvariable mit n − 1
Freiheitsgraden.
2) Ist X beliebig und n ausreichend groß (Faustregel: n ≥ 30), so ist t eine
annähernd standardnormalverteilte Zufallsvariable.
Diskussion: Der Mittelwert x ist normalverteilt mit Erwartungswert µ und Standardabweichung
√
σx / n, dabei ist σx die Standardabweichung von X. Demnach wäre die Standardisierung von x,
nämlich
x − µ√
n,
σx
eine standardnormalverteilte Zufallsvariable. Da uns aber zur Standardisierung in der Praxis nur
der Schätzer s2x für σx2 zugänglich ist, interessiert uns der Fall, dass mit sx statt σx standardisiert
wird. ¤
3.2.1.2. Berechnung des Konfidenzintervalls für Mittelwerte.
Wir wissen, dass das Stichprobenmittel ein erwartungstreuer und konsistenter Punktschätzer
für den Erwartungswert einer Zufallsvariablen ist. Wir entwickeln jetzt einen geeigneten Intervallschätzer.
Methode 3.2.1.2 (Konfidenzintervall für E(X), auch kleine Stichproben).
• Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X.
• Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X.
• Bedingung: X ist (annähernd) normalverteilt.
• Konfidenz: 1 − α
Das Konfidenzintervall berechnet sich nach der folgenden Methode:
1) Die Anzahl der Freiheitsgrade ist ν = n − 1.
2) Entnehmen Sie der Tabelle das (1 − α2 )-Quantil der t-Verteilung mit n − 1
Freiheitsgraden. Das ist jenes Quantil tα/2 , sodass Realisierungen einer tverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als tα/2 ausfallen.
3.2. T-TEST
117
3) Die halbe Breite des Konfidenzintervalls ist
sx
b = √ tα/2 .
n
4) Die Mitte des Konfidenzintervalles ist x.
5) Das Konfidenzintervall ist also
[x − b, x + b].
• Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X)
eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert
richtig eingegrenzt.
• Anmerkung: Für große Stichproben (n ≥ 30) kann statt der t-Verteilung
auch die Standardnormalverteilung herangezogen werden.
Diskussion: Sei µ der (uns unbekannte) Erwartungswert von X. Nach Merksatz 3.2.1.1 ist die
Zufallsvariable
x − µ√
t=
n
sx
t-verteilt mit n − 1 Freiheitsgraden. Daher gilt für diese Variable:
α
P (t > tα/2 ) = .
2
Da die t-Verteilung eine symmetrische Dichtekurve hat, gilt ebenso
α
P (t < −tα/2 ) =
2
und damit insgesamt:
P (|t| > tα/2 ) = α.
Nun überlegen wir, in welchen Fällen |t| größer als tα/2 ausfällt:
|t| > tα/2 ist dasselbe wie
¯
¯
¯x − µ√ ¯
¯
n¯¯ > tα/2 d.h.
¯ s
x
sx
|x − µ| > √ tα/2 = b.
n
Der gesuchte Erwartungswert µ weicht von x genau dann um mehr als b ab, wenn |t| > tα/2 . Und
das passiert nur mit Wahrscheinlichkeit α. ¤
Beispiel 3.2.1.3. 16 Exemplare von Styriacus rotundus L. wurden auf ihren
Bierverbrauch getestet. Es ergab sich als Stichprobenmittel ein täglicher Bierverbrauch von 2.2 Litern, bei einer geschätzten Standardabweichung von 0.4 Litern.
Bestimmen Sie ein 95%-Konfidenzintervall für den täglichen Bierverbrauch von Styriacus rotundus und interpretieren Sie das Resultat.
Diskussion: Wir müssen die Bedingung voraussetzen, dass der tägliche Bierverbrauch in dieser
Population eine annähernd normalverteilte Zufallsgröße ist. Wir haben die Daten n = 16, x = 2.2,
sx = 0.4. Wir erreichen 95% Konfidenz mit α = 0.05.
1) Die Anzahl der Freiheitsgrade ist 16-1=15.
2) Wir suchen den kritischen Wert t0.025 in der Tabelle der t-Verteilung bei 15 Freiheitsgraden: Es ergibt sich t0.025 = 2.131.
3) Die halbe Breite des Konfidenzintervalles ist
0.4
b = √ × 2.131 = 0.2131.
16
4) Die Mitte des Konfidenzintervalles ist 2.2.
5) Das 95% Konfidenzintervall für den mittleren täglichen Bierverbrauch ist
[2.2 − 0.2131, 2.2 + 0.2131] = [1.9869, 2.4131].
118
3. STATISTISCHES SCHÄTZEN UND TESTEN
Wir haben aus einer Stichprobe geschätzt, wieviel Bier am Tag durchschnittlich pro Person in der
Population von S. r. verbraucht werden. Unsere Methode ist ein Kompromiß zwischen einer groben
Schätzung, die dafür oft recht hat, und einer genauen Schätzung, die aber mit geringerer Wahrscheinlichkeit den Wert richtig eingrenzt: Unser Intervall ist so berechnet, dass die Schätzmethode
in 95% aller Fälle recht hat. ¤
Beispiel 3.2.1.4. Gesetzt die Daten aus Beispiel 3.2.1.3. Bestimmen Sie ein
Intervall, sodass der tägliche Bierverbrauch von ungefähr 95% aller Exemplare von
S. r. innerhalb dieses Intervalles eingegrenzt ist.
Diskussion: Das gesuchte Intervall hat nichts mit einem Konfidenzintervall für den Mittelwert zu
tun. Diese Aufgabe ist also anders als Beispiel 3.2.1.3 zu lösen.
Wir gehen von der Annahme aus, dass der tägliche Bierbedarf eine normalverteilte Zufallsgröße ist. Als Erwartungswert haben wir 2.2 Liter geschätzt, als Standardabweichung 0.4 Liter.
Ist X der tägliche Bierbedarf, so ist durch Standardisierung
X − 2.2
Z=
0.4
standardnormalverteilt. Laut Tabelle der Standardnormalverteilung (t-Verteilung mit Freiheitsgrad ∞) finden wir das 97.5%-Perzentil der Standardnormalverteilung bei 1.96. Damit ist
P (−1.96 ≤ Z ≤ 1.96) = 0.95.
Wir transformieren die Standardisierung zurück
Z = −1.96
⇔
X = 2.2 − 0.4 × 1.96 = 1.416,
Z = 1.96
⇔
X = 2.2 + 0.4 × 1.96 = 2.984.
95% der Exemplare von S. r. haben einen täglichen Bierverbrauch zwischen 1.4 und 3.0 Litern.
Dieses Intervall ist ungefähr 4 mal so breit wie das Konfidenzintervall. Das kommt daher,
dass dieses Intervall auf der Standardabweichung σ(X) von X gegründet ist, während in das
√
Konfidenzintervall die Standardabweichung des Schätzers σ(X)/ 16 einfließt. Dass das Verhältnis
nicht genau 1:4 ist, kommt daher, dass für das Konfidenzintervall die t-Verteilung eingesetzt wurde.
¤
3.2.1.3. Grosse Stichproben.
Methode 3.2.1.5 (Konfidenzintervall für E(X), große Stichproben).
• Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X.
• Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X.
• Bedingung: n ist ausreichend groß, Faustregel: n ≥ 30. (Es muß nicht
vorausgesetzt werden, dass X normalverteilt ist.)
• Konfidenz: 1 − α
Das Konfidenzintervall berechnet sich nach der folgenden Methode:
1) Entnehmen Sie der Tabelle das (1− α2 )-Quantil der Standardnormalverteilung. Das ist jenes Quantil Zα/2 , sodass Realisierungen einer standardnormalverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als Zα/2
ausfallen.
2) Die halbe Breite des Konfidenzintervalls ist
sx
b = √ Zα/2 .
n
3) Die Mitte des Konfidenzintervalles ist x.
4) Das Konfidenzintervall ist also
[x − b, x + b].
3.2. T-TEST
119
• Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X)
eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert
richtig eingegrenzt.
Diskussion: Im Prinzip funktioniert diese Methode wie das Konfidenzintervall für kleine Stichproben. Jedoch ist nach dem zentralen Grenzwertsatz für große Stichproben der Mittelwert auch
dann annähernd normalverteilt, wenn X selbst eine völlig andere Verteilung hat. Bei einer großen
Zahl von Freiheitsgraden kann auch die t-Verteilung durch die Standardnormalverteilung ersetzt
werden. ¤
Beispiel 3.2.1.6. Bei einem Intelligenztest schnitten 400 ProbandInnen einer bestimmten Bevölkerungsgruppe mit einem mittleren IQ von 110 bei einer
(aus der Stichprobe geschätzten) Standardabweichung von 15 ab. Bestimmen Sie
ein 99%-Konfidenzintervall für den mittleren Intelligenzquotienten dieser Bevölkerungssschicht. Wie groß müßte der Stichprobenumfang angelegt sein, um bei derselben Konfidenz den mittleren IQ auf ±1 genau zu schätzen?
Diskussion: Bei einem Stichprobenumfang von n = 400 kann unbedenklich die Methode 3.2.1.5
für große Stichproben eingesetzt werden:
= 0.005. Aus der Tabelle der Quantile der t-Verteilung entnehmen wir (bei
1) α = 0.01, α
2
“Freiheitsgrad ∞”) das entsprechende 0.995-Quantil der Standardnormalverteilung:
Z0.005 = 2.576.
2) Die halbe Breite ist
15
sx
· 2.576 = 1.932.
b = √ · Zα/2 = √
n
400
3) Die Mitte des Konfidenzintervalles ist
x = 110.
4) Das Konfidenzintervall ist daher
[x − b, x + b] = [108.068, 111.932] .
Das Konfidenzintervall umfasst ungefähr 110 ± 2. Um es auf die halbe Breite, also 110 ± 1 zu
reduzieren, muss der Stichprobenumfang vervierfacht werden. Wir benötigen eine Stichprobe von
ungefähr 1600 ProbandInnen. ¤
Merksatz 3.2.1.7. Ein Konfidenzintervall für den Mittelwert einer Zufallsgröße wird unter folgenden Bedingungen schmäler: (Die Schätzung wird also genauer)
1) Wenn die Konfidenz geringer, also α größer angesetzt wird.
2) Wenn der Stichprobenumfang vergrößert
√ wird. Die Breite ist bei großen
Stichproben indirekt proportional zu n.
3) Eine Zufallsvariable mit geringerer Streuung geschätzt wird. Die Breite
ist direkt proportional zur geschätzten Standardabweichung der Zufallsvariablen.
Was Sie jetzt können:
Wissen und Begriffe: Rolle der t-Verteilung bei standardisierten
Mittelwerten. Zusammenhang zwischen Breite des Konfidenzintervalles, Konfidenz und Stichprobenumfang. Verständnis, warum die Formel für das Konfidenzintervall gilt.
Methoden: Berechnung und Interpretation von Konfidenzintervallen
für Mittelwerte von Zufallsvariablen.
120
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.2. t-Test auf den Mittelwert.
Übersicht:
1. Wie der t-Test funktioniert
2. Beispiele zum t-Test
3.2.2.1. Wie der t-Test funktioniert.
Methode 3.2.2.1 (t-Test auf den Erwartungswert einer Zufallsvariablen).
• Statistischer Test, ob der Erwartungswert einer Zufallsvariablen X von
einer vorgegebenen Zahl µ abweicht.
H0 : Nullhypothese: Der Erwartungswert E(X) ist exakt µ.
H1 : Alternativhypothese (drei Varianten):
(a) Der Erwartungswert von X ist größer als µ (einseitig).
(b) Der Erwartungswert von X ist kleiner als µ (einseitig).
(c) Der Erwartungswert von X ist ungleich µ (zweiseitig).
α: Vorgegebenen Signifikanz α.
• Datenmaterial: x1 , · · · , xn sind n unabhängige Realisierungen von X, daraus errechnet das Stichprobenmittel x und die geschätzte Varianz s2x .
• Bedingungen: Entweder ist X annähernd normalverteilt, oder der Stichprobenumfang ausreichend groß (Faustregel: n > 30).
Der Test wird folgendermaßen durchgeführt:
1) Anzahl der Freiheitsgrade für die Wahl der t-Verteilung: ν = n − 1.
Ist ν ≥ 30, kann anstelle der t-Verteilung die Standardnormalverteilung
(“Freiheitsgrad ∞”) verwendet werden.
2) Aus der Tabelle der Quantile der t-Verteilung entnimmt man, je nach
Alternativhypothese
(a,b) bei den einseitigen Tests den Wert tα , das ist jener Wert, sodass die
Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit
α größer als tα ausfallen.
(c) beim zweiseitigen Test den Wert tα/2 , das ist jener Wert, sodass die
Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit
α/2 größer als tα/2 ausfallen.
3) Man berechnet die Teststatistik
x−µ √
· n.
t=
sx
4) Je nach Alternativhypothese entscheidet man:
(a) Ist t ≥ tα , so ist die Nullhypothese zurückzuweisen.
(b) Ist t ≤ tα , so ist die Nullhypothese zurückzuweisen.
(c) Ist |t| ≥ tα/2 , so ist die Nullhypothese zurückzuweisen.
Der Test wird folgendermaßen interpretiert:
• Ergebnis: H1 proklamiert einen Unterschied zwischen dem unbekannten
Erwartungswert E(X) und der gegebenen Zahl µ. Wenn die Nullhypothese
zurückgewiesen wird, gilt dieser Unterschied als statistisch untermauert
mit Signifikanz α. Wenn die Nullhypothese nicht zurückgewiesen wird,
kann der in H1 proklamierte Unterschied nicht mit der geforderten Signifikanz durch die Daten unterstützt werden.
3.2. T-TEST
121
• Fehlerwahrscheinlichkeit: Der statistische Test wird nur im Anteil α aller
Fälle, in denen in Wirklichkeit E(X) = µ gilt, die Nullhypothese zu Unrecht zurückweisen und den in H1 -angegebenen Unterschied unterstützen.
Diskussion: Um das Verfahren zu verstehen, erinnern wir uns, wie ein Test funktioniert. Wir
vergleichen zwei Werte:
α: Die vorgegebene Signifikanz des Tests, also die erlaubte Wahrscheinlichkeit eines αFehlers unter Nullhypothese.
p: Die aus den Daten errechnete Wahrscheinlichkeit, dass eine Teststatistik unter Bedingung der Nullhypothese die Alternativhypothese mindestens so gut unterstützt wie die
aus unseren Daten errechnete Teststatistik.
Ist p ≤ α, so gilt die Alternativhypothese als signifikant untermauert. Eine Teststatistik wie die von
uns errechnete ist unter Annahme der Nullhypothese ausreichend unwahrscheinlich, daher können
wir die Nullhypothese zurückweisen. Ist dagegen p > α, so wird die Nullhypothese beibehalten.
Die Daten reichen zumindest nicht aus, um die Alternativhypothese signifikant zu stützen.
Im Fall des t-Testes ist die Teststatistik die Zufallsvariable
t=
x−µ √
· n.
sx
Je nach Alternativhypothese gilt: Die Teststatistik unterstützt die Alternativhypothese:
(a) H1 : E(X) > µ, wenn t eine ausreichend große positive Zahl ist. (Denn dann ist x − µ
eine ausreichend große positive Zahl, und da x ein Schätzer für E(X) ist, spricht das
für E(X) > µ.)
(b) H1 : E(X) < µ, wenn t eine ausreichend große negative Zahl ist.
(c) H1 : E(X) 6= µ, wenn t eine ausreichend große positive oder negative Zahl ist.
Für kleine Stichproben machen wir die Voraussetzung, dass X annähernd normalverteilt ist.
Gehen wir von der Nullhypothese E(X) = µ aus, so hat in diesem Fall nach Merksatz 3.2.1.1
die Zufallsvariable t eine t-Verteilung mit n − 1 Freiheitsgraden. Für große Stichproben machen
wir keine Voraussetzung an X, doch auf Grund des zentralen Grenzwertsatzes ist t nach Merksatz 3.2.1.1 annähernd standardnormalverteilt, und das entspricht dem Grenzfall einer t-Verteilung
für Freiheitsgrad ∞.
Um unübersichtlichen Schreibaufwand zu ersparen, setzen wir diese Diskussion nur für den
Fall b: Alternativhypothese H1 : E(X) < µ fort. Die anderen beiden Fälle sind ganz analog zu erklären. Unsere Teststatistik ist also t-verteilt, wenn die Nullhypothese gilt. Die Teststatistik spricht
für H1 , wenn t ausreichend weit auf der negativen Seite liegt. Damit ist p die Wahrscheinlichkeit,
dass eine t-verteilte Zufallsvariable einen Wert liefert, der kleiner als das aus den Daten errechnete
t ausfällt. Die folgenden beiden Grafiken zeigen die Dichtekurve der t-Verteilung. Eingezeichnet
ist der kritische Wert −tα . Dieser ist gerade so gewählt, dass eine t-verteilte Zufallsvariable mit
Wahrscheinlichkeit α Realisierungen liefert, welche noch kleiner als −tα sind. Diese Wahrscheinlichkeit wurde mit senkrechter Schraffierung unter der Dichtekurve eingetragen. Ebenso wurde in
beide Diagramme mit waagrechter Schraffierung die Wahrscheinlichkeit p. Wir können zwei Fälle
unterscheiden:
122
3. STATISTISCHES SCHÄTZEN UND TESTEN
p
α
−tα
t
0
Einseitiger t-Test, H1 : E(X) < µ:
Fall t > −tα
Ist t > −tα , so ist p > α, und die Nullhypothese wird beibehalten.
α
p
t
−tα
0
Einseitiger t-Test, H1 : E(X) < µ:
Fall t < −tα
Ist t ≤ −tα , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als
signifikant untermauert.
Wir bemerken noch, warum im Fall des zweiseitigen Tests der Wert von t mit tα/2 verglichen
werden muss. In diesem Fall hat nämlich die Teststatistik zwei Wege, H1 zu unterstützen, nämlich
durch sehr große positive oder durch sehr große negative Werte. Jedem dieser zwei Wege gestehen
wir unter der Nullhypothese eine Wahrscheinlichkeit von α/2 zu. Die folgenden beiden Grafiken
zeigen die Dichtekurve der t-Verteilung und die Wahrscheinlichkeiten p und α beim zweiseitigen
t-Test:
3.2. T-TEST
123
p/2
p/2
α/2
α/2
−tα/2
−t
0
Zweiseitiger t-Test, H1 : E(X) 6= µ:
tα/2
t
Fall |t| < tα/2
Ist |t| < tα/2 , so ist p > α, und die Nullhypothese wird beibehalten.
α/2
α/2
p/2
p/2
−t −tα/2
0
Zweiseitiger t-Test, H1 : E(X) 6= µ:
t
α/2
t
Fall |t| > tα/2
Ist |t| ≥ tα/2 , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als
signifikant untermauert.
¤
Merksatz 3.2.2.2. Der p-Wert eines einseitigen t-Tests ist stets die Hälfte des
p-Wertes des zweiseitigen Tests.
3.2.2.2. Beispiele zum t-Test.
Beispiel 3.2.2.3. Wie schwer sind die hintersten Backenzähne des Süßwasserreptils Pseudoleviathan caledonicus Nessie? Nach jahrzehntelanger Feldarbeit
gelang einem Forscherteam die Identifizierung von 5 Backenzähnen mit folgenden
Gewichten:
124
3. STATISTISCHES SCHÄTZEN UND TESTEN
Fund Nummer
Gewicht (Gramm)
1
9.8
2
3
11.2 10.7
4
10.1
5
10.9
Kann aus diesen Daten mit einem Signifikanznivau von α = 0.05 geschlossen
werden, dass die hintersten Backenzähne von Pseudoleviathan caledonicus N. im
Mittel mehr als 10 Gramm wiegen?
Diskussion: Wir suchen nach dem Erwartungswert der Zufallsvariablen X: Gewicht eines Weisheitszahns von P.c.N.. Wir erstellen die Hypothesen
H0 : Nullhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist 10 Gramm
(also E(X) = 10).
H1 : Alternativhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist größer
als 10 Gramm (also E(X) > 10), einseitig.
Um einen t-Test anzuwenden, müssen wir von der Annahme ausgehen, dass das Gewicht der
Backenzähne von P.c.N. zumindest annähernd normalverteilt ist, denn der Stichprobenumfang
ist mit n = 5 sehr klein. Um die Unabhängigkeit der 5 Realisierungen zu gewährleisten, sollten
die 5 Backenzähne wenigstens von 5 verschiedenen Schädelfunden stammen. Wenn wir von dieser
Annahme ausgehen, bereiten wir zunächst die Teststatistik vor, indem wir Stichprobenmittel und
die geschätzte Standardabweichung berechnen:
Fund
1
2
3
4
5
Summe
durch 5
−x2
x=
Korrekturfaktor ×5/4
Wurzel
Gewicht
xi
9.8
11.2
10.7
10.1
10.9
52.7
10.54
s2x =
sx =
x2i
96.04
125.44
114.49
102.01
118.81
556.79
111.3580
111.0916
0.2664
0.3330
0.5771
Wir führen nun die Schritte des Tests durch:
1) Anzahl der Freiheitsgrade ν = 5 − 1 = 4.
2) Kritischer Wert aus der Tabelle der t-Verteilung mit 4 Freiheitsgraden: t0.05 = 2.132.
3)
t=
x−µ √
10.54 − 10 √
· n=
· 5 = 2.092.
sx
0.5771
4) t = 2.092 < tα = 2.132, daher wird die Nullhypothese nicht zurückgewiesen.
Aus den vorliegenden Daten läßt sich nicht mit einer Signifikanz von 0.05 die Behauptung untermauern, dass die hinteren Backenzähne von P.c.N. im Durchschnitt mehr als 10 Gramm wiegen.
¤
Beispiel 3.2.2.4. Führen Sie den Test aus Beispiel 3.2.2.3 mittels SPSS durch.
Diskussion: Die 5 Daten werden als metrische Variable “Gewicht” (Label: “Gewicht eines Weisheitszahns von P.c.N.”) in den Dateneditor eingegeben. Unter dem Menupunkt “Analysieren Mittelwerte vergleichen” findet sich die Prozedur “T-Test mit einer Stichprobe”. Wir wählen die
(einzige) Variable “Gewicht” als Testvariable, und den Wert µ = 10 der Nullhypothese als Testwert. Daraufhin gibt das Programm folgende Tabellen aus:
3.2. T-TEST
125
Statistik bei einer Stichprobe
N Mittelwert
Standardabweichung
Gewicht eines
Weisheitszahnes
von P.c.N.
5
10,5400
,57706
Standardfehler des
Mittelwertes
,25807
Test bei einer Stichprobe
Testwert = 10
Gewicht eines
Weisheitszahnes
von P.c.N.
T
df
Sig. (2-seitig)
Mittlere
Differenz
2,092
4
,105
,54000
95% Konfidenzintervall
der Differenz
untere
obere
-,1765
1,2565
Die erste Tabelle entspricht unserer Vorbereitung der Statistik. Es werden Stichprobenumfang, Stichprobenmittel und geschätzte Standardabweichung errechnet. Außerdem wird der Standardfehler des Mittelwertes geschätzt. Dies ist die Standardabweichung der Zufallsvariablen x.
√
√
Wie wir bereits wissen, ist das σ(X)/ n, geschätzt durch sx / n.
In der zweiten Tabelle wird der t-Test ausgeführt. Es werden die Werte der Teststatistik t, die
Anzahl der Freiheitsgrade, und die zweiseitige Signifikanz angegeben. Das ist der Wert von p für
den zweiseitigen Test. Im einseitigen Test entsteht p aber nur an einem Ende der Glockenkurve.
Daher ist die einseitige Signifikanz nur die Hälfte der zweiseitigen (Merksatz 3.2.2.2), und wir
müssen für unseren Fall eine Nebenrechnung auswerten:
0.105
= 0.0525.
2
Allerdings gilt trotzdem p > α für unser gewähltes α = 0.05, daher kann die Nullhypothese nicht
zurückgewiesen werden.
p=
Außerdem zeigt die Tabelle des Tests die Differenz von x − µ, und ein 95%-Konfidenzintervall
von E(X)−µ. Die Differenz E(X)−10 kann also (bei Konfidenz von 95%) im Intervall [−0, 1765, 1.2565]
eingegrenzt werden. ¤
Tipp 3.2.2.5.
1) Bei der Durchführung von Tests durch SPSS erhält man direkt den p-Wert.
Die Signifikanz muss daher nicht eingegeben werden. Bei der Auswertung
der Ausgabe vergleicht dann der Untersuchende, ob der Wert von p (im
Programm als Signifikanz bezeichnet) das gewünschte Signifikanzniveau α
unterschreitet und damit H0 zurückgewiesen wird.
2) Grundsätzlich ist die Berechnung des p-Wertes auch bei der “händischen”
Rechnung mit Tabelle eine korrekte Vorgangsweise. Während man für die
Standardnormalverteilung noch meistens die notwendige Tabelle hätte,
wäre eine Sammlung von Tabellen der Verteilungsfunktion der t-Verteilungen für alle Freiheitsgrade zu umfangreich für eine handliche Tabelle. Daher vergleicht man im händischen Rechnen lieber mit Hilfe der
Quantile.
Beispiel 3.2.2.6. Ein Aufnahmetest soll so ausgelegt werden, dass 100 Punkte
zu vergeben sind, und die von MaturantInnen durchschnittlich erreichte Punktezahl bei 60% liegt. In einer Versuchsreihe wurde einer repräsentativen Stichprobe
von 64 Testpersonen eine Entwurfsversion dieses Tests vorgelegt. Sie kamen dabei
im Mittel auf 57 Punkte, bei einer geschätzten Standardabweichung von 8 Punkten. Die Verteilung war deutlich linksgipfelig. Muss aus diesen Daten geschlossen
126
3. STATISTISCHES SCHÄTZEN UND TESTEN
werden, dass die zu erwartende Durchschnittspunktezahl von ProbandInnen bei diesem Testentwurf nicht auf 60 Punkten liegt, und daher ein neuer Entwurf entwickelt
werden? (Signifikanzniveau α = 0.01.)
Diskussion: Wir testen den Erwartungswert der Zufallsvariablen X: Punktezahl einer Probandin
bei der vorliegenden Version des Testes.
H0 : Der Erwartungswert der Punktezahl eines Probanden ist exakt 60 (E(X) = 60).
H1 : Der Erwartungswert der Punktezahl eines Probanden ist nicht exakt 60 (E(X) 6= 60),
zweiseitig.
Da die Stichprobe groß ist, brauchen wir für die Anwendung des t-Testes keine Zusatzannahmen
über die Verteilungsform von X. Zwar ist X nicht normalverteilt sondern stark linksgipfelig, trotzdem kann auf Grund des zentralen Grenzwertsatzes mit der Normalverteilung getestet werden!
Wir führen nun den Test durch:
1) Freiheitsgrade: ∞. Wegen der großen Stichprobe verwenden wir die Standardnormalverteilung.
2) Da der Test zweiseitig ist, testen wir mit tα/2 . In der Tabelle der Quantile der tVerteilung, Zeile für die Standardnormalverteilung, finden wir t0.005 = 2.576.
3) Wir berechnen die Teststatistik:
t=
57 − 60 √
· 64 = −3.
8
4) Es ist
|t| = 3 ≥ 2.576 = tα/2 .
Daher ist die Nullhypothese zurückzuweisen.
Wir können und müssen mit Signifikanz von 0.01 aus diesen Daten schließen, dass die Durchschnittspunktezahl für ProbandInnen bei diesem Test nicht exakt 60 ist. Eine verbesserte Version
muss vorbereitet werden.
¤
Tipp 3.2.2.7. Es ist bei allen statistischen Tests wichtig, dass die Hypothesenstellung nicht aus einer Sichtung des verwendeten Datenmaterials resultiert. Im
Falle des einseitigen t-Tests wäre die Vorgangsweise des Heimwerker-Statistikers
Hokuspokus Schwindlibus fehlerhaft:
1) Hokus sichtet zuerst, ob x > µ ist.
2) Hokus erstellt die Alternativhypothese:
– Falls x > µ, schreibt er H1 : x > µ.
– Falls x < µ, schreibt er H1 : x < µ.
3) Dann führt er einen einseitigen Test aus.
Diskussion: In Wirklichkeit testet die Methode von Hokuspokus Schwindlibus mit Signifikanz 2α
die zweiseitige Alternativhypothese E(X) 6= µ. Weil er nämlich zuerst x ansieht, bevor er die
Alternativhypothese stellt, wird seine Teststatistik t auf jeden Fall das Vorzeichen haben, das
seine Alternativhypothese unterstützt. Er verdoppelt damit die Wahrscheinlichkeit, dass sein t für
H1 spricht, und damit auch die Wahrscheinlichkeit eines α-Fehlers. ¤
Was Sie jetzt können:
Begriffe und Wissen: Verständnis, warum der t-Test auf Mittelwerte von Zufallsvariablen funktioniert.
Methoden: t-Test, einseitig und zweiseitig. Anwendung und Interpretation, Bedingungen für die Anwendbarkeit des t-Tests.
3.2. T-TEST
127
3.2.3. Vergleichstests auf Basis des t-Tests.
Übersicht:
1.
2.
3.
4.
Verbundene und unabhängige Stichproben
t-Test für unabhängige Stichproben
t-Test für verbundene Stichproben
F-Test zum Vergleich von Varianzen
3.2.3.1. Verbundene und unabhängige Stichproben.
Merksatz 3.2.3.1. Wenn die Erwartungswerte zweier Zufallsvariablen verglichen werden sollen, gibt es mehrere Varianten des t-Tests. Welche man wählt, hängt
wesentlich von der Art der Stichproben ab:
Wurde für jede der beiden Zufallsvariablen eine neue, eigene Stichprobe erhoben
(“unabhängige Stichproben”), oder wurden für jeden Merkmalsträger einer gemeinsamen Stichprobe je beide Zufallsvariablen realisiert (“verbundene Stichproben”)?
Beispiel 3.2.3.2. Der Erfolg eines Tennistrainings soll getestet werden, indem
die Spielstärke von 10 Probanden vor dem Training und 10 Probanden nach dem
Training ermittelt wird. Erklären Sie den Unterschied eines Versuches mit verbundenen Stichproben und mit unabhängigen Stichproben.
Diskussion: In einem Versuchsplan mit unabhängigen Stichproben würde man 10 ProbandInnen zufällig auswählen, welche das Training nicht absolviert haben. Anschließend würde man
unabhängig 10 neue ProbandInnen wählen, die das Training absolviert haben.
Im Versuchsplan mit verbundenen Stichproben wählt man 10 ProbandInnen, welche das
Training noch nicht absolviert haben, und ermittelt ihre Spielstärke. Anschließend läßt man die
selben 10 ProbandInnen das Training absolvieren, und ermittelt ihre Spielstärke aufs Neue.
Damit wird eine Unsicherheitsquelle völlig ausgeschaltet: Im Versuch mit unabhängigen Stichproben könnte es im Extremfall passieren, dass die erste Stichprobe aus äußerst begabten SpielerInnen besteht, während die zweite Stichprobe aus wenig begabten SpielerInnen zusammengesetzt
ist. Die Wirksamkeit des Trainings würde in diesem Fall stark unterschätzt. Dagegen wird bei
verbundenen Stichproben die Spielweise derselben Person vor und nach dem Training verglichen,
und die Streuung der natürlichen Begabung der SpielerInnen hat somit keinen Einfluß auf das
Ergebnis.
In der rechnerischen Durchführung zeigt sich, dass die geschätzte Standardabweichung sd im
Normalfall deutlich kleiner ist, als die (wegen der Abhängigkeit hier ungültige) Schätzung mit der
Formel für unabhängige Stichproben ergeben würde. ¤
Merksatz 3.2.3.3. In einen Vergleichstest mit unabhängigen Stichproben gehen unter anderem als Unsicherheitsfaktoren ein (und rechnerisch als Varianzen)
ein:
• Mögliche Verschiedenheiten in der Zusammensetzung der beiden Stichproben,
• die Verschiedenheit von Mitgliedern der Stichproben untereinander.
In einen Vergleichstest mit verbundenen Stichproben werden diese beiden Unsicherheitsfaktoren ausgeschaltet, weil von jedem Merkmalsträger der Unterschied
der beiden Realisierungen festgehalten wird.
128
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.3.2. t-Test für unabhängige Stichproben.
Wir diskutieren nun die einzelnen Varianten des t-Tests zum Vergleich von Erwartungswerten. Durch die Verbreitung der Computerprogramme ist es nicht wahrscheinlich, dass Sie in die
Lage kommen werden, solche Tests händisch durchzurechnen. Sie müssen aber wissen, welche Tests
wann angewendet werden können. Wir geben daher hier keine Details der Rechnung, wohl aber die
Hypothesenstellung und das notwendige Datenmaterial für die einzelnen Tests an. Falls Sie die genaue Rezeptur benötigen, finden Sie diese in der einschlägigen Lehrbuchliteratur. Empfehlenswert
ist z.B. das Buch von W. Köhler, G. Schachtel, P. Voleske, Biostatistik, Springer-Verlag.
Prinzipiell funktionieren t-Tests, indem ein geschätzter Mittelwert standardisiert wird, und
die so berechnete Teststatistik mit einer t-verteilten Zufallsvariablen verglichen wird. Bei Vergleichstests werden die Mittelwerte für zwei Zufallsvariablen erhoben, und ihre Differenz gebildet.
Nun muss zur Standardisierung eine Standardabweichung geschätzt werden. Der Schätzung liegen zwei Datentabellen, je eine für jede verglichene Zufallsvariable, zugrunde. Wenn man davon
ausgehen kann, dass beide Zufallsvariablen dieselbe Standardabweichung haben, können zur gemeinsamen Schätzung dieser Varianz beide Tabellen vereint werden. Andernfalls müssen zwei
Varianzen separat geschätzt werden.
Merksatz 3.2.3.4. Zum Vergleich der Mittelwerte unabhängiger Stichproben
gibt es zwei verschiedene Varianten des t-Tests, je nachdem, ob Varianzhomogenität
angenommen werden kann oder nicht. Man spricht von Varianzhomogenität,
wenn sich die beiden Zufallsvariablen zwar möglicherweise durch den Erwartungswert unterscheiden könnten, aber jedenfalls die Standardabweichung der beiden
verglichenen Zufallsvariablen dieselbe ist.
Methode 3.2.3.5 (t-Test zum Vergleich unabhängiger Stichproben).
• Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und
X2 sich genau um einen Wert µ unterscheiden:
H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) =
µ.
H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige
Variante der Alternativhypothese:
(a) E(X1 ) − E(X2 ) > µ, einseitig.
(b) E(X1 ) − E(X2 ) < µ, einseitig.
(a) E(X1 ) − E(X2 ) 6= µ, zweiseitig.
α: Signifikanz α.
• Datenmaterial: Zwei unabhängige Stichproben, bestehend aus unabhängigen Realisierungen, je eine für X1 mit Umfang n1 und eine für X2 mit
Umfang n2 . Daraus jeweils ermittelt die Stichprobenmittelwerte x1 , x2 und
die geschätzten Varianzen s21 , s22 .
• Bedingungen:
– Entweder, die Zufallsvariablen X1 , X2 sind (annähernd) normalverteilt oder beide Stichprobenumfänge sind ausreichend groß (Faustregel: n1 ≥ 30 und n2 ≥ 30.)
– Je nachdem, ob Varianzhomogenität angenommen werden kann oder
nicht, stehen zwei verschiedene Formeln zur Auswertung des Tests
zur Verfügung.
Tipp 3.2.3.6.
3.2. T-TEST
129
1) Grundsätzlich ist die Methode mit Varianzhomogenität schärfer, das heißt,
bei gleicher Signifikanz (gleicher Wahrscheinlichkeit eines α-Fehlers) neigt
die Methode mit Varianzhomogenität weniger zu β-Fehlern. Daher greift
man zur Methode mit Varianzhomogenität, wenn nicht die Daten darauf
hinweisen, dass die Varianzen beider Zufallsvariablen verschieden sind.
2) Ob man die Annahme gleicher Varianzen machen kann, läßt sich durch
einen F-Test oder als Alternative durch einen Levene-Test überprüfen.
Zeigen diese Tests einen signifikanten Unterschied zwischen den Varianzen,
muss man zur Methode mit verschiedenen Varianzen greifen.
Diskussion: Es ist verständlich, dass die Methode mit Varianzhomogenität schärfer ist. Varianzhomogenität ist eine zusätzliche Information ist, und mit mehr Information sind schärfere und
verlässlichere Schlüsse möglich.
¤
Beispiel 3.2.3.7. Es wird behauptet, dass die Ratten in Graz fetter sind als
in Linz. Läßt sich das statistisch nachweisen? Es wurden zwei Stichproben von
Ratten gewogen und die Ergebnisse in SPSS eingegeben. Die Statistik der beiden
Stichproben sieht man aus der folgenden Tabelle:
Ort
N
Mittelwert
Graz 20 384.3
Linz 30 342.7
StandardStandardabweichung fehler des MW
71,2
15.9
64.7
11.8
Kann aus diesen Daten mit einem Signifikanzniveau von 0.05 geschlossen werden, dass das Durchschnittsgewicht der Ratten in Graz größer ist als das Durchschnittsgewicht der Ratten in Linz?
Diskussion: Die Zufallsvariable X1 “Gewicht einer Ratte aus Graz” wird durch den Fang und die
Wägung einer Ratte aus Graz realisiert. Mit X2 bezeichnen wir die Zufallsvariable “Gewicht einer
Ratte aus Linz”. Wir testen folgende Hypothesen
H0 : Nullhypothese: Das mittlere Gewicht der Ratten in Graz ist genauso groß wie das der
Ratten in Linz. (E(X1 ) = E(X2 )).
H1 : Alternativhypothese: Das mittlere Gewicht der Ratten in Graz ist größer das der Ratten
in Linz. (E(X1 ) > E(X2 )), einseitig.
Wir haben zwei unabhängige Stichproben. Wir haben SPSS den t-Test für zwei unabhängige
Stichproben durchführen lassen und erhalten folgendes Ergebnis:
Test bei unabhängigen Stichproben
Varianz
Levene-Test
Varianzgleichh.
F
Sig.
t
dF
gleich
nicht
gleich
0.390
0.844
2.141
48
2.099
38.1
T-Test
Mittelwertgleichheit
Sig.
Mittlere Standard2-seit. Differenz
fehler
d. Diff.
0.037
41.633
19.447
95% Konf.int.
d. Diff.
untere obere
2.533 80.734
0.042
1.492
41.633
19.830
81.774
Zunächst sehen wir den Levene-Test an, um zu entscheiden, welche der beiden Varianten des
Tests einzusetzen ist. Können wir Varianzhomogenität annehmen? Die Hypothesen des LeveneTests sind
H0 Beide Zufallsvariablen haben dieselbe Standardabweichung.
H1 Die Varianzen der Zufallsvariablen sind verschieden (zweiseitig).
Wir wollen den Levene-Test auf das Signifikanzniveau 0.05 auslegen.
Die Teststatistik F ist ein Hilfsresultat für den Levene-Test. Der p-Wert des Levene-Tests
liegt bei 0.844. Da dies weit größer als 0.05 ist, wird die Nullhypothese nicht abgelehnt. Die Daten
geben keinen Anlass zur Annahme, dass die Varianzen der Gewichte der beiden Rattenpopulationen verschieden sind. Daher können wir ruhig Varianzhomogenität annehmen, und verfolgen die
130
3. STATISTISCHES SCHÄTZEN UND TESTEN
Ergebnisse des t-Tests in der ersten Zeile. (In der zweiten Zeile sind die Ergebnisse des t-Tests für
die Version ohne Varianzhomogenität. Wir sehen aber, dass die zweite Zeile hier nicht auffällig
andere Ergebnisse liefert.)
Die Teststatistik des t-Tests ist t=2.141. Wenn die Nullhypothese gilt, ist diese t-verteilt
mit dF=48 Freiheitsgraden. Für einen zweiseitigen Test hätte man den p-Wert von 0.037. Der
einseitige Test hat nur den halben p-Wert, also p = 0.019. Da p kleiner ist als das gewünschte
Signifikanzniveau α = 0.05, wird die Nullhypothese zurückgewiesen. Die Daten untermauern also
mit Signifikanz von 0.05, dass das Durchschnittsgewicht der Grazer Ratten größer ist als das der
Linzer Ratten.
Außerdem zeigt die Tabelle die Differenz der mittleren Gewichte der beiden Populationen
mit einem Punktschätzer (Mittlere Differenz = 41.633) und seinem Standardfehler, sowie durch
ein Konfidenzintervall. ¤
3.2.3.3. t-Test für verbundene Stichproben.
Der t-Test zum Vergleich der Mittelwerte verbundener Stichproben für zwei Zufallsvariablen
X1 und X2 ist einfach ein t-Test auf die Nullhypothese: die Zufallsvariable D = X1 − X2 hat
den Erwartungswert Null. Es wird also für jeden Merkmalsträger die Differenz seiner beiden
Realisierungen berechnet, und mit diesen Differenzen ein t-Test durchgeführt.
Methode 3.2.3.8 (t-Test zum Vergleich verbundener Stichproben).
• Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und
X2 sich genau um einen Wert µ unterscheiden:
H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) =
µ.
H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige
Variante der Alternativhypothese:
(a) E(X1 ) − E(X2 ) > µ, einseitig.
(b) E(X1 ) − E(X2 ) < µ, einseitig.
(a) E(X1 ) − E(X2 ) 6= µ, zweiseitig.
α: Signifikanz α.
• Datenmaterial: Eine Stichprobe, bestehend aus n Paaren aus je einer Realisierung von X1 und einer Realisierung von X2 :
x11 , · · · , x1n Realisierungen von X1 ,
x21 , · · · , x2n Realisierungen von X2 .
Die Paare sind voneinander unabhängig.
• Bedingungen: Entweder, die Zufallsvariablen X1 , X2 sind (annähernd)
normalverteilt oder der Stichprobenumfang ist ausreichend groß (Faustregel: n ≥ 30.) (Keine Annahme über Varianzhomogenität.)
Beispiel 3.2.3.9. Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten,
Hausübungsbeispiele besonders streng zu bewerten. Um das zu überprüfen, haben
sich einige Studierende beider Gruppen paarweise zusammengetan. Insgesamt 8
Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die Hausübung gemeinsam, und gibt identische Exemplare
in der Gruppe A und B ab. Die Bewertung in Punkten durch die beiden Lehrenden
sieht man in der folgenden Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
3.2. T-TEST
131
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
Diskussion: Hier liegt ein Vergleich von Mittelwerten der Zufallsvariablen X1 : “Von A vergebene
Punkte” und X2 : “Von B vergebene Punkte” vor. Beachten Sie die große Streuung der Punktezahlen in jeder Gruppe, offensichtlich waren die Hausarbeiten von sehr unterschiedlicher Qualität.
Durch die Wahl eines Versuchs mit verbundenen Stichproben wird diese Streuung eliminiert.
Wir testen
H0 : Der Lehrende in Gruppe A vergibt im Durchschnitt ebenso viele Punkte wie der Lehrende in Gruppe B.
H1 : Der Lehrende in Gruppe A vergibt im Durchschnitt weniger Punkte als der Lehrende
in Gruppe B. (einseitig).
α: Signifikanzniveau α = 0.1.
SPSS liefert die folgenden Tabellen:
Mittelwert
N
5.38
6.13
8
8
PrueferA
PrueferB
Mittelwert
Standardabweichung
2.825
2.748
Standard
fehler des MW
.999
.972
Gepaarte Differenzen
StandardStandardabweichung fehler des MW
T
df
Sig
2 seitig
-1.821
7
.111
PrueferA –
-.750
1.724
.412
PrueferB
Die erste Tabelle ist nur eine Übersicht über die Statistiken der Ergebnisse bei Prüfer A und
Prüfer B separat. Wir sehen, dass der Mittelwert der von B vergebenen Punkte höher ist als von
A. Die zweite Tabelle zeigt die Ergebnisse des t-Tests. Hier wird mit der Zufallsvariable
D = Punktezahl bei Prüfer A minus Punktezahl bei Prüfer B
gerechnet. Die ersten drei Spalten der Tabelle geben die Statistik von D an: Das Stichprobenmittel ist negativ, im Durchschnitt vergibt A weniger Punkte als B. Es werden noch die Standardabweichung von D und der Standardfehler des Stichprobenmittels angegeben. Vergleichen Sie
die Standardabweichung der gepaarten Differenzen mit den Standardabweichungen der einzelnen
Stichproben in der Tabelle darüber. Ein Teil der Streuung der einzelnen Stichproben kommt daher,
weil sehr unterschiedlich gute Hausaufgaben abgegeben wurden. Die Differenzen werden jeweils
von den Bewertungen derselben Hausarbeit durch beide Prüfer gebildet, der Einfluss der Qualität
der Hausarbeit selbst hat sich durch die Subtraktion weggehoben. Die Streuung der Differenzen
ist daher deutlich geringer.
Die nächsten drei Spalten geben den t-Test wieder: Die Teststatistik t, die Anzahl der Freiheitsgrade (7 bei 8 Daten, wie wir wissen), und den p-Wert. SPSS weist die zweiseitige Signifikanz,
also den p-Wert für den zweiseitigen Test aus. Der p-Wert des einseitigen Tests ist nur halb so
groß. Daher ist für den einseitigen Test p = 0.056 im Vergleich zu α = 0.1. Daher wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.1 untermauert, dass der Lehrende A im
Durchschnitt weniger Punkte vergibt als der Lehrende B.
Im Nachspiel wendet der Lehrende A ein, dass seine Punktevergabe keiner Normalverteilung
folgt, sondern eher zweigipfelig ist: ein Großteil der Hausarbeiten ist ziemlich gut, und ein anderer
Teil ist ziemlich schlecht. Daher sei der obige Test bei diesem kleinen Stichprobenumfang nicht anwendbar. Den Studierenden wird als Hausaufgabe aufgetragen, eine parameterfreie Methode zum
Vergleich zweier Zufallsvariablen in der Literatur zu suchen und an diesem Beispiel durchzuführen.
¤
132
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.2.3.4. F-Test zum Vergleich von Varianzen.
Wichtiger als die Schätzung einzelner Varianzen ist der Vergleich von Varianzen. Wir haben
bereits beim Vergleich von Mittelwerten die Bedingung der Varianzhomogenität kennengelernt.
Der folgende Test ist eine Methode, um sie zu überprüfen. Bei der Beurteilung komplexerer statistischer Modelle spielt der Vergleich von Varianzen oft eine wichtige Rolle. Wir werden später
sehen, dass die Methode der Varianzanalyse in einem Vergleichstest von Varianzen gipfelt. —
Tabellen zur F-Verteilung findet man in fast allen Lehrbüchern der Statistik und statistischen
Tabellenwerken.
Methode 3.2.3.10 (F-Test nach Fisher zum Vergleich von Varianzen).
• Test, ob die Varianzen σ12 , σ22 zweier Zufallsvariablen X1 , X2 gleich sind.
• Hypothesen:
H0 : Die Varianzen der beiden Zufallsvariablen sind exakt gleich (σ12 =
σ22 ).
H1 : Es gibt zwei einseitige und eine zweiseitige Variante der Alternativhypothese:
(a) Die Varianz von X1 ist größer als die Varianz von X2 (σ12 >
σ22 ), einseitig.
(b) Die Varianz von X1 ist kleiner als die Varianz von X2 (σ12 <
σ22 ), einseitig.
(c) Die Varianz von X1 ist ungleich der Varianz von X2 (σ12 6= σ22 ),
zweiseitig.
α: Signifikanz α.
• Datenmaterial: Zwei Schätzungen s21 , s22 der Varianzen aus unabhängigen
Stichproben von X1 und X2 , mit ν1 bzw. ν2 Freiheitsgraden.
• Bedingung: X1 und X2 sind (annähernd) normalverteilt.
Der Test wird folgendermaßen durchgeführt:
1) Teststatistik und Freiheitsgrade des Zählers und Nenners: Je nach Alternativhypothese
(a) (einseitig):
F =
s21
, νZ = ν1 , νN = ν2 .
s22
F =
s22
, νZ = ν2 , νN = ν1 .
s21
(b) (einseitig):
(c) (zweiseitig):

s21


F = s22 , νZ = ν1 , νN = ν2 ,


F =
s22
,
s21
νZ = ν2 , νN = ν1 ,
falls s21 ≥ s22 ,
falls s21 < s22 .
(Beim zweiseitigen Test kommt die Variable mit der größeren geschätzten Varianz in den Zähler. Beim einseitigen Test kommt die Variable
in den Zähler, die nach der Alternativhypothese größer sein sollte.)
2) Kritischer Wert: Aus der Tabelle der Quantile der F -Verteilung mit νZ
Freiheitsgraden des Zählers und νN Freiheitsgraden des Nenners entnimmt
man den kritischen Wert:
(a,b) (einseitig): Fα , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α Realisierungen größer als Fα liefert.
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
133
(c) (zweiseitig): Fα/2 , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α/2 Realisierungen größer als Fα/2 liefert.
3) Entscheidung: Ist F ≥ Fα bzw. F ≥ Fα/2 , so wird die Nullhypothese
zurückgewiesen.
Diskussion: Der Test beruht darauf, dass der Quotient der geschätzten Varianzen
s2
1
s2
2
aus un-
abhängigen Stichproben für zwei standardnormalverteilte Zufallsvariablen eine bekannte Verteilung hat, nämlich die F-Verteilung mit ν1 Freiheitsgraden des Zählers und ν2 Freiheitsgraden des
Nenners.
¤
Was Sie jetzt können:
Methoden: Von den folgenden Tests wissen Sie, für welche Hypothesen und
und unter welchen Bedingungen man sie anwenden kann. Die genauen Rechenvorschriften finden Sie bei Bedarf in Lehr- und Handbüchern. Zumeist führt man
T-Tests
zum Vergleich von Mittelwerten bei unabhängigen Stichproben, Varianten mit und ohne Annahme der Varianzgleichheit. T-Test zum
Vergleich von Mittelwerten bei gebundenen Stichproben. F-Test zum
Vergleich von Varianzen.
solche Tests heute ohnehin mit Hilfe von Computerprogrammen durch.
3.3. Binomialverteilung und Binomialtest
Übersicht:
1. Abzählen
2. Binomialverteilung und Binomialtest
3. Normalapproximation der Binomialverteilung
3.3.1. Abzählen.
Übersicht:
1. n faktorielle
2. Binomialkoeffizienten
3. k Objekte aus n Objekten auswählen
134
3. STATISTISCHES SCHÄTZEN UND TESTEN
3.3.1.1. n faktorielle.
Definition 3.3.1.1. Sei n eine natürliche (= positive ganze) Zahl. Die Zahl n!
n faktorielle, Fakultät von n wird definiert durch
n! = 1.2.3. · · · .(n − 1).n
Als zweckmäßige Konvention erweist sich die Definition 0! = 1.
Beispiel 3.3.1.2. Aus der folgenden Tabelle sieht man, dass n! sehr schnell
ansteigt:
n
n!
1
1
2
2
3
6
4
24
5
120
6
720
7
5 040
8
40 320
9
362 880
10 3 628 800
n
11
12
13
14
15
16
17
18
19
20
n!
39 916 800
479 001 600
6 227 020 800
87 178 291 200
≈ 1.307 · 1012
≈ 2.092 · 1013
≈ 3.557 · 1014
≈ 6.402 · 1015
≈ 1.216 · 1017
≈ 2.433 · 1018
Beispiel 3.3.1.3. Es gibt eine Ausgabe der theologischen Schriften des Bernhard von Clairvaux in 10 Bänden. Wieviele Möglichkeiten gibt es, die Bücher nebeneinander ins Regal zu stellen, wenn auf die Bandnummer nicht Rücksicht genommen
wird?
Diskussion: Wir beginnen links im Regal. Es stehen 10 Bände zur Auswahl, das gibt 10 Möglichkeiten für den Band ganz links. Nun liegen noch 9 Bände zur Aufstellung bereit, das gibt 9
Möglichkeiten, das Buch am zweiten Standort auszuwählen. Bisher hatten wir schon 10.9=90
Möglichkeiten für die ersten 2 Stellen. Für den dritten Platz liegen noch 8 Bücher bereit. Insgesamt ergeben sich
10 × 9 × 8 × · · · × 1 = 10! = 3628800
Möglichkeiten.
¤
Merksatz 3.3.1.4. Es gibt n! verschiedene Möglichkeiten, n Objekte auf n
Plätze anzuordnen.
3.3.1.2. Binomialkoeffizienten.
Beispiel 3.3.1.5.
1) Wieviele Möglichkeiten gibt es, aus den Zahlen von 1 bis 45 sechs verschiedene Zahlen auszuwählen, wobei es auf die Reihenfolge der Auswahl
nicht ankommt?
2) Wie groß ist die Wahrscheinlichkeit, mit einem Tipp einen Lottosechser
zu gewinnen?
Diskussion: Wir beginnen unsere Überlegung so, als würde die Reihenfolge der Auswahl eine Rolle
spielen. Für den ersten der sechs Plätze stehen 45 Zahlen zur Wahl, für den zweiten nur mehr 44,
für den dritten nur mehr 43 und so weiter, das ergibt
45 × 44 × 43 × 42 × 41 × 40 = 5 864 443 200
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
135
Möglichkeiten, allerdings unter der Bedingung, dass zwei Tipps als verschieden betrachtet werden,
wenn dieselben Zahlen in verschiedener Reihenfolge angeordnet werden. Weil es aber auf die
Reihenfolge in Wirklichkeit nicht ankommt, sind zum Beispiel folgende Tipps identisch:
Tipp A
Tipp B
Tipp C
3
12
30
4
4
7
7
3
25
12
30
12
25
7
4
30
25
3
Weil jeder Tipp aus 6 verschiedenen Zahlen besteht, und sich 6 Zahlen in 6! = 720 verschiedenen Möglichkeiten anordnen lassen, wird also nach der obigen Methode unter den 5864443200
Varianten jeder einzelne Tipp 720 mal aufgezählt. Es gibt daher “nur”
5864443200
45 × 44 × 43 × 42 × 41 × 40
=
= 8 145 060
6×5×4×3×2×1
720
verschiedene Möglichkeiten.
Weil bei einem fairen Auslosungssystem alle Möglichkeiten gleich wahrscheinlich gezogen
werden, ist die Wahrscheinlichkeit, mit einem Tipp einen Sechser zu landen,
1
≈ 1.23 · 10−7 .
8145060
¤
Definition 3.3.1.6. Seien n und k ganze Zahlen größer oder gleich Null mit
n ≥ k. Der Binomialkoeffizient n über k ist
µ ¶
n!
n · (n − 1) · · · (n − k + 1)
n
=
=
.
k
k!(n − k)!
k · (k − 1) · · · 1
Als zweckmäßig erweist sich µ
folgende
Erweiterung der Definition: Ist k < 0 oder
¶
n
k > n eine ganze Zahl, so ist
= 0.
k
Diskussion: Beachten Sie: Beim zweiten Bruch in der Definition stehen im Zähler und im Nenner
jeweils k Faktoren.
Die beiden Brüche in der Definition sehen auf ersten Blick verschieden aus, jedoch ergibt sich
dieselbe Zahl. Man muss nur den zweiten Bruch mit (n − k)! erweitern:
n · (n − 1) · · · (n − k + 1) · (n − k)!
n · (n − 1) · · · (n − k + 1)
=
k!
k!(n − k)!
n · (n − 1) · · · (n − k + 1) · (n − k) · (n − k − 1) · · · 1
n!
=
=
.
k!(n − k)!
k!(n − k)!
Obwohl man es den Brüchen auf ersten Blick nicht ansieht, lassen sie sich immer kürzen,
sodass der Binomialkoeffizient eine ganze Zahl ist. ¤
Beispiel 3.3.1.7. Berechnen Sie die Binomialkoeffizienten
µ ¶ µ ¶ µ ¶ µ ¶ µ ¶
6
6
6
6
6
,
,
,
,
.
4
2
1
0
8
Diskussion:
¤
µ ¶
6
4
µ ¶
6
2
µ ¶
6
1
µ ¶
6
0
µ ¶
6
8
=
=
=
=
=
6×5×4×3
= 15,
4×3×2×1
6×5
= 15,
2×1
6
= 6,
1
6!
= 1,
6! × 0!
0.
136
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.3.1.8. Es gilt immer:
µ ¶
µ ¶
n
n
=
= 1,
0
n
¶
µ ¶
µ
n
n
=
= n,
1
n−1
µ
¶
µ ¶
n
n
=
.
k
n−k
Im Hinblick auf die Diskussion zu Beispiel 3.3.1.5 sehen wir:
Merksatz 3.3.1.9. Wenn es auf die Reihenfolge nicht ankommt, gibt es
µ ¶
n
k
Möglichkeiten, aus n Objekten k Objekte auszuwählen.
Über Binomialkoeffizienten gibt es noch sehr viel zu sagen. Wir begnügen uns hier mit der
Erklärung, wie es zum Namen kommt. Der Ausdruck (a + b) besteht aus zwei Teilen, ist also ein
sogenanntes Binom. Wie man die Potenzen von Binomen bildet, klärt der Binomische Lehrsatz:
Merksatz 3.3.1.10 (Binomischer Lehrsatz).
µ ¶
µ ¶
µ ¶
µ ¶
n 0 n
n 1 n−1
n 2 n−2
n n 0
n
(a + b) =
a b +
a b
+
a b
+ ··· +
a b .
0
1
2
n
Die Binomialkoeffizienten sind also die Koeffizienten in dieser Formel für die Potenzen der Binome.
Diskussion: Zum Beispiel ergeben sich für n = 2 und n = 3 die folgenden, in der Schule wohlbekannten und beliebten Rechenregeln:
µ ¶
µ ¶
µ ¶
2
2
2
a2 b0
a1 b1 +
a0 b2 +
(a + b)2 =
2
1
0
=b2 + 2ab + a2 ,
µ ¶
µ ¶
µ ¶
µ ¶
3
3
3
3
a2 b1 +
a3 b0
a1 b2 +
(a + b)3 =
a0 b3 +
2
3
1
0
=b3 + 3ab2 + 3a2 b + a3 .
¤
3.3.1.3. k Objekte aus n Objekten auswählen.
Merksatz 3.3.1.11. Wenn aus n Objekten k Objekte ausgewählt werden, sind
zwei Kriterien zu berücksichtigen:
1.) Spielt die Reihenfolge eine Rolle, in der die Objekte ausgewählt werden?
Wird also jedes Objekt für einen anderen Zweck gewählt? Gelten also zwei
Möglichkeiten, dieselben Objekte auszuwählen, aber in verschiedener Reihenfolge, als zwei verschiedene Möglichkeiten oder als dieselbe Möglichkeit?
2.) Sind Wiederholungen zulässig? Darf also dasselbe Objekt mehrmals gewählt
werden?
Daraus ergibt sich dann die Anzahl der verschiedenen Möglichkeiten, k aus n Objekten auszuwählen, nach 4 verschiedenen Formeln:
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
Wiederholungen
zulässig
Wiederholungen
unzulässig
Reihenfolge spielt eine Rolle
nk
n · (n − 1) · · · (n − k + 1)
|
{z
}
k Faktoren
Reihenfolge spielt keine Rolle
µ
¶
n+k−1
k
µ ¶
n
k
137
Was Sie jetzt können:
Wissen und Begriffe: Faktorielle und Binomialkoeffizienten
Methoden: Abzählen von Möglichkeiten, aus n Objekten k Objekte
auszuwählen.
3.3.2. Binomialverteilung und Binomialtest.
Übersicht:
1. Binomialverteilung
2. Stichproben dichotomer Merkmale
3. Binomialtest
3.3.2.1. Binomialverteilung.
Beispiel 3.3.2.1. 30% aller Bäume in der Umgebung eines bekannten gallischen
Dorfes sind mit Misteln bewachsen. Der Druide Miraculix besteigt auf gut Glück 5
verschiedene Bäume. Wie groß ist die Wahrscheinlichkeit, dass er darunter genau 2
Bäume mit Misteln gefunden hat?
Diskussion: Wir zerlegen die Überlegung in zwei Teile. Zunächst hat der Druide 5 Bäume bestiegen,
sagen wir, die Bäume A,B,C,D,E. Dann gibt es verschiedene Möglichkeiten darunter genau 2
Mistelträger
zu finden, zum Beispiel AB, oder AC, oder CE, und so weiter. Insgesamt gibt es
µ ¶
5
= 10 Möglichkeiten, 2 Bäume unter 5 Bäumen als potentielle Mistelträger auszuwählen.
2
Von diesen 10 Möglichkeiten betrachten wir eine genauer. Wie groß ist zum Beispiel die
Wahrscheinlichkeit, dass genau die Bäume A und C Mistelträger sind, und die restlichen drei
Bäume keine Misteln hatten? Mit Wahrscheinlichkeit 0.3 hat A Misteln, mit Wahrscheinlichkeit
1 − 0.3 = 0.7 hat B keine Misteln. Damit haben wir eine Wahrscheinlichkeit von 0.3 × 0.7, dass
A Misteln hat, und gleichzeitig B keine Misteln hat. Führen wir die Überlegung für die Bäume
C,D,E weiter, so erhalten wir eine Wahrscheinlichkeit von
0.3 × 0.7 × 0.3 × 0.7 × 0.7 = 0.32 × 0.75−2
dass A und C Misteln hatten, und die restlichen drei Bäume nicht. Beachten Sie, dass der Faktor
0.3 zweimal, und der Faktor 0.7 dreimal vorkommt.
Für jede der 10 Kombinationen von 2 aus 5 Bäumen als Mistelträgern ergibt sich dieselbe
Überlegung, und am Ende finden wir folgende Wahrscheinlichkeit, dass genau 2 aus 5 Bäumen
Misteln hatten:
µ ¶
5
0.32 (1 − 0.3)5−2 = 0.3087.
2
¤
138
3. STATISTISCHES SCHÄTZEN UND TESTEN
Definition 3.3.2.2. Eine Zufallsgröße X heißt B(n, p)-binomialverteilt, wenn
sie als Realisierungen die Werte 0 · · · n annehmen kann, und die Wahrscheinlichkeit,
dass als Realisierung die Zahl k angenommen wird, nach der folgenden Formel berechnet werden kann:
µ ¶
n
P (X = k) =
pk (1 − p)n−k .
k
Wenn wir die Überlegungen aus Beispiel 3.3.2.1 nachvollziehen, kommen wir zu folgendem
Merksatz:
Merksatz 3.3.2.3. Ein Zufallsexperiment Y soll nur zwei Ausgänge haben:
“positiv” und “negativ”. Dabei sei p die Wahrscheinlichkeit, dass der Ausgang
positiv ist. Wird das Zufallsexperiment in n unabhängigen Versuchen realisiert, und
bezeichnet X die Anzahl der Versuche, in denen das Experiment positiv ausgeht,
so ist X eine B(n, p)-binomialverteilte Zufallsvariable.
3.3.2.2. Stichproben mit dichotomen Merkmalen.
Als Spezialfall von Merksatz 3.3.2.3 ergibt sich:
Merksatz 3.3.2.4. Ein dichotomes Merkmal in einer Population habe die Ausprägungen “positiv” und “negativ”. Dabei sei p die relative Häufigkeit der positiven
Merkmalsträger in der Gesamtpopulation. Aus der Population wird eine Stichprobe des Umfanges n so entnommen, dass sich durch die Entnahme der Stichprobe
die Anteile von positiven und negativen Merkmalsträgern nicht (bzw. nicht wesentlich) verschieben. Bezeichnet X die Anzahl der positiven Merkmalsträger in der
Stichprobe, so ist X eine (annähernd) B(n, p)-binomialverteilte Zufallsvariable.
Beispiel 3.3.2.5. In einem Käfig sitzen 5 Ratten. Zwei davon beißen jede Hand,
die nach ihnen greift, die andern drei beißen nicht, sondern lassen sich gerne kraulen.
1) Andrea fischt zwei (verschiedene) Ratten aus dem Käfig. Ist die Anzahl
der bissigen Ratten, die sie erwischt, binomialverteilt?
2) Barbara greift zweimal blind in den Käfig nach einer Ratte, ohne sie aber
herauszunehmen. Ist die Anzahl der Bisse, die sie ausfasst, binomialverteilt?
3) 40% der Ratten im Kanalsystem von Palermo sind bissig. Claudia fischt 2
Ratten aus dem Kanal. Ist die Anzahl der bissigen Ratten, die sie erwischt,
binomialverteilt?
Diskussion: Zu Beginn sitzen 5 Ratten im Käfig, davon sind 40% bissig. Nehmen wir an, Andrea
hat die erste Ratte entnommen, und diese hat gebissen. Nun sitzen noch 4 Ratten im Käfig, aber
davon ist nur mehr eine bissig, das sind 25%. Durch die Entnahme der Stichprobe hat sich der
Anteile der “positiven” bissigen Ratten verschoben. Keine Binomialverteilung!
Barbara dagegen entnimmt die Ratte nicht, es kann sein, dass sie das zweite Mal nach derselben Ratte greift. Durch die Stichprobenwahl verschiebt sich der Anteil der bissigen Ratten nicht,
er ist nach wie vor 40%. Binomialverteilung B(2, 0.4).
Im Hinblick auf die dem Verfasser unbekannte, aber zweifellos ehrfurchtgebietende Zahl der
Ratten im Kanal von Palermo kann die Entnahme von zwei Ratten den Anteil der bissigen Tiere
nicht wesentlich verschieben. Daher ist die Anzahl der bissigen Tiere, die Claudia findet, zumindest
in hervorragender Näherung B(2, 0.4)-binomialverteilt. ¤
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
139
3.3.2.3. Binomialtest.
Methode 3.3.2.6 (Binomialtest). Statistischer Test auf den Anteil “positiver”
Merkmalsträger in einer Grundgesamtheit.
• Ein dichotomes Merkmal sei in einer Grundgesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten. Sei γ eine vorgegebene Zahl zwischen 0 und 1.
• Hypothesen:
H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ.
H1 : Alternativhypothese: Der Anteil der positiven Merkmalsträger ist kleiner als γ (einseitig).
α: Signifikanzniveau α.
• Daten: Eine Stichprobe von n zufällig und unabhängig ausgewählten Merkmalsträgern. Darunter befinden sich k positive.
• Bedingungen: Die Entnahme der Stichprobe ändert nicht (wesentlich) den
Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit.
Der Test wird folgendermaßen durchgeführt:
1) Berechnung des p-Wertes: p ist die kumulative Wahrscheinlichkeit p =
P (0 ≤ X ≤ k) für eine B(n, γ)-binomialverteilte Zufallsvariable X.
2) Ist p ≤ α, so wird die Nullhypothese zurückgewiesen.
Beispiel 3.3.2.7. In einem Versuch wurde untersucht, ob sich KohlreutheriaExtrakte zur Bekämpfung von roten Nacktschnecken (Arion lusitanicus) eignen.
Von 40 Nacktschnecken überlebten 2 die nächsten 24 Stunden nach der Behandlung
mit einer bestimmten Dosis von Kohlreuteria-Extrakt. Folgt mit einer Signifikanz
von 0.05, dass rote Nacktschnecken mit einer Wahrscheinlichkeit von weniger als
20% einen Tag lang die Berührung mit Kohlreutheria überleben?
Diskussion: Wir stellen die Hypothesen:
H0 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können,
ist 0.2 = 20%.
H1 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können,
ist kleiner als 0.2.
Um den Test durchzuführen, brauchen wir die kumulative Wahrscheinlichkeit P (X ≤ 2) für
eine B(40, 0.2)-binomialverteilte Zufallsgröße X.
j
0
1
2
µ ¶
40
j
1
40
780
0.2j
1
0.2
0.04
0.840−j
10−4
1.329 ·
1.662 · 10−4
2.077 · 10−4
P (X = j)
10−4
1.329 ·
1.329 · 10−3
6.480 · 10−3
P (X ≤ j)
1.329 · 10−4
1.462 · 10−3
7.942 · 10−3
Insbesondere ist also die kumulative Wahrscheinlichkeit
p = P (X ≤ 2) ≈ 7.942 · 10−3 ≤ 0.05,
daher kann die Nullhypothese zurückgewiesen werden. Es ist signifikant untermauert, dass Kohlreutheria mehr als 80% der roten Nacktschnecken innerhalb eines Tages tötet. ¤
Tipp 3.3.2.8. Für die kumulativen Verteilungen der Binomialverteilung gibt es
natürlich Tabellen. Für große Stichprobenumfänge verwendet man ein Näherungsverfahren (Methode 3.3.3.6).
140
3. STATISTISCHES SCHÄTZEN UND TESTEN
Was Sie jetzt können:
Wissen und Begriffe: Binomialverteilung.
Methoden: Erkennen von Situationen, auf welche die Binomialverteilung anwendbar ist. Binomialtest auf Anteile.
3.3.3. Normalapproximation der Binomialverteilung.
Übersicht:
1. Normalapproximation
2. Test auf Anteile bei großen Stichproben
3. Konfidenzintervall für Anteile bei großen Stichproben
3.3.3.1. Normalapproximation. Wir bemerken zunächst, dass Erwartungswert und Standardabweichung binomialverteilter Zufallsvariablen einfache Formeln haben:
Merksatz 3.3.3.1. Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Dann
gilt:
1) Der Erwartungswert von X beträgt E(X) = np. p
2) Die Standardabweichung von X beträgt σ(X) = np(1 − p).
Beispiel 3.3.3.2. Vergleichen Sie das Stabdiagramm einer B(10, 0.4)-binomialverteilten
Zufallsgröße X mit der Dichtekurve einer Normalverteilung Y mit demselben Erwartungswert und derselben Standardabweichung.
Diskussion: Nach Merksatz 3.3.3.1 sind Erwartungswert und Standardabweichung der binomialverteilten Zufallsvariablen X gegeben:
√
√
E(X) = 10 × 0.4 = 4, σ(X) = 10 × 0.4 × 0.6 = 2.4 ≈ 1.55.
Wir berechnen die Häufigkeiten der 11 möglichen Ausprägungen von X:
µ
¶
10
0.4k
0.610−k P (X = k)
k
0
1 1
0.00605 0.00605
1
10 0.4
0.01008 0.04031
2
45 0.16
0.01680 0.12093
3
120 0.064
0.02799 0.21499
4
210 0.0256
0.04666 0.25082
5
252 0.01024 0.07776 0.20066
6
210 0.00410 0.1296
0.11148
7
120 0.00164 0.216
0.04247
8
45 0.00655 0.36
0.01062
9
10 0.00026 0.6
0.00157
10
1 0.00010 1
0.00010
Wir stellen nun ein Stabdiagramm dieser Verteilung her, wobei
√ wir die Breite der Stäbe mit
1 wählen. Zum Vergleich zeichnen wir die Dichtekurve der N (4, 2.4)-Normalverteilung ein.
k
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
141
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
6
B(10, 0.4)-Binomialverteilung und N (4,
7
√
8
9
10
2.4)-Normalverteilung
Wir sehen, dass die Dichtekurve der Normalverteilung das Stabdiagramm der Binomialverteilung ziemlich gut annähert.
¤
Merksatz 3.3.3.3 (Normalapproximation der Binomialverteilung). Für große
n kann eine B(n, p)-binomialverteilte Zufallsvariable näherungsweise
durch eine
p
Normalverteilung mit Mittelwert np und Standardabweichung np(1 − p) ersetzt
werden. Als Faustregel gilt: Diese Näherung darf verwendet werden, wenn
np(1 − p) ≥ 9.
Beispiel 3.3.3.4. Eine Zufallsvariable X ist B(50, 0.3)-binomialverteilt. Wie
groß ist die Wahrscheinlichkeit, dass X eine Realisierung zwischen 10 und 20 annimmt?
Diskussion: Die exakte Rechnung wäre
µ
P (10 ≤ X ≤ 20) =
¶
µ ¶
µ ¶
50
50
50
0.310 0.540 +
0.311 0.539 + · · · +
0.320 0.530 .
10
11
20
Diese Rechnung ist nicht nur mühsam. Einerseits sind die Binomialkoeffizienten sehr große Zahlen,
andererseits sind die hohen Potenzen von 0.3 und 0.7 sehr klein. Die Rundungsfehler dieser langwierigen Rechnung könnten sich sehr unangenehm aufschaukeln, und trotz der exakten Formel
könnte das Ergebnis auf Grund dieser Fehler sehr ungenau ausfallen.
Wir überprüfen daher, ob wir in diesem Fall auf die Normalapproximation zurückgreifen
können. Tatsächlich ist
50 × 0.3 × (1 − 0.3) = 10.5 > 9,
also darf die Normalapproximation verwendet werden.
142
3. STATISTISCHES SCHÄTZEN UND TESTEN
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
5
10
15
20
B(50, 0.3)-Binomialverteilung und N (15,
25
√
30
10.5)-Normalverteilung
Betrachten Sie das obige Diagramm. Die Fläche der Balken über 10, 11, · · · , 20 gemeinsam
ergeben die gesuchte Wahrscheinlichkeit. Wir nehmen statt dessen die Fläche unter der Dichtekurve. Beachten Sie, dass jeder Balken die Breite 1 hat. Die Fläche beginnt also nicht bei 10, sondern
bei 9.5, und endet nicht bei 20, sondern bei 20.5. (Diese Überlegung, nicht die Fläche zwischen
den Balkenmitten, sondern von Balkenende zu Balkenende zu berechnen, heißt die Stetigkeitskorrektur.) Sei also nun
√ Y eine normalverteilte Zufallsvariable mit Mittelwert 50 × 0.3 = 50 und
Standardabweichung 10.5. Wir suchen die Wahrscheinlichkeit, dass Y zwischen 9.5 und 20.5 zu
liegen kommt.
Wir standardisieren zunächst:
Y − 15
Z= √
.
10.55
Insbesondere ist
für Y = 20.5 ist Z ≈ 1.70,
für Y = 9, 5 ist Z ≈ −1.70.
Aus der Tabelle der Standardnormalverteilung entnehmen wir
P (0 ≤ Z ≤ 1.70) = 0.4554.
Daher ist
P (9.5 ≤ Y ≤ 20.5) = P (−1.70 ≤ Z ≤ 1.70) = 2 × 0.4554 = 0.9108.
(Die exakte Rechnung mit MATLAB ergab 0.9120.)
¤
Methode 3.3.3.5 (Normalapproximation der Binomialverteilung mit Stetigkeitskorrektur). Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Gesucht ist
die Wahrscheinlichkeit P (k1 ≤ X ≤ k2 ) mit zwei ganzen Zahlen k1 , k2 . Sei
np(1 − p) ≥ 9,
sodass die Normalapproximation zulässig ist.
Dann definiert man eine
p normalverteilte Zufallsvariable Y mit Mittelwert np
und Standardabweichung np(1 − p) und berechnet näherungsweise:
P (k1 ≤ X ≤ k2 ) ≈ P (k1 − 0.5 ≤ Y ≤ k2 + 0.5).
Die zweite Wahrscheinlichkeit erhält man durch Standardisierung und mit Hilfe
einer Tabelle für die Standardnormalverteilung.
3.3. BINOMIALVERTEILUNG UND BINOMIALTEST
143
3.3.3.2. Test auf Anteile bei großen Stichproben.
Die Normalapproximation erlaubt vor allem eine näherungsweise Durchführung des Binomialtests auf Anteile von Populationen bei großen Stichproben:
Methode 3.3.3.6 (Näherung des Binomialtests für große Stichproben). Statistischer Test auf den Anteil von “positiven” Merkmalsträgern in einer Gesamtheit.
• Ein dichotomes Merkmal X sei in einer Gesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten.
• Hypothesen:
H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ.
H1 : Es gibt eine einseitige und eine zweiseitige Variante der Alternativhypothese:
a) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist größer als γ (einseitig).
b) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist ungleich γ (zweinseitig).
α: Signifikanzniveau α.
• Daten: Eine zufällige Stichprobe von n verschiedenen Merkmalsträgern.
Darunter befinden sich k positive Merkmalsträger. Der Anteil der positiven Merkmalsträger in der Stichprobe beträgt γ̂ = k/n.
• Bedingungen: nγ(1 − γ) ≥ 9. Die Entnahme der Stichprobe ändert nicht
(wesentlich) den Anteil der positiven Merkmalsträger in der Gesamtheit.
Der Test wird folgendermaßen durchgeführt:
1) Teststatistik
γ̂ − γ
Z=p
.
γ(1 − γ)/n
2) Kritische Werte aus der Tabelle der Quantile der Standardnormalverteilung: Für den einseitigen Test Zα , für den zweiseitigen Test Zα/2 .
3)
a) Einseitiger Test: Wenn Z ≥ Zα , dann wird die Nullhypothese zurückgewiesen.
b) Zweiseitiger Test: Wenn |Z| ≥ Zα/2 , dann wird die Nullhypothese
zurückgewiesen.
Beispiel 3.3.3.7. Auf eine unfangreiche Befragung von 10000 Personen im
Alter über 30 Jahre gaben 40.2% an, schon einmal im Leben längere Zeit unter Schlafstörungen gelitten zu haben. Folgt mit einer Signifikanz von 0.05, dass
mindestens 40% aller Personen im Alter über 30 im längere Zeit hindurch unter
Schlafstörungen gelitten haben?
Diskussion: Dies ist ein einseitiger Binomialtest.
H0 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt 0.4=40
H1 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt mehr als 0.4.
Der große Stichprobenumfang rechtfertigt mühelos die Normalapproximation:
10000 × 0.4 × 0.6 = 2400 ≥ 9.
Berechnung der Teststatistik:
0.402 − 0.4
Z= p
= 0.408.
0.4(1 − 0.4)/10000
144
3. STATISTISCHES SCHÄTZEN UND TESTEN
Der kritische Wert der Standardnormalverteilung für α = 0.05 wird aus der Tabelle der Quantile
der t-Verteilung, “Freiheitsgrad ∞”, entnommen:
Z0.05 = 1.645.
Da Z < Zα , wird die Nullhypothese nicht zurückgewiesen. Diese Daten untermauern nicht mit
Signifikanz 0.05, dass mehr als 40% aller Menschen der betroffenen Altersklasse längere Zeit
Schlafstörungen hatten. ¤
3.3.3.3. Konfidenzintervall für Anteile bei großen Stichproben.
Methode 3.3.3.8 (Konfidenzintervall für Anteile, große Stichproben). In einer
Grundgesamtheit sei ein dichotomes Merkmal mit den Ausprägungen “positiv” und
“negativ” vertreten. Eine Stichprobe von n zufällig ausgewählten Merkmalsträgern
enthalte k positive Merkmalsträger. Der Anteil der positiven in der Stichprobe ist
daher γ̂ = k/n.
Es sei nγ̂(1 − γ̂) ≥ 9, und die Stichprobe sei so entnommen, dass durch die
Entnahme der Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit
nicht wesentlich verändert wird.
Ein 1 − α-Konfidenzintervall für den Anteil der positiven Merkmalsträger in
der Grundgesamtheit errechnet sich folgendermaßen:
1) Man entnimmt der Tabelle den kritischen Wert Zα/2 der Standardnormalverteilung.
2) Die halbe Breite des Konfidenzintervalls ist
r
γ̂(1 − γ̂)
b = Zα/2
.
n
3) Das Konfidenzintervall ist
[γ̂ − b, γ̂ + b].
Beispiel 3.3.3.9. In einer Umfrage unter 400 StudentInnen stimmten 56 Personen für mehr Übungen aus Statistik. Ermitteln Sie ein 95%-Konfidenzintervall
für den Anteil aller StudentInnen, welche sich für mehr Übungen aus Statistik aussprechen würden.
Diskussion: Es ist γ̂ = 56/400 = 0.14.
Dürfen wir die Normalapproximation einsetzen? Es ist 400 × 0.14 × 0.86 = 48.16 ≥ 9, also
dürfen wir hier mit Normalverteilung arbeiten.
Der kritische Wert der Standardnormalverteilung für α/2 = 0.025 ist
Z0.025 = 1.96.
Damit errechnet sich die halbe Breite des Konfidenzintervalles
r
0.14 × 0.86
b = 1.96
≈ 0.034.
400
Das Konfidenzintervall ist daher
[0.106, 0.174].
Zwischen 10% und 18% liegt der Anteil der Studierenden, die gerne mehr Übungen aus Statistik
hätten. ¤
Was Sie jetzt können:
Wissen und Begriffe: Erwartungswert und Standardabweichung
der Binomialverteilung, Approximation der Binomialverteilung durch
Normalverteilung.
Methoden: Test und Konfidenzintervall für Anteile positiver Merkmalsträger bei großen Stichproben.
3.4. PARAMETERFREIE METHODEN
145
3.4. Parameterfreie Methoden
Übersicht:
1. Anpassungstests
2. χ2 -Tests für nominale Daten
3. Tests für ordinale Daten
3.4.1. Anpassungstests.
Übersicht:
1) Kolmogorov-Smirnov-Test
2) Grafische Methoden
3.4.1.1. Kolmogorov-Smirnov-Test.
Merksatz 3.4.1.1. Anpassungstests dienen dazu, zu entscheiden, ob einer
Stichprobe eine bestimmte Wahrscheinlichkeitsverteilung zugrundeliegt.
Viele statistische Verfahren setzen zum Beispiel normalverteilte Zufallsvariablen voraus. Mit
Anpassungstests kann man testen, ob eine Zufallsvariable, deren Realisierungen aus einer Stichprobe bekannt sind, normalverteilt ist.
Methode 3.4.1.2 (Kolmogorov-Smirnov-Anpassungstest).
• Statistischer Test, ob Zufallsvariable X (bzw. ein metrisches Merkmal)
nach einer gegebenen Wahrscheinlichkeitsverteilung verteilt ist. Dabei sei
Φ die Verteilungsfunktion der gegebenen Verteilung.
• Hypothesen und Signifikanz:
H0 : Nullhypothese: Die Verteilungsfunktion von X ist die vorgegebene
Funktion Φ.
H1 : Alternativhypothese: Die Verteilungsfunktion von X ist nicht gleich
Φ (zweiseitig).
α: Signifikanzniveau: α.
• Datenmaterial: n unabhängige Realisierungen von X, daraus errechnet die
relativen kumulativen Häufigkeiten.
• Bedingung: Die Verteilungsfunktion Φ wurde nicht auf Grund der getesteten Daten gewählt. Es wurden auch keine Parameter von Φ aus den
getesteten Daten geschätzt.
Der Test wird folgendermaßen durchgeführt:
1) Tragen Sie in einem Diagramm waagrecht x, senkrecht sowohl die Verteilungsfunktion Φ als auch die relativen Häufigkeiten FProbe auf. (Die
relativen Häufigkeiten ergeben eine steigende Treppe.)
2) Teststatistik (Kolmogorov-Smirnov-Statistik): K ist der größte senkrechten Abstand (aufwärts oder abwärts) zwischen den Kurven Φ und FProbe .
3) Aus der Tabelle der kritischen Werte für den Kolmogorov-Smirnov-Test
entnehmen Sie den Wert Kα für die gewünschte Signifikanz α.
4) Falls |K| ≥ Kα , wird die Nullhypothese zurückgewiesen.
146
3. STATISTISCHES SCHÄTZEN UND TESTEN
Die folgende Grafik zeigt, wie man im Diagramm der Verteilungsfunktionen die KolmogorovSmirnov-Statistik findet:
1
größter Abstand:
Kolmogorov−Smirnov−
Statistik
0.5
blau: kumulative
relative Häufigkeiten
rot: Verteilungsfunktion
0
Kolmogorov-Smirnov-Statistik
Quantile der Kolmogorov-Smirnov-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt.
n
α
1
2
3
4
5
0.2
0.90
0.68
0.56
0.49
0.45
0.1
0.95
0.78
0.64
0.56
0.51
0.05
0.98
0.84
0.71
0.62
0.56
0.01
0.99
0.93
0.83
0.73
0.67
6
7
8
9
10
0.41
0.38
0.36
0.34
0.32
0.47
0.44
0.41
0.39
0.37
0.52
0.49
0.46
0.43
0.41
0.62
0.58
0.54
0.51
0.49
11
12
13
14
15
0.31
0.30
0.28
0.27
0.27
0.35
0.34
0.32
0.31
0.30
0.39
0.38
0.36
0.35
0.34
0.47
0.45
0.43
0.42
0.40
16
17
18
19
20
0.26
0.25
0.24
0.24
0.23
0.30
0.29
0.28
0.27
0.26
0.33
0.32
0.31
0.30
0.29
0.39
0.38
0.37
0.36
0.35
25
30
35
40
45
0.21
0.19
0.18
0.17
0.16
0.24
0.22
0.21
0.19
0.18
0.26
0.24
0.23
0.21
0.20
0.32
0.29
0.27
0.25
0.24
groß
1.07
√
n
1.22
√
n
1.36
√
n
1.63
√
n
Tipp 3.4.1.3. Der Kolmogorov-Smirnov-Test wird bei großen Stichproben (n ≥
500) sehr leicht signifikant: Zum Beispiel werden Zufallsvariablen, die nicht exakt
3.4. PARAMETERFREIE METHODEN
147
normalverteilt sind, durch den KS-Test dann erkannt. Oft braucht man aber nicht,
dass eine Zufallsvariable exakt einer Verteilung Φ folgt, sondern nur, dass sie näherungsweise vergleichbare Eigenschaften wie Φ hat.
Beispiel 3.4.1.4. Entstammen die folgenden Daten von Realisierungen einer
Zufallsvariablen, die über das Intervall [0, 1] gleichverteilt ist? (D.h., deren Dichtefunktion auf [0, 1] konstant 1, und außerhalb dieses Intervalles Null ist.) Signifikanznivau: 0.05.
Daten: Stichprobe von 10 Realisierungen mit den Werten
Realisierung Nr.
Wert
1
0.05
2
0.08
3
0.18
4
0.25
5
6
0.47 0.64
7
0.64
8
0.85
9
0.86
10
0.94
Diskussion: Die kumulativen relativen Häufigkeiten springen an den einzelnen Datenpunkten um
je ein Zehntel aufwärts. (Beachten Sie den doppelten Sprung an der Stelle 0.64). Die Verteilungsfunktion der Gleichverteilung wächst im Intervall [0, 1] linear von 0 auf 1. Damit ergibt sich das
folgende Bild:
1
Verteilungs−
funktion: rot
0.9
0.8
größte Abweichung
nach unten: 0.14
0.7
0.6
0.5
0.4
kumulative relative
Häufigkeiten: blau
0.3
0.2
größte Abweichung
nach oben: 0.15
KS−Statistik
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Verteilungsfunktion und kumulative relative Häufigkeiten zu Beispiel 3.4.1.4
Die maximale Abweichung der beiden Kurven finden wir bei 0.25 mit dem Wert 0.15.
Vergleichen wir mit dem kritischen Wert für n = 10 und α = 0.05:
Kα = 0.41
so erhalten wir
K = 0.15 < 0.41 = Kα .
Daher wird die Nullhypothese nicht zurückgewiesen. Es kann nicht mit Signifikanzniveau 0.05
geschlossen werden, dass diese Daten von einer anderen als einer gleichverteilten Zufallsvariablen
stammen.
¤
Um eine Zufallsvariable auf Normalverteilung N (µ, σ) zu testen, werden normalerweise die
Parameter µ und σ geschätzt, und erst anschließend ein Anpassungstest durchgeführt. Der KolmogorovSmirnov-Test erlaubt nicht das vorherige Schätzen von Parametern. Dieses Problem wurde durch
die sogenannte Lillefors-Korrektur des Kolmogorov-Smirnov-Tests zur Testung auf Normalverteilung gelöst.
Methode 3.4.1.5 (Lillefors-Korrektur des Kolmogorov-Smirnov-Tests).
• Statistischer Test, ob eine Zufallsvariable X normalverteilt ist.
• Hypothesen:
148
3. STATISTISCHES SCHÄTZEN UND TESTEN
H0 : Nullhypothese: X ist normalverteilt.
H1 : Alternativhypothese: X ist nicht normalverteilt.
α: Signifikanzniveau: α.
• Datenmaterial: n unabhängige Realisierungen x1 , · · · , xn von X.
Der Test wird folgendermaßen durchgeführt:
1) Aus den Daten x1 · · · xn werden Mittelwert x und Standardabweichung sx
nach den üblichen Formeln geschätzt.
2) Die Daten werden mit den geschätzten Parametern standardisiert Z =
X−x
sx :
xi − x
zi =
.
sx
3) Es werden die Verteilungsfunktion der Standardnormalverteilung und die
beobachteten kumulativen relativen Häufigkeiten von Z auf Grund der
standardisierten Daten z1 , · · · , zn aufgetragen wie im Kolmogorov-SmirnovTest, und die Kolmogorov-Smirnov-Statistik K ermittelt.
4) Aus einer Tabelle für die Lillefors-Korrektur des K.S.-Tests entnimmt
man den kritischen Wert Kα für das gegebene Signifikanzniveau α und
den Stichprobenumfang n.
5) Ist K ≥ Kα , so wird die Nullhypothese zurückgewiesen.
Tabellen zur Lillefors-Korrektur findet man allerdings gar nicht so leicht in der Lehrbuchliteratur, weshalb hier eine solche abgedruckt werden soll. Die folgende Tabelle stammt aus dem sehr
nützlichen Nachschlagewerk H. Rinner, Taschenbuch der Statistik, 3. Aufl., Verlag Harri Deutsch,
2003.
Quantile der Kolmogorov-Smirnov-Lillefors-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test
mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt.
n
α
4
5
0.2
0.300
0.285
0.1
0.352
0.315
0.05
0.381
0.337
0.01
0.417
0.405
6
7
8
9
10
0.265
0.247
0.233
0.223
0.215
0.294
0.276
0.261
0.249
0.239
0.319
0.300
0.285
0.271
0.258
0.364
0.348
0.331
0.311
0.294
11
12
13
14
15
0.206
0.199
0.190
0.183
0.177
0.230
0.223
0.214
0.207
0.201
0.249
0.242
0.234
0.227
0.220
0.284
0.275
0.268
0.261
0.257
16
17
18
19
20
0.173
0.169
0.166
0.163
0.160
0.195
0.189
0.184
0.179
0.174
0.213
0.206
0.200
0.195
0.190
0.250
0.245
0.239
0.235
0.231
25
30
0.142
0.131
0.158
0.144
0.173
0.161
0.200
0.187
groß
0.736
√
n
0.805
√
n
0.886
√
n
1.031
√
n
3.4. PARAMETERFREIE METHODEN
149
Bemerkung 3.4.1.6. Sei X eine Zufallsvariable. Es gibt mehrere Tests, welche
mit Hilfe von Schiefe und Kurtosis die folgenden Hypothesen testen:
H0 : X ist normalverteilt.
H1 : X ist nicht normalverteilt.
Diskussion: Bekanntlich hat eine normalverteilte Zufallsvariable die Schiefe Null und die Kurtosis
3. Wenn die Stichprobe als Schätzwerte deutlich andere Schiefe und Kurtosis ergibt, wird die
Alternativhypothese unterstützt, dass die zugrundeliegende Zufallsvariable nicht normalverteilt
ist. ¤
3.4.1.2. Grafische Methoden.
Wir zeigen noch zwei bequeme grafische Methoden, eine Menge von Daten mit einer vorgegebenen Verteilung zu vergleichen. Eine grafische Sichtung von Daten vor der Anwendung statistischer Verfahren ist in jedem Fall unbedingt zu empfehlen.
Das folgende Beispiel dient als Vorbereitung zum Verständnis der grafischen Verfahren, die
wir anschließend einführen werden:
Beispiel 3.4.1.7. Die folgende Grafik zeigt die Verteilungskurve einer Zufallsvariablen X. Eingezeichnet sind auch und die Quantile für 81 , 28 usw., die drei
Quartile sind dabei deutlich hervorgehoben. Vier unabhängige Realisierungen von
X werden erhoben und anschließend der Größe nach geordnet: x1 ≤ x2 ≤ x3 ≤ x4 .
Wo würde man auf Grund der Verteilungskurve ungefähr die 4 Werte xi erwarten?
erstes
Viertel
zweites
Viertel
drittes
Viertel
viertes
Viertel
Diskussion: Das erste Viertel der Daten fällt in den Bereich vor dem ersten Quartil. Daher erwarten wir, zumindest heuristisch, den untersten der vier Werte, also x1 , in diesem Bereich, etwa
in der Nähe des 18 -Quantils. Der nächste Wert wird voraussichtlich in den Bereich zwischen dem
ersten und zweiten Quartil fallen, wir erwarten ihn etwa in der Nähe des 83 -Quantils. Der nächstfolgende Wert wird voraussichtlich in der Nähe des 58 -Quantils liegen, der Wert x4 in der Nähe
des 78 -Quantils. Das ist natürlich nur Heuristik. Wenn der Zufall es will, könnten auch alle vier
Realisierungen zum Beispiel weit unter das erste Quartil fallen, doch werden solche Fälle nicht oft
auftreten. ¤
Methode 3.4.1.8 (P-P-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer
Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen
Verteilungsfunktion Φ entspricht.
150
3. STATISTISCHES SCHÄTZEN UND TESTEN
1) Die Realisierungen werden der Größe nach geordnet:
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn .
2) Wir zeichnen ein Achsenkreuz x ∈ [0, 1], y ∈ [0, 1].
3) Wir tragen n Datenpunkte auf, und zwar
– waagrecht: Die Zahlen
n − 0.5
0.5 1.5 2.5
,
,
,··· ,
n n n
n
– senkrecht: Die Werte
Φ(x1 ), Φ(x2 ), · · · , Φ(xn )
(Damit sind für jede Realisierung xi waagrecht die beobachtete kumulative
Häufigkeit und senkrecht die nach der Verteilungsfunktion Φ erwartete
kumulative Häufigkeit aufgezeichnet.)
4) Die Daten entsprechen gut der vorgegebenen Verteilungsfunktion, wenn sie
nahe an der Diagonalen x = y liegen.
1
-Quantils liegt, x2 vorDiskussion: Wir erwarten, dass der unterste Wert x1 in der Nähe des 2n
3
aussichtlich in der Nähe des 2n -Quantils, und so weiter. Wenn das wirklich so ist, sind für die
Zufallsvariable X also die Wahrscheinlichkeiten
P (X ≤ x1 ) ≈
1
,
n
P (X ≤ x2 ) ≈
3
,
n
···
Ist, zum Vergleich, eine Zufallsvariable Y nach der Verteilungsfunktion Φ verteilt, so ist die Wahrscheinlichkeit
P (Y ≤ xi ) = Φ(xi ).
Wir tragen nun waagrecht die (vermuteten) Wahrscheinlichkeiten P (X ≤ xi ) und senkrecht die
Wahrscheinlichkeiten P (Y ≤ xi ) auf. Wenn wirklich X so wie Y nach der Verteilungsfunktion Φ
verteilt ist, müssten diese Wahrscheinlichkeiten für X und Y dieselben sein, und die aufgetragenen
Punkte auf der Diagonalen liegen. ¤
Beispiel 3.4.1.9. Sind die folgenden Daten annähernd standardnormalverteilt?
Zeichnen Sie ein P-P-Diagramm:
Realisierung Nummer:
xi
1
-1.5
2
-1.0
3
-0.5
4
-0.3
5
-0.2
6
0.1
7
0.2
8
0.8
9
1.2
10
1.8
Diskussion: Der Stichprobenumfang ist n = 10. Wir verwenden zunächst die Tabelle der Verteilungsfunktion der Standardnormalverteilung:
Nummer
i
1
2
3
4
5
6
7
8
9
10
waagrecht
i−0.5
10
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
Wir fertigen jetzt die Zeichnung an:
Realisierung
xi
-1.5
-1.0
-0.5
-0.3
-0.2
0.1
0.2
0.8
1.2
1.8
senkrecht
F (xi )
0.0668
0.1587
0.3085
0.3821
0.4207
0.5398
0.5793
0.7881
0.8849
0.9641
3.4. PARAMETERFREIE METHODEN
151
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
P-P-Diagramm zu Beispiel 3.4.1.9
Die Daten liegen einigermaßen genau auf der Diagonalen, daher passen sie gut zu einer
standardnormalverteilten Zufallsvariablen. ¤
Methode 3.4.1.10 (Q-Q-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer
Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen
Verteilungsfunktion Φ entspricht.
1) Die Realisierungen werden der Größe nach geordnet:
x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn .
2) Wir zeichnen ein Achsenkreuz. Auf der x-Achse müssen die Realisierungen xi Platz finden. Auf der y-Achse muss der Bereich Platz finden, auf
den eine nach Φ verteilte Zufallsvariable mit großer Wahrscheinlichkeit
(nämlich 1 − n1 ) fällt.
3) Wir tragen n Datenpunkte auf, und zwar
– waagrecht: Die Werte
x1 , x2 , · · · , xn
– senkrecht: Die γ-Quantile einer nach Verteilungsfunktion Φ verteilten
Zufallsvariable für
0.5 1.5
n − 0.5
,
,··· ,
.
n n
n
Es stehen also waagrecht die beobachteten γ-Quantile, senkrecht die nach
Φ erwarteten theoretischen γ-Quantile.
4) Die Daten entsprechen der vorgegebenen Verteilungsfunktion Φ gut, wenn
die gezeichneten Punkte näherungsweise auf der Diagonalen x = y liegen.
γ=
Diskussion: Wieder nehmen wir an, dass die 2i−1
-Quantile von X voraussichtlich nahe bei xi
n
liegen, und vergleichen mit einer Zufallsvariable Y , welche nach der Verteilungsfunktion Φ verteilt
-Quantile von X und senkrecht die entsprechenden
ist. Diesmal tragen wir aber waagrecht die 2i−1
n
Quantile von Y auf. Wenn X und Y dieselbe Verteilungsfunktion Φ haben, müssen die Quantile
für X und Y dieselben sein, und die aufgetragenen Punkte liegen auf der Diagonalen. ¤
152
3. STATISTISCHES SCHÄTZEN UND TESTEN
Merksatz 3.4.1.11. Zur Beurteilung, ob eine Zufallsgröße normalverteilt ist,
eignet sich das Q-Q-Diagramm besonders gut. Man muss nämlich gar nicht zuvor
die Parameter der Normalverteilung schätzen:
Wenn man ein Q-Q-Diagramm einer Stichprobe gegen eine Standardnormalverteilung zeichnet, so ergibt sich annähernd eine Gerade, wenn der Stichprobe eine
Normalverteilung N (µ, σ) zugrundeliegt. Dabei ist 1/σ die Steigung der Geraden,
und µ der Achsenabschnitt auf der waagrechten Achse.
Beispiel 3.4.1.12. Sind die folgenden Daten annähernd normalverteilt? Zeichnen Sie ein Q-Q-Diagramm:
Realisierung Nummer: 1 2 3 4 5
6 7 8
9 10
xi
2 10 12 15 20 20 23 30 36 42
Diskussion: Der Stichprobenumfang ist n = 10. Wir erstellen zunächst die Tabelle der aufzutragenden Werte. Wir benötigen diesmal mehr Quantile der Standardnormalverteilung, als wir in der
kurzen Tabelle der Quantile der t-Verteilung finden. Wir ermitteln die Quantile etwas mühsam
durch “Rückwärts-Ablesen” der Tabelle der Verteilungsfunktion.
Nummer
i
1
2
3
4
5
6
7
8
9
10
waagrecht
xi
2
10
12
15
20
20
23
30
36
42
γ
0.05
0.15
0.25
0.35
0.45
0.55
0.65
0.75
0.85
0.95
senkrecht
γ-Quantil
-1.64
-1.04
-0.67
-0.38
-0.12
0.12
0.38
0.67
1.04
1.64
Wir fertigen jetzt die Zeichnung an:
2.5
2
1.5
Quantile
1
senkrecht
1 Einheit
0.5
0
waagrecht
ca 12 Einheiten
−0.5
Mittelwert
ca 22
−1
−1.5
−2
0
5
10
15
20
25
x
30
35
40
45
50
Q-Q-Diagramm zu Beispiel 3.4.1.12
Die Punkte liegen annähernd auf einer Geraden durch den Punkt x = 22, y = 0 mit Steigung
1/12. Daher passen die Daten gut zu einer Normalverteilung mit Mittelwert 22 und Standardabweichung 12. ¤
3.4. PARAMETERFREIE METHODEN
153
Was Sie jetzt können:
Begriffe und Wissen: Anpassungstests
Methoden
Kolmogorov-Smirnov-Test,
PP-Diagramm,
QQDiagramm, Ablesen der Parameter einer Normalverteilung aus
einem QQ-Diagramm.
3.4.2. χ2 -Tests für nominale Daten.
Übersicht:
1. Anpassungstest für nominale Daten
2. Unabhängigkeit nominaler Daten
3.4.2.1. Anpassungstest für nominale Daten.
Die folgende Methode dient dazu, die Häufigkeitsverteilung der Ausprägungen
eines nominalen Merkmales mit einer vorgegebenen Wahrscheinlichkeitsverteilung
zu vergleichen:
Methode 3.4.2.1 (χ2 -Anpassungstest für nominale Daten).
• Test, ob ein nominales Merkmal mit endlich vielen Ausprägungen x1 , · · · , xk
einer bestimmten Wahrscheinlichkeitsverteilung folgt.
• Hypothesen:
H0 : Die Wahrscheinlichkeiten für das Auftreten der Ausprägungen x1 , · · · , xk
sind p1 , · · · , pk .
H1 : Mindestens eine der Ausprägungen xi tritt mit einer anderen Wahrscheinlichkeit als pi auf.
α: Signifikanz α.
• Datenmaterial: Eine Stichprobe von n unabhängigen Realisierungen des
Merkmals, mit beobachteten absoluten Häufigkeiten b1 , · · · , bk der einzelnen Ausprägungen.
• Bedingungen: Ausreichend große Stichprobe: npi ≥ 1 für alle i. (Und
Pk
Pk
natürlich muss gelten: i=1 pi = 1, n = i=1 bi .)
Der Test wird folgendermaßen durchgeführt:
1) Man berechnet die erwarteten absoluten Häufigkeiten der einzelnen Ausprägungen nach der Formel
ei = npi .
2) Teststatistik
χ2 =
k
X
(bi − ei )2
i=1
ei
=
k
X
b2
i
i=1
ei
− n.
3) Anzahl der Freiheitsgrade: k − 1.
4) Aus der Tabelle der Quantile der χ2 -Verteilung mit k − 1 Freiheitsgraden
entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt.
5) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen.
154
3. STATISTISCHES SCHÄTZEN UND TESTEN
Diskussion: Klar, dass χ2 umso größer ausfällt, je mehr die beobachteten Häufigkeiten von den
erwarteten Häufigkeiten abweichen. Das Verfahren ist eine Näherungsmethode: Für ausreichend
große Stichproben ist die Teststatistik χ2 annähernd χ2 -verteilt. Es gibt nur k − 1 unabhängige
P
Zahlen (bi − ei ), denn die Summe ki=1 (bi − ei ) = n − n = 0. Entsprechend verwenden wir eine
χ2 -Verteilung mit k − 1 Freiheitsgraden. ¤
Beispiel 3.4.2.2. Bei einer Pflanzenart sei ein Gen in einer dominanten (A) und
einer rezessiven (a) Form vertreten. Gemischterbige Pflanzen (Aa) haben die äußere
Erscheinungsform (Phänotyp) A. Wenn nur gemischterbige Pflanzen miteinander
gekreuzt werden, treten die Genotypen mit folgenden Wahrscheinlichkeiten auf:
Genotyp
AA Aa
Wahrscheinlichkeit 0.25 0.5
aa
0.25
Eine Stichprobe von 20 Pflanzen wurde genetisch untersucht und ergab folgende
Genotypen:
Genotyp
Anzahl Pflanzen
AA Aa aa
8
8
4
gesamt
20
Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass
die Wahrscheinlichkeitsverteilung der Genotypen in der Population, aus der die
Stichprobe entstammt, nicht dem Gesetz 14 — 12 — 41 folgt (und daher die Pflanzen
nicht die erste Generation nach einer durchwegs gemischterbigen Generation sind)?
Diskussion: Wir testen:
H0 : Die relativen Häufigkeiten der einzelnen Genotypen in der Grundgesamtheit sind je
0.25 für die beiden reinerbigen, und 0.5 für den gemischterbigen Genotypen.
H1 : Mindestens einer der 3 Genotypen hat eine andere relative Häufigkeit.
Wir fassen unsere Nebenrechnungen in der folgenden Tabelle zusammen: Beispielsweise ergibt
sich die erwartete absolute Häufigkeit des Genotyps AA durch
ei = n · pi = 20 × 0.25 = 5.
Genotyp
AA
Aa
aa
Summe
−n
χ2
theoretische
beobachtete
erwartete
Wahrscheinlichkeit
pi
0.25
0.50
0.25
Häufigkeit
bi
8
8
4
20
Häufigkeit
ei
5
10
5
20
b2
i
ei
12.8
6.4
3.2
22.4
-20.000
2.4
Da es 3 verschiedene Ausprägungen gibt, hat χ2 zwei Freiheitsgrade. Aus der Tabelle der
Quantile der χ2 -Verteilung entnehmen wir für α = 0.05 den kritischen Wert
χ2α = 5.991.
Damit ist
χ2 = 2.4 < 5.991 = χ2α ,
und die Nullhypothese kann nicht zurückgewiesen werden. Es ist durchaus denkbar, dass die
Stichprobe aus einer Generation nach einer durchwegs gemischterbigen Pflanzenmenge entstammt.
¤
Tipp 3.4.2.3. Die Bedingung, dass jede Ausprägung mindestens die erwartete
Häufigkeit ei ≥ 1 haben soll, läßt sich gelegentlich erreichen, indem man mehrere
seltene Ausprägungen zu einer Klasse zusammenfasst.
3.4. PARAMETERFREIE METHODEN
155
Methode 3.4.2.4 (Anpassungstest mit geschätzten Parametern). Der Test aus
Methode 3.4.2.1 ist natürlich nur fair, wenn zur Auswahl der theoretischen Verteilung p1 , · · · , pk nicht die getesteten Daten herangezogen wurden. Es gibt aber
folgende Modifikation:
Wird das Datenmaterial mit einer Familie von Verteilungen mit m verschiedenen Parametern verglichen, indem zunächst die m Parameter aus den Daten
geschätzt wurden, und dann für die somit festgelegte Verteilung der Anpassungstest
durchgeführt wird, so sind an Stelle von k − 1 nur k − m − 1 Freiheitsgrade zu
wählen. Es muss aber mindestens ein Freiheitsgrad übrig sein: k − m − 1 > 0.
3.4.2.2. Unabhängigkeit nominaler Daten.
Wir greifen auf Unterabschnitt 1.2.5 zurück und erinnern uns: Seien x1 , · · · , xk die Ausprägungen eines nominalen Merkmals X mit den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk
die Ausprägungen eines nominalen Merkmals Y mit den Wahrscheinlichkeiten q1 , · · · , qm . Die
beiden Merkmale sind dann unabhängig, wenn die Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y folgendermaßen aussieht:
x1
x2
.
..
xk
gesamt
y1
p1 q1
p2 q1
.
..
pk q1
q1
y2
p1 q2
p2 q2
.
..
pk q2
q2
···
···
···
···
···
ym
p1 qm
p2 qm
.
..
pk qm
qm
gesamt
p1
p2
.
..
pk
1
Als Maßzahl für die Unabhängigkeit haben wir in Definition 1.2.5.10 die Zahl χ2 (und ausserdem den Kontingenzkoeffizienten und den korrigierten Kontingenzkoeffizienten) eingeführt. Mittels
χ2 können wir die Unabhängigkeit zweier Merkmale testen:
Methode 3.4.2.5 (χ2 -Test auf Unabhängigkeit nominaler Merkmale).
• Statistischer Test, ob zwei nominale Merkmale mit je endlich vielen Ausprägungen x1 , · · · , xk bzw. y1 , · · · , ym statistisch abhängig sind.
• Hypothesen:
H0 : Die Stichprobe entstammt einer Grundgesamtheit, in der die Merkmale unabhängig sind.
H1 : Die Merkmale sind abhängig.
α: Signifikanzniveau α.
• Datenmaterial: Eine Stichprobe von n zufällig gewählten Merkmalsträgern.
Daraus erhoben: bij =beobachtete absolute Häufigkeit der Merkmalskombination (xi , yj ).
• Bedingungen: Alle erwarteten Häufigkeiten eij (siehe unten) sind größer
oder gleich 1. Gegebenenfalls sind mehrere seltenere Ausprägungen zu einer Klasse zusammenzufassen, um diese Bedingung zu erfüllen.
Der Test wird folgendermaßen durchgeführt:
1) Die beobachteten absoluten Häufigkeiten werden in eine Tabelle zusammengefaßt, jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj .
2) Die Zeilensummen z1 , · · · , zk sind die beobachteten absoluten Häufigkeiten
der Ausprägungen von X, die Spaltensummen s1 , · · · , sm sind die beobachteten absoluten Häufigkeiten der Ausprägungen von Y :
zi =
m
X
j=1
bij , sj =
k
X
i=1
bij .
156
3. STATISTISCHES SCHÄTZEN UND TESTEN
3) Der Stichprobenumfang n ist
n=
k
X
zi =
i=1
m
X
sj .
j=1
4) Die erwarteten Häufigkeiten sind
zi sj
eij =
.
n
5) Teststatistik:
χ2 =
k X
k X
m
m
X
X
b2ij
(bij − eij )2
=
− n.
eij
e
i=1 j=1 ij
i=1 j=1
6) Die Anzahl der Freiheitsgrade ist ν = (k − 1)(m − 1).
7) Aus der Tabelle der Quantile der χ2 -Verteilung mit ν Freiheitsgraden entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt.
8) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen.
Diskussion: Die erwarteten Häufigkeiten ergeben sich aus den beobachteten Gesamthäufigkeiten
z1 , · · · , zk und s1 , · · · , sm , wenn die Merkmale tatsächlich unabhängig sind. Klar, dass χ2 umso
größer wird, je weiter die beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij
abweichen. Damit ist χ2 ein Mass für die Abhängigkeit zwischen den beiden Merkmalen. ¤
Beispiel 3.4.2.6. Die Hauskatzenpopulation in zwei griechischen Dörfern besteht aus einfarbigen, getigerten und gefleckten Katzen. Ist die Zeichnung der Hauskatzen in den beiden Dörfern verschieden? Aus jedem Dorf wurde eine Stichprobe
von 50 Katzen erfasst, dabei fanden sich
Zeichnung
einfarbig getigert gefleckt gesamt
Herkunft
Dorf A
Dorf B
gesamt
16
24
40
20
16
36
14
10
24
50
50
100
Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass
die Zeichnung der Hauskatzen in beiden Dörfern verschieden verteilt ist, also ein
statistischer Zusammenhang zwischen der Herkunft einer Katzen und ihrer Fellzeichnung besteht?
Diskussion: Die beobachteten Häufigkeiten sind
bij
Dorf A
Dorf B
gesamt
einfarbig
16
24
40
getigert
20
16
36
gefleckt
14
10
24
gesamt
50
50
100
Wir bestimmen die Tabelle der erwarteten Häufigkeiten. Beispielsweise ist
50 × 36
e12 =
= 18.
100
eij
Dorf A
Dorf B
gesamt
einfarbig
20
20
40
getigert
18
18
36
gefleckt
12
12
24
gesamt
50
50
100
Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und errechnen χ2 :
3.4. PARAMETERFREIE METHODEN
b2ij /eij
Dorf A
Dorf B
gesamt
−n
χ2
einfarbig
12.8
28.8
41.6
getigert
22.2
14.2
36.4
gefleckt
16.3
8.3
24.7
157
gesamt
51.4
51.4
102.7
-100.0
2.7
Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade. Der kritische Wert der χ2 -Verteilung für 2
Freiheitsgrade und α = 0.05 ist
χ2α = 5.991.
Es ist also
χ2 = 2.7 < 5.991 = χ2α .
Daher wird die Nullhypothese nicht zurückgewiesen. Aus diesen Daten ergibt sich kein signifikanter
Zusammenhang zwischen Heimatdorf und Fellzeichnung. ¤
Was Sie jetzt können:
Methoden: χ2 -Anpassungstest für nominale Daten. χ2 -Unabhängigkeitstest für nominale Daten.
3.4.3. Tests für ordinale Daten.
Übersicht:
1. Vorzeichentest auf den Median ordinaler Daten
2. Rangsummenstests für ordinale Daten
3.4.3.1. Vorzeichentest auf den Median ordinaler Daten.
Methode 3.4.3.1 (Vorzeichentest).
• Statistischer Test, ob der Median eines ordinalen Merkmals X exakt auf
einem vorgegebenen Wert m liegt.
• Hypothesen:
H0 : Nullhypothese: Der Median von X ist exakt m.
H1 : Es gibt zwei einseitige und eine zweiseitige Form der Alternativhypothese:
(a) Der Median von X ist größer als m (einseitig).
(b) Der Median von X ist kleiner als m (einseitig).
(c) Der Median von X ist ungleich m (zweiseitig).
α: Signifikanzniveau: α.
• Datenmaterial: Eine Stichprobe von N unabhängigen Realisierungen x1 · · · xN
des Merkmals X.
• Bedingungen: X ist mindestens ordinalskaliert.
Der Test wird folgendermaßen durchgeführt:
1) Wir zählen
k+ = Anzahl der Realisierungen xi aus der Stichprobe mit xi > m
k− = Anzahl der Realisierungen xi aus der Stichprobe mit xi < m
n = k+ + k−
(Realisierungen mit xi = m werden in diesem Test nicht weiter berücksichtigt.)
158
3. STATISTISCHES SCHÄTZEN UND TESTEN
2) Der p-Wert des Tests ergibt sich aus einer B(n, 0.5)-Binomialverteilung:
(a) (H1 : Median von X ist größer als m:) p = kumulative Häufigkeit der
B(n, 0.5)-Binomialverteilung für k = k− .
(b) (H1 : Median von X ist kleiner als m:) p = kumulative Häufigkeit der
B(n, 0.5)-Binomialverteilung für k = k+ .
(c) (H1 : Median von X ist ungleich m:) Sei k der kleinere Wert von
k+ , k− . Dann ist p/2 die kumulative Häufigkeit der B(n, 0.5)-Binomialverteilung für k.
Diskussion: Wenn der Median von X bei m liegt, ist für Realisierungen 6= m die Wahrscheinlichkeit, dass eine Realisierung über m liegt, exakt 1/2. Damit ist die Anzahl der Realisierungen über
m in einer Stichprobe von n unabhängigen Realisierungen binomialverteilt nach B(n, 1/2). Der
Vorzeichentest ist somit einfach ein Binomialtest auf den Anteil der positiven Differenzen.
¤
Das folgende Beispiel zeigt, dass sich der Vorzeichentest, ähnlich wie der t-Test, auch zum
Vergleich von zwei verbundenen Stichproben eignet. Einen effektiveren Test dafür, den WilcoxonTest, lernen wir im nächsten Abschnitt kennen. Jedoch setzt dieser stetig verteilte Merkmale
voraus.
Beispiel 3.4.3.2. Wir führen für Beispiel 3.2.3.9 einen parameterfreien Test
durch:
Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele
besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende
beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die
Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab.
Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden
Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
Diskussion: Da die Vergabe von Noten voraussichtlich nicht normalverteilt ist, und die Stichprobe
klein ist, hatten wir Bedenken gegen die in Beispiel 3.2.3.9 eingesetzte Methode des t-Tests zum
Vergleich verbundener Stichproben. Werden die Punkte nur ganzzahlig vergeben, so sind die getesteten Zufallsvariablen (Benotung einer Arbeit durch A, Benotung einer Arbeit durch B) diskret,
sodass auch gegen den Wilcoxon-Test 3.4.3.4 Einwände erhoben werden können. Wir können aber
den Vorzeichentest auf die Differenz der Punktewertungen anwenden, und die Hypothesen testen:
H0 : Der Median der Punktedifferenz zwischen A und B liegt bei Null.
H1 : Der Median der Punktedifferenz zwischen A und B liegt unter Null.
Durchführung des Tests:
Paar
Bewertung A
Bewertung B
Differenz A-B
1
5
5
0
2
10
10
0
3
7
9
-2
4
4
3
1
5
2
4
-2
6
2
3
-1
7
5
7
-2
8
8
8
0
3.4. PARAMETERFREIE METHODEN
159
Es bleiben 5 Differenzen übrig, die ungleich Null sind. Davon sind 4 kleiner als Null. Wir
haben also:
n=5
k+ = 1
k− = 4.
Die kumulative Häufigkeit der B(5, 21 )-Binomialverteilung finden wir in einer Tabelle, sie läßt
sich aber auch leicht ausrechnen:
µ ¶
5
· 0.50 · 0.55 = 0.55 = 0.03125
0
µ ¶
5
P (k = 1) =
· 0.51 · 0.54 = 5 · 0.55 = 0.15625
1
P (k = 0) =
zusammengezählt:
P (k ≤ 1) = 0.1875.
Dies ist der p-Wert des Tests. Zum Vergleich ist
α = 0.1 < 0.1875 = p.
Daher läßt sich nicht mit Signifikanz von 0.1 schließen, dass der Lehrende A weniger Punkte
vergibt als der Lehrende B.
Im Vergleich zu Beispiel 3.2.3.9 sehen Sie, dass der Vorzeichentest weniger leicht signifikant
wird als der t-Test. Der t-Test arbeitet mit starken zusätzlichen Voraussetzungen, nämlich dass
die getesteten Zufallsvariablen normalverteilt sind. Mit stärkeren Annahmen lassen sich natürlich
auch leichter Schlüsse ziehen. Die Ergebnisse der Berechnung widersprechen sich auch nicht:
• Ergebnis des t-Tests: Wenn wir zusätzlich annehmen können, dass die Noten normalverteilt sind, kann aus den gegebenen Daten mit Signifikanz von 0.1 geschlossen werden,
dass der Lehrende A im Durchschnitt weniger Punkte vergibt als der Lehrende B.
• Ergebnis des Vorzeichentests: Wenn wir keine Annahmen über die Verteilung der Noten
machen, können wir aus den gegebenen Daten nicht mit Signifikanz von 0.1 schließen,
dass die Differenz der Punkte von A minus Punkte von B ihren Median unter Null hat.
Das kann zwar durchaus wahr sein, nur kann es nicht aus unserer Stichprobe gefolgert
werden.
¤
3.4.3.2. Vergleichstests für ordinale Daten.
Die Versionen des t-Tests zum Vergleich von metrischen Daten setzen voraus, dass entweder die Stichprobenumfänge groß sind, oder die einzelnen Zufallsvariablen zumindest annähernd
normalverteilt sind. Wenn keine dieser beiden Bedingungen erfüllt ist, muss man eine Methode einsetzen, die nicht auf der Normalverteilung beruht. Wie bei den t-Tests gibt es auch hier
verschiedene Methoden für unabhängige und verbundene Stichproben.
Methode 3.4.3.3. Um die Mediane von ordinalen oder metrischen Merkmalen
zu vergleichen, gibt es Methoden, welche auf Rangsummen beruhen und nicht die
Normalverteilung einsetzen:
1.) Bei verbundenen (gepaarten) Stichproben den Wilcoxon-Test für verbundene Stichproben.
2.) Bei zwei unabhängigen Stichproben den Mann-Whitney U-Test oder den
Wilcoxon-Test für unabhängige Stichproben. (Obwohl diese beiden Tests
mit verschiedenen Formeln arbeiten, liefern sie letztlich denselben p-Wert.)
3.) Um festzustellen, ob bei mehreren ordinalen Merkmalen mindestens eines
in der Lage von den anderen abweicht, gibt es den Kruskal-Wallis Test.
160
3. STATISTISCHES SCHÄTZEN UND TESTEN
Um Ihnen eine Vorstellung zu geben, wie ein Rangsummentest funktioniert, diskutieren wir
den Wilcoxon-Test für verbundene Stichproben im Detail.
Methode 3.4.3.4 (Wilcoxon-Test zum Vergleich verbundener Stichproben).
• Statistischer Test, ob die Mediane zweier Zufallsgrößen X1 ,X2 gleich
sind.
• Hypothesen:
H0 : Die Mediane der beiden Zufallsgrößen sind gleich.
H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante:
(a) Der Median von X1 liegt über dem Median von X2 (einseitig).
(b) Der Median von X liegt unter dem Median von X2 (einseitig).
(c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig).
α: Signifikanzniveau α.
• Datenmaterial: Eine Stichprobe von N unabhängigen Probanden, für jeden
Probanden je eine Realisierung von X1 und X2 :
x11 , · · · , x1N Realisierungen von X1
x21 , · · · , x2N Realisierungen von X2
• Bedingungen: Die Merkmale müssen metrisch mit stetigen Verteilungen
sein, sodass man Differenzen berechnen kann. Die Verteilungen haben dieselbe Form, nur möglicherweise gegeneinander parallelverschoben, sodass
die Mediane verschieden sind. Sie müssen aber nicht normalverteilt sein,
und die Stichproben können klein sein.
Der Test wird folgendermaßen durchgeführt:
1) Für jeden Probanden wird die Differenz di = x1i − x2i berechnet.
2) Daten mit Differenz 0 werden aus der Statistik ausgeschlossen. Sei n die
Anzahl der verbleibenden Differenzen.
3) Die Differenzen werden gemeinsam der Größe ihrer Absolutbeträge nach
aufsteigend geordnet, wobei man sich merkt, welcher Betrag zu einer positiven Differenz und welcher Betrag zu einer negativen Differenz gehört.
4) Den Realisierungen werden in aufsteigender Reihenfolge die Rangzahlen
1, 2, · · · , (n1 + n2 ) zugeteilt.
4a) Wenn mehrere Realisierungen genau gleich groß sind, spricht man von
Bindungen. In diesem Fall bestimmt man, welche Rangzahlen diesen Realisierungen insgesamt zufallen würden, und teilt diese Rangzahlen zu gleichen Teilen (arithmetisches Mittel) auf die gleich großen Realisierungen
auf.
5) Man bestimmt W + und W − als die Summe der Rangzahlen, die den positiven beziehungsweise negativen Differenzen zugekommen sind.
6) Teststatistik: Aus der Tabelle des Wilcoxon-Tests lesen wir für den einseitigen Test den Wert Wα bzw. für den zweiseitigen Test Wα/2 ab. Zu
jedem Stichprobenumfang n gehört ein anderer kritischer Wert.
7) Je nach Alternativhypothese entscheidet man:
(a) (H1 : Median von X1 > Median von X2 ): Falls W − < Wα , wird die
Nullhypothese zurückgewiesen.
(b) (H1 : Median von X1 < Median von X2 ): Falls W + < Wα , wird die
Nullhypothese zurückgewiesen.
(c) (H1 : Median von X1 6= Median von X2 ): Sei W der kleinere der
beiden Werte W + , W − . Falls W < Wα/2 , wird die Nullhypothese
zurückgewiesen.
3.4. PARAMETERFREIE METHODEN
161
Diskussion: Hat X1 einen größeren Median als X2 , so werden die negativen Differenzen X1 − X2
seltener und zumeist kleiner sein als die positiven, sie werden daher niedrigere Ränge belegen.
Damit wird die Rangsumme der negativen Differenzen, also W − klein, und W + wird groß. Also
unterstützt ein kleines W − die Alternativhypothese: Der Median von X1 ist größer als der Median
von X2 . ¤
Kritische Werte für den Wilcoxon-Test für verbundene Stichproben
α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang.
α
n
6
7
8
9
10
0.05
0.025
0.01
2
3
5
8
10
0
2
3
5
8
0
1
3
5
11
12
13
14
15
13
17
21
25
30
10
13
17
21
25
16
17
18
19
20
35
41
47
53
60
21
22
23
24
25
0.005
0.05
0.025
0.01
0.005
0
1
3
α
n
36
37
38
39
40
227
241
256
271
286
208
221
235
249
264
185
498
211
224
238
171
182
194
207
220
7
9
12
15
19
5
7
9
12
15
41
42
43
44
45
302
319
336
353
371
279
294
310
327
343
252
266
281
296
312
233
247
261
276
291
29
34
40
46
52
23
27
32
37
43
19
23
27
32
37
46
47
48
49
50
389
407
426
446
466
361
378
396
415
434
328
345
362
379
397
307
322
339
355
373
67
75
83
91
100
58
65
73
81
89
49
55
62
69
76
42
48
54
61
68
51
52
53
54
55
486
507
529
550
573
453
473
494
514
536
416
434
454
473
493
390
408
427
445
465
26
27
28
29
30
110
119
130
140
151
98
107
116
126
137
84
92
101
110
120
75
83
91
100
109
56
57
58
59
60
595
618
642
666
690
557
579
602
625
648
514
535
556
578
600
484
504
525
546
567
31
32
33
34
35
163
175
187
200
213
147
159
170
182
195
130
140
151
162
173
118
128
138
148
159
61
62
63
64
65
715
741
767
793
820
672
697
721
747
772
623
646
669
693
718
589
611
634
657
681
Tipp 3.4.3.5. In Beispiel 3.4.3.2 haben wir einen Medianvergleich für verbundene Stichproben durch einen Vorzeichentest durchgeführt. Der Wilcoxon-Test hat gegenüber dem Vorzeichentest den Vorteil, dass er nicht nur die Information ausnützt,
welche der Paardifferenzen positiv und welche negativ sind, sondern auch die Größen
der Paardifferenzen. Dadurch ist er aber auch sensibler auf Ausreißer. Anders als
der Vorzeichentest sind der Mann-Whitney-U-Test und der Wilcoxon-Test ziemlich
stark, fast so stark wie der t-Test. Dafür werden aber auch zusätzliche Voraussetzungen benötigt.
Beispiel 3.4.3.6. Beeinflußt das Medikament XXX die Reaktionszeit beim Autofahren? Mit einer Versuchseinrichtung wurde an 10 Personen die Reaktionszeit
ohne Medikament und eine halbe Stunde nach Einnahme des Medikamentes gemessen. Es ergab sich folgende Tabelle:
Person
Reaktionszeit
ohne Medikament
mit Medikament
A
B
C
D
E
F
G
H
I
J
0.40
0.45
0.60
0.68
0.81
0.86
0.75
0.73
0.72
0.80
0.46
0.44
0.64
0.64
0.98
0.98
0.84
0.91
0.52
0.58
162
3. STATISTISCHES SCHÄTZEN UND TESTEN
Läßt sich mit Signifikanz von 0.05 schließen, dass der Median der Reaktionszeit
nach Einnahme von XXX größer ist der Median der Reaktionszeit ohne Einfluß von
XXX?
Diskussion: Wir führen einen einseitigen Wilcoxon-Test durch.
H0 : Die Mediane der Reaktionszeiten mit und ohne XXX sind gleich.
H1 : Der Median der Reaktionszeit mit XXX ist größer als der Median der Reaktionszeit
ohne XXX.
ohne Medikament
mit Medikament
Differenz
0.40
0.45
-0.05
0.60
0.68
-0.08
0.81
0.86
-0.05
0.75
0.73
0.02
0.72
0.80
-0.08
0.46
0.44
0.02
0.64
0.64
0.00
0.98
0.98
0.00
0.84
0.91
-0.07
0.52
0.58
-0.06
Es bleiben n = 8 Differenzen übrig, die nicht gleich Null sind. Wir ordnen diese nach der
Größe ihrer Beträge.
geordnet
negative Differenzen
positive Differenzen
Rangplätze
negative Differenzen
positive Differenzen
0.02
1.5
-0.05
-0.05
-0.06
-0.07
-0.08
-0.08
3.5
3.5
5
6
7.5
7.5
0.02
1.5
Rangsummen
33
3
Wir testen H1 : Median von X1 kleiner als Median von X2 . Daher ist unsere Teststatistik die
Rangsumme
W = W + = 3.
Aus der Tabelle für den Wilcoxon-Test mit Stichprobenumfang n = 8 entnehmen wir den kritischen
Wert für α = 0.05 und Stichprobenumfang n = 8:
W0.05 = 5.
Also ist
W = 3 ≤ 5 = Wα
und die Nullhypothese ist zurückzuweisen. Aus diesen Daten folgt signifikant, dass das Medikament
die Reaktionszeit verlängert. ¤
Methode 3.4.3.7 (Mann-Whitney-U-Test für unabhängige Stichproben).
• Statistischer Test, ob die Mediane zweier Zufallsvariablen X1 , X2 gleich
sind.
• Hypothesen
H0 : Die Mediane der Zufallsvariablen sind gleich.
H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante:
(a) Der Median von X1 liegt über dem Median von X2 (einseitig).
(b) Der Median von X1 liegt unter dem Median von X2 (einseitig).
(c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig).
α: Signifikanzniveau α.
• Datenmaterial: Zwei voneinander unabhängige Stichproben von jeweils n1
unabhängigen Realisierungen von X1 und n2 unabhängigen Realisierungen
von X2 .
• Bedingungen: X1 und X2 haben stetige Verteilungen und dieselbe Form
der Verteilung, nur parallelverschoben, sodass die Mediane ungleich sein
können. (Ohne diese Bedingung testet der U-Test die Nullhypothese: “Die
Verteilungen sind gleich” gegen die Alternativhypothese “Die Verteilungen
sind ungleich”.)
3.4. PARAMETERFREIE METHODEN
163
Diskussion: Bei diesem Test werden die Daten beider Stichproben zunächst gemeinsam auf n1 +
n2 Rangplätze angeordnet. Es wird dann für jede Stichprobe die Summe der von ihr belegten
Rangplätze ermittelt. Aus diesen beiden Rangsummen wird eine Teststatistik berechnet und mit
einer Tabelle für den Mann-Whitney Test verglichen. ¤
Beispiel 3.4.3.8. Ein Weinversand legt seinen Sendungen eine Antwortkarte
bei, mit der die Kunden ihre Zufriedenheit mit den erhaltenen Weinen auf der
Skala 0% bis 100% beurteilen können. Für den Wein California Carboxyle Valley
kamen insgesamt 6 Antworten, für den Wein Grinzinger Protonenringelspiel kamen
4 Antworten. Die folgende Tafel zeigt die Ergebnisse. Kann geschlossen werden,
dass die Kundschaft die beiden Weine unterschiedlich beurteilt? (Signifikanzniveau
0.1).
Carboxyle Valley
50 60
Protonenringelspiel 20 80
70
90
90
50
30
50
Diskussion: Wir testen
H0 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind gleich.
H1 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind verschieden.
SPSS liefert folgende Tabellen:
Bezeichnung
Carboxyle Valley
Grinzinger Protonenringelspiel
gesamt
N
6
4
10
mittlerer Rang
5.42
5.63
Rangsumme
32.50
22.50
Mann-Whitney U
11.50
Wilcoxon W
32.50
Asymptotische Signifikanz (2-seitig)
0.914
Exakte Signifikanz (2* einseitig)
0.914a
a nicht für Bindungen korrigiert
Die erste Tabelle zeigt die Stichprobenumfänge, die Rangsummen, und daraus berechnet den
mittleren Rang, den die Weine der jeweiligen Stichprobe belegen. Wir sehen, dass die mittleren
Ränge sich nicht sehr unterscheiden, Grinzing schneidet eine Spur schlechter ab als Kalifornien.
Die zweite Tabelle zeigt die Teststatistiken sowohl nach Mann-Whitney als auch nach Wilcoxon,
und die daraus errechnete Signifikanz. Mit einem p-Wert von 0.914 kann die Nullhypothese nicht
zurückgewiesen werden. Aus diesen Daten kann nicht gefolgert werden, dass die beiden Weine bei
den KonsumentInnen verschieden gut ankommen.
Oft bietet SPSS zwei Rechenverfahren an, ein asymptotisches mit Näherungsformel, und ein
exaktes. Bei großen Stichproben liefert das asymptotische Verfahren sehr ähnliche Resultate wie
das zeit- und rechenaufwändige exakte Verfahren, und man kann sich mit dem Näherungsverfahren
begnügen. Bei kleinen Stichproben sollte man sich nur auf das exakte Verfahren verlassen. In vielen
Fällen kann man bei SPSS das exakte Verfahren an- oder abwählen. In unserem Beispiel liefern
beide Methoden bis auf drei Dezimalen denselben Zahlenwert.
Streng genommen gelten die Mann-Whitney-U Tabellen nur für Daten ohne Bindungen (also
ohne ex-aequo Rangplätze) und müssten noch korrigiert werden, wenn Bindungen auftreten. Allerdings verwendet man, wenn nur einige wenige Bindungen auftreten, unbesorgt die unkorrigierten
Tabellen. ¤
Methode 3.4.3.9 (Kruskal-Wallis-H-Test ).
• Parameterfreier statistischer Test, ob mehrere Zufallsvariablen X1 , · · · , Xk
gleich verteilt sind.
• Hypothesen
H0 : Die Verteilungen aller Zufallsvariablen sind gleich.
H1 : Mindestens zwei von den k Zufallsvariablen weichen in der Lage voneinander ab.
α: Signifikanzniveau α.
164
3. STATISTISCHES SCHÄTZEN UND TESTEN
• Datenmaterial: Zu jeder Zufallsvariablen Xj eine Stichprobe von jeweils
nj unabhängigen Realisierungen.
• Bedingungen: Keine Normalverteilungsbedingung! Mindestens 5 Merkmalsträger in jeder Stichprobe.
Diskussion: Auch dieser Test beruht, wie der Mann-Whitney-U-Test, auf Rangsummen.
¤
Tipp 3.4.3.10. Wir haben bisher keine Variante des t-Tests zum Vergleich von
mehr als 2 Mittelwerten kennengelernt. Wenn Normalverteilung vorausgesetzt wird,
verwendet man statt des Kruskal-Wallis-Tests die Varianzanalyse.
Was Sie jetzt können:
Methoden: Vorzeichentest, Mann-Whitney-U-Test, Wilcoxon-Test
für verbundene Stichproben, Kruskal-Wallis-Test. Sie wissen von diesen Methoden, wann man sie anwendet, und wissen, dass sie auf
Grundlage von Rangornungen funktionieren. Die genauen Formeln
und Tabellen finden Sie gegebenenfalls in der Lehr- und Handbuchliteratur.
KAPITEL 4
Wechselwirkungen zwischen Merkmalen
Übersicht:
1. Varianzanalyse
1.1. Prinzip der einfaktoriellen Varianzanalyse
1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse
1.3. Post hoc Tests
1.4. Zweifaktorielle Varianzanalyse
2. Lineare Regression
2.1 Modell der linearen Regression
2.2 Interpretation der Ergebnisse und Modelldiagnostik
4.1. Varianzanalyse
Übersicht:
1.
2.
3.
4.
Prinzip der einfaktoriellen Varianzanalyse
Durchführung der einfaktoriellen Varianzanalyse
Post hoc Tests
Zweifaktorielle Varianzanalyse
4.1.1. Prinzip der einfaktoriellen Varianzanalyse.
Übersicht:
Einflüsse von Faktoren zeigen sich in der Streuung
Feste und zufällige Faktorstufen
Variabilität innerhalb und zwischen den Faktorstufen
4.1.1.1. Einflüsse von Faktoren zeigen sich in der Streuung.
Beispiel 4.1.1.1. Bei allen folgenden Versuchen werden die Messwerte streuen.
Welche Ursachen können die Streuungen haben?
1)
2)
3)
4)
Eine Person wird 3 mal gewogen.
5 Personen gleichen Alters und Geschlechtes werden je 3 mal gewogen.
Es werden je 5 Frauen und 5 Männer jeweils 3 mal gewogen.
Aus jeder der folgenden Altersstufen: 10 Jahre, 30 Jahre, 60 Jahre werden
je 5 Frauen und 5 Männer jeweils 3 mal gewogen.
165
166
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Diskussion: 1.) Auch wenn dieselbe Person öfters gewogen wird, werden die Messwerte nicht exakt
gleich sein. Einerseits schleichen sich bei jeder Messung Fehler ein. Andererseits schwankt auch
das Gewicht einzelner Personen (zum Beispiel schwerer knapp nach einer reichlichen Mahlzeit).
2.) Werden mehrere Personen gleichen Alters und Geschlechts gewogen, so kommt zu den
obigen Ursachen für die Streuung noch die bekannte Tatsache, dass auch Personen gleichen Alters
und Geschlechtes sehr unterschiedlich schwer sein können. Wir haben eine Streuung innerhalb der
Alters- und Geschlechtsklasse.
3.) Frauen und Männer sind unterschiedlich groß und schwer. Zu den Streuungen auf Grund
der Verschiedenheit aller Menschen untereinander kommt noch der systematische Unterschied
zwischen den Geschlechtern. Das Geschlecht ist ein Faktor, der das Gewicht beeinflusst. Daher
wird die Streuung der Gewichte innerhalb von Gruppen mit gemischten Geschlecht im Allgemeinen
größer sein als die Streuung innerhalb reiner Frauen- oder Männergruppen.
4.) Natürlich sind Kinder viel leichter als Erwachsene. Das Alter ist ein weiterer Faktor,
der das Gewicht beeinflusst. Die Streuung der Gewichte innerhalb von Gruppen, die mehrere
Altersstufen umfassen, wird normalerweise größer sein als die Streuung der Gewichte innerhalb
einer Altersklasse. ¤
Definition 4.1.1.2. Die Varianzanalyse (englisch ANOVA, analysis of variance) ist eine Methode, festzustellen, ob ein oder mehrere nominale Merkmale F1 , F2 , · · · ein metrisches Merkmal X beeinflussen. Die nominalen Merkmale
F1 , F2 , · · · heißen die Faktoren, ihre Ausprägungen sind die Faktorstufen. Das
metrische Merkmal X heißt die Zielvariable oder abhängige Variable.
4.1.1.2. Feste und zufällige Faktorstufen.
In der Versuchsplanung für eine Varianzanalyse gibt es grundsätzlich zwei Strategien:
Definition 4.1.1.3.
1) Bei der Varianzanalyse mit festen Effekten wird systematisch zu jeder
Stufe des Faktors eine Stichprobe angelegt.
2) Bei der Varianzanalyse mit zufälligen Effekten ergeben sich die Faktorstufen aus der zufälligen Auswahl der Stichprobe.
Beispiel 4.1.1.4. Haben verschiedene Exemplare derselben Gattung von Passiflora unterschiedlich große Früchte? 5 Exemplare von Passiflora werden zufällig
ausgewählt, und unter gleichen Bedingungen gehalten. Jede ausgereifte Frucht wird
gewogen. Unter welches Modell von Varianzanalyse fällt dieses Problem?
Diskussion: Zielvariable ist das Gewicht der Frucht, Faktor ist das einzelne Exemplar. Die Frage
bezieht sich nicht auf die ausgewählten 5 Exemplare, sondern generell, ob verschiedene Faktorstufen (Exemplare) unterschiedlich große Früchte haben. Aus allen möglichen Faktorstufen wurden
5 zufällig ausgewählt. Daher liegt hier eine Varianzanalyse mit zufälligen Effekten vor. ¤
Beispiel 4.1.1.5. Haben die Apfelsorten Schafnase, Kronprinz Rudolf, Oststeirische Zitronette unterschiedlich große Früchte? Von jeder der drei Sorten wurden
10 Bäume zufällig ausgewählt und je 20 Früchte davon gewogen. Unter welches
Modell der Varianzanalyse fällt dieses Problem?
Diskussion: Zielvariable ist wieder das Gewicht der Frucht, Faktor die Apfelsorte in den drei Stufen
Schafnase, Kronprinz, Zitronette. Die Frage dreht sich diesmal um drei spezielle Faktorstufen
(nämlich um den Vergleich genau der drei genannten Sorten), und zu jeder Faktorstufe wurde
gezielt eine Stichprobe angelegt. Das ist eine Varianzanalyse mit festen Effekten. ¤
4.1. VARIANZANALYSE
167
4.1.1.3. Variabilität innerhalb und zwischen den Faktorstufen.
Damit die Rechnungen einfach und durchsichtig bleiben, verwenden wir in diesem Beispiel
unrealistische Zahlenwerte und extrem kleine Stichproben.
Beispiel 4.1.1.6. Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es ergaben sich folgende Längen:
Art
A B C
1 1 8
3 3 6
3 2
1 2
Welche Mittelwerte und Streuungen lassen sich innerhalb dieser Stichprobe
errechnen, und welche Freiheitsgrade gehören zu diesen Streuungen?
Vergleichen Sie die Streuung, die auf die Unterschiede der Arten zurückzuführen
ist, mit der Streuung, die darauf zurückzuführen ist, dass die Käfer innerhalb einer
Art verschieden groß sind.
Diskussion: Wir werden unsere Daten immer in der folgenden Form und mit der folgenden Nomenklatur anschreiben:
j
i
1
2
..
.
Summen
Stichprobenumfänge
Mittelwerte
1
x11
x12
..
.
T1
n1
x1
Faktorstufen
2
···
x21 · · ·
x22 · · ·
..
.
T2
···
n2
···
x2
···
Für unsere Daten ergibt das die Tabelle:
1 2
1
1 1
2
3 3
3
3 2
4
1 2
Ti 8 8
ni 4 4
xi 2 2
total
k
xk1
xk2
..
.
Tk
nk
xk
Gesamtsumme
Gesamtumfang
Gesamtmittelwert
3
8
6
total
14
2
7
T = 30
N = 10
x=3
T
N
x
Beachten Sie, dass der Gesamtmittelwert das gewichtete Mittel der drei Mittelwerte der
Faktorstufen ist:
4×2+4×2+2×7
.
x=
4+4+2
Wir wenden uns nun den Streuungen zu. Zunächst schätzen wir die Varianz aus der gesamten
Stichprobe, also
1 X
(xij − x)2 .
N − 1 i,j
Die Quadratsumme ohne Division durch N − 1 werden wir als SST (Summe der Quadrate total)
bezeichnen.
Die folgende Tabelle liefert die Quadrate der Abweichungen vom Gesamtmittelwert: Zum
Beispiel ist der erste Eintrag
(x11 − x)2 = (1 − 3)2 = 4.
168
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
1
4
0
0
4
8
1
2
3
4
Summe
2
4
0
1
1
6
3
25
9
total
34
48
Wir erhalten
SST = 48.
Als geschätzte Varianz aus der gesamten Stichprobe ergibt sich MST (Mittel der Quadratsummen
total):
M ST = 48/9 ≈ 5.33.
Diese Varianz hat 9 Freiheitsgrade.
Wir wollen nun nur jenen Teil der Streuung schätzen, der nicht durch die Unterschiede zwischen den Arten entsteht, sondern nur dadurch, dass jeder Käfer in der Größe mehr oder weniger
vom Mittelwert seiner eigenen Art abweicht. Die Tabelle ist ebenso gebaut wie die vorige, jedoch
werden die Quadrate der Abweichungen der xij von ihren eigenen Klassenmittelwerten statt vom
Gesamtmittelwert berechnet. Zum Beispiel ist der erste Eintrag
(x11 − x1 )2 = (1 − 2)2 = 1.
1
1
1
1
1
4
1
2
3
4
Summe
2
1
1
0
0
2
3
1
1
total
2
8
Wir benennen die erhaltene Quadratsumme SSI (Summe der Quadrate innerhalb der Faktorstufen) und die daraus geschätzte Varianz MSI. Da wir zur Berechnung dieser Varianz drei
Mittelwerte bilden mußten, wurden von 10 Daten 3 Freiheitsgrade verbraucht, und es bleiben 7
Freiheitsgrade.
SSI = 8
M SI = 8/7 ≈ 1.143
Nun berechnen wir die Streuung, die durch die Unterschiede der Arten entsteht. Wir errechnen also aus den Mittelwerten der drei Faktorstufen eine Varianz. Dabei berücksichtigen wir,
welche Stichprobenumfänge hinter jedem der drei Mittelwerte stehen, wir berechnen also eine
gewichtete Quadratsumme:
i
xi
ni
ni (xi − x)2
1
2
4
4
2
2
4
4
3
7
2
32
total
3
40
Die erhaltene Quadratsumme bezeichnen wir SSZ (Summe der Quadrate zwischen den Faktorstufen), die daraus geschätzte Varianz mit MSZ. Da wir aus drei Werten eine Varianz unter
Berücksichtigung eines (gewichteten) Mittelwertes errechnet haben, hat MSZ zwei Freiheitsgrade.
SSZ = 40
M SZ = 40/2 = 20
Wir stellen noch einmal die drei Quadratsummen einander gegenüber:
Z
I
T
Zwischen den
Faktorstufen
Innerhalb der
Faktorstufen
gesamt
SS
Quadratsumme
40
dF
Freiheitsgrade
2
MS
Varianz
20
8
7
8/7
48
9
48/9
4.1. VARIANZANALYSE
169
Wir beobachten, dass sich nicht nur die Freiheitsgrade, sondern vor allem auch die Quadratsummen addieren:
SST = SSZ + SSI.
Diese wichtige Formel ist keineswegs selbstverständlich, aber mit etwas mathematischem Geschick
kann man sie beweisen. Es hätte also genügt, SST und SSZ auszurechnen, SSI hätten wir dann
durch eine einfache Subtraktion erhalten.
Nun vergleichen wir die geschätzten Varianzen. MSZ ist deutlich größer als MSI, daher ist
nicht zu erwarten, dass MSZ nur auf Grund der zufälligen Größendifferenzen der Käfer, die sich
ja auch in MSI manifestieren, entsteht, sondern die Käferart bei der Größe kräftig mitmischt. Je
größer MSZ im Vergleich zu MSI ausfällt, umso stärker sprechen die Daten für die Annahme eines
Einflusses der Käferart auf die Größe. Um diese Gedanken zu quantifizieren, betrachten wir den
Quotienten
F =
M SZ
= 17.5.
M SI
Unter geeigneten Annahmen ist das Verhältnis geschätzter Varianzen F-verteilt, hier mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Laut Tabelle liegt eine F-verteilte
Zufallsvariable mit diesen Freiheitsgraden nur mit Wahrscheinlichkeit 0.05 über dem kritischen
Wert
F0.05 = 4.737.
Damit können wir mit Signifkanzniveau 0.05 schließen, dass ein Einfluss von der Käferart auf die
Größe besteht, anders ausgedrückt, dass nicht alle drei Arten im Mittel gleich groß sind. ¤
Merksatz 4.1.1.7. Die Grundidee der Varianzanalyse ist, eine Stichprobe von
mehreren Gruppen mit konstanten Faktorstufen zu untersuchen. Wenn die Streuung
der Zielvariablen in der gesamten Stichprobe signifikant größer ist als die Streuung
innerhalb der einzelnen Gruppen mit konstanten Faktorstufen, so läßt sich folgern,
dass die Faktoren Einfluss auf die Zielvariable haben.
Was Sie jetzt können:
Begriffe und Wissen: Grundkonzept der einfaktoriellen Varianzanalyse, Variabilität innerhalb und zwischen den Faktorstufen.
Zufällige und feste Faktorstufen.
4.1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse.
Übersicht:
1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren
2. Durchführung der Varianzanalyse
170
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
4.1.2.1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren.
Jede statistische Methode baut auf Voraussetzungen über die untersuchten Merkmale auf.
Zum Beispiel wissen wir, dass der t-Test angewendet werden kann, wenn die untersuchten Zufallsvariablen normalverteilt sind. Auf dieser mathematischen Annahme bauen die Rechengesetze
des t-Tests auf. Die Annahme trifft aber nicht immer zu, und ist oft auch nur annäherungsweise
erfüllt. Wenn wir für Merkmale oder Zufallsvariablen eine mathematische Struktur voraussetzen,
sprechen wir von einem Modell.
Merksatz 4.1.2.1. Einer einfaktoriellen Varianzanalyse liegt folgendes Modell
zugrunde:
1. Für jede der Faktorstufen i = 1, 2, · · · , k ist die abhängige Variable Yi eine
Zufallsvariable
Yi = µi + σZ,
2. Dabei ist Z eine standardnormalverteilte Zufallsvariable.
3. Der Parameter µi ist der Mittelwert von Yi .
4. Der Parameter σ ist die Standardabweichung von Yi , diese ist für alle
Faktorstufen i = 1, 2, · · · , k dieselbe.
Die Varianzanalyse testet die Hypothesen
H0 : µ1 = µ2 = · · · = µk .
H1 : Mindestens zwei Werte µi , µj sind ungleich.
Diskussion: Die Erhebung einer Stichprobe für die Faktorstufe i wird also als Stichprobe von
Realisierungen einer Zufallsvariablen Yi betrachtet. Dabei werden aber wesentliche Annahmen
gemacht:
Die Zufallsvariablen Yi sind normalverteilt.
Die Standardabweichung hängt nicht von der Faktorstufe ab (Varianzhomogenität).
Auch die Grundfrage, ob das metrische Merkmal von den Faktorstufen abhängt, lässt sich durch
das Modell ausdrücken: Haben die verschiedenen Zufallsvariablen alle denselben Mittelwert? ¤
Tipp 4.1.2.2. Nur für (annähernd) normalverteilte Merkmale, deren Standardabweichung (fast) nicht von den Faktorstufen abhängt, ist die Varianzanalyse gültig.
(In anderen Situationen bietet sich als parameterfreie Methode der Kruskal-Wallis
H-Test an.)
Bemerkung 4.1.2.3. Man kann die Varianzanalyse auch als einen Vergleich
zweier Modelle ansehen: Wieder ist für jede Faktorstufe i = 1, 2, · · · , k die abhängige
Variable Yi eine Zufallsvariable:
Modell B
Modell A
(einfaches Modell)
(komplexes Modell)
Yi = µ + σZ
Yi = µi + σZ
mit
mit
Z standardnormalverteilt
Z standardnormalverteilt
µ Mittelwert von Yi
µi Mittelwert von Yi
(derselbe für alle i)
(können verschieden sein)
σ Standardabweichung von Yi σ Standardabweichung von Yi
(dieselbe für alle i)
(dieselbe für alle i)
Die Varianzanalyse testet dann die Hypothesen:
H0 : Es gilt das einfache Modell A.
H1 : Es gilt das komplexere Modell B.
4.1. VARIANZANALYSE
171
Diskussion: Tatsächlich ist Modell A das einfachere, es hat nur 2 Parameter, nämlich µ und σ.
Dagegen hat Modell B insgesamt k + 1 Parameter, nämlich σ, µ1 , µ2 , · · · , µk . Damit lässt sich
Modell B besser an Daten anpassen, das heißt, mehr von den Daten wird durch die Parameter
beschrieben, und für die zufällige Streuung, die durch σ repräsentiert wird, bleibt weniger übrig.
Tatsächlich findet wird die Varianzanalyse oft herangezogen, um einfachere mit komplexeren Modellen zu vergleichen. ¤
4.1.2.2. Durchführung der Varianzanalyse.
Methode 4.1.2.4 (Einfaktorielle Varianzanalyse mit festen Effekten). Statistischer Test, ob ein nominales Merkmal (Faktor) auf ein metrisches Merkmal X
(Zielvariable) Einfluß nimmt.
• Hypothesen:
H0 : Nullhypothese: Für alle Faktorstufen hat das Merkmal X denselben
Mittelwert.
H1 : Alternativhypothese: Es gibt mindestens ein Paar von Faktorstufen,
für welche X verschiedene Mittelwerte hat.
α: Signifikanzniveau: α.
• Daten: Unabhängige Stichproben von je mindestens 2 Realisierungen von
X für jede Faktorstufe.
• Nomenklatur:
Anzahl der Faktorstufen
k
Stichprobenumfänge für die Faktorstufen n1 · · · nk
Gesamtstichprobenumfang
N = n1 + · · · + nk
Realisierungen für Faktorstufe i
xi1 · · · xini
• Bedingungen:
– Für jede feste Faktorstufe ist X normalverteilt mit Mittelwert µi und
Standardabweichung σ.
– Die Standardabweichung von X ist für alle Faktorstufen dieselbe.
(“Varianzhomogenität”).
– Die Stichproben jeder Faktorstufe für sich bestehen aus unabhängigen
Realisierungen, und die Stichproben der Faktorstufen untereinander
sind ebenfalls unabhängig.
– Für jede Faktorstufe wurde eine Stichprobe gezielt erhoben. (Feste
Effekte).
Durchführung des Testes:
1) Für jede Faktorstufe i = 1 · · · k berechnet man die Summe der Realisierungen:
ni
X
Ti =
xij .
j=1
Daraus berechnet man die Gesamtsumme
T =
k
X
Ti .
i=1
1a) Die Mittelwerte werden zwar in der weiteren Durchführung der Varianzanalyse selbst nicht gebraucht, sind aber für die darauf folgenden Analysen
wertvoll:
Ti
T
xi = , x = .
ni
N
172
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
2) Die Gesamtvariabilität SST ist
SST =
ni
k X
X
k
x2ij −
i=1 j=1
n
i
XX
T2
2
=
x2ij − N x
N
i=1 j=1
Diese Variabilität hat N − 1 Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M ST =
SST
.
N −1
3) Die Variabilität zwischen den Faktorstufen ist
SSZ =
k
X
T2
i
i=1
ni
k
−
X
T2
2
=
ni x2i − N x .
N
i=1
Diese Variabilität hat k − 1 Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M SZ =
SSZ
.
k−1
4) Die Variabilität innerhalb der Faktorstufen ist
SSZ = SST − SSI.
Diese Variabilität hat N − k Freiheitsgrade. Daraus errechnet sich die
geschätzte Varianz
M SI =
SSI
.
N −k
5) Die Teststatistik ist
F =
M SZ
M SI
6) Aus einer Tabelle der Quantile der F-Verteilung mit k − 1 Freiheitsgraden des Zählers und N − k Freiheitsgraden des Nenners sucht man Fα so,
dass eine F-verteilte Zufallsvariable mit diesen Freiheitsgraden mit Wahrscheinlichkeit α größer als Fα ausfällt.
7) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen, und ein Einfluss
des Faktors auf die Zielvariable ist mit Signifikanzniveau α statistisch untermauert.
4.1. VARIANZANALYSE
173
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
161,446
18,513
10,128
7,709
6,608
5,987
5,591
5,318
5,117
4,965
4,844
4,747
4,667
4,600
4,543
4,494
4,451
4,414
4,381
4,351
4,325
4,301
4,279
4,260
4,242
4,225
4,210
4,196
4,183
4,171
4,085
4,001
3,936
3,841
199,499
19,000
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
3,982
3,885
3,806
3,739
3,682
3,634
3,592
3,555
3,522
3,493
3,467
3,443
3,422
3,403
3,385
3,369
3,354
3,340
3,328
3,316
3,232
3,150
3,087
2,996
215,707
19,164
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
3,587
3,490
3,411
3,344
3,287
3,239
3,197
3,160
3,127
3,098
3,072
3,049
3,028
3,009
2,991
2,975
2,960
2,947
2,934
2,922
2,839
2,758
2,696
2,605
224,583
19,247
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
3,357
3,259
3,179
3,112
3,056
3,007
2,965
2,928
2,895
2,866
2,840
2,817
2,796
2,776
2,759
2,743
2,728
2,714
2,701
2,690
2,606
2,525
2,463
2,372
230,160
19,296
9,013
6,256
5,050
4,387
3,972
3,688
3,482
3,326
3,204
3,106
3,025
2,958
2,901
2,852
2,810
2,773
2,740
2,711
2,685
2,661
2,640
2,621
2,603
2,587
2,572
2,558
2,545
2,534
2,449
2,368
2,305
2,214
233,988
19,329
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
3,095
2,996
2,915
2,848
2,790
2,741
2,699
2,661
2,628
2,599
2,573
2,549
2,528
2,508
2,490
2,474
2,459
2,445
2,432
2,421
2,336
2,254
2,191
2,099
236,767
19,353
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
3,012
2,913
2,832
2,764
2,707
2,657
2,614
2,577
2,544
2,514
2,488
2,464
2,442
2,423
2,405
2,388
2,373
2,359
2,346
2,334
2,249
2,167
2,103
2,010
238,884
19,371
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
2,948
2,849
2,767
2,699
2,641
2,591
2,548
2,510
2,477
2,447
2,420
2,397
2,375
2,355
2,337
2,321
2,305
2,291
2,278
2,266
2,180
2,097
2,032
1,938
240,543
19,385
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
2,896
2,796
2,714
2,646
2,588
2,538
2,494
2,456
2,423
2,393
2,366
2,342
2,320
2,300
2,282
2,265
2,250
2,236
2,223
2,211
2,124
2,040
1,975
1,880
Beispiel 4.1.2.5. Rechnen Sie Beispiel 4.1.1.6 nach der obigen Methode nach:
Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es
ergaben sich folgende Längen:
Art
A B C
1 1 8
3 3 6
3 2
1 2
Kann aus diesen Daten mit Signifikanzniveau α = 0.05 geschlossen werden,
dass die Durchschnittslänge der Käfer nicht für alle drei Arten gleich ist?
Diskussion: Schritt 1) Bestimmung der Stichprobensummen:
174
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
i
Ti
ni
xi
1
1
3
3
1
8
4
2
2
1
3
2
2
8
4
2
3
8
6
total
14
2
7
T = 30
N = 10
x=3
Schritt 2) Gesamte Variabilität:
SST
=
12 + 32 + 33 + 12 + 12 + 32 + 22 + 22 + 82 + 62 −
302
= 48,
10
Freiheitsgrade
10 − 1 = 9,
48
≈ 5.3333.
M ST =
9
Schritt 3) Variabilität zwischen den Faktorstufen:
82
82
142
302
+
+
−
= 40,
4
4
2
10
Freiheitsgrade
3 − 1 = 2,
40
= 20.
M SZ =
2
Schritt 4) Variabilität innerhalb der Faktorstufen:
SSZ
=
SSI
=
Freiheitsgrade
M SI
=
48 − 40 = 8,
10 − 3 = 7,
8
≈ 1.1429.
7
Schritt 5) Vergleichstabelle und Teststatistik:
SS
40
8
48
Z
I
T
dF
2
7
9
MS
20
1.1429
5.3333
F
17.5
Schritt 6) Kritischer Wert der F-Verteilung mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners für α = 0.05 aus der Tabelle:
F0.05 = 4.737.
Schritt 7) Testentscheidung: Weil
F = 17.5 > 4.737 = F0.05 ,
wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.05 untermauert, dass die
mittlere Größe für mindestens zwei der Käferarten verschieden ist. ¤
Beispiel 4.1.2.6. Für Beispiel 4.1.2.5 wurde in SPSS eine einfaktorielle Varianzanalyse durchgeführt. Der Test soll für das Signifikanzniveau α = 0.05 durchgeführt werden. Das Programm liefert die folgende Tabelle:
Zwischen den Gruppen
Innerhalb der Gruppen
Gesamt
Quadratsumme
40
8
48
dF
2
7
9
Mittel der
Quadrate
20
1.143
F
Signifikanz
17.5
0.002
Diskussion: Die Tabelle zeigt die Variabilitäten zwischen und innerhalb der Gruppen, sowie die
totale Variabilität. Daneben jeweils ihre Freiheitsgrade und die daraus geschätzten Varianzen.
F ist der Wert der Teststatistik MSZ/MSI und die Signifikanz der p-Wert des F-Tests bei 2
Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Da p = 0.002 < 0.05 = α, wird
die Nullhypothese zurückgewiesen. Aus den Daten kann geschlossen werden, dass mindestens zwei
der drei Käferarten sich in der Durchschnittsgröße unterscheiden. ¤
4.1. VARIANZANALYSE
175
Was Sie jetzt können:
Begriffe und Wissen: Modell und Bedingungen der einfaktoriellen
Varianzanalyse.
Methoden: Einfaktorielle Varianzanalyse mit festen Faktoren.
4.1.3. Post-hoc Tests.
Übersicht:
1.
2.
2.
4.
5.
Problematik des Testens nach Sichten der Daten
Geplanter t-Test
Signifikanz des Einzeltests und der Serie
Bonferroni-Korrektur
Erst sichten, dann testen?
4.1.3.1. Problematik des Testens nach Sichten der Daten.
Wenn die Varianzanalyse ergeben hat, dass zwischen den Faktorstufen signifikante Unterschiede bestehen, wollen wir natürlich auch wissen, welche Stufen sich von welchen unterscheiden. Grundsätzlich steht für die Frage, ob sich zwei Gesamtheiten unterscheiden, der t-Test für
unabhängige Stichproben zur Verfügung. Die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen und eine geschätzte Varianz (nämlich SQI) für den t-Test hat schon die Berechnung
der Varianzanalyse geliefert. Daher wird der Vergleich der einzelnen Faktorstufen rechentechnisch
keinen großen Aufwand mehr machen.
Es ist jedoch problematisch, sehr viele t-Tests anzusetzen. Wenn auch der einzelne Test
vielleicht mit einem kleinen Signifikanzniveau α angesetzt wird, steigt die Wahrscheinlichkeit,
dass unter vielen Tests mindestens einmal eine Nullhypothese zu Unrecht abgelehnt wird, stark
an. Auch sind die Tests, wenn ein Mittelwert in mehreren Tests verwendet wird, nicht mehr
unabhängig, so dass sich die Fehlerwahrscheinlichkeiten nicht mehr exakt ableiten lassen.
Noch komplizierter wird das Problem, wenn wir — was wir natürlich in Wirklichkeit am
liebsten wollen — erst die Mittelwerte ansehen, und dann jene heraussuchen, die am weitesten
auseinanderliegen. Wenn wir nun mit diesen ausgewählten Mittelwerten einen t-Test durchführen
würden, wäre die Wahrscheinlichkeit, ein (scheinbar) signifikantes Ergebnis zu erhalten, übermäßig
groß. Denn natürlich ist es viel wahrscheinlicher, dass der t-Wert über einen kritischen Tabellenwert steigt, wenn erst aus vielen Mittelwerten die beiden entferntesten ausgewählt werden, und
daraus t errechnet wird, als wenn einfach zwei Mittelwerte vorgegeben sind.
Wir werden also für Tests, die wir erst nach Sichtung der Ergebnisse der Varianzanalyse
ansetzen, besondere Methoden brauchen.
Definition 4.1.3.1.
Die Hypothesen eines a-priori Test werden festgelegt, bevor die Mittelwerte der Faktorstufen bekannt sind. (Die tatsächliche Durchführung der
Berechnung erfolgt aber nach der Varianzanalyse mit Hilfe der in der Varianzanalyse errechneten Zwischengrößen.)
Ein a-posteriori oder post-hoc Test wird erst angesetzt, nachdem die
Ergebnisse der Varianzanalyse, insbesondere die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen, gesichtet wurden.
176
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
4.1.3.2. Geplanter t-Test.
Wir beginnen mit einer a-priori Methode ohne vorheriges Ansehen der Mittelwerte. Vielleicht
haben wir schon vor der Durchführung der Varianzanalyse die Vermutung, dass ganz bestimmte
Faktorstufen unterschiedliche Wirkung auf die Zielvariable haben. Wenn wir einige wenige bestimmte Paare auf jeden Fall vergleichen wollen, eignet sich der folgende Test. Er ist einfach eine
Sammlung von t-Tests zum Vergleich unabhängiger Stichproben.
Methode 4.1.3.2 (LSD-Test, least significant difference, geplanter multipler
t-Test). Statistischer Test im Zusammenhang mit einer Varianzanalyse über k
Faktorstufen. Unterscheiden sich bestimmte ausgewählte Paare von Faktorstufen
bezüglich der Zielvariablen?
• Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test:
H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i
und Stufe j gleich.
H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die
beiden Faktorstufen verschieden. (zweiseitig).
α: Signifikanzniveau α für jeden einzelnen Test separat.
• Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen
für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen
MSI aus der Varianzanalyse.
• Bedingungen:
– Jede Faktorstufe kommt höchstens in einem Vergleichspaar vor.
– Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen
mindestens 2 Faktorstufen.
– Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die
Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich.
– Die Vergleichspaare werden vor Sichtung der Mittelwerte ausgewählt.
Der Test wird folgendermaßen durchgeführt:
1) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI).
2) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert tα/2
mit N − k Freiheitsgraden entnommen.
3) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet:
s
ni + nj
GD = tα/2 M SI
.
ni nj
3a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich:
ni = n, so muss die Grenzdifferenz nur einmal berechnet werden:
r
2
GD = tα/2 M SI .
n
4) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied.
Diskussion: Das ist einfach eine Aneinanderreihung von t-Tests für 2 unabhängige Stichproben.
Statt jeweils die Varianz für jedes Paar neu zu schätzen, nehmen wir die Schätzung MSI aus der
Varianzanalyse. MSI schätzt ja gerade, was wir brauchen: Den Anteil der Streuung, die nicht auf
Unterschiede zwischen den Faktorstufen zurückzuführen ist.
Nachteil dieses Tests ist, dass wir nicht alle Paare vergleichen dürfen, sondern noch vor
Sichtung der Daten einige wenige auswählen müssen, die uns besonders interessant erscheinen.
¤
4.1. VARIANZANALYSE
177
Beispiel 4.1.3.3. 5 verschiedene Käsesorten werden verglichen. Bestehen Unterschiede im Fettgehalt? Es wird insbesondere vermutet, dass Sorte E deutlich
fetter als A und B ist. Die Ergebnisse der Varianzanalyse werden erwartet. Wir
setzen einen LSD-Test an, ob B und E unterschiedlichen Fettgehalt haben:
H0 : B und E haben im Mittel denselben Fettgehalt.
H1 : Der mittlere Fettgehalt von E ist größer als von B. (einseitig)
α: Signifikanzniveau: 0.05.
Leider dürfen wir keinen zweiten LSD für A und E ansetzen, sonst käme E in zwei
Vergleichen vor.
Von jeder Sorte wurde eine Stichprobe vom Umfang 5 erhoben. Der mittlere
Fettgehalt in % für jede der Stichproben ist unten tabelliert:
Sorte
Fettgehalt (Stichprobenmittel)
A
46
B
47
C
50
D
51
E
56
Die Varianzanalyse ergab:
zwischen Stufen
innerhalb Stufen
gesamt
Quadratsumme
310
140
450
dF
4
20
24
Varianz
77.5
7
18.75
F
11.07
Signifikanz
.000
Diskussion: Wir haben k = 5 Faktorstufen, bei gleich großen Stichproben für jede Faktorstufe
ni = n = 5, und einem Gesamtstichprobenumfang von N = 25. Die Varianzanalyse ergab einen
signifikanten Unterschied zwischen den Faktorstufen.
Wir führen nun den LSD-Test durch. Der ANOVA-Tabelle entnehmen wir SQI = 7 sowie
die Anzahl der Freiheitsgrade 20. Da der Test einseitig angesetzt ist, entnehmen wir der Tabelle
den kritischen Wert der t-Verteilung für α = 0.05 und 20 Freiheitsgrade:
t0.05 = 1.725.
Der kleinste signifikante Abstand (Grenzdifferenz) ist dann
r
r
2
7×2
≈ 2.886.
GD = tα M SI = 1.725
n
5
Die Mittelwerte für Faktorstufen B und E entnehmen wir der Tabelle der Mittelwerte:
xE − xB = 56 − 47 = 9.
Also gilt
xE − xB = 9 ≥ 2.886 = GD.
Wir können daher die Nullhypothese zurückweisen. Unsere Analyse untermauert signifkant, dass
Käsesorte E im Durchschnitt einen höheren Fettgehalt hat als Sorte B. ¤
4.1.3.3. Signifikanz des Einzeltests und der Serie.
Wenn wir 5 Faktoren haben und jeden mit jedem durch einen t-Test vergleichen wollen, so
ergibt das 10 t-Tests. Nehmen wir an, wir testen mit α = 0.05 und alle Faktoren haben denselben
Mittelwert. Jeder der t-Tests spricht dann mit einer Wahrscheinlichkeit von 0.95 für H0 . Die
Wahrscheinlichkeit, dass alle 10 Tests für H0 sprechen, ist allerdings nur mehr 0.9510 ≈ 0.6,
das heißt, die Wahrscheinlichkeit, dass unter allen diesen Tests mindestens einer für H1 spricht,
ist bereits 0.4. Daher ist es nicht sinnvoll, ohne weitere Vorsichtsmaßnahmen sehr viele Tests
durchzuführen, und dann die signifikanten herauszuklauben.
Merksatz 4.1.3.4. Wenn wir eine Serie von Tests durchführen, müssen wir
unterscheiden:
1) Das Signifikanzniveau der Serie. Dies ist das erlaubte Risiko, dass innerhalb der gesamten Serie eine Nullhypothese zu Unrecht zurückgewiesen
wird.
178
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
2) Das Signifikanzniveau des einzelnen Tests. Dies ist die erlaubte Risiko,
dass in diesem einen Test die Nullhypothese zu Unrecht zurückgewiesen
wird.
Natürlich ist das Signifikanzniveau der Serie größer als das des Einzeltests. Als
vorsichtige Faustregel gilt: Das Signifikanzniveau einer Serie von Tests ist nur geringfügig kleiner als die Summe der Signifikanzniveaus der einzelnen Tests.
4.1.3.4. Bonferroni-Korrektur.
Die folgende Methode kontrolliert das Signifikanzniveau der gesamten Vergleichsserie. Sie erlaubt, alle möglichen Vergleiche anzusetzen. Damit ist sie eine post-hoc Methode, einfach deshalb,
weil Nachsehen in den Ergebnissen der Varianzanalyse ohnehin keinen Einfluss auf die Hypothesenstellung hat.
Merksatz 4.1.3.5. Die Bonferroni-Korrektur dient dazu, eine Serie von m
Tests mit einer Signifikanz α für die gesamte Testserie durchzuführen. Man führt
zu diesem Zweck einfach jeden Einzeltest mit einer Signifikanz von α/m aus.
Es gibt verfeinerte Varianten des Bonferroni-Verfahrens, welche die verschiedenen Vergleiche mit unterschiedlichen Signifikanzniveaus durchführen, sodass sich als Signifikanzniveau der
gesamten Vergleichsserie wieder α ergibt.
Methode 4.1.3.6 (Bonferroni-Korrektur des multiplen t-Tests). Statistischer
Test, welche Faktorstufen einer Varianzanalyse über k Faktorstufen sich bezüglich
der Zielvariablen unterscheiden. Jede Stufe wird mit jeder Stufe verglichen.
• Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test:
H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i
und Stufe j gleich.
H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die
beiden Faktorstufen verschieden. (zweiseitig).
α: Signifikanzniveau α für die gesamte Vergleichsserie.
• Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen
für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen
MSI aus der Varianzanalyse.
• Bedingungen:
– Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen
mindestens 2 Faktorstufen.
– Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die
Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich.
Der Test wird folgendermaßen durchgeführt:
1) m ist die Anzahl der Vergleiche, das ist m = k(k−1)
.
2
2) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI).
3) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert
tα/(2m) mit N − k Freiheitsgraden entnommen.
4) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet:
s
GD = tα/(2m)
M SI
ni + nj
.
ni nj
4.1. VARIANZANALYSE
179
4a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich:
ni = n, so muss die Grenzdifferenz nur einmal berechnet werden:
r
2
GD = tα/(2m) M SI .
n
5) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied.
Diskussion: Der Unterschied zum LSD-Test besteht nur in der vorsichtigeren Handhabe von α.
Erlaubt man für jeden einzelnen Test eine Wahrscheinlichkeit von α/m, dass die Nullhypothese zu
Unrecht zurückgewiesen wird, so ergibt das insgesamt eine Fehlerwahrscheinlichkeit, die kleiner als
α ist. Das Verfahren ist konservativ, das heißt, es wird nur selten zu Unrecht eine Nullhypothese
zurückweisen, wird also selten ein Paar von Faktorstufen als signifikant unterschiedlich ausweisen.
¤
Definition 4.1.3.7. Ein Testverfahren heißt konservativ, wenn es nur selten
Nullhypothesen zurückweist und daher nur bei großer Sicherheit Daten als signifikant ausweist.
Beispiel 4.1.3.8. Untersuchen Sie die 5 Käsesorten der Studie Beispiel 4.1.3.3
systematisch nach Paaren, für welche der Fettgehalt signifikant verschieden ist.
Signifikanzniveau der gesamten Testserie sei 0.05.
Die Studie baut auf je einer Stichprobe mit Umfang 5 für jede Käsesorte auf.
Die Mittelwerte und die Tabelle der Varianzanalyse waren in dieser Studie:
Sorte
Fettgehalt (Stichprobenmittel)
zwischen Stufen
innerhalb Stufen
gesamt
Quadratsumme
310
140
450
dF
4
20
24
A
46
B
47
Varianz
77.5
7
18.75
C
50
D
51
F
11.07
E
56
Signifikanz
.000
Diskussion: Da nun alle möglichen Paare verglichen werden sollen, können wir nicht den LSD-Test
anwenden sondern greifen auf Bonferroni zurück. Insgesamt haben wir
5(5 − 1)
= 10
2
Vergleiche. Testen wir jeden einzelnen Vergleich mit Signifikanz 0.01, so erhalten wir als Signifikanzniveau für die gesamte Serie 10 × 0.005 = 0.1. Da die Tests zweiseitig sind, entnehmen wir
der Tabelle den kritischen t-Wert für 0.005 bei 20 Freiheitsgraden:
t0.005 = 2, 845.
Der kleinste signifikante Abstand nach Bonferroni ist dann
r
r
2M SI
2×7
GDBonferroni = t0.0025
= 3.153
≈ 5.276.
n
5
Wir erstellen nun eine Tabelle aller Differenzen der Mittelwerte und vergleichen diese mit dem
kritischen Abstand. Für alle Paare mit
|xi − xj | ≥ GDBonferroni = 5.276
ist die Nullhypothese zurückzuweisen. Für diese Paare ist also signifikant untermauert, dass die
beiden Käsesorten im Durchschnitt unterschiedlichen Fettgehalt haben. Wir markieren diese Paare
in der Tabelle mit einem Sternchen ∗. (Natürlich müßten wir in Wirklichkeit nur die halbe Tabelle
ausfüllen, die Werte unter der Diagonalen sind die Spiegelung der Werte über der Diagonalen, mit
umgedrehtem Vorzeichen. Auf der Diagonalen steht immer Null.)
180
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Faktor
A
B
C
D
E
xi
46
47
50
51
56
A
46
0
-1
-4
-5
-10*
B
47
1
0
-3
-4
-9*
C
50
4
3
0
-1
-6*
D
51
5
4
1
0
-5
E
56
10*
9*
6*
5
0
Der Bonferroni-Test findet signifikante Unterschiede im Fettgehalt bei folgenden paarweisen
Vergleichen: Käsesorte A mit E, Sorte B mit E, und Sorte C mit E. ¤
4.1.3.5. Erst sichten, dann testen?
Die nächstliegende Methode wäre, nach der Varianzanalyse zunächst die Paare mit den
größten Mittelwertunterschieden herauszupicken und auf Signifikanz des Unterschiedes zu testen.
Allerdings muss jetzt in Rechnung gestellt werden, dass man aus k Mittelwerten die beiden weitest entfernten wählt: Natürlich bekommt man im Durchschnitt einen größeren Abstand, wenn
man aus mehreren Mittelwerten die entferntesten wählt, als wenn man von vorneherein nur 2
Mittelwerte zum Vergleich hat. Daher würde beim Vergleich mit einer t-Tabelle übermäßig oft
die Nullhypothese (H0 : “Mittelwerte sind gleich”) zurückgewiesen werden. Es gibt aber andere Testverteilungen und darauf aufgebaute A-posteriori Tests, die diesen Effekt einrechnen (z.B.
Student-Newman-Keuls Test).
Was Sie jetzt können:
Begriffe und Wissen: Geplante Tests. Problematik des Testens a
posteriori: Signifikanz der Serie und Signifikanz des Einzeltests, Testen
von Hypothesen nach Sichten der Daten.
Methoden: Geplanter t-Test, Bonferroni-Korrektur.
4.1.4. Zweifaktorielle Varianzanalyse.
Übersicht:
1.
2.
2.
3.
4.
Problemstellung an einem Beispiel
Analyse der Mittelwerte
Hierarchie der Modelle
Quadratsummen
Testen der Modelle gegeneinander
Dieses Kapitel wurde vor allem in die Vorlesung aufgenommen, um Ihnen an einem Beispiel eine Hierarchie ineinandergeschachtelter einfacherer und komplexerer statistischer Modelle
vorzuführen.
4.1.4.1. Problemstellung an einem Beispiel.
Beispiel 4.1.4.1. Unter Schulkindern der 4. Volksschulklasse in einer Bevölkerungsgruppe soll eine bestimmte Fähigkeit getestet werden. Dabei wurde die Bevölkerung unterteilt:
in drei Einkommensschichten: reich, durchschnittlich, arm,
und in zwei Wohnlagen: Stadt und Land.
Haben Einkommen der Eltern und Wohnlage einen Einfluss auf die untersuchte
Fähigkeit der Schulkinder? Aus jeder Kombination Einkommen-Wohnlage wurde je
eine Stichprobe von 4 Kindern getestet, die erreichten Punkte sind in der folgenden
Tabelle angegeben:
4.1. VARIANZANALYSE
Land
Summe
Mittelwert
Stadt
Summe
Mittelwert
ges. Einkommenklasse:
Summe
Mittelwert
181
reich
mittel
arm
13
14
14
15
56
14
30
32
33
33
128
32
7
9
10
10
36
9
28
29
29
30
116
29
6
6
7
9
28
7
28
28
28
32
116
29
184
23
152
19
144
18
ges. Stadt
und Land
120
10
360
30
480
20
Diskussion: Zum Unterschied von der einfaktoriellen Varianzanalyse wird nun die Abhängigkeit
eines metrischen Merkmals von zwei nominalen Merkmalen untersucht. Die Tabelle zeigt die Ergebnisse der Stichproben für jede Kombination der Faktorstufen. Jede Stichprobe umfasst 4 Merkmalsträger. Insgesamt wurden 24 Kinder getestet. In der Tabelle wurden gleich die Mittelwerte der
sechs einzelnen Stichproben berechnet. Unten finden Sie die Mittelwerte je für die drei Einkommensklassen (zu jeder Einkommensklasse gehören 8 Kinder), und rechts die Mittelwerte je für eine
Wohnlage (zu jeder Wohnlage gehören 12 Kinder). Im rechten unteren Eck steht der Mittelwert
über die gesamte Probe. ¤
Merksatz 4.1.4.2. Die zweifaktorielle Varianzanalyse untersucht folgende
Fragestellung: Gegeben sei ein metrisches Merkmal (Zielvariable oder abhängige Variable) und zwei nominale Merkmale (Faktoren) mit je endlich vielen Ausprägungen
(den Faktorstufen). Gibt es einen statistischen Zusammenhang zwischen den Faktoren und dem Mittelwert der abhängigen Variablen? Wenn ja, haben beide Faktoren
Einfluss, oder nur einer der Faktoren? Beeinflussen sich die Faktoren gegenseitig in
ihrer Wirkung auf die Zielvariable (Potenzierung oder gegenseitige Abschwächung)?
In der Tabelle unseres Beispiels 4.1.4.1 wurde zu jeder möglichen Kombination von Einkommensgruppe und Wohnlage eine Stichprobe erhoben. Da 2 Faktorstufen der Wohnlage (Stadt Land) und drei Faktorstufen der Einkommensgruppe (reich - mittel - arm) vorliegen, gibt das
insgesamt 6 Stichproben.
Merksatz 4.1.4.3. Ein vollständiger Versuch in einer zweifaktoriellen Varianzanalyse besteht aus je einer Stichprobe zu jeder möglichen Kombination von
zwei Faktorstufen.
4.1.4.2. Analyse der Mittelwerte.
In der folgenden Tabelle finden Sie noch einmal die Mittelwerte der Stichproben zu den
sechs Faktorkombinationen, sowie unten die Mittelwerte der drei Einkommenstufen, und rechts
die Mittelwerte der zwei Wohnlagen. Die Bedeutung der weiteren Einträge werden sich in der
folgenden Analyse ergeben:
182
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
reich
mittel
arm
14
9
7
erwartet ohne Wechselwirkungen:
Beitrag Wechselwirkungen:
Stadt
tatsächlicher Mittelwert:
13
1
9
0
8
-1
32
29
29
erwartet ohne Wechselwirkungen:
Beitrag Wechselwirkungen:
gesamte Einkommensgruppe:
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Einkommensgruppe:
33
-1
29
0
28
1
23
20
3
19
20
-1
18
20
-2
Land
tatsächlicher Mittelwert:
alle Einkommen
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Wohnlage:
10
20
-10
tatsächlicher Mittelwert:
Gesamtmittelwert:
Beitrag Wohnlage:
30
20
10
Gesamtmittelwert:
20
Wir beginnen die Analyse rechts unten, wo wir finden, dass die gesamte Probe einen Mittelwert von 20 Punkten liefert. Der Mittelwert für die Landkinder ist aber nur 10, dafür beträgt
der Mittelwert für die Stadtkinder 30. Die Wohnlage scheint also einen Beitrag zur abhängigen
Variablen zu leisten: Am Land im Durchschnitt -10, in der Stadt im Durchschnitt 10. Diese Beiträge summieren sich auf 0. Landkinder haben anscheinend einen deutlichen Nachteil gegenüber
Stadtkindern, zumindest was die geteste Fähigkeit betrifft.
Nun führen wir dieselbe Analyse mit dem Faktor “Einkommenstufe” durch. Der Mittelwert
für die reichen Kinder beträgt 23, also um 3 besser als der Gesamtmittelwert. Für die Kinder der
mittleren Einkommenstufe liegt der Mittelwert bei 19, um 1 Punkt weniger als der Gesamtmittelwert, und die Kinder der armen Bevölkerungsschicht erreichen im Mittel nur 18, um zwei Punkte
weniger als der Gesamtdurchschnitt. Also liefert auch der Faktor Einkommenstufe einen Beitrag:
+3 für Reiche, -1 für durchschnittliche Einkommen, und -2 für Kinder aus armen Verhältnissen.
Wieder summieren sich diese drei Beiträge auf Null. Allerdings ist der Effekt des Einkommens
weit weniger deutlich ausgeprägt als der Effekt des Wohnorts. Ist es nur ein Zufallseffekt, oder ist
er statistisch signifikant?
Wenn wir also die Beiträge der beiden Faktoren ermittelt haben, könnten wir jetzt für jede
Kombination der Faktorstufen eine zumindest plausible Vorhersage auf den Mittelwert machen:
Der Gesamtmittelwert ist 20. Aber zum Beispiel haben reiche Landkinder einen Malus von -10
durch die Wohnlage am Land, aber wieder einen Bonus von 3 durch die guten Einkommensverhältnisse. Wir erwarten also einen Mittelwert von 20 − 10 + 3 = 13 für reiche Landkinder.
Der tatsächliche Mittelwert der entsprechenden Stichprobe ist aber 14, um 1 besser als erwartet.
Ebenso hätten arme Stadtkinder einen Bonus von 10 durch die Wohnlage und einen Malus von -2
durch das schlechte Einkommen, das ergibt einen erwarteten Mittelwert von 28. Der tatsächliche
Mittelwert der Stichprobe ist 29, um 1 besser als erwartet.
In der Berechnung der erwarteten Mittelwerte sind wir davon ausgegangen, dass jeder Faktor
seinen Beitrag zur Verbesserung oder Verschlechterung einbringt, und sich diese beiden Beiträge
einfach zum Gesamtdurchschnitt addieren. Es könnten sich die Faktoren aber gegenseitig beeinflussen. Vielleicht wirkt sich der Wohnort auf reiche und arme Kinder ganz verschieden aus: Ein
Einfamilienhaus auf dem Land mit großem Garten ist vielleicht kindgerechter als eine noch so vornehme Stadtwohnung. Arme Kinder in der Stadt spielen vielleicht eher auf der Straße, während
reiche möglicherweise meist in der Wohnung eingesperrt sind. Wenn die Wirkung eines Faktors auf
die Zielvariable für verschiedene Faktorstufen des anderen Faktors verschieden ausfällt, sprechen
wir von Wechselwirkungen. Im vorigen Absatz haben wir gesehen, dass möglicherweise Wechselwirkungen auftreten, wenn auch nur in unauffälligem Ausmaß. Für jede der Stichprobe haben wir
einen entsprechenden Korrekturbeitrag gefunden: Am Land 1, 0 , -1 je nach Einkommen, in der
Stadt -1, 0 , 1 je nach Einkommen. Beachten Sie auch, dass sich diese Korrekturbeiträge in jeder
Wohnlage und in jeder Einkommenstufe jeweils auf Null summieren.
Merksatz 4.1.4.4. Wenn in einer zwei- oder mehrfaktoriellen Varianzanalyse
oder in einer Regressionsrechnung die Wirkung eines Faktors auf die Zielvariable
durch die Ausprägungen eines anderen Faktors verändert werden kann, sprechen
wir von Wechselwirkungen.
4.1. VARIANZANALYSE
183
4.1.4.3. Hierarchie der Modelle.
Je nachdem, welche Einflüsse für wichtig erachtet werden, und welche als Zufallseffekte verworfen werden, ergeben sich mehrere verschiedene statistische Modelle für die Situation. Die Aufgabe der Varianzanalyse wird dann sein, herauszufinden, welches der Modelle am besten passt,
welche Effekte also als signifikant angesehen werden.
Bauen wir zum Beispiel ein Modell, in dem der Einfluss des Wohnorts und der Einkommensverhältnisse ernst genommen werden, aber Wechselwirkungen zwischen den Faktorstufen
ausgeschlossen werden. Dann haben wir für reiche Landkinder einen erwarteten Mittelwert von
20 − 10 + 3, dazu kommt aber zweifellos noch eine Streuung innerhalb der Population der reichen Landkinder, welche wir durch eine normalverteilte Zufallsvariable σZ darstellen. Dabei ist
Z standardnormalverteilt, σZ hat also Mittelwert 0 und Standardabweichung σ. Das Testergebnis eines reichen Landkindes ist dann eine Zufallsvariable YLand,reich , die sich folgendermaßen
zusammensetzt:
YLand,reich
YLand,reich
=
=
20
µ
+
+
(−10)
αLand
+
+
3
βreich
+
+
σZ
σZ
Ebenso ist das Modell für das Testergebnis eines Stadtkindes aus durchschnittlichen Verhältnissen
YStadt,mittel
YStadt,mittel
=
=
20
µ
+
+
10
αStadt
+
+
(−1)
βmittel
+
+
σZ
σZ
Sollen auch Wechselwirkungen zwischen den Faktoren eingerechnet werden, führen wir auch noch
die Korrekturterme für die einzelnen Stichproben ein, z.B.
YLand,reich
YLand,reich
=
=
20
µ
+(−10)
+αLand
+3
+βreich
+1
+γLand,reich
+σZ
+σZ
Auf diese Weise erhalten wir ein komplexeres Modell. Sollen aber nur die Einflüsse des Wohnortes
eingebaut sein, und wird der Faktor Einkommenstufe als irrelevant angesehen, fällt das Modell
entsprechend einfacher aus:
YLand,reich
YLand,reich
=
=
20
µ
+
+
(−10)
αLand
+
+
σZ
σZ
Insgesamt kommen wir auf 5 verschiedene Modelle:
Modell
1.)
berücksichtigt
keine Faktorwirkungen
Gleichung
Yij = µ + σZ
Zusatzbedingungen
2a.)
Wohnlage
Yij = µ + αi + σZ
α1 + α2 = 0
2b.)
Einkommen
Yij = µ + βj + σZ
β1 + β2 + β3 = 0
3.)
Wohnlage
und Einkommen
4.)
Wohnlage
und Einkommen
und Wechselwirkungen
Yij = µ + αi + βj + σZ
Yij = µ + αi + βj + γij + σZ
P
α = 0,
Pi i
j βj = 0
P
Pi αi = 0,
β =0
Pj j
γ
= 0,
Pi ij
j γij = 0
In allen Modellen ist σ ≥ 0 und Z eine standardnormalverteilte Zufallsvariable.
Der Index i durchläuft die Faktorstufen Land - Stadt,
der Index j durchläuft die Faktorstufen reich - mittel - arm.
Die αi , βj , γi,j und σ sind hier Modellparameter, welche sich aus den Daten schätzen lassen.
Tatsächlich haben wir ja alle bis auf σ bereits durch die Analyse der Mittelwerte berechnet.
Beachten Sie auch, dass wir eigentlich nur das komplexeste Modell 4 formulieren müssten.
Die einfacheren Modelle erhalten wir aus Modell 4 durch Nullsetzen bestimmter Parameter. Zum
Beispiel erhalten wir Modell 2b, wenn wir in Modell 4 alle γij und alle αi auf Null setzen.
Merksatz 4.1.4.5. Das allgemeine Modell der zweifaktoriellen Varianzanalyse
ist
Yij = µ + αi + βj + γij + σZ.
184
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Der Index i durchläuft dabei die Faktorstufen des ersten Faktors, der Index j
durchläuft die Faktorstufen des zweiten Faktors. Dabei haben die Parameter folgende Bedeutung:
µ Mittelwert der Gesamtheit
αi Einfluss des ersten Faktors auf den Mittelwert
βj Einfluss des zweiten Faktors auf den Mittelwert
γij Wechselwirkung zwischen den Faktoren
σ Zufällige Effekte
Die Parameter αi , βj , γi,j werden durch Vergleich der Stichprobenmittelwerte ermittelt.
Durch Nullsetzen bestimmter Mengen von Parametern werden einfachere Modelle
aus dem allgemeinen abgeleitet.
(Die Rolle des Parameters σ wird gleich unten besprochen.)
4.1.4.4. Quadratsummen.
Noch immer ist die Frage offen, für welches Modell wir uns letztlich entscheiden sollen. Den
Schlüssel wird uns eine genauere Analyse der Zufallseffekte, also von σZ liefern.
Wir beginnen mit einer Analyse des einfachsten Modells 1: Hier sind keine Wirkungen von
Faktoren eingebaut. Der Mittelwert für alle Situationen ist 20, alles andere wird als Zufallseffekt erklärt. Das heißt, alle Parameter αi , βj , γij sind in diesem Modell durch Definition des
Modells gleich Null gesetzt. Die folgende Tabelle zeigt, wie die Stichprobenergebnisse vom Gesamtmittelwert 20 abweichen (“Fehler”). Die Stichprobenergebnisse sind die Realisierungen von
Yij = µ + σZ. Da wir µ abgezogen haben, verbleiben in der Liste die Realisierungen von σZ.
Aus diesen Realisierungen schätzen wir die Varianz von σZ. Da der Mittelwert von σZ gerade
0 ist, erhalten wir die Varianz durch die Quadratsumme der Realisierungen, dividiert durch die
Anzahl der Freiheitsgrade. 24 Daten wurden erhoben, ein Mittelwert, nämlich µ = 20, wurde vor
Berechnung der Varianz abgezogen, daher hat diese geschätzte Varianz 23 Freiheitsgrade:
Modell 1)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βj
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
0
20
-7
-6
-6
-6
146
0
20
-13
-11
-10
-10
419
0
20
-14
-14
-13
-11
682
0
20
10
12
13
13
582
0
0
20
18
19
19
20
326
0
0
20
18
18
18
22
336
0
αi
0
0
µ = 20
2562
23
111.4
Wir machen in der folgenden Tabelle die gleiche Analyse für Modell 2a. Hier ist der Einfluss
des Wohnortes eingerechnet, das heißt, die Parameter αi sind die aus der Analyse der Mittelwerte
berechneten Beiträge des Wohnortes, während βj und γij nach wie vor auf Null gesetzt bleiben.
Nun sind die vorausgesagten Mittelwerte für die Gruppen Land und Stadt verschieden, und den
Daten besser angepasst, nämlich 10 für das Land, und 30 für die Stadt. Entsprechend fallen
die Abweichungen der Daten von den vorausgesagten Mittelwerten meist kleiner aus, und es
ergibt sich eine kleinere Quadratsumme. Nun wurden vor der Berechnung der Quadratsummen
drei Parameter zum Abzug verwendet, nämlich µ, α1 und α2 . Allerdings sind α1 und α2 nicht
unabhängig, weil sie sich auf Null summieren. Es wurden also vorher zwei Parameter geschätzt, µ
4.1. VARIANZANALYSE
185
und α1 , der dritte ergibt sich zwangsläufig α2 = −α1 . Von 24 Daten verbleiben daher 24 − 2 = 22
Freiheitsgrade.
Modell 2a)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βj
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
0
10
3
4
4
5
66
0
10
-3
-1
0
0
10
0
10
-4
-4
-4
-1
42
0
30
0
2
3
3
22
0
0
30
-2
-1
-1
0
6
0
0
30
-2
-2
-2
2
16
0
αi
-10
10
µ = 20
162
22
7.4
Die geschätzte Varianz in Modell 2a, nämlich 7.4, ist viel kleiner als die in Modell 1. Durch das
Einbeziehen der Faktorstufen Land-Stadt kann das Modell viel besser den Daten angepasst werden.
Offensichtlich entsteht ein sehr beachtlicher Teil der Streuung der Gesamtstichprobe dadurch,
dass zwischen Land- und Stadtkindern im Mittel ein deutlicher Unterschied besteht. Modell 1
kann diesen Unterschied nicht formulieren und nicht erklären, er bleibt als Zufallseffekt unerklärt.
Modell 2 erklärt diesen Unterschied, indem α1 und α2 deutlich verschieden sind. Der Zufall muss
nur mehr die Streuungen erklären, welche nicht aus dem Stadt-Land-Gegensatz herleitbar sind.
Als letztes Beispiel analysieren wir das komplexeste Modell 4, das beide Faktoren und auch
deren Wechselwirkungen inkludiert.
Modell 4)
Land
γ1j
µ + α1 + βj + γ1j
Fehler:
Quadratsumme:
Stadt:
γ2j
µ + α2 + βj + γ2j
Fehler:
Quadratsumme:
βi
Quadratsumme gesamt:
Freiheitsgrade:
c2 :
geschätzte Varianz σ
reich
mittel
arm
1
14
-1
0
0
1
2
0
9
-2
0
1
1
6
-1
7
-1
-1
0
2
6
-1
32
-2
0
1
1
6
3
0
29
-1
0
0
1
2
-1
1
29
-1
-1
-1
3
12
-2
αi
-10
10
µ = 20
34
18
1.89
Die Parameter αi , βj , γij wurden in der Analyse der Mittelwerte berechnet. Nun hat jede
Faktorkombination ihren eigenen vorausgesagten Mittelwert, entsprechend klein fallen die Fehler
aus. Nur eine Quadratsumme von 18 bleibt durch den Zufall zu erklären, im Vergleich dazu musste
in Modell 1 durch den Zufall eine Quadratsumme von 2562 erklärt werden. Vor der Berechnung
mussten geschätzt werden: µ, α1 (dann ergibt sich automatisch α2 ), β1 und β2 (dann ergibt
sich automatisch β3 , weil die Summe der drei βj Null ergibt), γ11 (dann ergibt sich automatisch
γ21 = −γ11 ) und letztlich γ12 (dann ergeben sich automatisch γ22 = −γ12 , γ13 = −γ11 − γ12 und
186
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
γ23 = −γ13 . Also mussten 6 unabhängige Parameter geschätzt werden, und von 24 Daten bleiben
18 Freiheitsgrade. Man kann auch folgendermaßen überlegen: Modell 4 ist gerade so konstruiert,
dass für jede Faktorenkombination ein eigener Mittelwert gebildet wird. Das ergibt 6 geschätzte
Mittelwerte aus 24 Daten, und es bleiben 18 Freiheitsgrade.
Natürlich kann man dieselbe Analyse auch für die übrigen Modelle 2b und 3 anstellen.
Tipp 4.1.4.6. In der praktischen händischen Rechnung werden diese Tabellen
nicht ausgerechnet. Es gibt, wie bei der einfaktoriellen Varianzanalyse, zahlreiche
Rechenvorteile und Abkürzungen.
Merksatz 4.1.4.7. Im Modell der Varianzanalyse ist
µ + αi + βj + γij
der vorausgesagte Mittelwert der Zielvariablen Yij für die Faktorstufenkombination
i, j. Sei SSM die Quadratsumme der Realisierungen von
Yij − µ − αi − βj − γij
im gegebenen Modell und sei ν die Anzahl der Freiheitsgrade.
1.) ν ist die Anzahl der Daten, abzüglich der Anzahl der unabhängigen Parameter, welche vor Berechnung der Quadratsummen geschätzt und abgezogen werden mussten.
c2 = SSM ergibt einen Schätzwert für die Varianz von σZ, und damit ein
2.) σ
ν
Maß für den Einfluss des Zufalls.
3.) Die Quadratsumme SSM ist ein Maß dafür, wieviel Schwankung der Zielvariablen durch den Zufall erklärt werden muss. Je kleiner sie ist, desto
genauer erklärt das Modell die Daten, und desto weniger Einfluss kommt
dem Zufall zu.
4.) Die Parameter (Mittelwert und Beiträge der Faktoren) sind genau so
beschaffen, dass die Quadratsummen durch den Abzug der Parameter
möglichst klein werden. Erhält man ein einfacheres Modell durch Nullsetzen von gewissen Parametern aus einem komplexeren Modell, so ist die
Quadratsumme des einfacheren Modells größer als die des komplexeren
Modells.
4.1.4.5. Testen der Modelle gegeneinander.
Die folgende Tabelle zeigt eine Übersicht über alle 5 Modelle, mit ihren Quadratsummen,
Freiheitsgraden und geschätzten σ̂. Außerdem wird jedes Modell mit dem nächsten einfacheren
Modell verglichen.
Modell
1)
2a)
Differenz
2b)
Differenz
3)
Differenz
Differenz
4)
Differenz
auf Modell 1:
auf Modell 1:
auf Modell 2a:
auf Modell 2b:
auf Modell 3:
Quadratsumme
2562
162
2400
2450
112
50
112
2400
34
16
Freiheitsgrade
23
22
1
21
2
20
2
1
18
2
Mittel der
Quadrate
111.4
7.4
2400
116.7
56
2.5
56
2400
1.89
8
F
F0.05
324.3*
4.301
0.48
3.467
22.4*
960*
3.493
4.351
4.23*
3.555
Betrachten wir zum Beispiel Modell 2a, welches nur die Wohnlage berücksichtigt. Die Quadratsumme der Fehler ist 162. Das nächst einfachere Modell ist Modell 1, wir erhalten es aus
Modell 2a durch Nullsetzen von α1 und α2 . Die Quadratsumme von Modell 1 muss also größer
4.1. VARIANZANALYSE
187
sein, sie beträgt 2562. Das macht einen Unterschied von 2400 auf die Quadratsumme von Modell 2a. Dies ist der Anteil der von Modell 1 noch nicht erklärten Schwankungen, welche durch
den Faktor Wohnlage in Modell 2a erklärt werden können. Wir haben also folgende Zerlegung
Von Modell 1 nicht erklärte Schwankungen
Von Modell 2 erklärter Anteil
Von Modell 2 nicht erklärter Anteil
2562
2400
162
23 Freiheitsgrade
1 Freiheitsgrad
22 Freiheitsgrade
geschätzte Varianz 111.4
geschätzte Varianz 2400
geschätzte Varianz 7.4
Testen wir die Hypothesen
H0 : Es gilt Modell 1, also α1 = α2 = 0 (d.h. der Faktor Wohnlage hat keinen Einfluss auf
die Leistungen der Kinder)
H1 : Es gilt Modell 2a mit α1 6= 0 oder α2 6= 0.
α: Signifikanzniveau 0.05.
Für die Alternativhypothese spricht, dass durch Einbringen der Wohnlage in Modell 2a ein
großer Anteil von Schwankung erklärt werden kann, der ohne Berücksichtigung der Wohnlage nur
als Zufallsschwankung gedeutet wurde. Als Teststatistik verwenden wir
F =
Von Modell 2a erklärte Varianz
2400
=
= 324.3.
Von Modell 2a nicht erklärte Varianz
7.4
Je größer F ist, desto stärker sprechen die Daten für die Alternativhypothese. Als Vergleichswert
dient der kritische Wert Fα einer F-Verteilung mit 1 Freiheitsgrad des Zählers und 22 Freiheitsgraden des Nenners. Für α = 0.05 ist das 4.301. Da F = 324.3 ≥ 4.301 = Fα , ist die Alternativhypothese untermauert: Aus den Daten kann gefolgert werden, dass die Wohnlage Einfluss auf
das Abschneiden der Kinder in diesem Test hat.
Dagegen liefert der gleiche Vergleich zwischen Modell 2b und Modell 1 keinen signifikanten
Einfluss durch den Faktor Einkommen. Modelle 2a und 2b können nicht direkt durch einen F-Test
miteinander verglichen werden: Keines von beiden ist ein Spezialfall des anderen.
Methode 4.1.4.8 (F-Test zum Vergleich von Modellen in der Varianzanalyse). Wir betrachten zwei Modelle Modell A und Modell B in einer Varianzanalyse.
Dabei sei Modell A das einfachere Modell im Sinne, dass Modell A aus Modell B
hervorgeht, indem man in Modell B einige Parameter auf Null festlegt. Die Fehlerquadratsummen in den Modellen seien SSMA bzw. SSMB , mit den Freiheitsgraden
νA und νB . Es gilt dann jedenfalls: SSMA ≥ SSMB und νA > νB .
1) Die Quadratsumme von A wird folgendermaßen zerlegt
Von Modell A nicht erklärt
Von Modell B erklärt
Von Modell B nicht erklärt
Quadratsumme
Freiheitsgrade
SSMA
νA
SSMA − SSMB
νA − νB
SSMB
νB
Mittel der
Quadrate
MSMA =
MSMD =
SSMA
νA
SSMA − SSMB
νA −νB
MSMB =
SSMB
νB
2) Wir testen die Hypothesen:
H0 : Es gilt das einfachere Modell A.
H1 : Es gilt das komplexere Modell B.
α: Signifikanzniveau α.
3) Die Teststatistik ist
MSMD
F =
.
MSMB
4) Der kritische Wert ist Fα für eine F-Verteilung mit νA − νB Freiheitsgraden des Zählers und νB Freiheitsgraden des Nenners.
5) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen.
188
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
In der Tabelle der 5 Modelle wurden alle Vergleichstests ausgeführt. Wir sehen, dass jedenfalls
Modell 2a statt Modell 1 gilt, jedoch wird Modell 3 signifikant gegenüber Modell‘2a unterstützt,
sodass wir auch das Einkommen als einflussreichen Faktor berücksichtigen, auch wenn der Test
von Modell 2b gegen Modell 1 nicht signifikant war. Letztlich wird aber auch der Test von Modell 4
gegenüber Modell 3 signifikant, sodass wir Wechselwirkungen zwischen den Faktoren Einkommen
und Wohnlage annehmen müssen. Aus solchen Wechselwirkungen erklärt sich auch, dass der Test
auf den Faktor Einkommen allein nicht signifikant wurde, während der Test auf das Faktorenpaar
Einkommen und Wohnlage gegen Wohnlage allein signifikant war.
Was Sie jetzt können:
Begriffe und Wissen: Sie kennen das Prinzip und den Anwendungsbereich der zweifaktoriellen Varianzanalyse. Hierarchien von Modellen.
Methoden: F-Test zwischen ineinandergeschachtelten Modellen.
4.2. Lineare Regression
Übersicht:
1. Modell der linearen Regression
2. Interpretation der Ergebnisse und Modelldiagnostik
Wiederholen Sie vor dieser Sektion die Berechnung und Interpretation der Regressionsgeraden (Sektion 1.3).
4.2.1. Modell der linearen Regression.
Übersicht:
1. Zielsetzung und lineares Regressionsmodell
2. Vorteil einer multiplen Analyse gegenüber mehreren einfachen Regressionen
3. Die Modellhierarchie und Strategien zur Modellauswahl
4.2.1.1. Zielsetzung und lineares Regressionsmodell.
Varianzanalyse deckt Zusammenhänge zwischen einem oder mehreren nominalen unabhängigen Variablen (Faktoren) und einer abhängigen metrischen Variablen auf. Lineare Regression
dagegen deckt lineare Zusammenhänge zwischen einer oder mehreren unabhängigen (erklärenden)
Variablen und einer abhängigen Variablen auf.
Beispiel 4.2.1.1. An einer Abteilung eines Krankenhauses, die auf Behandlung
von Bluthochdruck spezialisiert ist, werden bei allen Neuaufnahmen unter anderem
die Daten Alter, Körpergewicht, Körpergröße, systolischer Blutdruck, Cholesterin
erhoben. Ein wesentliches Merkmal für den Behandlungsfortschritt ist der systolische Blutdruck 6 Monate nach der Aufnahme. Um mögliche Zusammenhänge zwischen den Aufnahmedaten und dem Blutdruck 6 Monate später aufzudecken, wurde
eine multiple Regression angesetzt, wobei die Aufnahmedaten als erklärende (“unabhängige”) Variable und der Blutdruck nach 6 Monaten als abhängige Variable
eingesetzt wurden.
Quelle: A. Bühl, P. Zöfel, SPSS 12. 9. Auflage, Pearson, 2005.
4.2. LINEARE REGRESSION
189
Diskussion: Alle gegebenen Messdaten und Laborwerte sind von Patient zu Patient verschieden,
sie sind Zufallsvariable, abhängig vom Ergebnis des Experiments: Ein neuer Patient wird untersucht. Wenn auch für den einzelnen Patienten aus den Labordaten zum Aufnahmezeitpunkt nicht
eindeutig der Blutdruck nach einem halben Jahr Behandlung bestimmt werden kann, so erwartet
man doch einen statistischen Zusammenhang. Allerdings wissen wir zu Beginn der Studie nicht,
welche von den Daten zum Aufnahmezeitpunkt bestimmend für den Blutdruck nach 6 Monaten
sein werden. Diese Daten festzustellen, wird eines der wichtigsten Ergebnisse der Regression sein.
¤
Definition 4.2.1.2. Das Modell der multiplen linearen Regression für die unabhängigen Variablen (erklärenden Variablen, Einflussvariablen) X1 , · · · , Xk und
die abhängige Variable Y lautet:
Y = b0 + b1 X1 + b2 X2 + · · · + bk Xk + σZ,
dabei sind b0 , b1 , · · · , bk und σ > 0 die Modellparameter. Z ist eine standardnormalverteilte Zufallsvariable, welche von X1 , · · · , Xk unabhängig ist.
Diskussion: Das Modell sagt also, dass sich Y nach einem linearen Gesetz aus den Xi berechnen
lässt, wobei allerdings noch ein unvorhersagbarer Zufallseffekt hinzukommt. Dieser wird durch
σZ beschrieben. Je größer σ, desto stärker der Einfluss des Zufalls, und desto unsicherer die
Berechnung von Y aus den Xi .
Obwohl die Variablen X1 , · · · , Xk die “unabhängigen” Variablen in der Regression heißen,
ist nicht verlangt, dass sie im statistischen Sinn voneinander unabhängige Zufallsvariable sind.
Sehr wohl ist aber verlangt, dass Z von den restlichen X1 , · · · , Xk unabhängig ist.
¤
Merksatz 4.2.1.3. Das Modell der linearen Regression zerlegt die abhängige
Variable Y in die Summe von zwei Teilen:
1.) einen Teil, der sich aus den erklärenden Variablen (zumindest theoretisch)
exakt vorherberechnen läßt: b0 + b1 X1 + · · · + bk Xk . Der Zufall wirkt auf
diesen Teil höchstens insofern, als die Xk selbst vom Zufall abhängen
können.
2.) einen Teil, der von den erklärenden Variablen statistisch unabhängig und
rein vom Zufall bestimmt ist: σZ.
Je geringer der Anteil des zufälligen Teils am Gesamtergebnis ist, desto genauer
lässt sich Y aus den Variablen Xi vorhersagen.
Allerdings bleiben uns die Parameter b0 , · · · , bk , welche man zur Berechnung
des deterministischen Teiles braucht, in Wirklichkeit unbekannt. Die Regressionrechnung liefert aber Schätzwerte für diese Parameter.
Methode 4.2.1.4. Bei der linearen Regression sind n unabhängige Datensätze
x1,1
..
.
, ···
,
xk,1
..
.
,
y1
..
.
x1,n
, ···
,
xk,n
,
yn
von Realisierungen von X1 , · · · , Xk , Y gegeben. Durch die Regressionsrechnung werden Schätzer für die Modellparameter b̂1 , · · · , b̂k , σ̂ und deren Genauigkeit bestimmt,
sowie die Güte der Datenanpassung ermittelt. Computerprogramme liefern uns auf
einen Schlag die erforderlichen Rechenergebnisse. Wir werden die Formeln, die dabei verwendet werden, nicht im Detail vorstellen. Wichtig ist aber die Interpretation
der Ergebnisse.
190
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Tipp 4.2.1.5. Ebenso wie es Paare von Merkmalen gibt, die zwar in einem
deutlichen nichtlinearen Zusammenhang stehen, aber zu keiner Regressionsgerade
passen und daher (fast oder sogar ganz) unkorreliert sind, kann auch eine multiple
lineare Regression nur lineare Zusammenhänge zwischen Merkmalen aufdecken.
Definition 4.2.1.6. Eine lineare Regression mit nur einer erklärenden Variablen heißt einfache Regression. Bei mehreren erklärenden Variablen spricht man
von multipler Regression. Werden gleichzeitig auch mehrere abhängige Variablen
betrachtet, spricht man von multivariater Regression.
Diskussion: Eine einfache lineare Regression ist rechnerisch nichts Anderes als die Berechnung
einer Regressionsgeraden. Vom Standpunkt der schließenden Statistik kommt noch dazu, dass für
die Parameter und Modelle Signifikanzschätzungen vorgenommen werden.
¤
4.2.1.2. Vorteil einer multiplen Analyse im Gegensatz zu mehreren einfachen
Regressionen.
Während sich die einfache Regression auf die Wechselwirkung von zwei Variablen miteinander
beschränkt, kann die multiple Reaktion das Netzwerk von Wechselwirkungen mehrerer erklärender Variablen untereinander und zur abhängigen Variablen ausloten. Die Wechselwirkungen der
erklärenden Variablen untereinander sind von entscheidender Bedeutung. Es ist eine sehr wesentliche Entscheidung, welche Variablen in die Liste der erklärenden Variablen aufgenommen werden.
Läßt man eine wichtige Variable weg, kann das Ergebnis der gesamten Studie verfälscht sein, wie
die beiden folgenden Beispiele zeigen:
Beispiel 4.2.1.7. Ist das Tragen von Zündhölzern krebsfördernd? Eine Studie,
die nur zwei dichotome Variablen vergleicht: “Proband trägt gewöhnlich Zündhölzer
bei sich”, “Proband hat Lungenkrebs”, könnte eine solche Behauptung signifikant
untermauern. Denn Raucher unterliegen einem höheren Krebsrisiko, aber sie tragen
auch öfter Zündhölzer bei sich. Um keinen Trugschlüssen aufzusitzen, muss in eine
seriöse Studie auch die Variable “Anzahl der gerauchten Zigaretten pro Tag” (oder
ähnlich) eingebaut werden.
Beispiel 4.2.1.8. Verkürzt Bettruhe die Heilung von leichten Virusinfektionen?
Eine Studie an ProbandInnen, die im letzten Jahr eine leichte Virusinfektion hatten,
und nur die Variablen “PatientIn befolgte Bettruhe”, ”Heilungsdauer der Infektion”
würde eine solche Behauptung möglicherweise nicht unterstützen, vielleicht sogar
ins Gegenteil verkehren. Denn die PatientInnen mit den schweren, und daher auch
lang dauernden Infektionen werden sich eher zur Bettruhe entschließen. Baut man
in die Studie eine Variable ein, die die Schwere der Infektion bewertet, wird der
Zusammenhang zwischen Bettruhe und Genesungsdauer anders beurteilt werden.
Merksatz 4.2.1.9. Wir betrachten die Wirkung einer Einflussvariablen X auf
eine abhängige Variable Y .
1.) Ein Confounder ist eine Variable Z, welche mit X korreliert ist, und kausale Einflüsse auf Z ausübt. Ein Confounder kann in einer Regression von
X auf Y eine Wirkung von X auf Y vortäuschen. Um dieser Täuschung
zu entgehen, muss der Confounder in die Liste der Einflussvariablen der
Regression aufgenommen werden.
2.) Ein Suppressor ist ein Confounder, der einen bestehenden Zusammenhang
zwischen X und Y verschleiert.
4.2. LINEARE REGRESSION
191
Beispiel 4.2.1.10. Verkürzt Alkoholkonsum die Lebensdauer? Welche Auswirkungen hätte es auf eine Studie zu diesem Thema, wenn man die möglichen “Confounder” Blutdruck, Cholesterin, Leberwerte in die multiple Regression einschließt?
Diskussion: Das Ergebnis wäre wahrscheinlich, dass zwar Bluthochdruck, erhöhtes Cholesterin und
schlechte Leberfunktionen mit kürzerer Lebensdauer einhergehen, doch der Zusammenhang zwischen Alkoholkonsum und Lebensdauer nicht signifikant ausgewiesen würde. Viele der Wege, über
die Alkohol auf die Lebensdauer wirkt, wurden schon als eigene erklärende Variablen zugelassen.
¤
4.2.1.3. Modellhierarchie und Strategien zur Modellauswahl.
Bei der multiplen Regression steht eine Vielzahl von möglichen Modellen zur Auswahl, je
nachdem, welche Variablen eingeschlossen werden. Bei k Variablen gibt es 2k mögliche Modelle.
Typischerweise steht zu Beginn der Untersuchung nicht fest, welche der erklärenden Variablen in
das endgültige Modell aufgenommen werden sollen.
Beispiel 4.2.1.11. Bei einer multiplen Regression von 2 erklärenden Variablen
auf eine abhängige Variable sind folgende vier Modelle möglich:
Y
=
b0
Y
Y
Y
=
=
=
b0
b0
b0
+ σZ
+
+
b1 X1
b1 X1
+
+
b2 X2
b2 X2
+ σZ
+ σZ
+ σZ
(triviales Modell:
Y von beiden Xi unabhängig),
(Y von X1 abhängig),
(Y von X2 abhängig),
(volles Modell).
Merksatz 4.2.1.12. Es ist nicht unbedingt das komplexeste Modell das beste:
Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Andererseits gilt: Je mehr Parameter geschätzt werden müssen, desto unsicherer sind die
Schätzungen der einzelnen Parameter.
Man könnte einfach alle Modelle durchrechnen, und jedes mit jedem vergleichen. Bei vielen
erklärenden Variablen wird das aber äußerst umfangreich und unübersichtlich, daher gibt es andere
Strategien. Sie beruhen auf dem Signifikanzniveau einer Variablen in einem Modell (vgl. Methode 4.2.2.1: Zu jeder Variablen im Modell kann ein Signifikanzniveau berechnet werden. Je kleiner
dieses ist, desto wichtiger ist die Variable im Modell.)
Methode 4.2.1.13. Bei der multiplen linearen Regression gibt es mehrere Systeme, die verschiedenen Modelle abzusuchen und zu vergleichen:
1) Alle Modelle: Man rechnet die Regression für alle möglichen Modelle durch
und wählt am Ende das beste Modell aus. Nachteil: Bei vielen Variablen
sind das sehr viele Modelle.
2) Einschlussmethode: Man legt eine Signifikanzschwelle für Einschluss fest.
Man berechnet zunächst das triviale Modell. Dann bestimmt man für jede Variable die Signifikanz p, die sie hätte, wenn man sie in das Modell
einbauen würde. Die Variable mit dem kleinsten Signifikanzniveau wird
eingebaut, falls das Niveau unter der Signifikanzschwelle für den Einbau
liegt. Das neue Modell wird durchgerechnet. Für das neue Modell überprüft man wieder alle noch nicht eingebauten Variablen. Die Variable mit
der kleinsten Signifikanz wird eingebaut, falls die Signifikanz unter dem
Schwellwert liegt. So baut man das Modell immer weiter aus, bis keine
von den noch nicht eingefügten Variablen ein Signifikanznivau unter der
Schwelle für den Einschluss erreicht.
192
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
3) Ausschlussmethode: Man legt ein Signifikanznivau für den Ausschluss fest.
Man beginnt mit dem vollen Modell (alle Variablen eingebaut) und bestimmt, welche Variable den höchsten p-Wert hat. Liegt das Signifikanznivau dieser Variablen über der Schwelle, so lässt man sie aus dem Modell
weg. Dieser Schritt wird solange wiederholt, bis ein Modell übrigbleibt, in
dem alle enthalten Variablen Signifikanzniveaus unterhalb der Schwelle
besitzen.
4) Schrittweise Methode: Eine Mischung aus Einschluss- und Ausschlussmethode. Man beginnt mit dem trivialen Modell und baut weitere Modelle, indem man entweder Variablen hinzufügt oder weglässt, bis man ein Modell
erhält, in dem alle enthaltenen Variablen signifikant sind, und keine nicht
enthaltene Variable signifikant würde, wenn man sie hinzunähme. Die Signifikanzsschwelle für den Einschluss muss kleiner sein als die Schwelle
für den Ausschluss, sonst pendelt am Ende ständig eine Variable zwischen
Einschluss und Ausschluss hin und her, und das Programm findet kein
Ende der Rechnung.
Statistikpaketen kann man bei Ansatz einer multiplen Regression vorgeben, nach
welcher dieser Strategien sie die Modelle durchsuchen sollen. Die Ausgabe enthält
dann die Parameter und deren Signifikanzen, sowie andere statistische Kennwerte
separat für jedes der durchsuchten Modelle.
Was Sie jetzt können:
Begriffe und Wissen: Einfache und multiple lineare Regression,
Modell der linearen Regression, Confounder und Suppressor, Modellhierarchie.
4.2.2. Interpretation der Ergebnisse und Modelldiagnostik.
Übersicht:
1.
2.
3.
4.
Interpretation der Parameter und ihre Signifikanz
Vorhersage und Residuen
Quadratsummen und Vergleich der Modelle untereinander
Multikollinearität
4.2.2.1. Interpretation der Parameter und ihrer Signifikanz.
Methode 4.2.2.1 (Interpretation der Regressionsparameter bei multipler Regression). Wenn die Variable Nummer i im Modell eingeschlossen ist, sagt der
Modellparameter bi folgendes aus: Erhöht man Xi um eine Einheit, und lässt alle
anderen Variablen Xj unverändert, so steigt Y im Mittel um bi Einheiten.
Aus den Daten lassen sich erwartungstreue Schätzer b̂i für alle eingeschlossenen Variablen berechnen, dazu lassen sich auch Standardfehler des Schätzers und
Konfidenzintervalle angeben.
Zum Parameter bi gehört auch eine Signifikanz. Diese ist der p-Wert für folgenden Test:
H0 : Es gilt das Modell mit allen Variablen, die im vorliegenden Modell eingeschlossen sind, ausser der Variablen i.
H1 : Es gilt das vorliegende Modell mit bi 6= 0.
4.2. LINEARE REGRESSION
193
Ist das Signifikanzniveau von bi kleiner als ein vorgegebenes Signifikanzniveau α,
so bedeutet das, dass ein Einfluss der Variablen Xi auf die abhängige Variable Y
statistisch untermauert werden kann.
Merksatz 4.2.2.2. Der Parameter b̂i hängt auch wesentlich davon ab, welche
andere Variablen im Modell eingeschlossen sind. In den beiden Modellen
Y = b0 + b1 X1 + σZ,
Y = b0 + b1 X1 + b2 X2 + σZ,
hat b̂1 normalerweise bei denselben Daten verschiedene Zahlenwerte und auch verschiedene Signifikanzen.
Ist der Parameter bi signifikant, so ist statistisch untermauert, dass die Variable Xi einen
Einfluss auf Y hat. Wie stark dieser Einfluss ist, ist eine ganz andere Frage.
Beispiel 4.2.2.3. Für drei Zufallsvariablen X1 , X2 , Y gelte das Modell
Y = 0.2X1 + 20X2 + 5Z.
Dabei sei Z standardnormalverteilt und von X1 und X2 unabhängig. Die Standardabweichung von X1 sei ungefähr 1000, die Standardabweichung von X2 sei ungefähr
0.01. Wie stark wird Y durch die Zufallsvariablen X1 , X2 beeinflusst?
Diskussion: Der unabhängige Zufallsanteil in Y ist 5Z. Da Z die Standardabweichung 1 hat, beträgt die Standardabweichung des zufälligen “Rauschens” in Y also 5. Die Variable X2 hat die
Standardabweichung 0.01. Daher hat der Beitrag 20X2 dieser Variablen zu Y die Standardabweichung 20×0.01 = 0.2, deutlich geringer als das Zufallsrauschen. Dagegen hat der Beitrag 0.2X1 zu
Y die Standardabweichung 0.2 × 1000 = 200. Der größte Teil der Schwankung von Y entsteht also
aus der Einwirkung von X1 , obwohl gerade b1 der kleinste Koeffizient im Modell ist. Dagegen ist
die Wirkung von X2 trotz des großen Koeffizienten b2 vor dem Hintergrund des Zufallsrauschens
nur bei großen Datenmengen überhaupt auszunehmen.
¤
Um die Stärke der Auswirkung der Variablen vergleichen zu können, standardisiert man die
Regressionsparameter:
Methode 4.2.2.4 (Standardisierte Regressionsparameter bei multipler Regression). Wir betrachten ein Regressionsmodell
Y = b0 + b1 X1 + · · · + bk Xk + σZ.
Es seien σ̂(Xi ) und σ̂(Y ) die aus der Stichprobe geschätzten Standardabweichungen
von Xi und Y .
Die Parameter
σ̂(Xi )
β̂i =
b̂i
σ̂(Yi )
heißen die standardisierten Regressionsparameter.
Die standardisierten Regressionsparameter sind ein Maß für die Stärke des Einflusses von Xi auf Y . Je größer β̂i , desto stärkeren Einfluss übt Xi auf Y aus.
Beispiel 4.2.2.5. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem
schrittweisen Verfahren angesetzt. Schwellwert der Signifikanz für Einschluss war
0,05, für Ausschluss 0,10. SPSS lieferte unter anderem folgende Tabellen:
194
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Koeffizienten
Nicht standard.
Koeffizienten
B
Standardfehler
Modell
1
(Konstante)
3
Konfid.intervall
für B (95%)
UnterObergrenze
grenze
T
Signifikanz
7,930
,000
71,641
118,821
4,725
,000
,191
,465
6,766
,000
59,788
109,047
95,141
11,997
,328
,069
84,417
12,477
syst. Blutdruck
Ausgangswert
,312
,069
,322
4,554
,000
,177
,448
Alter
,217
,082
,187
2,635
,009
,054
,379
68,572
13,360
5,133
,000
42,200
94,944
syst. Blutdruck
Ausgangswert
,278
,068
,287
4,080
,000
,143
,413
Alter
,296
,085
,255
3,484
,001
,128
,464
Körpergewicht
,228
,078
,215
2,924
,004
,074
Abhängige Variable: Systolischer Blutdruck nach 6 Monaten.
,382
syst. Blutdruck
Ausgangswert
2
standard.
Koeff.
Beta
(Konstante)
(Konstante)
,339
Ausgeschlossene Variablen
Modell
1
2
3
Alter
Cholesterin
Körpergewicht
Körpergrösse
Blutzucker
Cholesterin
Körpergewicht
Körpergrösse
Blutzucker
Cholesterin
Körpergrösse
Blutzucker
Beta In
,187
,077
,133
-,115
,166
,050
,215
-,058
,150
,055
-,125
,124
T
2,635
1,027
1,853
-1,606
2,300
,673
2,924
- ,765
2,098
,753
-1,634
1,757
Signifikanz
,009
,306
,066
,110
,023
,502
,004
,446
,037
,453
,104
,081
Was kann man aus diesen Tabellen ablesen?
Diskussion: Das Programm hat drei verschiedene Modelle durchgerechnet. Abhängige Variable war
der systolische Blutdruck 6 Monate nach Behandlungsbeginn. In Modell 1 war nur der Blutdruck
bei Aufnahme als erklärende Variable zugelassen. In Modell 2 wurde zusätzlich das Alter als
erklärende Variable herangezogen, Modell 3 nimmt dazu noch das Körpergewicht. Obwohl wir
dem Programm die schrittweise Methode vorgegeben hatten, welche sowohl erlaubt, Variablen
einzuschließen, als auch wieder Variablen zu entfernen, hat das Programm hier hintereinander
drei Variablen eingeschlossen, keine ausgeschlossen, und dann geendet.
Für jedes der drei Modelle werden Schätzungen und Signifikanzen für die Koeffizienten angegeben. Zum Beispiel betrachten wir den Tabellenteil für Modell 2:
Wir finden zunächst die Liste der eingeschlossenen Einflussvariablen, in der nächsten Spalte,
mit B bezeichnet, die Schätzwerte für die Regressionsparameter. Das geschätzte Modell wäre also:
Druck nach 6 Monaten = 84.417 + 0.312 × Anfangsdruck + 0.217 × Alter + zufällige Störung.
Die standardisierten Koeffizienten (hier Beta genannt) sind
β̂Anfangsdruck = 0.322,
β̂Alter = 0.187.
Der Einfluss des Anfangsdruckes ist also etwas stärker als der Einfluss des Alters. Alle drei Parameter sind stark signifikant, der p-Wert ist auf drei Stellen genau gleich Null. Daher kann für
jeden Parameter die Hypothese, dass er in Wirklichkeit Null ist, mit hoher Signifikanz zurückgewiesen werden. In der Tabelle finden wir auch Konfidenzintervalle für die Parameter, sowie den
4.2. LINEARE REGRESSION
195
Standardfehler des Schätzers des Parameters und die t-Statistik, aus der die Signifikanz berechnet
wird, als Nebenergebnisse.
Vergleichen wir das zweite Modell mit Modell 3, so stellen wir fest, dass nicht nur eine neue
Variable, das Körpergewicht, eingeschlossen wurde. Auch die Parameter der beiden schon im Modell 2 vorhandenen Variablen und ihre Signifikanzen haben sich etwas geändert. Diese Änderung
könnte viel stärker ausfallen, wenn zwischen Ausgangsblutdruck und Körpergewicht oder Alter
und Körpergewicht starke Zusammenhänge bestehen. Dass sich die Parameter wenigstens in der
Größenordnung nicht sehr geändert haben, ist beruhigend. Es zeigt, dass Wechselwirkungen zwischen den drei erklärenden Variablen die Regression nicht allzu stark durcheinander bringen. Wir
stellen auch fest, dass im dritten Modell alle Parameter signifikant sind, am wenigsten signifikant
das Körpergewicht mit p = 0.004. Es besteht kein Grund, eine Variable wegzulassen.
Ob ein Grund bestünde, eine Variable aufzunehmen, sieht man in der Tabelle der ausgeschlossenen Variablen. Betrachten wir wieder Modell 2. Ausgeschlossen von diesem Modell waren Cholesterin, Körpergewicht, Körpergröße und Blutzucker. Für jede dieser Variablen zeigt die Tabelle die
Werte, die sie bekäme, wenn man sie als nächstes einschließen würde. Betrachten wir zunächst die
Signifikanzen. Das Körpergewicht hat die deutlichste Signifikanz mit nur 0.004. Blutzucker wäre
immerhin noch signifikant mit 0.037. In Modell 3 wird daher das Körpergewicht aufgenommen
werden, und tatsächlich finden wir es dort mit der Signifikanz 0.004. Die Spalte Beta In gibt den
standardisierten Koeffizienten an, den die Variable bekommt, wenn sie aufgenommen wird. Wir
finden für das Körpergewicht 0.215, auch dieser Wert findet sich in der Koeffiziententabelle von
Modell 3 wieder. Die Spalte T zeigt die t-Statistik, mit der die Signifikanzen berechnet wurden.
Betrachten wir nun die ausgeschlossenen Variablen zu Modell 3, sehen wir, dass keine davon
signifikant würde, wenn sie in das Modell aufgenommen würde. Daher wird keine weitere Variable
aufgenommen.
¤
4.2.2.2. Voraussage und Residuen.
Methode 4.2.2.6 (Vorhersage mittels linearer Regression). Wir gehen davon aus, dass eine lineare Regression von den erklärenden metrischen Merkmalen
X1 , · · · , Xk auf das metrische abhängige Merkmal Y nach dem Modell
Y = b0 + b1 X1 + · · · + bk Xk + σZ
zu den geschätzten Parametern
b̂0 , b̂1 , · · · b̂k , σ̂
geführt hat.
Seien x1 , x2 , · · · , xk gegebene Zahlen. Für die Situation, dass die Variablen Xi
durch die Werte xi realisiert werden, wird durch das Modell ein Schätzer von Y
gegeben:
ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk .
Der Wert ŷ heißt der vom Modell vorhergesagte Wert und ist ein erwartungstreuer
Schätzer für Y .
Liegt zugleich eine Realisierung y von Y in dieser Situation vor, so heißt die
Abweichung dieser Realisierung vom vorhergesagten Wert
e = y − ŷ
das Residuum.
Diskussion: Laut Modell zerfällt Y in einen vorhersagbaren Teil b0 + b1 X1 + · · · + bk Xk und einen
rein zufälligen Teil σZ. Da aber für die Parameter bi nur Schätzwerte b̂i bekannt sind, haben wir
den folgenden Schätzer für den vorhersagbaren Teil: Ŷ = b̂0 + b̂1 X1 + · · · + b̂k Xk . Der zufällige
Teil σZ wird dann durch Y − Ŷ , also durch die Residuen, geschätzt.
¤
Merksatz 4.2.2.7. Ein und derselbe vorhergesagte Wert
ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk
aus einer linearen Regression lässt sich auf zwei verschiedene Weisen interpretieren:
196
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
1. In einer Realisierung sind die erklärenden Variablen X1 , · · · , Xk durch
die Zahlenwerte x1 , · · · , xk realisiert. Was ist die Realisierung von Y ?
(Vorhersage des Einzelwertes.)
2. Was ist der Mittelwert aller Realisierungen von Y in den Fällen, in denen
X1 , · · · , Xk durch die Zahlen x1 , · · · , xk realisiert werden?
Während der Zahlenwert der Vorhersage in beiden Fällen ŷ ist, sind die Konfidenzintervalle der Vorhersage verschieden: Die Vorhersage des Mittelwertes hat ein
wesentlich schmäleres Konfidenzintervall als die Vorhersage des Einzelwertes.
Diskussion: Bei der Vorhersage des Einzelwertes muss eine Realisierung von
b0 + b1 x1 + · · · + bk xk + σZ
geschätzt werden. Einerseits können die bi nur geschätzt werden, durch die geschätzten Parameter
b̂i . Vor allem ist aberder Zufallsanteil Z ist völlig unbekannt.
Bei der Vorhersage des Mittelwertes muss
b0 + b1 x1 + · · · + bk xk
geschätzt werden. Die Unsicherheit dieses Schätzers beruht also nur darauf, dass die Parameter
bi nur als Schätzwerte b̂i vorliegen. ¤
Bemerkung 4.2.2.8. Die folgenden Faktoren beeinflussen die Unsicherheit der
Vorhersage, und damit die Breite der Konfidenzintervalle:
1) Vorhersage des Einzelwertes ist unsicherer als Vorhersage des Mittelwertes.
2) Unsicherheit in der Schätzung der Parameter b̂i .
3) Starker Beitrag des Zufalls, also großes σ̂.
4) Daten für x1 , · · · , xk , welche weit entfernt von den Datensätzen liegen,
aus denen die Regressionsparameter geschätzt wurden.
Umgekehrt kann sich die Schätzung der Parameter stark ändern, wenn man einen
Datensatz zur Regression dazunimmt, welcher von den anderen Datensätzen weit
entfernt liegt. Man sagt, dass solche Datensätze einen starken Hebelwert haben.
Diskussion: Statistikprogramme können zu jedem Datensatz den Hebelwert berechnen. Auf Datensätze mit besonders großem Hebelwert reagiert die Regression besonders empfindlich, daher
empfiehlt es sich, solche Daten besonders sorgfältig nachzuprüfen. Sind es vielleicht Ausreisser?
¤
Merksatz 4.2.2.9. Da die Residuen Schätzer für den Teil σZ sind, müssen
sie annähernd normalverteilt mit Mittelwert 0 sein. Ausserdem müssen sie von
den erklärenden Variablen Xi annähernd unabhängig sein. Eine Überprüfung der
Residuen auf diese Kriterien heißt Residuendiagnostik.
Ergibt die Residuendiagnostik, dass diese Bedingungen verletzt sind, sind die Voraussetzungen für die lineare Regression nicht gegeben. Die Punktschätzer der Parameter funktionieren allerdings auch mit einem linearen Modell, in dem Z nicht normalverteilt ist, sondern nur Mittelwert 0 und endliche Varianz hat. Die Signifikanzniveaus, welche das Programm errechnet, sind aber in diesem Fall nicht verlässlich.
Zeigen sich deutliche Abhängigkeiten der Residuen von den erklärenden Variablen,
so ist die Regression jedenfalls zu verwerfen.
4.2. LINEARE REGRESSION
197
4.2.2.3. Quadratsummen und Vergleich der Modelle untereinander.
Methode 4.2.2.10 (Erklärte und nicht erklärte Schwankung). Für die metrischen Variablen X1 , · · · , Xk als erklärende Variablen und Y als abhängige Variablen
wird an Hand der n Datensätze
x1,1 , · · · , xk,1 , , y1
..
..
..
.
.
.
x1,n
,
···
,
xk,n
, , yn
eine lineare Regression
Y = b0 + b1 X1 + · · · + bk Xk + σZ
durchgeführt. Mit b̂i bezeichnen wir wie üblich den Schätzwert für bi , welcher in der
Regressionsrechnung bestimmt wird. Es sei y der Stichprobenmittelwert von y, und
für jeden Datensatz sei ŷi der vom Modell vorhergesagte Wert
ŷi = b̂0 + b̂1 x1,i + · · · + b̂k xk,i .
Wir betrachten die folgenden Quadratsummen
n
X
SSY =
(yi − y)2 , Gesamtschwankung von Y ,
i=1
SSR =
n
X
(ŷi − y)2 , erklärte Schwankung, ”regression”
i=1
SSE
=
n
X
(yi − ŷi )2 , nicht erklärte Schwankung, ”error”.
i=1
Es gilt die Summenformel
SSY = SSE + SSR .
Diesen Quadratsummen entsprechen die Freiheitsgrade:
Für SSY: Freiheitsgrad n − 1,
für SSE: Freiheitsgrad n − 1 − k (für jeden herangezogenen Parameter
einen Freiheitsgrad weniger),
für SSR: Freiheitsgrad k.
Das Bestimmtheitsmaß der Regression ist
SSR
SSE
R2 =
=1−
SSY
SSY
R2 liegt immer zwischen 0 und 1. Es drückt aus, welcher Anteil der Gesamtschwankung von Y durch die Regression erklärt werden kann. Bei R2 = 1 werden die Daten
der abhängigen Variablen Y perfekt durch die Regression aus den Daten der Xi vorhergesagt. Bei √R2 = 0 ist keinerlei Voraussage für Y auf Grund der Xi möglich.
Die Zahl R = R2 heißt der multiple Korrelationskoeffizient.
Diskussion: Die Gesamtschwankung ist jene Quadratsumme, aus der sich die Stichprobenvarianz
von Y berechnet, also ein Maß dafür, wie stark die Variable Y streut. Laut Modell besteht Y aus
zwei Teilen:
Y
= [b0 + b1 X1 + · · · bk Xk ] + σZ.
Der erste Teil hängt deterministisch von den Xi ab. Wenn die Xi Schwankungen unterworfen sind,
schwankt der deterministiche Teil natürlich mit. Die Schwankungen des ersten Teils werden durch
SSR wiedergegeben, nur dass wir, weil wir ja die bi nicht kennen, stattdessen die Schätzwerte b̂i
in die Formel einsetzen. Der zweite Teil σZ ist von den Xi unabhängig und reines Zufallsergebnis.
Seine Schwankung wird durch SSE wiedergegeben. Da die beiden Teile voneinander unabhängig
sind, summieren sie sich zur Gesamtschwankung:
SSY = SSE + SSR.
198
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Je größer SSR und je kleiner SSE ist, desto besser kann das Modell die Schwankungen von Y
auf Grund der Werte der Xi erklären, und desto kleiner ist der Anteil der Schwankungen von Y ,
welche unerklärt bleiben und nur dem Zufall zugeschrieben werden können.
SSE kann man auch einfach als die Quadratsumme der Residuen auffassen, also der Abweichungen der beobachteten Werte von Y von den vorhergesagten Werten. Je kleiner diese Fehlerquadratsumme ausfällt, desto besser gibt das Modell die tatsächlich beobachteten Werte wieder.
¤
Merksatz 4.2.2.11. Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Enthält ein Regressionsmodell I alle Variablen, welche in einem
einfacheren Modell I enthalten sind, so hat automatisch Modell II das höhere Bestimmtheitsmaß. Andererseits gilt: Je mehr Parameter geschätzt werden müssen,
desto unsicherer sind die Schätzungen der einzelnen Parameter. Es gibt mehrere
Methoden, einen Kompromiss zu finden und ein Modell auszusuchen, welches mit
einer nicht allzu großen Anzahl von Parametern ein ausreichend hohes Bestimmtheitsmaß erreicht.
Beispielsweise kann man das Modell mit dem höchsten korrigierten Bestimmtheitsmaß wählen:
SSE /(n − k − 1)
2
Rkorr
=1−
.
SSY /(n − 1)
Ähnlich wie der Vergleich verschiedener Modelle bei der zweifaktoriellen Varianzanalyse (vgl.
Methode 4.1.4.8) kann man auch ineinandergeschachtelte Modelle der multiplen Regression durch
einen F-Test vergleichen:
Methode 4.2.2.12 (Varianzanalyse bei multipler Regression). Wir vergleichen zwei multiple Regressionsmodelle, von denen eines mehr unabhängige Variable
berücksichtigt als das andere:
Modell 0
Y = b0 + b1 X1 + · · · + bp Xp + σZ,
Modell 1
Y = b0 + b1 X1 + · · · + bp Xp + bp+1 Xp+1 + · · · + bq Xq + σZ.
Getestet werden die Hypothesen
H0 : Es gilt das einfachere Modell 0.
H1 : Es gilt das komplexere Modell 1, wobei nicht alle der Koeffizienten bp+1 , · · · , bq
gleich Null sind.
Zu jedem der Modelle gehören die Quadratsummen und deren Mittelwerte:
erklärt
Residuen
Gesamt
Modell 0
Quadratsumme Freiheitsgrade
SSR0
p
SSE0
n−1−p
SSY
n−1
Modell 1
Quadratsumme Freiheitsgrade
SSR1
q
SSE1
n−1−q
SSY
n−1
Der Zuwachs an erklärter Quadratsumme durch das komplexere Modell ist
SSR1 − SSR0 mit q − p Freiheitsgraden. Daher ist
(SSR1 − SSR0 )/(q − p)
F =
SSE1 /(n − 1 − q)
ein Maß für die Überlegenheit des komplexeren Modells über das einfachere. Der
Test geht zugunsten von H1 aus, wenn F größer ist als der kritische Wert der FVerteilung mit q − p Freiheitsgraden des Zählers und n − 1 − q Freiheitsgraden des
Nenners.
Statistikpakete liefern insbesondere für jedes Modell den Vergleich mit dem trivialen Modell.
4.2. LINEARE REGRESSION
199
Beispiel 4.2.2.13. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem
schrittweisen Verfahren angesetzt. SPSS lieferte unter anderem folgende Tabellen:
Modellzusammenfassungd
Modell
a
b
c
d
R
R-Quadrat
1
,339a
,115
2
,387b
,149
3
,436c
,190
Einflussvariablen: (Konstante),
Einflussvariablen: (Konstante),
Einflussvariablen: (Konstante),
Abhängige Variable: Blutdruck
ANOVA
Modell
1
2
3
Korrigiertes Standardfehler
R-Quadrat
des Schätzers
,110
12,663
,139
12,449
,176
12,184
Blutdruck Ausgangswert
Blutdruck Ausgangswert, Alter
Blutdruck Ausgangswert, Alter, Körpergewicht
nach 6 Monaten
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Regression
Residuen
Gesamt
Quadratsumme
3579,023
27579,167
31158,190
4654,942
26503,248
31158,190
5923,676
25234,513
31158,190
df
1
172
173
2
171
173
3
170
173
Mittel der
Quadrate
3579,023
160,344
F
Signifikanz
22,321
,000
2327,471
154,990
15,017
,000
1974,559
148,438
13,302
,000
Diskussion: Aus der Modellzusammenfassung sieht man, dass das Programm drei verschiedene
Modelle untersucht hat: Zunächst wurde als Einflussvariable außer der Konstanten nur der Ausgangswert des systolischen Blutdrucks aufgenommen. Im Modell 2 wurde zusätzlich das Alter
eingeschlossen, in Modell 3 noch dazu das Körpergewicht. Man sieht, dass mit steigender Komplexität auch das Bestimmtheitsmaß steigt: R2 ist für das Modell mit einer erklärenden Variablen
0.115, bei drei erklärenden Variablen 0.190. Das korrigierte Bestimmtheitsmaß steigt ebenfalls,
aber nicht so schnell wie R2 , da die Anzahl der Parameter größer wird. Würde das korrigierte Bestimmtheitsmaß fallen, müsste man schließen, dass der Mehraufwand an Parametern für die
größeren Modelle sich nicht lohnt. In diesem Fall geben wir dem komplexesten Modell den Vorzug,
da auch das korrigierte Bestimmtheitsmass für dieses Modell am größten ausfällt. Der Standardfehler des Schätzers ist der Schätzwert σ̂. Je größer der Anteil der Schwankung von Y ist, der
durch die Einflussvariablen erklärt wird, desto geringere Schwankung muss von Z beigetragen
werden. Daher sinkt σ̂, wenn das Bestimmtheitsmaß steigt.
Die Tabelle der Varianzanalysen testet jedes der Modelle gegen das triviale Modell (Y unabhängig von allen Einflussvariablen). In jedem Fall erhalten wir eine sehr deutliche Signifikanz
(Null auf drei Stellen), das triviale Modell kann mit großer Signifikanz zu Gunsten von jedem der
drei durchgerechneten Modelle abgelehnt werden. Jedenfalls besteht ein deutlicher Einfluss der
erklärenden Variablen auf den Blutdruck nach 6 Monaten. In der Tabelle finden wir für jedes der
drei Modelle untereinander die Quadratsummen SSR (erklärte Schwankung), SSE (unerklärte
Schwankung), sowie SSY , die Gesamtschwankung, welche vom Modell unabhängig ist. Daneben
die Freiheitsgrade. Zum Beispiel gibt es im zweiten Modell zwei erklärende Variablen. Daher hat
SSR zwei Freiheitsgrade. Aus 174 Datensätzen verbleiben für SSY noch 173 Freiheitsgrade, damit
entfallen auf SSE genau 171 Freiheitsgrade. Die Quadratmittelwerte sind die Quadratsummen, dividiert durch die Freiheitsgrade, und F ist die Teststatistik für den F -Test, aus dem die Signifikanz
berechnet wird.
¤
4.2.2.4. Multikollinearität.
Die Wechselwirkungen zwischen den erklärenden Variablen können die Qualität
der Regression entscheidend beeinflussen. Im Idealfall hat man lauter erklärende Variablen, die voneinander unabhängig sind. Dieser Fall ist normalerweise nicht erfüllt.
Abhängigkeiten zwischen den erklärenden Variablen nennt man Multikollinearität.
200
4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN
Beispiel 4.2.2.14. Eine Datenbank über GrippepatientInnen beinhaltet sowohl
die Körpertemperatur in Celsius als auch in Fahrenheit. In einer multiplen Regression werden in die Liste der Einflussvariablen unter anderem auch beide Maße der
Körpertemperatur aufgenommen:
X1 Körpertemperatur in Celsius.
X2 Körpertemperatur in Fahrenheit.
X3 usw.: Andere erklärende Variablen.
Was geschieht?
Diskussion: Für den Anfang betrachten wir ein Modell, in dem b2 auf Null gesetzt wird, anders
ausgedrückt, in dem die Variable “Körpertemperatur in Fahrenheit” nicht vorkommt. Wenn die
Körpertemperatur die abhängige Variable beeinflußt, muss der Koeffizient b1 ungleich Null sein,
sagen wir z.B. b1 = 3.6. Erhöhung der Körpertemperatur um 1◦ C bewirkt eine durchschnittliche
Erhöhung der abhängigen Variablen um 3.6.
Y = b0 + 3.6X1 + 0 + b3 X3 + · · · .
Nun nehmen wir die Variable X2 hinzu und lassen dafür X1 weg. Erhöht sich die Körpertemperatur
um 1◦ C, so erhöht sie sich um etwa 1.8◦ F. Erhöht man also die Temperatur um 1◦ F, erhöht sich
die abhängige Variable im Durchschnitt um 3.6/1.8 = 2.
Y = b0 + 0 + 2X2 + b3 X3 + · · · .
Nun sind aber beide Variable, X1 und X2 im Modell enthalten. Beide Sätze von Parametern:
b1 = 3.6,
b2 = 0.0
b1 = 0.0,
b2 = 2.0
beschreiben genau denselben Zusammenhang, und passen daher exakt gleich gut zu den Daten,
ebenso wie etwa die Wahl
b1 = 5.4,
b2 = −1.0.
Die Modellparameter sind also nicht eindeutig bestimmbar.
Nach der Umrechnungsformel wäre X2 = 1.8X1 + 32. In der Praxis werden sich aber, weil
ja nur auf ganze Grad abgelesen und daher gerundet wird, die Ablesungen in der Celsius- und
Fahrenheitskala von dieser Formel um eine ganz kleine Störung unterscheiden. Dieser Zufall entscheidet dann, auf welchen Parameter, b1 oder b2 , die Regression das Hauptgewicht legt. Das
Statistikpaket wird also Parameter ausrechnen, diese werden aber extrem breite Konfidenzbreiten
haben, und selbst dann große p-Werte besitzen, wenn die Körpertemperatur in Wirklichkeit eine
sehr wesentliche Rolle für die abhängige Variable spielt.
¤
Merksatz 4.2.2.15 (Multikollinearität). Multikollinearität in einer multiplen
Regression liegt vor, wenn zwischen den Einflussvariablen deutliche lineare Zusammenhänge vorhanden sind. Multikollinearität bewirkt, dass die Parameter unsichere
Schätzungen (große Konfidenzintervalle) und übermäßig große p-Werte haben.
Multilinearität wird vermieden, indem Variablen, die durch andere erklärenden
Variablen bereits weitgehend festgelegt sind, nicht in die Liste der erklärenden
Variablen aufgenommen werden.
Statistikpakete geben zu den Variablen die sogenannte Toleranz an, eine Zahl
zwischen 0 und 1. Eine Toleranz von 1 sagt, dass zwischen dieser Variablen und den
anderen erklärenden Variablen keinerlei linearer Zusammenhang besteht. Bei einer
Toleranz von Null läßt sich die Variable mit Hilfe der anderen erklärenden Variablen
bereits eindeutig festlegen. Toleranzen unter 0.25 sind suspekt auf Multikollinearität, Toleranzen unter 0.1 zeigen ernste Multikollinearitäten an. Der sogenannte
Variance Inflation Factor ist der Reziprokwert der Toleranz.
4.2. LINEARE REGRESSION
201
Was Sie jetzt können:
Begriffe und Wissen: Hauptergebnisse einer Regressionsrechnung.
Bedeutung der Quadratsummen und F-Test zwischen Modellen. Rolle
der Residuendiagnostik. Multikollinearität.
Methoden: Interpretation der folgenden Ergebnisse einer multiplen
Regression: geschätzte Parameter und ihre Konfidenzintervalle, Signifikanz eines Parameters, standardisierte Parameter, erklärte und
nicht erklärte Quadratsumme, Bestimmtheitsmaß und korrigiertes
Bestimmtheitsmaß.
KAPITEL 5
Übungen
Übersicht:
Dieses Kapitel enthält Übungsbeispiele zum Stoff des Skriptums, welche mit
Hilfe des Statistik-Softwarepaketes SPSS zu lösen sind. Die Beispiele wurden
mit der deutschen Version von SPSS 14 getestet.
1. Dateneingabe und erste Schritte zur Analyse
2. Navigieren und Editieren im Viewer
3. Diagramme
4. Explorative Datenanalyse, Transformationen
5. Vergleichstests
6. Nominale Daten und Anpassungstests
7. Varianzanalyse
8. Lineare Regression
Die Übungen beziehen sich auf folgende Datenfiles, welche Sie von meiner Homepage herunterladen
können:
www.uni-graz.at\ desch\Inhalt.html
(Link Lehre, Beschreibung der Lehrveranstaltung Statistik für BiologInnen)
Die verwendeten Files sind teils reale, aber gekürzte Daten, teils fiktive Daten.
• kurztests.sav: Ergebnisse von drei Kurztests in einer mathematischen Lehrveranstaltung. Eigene Daten.
• wasserbilanz.sav: Niederschlags- und Abflusshöhen in den alten Bundesländern der
BRD nach Monaten. U. Maniak, Hydrologie und Wasserwirtschaft, 3. Aufl., Springer 1988.
• phwerte.txt pH-Werte vor und nach geringfügiger ergometrischer Belastung. S. Porta
und MitarbeiterInnen.
• ergodaten.sav: Blutgase, Laktat und Elektrolyte vor und nach geringfügiger ergometrischer Belastung. S. Porta und MitarbeiterInnen.
• stoerfall.sav: Meldepflichtige Störfälle in verfahrenstechnischen Anlagen in den Monaten der Jahre 2000 – 2005. Zentrale Melde- und Auswertestelle für Störfälle in Verfahrenstechnischen Anlagen, BRD, Homepage.
• aepfel.sav: Gewichte von Äpfeln nach Sorten und Herkunft. Fiktive Daten.
• troglophyli.sav: Zählung von Troglophylus in einem steirischen Stollen im Februar.
B. Freitag.
Die Verwendung dieser Datenfiles zu anderen Zwecken als als Übungsmaterial ist unzulässig.
203
204
5. ÜBUNGEN
5.1. Dateneingabe und erste Schritte zur Analyse
Aufgabe 5.1.1 (Vorbereitung).
1. Loggen Sie mit Ihrem Studierenden-Account ein.
2. Legen Sie sich auf Laufwerk H einen Datenordner Statistik an, auf dem
Sie später Ihre Files ablegen können.
3. Starten Sie SPSS deutsch im Terminalserver.
Erreichbar im Internet unter http://www-ts.kfunigraz.ac.at
4. Auf die Frage der Dateneingabe wählen Sie: “Neue Daten eingeben” und
beginnen mit Aufgabe 5.1.2.
Aufgabe 5.1.2. In dieser Aufgabe wird gezeigt, wie man Daten in SPSS eingibt.
20 zahme Ratten werden nach Farbe und Geschlecht sortiert und gewogen. Es ergibt
sich die Tabelle:
Farbe
weiss
weiss
weiss
weiss
weiss
grau
grau
grau
andere
andere
Geschlecht
weiblich
weiblich
weiblich
männlich
männlich
weiblich
weiblich
männlich
weiblich
männlich
Gewicht (Gramm)
250,00
220,00
180,00
220,00
unbekannt
160,00
240,00
170,00
310,00
280,00
Farbe
weiss
weiss
weiss
weiss
grau
grau
grau
grau
andere
andere
Geschlecht
weiblich
weiblich
männlich
männlich
weiblich
weiblich
männlich
männlich
weiblich
männlich
Gewicht (Gramm)
210
180
230
240
190
270
250
260
230
200
Legen Sie in SPSS diese Daten an:
1.) Legen Sie in der Variablenansicht Variablen für Farbe, Geschlecht und
Gewicht an. Die nominalen Merkmale Farbe und Geschlecht sollen numerisch gespeichert werden, mit Wertelabels 1...weiss, 2...grau, 0...andere
Farbe; 1...weiblich, 2...männlich. Fehlende Werte im Gewicht sollen als
999 gespeichert werden.
1.1 Öffnen Sie die Variablenansicht. Jede Zeile gehört zu einer Variablen. Sie erklären
jetzt, welche Variablen vorkommen und welche Eigenschaften sie haben.
1.2 Name: (Vorsicht mit Zahlen und Sonderzeichen. Zahlen nicht an erste Stelle, nicht alle
Sonderzeichen dürfen vorkommmen.) z.B. Color, Sex, Weight.
1.3 Typ: Wird die Variable intern als Zahl oder String (Wort) gespeichert? Tip: Speichern
Sie auch nominale Variable als numerisch. (Aber natürlich: Stringvariablen z.B. für
Namen in Adressverwaltung etc.)
1.4 Spaltenformat: Der interne für die Variable bereitgestellte Datenspeicherplatz. Hier
z.B. 8.
1.5 Dezimalstellen: Anzahl der Dezimalstellen. 0 für ganzzahlige. z.B. 2 für Gewicht.
1.6 Variablenlabel: Eine genauere Bezeichnung der Variablen, v.a. bei kurzen Namen. Z.B.
Geschlecht, Farbe, Gewicht.
1.7 Wertelabels: Erklären, welche Zahlen welche Farbe und welches Geschlecht bedeuten.
Klicken Sie die Box mit Wertelabels, es erscheint ein graues Quadrat. Klicken Sie
darauf, dann erscheint ein Fenster. Hier können Sie immer eine Ausprägung mit einem
Wertelabel versehen. Z.B. bei Farbe: Wert: 0 – Label: andere – Hinzufügen, Wert 1 –
Label weiss – Hinzufügen, usw.
1.8 Fehlende Werte: Was soll in der Tabelle stehen, wenn der Wert nicht bekannt ist. z.B.
bei Gewicht: einzelner Wert 999.
1.9 Spalten: Die Anzahl der Spalten im Dateneditor. Hier z.B. 8.
1.10 Ausrichtung: links, Mitte, rechts im Dateneditor.
1.11 Messniveau: nominale, ordinale oder metrische Merkmale?
2. Tragen Sie nun die einzelnen Daten in der Datenansicht ein.
2.1
2.2
2.3
2.4
2.5
Wechseln Sie von der Variablenansicht in die Datenansicht
Für jede Variable ist bereits eine Spalte reserviert.
Jede Zeile gehört zu einem Merkmalsträger, also einer Ratte.
Tragen Sie zuerst das Gewicht der ersten Ratte aus der Tabelle ein.
Wenn Sie nun die Farbe der ersten Ratte eintragen, können Sie 1 für weiss eintragen. Bequemer ist aber das Auswahlmenu unter dem kleinen Pfeil im entsprechenden
Kästchen.
2.6 Stellen Sie die Tabelle fertig.
3. Schalten Sie im Dateneditor die Variablenlabels ein und aus.
4. Speichern Sie den Datenfile unter dem Titel aufgabe12.sav.
5. Laden Sie den Datenfile neu.
5.1.
DATENEINGABE UND ERSTE SCHRITTE ZUR ANALYSE
205
Aufgabe 5.1.3. In dieser Aufgabe machen wir erste Schritte zur Datenanalyse in SPSS
Falls er noch nicht geladen ist, laden Sie den Datenfile aufgabe12.sav aus Aufgabe 5.1.2.
1. Erstellen Sie eine Übersicht über die eingegebenen Daten:
1.1 Menüpunkt Analysieren – Berichte – Bericht in Zeilen.
1.2 Wählen Sie die Datenspalten an. Markieren Sie dazu im linken Feld (das alle Variablen
zeigt) je eine Variable und verschieben sie mit dem Pfeil in das rechte Feld “Datenspalten”. Versuchen Sie verschiedene Variablen zwischen links und recht hin und her zu
schieben. Markieren Sie auch mit gedrückter CTRL-Taste mehrere Variablen zugleich,
um sie zu verschieben. Probieren Sie auch die Wirkung des Schalters “Zurücksetzen”
aus.
1.3 Verwenden Sie letztlich die Variablen Farbe und Gewicht als Datenvariablen, die Variable Geschlecht als Breakvariable.
1.4 Kreuzen Sie an: Fälle anzeigen.
1.5 Schalten Sie auf OK, und betrachten Sie die Tabelle im Viewer.
2. Erstellen Sie eine Häufigkeitstabelle für die Farbe, mit Kreisdiagramm.
2.1
2.2
2.3
2.4
2.5
2.6
SPSS-Menu Analysieren –Deskriptive Statistik – Häufigkeiten.
Wählen Sie als Variable “Farbe”.
Wählen Sie unter Statistik gar nichts an.
Wählen Sie unter Diagramme: “Kreisdiagramm”.
“Häufigkeitstabelle anzeigen” ankreuzen.
OK. Interpretieren Sie das Ergebnis im Viewer.
3.1
3.2
3.3
3.4
3.5
3.6
SPSS-Menu Analysieren – Deskriptive Statistik – Häufigkeiten.
Wählen Sie als Variable “Gewicht”.
Unter Statistik kreuzen Sie die gewünschten Parameter an.
Unter Diagramme: “Histogramm”
Häufigkeitstabelle nicht anzeigen.
OK. Interpretieren Sie das Ergebnis im Viewer.
3. Erstellen Sie eine Häufigkeitstabelle für das Gewicht, und ermitteln Sie
Mittelwert, Standardabweichung, Minimum, Maximum und Median des
Gewichts. Erstellen Sie ein Histogramm.
4 Speichern Sie die Ausgabe als aufgabe13.spo.
5 Ganz unten am Bildschirm befindet sich eine Leiste, an der Sie zwischen
Datenansicht und Viewer hin und her schalten können.
206
5. ÜBUNGEN
5.2. Navigieren und Editieren im Viewer
Aufgabe 5.2.1. Wir zeigen, wie man im Viewer navigieren kann.
Laden Sie die Daten aufgabe12.sav aus Aufgabe 5.1.2 und die Ausgabe aufgabe13.spo
von Aufgabe 5.1.3.
1. Erstellen Sie zusätzlich eine Kreuztabelle für Geschlecht und Farbe.
1.1
1.2
1.3
1.4
1.5
Menu Analysieren – Deskriptive Statistik – Kreuztabellen
Zeilenvariable: Geschlecht. Spaltenvariable: Farbe.
Statistik: keine
Zellen: Prozente sowohl zeilenweise, als auch spaltenweise, als auch gesamt.
OK. Interpretieren Sie die Tabelle.
2. Speichern Sie die Ausgabe als aufgabe21.spo.
3. Machen Sie sich mit der Gliederung links im Viewer vertraut.
3.1 Navigieren Sie durch Anklicken der Gliederung zu den verschiedenen Ausgabepunkten.
3.2 Durch doppeltes Anklicken der Buchsymbole können Sie Teile der Ausgabe verstecken
und wieder öffnen.
3.3 Sie können die Reihenfolge der Ausgabe durch Ziehen mit der Maus in der Gliederung
umstellen.
3.4 Löschen Sie einzelne Ausgabepunkte: Rechte Maustaste, Ausschneiden, oder mit der
Entf-Taste. Mit Bearbeiten – Rückgängig können Sie das Löschen wieder rückgängig
machen.
4. Machen Sie sich mit den Strukturelementen einer einzelnen Ausgabe vertraut, z.B. am Histogramm:
4.1 Titel: Häufigkeiten. Alle SPSS-Analysen beginnen in der Ausgabe mit einem Titel und
den beiden folgenden Punkten:
4.2 Anmerkungen: (diese sind im Default geschlossen, öffnen Sie durch Doppelklicken auf
das Buchsymbol in der Gliederung). Sie sind ein Protokoll, mit welchen Daten und
Zusatzbedingungen die Analyse zustandegekommen ist, sowie die Befehle in SPSSProgrammiersprache, welche dieselbe Analyse ergeben würden.
4.3 Arbeitsdatei: Die verwendeten Daten.
4.4 Statistiken: Nun beginnen die Ergebnisse. Zunächst, wieviele Daten verwendet wurden,
es wird angegeben, dass ein Datum fehlt (ein Gewicht war als unbekannt eingegeben).
Anschließend die angeforderten Kenngrößen.
4.5 Histogramm: Das gewünschte Histogramm. Je nach Analyse kann die Liste der Ergebnisse sehr umfangreich werden.
Aufgabe 5.2.2. Wir zeigen, wie man Tabellen und Diagramme im Viewer editieren kann.
Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1.
1. Editieren Sie den Titel des Berichtes.
1.1 Doppelklicken Sie den Titel, es erscheint das Bearbeitungsfenster.
1.2 Ändern Sie Text des Titels, Schriftfont, Größe, Stil nach Ihrem Geschmack.
1.3 Bei Bedarf (z.B. großer Schriftgröße) können Sie das Fenster des Titels an seinem
Rahmen vergrößern oder verkleinern.
1.4 Bei Schließen des Bearbeitungsfensters wird die Änderung in die Ausgabe übernommen.
2. Ändern Sie Text in der Berichtstabelle.
2.1 Doppelklicken Sie die Tabelle. Es wird ein Rahmen darum sichtbar.
2.2 In diesem Rahmen können Sie Text ändern. (z.B. von “weiblich” auf “Damen”, die
Zahlen ändert man natürlich nur, wenn man die Statistik fälschen will).
2.3 Wenn Sie irgendwo ausserhalb der Tabelle klicken, verschwindet der Rahmen wieder.
3. Editieren Sie das Histogramm.
3.1 Doppelklicken Sie das Histogramm, es erschient der Diagramm-Editor.
3.2 Doppelklicken Sie die Beschriftung “Häufigkeiten” der y-Achse. Es erscheint ein Fenster mit den Eigenschaften der y-Achse. Sie können die Art der Achsenteilung, die
Größe des gesamten Histogramms und den Stil Beschriftung ändern. Erst wenn Sie
auf “Zuweisen” drücken, wird die Änderung übernommen.
3.3 Klicken Sie, noch während das Eigenschaftenfenster geöffnet ist, noch einmal auf die
Beschriftung “Häufigkeiten”. Sie können jetzt den Text der Beschriftung ändern.
3.4 Schließen Sie das Eigenschaftsfenster der y-Achse und doppelklicken Sie jetzt auf einen
Balken des Histogramms. Es erscheint das Eigenschaftsfenster des Histogramms selbst.
3.5 Unter der Karte “Optionen für Histogramme” ändern Sie die Anzahl der Balken: 15
Balken, verankert bei 100. Wählen Sie nun selbst eine möglichst günstige Anzahl oder
Breite der Balken, und geben Sie dem Histogramm eine gefällige Farbe.
3.6 Schließen Sie das Eigenschaftsfenster des Histogramms. Suchen Sie nach weiteren editierbaren Objekten in der Grafik und verändern Sie nach Ihrem Gutdünken. Schließen
Sie dann den Diagramm-Editor.
4. Editieren Sie die Kreuztabelle.
4.1 Doppelklicken Sie die Kreuztabelle. Es öffnet sich ein Fenster Pivot-Leisten. (Sie
können die Pivot-Leisten auch öffnen mit dem Menupunkt: Pivot).
4.2 Im Fenster Pivot-Leisten finden sich drei farbige Quadrate, diese stehen für Statistik
(die Prozente), Geschlecht und Farbe. Verschieben Sie die Quadrate zwischen den
Bereichen Zeilen / Spalten / Schicht hin und her und beachten Sie, wie sich die Tabelle
dabei verändert.
5.2.
NAVIGIEREN UND EDITIEREN IM VIEWER
207
Aufgabe 5.2.3. Wir übertragen Daten aus der Ausgabe in andere Dateien.
Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1.
1. Exportieren Sie das Kreisdiagramm als JPG-File aufgabe23.jpg.
1.1 Klicken Sie einmal auf das Kreisdiagramm. Es wird ein Rahmen sichtbar.
1.2 Klicken Sie die rechte Maustaste. Wählen Sie Exportieren.
1.3 Wählen Sie: Export: Nur Diagramme. Was: ausgewählte Diagramme. Exportdatei:
H:\statistik\aufgabe22. Datentyp: JPG.
1.4 Überzeugen Sie sich, dass ein JPG-File aufgabe23.jpg in Ihrem Ordner H:\statistik
liegt und das Kreisdiagramm enthält.
2. Übertragen Sie Teile der Ausgabe in eine Word-Datei.
2.1 Starten Sie eine neue Word-Datei.
2.2 Klicken Sie ein Objekt (Grafik, Tabelle, Text) mit der Maus an, sodass der Rahmen
sichtbar wird.
2.3 Klicken Sie die rechte Maustaste, wählen Sie “Kopieren”.
2.4 Gehen Sie mit der Maus in das Word-Dokument. Rechte Maustaste: “Einfügen”.
208
5. ÜBUNGEN
5.3. Diagramme
Aufgabe 5.3.1. Erstellen und interpretieren von Balkendiagrammen
Laden Sie die Datei kurztests.sav, die Ihnen zur Verfügung gestellt wird. Die Datei
enthält die anonymisierten Ergebnisse der ersten drei Kurztests einer mathematischen Lehrveranstaltung
im WS 2007. Jede Zeile ist ein abgegebenes Testblatt. Es sind festgehalten:
Punkte: Erreichte Punktezahl, erreichbar waren jeweils 4 Punkte.
Test: Erster, zweiter oder dritter Kurztest
Stud: Kennzahl der oder des Studierenden
Gesch: Geschlecht der oder des Studierenden (1 . . . weiblich, 2 . . . männlich)
1. Erstellen Sie ein Balkendiagramm, aus dem man ersieht, wieviel Studierende bei den drei Kurztests jeweils teilgenommen haben. Also für jeden
Kurztest ein Balken, die Höhe des Balkens bedeutet die Anzahl der teilnehmenden Studierenden.
1.1 SPSS-Menu Grafiken – Balken
1.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf
den Schalter Definieren.
1.3 Balken bedeuten Häufigkeiten
1.4 Kategorienvariable: Test
1.5 OK. Interpretieren Sie die Ausgabe.
2. Erstellen Sie ein Balkendiagramm: Zu jedem Kurztest je ein Balken für
weibliche und männliche Studierende, die Höhe des Balkens bedeutet die
durchschnittliche in diesem Kurztest erreichte Punktezahl.
2.1 SPSS-Menu Grafiken – Balken
2.2 Wählen Sie: Gruppiert, Auswertung über Kategorien einer Variablen, und gehen Sie
auf den Schalter Definieren.
2.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte. Das ist gewünscht. Sollten Sie stattdessen z.B. die Summe
der Punkte wollen, könnten Sie das mit dem Schalter Statistik ändern erreichen.
2.4 Kategorienvariable: Test, Gruppen definieren durch Gesch.
2.5 Gehen Sie auf den Schalter Optionen. Kreuzen Sie an: Fehlerbalken erstellen. Balken
bedeuten: Standardabweichung, 1-fach.
2.6 OK. Sie sehen je für die drei Kurzstests und beide Geschlechter die erreichte durchschnittliche Punktezahl, die Fehlerbalken grenzen ±1× Standardabweichung der Punktezahl ein. Für das unterschiedliche Abschneiden der beiden Geschlechter im dritten
Kurztest habe ich keine Erklärung.
3. Dieselbe Aufgabe wie Teil 2 dieser Aufgabe in einer anderen Darstellungsform: Erstellen Sie je ein Balkendiagramm für jedes Geschlecht. Die Höhe
des Balkens zeigt den Mittelwert der erreichten Punktezahl.
3.1 SPSS-Menu Grafiken – Balken
3.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf
den Schalter Definieren.
3.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte.
3.4 Kategorienvariable: Test
3.5 Felder anordnen in Zeilen nach Geschlecht
3.6 Schalten Sie die Fehlerbalken in Optionen ab.
3.7 OK. Vergleichen Sie das Diagramm mit dem Diagramm aus Teil 2 dieser Aufgabe.
4. Erstellen Sie ein Balkendiagramm: Für jede(n) Studierende(n) ein Balken. Höhe des Balkens bedeutet die erreichte Punktezahl. Der Balken ist
senkrecht in drei Bereiche für jeden Kurztest gegliedert.
4.1 SPSS-Menu Grafiken – Balken
4.2 Wählen Sie: Gestaffelt, Auswertung über Kategorien einer Variablen, und gehen Sie
auf den Schalter Definieren.
4.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen
Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte)
. . . Mittelwert der Punkte. Schalten Sie mit Statistik ändern auf Summe der Punkte
um.
4.4 Kategorienvariable: Stud
4.5 Stapel nach Test.
4.6 OK. Interpretieren Sie das Diagramm.
5.3.
DIAGRAMME
209
Aufgabe 5.3.2. Erstellen von Liniendiagrammen
Laden Sie die Datei wasserbilanz.sav, die zur Verfügung gestellt wird.
Die Datei
zeigt für 24 Monate die mittlere Niederschlagshöhe und die mittlere Abflusshöhe in mm für die alten
Bundesländer der BRD. Die Abflußhöhe beschreibt die Wassermenge, die durch Grundwasser und Flüsse
weggetragen wird. Das restliche Niederschlagswasser verschwindet durch Verdunstung. Jede Zeile entspricht einem Monat, gespeichert wurden Jahreszahl und Monat, sowie die Niederschlagshöhe N und die
Abflusshöhe A.
1. Zeichnen Sie eine Kurve, auf der waagrecht die Monate, senkrecht die
durchschnittliche Niederschlagshöhe im jeweiligen Monat aufgetragen ist.
(Der Durchschnitt wird demnach jeweils über zwei Werte gebildet, weil
zu jedem Monat Messwerte aus zwei Jahren vorliegen.)
1.1 Grafiken – Linie
1.2 Einfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren.
1.3 Linie entspricht: anderer Statistik, Niederschlagshöhe (SPSS schaltet automatisch auf
Mittelwert dieser Variablen. Andere Auswahl wäre durch den Schalte Statistik ändern
möglich.
1.4 Kategorienvariable: Monat.
2. Zeichnen Sie wie oben die durchschnittliche Niederschlagshöhe für jeden
Monat, jedoch im selben Diagramm auch die durchschnittliche Abflusshöhe.
2.1 Grafiken – Linie
2.2 Mehrfache Linie. Kategorien mehrerer Variablen (nämlich Niederschlag und Abflusshöhe). Definieren.
2.3 Linien entsprechen: Niederschlagshöhe, Abflusshöhe.
2.4 Kategorienvariable: Monat.
3. Zeichnen Sie die Niederschlagshöhe für jeden Monat, und zwar im selben
Diagramm drei Kurven für jedes Jahr 1958, 1959, 1960.
3.1
3.2
3.3
3.4
3.5
Grafiken – Linie
Mehrfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren.
Linie entspricht: anderer Statistik, Niederschlagshöhe
Kategorienvariable: Monat.
Linien definieren durch: Jahr
4. Zeichnen Sie ein Diagramm, in dem waagrecht die Monate aufgetragen
sind, und darüber je ein senkrechter Balken, an welchem kleinster Wert,
größter Wert und Mittelwert der für diesen Monat gemessenen Niederschlagswerte markiert sind. Im selben Diagramm werden in einer anderen
Farbe analog Balken für die Abflusshöhen eingetragen.
4.1 Grafiken – Hoch-Tief
4.2 Gruppiert: Hoch-Tief-Schluss. Auswertung über mehrere Variablen (nämlich Niederschlag und Abfluss). Definieren.
4.3 Variablenset 1: Hoch: Niederschlag. Statistik ändern: Maximalwert. Tief: Niederschlag.
Statistik ändern: Minimum. Schluss: Niederschlagswert (Mean). Weiter im Variablenset.
4.4 Variablenset 2: Hoch: Abflusshöhe. Statistik ändern: Maximalwert. Tief: Abflusshöhe.
Statistik ändern: Minimum. Schluss: Abflusshöhe (Mean).
4.5 Kategorienvariable: Monat
Aufgabe 5.3.3. Zeichnen von Streudiagrammen (Punktwolken)
Laden Sie (falls nicht schon geladen) die Datei wasserbilanz.sav.
1. Erstellen Sie ein Streudiagramm, in dem jeder der 24 Mess-Monate als
Punkt aufgetragen ist. Waagrecht aufgetragen: Niederschlagshöhe, senkrecht aufgetragen: Abflusshöhe. Beschriften Sie die Punkte durch die Monate.
1.1
1.2
1.3
1.4
1.5
Grafiken – Streudiagramme
Einfaches Streudiagramm. Definieren.
y-Achse: Abflusshöhe. x-Achse: Niederschlagshöhe. Fallbeschriftung: Monat.
Optionen: Fallbeschriftung anzeigen.
Gibt es einen Zusammenhang zwischen Niederschlagshöhe und Abflusshöhe?
210
5. ÜBUNGEN
5.4. Explorative Datenanalyse, Transformationen
Aufgabe 5.4.1. Wir zeigen, wie man Daten aus einem Textfile importieren kann.
1. Laden Sie die Daten aus dem (bereitgestellten) Textfile phwerte.txt.
Der File enthält pH-Werte von Blutproben von ProbandInnen jeweils vor und nach einer
geringfügigen körperlichen Belastung durch Ergometrie.
1.1 Datei öffnen, Dateityp: Text (txt). File phwerte.txt öffnen.
1.2 Die Datei hat kein vordefiniertes Format.
1.3 Die Daten sind im Textfile in Spalten mit fester Breite angeordnet, es gibt kein Trennzeichen. Die erste Zeile enthält die Variablennamen.
1.4 Beginnend mit Zeile 2, ist jede Zeile ein Fall. Alle Fälle laden.
1.5 SPSS erkennt die Spalten selbst, es sollten keine Korrekturen nötig sein.
1.6 Jede Variable ist mit der im File gegebenen Namen gekennzeichnet und ist vom Typ
Komma. (Um die einzelnen Variablen zu schalten, klicken Sie die Spalten in der Tabelle
an.) SPSS sucht nach der letzten Spalte noch eine Variable V3, diese nicht importieren.
1.7 Eingabeformat nicht speichern, Daten nicht in die Zwischenablage, fertig stellen.
1.8 Speichern Sie den Datenfile unter aufgabe41.sav.
Aufgabe 5.4.2. Erstansicht von Daten. Ausreisser entdecken. Wie man Daten auswählt.
Falls noch nicht geladen, laden Sie den File aufgabe41.sav.
1. Verschaffen Sie sich einen ersten Überblick über den pH-Wert vor der
Ergometrie (Variable PHvor) mit Mittelwert, Ausreissern, Box-Whisker
Plot, Histogramm und Stengel-Blatt-Diagramm.
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
Analysieren - Deskriptive Statistiken - Explorative Datenanalyse
Abhängige Variable: PHvor. Keine Faktoren. Statistik und Diagramme anzeigen.
Statistik: Deskriptive Statistiken, Ausreisser.
Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt,
Histogramm.
OK.
Interpretieren Sie das Stengel-Blatt-Diagramm.
Warum ist das Histogramm so wenig informativ?
Beachten Sie die Liste der Extremwerte. Ein pH-Wert von 5.51 ist physiologisch unmöglich!
Betrachten Sie den Boxplot. Auch hier finden Sie den Ausreisser und seine Fallnummer
417. In welchem Bereich findet sich der Großteil der pH-Werte ungefähr?
Sehen Sie im Datenfile nach, ob Fall 417 auch nach der Ergometrie eine so extrem
niedrige pH-Angabe PHnach hat.
2. Um die physiologisch unmöglichen Ausreisser auszuschließen, arbeiten Sie
nur mit den Fällen weiter, für die der pH-Wert nicht kleiner als 7.3 ist.
2.1 Daten - Fälle auswählen
2.2 Falls Bedingung zutrifft.
2.3 Schalter: Falls. Es öffnet sich ein Fenster zum Bearbeiten der Bedingung. Mit Tastatur
und Mausklick erstellen Sie die Bedingung PHvor >= 7.3 (Dezimalzeichen Punkt, nicht
Komma).
2.4 Weiter. OK. In der Datenansicht zeigt eine neue Variable “filter”, welche Daten ausgewählt wurden.
2.5 Heben Sie die Auswahl wieder auf, indem Sie in Daten - Fälle auswählen auf “alle Fälle” schalten. Schalten Sie dann wieder auf “Falls Bedingung” zurück, um die
Auswahl zu treffen.
3. Wiederholen Sie die explorative Datenanalyse für PHvor nun, wenn die
Ausreisser weggefiltert sind. Überprüfen Sie auch, ob der pH-Wert annähernd
normalverteilt sein kann. Geben Sie für den Mittelwert des pH vor der Ergometrie ein 99%-Konfidenzintervall an.
3.1 Analysieren - Deskriptive Statistiken - Explorative Datenanalyse
3.2 Abhängige Variable: PHvor (gefiltert). Keine Faktoren. Statistik und Diagramme anzeigen.
3.3 Statistik: Deskriptive Statistiken. Konfidenzintervall für den Mittelwert: 99%.
3.4 Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt,
Histogramm. Normalverteilungsdiagramme mit Tests.
3.5 OK. Interpretieren Sie die Ausgabe. Wenn sie die Anmerkungen öffnen, finden Sie
einen Hinweis, dass Sie nur mit ausgefilterten Daten gearbeitet haben.
3.6 Wo liegt der Mittelwert des pH-Wertes vor der Ergometrie? (Punkt- und Konfidenzschätzer)
3.7 Können sie in weiteren Arbeiten an diesen Daten davon ausgehen, dass der pH-Wert
annähernd normalverteilt ist?
5.4.
EXPLORATIVE DATENANALYSE, TRANSFORMATIONEN
211
Aufgabe 5.4.3. Berechnen neuer Variablen aus den Daten.
Falls noch nicht geladen, laden Sie die Datei aufgabe41.sav.
1. Berechnen Sie eine neue Variable PHshift = PHnach - PHvor, welche also
die Veränderung des pH-Wertes durch die Ergometrie beschreibt.
1.1 Transformieren - Berechnen
1.2 Als Name der Zielvariablen geben Sie PHshift ein.
1.3 In das Formelfeld können Sie Variablen aus der Variablenliste mit der Pfeiltaste transportieren, und mit der Tastatur oder durch Mausklick auf dem Rechnerfeld Formeln
schreiben. Schreiben Sie die Formel
PHnach - PHvor.
1.4 OK. In der Datenansicht entsteht eine neue Spalte mit den Differenzen der ersten
beiden Spalten. Auch in der Variablenansicht ist die neue Variable eingetragen.
2. Konstruieren Sie aus der Variablen PHshift eine neue Variable pHsteigt
mit den Werten +1, falls der pH nach der Ergometrie höher ist als vorher,
-1, falls pH gefallen ist, und 0, falls der pH-Wert gleich bleibt.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
Transformieren - Umkodieren - in andere Variablen (eine neue Variable entsteht)
Verschieben Sie die Variable PHshift in das Fenster.
Name der Ausgabevariablen: PHsteigt. Beschriftung: Steigt oder fällt pH-Wert
Schalter Alte und Neue Werte. Sie können jetzt eine Liste von Regeln erstellen, nach
denen die neue Variable erstellt wird.
Alter Wert: 0, Neuer Wert: 0. Hinzufügen.
Alter Wert: Kleinster bis 0. Neuer Wert: -1. Hinzufügen.
Alter Wert: 0 bis größter. Neuer Wert: 1. Hinzufügen. Weiter.
OK. In der Datenansicht entsteht eine neue Spalte.
In der Variablenansicht können Sie Wertelabels einführen und die neue Variable als
nominale Variable erklären
212
5. ÜBUNGEN
5.5. Vergleichstests
Aufgabe 5.5.1. Konfidenzintervall und t-Test auf die Lage eines Mittelwertes.
Laden Sie den File ergodaten.sav.
Die Datei enthält Daten für pH, den Partialdruck von CO2 und die Konzentrationen von HCO3 ,
Laktat, sowie der Elektrolyte Mg, Ca, K und Na, jeweils vor und nach einer geringfügigen körperlichen
Belastung durch Ergometrie. Daten von S. Porta, leicht abgeändert.
1. Bestimmen sie ein 98%-Konfidenzintervall für die Mittelwerte des pHWertes und des Partialdruckes von CO2 in Ruhe (PHvor, PCO2vor).
1.1 Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe
1.2 Testvariablen PHvor, PCO2vor.
1.3 Testwert 0 (für die Abweichung der Variablen von diesem Testwert berechnet das
Programm das Konfidenzintervall.)
1.4 Optionen: 98% Konfidenzintervall.
1.5 Ok. In der Ausgabe finden Sie eine Statistik der verwendeten Daten, und die Konfidenzintervalle. Die angegebene Signifikanz ist der p-Wert für die Hypothese, dass
der Mittelwert vom Testwert 0 abweicht. In diesem Zusammenhang ist dies biologisch
nicht aussagekräftig. Warum?
2. Ist der Mittelwert des pH-Wertes in Ruhe für Frauen größer als 7.46?
Führen Sie mit der Variablen PHvor einen einseitigen t-Test mit Signifikanzniveau 0.10 durch.
2.1
2.2
2.3
2.4
2.5
2.6
Erstellen Sie die Hypothesen des Testes auf einem Blatt Papier.
Daten - Fälle auswählen - Falls (vgl. Aufgabe 5.4.2, Teil 2).
Bedingung im Fenster konstruieren: Sex = 0. Weiter. OK.
Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe
Variablen: PHvor. Testwert: 7,46.
OK. Sie erhalten die Statistik der verwendeten Daten und das Ergebnis des Tests mit
den Nebenergebnissen T (der Wert von t im t-Test) und df (Anzahl der Freiheitsgrade,
bei 113 Daten sind das 112 Freiheitsgrade), sowie den p-Wert für den zweiseitigen Test.
2.7 Der p-Wert des einseitigen Tests ist nur die Hälfte des p-Wertes für den zweiseitigen
Test.
2.8 Wie geht der Test aus?
Aufgabe 5.5.2. t-Test zum Vergleich von Mittelwerten für gepaarte Stichproben und tTest für 2 unabhängige Stichproben.
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. (Vgl. Aufgabe 5.5.1).
Schalten Sie, falls noch vom vorigen Beispiel anders eingestellt, die Datenauswahl auf “alle Fälle”.
1. Bewirkt die Ergometrie eine Erhöhung des Laktatspiegels? Vergleichen
Sie die Mittelwerte der Variablen Laktatnach und Laktatvor mittels eines
einseitigen t-Tests mit Signifikanzniveau 0.05.
1.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf.
1.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen
Stichproben?
1.3 Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben.
1.4 Klicken Sie beide Variablen Laktatnach, Laktatvor und bringen Sie sie dann durch die
Pfeiltaste ins Variablenfeld.
1.5 OK. Sie sehen die Statistik der verwendeten Daten, ferner, dass zwischen Laktatvor und Laktatnach eine signifikant untermauerte positive Korrelation besteht, und
schließlich das Testergebnis mit Statistiken über die Differenz Laktatnach-Laktatvor,
den Nebenergebnissen t und den Freiheitsgraden, sowie dem zweiseitigen p-Wert.
1.6 Wie geht der Test aus?
2. Haben Frauen einen anderen Kaliumspiegel in Ruhe als Männer? Vergleichen Sie die Mittelwerte von Kvor für Frauen und für Männer mittels
eines zweiseitigen t-Tests mit Signifikanzniveau 0.05.
2.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf.
2.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen
Stichproben?
2.3 Analysieren - Mittelwerte vergleichen - T-Test für unabhängige Stichproben.
2.4 Testvariable: Kvor. Gruppenvariable: Sex (sie teilt die Stichprobe in die beiden Stichproben, welche verglichen werden sollen.)
2.5 Gruppen definieren: Gruppe 1: Wert 0 (Frauen), Gruppe 2: Wert 1 (Männer). Weiter.
2.6 OK. Sie sehen die Statistik der verwendeten Daten und die Ergebnisse des Tests.
2.7 Können Sie von Varianzhomogenität ausgehen? Betrachten Sie das Ergebnis des LeveneTests und entscheiden Sie, in welcher Zeile der Testergebnisse Sie weiterlesen müssen.
2.8 Sie finden die üblichen Nebenrechnungen, sowie den p-Wert für den zweiseitigen Test.
Wie geht der Test aus?
5.5.
VERGLEICHSTESTS
213
Aufgabe 5.5.3. Parameterfreie Tests für gepaarte Stichproben.
Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele
besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende
beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die
Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab.
Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden
Tabelle:
Paar
1
Bewertung A 5
Bewertung B 5
2
10
10
3
7
9
4 5 6 7 8
4 2 2 5 8
3 4 3 7 8
Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.10 schließen, dass
der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B?
1. Geben Sie die Daten in SPSS ein. Jede Spalte entspricht einem Prüfer,
jede Zeile einer Hausübung. Vgl. Aufgabe 5.1.2).
1.1 Eröffnen Sie ein neues Datendokument.
1.2 Legen Sie in der Variablenansicht die Variablen APunkte und BPunkte als metrische
Variablen an.
1.3 Tragen Sie die Punkte in der Datenansicht ein.
1.4 Speichern Sie die Datei unter aufgabe53.sav.
2. Welchen der folgenden Tests würden Sie verwenden, und warum? T-Test
für verbundene Stichproben, Wilcoxon-Test für verbundene Stichproben,
Vorzeichentest?
2.1 Entscheiden Sie sich für eine Methode und begründen Sie Ihre Entscheidung.
2.2 Ist es wichtig, sich zuerst für eine Methode zu entscheiden, oder kann man erst alle
drei Methoden durchspielen und die Entscheidung dann treffen?
2.3 Schreiben Sie sich die Hypothesen in Worten auf.
3. Vergleichen Sie die Variablen APunkte, BPunkte durch einen einseitigen
t-Test für gepaarte Stichproben. Vgl. Aufgabe 5.5.2, Teil 1.
3.1
3.2
3.3
3.4
Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben
Testvariablen APunkte, BPunkte
Interpretieren Sie das Ergebnis. Wie geht der Test aus?
Speichern Sie zur Sicherheit und zum späteren Vergleich die Ausgabe als aufgabe3.spo.
4. Vergleichen Sie die Variablen APunkte, BPunkte durch einen WilcoxonTest und einen Vorzeichentest für gepaarte Stichproben.
4.1
4.2
4.3
4.4
4.5
4.6
Analysieren - Nichtparametrische Tests - Zwei verbundene Stichproben
Bringen Sie das Variablenpaar APunkte, BPunkte in das Fenster der Testvariablen.
Wählen Sie Wilcoxon-Test und Vorzeichentest.
Schalter Exakt: exakte Rechnung, falls sie nicht länger als 5 Minuten braucht. Weiter.
OK. Sie sehen je eine Ausgabe für den Wilcoxon-Test und den Vorzeichen-Test.
Bei beiden Tests sehen Sie erst eine Übersicht über die Daten. Es gibt drei Bindungen:
die drei Hausübungen, die von beiden Prüfern gleich bewertet wurden. Eine Arbeit
wurde von Prüfer A besser bewertet als von Prüfer B. Der Wilcoxon-Test zählt nicht
nur die positiven und negativen Differenzen, sondern arbeitet mit Rangsummen.
4.7 Wie gehen die beiden Tests aus?
4.8 Bei diesem geringen Stichprobenumfang weichen die exakten Ergebnisse stark von
den asymptotischen (Näherungsformeln) ab. Verlassen Sie sich nur auf die exakten
Ergebnisse, die Näherungsformeln sind für große Stichproben.
5. Vergleichen Sie die Ergebnisse der drei Tests.
5.1 Welcher Test zeigt die höchste Signifikanz, und warum?
5.2 Die drei Tests zeigen verschiedene p-Werte. Also müsste die ganze Statistik ein Schwindel sein, der sich selbst widerspricht. Oder doch nicht?
214
5. ÜBUNGEN
5.6. Nominale Daten und Anpassungstests
Aufgabe 5.6.1. Häufigkeitstabellen anlegen, Binomialtest auf Anteile
Ein neues Medikamentes gegen Schnupfen wird getestet. In einem ersten Test von
20 ProbandInnen stellte sich bei 12 ProbandInnen innerhalb von 24 Stunden eine
Verbesserung des Zustandes ein. Kann mit einem Signifikanzniveau von 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen
innerhalb von 24 Stunden eine Verbesserung bewirkt?
1. Legen Sie die Daten in SPSS an. Sie müssen dazu nicht 20 Datenzeilen anlegen,
sondern gehen Sie wie folgt vor:
1.1 Legen Sie in einem neuen SPSS-Datenblatt in der Variablenansicht die Variablen Erfolg
(nominal dichotom mit Wertelabels Verbesserung / keine Verbesserung) und Häufigkeit
(metrisch) an.
1.2 Die Datenansicht besteht aus zwei Zeilen mit den Werten: Erfolg Verbesserung, Häufigkeit 12, und Erfolg keine Verbesserung, Häufigkeit 8. Hier entspricht also nicht jeder
Merkmalsträger, sondern jede Ausprägung der Variablen Erfolg einer Datenzeile.
1.3 Daten - Fälle gewichten - Gewichten mit Häufigkeit. Durch diesen Schritt wird festgelegt, dass die beiden Zeilen nicht je zu einem, sondern zu 12 bzw. 8 Merkmalsträgern
gehören.
2. Stellen Sie die Hypothesen des Tests in Worten auf.
3. Führen Sie einen einseitigen Binomialtest durch.
3.1
3.2
3.3
3.4
Analysieren - Nichtparametrische Tests - Binomial
Testvariable: Erfolg. Testwert: 0,4.
Schalter Exakt: Exakt falls Rechnung weniger als 5 Minuten dauert.
OK. Wie geht der Test aus?
4. Versuchen Sie den Test mit anderen Nullhypothesen:
4.1 Versuchen Sie den gleichen Test mit dem Testwert 0,8. SPSS rechnet normalerweise mit
der Alternativhypothese: “Die Wahrscheinlichkeit, dass ein Merkmalsträger in Gruppe
1 fällt, ist größer als der Testwert.” Jedoch würde ein solcher Test bei dieser Datenlage
nicht sinnvoll sein, und SPSS wählt automatisch eine passende Alternativhypothese!
4.2 Versuchen sie den Test mit Testwert 0,5. SPSS rechnet für diesen speziellen Testwert
mit einer zweiseitigen Alternativhypothese. Halbieren Sie diese, wenn Sie den p-Wert
für einen einseitigen Test brauchen.
5. In einem größer angelegten Versuch zeigte sich, dass das Medikament bei
450 von 1000 PatientInnen Verbesserungen brachte. Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen Verbesserungen bringt?
5.1 Ändern Sie die Daten in der Datenansicht auf 450 Erfolge und 550 Misserfolge ab.
5.2 Führen Sie den Binomialtest durch. Statt exakt rechnen Sie diesmal nur asymptotisch.
5.3 Wie geht der Test aus?
Aufgabe 5.6.2. χ2 -Anpassungstest für nominale Merkmale
Ein genetisches Merkmal sei in einer Population in der dominanten Form A und
der rezessiven Form a vertreten. Kreuzt man nur Individuen mit gemischtem Genotyp Aa miteinander, sind in der nächsten Generationen die drei Genotypen mit
folgenden Wahrscheinlichkeiten verteilt:
AA Aa
aa
0.25 0.50 0.25
In einer Versuchsgruppe wurden folgende Häufigkeiten beobachtet:
AA Aa aa gesamt
4
14 2
20
Kann mit Signifikanznivau 0.05 geschlossen werden, dass diese Gruppe nicht nur
aus Nachkommen von gemischterbigen Eltern besteht?
1. Legen Sie die Daten an.
1.1 Zwei Variablen: Genotyp (nominal, Wertelabels 1=AA, 2=Aa, 3=aa) und Häufigkeit
(metrisch). Eine Datenzeile für jeden Genotyp.
1.2 Daten - Fälle gewichten - gewichten mit Häufigkeit.
2. Schreiben Sie die Hypothesen des Tests auf.
3. Führen Sie einen χ2 -Anpassungstest durch.
3.1 Analysieren - Nichtparametrische Tests - Chi-Quadrat
3.2 Testvariable: Genotyp
3.3 Werte: Eingeben, und zwar die drei Werte 0.25, 0.5, 0.25 nacheinander, jeweils einen
Wert eintippen und hinzufügen.
3.4 Exakte Rechnung. OK.
3.5 Wie geht der Test aus?
5.6.
NOMINALE DATEN UND ANPASSUNGSTESTS
215
Aufgabe 5.6.3. Kreuztabellen anlegen und χ2 -Test auf Unabhängigkeit nominaler Merkmale.
Um die Aktivität von drei Affen zu vergleichen, wurde für jeden Affen in Abständen
von je Viertelstunden in einer Liste erfasst, womit der Affe in der jeweiligen Viertelstunde vornehmlich beschäftigt war. Nach Erfassung von 25 Stunden gesamt für
jedes Tier ergab sich folgende Tabelle:
Adam Beatrice Caesar gesamt
dösen oder schlafen
40
45
43
128
klettern
35
32
28
105
12
10
15
37
fressen
andere
13
13
14
40
gesamt
100
100
100
300
1. Legen Sie die Daten in SPSS an.
1.1 Zwei nominale Variablen Affe (Wertelabels Adam, Beatrice, Caesar) und Aktivität
(dösen, klettern, fressen, andere), und eine metrische Variable Häufigkeit.
1.2 Je eine Datenzeile für jede Kombination je eines Affen mit einer Tätigkeit, z.B.
“Adam dösen 40”.
1.3 Fälle gewichten mit Häufigkeit.
2. Erstellen Sie eine Kreuztabelle, die die obige Tabelle wiedergibt, und aus
der man sieht, welchen Prozentsatz seiner Zeit jeder Affe für die verschiedenen Tätigkeiten aufwendet.
2.1 Analysieren - Deskriptive Statistiken - Kreuztabellen
2.2 Zeilenvariable: Aktivität. Spaltenvariable: Affe.
2.3 Zellen: Prozente spaltenweise.
3. Lässt sich mit einem Signifikanzniveau von 0.05 schließen, dass nicht alle
drei Affen ihre Zeit nach denselben Proportionen aufteilen? Führen Sie
einen χ2 -Test auf Unabhängigkeit aus.
3.1
3.2
3.3
3.4
Analysieren - Deskriptive Statistiken - Kreuztabellen.
Zeilen und Spalten wie vorhin.
Statistik: Chi-Quadrat.
Wie geht der Test aus?
Aufgabe 5.6.4. Kolmogorov-Smirnov-Test
Laden Sie den (bereitgestellten) Datenfile stoerfall.sav. Der File zeigt, aufgeschlüsselt
nach Jahr 2000–2005 und Monat, die Anzahl der meldepflichtigen Störfälle in verfahrenstechnischen
Anlagen in der BRD. Jede Zeile beschreibt einen Monat. (Quelle: Zentrale Melde- und Auswertestelle für
Störfälle in Verfahrenstechnischen Anlagen, ZEMA). Sollten die Störfälle voneinander unabhängig und
unabhängig vom Monat auftreten, so muss die Anzahl der Störfälle eine poissonverteilte Zufallsvariable
sein, welche in jedem Monat neu realisiert wird. Unter gewissen Umständen kann eine Poissonverteilung
auch durch eine Normalverteilung angenähert werden.
1. Erstellen Sie ein Balkendiagramm, das zeigt, wieviele meldepflichtige Störfälle
in den einzelnen Jahren 2000 bis 2005 aufgetreten sind.
1.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen
1.2 Kategorienachse: Jahr
1.3 Balken bedeuten: andere Statistik, nämlich Summe der Zahlen der gemeldeten Störfälle.
2. Erstellen Sie ein Balkendiagramm, das zeigt, in wievielen der erfassten
Monate je 0,1,2,3 usw. Störfälle aufgetreten sind.
2.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen
2.2 Kategorienachse: Anzahl der Störfälle
2.3 Balken bedeuten: Anzahl der Fälle (jeder Fall ist ein Monat).
3. Weicht die Anzahl der Störfälle pro Monat deutlich von einer Poissonverteilung / einer Normalverteilung ab? Führen Sie einen KolmogorovSmirnov-Test mit Signifikanzniveau 0.05 durch.
3.1 Schreiben Sie die Hypothesen des Tests auf.
3.2 Analysieren - Nichtparametrische Tests - Kolmogorov-Smirnov bei einer Stichprobe
3.3 Testvariable: Zahl der gemeldeten Störfälle. Verteilungen auswählen: Normalverteilung, Poissonverteilung
3.4 OK. Wie gehen die Tests aus?
216
5. ÜBUNGEN
5.7. Varianzanalyse
Aufgabe 5.7.1. Einfaktorielle Varianzanalyse
Laden Sie die (bereitgestellte) Datei aepfel.sav.
Diese (fiktiven) Daten beschreiben die
Gewichte von Stichproben von 5 verschiedenen Sorten Äpfeln, welche aus 3 verschiedenen Obstplantagen
stammen. Jede Zeile ist ein Apfel, die drei Variablen geben an, zu welcher Sorte (A . . . E) der Apfel
gehört, aus welcher Plantage (A . . . C) er stammt, und wie schwer er ist.
1. Machen Sie sich durch eine Kreuztabelle und durch einen Box-Whisker
Plot für jede Art einen Überblick über die Stichprobe.
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
Analysieren - Deskriptive Statistik - Kreuztabellen
Zeilen: Art. Spalten: Plantage.
Schalter Zellen: Prozentangabe bezogen auf den Gesamtumfang
OK. Wieviele Äpfel sind in der Stichprobe.
Ist die Stichprobe ausgeglichen, d.h., ist der Umfang der Stichprobe zu jeder Faktorkombination gleich groß?
Analysieren - Deskriptive Statistik - Explorative Datenanalyse
Faktoren: Art. Abhängige Variable: Gewicht. Nur Diagramme anzeigen.
Diagramme: Box Whisker, Faktorstufen gemeinsam.
OK. Welche Arten sind besonders schwer?
2. Ist das mittlere Gewicht der Apfelsorten verschieden? Erstellen Sie eine
einfaktorielle Varianzanalyse für die abhängige Variable Gewicht mit dem
Faktor Art. Überprüfen Sie die Varianzhomogenität mit Signifikanzniveau
0.05. Rechnen Sie auch (für den folgenden Punkt 3.) gleich folgende PostHoc Analysen mit: LSD, Bonferroni, Scheffe, Student-Newman-Keuls.
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Analysieren - Mittelwerte vergleichen - Einfaktorielle Varianzanalyse
Abhängige Variable: Gewicht. Faktor: Art
Optionen: Test auf Varianzhomogenität, deskriptive Statistik
Post Hoc: LSD, Bonferroni, Scheffe, SNK
OK.
Welche Durchschnittsgewichte haben die einzelnen Arten?
Müssen wir damit rechnen, dass die Gewichte der einzelnen Arten verschiedene Varianzen haben? Welche Auswirkungen hätte das auf die Varianzanalyse?
2.8 Was bedeuten die Quadratsummen in der Tabelle der ANOVA? Wie geht der Test
aus?
3. Vergleichen Sie die einzelnen Arten untereinander mit Hilfe der Post-HocMethoden.
3.1 Zwischen welchen Paaren von Arten gibt es signifikante Unterschiede? Sehen Sie in
der Scheffe-Kreuztabelle nach. (Der Scheffe-Test ist so ausgelegt, dass die Gesamtsignifikanz des Tests 0.05 ist.)
3.2 Vergleichen Sie die Signifikanzen in der LSD und der Bonferroni-Tabelle. Welche Tabelle verwendet man wann?
3.2 Lassen sich die Arten in mehrere Gruppen ungefähr gleich schwerer Arten unterteilen?
Interpretieren Sie die Student-Newman-Keuls Tabelle.
Aufgabe 5.7.2. Zweifaktorielle Varianzanalyse
Laden Sie, falls noch nicht geladen, die Datei aepfel.sav.
1. Erstellen Sie eine zweifaktorielle Varianzanalyse für die abhängige Variable
Gewicht mit dem ersten Faktor Art und dem zweiten Faktor Plantage.
1.1 Analysieren - Allgemeine lineare Modelle - Univariat
1.2 abhängige Variable: Gewicht. Faktoren: zuerst Art, dann Plantage einfügen.
1.3 Schalter Modell: Quadratsumme Typ I. Gesättigtes Modell: Alle Faktoren und Wechselwirkungen werden berücksichtigt. Konstanten Term einschließen.
1.4 Diagramme: Horizontale Achse: Art. Separate Linien für Plantagen.
1.5 Optionen: Residuendiagramme.
1.6 OK
1.7 Analysieren Sie die Varianzanalyse der Zwischensubjekteffekte. Liefert der Faktor Art
einen signifikanten Beitrag? Wird das Modell signifikant besser, wenn der Faktor Plantage dazugenommen wird?
1.8 Die Residuen sind die Abweichungen der tatsächlich beobachteten Werte von den
Werten, welche das Modell vorhersagt. Sie sollten von den vorhergesagten Werten
unabhängig sein. Zeigt das Residuendiagramm eine deutliche Abhängigkeit?
1.9 Warum sind die Residuen nicht unabhängig von den beobachteten Werten?
1.10 Vergleichen Sie die mittleren Gewichte der Arten für die drei Plantagen an Hand der
Liniendiagramme. Wird eine Wechselwirkung zwischen Art und Plantage sichtbar?
2. Wiederholen Sie die zweifaktorielle Varianzanalyse mit umgekehrter Reihenfolge der Faktoren Plantage und Art.
2.1 Ansetzen der Analyse wie oben, nur dass nun der Faktor Plantage zuerst kommt. Die
Diagramme können jetzt abgeschaltet werden.
2.2 Die Zahlenwerte in der ANOVA-Tabelle sind verändert und haben eine andere Bedeutung, z.B. bedeutet der Wert bei Plantage nun nicht den Anteil der Varianz, der erklärt
wird, wenn Plantage zum Faktor Art dazugenommen wird, sondern jenen Anteil der
Varianz, der erklärt wird, wenn Plantage als erster Faktor ins Spiel kommt.
5.7.
VARIANZANALYSE
217
2.3 Bei ausgeglichenen Designs kommt es auf die Reihung der Faktoren nicht an. Bei
unausgegleichenen Experimenten (wie hier) rechnet man besser mit Summen vom Typ
III, diese schätzen den Einfluss jedes Faktors separat.
Aufgabe 5.7.3. Kruskal-Wallis-Test
Laden Sie die (bereitgestellte) Datei troglophyli.sav. Troglophylus, ein heuschreckenähnliches Insekt, lebt im Sommer im Freien und überwintert in Höhlen. In den Höhlen schlüpfen auch die
Larven. Eine steirischen Höhle wurde in Tiefenintervalle von 0-10m, 10-20m, usw. unterteilt, und in jedem Intervall die Anzahl der Weibchen, Männchen und Larven gezählt. Ausserdem wurden Temperatur
und Luftfeuchte in jedem Intervall gemessen. Daten: Bernd Freitag, auszugsweise.
1. Jede Zeile beschreibt mehrere Troglophyli, nämlich alle Individuen eines
Geschlechts in einem Tiefenabschnitt. Gewichten Sie die Fälle adäquat.
1.1 Daten - Fälle gewichten
1.2 Gewichten mit Anzahl Troglophyli.
2. Verschaffen Sie sich mit einem gruppierten Stabdiagramm Übersicht, in
welchen Tiefen die drei Ausprägungen Larve, Weibchen, Männchen bevorzugt leben.
2.1 Grafiken - Balken
2.2 Gruppiert, über Kategorien einer Variablen
2.3 Schalter Definieren: Höhe bedeutet Anzahl der Fälle. Kategorienachse: Tiefe. Gruppen:
Sex.
2.4 OK. Interpretieren Sie das Balkendiagramm.
2.5 Ist die Zufallsvariable Tiefe für die einzelnen Geschlechter annähernd normalverteilt?
3. Überprüfen Sie durch einen Kruskal-Wallis H-Test, ob der Faktor Geschlecht einen Einfluss auf die Variable Tiefe hat. (Leben also die drei
Geschlechter bevorzugt in verschiedenen Tiefen?) Signifikanzniveau 0.05.
3.1 Analysieren - Nichtparametrische Tests - K unabhängige Stichproben
3.2 Kruskal-Wallis Test. Abhängige Variable: Tiefe. Gruppe: Sex, im Bereich 0–2.
3.3 Wie geht der Test aus?
218
5. ÜBUNGEN
5.8. Regression
Aufgabe 5.8.1. Korrelationskoeffizienten
Laden Sie die Datei ergodaten.sav (vgl. Aufgabe 5.5.1). Die vier Elektrolyte Mg,
Ca, Na, K (in Ruhe, also Daten vor der Ergometrie) sollen auf mögliche lineare
Zusammenhänge untersucht werden.
1. Bestimmen Sie die Korrelationskoeffizienten für jedes Paar von Elektrolyten.
1.1 Analysieren - Korrelation - bivariat
1.2 Variablen: Cavor, Kvor, Mgvor, Navor. Pearsonscher Korrelationskoeffizient, zweiseitige Signifikanz.
1.3 Schalter Optionen: Mittelwerte und Standardabweichungen.
1.4 OK. Überprüfen Sie für jedes Paar von Elektrolyten an Hand der Korrelationskoeffizienten: Verhalten sie sich eher gleich- oder gegenläufig?
1.5 Welche dieser Zusammenhänge zwischen den Elektrolyten sind statistisch untermauerbar?
1.6 Was bedeutet ein relativ kleiner Korrelationskoeffizient mit einer deutlichen statistischen Signifikanz (p sehr klein)?
1.7 Was muss man bedenken, wenn man für viele Variablen gleichzeitig alle Korrelationen
auf Signifikanz testet?
2. Erstellen Sie ein Streudiagramm mit waagrecht K und senkrecht Na, eines
mit waagrecht Ca und senkrecht Na. Vergleichen Sie die Streudiagramme
mit den berechneten Korrelationskoeffizienten.
2.1 Grafiken - Streudiagramme - Einfaches Streudiagramm
2.2 x-Achse Kvor, y-Achse Navor. OK.
2.3 Das zweite Streudiagramm geht ebenso.
3. Es ist bekannt, dass manche der Elektrolyte deutlich mit pH und Blutgasen korrelieren. Ist der Zusammenhang zwischen Mg und Ca eine Scheinkorrelation, mit pH und Blutgasen als Confounders? Bestimmen Sie die
partiellen Korrelationen zwischen den Elektrolyten unter Kontrolle von
pH, PCO2 und HCO3 (jeweils vor der Ergometrie).
3.1 Analysieren - Korrelation - Partiell
3.2 Variablen: Cavor, Kvor, Mgvor, Navor. Kontrollvariablen PHvor, PCO2vor, HCO3vor.
OK.
3.3 Welche Korrelationen zwischen den 4 Elektrolyten bleiben signifikant, wenn man pH
und Blutgase kontrolliert?
Aufgabe 5.8.2. Lineare Regression
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann der pH-Wert
nach der Ergometrie aus den Messwerten vor der Ergometrie vorhergesagt werden?
Führen Sie eine multiple lineare Regression durch.
1. Setzen Sie die Regression an.
1.1 Analysieren - Regression - Linear
1.2 Abhängige Variable PHnach, unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Mgvor, Navor, PCO2vor, PHvor.
1.3 Schrittweises Verfahren.
1.4 Schalter Optionen: Signifikanz(= Wahrscheinlichkeits-)wert für Einschluss: 0.05, Ausschluss: 0.1. Konstante ins Modell einbeziehen. OK.
2. Analysieren Sie die Tabelle: Modellzusammenfassung
2.1 Wieviele Modelle hat SPSS durchgerechnet, und welche Variablen kommen darin vor?
2.2 Welche Bestimmtheitsmaße erzielen die Modelle, welches Modell hat das höchste Bestimmtheitsmaß?
2.3 Welchen Schätzwert liefern die Modelle für σ, die Standardabweichung des Zufallsanteils?
2.4 Welches Modell würden Sie endgültig auswählen?
3. Analysieren Sie die Koeffiziententabelle.
3.1 Wie sieht die Regressionsformel nach Modell 3 aus? Schreiben Sie sich die Formel des
Modells auf.
3.2 Kann mit einer Signifikanzniveau von 0.05 geschlossen werden, dass ein Einfluss von
Mg vor der Ergometrie auf den pH nach der Ergometrie vorliegt?
3.3 Wenn Mg vor der Ergometrie um 1 mEq/l erhöht wird, und alle anderen Variablen
vor der Ergometrie unverändert bleiben: Um welchen Betrag und in welche Richtung
ändert sich im Durchschnitt der pH-Wert nach der Ergometrie?
3.4 Welcher Effekt wirkt sich am Ende stärker auf den pH-Wert nach der Ergometrie aus:
Der Einfluss von Mg oder der Einfluss von HCO3?
3.5 Sowohl Modell 2 als auch Modell 3 enthalten die Variable PHvor, aber mit verschiedenen Koeffizienten. Ist das ein Widerspruch?
4. Analysieren Sie die Tabelle der ausgeschlossenen Variablen.
4.1 Die Variable HCO3vor kommt in Modell 2 nicht vor und wird in Modell 3 aufgenommen. Vergleichen Sie die Werte für diese Variable in der Koeffiziententabelle (Modell 3)
und der Tabelle der nicht aufgenommenen Variablen (Modell 2).
5.8.
REGRESSION
219
4.2 Nach der Henderson-Hasselbalch’schen Gleichung besteht ein Zusammenhang zwischen
pH-Wert, Partialdruck von CO2 und Konzentration von HCO3 . Die Toleranz der Variablen PCO2vor zu Modell 2 und zu Modell 3 fallen sehr verschieden aus. Erklären
Sie, warum.
5. Analysieren Sie die Tabelle der Varianzanalyse.
5.1 Wie groß ist die Gesamtschwankung des pH-Wertes nach der Ergometrie?
5.2 Welchen Anteil der Gesamtschwankung kann Modell 2 erklären, und welcher bleibt
unerklärt? Welche Freiheitsgrade gehören zu diesen Anteilen?
5.3 Zu welchem Test sind in der ANOVA-Tabellen die Signifikanzen ausgegeben, und wie
geht der Test aus?
5.4 Welcher Anteil der Gesamtschwankung wird zusätzlich erklärt, wenn man Modell 2
durch Modell 3 ersetzt?
6. Fassen Sie zusammen: Von welchen Variablen hängt der pH-Wert nach der
Ergometrie ab, und wie gut lässt er sich aus diesen Variablen vorhersagen?
Aufgabe 5.8.3. Lineare Regression: Modelldiagnostik
Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann die Konzentration des Mg in Ruhe (vor Ergometrie) aus den anderen Ruheparametern vorhergesagt werden? Führen Sie eine lineare Regression durch, und machen Sie zu dieser
Regression eine Modelldiagnostik.
1. Setzen Sie die Regression an.
1.1 Analysieren - Regression - Linear
1.2 Abhängige Variable: Mgvor. Unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Navor, PCO2vor, PHvor. Schrittweise Methode.
1.3 Statistiken: Schätzer für Regressionskoeffizienten. Änderung in R2 . Residuen: Fallweise Diagnose bei Ausreissern außerhalb 3facher Standardabweichung. Kollinearitätsdiagnose.
1.4 Diagramme: Standardisierte Residuen im Histogramm und Normalverteilungsdiagramm.
Streudiagramm mit waagrecht standardisiertem vorhergesagtem Mgvor (*ZPRED)
und senkrecht standardisierten Residuen (*ZRESID).
1.5 Speichern: Residuen (nicht standardisiert), Cook’s Distanz.
2. Was sind die Ergebnisse der Regression?
2.1
2.2
2.3
2.4
Welche Modelle wurden durchgerechnet, welche Variablen kommen darin vor?
Welcher Anteil der Gesamtschwankung des Mg wird durch die Modelle erklärt?
Welchem der durchgerechneten Modelle geben Sie den Vorzug?
Für welche Variablen lässt sich mit Signifikanzniveau 0.05 nachweisen, dass sie auf Mg
einen Einfluss haben.
2.5 Welche Variablen haben den stärksten Einfluss auf Mg?
3. Untersuchen Sie die Residuen
3.1 Datenpunkte mit extrem hohen oder niedrigen Residuen finden sich in der Tabelle
fallweise Diagnose.
3.2 Analysieren Sie die Tabelle Residuenstatistik. In welchem Bereich liegen die vorhergesagten Werte, in welchem Bereich liegen die Residuen? Vergleichen Sie die Standardabweichung der nicht standardisierten Residuen mit dem “Standardfehler des Schätzers”
in der Modellzusammenfassung.
3.3 Sind die Residuen annähernd normalverteilt? Betrachten Sie das PP-Diagramm und
das Histogramm.
3.4 Sind die Residuen unabhängig vom vorhergesagten Wert? Betrachten Sie das Streudiagramm.
3.5 Sind die Residuen unabhängig von der erklärenden Variablen pH-Wert? Erstellen Sie
ein Streudiagramm mit waagrecht PHvor und senkrecht Residuen.
4. Gibt es Datensätze auf die die Regression besonders stark reagieren würde?
4.1 Machen Sie mit Hilfe von Analysieren - Deskriptive Statistik - Explorative Datenanalyse einen Box-Whisker Plot und ein Histogramm sowie eine Tabelle der Extremwerte
der Cookschen Distanz. Datenpunkte mit hoher Cookscher Distanz sind solche, auf
die die Regression besonders stark reagiert. Faustregel: Cooksche Distanz unter 1 ist
unbedenklich.
5. Gibt es Hinweise auf Multikollinearität?
5.1 Gibt es unter den aufgenommenen Variablen welche mit niedriger Toleranz? (Toleranzen unter 0.25 gelten als suspekt.)
KAPITEL 6
Tabellen und Literatur
Übersicht:
1) Tabellen
2) Literatur
6.1. Tabellen
Übersicht:
1
2
3–4
5–6
7–8
9–10
11–12
13
14
15
16
17
18
Verteilungsfunktion der Standardnormalverteilung
Quantile der t-Verteilung
Quantile der χ2 -Verteilung
Perzentile der F-Verteilung (α = 10%)
Perzentile der F-Verteilung (α = 5%)
-Perzentile der F-Verteilung (α = 2.5%)
Perzentile der F-Verteilung (α = 0.1%)
Kritische Werte für die Kolmogorov-Smirnov-Statistik
Kritische Werte für den Kolmogorov-Smirnov-Lillefors Test
Binomialkoeffizienten
Kumulative Häufigkeiten der B(n, 0.5)-Binomialverteilung
Kritische Werte für den Mann-Whitney-U-Test
Kritische Werte für den Wilcoxon-Test
α ist hier die Wahrscheinlichkeit, dass die Zufallsvariable über dem Tabellenwert liegt. Die
Tabelle zu α = 0.025 zeigt also das 97.5%-Perzentil.
221
222
6. TABELLEN UND LITERATUR
Tabelle 1
Verteilungsfunktion der Standardnormalverteilung Z
Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
3.0
0.4987
0.4987
0.4987
0.4988
0.4988
0.4989
0.4989
0.4989
0.4990
0.4990
6.1. TABELLEN
223
Tabelle 2
Quantile der t-Verteilung
α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt.
α
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
0,1
0,05
0,025
0,01
0,005
0,0025
0,001
0,0005
0,00025
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,290
1,282
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,671
1,660
1,645
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,000
1,984
1,960
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,390
2,364
2,326
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,660
2,626
2,576
127,321
14,089
7,453
5,598
4,773
4,317
4,029
3,833
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030
2,971
2,915
2,871
2,807
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,232
3,174
3,090
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,551
3,460
3,390
3,290
1273,155
44,703
16,326
10,305
7,976
6,788
6,082
5,617
5,291
5,049
4,863
4,717
4,597
4,499
4,417
4,346
4,286
4,233
4,187
4,146
4,109
4,077
4,047
4,021
3,997
3,974
3,954
3,935
3,918
3,902
3,788
3,681
3,598
3,481
224
6. TABELLEN UND LITERATUR
Tabelle 3
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,995
0,990
α
0,975
0,950
0,900
0,000039
0,010025
0,071723
0,206984
0,411751
0,675733
0,989251
1,344403
1,734911
2,155845
2,603202
3,073785
3,565042
4,074659
4,600874
5,142164
5,697274
6,264766
6,843923
7,433811
8,033602
8,642681
9,260383
9,886199
10,519647
11,160218
11,807655
12,461281
13,121067
13,786682
20,706577
27,990825
35,534397
43,275305
51,171933
59,196327
67,327533
0,000157
0,020100
0,114832
0,297107
0,554297
0,872083
1,239032
1,646506
2,087889
2,558199
3,053496
3,570551
4,106900
4,660415
5,229356
5,812197
6,407742
7,014903
7,632698
8,260368
8,897172
9,542494
10,195689
10,856349
11,523951
12,198177
12,878468
13,564666
14,256406
14,953464
22,164201
29,706725
37,484796
45,441700
53,539983
61,754019
70,064995
0,000982
0,050636
0,215795
0,484419
0,831209
1,237342
1,689864
2,179725
2,700389
3,246963
3,815742
4,403778
5,008738
5,628724
6,262123
6,907664
7,564179
8,230737
8,906514
9,590772
10,282907
10,982330
11,688534
12,401146
13,119707
13,843881
14,573373
15,307854
16,047051
16,790756
24,433058
32,357385
40,481707
48,757536
57,153152
65,646592
74,221882
0,003932
0,102586
0,351846
0,710724
1,145477
1,635380
2,167349
2,732633
3,325115
3,940295
4,574809
5,226028
5,891861
6,570632
7,260935
7,961639
8,671754
9,390448
10,117006
10,850799
11,591316
12,338009
13,090505
13,848422
14,611396
15,379163
16,151395
16,927876
17,708381
18,492667
26,509296
34,764236
43,187966
51,739263
60,391459
69,126018
77,929442
0,015791
0,210721
0,584375
1,063624
1,610309
2,204130
2,833105
3,489537
4,168156
4,865178
5,577788
6,303796
7,041500
7,789538
8,546753
9,312235
10,085183
10,864937
11,650912
12,442601
13,239596
14,041490
14,847954
15,658679
16,473405
17,291880
18,113889
18,939235
19,767740
20,599245
29,050516
37,688637
46,458885
55,328945
64,277842
73,291079
82,358127
6.1. TABELLEN
225
Tabelle 4
Quantile der χ2 -Verteilung
α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt.
Freiheitsgrade
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0,1
0,05
α
0,025
0,01
0,005
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
51,805
63,167
74,397
85,527
96,578
107,565
118,498
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
55,758
67,505
79,082
90,531
101,879
113,145
124,342
5,024
7,378
9,348
11,143
12,832
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
59,342
71,420
83,298
95,023
106,629
118,136
129,561
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
63,691
76,154
88,379
100,425
112,329
124,116
135,807
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,558
46,928
48,290
49,645
50,994
52,335
53,672
66,766
79,490
91,952
104,215
116,321
128,299
140,170
226
6. TABELLEN UND LITERATUR
Tabelle 5
Quantile der F-Verteilung
0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
des Zaehlers
5
1
2
3
4
39,864
8,526
5,538
4,545
4,060
3,776
3,589
3,458
3,360
3,285
3,225
3,177
3,136
3,102
3,073
3,048
3,026
3,007
2,990
2,975
2,961
2,949
2,937
2,927
2,918
2,909
2,901
2,894
2,887
2,881
2,835
2,791
2,756
2,706
49,500
9,000
5,462
4,325
3,780
3,463
3,257
3,113
3,006
2,924
2,860
2,807
2,763
2,726
2,695
2,668
2,645
2,624
2,606
2,589
2,575
2,561
2,549
2,538
2,528
2,519
2,511
2,503
2,495
2,489
2,440
2,393
2,356
2,303
53,593
9,162
5,391
4,191
3,619
3,289
3,074
2,924
2,813
2,728
2,660
2,606
2,560
2,522
2,490
2,462
2,437
2,416
2,397
2,380
2,365
2,351
2,339
2,327
2,317
2,307
2,299
2,291
2,283
2,276
2,226
2,177
2,139
2,084
55,833
9,243
5,343
4,107
3,520
3,181
2,961
2,806
2,693
2,605
2,536
2,480
2,434
2,395
2,361
2,333
2,308
2,286
2,266
2,249
2,233
2,219
2,207
2,195
2,184
2,174
2,165
2,157
2,149
2,142
2,091
2,041
2,002
1,945
57,240
9,293
5,309
4,051
3,453
3,108
2,883
2,726
2,611
2,522
2,451
2,394
2,347
2,307
2,273
2,244
2,218
2,196
2,176
2,158
2,142
2,128
2,115
2,103
2,092
2,082
2,073
2,064
2,057
2,049
1,997
1,946
1,906
1,847
6
7
8
9
58,204
9,326
5,285
4,010
3,405
3,055
2,827
2,668
2,551
2,461
2,389
2,331
2,283
2,243
2,208
2,178
2,152
2,130
2,109
2,091
2,075
2,060
2,047
2,035
2,024
2,014
2,005
1,996
1,988
1,980
1,927
1,875
1,834
1,774
58,906
9,349
5,266
3,979
3,368
3,014
2,785
2,624
2,505
2,414
2,342
2,283
2,234
2,193
2,158
2,128
2,102
2,079
2,058
2,040
2,023
2,008
1,995
1,983
1,971
1,961
1,952
1,943
1,935
1,927
1,873
1,819
1,778
1,717
59,439
9,367
5,252
3,955
3,339
2,983
2,752
2,589
2,469
2,377
2,304
2,245
2,195
2,154
2,119
2,088
2,061
2,038
2,017
1,999
1,982
1,967
1,953
1,941
1,929
1,919
1,909
1,900
1,892
1,884
1,829
1,775
1,732
1,670
59,857
9,381
5,240
3,936
3,316
2,958
2,725
2,561
2,440
2,347
2,274
2,214
2,164
2,122
2,086
2,055
2,028
2,005
1,984
1,965
1,948
1,933
1,919
1,906
1,895
1,884
1,874
1,865
1,857
1,849
1,793
1,738
1,695
1,632
6.1. TABELLEN
227
Tabelle 6
Quantile der F-Verteilung
0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
des Zaehlers
40
60
10
15
20
30
60,195
9,392
5,230
3,920
3,297
2,937
2,703
2,538
2,416
2,323
2,248
2,188
2,138
2,095
2,059
2,028
2,001
1,977
1,956
1,937
1,920
1,904
1,890
1,877
1,866
1,855
1,845
1,836
1,827
1,819
1,763
1,707
1,663
1,599
61,220
9,425
5,200
3,870
3,238
2,871
2,632
2,464
2,340
2,244
2,167
2,105
2,053
2,010
1,972
1,940
1,912
1,887
1,865
1,845
1,827
1,811
1,796
1,783
1,771
1,760
1,749
1,740
1,731
1,722
1,662
1,603
1,557
1,487
61,740
9,441
5,184
3,844
3,207
2,836
2,595
2,425
2,298
2,201
2,123
2,060
2,007
1,962
1,924
1,891
1,862
1,837
1,814
1,794
1,776
1,759
1,744
1,730
1,718
1,706
1,695
1,685
1,676
1,667
1,605
1,543
1,494
1,421
62,265
9,458
5,168
3,817
3,174
2,800
2,555
2,383
2,255
2,155
2,076
2,011
1,958
1,912
1,873
1,839
1,809
1,783
1,759
1,738
1,719
1,702
1,686
1,672
1,659
1,647
1,636
1,625
1,616
1,606
1,541
1,476
1,423
1,342
62,529
9,466
5,160
3,804
3,157
2,781
2,535
2,361
2,232
2,132
2,052
1,986
1,931
1,885
1,845
1,811
1,781
1,754
1,730
1,708
1,689
1,671
1,655
1,641
1,627
1,615
1,603
1,592
1,583
1,573
1,506
1,437
1,382
1,295
62,794
9,475
5,151
3,790
3,140
2,762
2,514
2,339
2,208
2,107
2,026
1,960
1,904
1,857
1,817
1,782
1,751
1,723
1,699
1,677
1,657
1,639
1,622
1,607
1,593
1,581
1,569
1,558
1,547
1,538
1,467
1,395
1,336
1,240
100
150
∞
63,007
9,481
5,144
3,778
3,126
2,746
2,497
2,321
2,189
2,087
2,005
1,938
1,882
1,834
1,793
1,757
1,726
1,698
1,673
1,650
1,630
1,611
1,594
1,579
1,565
1,551
1,539
1,528
1,517
1,507
1,434
1,358
1,293
1,185
63,114
9,485
5,141
3,772
3,119
2,738
2,488
2,312
2,179
2,077
1,994
1,927
1,870
1,822
1,781
1,744
1,713
1,684
1,659
1,636
1,616
1,597
1,580
1,564
1,549
1,536
1,523
1,512
1,501
1,491
1,416
1,337
1,270
1,151
63,328
9,491
5,134
3,761
3,105
2,722
2,471
2,293
2,159
2,055
1,972
1,904
1,846
1,797
1,755
1,718
1,686
1,657
1,631
1,607
1,586
1,567
1,549
1,533
1,518
1,504
1,491
1,478
1,467
1,456
1,377
1,291
1,214
1,000
228
6. TABELLEN UND LITERATUR
Tabelle 7
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
161,446
18,513
10,128
7,709
6,608
5,987
5,591
5,318
5,117
4,965
4,844
4,747
4,667
4,600
4,543
4,494
4,451
4,414
4,381
4,351
4,325
4,301
4,279
4,260
4,242
4,225
4,210
4,196
4,183
4,171
4,085
4,001
3,936
3,841
199,499
19,000
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
3,982
3,885
3,806
3,739
3,682
3,634
3,592
3,555
3,522
3,493
3,467
3,443
3,422
3,403
3,385
3,369
3,354
3,340
3,328
3,316
3,232
3,150
3,087
2,996
215,707
19,164
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
3,587
3,490
3,411
3,344
3,287
3,239
3,197
3,160
3,127
3,098
3,072
3,049
3,028
3,009
2,991
2,975
2,960
2,947
2,934
2,922
2,839
2,758
2,696
2,605
224,583
19,247
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
3,357
3,259
3,179
3,112
3,056
3,007
2,965
2,928
2,895
2,866
2,840
2,817
2,796
2,776
2,759
2,743
2,728
2,714
2,701
2,690
2,606
2,525
2,463
2,372
230,160
19,296
9,013
6,256
5,050
4,387
3,972
3,688
3,482
3,326
3,204
3,106
3,025
2,958
2,901
2,852
2,810
2,773
2,740
2,711
2,685
2,661
2,640
2,621
2,603
2,587
2,572
2,558
2,545
2,534
2,449
2,368
2,305
2,214
233,988
19,329
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
3,095
2,996
2,915
2,848
2,790
2,741
2,699
2,661
2,628
2,599
2,573
2,549
2,528
2,508
2,490
2,474
2,459
2,445
2,432
2,421
2,336
2,254
2,191
2,099
236,767
19,353
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
3,012
2,913
2,832
2,764
2,707
2,657
2,614
2,577
2,544
2,514
2,488
2,464
2,442
2,423
2,405
2,388
2,373
2,359
2,346
2,334
2,249
2,167
2,103
2,010
238,884
19,371
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
2,948
2,849
2,767
2,699
2,641
2,591
2,548
2,510
2,477
2,447
2,420
2,397
2,375
2,355
2,337
2,321
2,305
2,291
2,278
2,266
2,180
2,097
2,032
1,938
240,543
19,385
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
2,896
2,796
2,714
2,646
2,588
2,538
2,494
2,456
2,423
2,393
2,366
2,342
2,320
2,300
2,282
2,265
2,250
2,236
2,223
2,211
2,124
2,040
1,975
1,880
6.1. TABELLEN
229
Tabelle 8
Quantile der F-Verteilung
0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
des Zaehlers
40
60
100
150
∞
241,882
19,396
8,785
5,964
4,735
4,060
3,637
3,347
3,137
2,978
2,854
2,753
2,671
2,602
2,544
2,494
2,450
2,412
2,378
2,348
2,321
2,297
2,275
2,255
2,236
2,220
2,204
2,190
2,177
2,165
2,077
1,993
1,927
1,831
245,949
19,429
8,703
5,858
4,619
3,938
3,511
3,218
3,006
2,845
2,719
2,617
2,533
2,463
2,403
2,352
2,308
2,269
2,234
2,203
2,176
2,151
2,128
2,108
2,089
2,072
2,056
2,041
2,027
2,015
1,924
1,836
1,768
1,666
248,016
19,446
8,660
5,803
4,558
3,874
3,445
3,150
2,936
2,774
2,646
2,544
2,459
2,388
2,328
2,276
2,230
2,191
2,155
2,124
2,096
2,071
2,048
2,027
2,007
1,990
1,974
1,959
1,945
1,932
1,839
1,748
1,676
1,571
250,096
19,463
8,617
5,746
4,496
3,808
3,376
3,079
2,864
2,700
2,570
2,466
2,380
2,308
2,247
2,194
2,148
2,107
2,071
2,039
2,010
1,984
1,961
1,939
1,919
1,901
1,884
1,869
1,854
1,841
1,744
1,649
1,573
1,459
251,144
19,471
8,594
5,717
4,464
3,774
3,340
3,043
2,826
2,661
2,531
2,426
2,339
2,266
2,204
2,151
2,104
2,063
2,026
1,994
1,965
1,938
1,914
1,892
1,872
1,853
1,836
1,820
1,806
1,792
1,693
1,594
1,515
1,394
252,196
19,479
8,572
5,688
4,431
3,740
3,304
3,005
2,787
2,621
2,490
2,384
2,297
2,223
2,160
2,106
2,058
2,017
1,980
1,946
1,916
1,889
1,865
1,842
1,822
1,803
1,785
1,769
1,754
1,740
1,637
1,534
1,450
1,318
253,043
19,486
8,554
5,664
4,405
3,712
3,275
2,975
2,756
2,588
2,457
2,350
2,261
2,187
2,123
2,068
2,020
1,978
1,940
1,907
1,876
1,849
1,823
1,800
1,779
1,760
1,742
1,725
1,710
1,695
1,589
1,481
1,392
1,243
253,465
19,489
8,545
5,652
4,392
3,698
3,260
2,959
2,739
2,572
2,439
2,332
2,243
2,169
2,105
2,049
2,001
1,958
1,920
1,886
1,855
1,827
1,802
1,779
1,757
1,738
1,719
1,702
1,686
1,672
1,564
1,453
1,359
1,197
254,311
19,496
8,526
5,628
4,365
3,669
3,230
2,928
2,707
2,538
2,404
2,296
2,206
2,131
2,066
2,010
1,960
1,917
1,878
1,843
1,812
1,783
1,757
1,733
1,711
1,691
1,672
1,654
1,638
1,622
1,509
1,389
1,283
1,000
230
6. TABELLEN UND LITERATUR
Tabelle 9
Quantile der F-Verteilung
0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
647,793
38,506
17,443
12,218
10,007
8,813
8,073
7,571
7,209
6,937
6,724
6,554
6,414
6,298
6,200
6,115
6,042
5,978
5,922
5,871
5,827
5,786
5,750
5,717
5,686
5,659
5,633
5,610
5,588
5,568
5,424
5,286
5,179
5,024
799,482
39,000
16,044
10,649
8,434
7,260
6,542
6,059
5,715
5,456
5,256
5,096
4,965
4,857
4,765
4,687
4,619
4,560
4,508
4,461
4,420
4,383
4,349
4,319
4,291
4,265
4,242
4,221
4,201
4,182
4,051
3,925
3,828
3,689
864,151
39,166
15,439
9,979
7,764
6,599
5,890
5,416
5,078
4,826
4,630
4,474
4,347
4,242
4,153
4,077
4,011
3,954
3,903
3,859
3,819
3,783
3,750
3,721
3,694
3,670
3,647
3,626
3,607
3,589
3,463
3,343
3,250
3,116
899,599
39,248
15,101
9,604
7,388
6,227
5,523
5,053
4,718
4,468
4,275
4,121
3,996
3,892
3,804
3,729
3,665
3,608
3,559
3,515
3,475
3,440
3,408
3,379
3,353
3,329
3,307
3,286
3,267
3,250
3,126
3,008
2,917
2,786
921,835
39,298
14,885
9,364
7,146
5,988
5,285
4,817
4,484
4,236
4,044
3,891
3,767
3,663
3,576
3,502
3,438
3,382
3,333
3,289
3,250
3,215
3,183
3,155
3,129
3,105
3,083
3,063
3,044
3,026
2,904
2,786
2,696
2,566
937,114
39,331
14,735
9,197
6,978
5,820
5,119
4,652
4,320
4,072
3,881
3,728
3,604
3,501
3,415
3,341
3,277
3,221
3,172
3,128
3,090
3,055
3,023
2,995
2,969
2,945
2,923
2,903
2,884
2,867
2,744
2,627
2,537
2,408
948,203
39,356
14,624
9,074
6,853
5,695
4,995
4,529
4,197
3,950
3,759
3,607
3,483
3,380
3,293
3,219
3,156
3,100
3,051
3,007
2,969
2,934
2,902
2,874
2,848
2,824
2,802
2,782
2,763
2,746
2,624
2,507
2,417
2,288
956,643
39,373
14,540
8,980
6,757
5,600
4,899
4,433
4,102
3,855
3,664
3,512
3,388
3,285
3,199
3,125
3,061
3,005
2,956
2,913
2,874
2,839
2,808
2,779
2,753
2,729
2,707
2,687
2,669
2,651
2,529
2,412
2,321
2,192
963,279
39,387
14,473
8,905
6,681
5,523
4,823
4,357
4,026
3,779
3,588
3,436
3,312
3,209
3,123
3,049
2,985
2,929
2,880
2,837
2,798
2,763
2,731
2,703
2,677
2,653
2,631
2,611
2,592
2,575
2,452
2,334
2,244
2,114
6.1. TABELLEN
231
Tabelle 10
Quantile der F-Verteilung
0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
968,634
39,398
14,419
8,844
6,619
5,461
4,761
4,295
3,964
3,717
3,526
3,374
3,250
3,147
3,060
2,986
2,922
2,866
2,817
2,774
2,735
2,700
2,668
2,640
2,613
2,590
2,568
2,547
2,529
2,511
2,388
2,270
2,179
2,048
984,874
39,431
14,253
8,657
6,428
5,269
4,568
4,101
3,769
3,522
3,330
3,177
3,053
2,949
2,862
2,788
2,723
2,667
2,617
2,573
2,534
2,498
2,466
2,437
2,411
2,387
2,364
2,344
2,325
2,307
2,182
2,061
1,968
1,833
993,081
39,448
14,167
8,560
6,329
5,168
4,467
3,999
3,667
3,419
3,226
3,073
2,948
2,844
2,756
2,681
2,616
2,559
2,509
2,464
2,425
2,389
2,357
2,327
2,300
2,276
2,253
2,232
2,213
2,195
2,068
1,944
1,849
1,708
1001,405
39,465
14,081
8,461
6,227
5,065
4,362
3,894
3,560
3,311
3,118
2,963
2,837
2,732
2,644
2,568
2,502
2,445
2,394
2,349
2,308
2,272
2,239
2,209
2,182
2,157
2,133
2,112
2,092
2,074
1,943
1,815
1,715
1,566
des Zaehlers
40
1005,596
39,473
14,036
8,411
6,175
5,012
4,309
3,840
3,505
3,255
3,061
2,906
2,780
2,674
2,585
2,509
2,442
2,384
2,333
2,287
2,246
2,210
2,176
2,146
2,118
2,093
2,069
2,048
2,028
2,009
1,875
1,744
1,640
1,484
60
100
150
∞
1009,787
39,481
13,992
8,360
6,123
4,959
4,254
3,784
3,449
3,198
3,004
2,848
2,720
2,614
2,524
2,447
2,380
2,321
2,270
2,223
2,182
2,145
2,111
2,080
2,052
2,026
2,002
1,980
1,959
1,940
1,803
1,667
1,558
1,388
1013,163
39,488
13,956
8,319
6,080
4,915
4,210
3,739
3,403
3,152
2,956
2,800
2,671
2,565
2,474
2,396
2,329
2,269
2,217
2,170
2,128
2,090
2,056
2,024
1,996
1,969
1,945
1,922
1,901
1,882
1,741
1,599
1,483
1,296
1014,851
39,491
13,938
8,299
6,059
4,893
4,188
3,716
3,380
3,128
2,932
2,775
2,647
2,539
2,448
2,370
2,302
2,242
2,190
2,142
2,100
2,062
2,027
1,995
1,966
1,940
1,915
1,892
1,871
1,851
1,708
1,563
1,442
1,239
1018,260
39,498
13,902
8,257
6,015
4,849
4,142
3,670
3,333
3,080
2,883
2,725
2,595
2,487
2,395
2,316
2,247
2,187
2,133
2,085
2,042
2,003
1,968
1,935
1,906
1,878
1,853
1,829
1,807
1,787
1,637
1,482
1,347
1,000
232
6. TABELLEN UND LITERATUR
Tabelle 11
Quantile der F-Verteilung
0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
1
2
3
4
des Zaehlers
5
6
7
8
9
4052,185
98,502
34,116
21,198
16,258
13,745
12,246
11,259
10,562
10,044
9,646
9,330
9,074
8,862
8,683
8,531
8,400
8,285
8,185
8,096
8,017
7,945
7,881
7,823
7,770
7,721
7,677
7,636
7,598
7,562
7,314
7,077
6,895
6,635
4999,340
99,000
30,816
18,000
13,274
10,925
9,547
8,649
8,022
7,559
7,206
6,927
6,701
6,515
6,359
6,226
6,112
6,013
5,926
5,849
5,780
5,719
5,664
5,614
5,568
5,526
5,488
5,453
5,420
5,390
5,178
4,977
4,824
4,605
5403,534
99,164
29,457
16,694
12,060
9,780
8,451
7,591
6,992
6,552
6,217
5,953
5,739
5,564
5,417
5,292
5,185
5,092
5,010
4,938
4,874
4,817
4,765
4,718
4,675
4,637
4,601
4,568
4,538
4,510
4,313
4,126
3,984
3,782
5624,257
99,251
28,710
15,977
11,392
9,148
7,847
7,006
6,422
5,994
5,668
5,412
5,205
5,035
4,893
4,773
4,669
4,579
4,500
4,431
4,369
4,313
4,264
4,218
4,177
4,140
4,106
4,074
4,045
4,018
3,828
3,649
3,513
3,319
5763,955
99,302
28,237
15,522
10,967
8,746
7,460
6,632
6,057
5,636
5,316
5,064
4,862
4,695
4,556
4,437
4,336
4,248
4,171
4,103
4,042
3,988
3,939
3,895
3,855
3,818
3,785
3,754
3,725
3,699
3,514
3,339
3,206
3,017
5858,950
99,331
27,911
15,207
10,672
8,466
7,191
6,371
5,802
5,386
5,069
4,821
4,620
4,456
4,318
4,202
4,101
4,015
3,939
3,871
3,812
3,758
3,710
3,667
3,627
3,591
3,558
3,528
3,499
3,473
3,291
3,119
2,988
2,802
5928,334
99,357
27,671
14,976
10,456
8,260
6,993
6,178
5,613
5,200
4,886
4,640
4,441
4,278
4,142
4,026
3,927
3,841
3,765
3,699
3,640
3,587
3,539
3,496
3,457
3,421
3,388
3,358
3,330
3,305
3,124
2,953
2,823
2,639
5980,954
99,375
27,489
14,799
10,289
8,102
6,840
6,029
5,467
5,057
4,744
4,499
4,302
4,140
4,004
3,890
3,791
3,705
3,631
3,564
3,506
3,453
3,406
3,363
3,324
3,288
3,256
3,226
3,198
3,173
2,993
2,823
2,694
2,511
6022,397
99,390
27,345
14,659
10,158
7,976
6,719
5,911
5,351
4,942
4,632
4,388
4,191
4,030
3,895
3,780
3,682
3,597
3,523
3,457
3,398
3,346
3,299
3,256
3,217
3,182
3,149
3,120
3,092
3,067
2,888
2,718
2,590
2,407
6.1. TABELLEN
233
Tabelle 12
Quantile der F-Verteilung
0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt.
Freiheitsgrade
des Nenners
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
100
∞
10
15
20
30
des Zaehlers
40
60
100
150
∞
6055,925
99,397
27,228
14,546
10,051
7,874
6,620
5,814
5,257
4,849
4,539
4,296
4,100
3,939
3,805
3,691
3,593
3,508
3,434
3,368
3,310
3,258
3,211
3,168
3,129
3,094
3,062
3,032
3,005
2,979
2,801
2,632
2,503
2,321
6156,974
99,433
26,872
14,198
9,722
7,559
6,314
5,515
4,962
4,558
4,251
4,010
3,815
3,656
3,522
3,409
3,312
3,227
3,153
3,088
3,030
2,978
2,931
2,889
2,850
2,815
2,783
2,753
2,726
2,700
2,522
2,352
2,223
2,039
6208,662
99,448
26,690
14,019
9,553
7,396
6,155
5,359
4,808
4,405
4,099
3,858
3,665
3,505
3,372
3,259
3,162
3,077
3,003
2,938
2,880
2,827
2,780
2,738
2,699
2,664
2,632
2,602
2,574
2,549
2,369
2,198
2,067
1,878
6260,350
99,466
26,504
13,838
9,379
7,229
5,992
5,198
4,649
4,247
3,941
3,701
3,507
3,348
3,214
3,101
3,003
2,919
2,844
2,778
2,720
2,667
2,620
2,577
2,538
2,503
2,470
2,440
2,412
2,386
2,203
2,028
1,893
1,696
6286,427
99,477
26,411
13,745
9,291
7,143
5,908
5,116
4,567
4,165
3,860
3,619
3,425
3,266
3,132
3,018
2,920
2,835
2,761
2,695
2,636
2,583
2,536
2,492
2,453
2,417
2,384
2,354
2,325
2,299
2,114
1,936
1,797
1,592
6312,970
99,484
26,316
13,652
9,202
7,057
5,824
5,032
4,483
4,082
3,776
3,535
3,341
3,181
3,047
2,933
2,835
2,749
2,674
2,608
2,548
2,495
2,447
2,403
2,364
2,327
2,294
2,263
2,234
2,208
2,019
1,836
1,692
1,473
6333,925
99,491
26,241
13,577
9,130
6,987
5,755
4,963
4,415
4,014
3,708
3,467
3,272
3,112
2,977
2,863
2,764
2,678
2,602
2,535
2,476
2,422
2,373
2,329
2,289
2,252
2,218
2,187
2,158
2,131
1,938
1,749
1,598
1,358
6344,635
99,491
26,202
13,539
9,094
6,951
5,720
4,929
4,380
3,979
3,673
3,432
3,237
3,076
2,942
2,827
2,728
2,641
2,565
2,498
2,438
2,384
2,335
2,291
2,250
2,213
2,179
2,147
2,118
2,091
1,896
1,703
1,546
1,288
6365,967
99,500
26,125
13,463
9,020
6,880
5,650
4,859
4,311
3,909
3,602
3,361
3,165
3,004
2,868
2,753
2,653
2,566
2,489
2,421
2,360
2,305
2,256
2,211
2,169
2,131
2,097
2,064
2,034
2,006
1,805
1,601
1,427
1,000
234
6. TABELLEN UND LITERATUR
Tabelle 13
Binomialkoeffizienten
µ ¶
n
k
n
k
0
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
1
1
1
2
1
1
3
3
1
1
4
6
4
1
1
5
10
10
5
1
1
6
15
20
15
6
1
7
21
35
35
21
1
8
28
56
70
56
1
9
36
84
126
126
1
10
45
120
210
252
1
7
1
28
8
1
84
36
9
1
210
120
45
10
1
6
7
8
9
10
n
k
0
1
2
3
4
5
11
12
13
14
15
16
17
18
19
20
1
11
55
165
330
462
1
12
66
220
495
792
1
13
78
286
715
1287
1
14
91
364
1001
2002
1
15
105
455
1365
3003
1
16
120
560
1820
4368
1
17
136
680
2380
6188
1
18
153
816
3060
8568
1
19
171
969
3876
11628
1
20
190
1140
4845
15504
6
7
8
9
10
462
330
165
55
11
924
792
495
220
66
1716
1716
1287
715
286
3003
3432
3003
2002
1001
5005
6435
6435
5005
3003
8008
11440
12870
11440
8008
12376
19448
24310
24310
19448
18564
31824
43758
48620
43758
27132
50388
75582
92378
92378
38760
77520
125970
167960
184756
11
12
13
14
15
1
12
1
78
13
1
364
91
14
1
1365
455
105
15
1
4368
1820
560
120
16
12376
6188
2380
680
136
31824
18564
8568
3060
816
75582
50388
27132
11628
3876
167960
125970
77520
38760
15504
1
17
1
153
18
1
969
171
19
1
4845
1140
190
20
1
16
17
18
19
20
6.1. TABELLEN
235
Tabelle 14
Kumulative Häufigkeiten der
B(n, 0.5)-Binomialverteilung
µ ¶
Pk
i=0
n −n
2
i
n
k
0
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
0,50000
1,00000
1,00000
1,00000
1,00000
1,00000
0,25000
0,75000
1,00000
1,00000
1,00000
1,00000
0,12500
0,50000
0,87500
1,00000
1,00000
1,00000
0,06250
0,31250
0,68750
0,93750
1,00000
1,00000
0,03125
0,18750
0,50000
0,81250
0,96875
1,00000
0,01563
0,10938
0,34375
0,65625
0,89063
0,98438
0,00781
0,06250
0,22656
0,50000
0,77344
0,93750
0,00391
0,03516
0,14453
0,36328
0,63672
0,85547
0,00195
0,01953
0,08984
0,25391
0,50000
0,74609
0,00098
0,01074
0,05469
0,17188
0,37695
0,62305
6
7
8
9
10
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
0,99219
1,00000
1,00000
1,00000
1,00000
0,96484
0,99609
1,00000
1,00000
1,00000
0,91016
0,98047
0,99805
1,00000
1,00000
0,82813
0,94531
0,98926
0,99902
1,00000
n
k
0
1
2
3
4
5
11
12
13
14
15
16
17
18
19
20
0,00049
0,00586
0,03271
0,11328
0,27441
0,50000
0,00024
0,00317
0,01929
0,07300
0,19385
0,38721
0,00012
0,00171
0,01123
0,04614
0,13342
0,29053
0,00006
0,00092
0,00647
0,02869
0,08978
0,21198
0,00003
0,00049
0,00369
0,01758
0,05923
0,15088
0,00002
0,00026
0,00209
0,01064
0,03841
0,10506
0,00001
0,00014
0,00117
0,00636
0,02452
0,07173
0,00000
0,00007
0,00066
0,00377
0,01544
0,04813
0,00000
0,00004
0,00036
0,00221
0,00961
0,03178
0,00000
0,00002
0,00020
0,00129
0,00591
0,02069
6
7
8
9
10
0,72559
0,88672
0,96729
0,99414
0,99951
0,61279
0,80615
0,92700
0,98071
0,99683
0,50000
0,70947
0,86658
0,95386
0,98877
0,39526
0,60474
0,78802
0,91022
0,97131
0,30362
0,50000
0,69638
0,84912
0,94077
0,22725
0,40181
0,59819
0,77275
0,89494
0,16615
0,31453
0,50000
0,68547
0,83385
0,11894
0,24034
0,40726
0,59274
0,75966
0,08353
0,17964
0,32380
0,50000
0,67620
0,05766
0,13159
0,25172
0,41190
0,58810
11
12
13
14
15
1,00000
1,00000
1,00000
1,00000
1,00000
0,99976
1,00000
1,00000
1,00000
1,00000
0,99829
0,99988
1,00000
1,00000
1,00000
0,99353
0,99908
0,99994
1,00000
1,00000
0,98242
0,99631
0,99951
0,99997
1,00000
0,96159
0,98936
0,99791
0,99974
0,99998
0,92827
0,97548
0,99364
0,99883
0,99986
0,88106
0,95187
0,98456
0,99623
0,99934
0,82036
0,91647
0,96822
0,99039
0,99779
0,74828
0,86841
0,94234
0,97931
0,99409
16
17
18
19
20
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
1,00000
0,99999
1,00000
1,00000
1,00000
1,00000
0,99993
1,00000
1,00000
1,00000
1,00000
0,99964
0,99996
1,00000
1,00000
1,00000
0,99871
0,99980
0,99998
1,00000
1,00000
236
6. TABELLEN UND LITERATUR
Tabelle 15
Quantile der Kolmogorov-Smirnov-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt.
n
α
1
2
3
4
5
0.2
0.90
0.68
0.56
0.49
0.45
0.1
0.95
0.78
0.64
0.56
0.51
0.05
0.98
0.84
0.71
0.62
0.56
0.01
0.99
0.93
0.83
0.73
0.67
6
7
8
9
10
0.41
0.38
0.36
0.34
0.32
0.47
0.44
0.41
0.39
0.37
0.52
0.49
0.46
0.43
0.41
0.62
0.58
0.54
0.51
0.49
11
12
13
14
15
0.31
0.30
0.28
0.27
0.27
0.35
0.34
0.32
0.31
0.30
0.39
0.38
0.36
0.35
0.34
0.47
0.45
0.43
0.42
0.40
16
17
18
19
20
0.26
0.25
0.24
0.24
0.23
0.30
0.29
0.28
0.27
0.26
0.33
0.32
0.31
0.30
0.29
0.39
0.38
0.37
0.36
0.35
25
30
35
40
45
0.21
0.19
0.18
0.17
0.16
0.24
0.22
0.21
0.19
0.18
0.26
0.24
0.23
0.21
0.20
0.32
0.29
0.27
0.25
0.24
groß
1.07
√
n
1.22
√
n
1.36
√
n
1.63
√
n
6.1. TABELLEN
237
Tabelle 16
Quantile der Kolmogorov-Smirnov-Lillefors-Statistik
α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test
mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt.
n
α
4
5
0.2
0.300
0.285
0.1
0.352
0.315
0.05
0.381
0.337
0.01
0.417
0.405
6
7
8
9
10
0.265
0.247
0.233
0.223
0.215
0.294
0.276
0.261
0.249
0.239
0.319
0.300
0.285
0.271
0.258
0.364
0.348
0.331
0.311
0.294
11
12
13
14
15
0.206
0.199
0.190
0.183
0.177
0.230
0.223
0.214
0.207
0.201
0.249
0.242
0.234
0.227
0.220
0.284
0.275
0.268
0.261
0.257
16
17
18
19
20
0.173
0.169
0.166
0.163
0.160
0.195
0.189
0.184
0.179
0.174
0.213
0.206
0.200
0.195
0.190
0.250
0.245
0.239
0.235
0.231
25
30
0.142
0.131
0.158
0.144
0.173
0.161
0.200
0.187
groß
0.736
√
n
0.805
√
n
0.886
√
n
1.031
√
n
238
6. TABELLEN UND LITERATUR
Tabelle 17
Kritische Werte für den Mann-Whitney U-Test
α = 0.05 zweiseitig. n1 , n2 sind die Stichprobenumfänge.
n1
n2
1
2
3
4
5
1
2
3
4
5
6
7
8
9
10
-
-
0
0
1
2
6
7
8
9
10
-
0
0
0
1
1
2
2
3
2
3
4
4
5
11
12
13
14
15
-
0
1
1
1
1
3
4
4
5
5
16
17
18
19
20
-
1
2
2
2
2
21
22
23
24
25
-
26
27
28
29
30
11
12
13
14
15
3
5
6
7
8
5
6
8
10
11
8
10
12
14
13
15
17
17
20
23
6
7
8
9
10
9
11
12
13
14
13
14
16
17
19
16
18
20
22
24
19
22
24
26
29
23
26
28
31
34
6
6
7
7
8
11
11
12
13
14
15
17
18
19
20
21
22
24
25
27
26
28
30
32
34
31
34
36
38
41
3
3
3
3
3
8
9
9
10
10
15
16
17
17
18
22
23
24
25
27
29
30
32
33
35
36
38
40
42
44
-
4
4
4
4
5
11
11
12
13
13
19
20
21
22
23
28
29
30
32
33
37
38
40
42
43
31
32
33
34
35
-
5
5
5
5
6
14
14
15
15
16
24
24
25
26
27
34
35
37
38
39
36
37
38
39
40
0
0
6
6
6
7
7
16
17
17
18
18
28
29
30
31
31
40
41
43
44
45
16
17
18
19
20
26
29
33
36
39
30
33
37
40
44
37
41
45
49
45
50
54
55
59
64
37
39
42
45
48
42
45
48
52
55
47
51
55
58
62
53
57
61
65
69
59
63
67
72
76
64
69
74
78
83
70
75
80
85
90
75
81
86
92
98
87
93
99
105
99
106
112
113
119
43
45
48
50
53
50
53
56
59
62
58
61
64
67
71
65
69
73
76
80
73
77
81
85
89
80
85
89
94
98
127
88
93
98
102
107
96
101
106
111
117
103
109
115
120
126
111
117
123
129
135
119
125
132
138
145
126
133
140
147
154
134
141
149
156
163
46
48
50
52
54
55
57
60
62
65
64
67
70
73
76
74
77
80
83
87
83
87
90
94
98
93
97
101
105
109
102
107
111
116
120
112
117
122
127
131
122
127
132
138
143
132
137
143
149
154
141
147
154
160
166
151
158
164
171
177
161
168
175
182
189
171
178
186
193
200
45
46
48
50
51
56
58
60
62
64
67
69
72
74
77
78
81
84
87
89
90
93
96
99
103
101
105
108
112
116
113
117
121
125
129
125
129
133
138
142
136
141
146
151
156
148
153
159
164
169
160
166
171
177
183
172
178
184
190
196
184
190
197
203
210
196
203
210
217
224
208
215
222
230
237
53
55
56
58
59
66
68
70
72
74
79
81
84
86
89
92
95
98
101
103
106
109
112
115
119
119
123
127
130
134
133
137
141
145
149
147
151
156
160
165
161
165
170
175
180
174
180
185
190
196
188
194
200
206
211
202
209
215
221
227
216
223
230
236
243
231
238
245
252
258
245
252
259
267
274
6.1. TABELLEN
239
Tabelle 18
Kritische Werte für den Wilcoxon-Test für verbundene Stichproben
α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang.
α
n
6
7
8
9
10
0.05
0.025
0.01
2
3
5
8
10
0
2
3
5
8
0
1
3
5
11
12
13
14
15
13
17
21
25
30
10
13
17
21
25
16
17
18
19
20
35
41
47
53
60
21
22
23
24
25
0.005
0.05
0.025
0.01
0.005
0
1
3
α
n
36
37
38
39
40
227
241
256
271
286
208
221
235
249
264
185
498
211
224
238
171
182
194
207
220
7
9
12
15
19
5
7
9
12
15
41
42
43
44
45
302
319
336
353
371
279
294
310
327
343
252
266
281
296
312
233
247
261
276
291
29
34
40
46
52
23
27
32
37
43
19
23
27
32
37
46
47
48
49
50
389
407
426
446
466
361
378
396
415
434
328
345
362
379
397
307
322
339
355
373
67
75
83
91
100
58
65
73
81
89
49
55
62
69
76
42
48
54
61
68
51
52
53
54
55
486
507
529
550
573
453
473
494
514
536
416
434
454
473
493
390
408
427
445
465
26
27
28
29
30
110
119
130
140
151
98
107
116
126
137
84
92
101
110
120
75
83
91
100
109
56
57
58
59
60
595
618
642
666
690
557
579
602
625
648
514
535
556
578
600
484
504
525
546
567
31
32
33
34
35
163
175
187
200
213
147
159
170
182
195
130
140
151
162
173
118
128
138
148
159
61
62
63
64
65
715
741
767
793
820
672
697
721
747
772
623
646
669
693
718
589
611
634
657
681
240
6. TABELLEN UND LITERATUR
6.2. Literatur
Es gibt unzählige Lehrbücher der Statistik für Naturwissenschaften, darunter
viele sehr gute. Die folgende Auswahl erhebt keinen Anspruch auf Vollständigkeit
und ist durchaus subjektiv gefärbt. Ich zitiere die mir vorliegenden Auflagen, sicher
haben manche der Werke inzwischen Neuauflagen erfahren.
Lehrbücher und Einführungen:
• W. Köhler, G. Schachtel, P. Voleske, Biostatistik, 3. Auflage, Springer
2002. (Taschenbuch) Speziell auf die Bedürfnisse der Biologie zugeschnitten. Trotz
des Taschenbuchformates sehr reichhaltig, sorgfältig erklärt, und mit vielen Methoden.
Mein Tipp als Grundlage zum Lernen!
• R. J. Lorenz, Grundbegriffe der Biometrie, 3. Auflage, Gustav Fischer
Verlag, 1992. (Taschenbuch) Dieses Buch umfasst nicht sehr viele Methoden, der
Autor gibt sich aber besondere Mühe um das Grundverständnis. Leicht lesbar.
• R. Leonhart, Lehrbuch Statistik, Einstieg und Vertiefung, Verlag Hans
Huber 2004. (Hardcover) Sehr viele Methoden! Der Autor gibt sich viel Mühe, die
praktische Relevanz und den Sinn der Methoden zu erklären. Beachtung verdient auch
die Sorgfalt, mit der die übersichtliche Gestaltung des Buches durchdacht wurde. Vom
Beginn des Buches, der für meinen Geschmack etwas zu gelehrt aufgemacht sind “Eine
Messung ist eine homomorphe Abbildung” sollte man sich nicht abschrecken lassen.
Ich warte gespannt auf die zweite Auflage.
• W. Mendenhall, T. Sincich, Statistics for Engineers and the Sciences, 4th
ed., Prentice Hall 1995. (Hardcover, Englisch). Für meinen Geschmack das
beste Statistiklehrbuch, das mir untergekommen ist. Sorgfältig erklärt, mit sehr vielen
Übungsbeispielen, die wirklich aus der Praxis kommen. Umfangreich an Seiten, daher
etwas langatmiger zu lesen.
• M. Monka, N. M. Schöneck, W. Voss, Statistik am PC, Lösungen mit Excel. Carl Hanser Verlag, 2008. Umfangreicher Text, denn es wird großer Wert auf
gut lesbare, verständliche und trotzdem fundierte Erklärung gelegt. Viele Methoden
bis zur multiplen Regression und (allerdings nur kurz) Varianzanalyse. Ein besonderer Vorteil des Buches liegt in der Verwendung und Erklärung des allgegenwärtigen
Programmes Excel.
Weiterführende Literatur über multivariate Statistik: Gerade in den Biowissenschaften trifft man oft auf Studien mit Vergleich vieler verschiedener Merkmale und
Faktoren. Für solche Situationen wurden die Methoden der multivariaten Statistik
erfunden, für die in einer Grundvorlesung leider keine Zeit bleibt.
• J. F. Hair, R. E. Anderson, R. L. Tatham, W. C. Black, Multivariable Data
Analysis, 5th ed., Prentice Hall 1998. (Englisch, Hardcover) Eines der vielen
Lehrbücher über multivariate Statistik, nach meiner Ansicht besonders gut gelungen.
Jede Methode ein Kapitel, die Kapitel lassen sich voneinander unabhängig lesen, sodass
man gezielt lernen kann, was man braucht. Zu jeder Methode eine Fallstudie. Keine
Formeln, gut lesbar für Nicht-Mathematiker.
• M. H. Katz, Multivariable Analysis, A practical guide for clinicians, Cambridge University Press 1999. (Englisch, Paperback) Kein Lehrbuch der multivariaten Statistik, aber eine sehr nützliche Ergänzung, die auf die praktischen Details
und Hindernisse eingeht, auf die man bei der Umsetzung multivariater Methoden in
klinischen Studien stößt.
Tabellen, Computer, Sonstiges:
• A. Bühl, P. Zöfel, SPSS 12, Einführung in die moderne Datenanalyse
unter Windows, 9. Auflage, Pearson 2005. (Hardcover. Beiliegend CD mit
6.2. LITERATUR
241
Datenfiles). Sehr gut erklärte und umfangreiche Einführung in SPSS, gut geeignet
zum Selbststudium, und auch zum Auffinden und Herauspicken einzelner Methoden.
Praxisnahe Beispiele auf Datendiskette.
• W. Krämer, So lügt man mit Statistik, Piper 2000. (Taschenbuch). Pointierte, sehr unterhaltsame Illustration, wie Statistik oft absichtlich oder unabsichtlich
missbräuchlich und irreführend angewendet wird. Anregende Lektüre, vor allem, wenn
man selbst in die Situation kommt, Daten darzustellen.
• H. Rinne, Taschenbuch der Statistik, 3. Auflage, Verlag Harri Deutsch
2003. (Taschenbuch, Kunststoffeinband) Sammlung von Tabellen, Formeln, Verteilungen, Methoden im Überblick. Kein Lehrbuch, sondern ein Nachschlagebuch für
jemand, der viel Statistik braucht.
Herunterladen