Statistik I im Sommersemester 2006

Werbung
Statistik I im Sommersemester 2006
Themen am 18.4.2006:
• Was ist Statistik, wozu Statistik?
• Überblick über das Modul M2: Grundlagen sozialwissenschaftlicher Datenanalyse
(Statistik I)
• Einige Ergebnisse der Befragung zur Anmeldung
• Mathematisches Repititorium: Indizierte Summen
Lernziele:
1. Bedeutung der Statistik für die Sozialwissenschaften
2. Beurteilung des Lernaufwands
3. Umgang mit Symbolen: Das Summenzeichen
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
1
Was ist Statistik ?
Gegenstand der Statistk:
Mathematische Modellierung von Verteilungen
Begriffe:
a) Verteilung: Eigenschaften einer Menge von Einheiten
Beispiele: • Einkommen von Haushalten in einer Stadt
• Zweitstimmen und Bewertungen von Parteien in einem Bundesland
• Konflikte zwischen Partnern
• Konsum alkoholischer Getränke einer Person
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
2
Was ist Statistik ?
Gegenstand der Statistk:
Mathematische Modellierung von Verteilungen
Begriffe:
b) Modellierung: Abstraktion von realen Einheiten
durch Konzentration auf relevante und Ignorierung irrelvanter Aspekte
⇒ Informationsverdichtung u. Informationsreduktion
Beispiel: Straßenkarte als Modell einer Landschaft
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
3
Was ist Statistik ?
Gegenstand der Statistk:
Mathematische Modellierung von Verteilungen
Begriffe:
c) Mathematsche Modellierung;
Modellformulierung in „Sprache“ der Mathematik (Symbole u. Formeln)
Beispiel:
Verteilung der Körpergröße (X) in einer Population
f (x) =
1
2π ⋅ σ
2
X
⋅e
1 ( x −μ X )
− ⋅
2
σ2X
2
wobei: μ X =: durchschnittliche Körpergröße
(Erwartungswert)
σ2X =: Ausmaß der Unterschiedlichleit
der Körpergrößen (Varianz)
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
4
Warum Statistik?
Relevanz für Sozialwissenschaften?
Sozialwissenschaften befassen sich mit empirischen Regelmäßigkeiten
(und den Abweichungen von Regelmäßigkeiten)
in Interaktionen, Verhalten u. Vorstellungen von Menschen,
deren Ursachen und Konsequenzen.
Daher Gegenstand empirischer Analysen in den Sozialwissenschaften:
Verteilungen von Interaktionen, Verhaltensweisen, Vorstellungen.
Beispiele für sozialwissenschaftliche Fragestellungen zu Verteilungen:
• Sozialstruktur: Hat die Ungleichheit in Deutschland zugenommen?
• Verhalten:
Gibt es Unterschiede bei der Wahlbeteiligung von Männern
und Frauen?
• Einstellung:
Wird die Todestrafe mehrheitlich befürwortet?
Zur Beantwortung werden jeweils umfangreiche Datenmengen benötigt,
die
1. für eine Fragestellung relevant sein
und 2. im Hinblick auf die Fragestellung adäquat ausgewerte werden müssen.
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
5
Warum Statistik?
Ein Beispiel: Gibt es Unterschiede bei der Wahlbeteiligung von Männern und Frauen?
a) relevante Daten:
Fragen nach beabsichtigter Wahlbeteiligung u. Geschlecht in Umfrage
{(ja, männlich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,)
(nein, männlich), (nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (nein, weiblich),
(ja, männlich), (ja, weiblich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich),
(ja, weiblich), (weiß nicht, weiblich), (nein, weiblich), (ja, weiblich), (ja, weiblich),
(ja, weiblich), (weiß nicht, männlich), (ja, männlich), (ja, männlich), (ja, männlich),
(ja, männlich), (ja, weiblich), (nein, weiblich), (weiß nicht, männlich), (weiß nicht, weiblich),
(nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (nein, weiblich),
(ja, weiblich), (nein, weiblich), (weiß nicht, weiblich) (weiß nicht, männlich), (ja, weiblich)
(ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (nein, weiblich), (ja, weiblich),
(ja, weiblich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,)
... }
Antworten von insgesamt 3234 im März bis Juli 1998 befragten Personen in der „Allgemeinen
Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1998.
Die Datenmenge lässt sich ohne statistische Modellierung praktisch nicht auswerten!
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
6
Warum Statistik?
b) Statistische Modellierung: Zusammenfassung der Daten in Häufigkeitstabelle:
Beabsichtigte
Wahlbeteiligung
Geschlecht
Mann Frau
Geschlecht
Mann Frau
Geschlecht
Mann Frau
Geschlecht
Mann Frau
- ja
998 1090 66.6% 62.8% 71.1% 65.0% 79.5% 72.2%
6.5%
5.1%
7.5%
- nein
64 113 4.2%
4.6%
6.7%
- weiß nicht
194 307 13.0% 17.7% 13.8% 18.3% 15.4% 20.3%
9.7% 10.5% 10.0%
- keine Angabe
148 168 9.9%
3.3%
- nicht wahlberecht. 94
58 6.3%
Geschlecht
Mann Frau
94.0% 90.6%
6.0% 9.4%
1498 1736 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
(1498) (1736) (1404) (1678) (1256) (1510) (1062) (1203)
Was besagt das Ergebnis?
Prozentuierung Prozentuierung Prozentuierung Prozentuierung
nur ja/nein
ohne Verweialle Befragten wahlberecht.
gerungn
Befragte
Total
- Ist der beobachtete Unterschied zwischen Männern und Frauen bedeutsam?
- Wie sollen die Meinungslosen berücksichtigt werden?
- Wie sehr gefährden die fehlende Angaben von 316 Befragten die Aussagekraft?
Die Prozentuierungsbasis kann deutliche Auswirkungen haben!
Aber: Statistik macht hierzu keine Vorgabe.
Die Antwort muss daher aufgrund inhaltlicher Überlegungen erfolgen!
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
7
Warum Statistik?
Vor Prozentuierung: Welche Ausgangsdaten sollen verwendet werden?
Beabsichtigte
Wahlbeteiligung
Geschlecht
Mann
Frau
Geschlecht
Mann
Frau
- ja
- nein
- weiß nicht
- keine Angabe
- nicht wahlberecht.
998
64
194
148
94
1090
113
307
168
58
1010
61
184
142
110
1098
110
281
167
65
Total
1498
1736
1514
1721
ungewichtete
Daten
gewichte
Daten
Gewichtungsvariablen:
- Region: alte/neue Länder
- HaushaltsGröße
- Lassen sich die Ergebnisse von der Stichprobe auf die Gesamtheit aller Wähler verallgemeinern?
Sind gewichtete Daten vorzuziehen?
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
8
Warum Statistik?
Sind die für die Untersuchung erobenen Daten aussagefähig?
Beabsichtigte
Wahlbeteiligung
- ja
- nein
Wahlabsicht BTW 1998
Mann
Frau
Rückerinnerung BTW 1994
Mann
Frau
94.3%
5.7%
90.9%
9.1%
91.8% ´ 91.8%
8.2%
8.2%
(1071)
(1208)
(1336)
gewichtete Daten
Tatsächliche Beteiligung
Bundestagswahl 1998
82.3%
(1575)
gewichtete Daten
Tatsächliche Beteiligung
Bundestagswahl 1994
79.1%
- Lässt die Absichtsfrage tatsächlich Rückschlüsse auf das tatsächliche Verhalten zu?
- Warum weichen Rückerinnerung und tatsächliches Verhalten ab?
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
9
Warum Statistik?
Schlussfolgerungen:
• Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen
benötigen die Sozialwissenschaften empirische Daten.
• Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen.
• Fehlerquellen:
- ungenügendes inhaltliches Vorwissen über Forschungsgebiet,
- ungenügende Kenntnisse über statistische Datenanalyse.
Ziel der Statistikausbildung:
Gewinnung von Kenntnissen über statistische Datenanalyse,
+ um Aussagekraft von empirischen Studien zu beurteilen,
+ um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
10
Klassische Einteilung der Statistik
Univariate Verteilungen
Bivariate Verteilungen
Deskriptive Statistik
Verteilungsparameter
(Quantile, Lagemaße,
Streuungsmaße)
Induktive Statistik / Inferenzstatistik
Wahrscheinlichkeitstheorie,
Schätzen und Testen
Beschreibung und Prüfung von bivariaten Zuammenhängen
Multivariate Verteilungen
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
Drittvariablenkontrolle
Konditionale u. Partielle Effekte
Prüfung der Angemessenheit
statistischer Modelle
11
Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse
(M2: Statistik I)
M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits
1. Vorlesung Statistik I → Abschlussklausur Teil A (60 Minuten)
( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben)
dazu
Tutorien zur Vorlesung
(45-60 Minuten Lösung der Übungsaufgaben)
2. Übung zu Statistik I → Abschlussklausur Teil B (30 Minuten) ← 2. Übung zu Statistik I
B. Statistik mit SPSS
A. Statistik mit Excel
oder
Vermittlung (a) (45 Minuten)
Vermittlung (b) (45 Minuten)
Übung (a) (45 Minuten Tutorium)
Übung (b) (45 Minuten Tutorium)
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
12
Veranstaltungsplan (Vorlesung)
18.4.06: • Einführung
• Mathematisches Repititorium: Indizierte Summen
25.4.06: Von der theoretischen Fragestellung zu empirischen Daten
• Operationalisierung, Messung Skalenniveau
• Fälle, Variablen, Ausprägungen u. Realisationen: Die Datenmatrix
• Häufigkeitstabellen
02.5.06: Verteilungen I: Graphische Darstellung und Lagemaße
• Verteilungsfunktion und Quantile
• Graphische Darstellung univariater Verteilungen
• Modus, Median und arithmetisches Mittel
09.5.06: Verteilungen II: Lage- und Streuungsmaße
• Getrimmtes Mittel u. geometrisches Mittel
• Streuungsmaße, Schiefe und Steilheit
• Auswirkungen von Lineartransformationen und Zusammenfassungen
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
13
Veranstaltungsplan (Vorlesung)
16.5.06: Übungsklausur I (15 Minuten, 5% Anerkennung auf Abschlussklausur A)
Wahrscheinlichkeitstheorie I
• Stichprobe und Grundgesamtheit
• Zufallsexperiment und Wahrscheinlichkeiten
• Bedingte Wahrscheinlicheiten und statistische Unabhängigkeit
• Statistisches Modell und Realität (Gesetz der großen Zahl)
23.5.06: Wahrscheinlichkeitstheorie II
• Zufallsvariablen und Wahrscheinlichkeitsverteilungen
• Kennwerteverteilungen von Häufigkeiten und Anteilen
30.5.06: Wahrscheinlichkeitstheorie III
• Zentraler Grenzwertsatz
• Normalverteilung
• Quantile stetiger Verteilungen
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
14
Veranstaltungsplan (Vorlesung)
06.6.06: Schätzen und Testen I
• Schätzer, Schätzungen und Wahrscheinlichkeitsverteilungen von Schätzern
• Schätzungen von Anteilen, Mittelwerten und Varianzen
• Die Logik von Konfidenzintervallen
• Anwendung von Konfidenzintervallen
13.6.06: Schätzen und Testen II
• Schätzen oder Testen?
• Die Logik statistischer Hypothesentests
• Prüfung von Hypothesen über Anteile und Mittelwerte
20.6.06: Übungsklausur II (15 Minuten, 5% Anerkennung auf Abschlussklausur A)
Zusammenhangsanalyse I
• Die Vierfeldertafel und der Aufbau von Kreuztabellen
• Zusammenhangsmaße in der Vierfeldertabelle
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
15
Veranstaltungsplan (Vorlesung)
27.6.06: Zusammenhangsanalyse II
• Zusammenhangsmaße für nominalskalierte Variablen
• Zusammenhangsmaße für ordinale Variablen auf der Basis von
Paarvergleichen
04.7.06: Zusammenhangsanalyse III
• Von der Kreuztabelle zum Regressionsmodell
• Das Regressionsmodell in der Stichprobe
• Kovarianz und Produktmomentkorrelation
11.7.06: Zusammenhangsanalyse IV
• Annahmen bei der Schätzung von Regressionskoeffizienten
• Standardfehler und Konfidenzintervalle im bivariaten Regressionsmodell
• Hypothesentests im bivariaten Regressionsmodell
18.7.06: Abschlussklausur (Klausur A: Grundlagen der Statistik)
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
16
Basisliteratur
3. Auflage, 2006
ISBN: 3 499 55639 1
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
1. Auflage, 2003
ISBN: 3 499 55655 3
17
Einige Ergebnisse der Befragung zur Anmeldung
1. Zusammenhang zwischen eingeplanten Zeitaufwand für Vor- und Nachbereitung des
Lehrstoffes nach Einschätzung der Schwierigkeit des erfolgreichen Bestehens
15 Wieviele Stunden planen Sie pro Woche für die Vor- und Nachbereitung des Stoffes der Statistikveranstaltung ein? * F16 Wie schwer schätzen
Sie den Statistik-1-Schein ein? Kreuztabelle
% von F16 Wie schwer schätzen Sie den Statistik-1-Schein ein?
F16 Wie schwer schätzen Sie den Statistik-1-Schein ein?
1.00 sehr
3.00 eher
4.00 eher
6.00 sehr
leicht
leicht
schwer
schwer
2.00 leicht
5.00 schwer
F15 Wieviele Stunden
planen Sie pro Woche für
die Vor- und
Nachbereitung des
Stoffes der
Statistikveranstaltung
ein?
1.00 0 bis maximal 1
Stunde
2.00 mehr als 1 bis
maximal 2 Stunden
3.00 mehr als 2 bis
maximal 3 Stunden
4.00 mehr als 3 bis
maximal 4 Stunden
5.00 mehr als 4 bis
maximal 5 Stunden
6.00 mehr als 5 Stunden
Gesamt
100.0%
100.0%
100.0%
100.0%
100.0%
100.0%
Gesamt
4.9%
7.3%
4.5%
22.0%
34.1%
40.0%
30.9%
39.0%
31.7%
44.0%
37.3%
29.3%
12.2%
8.0%
18.2%
2.4%
7.3%
4.0%
4.5%
2.4%
100.0%
7.3%
100.0%
4.0%
100.0%
4.5%
100.0%
Basis:
(1)
(1)
(1)
(41)
(41)
(25)
(110)
Mittelwert:
2.5
3.5
1.5
2.6
2.5
2.4
2.5
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
18
Einige Ergebnisse der Befragung zur Anmeldung
2. Axiomatische Messtheorie
Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend
Informationen zur Verfügung?
Frage 7: Religionszgehörigkeit
Nominal
Ordinal
richtige Antw.
+
–
A.-Muster 1
+
–
A.-Muster 2
+
+
A.-Muster 3
–
+
A.-Muster 4
–
–
A.-Muster 5
–
–
A.-Muster 6
–
–
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
Intervall
–
–
–
–
+
–
Ratio
–
–
–
–
–
+
–
–
weiß nicht
n
%
%
–
–
–
+
–
56
1
13
1
5
44.4 73.7
0.8 1.3
10.3 17.1
0.8 1.3
4.0 6.6
+
50
39.7
--
19
Einige Ergebnisse der Befragung zur Anmeldung
2. Axiomatische Messtheorie
Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend
Informationen zur Verfügung?
Frage 8: Alter in Monaten
Nominal
Ordinal
richtige Antw.
+
+
A.-Muster 1
+
+
A.-Muster 2
–
–
A.-Muster 3
+
+
A.-Muster 4
–
–
A.-Muster 5
–
–
A.-Muster 6
–
+
A.-Muster 7
–
+
A.-Muster 8
+
–
A.-Muster 9
–
–
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
Intervall
+
+
–
+
+
+
+
–
–
Ratio
+
+
+
–
–
+
–
–
–
–
–
weiß nicht
n
%
%
–
–
–
–
–
–
–
–
4
27
1
26
1
1
12
6
3.1 5.1
21.4 34.6
0.8 1.3
20.6 33.3
0.8 1.3
0.8 1.3
9.5 15.4
4.8 7.7
+
48
38.1
--
20
Einige Ergebnisse der Befragung zur Anmeldung
3. Grundrechenarten
Frage 9 u. 10: Welche Antwort stimmt?
Frage 9: 15 – 4 +3
Vorgabe a) 11
Vorgabe b) 14
Vorgabe c) 8
Vorgabe d) 3
weiß nicht
n
0
120
3
1
2
%
%
0.0 0.0
95.2 96.8
2.4 2.4
0.8 0.8
1.6
--
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
Frage 10: 15 – 3 · 3
n
Vorgabe a) 36
11
Vorgabe b) 42
1
Vorgabe c) 6
108
Vorgabe d) –4
1
weiß nicht
5
%
%
8.7 9.1
0.8 0.8
85.7 89.3
0.8 0.8
4.0
--
21
Einige Ergebnisse der Befragung zur Anmeldung
4. Dreisatz und Prozentrechnung
Frage 11:
Vorgabe b)
Vorgabe f)
Vorgabe d)
Vorgabe e)
Vorgabe a)
Vorgabe c)
weiß nicht
In Göttingen leben 600 Enten. An einem See, der Zugvögel als Rasstpaltz dient,
infizieren sich pro Stunde 24 Enten mit Vogelgrippe. Wieviel Prozent der
Entenpopulation sind nach 14 Stunden infiziert?
Infiziert sind
21%
24%
56%
66%
96%
108%
n
0
1
96
3
0
1
25
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
%
%
0.0 0.0
0.8 1.0
77.4 95.0
2.4 3.0
0.0 0.0
0.8 1.0
19.8
--
22
Einige Ergebnisse der Befragung zur Anmeldung
5. Indizierte Summen berechnen
Fall
1
2
3
4
5
6
7
8
9
X
2
5
0
3
4
1
1
2
3
Y
1
1
0
0
0
1
1
1
0
Vorgaben Frage 13
Vorgabe e)
4
Vorgabe b)
5
Frage 13: ∑ y i = ?
Vorgabe f)
7
Vorgabe d)
9
9
Vorgabe a)
21
Frage 14: ∑ x i − y i = ? Vorgabe c)
45
i=7
weiß nicht
Welche Antwort
nicht gefragt
stimmt?
Vorgaben Frage 14
Vorgabe e)
4
Vorgabe b)
5
Vorgabe f)
7
Vorgabe d)
9
Vorgabe a)
21
Vorgabe c)
45
weiß nicht
nicht gefragt
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
n
0
14
0
3
0
0
57
52
n
10
2
1
0
6
0
55
52
%
0.0
11.1
0.0
2.4
0.0
0.0
45.2
41.3
%
7.9
1.6
0.8
0.0
4.8
0.0
43.6
41.3
%
0.0
18.9
0.0
4.1
0.0
0.0
77.0
-%
13.5
2.7
1.4
0.0
8.1
0.0
74.3
--
%
0.0
82.3
0.0
17.8
0.0
0.0
--%
52.6
10.5
5.3
0.0
31.6
0.0
---
23
Mathematisches Repititorium: Indizierte Summen
Das Summenzeichen ∑
Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt
dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen.
Beispiel:
Daten:
3
4
1
6
2
∑
1 3 4 2 5 15
Anderenfalls muss die Menge, über die summiert
wird, gekennzeichnet werden.
„∑ X“ bezeichnet entsprechend die Summierung
über alle Elemente einer Menge, die den Namen X
hat.
∑ 16
∑
X 3 5 7 2 4 6 1 0 28
Y 1 3 2 5 4 9 8 6 38
Wenn offensichtlich ist, über welche Menge
summiert werden soll, wird einfach das
Summenzeichen-Symbol verwendet.
„∑ X“ ist also die Summe über die erste Zeile, ∑ X = 28,
„∑ Y“ entsprechend die Summe über die zweite Zeile, ∑ Y = 38
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
24
Indizierte Summen
Indizierte Summen
Wenn nicht alle Elemente einer Summe, sondern eine Auswahl summiert werden soll, müssen
die auszuwählenden Elemente gekennzeichnet werden.
Dazu werden sie durchnummeriert. Die Nummer, die ihre Position angibt, wird als Index (oder
Indexvariable) bezeichnet. Für Indizes werden sehr oft die Buchstabem „i“, „j“, „k“ oer „l“
verwendet.
Wenn die Menge durch einen großen Buchstaben gekennzeichnet ist, werden die Elemente oft
durch einen kleinen Buchstaben gekennzeichnet.
Index
1
2
3
4
5
6
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
x3 bezeichnet so das dritte Element von X (x3 = 0),
y1 das erste Element von Y (y1 = 4),
z6 das sechste (letzte) Element von z (z6 = 1)
Sollen im Beispiel nur das dritte bis fünfte Element von Y summiert
werden, wird
a) die Menge durch ein beliebiges Indexsymbol indiziert und
b) der Anfang und das Ende der Indexnummern unten und oben am
Summenzeichen angegeben:
5
∑y
i =3
i
= y3 + y 4 + y5 = 0 + 1 + 6 = 7
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
25
Indizierte Summen
Index
1
2
3
4
5
6
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
5
∑y
i =3
5
∑y
i =3
Die Anzahl der
Elemente (Fälle)
insgesamt einer
Menge wird oft
duch den Buchstaben „N“ oder
„n“ gekennzeichnet!
i
i
∑z
j=1
∑z
j=1
j
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
j
1
2
3
4
5
6
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
= y3 + y 4 + y5 = 0 + 1 + 6 = 7
n
n
i
1
2
3
4
5
6
j
= 1+ 0 +1+ 0 + 0 +1 = 3
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
26
Indizierte Summen
Durch Verwendung von Formeln können in der Indizierung sehr spezifische Teilmengen
ausgewählt. werden.
Beispiel a): Auswahl jedes zweiten Elements einer Menge X, d.h. der geraden Elemente:
Fall
1
2
3
4
5
6
X
2
1
0
3
5
4
n/2
∑x
i =1
2⋅i
= x2 + x4 + x6
=1+ 3 + 4 = 8
Beispiel b): Auswahl der ungeraden Elemente einer Menge X
Fall
1
2
3
4
5
6
X
2
1
0
3
5
4
n/2
∑x
i =1
2⋅i −1
= x1 + x 3 + x 5
= 2+0+5=7
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
27
Indizierte Summen
Summen über Konstanten sind gleichbedeutend mit der Multiplikation der Konstante mit der zu
summierenden Anzahl.
Fall Wert
1
4
2
4
3
4
4
4
5
4
∑ 20
5
∑ 4 = 5 ⋅ 4 = 20
i =1
Konstanten innerhalb von Summen können daher oft ausgeklammert werden:
Fall Wert
1
2
2
1
3
0
4
0
5
2
5
∑4⋅ w
k =1
k
5
∑4⋅ w
k =1
= 4 ⋅ 2 + 4 ⋅1 + 4 ⋅ 0 + 4 ⋅ 0 + 4 ⋅ 2 = 20
5
k
= 4 ⋅ ∑ w k = 4 ⋅ ( 2 + 1 + 0 + 0 + 2 ) = 4 ⋅ 5 = 20
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
k =1
28
Indizierte Summen
Summen können auch über Formeln von Elementen aus mehreren Mengen gebildet werden.
Fall
1
2
3
4
5
6
n
∑x
i =1
i
+ yi = ( x1 + y1 ) + ( x 2 + y 2 ) +
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
( x n + yn )
= ( 2 + 4 ) + (1 + 2 ) + ( 0 + 0 ) + ( 3 + 1) + ( 5 + 6 ) + ( 4 + 2 ) = 30
n/2
∑y ⋅z
i =1
X
2
1
0
3
5
4
i
n +1− i
= ( y1 ⋅ z n ) + ( y 2 ⋅ z n −1 ) +
( y n / 2 ⋅ z n / 2+1 )
= ( 4 ⋅1) + ( 2 ⋅ 0 ) + ( 0 ⋅ 0 ) = 4
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
29
Indizierte Summen
Die Auflösung (Berechnung) von Summen von Summen kann aufwendig sein.
Fall
1
2
3
4
5
6
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
3
Beispiel:
6
∑∑ x
i =1 j= 4
3
6
∑∑ x
i =1 j= 4
i
i
+ yj
+ y j = ( x1 + ( y 4 + y 5 + y 6 ) )
= ( x 2 + ( y 4 + y5 + y6 ) )
= ( x 3 + ( y 4 + y5 + y6 ) )
= ( 2 + (1 + 4 + 5 ) ) + (1 + (10) ) + ( 0 + (10) )
= 33
6
⎛
⎞
= ∑ ⎜ xi + ∑ y j ⎟
i =1 ⎝
j= 4
⎠
3
Statistik 1 (Vorlesung SoSe 06, 18.4.06)
30
Statistik I im Sommersemester 2006
Themen am 25.4.2006:
Von der theoretischen Fragestellung zu empirischen Daten
• Operationalisierung, Messung Skalenniveau
• Die Datenmatrix: Fälle, Variablen, Ausprägungen u. Realisationen
• Erstellung von Häufigkeitstabellen
Lernziele:
1.
2.
3.
4.
Beurteilung der Relevanz von Operationalisierung und Messung für die Sozialforschung
Kenntniss über das Messniveau von Variablen und den daraus zu ziehenden Konsequenzen
Unterscheidung zwischen Variablen, Ausprägungen und Realisierungen
Berechnung von Häufigkeitstabellen und Verstehen der dabei angewendeten Formeln
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
31
Wiederholung der wichtigsten Inhalte der letzten Sitzung
Gegenstand der Statistk:
Mathematische Modellierung von Verteilungen
Univariate Verteilungen
Bivariate Verteilungen
Deskriptive Statistik
Verteilungsparameter
(Quantile, Lagemaße,
Streuungsmaße)
Induktive Statistik / Inferenzstatistik
Wahrscheinlichkeitstheorie,
Schätzen und Testen
Beschreibung und Prüfung von bivariaten Zuammenhängen
Multivariate Verteilungen
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
Drittvariablenkontrolle
Konditionale u. Partielle Effekte
Prüfung der Angemessenheit
statistischer Modelle
32
Warum Statistik?
• Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen
benötigen die Sozialwissenschaften empirische Daten.
• Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen.
• Fehlerquellen:
- ungenügendes inhaltliches Vorwissen über Forschungsgebiet,
- ungenügende Kenntnisse über statistische Datenanalyse.
Ziel der Statistikausbildung:
Gewinnung von Kenntnissen über statistische Datenanalyse,
+ um Aussagekraft von empirischen Studien zu beurteilen,
+ um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
33
Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse
M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits
1. Vorlesung Statistik I → Abschlussklausur Teil A (60 Minuten)
( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben)
dazu
Tutorien zur Vorlesung
(45-60 Minuten Lösung der Übungsaufgaben)
2. Übung zu Statistik I → Abschlussklausur Teil B (30 Minuten) ← 2. Übung zu Statistik I
A. Statistik mit Excel
oder
B. Statistik mit SPSS
Vermittlung (a) (45 Minuten)
Vermittlung (b) (45 Minuten)
Übung (a) (45 Minuten Tutorium)
Übung (b) (45 Minuten Tutorium)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
34
Mathematisches Repititorium: Indizierte Summen
Das Summenzeichen ∑
Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt
dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen.
j
1
2
3
4
5
6
n
∑z
j=1
j
n
∑z
j=1
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
j
X
2
1
0
3
5
4
Y
4
2
0
1
6
2
Z
1
0
1
0
0
1
= 1+ 0 +1+ 0 + 0 +1 = 3
35
Operationalisierung
Ausgangspunkt: Forschungsfrage
Beispiel: Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird
und je höher die Reaktionsbereitschaft des politischen Systems eingeschätzt wird,
desto höher ist die Unterstützung des politischen Systems
(zu überprüfende Hypothese)
Vor jeder empirischen Analyse: Klärung der Begriffe
Einschätzung der Beeinflussbarkeit des politischen Systems:
Urteil eines Staatsangehörigen darüber, wie sehr er auf politische
Entscheidungen Einfluss nehmen kann.
Einschätzung der Reaktionsbereitschaft des politischen Systems:
Urteil eines Staatsangehörigen darüber, wie sehr politische Entscheidungsinstanzen bei ihren Entscheidungen auf Vorstellungen und Forderungen der
Staatsangehörigen achten.
Unterstützung des politischen Systems:
Ausmaß der (positiven) Bewertungen der politischen Institutionen und deren
Aktivitäten.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
36
Operationalisierung
Hypothese:
Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird und je höher die
Reaktionsbereitschaft des politischen Systems eingeschätzt wird, desto höher ist die
Unterstützung des politischen Systems
Wenn es sich um eine empirische Hypothese handelt, hängt es von der Beschaffenheit der
Realität ab, ob die Hypothese zutrifft oder nicht zutrifft.
Für die Prüfung muss dann empirisch feststellbar sein, ob bzw. wie sehr die in den Begriffen
der Hypothese vorkommenden Sachverhalte vorliegen oder nicht vorliegen.
Operationalisierung
Benennung von Korrespondenzregeln,
mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten
Sachverhalts festgestellt wird
Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch
beobachtabaren Sachverhalten.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
37
Operationalisierung
Operationalisierung
Benennung von Korrespondenzregeln,
mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten
Sachverhalts festgestellt wird
Beispiel: Operationalisierung des Begriffs "Systemunterstützung" durch die Frage (Variable):
„Was würden Sie allgemein zu der Demokratie in der Bundesrepublik, d.h. zu unseren
politischen Parteien und zu unserem ganzen politischen System sagen? Sind Sie damit
sehr zufrieden, eher zufrieden, eher unzufrieden oder sehr unzufrieden?“
Bei dieser Operationalisierung wird einer Person, der Eigenschaftsträgerin,
• eine starke Systemunterstützung zugeschrieben,
wenn sie die Antwort „sehr zufrieden“ gibt,
• eine geringe Systemunterstützung,
wenn sie die Antwort „eher zufrieden“ gibt,
• eine geringe Systemablehnung,
wenn sie die Antwort „eher unzufrieden“ gibt
• und eine starke Systemablehnung,
wenn sie die Antwort „sehr unzufrieden“ gibt.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
38
Operationalisierung
Die Korrespondenzregeln schreiben also vor,
welche Schlussfolgerungen aus einer empirischen Beobachtung,
hier: der Antwort eines Befragten in einem Interview,
hinsichtlich des Vorliegens des empirischen Sachverhalts getroffen werden sollen,
der durch den Begriff bezeichnet wird.
Korrespondenzregeln sind Konsequenzen einer Messtheorie,
die Folgen der durch einen Begriff bezeichneten theoretisch erwartbaren Eigenschaften
auf empirisch beobachtbare Sachverhalte benennt.
Die Postulierung dieser Folgen heißen Korrespondenzhypothesen,
im Beispiel: 1. Je höher die Unterstützung des politischem System bei einer Person ist, desto
stärker ist die geäußerte Zufriedenheit in der Antwort auf die Frage nach dem
Funktionieren der Demokratie in dem politischen System.
2. Wenn sich zwei Personen in ihren Unterszützung des politischen Systems
deutlich unterscheiden, dann geben sie auch unterschiedliche Antworten auf
die Frage nach der Demokratiezufriedenheit untercheiden.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
39
Operationalisierung
Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten
↓
Explikation der Begriffe
↓
Formulierung einer Messtheorie mit Korrepondenzhypothesen
↓
Formulierung von Korrespondenzregeln
Was ist der Unterschied zwischen einer Korrespondenzregel und einer Korrespondenzhypothese?
Probleme:
(1) In der Regel keine explizite Formulierung der Messtheorie:
⇒ Postulate der Messtheorie (Korrespondenzhypothesen) nicht bewusst.
(2) Korrespondenzhypothesen können falsch sein:
⇒ Korrespondenzregeln vermutlich unangemessen
⇒ Empirische Beobachtung erlaubt keine Antwort auf Forschungsfrage.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
40
Operationalisierung
Tabelle 2.1: Beispiel eines Erhebungsinstrumentes
FRAGE
Frage 1:
Systeunterstützung
Frage 2a:
Einschätzung der Beeinflussbarkeit des politischen
Systems (Efficacy)
Frage 2b:
Einschätzung der Reaktionsbereitschaft des politischen
Systems (Responsiveness)
Beobachtung: Geschlecht
1.
Sind Sie mit der Art und Weise,
wie die Demokratie in der
Bundesrepublik funktioniert, alles
in allem gesehen ...
ANTWORT
Code
... sehr zufrieden,.................................
... eher zufrieden,.................................
... eher unzufrieden,.............................
... oder völlig unzufrieden?.................
___________________
weiß nicht 1
keine Angabe
4
3
2
1
8
9
2.
Nun einige Aussagen, über
die man verschiedener
Ansicht sein kann. Sagen Sie
mir bitte jeweils, ob Sie der
Aussage eher zustimmen
oder eher nicht zustimmen.
a) Leute wie ich haben so
oder so keinen Einfluss
darauf, was die Regierung
tut
b) Die Parteien wollen nur die
Stimmen der Wähler, ihre
Ansichten interessieren sie
nicht
ohne Abfrage eintragen!
Das Interview wurde geführt mit...
stimme
eher
zu
stimme weiß
eher nicht nicht
zu
keine
Angabe
1
2
8
9
1
2
8
9
einem Mann..............................
einer Frau.................................
1
2
4.
Zum Schluss noch eine Frage zur
Geburtsjahr vierstellig eintragen!
Statistik. Sagen Sie mir bitte, in
___________________
(Quelle: Kühnel/ Krebs, 2006: S. 26) welchem Jahr Sie geboren sind.
keine Angabe
9999
1
Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen.
Frage 4: Alter
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
41
Beobachten und Messen
Im Erhebungsinstrument werden die Messvorschriften festgehalten, die sich aus den
Korrespondenzregeln ergeben.
Es dient als Hilfe bei der Erfassung der interessierenden Eigenschaften von Untersuchungseinheiten.
Messen bezieht sich auf dann auf den Vorgang der Datengewinnung, d.h. der Anwendung der
Korrespondenzregeln und der Umsetzung und Festhaltung der Beobachtungen in
mathematische Größen (Zahlen).
Bei dem oft nicht eindeutig verwendeten Begriff lassen sich zwei unterschiedliche Bedeutungen
unterscheiden:
(1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung.
In der Sozialforschung spricht man auch von Beobachtung.
(2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereits
beobachteten empirischen Eigenschaften eines Objekts
Messen im engeren Sinne wird technisch auch als Kodierung bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
42
Beobachten
FRAGE
1.
Sind Sie mit der Art und Weise,
wie die Demokratie in der
Bundesrepublik funktioniert, alles
in allem gesehen ...
ANTWORT
Code
... sehr zufrieden,.................................
... eher zufrieden,.................................
... eher unzufrieden,.............................
... oder völlig unzufrieden?.................
___________________
weiß nicht 1
keine Angabe
4
3
2
1
8
9
2.
Nun einige Aussagen, über
die man verschiedener
Ansicht sein kann. Sagen Sie
mir bitte jeweils, ob Sie der
Aussage eher zustimmen
oder eher nicht zustimmen.
a) Leute wie ich haben so
oder so keinen Einfluss
darauf, was die Regierung
tut
b) Die Parteien wollen nur die
Stimmen der Wähler, ihre
Ansichten interessieren sie
nicht
ohne Abfrage eintragen!
Das Interview wurde geführt mit...
stimme
eher
zu
stimme weiß
eher nicht nicht
zu
keine
Angabe
1
2
8
9
1
2
8
9
einem Mann..............................
einer Frau.................................
1
2
4.
Zum Schluss noch eine Frage zur
Geburtsjahr vierstellig eintragen!
1943
Statistik. Sagen Sie mir bitte, in
___________________
welchem Jahr Sie geboren sind.
keine Angabe
9999
1
Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
Beobachten bedeutet im Beispiel:
Stellen der Fragen
und Notieren der Antworten
Die Messung ergibt:
Die befragte Person ...
(1) ist „eher zufrieden“ mit dem
Funktionieren der Demokratie,
(2) stimmt der Aussage nicht zu,
dass Leute wie die Person
keinen Einfluss auf die
Regierung hat,
(3) stimmt auch nicht zu, dass
die Parteien nicht an den
Ansichten der Wähler interessiert sind,
(4) ist männlich
(5) und 1943 geboren.
43
Messen
Mesen ist die Zuordnung von Zahlen zu den möglichen Vorkommensweisen einer
Eigenschaften von Untersuchungseinheiten.
Jedem empirischen Objekt wird eine Zahl (der Code) derart zugeordnet, dass der Zahl eine
Eigenschaft des Objektes entspricht, und dem Vergleich von jeweils zwei Messungen der
gemessenen Eigenschaft der Vergleich der zugeordneten Zahlen entspricht.
Beispiel:
gleiches Geschlecht
⇔ gleiche Zahl,
verschiedenes Geschlecht ⇔ verschiedene Zahl.
A
B
C
1
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
D
2
44
Messen in der axiomatischen Messtheorie
Definition von Messen in der axiomatischen Messtheorie:
Messen ist eine homomorphe Abbildung
eines empirischen Relativs
in ein numerisches Relativ
A
B
C
1
D
2
empirisches Relativ:
empirische Objekte und Beziehungen (Relationen)
zwischen den Objekten anhand deren Eigenschaften
(hier: Vergleich nach Gleichheit bzw. Verschiedenheit von Menschen hinsichtlich ihres Geschlechts
numerisches Relativ:
mathematische Objekte (Zahlen)
und Beziehungen (Relationen)
zwischen den Zahlen
Homomorphe (strukturtreue) Abbildung:
Vergleiche aufgrund der empischen Eigenschaft entsprechen Vergleiche von Zahlen und
müssen daher zum gleichen Ergebnis kommen.
hier: gleiche Zahl = gleiches Geschlecht, verschiedene Zahl = verschiedenes Geschlecht.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
45
Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen
Zwischen Zahlen lassen sich sehr verschiedenen Beziehungen (Relationen) herstellen.
So ist die Zahl 2 doppelt so groß wie die Zahl 1; 2 = 2×1
Dieser Eigenschaft entspricht bei der Messung des Geschlechts keine empirische Eigenschaft:
Weibliche Befragte (Code = 2) haben verglichen mit männlichen Befragten (Code = 1) kein
doppeltes Ausmaß an der Eigenschaft Geschlecht;
Geschlecht lässt gar sich nicht hinsichtlich seines Ausmaßes vergleichen.
Das Messniveau oder Skalenniveau einer Messung legt fest, welche numerische Eigenschaften
von Zahlen empirischen Bedeutungen entsprechen:
• Messungen auf Nominalskalenniveau enthalten nur Informationen, ob gleiche oder ungleiche
Ausprägungen einer Eigenschaft vorliegen;
• Messungen auf Ordinalskalenniveau geben zusätzlich Auskunft über ein mehr oder weniger
des Ausmaßes einer Eigenschaft;
• Messungen auf Intervallskalenniveau erlauben zusätzlich den Abstand zwischen einzelnen
Messwerten inhaltlich zu interpretieren;
• Messungen auf Ratioskalenniveau (auch: Verhältnisskalenniveau, Proportionalskalenniveau)
ermöglichen zusätzlich die Interpretation des Verhältnisses von Messwerten.
⇒ Je höher das Messniveau, desto informationshaltiger die Messung
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
46
Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen
Tabelle 2.2: Beispiele für Skalenniveaus
Skalenniveau
Relation zwischen
Ausprägungen
Nominalskala
Klassifikation
Religion, Familienstand, Parteineigung
Ordinalskala
Rangordnung
Einstellungsmessungen in Umfragen z.B.
Ausmaß an Zustimmung zu einer Behauptung
Intervallskala
Abstand
Temperatur in Grad Celsius, Geburtsjahr
Ratioskala
Verhältnis
Alter, Größe, Einkommen
Beispiele
(nach Kühnel/ Krebs, 2006: S. 31)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
47
Messniveau: Hierarchie zwischen den Messnievaus
Zwischen den Messniveaus besteht eine hierarchische Ordnung:
• Alle Informationen eines geringeren Messniveaus gelten auch bei höherem Messniveau.
• Die zusätzlichen Informationen eines höheren Messniveaus können aber nicht bei einem
geringeren Messniveau genutzt werden:
Interpretierbare Relationen
Identität Ränge
Abstände Quotienten
Nominalskala
ja
nein
nein
nein
Ordinalskala
ja
ja
nein
nein
Intervallskala
ja
ja
ja
nein
Ratioskala
ja
ja
ja
ja
Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet.
Daraus folgt:
Jede Messung auf Ratioskalenniveau ist auch eine Messung auf Intervallskalenniveau, auf
Ordinalskalenniveau und auf Nominalskalenniveau;
jede Messung auf Intervallskalenniveau ist auch eine Messung auf Ordinalskalenniveau und auf
Nominalskalenniveau;
jede Messung auf Ordinalskalenniveau ist auch eine Messung auf Nominalskalenniveau.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
48
Messniveau: Zulässige Transformationen
Welche Zahlen den Ausprägungen eines Merkmals zugeordnet werden, ist solange willkürlich,
solange die strukturtreue Abbildung der empirischen Beziehungen in die mathematischen Beziehungen erhalten bleibt.
Messskalen (d.h. Kodierungen), die die gleichen Informationen erhalten, sind äquivalent.
Beispiel: Ob bei der Ordinalskala „Demokratiezufriedenheit“ die Zahlen 1,2,3,4 oder 0,1,2,3
oder 10,11,15,20 verwendet werden, ist beliebig, solange eine größere Zahl stets für
eine größere Demokratiezufriedenheit steht.
Antworten
Alternative Kodierungen
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
1
2
3
4
0
1
2
3
10
11
15
20
1
2
4
3
zulässige
unzulässige
Messskalen
Der Wechsel (Übergang) von einer
Kodierung zu einer anderen Kodierung
wird als zulässige Transformation
bezeichnet, wenn alle empirischen
Informationen enthalten bleiben.
Bei unzulässigen Transformationen
gehen dagegen Informationen verloren.
Es ist aber unzulässig, die Zahlen 1,2,4,3 zu verwenden, da dann „eher zufrieden“
(4) für eine größere Zufriedenheit stehen würde als „sehr zufrieden“ (3).
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
49
Messniveau: Zulässige Transformationen
Tabelle 2.3: Zulässige Transformationen
Skalenniveau
Zulässige Transformationen
Beispiele für erlaubte mathematische
Operationen
Nominal
Alle ein-eindeutigen Transformationen
Logarithmieren, Multiplikation,
Addition (Subtraktion) einer Konstanten
Ordninal
Alle positiv-monotonen, die
Rangordnung wahrenden Transformationen
Wenn Ausgangswerte > 0:
Quadrieren, Logarithmieren, Wurzelziehen
Intervall
Alle positiven linearen Transformationen
Y = a + b ⋅ X mit b> 0
Ratio
Streckungen und Stauchungen
Y = b ⋅ X mit b> 0
(nach Kühnel/ Krebs, 2006: S. 32)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
50
Bedeutung des Skalenniveaus für die Sozialforschung
Das Messniveau ist wichtig, weil es Aussagen über die Informationshaltigkeit von Messungen
beinhaltet.
Für die statistische Datenanalyse ist das Messniveau auch deswegen wichtig,
weil es festgelegt, ob ein statistisches Analysemodell angemessen ist oder nicht:
Wenn sich nach der Transformation einer Messwertreihe mit einer zulässigen Transformation
die inhaltliche Aussage ändert, ist ein Analysemodell nicht angemessen. .
Wenn ein nicht angemessenes Analysemodell verwendet wird, besteht die Gefahr der
Produktion von Artefakten:
Analyseergebnisse werden als vermeintliche empirische Befunde interpretiert,
obwohl sie ungültig und Folge eines nicht angemessenen Analysemodells sind.
Beispiel: Vergleich von Mittelwerten bei ordinalen Messungen
Messwerte nach Transformation
Messwerte bei Ausgangsskala
Gruppe 1 Gruppe 2
Gruppe 1 Gruppe 2
zulässige Transformation
1
4
1
2
der Ordinalskala:
9
16
3
4
Ranginformationen
36
25
6
5
bleiben erhalten.
Mittelwert: 46/3
45/3
Mittelwert: 10/3
11/3
Gruppe 2 hat im Mittel höheres Ausmaß
Gruppe 2 hat im Mittel höheres Ausmaß
an der interessierenden Eigenschaft.
an der interessierenden Eigenschaft.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
51
Bestimmung des Messniveaus
Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeit
und Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden
müssen:
(1) Repräsentationstheoreme geben für jedes Skalenniveau Präzisierungen an, um Repräsentation nachzuweisen.
Beispiel bei einer Ordinalskala: Transitivitätsbedingung muss erfüllt sein.
Wenn bei drei Beobachtungen A, B und C gilt:
(a) bei Beobachtung B liegt eine höheres Ausmaß der zu messenden
Eigenschaft vor als bei Beobachtung A,
(b) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden
Eigenschaft vor als bei Beobachtung B,
dann muss auch gelten:
(c) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden
Eigenschaft vor als bei Beobachtung A.
Gilt die Transitivitätsbedingung nicht, kann nicht auf Ordinalskalenniveau gemessen
werden.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
52
Bestimmung des Messniveaus
(2) Eindeutigkeitstheoreme geben die Bedingungen an, unter denen zulässige Transformationen im numerischen Relativ möglich sind.
(3) Bedeutsamkeitstheoreme beziehen sich auf die statistischen Verfahren, die unter einem
Skalenniveau zulässig sind.
Repräsentation bezieht sich also auf den Informationsgehalt im empirischen Relativ,
Eindeutigkeit auf die zulässigen Transformationen innerhalb des numerischen Relativs
und Bedeutsamkeit auf die Gültigkeit statistischer Modelle innerhalb eines Messniveaus.
Nach der axiomatischen Messtheorie muss für jede empirische Messkala das Vorliegen der
drei Bedingungen nachgewiesen sein.
In der Praxis erfolgt oft eine Festlegung des Skalenniveaus nach Augenschein („measurement
per fiat“).
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
53
Bestimmung des Messniveaus
Bei der Unterstellung eines Messniveaus sind drei Aspekte zu beachten:
1. Beim Messniveau sind empirische wie theoretische Gegebenheiten relevant.
Daher kann auch das Messniveau einer Größe nicht ‚theorielos‘ (d.h. ohne theoretische
Annahmen) ermittelt werden.
Beispiel:
„Haarfarbe“ ist in der Soziologie der Mode eine nominalskalierte Größe.
In der Physik ist Farbe dagegen eine auf Rationskalenniveau gemessene Frequenz
von Lichtwellen.
2. Eine zu prüfende empirische Theorie kann ein bestimmtes Messniveau für die beteiligten
Konzepte voraussetzen.
Ist dieses nicht gegeben, ist die Theorie nicht oder nur eingeschränkt prüfbar.
Beispiel:
Die „Nutzentheorie“ behauptet, dass sich der Nettonutzen einer Alternative aus der
Produktsumme der Bewertungen der mit der Alternative verbundenen Konsequenzen
und den Auftretenswahrscheinlichkeiten dieser Konsequenzten ergibt.
Sind die Bewertungen und die Auftretenswahrscheinlichkeiten nicht auf metrischem
Messniveau erfassbar, kann diese Behauptung nicht geprüft werden.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
54
Bestimmung des Messniveaus
3. Das Messniveau der beobachteten Größen kann sich vom Messniveau der eigentlich
interessierenden theoretischen Eigenschaft unterscheiden und z..B. ein höheres Messniveau
haben.
Beispiel: Alter dürfte in der Regel auf Ratioskalenniveau messbar sein.
Wird „Alter“ aber in einer Studie im Sinne der theoretischen Konzeption des
„Lebenszyklus“ verwendet, handelt es sich möglicherweise nur um eine nominale
Messung.
Letztlich kommt es bei der Festlegung des Messniveaus und der Messkala (Kodierung) darauf
an, ob die verwendeteten Zahlen und die eingesetzten Analysemodelle inhaltlich interpretierbar
sind.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
55
Bestimmung des Messniveaus
Beispiel für die Festlegung einer Messkala.
Die Einstellung zu Schwangerschaftsabbrüchen wird durch die Frage operationalisiert:
„Welche Position haben Sie:
Sollen Ihrer Ansicht nach Abtreibungen grundsätzlich verboten werden,
sollen Abtreibungen grundsätzlich erlaubt sein
oder sollen Abtreibungen nur in bestimmten Situationen erlaubt sein?“
Es wird folgende Kodierung verwendet:
Antwort
Messwerte
grundsätzlich verboten
–1
in bestimmten Situationen erlaubt
0
grundsätzlich erlaubt
+1
Antwortverteilung
in einer Umfrage
100 20%
200 40%
200 40%
In einer Umfrage ergibt sich ein Mittelwert von 0.2 = 100×(−1) + 200×(0) + 200×(+1).
Dieser Wert ist inhaltlich interpretierbar:
Es gibt 0.2, d.h. 20% mehr Personen, die eine Abtreibung grundsätzlich erlauben lassen
wollen (nämlich 40%), als es Personen gibt, die eine Abbtreibung grundsätzlich
verbieten lassen wollen (nämlich 20%).
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
56
Variablen und deren Ausprägungen
Begriffe wie „Systemunterstützung“ sind sprachliche Konstruktionen, die im Kontext einer
Theorie gebildet werden.
In der Statistik sind nicht Begriffe, sondern Variablen die Ausgangsgrößen empirischer
Analysen.
Eine Variable bezeichnet eine mögliche Eigenschaft, d.h. ein Merkmal (Prädikat), die ein
Merkmalsträger (z.B. ein Mensch oder eine Organisation) aufweisen oder aber nicht aufweisen
kann.
Die Ausprägungen (Kategorien, Werte) einer Variablen geben an, wie und evtl. in welchem
Ausmaß die Eigenschaft bei den Merkmalsträgern vorliegen kannt.
Beispiele:
- Die Variable „Geschlecht“ hat i.a. zwei Ausprägungen,
„männlich“ und „weiblich“ ;
- Die Variable „Konfession“ kann in einer Umfrage z.B. 6 Ausprägungen haben:
„katholisch“, „protestantisch“, „muslimisch“, „jüdisch“, „andere“, „keine“;
- Die Variable „höchster allgemeinbildender Schulabschluss“ kann 3 Ausprägungen
haben: „kein Abschluss“ „Volksschule/mittlere Reife“ „(Fach-) Hochschulreife“.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
57
Variablen und Ausprägungen
Ausprägungen sollten nicht mit ihren Variablen verwechselt werden.
So ist „männlich“ keine Variable, sondern eine Ausprägung der Variablen Geschlecht.
Ausprägungen beziehen sich immer auf alle möglichen Formen/Ausgestaltungen einer
Eigenschaft, Variablen auf die Eigenschaft selbst!
Es ist allerdings möglich, aus Ausprägungen einer Variablen eine neue und andereVariable zu
konstruieren.
So kann aus der Ausprägung „mänlich“ des Geschlechts
eine neue Variable „Ist männlich“ mit den Ausprägungen „trifft zu“ und „trifft nicht zu“
generiert werden.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
58
Beobachtete und unbeobachtete Variablen
Nicht immer sind alle interessierenden Eigenschaften tatsächlich beobachtet oder auch nur
beobachtbar.
Beispiele:
(a) Bei der Frage nach dem „Einkommen“ wird nicht das tatsächliche Einkommen
erfasst, sondern die Antwort auf die Frage danach. Das tatsächliche Einkommen kann
höher oder geringer sein als das berichtete Einkommen.
Während das berichtete Einkommen eine beobachtete Variable ist, ist das tatsächliche
Einkommen eine unbeobachtete Variable.
(b) Einstellungen sind prinzipiell unbeobachtbare Vorstellungen in den Köpfen von
Personen. Beobachtbar sind oft Äußerungen, von denen auf Einstellungen
rückgeschlossen wird.
Unbeobachtbare oder in einer Untersuchung unbeobachtete Eigenschaften von Merkmalsträgern
werden in der Statistik als latente Variablen oder Faktoren bezeichnet;
die in einer Untersuchung beobachteten Variablen werden auch als Indikatoren bezeichnet,
insbesondere dann, wenn mit ihrer Hilfe auf latente Variablen rückgeschlossen wird.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
59
Variablen und Begriffe/Konstrukte
Zwischen Indikatoren und Faktoren besteht eine analoge Beziehungen wie zwischen Begriffen
und deren operationalisierten Messungen.
Theorie
Verbindung
Begriff
Faktor
Operationalisierung
Messmodell
Messung
Indikator
Empirie
latente Ebene
beobachtete Ebene
Aber, Analogie bedeutet keine Gleichheit:
Die Operationalisierung eines Begriffs kann zu verschiedenen Variablen führen,
die beobachtet wie latent sein können.
Begriffe können sich auch gleichzeitig auf mehrere und unterschiedliche Einheiten beziehen,
Variablen sind immer Ausprägungen eines Merkmalsträgers.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
60
Fälle und Realisationen
Fälle oder Untersuchungseinheiten sind die Merkmalsträger, auf die sich die in durch eine
Variable bezeichnete Eigenschaft in einer Untersuchung bezieht.
Die tatsächlich bei einem Merkmalsträger vorkommende Ausprägung einer Variable wird als
Realisierung oder Realisation bezeichnet.
Variable
(z.B. „Geschlecht“)
bezieht sich auf
Element aus der
Menge aller Fälle
hat
Menge möglicher Ausprägungen
(z.B.: {männlich, weiblich]
Fälle
(z.B. Personen)
Konkretisierung
Realisation bei einem Fall
(z.B. Herr X ist männlich)
Wenn alle Merkmalsträger bei einer Variable die gleiche Ausprägung haben, reduziert sich die
Variable zu einer Konstanten.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
61
Die Datenmatrix
FRAGE
1.
Sind Sie mit der Art und Weise,
wie die Demokratie in der
Bundesrepublik funktioniert, alles
in allem gesehen ...
ANTWORT
Code
... sehr zufrieden,.................................
... eher zufrieden,.................................
... eher unzufrieden,.............................
... oder völlig unzufrieden?.................
___________________
weiß nicht 1
keine Angabe
4
3
2
1
8
9
Neben den gemessenen Variablen
enthält eine Datenmatrix in der
Regel zusätzliche Variablen.
2.
Nun einige Aussagen, über
die man verschiedener
Ansicht sein kann. Sagen Sie
mir bitte jeweils, ob Sie der
Aussage eher zustimmen
oder eher nicht zustimmen.
a) Leute wie ich haben so
oder so keinen Einfluss
darauf, was die Regierung
tut
b) Die Parteien wollen nur die
Stimmen der Wähler, ihre
Ansichten interessieren sie
nicht
ohne Abfrage eintragen!
Das Interview wurde geführt mit...
stimme
eher
zu
stimme weiß
eher nicht nicht
zu
keine
Angabe
1
2
8
9
1
2
8
9
einem Mann..............................
einer Frau.................................
Die Ergebnisse der Beobachtungen
bei allen Fällen werden in einer
Tabelle, der Datenmatrix
zusammengefasst.
1
2
So werden den einzelnen Fällen
eindeutige Nummern zugewiesen,
die etwa nach der Reihenfolge der
Durchführung von Interviews oder
des Eingangs der Daten gebildet
werden. Diese Nummern heißen
Fallnummern (oder Identifikationsnummern).
4.
Zum Schluss noch eine Frage zur
Geburtsjahr vierstellig eintragen!
1943
Statistik. Sagen Sie mir bitte, in
___________________
welchem Jahr Sie geboren sind.
keine Angabe
9999
1
Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
62
Die Datenmatrix
Untersuchungseinheiten (Fälle)
Tabelle 2.4: Beispiel einer Datenmatrix
Merkmale der Untersuchungseinheiten (Variablen)
FallAntwort Antwort Antwort
GeGeburtsnummer
Frage 1
Frage 2a Frage 2b schlecht
jahr
ID
F1
F2A
F2B
F3
F4
1
3
2
2
1
1943
2
2
8
1
2
1960
3
4
1
2
2
1957
4
9
8
1
1
1939
5
2
2
1
2
9999
6
8
8
1
1
1956
7
8
9
10
4
1
3
4
2
1
2
2
2
2
1
2
2
1
2
2
1970
1920
1956
1966
In einer Datenmatrix sind die
Informationen i.a. so angeordnet,
dass jede Zeile die gesamten
verfügbaren Informationen
(Realisierungen aller Variablen) bei einem Fall enthält,
und dass jede Spalte alle
Realisierungen einer Variablen
über alle Fälle enthält.
(nach Kühnel/ Krebs,
2006: S. 37)
alle Realisierungen
der Variablen F1:
Univariate Verteilung von F1
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
Information über den ersten Fall
63
Datenmatrix: Kodierkonventionen für ungültige Fälle
Bei empirischen Datenanalysen muss für jeden Fall und jede Variable eine Realisierung
vorliegen.
Wenn z.B. aufgrund von Antwortverweigerungen keine Antworten in einer vorgegebenen
Antwortskala vorliegen, werden spezielle Ausprägungen, die sogenannten ungültigen oder
fehlende Werte (missing values) verwendet.
Dabei haben sich Konventionen eingespielt, die möglichst eingehalten werden sollten:
Endziffer
Verweigerung
7
weiß nicht
8
keine Angabe
9
trifft nicht zu
0
einstellige zweistellige
Variablen
Variablen
7
97
8
98
9
99
0
0
dreistellige
Variablen
997
998
999
0
Da die meisten Analysemodelle davon ausgehen, dass es bei den betrachteten Variablen keine
fehlenden Werte gibt, werden Fälle mit fehlenden Werten bei den betrachteten Variablen
oft aus der Analyse ausgeschlossen (engl: listwise deletion of missing values).
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
64
Häufigkeitstabellen
Die empirische Verteilung einer Variablen gibt an, wie oft welche Ausprägungen einer
Variable in der Datenmatrix (dem Datensatz), d.h. der Menge aller Untersuchungseinheiten,
vorkommen.
In der Regel handelt es sich bei einem Datensatz um eine Stichprobe,
d.h. eine Teilmenge aus einer umfassenderen Population.
Bei einer nicht zu hohen Anzahl von realiserten Ausprägungen lässt sich eine Häufigkeitsverteilung ohne Informationsverlust in einer Häufigkeitstabelle darstellen.
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
kumulierte
Anteile
0.125
0.375
0.625
1.000
65
Häufigkeitstabellen
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
kumulierte
Anteile
0.125
0.375
0.625
1.000
Die Tabelle enthält die absoluten Häufigkeiten mit der eine Ausprägung im Datensatz vorkommt.
Im Beispiel kommt die 1. Ausprägung (“völlig zufrieden“, Code „1“) mit der
absoluten Häufigkeit 1vor,
die 4. Ausprägung (“völlig zufrieden“, Code „4“) mit der absoluten Häufigkeit 3
und die ungültige Ausprägung (“weiß nicht“, Code „8“) mit der absoluten
Häufigkeit 1.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
66
Häufigkeitstabellen
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
kumulierte
Anteile
0.125
0.375
0.625
1.000
Aus der Tabelle ist weiter ersichtlich, dass es neben den vier gültigen Ausprägungen zwei Ausprägungen gibt, die als ungültig deklariert sind.
Ob eine Ausprägung als „ungültig“ bewertet wird, hängt von der jeweiligen Fragestellung ab.
Dies Festlegun ungültiger Werte hat Auswirkungen auf die Berechnung der Anteile (relativen
Häufigkeiten), die sich aus der Divison der absoluten Häufigkeiten durch die Gesamtzahl
berechnen.
Anteile können sich auf die gesamte Fallzahl (4. Spalte) oder nur auf
die Zahl der Fälle mit gültigen Antworten (5. Spalte) beziehen
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
67
Häufigkeitstabellen
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
kumulierte
Anteile
0.125
0.375
0.625
1.000
In der letzten Spalte werden die relativen Häufigkeiten der gültigen Fälle aufsummiert.
Die Zahl 0.375 in der Zeile mit dem Code 2 „eher unzufrieden“ ist also die Summe der
Anteile, die diesen oder einen kleineren Wert (Code) aufweisen, hier also die Summe
der völlig unzufriedenen (Anteil = 0.125) und der eher unzufriedenen (Anteil = 0.250)
Personen: 0.375 = 0.125 + 0.250.
Kumulierte Anteile machen nur bei ordinalem oder höherem Messniveau Sinn.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
68
Konventionen
Zur Darstellung in Formeln gibt es eine Reihe von Konventionen, mit denen Variablen,
Ausprägungen und Realisierungen, gemessene Werte und Transformationen gekennzeichnet
werden.
Tabelle 3.1:
Konventionen zur Bezeichnung von Variablen, Ausprägungen und
Häufigkeiten
Variable
X, Y, Z, V2
Ausprägung
x, y, z, v2
Anzahl der Fälle
n
Realisation des i-ten Falles (i=1,2,...,n) der Variablen X
xi
Realisation des i-ten sortierten Falles (Rangplatz)
x(i)
Ausprägung k (k=1,2,...,K) der Variablen X
xk
Anzahl der Fälle mit der Ausprägung xk
nk
Anteil der Fälle mit der Ausprägung xk
pk
Prozent der Fälle mit der Ausprägung xk
pk% = pk ⋅ 100
(nach Kühnel/ Krebs, 2006: S. 42)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
69
Häufigkeitstabellen: Berechnung von Anteilen
nk
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
pk
pk
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
n
pk = k
n
Bei der Indizierung wird manchmal
auch die zugeordnete Ausprägung
als Indexwert verwendet.
cpk = ∑pk
kumulierte
Anteile
0.125
0.375
0.625
1.000
p1 = n1 / n = 1/10 = 0.1
p 2 = n 2 / n = 2 /10 = 0.2
p3 = n 3 / n = 2 /10 = 0.2
p 4 = n 4 / n = 3/10 = 0.3
p8 = n 8 / n = 1/10 = 0.1
p9 = n 9 / n = 1/10 = 0.1
Bei geordneten (sortierten) Werten
wird immer die Rangnummer verwendet, d.h. im Beispiel p(5) an Stelle von p8.
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
70
Häufigkeitstabellen: Berechnung von Anteilen
nk
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
pk
pk
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
cpk = ∑pk
kumulierte
Anteile
0.125
0.375
0.625
1.000
p1 = n1 / n = 1/ 8 = 0.125
Prozentuierung auf der Basis
der gültigen Fälle:
p 2 = n 2 / n = 2 / 8 = 0.250
p3 = n 3 / n = 2 / 8 = 0.250
p 4 = n 4 / n = 3/ 8 = 0.375
pk =
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
nk
n
71
Häufigkeitstabellen: Berechnung der kumulierten Anteile
nk
Ausprägung
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
pk
pk
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
Summe
(gültige Fälle: 8; fehlende Fälle 2)
cpk = ∑pk
kumulierte
Anteile
0.125
0.375
0.625
1.000
k
k
cp k = p ( X ≤ x k ) = ∑ p k =
i =1
∑n
i =1
k
n
cp1 = p1 = 0.125 = 1/ 8
cp 2 = p1 + p 2 = 0.125 + 0.250 = 0.375 = (1 + 2 ) / 8
cp3 = p1 + p 2 + p3 = 0.125 + .250 + 0.250 = 0.625 = (1 + 2 + 2 ) / 8
cp 4 = p1 + p 2 + p3 + p 4 = 0.125 + 0.250 + 0.250 + 0.375 = 1 = (1 + 2 + 2 + 3) / 8
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
72
Häufigkeitstabellen: Berechnung von Prozenten
nk
Ausprägung
pk
pk
Anteile
insgesamt nur gültige
Code
Häufigkeit
1
2
3
4
8
9
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
---
10
1.000
1.000
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
Summe
(gültige Fälle: 8; fehlende Fälle 2)
p k % = p k ⋅100 ⇔ p k =
pk %
100
pk %
Anteile
in Prozemt
12.5 %
25.0 %
25.0 %
37.5 %
p1 % = 0.125 ⋅100 = 12.5
p 2 % = 0.250 ⋅100 = 25.0
p3 % = p3 ⋅100 = 0.250 ⋅100 = 25.0
p 4 % = p 4 ⋅100 = 0.375 ⋅100 = 37.5
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
73
Häufigkeitstabellen bei gruppierten Daten
Wenn eine Variable sehr viele Ausprägungen hat, werden aus Gründen der Übersichtlichkeit
Ausprägungen zu Klassen (oder Gruppen) zusammengefasst.
Messtheoretisch gesehen ist jede Klassenbildung eine unzulässige Trandformation.
Die Zusammenfassung von Ausprägungen einer Variablen zu Klassen bedeutet grundsätzlich
einen Informationsverlust.
Regeln für die Definitiong der Klassen:
1. Die Klassengrenzen dürfen sich nicht überschneiden, d.h. jede Ausprägung darf nur einer
einzigen Klasse zugeordnet werden.
2. Die Klassen sollen lückenlos aufeinander folgen, d.h. jede Ausprägung muss einer Klasse
zugeordnet werden können,
3. Die Klassenbreiten sollen möglichst jeweils gleich sein.
(Ausnahmen: ungleiche Klassenbreite bei erster oder letzer Klasse, wenn diese sonst sehr
gering besetzt wären; Klassen sollen aus anderen Gründen gleich stark besetzt sein.)
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
74
Häufigkeitstabellen bei gruppierten Daten
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
uk
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
(nach Kühnel/Krebs 2006: 49)
Als Wert (Code) der Ausprägungen gruppierter
Variablen wird oft die Klassenmitte berechnet,
das ist der Durchschnittswert aus Ober- und
Untergrenze einer Klasse
Statistik 1 (Vorlesung SoSe 06, 25.4.06)
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
cpk
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
mk =
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
u k + ok
2
m1 = (17.5 + 29.5 ) / 2 = 23.5
m5 = ( 74.5 + 93.5 ) / 2 = 84.5
75
Statistik I im Sommersemester 2006
Themen am 2.5.2006:
Verteilungen I: Graphische Darstellung und Lagemaße
• Verteilungsfunktion und Quantile
• Graphische Darstellung univariater Verteilungen
• Modus, Median und arithmetisches Mittel
Lernziele:
1. Die empirische Verteilungsfunktion
2. Bedeutung und Berechnung von Quantilen empirischer Verteilungen
3. Stabdiagramme, Histogramme, Dichteschätzer, Box-Plots,
Balkendiagramme, Säulendiagramme, Tortendiagramme
4. Berechnung der Lagemaße Modus, Median und Mittelwerten
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
76
Wiederholung der wichtigsten Inhalte der letzten Sitzung
Operationalisierung
Benennung von Korrespondenzregeln,
mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten
Sachverhalts festgestellt wird
Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch
beobachtbaren Sachverhalten.
Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten
↓
Explikation der Begriffe
↓
Formulierung einer Messtheorie mit Korrepondenzhypothesen
↓
Formulierung von Korrespondenzregeln
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
77
Beobachten und Messen
(1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung.
In der Sozialforschung spricht man auch von Beobachtung.
(2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereits
beobachteten empirischen Eigenschaften eines Objekts
Messen im engeren Sinne wird technisch auch als Kodierung bezeichnet.
Messen in der axiomatischen Messtheorie:
Messen ist eine homomorphe Abbildung eines empirischen Relativs in ein numerisches
Relativ
Interpretierbare Relationen
Identität Ränge
Abstände Quotienten
Nominalskala
ja
nein
nein
nein
Ordinalskala
ja
ja
nein
nein
Intervallskala
ja
ja
ja
nein
Ratioskala
ja
ja
ja
ja
Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
78
Messniveau: Zulässige Transformationen
Tabelle 2.3: Zulässige Transformationen
Skalenniveau
Zulässige Transformationen
Beispiele für erlaubte mathematische
Operationen
Nominal
Alle ein-eindeutigen Transformationen
Logarithmieren, Multiplikation,
Addition (Subtraktion) einer Konstanten
Ordninal
Alle positiv-monotonen, die
Rangordnung wahrenden Transformationen
Wenn Ausgangswerte > 0:
Quadrieren, Logarithmieren, Wurzelziehen
Intervall
Alle positiven linearen Transformationen
Y = a + b ⋅ X mit b> 0
Ratio
Streckungen und Stauchungen
Y = b ⋅ X mit b> 0
Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeit
und Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden
müssen.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
79
Variablen und Begriffe/Konstrukte
bezieht sich auf
Variable
(z.B. „Geschlecht“)
Fälle
(z.B. Personen)
Element aus der
Menge aller Fälle
hat
Menge möglicher Ausprägungen
(z.B.: {männlich, weiblich]
Theorie
Verbindung
Konkretisierung
Begriff
Realisation bei einem Fall
(z.B. Herr X ist männlich)
Faktor
Operationalisierung
Messmodell
Messung
Indikator
Empirie
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
latente Ebene
beobachtete Ebene
80
Untersuchungseinheiten (Fälle)
Die Datenmatrix
Merkmale der Untersuchungseinheiten (Variablen)
Antwort Antwort Antwort
GeGeburtsFall Frage 2a Frage 2b schlecht
jahr
nummer Frage 1
F1
F2A
F2B
F3
F4
ID
3
2
2
1
1943
1
2
8
1
2
1960
2
4
1
2
2
1957
3
9
8
1
1
1939
4
2
2
1
2
9999
5
8
8
1
1
1956
6
4
2
2
2
1970
7
1
1
2
1
1920
8
3
2
1
2
1956
9
4
2
2
2
1966
10
Endziffer
Verweigerung
7
weiß nicht
8
keine Angabe
9
trifft nicht zu
0
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
einstellige zweistellige
Variablen
Variablen
7
97
8
98
9
99
0
0
In einer Datenmatrix sind die
Informationen i.a. so angeordnet,
dass jede Zeile die gesamten
verfügbaren Informationen
(Realisierungen aller Variablen) bei einem Fall enthält,
und dass jede Spalte alle
Realisierungen einer Variablen
über alle Fälle enthält.
dreistellige
Variablen
997
998
999
0
81
Häufigkeitstabellen: Konventionen
xk
k=1
k=2
k=3
k=4
k=5
k=6
nk
Zufrieden mit Demokratie
Ausprägung
Code
Häufigkeit
völlig unzufrieden
1
1
eher unzufrieden
2
2
eher zufrieden
3
2
sehr zufrieden
4
3
weiß nicht
8
1
keine Angabe
9
1
Summe
10
(gültige Fälle: 8; fehlende Fälle 2)
pk
Anteile
insgesamt nur gültige
0.100
0.125
0.200
0.250
0.200
0.250
0.300
0.375
0.100
0.100
1.000
1.000
Variable
Ausprägung
Anzahl der Fälle
Realisation des i-ten Falles (i=1,2,...,n) der Variablen X
Realisation des i-ten sortierten Falles (Rangplatz)
Ausprägung k (k=1,2,...,K) der Variablen X
Anzahl der Fälle mit der Ausprägung xk
Anteil der Fälle mit der Ausprägung xk
Prozent der Fälle mit der Ausprägung xk
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
pk
cpk = ∑pk
kumulierte
Anteile
0.125
0.375
0.625
1.000
X, Y, Z, V2
x, y, z, v2
n
xi
x(i)
xk
nk
pk
pk% = pk ⋅ 100
82
Häufigkeitstabellen: Berechnung von (kumulierten) Anteilen
xk
Zufrieden mit Demokratie
Ausprägung
Code
k=1
k=2
k=3
k=4
k=5
k=6
völlig unzufrieden
eher unzufrieden
eher zufrieden
sehr zufrieden
weiß nicht
keine Angabe
1
2
3
4
8
9
Summe
(gültige Fälle: 8; fehlende Fälle 2)
nk
pk
Häufigkeit
cpk = ∑pk
pk
Anteile
insgesamt nur gültige
1
2
2
3
1
1
0.100
0.200
0.200
0.300
0.100
0.100
0.125
0.250
0.250
0.375
10
1.000
1.000
kumulierte
Anteile
0.125
0.375
0.625
1.000
p1 = n1 / n = 1/ 8 = 0.125
cp1 = p1 = 0.125
p 2 = n 2 / n = 2 / 8 = 0.250
cp 2 = p1 + p 2 = 0.125 + 0.250 = 0.375
p3 = n 3 / n = 2 / 8 = 0.250
cp3 = p1 + p 2 + p3 = 0.125 + .250 + 0.250 = 0.625
p 4 = n 4 / n = 3/ 8 = 0.375
cp 4 = p1 + p 2 + p3 + p 4 = 0.125 + 0.250 + 0.250 + 0.375 = 1
k
n
pk = k
n
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
k
cp k = p ( X ≤ x k ) = ∑ p k =
i =1
∑n
i =1
k
n
83
Häufigkeitstabellen bei gruppierten Daten
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
uk
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
(nach Kühnel/Krebs 2006: 49)
Regeln für die Definition der Klassen bei gruppierten Daten:
1. Die Klassengrenzen dürfen sich nicht überschneiden, d.h. jede Ausprägung darf nur einer
einzigen Klasse zugeordnet werden.
2. Die Klassen sollen lückenlos aufeinander folgen, d.h. jede Ausprägung muss einer Klasse
zugeordnet werden können,
3. Die Klassenbreiten sollen möglichst jeweils gleich sein.
(Ausnahmen: ungleiche Klassenbreite bei erster oder letzer Klasse, wenn diese sonst sehr
gering besetzt wären; Klassen sollen aus anderen Gründen gleich stark besetzt sein.)
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
84
Verteilungsfunktion und Quantile
Häufigkeitstabelle für die Bewertung der allgemeinen Wirtschaftslage
Ausprägung
Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
12.4
teils/teils
3
1710
48.6
schlecht
4
1087
30.9
sehr schlecht
5
232
6.6
weiß nicht
8
24
.7
Total
3518
100.0
Gültige Fälle: 3494
Fehlende Fälle: 24
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Missing
100.0
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
(Daten: ALLBUS 1996)
xk
nk
pk
pk
cpk
Quelle: Kühnel/Krebs, 2006: 44
Die empirische Verteilungsfunktion F̂(X) gibt an,
welcher Anteil der Realisationen kleiner oder gleich diesem Wert sind:
(
)
n
i
i =1 n
k
k
nk
F̂ ( X ≤ x k ) = ∑ = ∑ p k
j=1 n
j=1
In der Häufigkeitstabelle ist diese Information in der letzten Spalte mit den kumulierten
Anteilen (cpk) aufgelistet.
F̂ X ≤ x ( i ) = ∑
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
85
Grafische Darstellung der Verteilungsfunktion
Anstieg um p5=0.066
Anstieg um p4=0.311
1.0
Kumulierte Häufigkeiten
0.9
0.8
Anstieg um
p3=0.489
0.7
0.6
0.5
0.4
Anstieg um
p2=0.124
0.3
0.2
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
Anstieg um
p1=0.009
0.1
0.0
0
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
6
In der grafischen Darstellung ist die empirische Verteilungsfunktion eine Treppenfunktion, die
bei jeder Ausprägung der Variablen um die relative Häufigkeit dieser Ausprägung ansteigt.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
86
Quantile
Quantile teilen eine Verteilung in zwei
Teilmengen auf:
13.3% ≤ 2
100% – 13.3% = 86.7 % > 2
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
0.5
0.4
100% – 13.3% = 86.7 % > 2
0.3
0.2
0.1
13.3% ≤ 2
0.0
0
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
6
87
Quantile: Quantilwert und Quantilanteil
Der Quantilwert Q gibt die Trennstelle
an, an der die Teilung erfolgt.
α = 13.3%
Q =2
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
0.5
0.4
Q =2
0.3
13.3%-Quantil:
Q13.3% = Q0.133 = 2
0.2
0.1
α = 13.3%
0.0
0
Der Quantilanteil α gibt den Anteil an,
der im unteren Teilbereich liegt.
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
6
88
Quantile
Der Quantilwert Qα ist der kleinste Wert für den gilt, dass
mindestens ein Anteil α von allen Realisierungen kleiner
oder gleich diesem Wert ist.
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
1.0
Kumulierte Häufigkeiten
0.9
Q0.90 = 4?
0.8
0.7
0.6
0.5
Q0.50 = 3?
0.4
0.3
Q0.25 = 3?
0.2
0.1
Q0.10 = 2?
0.0
0
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
6
89
Quantile: Berechnung aus Häufigkeitstabellen ungruppierter Daten
Wenn eine Häufigkeitstabelle ungruppierter Daten vorliegt, können die Quantilwerte direkt aus
der Häufigkeitstabelle abgelesen werden:
Der Quantilwert ist die Ausprägung, bei der in der Spalte mit den kumulierten Anteilen bzw.
kumulierten Prozentwerten erstmals der Quantilanteil erreicht oder überschritten wird:
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
Q0.10 = Q 10% = ?
0.9% < 10 % ⇒ Q10% > 1
13.3% > 10 % ⇒ Q10% ≤ 2
„2“ ist die kleinste Ausprägung, für die gilt,
mindestens 10% aller Fälle sind ≤ 2 ⇒ Q0.1 = 2.
Qα=0.0% bis Qα=0.9%
Qα>0.9% bis Qα=13.3%
Qα>13.3% bis Qα=62.2%
Qα>62.2% bis Qα=93.4%
Qα>93.4% bis Qα=100%
=1
=2
=3
=4
=5
90
Quantile: Berechnung aus geordneten Messwerten
Untersuchungseinheiten (Fälle)
Quantilwerte können auch direkt aus den Messwerten berechnet werden, wenn die
Messwertreihe vorher der Größe nach sortiert wurde.
Merkmale der Untersuchungseinheiten (Variablen)
Antwort Antwort Antwort
GeGeburtsFall Frage 2a Frage 2b schlecht
jahr
nummer Frage 1
F1
F2A
F2B
F3
F4
ID
3
2
2
1
1943
1
2
8
1
2
1960
2
4
1
2
2
1957
3
9
8
1
1
1939
4
2
2
1
2
9999
5
8
8
1
1
1956
6
4
2
2
2
1970
7
1
1
2
1
1920
8
3
2
1
2
1956
9
4
2
2
2
1966
10
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
Nach Größe sortiertes Geburtsjahr (ohne missing values)
F4(i)
1920
1939
1943
1956
1956
1957
1960
1966
1970
9999
Fall Rang
8
4
1
6
9
3
2
10
7
5
1
2
3
4
5
6
7
8
9
--
91
Quantile: Berechnung aus geordneten Messwerten
Die Berechnung erfolgt in drei Schritten:
Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α
Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat,
Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i.
Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j).
Beispiel: Q50% = ? bei ungerader Fallzahl
Schritt 1: i = n · α = 9 ·0.5 = 4.5
X
1920
1939
1943
1956
1956
1957
1960
1966
1970
Fall Rang
8
4
1
6
9
3
2
10
7
Schritt 2: Aufrunden zur nächsten ganzen Zahl: j = 5
1
Schritt 3: Q50% = x(5) = 1956
2
3
4
5 Wert auf Rangplatz 5: x(5) = 1956
6
7
8
9 Fallzahl n = 9.
der Datensatz enthält n=9 Fälle mit gültigen Altersangaben
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
92
Quantile: Berechnung aus geordneten Messwerten
Die Berechnung erfolgt in drei Schritten:
Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α
Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat,
Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i.
Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j).
Beispiel: Q50% = ? bei geraden Zahlen
Schritt 1: i = n · α = 8 ·0.5 = 4
X
Rang
1
2
2
3
5
6
6
7
1
2
3
4
5
6
7
8
Schritt 2: keine Aufrunden notwendig: j = i = 4
Schritt 3: Q50% = x(4) = 3
Wert auf Rangplatz 4: x(4) = 3
Fallzahl n = 8.
Der Datensatz enthält n=8 Fälle
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
93
Bedeutung von Quantilen
Wozu werden Quantile benötigt?
Quantile geben Informationen über eine Verteilung:
• So besagt das 50%-Quantil, bei welchem Wert die „Mitte“ einer Verteilung in etwa liegt,
• Die Differenzen des 5%- und des 95%-Quantils geben an, in welchen Grenzen die mittleren
90% aller Fälle liegen.
• Die Gesamtheit aller Quantile enthält alle Informationen über eine Verteilung.
Besondere Namen:
• Das 25%-, das 50-% und das 75%-Quantil werden auch als Quartile bezeichnet, weil sie die
Verteilung in vier gleich stark besetzte Klassen aufteilen;
• entsprechend werden das 10%-, 20%-, 30%-, ..., 90%-Quantil als Zentile bezeichnet, weil sie
die Verteilung in 10 gleich stark besetzte Klassen aufteilen;
• das 1%-, 2%-, ...., 98%-, 99%-Quantil werden analog als Perzentile bezeichnet.
Messniveau:
Voraussetzung für die Berechnung von Quantilen ist mindestens ordinales, besser metrisches
Skalenniveau. Bei ordinalen Skalenniveau können Quantilwerte nur als Ausprägungen von
Rangplätzen (Kategorien) interpretiert werden und nicht als exakte Zahlen.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
94
Hinweise zu Quantilen
2
3
3
4
4
5
5
6
3
4
5
6
7
8
9
10
Kumulierte Häufigkeiten
Die vorgestellte Berechnungsweise ergibt die sogenannten „empirischen Quantile“ der
empirischen Verteilungsfunktion.
Darüber hinaus gibt es weitere Berechnungsformeln, die zu leicht unterschiedlichen Ergebnissen
führen. Ursache ist die Unstetigkeit der empirischen Verteilungsfunktion bei ungruppierten
So ist bei den links wiedergegebenen n=10 Fällen
Daten.
das 50%-Quantil Q0.50 = 3.
1.0
In zwei Hälften mit jeweils 50% (=5) Fällen
X Rang
0.9
kann die Verteilung aber durch jede beliebige
1
1
Zahl zwischen 3 und 4 eingeteilt werden.
2
2
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
6
95
Quantilberechnung bei gruppierten Daten
Wenn wie bei metrischen Variablen mit sehr vielen Ausprägungen Klassen gebildet worden
sind, werden die Quantilwerte über lineare Interpolation innerhalb der Klasse ermittelt, die das
Quantil enthält.
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
uk
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
(nach Kühnel/Krebs 2006: 49)
So ist das 25%-Quantil der Altersverteilung der Befragten aus dem Allbus 1996 in der Klasse
von 29.5 bis unter 44.5 Jahren, da die kumulierten Prozentwerte in dieser Klasse das erste Mal
größer oder gleich 25% sind.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
96
Verteilungsfunktion bei gruppierten Daten: Die Summenkurve
Ausgangspunkt ist die Summenkurve, bei der in jeder
Klasse eine Gerade zwischen Unter -und Obergrenze
der Klasse gezogen wird.
k
1
2
3
4
5
uk
17.5
29.5
44.5
59.5
74.5
ok
<29.5
<44.5
<59.5
<74.5
<93.5
mk
23.5
37.0
52.0
67.0
84.5
1.0
5.2 %
0.9
Kumulierte Häufigkeiten
pk
cpk
19.2 19.2
30.5 49.7
26.9 76.6
18.2 94.8
5.2 100.0
19 Jahre
18.2 %
0.8
15 Jahre
0.7
0.6
26.9 %
0.5
15 Jahre
0.4
30.5 %
0.3
0.2
15 Jahre
0.1
19.2 %
0.0
Bei exakten Klassengrenzen berühren
sich die Geraden und bilden zusammenhängend die Summenkurve, die
eine Annäherung an die empirische
Verteilungsfunktion der ungruppierten
Daten ist.
12 Jahre
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
97
Quantilberechnung bei gruppierten Daten über die Summenkurve
k
1
Der Quantilwert Qα bei gruppierten Daten ist dann der
Wert von X, an der eine horizontale Gerade auf der Höhe 2
3
α die Summenkurve schneidet.
4
5
uk
17.5
29.5
44.5
59.5
74.5
ok
<29.5
<44.5
<59.5
<74.5
<93.5
mk
23.5
37.0
52.0
67.0
84.5
pk
cpk
19.2 19.2
30.5 49.7
26.9 76.6
18.2 94.8
5.2 100.0
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
48.7% = cp2
o2 = 44.5 (Obergrenze der zweiten Klasse)
0.5
0.4
0.3
α = 25 %
Q25% = 32.35
0.2
0.1
0.0
19.2% = cp1
u2 = 29.5 (Untergrenze der zweiten Klasse)
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
98
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
0.5
Klassenbreite:
o2 – o1 = 44.5 = 15
o1 = 29.5
o2 = 44.5
0.4
α = 25 %
0.3
p2 = 30.5 %
25.0% – 19.5%
0.2
0.1
cp1 = 19.2 %
k
1
2
3
4
5
uk
17.5
29.5
44.5
59.5
74.5
ok
<29.5
<44.5
<59.5
<74.5
<93.5
mk
23.5
37.0
52.0
67.0
84.5
pk
cpk
19.2 19.2
30.5 49.7
26.9 76.6
18.2 94.8
5.2 100.0
0.0
15 20 25 30 35 40 45 50 55
Q25% = 32.35
Q0.25 = o1 +
25% − 19.2%
x
=
30.5%
44.5 − 29.5
Q 25% = 29.5 +
0.25 − 0.192
⋅ ( 44.5 − 29.5 ) = 32.35
30.5
2.85
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
0.25 − cp1
⋅ ( o 2 − o1 )
p2
α − cp k −1
⋅ ( o k − o k −1 )
pk
wobei k die Klasse ist,
in der das gesuchte Quantil liegt.
Qα = o k −1 +
99
Anwendung von Quantilen bei gruppierten Daten
Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle?
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
Häufigkeit
673
1072
944
639
184
6
3518
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
(nach Kühnel/Krebs 2006: 49)
Das 50%-Quantil teilt die Verteilung in eine obere und eine untere Hälfte.
Wenn 90% um das 50%-Quantil verteilt sind, liegen jeweils 45% unterhalb und oberhalb dieses
Werts.
Der gesuchte Bereich wird daher durch das 5%-Quantil (5% = 50% – 45%) und durch das 95%Quantil (95% = 50% + 45%) begrenzt.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
100
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
Qα = o k −1 +
α − cp k −1
⋅ ( o k − o k −1 )
pk
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
(nach Kühnel/Krebs 2006: 49)
Da cp1 = 19.2% > 5% liegt das 5%-Quantil in der ersten Klasse.
Q0.05 = o1−1 +
0.05 − cp1−1
0.05 − 0
⋅ ( o1 − o1−1 ) = 17.5 +
⋅ ( 29.5 − 17.5 ) = 20.625
p1
.192
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
101
Quantilberechnung bei gruppierten Daten: Interpolation innerhalb der Quantilklasse
Qα = o k −1 +
α − cp k −1
⋅ ( o k − o k −1 )
pk
Tabelle 3.5: Häufigkeitstabelle für gruppierte Altersangaben
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
(nach Kühnel/Krebs 2006: 49)
Da cp4 = 94.8% < 95% liegt das 95%-Quantil in der fünften Klasse.
Q0.95 = o5−1 +
0.95 − cp5−1
0.95 − 0.948
⋅ ( o5 − o5−1 ) = 74.5 +
⋅ ( 93.5 − 74.5 ) = 75.231
p5
.052
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
102
Anwendung von Quantilen bei gruppierten Daten
Fragestellung: In welchen Bereich um das 50%-Quantil liegen 90% aller Fälle?
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
90%
0.5
0.4
90% aller Befragten
sind zwischen 20.6 und
75.2 Jahre alt.
0.3
0.2
0.1
0.0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Q5% = 20.625
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
Q95% = 75.231
103
Grafische Darstellung univariater Verteilungen
Häufigkeiten
Stabdiagramm
6
5
4
3
2
1
0
Empirische Dichte
Grafische Darstellungen vermitteln einen Eindruck von der Form einer Verteilung.
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Histogramm
0.03
0.02
0.01
0.00
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Alter in Jahren
Alter in Jahren
Box-Plot
Empirische Dichte
Kern-Dichte-Schätzer
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90
Alter in Jahren
Daten: 150 zufällig ausgewählte Fälle der Altersverteilung im Allbus 1996
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
104
Grafische Darstellung univariater Verteilungen: metrische Variablen
Stabdiagramm
6
Häufigkeiten
5
4
3
2
1
0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Alter in Jahren
In Stabdiagrammen werden die absoluten oder relativen Häufigkeiten der Ausprägungen als
senkrechte Linien symbolisiert. Dies ergibt einen schnellen Überblick über die Form einer
Verteilung.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
105
Grafische Darstellung univariater Verteilungen: metrische Variablen
Empirische Dichte
Histogramm
empirische Dichte: fˆk =
pk
( ok − u k )
0.03
0.02
0.01
0.00
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Die Balkenhöhe ist gleich der
empirischen Dichte im Intervall.
Diese ist der Quotient aus der relativen
Häufigkeit pk in einem Intervall geteilt
durch die Intervallbreite (ok – uk)
Alter in Jahren
In Histogrammen wird die Häufigkeitsverteilung durch einander berührende Balken dargestellt.
Histogramme sind besonders für die Darstellung der Verteilung bei gruppierten Daten sinvoll,
da sie das Prinzip der Flächentreue berücksichtigen:
Die Fläche eines Balkens entspricht der relativen Häufigkeit in dem durch die Balkenbreite
definierten Intervall.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
106
Grafische Darstellung univariater Verteilungen: metrische Variablen
Empirische Dichte
Kern-Dichte-Schätzer
In Abhängigkeit von der verwendeten
Formel und der Länge des berücksichigten Abstands um den jeweiligen
Wert, für den die emprische Dichte
geschätzt wird, sind die resultierenden Kurvenverläufe glätter oder zerklüfteter.
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Die Form eines Histogramms hängt allerdings nicht nur von der Verteilung, sondern auch von
den Intervallbreiten und der gewählten Untergrenze für das erste (ganz links angeordnete)
Intervall ab.
Um dieses Problem zu umgehen, sind Kern-Dichte-Schätzer entwickelt worden.
Diese berechnen die empirische Dichte einer Verteilung an jedem beliebigen Punkt, wobei
jeweils alle Realisierungen in einem vorgegebenen Abstand berücksichtigt werden und der
Einfluss eines Wertes auf die berechnete Dichte mit steigendem Abstand sinkt.
Werden die Dichten der Punkte verbunden, ergibt sich eine Kurve, die die Form einer
Verteilung besser wiedergibt, als die Balken eines Histogramms.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
107
Grafische Darstellung univariater Verteilungen: metrische Variablen
unimodal,
linksschief bzw. rechtssteil
unimodal, steil ansteigend,
symmetrisch
unimodal,
symmetrisch
uförmig bimodal,
symmetrisch
unimodal,
rechtsschief bzw. linkssteil
unimodal, flach ansteigend
symmetrisch
Mit Hilfe von Kern-Dichte-Schätzern bzw. Histogrammen lassen sich Verteilungen nach
kennzeichnenden Charakteristika, wie Schiefe, U-Förmigkeit etc. beschreiben.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
108
Grafische Darstellung univariater Verteilungen: metrische Variablen
Box-Plot
1. Quartil
kleinster Wert
(ohne Extremwerte
max. 1.5 Boxlänge)
2. Quartil (Median)
größter Wert
(ohne Extremwerte
max. 1.5 Boxlänge)
15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90
Alter in Jahren
3. Quartil
Box-Plots konzentrieren sich auf wenige Merkmale einer Verteilung:
• die „Box“ gibt die Lage der mittleren 50% aller Realisierungen einer Verteilung an;
• ein Strich in der Box kennzeichnet den Median, der die Verteilung in zwei gleich strak
besetzte Hälften teilt;
• Linien links und rechts von der Box zeigen - mit Ausnahme möglicher extremer Ausreißerwerte - den Wertebereich an;
• gibt es Extremwerte, die mehr als 1.5 mal weiter vom oberen oder unteren Ende der Box
entfernt sind, als die Box selbst lang ist, werden diese durch zusätzliche Punkte oder
Sternchen außerhalb der Linien gekennzeichnet.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
109
Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen
35
30
25
20
15
10
5
0
CD
U
CS
/
U
Balkendiagramm
Kreisdiagramm
Andere
Nichtwähler
PDS
Republikaner
CDU/CSU
Grüne
D
SP
P
FD
ne
il ka
b
pu
e
R
r
e
S
er
PD n d
A
SPD
FDP
Säulendiagramm
Nichtwähler 11.5%
Grüne 14.0%
FDP 8.0%
Tortendiagramm
Andere 1.1%
PDS 4.9%
Republikaner 1.9%
Grüne
PDS
Republikaner
Andere
FDP
Nichtwähler
SPD 28.2%
CDU/CSU
CDU/CSU 30.5%
SPD
Daten: Tabelle 3.4 (Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
110
Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen
35
Balkendiagramm
30
25
20
15
10
5
0
U
CS
/
U
CD
D
SP
P
er
ne
FD Grü ikan
l
ub
p
Re
S
PD
re
de
n
A
c
Ni
r
hle
ä
h tw
Balkendiagramme entsprechen Stabdiagrammen.
Für jede Ausprägung wird ein Balken gezeichnet, dessen Länge der Besetzungshäufigkeit
entspricht.
Die Balken dürfen sich nicht be rühren.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
111
Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen
Säulendiagramm
Nichtwähler 11.5%
Andere 1.1%
PDS 4.9%
Republikaner 1.9%
Grüne 14.0%
FDP 8.0%
SPD 28.2%
CDU/CSU 30.5%
In Säulendiagrammen wird ein Balken in Teilabschnitte eingeteilt, wobei jeder Abschnitt für
eine Ausprägung steht.
Die Abschnittsbreite entspricht der relativen Häufigkeit dieser Ausprägung.
Säulendiagramme eignen sich gut beim Vergleich von Verteilungen in Subgruppen.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
112
Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen
Kreisdiagram
Tortendiagram
CDU/CSU
SPD
FDP
Grüne
Republikaner
PDS
Andere
Nichtwähler
In Kreisdiagrammen und Tortendiagrammen wird ein Kreis bzw. ein Zylinder in Segmente
zerteilt, die für die Ausprägungen stehen.
Die relative Häufigkeit einer Ausprägung wird durch den Umfang des zugehörigen Segments,
d.h. seinem Winkelanteil an den insgesamt 360° des Kreisumfangs bestimmt.
Es ist allerdings nicht einfach, die relativen Größenverhältnisse der Ausprägungen über die
Segmentumfänge abzuschätzen.
Statistik 1 (Vorlesung SoSe 06, 2.5.06)
113
Statistik I im Sommersemester 2006
Themen am 9.5.2006:
Verteilungsparameter: Lage- und Streuungsmaße
• Modus, Median und arithmetisches Mittel
• Getrimmtes Mittel u. geometrisches Mittel
• Streuungsmaße: Spannweite, Quartilabstand, absolute Abweichung, Variation und
abgeleitete Maße
• Mittelwerte und Varianzen von Zusammenfassungen von Subgruppen
Lernziele:
1. Verständnis der Logik von Lage- und Streuungsmaßen
2. Berechnung von Lage- und Streuungsmaßen
3. Konsequenzen von Zusammenfassungen für Mittelwerte und Varianzen
und Berechnung von gemeinsamen Mittelwert und varianz aus den Kenngrößen der
Subgruppen
Statistik 1 (Vorlesung SoSe 06, 9.5.06)
114
Wiederholung der wichtigsten Inhalte der letzten Sitzung
(
i
i =1 n
k
k
nk
F̂ ( X ≤ x k ) = ∑ = ∑ p k
j=1 n
j=1
Anstieg um p5=0.066
Anstieg um p4=0.311
1.0
Kumulierte Häufigkeiten
0.9
0.8
Anstieg um
p3=0.489
0.7
0.6
0.5
0.4
Anstieg um
p2=0.124
0.3
0.2
)
n
F̂ X ≤ x ( i ) = ∑
Verteilungsfunktion
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
Anstieg um
p1=0.009
0.1
0.0
0
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
6
115
Quantile: Quantilwert und Quantilanteil
Der Quantilwert Q gibt die Trennstelle
an, an der die Teilung erfolgt.
α = 13.3%
Q =2
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
0.5
0.4
Q =2
0.3
13.3%-Quantil:
Q13.3% = Q0.133 = 2
0.2
0.1
α = 13.3%
0.0
0
Der Quantilanteil α gibt den Anteil an,
der im unteren Teilbereich liegt.
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
6
116
Quantile: Berechnung bei ungruppierter Daten
Die Berechnung erfolgt in drei Schritten:
Schritt 1: Multiplikation des Quantilanteils mit der Fallzahl: i = n ⋅ α
Schritt 2: Falls i keine ganze Zahl ist, sondern Nachkommastellen hat,
Aufrunden zur nächsten ganzen Zahl j, anderenfalls: j=i.
Schritt 3: Der Quantilwert Qα ist der Wert der Variablen auf dem j-ten Rangplatz: x(j).
X
1920
1939
1943
1956
1956
1957
1960
1966
1970
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
Fall Rang
8
4
1
6
9
3
2
10
7
1
2
3
4
5
6
7
8
9
Q50% = x(5) = 1956
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
0.9% < 10 % ⇒ Q10% > 1
13.3% > 10 % ⇒ Q10% ≤ 2
Q0.10 = Q 10% = 2
Qα=0.0% bis Qα=0.9%
Qα>0.9% bis Qα=13.3%
Qα>13.3% bis Qα=62.2%
Qα>62.2% bis Qα=93.4%
Qα>93.4% bis Qα=100%
=1
=2
=3
=4
=5
117
Quantilberechnung bei gruppierten Daten über die Summenkurve
1.0
k
1
2
3
4
5
uk
17.5
29.5
44.5
59.5
74.5
ok
<29.5
<44.5
<59.5
<74.5
<93.5
mk
23.5
37.0
52.0
67.0
84.5
pk
cpk
19.2 19.2
30.5 49.7
26.9 76.6
18.2 94.8
5.2 100.0
Qα = o k −1 +
α − cp k −1
⋅ ( o k − o k −1 )
pk
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
48.7% = cp2
o2 = 44.5 (Obergrenze der zweiten Klasse)
0.5
0.4
0.3
α = 25 %
Q25% = 32.35
0.2
0.1
0.0
19.2% = cp1
u2 = 29.5 (Untergrenze der zweiten Klasse)
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
118
Häufigkeiten
Stabdiagramm
6
5
4
3
2
1
0
Empirische Dichte
Grafische Darstellung univariater Verteilungen
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Histogramm
0.03
0.02
0.01
0.00
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
Alter in Jahren
Alter in Jahren
Box-Plot
Empirische Dichte
Kern-Dichte-Schätzer
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
15 20 25 30 35 40 45 50 55 60 65 70 75 80 80 90
Alter in Jahren
Daten: 150 zufällig ausgewählte Fälle der Altersverteilung im Allbus 1996
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
119
Grafische Darstellung univariater Verteilungen: nomnalskalierte Variablen
35
30
25
20
15
10
5
0
CD
U
CS
/
U
Balkendiagramm
Kreisdiagramm
Andere
Nichtwähler
PDS
Republikaner
CDU/CSU
Grüne
D
SP
P
FD
ne
il ka
b
pu
e
R
r
e
S
er
PD n d
A
SPD
FDP
Säulendiagramm
Nichtwähler 11.5%
Grüne 14.0%
FDP 8.0%
Tortendiagramm
Andere 1.1%
PDS 4.9%
Republikaner 1.9%
Grüne
PDS
Republikaner
Andere
FDP
Nichtwähler
SPD 28.2%
CDU/CSU
CDU/CSU 30.5%
SPD
Daten: Tabelle 3.4 (Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
120
Lagemaße: Typische Werte von Verteilungen
Empirische Dichte
Kern-Dichte-Schätzer
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Anstelle alle Realisierungen einer Verteilung etwa in Häufigkeitstabellen oder durch eine Grafik
zu betrachten, benötigt man in der Statistik oft eine einzige Kenngröße, einen Verteilungsparameter, der charakteristisch für die ganze Verteilung ist.
Eine solche Zahl, die gewissermaßen repräsentativ oder typisch für eine Verteilung sein soll,
wird auch als typischer Wert bezeichnet. Da ein typischer Wert bei metrischen Verteilungen den
Ort oder die Lage der Verteilung auf der Achse der Zahlen angibt, spricht man auch von einem
Lagemaß.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
121
Lagemaße: Modus
Empirische Dichte
Modus
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der
am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer
Verteilung bezeichnet.
Sinnvoll ist die Wahl des Modus nur dann, wenn es nur einen Wert gibt, der am häufigksten
vorkommt. Bei bi- oder multimodalen (mehrgipfligen) Verteilungen muss daher ein Gipfel
besonders herausragen.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
122
Lagemaße: Modus
Einschätzung der Wirtschaftslage in BRD
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
12.4
teils/teils
3
1710
48.6
schlecht
4
1087
30.9
sehr schlecht
5
232
6.6
weiß nicht
8
24
.7
Total
3518
100.0
Gültige Fälle: 3494
Fehlende Fälle: 24
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Missing
100.0
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
(Quelle: Allbus 1996)
Bei der Häufigkeitsverteilung der Beurteilung der allgemeinen Wirtschaftsslage ist der Modus
der Wert 3, d.h. die Ausprägung „teils/teils“.
Von den Befragten wird diese Kategorie am häufigsten gewählt.
Bei gruppierten Daten wird als Modus die Klassenmitte der Klasse gewählt, die die größe Besetzung aufweist. Dies macht offensichtlich nur Sinn, wenn die Klassenbildung nicht so gewählt
ist, dass die Klassen gleiche Häufigkeiten aufweisen.
In der Regel ist der Modus bei gruppierten Daten nicht informativ.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
123
Lagemaße: Median
Empirische Dichte
Median
.025
.020
.015
.010
50%
50%
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Ein alternativer charakteristischer Wert einer Verteilung ist der Median,
das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt.
Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder
gleich dem Median.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
124
Lagemaße: Berechnung des Median bei ungerader Fallzahl
Fall:
1
2
3
4
5
6
7
8
9
Realisierung: 1943 1960 1957 1939 1956 1970 1920 1956 1966
Um den Median zu Berechnen, müssen die Realisierungen einer Verteilung zunächst der Größe
nach geordnet werden.
Rangplatz:
(1) (2) (3) (4) (5) (6) (7) (8) (9)
Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970
Bei einer ungeraden Fallzahl ist der Median die Realisierung auf dem Rangplatz (n+1)/2:
x = x ⎛ n +1 ⎞
⎜
⎟
⎝ 2 ⎠
Im Beispiel der Geburtsjahre der neun gültigen Fälle ist dies der Wert auf dem Rangplatz
(9+1)/2 = 5, also 1956.
Vier Fälle der Verteilung sind kleiner oder gleich, d.h. früher oder im gleichem Jahr geboren,
und vier Fälle sind größer oder gleich, d.h. im gleichem Jahr oder später geboren.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
125
Lagemaße: Berechnung des Median bei gerader Fallzahl
Fall:
1
2
3
4
5
6
7
8
9
10
Realisierung: 1943 1960 1956 1939 1958 1970 1920 1956 1966 1968
Rangplatz:
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
Realisierung: 1920 1939 1943 1956 1956 1958 1960 1966 1968 1970
Bei einer geraden Fallzahl ist der Median der Mittelwert der beiden Fälle mit den Rangplätzen
(n/2) und (n/2 + 1):
x⎛ n ⎞ + x⎛ n
x=
⎞
⎜ +1⎟
⎝2 ⎠
⎜ ⎟
⎝2⎠
2
Im Beispiel der Geburtsjahre von zehn gültigen Fällen ist dies der Mittelwert der Fälle mit den
Rangplätzen 10/2 = 5 und (10/2 + 1) = 6, also der Mittelwert von 1956 und 1958 = 1957.
Jeweils fünf Fälle der Verteilung sind vor 1957 und nach 1957 geboren.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
126
Lagemaße: Berechnung des Median bei Häufigkeitstabellen ungruppierter Daten
Wirtschaftslage in BRD
Kumulierte
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
13.3
teils/teils
3
1710
62.2
schlecht
4
1087
93.4
sehr schlecht
5
232
100.0
Total
3494
(Quelle: fiktive Daten in Anlehnung an Allbus 1996)
Wenn eine Verteilung als Häufigkeitstabelle vorliegt, kann der Median direkt aus der Häufigkeitstabelle abgelesen werden.
Es ist die Ausprägung, bei der die kumulierten Anteilen den Wert 0.5 bzw. 50% erstmals
überschreiten.
Bei den Allbus-Daten 1996 zur Bewertung der allgemeinen Wirtschaftslage ist der Wert 3 bzw.
die Kategorie „teils/teils“. Der Median ist der Mittelwert der Fälle mit den Rangplätzen 1747 (=
3494/2) und 1748. Beide Realisierungen weisen die dritte Ausprägung der Variablen auf. Daher
ist jeweils die Hälfte der insgesamt 3494 Fälle kleiner gleich und gleichzeitig größer oder gleich
diesem Wert.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
127
Lagemaße: Berechnung des Median bei Häufigkeitstabellen ungruppierter Daten
Wirtschaftslage in BRD
Kumulierte
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
13.3
50.0
teils/teils
3
1282
schlecht
4
1374
89.3
sehr schlecht
5
373
100.0
Total
3494
(Quelle: fiktive Daten in Anlehnung an Allbus 1996)
Wenn allerdings bei einer Auspägung die kumulierte relative Häufigkeit exakt (d.h. ohne Rundungsfehler) den Wert 50% erreicht, was nur bei gerader Fallzahl möglich ist, dann ist der
Median gemäß der obigen Definition der Mittelwert aus dieser Ausprägung und der nächsten
Ausprägung.
Im Beispiel weist der Median somit den Wert 3.5 = (3 + 4) /2 auf.
Da eine Mittelwertberechnung nur bei metrischen Variablen zulässig ist, ist es hier sinnvoller,
zu sagen: Der Median liegt genau zwischen der 3. („teils/teils“) und der 4. („schlecht“)
Kategorie der Variablen.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
128
Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
Bei gruppierten Daten wird der Median über die Summenfunktion bzw. Summenkurve interpoliert:
0.5 − cp k −1
⋅ ( o k − o k −1 )
x = o k −1 +
pk
In der Gleichung ist k die Klasse, in der der Median legt,
im Beispiel also die 3 Klasse (k =3).
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
129
Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
6
3518
Die Berechnung ergibt: x = o k −1 +
0.5 − cp k −1
⋅ ( o k − o k −1 )
pk
x = o3−1 +
0.5 − cp3−1
⋅ ( o3 − o3−1 )
p3
= 44.5 +
pk
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
0.5 − 0.497
⋅ ( 49.5 − 44.5 ) = 44.65
0.269
Der Median beträgt also 44.65 Jahre.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
130
Lagemaße: Beziehung zu Quantilen
Vergleicht man die Formeln zur Berechnung des Median, mit denen zur Berechnung von
Quantilen so zeigt sich:
• bei gruppierten Häufigkeitstabellen sind der Median und das 50%-Quantil identisch;
• bei ungerader Fallzahl ist der Median ebenfalls gleich dem empirischen 50%-Quantil;
• nur bei gerader Fallzahl ist der Median etwas größer als das 50%-Quantil, wenn gleichzeitig
die Realisierung mit dem Rangplatz (n/2+1) einen größeren Wert aufweist als die Realisierung mit dem Rangplatz (n/2).
In fast allen Situation ist also der Median gleich dem 50%-Quantil.
Die mögliche Abweichung bei gerader Fallzahl ist eine Folge davon, dass es unterschiedliche
Berechnungsweisen für Quantile gibt.
Empirische Quantile sind stets die kleinstmöglichen Werte, bei denen die empirische
Verteilungsfunktion den Wert 0.5 erreicht.
Auch der Median teilt die Verteilung bei Erreichen von 50%-Schwelle der der Größe nach
geordneten Fälle. Bei gerader Fallzahl ist dieser Wert jedoch nicht immer eindeutig.
Beim Median gilt dann eine andere Regel als beim empirischen Quantil.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
131
Lagemaße: Median minimiert die Summe der absoluten Differenzen von sich
Wirtschaftslage in BRD
Kumulierte
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
13.3
teils/teils
3
1282
50.0
schlecht
4
1374
89.3
sehr schlecht
5
373
100.0
Total
3494
X nk·|x–3.5| nk·|x–3| nk·|x–4| nk·|x–4.1|
1
75.0
60
90
93.0
2
652.5
43
870
913.5
3
641.0
0
1282
1410.2
4
687.0
1374
0
137.4
5
559.5
746
373
335.7
∑ 2615.0
2615
2615
2889.8
(Quelle: fiktive Daten in Anlehnung an Allbus 1996)
Der Median weist die Eigenschaft aus, dass die Summe der absoluten, d.h. vorzeichenbereinigten, Differenzen aller Realisierungen minimal ist.
n
∑x
i =1
n
i
− x ≤ ∑ x i − a für alle Werte a
i =1
Allerdings ist diese Eigenschaft bei gerader Fallzahl nicht eindeutig. Sie gilt dann für alle Werte
zwischen den Ausprägungen x(n/2) bis x(n/2+1).
Im Beispiel beträgt die Summe der absoluten Differenzen der Realisierungen von den Werten 3
bis 4 jeweils 2615. Die Summe der absoluten Differenzen der Realisierungen von kleineren oder
größeren Werten ist dagegen stets größer.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
132
Lagemaße: arithmetisches Mittel
Empirische Dichte
Arithmetisches Mittel
.025
1 n
x + x2 +… + xn
x = ∑ xi = 1
n i=1
n
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Der vermutlich am häufigsten berechnete typische Wert einer Verteilung ist das arithmetische
Mittel (engl: mean), das auch als Mittelwert oder Durchschnitt bezeichnet wird.
Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit
gültigen Werten) geteilt durch die Anzahl dieser Realisierungen.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
133
Lagemaße: Berechnung des arithmetischen Mittels
Fall
nummer
ID
1
2
3
4
5
6
7
8
9
10
Alter
Summe
∑xi / 9
415
46.1
X
55
38
41
59
k.A.
42
28
78
42
32
Da von den 10 Fällen aus der Tabelle 1 Wert ungültig ist, berechnet
sich der Mittelwert aus den Realisierungen der verbleibenden 9 Fälle:
n
x=
∑x
i =1
i
n
55 + 38 + 41 + 59 + 42 + 28 + 78 + 42 + 32
=
9
415
=
= 46.1
9
In einer Datenmatrix ergibt sich der Mittelwert einer Variablen als
Summe aller gültigen Werte in der Spalte mit den Realisierungen
dieser Variablen geteilt durch die Anzahl der gültigen Fälle.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
134
Lagemaße: Berechnung des arithmetischen Mittels in Häufgkeitstabellen
xk
1
2
3
4
∑
nk
20
25
40
15
100
nk·xk
20
50
120
60
250
pk pk ·xk
0.20 0.20
0.25 0.50
0.40 1.20
0.15 0.60
1.00 2.50
1 K
x = ∑ nk ⋅ xk
n k =1
Liegen die Daten als ungruppierte Häufigkeitstabelle vor, kann die Summierung über die
Summe der mit den Besetzungszahlen multiplizierten Ausprägungen erfolgen.
K
K
1 K
nk
x = ∑ n k ⋅ x k = ∑ ⋅ x k = ∑ pk ⋅ x k
n k =1
k =1 n
k =1
1 K
20 ⋅1 + 25 ⋅ 2 + 40 ⋅ 3 + 15 ⋅ 4 20 + 50 + 120 + 60 250
x = ∑ nk ⋅ xk =
=
=
= 2.5
n k =1
100
100
100
Alternativ kann auch die Summe der Produkte aus den Ausprägungen mal den relativen
Häufigkeiten berechnet werden:
K
x = ∑ p k ⋅ x k = 0.20 ⋅1 + 0.25 ⋅ 2 + 0.40 ⋅ 3 + 0.15 ⋅ 4 = 0.20 + 0.50 + 1.2 + 0.60 = 2.5
k =1
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
135
Lagemaße: Berechnung des arithmetischen Mittels in gruppierten Häufgkeitstabellen
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen) Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
Total
(Quelle: Allbus 1996)
nk
Häufigkeit
673
1072
944
639
184
3512
pk
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
nk·mk
15815.5
39664.0
49088.0
42813.0
15548.0
∑ 162928.5
x
46.39
Bei gruppierten Daten werden statt der Auprägungen die Mittelwerte jeder Klasse zur
Berechnung verwendet.
1 K
673 ⋅ 23.5 + 1072 ⋅ 37 + 944 ⋅ 52 + 639 ⋅ 67 + 184 ⋅ 84.5
x = ∑ n k ⋅ mk =
= 46.39
n k =1
3512
Alternativ kann wieder die Summe über die Produkte aus relativen Häufigkeiten und Klassenmitten berechnet werden, was jedoch aufgrund von Rundungsfehlern i.a. ungenauer ist.
K
x = ∑ p k ⋅ m k = .192 ⋅ 23.5 + .305 ⋅ 37 + .269 ⋅ 52 + .182 ⋅ 67 + .052 ⋅ 84.5 = 46.37
k =1
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
136
Lagemaße: Eigenschaften des arithmetischen Mittels
xk−3
−2
−1
0
1
2
0
xk
1
2
3
4
5
∑ 15
1/n⋅∑ 3
(xk−3)2
4
1
0
1
4
10
xk−2.9
−1.9
−0.9
0.1
1.1
2.1
0.5
(xk−2.9)2
3.61
0.81
0.01
1.21
4.41
10.05
xk−3.1
−2.1
−1.1
−0.1
0.9
1.9
−0.5
(xk−3.1)2
4.41
1.21
0.01
0.81
3.61
10.05
Das arithmetische Mittel weist zwei Eigenschaften auf, die es gegenüber anderen Lagemaßen
kennzeichnet:
1. Die Summe der Abweichungen vom Mittelwert ist stets null
n
∑(x
i =1
i
− x) = 0
2. Die Summe der quadrierten Abweichungen vom Mittelwert ist minimal
n
∑ ( xi − x )
i =1
2
n
≤ ∑ ( x i − a ) für alle Werte a
2
i =1
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
137
Empirische Dichte
M
od
M us
ed
M ian
it t
el
w
er
t
Lagemaße: Auswahl eines Lagemaßes
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Bei der Entscheidung, welche Kenngröße als typischer Wert herangezogen werden soll, werden
verschiedene Kriterien berücksichtigt:
• Skalenniveau
• Robustheit gegenüber Ausreißern und
• Informationshaltigkeit
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
138
Lagemaße: Auswahl eines Lagemaßes
Robustheit gegenüber Ausreißern:
Die Robustheit gegenüber Ausreißern bezieht sich darauf, ob sich die Kenngröße sehr ändert,
wenn die kleinsten oder größten Werte sehr weit vom Rest der Verteilung entfernt sind.
- Wenn diese Werte sehr selten auftreten, können Stichprobenmittelwerte sehr deutlich
vom Mittelwert in der Population abweichen, wenn zufälligerweise solche seltenen
Werte in die Stichprobe fallen.
Mittelwerte sind verglichen mit Median und Modus deutlich weniger robust gegenüber
Ausreißern.
- Der Median ist der robusteste Wert, da sein Wert ausschließlich auf der Ausprägung
des mittleren Rangplatzes oder den Ausprägugnen der beiden mittleren Rangplätze
beruht.
- Der Modalwert ist nur dann robust, wenn der Abstand der relativen Häufigkeiten der
modalen Ausprägung deutlich zu den relativen Häufigkeiten der übrigen Ausprägungen
groß genug ist.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
139
Lagemaße: Auswahl eines Lagemaßes
Informationshaltigkeit:
Der Informationsgehalt der Lagemaße sinkt mit der Robustheit.
- Das arithmetischen Mittel hat den höchsten Informationsgehalt, da in dessen Berechnung
alle Realisierungen einfließen.
- Der Informationsgehalt des Median ist geringer.
- Am geringsten ist der Informationsgehalt des Modalwerts.
Skalenniveau:
- Da in die Berechnung des arithmetischen (und auch des geometrischen Mittels)
Abstandsinformationen einfließen, ist der Mittelwert streng genommen nur bei
metrischen Daten anwendbar.
- Der Median basiert auf Rangreihen und setzt daher mindestens ordinales
Skalenniveau voraus
- Der Modus kann dagegen bereits ab Nominalskalenniveau berechnet werden.
Insgesamt ergibt sich somit folgendes Bild.
Kenngröße Skalenniveau
Robustheit
Modus
ab Nominalskala
bedingt
Median
ab Ordinalskala
hoch
Mittelwert
nur metrisch
gering
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
Informationsgehalt
gering
mäßig
hoch
140
Getrimmtes arithmetisches Mittel
Im Unterschied zum Median ist das arithmetische Mittel nicht robust gegenüber Ausreißern.
Als Ausweg wird bisweilen das getrimmte arithmetsiche Mittel verwendet, bei dem am oberen
und unteren Rand eiern Verteilung eine vorgegebene Anzahl von Fällen ausgelassen wird.
Fall:
1
2
3
4
5
6
7
8
9
10
∑
Realisierung: 1943 1960 1957 1939 9999 1956 1970 1920 1956 1966 27566
Wird bei den Antworten auf die Frage nach dem Geburtsjahr fälschlicherweise der fehlende
Wert 9999 als gültig in die Berechnung des Mittelwerts aufgenommen, ergibt sich ein mittleres Geburtsjahr von 2756.6.
Ohne den ungültigen Fall beträgt der Mittelwert dagegen nur 1951.9 = (27566-9999)/9.
Rang:
1
2
3
4
5
6
7
8
9 10
∑
Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970 9999 15647
Beim 10%-getrimmten Mittel werden am unteren und am oberen Rand der Verteilung jeweils
10% der Fälle aus der Berechnung ausgeschlossen, bei n=10 also der kleinste und der größte
Wert.
Der Mittelwert der verbleibenden 8 Fälle beträgt 1955.9.
Dieser Wert unterscheidet sich nicht mehr so stark vom korrekten Wert 1951.9.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
141
Getrimmtes arithmetisches Mittel
Sinnvoll ist die Berechnung von getrimmten Mitteln auch bei gruppierten Daten, bei denen die
Unter- bzw. Obergrenze der ersten bzw. letzten Klasse unbegrenzt ist:
ok
mk
nk
uk
Klasse
Klassenmitte Häufigkeit
0 € bis < 500 €
250
150
k=1
500 € bis < 1500 €
1000
200
k=2
3250
300
k=3 1500 € bis < 5000 €
7500
200
k=4 5000 € bis < 10000 €
17500
100
k=5 10000 € bis < 25000 €
?
50
k=6 25000 € und mehr
Summe
1000
Im Beispiel der Einkommensklassen ist die Obergrenze der höchsten Einkommensklasse
unbekannt. Dann lässt sich aber auch nicht die Klassenmitte berechnen, die wiederum für die
Berechnung des Mittelwerts notwendig ist.
Eine mögliche Lösung ist, die oberste Klasse mit n6=50 Fällen auszulassen.
Dann müssen aber auch in der ersten Klasse die ersten 50 Fälle ebenfalls ausgelassen werden.
Dabei wird wie bei der Berechnung von Quantilen über die Summenkurve davon ausgegangen,
dass sich die Fälle in einer Klasse gleichmäßig über die gesamte Klassenbreite verteilen.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
142
Getrimmtes arithmetisches Mittel
Die Untergrenze des Intervalls verschiebt sich dann entsprechend dem Anteil der
ausgelassenen Fälle in dieser Klasse.
Im Beispiel des Auslassens der 50 unteren Fälle verschiebt sich die Untergrenze um 50/150
der Intervallbreite nach oben:
1.0
u t = u1 +
0.9
nt
⋅ ( o1 − u1 )
n1
0.8
0.7
k=1
k=2
k=3
k=4
k=5
k=6
0.6
0.5
0.4
0.3
0.2
0.1
ok
uk
50/1000
2
4
„getrimmte“
Untergrenze
6
8
10
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
Klasse
0 € bis < 500 €
500 € bis < 1500 €
1500 € bis < 5000 €
5000 € bis < 10000 €
10000 € bis < 25000 €
25000 € und mehr
Summe
ut = 0 +
14
mk
16
nk
Klassenmitte
250
1000
3250
7500
17500
?
Häufigkeit
150
200
300
200
100
50
1000
50
⋅ ( 500 − 0 ) = 167
150
18
20
22
24
26
Tsd. €
143
Getrimmtes arithmetisches Mittel
uk
k=1
k=2
k=3
k=4
k=5
k=6
Klasse
0 € bis < 500 €
500 € bis < 1500 €
1500 € bis < 5000 €
5000 € bis < 10000 €
10000 € bis < 25000 €
25000 € und mehr
Summe
uk
k=1
k=2
k=3
k=4
k=5
k=6
ok
ok
Klasse
167 € bis < 500 €
500 € bis < 1500 €
1500 € bis < 5000 €
5000 € bis < 10000 €
10000 € bis < 25000 €
25000 € und mehr
Summe
mk
Klassenmitte
250
1000
3250
7500
17500
?
⇓
mk
Klassenmitte
333.5
1000
3250
7500
17500
?
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
nk
Häufigkeit
150
200
300
200
100
50
1000
nk
Häufigkeit
100
200
300
200
100
50
900
u t = u1 +
=0+
nt
⋅ ( o1 − u1 )
n1
50
⋅ ( 500 − 0 ) = 167
150
nk·mk
33 350
200 000
975 000
1 500 000
1 750 000
∑ 4 458 350
4 953.7
x
144
Getrimmtes arithmetisches Mittel
ok
uk
k=1
k=2
k=3
k=4
k=5
k=6
Klasse
167 € bis < 500 €
500 € bis < 1500 €
1500 € bis < 5000 €
5000 € bis < 10000 €
10000 € bis < 25000 €
25000 € und mehr
Summe
mk
Klassenmitte
333.5
1000
3250
7500
17500
?
nk
Häufigkeit
100
200
300
200
100
50
900
nk·mk
33 350
200 000
975 000
1 500 000
1 750 000
∑ 4 458 350
4 953.7
x
Im Beispiel werden an den Rändern der Verteilung jeweils 5% (=50/1000) der Fälle nicht
berücksichtigt.
Das 5%-getrimmte arithmetische Mittel der Einkommensverteilung beträgt dann 4953.7 €.
Ganz analog zum Verschieben der Untergrenze des ersten Intervalls kann auch die Obergrenze
des letzten Intervalls verschoben werden, wenn am unteren Ende der Verteilung die letzte
Kategorie ausgelassen wird.
getrimmte
Untergrenze
n
u t = u1 + t ⋅ ( o1 − u1 )
n1
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
getrimmte o t = o K − n t ⋅ ( o K − u K )
nK
Obergrenze
145
Geometrisches Mittel
Das arithmetische Mittel ist kein geeigneter Mittelwert, wenn durchschnittliche Veränderungsraten berechnet werden sollen.
Beispiel:
Eine Inflationsrate beträgt im ersten Jahr 20% im zweiten Jahr im zweiten Jahr
15% und im dritten Jahr 10%.
Wie hoch ist die durchschnittliche Inflationsrate über die drei Jahre?
Das arithmetische Mittel wäre 15%.
Wenn etwas zu Beginn der drei Jahre 100€ gekostet hätte, sollte es nach 3 Jahren also 45%
(= 3· 15%) mehr kosten, also 145€.
Tatsächlich ergibt sich jedoch folgende Preissteigerung:
Ausgangswert:
Steigerung im 1. Jahr:
Steigerung im 2. Jahr
Steigerung im 3. Jahr
100€
20%
15%
10%
⇒ 120€
⇒ 138€
⇒ 151.8€
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
146
Geometrisches Mittel
Selbst wenn man berücksichtigt, dass sich die Basis in jedem Jahr verändert, beträgt der
durchschnittliche Zuwachs nicht 15%:
Ausgangswert nach 1 Jahr
100€
1.15·100€ = 115€
nach 2 Jahren
ach 3 Jahren
1.15·115€ = 132.25€ 1.15·132.25€ = 152.0875€
Die Berechnung der korrekten durchschnittlichen Preissteigerung muss über das geometrische
Mittel erfolgen, bei dem bei n Werten, die n-te Wurzel aus dem Produkt der n Änderungsfaktoren gezogen wird, im Beispiel bei drei Werten:
3
1.20 ⋅1.15 ⋅1.10 = 3 151.8 = 1.14927549
Bei Verwendung des geometrischen Mittels ergibt sich nach drei Jahren (bis auf Rundungsfehler) der tatsächlich erreichte Wert:
Ausgangswert nach 1 Jahr
nach 2 Jahren
nach 3 Jahren
100€
1.149·100€ = 114.9€ 1.149·114.9€ = 132.02€ 1.149·132.02€ = 151.69€
100€
1.20·100€ = 120€
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
1.15·120€ = 138€
1.10·138€ = 151.80€
147
Geometrisches Mittel
Im allgemeinen Fall berechnet sich das geometrischen Mittels über n Realisationen nach:
n
n
i =1
i =1
x geom = n x1 ⋅ x 2 ⋅… ⋅ x n = n ∏ x i = ∏ x
1
n
Bei der praktischen Berechnung kann man sich zunutze machen, dass durch Logarithmieren
aus Produkten Summen werden und aus Potenzierungen Produkte.
Die Logarithmierung der Ausgangswerte, Berechnung des arithmetsichen Mittels über die
logarithmierten Werte und anschließende Antilogarithmierung führt daher zum gleichen
Ergebnis wie die direkte Berechnung über die n-te Wurzel der Produkte.
{ x1 , x 2 ,
Schritt 1: Logarithmierung:
, x n } → {ln ( x1 ) ,ln ( x 2 ) ,
,ln ( x n )}
1 n
Schritt 2: Berechnung des Mittelwerts: y = ∑ ln ( x i )
n i =1
Schritt 3: Anti-Logaritmierung:
Im Beispiel:
⎛1 n
⎞
x geom = e = exp ⎜ ∑ ln ( x i ) ⎟
⎝ n i =1
⎠
⎛1
⎞
x geom = exp ⎜ ⋅ ( ln (1.2 ) + ln (1.15 ) + ln (1.1) ) ⎟ = 1.149
⎝3
⎠
y
= 3 1.2 ⋅1.15 ⋅1.1 = 1.149
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
148
Streuungsmaße
Neben einem typischen Wert, der eine Verteilung repräsentieren kann, ist von besonderer
Bedeutung auch die Frage, wie repräsentativ dieser Wert ist, d.h., ob eher mit großen oder mit
kleinen Abweichungen zu rechnen ist.
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
X
1
2
3
Y
4
5
1
2
3
4
5
W
So gilt für alle drei Verteilungen in den Abbildungen, dass das arithmetische Mittel und der
Median jeweils den Wert 3 aufweisen.
Während bei der Variablen X die Realisierungen relativ eng um diesen Wert streuen, kommen
bei der Gleichverteilung Y alle fünf Ausprägungen mit gleicher Häufigkeit vor. In der uförmigen Verteilung W werden Mittelwert und Median überhaupt nicht realisiert.
Bei gleichem Lagemaß können die Realisierungen also sehr unterschiedlich um dieses Maß
streuen. Die Unterschiedlichkeit der Realisationen wird durch Streuungsmaße erfasst.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
149
Spannweite
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
X
RX = 5 – 1 = 4
1
2
3
4
Y
RY = 5 – 1 = 4
5
1
2
3
4
5
W
RW = 5 – 1 = 4
Ein sehr einfaches Maß zur Erfassung der Unterschiedlichkeit der Realisierungen ist die
Spannweite (engl. Range), die als Abstand (Differenz) zwischen größter und kleinster
Realisierung einer Verteilung definiert ist:
R = x (n ) − x (1)
Die Spannweite ist allerdings sehr empfindlich gegenüber Ausreißern und gibt keine weiteren
Informationen über die Verteilung innerhalb des Wertebereichs.
Daher unterscheiden sich im Beispiel die Spannweiten der drei Verteilungen nicht.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
150
(Mittlerer) Quartilabstand
Q.25
45
45
45
40
40
40
35
Q.25
30
35
Q.75
Q.25
30
35
Q.75
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
X
IQRX = 4 – 2 = 2
Q.75
1
2
3
4
Y
IQRY = 4 – 2 = 2
5
1
2
3
4
5
W
IQRW = 5 – 1 = 4
Unempfindlicher gegenüber Ausreißerwerten ist der Quartilabstand (engl. interquartil range),
das ist die Differenz des dritten vom ersten Quartil:
IQR = Q0.75 − Q0.25
Im Box-Plot wird der IQR zur Festlegung der Boxlänge verwendet.
Anstelle des Quartilabstands wird auch der mittlere Quartilabstand verwendet, der die Hälfte
des Quartilabstands ist.
Q − Q0.25
mIQR = 0.75
2
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
151
Durchschnittliche absolute Abweichung
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
AD = (10 ⋅ 1 − 3 + 20 ⋅ 2 − 3 + 40 ⋅ 3 − 3
+20 ⋅ 4 − 3 + 10 ⋅ 5 − 3 ) /100 = 0.8
2
3
4
5
Y
AD = ( 20 ⋅ 1 − 3 + 20 ⋅ 2 − 3 + 20 ⋅ 3 − 3
+20 ⋅ 4 − 3 + 20 ⋅ 5 − 3 ) /100 = 1.2
1
2
3
4
5
W
AD = ( 40 ⋅ 1 − 3 + 10 ⋅ 2 − 3 + 0 ⋅ 3 − 3
+10 ⋅ 4 − 3 + 40 ⋅ 5 − 3 ) /100 = 1.8
Ein Maß, dass alle Realisationen einer Verteilung berücksichtigt und mit zunehmender Unterschiedlichkeit größere Werte aufweist, ist die durchschnittliche absolute Abweichung (engl.
absolute deviation):
1 n
AD = ∑ x i − x
n i =1
Nur bei symmetrischen Verteilungen, bei denen arithmetisches Mittel und Median zusammenfallen, ist AD gleichzeitig ein definiertes Minimum. Nachteilig ist, dass auch andere durchschnittliche Abstände zu gleichen Werten kommen können.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
152
Variation
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
2
3
X
(
4
1
5
2
3
Y
(
4
5
W
(
SSX = 10 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 40 ⋅ ( 3 − 3) SSY = 20 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 20 ⋅ ( 3 − 3) SSW = 40 ⋅ (1 − 3) + 10 ⋅ ( 2 − 3) + 0 ⋅ ( 3 − 3)
2
2
+20 ⋅ ( 4 − 3) + 10 ⋅ ( 5 − 3)
2
2
2
) = 120
2
2
+20 ⋅ ( 4 − 3) + 20 ⋅ ( 5 − 3)
2
2
2
) = 200
2
2
+10 ⋅ ( 4 − 3) + 40 ⋅ ( 5 − 3)
2
2
) = 340
Dem gegenüber ist für jede Verteilung die Summe der quadrierten Abweichungen vom Mittelwert ein absoluter Minimalwert. Dieser Wert wird Variation oder mittelwertbereinigte Quadratsumme (engl: sum of squares) genannt:
n
n
SSx = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2
i =1
2
i =1
Die Variation ist Ausgangsgröße für die in der Statistik am häufigsten verwendeten Streuungsmaße.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
153
2
Stichprobenvarianz
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
X
SSX = 120 ; s X2 = 1.2
1
2
3
4
5
1
2
3
4
Y
W
SSY = 200 ; s X2 = 2.0
SSW = 340 ; s 2X = 3.4
5
Die (Stichproben-) Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert:
1 n
SS
2
2
sX = ∑ ( x i − x ) = X
n i =1
n
Hinweis:
In Statistikprogrammen, Taschenrechnern und manchen Statistikbüchern wird bei der Berechnung der Varianz die Variation nicht durch die Fallzahl n, sondern durch die Zahl der Freiheitsgrade n – 1 geteilt.
Dieser Quotient ist eine Schätzung der Populationsvarianz auf der Basis von Stichprobendaten
(geschätzte Populationsvarianz).
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
154
Standardabweichung
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
s 2X = 1.2 ; s x = 1.095
2
3
4
5
1
2
3
4
Y
W
s 2X = 2.0 ; s x = 1.414
s 2X = 3.4 ; s X =1.844
5
Da die Einheit der Varianz das Quadrat der Einheit der betrachteten Verteilung ist, wird
meistens die Standardabweichung (engl: standard deviation) als Maß für die Streuung
verwendet, die die positive Quadratwurzel aus der Varianz ist:
1 n
SSX
2
−
=
sX = s =
x
x
(
)
∑ i
n i =1
n
2
X
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
155
Variantionskoeffizient
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
s x = 1.095 ; Vx = 0.365
2
3
4
5
1
2
3
4
Y
W
s x = 1.414 ; Vx = 0.471
s x = 1.844 ; Vx = 0.615
5
Sind die Ausprägungen einer Variable große Zahlen, dann ist oft auch die Standardabweichung
hoch, sind die Ausprägungen kleinere Zahlen, gilt dies oft auch für die Standardabwichung. Der
Variationskoeffizient berücksichtigt dies, da er als Quotient der Standardabweichung geteilt
durch das arithmetisches Mittel definiert ist:
s 2X
SSX
sx
VX = =
=
x
x
n ⋅x
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
156
Variantionskoeffizient
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
2
3
4
5
1
2
3
4
Y
W
SSX = 120 ; s X2 = 1.2 ;
SSY = 200 ; s X2 = 2.0 ;
SSW = 340 ; s 2X = 3.4 ;
s x = 1.095 ; Vx = 0.365
s x = 1.414 ; Vx = 0.471
s x = 1.844 ; Vx = 0.615
5
Der Variationsindex ist eine einheitslose Größe und wird oft in Prozent angeben.
Ein Nachteil ist, dass seine Berechnung nur bei Variablen ohne negative Ausprägungen sinnvoll
ist.
Eine mögliche Verallgemeienrung besteht darin, statt durch den Mittelwert durch die
Abweichung des Mittelwerts von der kleinsten Realisation zu teilen:
s 2X
SSX
sx
=
=
V =
x − x (1) x − x (1)
n ⋅ ( x − x (1) )
*
X
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
157
Rechenschema für Variation und Varianz
Die Berechnung der Variation und daraus abgeleiteter Streuungsmaße per Hand wird durch die
Anwendung eines einfachen Rechenschemas erleichtert.
Diesem liegt zugrunde, dass für die Berechnung neben der Fallzahl nur die Summe und die
2
Quadratsumme über alle Realisierungen benötigt werden:
⎛ n ⎞
⎜ ∑ xi ⎟
n
n
n
⎛
⎞
2
SSX = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2 = ⎜ ∑ x i2 ⎟ − ⎝ i =1 ⎠
n
i =1
i =1
⎝ i =1 ⎠
Die Kenngrößen berechnen sich dann nach:
Beispiel für die 9 Altersangaben:
Alter (X)
55
38
41
59
42
28
78
42
32
∑ 415
X2
3025
1444
1681
3481
1764
784
6084
1764
1024
21051
X−x
8.89
–8.11
–5.11
12.89
–4.11
–18.11
31.89
–4.11
–14.11
0.01
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
n
(X − x)
79.01
65.79
26.12
166.12
16.90
328.01
1016.90
16.90
199.12
1914.87
∑x
i
Variation:
415
= 46.1
n
9
n
⎛ n ⎞
2
SSX = ∑ x i − ⎜ ∑ x i ⎟ / n
i =1
⎝ i =1 ⎠
= 21051 − 4152 / 9 = 1914.89
Varianz:
s 2X = SSx / n = 1914.89 / 9 = 212.76
2
Mittelwert:
x=
i =1
=
Standardabw.: s X = s X2 = 212.765 = 14.59
Variationsk.: VX = s X / x = 14.59 / 46.1 = 31.6%
158
Rechenschema für Häufigkeitstabellen
Das Rechenschema lässt sich leicht auf Häufigkeitstabellen verallgemeinern.
X
1
2
3
4
5
∑
nk
10
20
40
20
10
100
nk·X
10
40
120
80
50
300
nk·X2
10
80
360
320
250
1020
K
x=
∑n
k =1
k
⋅ xk
K
∑n
k =1
=
2
⎛ K
⎞
w
SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n
k =1
⎝ k =1
⎠
= 1020 − 3002 /100 = 120
K
300
=3
100
k
s 2X = SSx /100 = 120 /100 = 1.2;
s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5%
Werden relative Häufigkeiten verwendet, ergit sich folgendes Schema:
X
1
2
3
4
5
∑
pk
0.1
0.2
0.4
0.2
0.1
1.0
pk·X
0.1
0.4
1.2
0.8
0.5
3.0
pk·X2
0.1
0.8
3.6
3.2
2.5
10.2
K
x = ∑ pk ⋅ x k = 3
k =1
⎛ K
⎞
s = ∑ pk ⋅ x − ⎜ ∑ pk ⋅ x k ⎟
k =1
⎝ k =1
⎠
= 10.2 − 32 = 1.2
K
2
X
2
2
k
SSx = s 2X ⋅ n = 1.2 ⋅100 = 120;
s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5%
Bei gruppierten Daten werden in den Schemata statt der Ausprägungen xk die Klassenmitten mk
eingesetzt.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
159
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
Werden Variationen, Varianz, Standardabweichung oder Variationskoeffizient aus gruppierten
Häufigkeitstabellen berechnet, werden die entsprechenden Koeffizienten der ungruppierten
Ausgangswerte unterschätzt.
Warum das so ist, zeigt sich, wenn die Beziehung von Mittelwerten und Varianzen von
Ausgangsdaten und Zusammenfassungen betrachtet wird.
Angenommen, es sollen die Fälle aus zwei Subgruppen A und B zusammengefasst werden:
Gruppe Fall XA
A
1
2
A
2
2
A
3
3
A
4
3
A
5
4
A
6
4
∑ nA=6 18
3
x
(XA)2
4
4
9
9
16
16
58
9.67
x A = 18 / 6 = 3
SSA = 58 − 182 / 6 = 4
Gruppe Fall XB
B
7
1
B
8
2
B
9
6
B
10
7
∑ nB=4 16
x
4
(XB)2
1
4
36
49
90
22.5
x B = 16 / 4 = 4
SSB = 90 − 162 / 4 = 26
s 2B = 22.5 − 42 = 6.5
s 2A = 9.67 − 32 = 0.67
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
160
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
Gruppe Fall XA
A
1
2
A
2
2
A
3
3
A
4
3
A
5
4
A
6
4
∑ nA=6 18
3
x
(XA)2
4
4
9
9
16
16
58
9.67
Gruppe Fall XB
B
7
1
B
8
2
B
9
6
B
10
7
∑ nB=4 16
x
4
(XB)2
1
4
36
49
90
22.5
x B = 16 / 4 = 4
SSB = 90 − 162 / 4 = 26
x A = 18 / 6 = 3
SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67
s 2B = 90 / 4 − 42 = 6.5
Wenn nA die Fallzahl in der 1. Subgruppe und nB die Fallzahl in der 2. Subgruppe B ist, ergeben
sich die relativen Gruppenhäufigkeiten nach:
nA
n
n
nB
n
n
pA =
= A = 1 − B = 1 − pB ; pB =
= B = 1 − A = 1 − pB
nA + nB
n
n
nA + nB n
n
Bezogen auf die Beispieldaten ergibt sich:
pA =
6
6
4
= = 1 − = 0.6 ;
6 + 4 10
10
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
pB =
4
4
6
= = 1 − = 0.4
6 + 4 10
10
161
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
Gruppe Fall XA
A
1
2
A
2
2
A
3
3
A
4
3
A
5
4
A
6
4
∑ nA=6 18
3
x
(XA)2
4
4
9
9
16
16
58
9.67
Gruppe Fall XB
B
7
1
B
8
2
B
9
6
B
10
7
∑ nB=4 16
x
4
x A = 18 / 6 = 3
SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67
(XB)2
1
4
36
49
90
22.5
x B = 16 / 4 = 4
SSB = 90 − 162 / 4 = 26
s 2B = 90 / 4 − 42 = 6.5
Der Gesamtmittelwert ergibt sich dann aus der mit den jeweiligen relativen Häufigkeiten gewichteten Summe der Mittelwerte in den Teilgruppen:
nA
nB
n
n
x pooled =
⋅ xA +
⋅ x B = A ⋅ x A + B ⋅ x B = pA ⋅ x A + pB ⋅ x B
nA + nB
nA + nB
n
n
Bezogen auf die Beispieldaten ergibt sich:
x pooled =
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
6
4
⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4
10
10
162
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
(XA)2
4
4
9
9
16
16
58
9.67
Gruppe Fall XA
A
1
2
A
2
2
A
3
3
A
4
3
A
5
4
A
6
4
∑ nA=6 18
3
x
(XB)2
1
4
36
49
90
22.5
Gruppe Fall XB
B
7
1
B
8
2
B
9
6
B
10
7
∑ nB=4 16
x
4
x B = 16 / 4 = 4
SSB = 90 − 162 / 4 = 26
x A = 18 / 6 = 3
SSA = 58 − 182 / 6 = 4 ; s A2 = 58 / 6 − 32 = 0.67
s 2B = 90 / 4 − 42 = 6.5
Die Gesamtvarianz berechnet sich nach einer etwas komplizierteren Formel:
s
2
pooled
(
)
(
= p A ⋅ s + ( x A − x pooled ) + p B ⋅ s + ( x B − x pooled )
2
2
A
= ( pA ⋅ s + pB ⋅ s
2
A
2
B
Im Beispiel: s 2pooled = ( p A ⋅ s A2 + p B ⋅ s B2
) + (p ⋅(x
) + (p ⋅ (x
2
B
2
)
A
A
A
A − x pooled ) + p B ⋅ ( x B − x pooled
(
)
))
− x pooled ) + p B ⋅ ( x B − x pooled )
2
2
= ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 ) + 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 )
2
2
)
2
2
= ( 0.4 + 2.6 ) + ( 0.096 + 0.144 ) = 3 + 0.24 = 3.24
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
163
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
Gruppe Fall
A
1
A
2
A
3
A
4
A
5
A
6
X
2
2
3
3
4
4
(X)2
4
4
9
9
16
16
B
B
B
B
7
8
9
10
1
2
6
7
1
4
36
49
∑
x
n=10
34
3.4
148
14.8
x A = 18 / 6 = 3
x B = 16 / 4 = 4
s 2A = 58 / 6 − 32 = 0.67
s 2B = 90 / 4 − 42 = 6.5
x pooled =
6
4
⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4
10
10
s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 )
(
+ 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 )
2
2
)
= 3 + 0.24 = 3.24
x = 34 /10 = 3.4
s 2X = 14.8 − 3.42 = 3.24
Bei Häufigkeitstabellen gruppierter Daten wird die Varianz ausschließlich über die Variation
zwischen den Gruppenmittelwerten berechnet. Da die erste Komponenten der Variation
innerhalb der Gruppen ignoriert wird, wird die tatsächliche Varianz unterschätzt.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
164
Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
X
2
2
3
3
4
4
(X)2
4
4
9
9
16
16
7
8
9
10
1
2
6
7
1
4
36
49
n=10
34
3.4
148
14.8
Gruppe Fall
A
1
A
2
A
3
A
4
A
5
A
6
B
B
B
B
∑
x
x A = 18 / 6 = 3
x B = 16 / 4 = 4
s 2A = 58 / 6 − 32 = 0.67
s 2B = 90 / 4 − 42 = 6.5
x pooled =
6
4
⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4
10
10
s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 )
(
+ 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 )
2
2
)
= 3 + 0.24 = 3.24
x = 34 /10 = 3.4
s 2X = 148 /10 − 3.42 = 3.24
Da bei der Zusammenfassung von Gruppen die Komponenten der Variation zwischen den
Gruppen oft recht klein ist, wird als Näherungsformel nur die Variation innerhalb der Gruppen
berücksichtigt:
s 2pooled ≈ ( p A ⋅ s 2A + p B ⋅ s 2B ) = 3 ≤ 3.24
Die Näherungsformel ist dann exakt, wenn sich die Gruppenmittelwerte zwischen den Gruppen
nicht unterscheiden.
Statistik 1 (Vorlesung SoSe 06, 8.5.06)
165
Statistik I im Sommersemester 2006
Themen am 16.5.2006:
Übungsklausur I
Streungsmaße II und höhere Momente
• Auswirkungen von Lineartransformationen
• Z-Transformation
• Devianz, Schiefe und Steilheit
Lernziele:
1. Berechnung der Mittelwerte und variationsbasierter Streuungsmaße von linear transformierten Variablen auf der Basis der Ausgangsgröße und der Transformationsfunktion
2. Berechnung von Z-Werten und ihre Interpretation
3. Streuung bei nominalskalierten Variablen: Devianz
4. Momente und ihre Nutzung in der Statistik
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
166
Wiederholung der wichtigsten Inhalte der letzten Sitzung
Lagemaße: Modus
Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der
am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer
Verteilung bezeichnet.
Lagemaße: Median
Ein alternativer charakteristischer Wert einer Verteilung ist der Median,
das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt.
Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder
gleich dem Median.
Bei einer ungeraden Fallzahl ist der Median die Realisierung auf dem Rangplatz (n+1)/2:
x = x ⎛ n +1 ⎞
⎜
⎟
⎝ 2 ⎠
Bei einer geraden Fallzahl ist der Median der Mittelwert der beiden Fälle mit den Rangplätzen
(n/2) und (n/2 + 1):
x⎛ n ⎞ + x⎛ n
x=
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
⎞
⎜ +1⎟
⎝2 ⎠
⎜ ⎟
⎝2⎠
2
167
Wiederholung: Median
Wirtschaftslage in BRD
Kumulierte
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
13.3
teils/teils
3
1710
62.2
schlecht
4
1087
93.4
sehr schlecht
5
232
100.0
Total
3494
50%-Quantil wird erstmals
überschritten: Median ist 3
(Quelle: fiktive Daten in Anlehnung an Allbus 1996)
Wirtschaftslage in BRD
Kumulierte
Ausprägung Code
Häufigkeit Prozente
sehr gut
1
30
.9
gut
2
435
13.3
50.0
teils/teils
3
1282
schlecht
4
1374
89.3
sehr schlecht
5
373
100.0
Total
3494
50%-Quantil wird erreicht
(=Fall n/2).
Median ist (3+4)/2 = 3.5
(Quelle: fiktive Daten in Anlehnung an Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
168
Wiederholung: Median
Lagemaße: Berechnung des Median bei Häufigkeitstabellen gruppierter Daten
uk
k=1
k=2
k=3
k=4
k=5
ok
mk
Ausprägung in Jahren
Code =
(exakte Klassengenzen)
Klassenmitte
17.5 bis <29.5
23.5
29.5 bis < 44.5
37.0
44.5 bis <59.5
52.0
59.5 bis <74.5
67.0
74.5 bis <93.5
84.5
keine Angabe
999.0
Total
Gültige Fälle: 3512
Fehlende Fälle: 6
(Quelle: Allbus 1996)
0.5 − cp k −1
x = o k −1 +
⋅ ( o k − o k −1 )
pk
nk
pk
Häufigkeit
673
1072
944
639
184
6
3518
x = o k −1 +
0.5 − cp k −1
⋅ ( o k − o k −1 )
pk
x = o3−1 +
0.5 − cp3−1
⋅ ( o3 − o3−1 )
p3
= 44.5 +
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
Prozente
19.1
30.5
26.8
18.2
5.2
.2
100.0
Gültige
Prozente
19.2
30.5
26.9
18.2
5.2
Missing
100.0
cpk
Kumulierte
Prozente
19.2
49.7
76.6
94.8
100.0
0.5 − 0.497
⋅ ( 59.5 − 44.5 ) = 44.65
0.269
169
Wiederholung: Mittelwert
Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit
gültigen Werten) geteilt durch die Anzahl dieser Realisierungen.
1 n
x1 + x 2 + … + x n
x = ∑ xi =
n i=1
n
xk
1
2
3
4
∑
nk
20
25
40
15
100
nk·xk
20
50
120
60
250
pk pk ·xk
0.20 0.20
0.25 0.50
0.40 1.20
0.15 0.60
1.00 2.50
K
K
1 K
nk
x = ∑ n k ⋅ x k = ∑ ⋅ x k = ∑ pk ⋅ x k
n k =1
k =1 n
k =1
Getrimmtes arithmetisches Mittel
Im Unterschied zum Median ist das arithmetische Mittel nicht robust gegenüber Ausreißern.
Als Ausweg wird bisweilen das getrimmte arithmetsiche Mittel verwendet, bei dem am oberen
und unteren Rand einer Verteilung eine vorgegebene Anzahl von Fällen ausgelassen wird.
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
170
Wiederholung: Mittelwert
Fall:
1
2
3
4
5
6
7
8
9
10
∑
Realisierung: 1943 1960 1957 1939 9999 1956 1970 1920 1956 1966 27566
Rang:
1
2
3
4
5
6
7
8
9 10
∑
Realisierung: 1920 1939 1943 1956 1956 1957 1960 1966 1970 9999 15647
uk
k=1
k=2
k=3
k=4
k=5
k=6
ok
Klasse
0 € bis < 500 €
500 € bis < 1500 €
1500 € bis < 5000 €
5000 € bis < 10000 €
10000 € bis < 25000 €
25000 € und mehr
Summe
mk
Klassenmitte
250
1000
3250
7500
17500
?
nk
Häufigkeit
150
200
300
200
100
50
1000
u t = u1 +
=0+
nt
⋅ ( o1 − u1 )
n1
50
⋅ ( 500 − 0 ) = 167
150
ot = oK −
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
nt
⋅ ( oK − u K )
nK
171
Wiederholung
Geometrisches Mittel
n
n
x geom = n x1 ⋅ x 2 ⋅… ⋅ x n = n ∏ x i = ∏ x
i =1
1
n
i =1
R = x (n ) − x (1)
Streuungmaße: Spannweite
IQR = Q0.75 − Q 0.25 mIQR =
(Mittlerer) Quartilabstand
Durchschnittliche absolute Abweichung
n
Variation
x geom
⎛1 n
⎞
= e = exp ⎜ ∑ ln ( x i ) ⎟
⎝ n i =1
⎠
y
Q0.75 − Q0.25
2
1 n
AD = ∑ x i − x
n i =1
n
SSx = ∑ ( x i − x ) = ∑ x i2 − n ⋅ x 2
2
i =1
Stichprobenvarianz
i =1
1 n
SS
2
s = ∑ ( xi − x ) = X
n i =1
n
Standardabweichung
Variantionskoeffizient
2
X
1 n
SSX
2
−
=
sX = s =
x
x
(
)
∑ i
n i =1
n
2
X
s 2X
SSX
sx
VX = =
=
x
x
n ⋅x
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
172
Wiederholung: Rechenschema für Variation und Varianz
Alter (X)
55
38
41
59
42
28
78
42
32
∑ 415
X2
3025
1444
1681
3481
1764
784
6084
1764
1024
21051
Variation:
nk
10
20
40
20
10
100
nk·X
10
40
120
80
50
300
K
x=
∑n
k =1
k
⋅ xk
K
∑n
k =1
nk·X2
10
80
360
320
250
1020
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
i =1
i
X
1
2
3
4
5
∑
=
pk
0.1
0.2
0.4
0.2
0.1
1.0
pk·X
0.1
0.4
1.2
0.8
0.5
3.0
pk·X2
0.1
0.8
3.6
3.2
2.5
10.2
K
=
x = ∑ pk ⋅ x k = 3
300
=3
100
k =1
⎛ K
⎞
2
2
sX = ∑ pk ⋅ x k − ⎜ ∑ pk ⋅ x k ⎟
k =1
⎝ k =1
⎠
= 10.2 − 32 = 1.2
K
k
2
⎛ K
⎞
w
SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n
k =1
⎝ k =1
⎠
= 1020 − 3002 /100 = 120
K
∑x
415
= 46.1
n
9
2
n
n
⎛
⎞
SSX = ∑ x i2 − ⎜ ∑ x i ⎟ / n
i =1
⎝ i =1 ⎠
= 21051 − 4152 / 9 = 1914.89
x=
Mittelwert:
X
1
2
3
4
5
∑
n
2
173
Wiederholung: Mittelwerte und Varianzen bei Zusammenfassungen von Subgruppen
Gruppe Fall
A
1
A
2
A
3
A
4
A
5
A
6
X
2
2
3
3
4
4
(X)2
4
4
9
9
16
16
x B = 16 / 4 = 4
s 2A = 58 / 6 − 32 = 0.67
s 2B = 90 / 4 − 42 = 6.5
x pooled =
6
4
⋅ 3 + ⋅ 4 = 0.6 ⋅ 3 + 0.4 ⋅ 4 = 3.4
10
10
s 2pooled = ( 0.6 ⋅ 0.67 + 0.4 ⋅ 6.5 )
B
B
B
B
7
8
9
10
1
2
6
7
1
4
36
49
∑
x
n=10
34
3.4
148
14.8
x pooled =
x A = 18 / 6 = 3
(
+ 0.6 ⋅ ( 3 − 3.4 ) + 0.4 ⋅ ( 4 − 3.4 )
2
2
)
= 3 + 0.24 = 3.24
x = 34 /10 = 3.4
s 2X = 14.8 − 3.42 = 3.24
nA
nB
n
n
⋅ xA +
⋅ x B = A ⋅ x A + B ⋅ x B = pA ⋅ x A + pB ⋅ x B
nA + nB
nA + nB
n
n
(
)
(
s 2pooled = p A ⋅ s 2A + ( x A − x pooled ) + p B ⋅ s B2 + ( x B − x pooled )
2
(
2
)
= ( p A ⋅ s A2 + p B ⋅ s B2 ) + p A ⋅ ( x A − x pooled ) + p B ⋅ ( x B − x pooled )
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
2
2
)
174
Auswirkungen von Lineartransformationen
Lineartransformationen
In vielen statistischen Anwendungen werden die Maße einer Verteilung durch Verschieben und
Strecken geändert. Solche Transformationen heißen Lineartransformationen und können durch
eine lineare Gleichung dargestellt werden:
Y=a+b·X
(mit b≠0)
X bezeichnet die Ursprungswerte und Y die transformierten Werte. Grafisch lassen sich Lineartransformationen durch lineare Geraden in einem Koordinatensystem darstellen.
Y
-5
-4
-3
-2
9
8
7
6
5
4
3
2
1
0
-1
-1
0
-2
-3
1
2
3
4
X
Y=2+X
Y=4+X
Y=4+ 0.5X
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
5
Die Konstante a gibt den transformierten
Wert von Y an, wenn X=0. Grafisch ist
das der Schnittpunkt der Geraden mit der
senkrechten Y-Achse.
Das Transformationsgewicht b gibt die
Steigung der Geraden an. Wenn der Wert
von X um +1 Einheit ansteigt. Dann
verändert sich der Wert von Y um b
Einheiten.
Y=2-0.5X
175
Auswirkungen von Lineartransformationen
Wenn die Werte einer Variablen durch Lineartransformationen verändert werden, dann ist es
möglich, den Mittelwert und die Varianz bzw. Standardabweichung der transformierten Werte
aus dem Mittelwert und der Varianz bzw. Standardabweichung der Ursprungswerte zu berechnen.
Lineartransformation
Beispiel:
Y= −1.5 + 0.5 · X
Fall X
1
1
2
1
3
3
4
3
5
3
6
7
∑
18
18
x = =3
6
78 2
−3
s 2X =
6
sX = 2
X2
1
1
9
9
9
49
78
Y
−1
−1
0
0
0
2
0
Y2
1
1
0
0
0
4
6
Wenn Y = a + b ·X, dann folgt:
y = a + b⋅x
s 2Y = b 2 ⋅ s X2
Im Beispiel:
sY = b ⋅ sX
y = a + b ⋅ x = −1.5 + 0.5 ⋅ 3 = 0
s 2Y = b 2 ⋅ s X2 = 0.52 ⋅ 4 = 1
s Y = b ⋅ s X = 0.5 ⋅ 2 = 1
0
=0
6
6
s 2Y = − 02 = 1
6
sY = 1
y=
=4
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
176
Zentrierung
Durch geeignete Wahl der Transformationsparameter a und b kann eine Verteilung so transformiert werden, dass der Mittelwert der transformierten Werte genau null ist.
Man spricht dann davon, dass die Werte bzw. die Variable zentriert wird.
Die resultierenden Werte sind mittelwertbereinigt oder mittelwertfrei.
Die Transformationsgleichung für die Zentrierung ist:
Y = − x + 1 ⋅ X ⇒ y = 0; s 2Y = s X2 ; s Y = s x
Normierung
Durch geeignete Wahl der Transformationsparameter a und b kann auch dafür gesorgt werden,
dass die transformierten Werte eine Varianz bzw. Standardabweichung von genau 1 haben. Man
spricht hier von Normierung bzw. normierten Werten. Die Transformationsgleichung ist:
Y =0+
X
x
⇒ y = ; s 2Y = 1; s Y = 1 (Normierung mit Mittelwertsveränderung)
sX
sX
⎛
1 ⎞
1
Y = ⎜1 − ⎟ ⋅ x + ⋅ X ⇒ y = x; s 2Y = 1; s Y = 1 (Normierung ohne Mittelwertsveränderung)
sX
⎝ sX ⎠
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
177
Standardisierung
Wenn eine Variable gleichzeitig zentriert und normiert wird, spricht man von
Standardisierung.
Standardisierte Werte haben also einen Mittelwert von 0 und eine Varianz von 1.
Die Transformationsgleichung wird auch als Z-Transformation bezeichnet und die
standardisierten Werte als Z-Werte.
Die Transformationsgleichung ist:
Z=
−x X X − x
+ =
⇒ z = 0; s 2Z = 1; s Z = 1
sX sX
sX
Beispiel: Berechnung von Z-Werten für die Altersverteilung:
Fall:
Realisierung:
X2
5
50
∑
250
400 3600 2025 5625 2500
14150
1
20
(X-50)/18.166 -1.65
2.727
Z2
2
60
3
45
4
75
.550 -.275 1.376
.303 .076 1.894
0
0
0.003
5.000
250
= 50
5
s 2X = 14150 / 5 − 502 = 330
x=
s X = 330 = 18.166
Eine 20jährige Person ist –1.65 Standardabweichungen vom Mittelwert der Verteilung entfernt,
eine 75jährige Person +1.376 Standardabweichungen.
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
178
Devianz
Alle vorgestellten Maße gehen von metrischen Daten aus, da Abstandsinformationen verwendet
werden.
Der Quantilabstand kann auch bei ordinalen Variablen verwendet werden, wenn der Abstand
nicht in Zahlen, sondern Ausprägungen interpretiert wird, also: 50% aller Fälle liegen innerhalb
der Ausprägungen x und y, wobei x die Kategorie(nummer) des 1. und y die Kategorie(nummer) des 3. Quartils ist.
Ein Streuungsmaß, dass vor allem in der loglinearen Zusammenhangsanalyse Verwendung
findet, ist die Devianz, die bereits ab Nominalskalenniveau berechnet werden kann.
Die absolute Devianz DX einer Variablen X berechnet sich nach:
⎛n
D X = −2∑ n k ⋅ ln ⎜ k
⎝ n
k =1
K
K
⎞
⎟ = −2∑ n k ⋅ ln ( p k )
⎠
k =1
Bei der Berechnung der relativen Devianz dX erfolgt die Gewichtung der Logarithmen über die
relativen Häufigkeiten:
K
D
d X = −2∑ p k ⋅ ln ( p k ) = x
n
k =1
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
179
Devianz
Als Beispiel soll die Devinaz der gültigen Antworten auf die Frage nach der Wahlabsicht
berechnet werden:
Kategorie
CDU/CSU
SPD
FDP
B90/Grüne
Republikaner
PDS
Andere
Nichtwähler
∑
nk
791
730
206
362
49
126
29
297
2590
pk
0.305
0.282
0.080
0.140
0.019
0.049
0.011
0.115
1.001
–2 · nk · ln(pk)
1876.434
1848.898
1042.993
1424.665
388.824
761.829
260.543
1286.415
8890.601
(Quelle: Allbus 1996)
K
D X = −2∑ n k ⋅ ln ( p k ) = 8890.601
k =1
K
d X = −2∑ p k ⋅ ln ( p k ) ⋅ p k =
k =1
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
D x 8890.601
=
= 3.433
n
2590
180
Devianz
Die Idee der Devianz besteht darin, dass die Prognose einee Realisierung um so unsicherer
wird, je stärker die Gesamtheit der Realisierungen über die Ausprägungen einer
nominalskalierten Variablen streut.
Dann sollte die Streuung bei einer Konstanten minimal und bei einer Gleichverteilung maximal
sein.Genau dies ist bei der Devianz der Fall, wie die folgenden Beispiele zeigen:
xk
1
2
3
4
5
∑
Variable A
nk
–2·nk·ln(pk)
500
0
0
-0
-0
-0
-500
0
xk
1
2
3
4
5
∑
Variable B
nk
–2·nk·ln(pk)
250
346.57
0
-0
-0
-250
346.57
500
693.14
xk
1
2
3
4
5
∑
Variable C
nk
–2·nk·ln(pk)
100
321.88
100
321.88
100
321.88
100
321.88
100
321.88
500
1609.40
Den größten und maximalen Wert weist die Devianz bei der Gleichverteilung (Variable C) auf,
am geringsten ist die Devianz, wenn alle Realisierungen die gleiche Ausprägung aufweisen
(Variable A).
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
181
Schiefe
Neben der Streuung ist oft auch von Interesse, ob eine Verteilung (annhähernd) symmetrisch
oder schief verteilt ist.
Empirische Dichte
M
od
M us
ed
M ian
it t
el
w
er
t
Hinweise auf die Schiefe (engl.: skewness) einer Verteilung gibt der Vergleich von Modus,
Median und Mittelwert:
• Für unimodale, symmetrische Verteilungen gilt:
Modus = Median = Mittelwert,
bei mehrgipfligen, symmetrischen Verteilungen gilt: Median = Mittelwert;
• bei einer rechtsschiefen Verteilung gilt:
Modus < Median < Mittelwert;
• bei einer linksschiefen Verteilung gilt:
Modus > Median > Mittelwert.
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
182
Schiefe
Dies gilt jedoch nur im Idealfall, so dass oft keine klaren Hinweise möglich sind.
Eine Kenngröße der Schiefe ist der Schiefekoeffizient, der das dritte Moment um den
Mittelwert geteilt durch die dritte Potenz der Standardabweichung ist:
1 n
3
( xi − x )
∑
n
Schiefekoeff . = i =1 3
sX
Der Durchschnittswert der mit einer ganzen Zahl k potenzierten Realisierungen einer Verteilung
wird als k-tes (Roh-) Moment bezeichnet:
1 n k
k-tes Rohmoment = ⋅ ∑ x i
n i =1
Das 1. Moment ist also der Mittelwert einer Verteilung, das 2. Moment der Durchschnittswert
der quadrierten Realisierungen.
Werden vor der Potenzierung die Differenzen vom Mittelwert berechnet, ergeben sich die
Momente um den Mittelwert:
1 n
k
k-tes Moment um den Mittelwert = ⋅ ∑ ( x i − x )
n i =1
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
183
Steilheit
Das erste Moment um den Mittelwert ist stets null, das zweite ist die Varianz, das dritte wird für
den Schiefekoeffizienten verwendet.
Das vierte Moment gibt Hinweise auf die Steilheit oder Wölbung (engl. excess oder kurtosis)
einer Verteilung. Je höher der Wert, desto steiler ist eine Verteilung, je geringer der Wert, desto
flacher ist die Verteilung.
Als Maß für die Steilheit wird folgender Koeffizient berechnet:
Steilheit =
1 n
4
x
x
−
(
)
∑ i
n i =1
(s )
2
X
2
−3
Bei positiven Werten ist die Verteilung flacher, bei negativen Werten steiler als eine Normalverteilung.
Die Interpretation ist jedoch schwierig.
Angewendet werdenSchiefe- und Steilheitskoeffizienten in erster Linie in statistschen Tests, um
zu prüfen, ob die Daten einer Stichprobe aus einer Normalverteilung kommen können.
Statistik 1 (Vorlesung SoSe 06, 16.5.06)
184
Statistik I im Sommersemester 2006
Themen am 23.5.2006:
Wahrscheinlichkeitstheorie
• Stichprobe und Grundgesamtheit
• Zufallsexperiment und Wahrscheinlichkeiten
• Axiomatische Wahrscheinlichkeitstheorie
• Stichprobenwahrscheinlichkeiten bei einfachen Zufallsauswahlen
• Zufallsvariablen und deren Wahrscheinlichkeitsverteilungen
• Kennwerte, Kennwerteverteilungen und Populationsparameter
Lernziele:
1.
2.
3.
Kenntnisse über Grundlagen und Grundbegriffe der Wahrscheinlichkeitstheorie
Definition von Zufallsvariablen und Wahrscheinlichkeitsverteilungen
Die Bedeutung von Zufallsauswahlen für die Schätzung von Populationsparametern
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
185
Wiederholung der Gegenstände der letzten Sitzungen
• Operationalisierung und Messung
• Datenmatrix: Variablen, Ausprägungen und Realisierungen
• Empirische Verteilungen
- Darstellung in Häufigkeitstabellen und grafische Darstellung
- Empirische Verteilungsfunktion und Quantile
• Verteilungskennwerte
- Lagemaße:
Modus, Median, arithmetisches Mittel
- Streuungsmaße: Spannweite, Quartilabstand, absolute Abweichung
Variation, Varianz, Standardabweichung, Variationskoeffizient
- Momente und weitere Kennwerte: Schiefe und Steilheit
• Mathematische Grundlagen
Summenzeichen, Produktzeichen, Logarithmen und Potenzieren
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
186
Stichprobe und Grundgesamtheit
Viele Anwendungen der Statistik beziehen sich auf Stichprobendaten, mit deren Hilfe auf
Eigenschaften der Grundgesamtheiten rückgeschlossen werden soll, aus denen die Stichprobe
kommt.
Beispiel: In der Stichprobe des ALLBUS 1996 gaben 13.3 % von 3494 Befragten
mit gültigen Antworten an, dass Sie die Wirtschaftslage in Deutschland
für sehr gut oder gut hielten.
Daraus wird geschlossen, dass gut 13% der Wohnbevölkerung in
Deutschland 1996 die Wirtschaftslage für gut oder sehr gut hielten.
Aber:
Die Verallgemeinerung von den Ergebnisse einer Teilmenge auf eine größere Gesamtmenge ist
ein Induktionsschluss, bei dem sich prinzipiell nicht ausschließen lässt, dass er unzutreffend ist.
Möglicherweise hielten 1996 95% oder auch nur 5% die Wirtschaftslage für
gut oder sehr gut.
Bei 3494 Befragten von vielen Millionen Personen, über die eine Aussage gemacht wird, sind
nahezu alle Ergebnisse möglich.
Sicher ist nur, dass es 1996 mindestens 465 (= 13.3% von 3494) Befragten
gab, die die Wirtschaftslage für gut oder sehr gut hielten.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
187
Stichprobe und Grundgesamtheit
Auch mit Hilfe der Statistik kann die logische Möglichkeit eines falschen Induktionsschlusses
nicht vermieden werden.
Aber:
Die Statistik
• kann Hinweise dazu geben, wie die Fälle einer Stichprobe ausgewählt werden sollten,
damit die Wahrscheinlichkeit korrekter Schlüsse von einer Stichprobe auf die Grundgesamtheit (Population) möglichst hoch ist,
• und bei Wahrscheinlichkeitsauswahlen das Risiko von Fehlschlüssen berechenbar machen.
In einer Wahrscheinlichkeitsauswahl (oder Zufallsauswahl) besteht für jedes Element einer
Grundgesamtheit eine prinzipiell angebbare Wahrscheinlichkeit größer null, dass das Element
in die Stichprobe aufgenommen wird.
Um diese Behauptungen, die die Rechtfertigung für die schließende Statistik bilden, nachvollziehbar zu machen, sind Grundkenntnisse über Wahrscheinlichkeitstheorie notwendig.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
188
Zufallsexperimente und Wahrscheinlichkeit
Beispiel:
In einem entlegendem Dorf leben 6 Familien, die ein monatliches Haushaltseinkommen
von 1000, 2000, 3000, 4000, 5000 und 6000 Euro haben.
Ein Statistiker wählt mit Hilfe eines Würfels zufällig genau eine Familie aus, um diese
zu befragen. Dazu nummeriert er die Haushalte mit Zahlen von 1 bis 6 durch.
Wenn beim Würfeln eine 1 resultiert, wird der erste Haushalt ausgewählt, wenn eine 2
resuliert, der zweite, usw..
Unsicher, ob die Befragung eines Haushalts Aussagen über das gesamte Dorf ermöglicht,
wiederholt der Statistiker eine Woche später diesen Auswahlprozess und befragt ein
weiteres Mal genau einen der sechs Haushalte.
Der Einfachheit halber wird angenommen, dass die Nummer des Haushalts gerade dem
Haushaltseinkommen entspricht, also Haushalt Nr. 1 über 1000€ pro Monat verfügt, Haushalt
Nr. 2 über 2000€, Nr. 3 über 3000E, Nr. 4 über 4000€, Nr. 5 über 5000 € und Nr. 6 über 6000€.
Die Gesamtheit aller möglichen Ergebnisse der zweimaligen Befragung von jeweils einem
Haushalt lässt sich dann grafisch als Punkte in einem Koordinatensystem visualiseren.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
189
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
In der statistischen Modellierung des Beispiel wird davon ausgegangen, dass die zweimalige
Befragung als Zufallsexperiment aufgefasst werden kann.
Ein Zufallsexperiment ist eine Situation,
• die (theoretisch) unter gleichen Bedingungen beliebig oft wiederholbar ist,
• deren Resultat genau eines von mehreren möglichen Ereignissen einer Ereignismenge (des
Ereignisraums) ist, das auch als Universum bezeichnet und durch Ω (Omega) symbolisiert
wird, und
• das vor seinem Auftreten unbekannt ist.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
190
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
In der Abbildung steht jeder Punkt für ein mögliches Ereignis.
+ Der rot umrandete Punkt (1,4) steht für das Ereignis, Befragung des Haushalts Nr. 1 in der
ersten Befragung und des Haushalts Nr. 4 in der zweiten Befragung.
+ Entsprechend steht der blau umrandete Punkt (5,5) für das Ereignis, sowohl in der ersten
wie der zweiten Befragung Haushalt Nr. 5 zu erfassen.
+ Es ist möglich, komplexe Ereignisse zu definieren, z.B. „Das Erzielen einer ‚1‘ im ersten
Wurf“.
Bei diesem Ereignis wird zuerst der Haushalt Nr. 1 befragt und bei der zweiten Befragung der
Haushalt Nr. 1 oder Nr. 2 oder Nr. 3 oder Nr. 4 oder Nr. 5 oder Nr. 6.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
191
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
B
5
A
4
D
3
2
1
C
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Die Ereignisse A und B sind disjunkt:
Es ist unmöglich, in der ersten Befragung Haushalt 1 sowie in der zweiten
Befragung Haushalt 4 zu befragen und
gleichzeitig in beiden Befragungen
Haushalt 5 zu befragen.
Die Ereignisse C und D sind nicht disjunkt:
Es ist möglich, in der ersten Befragung
Haushalt 1 (Ereignis C) und in der
zweiten Befragung Haushalt 2 (Ereignis
D) zu befragen.
In einem Ereignisraum eines Zufallsexperiments werden Ereignisse oft durch große Buchstaben
bezeichnet:
A kann z.B. das Ereignis bezeichnen, bei der ersten Befragung Haushalt 1 und bei zweiten
Haushalt 4 zu befragen,
B das Ereignis, in beiden Befragungen Haushalt Nr. 5 zu befragen,
C das (komplexe) Ereignis, in der ersten Befragung Haushalt Nr. 1 zu befragen,
und D das Ereignis, in der zweiten Befragung Haushalt Nr. 2 zu befragen.
Zwei Ereignisse A und B heißen disjunkt, wenn sie nicht gleichzeitig auftreten können.
Die Schnittmenge A∩B ist dann die leere Menge {}.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
192
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
5
A
4
3
2
1
C
0
0
1
2
3
4
5
Das zu einem Ereignis komplementäre
Ereignis wird oft durch das Symbol ¬
B
(„nicht“) dargestellt, da das
Komplementärereignis das „Gegenteil“
D
eines Ereignisse ist.
Das Ereignis ¬C ist das Komplentärereignis zum Ereignis C,
im Beispiel ist ¬C das Ereignis, in der
¬C ersten Befragung nicht Haushalt 1 zu
befragen.
6
Haushaltsnummer der ersten Befragung
Es ist möglich disjunkte wie nicht disjunkte Ereignisse zu einem komplexen Ereignis
zusammenzufassen:
Das komplexe Ereignis A oder B fasst die beiden disjunkten Ereignisse A und B zusammen;
das komplexe Ereignis C oder D die beiden nicht disjunkten Ereignisse C und D.
Formal werden solche Zusammenfassungen oder Vereinigungen von Mengen durch das Symbol
∪ dargestellt: A ∪ B ist die Vereinigungsmenge von A und B.
Zwei disjunkte Ereignisse heißen komplementär, wenn ihre Vereinigungsmenge den gesamten
Ereignisraum Ω umfasst.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
193
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
Apriori-Wahrscheinlichkeit
Wenn ein Zufallsexperiment zu n
Elementarereignissen führen kann, ist
die Wahrscheinlichkeit jedes Elementarereignisses gleich 1/n.
5
4
3
2
1
0
0
1
2
3
4
5
6
Im Beispiel ist dann die Wahrscheinlichkeit jedes der 36 Elementarereignisse genau 1/36.
Haushaltsnummer der ersten Befragung
Eine exhaustive Zerlegung ist die vollständige Aufteilung eines Ereignisraums Ω in disjunkte
Teilmengen, so dass die Vereinigungsmenge dieser Teilmengen den gesamten Ereignisraum
umfasst.
Die Ereignisse einer exhaustiven Zerlegung heißen Elementarereignisse, wenn diese Ereignisse
nicht weiter in Teilereignisse zerlegt werden können,
d.h. Elementarereignisse sind die kleinstmöglichen Teilereignisse eines Universums.
In der Abbildung ist jeder Punkt ein Elementarereignis. Die insgesamt 36 Punkte ergeben eine
exhaustive Zerlegung des Ereignisraums.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
194
Haushaltsnummer der zweiten
Befragung
Zufallsexperimente und Wahrscheinlichkeit
6
B
5
A
4
D
3
2
1
C
0
0
1
2
3
4
5
Klassicher Wahrscheinlichkeitsbegriff
Im Sinne der Apriori-Wahrscheinlichkeit wurde nach der klassichen Vorstellung die Wahrscheinlichkeit eines
Ereignisses als Zahl der günstigen
Möglichkeiten durch die Zahl der
¬C Möglichkeiten insgesamt berechnet.
6
Haushaltsnummer der ersten Befragung
Entsprechend dieser Vorstellung beträgt die Wahrscheinlichkeit des Eignisses A wie auch des
Ereignisses B jeweils 1/36.
Die Wahrscheinlichkeit des Ereignisses C beträgt dann 6/36 oder 1/6.
Die gleiche Wahrscheinlichkeit von 1/6 hat auch das Ereignisses D.
Das zu C komplementäre Ereignis ¬C hat dann die Wahrscheinlichkeit 30/36 oder 5/6
Die Wahrscheinlichkeit des Ereignissraums Ω beträgt also 36/36 = 1.
Wenn „Pr“ für die Wahrscheinlichkeit eines Ereignisses steht, dann gilt also:
Pr(¬C) = Pr(Ω) – Pr(C) = 1 – 1/6 = 5/6.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
195
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie
6
B
5
A
4
Im Beispiel:
Pr (A) = Pr(B) = 1/36
Pr(A∪B) = 1/36 + 1/36 = 2/36
D
3
2
1
C
0
0
1
2
3
4
5
6
Pr(C) = 6/36
Pr(B) + Pr(C) = 7/36
Die Wahrscheinlichkeit, bei der ersten
Befragung Haushalt 1 zu erreichen
oder bei beiden Befragungen Haushalt
5, beträgt 7/36.
Haushaltsnummer der ersten Befragung
Die klassischen Überlegungen über Wahrscheinlichkeiten wurden in der axiomatischen Wahrscheinlichkeitstheorie zu drei Axiomen zusammengefasst:
A1 Die Wahrscheinlichkeit jedes beliebigen Ereignisses A ist eine relle Zahl zwischen null
und eins:
0 ≤ Pr(A) ≤ 1
A2 Irgendein Ereignis des Ereignisraums (Universums) Ω muss auftreten. Die Wahrscheinlichkeit des Universums ist daher das sichere Ereignis mit der Wahrscheinlichkeit 1:
Pr(Ω) = 1
A3 Die Wahrscheinlichkeit der Vereinigungsmenge zweier disjunkter Ereignisse A oder B ist
die Summe der Wahrscheinlichkeit von A und der Wahrscheinlichkeit von B
Pr(A∪B) = Pr(A) + Pr(B) wenn A∩B = {}
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
196
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Additionstheorem
6
B
5
A
4
D
3
Im Beispiel:
Pr(C∪D) = Pr(C) + Pr(D) – PR(C∩D)
= 6/36 + 6/36 – 1/36
= 11/36
Pr(A∪C) = Pr(A) + Pr(C) – PR(A∩C)
= 1/36 + 6/36 – 1/36
= 6/36
2
1
C
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Pr(B∪D) = Pr(B) + Pr(D) – PR(B∩D)
= 1/36 + 6/36 – 0/36
= 7/36
Aus den drei Axiomen der Wahrscheinlichkeitstheorie folgt für die Wahrscheinlichkeit der
Vereinigungsmenge zweier beliebiger (disjunkter wie nicht disjunkter) Ereignisse A und B:
Pr(A∪B) = Pr(A) + Pr(B) – Pr(A∩B)
Dieser Satz wird als Additionstheorem der Wahrscheinlichkeitstheorie bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
197
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Wahrscheinlichkeit bedingter Ereignisse
6
B
5
A
4
Im Beispiel:
Pr(A|C) = Pr(A∩C) / Pr(C)
= 1/36 / 6/36 = 1/6
D
3
Pr(D|C) = Pr(D∩C) / Pr(C)
= 1/36 / 6/36 = 1/6
2
1
C
0
0
1
2
3
4
5
6
Pr(B|C) = Pr(B∩C) / Pr(C)
= 0/36 / 6/36 = 0
Haushaltsnummer der ersten Befragung
Oft ist man an der Wahrscheinlichkeit des Auftretens eines Ereignisses A unter der Bedingung
interessiert, dass ein zweites Ereignis B auftritt.
Das Ereignis B wird dann als bedingendes Ereignis bezeichnet, das Ereignis A als bedingtes
Ereignis.
Da das Auftreten des bedingendes Ereignisses B vorausgesetzt wird, reduziert sich der mögliche
Ereignisraum für das bedingte Ereigniss A auf das Auftreten des bedingten Ereignises B.
Die bedingte Wahrscheinlichkeit des Ereignisses A gegeben B ist daher die Wahrscheinlichkeit, dass A und B gemeinsam auftreten, geteilt durch die Wahrscheinlichkeit, dass B auftritt:
Pr(A|B) = Pr(A∩B) / Pr(B)
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
198
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Wahrscheinlichkeit bedingter Ereignisse
6
B
5
A
4
Im Beispiel:
Pr(C|D) = Pr(C∩D) / Pr(D)
= 1/36 / 6/36 = 1/6
D
3
Die Wahrscheinlichkeit in der ersten
Befragung Haushalt 1 zu erreichen,
wenn in der zweiten Befragung Haushalt 2 erreicht werden wird, beträgt 1/6.
2
1
C
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Bedingte Wahrscheinlichkeiten bilden die Grundlage der statistischen Zusammenhangsanalyse.
Zu beachten ist, dass es sich zunächst um rein formale Aussagen handelt, ohne einen zeitlichen
Bezug, wie er z.B. bei kausalen Beziehungen vorausgesetzt wird.
Es ist daher auch möglich, die bedingte Wahrscheinlichkeit eines Ereignisses zu berechnen
unter der Bedingung, dass ein später eintretendes Ereignis eintreten wird.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
199
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Statistische Unabhängigkeit
6
B
5
A
4
D
3
2
1
C
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Im Beispiel:
Da Pr(D|C) = 1/6 gleich Pr(D) = 1/6,
sind C und D statistisch unabhängig
voneinander.
Da Pr(A|C) = 1/6 ungleich Pr(A) = 1/36,
sind A und C nicht statistisch unabhängig voneinander.
Da Pr(B|C) = 0 ungleich Pr(B) = 1/36,
sind B und C nicht unabhämgig voneinander. Disjunkte Ereignisse sind nicht
statistisch unabhängig voneinander!
Über die bedingte Wahrscheinlichkeit wird die statistische Unabhängigkeit definiert:
Zwei Ereignisse A und B sind genau dann statistisch unabhängig voneinander,
wenn die bedingte Wahrscheinlichkeit von A gegeben B gleich der (unbedingten)
Wahrscheinlichkeit von A ist
bzw. die bedingte Wahrscheinlichkeit von B gegeben A gleich der (unbedingten)
Wahrscheinlichkeit von B ist:
Pr(A|B) = Pr(A)
Pr(B|A) = Pr(B)
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
200
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Multiplikationstheorem
6
B
5
A
4
D
Im Beispiel:
Pr(A∩C) = Pr(A|C) · Pr(C)
= 1/6 ·1/6 = 1/36
Pr(B∩C) = Pr(B|C) · Pr(C) = 0/6 ·1/6 = 0
3
2
1
C
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Pr(C∩D) = Pr(C|D) · Pr(D)
= Pr(C) · PrD) = 1/6 ·1/6
Bei statistischer Unabhängigkeit ist das
gemeinsame (gleichzeitige) Auftreten
zweier Ereignisse gleich dem Produkt der
beiden Auftretenswahrscheinlichkeiten!
Eine Umformung der Definition der Wahrscheinlichkeit eines bedingten Ereignisses zeigt, dass
die Wahrscheinlichkeit des gleichzeitigen Auftretens zweier Ereignisse gleich dem Produkt der
bedingten Wahrscheinlichkeit des einen Ereignisse und der unbedingten Wahrscheinlichkeit des
bedingenden Ereignisses ist:
P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A)
Dieser Zusammenhang ist als Multiplikationstheorem bekannt.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
201
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Theorem von Bayes
6
Im Beispiel:
Pr(D) = Pr(D∩C) + Pr(D∩¬C)
= 1/36 + 5/36 = 6/36
= Pr(D|C) · Pr(C)
+ Pr(D|¬C) · Pr(¬C)
D
= 1/6 ·6/36 + 5/30 · 30/36
5
4
3
2
1
¬C
C
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Mit Hilfe der unbedingten Wahrscheinlichkeiten lassen sich bei bedingten Wahrscheinlichkeiten bedingtes und bedingendes Ereignis austauschen.
Zunächst ist ein Zwischenschritt nötig:
Da ein Ereignis A undsein Komplementärereignis ¬A eine exhaustive Zerlegung des Universums bilden, ist die Wahrscheinlichkeit eines beliebigen Ereignisses B gleich der Summe der
Wahrscheinlichkeiten des gleichzeitigen Auftretens von A und B sowie der von ¬A und B:
Pr ( B ) = Pr ( A ∩ B ) + Pr ( ¬A ∩ B )
= Pr ( B A ) ⋅ Pr(A) + Pr ( B ¬A ) ⋅ Pr(¬A)
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
202
Haushaltsnummer der zweiten
Befragung
Axiomatische Wahrscheinlichkeitstheorie: Theorem von Bayes
6
Im Beispiel:
Pr ( D C ) ⋅ Pr ( C ) 1/ 6 ⋅1/ 6
Pr ( C D ) =
=
Pr(D)
1/ 6
5
4
3
D=
2
1
¬C
C
0
0
1
2
3
4
5
=
Pr ( D C ) ⋅ Pr ( C )
Pr ( D C ) ⋅ Pr ( C ) + Pr ( D ¬C ) ⋅ Pr ( ¬C )
1/ 6 ⋅1/ 6
1/ 6 ⋅1/ 6 + 5 / 30 ⋅ 30 / 36
6
Haushaltsnummer der ersten Befragung
Die bedingte Wahrscheinlichkeit von A gegeben B ist dann eine Funktion der bedingten
Wahrscheinlichkeiten von B gegeben A und von B gegeben ¬A:
Pr ( A B ) =
=
Pr ( A ∩ B ) Pr ( B A ) ⋅ Pr ( A )
=
Pr ( B )
Pr ( B )
Pr ( B A ) ⋅ Pr ( A )
Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A )
Diese Beziehung ist als Satz von Bayes oder Bayessches Theorem bekannt.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
203
Anwendung des Theorem von Bayes: Kumulierung von Wissen
Der Satz von Bayes ist die Grundlage der Bayesschen Statistik, in der u.a. versucht wird, mit
Hilfe von Daten Wissen zu kumulieren.
Ausgangspunkt ist die subjektive Wahrscheinlichkeit über ein Ereignis A, das ist die Sicherheit,
mit der eine Ausage für wahr gehalten wird.
Beispiel: Die Aussage „50% halten die Wirtschaftslage für gut“ wird durch A symbolisiert.
Es wird vermutet, dass diese Aussage mit einer subjektiven Apriori-Wahrscheinlichkeit Pr(A) = 0.5 wahr ist
In einer Stichprobe von 100 Peronen zeigt sich, dass nur 40% der Bevökerung die Wirtschaftslage für gut halten. Dies ist das empirische Datum B.
Die Wahrscheinlichkeit, dass von 100 Personen maximal 40% die Wirtschaftslage für gut halten,
wenn es tatsächlich 50% in der Population sind, beträgt Pr(B|A) = 0.025.
Da die Wahrscheinlichkeit der beobachteten Daten (Ereignis B) eins ist, P(B)=1, folgt nach dem
Satz von Bayes:
(
)
Pr ( A B ) = Pr ( B A ) ⋅ Pr ( A ) / Pr ( B ) = ( 0.025 ⋅ 0.5 ) /1 = 0.0125
Angesichts der Daten sinkt die subjektive Wahrscheinlichkeit von 0.5 auf nur noch 0.0125,
Dies ist die sogenante Aposteriori-Wahrscheinlichkeit.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
204
Anwendung des Theorem von Bayes: Vermeidung von Fehlurteilen
Der Satz von Bayes kann auch helfen, Fehlschlüsse zu vermeiden.
Beispiel: Mit Hilfe eines Tests wird mit einer Wahrscheinlichkeit von 1 entdeckt, ob ein
Vogel an der gefährlichen Form der Vogelgrippe gestorben ist;
mit einer Fehlerwahrscheinlichkeit von 1% (=0.01) wird bei einem toten Vogel
fälschlicherweise Vogelgrippe diagnostiziert, obwohl sie nicht vorliegt.
In einer Region haben 0.1% (=0.001) der Vögel Vogelgrippe.
Bei einem toten Vogel zeigt der Test Vogelgrippe an.
Wie wahrscheinlich ist es, dass der Vogel tatsächlich an der Vogelgrippe gestorben
ist?
Intuitiv möchte man meinen, dass die gesuchte Wahrscheinlichkeit 99% beträgt, da der Test nur
1% Fehler macht.
Tatsächlich ergibt sich eine Wahrscheinlichkeit von nur gut 9%.
A ist das Ereignis „Vogel hat Vogelgrippe“, B das Ereignis „Test zeigt Vogelgrippe an“.
Die gesuchte Wahrscheinlichkeit ist dann die bedingte Wahrscheinlichkeit, dass ein Vogel
Vogelgrippe hat, wenn der Test dies anzeigt: Pr(A|B).
Mit Hilfe des Satzes von Bayes errechnet sich diese Wahrscheinlichkeit als:
Pr ( A B ) =
Pr ( B A ) ⋅ Pr ( A )
Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A )
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
=
1 ⋅ 0.001
= 0.091
1 ⋅ 0.001 + 0.01 ⋅ 0.999
205
Stichprobenziehung bei einfachen Zufallsauswahlen
Eine wichtige Anwendung der Wahrscheinlichkeitstheorie in den Sozialwissenschaften besteht
in der Bewertung von Stichproben.
Eine Population enthält N Elemente, von denen n mit gleicher Wahrscheinlichkeit zufällig
ausgewählt werden sollen.
Die Auswahl kann mittels einer Urne erfolgen. Dabei wird wie bei einer Lotterie für jede der N
Elemente eine numerierte Kugel mit der Fallnummer des Elements in eine Urne gelegt, die gut
durchmischt wird. Nacheinander werden dann n Kugeln gezogen. Die Nummern auf den gezogenen Kugeln bestimmen die ausgewählten Elemente, die in die Stichprobe aufgenommen
werden.
Vor der ersten Ziehung sind N Kugeln in der Urne. Es gibt somit auch N mögliche Resultate.
Nach der ersten Ziehung sind nur noch (N–1) Kugeln in der Urne, so dass für die zweite
Ziehung noch (N–1) Möglichkeiten verbleiben.
Nach der zweiten Ziehung sind noch (N–2) Kugeln in der Urne, so dass es in der dritten Ziehung
noch (N–2) Möglichkeiten gibt.
Nach jeder Ziehung reduziert sich die Zahl der Kugeln in der Urne um 1. Vor der n-ten Ziehung
sind somit (N–n+1) Kugeln in der Urne, nach der n-ten Ziehung (N–n) Kugeln.
Grafisch lässt sich das gesamt Vorgehen mit Hilfe eines Ereignisbaums darstellen.
Um übersichtlich zu bleiben, wird als Beispiel die Auswahl von n=2 Elementen (Fällen) aus
N=4 Elementen einer Population dargestellt.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
206
Urnenmodell einer einfachen Zufallsauswahl ohne Zurücklegen
12
34
1
2
2
34
2
34
3
24
Vor der ersten Ziehung
3
1
34
4
1
23
34
3
14
4
Erste Ziehung
12
4
4
1
13
24
2
14
12
3
4
1
12
23
2
13
Vor der zweiten Ziehung
3
Zweite Ziehung
12
Nach der zweiten Ziehung
{1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe
Insgesamt gibt es im Beispiel 12 = 4 · 3 mögliche Ergebnisse des Zufallsexperiments „Zufälliges
Ziehen von n=2 Elemenen aus N=4 Elementen“.
Geht man davon aus, dass bei jedem Ziehungsschritt die gleiche Auswahlwahrscheinlichkeit für
eine der Kugeln in der Urne vorliegt, dann bträgt die Wahrscheinlichkeit für jedes Ergebnis vor
der ersten Ziehung 1/4 und vor der zweiten Ziehung 1/3.
Nach dem Multiplikationstheorem der Wahrscheinlichkeitstheorie beträgt dann die Wahrscheinlichkeit jeder Stichprobe 1/12 (= 1/4 ·1/3).
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
207
Urnenmodell einer einfachen Zufallsauswahl ohne Zurücklegen
12
34
1
2
2
34
2
34
3
24
Vor der ersten Ziehung
3
1
34
4
1
23
34
3
14
4
Erste Ziehung
12
4
4
1
13
24
2
14
12
3
4
1
12
23
2
13
Vor der zweiten Ziehung
3
Zweite Ziehung
12
Nach der zweiten Ziehung
{1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe
In einer Stichprobe kommt jede Nummer genau einmal vor.
Über alle 12 Stichproben kommt jede Nummer genau sechsmal vor. Die Wahrscheinlichkeit,
dass ein beliebiges Element ausgewählt wird, beträgt also für jede Nummer 6/12 bzw. 0.5.
Es gibt jeweils zwei Stichproben mit gleichen Fällen, z.B. {1,2} und {2,1}.
Eine Wahrscheinlichkeitsauswahl heißt einfache Zufallsauswahl, wenn jedes Element mit
gleicher Wahrscheinlichkeit und auch jede mögliche Stichprobe gleicher Fallzahl mit jeweils
gleicher Wahrscheinlichkeit ausgewählt wird.
Da jedes Element nur einmal ausgewählt werden kann, handelt es sich um eine einfache
Zufallsauswahl ohne Zurücklegen.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
208
Urnenmodell einer einfachen Zufallsauswahl mit Zurücklegen
12
3
1
2
12
3
1
12
3
2
12
3
Vor der ersten Ziehung
3
Erste Ziehung
12
3
3
12
3
1
12
3
2
12
3
12
3
3
1
12
3
12
3
2
12
3
Vor der zweiten Ziehung
3
Zweite Ziehung
12
3
{1,1} {1,2} {1,3} {2,1} {2,2} {2,3} {3,1} {3,2} {3,3}
Nach der zweiten Ziehung
Resultierende Stichprobe
Bei einer einfachen Zufallsauswahl mit Zurücklegen kann jede Nummer mehrfach ausgewählt
werden, da die entsprechende Kugel nach der Ziehung wieder in die Urne zurückgelegt wird.
Das Beispiel zeigt eine einfache Zufallsauswahl mit Zurücklegen von n=2 Elementen aus N=3
Elementen.
Vor jeder Ziehung beträgt die Auswahlwahrscheinlichkeit jeder Nummer 1/3. Die einzelnen
Ziehungen sind statistisch unabhängig voneinander. Die Auswahlwahrscheinlichkeit jeder
Stichprobe beträgt daher 1/9 (= 1/3 · 1/3).
Im Beispiel wird jedes Element insgesamt sechsmal in fünf Stichproben ausgewählt. Die Wahrscheinlichkeit ein beliebiges Element genau einmal auszuwählen, beträgt 4/9, die Wahrscheinlichkeit ein beliebieges Element zweimal auszuwählen, 1/9.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
209
Kombinatorik: Permutationen, Variationen, Kombinationen
Mit Hilfe der Kombinatorik lassen sich für den allgemeinen Fall Formeln angeben, mit denen
sich die Zahl der Stichproben berechnen lassen.
Bei einer einfachen Zufallsauswahl ohne Zurücklegen von n Elememten aus N Elementen gibt
n
es
N Vn = N ⋅ (N − 1) ⋅ (N − 2) ⋅ … (N − n + 2) ⋅ (N − n + 1) = ∏ ( N − i + 1)
Produkt aus n Faktoren
i =1
verschiedene Stichproben, wenn die Reihenfolge der Auswahl berücksichtigt wird, bei einer
Auswahl von z.B. n=2 aus N=4 Elementen die Stichprobe {1,2} von der Stichprobe {2,1}
unterschieden wird.
In der Kombinatorik bezeichnet man diese Zahl der Möglichkeiten als Variationen ohne
Zurücklegen, die durch das Symbol NVn abgekürzt wird.
Werden der Reihe nach alle N Elemente der Population ausgewählt, gibt es offenbar
PN = N ⋅ ( N − 1) ⋅ (N − 2) ⋅…3 ⋅ 2 ⋅1 = N!
Produkt aus N Faktoren
unterscheidbare Reihenfolgen, die einzelnen Elemente auszuwählen.
In der Kombinatorik spricht man in diesem Zusammenhang von PN Permutationen. Bei
insgesamt N Elementen gibt es N! (sprich: „groß N-Fakultät“ oder „Fakultät von groß N“)
Permutationen.
Das Ausrufungszeichen hinter der Zahl steht für das Fakultätszeichen. Bei der Berchnung einer
Fakultät ist die Fakultät von 0 definitorisch auf den Wert 1 festgesetzt: 0! = 1! = 1.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
210
Kombinatorik: Permutationen, Variationen, Kombinationen
Mit Hilfe des Fakultätssymbols lässt sich die Zahl der Variationen auch als Quotient zweier
Permutationen darstellen:
N Vn =
P
N ⋅ (N − 1) ⋅ (N − 2) ⋅… (N − n + 1) ⋅ (N − n) ⋅ (N − n − 1) ⋅… 2 ⋅1
N!
=
= N
(N − n) ⋅ (N − n − 1) ⋅… 2 ⋅1
( N − n )! PN −n
In der Regel interessiert nicht die Reihenfolge, in der ein Element ausgewählt wird.
Wichtig ist allein, ob es ausgewählt worden ist oder ob es nicht ausgewählt worden ist.
Wenn die Anordnung in der Stichprobe keine Rolle spielt, also z.B. die Stichprobe {1,2} von der
Stichprobe {2,1} nicht unterschieden werden soll, reduziert sich die Anzahl der unterscheidbaren Stichproben.
Da es bei n Elementen in der Stichprobe n! veschiedene Permutationen der Anordnung (d.h. der
Ziehungsreihenfolge) gibt, berechnet sich die Zahl der Kombinationen mit Zurücklegen, das ist
die Zahl der Möglichkeiten n Elemente aus N ohne Berücksichtigung der Anordnung auszuwählen nach:
N!
N − n )!
(
N!
N ⋅ (N − 1) ⋅… ⋅ (N − n + 1) ⎛ N ⎞
N Vn
=
=
=
=⎜ ⎟
N Kn =
Pn
n!
n ⋅ (n − 1) ⋅… ⋅ 2 ⋅1
( N − n )!⋅ n!
⎝n⎠
Der ganz rechts stehende Ausdruck heißt Binomialkoeffizient und wird „a über b“ gesprochen,
bei der Zahl der Kombinationen also als „groß N über klein n“.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
211
Kombinatorik: Permutationen, Variationen, Kombinationen
Generell berechnet sich ein Binomialkoeffizient nach
b
a − i + 1)
⎛a⎞
(
a!
a ⋅ (a − 1) ⋅ (a − 2) ⋅… 2 ⋅1
⎜ b ⎟ = b!⋅ a − b ! = b ⋅ (b − 1) ⋅ (b − 2) ⋅… 2 ⋅1 ⋅ (a − b) ⋅ (a − b − 1) ⋅ … ⋅ 2 ⋅1 = ∏
i
(
)
i =1
⎝ ⎠
wobei davon ausgegangen wird, dass die untere Zahl (b) kleiner ist als die obere Zahl (a).
Aus der Anzahl der Variationen und Kombiationen lassen sich die Stichprobenwahrscheinlichkeiten bei einfachen Zufallsauswahlen ohne Zurücklegen direkt berechnen, da diese sich aus
den Kehrwerten der Zahl möglicher Stichproben ergeben.
Bei Berücksichtigung der Reihenfolge beträgt die Wahrscheinlichkeit jeder Stichprobe bei einer
einfachen Zufallsauswahl ohne Zurücklegen von n aus N Elementen:
N − n )!
(
1
Pr ( jede Stichprobe ) =
=
V
N!
N n
Ohne Berücksichtigung der Reihenfolge beträgt die Wahrscheinlichkeit jeder Stichprobe bei
einer einfachen Zufallsauswahl ohne Zurücklegen von n aus N Elementen:
n!⋅ ( N − n )!
1
Pr ( jede Stichprobe ) =
=
K
N!
N
n
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
212
Kombinatorik: Permutationen, Variationen, Kombinationen
12
34
1
2
2
34
2
34
3
24
Vor der ersten Ziehung
3
1
34
4
1
23
34
3
14
4
Erste Ziehung
12
4
4
1
13
24
2
14
12
3
4
1
12
23
2
13
Vor der zweiten Ziehung
3
Zweite Ziehung
12
Nach der zweiten Ziehung
{1,2} {1,3} {1,4} {2,1} {2,3} {2,4} {3,1} {3,2} {3,4} {4,1} {4,2} {4,3} Resultierende Stichprobe
Pr ( jede Stichprobe ) =
( N − n )! = ( 4 − 2 )! = 2 = 1
1
=
N!
4!
24 12
N Vn
mit Berücksichtigung
der Reihenfolge
Pr ( jede Stichprobe ) =
n!⋅ ( N − n )! 2!⋅ 2! 4 1
1
=
=
=
=
N!
4!
24 6
N Kn
ohne Berücksichtigung
der Reihenfolge
Im Beispiel von n=2 aus N=4 beträgt die Ziehungswahrscheinlichkeit entsprechend (4–2)!/4! =
2/24 = 1/12 ohne Berücksichtgung und 2!(4-2)!/4! = 4/24 = 1/6 mit Berücksichtigung der
Reihenfolge.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
213
Kombinatorik: Permutationen, Variationen, Kombinationen
Bei einfachen Zufallsauswahlen mit Zurücklegen wird die Berechnung der Auswahlwahrscheinlichkeiten komplizierter, wenn die Reihenfolge berücksichtig wird.
Ohne Berücksichtigung der Reihenfolge gibt es bei jeder der n Ziehungen N Auswahlmöglichkeiten (Varationen), so dass insgesamt Nn Auswahlmöglichkeiten vorliegen, die Auswahlwahrscheinlichkeit jeder Stichprobe beträgt entsprechend:
1
1
Pr ( jede Stichprobe ) = n =
N
N ⋅ N ⋅… ⋅ N
Produkt aus n Faktoren
Bei Berücksichtigung der Reihenfolge ist zu beachten, dass ein ausgewähltes Element in einer
Stichprobe mehrfach vorkommen kann. Im Beispiel der Ziehung von n=2 aus N=3 Elementen
gibt es so N = 3 Stichproben mit zwei gleichen Elementen und N·(N–1) = 6 Stichproben mit
unterschiedlichen Elementen, wobei ohne Berücksichtigung der Reihenfolge jeweils 2 Stichproben ununterscheidbar sind.
Wenn n=3 Elemente ausgewählt werden, gibt es N = 3 Stichproben mit jeweils drei gleichen
Elementen und einer Anordnung, N·(N–1) = 6 Stichproben mit zwei gleichen Elementen und
jeweils „n über 2“ = 3 unterschiedlichen Anordnungen, also insgesamt 18 Stichproben und 1
Stichprobe mit drei verschiedenen Elementen, die in n! = 6 Reihenfolgen gezogen werden
können.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
214
Kombinatorik: Permutationen, Variationen, Kombinationen
Wenn n>3 oder N>3 steigt die Zahl der Möglichkeiten weiter an. Im allgemeinen Fall gibt es bei
einer einfachen Zufallsauswahl von n aus n Elementen mit Zurücklegen insgesamt
⎛ N + n − 1⎞
⎜
⎟
n
⎝
⎠
Kombinationen, also unterscheidbare Stichproben, bei denen die Reihenfolge der Ziehung keine
Rolle spielt.
Die Auswahlwahrscheinlichkeiten unterscheiden sich dabei je nach Anzahl der Mehrfachziehungen eines Elements.
Bei n=2 aus N=3 gibt es „4 über 2“ = 6 unterscheidbare Stichproben ohne Berücksichtigung der
Anordnung.
Die Auswahlwahrscheinlichkeit jeder der 3 Stichproben mit gleichen Elementen beträgt 1/9,
die jeder der 3 Stichproben mit verschiedenen Elementen 2/9.
Bei n=3 aus N=3 Elementen gibt es 10 unterscheidbare Stichproben ohne Berücksichtigung der
Anordnung.
Die N=3 Stichproben mit drei gleichen Elementen haben jeweils eine Auswahlwahrscheinlichkeit von 1/33 = 1/27 , die N·(N–1) = 6 Stichproben mit jeweils zwei gleichen Elementen haben
eine Auswahlwahrscheinlichkeit von jeweils 3/27 = 1/9 und die 1 Stichprobe mit unterschiedlichen Elementen hat eine Auswahlwahrscheinlichkeit von 6/27 = 2/9 .
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
215
Kombinatorik: Permutationen, Variationen, Kombinationen
12
3
1
2
12
3
1
12
3
2
12
3
Vor der ersten Ziehung
3
Erste Ziehung
12
3
3
12
3
1
12
3
2
12
3
3
12
3
1
12
3
12
3
2
12
3
Vor der zweiten Ziehung
3
Zweite Ziehung
12
3
{1,1} {1,2} {1,3} {2,1} {2,2} {2,3} {3,1} {3,2} {3,3}
Pr ( jede Stichprobe ) =
1
1
1 1
=
=
=
n
2
N
N ⋅ N ⋅… ⋅ N 3 9
Nach der zweiten Ziehung
Resultierende Stichprobe
mit Berücksichtigung
der Reihenfolge
Produkt aus n Faktoren
⎛ N + n − 1⎞ ⎛ 3+2-1⎞
=⎜
=6 Stichproben,
⎜
⎟
⎟
n
⎝
⎠ ⎝ 2 ⎠
ohne Berücksichtigung
der Reihenfolge
1 1
=
n
N
9
n! 2
und: Pr ( jede Stichprobe mit unterschiedlichen Elementen ) = n =
N
9
mit: Pr ( jede Stichprobe mit identischen Elementen ) =
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
216
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Die Berechnung der Ziehungswahrscheinlichkeit einer Stichprobe ist nur der erste Schritt bei der
Abschätzung der Risiken von Fehlentscheidungen bei Induktionsschlüssen von einer Stichprobe
auf die Population, aus der die Stichprobe kommt.
Es sind nämlich nicht die Stichproben an sich, sondern Kennwerte, die aus den Verteilungen der
Stichproben berechnet werden, die als Schätzung entsprechender Kennwerte in der Population
herangezogen werden.
So kann das Ausgangsbeispiel der zweimaligen Befragung von jeweils einem von 6 Haushalten
eines Dorfes als eine einfache Zufallsauswahl von n=2 aus N=6 Elementen mit Zurücklegen
aufgefasst werden. Für jede Stichprobe lässt sich das mittlere Haushaltseinkommen berechnen.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
217
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Elemente in RealisierungswahrMittleres
Stichprobe
scheinlichkeit
Einkommen
{1,1}
1/36
1000 €
{2,1}
2/36
1500 €
{3,1}{2,2}
3/36
2000 €
{4,1}{3,2}
4/36
2500 €
{5,1}{4,2}{3,3}
5/36
3000 €
{6,1}{5,2}{4,3}
6/36
3500 €
{6,2}{5,3}{4,4}
5/36
4000 €
{6,3}{5,4}
4/36
4500 €
{6,4}{5,5}
3/36
5000 €
{6,5}
2/36
5500 €
{6,6}
1/36
6000 €
Summe:
36/36
Die bei Berücksichtigung der Anordnung unterscheidbaren 36 Stichproben ergeben 11 unterschiedliche Werte, wenn jeweils der Stichprobenmittelwert der Haushaltseinkommen der beiden
Fälle berechnet wird.
Da jede Stichprobe eine angebbare Auswahlwahrscheinlichkeit hat, lassen sich auch für die
unterscheidbaren Werte der mittleren Haushaltseinkommen Realisierungswahrscheinlichkeiten
berechnen. Sie ergeben sich jeweils aus der Summe der Auswahlwahrscheinlichkeiten der Stichproben, die zum gleichen mittleren Einkommen führen.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
218
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Elemente in RealisierungswahrMittleres
Stichprobe
scheinlichkeit
Einkommen
{1,1}
1/36
1000 €
{2,1}
2/36
1500 €
{3,1}{2,2}
3/36
2000 €
{4,1}{3,2}
4/36
2500 €
{5,1}{4,2}{3,3}
5/36
3000 €
{6,1}{5,2}{4,3}
6/36
3500 €
{6,2}{5,3}{4,4}
5/36
4000 €
{6,3}{5,4}
4/36
4500 €
{6,4}{5,5}
3/36
5000 €
{6,5}
2/36
5500 €
{6,6}
1/36
6000 €
Summe:
36/36
Variablen, deren Ausprägungen mit (im Prinzip) berechenbaren Auftretenswahrscheinlichkeiten
realisiert werden, heißen Zufallsvariablen.
Die Auftretenswahrscheinlichkeiten der Ausprägungen definieren die Wahrscheinlichkeitsfunktion Pr(X) einer Zufallsvariablen X, die jeder Ausprägung ihre Realisierungswahrscheinlichkeit zuordnet.
Die Wahrscheinlichkeitsfunktion der Ausprägungen einer Zufallsvariablen entspricht den
relativen Auftretenshäufigkeiten der Ausprägungen einer empirischen Verteilung.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
219
Haushaltsnummer der zweiten
Befragung
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Die Aufsummierung der Wahrscheinlichkeitsfunktion ergibt die Verteilungsfunktion F(X),
die für jede Ausprägung einre Zufallsvariablen X die Wahrscheinlichkeit angibt, dass eine
Reaisierung kleiner oder gleich dieser Ausprägung ist:
F(X = x) = Pr(X ≤ x)
Die Verteilungsfunktion von Zufallsvariablen entspricht der empirischen Verteilungsfunktion
empirischer Variablen, also der Aufsummierung der relativen Häufigkeiten, mit denen eine
Ausprägung vorkommt.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
220
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
X · p(X)
1000/36
3000/36
6000/36
10000/36
15000/36
21000/36
20000/36
18000/36
15000/36
11000/36
6000/36
126000/36
3500
X2 · p(X)
Quantile
1000000/36
4500000/36
12000000/36
10%
25000000/36
25%
45000000/36
73500000/36
50%
80000000/36
81000000/36
75%
75000000/36
90%
60500000/36
36000000/36
493500000/36
13708333.33
Analog zu empirischen Verteilungsfunktionen lassen sich auch für Zufallsvariablen aus der
Umkehrung der Verteilungsfunktion Quantilwerte berechnen.
So ist das z.B. das 10%-Quantil der Wert, bei dem die Verteilungsfunktion erstmals den Anteil
0.1 erreicht oder überschreitet.
Das 50%-Quantil ist bei Zufallsvariablen immer gleichzeitig der Median, da nicht zwischen
geraden und ungeraden Fallzahlen unterschieden werden kann.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
221
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
X · p(X)
1000/36
3000/36
6000/36
10000/36
15000/36
21000/36
20000/36
18000/36
15000/36
11000/36
6000/36
126000/36
3500
X2 · p(X)
Quantile
1000000/36
4500000/36
12000000/36
10%
25000000/36
25%
45000000/36
73500000/36
50%
80000000/36
81000000/36
75%
75000000/36
90%
60500000/36
36000000/36
493500000/36
13708333.33
Analog zu empirischen Verteilungen lassen sich auch für Zufallsvariablen weitere Kennwerte
berechnen. Das arithmetische Mittel heißt bei Zufallsvariablen Erwartungswert µX („mü von
X“) und ist die Summe aus den Ausprägungen mal deren Auftretenswahrscheinlichkeiten:
K
μ(X) = μ X = ∑ Pr ( x k ) ⋅ x k
k =1
Im Beispiel ergibt sich ein Erwartungswert von 3500€.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
222
Zufallsvariablen und Wahrscheinlichkeitsverteilungen
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
X · p(X)
1000/36
3000/36
6000/36
10000/36
15000/36
21000/36
20000/36
18000/36
15000/36
11000/36
6000/36
126000/36
3500
X2 · p(X)
Quantile
1000000/36
4500000/36
12000000/36
10%
25000000/36
25%
45000000/36
73500000/36
50%
80000000/36
81000000/36
75%
75000000/36
90%
60500000/36
36000000/36
493500000/36
13708333.33
Die Varianz σ2X (ausgesprochen „sigma-quadrat von X“) ist der Erwartungswert der quadrierten
Abweichungen vom Mittelwert:
K
K
σ (X) = σ = ∑ Pr ( x k ) ⋅ ( x k − μ X ) = ∑ Pr ( x k ) ⋅ x k2 − μ X2
2
2
X
k =1
2
k =1
Im Beispiel beträgt die Varianz 1458333.33€2 (=13708333.33–35002) und die Standardabweichung 1207.61€.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
223
Stichprobenkennwerte, Kennwerteverteilungen und
Populationsparameter
Im Beispiel einer einfachen Auswahl mit Zurücklegen von 2 Haushalten aus einer Population
von 6 Haushalten wurde die Zufallsvariable X „durchschnittliches Haushaltseinkommen“
berechnet.
Bezogen auf eine konkrete Stichprobe ist das durchschnittliche Haushaltseinkommen in dieser
Stichprobe ein Kennwert der Stichprobenverteilung, bezogen auf die Wahrscheinlichkeitsverteilung der durchschnittlichen Haushaltseinkommen in den möglichen Stichproben eine
Realisierung einer Zufallsvariablen.
Ziel der Berechnung eines Stichprobenmittelwerts ist i.a. die Schätzung eines Populationskennwertes, im Beispiel des durchschnittlichen Haushaltseinkommen in der Population.
Kennwerte einer Population heißen auch Populationsparameter. Ihr Wert ist in der Regel
unbekannt und wird daher mittels Stichprobendaten geschätzt.
Der zur Schätzung eines Populationsparameters berechnete Kennwert einer Stichprobe wird
auch als Statistik bezeichnet. Über alle möglichen Stichproben hinweg ist die Statistik eine
Zufallsvariable, deren Wahrscheinlichkeitsverteilung auch als Kennwerteverteilung bezeichnet
wird, da es sich um die (Wahrscheinlichkeits-) Verteilung von Stichprobenkennwerten über
verschiedene Stichproben handelt.
Es gilt daher, drei verschiedene Verteilungen zu unterscheiden: die Populationsverteilung, die
Kennwerteverteilung und die Verteilung in einer Stichprobe.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
224
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Auf die Populationsverteilung bzw. deren Parameter ist das Forschungsinteresse gerichtet;
sie ist jedoch der direkten Beobachtung nicht (oder nur mit sehr großem Aufwand) zugänglich.
Beobachtet werden kann dagegen die Verteilung in einer Stichprobe. Von den aus den Stichprobendaten berechneten Kennwerten wird in einem Induktionsschluss auf die Werte der
Populationsparameter geschlossen.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
225
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Die Kennwerteverteilung ist das Verbindungsglied zwischen Stichprobe und Population.
Sie ermöglicht Aussagen über die Risiken des Induktionsschlusses.
Im Beispiel lässt sich so aus der Kennwerteverteilung ablesen, dass mit einer Wahrscheinlichkeit von 1/6 ein Stichprobenmittelwert genau mit dem Populationsmittelwert (3500€) übereinstimmt und mit einer Wahrscheinlichkeit von 2/3 der Stichprobenmittelwert um maximal 1000€
vom Populationsmittelwert abweicht.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
226
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Die Aussagen über die Stichprobengüte beziehen sich also stets auf die Kennwerteverteilung.
Eine konkreter Stichprobenmittelwert kann vom gesuchten Populationsparameter sehr stark
abweichen.
So sind in den beiden rechts wiedergegebenen Stichproben die Stichprobenmittewerte mit
Werten von 1000€ und 1500€ deutlich vom Populationsmittelwert mit 3500€ entfernt.
Statistik 1 (Vorlesung SoSe 06, 23.5.06)
227
Statistik I im Sommersemester 2006
Themen am 30.5.2006:
Wahrscheinlichkeitstheorie II
• Statistische Modellierung und Realität
• Stichprobenziehung in der Umfrageforsschung
• Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen
• Wahrscheinlichkeitsverteilungen von Mittelwerten
Lernziele:
1.
2.
3.
4.
5.
Bedeutung der frequentistischen Wahrscheinlichkeitsdefinition und des Gesetzes der
großen Zahl
Auswirkung von Schichtung, Klumpung und Ausfällen auf Kennwerteverteilungen
Anwendung von Binomialverteilung und hypergeometrischer Verteilung
Bedeutung des zentralen Grenzwertsatzes
Berechnung von Quantilwerten und Quantilanteilen einer Normalverteilung
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
228
Wiederholung: Wahrscheinlichkeitstheorie
Apriori-Wahrscheinlichkeit eines Ereignisses
=: Anzahl der Elementarereignisse durch Summe der Elementarereignisse
Axiomatische Wahrscheinlichkeitstheorie:
A1: 0 ≤ Pr(A) ≤ 1; A2: Pr(Ω) = 1; A3: Pr(A∪B) = Pr(A) + Pr(B) wenn A∩B = {}
Bedingte Wahrscheinlichkeit: Pr(A|B) = Pr(A∩B) / Pr(B)
Statistische Unabhängigkeit: Pr(A|B) = Pr(A) bzw. Pr(B|A) = Pr(B)
Additionstheorem: Pr(A∪B) = Pr(A) + Pr(B) – Pr(A∩B)
Multiplikationstheorem: P(A∩B) = P(A|B) · P(B) = P(B|A) · P(A)
Satz von Bayes: Pr ( A B ) =
Pr ( B A ) ⋅ Pr ( A )
Pr ( B )
=
Pr ( B A ) ⋅ Pr ( A )
Pr ( B A ) ⋅ Pr ( A ) + Pr ( B ¬A ) ⋅ Pr ( ¬A )
Zufallsexperiment Urnenmodell als Basis für:
- einfache Zufallsauswahl ohne Zurücklegen
- einfache Zufallsauswahl mit Zurücklegen
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
229
Wiederholung: Kombinatorik
Permutationen = Anzahl der möglichen Anordnungen von N Elementen
PN = N ⋅ ( N − 1) ⋅ (N − 2) ⋅…3 ⋅ 2 ⋅1 = N!
Produkt aus N Faktoren
Variationen ohne Zurücklegen
= Anzahl von möglichen Anordnungen von n Elementen aus N Elementen
n
N
Vn = N ⋅ (N − 1) ⋅ (N − 2) ⋅… (N − n + 2) ⋅ (N − n + 1) = ∏ ( N − i + 1)
Produkt aus n Faktoren
i =1
Kombinationen ohne Zurücklegen
= a) Anzahl von Möglichkeiten, n Elementen aus N Elementen ohne
Berücksichtigung der Anordnung auszuwählen
b)Anzahl von Möglichkeiten, eine Menge von N Elementen in zwei Teilmengen n und N–n aufzuteilen
N!
N − n )!
(
N!
N ⋅ (N − 1) ⋅… ⋅ (N − n + 1) ⎛ N ⎞
N Vn
=
=
=
=⎜ ⎟
N Kn =
Pn
n!
N
−
n
!
⋅
n!
n
⋅
(n
−
1)
⋅
…
⋅
2
⋅
1
(
)
⎝n⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
230
Wiederholung: Kombinatorik und Zufallsvariablen
Variationen mit Zurücklegen
= Anzahl von möglichen Anordnungen von n Elementen aus N Elementen
wobei jedes Element mehrfach vorkommen kann: Nn
Kombinationen mit Zurücklegen
= Anzahl von Möglichkeiten n Elementen aus N Elementen ohne
Berücksichtigung der Anordnung auszuwählen
⎛ N + n − 1⎞
⎜
⎟
n
⎝
⎠
Zufallsvariablen: Variablen deren Realisierungen Auftretenswahrscheinlichkeiten haben;
Zuordnung von Werten zu Ereignissen eines Zufallsexperiments
Wahrscheinlichkeitsfunktion: Auftretenswahrscheinlichkeiten der Ausprägungen
Verteilungsfunktion:
F(x) = Pr(X ≤ x)
Erwartungswert µ(X)
Arithmetisches Mittel einer Wahrscheinlichkeitsverteilung
= Summe der Produkte der Ausprägungen mal ihren Auftretenswahrscheinlichkeiten
Varianz σ2(X)
Erwartungswert der quadrierten Abweichungen der Ausprägungen einer Zufallsvariablen von ihrem Erwartungswert
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
231
Statistische Modellierung und Realität
Wahrscheinlichkeitsverteilungen unterscheiden sich von empirisch erhobenen Verteilungen
darin, dass anstelle der relativen Häufigkeiten von Realisierungen Realisierungswahrscheinlichkeiten stehen.
Es scheint also eine Ähnlichkeit zwischen relativen Häufigkeiten und Wahrscheinlichkeiten zu
geben.
Diese Ähnlichkeit wird in der frequentistischen Definition der Wahrscheinlichkeit (auch als
A-posteriori-Definition von Wahrscheinlichkeit bezeichnet) explizit formuliert:
Die Wahrscheinlichkeit Pr(A) eines Ereignisses A ist gleich dem Grenzwert
der relativen Auftretenshäufigkeit nA/n dieses Ereignisses, wenn die Zahl der
Wiederholungen n des Zufallsexperiments, zu dessen Ereignissen A gehört,
über alle Grenzen wächst:
⎛n ⎞
lim ⎜ A ⎟ = Pr ( A )
n →∞
⎝ n ⎠
Die frequentistische Wahrscheinlichkeitsdefinition führt zu einem scheinbar empirischen
Wahrscheinlichkeitsbegriff. Wahrscheinlichkeiten sind nach dieser Definition relative Häufigkeiten.
Da es aber empirisch unmöglich ist, Zufallsexperimente tatsächlich unendlich oft zu wiederholen, können sie nicht direkt beobachtet werden.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
232
Das Gesetz der großen Zahl
Begründet wird die frequentistische Sicht auf Wahrscheinlichkeit durch das Gesetz der großen
Zahl:
Wenn die Zahl n der Wiederholungen eines Zufallsexperiments über alle Grenzen steigt,
dann nähert sich die Wahrscheinlichkeit, dass der Abstand der relativen Häufigkeit nA/n
eines Ereignisses A von der Wahrscheinlichkeit Pr(A) dieses Ereignisses im einfachen
Zufallsexperiment kleiner oder gleich einer beliebig kleinen positiven Zahl ist,
dem Wert eins an.
⎛ ⎛ nA
⎞⎞
lim ⎜ Pr ⎜
− Pr ( A ) < ε ⎟ ⎟ = 1
n →∞
n
⎠⎠
⎝ ⎝
Das Gesetz der großen Zahl lässt sich formal beweisen.
Eine Idee, wieso das Gesetz funktioniert, zeigt das Beispiel des wiederholten Werfens einer
Münze. Ein solcher Münzwurf lässt sich als Zufallsexperiment mit zwei möglichen Ergebnissen
„Kopf“ und „Zahl“ auffassen, die im folgenden durch die Buchstaben A für „Kopf“ und B für
„Zahl“ symbolisiert werden.
Entsprechend der klassischen Wahrscheinlichkeitsdefinition wird unterstellt, dass die Realisierungswahrscheinlichkeit jedes der beiden Ereignisse 0.5 beträgt.
Da die Wiederholungen eines Zufallsexperiments unter gleichen Bedingungen zu voneinander
statistisch unabhängigen Ereignissen führen, ist bei n Widerholungen des Experiments die
Wahrscheinlichkeit des Auftretens einer beliebigen Folge der möglichen Ereignisse 0.5n, da in
jedem Experiment ein Ereignis mit Wahrscheinlichkeit 0.5 auftritt.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
233
Das Gesetz der großen Zahl
Bei z.B. 3 Wiederholungen sind 8 (= 2·2·2) Ergebnisse möglich:
{A,A,A}, {A,A,B}, {A,B,A}, {B,A,A}, {A,B,B}, {B,A,B}, {B,B,A} und {B,B,B}
Soll die relative Häufigkeit des Ereignisses A („Kopf“) berechnet werden, interessiert allerdings
nicht die Reihenfolge sondern nur die Anzahl des Auftretens von A in allen Stichproben.
Bei n Wiederholungen kann die Zahl nA der möglichen Ereignisse zwischen 0 (niemals „Kopf“)
und n (immer „Kopf“ variieren).
Bei 2n möglichen Ergebnissen ist die Zahl der Ergebnisse, in denen insgesamt nA mal Ereignis
A realisiert werden kann, offenbar gleich der Zahl der Variationen ohne Zurücklegen von nA
Elementen aus n Elementen also „n über nA“.
Somit beträgt die Wahrscheinlichkeit nA:
⎛ n ⎞
n!
Pr ( n A ) = ⎜ ⎟ ⋅ 0.5n =
⋅ 0.5n
( n − n A )!⋅ n!
⎝ nA ⎠
Da die relative Auftretenshäufigkeit pA von A der Quotient nA/n ist, lassen sich alle realisierbaren relativen Häufigkeiten von A über diese Formel berechnen.
Bei n=3 Wiederholungen ergibt sich z.B.:
⎛ 3⎞
⎛ 3⎞
Pr ( 0 / 3) = ⎜ ⎟ 0.53 = 0.125 , Pr (1/ 3) = ⎜ ⎟ 0.53 = 0.375 ,
⎝0⎠
⎝1⎠
⎛ 3⎞
⎛ 3⎞
Pr ( 2 / 3) = ⎜ ⎟ 0.53 = 0.375 , Pr ( 3/ 3) = ⎜ ⎟ 0.53 = 0.125
⎝ 2⎠
⎝ 3⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
234
Das Gesetz der großen Zahl
n Pr(0.3 ≤ pA ≤ 0.7)
1
0.00
2
0.50
3
0.75
4
0.38
5
0.63
6
0.78
n Pr(0.3 ≤ pA ≤ 0.7)
7
0.55
8
0.71
9
0.82
10
0.66
11
0.77
12
0.85
n Pr(0.3 ≤ pA ≤ 0.7)
13
0.91
14
0.82
15
0.88
16
0.92
17
0.86
18
0.90
n
10
100
500
1000
5000
10000
50000
pA
.200
.500
.524
.474
.495
.507
.504
pA–0.5
–.300
.000
.024
–.026
–.005
.007
.004
Über die Wahrscheinlichketien der Anteile lässt sich auch ausrechnen, wie wahrscheinlich es
ist, daß die realiserte relative Häufigkeit innerhalb eines Intervalls liegt.
So kann z.B. berechnet werden, wie wahrscheinlich es ist, dass die relative Häufigkeit des
Ereignisses A („Kopf“) beim mehrmaligen Werfen einer Münze zwischen 0.3 und 0.7 liegt,
wenn die Wahrscheinlichkeit beim einmaligen Werfen 0.5 beträgt.
Es zeigt sich, dass diese Wahrscheinlichkeit, wie es das Gesetz der großen Zahl behauptet, – mit
gewissen Schwankungen – immer mehr ansteigt.
Ein ähnliches Egebnis ergibt der empirische Versuch.
So zeigt die Tabelle rechts den Anteil des Ereignisses A, wenn tatsächlich wiederholt eine
Münze geworfen wird.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
235
Das Gesetz der großen Zahl
Obwohl es also eine Beziehung zwischen empirischen relativen Häufigkeiten und Wahrscheinlichkeiten zu geben scheint, sollte doch klar sein, dass der Begriff Wahrscheinlichkeit eine
abstrakte Modellvorstellung ist und kein reales empirisches Phänomen.
Tatsächlich beruht der frequentistische Wahrscheinlichkeitsbegriff auf einen (fehlerhaften)
Zirkelschluss, wenn er mit dem Gesetz der großen Zahl begründet wird. Im Gesetz der großen
Zahl taucht ja bereits der Begriff der Wahrscheinlichkeit auf, der erst durch die frequentistische
Vorstellung definiert werden soll.
Die frequentistische Definition wäre erst dann nicht zirkulär, wenn es gelänge, die Forderung
der „Wiederholung eines Zufallsexperiments unter gleichen Bedingungen“ unabhängig vom
Begriff der statistischen Unabhängigkeit zweier Ereignisse zu definieren.
Unabhängig von der logischen Korrektheit der Wahrscheinlichkeitsdefinition führt der frequentistische Wahrscheinlichkeitsbegriff jedoch zu einer intuitiven und hilfreichen Vorstellung
der Bedeutung des Wortes „Wahrscheinlichkeit“.
Der Vorteil gegenüber dem klassischen Wahrscheinlichkeistbegriff liegt auch darin, dass nicht
unterstellt werden muss, dass Elementarereignisse mit gleicher Wahrscheinlichkeit auftreten
müssen. Stattdessen kann durch Wiederholen empirisch „geprüft“ werden, ob z.B. eine Münze
oder ein Würfel ausgewogen ist, d.h. zu gleichwahrscheinlichen Ergebnissen führt.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
236
Stichprobenziehung in der Umfrageforschung
Bei Anwendungen der Wahrscheinlichkeitstheorie sollte stets überlegt werden, welches
Zufallsexperiment zu den beobachtbaren Ereignissen geführt haben mag und ob die hierbei
getroffenen Annahmen zutreffen.
So folgen z.B. sozialwissenschaftliche Wahrscheinlichkeitsauswahlen oft nicht dem Lotteriemodell, wie es die einfache Zufallsauswahl unterstellt.
Stattdessen werden in der Umfrageforschung meist geschichtete (stratifizierte, engl. stratified)
und/oder (mehrstufigen) Klumpenstichproben (engl. cluster sampling) gezogen.
In beiden Situationen ist die Grundgesamtheit in eine (große) Zahl von Teilgruppen (Subpopulationen) zerteilt.
In einer geklumpten Stichprobe wird in einem mehrstufigen Auswahlverfahren zunächst eine
Anzahl von Teilgruppen (Cluster) zufällig ausgewählt. Innerhalb dieser Teilgruppen werden
dann in einer weiteren zufälligen Auswahl die eigentlich interessierenden Elemente ausgewählt.
Dieses Vorgehen kann sich sogar über mehr als zwei Stufen erstrecken. So werden bei persönlichen Interviews oft in einem ersten Schritt (konstruierte) Wahlkreise ausgewählt, innerhalb
derer im zweiten Schritt Haushalte ausgewählt werden, innerhalb derer dann im dritten Schritt
eine „Zielperson“ ausgewählt wird.
Bei geschichteten Stichproben werden dagegen in jeder Schicht Zufallsauswahlen durchgeführt.
In der Praxis werden mehrstufige geklumpte Stichproben innerhalb von Schichten gezogen.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
237
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Die Auswirkungen von geklumpten und geschichteten Stichproben lassen sich an dem Beispiel
der einfachen Zufallsauswahl von n=2 aus N=6 Haushalten verdeutlichen.
Die Haushaltsnummern geben wieder das Einkommen des Haushalts in 1000€ pro Monat
wieder.
Bei einer einfachen Zufallsauswahl gibt es genau 36 mögliche Ereignisse, die mit gleicher
Wahrscheinlichkeit auftreten und zu 11 Stichproben mit unterschiedlichem Stichprobenmittelwert des Einkommens führen.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
238
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Die Population kann in zwei Teilgruppen zerlegt
werden, wobei die ersten drei Haushalte die erste
und die letzten drei die zweite Gruppe bilden.
In einer geklumpten Auswahl wird zunächst mit
gleicher Wahrscheinlichkeit eine der beiden
Teilgruppen ausgewählt und innerhalb der
Teilgruppen zwei Haushalte.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
6
Geklumpte Auswahl
n=2 aus Nm=3 in m=1 von M=2 Cluster
Stichprobe
Einkommen Wahrscheinl.
{1,1}
1000 €
1/18
{2,1}
1500 €
2/18
{3,1}{2,2}
2000 €
3/18
{3,2}
2500 €
2/18
{3,3}
3000 €
1/18
{4,4}
4000 €
1/18
{5,4}
4500 €
2/18
{6,4}{5,5}
5000 €
3/18
{6,5}
5500 €
2/18
{6,6}
6000 €
1/18
Erwartungswert: 3500 €
Standardabw. 1607.28€:
Die Anzahl der möglichen Stichproben
reduziert sich dann auf 18, die zu 10
unterschiedlichen Stichprobenmittelwerten führen.
239
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
Geklumpte Auswahl
n=2 aus Nm=3 in m=1 von M=2 Cluster
Stichprobe
Einkommen Wahrscheinl.
Erwartungswert: 3500 €
Standardabw. 1607.28€:
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Bei einer geschichteten Auswahl wird aus jeder der
beiden Teilgruppen jeweils ein Element zufällig
ausgewählt.
Stratifizierte Auswahl
n=1 aus Nm=3 in jeder von M=2 Schichten:
Stichprobe
Einkommen Wahrscheinl.
{4,1}
2500 €
1/9
{5,1}{4,2}
3000 €
2/9
{6,1}{5,2}{4,3} 3500 €
3/9
{6,2}{5,3}
4000 €
2/9
{6,3}
4500 €
1/9
Erwartungswert: 3500 €
Standardabw.
577.35€:
Die Anzahl der möglichen Stichproben reduziert
sich wiederum auf 18, die zu 5 unterschiedlichen
Stichprobenmittelwerten führen.
Die drei Auswahlverfahren führen zu drei Kennwerteverteilungen mit gleichem Erwartungswert
aber unterschiedlicher Standardabweichung.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
240
Haushaltsnummer der zweiten
Befragung
Geklumpte und geschichtete Stichproben
Einfache Zufallsauswahl
n=2 aus N=6:
Erwartungswert: 3500 €
Standardabw. 1207.615€:
6
5
Geklumpte Auswahl
n=2 aus Nm=3 in m=1 von M=2 Cluster
Stichprobe
Einkommen Wahrscheinl.
Erwartungswert: 3500 €
Standardabw. 1607.28€:
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Stratifizierte Auswahl
n=1 aus Nm=3 in jeder von M=2 Schichten:
Erwartungswert: 3500 €
Standardabw.
577.35€:
Wenn sich – wie in dem Beispiel – die Elemente innerhalb einer Teilgruppe ähnlicher sind als
die Elemente in unterschiedlichen Teilgruppen, dann führen geschichtete Stichproben dazu,
dass die Standardabweichung der Kennwerteverteilung kleiner ist als die Standardabweichung
bei einer einfachen Zufallsauswahl.
Umgekehrt ist in dieser Situation die Standardabweichung bei einer geklumpten Stichprobe
größer als bei einer einfachen Zufallsauswahl.
Falls die interessierenden Eigenschaften der Elemente einer Population unabhängig von der Zugehörigkeit zu einer Teilgruppe variieren, unterscheiden sich die Standardabweichungen nicht.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
241
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
6
Einkom- Wahrscheinlichkeiten
men (X) Auswahl Ausfall Pr(X)
1000
1/36
1/10 .025
1500
2/36
1/10 .050
2000
3/36
1/10 .075
2500
4/36 1/10 .100
3000
5/36 1/10 .125
3500
6/36 1/10 .150
4000
5/36 16/25 .050
4500
4/36 16/25 .040
5000
3/36 16/25 .030
5500
2/36 16/25 .020
6000
1/36 16/25 .010
Summe:
36/36
.675
Missing
.325
In der Realität lassen sich Auswahlpläne aufgrund von Ausfällen nicht vollständig realisieren.
Im Beispiel wird angenommen, dass die Ausfallwahrscheinlichkeit Pr(A) bei einem Stichprobenmittelwert von max. 3500€ 0.10 und bei höheren Einkommen 0.64 beträgt.
Bei einer einfachen Zufallsauswahl von n=2 aus N=6 mit Zurücklegen ist dann die Realisierungswahrscheinlichkeit einer Stichprobe die Wahrscheinlichkeit, die Stichprobe entsprechend
der Auswahlwahrscheinlichkeit der Zufallsauswahl (d.h. nach dem Stichprobenplan) auszuwählen, mal der Komplementärwahrscheinlichkeit eines Ausfalls:
Pr ( Sk ) = Pr ( X k ) ⋅ Pr ( ¬A k ) = Pr ( X k ) ⋅ (1 − Pr ( A k ) )
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
242
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
6
Einkom- Wahrscheinlichkeiten ohne Miss.
men (X) Auswahl Ausfall Pr(X) Pr(X)
1000
1/36
1/10 .025 .037
1500
2/36
1/10 .050 .074
2000
3/36
1/10 .075 .111
2500
4/36 1/10 .100 .148
3000
5/36 1/10 .125 .185
3500
6/36 1/10 .150 .222
4000
5/36 16/25 .050 .074
4500
4/36 16/25 .040 .059
5000
3/36 16/25 .030 .044
5500
2/36 16/25 .020 .030
6000
1/36 16/25 .010 .015
Summe:
36/36
.675 .999
Missing
.325
Die Wahrscheinlichkeit, dass irgendeine Stichprobe realisiert wird, beträgt im Beispiel 0.675.
Entsprechend ist die Wahrscheinlichkeit eines Ausfalls 0.325.
Da nur bei realisierten Stichproben Stichprobenmittelwerte berechnet werden können, reduziert
sich die Kennwerteverteilung auf die bedingten Wahrscheinlichkeiten, dass eine Stichprobe
realisiert wird:
Pr ( X ) ⋅ (1 − Pr ( A k ) )
Pr ( S ¬A ) =
K
∑ (1 − Pr ( A k ) )
k =1
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
243
Haushaltsnummer der zweiten
Befragung
Unterschiedliche Ausfallwahrscheinlichkeiten
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Haushaltsnummer der ersten Befragung
Ausfallwahrscheinlichkeit
0.10
0.64
Der Erwartungswert der Kennwerteverteilung beträgt dann 3111.11€ und die Standardabweichung
ist 1099.94€
Einkom- Wahrscheinlichkeiten ohne Miss.
men (X) Auswahl Ausfall Pr(X) Pr(X)
1000
1/36
1/10 .025 .037
1500
2/36
1/10 .050 .074
2000
3/36
1/10 .075 .111
2500
4/36 1/10 .100 .148
3000
5/36 1/10 .125 .185
3500
6/36 1/10 .150 .222
4000
5/36 16/25 .050 .074
4500
4/36 16/25 .040 .059
5000
3/36 16/25 .030 .044
5500
2/36 16/25 .020 .030
6000
1/36 16/25 .010 .015
Summe:
36/36
.675 .999
Missing
.325
Einfache Zufallsauswahl mit Ausfällen
n=2 aus N=6:
Erwartungswert: 3111.11 €
Standardabw. 1099.94 €:
Bei systematischen Ausfällen, d.h. Ausfallwahrscheinlichkeiten, die mit der interessierenden
Eigenschaft der Elemente in der Population zusamenhängen, weicht der Erwartungswert der
Kennwerteverteilung vom zu schätzenden Populationsparameter ab.
Die Schätzung ist dann verzerrt.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
244
Wahrscheinlichkeitsverteilungen von Häufigkeiten und Anteilen
Binomialverteilung
Im Zusammenhang mit dem Gesetz der großen Zahl wurde die Wahrscheinlichkeit berechnet,
mit der bei n Würfen einer Münze nA bzw pA mal das Ereignis A („Kopf“) auftritt.
Dabei wurde unterstellt, dass die Wahrscheinlichkeit von „Kopf“ wie „Zahl“ jeweils 0.5 beträgt.
Es ist auch möglich, die Wahrscheinlichkeit von nA bzw pA zu berechnen, wenn die Auftretenswahrscheinlichkeit Pr(A) nicht 0.5 sondern eine beliebige Zahl πA zwischen 0 und 1 ist.
Wenn z.B. die Wahrscheinlichkeit von A Pr(A) = πA = 0.4 beträgt, dann muss die Wahrscheinlichkeit des komplementären Ereignisses B = ¬A offenbar Pr(B) = πB = 1 – 0.4 = 0.6 betragen.
Da bei n Wiederholungen nA mal A auftritt, muss entsprechend nB = n – nA mal B auftreten.
Die n Wiederholungen sind statistisch unabhängig voneinander. Somit ist die Wahrscheinlichkeit bei Berücksichtigung der Reihenfolge (Anordnung), in der A bzw. B ausgewählt werden:
Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = 0.4n A ⋅ 0.6n B = πAn A ⋅ πBn B = πAn A ⋅ (1 − π A )
n −nA
Bei insgesamt 2n möglichen Ergebnissen (Anordnungen) der Folge nA mal Ereignis A und nB
mal Ereignis B is die Zahl der unterschiedlichen Anordnungen wieder gleich der Zahl der
Variationen ohne Zurücklegen von nA Elementen aus n Elementen also „n über nA“ bzw., was
zum selben Ergebnis führt, von nB Elementen aus n Elementen, also „n über nB“.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
245
Binomialverteilung
Für die Wahrscheinlichkeit der Häufigkeiten nA und nB ohne Berücksichtigung der
Auswahlreihenfolge gilt somit:
⎛ n ⎞ nA
⎛ n ⎞ nA
nB
Pr ( n A ) = Pr ( n − n A ) = Pr ( n B ) = ⎜ ⎟ 0.4 ⋅ 0.6 = ⎜ ⎟ 0.4 ⋅ 0.6n B
⎝ nA ⎠
⎝ nB ⎠
Die so berechneten Wahrscheinlichkeiten sind ein Beispiel für die sogenannte Binomialverteilung, die sich ergibt, wenn die Wahrscheinlichkeit der Auftretenshäufigkeit eines Ereignisses bei n statistisch unabhängigen Wiederholungen eines Zufallsexperiments interessiert.
In der generelleren Darstellung wird folgende Notation verwendet:
π1 ist die Wahrscheinlichkeit, mit der das interessierende Ereignis im Zufallsexperiment
auftritt,
n ist die Zahl der unabhängigen Wiederholungen des Zufallsexperiments,
n1 ist die Häufigkeit, mit der das interessierende Ereignis in diesen n Wiederholungen
auftritt,
X ist die Zufallsvariable, die die Werte 0, 1, ..., n1, ..., n annehmen kann.
Die Wahrscheinlichkeitsverteilung von X ist dann binomialverteilt mit den Parametern π1
und n:
⎛n⎞
n!
n −n
n −n
Pr(X = n1 ) = ⎜ ⎟ ⋅ π1n1 ⋅ (1 − π1 ) 1 =
⋅ π1n1 ⋅ (1 − π1 ) 1 = b ( X;n, π1 )
(n − n1 )!⋅ n!
⎝ n1 ⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
246
Binomialverteilung
Pr(X) = b(X;5,0.5)
0.3125
0.3125
0.1563
0.1563
0.0313
0.0313
0
1
2
3
4
5
X
Pr(X) = b(X;10,0.5)
0.2461
0.2051
0.1172
0.2051
0.1172
0.0439
0.0098
0.0439
0.0098
0.001
0
0.001
1
2
3
4
5
6
7
8
9
10
X
Pr(X) = b(X;10,0.4)
0.2508
0.1115
0.0425
0.0106
0.0016
0.0001
0.1209
0.0403
0.006
1
2
3
Aus der Wahrscheinlichkeitsfunktion lässt sich durch Aufsummieren die Verteilungsfunktion berechnen:
n1
⎛n⎞ j
n− j
F(X = n1 ) = Pr(X ≤ n1 ) = ∑ ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 )
j= 0 ⎝ j ⎠
0.2007
0.215
0
Die Verteilungsform der Binomialverteilung variiert mit den
Verteilungsparametern π1 und n. Ist π1 = 0.5, ist die Verteilung symmetrisch, bei π1 < 0.5, ist sie linkssteil bzw. rechtsschief und bei π1 > 0.5, ist sie rechtssteil bzw. linksschief.
Mit steigendem n nimmt die Schiefe dadurch faktisch ab,
dass an einem Ende der Verteilung die Auftetenswahrcheinlichkeiten schnell gegen null gehen.
4
5
6
7
8
9
10
X
Pr(X) = b(X;10,0.7)
Es lässt sich zeigen, dass der Erwartungswert und die
Varianz der Binomialverteilung Funktionen der beiden
Parameter π1 und n sind:
0.2668
0.2001
0.2335
0.1029
0.0368
0.1211
0.009
0.0014
0.0281
0.0001
μ X = n ⋅ π1
σ 2X = n ⋅ π1 ⋅ (1 − π1 )
0
0
1
2
3
4
5
6
7
8
9
10
X
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
247
Bernoulli-Verteilung
Ein Spezialfall der Binomialverteilung ergibt sich, wenn n=1 ist. Die Verteilung wird dann auch
Punkt-Binomialverteilung oder Bernoulli-Verteilung genannt.
Für die Wahrscheinlichkeitsverteilung gilt dann:
P ( X = 1) = π1 und P(X = 0) = π0 = 1 − π1
Erwartungswert und die Varianz sind:
μ X = π1 und σ X2 = π1 ⋅ (1 − π1 )
Eine Binomialverteilung mit den Parametern π1 und n kann als Summe statistisch unabhängiger
Bernoulli-Verteilungen mit gemeinsamen Parameter π1 aufgefasst werden.
Generell gilt:
Wenn X1 binomialverteilt ist mit b(X1; m1, π1) und X2 binomialverteilt mit
b(X2; m2, π1), und X1 und X2 statistisch unabhängig voneinander sind,
dann ist die Summe Y = X1 + X2 ebenfalls binomialverteilt mit b(Y; m1+m2, π1).
Für den Erwartungswert und die Varianz gilt dann:
μ ( X1 ) = m1 ⋅ π1 ; σ 2 ( X1 ) = m1 ⋅ π1 ⋅ (1 − π1 )
μ ( X 2 ) = m 2 ⋅ π1 ; σ 2 ( X1 ) = m 2 ⋅ π1 ⋅ (1 − π1 )
μ ( Y ) = ( m1 + m 2 ) ⋅ π1 ; σ 2 ( X1 ) = ( m1 + m 2 ) ⋅ π1 ⋅ (1 − π1 )
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
248
Erwartungswert und Varianz von Linearkombinationen unabhängiger Zufallsvariablen
Die Berechnung von Erwartungswerten und Varianzen von Summen aus den Erwartungswerten
und Varianzen der Summanden gilt nicht nur für die Binomialverteilung, sondern generell und
lässt sich auf beliebige Linearkombinationen von Zufallsvariablen verallgemeinern.
Wenn (1) Y = b0 + b1 · X1 + b2 · X2 + ... + bK · XK,
(2) alle Xk statistisch unabhängig voneinander sind,
dann gilt für den Erwartungswert und die Varianz von Y:
K
μ Y = μ ( Y ) = b 0 + b1 ⋅ μ ( X1 ) + b 2 ⋅ μ ( X 2 ) + … + b K ⋅ μ ( X k ) = b 0 + ∑ b k ⋅ μ ( X k )
k =1
K
σ = σ ( Y ) = b ⋅ σ ( X1 ) + b ⋅ σ ( X 2 ) + … + b ⋅ σ ( X K ) = ∑ b k2 ⋅ σ 2 ( X k )
2
Y
2
2
1
2
2
2
2
2
K
2
k
Zwei Zufallsvariablen X und W sind statistisch unabhängig voneinander, wenn die Wahrscheinlichkeit des gemeinsamen Auftretens gerade das Produkt der Wahrscheinlichkeitsfunktionen ist: Pr ( X = x ∩ W = w ) = Pr ( X = x ) ⋅ Pr ( W = w ) für alle x und w
Diese Regel kann als Verallgemeinerung der Berechnung von Mittelwert und Varianz einer
Lineartransformation einer Variablen aufgefasst werden.
Tatsächlich gilt die Aussage auch entsprechend für die Verteilungen empirischer Variablen,
falls diese unkorreliert sind.
Auch für Zufallsvariablen gilt genaugenommen die schwächere Formullierung, dass die sog.
Produktmomentkorrelation zwischen allen Summanden null betragen muss.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
249
Wahrscheinlichkeiten von Häufigkeiten bei einfachen Zufallsauswahlen mit Zurücklegen
Die Binomialverteilung kann genutzt werden, um Wahrscheinlichkeitsverteilungen von
Häufigkeiten und Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen zu berechnen.
Ausgangspunkt ist eine Population mit insgesamt N Elementen, von denen N1 eine interessierende Eigenschaft aufweisen.
Wenn zufällig n=1 Element aus dieser Population ausgewählt wird, beträgt die Wahrscheinlichkeit, dass das Element die interessierende Eigenschaft aufweist π1 = N1/N.
Die Wahrscheinlichkeitsverteilung ist dann bernoulliverteilt.
Bei einer einfachen Zufallsauswahl mit Zurücklegen ist bei jeder Ziehung eines Elements die
Wahrscheinlichkeit, dass das jeweilige Element die interessierende Eigenschaft aufweist π1 =
N1/N. Bei einem Stichprobenumfang von n ist dann die Wahrscheinlichkeit, dass genau n1 der n
Elemente die interessierende Eigenschaft aufweisen, binomialverteilt mit den Parametern n und
π1 = N1/N:
n
n −n
N1 ⎞ ⎛ n ⎞ ⎛ N1 ⎞ 1 ⎛ N1 ⎞ 1
⎛
Pr ( n1 ) = b ⎜ X = n1;n, ⎟ = ⎜ ⎟ ⋅ ⎜ ⎟ ⋅ ⎜ 1 −
⎟
N ⎠ ⎝ n1 ⎠ ⎝ N ⎠ ⎝
N⎠
⎝
Der Erwartungswert und die Varianz betragen dann:
μ ( n1 ) = n ⋅
N1
N ⎛ N ⎞
und σ 2 ( n1 ) = n ⋅ 1 ⋅ ⎜1 − 1 ⎟
N
N ⎝
N⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
250
Wahrscheinlichkeiten von Anteilen bei einfachen Zufallsauswahlen mit Zurücklegen
Die Wahrscheinlichkeit einer relative Häufigkeit p1 = n1/n lässt sich aus der Binomialverteilung
berechnen, da es sich um eine Lineartransformation handelt:
p1 = 0 + 1/n ·n1
Die Wahrscheinlichkeit einer relative Häufigkeit p1 = n1/n beträgt:
p ⋅n
n ⋅(1− p1 )
N1 ⎞ ⎛ n ⎞ ⎛ N1 ⎞ 1 ⎛ N1 ⎞
⎛
Pr ( p1 ) = b ⎜ X = n ⋅ p1;n, ⎟ = ⎜
⎟
⎟ ⋅ ⎜ ⎟ ⋅ ⎜1 −
p
n
⋅
N
N⎠
⎝
⎠ ⎝ 1 ⎠ ⎝ N⎠
⎝
Die Gleichung gilt nur unter der Bedingung p1 = n1/n;
für beliebige andere Werte p1 ≠ n1/n sind die Auftretenswahrscheinlichkeiten stets null.
Für den Erwartungswert und die Varianz der Kennwerteverteilung eines Anteils folgt dann bei
einer einfachen Zufallsauswahl mit Zurücklegen aus der Regel für Linearkombinationen:
μ ( p1 ) =
N1
1 N ⎛ N ⎞
und σ 2 ( p1 ) = ⋅ 1 ⋅ ⎜1 − 1 ⎟
N
n N ⎝
N⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
251
Haushaltsnummer der zweiten
Befragung
Anwendungsbeispiel
0
⎛2⎞ 4
⋅⎜ ⎟ =
⎝3⎠ 9
1
⎛2⎞ 4
⋅⎜ ⎟ =
⎝3⎠ 9
2
⎛2⎞ 1
⋅⎜ ⎟ =
⎝3⎠ 9
2! ⎛ 1 ⎞
Pr(p1 = 0.0) =
⋅⎜ ⎟
0!⋅ 2! ⎝ 3 ⎠
6
5
2
Pr(0.0)
4
2! ⎛ 1 ⎞
Pr(p1 = 0.5) =
⋅⎜ ⎟
1!⋅1! ⎝ 3 ⎠
3
2
Pr(1.0)
1
Pr(0.5)
0
0
1
2
3
4
5
6
2! ⎛ 1 ⎞
Pr(p1 = 1.0) =
⋅⎜ ⎟
2!⋅ 0! ⎝ 3 ⎠
1
0
Haushaltsnummer der ersten Befragung
Wie wahrscheinlich ist es, dass bei der einfachen Zufallsauswahl von n=2 aus N=6 Haushalten
der Anteil der ausgewählten Haushalte, die maximal 2000 € Monatseinkommen haben, 0, 0.5
bzw. 1 beträgt.
Der Anteil der Haushalte mit einem Einkommen von maximal 2000 € beträgt 2/6.
Dann gilt für die gesuchten Wahrscheinlichkeiten:
Pr(0.0) = b(X=0; 2, 1/3) = 4/9,
Pr(0.5) = b(X=1; 2, 1/3) = 4/9,
Pr(1.0) = b(X=2; 2, 1/3) = 1/9.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
252
Häufigkeiten und Anteile bei einfachen Zufallsauswahlen ohne Zurücklegen
Eine einfache Zufallsauswahl mit Zurücklegen ist in der Praxis der Sozialforschung eher die
Ausnahme denn die Regel.
Wenn es darum geht, mittels einer Stichprobe Informationen über eine Population zu gewinnen,
warum sollte dann ein Element mehrfach ausgewählt werden?
Realistischer ist eine einfache Zufallsauswahl ohne Zurücklegen.
Wenn die Population wiederum N Elemente umfasst, von denen N1 eine interessierende
Eigenschaft haben, dann müssen entsprechend N0 = N – N1 diese Eigenschaft nicht aufweisen.
In einer Stichprobe von n Elementen, die mit einer einfachen Zufallsauswahl ohne Zurücklegen
aus der Population gezogen wurden, weisen n1 Elemente die interessierende Eigenschaft auf,
wobei n1 entweder zwischen 0 und n oder zwischen 0 und N1 variieren kann, je nachdem,
ob n < N1 oder ob n > N1.
Entsprechend haben dann n0 = n – n1 der ausgewählten Elemente die interessierende
Eigenschaft nicht.
Da in der Stichprobe n1 von maximal N1 Elementen die interessierende Eigenschaft aufweisen
können, gibt es „N1 über n1“ Möglichkeiten (Anordnungen), die n1 Elemente aus den N1
Elementen auszuwählen.
Analog gibt es „N0 über n0“ Möglichkeiten (Anordnungen), die n0 Elemente aus N0 auszuwählen.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
253
Häufigkeiten und Anteile bei einfachen Zufallsauswahlen ohne Zurücklegen
Da die Auswahl der n1 aus N1 unabhängig von der Auswahl der n0 aus N0 erfolgt, ist die
Gesamtzahl der Anordnungen der n1 und n0 Elemente das Produkt der beiden Möglichkeiten
also „N1 über n1“ mal „N0 über n0“.
Insgesamt gibt es „N über n“ Möglichkeiten, ohne Berücksichtigung der Anordnung n von N
Elementen (egal ob mit oder ohne der interessirenden Eigenschaft) bei einer einfachen
Zufallsauswahl ohne Zurücklegen auszuwählen.
Die Wahrscheinlichkeit einer einzelnen Stichprobe ist der Kehrwert dieser Zahl.
Die Wahrscheinlichkeit, dass von einer Stichprobe mit n Elementen genau n1 die interessierenden Eigenschaft aufweisen, ist dann der Quotient aus den beiden Zahlen:
⎛ N1 ⎞ ⎛ N 0 ⎞ ⎛ N1 ⎞ ⎛ N − N1 ⎞
⎜ n ⎟⋅⎜ n ⎟ ⎜ n ⎟⋅⎜ N − n ⎟
1 ⎠
Pr ( n1 ) = ⎝ 1 ⎠ ⎝ 0 ⎠ = ⎝ 1 ⎠ ⎝
⎛ N⎞
⎛ N⎞
⎜n⎟
⎜n⎟
⎝ ⎠
⎝ ⎠
Eine Zufallsvariable mit den möglichen Ausprägungen 0, 1, ..., n1 ist hypergeometrisch verteilt,
wenn die Wahrscheinlichkeitsfunktion dieser Formel folgt.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
254
Hypergeometrische Verteilung:
Wahrscheinlichkeiten von Häufigkeiten in einfachen Zufallsauswahlen ohne Zurücklegen
Die hypergeometrische Verteilung hat die drei Parameter n, N und N1.
Ist X hypergeometrisch verteilt, wird hierfür day Symbol h(X; n, N, N1) verwendet:
⎛ N1 ⎞ ⎛ N − N1 ⎞
( N − N1 )!
N1 !
⋅
⋅
⎜ n ⎟ ⎜ N − n ⎟ n !⋅ N − n ! n − n !⋅ N − N − n + n !
( 1 1) (
1) (
1
1)
1 ⎠
Pr ( X = n1 ) = h ( X = n1;n, N, N1 ) = ⎝ 1 ⎠ ⎝
= 1
N!
⎛ N⎞
⎜n⎟
n!⋅ ( N − n )!
⎝ ⎠
Die Verteilungsfunktion ergibt sich über Aufsummieren:
⎛ N1 ⎞ ⎛ N − N1 ⎞
⎟⋅⎜ n − j ⎟
n1 ⎜
j
⎠
F ( X = n1 ) = Pr ( X ≤ n1 ) = ∑ ⎝ ⎠ ⎝
⎛ N⎞
j= 0
⎜n⎟
⎝ ⎠
Der Erwartungswert und die Varianz betragen:
μX = n ⋅
N1
N ⎛ N ⎞ N−n
und σ X2 = n ⋅ 1 ⋅ ⎜1 − 1 ⎟ ⋅
N
N ⎝
N ⎠ N −1
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
255
Hypergeometrische Verteilung
Pr(X) = h(X;5,20,10)
0.3483
0.3483
0.1354
0.1354
0.0163
0.0163
0
1
2
3
4
5
X
Pr(X) = h(X;10,20,10)
0.3437
0.2387
0.2387
0.0779
0.0779
0.011
0.011
0.0005
0.0005 0
0
0
1
2
3
4
5
6
7
8
9
10
X
Pr(X) = h(X;5,20,7)
0.3874
0.3228
Die Form der hypergeometrischen Verteilung hängt von den
Parametern ab. Sind die Häufigkeiten N1 und N0 in der Population gleich groß, d.h. N1/N = 0.5, dann ist die Verteilung
symmetrisch. Ist N1/N < 0.5, dann ist die Verteilung rechtsschief bzw. linkssteil, ist N1/N > 0.5, dann ist die Verteilung
linksschief bzw. rechtssteil. Mit steigender Stichprobengröße
nimmt die Schiefe ab, der Verlauf wird immer symmetrischer.
Die Wahrscheinlichkeitsverteilung von Anteilen lässt sich
bei einfachen Zufallsauswahlen ohne Zurücklegen ebenfalls
über die hypergeometrische Verteilung berechnen.
Der Erwartungswert und die Varianz eines Anteils beträgt:
0.1761
0.083
0.0293
0
1
2
3
0.0014
4
5
X
Pr(X) = h(X;10,20,7)
0.3251 0.3251
0.1463
0.1463
0.0271
0.0015
0.0271
0.0015
0
1
n ⎞ N
⎛
μ ⎜ p1 = 1 ⎟ = 1
n⎠ N
⎝
n ⎞ 1 N ⎛ N ⎞ N−n
⎛
σ2 ⎜ p1 = 1 ⎟ = ⋅ 1 ⋅ ⎜ 1 − 1 ⎟ ⋅
n⎠ n N ⎝
N ⎠ N −1
⎝
2
3
4
5
6
7
0
0
0
8
9
10
X
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
256
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
b(X,10,0.5) und h(X,10,20,10) im Vergleich
b(X;10,0.5)
h(X;10,20,10)
0
1
2
3
4
5
6
7
8
9 10
X
Auch wenn in der Realität eher Zufallsauswahlen ohne Zurücklegen als mit Zurücklegen
vorkommen, werden Wahrscheinlichkeiten häufiger über die Binomialverteilung berechnet, da
die Binomialverteilung einen Parameter weniger aufweist und einfacher zu berechnen ist.
Darüber hinaus sind sich die Verteilungen relativ ähnlich. Die Abbildung zeigt, dass bei gleichem n und gleichen Populationsanteilen π1 = N1/N die hypergeometrische Verteilung enger
um den Erwartungswert streut. Ursache ist die geringere Varianz.
Während die Erwartungswerte gleich sind, ist die Varianz der hypergeometrischen Verteilung
um den Faktor (N-n)/(N-1) geringer als die Varianz der Binomialverteilung.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
257
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
0.4
Pr(X)
0.3
0.2
0.1
0
0
h(X;10,20,10)
1
2
3
4
h(X;10,100,50)
5
6
7
X
h(X;10,200,100)
8
9
10
b(X;10,0.5)
Wenn der Populationsumfang N relativ zum Stichprobenumfang n ansteigt, dann nähert sich
der Faktor (N–n)/(N–1)immer mehr den Wert eins an.
Tatsächlich nähern sich auch die Wahrscheinlichkeiten der Ausprägungen der beiden
Verteilungen immer mehr an.
Die Abbildung zeigt exemplarisch die Auftretetenswahrscheinlichkeiten von hypergeometrischen Verteilungen mit den Parametern h(X;10,20,10), h(X;10,100,50) und h(X;10,200,100)
sowie die Binomialverteilung mit den Parametern b(X,10,0.5). Gemeinsam ist allen
Verteilungen, dass der Populationsanteil der Ausprägung 1 stets π1=N1/N=0.5 beträgt. Je
größer der Populationsumfang, desto ähnlicher sind die Verteilungen.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
258
Beziehung zwischen hypergeometrischer Verteilung und Binomialverteilung
Für praktische Zwecke ist die Annäherung hinreichend genau, wenn das
Verhältnis von Populationsgröße zur
Stichprobengröße größer 20 ist:
N
> 20
n
Pr(X)
0.4
0.3
0.2
0.1
Diese Bedingung ist in der Umfrageforschung praktisch immer erfüllt.
0
0
1
2
3
4
5
6
7
8
9
10
X
h(X;10,20,10)
h(X;10,100,50)
h(X;10,200,100)
b(X;10,0.5)
Im Extremfall einer unendlich großen Population sind die beiden Verteilungen identisch.
Wenn eine Wahrscheinlichkeitsverteilung einer anderen unter bestimmten Bedingungen immer
ähnlicher wird, spricht man von einer asymptotischen Annäherung.
Die hypergeometrische Verteilung nähert sich der Binomialverteilung asymptotisch an, wenn
der Populationsumfang N über alle Grenzen ansteigt und dabei der betrachtete Populationsanteil
N1/N konstant bleibt:
N ⎞
⎛
lim ( h ( X, n, N, N1 ) ) = b ⎜ X;n, 1 ⎟
N →∞
N⎠
⎝
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
259
Wahrscheinlichkeitsverteilungen von Stichprobenmittelwerten
Wahrscheinlichkeitsverteilungen des Mittelwerts bei einfacher
Zufallauswahl mit Zurücklegen bei n = 1, 2 und 3 aus N=6
0.20
n=1
0.15
Pr(X) 0.10
0.05
n=2
n=3
0.00
1
2
3
4
5
6
X
Wenn eine Stichprobe verwendet wird, um einen Populationsmittelwert zu schätzen, wird die
Kennwerteverteilung des Stichprobenmittelwerts über alle Stichproben benötigt.
Die obige Abbildung zeigt die Wahrscheinlichkeitsvereilung des Stichprobenmittelwerts für das
Beispiel einer einfachen Zufallsauswahl mit Zurücklegen aus einer Grundgesamtheit von N=6
Haushalten, die 1000, 2000, 3000, 4000, 5000 und 6000 € pro Monat verdienen.
Für jede Wahrscheinlichkeitsverteilung sind die Realisierungswahrscheinlichkeiten durch eine
durchgezogene Linie verbunden.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
260
Der Zentrale Grenzwertsatz
Wahrscheinlichkeitsverteilungen des Mittelwerts bei einfacher
Zufallauswahl mit Zurücklegen n = 1, 2 und 3 aus N=6
0.20
n=1
0.15
Pr(X) 0.10
0.05
n=2
n=3
0.00
1
2
3
4
5
6
X
Bei n=1 gibt es nur 6 mögliche Ausprägungen des Stichprobenmittelwerts, bei n=2 sind es 11
und bei n=3 sind es bereits 16.
Je größer der Stichprobenumfang ansteigt, desto mehr Ausprägungen gibt es. Da sich alle
Wahrscheinlichkeiten zu eins addieren, sinken tendenziell die Auftretenswahrscheinlichkeiten
bei steigender Zahl der Ausprägungen.
An der Abbildung fällt zudem auf, dass sich die Form der Verteilung ändert und mit steigendem
Stichprobenumfang einer Glockenform nähert.
Dies ist nicht zufällig, sondern Folge des zentralen Grenzwertsatzes.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
261
Der Zentrale Grenzwertsatz
Der zentrale Grenzwertsatz ist die neben dem Gesetz der großen Zahl vielleicht wichtigste
Aussage der Wahrscheinlichkeitstheorie:
Die Summe unabhängiger und identisch verteilter Zufallsvariablen nähert sich
bei steigender Zahl von Summanden asymptotisch einer Normalverteilung an:
⎛ ⎛ n
⎞⎞
lim ⎜ Pr ⎜ ∑ X i ⎟ ⎟ = N ( n ⋅ μ X ;n ⋅ σ 2X )
n →∞
⎝ ⎝ i =1 ⎠ ⎠
Da bei steigender Zahl von Summanden Erwartungswert und Varianz der Summe ansteigen,
wird der zentrale Grenzwertsatz in der Regel für standardisierte (Z-transformierte)
Zufallsvariablen formuliert:
⎛ ⎛ n
⎞⎞
X
n
−
⋅
μ
⎜ ⎜∑ i
X ⎟⎟
=
i
1
⎟ ⎟ = N ( 0;1)
lim ⎜ Pr ⎜
2
n →∞
⎜ ⎜
⎟⎟
n ⋅ σX
⎟⎟
⎜ ⎜
⎠⎠
⎝ ⎝
Das Symbol N(µ; σ²) bzw. N(µ, σ) steht für eine normalverteilte Zufallsvariable mit
Erwartungswert µ und Varianz σ² bzw. einer Standardabweichung σ.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
262
Stetige Wahrscheinlichkeitsverteilungen
Wahrscheinlichkeitsdichte
.40
.35
So ist in der abgebildeten Wahrscheinlichkeitsverteilung einer normalverteilten
Variablen die Wahrscheinlichkeit, dass
eine Realisierung in das Intervall zwischen
–1 und 0 fällt, die rot eingetragene Fäche
unter der Kurve.
.30
.25
.20
.15
.10
.05
.00
-4
-3
-2
-1
0
1
2
3
4
X
Die Normalverteilung ist ein Beispiel für eine stetige (kontinuierliche) Wahrscheinlichkeitsverteilung, bei der der Wertebereich der Realisierungen nicht nur wenige (diskrete)
Ausprägungen, sondern unendlich viele reelle Zahlen umfasst.
Da die Wahrscheinlichkeit des Auftretens der Gesamtheit aller Realisierungen eins ist, ist bei
stetigen Wahrscheinlichkeitsverteilungen die Wahrscheinlichkeit des Auftretens einer einzelnen
Ausprägung immer null.
Angebbar ist immer nur die Wahrscheinlichkeit, mit der eine Realisation in ein vorgegebenes
Intervall fällt.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
263
Wahrscheinlichkeitsdichten
Wahrscheinlichkeitsdichte
.40
Die Wahrscheinlichkeitsdichte der abgebildeten Standardnormalverteilung ist
folgende Funktion der Ausprägungswerte:
.35
.30
.25
1
− ⋅x 2
1
f (X) =
⋅e 2
2⋅π
.20
.15
.10
.05
.00
-4
-3
-2
-1
0
1
2
3
4
Je „dünner“ ein solches Intervall wir, desto geringer ist die Wahrscheinlichkeit, dass eine
Realisation in das Intervall fällt.
Im Extremfall hat das Intervall die Länge null und die zweidimensionale „Fläche“ wird zu einer
eindimensionalen Linie von der Kurve bis zur unteren waagerechten Achse.
Die Länge dieser Linie ist genau der Wert der Funktion, die als Kurvenverlauf in der Abbildung
eingezeichnet ist.
Sie wird als Wahrscheinlichkeitsdichte (engl. density) f(X) bezeichnet.
Das Verhältnis der Dichtewerte zweier Ausprägungen einer stetigen Variablen gibt die relative
Chance des Auftretens der beiden Ausprägungen an.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
264
Verteilungsfunktion einer stetigen Zufallsvariablen
Wahrscheinlichkeitsdichtefunktion f(X)
.40
1
⋅e
f (X) =
2⋅π
.35
.30
.25
.20
.15
16%
.10
.05
.00
−∞
-4
-3
-2
-1
x = −1
0
X
1
2
3
Verteilungsfunktion F(X)
1
− ⋅x 21
2
4
.9
.8
.7
.6
.5
.4
.3
.2
.1
0
F( X) =
x
∫
−∞
1
− ⋅z 2
1
⋅ e 2 dz
2⋅π
Q0.16 = −1
-4
-3
-2
-1
0
X
1
2
3
4
Die Verteilungsfunktion F(X=x) ist bei einer stetigen Wahrscheinlichkeitsverteilung die Fläche
vom linken Rand der Verteilung (bzw. –∞) bis zum Wert X.
Mathematisch ist diese Fäche das bestimmte Integral über die Dichtefunktion von minus
unendlich bis x.
So ist z.B., die Wahrscheinlichkeit, dass eine standardnormalverteilte Größe kleiner gleich –1
ist, die Fläche unter der Kurve vom linken Extrem bis zur Stelle minus eins.
Die Verteilunsgfunktion lässt sich auch grafisch darstellen und ist bei einer Normalverteilung
eine S-förmige Kurve.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
265
Verteilungsfunktion einer stetigen Zufallsvariablen
Wahrscheinlichkeitsdichtefunktion f(X)
.40
1
⋅e
f (X) =
2⋅π
.35
1
− ⋅x 2
2
.30
.25
.20
.15
34%
50%
.10
.05
.00
-4
-3
-2
-1
0
X
1
2
3
4
1
.9
.8
.7
.6
.5
.4
.3
.2
.1
0
Verteilungsfunktion F(X)
F( X) =
x
∫
−∞
1
− ⋅z 2
1
⋅ e 2 dz
2⋅π
Q0.5 = 0.0
0.34 = 0.5 – 0.16
Q0.16 = −1
-4
-3
-2
-1
0
X
1
2
3
Über die Verteilungsfunktion einer stetigen Zufallsvariablen lassen sich für beliebige Intervalle
des Wertebereichs Realisierungswahrscheinlichleiten berechnen.
Die Quantilwahrscheinlichkeit des Quantilwerts 0 der Standardnormalverteilung ist 0.5 oder
50%.
Die Quantilwahrscheinlichkeit des Quantilwerts –1 der Standardnormalverteilung beträgt 0.16
oder 16%.
Dann ist die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable zwischen –1
und 0 liegt, 34% (= 50% – 16%).
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
266
4
Die Normalverteilung
Wahrscheinlichkeitsdichte
0.40
0.35
N(0;1)
f (X) =
N(2;1)
0.30
1
2⋅π⋅σ
2
X
⋅e
1 ( X −μ X )
− ⋅
2
σ2X
2
0.25
0.20
0.15
N(-1;2)
0.10
N(0;3)
0.05
0.00
-5
-4
-3
-2
-1
0.
X
1
2
3
4
5
Die bekannteste stetige Wahrscheinlichkeitsverteilung ist die Normalverteilung. Normalverteilungen haben eine glockenförmige Dichtefunktion.
Die Dichtefunktion einer normalverteilten Zufallsvariable X ist eine Funktion ihres Erwartungswertes und ihrer Varianz. Daher sind Erwartungswert und Varianz (bzw. Standardabweichung)
die Parameter einer Normalverteilung.
Um auszudrücken, dass eine Zufallsvariable X mit dem Erwartungswert µ uund der Varianz σ2
normalverteilt ist, wird dass Symbol „N(µ ; σ2)“ oder „N(µ , σ)“ verwendet.
Je größer die Varinanz, desto flacher ist der Kurvenverlauf.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
267
Die Normalverteilung
Wahrscheinlichkeitsdichte
0.40
0.35
N(0;1)
−1.732 = −1 ⋅ 3 + 0 ; 1.732 = 1 ⋅ 3 + 0
0.30
0.25
−2.414 = −1 ⋅ 2 − 1 ; 0.414 = 1 ⋅ 2 − 1
68.26%
0.20
0.15
N(-1;2)
0.10
68.26%
0.05
0.00
N(0;3)
68.26%
-5
-4
-3
-2
-1
0.
X
1
2
3
4
5
Kennzeichen einer Normalverteilung ist, dass in einem Abstand von ± 1 Standardabweichung
vom Erwartungswert, der wegen der Symmetrie gleichzeitig Median und Modus ist, immer
68.26% aller Realisationen liegen, dass in einem Abstand von ± 2 Standardabweichungen vom
Erwartungswert immer 95.44% aller Realisationen liegen, in einem Abstand von ± 3
Standardabweichung vom Erwartungswert immer 99.72%., usw..
Aufgrund dieser Eigenschaft ist es leicht möglich, Quantile von Normalverteilungen ineinander
umzurechnen:
Qα ;N(μ ,σ ) − μ
Qα ;N( μ ,σ ) = Qα ;N(0,1) ⋅ σ + μ bzw. Qα ;N(0,1) =
σ
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
268
Die Normalverteilung
α
0.000
0.005
0.010
0.015
0.020
0.025
...
0.050
...
0.100
...
zα
-∞
-2.57
-2.326
-2.170
-2.054
-1.960
...
-1.645
...
-1.282
...
α
0.200
...
0.250
...
0.300
...
0.400
...
0.500
...
0.600
zα
-0.842
...
-0.674
...
-0.524
...
-0.253
...
0.000
...
0.253
α
...
0.700
...
0.750
...
0.800
...
0.900
...
0.995
1.00
zα
...
0.524
...
0.674
...
0.842
...
1.282
...
2.576
∞
Aus den abgebildeten Ausschnitten einer Tabelle
mit Z-Werten lässt sich so etwa ablesen,
- dass das 1%-Quantil der Standardnormalverteilung Q0.01;N(0;1) = –2.326 ist
- das das 5%-Quantil Q0.05;N(0;1) = –1.645 beträgt.
Umgekehrt lässt sich der Tabelle entnehmen,
- dass der Wert –1.96 das 2.5%-Quantil ist,
Φ(–1.96) = 0.025
- und der Wert +1.282 das 90%-Quantil,
Φ(1.282) = 0.90.
Jede Normalverteilung kann also durch eine einfache Lineartransformation in eine beliebige
andere Normalverteilung umgeformt werden.
Darüber hinaus gilt, dass Linearkombinationen von normalverteilten Zufallsvariablen wiederum
normalverteilt sind.
Die Standardnormalverteilung ist eine Normalverteilung mit Erwartungswert null und einer
Varianz von eins. Die Quantilwerte einer Standardnormalverteilung werden bisweilen auch als
„Z-Werte“ bezeichnet.
Aufgrund ihrer Bedeutung gibt es spezifische Symbole. So steht ϕ(x) für die Dichtefunktion
und Φ(x) für die Verteilungsfunktion der Standardnormalverteilung an der Stelle X=x.
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
269
Die Normalverteilung
α
0.000
0.005
0.010
0.015
0.020
0.025
...
0.050
...
0.100
...
zα
-∞
-2.57
-2.326
-2.170
-2.054
-1.960
...
-1.645
...
-1.282
...
α
0.200
...
0.250
...
0.300
...
0.400
...
0.500
...
0.600
zα
-0.842
...
-0.674
...
-0.524
...
-0.253
...
0.000
...
0.253
α
...
0.700
...
0.750
...
0.800
...
0.900
...
0.995
1.00
zα
...
0.524
...
0.674
...
0.842
...
1.282
...
2.576
∞
Q0.1 = –1.282 ⇒ Q0.9 = +1.282
Q0.2 = –0.842 ⇒ Q0.8 = +0.842
Q0.4 = –0.253 ⇒ Q0.6 = +0.253
Da Normalverteilungen symmetrisch sind, können bereits aus einer Hälfte der Verteilung alle
Quantilwerte berechnet werden.
So ist der Wert des 10%-Quantils –1.282. Daraus folgt, dass das 90%-Quantil +1.282 sein muss.
Generell gilt bei symmetrischen Verteilungen:
Q1−α = −Qα
Das 90%-Quantil einer Normalverteilung mit Erwartungswert 3 und Varianz 4 berechnet sich
dann nach: Q0.9;N(3;4) = Q0.9;N(0;1) ·2 +3 = 1.282 · 2 +3 = 5.564.
Dem Quantilwert 6.29 einer Normalverteilung mit Erwartungswert 3 und Varianz 4 entspricht
die Wahrscheinlichkeit:
⎛ 6.29 − 3 ⎞
Φ⎜
⎟ = Φ (1.645) = 0.95
⎝ 2 ⎠
Statistik 1 (Vorlesung SoSe 06, 30.5.06)
270
Statistik I im Sommersemester 2006
Themen am 6.6.2006:
Wahrscheinlichkeitstheorie und Inferenzstatistik
• Wahrscheinlichkeitsverteilungen von Mittelwerten
• Schätzer, Schätzungen und Eigenschaften von Schätzern
• Punkt- und Intervallschätzung
• Schätzung von Anteilen, Mittelwerten und Varianzen
Lernziele:
1.
2.
3.
4.
Erwartungstreue, Konsistenz und Effizienz als erwünschte Schätzereigenschaften
Die Bedeutung von Standardfehlern bei der Schätzung von Populationsparametern
Interpretation von Konfidenzintervallen und Irrtumswahrscheinlichkeiten
Anwendung der T-Verteilung
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
271
Wiederholung
⎛n ⎞
Frequentistischen Definition der Wahrscheinlichkeit: lim ⎜ A ⎟ = Pr ( A )
n →∞
⎝ n ⎠
⎛ ⎛n
⎞⎞
Gesetz der großen Zahl: lim ⎜ Pr ⎜ A − Pr ( A ) < ε ⎟ ⎟ = 1
n →∞
⎠⎠
⎝ ⎝ n
Einfache Zufallsauswahlen, geschichtete Zufallsauswahlen, mehrstufige Zufallsauswahlen
Wahrscheinlichkeitsverteilung von Häufigkeiten bei einfache Zufallsauswahlen ohne
Zurücklegen: Die hypergeometrische Verteilung
⎛ N1 ⎞ ⎛ N − N1 ⎞
( N − N1 )!
N1 !
⋅
⋅
⎜ n ⎟ ⎜ N − n ⎟ n !⋅ N − n ! n − n !⋅ N − N − n + n !
( 1 1) (
1) (
1
1)
1 ⎠
Pr ( X = n1 ) = h ( X = n1;n, N, N1 ) = ⎝ 1 ⎠ ⎝
= 1
N!
⎛ N⎞
⎜n⎟
n!⋅ ( N − n )!
⎝ ⎠
μ ( n1 ) = n ⋅
N1
N ⎛ N ⎞
und σ 2 ( n1 ) = n ⋅ 1 ⋅ ⎜1 − 1 ⎟
N
N ⎝
N⎠
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
272
Wiederholung
Wahrscheinlichkeitsverteilung von Häufigkeiten bei einfache Zufallsauswahlen mit
Zurücklegen: Binomialverteilung
⎛ n ⎞ n1
n!
n −n
n −n
⋅ π1n1 ⋅ (1 − π1 ) 1
Pr(X = n1 ) = b ( X;n, π1 ) = ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 ) 1 =
(n − n1 )!⋅ n!
⎝ n1 ⎠
μ X = n ⋅ π1 und σ X2 = n ⋅ π1 ⋅ (1 − π1 )
Annäherung der hypergeometrischen Verteilung an die Normalverteilung hinreichend genau,
wenn N/n > 20.
Der zentrale Grenzwertsatz:
Die Summe unabhängiger und identisch verteilter Zufallsvariablen nähert sich
bei steigender Zahl von Summanden asymptotisch einer Normalverteilung an:
⎛ ⎛ n
⎞⎞
−
⋅
μ
X
n
⎜ ⎜∑ i
X ⎟⎟
=
i
1
⎟ ⎟ = N ( 0;1)
lim ⎜ Pr ⎜
2
n →∞
⎜ ⎜
⎟⎟
n ⋅ σX
⎟⎟
⎜ ⎜
⎠⎠
⎝ ⎝
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
273
Wiederholung
Quantile der Standardnormalverteilung
α
0.000
0.005
0.010
0.015
0.020
0.025
...
0.050
...
0.100
...
zα
-∞
-2.57
-2.326
-2.170
-2.054
-1.960
...
-1.645
...
-1.282
...
α
0.200
...
0.250
...
0.300
...
0.400
...
0.500
...
0.600
zα
-0.842
...
-0.674
...
-0.524
...
-0.253
...
0.000
...
0.253
α
...
0.700
...
0.750
...
0.800
...
0.900
...
0.995
1.00
zα
...
0.524
...
0.674
...
0.842
...
1.282
...
2.576
∞
Aus den abgebildeten Ausschnitten einer Tabelle
mit Z-Werten lässt sich so etwa ablesen,
- dass das 1%-Quantil der Standardnormalverteilung Q0.01;N(0;1) = –2.326 ist
- dass das 5%-Quantil Q0.05;N(0;1) = –1.645
beträgt.
Umgekehrt lässt sich der Tabelle entnehmen,
- dass der Wert –1.96 das 2.5%-Quantil ist,
Φ(–1.96) = 0.025
- und der Wert +1.282 das 90%-Quantil,
Φ(1.282) = 0.90.
Qα ;N( μ ,σ ) = Qα ;N(0,1) ⋅ σ + μ bzw. Qα ;N(0,1) =
Qα ;N(μ ,σ ) − μ
σ
⎛ x − μX ⎞
α = Φ ( Qα ,N(0;1) ) = Φ ( z ) = Φ ⎜
⎟
σ
⎝
⎠
X
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
274
Stichprobenverteilungen von Mittelwerten
Der zentrale Grenzwertsatz besagt, dass Summen unabhängiger identisch verteilter Zufallsvariablen mit steigender Zahl der Summanden asymptotisch normalverteilt sind.
Dies gilt unabhängig von der Wahrscheinlichkeitsverteilung der Ausgangsvariablen.
Vorausgesetzt wird allerdings, dass die ersten Momente der Wahrscheinlichkeitsverteilungen
der Ausgangsvariablen existieren, d.h. berechenbare reelle Zahlen sind.
Diese Bedingung ist in der Regel erfüllt.
Jeder Stichprobenmittelwert kann als Summe gleichartiger Summanden dargestellt werden:
n
1 n
X
X = ∑ Xi = ∑ i
n i =1
i =1 n
In Zufallsauswahlen können die Summanden als identisch verteilte Zufallsvariablen aufgefasst
werden.
Bei einfachen Zufallsauswahlen mit Zurücklegen sind diese Variablen zudem statistisch
unabhängig voneinander.
Also sind Stichprobenmittelwerte bei einfachen Zufallsauswahlen mit Zurücklegen unabhängig
von der Verteilung der interessierenden Größe in der Population asymptotisch normalverteilt.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
275
Stichprobenverteilungen von Mittelwerten
Aus den Regeln für Linearkombinationen von Zufallsavariablen folgt dann, dass der Erwartungswert und die Varianz der Kennwerteverteilung eine Funktion des Populationsmittelwerts,
der Populationsvarianz und der Stichprobengröße n sind.
Erwartungswert und Varianz der Kennwerteverteilung von Stichprobenmittelwerten sind daher
bei einfachen Zufallsauswahlen mit Zurücklegen:
1 n
μ ( X ) = ∑ μ ( Xi ) = μ ( X ) = μ X
n i =1
σ2 ( X ) 1 2
1 n 2
σ ( X ) = 2 ∑ σ ( Xi ) =
= ⋅ σX
n i =1
n
n
2
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
276
Stichprobenverteilungen von Mittelwerten
Die Realisierungen einfacher Zufallsauswahlen ohne Zurücklegen sind nicht statistisch
unabhängig voneinander.
Die Abhängigkeit kann jedoch ausgeglichen werden, wobei der Ausgleichsfaktor gerade dem
Unterschied der Varianz einer Biomialverteilung und einer hypergeometrischen Verteilung
entspricht.
Bei einfachen Zufallsauswahlen ohne Zurücklegen gilt daher für Erwartungswert und Varianz
der Kennwerteverteilung von Stichprobenmittelwerten:
1 n
μ ( X ) = ∑ μ ( Xi ) = μ ( X ) = μ X
n i =1
2
N−n 1 n 2
N − n σ (X) N − n 1 2
σ (X) =
⋅ 2 ∑ σ ( Xi ) =
⋅
=
⋅ ⋅ σX
N − 1 n i =1
N −1
n
N −1 n
2
In beiden Situationen sind die Kennwerteverteilungen asymptotisch normalverteilt.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
277
Stichprobenverteilungen von Mittelwerten
Als Kennwerteverteilung für Stichprobenmittelwerte kann also die Normalverteilung
herangezogen werden.
Zu beachten ist allerdings, dass die Normalverteilung in der Regel nur asymptotisch gilt, d.h. bei
hinreichend großen Stichproben. Als Faustregel hat die Erfahrung gezeigt, dass die
Normalverteilung als Kennwerteverteilung von Stichprobenmittelwerten bereits bei einer
Fallzahl ab etwa 30 Fällen hinreichend genau ist:
n ≥ 30.
Bei anderen Verteilungen kommt es auf die Zahl der Ausprägungen und die Verteilungsform an,
ab welcher Fallzahl eine hinreichend genaue Annäherung an die Normalverteilung vorliegt. Bei
diskreten Verteilingen mit wenigen Ausprägungen und bei schiefen Verteilungen ist die Annäherung langsamer als bei symmetrischen und unimodalen Verteilungen mit vielen Ausprägungen.
Exakt und unabhängig von der Stichprobengröße sind Stichprobenmittelwerte über
verschiedene Stichproben hinweg normalverteilt, wenn die interessierende Größe in der
Population normalverteilt ist.
Stichprobenmittelwerte sind dann Linearkombinationen von Normalverteilungen, die daher
normalverteilt sein müssen.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
278
Asymptotische Normalverteilung von Anteilen und Häufigkeiten
Die Binomialverteilung mit den Parametern b(X; n, π1) kann als Summe von n unabhängigen
Bernoulli-Verteilungen mit gleicher Wahrscheinlichkeit π1 aufgefasst werden.
Nach dem zentralen Grenzwertsatz muss sich daher die Binomialverteilung asymptotisch einer
Normalverteilung annähern.
Dies gilt tatsächlich. Die Annäherung ist hinreichend genau, wenn gilt:
n⋅
πi
1 − πi
> 9 und n ⋅
>9
πi
1 − πi
Ist diese Bedingung erfüllt kann anstelle der Binomialverteilung bzw. der hypergeometrischen
Verteilung auch eine Normalverteilung mit dem Erwartungswert µX = n⋅π1 und Varianz σ2X =
n·π1·(1-π1) bei Zufallsauswahlen mit Zurücklegen bzw. σ2X = (N-n)/(n-1)·n·π1·(1-π1) bei
Zufallsauswahlen ohne Zurücklegen verwendet werden.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
279
Asymptotische Normalverteilung von Anteilen und Häufigkeiten
Die hypergeometrische und die Binomialverteilung sind diskret, die Normalverteilung dagegen
stetig.
Um dies zu berücksichtigen, wird bei der Berechnung der Wahrscheinlichkeiten jeweils 0.5
abgezogen bzw. addiert. Die Wahrscheinlichkeit, dass bei einer Fallzahl von n die Anzahl n1 der
Fälle mit der Ausprägung 1 im Intervall von a bis b liegt, ist bei einfachen Zufallsauswahlen mit
Zurücklegen:
⎛ b + 0.5 − ( n ⋅ π ) ⎞
⎛ a − 0.5 − ( n ⋅ π ) ⎞
⎛ n ⎞ n1
n − n1
1
1
⎟ − Φ⎜
⎟
≈ Φ⎜
P(a ≤ n1 ≤ b) = ∑ ⎜ ⎟ ⋅ π1 ⋅ (1 − π1 )
⎜ n ⋅ π1 ⋅ (1 − π1 ) ⎟
⎜ n ⋅ π1 ⋅ (1 − π1 ) ⎟
n1 = a ⎝ n1 ⎠
⎝
⎠
⎝
⎠
n1 = b
Bei Zufallsauswahlen ohne Zurücklegen und kleinen Populationen wird die hypergeometrische
Verteilung an die Normalverteilung angenähert:
⎛ N1 ⎞ ⎛ N − N1 ⎞
⎛
⋅
n1 = b ⎜
⎜
b + 0.5 − ( n ⋅ π1 )
n1 ⎟⎠ ⎜⎝ n − n1 ⎟⎠
⎝
P(a ≤ n1 ≤ b) = ∑
≈ Φ⎜
⎛ N⎞
N−n
⎜
n1 = a
n
1
⋅
π
⋅
−
π
⋅
(
)
⎜
1
1
⎜ ⎟
N −1
⎝
⎝n⎠
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
⎞
⎛
⎟
⎜
a − 0.5 − ( n ⋅ π1 )
⎟ − Φ⎜
N−n
⎟
⎜
n
1
⋅
π
⋅
−
π
⋅
(
)
⎟
⎜
1
1
N −1
⎠
⎝
⎞
⎟
⎟
⎟
⎟
⎠
280
Asymptotische Normalverteilung von Anteilen und Häufigkeiten
Bei der asymptotischen Berechnung der Kennwerteverteilung von Anteilen wird in der Regel
auf die Stetigkeitskorrektur ±0.5/n verzichtet.
Die asymptotische Kennwerteverteilung ist dann:
⎛ π ⋅ (1 − π1 ) ⎞
f ( p1 ) ≈ N ⎜ π1; 1
mit Zurücklegen
⎟
n
⎝
⎠
⎛ π ⋅ (1 − π1 ) N − n ⎞
≈ N ⎜ π1; 1
⋅
⎟ ohne Zurücklegen
n
n −1 ⎠
⎝
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
281
Schätzen von Anteilen, Mittelwerten und Varianzen
70%
Stichprobe
Population
60%
60%
50%
40%
40%
30%
20%
(40)
(60)
dagegen
dafür
⇐
dagegen
51%
49%
(51000) (49000) dafür
10%
0%
Eine der wichtigsten Anwendungen der Statistik in den Sozialwissenschaften besteht darin, anhand von Stichprobendaten Aussagen über eine Grundgesamtheit (Population) treffen zu können.
Es interessiert z.B. der Anteil π1 der jenigen Personen in einer Stadt, die für die
Einrichtung einer Ganztagsschule sind.
In einer einfachen Zufallsauswahl von n=100 Personen sind p1=60% für die Einrichtung.
Es liegt nahe, den Stichprobenanteil p1 als Schätzung des unbekannten Populationsanteils π1 zu
verwenden.
Da aber von einer Teilmenge (der Stichprobe) auf eine umfassendere Allgemeinheit (die Population) geschlossen wird, handelt es sich bei der Schätzung um einen Induktionsschluss der
prinzipiell unsicher ist und fehlerhaft sein kann.
So ist es im Beispiel denkbar, dass in der Grundgesamtheit nicht eine Mehrheit von
60%, sondern nur eine Minderheit von 49% für die Einrichtung der Ganztagsschule
ist.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
282
Schätzer und Schätzung
Für eine einzelne Schätzung lässt sich grundsäzlich nicht angeben,
ob ihr Wert mit dem zuschätzenden Populationswert übereinstimmt oder ob sie sehr vom
gesuchten Wert abweicht.
Bei Zufallsauswahlen ist jede Schätzung ein Zufallsexperiment und jede Schätzung ein
mögliches Ereignis dieses Zufallsexperiments.
Eine Schätzung kann dann als Realisierung einer Zufallsvariable aufgefasst werden.
Zufallsvariablen, die für Schätzungen verwendet werden, heißen Schätzer.
Eine Schätzung ist also eine von vielen möglichen Realisierungen eines Schätzers.
Die Kennwerteverteilung des Schätzers, d.h. die Wahrscheinlichkeits(dichte)verteilung der
Zufallsvariable erlaubt Aussagen darüber,
wie wahrscheinlich Schätzungen sind, die nahe beim zu schätzenden Populationswert liegen.
Die Statistik versucht Schätzer zu finden, die möglichst gute Eigenschaften aufweisen.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
283
Eigenschaften von Schätzern
Erwartungstreue oder Unverzerrtheit
Ein Schätzer ist unverzerrt oder erwartungstreu (engl. unbiased), wenn der Erwartungswert der
Kennwerteverteilung des Schätzers mit dem zu schätzenden Populationswert übereinstimmt;
()
μ θˆ = θ
In der Statistik wird das griechische kleine Theta („θ“) oft als allgemeinses Symbol für einen
Parameter verwendet.
Ein kleines Dach („^“) über dem Symbol kennzeichnet dann einen Schätzer oder eine Schätzung.
Bei einfachen Zufallsauswahlen lässt sich die Kennwerteverteilung des Stichprobenanteils aus der Binomialverteilung oderder hypergeometrischen Verteilung berechnen.
In beiden Fällen ist der Erwartungswert der Kennwerteverteilung genau der
Anteil π1 = N1/N der Elemente in der Population, die die betrachtete Eigenschaft
aufweisen.
Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen ein erwartungstreuer
Schätzer.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
284
Eigenschaften von Schätzern
Konsistenz
Ein Schätzer ist konsistent, wenn bei steigender Stichprobenfallzahl die Wahrscheinlichkeit
gegen eins geht, dass der Abstand zwischen dem zu schätzenden Parameter und dem Stichprobenkennwert gegen null geht.
( (
))
lim Pr θˆ − θ = 0 = 1
n →∞
Aus dem Gesetz der großen Zahl folgt, dass die Wahrscheinlichkeit einer beliebig
kleinen Abweichung zwischen Stichprobenanteil und Populationsanteil bei einfachen
Zufallsauswahlen gegen eins geht, wenn die Fallzahl über alle Grenzen wächst.
Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen mit Zurücklegen
ein konsistenter Schätzer des Populationsanteils.
Bei einfachen Zufallsauswahlen ohne Zurücklegen ist der Anteil der ausgewählten
Fälle ebenfalls gleich dem Populationsanteil, wenn im Extremfall alle Fälle
ausgewählt werden.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
285
Eigenschaften von Schätzern
Effizienz
Die Realisationen der Kennwerteverteilung sollen möglichst gering um den zu schätzenden
Populationsparameter streuen. Ein Kennwert ist effizient, wenn es keinen anderen Schätzer gibt,
der mit einer geringeren Streuung um den zu schätzenden Parameter streut.
Als Maß für die Effizienz wird üblicherweise der Erwartungswert der quadrierten Abstände
vom zu schätzenden Parameterwert herangezogen, der nach der englischen Bezeichnung mean
squared error (MSE) heißt:
2
2
2 ˆ
⎛
⎞
ˆ
ˆ
MSE = μ ⎜ θ − θ ⎟ = σ θ + μ θ − θ
⎝
⎠
(
)
() ( () )
Die Gleichung zeigt, dass MSE auch als Summe der Varianz der Kennwerteverteilung eines
Schätzers plus der quadrierten Verzerrung (engl. bias), das ist der quadrierte Abstand zwischen
dem Erwartungswert des Schätzers und dem zu schätzendem Parameter dargestellt werden kann.
Zur Schätzung des Populationsmittelwertes kann bei einer symmetrischen, unimodalen
Verteilung sowohl der Stichprobenmittelwert als auch der Stichprobenmedian herangezogen werden.
Effizienter ist die Kenngröße, deren Kennwerteverteilung mit einer geringeren Streuung
um den Populationsmittelwert variiert. Welche das ist, hängt von Verteilung ab.
Bei einfachen Zufallsstichproben aus normalverteilten Populationen ist der Stichprobenmittelwert ein effizienterer Schätzer des Erwartungswert als der Stichprobenmedian.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
286
Standardfehler
Bei unverzerrten Schätzern ist die quadrierte Verzerrung definitionsgemäß null, so dass die
Effizienz in diesem Fall über die Varinanz der Kennwerteverteilung gemessen werden kann.
Anstelle der Varinanz wird meist die Standardabweichung einer Kennwerteverteilung als
Streuungsmaß verwendet.
Die Standardabweichung eines Schätzers wird als Standardschätzfehler oder Standardfehler
bezeichnet.
Da bei einfachen Zufallsauswahlen ohne Zurücklegen der Stichprobenanteil ein unverzerrter Schätzer des Populationsanteils ist, ist der Standardfehler die Quadratwurzel
aus dem MSE.
Sie ist aus der Standardabweichung der hypergeometrischen Verteilung berechenbar:
σ ( p1 ) =
1 ⎛ N1 ⎞ ⎛ N1 ⎞ N − n
⋅ ⎜ ⎟ ⋅ ⎜1 −
⎟⋅
n ⎝ N⎠ ⎝
N ⎠ N −1
Üblicherweise wird neben der Schätzung eines Populationsparameters auch der Standardfehler
der Kennwerteverteilung aus den Stichprobendaten geschätzt.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
287
Punktschätzung und Intervallschätzung
Von Punktschätzung spricht man, wenn die Realisation eines Schätzers als konkrete Schätzung
des unbekannten Wertes eines Populationsparameters verwendet wird.
Es ist allerdings sehr unwahrscheinlich, dass eine einzelne Schätzung exakt mit dem
unbekannten Populationsparameter übereinstimmt.
So ist die Wahrscheinlichkeit, dass ein Stichprobenanteil p1=0.6 (=60/100) bei einer
Population von N=100000 und einer Stichprobengröße von n=100 einem Populationsanteil π1=0.60 entspricht nur etwa 8%:
⎛
⎜
60 + 0.5 − 0.6 ⋅100
Pr(p1 = 0.6) ≈ Φ ⎜
100000 − 100
⎜
100
⋅
0.6
⋅
0.4
⋅
⎜
100000 − 1
⎝
= Φ (0.102) − Φ (−0.102) ≈ 0.08
⎞
⎛
⎟
⎜
60 − 0.5 − 0.6 ⋅100
⎟ − Φ⎜
100000 − 100
⎟
⎜
100
⋅
0.6
⋅
0.4
⋅
⎟
⎜
100000 − 1
⎠
⎝
⎞
⎟
⎟
⎟
⎟
⎠
In 92% aller Stichproben ist also mit Abweichungen zu rechnen.
Da der gesuchte Wert vermutlich nur in der Nähe der Schätzung liegt, ist es oft sinnvoller, statt
eines exakten Wertes ein Intervall anzugeben, in dem der gesuchte Wert vermutlich liegt.
Statt von Punktschätzung spricht man dann von Intervallschätzung.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
288
Vorgehensweise bei Intervallschätzung
Mit Hilfe der Kennwerteverteilung eines Schätzers können Intervallschätzungen berechnet werden. Dies kann am Beispiel der Schätzung eines Stichprobenmittelwerts verdeutlicht werden.
Bei einer einfachen Zufallsauswahl aus einer normalverteilten Population ist der
Stichprobenmittelwert um den zu schätzenden Populationsmittelwert normalverteilt:
⎛
σ 2X ⎞
f ( X ) = N ⎜ μX ;
⎟
n
⎝
⎠
Aus der asymptotischen Normalverteilung lässt sich ein Intervall berechnen,
in dem der Stichprobenmittelwert mit einer Wahrscheinlichkeit von z.B. 90%
liegt: 0.9 = 0.95 − 0.05 = Φ (1.645 ) − Φ ( −1.645 )
90% aller Realisationen liegen
= Pr(−1.645 ≤ Z ≤ 1.645)
zwischen dem 95%-Quantil und
dem 5%-Quantil der StandardX − μX
= Pr(−1.645 ≤
≤ 1.645)
normalverteilung
σ(X)
(
= Pr ( μ
= Pr −1.645 ⋅ σ ( X ) ≤ X − μ X ≤ 1.645 ⋅ σˆ ( X )
X
)
− 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X )
)
⎛
σ 2X
σ X2 ⎞
= Pr ⎜ μ X − 1.645 ⋅
≤ X ≤ μ X + 1.645 ⋅
⎟
⎜
⎟
n
n
⎝
⎠
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
Durch Z-Transformation werden
die Quantilgrenzen bei einer
Normalverteilung mit Erwartungswert µX und Varianz σ2X/n
berechnet.
289
Vorgehensweise bei Intervallschätzung
0.9 = 0.95 − 0.05 = Φ (1.645 ) − Φ ( −1.645 )
= Pr(−1.645 ≤ Z ≤ 1.645)
= Pr(−1.645 ≤
(
= Pr ( μ
X − μX
≤ 1.645)
σ(X)
= Pr −1.645 ⋅ σ ( X ) ≤ X − μ X ≤ 1.645 ⋅ σˆ ( X )
X
)
− 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X )
)
⎛
σ 2X
σ X2 ⎞
= Pr ⎜ μ X − 1.645 ⋅
≤ X ≤ μ X + 1.645 ⋅
⎟
⎜
⎟
n
n
⎝
⎠
.40
.35
.30
.25
.20
.15
.10
.05
.00
90 %
µX
μ X − 1.645 ⋅ σˆ ( x )
μ X + 1.645 ⋅ σˆ ( x )
Mit einer Wahrscheinlichkeit von 90% wird ein Stichprobenmittelwert also in einem
Intervall realisiert, das ±1.645 Standardfehler um den gesuchten Erwartungswert liegt.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
290
Vorgehensweise bei Intervallschätzung
.40
.35
.30
.25
.20
.15
.10
.05
.00
90 %
µX
μ X − 1.645 ⋅ σˆ ( x )
μ X + 1.645 ⋅ σˆ ( x )
Das Intervall lässt sich so umformen, dass es zu einem Intervall um den Populationsmittelwert
wird:
0.9 = Pr μ X − 1.645 ⋅ σ ( X ) ≤ X ≤ μ X + 1.645 ⋅ σ ( X )
(
)
= Pr ( −X − 1.645 ⋅ σˆ ( X ) ≤ −μ ≤ − X + 1.645 ⋅ σ ( X ) )
= Pr ( X + 1.645 ⋅ σ ( X ) ≥ μ ≥ X − 1.645 ⋅ σ ( X ) )
= Pr ( X − 1.645 ⋅ σ ( X ) ≤ μ ≤ X + 1.645 ⋅ σ ( X ) )
X
X
X
Ein solches Intervall, dass mit einer bestimmten Wahrscheinlichkeit zu beobachten ist, wird als
Konfidenzintervall bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
291
Interpretation von Konfidenzintervallen
Durch die Umformung ist das Intervall selbst bzw. sind seine Intervallgrenzen Zufallsvariablen.
Mit einer vorgegebenen Wahrscheinlichkeit, im Beispiel 90%, liegen die Intervallgrenzen so,
dass der zu schätzende Populationsmittelwert innerhalb der Intervallgrenzen ist.
Die Wahrscheinlichkeitsaussage bezieht sich nicht auf den unbekannten Parameter, sondern auf
die Zufallsvariable „Konfidenzintervall“
Die Behauptung, dass der unbekannte Populationsparameter mit bekannter Wahrscheinlichkeit
in einem berechneten Intervall liegt, wäre daher falsch.
Wenn die Realisationen von Konfidenzintervallen mit einer bekannten Wahrscheinlichkeit den
zu schätzenden Parameter überdecken, dann ist die Wahrscheinlichkeit, dass dies nicht der Fall
ist, gleich eins minus dieser Wahrscheinlichkeit, im Beispiel also 100%-90% = 10%. Die Wahrscheinlichkeit eines Fehlers wird als Irrtumswahrscheinlichkeit bezeichnet und durch den kleinen griechischen Buchstaben α (alpha) gekennzeichnet.
Die Berechnungsart von Konfidenzintervallen führt also dazu, dass der Anteil aller Konfidenzintervalle, die den Populationsparameter überdecken, gleich der vorgegebenen Wahrscheinlichkeit ist.
Wenn diese Vertrauenswahrscheinlichkeit hoch bzw. die Irrtumswahrscheinlichkeit klein ist,
dann ist das Vertrauen berechtigt, dass auch ein konkret berechnetes Intervall den zu schätzenden Wert tatsächlich enthält, auch wenn unbekannt bleibt, ob dies tatsächlich der Fall ist.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
292
Mittelwerte und Intevallgrenzen
Interpretation von Konfidenzintervallen
5.2
5.1
5.0
4.9
4.8
Zufallsstichproben vom Umfang n=500 aus N(5;1)
Die Abbildung zeigt 90%-Konfidenintervalle um die Stichprobenmittelwerte von 100 Stichproben des Umfangs n=500 aus einer normalverteilten Population mit dem Populationsmittelwert 5 und einer Varianz von 1.
Von den 100 Intervallen enthalten 91 den Populationswert 5.0, neun dagegen nicht.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
293
Vorgehensweise bei Intervallschätzung
Aus dem Beispiel lässt sich die generelle Vorgehensweise bei der Berechnung von Konfidenzintervallen verallgemeinern:
Schritt 1:
Im ersten Schritt ist ein Stichprobenkennwert auszuwählen, dessen Kennwerteverteilung bekannt
ist, wobei der zu schätzende Populationsparameter ein Parameter der Verteilungsfunktion ist und
ansonsten die Verteilung berechenbar sein muss.
Schritt 2:
Im zweiten Schritt wird die Irrtumswahrscheinlichkeit bzw. umgekehrt die Vertrauenswahrscheinlichkeit festgelegt.
In der Sozialforschung werden üblicherweise Irrtumswahrscheinlichkeiten von 5% oder 1%
akzeptiert und entsprechend 95%- oder 99%-Konfidenzintervalle berechnet.
Je kleiner die Irrtumswahrscheinlichkeit, desto größer sind die Längen der Konfidenzintervalle.
Wenn ein Konfidenzintervall zu lang ist, hat es kaum Aussagekraft.
Schritt 3:
Nach der Festlegung der Irrtumswahrscheinlichkeit α kann das Intervall berechnet werden. Dazu werden Quantile der Kennwerteverteilung benötigt. In der Regel wird das Intervall nach der
Formel
c.i = Schätzer ± (1−α/2)-Quantil · (geschätzer) Standardfehler
berechnet.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
294
Schätzung von Populationsanteilen
Bei einfachen Zufallsauswahlen ist der Stichprobenanteil ein konsistenter und erwartungstreuer
Schätzer des entsprechenden Populationsanteils.
Die Kennwerteverteilung lässt sich bei einfachen Zufallsauswahlen ohne Zurücklegen über die
hypergeometrische Verteilung berechnen.
Bei Zufallsauswahlen mit Zurücklegen bzw. wenn die Population um ein Vielfaches größer ist
als die Stichprobe (N > 20·n), lässt sich die Kennwerteverteilung über die Binomialverteilung
berechnen.
Bei großen Stichproben nähern sich die Kennwerteverteilungen von Stichprobenanteilen asymptotisch einer Normalverteilung an.
Die Annäherung ist hinreichend genau, wenn
n⋅
πi
1 − πi
> 9 und n ⋅
>9
1 − πi
πi
Der Standardfehler σ(p1) des Schätzers ist:
σ ( p1 ) =
π1 ⋅ (1 − π1 )
n
π1 ⋅ (1 − π1 ) N − n
=
⋅
n
N −1
bei einfacher Zufallsauswahl mit Zurücklegen
bei einfacher Zufallsauswahl ohne Zurücklegen
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
295
Schätzung von Populationsanteilen
Da die Berechnung des Standardfehlers die Kenntnis des zu schätzenden Popualtionsanteils π1
voraussetzt, wird in der Praxis oft der geschätzte Standardfehler verwendet, bei dem in der Gleichung der Populationsanteil durch seinen Schätzer ersetzt wird:
σˆ ( p1 ) =
=
p1 ⋅ (1 − p1 )
n
bei einfacher Zufallsauswahl mit Zurücklegen
p1 ⋅ (1 − p1 ) N − n
⋅
n
N −1
bei einfacher Zufallsauswahl ohne Zurücklegen
Als Faustregel gilt: Wenn n > 60, dann ist die Schätzung des Standardfehlers für praktische
Anwendungen genau genug.
Bei kleineren Fallzahlen kann der maximal mögliche Standardfehler verwendet werden, der sich
ergibt, wenn der Populationsanteil π1=0.5 ist:
σ ( p1 ) ≤
≤
0.5
n
bei einfacher Zufallsauswahl mit Zurücklegen
0.5 N − n
⋅
N −1
n
bei einfacher Zufallsauswahl ohne Zurücklegen
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
296
Schätzung von Populationsanteilen
Bei der Berechnung von Konfidenzintervalle für Anteile wird die asymptotische Annäherung der
Kennwerteverteilung an die Normalverteilung genutzt.
Die Grenzen des (1-α)-Konfidenzintervalls berechnen sich nach:
c.i.(π1 ) = p1 ±
p1 ⋅ (1 − p1 )
⋅ z1−α / 2
n
Die Berechnung ist hinreichend genau, wenn gilt:
(a) n · p1 / (1-p1) > 9 bzw. n · (1-p1) / (p1) > 9
(b) n > 60
Soll z.B. für das Eingangsbeispiel der Stichprobe von n=100 und einem Stichprobenanteil von p1 = 60% Befürwortern von Ganztagsschulen ein 95%Konfidenzintervall
berechnet werden, dann ergeben sich die Intervallgrenzen nach:
c.i.(π1 ) = 0.6 ±
0.6 ⋅ 0.4
⋅1.96 = 0.6 ± 0.096
100
Bei einer Irrtumswahrscheinlichkeit von 5% ist zu vermuten, dass der
Anteil der Befürworter in der Stadt zwischen 50.4% und 69.6% liegt.
Die Anwendungsvoraussetzungen sind erfüllt, da gilt:
100 · 0.4 / 0.6 = 66.7 > 9 und 100 > 60
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
α
0.000
0.005
0.010
0.015
0.020
0.025
0.050
0.100
zα
-∞
-2.57
-2.326
-2.170
-2.054
-1.960
-1.645
-1.282
297
Schätzung von Populationsmittelwerten
Bei einfachen Zufallsauswahlen ist der Stichprobenmittelwert ein konsistenter und erwartungstreuer Schätzer des entsprechenden Populationsmittelwerts.
Ist eineVariable in der Population (annähernd) normalverteilt, dann ist auch die Kennwerteverteilung des Stichprobenmittelwerts (annähernd) normal.
Aus dem zentralen Grenzwertsatz folgt, dass unabhängig von der Verteilung in der Population
ein Stichprobenmittelwert asymptotisch normalverteilt ist.
Die Annäherung ist für praktische Anwendungen genau genug, wenn n > 30.
Der Standardfehler des Schätzers berechnet sich nach:
σ 2X σ X
=
σ(x) =
n
n
bei einfacher Zufallsauswahl mit Zurücklegen
N−n
σ 2X N − n σ X
=
`=
` bei einfacher Zufallsauswahl ohne Zurücklegen
⋅
⋅
n N −1
N −1
n
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
298
Schätzung von Populationsmittelwerten
Wenn - was in der Regel der Fall ist - die Populationsstandardabweichung σX unbekannt ist,
berechnet sich der geschätzte Standardfehler nach:
n
σˆ ( x ) =
∑ ( xi − x )
n
2
i =1
n ⋅ ( n − 1)
SSX
=
n ⋅ ( n − 1)
σˆ
sX
= X
n −1
n
mit Zurücklegen
=
σˆ ( x ) =
⋅=
∑(x
i =1
i − x)
n ⋅ ( n − 1)
2
⋅
N−n
N −1
SSX
N−n
⋅
n ⋅ ( n − 1)
N −1
sX
N − n σˆ X
N−n
⋅
=
⋅
N −1
n −1 N −1
n
ohne Zurücklegen
=
Ist eine Variable X in der Grundgesamtheit normalverteilt und ist die Varianz oder Standardabweichung in der Grundesamtheit bekannt, dann ist die Kennwerteverteilung des Stichprobenmittelwertes ebenfalls normalverteilt.
Das (1−α/2)-Konfidenzintervall des Mittelwerts mit der Irrtumswahrscheinlichkeit α berechnet
sich dann nach:
σ
c.i.(μ X ) = x ± X ⋅ z1−α / 2
n
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
299
Schätzung von Populationsmittelwerten
Ist die Standardabweichung σX bzw. die Varianz σ2X in der Population unbekannt, dann ist die
Kennwerteverteilung nicht länger normalverteilt, wenn bei der Berechnung von Konfidenzintervallen anstelle der unbekannten Standardabweichung die geschätzte Populationsstandardabweichung verwendet wird.
Es kann jedoch gezeigt werden, dass die Z-Transformation des Stichprobenmittelwerts in diesem
Fall einer sogenannten T-Verteilung mit df = n–1 Freiheitsgraden folgt, wobei df der Parameter
einer T-Verteilung ist:
⎛
⎞
⎜
⎟
−
μ
X
⎟=t
X
f ( X i ) = N ( μ X ; σ X2 ) ⇒ f ⎜⎜
⎟ df = n −1
n
2
1
⎜
⋅ ( Xi − X ) ⎟
⎜ n ⋅ ( n − 1) ∑
⎟
i =1
⎝
⎠
Die T-Verteilung ist eine symmetrische, unimodale Verteilung, die der Standardnormalvereilung
sehr ähnlich ist, aber eine größere Varianz hat und insbesondere an den Enden der Verteilung
größere Dichten aufweist.
Dies hat zur Folge, dass die Quantilwerte der T-Verteilung bei gleicher Quantilwahrscheinlichkeit weiter vom Nullpunkt entfernt sind als die entsprechenden Quantilwerte der Standardnormalverteilung.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
300
T-Verteilung
df = ∞
0.40
Wahrscheinlichkeitsdichte
0.35
df =10
0.30
df =1
0.25
0.20
0.15
0.10
0.05
0.00
0
1
2
3
4
5
6
T
Mit steigender Zahl von Freiheitsgraden nähert sich die T-Verteilung asymptotisch der
Standardnormalverteilung an, so dass tdf=∞ = N(0;1)
-6
-5
-4
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
-3
-2
-1
301
Quantile der T-Verteilung
In Tabellen werden Quantilwerte von T-Verteilungen für wichtige Quantilwahrscheinlichkeiten
und unterschiedliche Freiheitsgrade tabelliert:
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
75.0%
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
90.0%
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
95.0%
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
97.5%
12.71
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
99.0%
31.82
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
99.5%
63.66
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
99.9%
318.3
22.33
10.21
7.173
5.893
5.208
4.785
4.501
4.297
4.144
4.025
3.930
3.852
3.787
3.733
3.686
3.646
3.610
3.579
3.552
99.95%
636.6
31.60
12.92
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
302
Quantile der T-Verteilung
df
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
75.0%
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674
90.0%
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
95.0%
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
97.5%
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
99.0%
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
99.5%
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
99.9%
3.527
3.505
3.485
3.467
3.450
3.435
3.421
3.408
3.396
3.385
3.307
3.232
3.160
3.090
99.95%
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.551
3.460
3.373
3.291
Aus der Tabelle ist ersichtlich, dass das 95%-Quantil der T-Verteilung mit 60 Freiheitsgraden
den Quantilwert 1.671 aufweist.
Die unterste Zeile enthält die Quantile der Standardnormalverteilung, d.h. einer T-Verteilung mit
∞ Freiheitsgraden.
Da T-Verteilungen um 0 symmetrisch verteilt sind, können aus der Tabelle auch Quantile mit
Wahrscheinlichkeiten <50% abgelesen werden. So ist das 5%-Quantil der t-Verteilung mit df=60
minus eins mal dem 95%-Quantil (5% = 100% – 95%) und daher gleich -1.671.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
303
Konfidenzintervalle für Mittelwerte aus normalverteilten Populationen
Die T-Verteilung wird für die Berechnung des (1−α/2)-Konfidenzintervallen für Mittelwerte
aus normalverteilten Populationen herangezogen.
Bei Irrtumswahrscheinlichkeit α berechnet und unbekannter Standardabweichung berechnet
sich das (1–α)-Konfidenzintervall nach:
c.i.(μ X ) = x ± σˆ ( x ) ⋅ t1−α / 2,df = n −1;
σˆ X
⋅ t1−α / 2,df = n −1
n
s
= x ± X ⋅ t1−α / 2,df = n −1
n −1
=x±
In der Stichprobe des Allbus 1996 beträgt der Mittelwert der Befragten 46.117 Jahren,
die Stichprobenvarianz ist 281.112 und die Fallzahl beträgt 3510 Personen.
Gesucht ist das 95%-Konfidenintervall für den Populationsmittelwert:
Quantile von T
df
s 2X
281.112
⋅ t 0.975,df =3509 = 46.117 ±
⋅ 1.96 = 46.117 ± 0.555 120
c.i.(μ X ) = x ±
n −1
3509
∞
97.5%
1.980
1.960
Da nur Personen ab 18 Jahren befragt wurden ist zu schließen, dass 1996 das
durchschnittliche Alter von volljährigen Personen in Deuschland vermutlich
zwischen 45.562 und 46.672 Jahren lag.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
304
Asymptotische Konfidenzintervalle für Mittelwerte bei beliebiger Verteilung
Wenn die Variable X in der Gundgesamtheit nicht normalverteilt ist, kann anstelle eines exakten
Konfidenzintervall ein asymptotisches Konfidenzintervall berechnet werden.
Die Berechnung des asymptotischen (1−α/2)-Konfidenzintervall des Mittelwerts mit der
Irrtumswahrscheinlichkeit von ungefähr α berechnet sich dann nach:
c.i.(μ X ) = x ± σˆ ( x ) ⋅ z1−α / 2
σˆ X
⋅ z1−α / 2
n
s
= x ± X ⋅ z1−α / 2
n −1
=x±
Die Annäherung ist hinreichend genau, wenn n>30.
Da Konfidenzintervalle, die über die T-Verteilung berechnet werden, länger sind als Konfidenzintervalle mit gleicher Irrtumswahrscheinlichkeit, die auf der Standardnormalverteilung beruhen,
wird üblicherweise auch dann die T-Verteilung verwendet, wenn die Verteilung von X in der
Population unbekannt oder nicht normalverteilt ist.
Es besteht dann eine größere Chance, dass die Konfidenzintervalle den zu schätzenden
Populationsmittelwert tatsächlich überdecken. Dieses vorsichtigere Vorgehen wird als
konservatives Schätzen bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
305
Schätzung von Populationsvarianzen und Standardabweichungen
Zur Schätzung einer Populationsvarianz kann die Stichprobenvarianz verwendet werden.
Diese ist zwar konsistent, allerdings kein erwartungstreuer Schätzer.
Der Erwartungswert der Stichprobenvarianz ist bei einfachen Zufallsauswahlen (ohne
Zurücklegen) nämlich:
2⎞
σ X2
⎛1 n
⎛ n −1 ⎞
2
μ ( s ) = μ ⎜ ⋅ ∑ ( Xi − X ) ⎟ = σX −
= σ X2 ⋅ ⎜
⎟
n
⎝ n ⎠
⎝ n i =1
⎠
2
X
Die Höhe des Verzerrungsfaktors (n-1)/n nähert sich 1, wenn die Stichprobenfallzahl n ansteigt.
Der Schätzer ist daher nur asymptotisch erwartungstreu.
Zur Schätzung einer Populationsvarianz wird i.a. ein bei jeder Fallzahl erwartungstreuer
Schätzer verwendet, der sich aus der Stichprobenvarianz mal dem Kehrwert des Verzerrungsfaktors ergibt.
Der erwartungstreue Schätzer der Populationsvarianz ist daher:
n
n
SSX
1
2
σˆ = s ⋅
=
=
⋅ ∑ ( xi − x )
n − 1 n − 1 n − 1 i =1
2
X
2
X
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
306
Schätzung von Populationsvarianzen und Standardabweichungen
Der Standardfehler des erwartungstreuen Schätzers der Populationsvarianz hängt von der
Verteilung in der Population ab. Ist diese (annähernd) normalverteilt, gilt:
σ ( σˆ 2X ) = σ X2 ⋅
2
n −1
Die Kennwerteverteilung ist bei normalverteilten Populationen proportional zur sogenannten
Chiquadratverteilung.
Konfidenztintervalle werden aber meistens nicht berechnet.
Für die Schätzung der Populationsstandardabweichung wird die Wurzel aus der geschätzten Populationsvarianz benutzt
n
1
2
σˆ X = σˆ =
⋅ ∑ ( xi − x )
n − 1 i =1
2
X
Die geschätze Populationsstandardabweichung ist im Unterschied zur geschätzten Varianz nur
konsistent, aber nicht erwartungstreu.
Statistik 1 (Vorlesung SoSe 06, 6.6.06)
307
Statistik I im Sommersemester 2006
Themen am 13.6.2006:
Statistische Hypothesentests
• Die Logik statistischen Testens
• Prüfung von Hypothesen über Anteile und Mittelwerte
Lernziele:
1.
2.
3.
4.
5.
6.
Unterschiedung zwischen Nullhypothese, Alternativhypothese und Forschungshypothese
Irrtumswahrcheinlichkeit, Fehler erster Art, Fehler zweiter Art
Teststärkefunktion und Trennschärfe eines Tests
Einseitige und zweiseitige Tests
Z-Test von Anteilen und deren Anwendungsvoraussetzung
Z-Test und T-Test von Mittelwerten und deren Voraussetzungen
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
308
Wiederholung
Schätzer und Schätzung
Erwünschte Eigenschaften von Schätzern: Konsistenz, Erwartungstreue und (relative) Effizienz
Die Bedeutung von Standardfehlern
Punktschätzung und Intervallschätzung
Konfidenzintervalle für Anteile
Konfidenzintervalle für Mittelwerte
Die T-Verteilung
Schätzung von Varianzen und Standardabweichungen
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
309
Die Logik statistischen Testens
In vielen sozialwissenschaftlichen Fragestellungen sollen Vermutungen über Eigenschaften
einer Population überprüft werden.
Es soll z.B. geprüft werden, ob in einer Stadt eine Mehrheit der Bürger für die
Einrichtung einer Ganztagsschule ist. In einer einfachen Zufallsauswahl von
n=100 Bürgern sprechen sich 60% für die Einrichtung der Schule aus.
Aus dem Ergebnis wird geschlossen, dass es tatsächlich eine Mehrheit für die
Einrichtung der Ganztagsschule gibt.
Das Beispiel weist auf die Ähnlichkeit der Fragestellung beim statistischen Schätzen und beim
statistischen Testen hin:
- Beim Schätzen wird aufgrund von Stichprobendaten in einem Induktionsschluss auf eine
Eigenschaft der Population geschlossen;
- beim Testen wird anhand von Stichprobendaten entschieden, ob eine Vermutung über eine
Eigenschaft der Population zutrifft oder nicht zutrifft.
Beim statistischen Testen wird also immer eine Entscheidung getroffen.
Als Entscheidungsgrundlage werden Informationen aus einer Stichprobe verwendet.
⇒
Statistischer Test sind Entscheidungsregeln, die Stichprobendaten nutzen.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
310
Nullhypothese und Alternativhypothese
Die zu treffende Entscheidung bezieht sich darauf, ob eine postulierte Eigenschaft in der
Population vorhanden ist oder nicht vorhanden ist.
Formal gesehen gibt es somit genau zwei Zustände, die in der Realität auftreten können:
1. Die postulierte Eigenschaft liegt vor
2. Die postulierte Eigenschaft liegt nicht vor
Enstprechend diesen beiden Zuständen werden formal zwei Hypothesen unterschieden:
1. Die Nullhypothese H0 behauptet, dass die potulierte Eigenschaft vorliegt,
2. Die Alternativhypothese H1behauptet, dass die postulierte Eigenschaft nicht vorliegt
Ein statistischer Test ist dann eine Entscheidung darüber,
ob die Nullypothese richtig und die Alternativhypothese falsch ist,
oder ob die Alternativhypothese richtig und die Nullhypothese falsch ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
311
Fehler erster und zweiter Art
In Abhängikeit von den Stichprobendaten wird die Nullhypothese akzeptiert oder verworfen.
Insgesamt gesehen gibt es dann vier unterscheidbare Situationen:
H0 ist richtig
(= H1 ist falsch)
H0 ist falsch
(= H1 ist richtig)
Akzeptanz von H0
(= Verwerfen von H1)
richtige Entscheidung
falsche Entscheidung
= β-Fehler (Fehler zweiter Art)
Verwerfen von H0
(= Akzeptanz von H1)
falsche Entscheidung
= α-Fehler (Fehler erster Art)
richtige Entscheidung
Wünschenswert sind statistische Tests, bei denen sowohl die Wahrscheinlichkei eines α-Fehler
als auch die Wahrscheinlickeit eines β-Fehlers möglichst klein ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
312
Fehler erster und zweiter Art
H0 ist richtig
(= H1 ist falsch)
H0 ist falsch
(= H1 ist richtig)
Akzeptanz von H0
(= Verwerfen von H1)
richtige Entscheidung
falsche Entscheidung
= β-Fehler (Fehler zweiter Art)
Verwerfen von H0
(= Akzeptanz von H1)
falsche Entscheidung
= α-Fehler (Fehler erster Art)
richtige Entscheidung
Für die Entscheidung wird aus den Stichprobendaten eine Teststatistik berechnet.
In Abhängigkeit vom Wert der Teststatistik wird dann die Nullhypothese akzeptiert oder
verworfen.
Es hängt dann
a) von der Kennwerteverteilung der Teststatistik ab
und b) von der Korrektheit der Nullhypothese,
wie wahrscheinlich Fehlentscheidungen sind.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
313
Fehler erster und zweiter Art
Für die Prüfung einer Hypothese über einen Populationsanteil kann z.B. der Stichprobenanteil
als Teststatistik herangezogen werden.
f(p1|π1=0.1)
f(p1|π1=0.2)
f(p1|π1=0.9)
π1 > 0.5
π1 ≤ 0.5
f(p1|π1=0.3)
f(p1|π1=0.8)
f(p1|π1=0.7)
f(p1|π1=0.4)
f(p1|π1=0.6)
f(p1|π1=0.5)
π1; p1
0.0
0.1
0.2
0.3
0.4
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
0.5
0.6
0.7
0.8
0.9
1.0
314
Festlegung von Null- und Alternativhypothese über die Forschungshypothese
Formal sind Null- und Altrernativhypothese
symmetrisch:
Ist die Nullhypothese richtig, dann ist die
Alternativhypothese falsch;
ist die Nullhypothese falsch, dann ist die
Alternativhypothese richtig.
0.3
0.4
0.5
0.6
0.7
H0: π1 ≤ 0.5 H1: π1 > 0.5
0.8
Die eigentliche Forschungsfrage
korrespondiert jedoch nur mit einer der
beiden Hypothesen.
Diese theoretische Forschungsfrage ist die
Forschungshypothese
Im Sinne eines möglichst strengen Testens
soll die Wahrscheinlichkeit der fälschlichen
Akzeptanz der Forschungshypothese einen
Maximalwert nicht überschreiten.
Im Beispiel postuliert die Forschungshypothese, dass in der Population
eine für die Ganztagesschule ist: π1 > 0.5.
Wenn möglich, wird die Forschungshypothese als Alternativhypothese H1, ihr Gegenteil als
Nullhypothese H0 formuliert.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
315
Festlegung der (maximalen) Irrtumswahrscheinlichkeit
AnnahmeAblehnungsbereich von H0 bereich von H0
p1 < 0.58225 ⇒ H0
0.3
0.4
0.5
kritischer
Wert
p1 ≥ 0.58225 ⇒ H1
0.6
0.7
0.8
Durch diese Zuordnung ist es möglich,
die Forderung zu erfüllen,
dass die fälschliche Akzeptanz der
Forschungshypothese einen Maximalwert
nicht überschreitet.
Dazu wird der Wertebereich der Kennwerteverteilung der Teststatistik in einen Ablehnungs- und einen Annahmebereich zerlegt.
Der Ablehnungsbereich wird dabei so
festgelegt, dass die Wahrscheinlichkeit
(maximal) α ist, in diesen Bereich zu fallen,
wenn die Nullhypothese (gerade noch)
richtig ist.
H0: π1 ≤ 0.5 H1: π1 > 0.5
Soll im Beispiel die maximalen Fehlerwahrscheinichkeit, die Forschungshypothese fälschlicherweise zu akzeptieren, 5% betragen, dann wird der Ablehnungsbereich durch das 95%Quantil der Kennwerteverteilung des Stichprobenanteils bei einem Populationsanteil von π1 =
0.5 festgelegt: Qα=.95,π1=0.5 ≈ 1.645 · 0.5·/10 + 0.5) = 0.58225
Nur wenn ein Stichprobenanteil mindestens diesen Wert erreicht, wird die Nullhypothese H0
abgelehnt und die Alterrnativhypothese H1 (Forschungshypothese) als vermutlich richtig
akzeptiert.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
316
Festlegung der (maximalen) Irrtumswahrscheinlichkeit
AnnahmeAblehnungsbereich von H0 bereich von H0
Wahrscheinlichkeit eines
β-Fehlers
Wenn der kritische Wert erreicht oder überschritten wird, obwohl H0 richtig ist, liegt ein
α-Fehler vor.
Wahrscheinlichkeit eines
α-Fehlers
Wenn der kritische Wert nicht überschritten
wird, obwohl die H0 falsch ist, liegt ein βFehler vor.
In allen anderen Situationen ist die Entscheidung richtig.
0.3
0.4
0.5
0.6
H0: π1 ≤ 0.5 H1: π1 > 0.5
0.7
0.8
Die Höhe der Fehlerwahrscheinlichkeiten
hängt von dem unbekannten Populationswert
ab, über den die Forschungshypothese eine
Vermutung postuliert.
Da die Forschungshypothese die Alternativhypothese H1 ist, ist die maximale Wahrscheinlichkeit, fälschlicherweise die Forschungshypothese abzulehnen, gleich der maximalen α-Fehlerwahrscheinlichkeit.
Diese Wahrscheinlichkeit wird auch als Irrtumswahrscheinlichkeit oder als Signifikanzniveau eines Tests bezeichnet.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
317
Teststärkefunktion
1.0
AblehnungsAnnahmebereich von H0 bereich von H0
Prob(β-Fehler)
0.9
0.8
0.7
0.6
βmax =95%
0.5
0.4
0.3
0.2
0.1
αmax =5%
Prob(α-Fehler) 1-Prob(β-Fehler)
0.0
0.3
0.4
0.5
0.6
H0: π1 ≤ 0.5 H1: π1 > 0.5
0.7
0.8
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
zutreffende
unzutreffende
Nullhypothese Nullhypothese
0.9
Nachdem der Ablehnungsbereich festgelegt ist, kann für jeden möglichen Populationswert die
Wahrscheinlichkeit berechnet werden, dass die Teststatistik in den Ablehnungsbereich fällt.
Die so berechnete Funktion heißt Teststärkefunktion (eng. power function).
Trifft die Nullhypothese zu, gibt der Wert der Teststärkefunktion die α-Fehlerwahrscheinlichkeit an; anderenfalls gibt der Wert der Teststärkefunktion die Wahrscheinlichkeit an, eine
falsche Nullhypothese korrekt zu entdecken (=1–β-Fehler).
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
318
1.0
π1
Trennschärfe
1.0
Wenn π1 ≤ 0.5, wird die (dann zutreffende) Nullhypothese mit einer Irrtumswahrscheinlichkeit von maximal α = 5%
entdeckt.
Wenn π1 ≥ 0.62 wird eine (dann falsche)
Nullhypothese mit einer Wahrscheinlichkeit von 1–β ≥ 78.2% entdeckt.
Bei einem Wert von π1 zwischen 0.5 und
0.62 liegt die (β-) Fehlerwahrscheinlichkeit zwischen 95% und 21.8 %. Der Test
ist in diesem Bereich nicht trennscharf.
0.9
Prob(β-Fehler)=21.8%
0.8
π1=0.62
0.7
0.6
0.5
0.4
0.3
0.2
1-Prob(β-Fehler)
αmax =5%
0.1
π1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
zutreffende
unzutreffende
Nullhypothese Nullhypothese
0.9
1.0
Die Teststärkefunktion sollte im Bereich der Nullhypothese möglichst geringe Werte nahe 0
und im Bereich der Alternativhypothese möglichst große Werte nahe 1 aufweisen.
Es gibt jedoch immer einen Bereich, in dem ein Test sehr hohe Fehlerwahrscheinlichkeiten
aufweist. In diesem nicht trennscharfen Bereich kann der Test nur schlecht zwischen H0 und H1
diskriminieren.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
319
Einfluss des Stichprobenumfangs auf die Teststärkefunktion
Bei gegebener Irrtumswahrscheinlichkeit hängt die Trennschärfe (Teststärke) von der Stichprobengröße ab:
je größer die Stichprobe, desto kleiner der Standardschätzfehler und desto steiler und damit
trennschärfer verläuft die Teststärkefunktion.
n=200
1.0
0.9
Bei einer Fallzahl von nur n=50 ist der
Test im Bereich zwischen π1 > 0.5 und
etwa π1 < 0.68 nicht trennschaft
n=100
0.8
0.7
n=50
Bei einer Fallzahl von nur n=200 ist der
Test im Bereich zwischen π1 > 0.5 und
etwa π1 < 0.57 nicht trennschaft
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Ist die Teststärke nicht hoch genug, sollte - wenn möglich - die Fallzahl erhöht werden.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
320
Einfluss des maximalen Irrtumswahrscheinlichkeit α auf die Teststärkefunktion
Die Teststärkefunktionverläuft steiler, wenn die maximale α-Fehlerwahrscheinlichkeit
heraufgesetzt wird.
1.0
0.9
Bei einer Irrtumswahrscheinlichkeit von
α ≤ 10 % ist der Bereich, in dem der Test
nicht trennscharf ist, kleiner als bei einer
Irrtumswahrscheinlichkeit von α ≤ 10 %.
Der „Preis“ für die steilere Funktion bei
zutreffender Alternativhypothese ist allerdings, dass eher eine richtige Nullhypothese fälschlicherweise abgelehnt wird.
0.8
0.7
0.6
0.5
α =5 %
0.4
0.3
0.2
α =10%
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Bei gegebener Fallzahl und zu geringer Trennschärfe muss daher gegebenenfalls die
Irrtumswahrscheinlichkeit α heraufgesetzt werden.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
321
Generelle Vorgehensweise beim statistischen Testen
Schritt 1:
Formulierung von Null- und Alternativhypothese
Im Sinne eines strengen Testens ist die Nullhypothese H0 möglichst das Gegenteil
der eigentlich interessierenden Forschungshypothese, der Alternativhypothese H1.
Schritt 2:
Auswahl der statistischen Prüfgröße (Teststatistik)
Die Prüfgröße muss bei richtiger und falscher Nullhypothese unterschiedliche
Kennwerteverteilungen aufweisen. Die Kennwerteverteilung und deren Parameter
müssen (zumindest bei Gültigkeit der Nullhypothese) bekannt sein!
Im Beispiel: Prüfgröße ist Stichprobenanteil, der asymptotisch normalverteilt ist.
Schritt 3:
Festlegung der (maximalen) Irrtumswahrscheinlichkeit (α) und damit des kritischen
Wertes
Im Beispiel ist der kritischer Wert ein Quantilwert der Normalverteilung mit
Erwartungswert 0.5 und Standardabweichung 0.05. Bei einem maximalen α von
5% ist der kritische Wert 0.58225
Schritt 4:
Berechnung der Prüfgröße und Entscheidung
Im Beispiel: In Stichproben, in denen p1 ≥ 0.58225 wird die Nullhypothese
verworfen, anderenfalls beibehalten.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
322
Generelle Vorgehensweise beim statistischen Testen
In der Regel wird eine Teststatistik so ausgewählt, dass ihre Kennwerteverteilung bei (gerade
noch) zutreffender Nullhypothese leicht zu berechnen ist.
Schritt 2:
Auswahl der statistischen Prüfgröße
Beim Test eines Anteils wird daher anstelle des Stichprobenanteils die standardnormalverteilte Prüfgröße Z verwendet, die sich durch Z-Transformation des
Stichprobenanteils an der Stelle π1 = 0. 5 (also wenn die Nullhypothese gerade
noch richtig ist) berechnet
p1 − π1 max . H0
0.58225 − 0.5
Z=
⇒ z10% =
= 1.645
0.5 ⋅ (1 − 0.5 )
π1 max . H0 ⋅ 1 − π1 max. H0
100
n
(
Schritt 3:
Schritt 4:
)
Festlegung der Irrtumswahrscheinlichkeit (α) und damit des kritischen Wertes
Bei einer maximalen Irrtumswahrscheinlichkeit von 5% ist der kritische Wert dann
das 95%-Quantil der Standardnormalverteilung, also 1.645.
Berechnung der Prüfgröße und Entscheidung
Wenn Z ≥ 1.645, dann H1, sonst H0
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
323
Einseitige und zweiseitige Tests
Im Beispiel des Tests der Forschungshypothese, dass eine Mehrheit für die Einführung einer
Ganztagesschule sei, ist die Nullhypothese falsch, wenn ein Populationswert einen
vorgegebenen Wert (im Beispiel: π1 > 0.5) erreicht oder überschreitet.
Ein solcher Test heißt einseitige Hypothesentest, da der von der Nullhypothese postulierte
Wertebereich eines Populationsparameters entweder gegen ein Überschreiten (wie im Beispiel)
oder gegen ein Unterschreiten geprüft wird.
In einem zweiseitigen Hypothesentest postuliert die Nullhypothese dagegen, dass der zu
testende Populationsparameter einen bestimmten Wert aufweist. Die Nullhypothese ist dann
falsch, sowohl wenn dieser Wert überschritten, als auch wenn er unterschritten wird.
Die generelle Vorgehensweise unterscheidet sich in der Schrittfolge nicht von der Vorgehensweise bei einem einseitigen Test.
Schritt 1:
Formulierung von Null- und Alternativhypothese
Bei zweiseitigen Forschungshypothesen ist es nicht immer möglich, dass die Nullhypothese H0 das Gegenteil der Forschungshypothese ist.
Beispiel: Es wird vemutet, dass 75% der Bevölkerung Niedersachsesn über ein
eigenes Einkommen verfügen:
H0: π1 = 0.75 versus H1: π1 ≠ 0.75
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
324
Zweiseitige Tests
Schritt 2:
Auswahl der statistischen Prüfgröße:
Der Stichprobenanteil ist bei einer einfachen Zufallsauswahl um den Populationsanteil normalverteilt.
Wenn π1 = 0.75, dann ist Z =
p1 − π1
π1 ⋅ (1 − π1 )
n
=
p1 − 0.75
0.75 ⋅ (1 − 0.75 )
180
standardnormalverteilt.
Wenn die Nullhypothese falsch ist, π1 ≠ 0.75,
dann ist entweder eher mit kleinen Werten (wenn π1 < .75)
oder aber eher mit großen Werten (wenn π1 > .75) der Teststatistik zu rechnen.
Wenn die Nullhypothese zutrifft, ist dagegen mit Werten um 0.0 zu rechnen.
Schritt 3:
Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten:
Die Irrtumswahrscheinlichkeit soll α = 5% betragen. Die Nullhypothese ist daher
abzulehnen, wenn die Teststatistik kleiner als das 2.5%-Quantil oder aber größer
als das 97.5%-Quantil der Standardnormalverteilung ist.
Bei einem zweiseitigen Hypothesentest gibt es auch zwei kritische Werte, die den
Bereich der Akzeptanz der Nullhypothese gegen die Teilbereiche der Ablehnung
der Nullhypothese abgrenzen.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
325
Zweiseitige Tests
Schritt 4:
Berechnung der Teststatistik und Entscheidung
Aus dem Allbus 1998 liegen folgende Daten über Befragte aus Niedersachsen vor:
OWNINCOM Eigenes Einkommen
Gültig
Fehlend
Gesamt
.00 nein
1.00 ja
Gesamt
System
Häufigkeit
40
140
180
83
263
Prozent
15.2
53.2
68.4
31.6
100.0
Gültige
Prozente
22.2
77.8
100.0
Kumulierte
Prozente
22.2
100.0
Angaben zum Einkommen liegen von 180 der 263 Befragten vor. Davon verfügen 140 oder
77.8% über ein eigenes Einkommen.
Der Wert der Teststatistik Z beträgt in der Stichprobe:
140
− 0.75
0.0278
180
z=
=
= 0.86
0.75 ⋅ (1 − 0.75) 0.0323
180
Da -1.96 < 0.86 < 1.96, ist die Nullhypothese nicht zu verwerfen.
Mit einer Irrtumswahrscheinlichkeit von 5% kann nicht ausgeschlossen werden,
dass in Niedersachsen 75% der Bürger über ein eigenes Einkommen verfügen.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
326
Zweiseitige Tests: Teststärkefunktion
Kennwerteverteilung der Teststatistik
Teststärkefunktion im zweiseitigen Test
1.0
π1=.75
1-Prob(β-Fehler)
0.9
π1=.7
π1=.8
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Z
-4
-3
-2
-1
0
1
2
3
4
Prob(Z<-1.96| π1=.75)=2.5%
Prob(Z>1.96| π1=.75)=2.5%
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
Prob(α-Fehler)=5%
0.1
0.0
π1
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
327
Empirisches Signifikanzniveau
In Statistikprogrammen wird neben dem Wert der Teststärkestatistik in der Regel das
empirische Signifikanzniveau (bezogen auf einen zweiseitigen Hypothesentest) berichtet.
Das empirische Singifikanzniveau gibt die Wahrscheinlichkeit an,
dass eine Teststatistik bei zutreffender Nullhypothese den beobachteten Wert annimt
oder einen Wert, der noch stärker gegen die Nullhypothes spricht.
.40
.35
.30
–0.86
.25
Z=0.86
.20
.15
.10
.05
.00
19.5%
-4
-3
-2
-1
19.5%
0
1
2
3
4
Z
Im Beispiel des zweiseitigen Tests der
Nullhypothese H0: π1 = 0.75 beträgt der
Wert der Teststatistik 0.86.
Diesem Wert entspricht im zweiseitigen
Test ein empirisches Signifikanzniveau
von 39.0%.
Pr(Z ≥ 0.86) = 1 –Φ(0.86) = 19.5%
Pr(Z ≤ –0.86) = Φ(–0.86) = 19.5%
Pr(–0.86 ≥ Z ≥ 0.86) = 39%
Ist das empirische Signifikanzniveau kleiner als die maximale Irrtumswahrscheinlichkeit α,
dann ist die Nullhypothese zu verwerfen;
ist das empirische Signifikanzniveau größer oder gleich der maximale Irrtumswahrscheinlichkeit
α, dann ist die Nullhypothese beizubehalten.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
328
Statistische Test über Konfidenzintervalle
Als Alternative zum zweiseitigen Hypothesentest über die Teststatistik Z bietet sich die
Berechnung eines Konfidenzintervalls an.
Wenn der Wert der Nullhypothese innerhalb des Konfidenzintervalls mit der Irrtumswahrscheinlichkeit α bzw. dem Vertrauen 1- α liegt, dann wird die Nullhypothese beibehalten, ansonsten
verworfen.
Im Beispiel der Prüfung von H0: π1 = 0.75 versus H1: π1 ≠ 0.75 berechnen sich die
Grenzen des 95%-Konfidenzintervalls nach:
c.i.(p1) = 140/180 ± 1.96 ·(140 ·40 /1803)0.5 = 0.78 ± 0.06 = [0.72 , 0.84]
Da der von der Nullhypothese postulierte Wert 0.75 innerhalb des 95%-Konfidenzintervalls liegt, kann die Nullhypothese bei einer Irrtumswahrscheinlichkeit von 5%
nicht verworfen werden.
Ein Vorteil des Testens über Konfidenzintervalle ist, dass die Länge des Konfdenzintervalls
Informationen über die Trennschärfe liefert:
Je länger das Konfidenzintervall ist, desto geringer ist die Trennschärfe.
Auf der anderen Seite nutzt ein Konfidenzintervall nicht die Informationen der Nullhypothese
bei der Berechnung des Standardfehlers aus.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
329
Statistische Test über Konfidenzintervalle
Beim Konfidenzintervall wird von der Stichprobenschätzung p1 ausgegangen und um diesen
Wert mit Hilfe des geschätzten Standardfehlers und der Irrtumswahrscheinlichkeit ein Intervall
berechnet in dem der durch die H0 postulierte Wert π1 liegt oder nicht liegt.
c.i.( p1 ) = p1 ± z1−α / 2 ⋅
p1 ⋅ (1 − p1 )
n
Beim zweseitigen Hypothesentest wird dagegen vom durch die H0 postulierten Wert π1 ausgegangen und um diesen Wert mit Hilfe des Standardfehlers bei gültiger H0 das Intervall des
Annahmebereichs berechnet, in dem die Stichprobenschätzung p1 liegt oder nicht liegt.
Z=
p1 − π1
π1 ⋅ (1 − π1 )
n
⇒ Annahmebereich = π1 ± z1−α / 2 ⋅
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
π1 ⋅ (1 − π1 )
n
330
Hypothesentests über Anteile und Mittelwerte
Bei der Darstellung der Logik des statistsichen Hypothsentestens wurden Hypothesen über
Anteile formuliert.
Generell lassen sich bei solchen Tests über den vermuteten Wert eines Populationsanteils drei
verschiedene Paare von Null- und Alternativhypothese formulieren:
a) H0: π1 = π versus H1: π1 ≠ π
b) H0: π1 ≤ π versus H1: π1 > π
c) H0: π1 ≥ π versus H1: π1 < π
Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist,
wenn der Populationsantreil kleiner oder aber größer ist als der durch die Nullhypothese
postulierten Wert.
Die zweite und dritte Hypothesenpaar führen zu einseitigen Tests, da hier die Nullhypothese
falsch ist, wenn der Populationswert größer (Fall b) oder kleiner (Fall c) als ein von der
Nullhypothese postulierter Wert ist.
Die Vorgehensweise ist bei allen drei Tests identisch und beginnt in Schritt 1 mit der Formulierung des Hypothesenpaares der Form a), b) oder c),
wobei in konkreten Anwendungen anstelle von π der jeweils konkrete Wert einzusetzen ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
331
Hypothesentests über Populationsanteile
Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen
auf der asymptotischen Annäherung der Kennwerteverteilung eines Stichprobenanteils bei
einfachen Zufallsauswahlen an die Normalverteilung.
Bei allen drei Nullhypothesen wird die Teststatistik
p1 − π
p1 − π
Z=
bzw. Z =
π ⋅ (1 − π )
π ⋅ (1 − π ) N − n
⋅
n
n
N −1
berechnet, wobei p1 der Stichprobenanteil ist, der dem zu testenden Anteil in der Population
entspricht, n der Stichprobenumfang und π der in der Nullhypothese a) bis c) formulierte Wert
des Populationsanteils.
Die rechte Formel wird bei einfachen Zufallsauswahlen ohne Zurücklegen aus kleinen
Populationen verwendet, wenn N/n ≤ 20, wobei N der Populationsumfang ist.
Weist der interessierende Populationsanteil π1 den Wert π auf: π1 = π,
dann ist die Teststatistik Z standardnormalverteilt.
Trifft dies nicht zu, ist die Teststatistik Z normalverteilt, aber nicht standardnormalverteilt. Der
Erwartungswert µZ ist dann proportional zur Differenz des tatsächlichen Ppulationsanteils vom
Wert π:
n
μ Z = ( π1 − π ) ⋅
π ⋅ (1 − π )
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
332
Hypothesentests über Populationsanteile
Ist π1 < π, so ist der Erwartungswert negativ und daher eher mit Z-Werten kleiner null zu
rechnen,
ist π1 > π, so ist der Erwartungswert positiv und daher eher mit Z-Werten größer null zu
rechnen.
Dies wird in Schritt 3 bei der Festlegung der Irrtumswahrscheinlichkeit und der kritischen
Werte ausgenutzt.
In den Sozialwissenschaften wird üblicherweise von einer maximalen Irrtumswahrscheinlichkeit von α = 5% oder α = 1% ausgegangen.
Bei kleinen Stichproben kann die Irrtumswahrscheinlichkeit auch 10% betragen, um hinreichende Trennschärfe zu erreichen.
Die Irrtumswahrscheinlichkeit α sollte auch eher größer sein, wenn die eigentlich interessierende Forschungshypothese nicht als Alternativhypothese H1 formuliert werden kann, sondern
als Nullhypothese H0 formuliert werden muss.
Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z ungleich null ist, liegt der Annahmebereich um null und der Ablehnungsbereich an den
Enden der Kennwerteverteilung.
Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
333
Hypothesentests über Populationsanteile
Ablehnungsbereich bei H0: π1 = π
α/2
α/2
Ablehnungsbereich bei H0: π1 ≤ π
α
Z
0.0
0.0
Z
Ablehnungsbereich bei H0: π1 ≥ π
α
Z
0.0
Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung.
Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4:
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn
(a) beim Test von H0: π1 = π gilt: Z ≤ zα/2 oder Z ≥ z1−α/2,
(b) beim Test von H0: π1 ≤ π gilt: Z ≥ z1−α bzw.
(c) beim Test von H0: π1 ≥ π gilt: Z ≤ zα.
Da die Test nur asymptotisch gültig sind, muss jeweils die Anwendungsvoraussetzung geprüft
werden. Die Annäherung an die Normalverteilung ist hinreichend genau, wenn gilt:
n·π1/(1−π1) > 9 und n·(1−π1) / π1 > 9
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
334
Hypothesentests über Populationsmittelwerte
Anteile können als Mittelwerte einer dichotomen Variablen mit den beiden Ausprägungen 0
und 1 aufgefasst werden, wobei der Wert 1 mit der interessierenden Eigenschaft korrespondiert.
Die Vorgehensweise beim Testen von Mittelwerten entspricht der des Test von Anteilen.
Zu beachten ist allerdings, dass bei mehr als zwei Ausprägungen die Standardabweichung in
der Population keine Funktion des Mittelwerts ist und daher ein separater Populationsparameter
ist.
Auch bei Tests von Mittelwerten lassen sich in Schritt 1 drei verschiedene Paare von Null- und
Alternativhypothese formulieren:
a) H0: µ1 = µ versus H1: µ1 ≠ µ
b) H0: µ1 ≤ µ versus H1: µ1 > µ
c) H0: µ1 ≥ µ versus H1: µ1 < µ
Der Wert µ ist ein in der Nullhypothese postulierter Wert für den Populationsmittelwert.
Das erste Hypothesenpaar führt zu einem zweiseitigen Test, da die Nullhypothese falsch ist,
wenn der Populationsmittelwert kleiner oder aber größer ist als der durch die Nullhypothese
postulierten Wert µ.
Die zweite und dritte Hypothesenpaar fühen demgengenüber zu eindeitigen Tests, da hier die
Nullhypothese falsch ist, wenn der Populationsmittelwert größer (Fall b) oder kleiner (Fall c)
als der von der Nullhypothese postulierter Wert ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
335
Hypothesentests über Populationsmittelwerte
Die Auswahl der statistischen Prüfgröße in Schritt 2 basiert bei allen drei Hypothesenformen
auf der (asymptotischen) Normalverteilung von Stichprobenmittelwerten bei einfachen
Zufallsauswahlen.
Allerdings sind hier zwei Situationen zu unterscheiden:
1. Bekannte Populationsvarianz
Ist die Populationsvarianz bzw. die Standardabweichung in der Population bekannt, berechnet
sich der Standardfehler des Stichprobenmittelwert nach:
σ 2X
σ X2 N − n
σ(X) =
bzw. σ ( X ) =
⋅
n
n N −1
wobei die rechte Formel bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ zum
Stichprobenumfang kleinen Populationen verwendet wird, wenn N/n ≤ 20.
2. Unbekannte Populationsvarianz
Ist die Populationsvarianz bzw. die Standardabweichung in der Population unbekannt, wird der
Standardfehler des Stichprobenmittelwert aus den Sichprobendaten gecshätzt nach:
n
σˆ 2X
σ(X) =
=
n
∑ ( xi − x )
i =1
n ⋅ ( n − 1)
n
2
σ X2 N − n
= bzw. σ ( X ) =
⋅
=
n N −1
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
∑ ( xi − x )
i =1
n ⋅ ( n − 1)
2
⋅
N−n
N −1
336
Hypothesentests über Populationsmittelwerte
Die rechte Formel wird wiederum bei einfachen Zufallsauswahlen ohne Zurücklegen aus relativ
zum Stichprobenumfang kleinen Populationen verwendet, wenn N/n ≤ 20.
Die statistischen Prüfgröße ist stets der Qotient aus der Differenz des Stichprobenmittelwerts
vom in der Nullhypothese postulierten Wert µ geteilt durch den (geschätzten) Standardfehler:
X −μ
X −μ
bzw.
σ(X)
σˆ ( X )
Zu unterscheiden ist, ob die interessierende Größe in der Population normalverteilt ist oder ob
dies nicht der Fall ist.
(1) Wenn die Variable X in der Population normalverteilt ist und die Populationsvarianz
bekannt ist, dann ist die Teststatistik
N−n
X
n
−
μ
⋅
⋅
(
)
X − μ X − μ (X − μ) ⋅ n
X −μ
X−μ
N −1
=
=
=
=
Z=
bzw. Z =
σX
σX
σ(X)
σ(X)
σ 2X
σ X2 N − n
⋅
n
n N −1
bei beliebigen Fallzahlen n in der Stichprobe standardnormalverteilt, wenn der
Populationsmittelwert µX tatsächlich gleich µ ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
337
Hypothesentests über Populationsmittelwerte
(2) Wenn die Variable X in der Population normalverteilt ist, aber die Populationsvarianz unbekannt ist, dann ist die Teststatistik
N−n
X
n
−
μ
⋅
⋅
(
)
X − μ X − μ (X − μ) ⋅ n
X −μ
X −μ
N −1
=
=
=
=
T=
bzw. T =
σˆ X
σˆ X
σˆ ( X )
σ(X)
σˆ 2X
σˆ X2 N − n
⋅
n
n N −1
bei beliebigen Fallzahlen n in der Stichprobe t-verteilt mit df = n–1Freiheitsgraden, wenn der
Populationsmittelwert µX tatsächlich gleich µ ist.
(3) Wenn die Variable X in der Population nicht normalverteilt ist und die Populationsvarianz
unbekannt ist, dann ist die Teststatistik
N−n
X
n
−
μ
⋅
⋅
(
)
X − μ X − μ (X − μ) ⋅ n
X −μ
X−μ
N −1
=
=
=
=
Z=
bzw. Z =
σˆ X
σˆ X
σˆ ( X )
σ(X)
σˆ 2X
σˆ X2 N − n
⋅
n
n N −1
asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX tatsächlich gleich µ
ist.
Die Annäherung ist i.a. hinreichend genau, wenn n > 30.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
338
Hypothesentests über Populationsmittelwerte
(4) Ist die Variable X in der Population nicht normalverteilt, aber die Populationsvarianz
bekannt, wird der korrekte Standardfehler verwendet:
X − μ X − μ (X − μ) ⋅ n
X −μ
=
=
=
Z=
bzw. Z =
2
σ
σ(X)
σ
X
( )
σX
X
n
X−μ
σ N−n
⋅
n N −1
2
X
=
(X − μ) ⋅ n ⋅
N−n
N −1
σX
Die Teststatistk ist asymptotisch standardnormalverteilt, wenn der Populationsmittelwert µX
tatsächlich gleich µ ist.
Die Annäherung ist i.a. hinreichend genau, wenn n > 30.
Ist der Populationsmittelwert ungleich µ, dann ist auch der Erwartungswert der Teststatistik
ungleich null.
Beim T-Test ist die Kennwerteverteilung dann nichtzentral t-verteilt, beim Z-Test ist sie
(asymptotisch) normalverteilt mit Erwartungswert ungleich 0.
Da bei dem zweiseitigen Test a) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T ungleich null ist, wird in Schritt 3 der Annahmebereich um null und der
Ablehnungsbereich an die Enden der Kennwerteverteilung gelegt.
Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststatistik Z bzw. T größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
339
Hypothesentests über Populationsmittelwerte
Ablehnungsbereich bei H0: µ1 = µ
α/2
α/2
0.0
Ablehnungsbereich bei H0: µ1 ≤ µ
Z bzw.
T
α
0.0
Z bzw.
T
Ablehnungsbereich bei H0: µ1 ≥ µ
α
0.0
Z bzw.
T
Da bei dem einseitigen Test b) und falscher Nullhypothese der Erwartungswert der Teststa-tistik
Z bzw. größer null ist, liegt der Ablehnungsbereich am oberen Ende der Kennwerteverteilung.
Es ergeben sich daher folgende Entscheidungsregeln für Schritt 4:
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn
(a) beim Test von H0: µ1 = µ gilt: Z ≤ zα/2 oder Z ≥ z1−α/2 , bzw. T ≤ tα/2;df=n-1 o. T ≥ t1−α/2;df=n-1
(b) beim Test von H0: µ1 ≤ µ gilt: Z ≥ z1−α bzw. T ≥ t1−α;df=n-1
(c) beim Test von H0: µ1 ≥ µ gilt: Z ≤ zα bzw. T ≤ t1−α;df=n-1
Im Sinne eines vorsichtigen Testens wird die T-Verteilung in der Regel auch dann verwendet,
wenn die Variable X nicht normalverteilt ist und die Popualtionsvarianz unbekannt ist.
Statistik 1 (Vorlesung SoSe 06, 13.6.06)
340
Statistik I im Sommersemester 2006
Themen am 20.6.2006:
Zusammenhangsanalyse in der Vierfeldertabelle
• Von der Anteilsdifferenz zur Vierfeldertabelle
• Prüfung von Hypothesen über Anteile und Mittelwerte
Probeklausur 2
Lernziele:
1.
2.
3.
4.
5.
6.
Aufbau einer Kreuztabelle: Zeilen- und Spaltenvariable
Unterschied zwischen gemeinsamen und bedingten Verteilungen
Univariate Verteilungen und Randverteilungen in einer Kreuztabelle
Interpretation einer Prozentsatzdifferen
Kennwerteverteilung und Konfidenzintervalle von Proezntsatzdifferenzen
Hypothesentests über Prozentsatzdifferenzen
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
341
Wiederholung
Satistische Tests als Entscheidungsregel auf der Basis von Teststatistiken
Forschungshypothese, Null- und Alternativhypothese
Fehler erster und zweiter Art
Empirisches Signifikanzniveau
Teststärkefunktion und Trennschärfe eines Tests
Irrtumswahrscheinlichkeit u. kritische Werte
Z-Tests über Populationsanteile
Z-Tests über Populationsmittelwerte
T-Tests über Populationsmittelwerte
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
342
Von der Anteilsdifferenz zur Vierfeldertabelle
Eine der wichtigsten Aufgaben der Statistik in den Sozialwissenschaften besteht in der Analyse
von Zusammenhängen.
So mag sich z.B. ein Sozialwissenschaftler dafür interessieren, ob die Einstellung vom
Schwangerschaftsabbruch bei Männern und Frauen unterschiedlich ist.
Als empirische Datenbasis findet sich im Allbus 1996 die Antworten von Befragten auf
die Frage, ob Schwangerschaftsabbruch bei finanzieller Notlage erlaubt oder verboten
sein sollte.
Um diese Fragen zu beantworten, müssen die Antworten der Männer auf diese Frage mit den
Antworten der Frauen auf diese Frage verglichen werden.
Berechnet man getrennt die Häufigkeitsverteilung von Männern und Frauen ergibt sich
folgendes Bild:
Antworten männlicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
- sollte erlaubt sein
908
- sollte verboten sein
624
Summe
1532
pk
cpk
0.593 0.593
0.407 1.000
1.000
(Quelle: Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
Antworten weiblicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
962 0.614 0.614
- sollte verboten sein
606 0.386 1.000
Summe
1568 1.000
(Quelle: Allbus 1996)
343
Von der Anteilsdifferenz zur Vierfeldertabelle
Antworten männlicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
- sollte erlaubt sein
908
- sollte verboten sein
624
Summe
1532
pk
cpk
0.593 0.593
0.407 1.000
1.000
(Quelle: Allbus 1996)
Antworten weiblicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
962 0.614 0.614
- sollte verboten sein
606 0.386 1.000
Summe
1568 1.000
(Quelle: Allbus 1996)
Der Vergleich der beiden Verteilungen zeigt, dass die weiblichen Befragten in der AllbusStichprobe sich zu einem geringfügig größeren Anteil für die Erlaubnis des Schwangerschaftsabbruchs aussprechen als die männlichen Befragten:
Die Differenz der entsprechenden Anteile beträgt 0.614 – 0.593 = 0.021.
Die Darstellung der Häufigkeitsverteilungen der Antworten in zwei getrennten Tabellen für
Männer und Frauen erscheint nicht sehr sinnvoll, wenn die Zahlen für die Interpretation wieder
zusammengestellt werden müssen.
Tatsächlich kann in der bivariaten Zusammenhangsanalyse die gemeinsame Häufigkeitsverteilung von zwei Variablen in einer Kreuztabelle analysiert werden.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
344
Von der Anteilsdifferenz zur Vierfeldertabelle
Antworten männlicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
- sollte erlaubt sein
908
- sollte verboten sein
624
Summe
1532
pk
cpk
0.593 0.593
0.407 1.000
1.000
Antworten weiblicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
962 0.614 0.614
- sollte verboten sein
606 0.386 1.000
Summe
1568 1.000
Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht:
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
908
962
624
606
1532
1568
Summe
1870
1230
3100
Die Daten in der Kreuztabelle enthalten die gleichen Zahlen wie die getrennten univariaten
Häufigkeitstabellen.
So ist erkennbar, dass von den 1532 männlichen Befragten 908 für eine Erlaubnis
und 624 für ein Verbot des Schwangerschaftsabbruchs bei finanzieller Notlage sind
und von den 1568 Frauen 962 für eine Erlaubnis und 606 für ein Verbot.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
345
Von der Anteilsdifferenz zur Vierfeldertabelle
Antworten männlicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
- sollte erlaubt sein
908
- sollte verboten sein
624
Summe
1532
pk
cpk
0.593 0.593
0.407 1.000
1.000
Antworten weiblicher Befragter
Schwangerschaftsabbruch
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
962 0.614 0.614
- sollte verboten sein
606 0.386 1.000
Summe
1568 1.000
Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht:
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
908
962
624
606
1532
1568
Summe
1870
1230
3100
Zusätzlich enthält die Kreuztabelle aber auch in der unteren Zeile bzw. der rechten Randspalte
Informationen über die univariaten Häufigkeitsverteilungen der beiden betrachteten Variablen
X (“Geschlecht”) und Y (“Schwangerschaftsabbruch”).
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
346
Von der Anteilsdifferenz zur Vierfeldertabelle
Schwangerschaftsabbruch
(Y)
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
1870 0.603 0.603
- sollte verboten sein
1230 0.397 1.000
Summe
3100 1.000
Geschlecht
des Befragten
- männlich
- weiblich
Summe
(X)
nk
pk
cpk
1532 0.494 0.49.4
1568 0.506 1.000
3100 1.000
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
908
962
624
606
1532
1568
Summe
1870
1230
3100
Die Variable, deren Ausprägungen die Zeilen der Kreuztabelle festlegen, heißt Zeilenvariable.
Im Beispiel ist die Variable Y “Haltung zum Schwangerschaftsabbruch”
Zeilenvariable.
Die Variable, deren Ausprägungen die Spalten der Kreuztabelle festlegen, heißt Spaltenvariable.
Im Beispiel ist die Variable X “Gechlecht” Spaltenvariable.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
347
Von der Anteilsdifferenz zur Vierfeldertabelle
Schwangerschaftsabbruch
(Y)
bei finanzieller Notlage
nk
pk
cpk
- sollte erlaubt sein
1870 0.603 0.603
- sollte verboten sein
1230 0.397 1.000
Summe
3100 1.000
Geschlecht
des Befragten
- männlich
- weiblich
Summe
(X)
nk
pk
cpk
1532 0.494 0.49.4
1568 0.506 1.000
3100 1.000
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
908
962
624
606
1532
1568
Summe
1870
1230
3100
Entsprechend der Zahl der Ausprägungen der Zeilen- und der Spaltenvariable spricht man von
I×J-Tabellen (engl. r by c-tables), wenn die Zeilenvariable I Ausprägungen und die Spaltenvariable J Ausprägungen hat.
Im Beispiel liegt eine “2 mal 2”-Tabelle vor, da beide Variablen dichotom sind,
also nur 2 Ausprägungen haben.
Die 2×2-Tabelle ist die kleinstmögliche Kreuztabelle von zwei Variablen. Sie hat 2×2 = 4
(innere) Zellen.
Man bezeichnet solche Kreuztabellen auch als Vierfeldertabelle (oder Vierfeldertafel).
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
348
Von der Anteilsdifferenz zur Vierfeldertabelle
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
n11 908
n12 962
n21 624
n22 606
n•1 1532
n•2 1568
Summe
n1• 1870
n2• 1230
3100
Um die einzelnen Zellen einer Kreuztabelle eindeutig zu identifizieren, werden Indizes
verwendet, die die Nummer der Ausprägung der Zeilen- und Spaltenvariablen angeben.
Im Beispiel gibt es 908 Fälle mit der Ausprägungskombination “männlich” und
“sollte erlaubt sein”, d.h. n11 = 908
An erster Stelle steht immer der Zeilenindex, an zweiter Stelle der Spaltenindex.
n21 ist daher die gemeinsame Häufigkeit der zweiten Ausprägung der Zeilenvariable
und der ersten Ausprägung der Spaltenvariable.
n12 ist dagegen die gemeinsame Häufigkeit der ersten Ausprägung der Zeilenvariable
und der zweiten Ausprägung der Spaltenvariable.
Die univariaten Verteilungen am rechten und unteren Rand, die sich auch durch Aufsummieren
der inneren Tabellenzellen ergeben, werden dadurch gekennzeichnet, dass ein “•” oder ein “+”
für den Index steht, über den aufsummiert wird.
n1• oder n1+ ist daher die Häufigkeit der ersten Ausprägung der Zeilenvariable;
n•1 oder n+1 ist daher die Häufigkeit der ersten Ausprägung der Spaltenvariable
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
349
Von der Anteilsdifferenz zur Vierfeldertabelle
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
n11 908
n12 962
n21 624
n22 606
n•1 1532
n•2 1568
Summe
n1• 1870
n2• 1230
n•• 3100 n
In der untersten rechten Zelle steht dann die Gesamtfallzahl n•• (oder einfach n) .
Im Beispiel ist n=3100.
In der Regel werden in einer Kreuztabelle Ausprägungen für ungültige Fäle (missing values)
nicht aufgeführt.
Wenn es keine ungültigen Fälle gibt, ist die Gesamtfallzahl gleich dem Stichprobenumfang.
Geschlecht nk
Tatsächlich enthält der Allbus 1996 3518 Fälle,
von denen 1738 männlich und 1780 weiblich sind. - männlich 1738
- weiblich 1780
- k. A.
0
Summe
3518
Bei der Frage nach dem Schwangerschaftsabbruch bei finanzieller Notlage gibt es jedoch 418
ungültige Angaben, wobei 396 Befragte mit “weiß
nicht” antworteten und von 22 Befragten keine Angabe vorliegt.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
Abtreibung nk
- erlaubt 1870
- verboten 1230
- w. n.
396
- k. A.
22
Summe
3518
350
Von der Anteilsdifferenz zur Vierfeldertabelle
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
a 908
b 962
c 624
d 606
a+c 1532
b+d 1568
Summe
1870 a+b
1230 c+d
3100 n
In Vierfeldertabellen gibt es die Besonderheit, dass die vier inneren Tabellenzellen auch durch
die ersten vier kleinen Buchstaben des Alphabets bezeichnet werden.
Im Beispiel ist a=908, b=962, c=623 und d=606.
Wenn wie im Beispiel die Zellen einer Kreuztabelle die absoluten Auftretenshäufigkeiten
enthalten, dann zeigt die Tabelle die gemeinsame oder bivariate Häufigkeitsverteilung der
Zeilen- und der Spaltenvariable.
Da die univariate Häufigkeitsverteilungen der beiden Variablen in den rechten bzw. unteren
Randzellen der Tabelle wiedergegeben werden, werden die univariaten Verteilungen in diesem
Kontext auch als Randverteilungen bezeichnet.
Formal ergeben sich Randverteilungen durch Aggregation über die Ausprägungen anderer
Variablen.
Die Randverteilung der ZeilenvariableGeschlechts ergibt sich im Beispiel durch
Aufsummieren über die Ausprägungen der Spaltenvariable.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
351
Zusammenhangsanalyse in der Vierfeldertabelle
Kreuztabelle von „Haltung zum Schwangerschaftsabbruch“ und Geschlecht:
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
908
962
624
606
1532
1568
Summe
1870
1230
3100
Ziel der Betrachtung einer bivariaten Verteilung ist die Beantwortung der Frage, ob, und wenn,
welcher Zusammenhang zwischen den beiden Variablen besteht.
Im Beispiel sollte der Frage nachgegangen werden, ob sich die Einstellung zum
Schwangerschaftsabbruch bei Männern und Frauen unterscheidet.
Dazu wurden die relativen Häufigkeiten von Männern und Frauen verglichen.
Statistisch gesehen ist der Vergleich der relativen Antworthäufigkeiten der Männern mit der der
Frauen ein Vergleich von bedingten (konditionalen) Verteilungen.
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
0.593 (908) 0.614 (962)
0.407 (624) 0.386 (606)
1.000 (1532) 1.000 (1568)
Summe
0.603 (1870)
0.397 (1230)
1.000 (3100)
(Quelle: Allbus 1996
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
352
Zusammenhangsanalyse in der Vierfeldertabelle
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
0.593 (908) 0.614 (962)
0.407 (624) 0.386 (606)
1.000 (1532) 1.000 (1568)
Summe
0.603 (1870)
0.397 (1230)
1.000 (3100)
(Quelle: Allbus 1996
Bei der Berechnung werden die Zellenhäufigkeiten in jeder Spalte durch die Spaltensumme in
der unteren Zeile geteilt:
n
pi( j) = ij
n• j
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
p1(1) = n11/n•1 p1(2) = n12/n•2
p2(1) = n21/n•1
p2(2) = n22/n•2
1.000 (n•1)
1.000 (n•2)
Summe
p1• = n1•/n
p2• = n2•/n
1.000 (n)
Um die bedingende Variable von der bedingten zu unterscheiden, wird der Index der bedingenden Variable - Beispiel die Spaltenvariable Geschlecht - in Klammern gesetzt.
pi(j) steht also für die (konditionale) relative Häufigkeit der i-ten Ausprägung der Zeilenvariable,
wenn die Spaltenvariable die j-te Ausprägung aufweist.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
353
Zusammenhangsanalyse in der Vierfeldertabelle
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3%
0.593 (908)
(908) 61.4%
0.614 (962)
(962)
- sollte verboten sein
40.7%
0.407 (624)
(624) 38.6%
0.386 (606)
Summe
100.0%
1.000 (1532)
(1532) 100.0%
1.000 (1568)
(1568)
Summe
0.603
60.3%
(1870)
(1870)
0.397
39.7%
(1230)
(1230)
100.0%
1.000 (3100)
(3100)
(Quelle: Allbus 1996)
1996
Anstelle der Anteile werden oft Prozentwerte angegeben.
Wärend 59.3% der Männer der Ansicht sind, Schwangerschaftsabbruch bei finanzieller
Notlage sollte erlaubt sein, sind es 61.4% der Frauen, die diese Ansicht teilen.
Zwei Zufallsvariablen sind statistisch unabhängig voneinander, wenn bedingte und unbedingte
Verteilungen gleich sind.
Bei Unabhängigkeit sollten daher in der Kreuztabelle die relativen Häufigkeiten der
konditionalen Verteilungen gleich den Randverteilungen sein.
Im Beispiel müssten dann die Prozentwerte in der ersten Zeile stets 60.3% betragen
und in der zweiten Zeile 39.7%.
Da sich relative Häufigkeiten und absolute Häufigkeiten ineinander umrechnen lassen, lässt
sich berechnen, welche absoluten Häufigkeiten zu erwarten wären, wenn Unabhängigkeit
zwischen den Variablen bestünde, indem die relativen Häufigkeiten mit der jeweiligen
Bezugszahl multipliziert wird.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
354
Zusammenhangsanalyse in der Vierfeldertabelle
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Bei Unabhängigkeit ergäbe sich für a = 0.603 ·1532 = 923.8,
b = 0.603 ·1568 = 945.5, c = 0.397 ·1532 = 608.2 und d = 0.397 ·1568 = 622.5
Bei Unabhängigkeit erwartete Häufigkeiten
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
60.3% (923.8)
60.3% (945.5)
- sollte verboten sein
39.7% (608.2)
39.7% (622.5)
Summe
100.0% (1532)
100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
In der Realität sind keine Häufigkeiten mit Nachkommastellen zu beobachten.
Tatsächlich sind die bei Unabhängigkeit erwarteten Häufigkeiten als Erwartungswerte von Zufallsvariablen zu interpretieren: Wenn es in einer Population sowohl unter den Männern wie
den Frauen 60.3% gibt, die für die Erlaubnis des Schwangerschaftsabbruchs sind, und in einfachen Zufallsauswahlen jeweils 1532 Männer und 1568 Frauen ausgewählt werden, dann wäre
der Erwartungswert der Männer 923.8 (= n · π1 = 1532 · 0.603) und der der Frauen 945.5.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
355
Zusammenhangsanalyse in der Vierfeldertabelle
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Neben dem einem Extrem statistischer Unabhängigkeit (kein Zusammenhang) kann auch der
umgekehrte Fall eines maximalen (perfekten) Zusammenhangs interessieren.
Im Beispiel wäre das der Fall, wenn entweder alle Männer für Erlaubnis und alle Frauen
für ein Verbot wären oder umgekehrt alle Männer für ein Verbot und alle Frauen für
Erlaubnis.
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
100% (1532)
0%
(0)
0%
(0) 100% (1568)
100% (1532) 100% (1568)
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
0%
(0) 100% (1568)
100% (1532)
0%
(0)
100% (1532) 100% (1568)
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
Summe
49.4% (1532)
50.6% (1568)
100.0% (3100)
Summe
50.6% (1568)
49.4% (1532)
100.0% (3100)
356
Prozentsatzdifferenz
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Als Maß für die Stärke des Zusammenhang bietet es sich daher an, die Differenz der Prozentwerte der Ausprägungen der Haltung zum Schwangerschaftsabruch zwischen den beiden
Gechlechtern als Zusammenhangsmaß zu verwenden.
Dieses Zusammenhangsmaß heißt Prozentsatzdifferenz dYX% und gibt die Differenz der
bedingten relativen Häufigkeiten in Prozentpunkten an:
⎛n
n ⎞
b ⎞
⎛ a
−
d YX % = 100 ⋅ ( p1(1) − p1(2) ) = 100 ⋅ ⎜ 11 − 11 ⎟ = 100 ⋅ ⎜
⎟
+
+
n
n
a
c
b
d
⎝
⎠
⎝ •1
•2 ⎠
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
a 908
b 962
c 624
d 606
a+c 1532
b+d 1568
Summe
1870 a+b
1230 c+d
3100 n
Im Beispiel beträgt die Prozentsatzdifferenz 100 ·(908/1532 – 962/1568) = –2.08
Prozentpunkte.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
357
Prozentsatzdifferenz
Der Wertebereich der Prozentsatzdifferenz liegt zwischen –100 Prozentpunkten und +100
Prozentpunkten.
Besteht kein Zusammenhang, beträgt der Wert 0 Prozentpunkte.
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht (X)
männlich
weiblich
60.3%
60.3%
39.7%
39.7%
(1532)
(1568)
Summe
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht (X)
männlich
weiblich
100%
0%
0%
100%
(1532)
(1568)
Summe
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht (X)
männlich
weiblich
0%
100%
100%
0%
(1532)
(1568)
Summe
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
60.3%
39.7%
(3100)
49.4%
50.6%
(3100)
50.6%
49.4%
(3100)
dYX = 0.0%
kein Zusammenhang
dYX = + 100.0%
perfekter positiver
Zusammenhang
dYX = – 100.0%
perfekter negativer
Zusammenhang
358
Prozentsatzdifferenz
Als Faustregel für die Interpretation einer Prozentsatzdifferenz wird der Wertebereich in
Regionen eingeteilt:
praktisch kein Zusammenhang
−5% < dYX% < +5%
+5% ≤ dYX% < +10%
bzw. −10% < dYX% ≤ −5%
geringer Zusammenhang
+10% ≤ dYX% < +25% mittlerer Zusammenhang
bzw. −25% < dYX% ≤ −10%
+25% ≤ dYX%
bzw. –25% ≤ dYX%
starker Zusammenhang
Das Vorzeichen ist ab ordinalem Skalenniveau interpretierbar.
Bei der Interpretation des Vorzeichens ist allerdings Vorsicht angebracht,
da es von der Kodierung der Variablen abhängt, ob eine Prozentsatzdifferenz positiv oder
negativ ist.
Interpretierbar ist das Vorzeichen nur, wenn die erste Ausprägung sowohl der Spalten- wie
auch der Zeilenvariablen entweder für ein “mehr” oder für ein “weniger” einer Eigenschaft
stehen als die jeweils zweiten Ausprägungen.
Im Zweifelsfall sollte nur der Absolutbetrag der Prozentsatzdifferenz berichtet werden.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
359
Prozentsatzdifferenz
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Stärke eines Zusammenhangs
praktisch kein
0 ≤ | dYX% | < 5
geringer
5 ≤ | dYX% | < 10
mittlerer
10 ≤ | dYX% | < 25
starker
25 ≤ | dYX% |
Die Prozentsatzdifferenz von nur 2.1 Prozentpunkten weist
darauf hin, dass es praktisch keinen Unterschied zwischen
Männern und Frauen bei der Frage gibt, ob ein Schwangerschaftsabbruch bei finanzieller Notlage erlaubt oder verboten sein sollte.
Das negative Vorzeichen (59.3 – 61.4 = –2.1) besagt aufgrund der Kodierung , dass bei Frauen
ein höherer Wert steht als bei Männern.
Wären die Werte für weibliche Befragte in der ersten Spalte oder wären in der ersten Zeile der
ersten Zeile die Werte derjenigen aufgetragen, die für ein Verbot sind, dann wäre die
Prozentsatzdifferenz positiv.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
360
Kennwerteverteilung der Prozentsatzdifferenz
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Die Prozentsatzdifferenz ist eine Linearkombination von zwei Anteilen p1(1) und p1(2) in einer
Kreuztabelle.
In einer einfachen Zufallsauswahl sind die beiden Anteile jeweils asymptotisch normalverteilt
und statistisch unabhängig voneinander, wenn entweder getrennte Stichproben für die beiden
Ausprägungen der Spaltenvariable gezogen werden, oder aber es dem Zufalls der Auswahl
überlassen bleibt, welche Ausprägung bei der Spaltenvariable realisiert wird.
Die Kennwerteverteilung ist dann ebenfalls asymptotisch normalverteilt, wobei sich
Erwartungswert und Varianz nach den Regeln für Linearkombinationen berechnen lassen:
dYX% = 100 ·p1(1) + (–100) ·p1(2)
⎛
π ⋅ π2(1) π1(2) ⋅ π2(2) ⎞ ⎞
2 ⎛ 1(1)
f ( d YX % ) = N ⎜ 100 ⋅ ( π1(1) − π1(2) ) ;100 ⋅ ⎜
+
⎟⎟
n
n
•1
•2
⎝
⎠⎠
⎝
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
361
Kennwerteverteilung der Prozentsatzdifferenz
Spaltenvariable
Geschlecht des Befragten (X)
Summe
Zei- Schwangerschaftsabbruch
männlich
weiblich
len- bei finanzieller Notlage (Y)
59.3% a (908) 61.4% b (962)
60.3% (1870)
var - sollte erlaubt sein
40.7% c (624) 38.6% d(606)
39.7% (1230)
ria- - sollte verboten sein
Summe
100.0% (1532) 100.0% (1568) 100.0% (3100)
ble (Quelle: Allbus 1996)
Da die Populationsanteile π1(1), π2(1), π1(2) und π2(2) unbekannt sind, werden sie durch die Stichprobenanteile p1(1), p2(1), p1(2) und p2(2) geschätzt.
Der Standardfehler der Prozentsatzdifferenz beträgt dann:
σˆ ( d YX % ) = 100 ⋅
p1(1) ⋅ p 2(1)
n •1
+
p1(2) ⋅ p 2(2)
n •2
= 100 ⋅
a ⋅c
(a + c)
3
+
b⋅d
(b + d)
3
Die Annäherung an die Normalverteilung ist hinreichend genau, wenn
(a) n•1 · p1(1)/p2(1) = (a+c) · a/c > 9 bzw. n•1 · p2(1)/p1(1) = (a+c) · c/a > 9,
(b) n•2 · p1(2)/p2(2) = (b+d) · b/d > 9 bzw. n•2 · p2(2)/p1(2) = (b+d) · d/b > 9,
(c) n•1 > 60 und
(c) n•2 > 60
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
362
Konfidenzintervall für die Prozentsatzdifferenz
Spaltenvariable
Geschlecht des Befragten (X)
Summe
Zei- Schwangerschaftsabbruch
männlich
weiblich
len- bei finanzieller Notlage (Y)
59.3% a (908) 61.4% b (962)
60.3% (1870)
var - sollte erlaubt sein
- sollte verboten sein
40.7% c (624) 38.6% d(606)
39.7% (1230)
riaSumme
100.0% (1532) 100.0% (1568) 100.0% (3100)
ble (Quelle: Allbus 1996)
Für das Beispiel des Zusammenhangs zwischen Haltung zum Schwangerschaftsabbruch und
Geschlecht ergibt sich anhand der Allbus-Daten ein Standardfehler von:
σˆ ( d YX % ) = 100 ⋅
908 ⋅ 624
(1532 )
3
+
962 ⋅ 606
(1568)
3
= 1.76
Analog zum Vorgehen bei Anteilen lässt sich das (1–α)-Konfidenzintervall für die
Prozentsatzdifferenz berechnen nach:
a ⋅c
b⋅d
c.i.( δ YX % ) = d YX % ± z1−α / 2 ⋅ σˆ ( d YX % ) = d YX % ± z1−α / 2 ⋅ 100 ⋅
+
3
3
(a + c) ( b + d )
Die Grenzen des 95%-Konfidenzintervalls berechnen sich für das Beispiel nach:
–2.08 ± 1.96 ·1.76 = [–5.64 ; 1.48 ]
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
363
Hypothesentests über Prozentsatzdifferenzen
Die Kennwerteverteilung lässt sich auch für Hypothesentests über Prozentsatzdifferenzen
nutzen.
Schritt 1: Formulierung von Null- und Alternativhypothese
Wie bei einfachen Anteilen lassen sich drei Hypothesenpaare unterscheiden:
(a) H0: δYX% = d% versus H1: δYX% ≠ d%
(b) H0: δYX% ≤ d% versus H1: δYX% > d%
(c) H0: δYX% ≥ d% versus H1: δYX% < d%
In den Hypothesen steht d% für einen vorgegebenen Wert, den die Prozentsatzdifferenz nach
der Nullhypothese einnimmt (a), nicht überschreitet (b) oder nicht unterschreitet (c).
Das erste Hypothesenpaar führt zu einem zweiseitigen, das zweite und dritte zu einseitigen
Tests.
Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung
Für die Teststatistik wird die asymptotische Normalverteilung der Kennwerteverteilung
ausgenutzt und die Prozentsatzdifferenz in der Stichprobe unter der Annahme, dass dYX% = d%
ist, standardisiert:
b ⎞ d%
⎛ a
X
−
−
⎜
⎟
d % − d% ⎝ a + c b + d ⎠ 100
Y 1 2
∑
=
Z = YX
1 a
b
a+b
σˆ ( d YX % )
a ⋅c
b⋅d
⋅
3
3
2 c
d
c+d
(a + c) ( b + d )
∑ a+c b+d
n
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
364
Hypothesentests über Prozentsatzdifferenzen
Wenn die Prozentsatzdifferenz dYX% tatsächlich gleich d% ist, dann ist die Test-Statistik
asymptotisch standardnormalverteilt.
Trifft diese Annahme nicht zu, ist die Teststatistik normalverteilt mit einem Erwartungswert
größer Null, wenn die Prozentsatzdifferenz δYX% in der Population größer d% ist, bzw. mit
einem Erwartungswert kleiner Null, wenn die Prozentsatzdifferenz δYX% in der Population
kleiner d% ist.
Ein Wert von d% = 0 korrespondiert mit Nullhypothesen, nach denen die Prozentsatzdifferenz
in der Population 0 ist, 0 nicht überschreitet oder unterschreitet.
Falls tatsächlich δYX% = 0, dann sind in der Population bedingte und unbedingte relative
Häufigkeiten gleich.
Dies kann bei der Berechnung des Standardfehlers ausgenutzt werden, in dem bei der Berechnung anstelle der bedingten Anteile aus den beiden Tabellenspalten jeweils der Standardfehler
des unbedingten Anteils aus der Randverteilung herangezogen wird.
Der Standardfehler der Teststatistik berechnet sich dann also nach:
p ⋅p
p ⋅p
σˆ ( Z δYX % = 0 ) = 1• 2• + 1• 2• =
n •1
n •2
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
(a + b) ⋅ (c + d) ⋅ ⎛
n
X
1
1 ⎞
+
∑
⎜
⎟ Y 1 2
⎝a+c b+d⎠ 1 a
b
a+b
2 c
d
c+d
∑ a+c b+d
n
365
Hypothesentests über Prozentsatzdifferenzen
Die Teststatistik ergibt sich nun nach:
Z=
p1(1) − p 2(1)
⎛ 1
1 ⎞
+
p1• ⋅ p 2 i ⋅ ⎜
⎟
⎝ n •1 n •2 ⎠
=
X
a
b
−
a+c b+d
(a + b) ⋅ (c + d) ⋅ ⎛ 1 + 1 ⎞
⎜
⎟
n
⎝a+c b+d⎠
Y 1
1 a
2 c
∑ a+c
2
∑
b
a+b
d
c+d
b+d
n
Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten
Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergeben sich die kritischen Werte
wie beim Testen eines einfachen Anteils.
Bei Test a) sind die kritischen Werte das (α/2)- und das (1–α/2)-Quantil,
beim Test b) das (1–α)-Quantil und beim Test c) das α-Quantil der Standardnormalverteilung.
Schritt 4: Berechnung der Teststatistik und Entscheidung
Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die
Nullhypothese beibehalten bzw. verworfen.
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn
(a) beim Test von H0: δYX% = d% gilt: Z ≤ zα/2 oder Z ≥ z1−α/2,
(b) beim Test von H0: δYX% ≤ d% gilt: Z ≥ z1−α bzw.
(c) beim Test von H0: δYX% ≥ d% gilt: Z ≤ zα.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
366
Statistik I im Sommersemester 2006
Themen am 27.6.2006:
Zusammenhangsanalyse in Kreuztabellen II
• Symmetrische und asymmetrische Beziehungen
• Bivariate Zusammenhänge in der Mehrfeldertabelle
- Zusammenhang zwischen zwei nominalskalierten Variablen
Lernziele:
1.
2.
3.
4.
5.
6.
Unterscheidung von symmetrischen und asymmetrischen Zusammenhangsanalysen
Symmetrische Zusammenhangsmaße in der Vierfeldertabelle: Phi und Q
Chiquadrat-Test auf statistische Unabhängigkeit
Interpretation einer Kreuztabelle mit mehreren Zeilen und Spalten
Nominale Zusammenhangsmaße: V, λYX, UYX,
LR-Test auf statistische Unabhängigkeit
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
367
Wiederholung
Vierfelder-Tabellen:
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Spaltenvariable
Geschlecht des Befragten (X)
männlich
weiblich
n11 908
n12 962
n21 624
n22 606
n•1 1532
n•2 1568
Summe
n1• 1870
n2• 1230
n•• 3100 n
Spaltenvariable
Zeilenvar
riable
pi( j) =
n ij
n• j
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
a 908
b 962
c 624
d 606
a+c 1532
b+d 1568
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
1870 a+b
1230 c+d
3100 n
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
368
Wiederholung; Prozentsatzdifferenz:
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
⎛n
n ⎞
b ⎞
⎛ a
d YX % = 100 ⋅ ( p1(1) − p1(2) ) = 100 ⋅ ⎜ 11 − 11 ⎟ = 100 ⋅ ⎜
−
⎟
n
n
a
c
b
d
+
+
⎝
⎠
⎝ •1
•2 ⎠
Stärke eines Zusammenhangs
praktisch kein
0 ≤ | dYX% | < 5
geringer
5 ≤ | dYX% | < 10
mittlerer
10 ≤ | dYX% | < 25
starker
25 ≤ | dYX% |
⎛
π ⋅π ⎞⎞
⎛ π ⋅π
f ( d YX % ) = N ⎜ 100 ⋅ ( π1(1) − π1(2) ) ;10000 ⋅ ⎜ 1(1) 2(1) + 1(2) 2(2) ⎟ ⎟
n •2
⎝ n •1
⎠⎠
⎝
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
369
Wiederholung; Prozentsatzdifferenz:
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% (908) 61.4% (962)
- sollte verboten sein
40.7% (624) 38.6% (606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
σˆ ( d YX % ) = 100 ⋅
p1(1) ⋅ p 2(1)
n •1
+
p1(2) ⋅ p 2(2)
n •2
= 100 ⋅
a ⋅c
(a + c)
3
+
b⋅d
(b + d)
3
Die Annäherung an die Normalverteilung ist hinreichend genau, wenn
(a) n•1 · p1(1)/p2(1) = (a+c) · a/c > 9 bzw. n•1 · p2(1)/p1(1) = (a+c) · c/a > 9,
(b) n•2 · p1(2)/p2(2) = (b+d) · b/d > 9 bzw. n•2 · p2(2)/p1(2) = (b+d) · d/b > 9,
(c) n•1 > 60 und
(c) n•2 > 60
c.i.( δ YX % ) = d YX % ± z1−α / 2 ⋅ σˆ ( d YX % ) = d YX % ± z1−α / 2 ⋅ 100 ⋅
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
a ⋅c
(a + c)
3
+
b⋅d
(b + d)
3
370
Wiederholung: Test der Prozentsatzdifferenz
Schritt 1: Formulierung von Null- und Alternativhypothese
Wie bei einfachen Anteilen lassen sich drei Hypothesenpaare unterscheiden:
(a) H0: δYX% = d% versus H1: δYX% ≠ d%
(b) H0: δYX% ≤ d% versus H1: δYX% > d%
(c) H0: δYX% ≥ d% versus H1: δYX% < d%
Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung
b ⎞ d%
⎛ a
−
−
d YX % − d% ⎜⎝ a + c b + d ⎟⎠ 100
=
Z=
σˆ ( d YX % )
a ⋅c
b⋅d
⋅
3
3
(a + c) ( b + d )
X
Y 1
1 a
2 c
∑ a+c
2
∑
b
a+b
d
c+d
b+d
n
Wenn der von H0 postulierte Wert: d% = 0:
Z=
p1(1) − p 2(1)
⎛ 1
1 ⎞
+
p1• ⋅ p 2 i ⋅ ⎜
⎟
n
n
•2 ⎠
⎝ •1
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
=
a
b
−
a+c b+d
(a + b) ⋅ (c + d) ⋅ ⎛ 1 + 1 ⎞
⎜
⎟
n
⎝a+c b+d⎠
371
Wiederholung: Test der Prozentsatzdifferenz
Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten
Schritt 4: Berechnung der Teststatistik und Entscheidung
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn
(a) beim Test von H0: δYX% = d% gilt: Z ≤ zα/2 oder Z ≥ z1−α/2,
(b) beim Test von H0: δYX% ≤ d% gilt: Z ≥ z1−α bzw.
(c) beim Test von H0: δYX% ≥ d% gilt: Z ≤ zα.
Statistik 1 (Vorlesung SoSe 06, 20.6.06)
372
Symmetrische und asymmetrische Beziehungen
Haltung zum Schwangerschaftsabbruch nach Geschlecht
Schwangerschaftsabbruch
Geschlecht des Befragten (X)
bei finanzieller Notlage (Y)
männlich
weiblich
- sollte erlaubt sein
59.3% a (908) 61.4% b (962)
- sollte verboten sein
40.7% c (624) 38.6% d(606)
Summe
100.0% (1532) 100.0% (1568)
Summe
60.3% (1870)
39.7% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dYX% = –2.08 Prozentpunkte
Bei der Betrachtung des Zusammenhangs zwischen der Haltung zur Erlaubnis oder Verbot
eines Schwangerschaftsabbruchs bei finanzieller Notlage und Gechlecht wurde Geschlecht als
bedingende und die Haltung zum Schwangrschaftsabbruch als bedingte Variable betrachtet.
Formal möglich ist auch, das Geschlecht als bedingte und die Haltung als bedingende Variable
zu betrachten:
Geschlecht nach Haltung zum Schwangerschaftsabbruch
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
373
Symmetrische und asymmetrische Beziehungen
Geschlecht nach Haltung zum Schwangerschaftsabbruch
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Aufgrund der Vertauschung von bedingender und bedingter Variable ändert sich die
Interpretation:
Während unter denen, die für die Erlaubnis des Schwangerschaftsabbruchs sind, 48.6% Männer
sind, sind unter denen, die für ein Verbot eintreten, 50.7% Männer.
Die Prozentsatzdifferenz beträgt 2.18 Prozentpunkte.
Was bedingende und was bedingte Verteilung ist, ist in der Regel eine Frage der Zielsetzung
der Analyse:
Wird der Zusammenhang im Sinne einer kausalen Beziehung interpretiert, ist die bedingende
Variable die Ursachenvariable und die bedingte Variable die kausal abhängige Effektvariable.
Generell wird bei asymmetrischen Beziehungen unterschieden zwischen der abhängigen
Variablen, deren Verteilung in Abhängigkeit von der unabhängigen oder erklärenden
Variablen betrachtet wird.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
374
Symmetrische und asymmetrische Beziehungen
Geschlecht nach Haltung zum Schwangerschaftsabbruch
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Da das Geschlecht kaum durch die Haltung zum Schwangerschaftsabbruch kausal beeinflusst
werden kann, liegt es nahe, Geschlecht als erklärende und die Haltung als unabhängige
Variable aufzufassen.
Tatsächlich sind Kreuztabellen in der Regel so aufgebau, dass die Spaltenvariable die erkläredene Variable, oft auch durch X symbolisiert, und die Zeilenvariable die abhängige Variable,
oft durch Y symbolisiert, kennzeichnet.
“Erklärend” bedeutet jedoch nicht notwendigerweise “kausal verursachend”. So dürfte auch im
Beispiel weniger das biologische Geschlecht, sondern die Unterschiede in der sozialen Situation
und möglicherweise unterschiedliche Wertorientierungen zwischen den sozialen Geschlechtern
den (kaum sichtbaren und praktisch zu vernachlässigenden Effekt) verursacht haben.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
375
Symmetrische und asymmetrische Beziehungen
Geschlecht nach Haltung zum Schwangerschaftsabbruch
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Darüber hinaus kann es auch rein praktische Gründe haben, eine Variable als abhängige und die
andere als erklärende Variable aufzufassen.
Ein Grund liegt oft darin, dass die Ausprägung einer Variable eher bekannt oder leichter zu
messen ist und dies genutzt wird, um - ohne jede kausale Interpretation - die Ausprägung der
anderen Variable vorherzusagen.
Die prognostizierende Variable ist dann unabhängige Variable, die abhängige die prognostizierte Variable.
An diese Betrachtungsweise erinnert die alternative Bezeichnung Prädiktorvariable für die
unabhängige und Kriteriumsvariable für die abhängige Variable.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
376
Symmetrische und asymmetrische Beziehungen
Geschlecht nach Haltung zum Schwangerschaftsabbruch
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Wenn die Spaltenvariable die abhängige Variable und die Zeilenvariable die erklärende Variable ist, müssen bei allen Berechnungsformeln jeweils Spalten- und Zeilenindizes vertauscht
werden.
So berechnet sich die Prozentsatzdifferenz dXY% nach:
c ⎞
⎛ a
d XY % = 100 ⋅ ⎜
−
⎟
⎝a+b c+d⎠
Auf zusätzliche Formeln kann verzichtet werden, wenn einfach die Position der Variablen
vertauscht wird, im Beispiel also Geschlecht zur Zeilen- und die Haltung zum Schwangerschaftsabbruch Spaltenvariable wird.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
377
Symmetrische und asymmetrische Beziehungen
Zeilenvariable als unabhängige Variable:
Spaltenvariable
Zeilenvar
riable
Schwangerschaftsabbruch
bei finanzieller Notlage (Y)
- sollte erlaubt sein
- sollte verboten sein
Summe
Geschlecht des Befragten (X)
männlich
weiblich
48.6% a (908) 51.4% b (962)
50.7% c (624) 49.3% d(606)
49.4% (1532) 50.6% (1568)
Summe
100.0% (1870)
100.0% (1230)
100.0% (3100)
(Quelle: Allbus 1996)
dXY% = –2.18 Prozentpunkte
Spaltenvariable als unabhängige Variable:
Spaltenvariable
Zeilenvar
riable
Geschlecht des
Befragten
- männlich
- weiblich
Summe
Schwangerschaftsabbruch sollte
Summe
erlaubt sein verboten sein
48.6% a (908) 50.7% b (624)
49.4% (1532)
51.4% c (962) 49.3% d(606)
50.6% (1568)
100.0% (1870) 100.0% (1230) 100.0% (3100)
(Quelle: Allbus 1996)
dYX% = –2.18 Prozentpunkte
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
378
Symmetrische und asymmetrische Beziehungen
Im Unterschied zu einer asymmetrischen Beziehung wird bei einer symmetrischen Beziehung
nicht zwischen abhängiger und unabhängiger Variable unterschieden,
weil z.B. davon ausgegangen wird, dass sich die beiden Variablen gegenseitig beeinflussen,
oder weder eine Kausalrichtung untersucht noch eine Prognose einer Variablen durch die
andere angestrebt wird.
So kann z.B. vermutet werden, dass die Beurteilung der eigenen wirtschaftlichen
Lage (EWL) die Beurteilung der allgemeinen Wirtschaftlage im Staat (AWL)
beeinflusst, aber umgekehrt auch die Beurteilung der eigenen Lage durch die
(medienvermittelte) Beurteilung der allgemeinen wirtschaftlichen Lage beeinflusst
wird.
Ausgangspunkt der Analyse kann in dieser Situation die Betrachtung der auf die Gesamttabelle
bezogenen relativen Häufigkeiten pij bzw. die korrespondierenden Prozentwerte sein:
n ij
pij =
n
Auf die Gesamttfallzahl bezogenen relativen Häufigkeiten in Prozent
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
379
Symmetrische und asymmetrische Beziehungen
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Da nach dem Multiplikationssatz der Wahrscheinlichkeitstheorie statistische Unabhängigkeit
vorliegt, wenn die gemeinsame Auftretenswahrscheinlichkeit gleich dem Produkt der Ausgangswahrscheinlichkeiten ist, können analog zur asymmetrischen Betrachtung auch bei symmetrischer Betrachtung die bei Unabhängigkeit erwarteten relativen und absoluten Häufigkeiten berechnet werden:
nii ⋅ n i j
nii n i j
bzw. eij = n ⋅ πˆ ij =
πˆ ij = pi i ⋅ pi j =
⋅
n n
n
In den Formeln steht π̂ij für die bei statistischer Unabhängigkeit erwarteten relativen Häufigkeiten (geschätzten Populationsanteile) und eij für die bei Unabhängigkeit erwarteten absoluten
Häufigkeiten.
Für die erste Zelle (a) berechnet sich so die bei Unabhängigkeit erwarteten Häufigkeit als:
πˆ 11 = 0.133 ⋅ 0.488 =
464 ⋅1703
464 ⋅1703
=
0.065
bzw.
e
=
3489
⋅
0.065
=
= 226.5
11
34892
3489
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
380
Symmetrische und asymmetrische Beziehungen
Beobachtete erwartete auf die Gesamtfallzahl bezogenen relative
Häufigkeiten in Prozent:
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Bei Unabhängigkeit erwartete auf die Gesamtfallzahl bezogenen
relative Häufigkeiten in Prozent:
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage
gut
nicht gut
6.5% ( 226.5) 6.8% ( 237.5)
42.3% (1476.5) 44.4% (1548.5)
48.8% (1703.0) 51.2% (1786.0)
πˆ ij = pi i ⋅ pi j =
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
Summe
13.3% ( 464)
86.7% (3025)
100.0% (3489)
nii ⋅ n i j
nii n i j
ˆ
bzw. eij = n ⋅ πij =
⋅
n n
n
381
Pearsons Chiquadrat-Statistik
Residuen
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
3.2% ( 111.5) -3.2% (-111.5)
13.3% ( 464)
-3.2% (-111.5)
3.2% ( 111.5) 86.7% (3025)
48.8% (1703.0) 51.2% (1786.0) 100.0% (3489)
Die Differenzen aus den tatsächlichen und den bei Unabhängigkeit erwarteten (relativen)
Häufigkeiten werden als Residuen bezeichnet:
n −e
rij = n ij − eij bzw. rij % = 100 ⋅ ij ij = 100 ⋅ ( pij − πˆ ij )
n
Es gibt mehr Befragte, die sowohl die eigene wie die allgemeine Lage für gut oder
aber für nicht gut halten, als bei Unabhängigkeit zu erwarten wären.
Umgekehrt gibt es weniger Personen als bei Unabhängigkeit erwartet, die die eigene
Lage für gut und die allgemeine Lage für nicht gut bzw. die allgemeine Lage für gut
und die eigene Lage für nicht gut halten.
Nach dem Statistiker Pearson ist ein Maß beannt, dass alle Abweichungen zwischen beobachteten und erwarteten Häufigkeiten in einer Tabelle in eine Statistik zusammenfasst.
Dieses Maß wird als Pearsons Chiquadrat-Statistik bezeichnet und berechnet sich nach:
I
J
χ 2 = ∑∑
i =1 j=1
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
(n
ij − eij )
2
eij
382
Phi-Quadrat und Phi
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
i j
1 1
1 2
2 1
2 2
∑
( 338 − 226.5)
χ2 =
nij
eij
(nij–eij)2/eij
338 226.5
54.9
126 237.5
52.3
1365 1476.5
8.4
1660 1548.5
8.0
3489 3489
123.6
2
226.5
(126 − 237.5)
+
2
237.5
(1365 − 1476.5)
+
1476.5
2
(1660 − 1548.5)
+
2
1548.5
= 123.6
Werden statt der absoluten, die relativen Häufigkeiten bei der Berechnung herangezogen, ergibt
sich der Kennwert Φ2 (Phi-Quadrat):
Φ2 =
χ
= ∑∑
n i =1 j=1
2
I
J
( pij − πˆ ij )
2
πˆ ij
Bei den Beispieldaten beträgt χ2 = 123.6 und Φ2 = 123.6/3489 = 0.035
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
383
Phi-Quadrat und Phi
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Die Formel zur Berechnung von χ2 gilt für Tabellen beliebiger Größe. In der Vierfeldertabelle
gibt es eine alternative Berechnungsformel:
(a ⋅ d − b ⋅ c)
Φ2 =
(a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d )
2
(a ⋅ d − b ⋅ c)
bzw. χ 2 = n ⋅
(a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d )
2
Bei den Beispieldaten ergeben sich:
Φ2 = (338·1660 – 126·1365)2 / (464·3025·1703·1786) = 0.035
χ2 = 3489 · (338·1660 – 126·1365)2 / (464·3025·1703·1786) = 123.726
Abweichungen bei den alternativen Berechnungswegen ergeben sich dadurch, dass bei
den erwarteten Häufigkeiten nur mit einer Nachkommastelle gerechnet wurde.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
384
Phi-Quadrat und Phi
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Der Wertebereich von Φ2 liegt in einer Vierfeldertabelle zwischen 0 und 1, wobei 0 bei
statistischer Unabhängigkeit und 1 bei einem perfekten Zusammenhang erreicht wird.
Anstelle von Φ2 wird jedoch meisten dessen Quadratwurzel Φ (Phi) verwendet:
Φ=
a ⋅d − b⋅c
(a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d )
Im Beispiel beträgt Φ = +0.188.
Ein Vorteil dieses Maßes ist, dass der Wertebereich von –1 bis +1 läuft, so dass (ab ordinalem
Messniveau) zwischen positiven und negativen Beziehungen unterschieden werden kann.
Darüber hinaus kann Φ auch als geometrisches Mittel der beiden asymmetrischen
Anteilsdifferenzen in einer Vierfeldertabelle definiert werden:
Φ =
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
d YX % d XY %
⋅
100
100
385
Phi-Quadrat und Phi
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Dabei wird das Vorzeichen der Prozentsatzdifferenzen übernommen.
Im Beispiel ergibt sich:
dYX% / 100 = 338/1703 – 126/1786 = 0.1279
dXY% / 100 = 338/464 – 1365/3025 = 0.2772
Φ = √(0.1279·0.2772) = 0.188
Stärke eines Zusammenhangs
praktisch kein 0.00 ≤ | Φ | < 0.05
geringer
0.05 ≤ | Φ | < 0.10
mittlerer
0.10 ≤ | Φ | < 0.25
starker
0.25 ≤ | Φ |
Aufgrund dieser Eigenschaft kann Φ analog zur Prozentsatzdifferenz interpretiert werden.
Der Wert von 0.188 weist somit auf einen mittelstarken
Zusammenhang zwischen der Beurteilung der eigenen und
der allgemeinen wirtschaftlichen Lage hin.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
386
Yules‘ Q
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Eine Alternativ zu Φ ist das nach dem Statistiker Yules benannte Yules‘ Q:
a ⋅d − b⋅c
Q=
a ⋅d + b⋅c
Für die Beispieldaten beträgt Q = (338·1660 – 126·1365) / (338·1660 + 126·1365) = 0.531.
Obwohl Q in der Regel deutlich höhere Werte aufweist als Φ, ist der Wertebereich gleich. Bei
einem pefekten negativen Zusammenhang ist der Wert –1, bei Unabhängigkeit 0 und bei
perfektem positiven Zusammenhang +1.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
387
Chiquadrattest auf statistische Unabhängigkeit
Ähnlich wie bei der Prozentsatzdifferenz lassen sich auch für Φ und Q asymptotisch gültige
Standardfehler berechnen. Die Berechnungsformeln sind allerdings komplex, so dass sie i.a nur
durch Statistikprogramme berechnet werden. Es gibt auch keine Faustregeln, unter welchen
Bedingungen eine asymptotische Annäheung an die Normalverteilung hinreichend genau ist.
Möglich sind allerdings Tests der Nullhypothese, dass die Werte in der Population null sind
gegen die Alternativhypothese, dass sie ungleich null sind. Als Teststatistik wird bei beiden
Zusammenhangsmaßen Pearsons Chiquadrat-Statistik herangezogen.
Es kann gezeigt werden, dass bei einfachen Zufallsauswahlen (mit Zurücklegen) die Teststatistik χ2 (zentral) chiquadratverteilt ist, wenn in der Population tatsächlich statistische Unabhängigkeit zwischen Zeilen- und Spaltenvariable besteht.
Die Chiquadratverteilung ist wie die T-Verteilung eine Verteilungsfamilie, wobei sich die
einzelnen Verteilungen entsprechend ihren Freiheitsgraden unterscheiden. Formal lässt sich
zeigen, dass die Summe der Quadrate von n statistisch unabhängigen Standardnormalverteilungen einer Chiquadratverteilung mit k-Freiheitsgraden folgt:
⎛ n 2⎞
f ⎜ ∑ z i ⎟ = χ df2 = n
⎝ i =1 ⎠
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
388
Chiquadratverteilung
μ (χ
0.40
0.35
df = 1
2
df
Quantile von χ2:
α
90% 95%
df=1 2.706 3.481
df=2 4.605 5.991
df=3 6.251 7.815
df=4 7.779 9.488
df=5 9.236 11.07
df=6 10.64 12.59
df=7 12.02 14.07
df=8 13.36 15.51
df=9 14.68 16.92
df=10 15.99 18.31
) = df
σ 2 ( χ df2 ) = 2 ⋅ df
0.30
0.25
0.20
df = 3
0.15
df = 5
0.10
df = 10
0.05
99%
6.635
9.210
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
Quantile von χ2:
α
90% 95%
df=11 17.28 19.68
df=12 18.55 21.03
df=13 19.81 22.36
df=14 21.03 23.68
df=15 22.31 25.00
df=16 23.54 26.30
df=17 24.77 27.59
df=18 25.99 28.87
df=19 27.20 30.14
df=20 28.41 31.41
99%
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
0.00
0 1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Chiquadratverteilungen sind rechtsschiefe Verteilungen, wobei die Schiefe mit steigender Zahl
an Freiheitsgraden abnimmt.
Tatsächlich folgt aus dem zentralen Grenzwertsatz, dass sich die Chiquadratverteilung
asymptotisch einer Normalverteilung annähert.
Bei mehr als 30 Freiheitsgraden lassen sich die α-Quantile der Chqiadratverteilung recht gut
über die Quantile der Standardnormalverteilung annähern, wenn folgende Näherungsformel
verwendet wird:
χα2 ;df ≈ 0.5 ⋅ z α + 2 ⋅ df − 1
(
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
)
389
Chiquadrattest auf statistische Unabhängigkeit in der Vierfeldertabelle
Die Vorgehensweise beim Chiquadratest folgt der generellen Vorgehensweise beim
statistischen Hypothesentesten.
Schritt 1: Formulierung von Null- und Alternativhypothese
Getestet wird bei Pearsons Chiquadratest, dass bei einer einfachen Zufallsauswahl Zeilen- und
Spaltenvariable in der Grundgesamtheit statistisch unabhängig voneinander sind:
H0: πij = πi• · π•j für alle i, j versus H1: πij ≠ πi• · π•j für mindestens ein i,j
πij ist die relative Häufigkeit der Ausprägungskombination der i-ten Ausprägung der Zeilenund der j-ten Ausprägung der Spaltenvariablen in der Population.
Da bei statistischer Unabhängigkeit alle Zusammenhangsmaße null sind, können alternative
Hypothesenpaare formuliert werden:
H0: Φ = 0 versus H1: Φ ≠ 0; H0: Q = 0 versus H1: Q ≠ 0;
H0: δYX% = 0 versus H1: δYX% ≠ 0; H0: δXY% = 0 versus H1: δXY% ≠ 0
Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung
Als Teststatistik wird für alle Hypothesentests Pearsons Chiquadrat-Statistik herangezogen:
(a ⋅ d − b ⋅ c)
χ2 = n ⋅
(a + b) ⋅ (c + d ) ⋅ (a + c) ⋅ ( b + d )
2
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
390
Chiquadrattest auf statistische Unabhängigkeit
Bei gültiger Nullhypothese ist die Teststatistik asymptotisch chiquadratverteilt mit df=1 Freiheitsgraden.
DieZahl der Freiheitsgrade ergibt sich aus der Differenz der inneren Tabellenzellen und der
Anzahl der empirischen Informationen, die zur Berechnung der erwarteten Häufigkeiten
herangezogen werden.
In einer Vierfeldertabelle ist df=1, da die Tabelle vier Zellen hat und die beobachteten relative
Randhäufigkeiten der jeweils ersten Ausprägungen von Zeilen- und Spaltenvariable und die
Gesamtfallzahl zur Berechnung der erwarteten Häufigkeiten herangezogen werden.
Wenn die Nulhypothese nicht zutrifft, also keine statistische Unabhängigkeit zwischen Zeilenund Spaltenvariable besteht, dann ist die Teststatistik nichtzentral chiquadratverteilt. Da eine
nichtzentrale Chiquadratverteilung einen größeren Erwartungswert hat als eine zentrale Chiquadratverteilung, ist in diesem Fall mit größeren Werten als bei Gültigkeit der Nullhypothese zu
rechnen.
Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten
Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergibt sich der kritische Wert als
das (1–α)-Quantil der Chiquadratverteilung mit df=1 Freiheitsgraden.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
391
Chiquadrattest auf statistische Unabhängigkeit
Eigene wirtschaftliche
Lage des Befragten
- gut
- nicht gut
Summe
Allgemeine Wirtschaftslage Summe
gut
nicht gut
9.7% (338)
3.6% (126)
13.3% (464)
39.1% (1365) 47.6% (1660) 86.7% (3025)
48.8% (1703) 51.2% (1786) 100.0% (3489)
(Quelle: Allbus 1996)
Schritt 4: Berechnung der Teststatistik und Entscheidung
Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die
Nullhypothese beibehalten bzw. verworfen.
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn gilt:
χ2 ≥ χ21−α;df =1.
Für das Beispiel hatte sich ein Wert vom χ2 = 123.7 ergeben.
Bei einer Irrtumswahrscheinlichkeit von 5%, beträgt der Wert des 95%-Quantils der
Chiquadratverteilung mit df=1 Freiheitsgraden 3.841.
Da 123.7 > 3.481, ist die Nullhypothese zu verwerfen. Bei einer Irrtumswahrscheinlichkeit von
5% kann davon ausgegangen werden, dass ein Zusammenhang zwischen der Beurteilung der
allgemeinen wirtschaftlichen Lage und der Beurteilung der eigenen Lage besteht.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
392
Bivariate Zusammenhänge in der Mehrfeldertabelle
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Die Vierfeldertabelle ergibt sich bei der Kreuztabellierung von zwei dichotomen Variablen.
Hat eine Variable mehr als zwei Ausprägungen, so hat die resultierende Kreuztabelle mehr als
vier Zellen.
Das Beispiel zeigt die 5×3-Tabelle der Wahlabsicht (abhängige Zeilenvariable) nach Konfession (unabhängige Spaltenvariable).
Die Interpretation kann analog zur Vierfeldertabelle erfolgen, es sind jedoch mehr Prozentwertvergleiche notwendig.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
393
Bivariate Zusammenhänge in der Mehrfeldertabelle
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Verglichen werden wiederum die relativen Häufigkeiten bzw. Prozentwerte einer Ausprägung
der abhängigen Variablen zwischen den Ausprägungen der unabhängigen Variablen.
Sichtbar wird, dass Katholiken zu einem höheren Anteil CDU wählen als Protestanten
und diese mehr als Konfessionslose.
Die SPD wird von Protestanten am häufigsten gewählt, dicht gefolgt von Konfessionslosen und dann von Katholiken. Die Prozentwertunterschiede sind hier aber nicht sehr
groß.
Die FDP wird vor allem von Protestanten gewählt, die Grünen und die PDS von Konfessionslosen.
Aufgrund der disproportionalen Schichtung nach alten und neuen Bundesländern lassen sich
die Ergebnisse nicht einfach auf die Bundesrepublik insgesamt verallgemeinern.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
394
Bivariate Zusammenhänge in der Mehrfeldertabelle
100%
PDS
80%
B.90/Grüne
60%
F.D.P.
40%
SPD
20%
CDU/CSU
0%
katholisch
evangelisch
(n=676)
(n=860)
keine
(n=632)
Konfessionszugehörigkeit
Eine grafische Darstellung über Säulendiagramme der bedingten Verteilungen ist meist übersichtlicher, solange die abhängige Variable nicht sehr viele Ausprägungen hat.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
395
Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle
Pearsons Chiquadrattest auf Unabhängigkeit der Zeilen- und Spaltenvariablen in der Population kann auch bei Mehrfeldertabellen angewendet werden.
Der einzige Unterschied zur Vierfeldertabelle besteht darin, dass sich die Berechnung der
Teststatistik über mehr Zellen erstreckt und die Zahl der Freiheitsgrade größer ist.
Dies kann am Beispiel des Zusammehangs zwischen Wahlabsicht und Konfession verdeutlich
werden.
Schritt 1: Formulierung von Null- und Alternativhypothese
H0: πij = πi• · π•j für i=1 bis 5, j =1 bis 3
versus H1: πij ≠ πi• · π•j für mindestens ein i,j
Schritt 2: Auswahl von Teststatistik und Kennwerteverteilung
Als Teststatistik wird für alle Hypothesemtests Pearsons Chiquadrat-Statistik herangezogen:
I
J
χ 2 = ∑∑
i =1 j=1
(n
ij − eij )
2
eij
Bei gültiger Nullhypothese ist die Teststatistik asymptotisch chiquadratverteilt.
Die Zahl der Freiheitsgrade ist bei einer Kreuztabelle mit I Zeilen und J Spalten df=(I–1)·(J–1).
Wenn die Nulhypothese nicht zutrifft, also eine statistische Abhängigkeit zwischen Zeilen- und
Spaltenvariable besteht, dann ist die Teststatistik nichtzentral chiquadratverteilt.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
396
Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle
Schritt 3: Festlegung von Irrtumswahrscheinlichkeit und kritischen Werten
Bei gegebener Irrtumswahrscheinlichkeit α (i.a. 5% oder 1%) ergibt sich der kritische Wert als
das (1–α)-Quantil der Chiquadratverteilung mit df=(I–1)·(J–1) Freiheitsgraden.
Im Beispiel ist df=(5–1)·(3–1) = 8.
Bei einer Irrtumswahrscheinlichkeit von 5%, beträgt der Wert des 95%-Quantils der
Chiquadratverteilung mit df=8 Freiheitsgraden 15.51.
Schritt 4: Berechnung der Teststatistik und Entscheidung
Im letzten Schritt wird die Teststatistik berechnet und anhand des resultierenden Wertes die
Nullhypothese beibehalten bzw. verworfen.
Die Nullhypothese H0 wird mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn gilt:
χ2 ≥ χ21−α; df=(I–1)·(J–1).
Im Anwendungsbeispiel ist die Nullhypothese als vermutlich falsch zu verwerfen,
wenn die Teststatistik einen Wert von mindestens 15.51 ereicht.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
397
Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle
Bei Unabhängigkeit erwartete und tatsächlich beobachtete Häufigkeiten
Wahlabsicht
CDU
SPD
FDP
Grüne
PDS
Summe
Konfession
evangelisch
307.0 (306)
283.2 (300)
78.9 (109)
140.8 (129)
50.0 (16)
(860)
katholisch
241.3 (327)
222.6 (198)
62.0 (49)
110.7 (92)
39.3 (10)
(676)
keine
225.6 (141)
208.1 (216)
58.0 (41)
103.5 (134)
36.7 (100)
(632)
Summe
(774)
(714)
(199)
(355)
(126)
(2168)
(beobachtete Häufigkeiten in Klammen)
2
2
2
2
2
⎛
327
241.3
306
307.0
141
225.6
198
222.6
300
283.2
−
−
−
−
−
(
)
(
)
(
)
(
)
(
)
χ2 = ⎜
+
+
+
+
⎜
241.3
307.0
225.6
222.6
283.2
⎝
( 216 − 208.1)
+
2
208.1
(129 − 140.8)
+
140.8
2
( 49 − 62.0 )
+
2
62.0
(134 − 103.5)
+
(109 − 78.9 )
+
2
78.9
2
103.5
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
(10 − 39.3)
+
39.3
( 41 − 58.0 )
+
2
58.0
2
(16 − 50.0 )
+
50.0
( 92 − 110.7 )
+
2
110.7
2
(100 − 36.7 )
+
36.7
2
⎞
⎟ = 252.4
⎟
⎠
398
Chiquadrattest auf statistische Unabhängigkeit in der I×J-Kreuztabelle
Für das Beispiel hatte sich ein Wert vom χ2 = 252.4 ergeben.
Da 252.4 > 15.51, ist die Nullhypothese zu verwerfen.
Bei einer Irrtumswahrscheinlichkeit von 5% kann davon ausgegangen werden,
dass ein Zusammenhang zwischen der Wahlabsicht und der Konfession besteht.
Prüfung der Anwendungsvoraussetzungen
Der Chiquadrattest ist nur asymptotisch gültig.
Die Annäherung ist hinreichend genau, wenn die erwarteten Häufigkeiten größer 5 sind.
Als Faustregel gilt bei größeren Tabellen, dass
a) eij > 1 für alle i, j und
b) eij > 5 für mindestens 80% (4/5) aller Zellen.
Da im Beispiel die kleinste erwartete Häufigkeit 36.7 ist, ist die Anwendungsvoraussetzung erfüllt.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
399
Standardisierte Residuen
Standardisierte Residuen
Wahlabsicht
CDU
SPD
FDP
Grüne
PDS
katholisch
5.5
–1.7
–1.7
–1.8
–4.7
Konfession
evangelisch
–0.1
1.0
3.4
–1.0
–4.8
keine
–5.6
0.5
–2.2
3.0
10.4
Wird der Chiquadratanteil jeder Tabellenzelle berechnet, die Wurzel daraus gezogen und als
Vorzeichen die Differenz zwischen beobachteter und erwarteter Häufigkeit verwendet, dann
ergeben sich die standardisierten Residuen:
n −e
srij = ij ij
eij
Die Werte sind bei gültiger H0 asymptotisch standardnormalverteilt.
Werte ≥1.96 oder ≤–1.96 weisen also darauf hin, dass es bei einer Irrtumswahrscheinlichkeit
von 5% überzufällige Abweichungen von Unabhängigkeit in der entsprechenden Tabellenzelle
gibt.
Im Beispiel zeigt, sich, dass es unter den CDU-Wählern überzufällig viele Katholiken
und zu wenig Konfessionslose gibt.
Bei der PDS sind beide Konfession unter- und die Konfessionslosen überrerepräsentiert.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
400
Cramérs V
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Analog der Berechnung von Φ kann auch bei größeren Tabellen aus der Chiquadrat-Statistik ein
symmetrisches Zusammenhangsmaß konstruiert werden.
Dabei wird die Teststatistik wiederum durch ihren Maximalwert geteilt und aus dem Quotienten
die Quadratwurzel gezogen. Dieses Zusammenhangsmaß heißt nach dem Statistiker Cramér
Cramérs V.
In einer I×J-Kreuztabelle ist der Maximalwert von χ2 gleich dem Produkt aus der Fallzahl und
dem Maximum der Spalten- oder Zeilenzahl minus eins:
χ2 ≤ n·min(I–1,J–1)
Im Beispiel mit 5 mal 3 Tabellenzellen ist das Maximum von Chiquadrat 2168 ·2 = 4336.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
401
Cramérs V
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Die Berechnungsformel für Cramérs V ist dann:
χ2
χ2
V=
=
2
n ⋅ min ( I − 1, J − 1)
χ max
ImBeispiel ergibt sich ein Wert von √(252,4/4336) = 0.24
Die Interpretation ist wie bei Φ.
Es besteht somit eine mittelstarke Beziehung zwischen Wahlabsicht und Konfession.
Im Unterschied zu Φ hat V kein Vorzeichen, da das Maß für nominalskalierte Variablen mit
mehr als zwei Ausprägungen konstruiert ist.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
402
Die Logik von PRE-Maßen: Lambda und relative Devianzreduktion
Die Voraussage der Realisationen einer Variable kann fehlerhaft sein.
Die Anzahl der Fehler sollte sich reduzieren, wenn die Zielvariable mit einer Prädiktorvariable
zusammenhängt und die Wert der Prädiktorvariablen bei den Fällen bekannt sind.
Auf dieser Idee basiert die Logik von Zusammenhangsmaßen, die die Vorhersagefehlerreduktion erfassen, sogenannte PRE-Maße. (PRE steht für proportional reduction in error).
E0 soll das Ausmaß der Fehler bezeichnen, mit denen zu rechnen ist, wenn keine Zusatztinformationen vorliegen.
E1 ist das Ausmaß der Fehler, wenn bekannt ist, welchen Wert eine Prädiktorvariable aufweist.
Das Ausmaß, indem sich die Fehler bei Kenntnis einer erklärenden Variable reduzieren, ergibt
sich dann über die Formel
E − E1
E
PRE = 0
=1− 1
E0
E0
Der resultierende Wert lässt sich leicht interpretieren, da er den Anteil der Fehlerreduktion angibt. Ein Wert von 0 bedeutet keinerlei Reduktion, ein Wert von 0.5 oder 50% eine Halbierung
der Fehler und ein Wert von 1 bzw. 100% eine maximale Fehlerreduktion, also perfekte
Vorhersagen.
Um ein PRE-Maß zu konstruieren, muss zunächst festgelegt werden, was Vorhersagefehler
sind.
Bei nominalskalierten Variablen liegt es nahe, den Modalwert als Vorhersagewert zu verwenden
und als Fehler zu zählen, mit welcher Häufigkeit Abweichungen vom Modalwert auftreten.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
403
Lambda
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Wenn die Zeilenvariable abhängige Variable ist, ergibt sich die Höhe der Fehler ohne Kenntnis
der erklärenden Variable aus der Fallzahl in der Tabelle minus dem Modalwert der abhängigen
Zeilenvariablen, also dem Maximalwert in der rechten Randspalte:
E 0 = n − max ( n i i )
i
Analog berechnen sich die Fehler für alle Ausprägungen der erklärenden Variablen, also der
Spalten durch die Differenz der jeweiligen Spaltensumme minus dem Maximum der Spalte:
(
E1 = ∑ n i j − max ( n ij )
J
j=1
i
)
Das resultierende Zusammenhangsmaß heißt λYX (lambda-YX):
∑(n
J
λ YX
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
E
= 1− 1 = 1−
E0
j=1
ij
− max ( n ij )
i
)
n − max ( n i i )
i
404
Lambda
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Für das Beispiel ergibt sich;
λ YX
E
= 1− 1 = 1−
E0
= 1−
∑(n
J
j=1
•j
)
− max (n ij ) in Spalte j
i
n •• − max(n i• )
i
E1
( 676 − 327 ) + ( 860 − 306 ) + ( 632 − 216 ) = 1 − 1319 = 0.054
= 1−
E0
2168 − 774
1394
Bei Kenntnis der Konfession lässt sich die Wahlabsicht mit einer um 5.4% geringeren Fehlerquote voraussagen als ohne Kenntnis der Konfession.
Der Wert scheint sehr gering. Tatsächlich ergeben sich oft eher geringe Werte, wenn die abhängige Variable nicht gleich verteilt ist, da dann der Modus bei bedingten und unbedingten Verteilungen oft in die gleiche Kategorie fällt.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
405
Devianzreduktion
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Ein Nachteil von λ ist, dass der Modalwert nur eine sehr ungenaue Prognose erlaubt. Daher
kann λ selbst dann null sein, wenn nach dem Chiquadrattest ein signifikanter Zusammenhang
besteht.
Die Konzeption der proportionalen Fehlerreduktion kann aber auch bei anderen Fehlerdefinitionen angewendet werden.
So kann die Devianz, d.h. die Streuung nominalskalierter Variablen, als Maß für den Vorhersagefehler verwendet werden. Der Fehler E0 ist dann die Devianz DY der Zeilenvariablen:
I
⎛n ⎞
D Y = −2∑ n i • ⋅ 1n ⎜ i • ⎟
i =1
⎝ n •• ⎠
774 ⎞
⎛
⎛ 714 ⎞ + 199 ⋅ ln ⎛ 199 ⎞ + 355 ⋅ ln ⎛ 355 ⎞ + 126 ⋅ ln ⎛ 126 ⎞ ⎞
= −2 ⋅ ⎜ 774 ⋅ ln ⎛⎜
+
⋅
714
ln
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟⎟
⎝ 2168 ⎠
⎝ 2168 ⎠
⎝ 2168 ⎠
⎝ 2168 ⎠
⎝ 2168 ⎠ ⎠
⎝
= 6132.71
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
406
Devianzreduktion
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
E1 ist dann die Summe der Devianzen bei Kenntnis der Werte der erklärenden Variablen:
J
D YX = −2∑
j=1
D YX
⎛ n ij ⎞
n ij ⋅ ln ⎜ ⎟
∑
⎜n ⎟
i =1
⎝ •j ⎠
I
⎛
⎞
⎛ 327 ⎞ + 198 ⋅ ln ⎛ 198 ⎞ + 49 ⋅ ln ⎛ 49 ⎞ + 92 ⋅ ln ⎛ 92 ⎞ + 10 ⋅ ln ⎛ 10 ⎞
⋅
327
ln
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎝ 676 ⎠
⎝ 676 ⎠
⎝ 676 ⎠
⎝ 676 ⎠
⎝ 676 ⎠
⎜
⎟
306
300
109
129
16
⎞ + 300 ⋅ ln ⎛
⎞ + 109 ⋅ ln ⎛
⎞ + 129 ⋅ ln ⎛
⎞ + 16 ⋅ ln ⎛
⎞⎟
= −2 ⋅ ⎜⎜ +306 ⋅ ln ⎛⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎝ 860 ⎠
⎝ 860 ⎠
⎝ 860 ⎠
⎝ 860 ⎠
⎝ 860 ⎠ ⎟
⎜
⎟
216
41
134
100
141
⎞ + 216 ⋅ ln ⎛
⎞ + 41 ⋅ ln ⎛
⎞ + 134 ⋅ ln ⎛
⎞ + 100 ⋅ ln ⎛
⎞⎟
⎜ +141 ⋅ ln ⎛
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟
⎜
⎟⎟
⎜
⎝ 632 ⎠
⎝ 632 ⎠
⎝ 632 ⎠
⎝ 632 ⎠
⎝ 632 ⎠ ⎠
⎝
= 5895.04
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
407
Devianzreduktion
Konfession
evangelisch
keine
35.6% (306)
22.3% (141)
34.9% (300)
34.2% (216)
12.7% (109)
6.5% (41)
15.0% (129)
21.2% (134)
1.9% (16)
15.8% (100)
100.0% (860) 100.0% (632)
Wahlabsicht katholisch
CDU
48.4% (327)
SPD
29.3% (198)
FDP
7.2% (49)
Grüne
13.6% (92)
PDS
1.5% (10)
Summe
100.0% (676)
Summe
35.7% (774)
32.9% (714)
9.2% (199)
16.4% (355)
5.8% (126)
100.0% (2168)
Quelle: Allbus 1996
Das resultierende PRE-Maß wird als relative Deviranzreduktion, Likelihood-Ratio-Index oder
Pseudo-R-Quadrat P2 bezeichnet.
In einer bivariaten Kreuztabelle heißt das Maß auch Unsicherheitskoeffizient.
⎛ n ij ⎞
−2∑∑ n ij ⋅ 1n ⎜ ⎟
⎜n ⎟
j=1 i =1
⎝ •j ⎠
= 1−
I
⎛n ⎞
−2∑ n i • ⋅ 1n ⎜ i • ⎟
i =1
⎝ n ⋅⋅ ⎠
J
PYX = 1 −
2
D YX
DY
I
5895.04
= 0.038
6132.71
Im Beispiel reduziert sich die Devianz der Wahlabsicht bei Kenntnis der Konfession um 3.8%.
= 1−
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
408
LR-Test auf statistische Unabhängigkeit
Zur Prüfung der statistischen Unabhängigkeit von Zeilen- und Spaltenvariablen kann anstelle
von Pearsons Chiquadrattest auch geprüft werden, ob die relative Devianzreduktion signifikant
von null verschieden ist.
Dieser Test wird als Likelihood-Ratio-Test bezeichnet. Die Teststatistik wird durch L2 symbolisiert.
Die Teststatistik L2 ist die Differenz der bedingten Devianz DYX von der unbedingten Devianz
DY. Alternativ kann die Teststatistik ähnlich wie Pearsons Chiquadratstatistik über die beobachteten Zellenhäufigkeiten nij und die bei Unabhängigkeit erwarteten Häufigkeiten eij berechnet
werden:
I
J
⎛ n ij ⎞
2
L = D Y − D YX = 2 ⋅ ∑∑ n ij ⋅ ln ⎜ ⎟
⎜e ⎟
i =1 j=1
⎝ ij ⎠
Im Beispiel ergibt sich ein Wert von L2 = DY – DYX = 6132.71 – 5895.04 = 237.67.
Wenn die Nullhypothese zutrifft, dass kein Zusammenhang besteht, dann ist die LR-Statistik
asymptotisch chiquadratverteilt.
Die Zahl der Freiheitsgrade berechnet sich wie bei Pearsons Chiquadrat: df=(I–1)·(J–1).
Ist die Nullhypothese falsch, ist L2 nichtzentral chiquadratverteilt.
Pearsons Test und der LR-Test sind asymptotisch äquivalent, so dass beide Teststatistiken i.a
sehr ähnliche Werte aufweisen.
Große Abweichungen können ein Hinweis sein, dass die asymptotische Annäherung nicht
hinreichend ist.
Statistik 1 (Vorlesung SoSe 06, 27.6.06)
409
Herunterladen