Statistik II im Wintersemester 2006/2007

Werbung
Statistik II im Wintersemester 2006/2007
Themen am 17.10.2006:
• Überblick über die Vorlesung Statistik II (Module 3a)
• Zusammenfassende Wiederholung aus Statistik I
•
Datenmatrix, Häufigkeitstabellen und univariate Statistik
•
Stichprobe und Grundgesamtheit
Lernziele:
1. Beurteilung des Lernaufwands
2. Auffrischen der Grundkenntnisse der Wahrscheinlichkeitstheorie
3. Auffrischen der Grundkenntnisse der univariaten Statistik
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
1
Klassische Einteilung der Statistik
Univariate Verteilungen
Bivariate Verteilungen
Deskriptive Statistik
Verteilungsparameter
(Quantile, Lagemaße,
Streuungsmaße)
Induktive Statistik / Inferenzstatistik
Wahrscheinlichkeitstheorie,
Schätzen und Testen
Beschreibung und Prüfung von bivariaten Zuammenhängen
MultivariateVerteilungen
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
Drittvariablenkontrolle
Konditionale u. Partielle Effekte
Prüfung der Angemessenheit
statistischer Modelle
2
Methoden-Modul 3: Statistik in den Sozialwissenschaften
(M3: Statistik II)
M3 beinhaltet 2 Veranstaltungen:
1. Vorlesung Statistik II (2. SWS, Workload: 4 LP)
dazu Tutorien (60 Minuten)
→ Abschlussklausur (90 Minuten)
Zwischendrin:
2 Übungsklausuren (jeweils 15 Minuten)
10% der Punktzahl der Abschlussklausur
anrechenbar für Abschlussklausur
2. Proseminar Wirtschafts- und Sozialstatistik (2. SWS, Workload: 4 LP)
dazu Tutorien
→ Referat u. Abschlussklausur
Studierende im Magister- und Diplomstudiengang müssen nur eine der beiden
Veranstaltungen besuchen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
3
Veranstaltungsplan (Vorlesung)
17.10.06:
• Einführung
• Wiederholung: Datenmatrix, Häufigkeitstabellen und univariate Statistik
• Wiederholung: Stichprobe und Grundgesamtheit
24.10.06:
• Wiederholung: Logik von Hypothesentests
• Tests von Mittelwert- und Anteilsdifferenzen bei unabhängigen Stichproben
31.10.06:
• Tests von Mittelwert- und Anteilsdifferenzen bei abhängigen Stichproben
• Wiederholung: Bivariate Tabellenanalyse
• Drittvariablenkontrolle: Scheinkausalität, Intervention, Konfundierung,
Suppression und Interaktion
07.11.06:
• Hypothesentests in trivariaten Kreuztabellen
14.11.06:
• Wiederholung: Grundkonzepte und OLS-Schätzung im bivariaten
Regressionsmodell
Übungsklausur 1 (15 Minuten)
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
4
Veranstaltungsplan (Vorlesung)
21.11.06:
• Tests von Regressionskoeffizienten und Vorhersagewerten im bivariaten
Regressionsmodell
• Test von unabhängigen Mittelwertdifferenzen im Regressionsmodell
• Überprüfung der Modellannahmen
28.11.06:
• Trivariate Regression und partielle Effekte
• Multiple Regression und Interaktionseffekte
05.12.06:
• Tests von partiellen Regressionskoeffizienten und des Zuwachses an
Erklärungskraft
• Varianzanalyse als multiple Regression auf Designvariablen
12.12.06:
• Nichtlineare Regression über Transformation von Variablen
• Logistische Regression
Übungsklausur 2 (15 Minuten)
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
5
Veranstaltungsplan (Vorlesung)
19.12.06:
• Multivariate Regression
• Pfadanalyse
10.01.07:
• Konfirmatorische Faktorenanalyse
• Hauptkomponentenanalyse und exploratorische Faktorenanalyse
16.01.07:
• Log-lineare Modelle als multiple Regression
• Hierarchische log-lineare Modelle
• Nicht-hierarchische log-lineare Modelle
23.01.07:
• Lösung der Probeklausur
• Wiederholung
30.01.07:
Abschlussklausur (90 Minuten)
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
6
Basisliteratur
3. Auflage, 2006
ISBN: 3 499 55639 1
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
1. Auflage, 2003
ISBN: 3 499 55655 3
7
Beispielfragebogen für eine Datenerhebung
FRAGE
1.
Sind Sie mit der Art und Weise,
wie die Demokratie in der
Bundesrepublik funktioniert, alles
in allem gesehen ...
ANTWORT
Code
... sehr zufrieden,.................................
... eher zufrieden,.................................
... eher unzufrieden,.............................
... oder völlig unzufrieden?.................
___________________
weiß nicht 1
keine Angabe
4
3
2
1
8
9
2.
Nun einige Aussagen, über
die man verschiedener
Ansicht sein kann. Sagen Sie
mir bitte jeweils, ob Sie der
Aussage eher zustimmen
oder eher nicht zustimmen.
a) Leute wie ich haben so
oder so keinen Einfluss
darauf, was die Regierung
tut
b) Die Parteien wollen nur die
Stimmen der Wähler, ihre
Ansichten interessieren sie
nicht
ohne Abfrage eintragen!
Das Interview wurde geführt mit...
stimme
eher
zu
stimme weiß
eher nicht nicht
zu
keine
Angabe
1
2
8
9
1
2
8
9
einem Mann..............................
einer Frau.................................
1
2
4.
Zum Schluss noch eine Frage zur
Geburtsjahr vierstellig eintragen!
1943
Statistik. Sagen Sie mir bitte, in
___________________
welchem Jahr Sie geboren sind.
keine Angabe
9999
1
Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
Die Ergebnisse der Datenerhebung
werden für alle Fällen in einer Tabelle, der Datenmatrix zusammengefasst.
8
Die Datenmatrix
Untersuchungseinheiten (Fälle)
Beispiel einer Datenmatrix
Merkmale der Untersuchungseinheiten (Variablen)
FallAntwort Antwort Antwort
GeGeburtsnummer
Frage 1
Frage 2a Frage 2b schlecht
jahr
ID
F1
F2A
F2B
F3
F4
1
3
2
2
1
1943
2
2
8
1
2
1960
3
4
1
2
2
1957
4
9
8
1
1
1939
5
2
2
1
2
9999
6
8
8
1
1
1956
7
8
9
10
4
1
3
4
2
1
2
2
alle Realisierungen
der Variablen F1:
Univariate Verteilung von F1
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
2
2
1
2
2
1
2
2
1970
1920
1956
1966
In einer Datenmatrix sind die
Informationen i.a. so angeordnet, dass jede Zeile die gesamten verfügbaren Informationen
(Realisierungen aller Variablen) bei einem Fall enthält,
und dass jede Spalte alle
Realisierungen einer Variablen
über alle Fälle enthält.
Information über den ersten Fall
9
Häufigkeitstabellen: Konventionen
xk
k=1
k=2
k=3
k=4
k=5
k=6
nk
Zufrieden mit Demokratie
Ausprägung
Code
Häufigkeit
völlig unzufrieden
1
1
eher unzufrieden
2
2
eher zufrieden
3
2
sehr zufrieden
4
3
weiß nicht
8
1
keine Angabe
9
1
Summe
10
(gültige Fälle: 8; fehlende Fälle 2)
pk
Anteile
insgesamt nur gültige
0.100
0.125
0.200
0.250
0.200
0.250
0.300
0.375
0.100
0.100
1.000
1.000
Variable
Ausprägung
Anzahl der Fälle
Realisation des i-ten Falles (i=1,2,...,n) der Variablen X
Realisation des i-ten sortierten Falles (Rangplatz)
Ausprägung k (k=1,2,...,K) der Variablen X
Anzahl der Fälle mit der Ausprägung xk
Anteil der Fälle mit der Ausprägung xk
Prozent der Fälle mit der Ausprägung xk
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
pk
cpk = ∑pk
kumulierte
Anteile
0.125
0.375
0.625
1.000
X, Y, Z, V2
x, y, z, v2
n
xi
x(i)
xk
nk
pk
pk% = pk ⋅ 100
10
Häufigkeitsverteilungen: Verteilungsfunktion
(
i
i =1 n
k
k
nk
F̂ ( X ≤ x k ) = ∑ = ∑ p k
j=1 n
j=1
Anstieg um p5=0.066
Anstieg um p4=0.311
1.0
Kumulierte Häufigkeiten
0.9
0.8
Anstieg um
p3=0.489
0.7
0.6
0.5
0.4
Anstieg um
p2=0.124
0.3
0.2
)
n
F̂ X ≤ x ( i ) = ∑
Verteilungsfunktion
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
Anstieg um
p1=0.009
0.1
0.0
0
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
6
11
Quantile: Quantilwert und Quantilanteil
Der Quantilwert Q gibt die Trennstelle
an, an der die Teilung erfolgt.
α = 13.3%
Q =2
X
1
2
3
4
5
Gültige
Prozente
.9
12.4
48.9
31.1
6.6
Kumulierte
Prozente
.9
13.3
62.2
93.4
100.0
1.0
Kumulierte Häufigkeiten
0.9
0.8
0.7
0.6
0.5
0.4
Q =2
0.3
13.3%-Quantil:
Q13.3% = Q0.133 = 2
0.2
0.1
α = 13.3%
0.0
0
Der Quantilanteil α gibt den Anteil an,
der im unteren Teilbereich liegt.
1
2
3
4
5
Bewertung der allgemeinen Wirtschaftslage (X)
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
6
12
Univariate Statistik: Parameter oder Kenngrößen von Verteilungen
Empirische Dichte
Kern-Dichte-Schätzer
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Anstelle alle Realisierungen einer Verteilung etwa in Häufigkeitstabellen oder durch eine Grafik
zu betrachten, benötigt man in der Statistik oft eine einzige Kenngröße, einen Verteilungsparameter, der charakteristisch für die ganze Verteilung ist.
Eine solche Zahl, die gewissermaßen repräsentativ oder typisch für eine Verteilung sein soll,
wird auch als typischer Wert bezeichnet. Da ein typischer Wert bei metrischen Verteilungen den
Ort oder die Lage der Verteilung auf der Achse der Zahlen angibt, spricht man auch von einem
Lagemaß.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
13
Lagemaße: Modus
Empirische Dichte
Modus
.025
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Es liegt nahe, als charakteristischen Wert einer Verteilung einfach den Wert zu benennen, der
am häufigsten vorkommt. Dieser Wert wird als Modus oder Modalwert (engl: mode) einer
Verteilung bezeichnet.
Sinnvoll ist die Wahl des Modus nur dann, wenn es nur einen Wert gibt, der am häufigksten
vorkommt. Bei bi- oder multimodalen (mehrgipfligen) Verteilungen muss daher ein Gipfel
besonders herausragen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
14
Lagemaße: Median
Empirische Dichte
Median
.025
.020
.015
.010
50%
50%
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Ein alternativer charakteristischer Wert einer Verteilung ist der Median,
das ist der Wert , der eine Verteilung in zwei gleich stark besetzte Hälften zerteilt.
Jeweils gleich viele Fälle der Verteilung sind sowohl kleiner oder gleich wie auch größer oder
gleich dem Median.
Bei ungerader Fallzahl ist der Median der Wert der Realisierung auf dem Rangplatz (n+1)/2 bei
einer nach Größe geordneten Reihung der Datenpunkte, bei z.B. n=101 Fällen, der Wert mit
dem Rangplatz (100+1)/2 = 51.
Bei gerader Fallzahl ist der Median der Mittelwert der Realisierungen der Rangplatze n/2 und
n/2+1, bei n=200 Fällen also der Mittelwert der Ralisierungen mit den Rangplätzen 200/2 = 50
und 200/2 +1 = 51.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
15
Lagemaße: arithmetisches Mittel
Empirische Dichte
Arithmetisches Mittel
.025
1 n
x + x2 +… + xn
x = ∑ xi = 1
n i=1
n
.020
.015
.010
.005
.000
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90
Alter in Jahren
Der vermutlich am häufigsten berechnete typische Wert einer Verteilung ist das arithmetische
Mittel (engl: mean), das auch als Mittelwert oder Durchschnitt bezeichnet wird.
Der Mittelwert einer Verteilung berechnet sich aus derr Summe über aller Realisierungen (mit
gültigen Werten) geteilt durch die Anzahl dieser Realisierungen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
16
Streuungsmaße
Neben einem typischen Wert, der eine Verteilung repräsentieren kann, ist von besonderer
Bedeutung auch die Frage, wie repräsentativ dieser Wert ist, d.h., ob eher mit großen oder mit
kleinen Abweichungen zu rechnen ist.
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
2
3
Y
4
5
1
2
3
4
5
W
So gilt für alle drei Verteilungen in den Abbildungen, dass das arithmetische Mittel und der
Median jeweils den Wert 3 aufweisen.
Während bei der Variablen X die Realisierungen relativ eng um diesen Wert streuen, kommen
bei der Gleichverteilung Y alle fünf Ausprägungen mit gleicher Häufigkeit vor. In der uförmigen Verteilung W werden Mittelwert und Median überhaupt nicht realisiert.
Bei gleichem Lagemaß können die Realisierungen also sehr unterschiedlich um dieses Maß
streuen. Die Unterschiedlichkeit der Realisationen wird durch Streuungsmaße erfasst.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
17
Variation
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
2
3
X
(
4
1
5
2
3
Y
(
4
5
W
(
SSX = 10 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 40 ⋅ ( 3 − 3) SSY = 20 ⋅ (1 − 3) + 20 ⋅ ( 2 − 3) + 20 ⋅ ( 3 − 3) SSW = 40 ⋅ (1 − 3) + 10 ⋅ ( 2 − 3) + 0 ⋅ ( 3 − 3)
2
2
+20 ⋅ ( 4 − 3) + 10 ⋅ ( 5 − 3)
2
2
2
) = 120
2
2
+20 ⋅ ( 4 − 3) + 20 ⋅ ( 5 − 3)
2
2
2
) = 200
2
2
+10 ⋅ ( 4 − 3) + 40 ⋅ ( 5 − 3)
2
2
2
) = 340
Bei jeder Verteilung gilt, dass die Summe der quadrierten Abweichungen vom Mittelwert ein
absoluter Minimalwert ist.
Dieser Wert wird Variation oder mittelwertbereinigte Quadrat-summe (engl: sum of squares)
genannt:
n
⎛ n 2⎞
2
SSx = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − n ⋅ x 2
i =1
⎝ i =1 ⎠
Die Variation ist Ausgangsgröße für die in der Statistik am häufigsten verwendeten Streuungsmaße.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
18
Stichprobenvarianz
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
2
X
SSX = 120 ; s X2 = 1.2
3
4
5
1
2
3
4
Y
W
SSY = 200 ; s X2 = 2.0
SSW = 340 ; s 2X = 3.4
5
Die (Stichproben-) Varianz ist die durchschnittliche quadrierte Abweichung vom Mittelwert:
1 n
⎛ 1 n 2 ⎞ 2 SSX
2
2
sX = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − x =
n i =1
n
⎝ n i =1 ⎠
Hinweis:
In Statistikprogrammen, Taschenrechnern und manchen Statistikbüchern wird bei der Berechnung der Varianz die Variation nicht durch die Fallzahl n, sondern durch die Zahl der Freiheitsgrade n – 1 geteilt. Dieser Quotient ist eine Schätzung der Populationsvarianz auf der Basis von
Stichprobendaten (geschätzte Populationsvarianz).
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
19
Standardabweichung
45
45
45
40
40
40
35
35
35
30
30
30
25
25
25
20
20
20
15
15
15
10
10
10
5
5
5
0
0
0
1
2
3
4
5
1
X
s 2X = 1.2 ; s x = 1.095
2
3
4
5
1
2
3
4
Y
W
s 2X = 2.0 ; s x = 1.414
s 2X = 3.4 ; s X =1.844
5
Da die Einheit der Varianz das Quadrat der Einheit der betrachteten Verteilung ist, wird
meistens die Standardabweichung (engl: standard deviation) als Maß für die Streuung
verwendet, die die positive Quadratwurzel aus der Varianz ist:
1 n
SSX
2
−
=
sX = s =
x
x
(
)
∑ i
n i =1
n
2
X
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
20
Rechenschema für Variation und Varianz
Die Berechnung der Variation und daraus abgeleiteter Streuungsmaße per Hand wird durch die
Anwendung eines einfachen Rechenschemas erleichtert.
Diesem liegt zugrunde, dass für die Berechnung neben der Fallzahl nur die Summe und die
2
Quadratsumme über alle Realisierungen benötigt werden:
⎛ n ⎞
⎜ ∑ xi ⎟
n
n
⎛ n 2⎞
⎛
⎞
2
SSX = ∑ ( x i − x ) = ⎜ ∑ x i ⎟ − n ⋅ x 2 = ⎜ ∑ x i2 ⎟ − ⎝ i =1 ⎠
n
i =1
⎝ i =1 ⎠
⎝ i =1 ⎠
Die Kenngrößen berechnen sich dann nach:
Beispiel für die 9 Altersangaben:
Alter (X)
55
38
41
59
42
28
78
42
32
∑ 415
X2
3025
1444
1681
3481
1764
784
6084
1764
1024
21051
X−x
8.89
–8.11
–5.11
12.89
–4.11
–18.11
31.89
–4.11
–14.11
0.01
n
(X − x)
79.01
65.79
26.12
166.12
16.90
328.01
1016.90
16.90
199.12
1914.87
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
∑x
i
Variation:
415
= 46.1
n
9
n
⎛ n ⎞
2
SSX = ∑ x i − ⎜ ∑ x i ⎟ / n
i =1
⎝ i =1 ⎠
= 21051 − 4152 / 9 = 1914.89
Varianz:
s 2X = SSx / n = 1914.89 / 9 = 212.76
2
Mittelwert:
x=
i =1
=
Standardabw.: s X = s X2 = 212.765 = 14.59
21
Rechenschema für Häufigkeitstabellen
Das Rechenschema lässt sich leicht auf Häufigkeitstabellen verallgemeinern.
X
1
2
3
4
5
∑
nk
10
20
40
20
10
100
nk·X
10
40
120
80
50
300
nk·X2
10
80
360
320
250
1020
K
x=
∑n
k =1
k
⋅ xk
K
∑n
k =1
=
2
⎛ K
⎞
2
SSx = ∑ n k ⋅ x k − ⎜ ∑ n k ⋅ x k ⎟ / n
k =1
⎝ k =1
⎠
= 1020 − 3002 /100 = 120
K
300
=3
100
k
s 2X = SSx /100 = 120 /100 = 1.2;
s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5%
Werden relative Häufigkeiten verwendet, ergit sich folgendes Schema:
X
1
2
3
4
5
∑
pk
0.1
0.2
0.4
0.2
0.1
1.0
pk·X
0.1
0.4
1.2
0.8
0.5
3.0
pk·X2
0.1
0.8
3.6
3.2
2.5
10.2
K
x = ∑ pk ⋅ x k = 3
k =1
⎛ K
⎞
s = ∑ pk ⋅ x − ⎜ ∑ pk ⋅ x k ⎟
k =1
⎝ k =1
⎠
= 10.2 − 32 = 1.2
K
2
X
2
2
k
SSx = s 2X ⋅ n = 1.2 ⋅100 = 120;
s X = 1.2 = 1.095; VX = s X / x = 1.095 / 3 = 36.5%
Bei gruppierten Daten werden in den Schemata statt der Ausprägungen xk die Klassenmitten mk
eingesetzt.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
22
Stichprobe und Grundgesamtheit
Viele Anwendungen der Statistik beziehen sich auf Stichprobendaten, mit deren Hilfe auf
Eigenschaften der Grundgesamtheiten rückgeschlossen werden soll, aus denen die Stichprobe
kommt.
Beispiel: In der Stichprobe des ALLBUS 1996 gaben 13.3 % von 3494 Befragten
mit gültigen Antworten an, dass Sie die Wirtschaftslage in Deutschland
für sehr gut oder gut hielten.
→ Daraus wird geschlossen, dass gut 13% der Wohnbevölkerung in
Deutschland 1996 die Wirtschaftslage für gut oder sehr gut hielten.
Aber:
Die Verallgemeinerung von den Ergebnisse einer Teilmenge auf eine größere Gesamtmenge ist
ein Induktionsschluss, bei dem sich prinzipiell nicht ausschließen lässt, dass er unzutreffend ist.
Möglicherweise hielten 1996 95% oder auch nur 5% die Wirtschaftslage für
gut oder sehr gut.
Bei 3494 Befragten von vielen Millionen Personen, über die eine Aussage gemacht wird, sind
nahezu alle Ergebnisse möglich.
Sicher ist nur, dass es 1996 mindestens 465 (= 13.3% von 3494) Befragten
gab, die die Wirtschaftslage für gut oder sehr gut hielten.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
23
Stichprobe und Grundgesamtheit
Auch mit Hilfe der Statistik kann die logische Möglichkeit eines falschen Induktionsschlusses
nicht vermieden werden.
Aber:
Die Statistik
• kann Hinweise dazu geben, wie die Fälle einer Stichprobe ausgewählt werden sollten,
damit die Wahrscheinlichkeit korrekter Schlüsse von einer Stichprobe auf die Grundgesamtheit (Population) möglichst hoch ist,
• und das Risiko von Fehlschlüssen berechenbar machen.
Voraussetzung:
• Wahrscheinlichkeitsauswahlen:
In einer Wahrscheinlichkeitsauswahl (oder Zufallsauswahl) besteht für jedes Element
einer Grundgesamtheit eine prinzipiell angebbare Wahrscheinlichkeit größer null,
dass das Element in die Stichprobe aufgenommen wird.
Eine Zufallsauswahl kann als Ergebnis eines Zufallsexperiments verstanden werden.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
24
Stichprobe und Grundgesamtheit
Beispiel:
In einem entlegendem Dorf leben 6 Familien, die ein monatliches Haushaltseinkommen
von 1000, 2000, 3000, 4000, 5000 und 6000 Euro haben.
Ein Statistiker wählt mit Hilfe eines Würfels zufällig genau eine Familie aus, um diese
zu befragen. Dazu nummeriert er die Haushalte mit Zahlen von 1 bis 6 durch.
Wenn beim Würfeln eine 1 resultiert, wird der erste Haushalt ausgewählt, wenn eine 2
resuliert, der zweite, usw..
Unsicher, ob die Befragung eines Haushalts Aussagen über das gesamte Dorf ermöglicht,
wiederholt der Statistiker eine Woche später diesen Auswahlprozess und befragt ein
weiteres Mal genau einen der sechs Haushalte.
Der Einfachheit halber wird angenommen, dass die Nummer des Haushalts gerade dem
Haushaltseinkommen entspricht, also Haushalt Nr. 1 über 1000€ pro Monat verfügt, Haushalt
Nr. 2 über 2000€, Nr. 3 über 3000E, Nr. 4 über 4000€, Nr. 5 über 5000 € und Nr. 6 über 6000€.
Die Gesamtheit aller möglichen Ergebnisse der zweimaligen Befragung von jeweils einem
Haushalt lässt sich dann grafisch als Punkte in einem Koordinatensystem visualiseren.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
25
Haushaltsnummer der zweiten
Befragung
Stichprobe und Grundgesamtheit
6
5
4
3
2
1
0
0
1
2
3
4
5
Haushaltsnummer der ersten Befragung
6
Elemente in RealisierungswahrMittleres
Stichprobe
scheinlichkeit
Einkommen
{1,1}
1/36
1000 €
{2,1}
2/36
1500 €
{3,1}{2,2}
3/36
2000 €
{4,1}{3,2}
4/36
2500 €
{5,1}{4,2}{3,3}
5/36
3000 €
{6,1}{5,2}{4,3}
6/36
3500 €
{6,2}{5,3}{4,4}
5/36
4000 €
{6,3}{5,4}
4/36
4500 €
{6,4}{5,5}
3/36
5000 €
{6,5}
2/36
5500 €
{6,6}
1/36
6000 €
Summe:
36/36
Die bei Berücksichtigung der Anordnung unterscheidbaren 36 Stichproben ergeben 11 unterschiedliche Werte, wenn jeweils der Stichprobenmittelwert der Haushaltseinkommen der beiden
Fälle berechnet wird.
Da jede Stichprobe eine angebbare Auswahlwahrscheinlichkeit hat, lassen sich auch für die
unterscheidbaren Werte der mittleren Haushaltseinkommen Realisierungswahrscheinlichkeiten
berechnen. Sie ergeben sich jeweils aus der Summe der Auswahlwahrscheinlichkeiten der Stichproben, die zum gleichen mittleren Einkommen führen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
26
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Auf die Populationsverteilung bzw. deren Parameter ist das Forschungsinteresse gerichtet;
sie ist jedoch der direkten Beobachtung nicht (oder nur mit sehr großem Aufwand) zugänglich.
Beobachtet werden kann dagegen die Verteilung in einer Stichprobe. Von den aus den Stichprobendaten berechneten Kennwerten wird in einem Induktionsschluss auf die Werte der
Populationsparameter geschlossen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
27
Stichprobenkennwerte, Kennwerteverteilungen und Populationsparameter
Populationsverteilung:
Haush.
einkom. nk pk cpk
1000
1 1/6 1/6
2000
1 1/6 2/6
3000
1 1/6 3/6
4000
1 1/6 4/6
5000
1 1/6 5/6
6000
1 1/6 6/6
Summe: 6 6/6
Kennwerteverteilung:
X (mittleres
Wahrscheinlich- VerteilungsEinkomen in €) keitsfunktion
funktion
1000
1/36
1/36
1500
2/36
3/36
2000
3/36
6/36
2500
4/36
10/36
3000
5/36
15/36
3500
6/36
21/36
4000
5/36
26/36
4500
4/36
30/36
5000
3/36
33/36
5500
2/36
35/36
6000
1/36
36/36
Summe:
36/36
Stichprobenverteilung 1
Haush. {1,1}
einkom. nk pk cpk
1000
1 0.5 0.5
1000
1 0.5 1.0
Summe: 2 1.0
Stichprobenverteilung 2
Haush. {1,2}
einkom. nk pk cpk
1000
1 0.5 0.5
2000
1 0.5 1.0
Summe: 2 1.0
Die Aussagen über die Stichprobengüte beziehen sich also stets auf die Kennwerteverteilung.
Eine konkreter Stichprobenmittelwert kann vom gesuchten Populationsparameter sehr stark
abweichen.
So sind in den beiden rechts wiedergegebenen Stichproben die Stichprobenmittewerte mit
Werten von 1000€ und 1500€ deutlich vom Populationsmittelwert mit 3500€ entfernt.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
28
Schätzer und Schätzung
Für eine einzelne Schätzung lässt sich grundsäzlich nicht angeben,
ob ihr Wert mit dem zuschätzenden Populationswert übereinstimmt oder ob sie sehr vom
gesuchten Wert abweicht.
Bei Zufallsauswahlen ist jede Schätzung ein Zufallsexperiment und jede Schätzung ein
mögliches Ereignis dieses Zufallsexperiments.
Eine Schätzung kann dann als Realisierung einer Zufallsvariable aufgefasst werden.
Zufallsvariablen, die für Schätzungen verwendet werden, heißen Schätzer.
Eine Schätzung ist also eine von vielen möglichen Realisierungen eines Schätzers.
Die Kennwerteverteilung des Schätzers, d.h. die Wahrscheinlichkeits(dichte)verteilung der
Zufallsvariable erlaubt Aussagen darüber,
wie wahrscheinlich Schätzungen sind, die nahe beim zu schätzenden Populationswert liegen.
Die Statistik versucht Schätzer zu finden, die möglichst gute Eigenschaften aufweisen.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
29
Eigenschaften von Schätzern
Erwartungstreue oder Unverzerrtheit
Ein Schätzer ist unverzerrt oder erwartungstreu (engl. unbiased), wenn der Erwartungswert der
Kennwerteverteilung des Schätzers mit dem zu schätzenden Populationswert übereinstimmt;
()
μ θˆ = θ
In der Statistik wird das griechische kleine Theta („θ“) oft als allgemeinses Symbol für einen
Parameter verwendet.
Ein kleines Dach („^“) über dem Symbol kennzeichnet dann einen Schätzer oder eine Schätzung.
Bei einfachen Zufallsauswahlen lässt sich die Kennwerteverteilung des Stichprobenanteils aus der Binomialverteilung oderder hypergeometrischen Verteilung berechnen.
In beiden Fällen ist der Erwartungswert der Kennwerteverteilung genau der
Anteil π1 = N1/N der Elemente in der Population, die die betrachtete Eigenschaft
aufweisen.
Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen ein erwartungstreuer
Schätzer.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
30
Eigenschaften von Schätzern
Konsistenz
Ein Schätzer ist konsistent, wenn bei steigender Stichprobenfallzahl die Wahrscheinlichkeit
gegen eins geht, dass der Abstand zwischen dem zu schätzenden Parameter und dem Stichprobenkennwert gegen null geht.
( (
))
lim Pr θˆ − θ = 0 = 1
n →∞
Aus dem Gesetz der großen Zahl folgt, dass die Wahrscheinlichkeit einer beliebig
kleinen Abweichung zwischen Stichprobenanteil und Populationsanteil bei einfachen
Zufallsauswahlen gegen eins geht, wenn die Fallzahl über alle Grenzen wächst.
Der Stichprobenanteil ist daher bei einfachen Zufallsauswahlen mit Zurücklegen
ein konsistenter Schätzer des Populationsanteils.
Bei einfachen Zufallsauswahlen ohne Zurücklegen ist der Anteil der ausgewählten
Fälle ebenfalls gleich dem Populationsanteil, wenn im Extremfall alle Fälle
ausgewählt werden.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
31
Eigenschaften von Schätzern
Effizienz
Die Realisationen der Kennwerteverteilung sollen möglichst gering um den zu schätzenden
Populationsparameter streuen. Ein Kennwert ist effizient, wenn es keinen anderen Schätzer gibt,
der mit einer geringeren Streuung um den zu schätzenden Parameter streut.
Als Maß für die Effizienz wird üblicherweise der Erwartungswert der quadrierten Abstände
vom zu schätzenden Parameterwert herangezogen, der nach der englischen Bezeichnung mean
squared error (MSE) heißt:
2
2
2 ˆ
⎛
⎞
ˆ
ˆ
MSE = μ ⎜ θ − θ ⎟ = σ θ + μ θ − θ
⎝
⎠
(
)
() ( () )
Die Gleichung zeigt, dass MSE auch als Summe der Varianz der Kennwerteverteilung eines
Schätzers plus der quadrierten Verzerrung (engl. bias), das ist der quadrierte Abstand zwischen
dem Erwartungswert des Schätzers und dem zu schätzendem Parameter dargestellt werden kann.
Zur Schätzung des Populationsmittelwertes kann bei einer symmetrischen, unimodalen
Verteilung sowohl der Stichprobenmittelwert als auch der Stichprobenmedian herangezogen werden.
Effizienter ist die Kenngröße, deren Kennwerteverteilung mit einer geringeren Streuung
um den Populationsmittelwert variiert. Welche das ist, hängt von Verteilung ab.
Bei einfachen Zufallsstichproben aus normalverteilten Populationen ist der Stichprobenmittelwert ein effizienterer Schätzer des Erwartungswert als der Stichprobenmedian.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
32
Standardfehler
Bei unverzerrten Schätzern ist die quadrierte Verzerrung definitionsgemäß null, so dass die
Effizienz in diesem Fall über die Varianz der Kennwerteverteilung gemessen werden kann.
Anstelle der Varianz wird meist die Standardabweichung einer Kennwerteverteilung als
Streuungsmaß verwendet.
Die Standardabweichung eines Schätzers wird als Standardschätzfehler oder Standardfehler
bezeichnet.
Da bei einfachen Zufallsauswahlen ohne Zurücklegen der Stichprobenanteil ein unverzerrter Schätzer des Populationsanteils ist, ist der Standardfehler die Quadratwurzel
aus dem MSE.
Sie ist aus der Standardabweichung der hypergeometrischen Verteilung berechenbar:
σ ( p1 ) =
1 ⎛ N1 ⎞ ⎛ N1 ⎞ N − n
⋅ ⎜ ⎟ ⋅ ⎜1 −
⎟⋅
n ⎝ N⎠ ⎝
N ⎠ N −1
Üblicherweise wird neben der Schätzung eines Populationsparameters auch der Standardfehler
der Kennwerteverteilung aus den Stichprobendaten geschätzt.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
33
Punktschätzung und Intervallschätzung
Von Punktschätzung spricht man, wenn die Realisation eines Schätzers als konkrete Schätzung
des unbekannten Wertes eines Populationsparameters verwendet wird.
Es ist allerdings sehr unwahrscheinlich, dass eine einzelne Schätzung exakt mit dem
unbekannten Populationsparameter übereinstimmt.
So ist die Wahrscheinlichkeit, dass ein Stichprobenanteil p1=0.6 (=60/100) bei einer
Population von N=100000 und einer Stichprobengröße von n=100 einem Populationsanteil π1=0.60 entspricht nur etwa 8%:
⎛
⎜
60 + 0.5 − 0.6 ⋅100
Pr(p1 = 0.6) ≈ Φ ⎜
100000 − 100
⎜
100
⋅
0.6
⋅
0.4
⋅
⎜
100000 − 1
⎝
= Φ (0.102) − Φ (−0.102) ≈ 0.08
⎞
⎛
⎟
⎜
60 − 0.5 − 0.6 ⋅100
⎟ − Φ⎜
100000 − 100
⎟
⎜
100
⋅
0.6
⋅
0.4
⋅
⎟
⎜
100000 − 1
⎠
⎝
⎞
⎟
⎟
⎟
⎟
⎠
In 92% aller Stichproben ist also mit Abweichungen zu rechnen.
Da der gesuchte Wert vermutlich nur in der Nähe der Schätzung liegt, ist es oft sinnvoller, statt
eines exakten Wertes ein Intervall anzugeben, in dem der gesuchte Wert vermutlich liegt.
Statt von Punktschätzung spricht man dann von Intervallschätzung.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
34
Vorgehensweise bei Intervallschätzung
Schritt 1:
Im ersten Schritt ist ein Stichprobenkennwert auszuwählen, dessen Kennwerteverteilung bekannt
ist, wobei der zu schätzende Populationsparameter ein Parameter der Verteilungsfunktion ist und
ansonsten die Verteilung berechenbar sein muss.
Schritt 2:
Im zweiten Schritt wird die Irrtumswahrscheinlichkeit bzw. umgekehrt die Vertrauenswahrscheinlichkeit festgelegt.
In der Sozialforschung werden üblicherweise Irrtumswahrscheinlichkeiten von 5% oder 1%
akzeptiert und entsprechend 95%- oder 99%-Konfidenzintervalle berechnet.
Je kleiner die Irrtumswahrscheinlichkeit, desto größer sind die Längen der Konfidenzintervalle.
Wenn ein Konfidenzintervall zu lang ist, hat es kaum Aussagekraft.
Schritt 3:
Nach der Festlegung der Irrtumswahrscheinlichkeit α kann das Intervall berechnet werden. Dazu werden Quantile der Kennwerteverteilung benötigt. In der Regel wird das Intervall nach der
Formel
c.i = Schätzer ± (1−α/2)-Quantil · (geschätzer) Standardfehler
berechnet.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
35
Interpretation von Konfidenzintervallen
Das Konfidenzintervall selbst ist bzw. seine Intervallgrenzen sind Zufallsvariablen.
Mit einer vorgegebenen Wahrscheinlichkeit, im Beispiel 90%, liegen die Intervallgrenzen so,
dass der zu schätzende Populationsmittelwert innerhalb der Intervallgrenzen liegt.
Die Wahrscheinlichkeitsaussage bezieht sich nicht auf den unbekannten Parameter, sondern auf
die Zufallsvariable „Konfidenzintervall“
Die Behauptung, dass der unbekannte Populationsparameter mit bekannter Wahrscheinlichkeit
in einem berechneten Intervall liegt, wäre daher falsch.
Wenn die Realisationen von Konfidenzintervallen mit einer bekannten Wahrscheinlichkeit den
zu schätzenden Parameter überdecken, dann ist die Wahrscheinlichkeit, dass dies nicht der Fall
ist, gleich eins minus dieser Wahrscheinlichkeit, im Beispiel also 100%-90% = 10%. Die Wahrscheinlichkeit eines Fehlers wird als Irrtumswahrscheinlichkeit bezeichnet und durch den kleinen griechischen Buchstaben α (alpha) gekennzeichnet.
Die Berechnungsart von Konfidenzintervallen führt also dazu, dass der Anteil aller Konfidenzintervalle, die den Populationsparameter überdecken, gleich der vorgegebenen Wahrscheinlichkeit ist.
Wenn diese Vertrauenswahrscheinlichkeit hoch bzw. die Irrtumswahrscheinlichkeit klein ist,
dann ist das Vertrauen berechtigt, dass auch ein konkret berechnetes Intervall den zu schätzenden Wert tatsächlich enthält, auch wenn unbekannt bleibt, ob dies tatsächlich der Fall ist.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
36
Mittelwerte und Intevallgrenzen
Interpretation von Konfidenzintervallen
5.2
5.1
5.0
4.9
4.8
Zufallsstichproben vom Umfang n=500 aus N(5;1)
Die Abbildung zeigt 90%-Konfidenintervalle um die Stichprobenmittelwerte von 100 Stichproben des Umfangs n=500 aus einer normalverteilten Population mit dem Populationsmittelwert 5 und einer Varianz von 1.
Von den 100 Intervallen enthalten 91 den Populationswert 5.0, neun dagegen nicht.
Statistik 2 (Vorlesung WiSe 06/07, 17.10.06)
37
Herunterladen