II. Stichprobe

Werbung
II. Grundzüge der
Stichprobentheorie
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Gründe für Stichprobenerhebung
- deutlich geringere Kosten
- größere Anwendungsbreite
- kürzere Erhebungs- und Auswertungszeiten
- in der Regel größere Genauigkeit der Ergebnisse
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Begriffsbestimmung
Eine Auswahl von Untersuchungseinheiten der
Grundgesamtheit bezeichnet man als Stichprobe (engl.:
sample). Der quantitative Anteil, den die Stichprobe am
Umfang der Grundgesamtheit hat, wird als Auswahlsatz
bezeichnet.
Eine Stichprobe soll ein möglichst repräsentatives Bild der
Grundgesamtheit liefern.
Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung
aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht.
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Auswahltechniken bei Zufallsstichproben
Echte Zufallsauswahl
- Auslosen oder Würfeln
- Auswahl nach Zufallszahlen
Ersatzverfahren für eine Zufallsauswahl
- Systematische Auswahl mit Zufallsstart
- Schlussziffernauswahl
- Auswahl nach Namensanfang
- Auswahl nach dem Geburtstag
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Klumpenstichprobe
In einer Klumpenstichprobe wird die Grundgesamtheit in viele kleine (oft geografisch
abgegrenzte) Teilgesamtheiten zerlegt, die so
genannten Klumpen. Dabei geht man so vor, dass
nur ein Teil der Klumpen zufällig ausgewählt wird
und in die Stichprobe gelangt. Innerhalb der
Klumpen gelangen dann alle Merkmalsträger in
die Stichprobe.
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Auswahl bei nichtzufälligen Stichproben
typische Auswahl
Abschneideverfahren
Auswahl nach dem Quotenverfahren
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
N
Anzahl der Elemente der Grundgesamtheit
n
n
N
Anzahl der Elemente der Stichprobe
N
n
Hochrechnungsfaktor
Auswahlsatz
y1 , y2 ,..., y N
Merkmalswerte der N Elemente der Grundgesamtheit
y1 , y2 ,..., yn
Merkmalswerte der n Elemente der Stichprobe
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Anzahl der möglichen Stichproben
⎛N⎞
N!
⎜⎜ ⎟⎟ =
⎝ n ⎠ n!( N − n)!
Beispiel: Grundgesamtheit von A, B, C, D, E
Auswahlsatz 3
⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5
⎜⎜ ⎟⎟ =
=
= 10
3
⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2
Mögliche Stichproben:
© Statistisches Bundesamt
Wintersemester 2008/2009
ABC, ABD, ABE, ACD, ACE,
ADE, BCD, BCE, BDE, CDE
www.forschungsdatenzentrum.de
Aufgabe 1
Folgende Einkommensangaben (in Tsd.) sind
bekannt:
2, 2, 12, 46, 96
Ziehen Sie alle möglichen Stichproben mit einem
Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des
Einkommens für die Grundgesamtheit!
Ermitteln Sie den Mittelwert der Mittelwerte.
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Der wahre Wert der Grundgesamtheit
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
Grundgesamtheit:
N
Y = ∑ yi = y1 + y2 + .... + y N
i =1
1
Y =
N
N
∑y
i =1
i
Stichprobe (Schätzung des wahren unbekannten Wertes in
der Grundgesamtheit):
N
ˆ
Y=
n
n
N
yi = ( y1 + y2 + .... + yn )
∑
n
i =1
© Statistisches Bundesamt
Wintersemester 2008/2009
1 n
ˆ
Y = y = ∑ yi
n i =1
www.forschungsdatenzentrum.de
Varianz
Varianz der yi in einer endlichen Grundgesamtheit:
N
1
2
σ2 =
(
y
−
Y
)
∑
i
N − 1 i =1
Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe:
V ( y ) = E (y − Y ) =
2
σ2 N −n
n
N
=
σ2
n
(1 − f )
n
wobei f =
N
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Varianz der Schätzwerte
Unverzerrte Schätzfunktion für die Varianz des Mittelwertes:
v( y ) = s y2 =
s y2
n
(1 − f )
Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme:
2 2
)
N
sy
2
v(Y ) = sYˆ =
(1 − f )
n
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Konfidenzintervalle
Gesamtwert:
⎤
⎡ˆ
⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥
2
2
⎦
⎣
Mittelwert:
⎤
⎡
⎢ y − z1− α s y , y + z1− α s y ⎥
2
2
⎦
⎣
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Aufgabe 2
Eine einfache Zufallsstichprobe wird aus einer Stadt mit
14848 Haushalten gezogen. Bei den 30 ausgewählten
Haushalten ergaben sich folgende Haushaltsgrößen:
5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3,
3, 1, 2, 4, 3, 4, 2, 4
Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist
die Wahrscheinlichkeit, dass der berechnete Wert nicht
mehr als +/- 10% vom wahren Wert abweicht?
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Als Schichtung wird eine vollständige Zerlegung der
Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren
wird geschichtete Zufallsstichprobe genannt, wenn in
jeder Schicht eine unabhängige Zufallsauswahl
durchgeführt wird.
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
Idee der optimalen Aufteilung:
N
Schicht 2
Schicht 1
y
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
unbekannte Gesamtheit {1,2,3,11,12,13}
mit dem tatsächlichen Mittelwert von ⎯y =7
Aufgabe: Schätze den Mittelwert durch eine Stichprobe
vom Umfang n = 2.
Ungünstigste Stichproben (1,2) und (12,13) mit
Schätzungen für den Mittelwert von 1,5 und 12,5
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
vorherige Schichtung in:
Merkmalswerte < 10
⇒ {1,2,3}
Merkmalswerte >= 10
⇒ {11,12,13}
und Ziehung von jeweils einer Einheit in jeder Schicht
ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus
Schicht 2 der Wert 11 führt zu einer wesentlich
verbesserten Schätzung des Mittelwertes mit ⎯y=6
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Schichtungsprinzipien
Schichtungsprinzip A
Wähle die Schichtung so, dass die Varianz der Erhebungsmerkmale innerhalb der Schichten möglichst klein ist
⇒ Steigerung der Präzision für die Erhebungsgesamtheit
Schichtungsprinzip B
Wähle die Schichtung so, dass sie möglichst identisch ist
mit der vorgesehenen Ergebnisgliederung der Erhebung
⇒ Reduzierung des Untergruppeneffekts
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
- proportionale Aufteilung
n
nh = N h
N
- optimale Aufteilung
Zielfunktion:
sY2ˆ = Min!
nh =
N h * shy
∑ (N
h
* shy )
*n
h
⇒ Kleinster Stichprobenfehler für das Gesamtergebnis
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
relativer Standardfehler
Der relative Standardfehler von Yˆ und
y
stimmen überein:
1
s y N sYˆ sYˆ
νy = =
=
= ν Yˆ
1 ˆ Yˆ
y
Y
N
Schätzung des relativen Standardfehlers:
sy
1− f
νy = =
*ν y mit ν y =
y
n
y
sy
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
- Erhöhung der Präzision für Teilergebnisse durch Abstufung
des relativen Standardfehlers
C
vYˆ = α
h
Yˆh
© Statistisches Bundesamt
Wintersemester 2008/2009
Abstufung erfolgt über den Exponent α der
Werte zwischen 0 und 0,5 annehmen kann
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
Nh
nh = 2
Nh
C
* 2 +1
α
2
vhy
Yˆh
Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik,
6. Auflage, Oldenbourg Verlag 2001, S. 123 ff.
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Aufgabe 3
In der Haushaltesstichprobe einer weiteren Stadt wurde
die Stadtteilqualität als Schichtungsmerkmal h, mit
drei Ausprägungen, genutzt.
Schicht 1 N=1500, Schicht 2 N=600, Schicht 3 N=800
EF1 Anzahl der Personen im Haushalt
EF2 Schichtnummer
(5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2)
(3,3) (2,1) (7,3) (4,2) (3,2)
Schätzen Sie die Einwohnerzahl der Stadt!
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Lösung der Aufgabe 3
N
h.1
h.2
h.3
h.4
h.5
h.6
h.7
h.8
n
Auswahlsatz (n/N)
Hochrechnungsfaktor (N/n)
Anzahl der Köpfe für n
Anzahl der Köpfe für N
h1
1 500
3
3
2
h2
600
3
2
3
3
4
4
4
3
3
8
3/1 500 8/600
500
75
8
26
4 000 1 950
h3
800
5
6
3
7
4
4/800
200
21
4 200
Einwohnerzahl = ∑ Köpfeh = 4 000 + 1 950 + 4 200 = 10 150
© Statistisches Bundesamt
Wintersemester 2008/2009
www.forschungsdatenzentrum.de
Herunterladen