III. Grundzüge der Stichprobentheorie

Werbung
III. Grundzüge der
Stichprobentheorie
Sommersemester 2010
www.forschungsdatenzentrum.de
Gründe für Stichprobenerhebung
- deutlich geringere Kosten
- größere Anwendungsbreite
- kürzere Erhebungs- und Auswertungszeiten
- in der Regel größere Genauigkeit der Ergebnisse
Sommersemester 2010
www.forschungsdatenzentrum.de
Begriffsbestimmung
Eine Auswahl von Untersuchungseinheiten der
Grundgesamtheit bezeichnet man als Stichprobe (engl.:
sample). Der quantitative Anteil, den die Stichprobe am
Umfang der Grundgesamtheit hat, wird als Auswahlsatz
bezeichnet.
Eine Stichprobe soll ein möglichst repräsentatives Bild der
Grundgesamtheit liefern.
Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung
aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht.
Sommersemester 2010
www.forschungsdatenzentrum.de
Auswahltechniken bei Zufallsstichproben
Echte Zufallsauswahl
- Auslosen oder Würfeln
- Auswahl nach Zufallszahlen
Ersatzverfahren für eine Zufallsauswahl
- Systematische Auswahl mit Zufallsstart
- Schlussziffernauswahl
- Auswahl nach Namensanfang
- Auswahl nach dem Geburtstag
Sommersemester 2010
www.forschungsdatenzentrum.de
Klumpenstichprobe
In einer Klumpenstichprobe wird die Grundgesamtheit in viele kleine (oft geografisch
abgegrenzte) Teilgesamtheiten zerlegt, die so
genannten Klumpen. Dabei geht man so vor, dass
nur ein Teil der Klumpen zufällig ausgewählt wird
und in die Stichprobe gelangt. Innerhalb der
Klumpen gelangen dann alle Merkmalsträger in
die Stichprobe.
Sommersemester 2010
www.forschungsdatenzentrum.de
Auswahl bei nichtzufälligen Stichproben
typische Auswahl
Abschneideverfahren
Auswahl nach dem Quotenverfahren
Sommersemester 2010
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
N
Anzahl der Elemente der Grundgesamtheit
n
n
N
Anzahl der Elemente der Stichprobe
N
n
Hochrechnungsfaktor
Auswahlsatz
y1 , y2 ,..., y N
Merkmalswerte der N Elemente der Grundgesamtheit
y1 , y2 ,..., yn
Merkmalswerte der n Elemente der Stichprobe
Sommersemester 2010
www.forschungsdatenzentrum.de
Anzahl der möglichen Stichproben
⎛N⎞
N!
⎜⎜ ⎟⎟ =
⎝ n ⎠ n!( N − n)!
Beispiel: Grundgesamtheit von A, B, C, D, E
Auswahlsatz 3
⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5
⎜⎜ ⎟⎟ =
=
= 10
3
⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2
Mögliche Stichproben:
Sommersemester 2010
ABC, ABD, ABE, ACD, ACE,
ADE, BCD, BCE, BDE, CDE
www.forschungsdatenzentrum.de
Aufgabe 1
Folgende Einkommensangaben (in Tsd.) sind
bekannt:
2, 2, 12, 46, 96
Ziehen Sie alle möglichen Stichproben mit einem
Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des
Einkommens für die Grundgesamtheit!
Ermitteln Sie den Mittelwert der Mittelwerte.
Sommersemester 2010
www.forschungsdatenzentrum.de
Der wahre Wert der Grundgesamtheit
Sommersemester 2010
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
Grundgesamtheit:
N
Y = ∑ yi = y1 + y2 + .... + y N
i =1
1
Y =
N
N
∑y
i =1
i
Stichprobe (Schätzung des wahren unbekannten Wertes in
der Grundgesamtheit):
N
ˆ
Y=
n
n
N
yi = ( y1 + y2 + .... + yn )
∑
n
i =1
Sommersemester 2010
1 n
ˆ
Y = y = ∑ yi
n i =1
www.forschungsdatenzentrum.de
Varianz
Varianz der yi in einer endlichen Grundgesamtheit:
N
1
2
σ2 =
(
y
−
Y
)
∑
i
N − 1 i =1
Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe:
V ( y ) = E (y − Y ) =
2
σ2 N −n
n
N
=
σ2
n
(1 − f )
n
wobei f =
N
Sommersemester 2010
www.forschungsdatenzentrum.de
Varianz der Schätzwerte
Unverzerrte Schätzfunktion für die Varianz des Mittelwertes:
v( y ) = s y2 =
s y2
n
(1 − f )
Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme:
2 2
)
N
sy
2
v(Y ) = sYˆ =
(1 − f )
n
Sommersemester 2010
www.forschungsdatenzentrum.de
Konfidenzintervalle
Gesamtwert:
⎤
⎡ˆ
⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥
2
2
⎦
⎣
Mittelwert:
⎤
⎡
⎢ y − z1− α s y , y + z1− α s y ⎥
2
2
⎦
⎣
Sommersemester 2010
www.forschungsdatenzentrum.de
Aufgabe 2
Eine einfache Zufallsstichprobe wird aus einer Stadt mit
14848 Haushalten gezogen. Bei den 30 ausgewählten
Haushalten ergaben sich folgende Haushaltsgrößen:
5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3,
3, 1, 2, 4, 3, 4, 2, 4
Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist
die Wahrscheinlichkeit, dass der berechnete Wert nicht
mehr als +/- 10% vom wahren Wert abweicht?
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Als Schichtung wird eine vollständige Zerlegung der
Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren
wird geschichtete Zufallsstichprobe genannt, wenn in
jeder Schicht eine unabhängige Zufallsauswahl
durchgeführt wird.
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
Idee der optimalen Aufteilung:
N
Schicht 2
Schicht 1
y
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
unbekannte Gesamtheit {1,2,3,11,12,13}
mit dem tatsächlichen Mittelwert von ⎯y =7
Aufgabe: Schätze den Mittelwert durch eine Stichprobe
vom Umfang n = 2.
Ungünstigste Stichproben (1,2) und (12,13) mit
Schätzungen für den Mittelwert von 1,5 und 12,5
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
vorherige Schichtung in:
Merkmalswerte < 10
⇒ {1,2,3}
Merkmalswerte >= 10
⇒ {11,12,13}
und Ziehung von jeweils einer Einheit in jeder Schicht
ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus
Schicht 2 der Wert 11 führt zu einer wesentlich
verbesserten Schätzung des Mittelwertes mit ⎯y=6
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Schichtungsprinzipien
Schichtungsprinzip A
Wähle die Schichtung so, dass die Varianz der Erhebungsmerkmale innerhalb der Schichten möglichst klein ist
⇒ Steigerung der Präzision für die Erhebungsgesamtheit
Schichtungsprinzip B
Wähle die Schichtung so, dass sie möglichst identisch ist
mit der vorgesehenen Ergebnisgliederung der Erhebung
⇒ Reduzierung des Untergruppeneffekts
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
- proportionale Aufteilung
n
nh = N h
N
- optimale Aufteilung
Zielfunktion:
sY2ˆ = Min!
nh =
N h * shy
∑ (N
h
* shy )
*n
h
⇒ Kleinster Stichprobenfehler für das Gesamtergebnis
Sommersemester 2010
www.forschungsdatenzentrum.de
relativer Standardfehler
Der relative Standardfehler von Yˆ und
y
stimmen überein:
1
s y N sYˆ sYˆ
νy = =
=
= ν Yˆ
1 ˆ Yˆ
y
Y
N
Schätzung des relativen Standardfehlers:
sy
1− f
νy = =
*ν y mit ν y =
y
n
y
sy
Sommersemester 2010
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
- Erhöhung der Präzision für Teilergebnisse durch Abstufung
des relativen Standardfehlers
C
vYˆ = α
h
Yˆh
Sommersemester 2010
Abstufung erfolgt über den Exponent α der
Werte zwischen 0 und 0,5 annehmen kann
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
Nh
nh = 2
Nh
C
* 2 +1
α
2
vhy
Yˆh
Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik,
6. Auflage, Oldenbourg Verlag 2001, S. 123 ff.
Sommersemester 2010
www.forschungsdatenzentrum.de
Aufgabe 3
In der Haushaltesstichprobe einer weiteren Stadt wurde
die Stadtteilqualität als Schichtungsmerkmal h, mit
drei Ausprägungen, genutzt.
Schicht 1 N=1500, Schicht 2 N=600, Schicht 3 N=800
EF1 Anzahl der Personen im Haushalt
EF2 Schichtnummer
(5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2)
(3,3) (2,1) (7,3) (4,2) (3,2)
Schätzen Sie die Einwohnerzahl der Stadt!
Sommersemester 2010
www.forschungsdatenzentrum.de
Lösung der Aufgabe 3
N
i.1
i.2
i.3
i.4
i.5
i.6
i.7
i.8
nh
Auswahlsatz (nh/Nh)
Hochrechnungsfaktor (Nh/nh)
Anzahl der Köpfe in nh
Anzahl der Köpfe in Nh
h1
1 500
3
3
2
h2
600
3
2
3
3
4
4
4
3
3
8
3/1 500 8/600
500
75
8
26
4 000 1 950
h3
800
5
6
3
7
4
4/800
200
21
4 200
Einwohnerzahl = ∑ Köpfeh = 4 000 + 1 950 + 4 200 = 10 150
Sommersemester 2010
www.forschungsdatenzentrum.de
Herunterladen