2. Stichproben

Werbung
Grundzüge der
Stichprobentheorie
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Gründe für Stichprobenerhebung
- deutlich geringere Kosten
- größere Anwendungsbreite
- kürzere Erhebungs- und Auswertungszeiten
- in der Regel größere Genauigkeit der Ergebnisse
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Begriffsbestimmung
Eine Auswahl von Untersuchungseinheiten der
Grundgesamtheit bezeichnet man als Stichprobe (engl.:
sample). Der quantitative Anteil, den die Stichprobe am
Umfang der Grundgesamtheit hat, wird als Auswahlsatz
bezeichnet.
Eine Stichprobe soll ein möglichst repräsentatives Bild der
Grundgesamtheit liefern.
Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung
aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht.
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Auswahltechniken bei Zufallsstichproben
Echte Zufallsauswahl
- Auslosen oder Würfeln
- Auswahl nach Zufallszahlen
Ersatzverfahren für eine Zufallsauswahl
- Systematische Auswahl mit Zufallsstart
- Schlussziffernauswahl
- Auswahl nach Namensanfang
- Auswahl nach dem Geburtstag
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Klumpenstichprobe (Clustersampling)
In einer Klumpenstichprobe wird die Grundgesamtheit in
viele kleine (oft geografisch abgegrenzte) Teilgesamtheiten
zerlegt, die so genannten Klumpen. Dabei geht man so vor,
dass nur ein Teil der Klumpen zufällig ausgewählt wird und
in die Stichprobe gelangt. Innerhalb der Klumpen gelangen
dann alle Merkmalsträger in die Stichprobe.
Gleiche Wahrscheinlichkeit für jeden Klumpen in die
Stichprobe zu gelangen, bei ungleich großen Knoten
differierende Wahrscheinlichkeit für die Merkmalsträger in
die Stichprobe zu gelangen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Auswahl bei nichtzufälligen Stichproben
typische Auswahl
Abschneideverfahren
Auswahl nach dem Quotenverfahren
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
N
Anzahl der Elemente der Grundgesamtheit
n
n
N
Anzahl der Elemente der Stichprobe
N
n
Hochrechnungsfaktor
Auswahlsatz
y1 , y2 ,..., y N
Merkmalswerte der N Elemente der Grundgesamtheit
y1 , y2 ,..., yn
Merkmalswerte der n Elemente der Stichprobe
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Anzahl der möglichen Stichproben
⎛N⎞
N!
⎜⎜ ⎟⎟ =
⎝ n ⎠ n!( N − n)!
Beispiel: Grundgesamtheit von A, B, C, D, E
Auswahlsatz 3
⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5
⎜⎜ ⎟⎟ =
=
= 10
3
⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2
Mögliche Stichproben:
© Statistisches Bundesamt
ABC, ABD, ABE, ACD, ACE,
ADE, BCD, BCE, BDE, CDE
www.forschungsdatenzentrum.de
Aufgabe 1
Folgende Einkommensangaben (in Tsd.) sind
bekannt:
2, 2, 12, 46, 96
Ziehen Sie alle möglichen Stichproben mit einem
Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des
Einkommens für die Grundgesamtheit!
Ermitteln Sie den Mittelwert der Mittelwerte.
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Der wahre Wert der Grundgesamtheit
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Schreibweise und Definitionen
Grundgesamtheit:
N
Y = ∑ yi = y1 + y2 + .... + y N
i =1
1
Y =
N
N
∑y
i =1
i
Stichprobe (Schätzung des wahren unbekannten Wertes in
der Grundgesamtheit):
N
ˆ
Y=
n
n
N
yi = ( y1 + y2 + .... + yn )
∑
n
i =1
© Statistisches Bundesamt
1 n
ˆ
Y = y = ∑ yi
n i =1
www.forschungsdatenzentrum.de
Varianz
Varianz der yi in einer endlichen Grundgesamtheit:
N
1
2
σ2 =
(
y
−
Y
)
∑
i
N − 1 i =1
Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe:
V ( y ) = E (y − Y ) =
2
n
wobei f =
N
© Statistisches Bundesamt
σ2 N −n
n
N
=
σ2
n
(1 − f )
www.forschungsdatenzentrum.de
Varianz der Schätzwerte
Unverzerrte Schätzfunktion für die Varianz des Mittelwertes:
v( y ) = s y2 =
s y2
n
(1 − f )
Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme:
2 2
)
N
sy
2
v(Y ) = sYˆ =
(1 − f )
n
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Konfidenzintervalle
Gesamtwert:
⎤
⎡ˆ
⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥
2
2
⎦
⎣
Mittelwert:
⎤
⎡
⎢ y − z1− α s y , y + z1− α s y ⎥
2
2
⎦
⎣
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Aufgabe 2
Eine einfache Zufallsstichprobe wird aus einer Stadt mit
14848 Haushalten gezogen. Bei den 30 ausgewählten
Haushalten ergaben sich folgende Haushaltsgrößen:
5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3,
3, 1, 2, 4, 3, 4, 2, 4
Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist
die Wahrscheinlichkeit, dass der berechnete Wert nicht
mehr als +/- 10% vom wahren Wert abweicht?
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Optimierung von Stichprobenplänen
Ziel: Minimierung der Varianz
- Sortieren nach einem oder mehreren Merkmalen
- Schichtung der Grundgesamtheit
- Aufteilung des Stichprobenumfangs
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Optimierung von Stichprobenplänen
Sortierung
N
y
Auf- oder absteigende Sortierung nach einem oder mehreren Merkmalen
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
N
Schicht 2
Schicht 1
y
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Als Schichtung wird eine vollständige Zerlegung der
Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren
wird geschichtete Zufallsstichprobe genannt, wenn in
jeder Schicht eine unabhängige Zufallsauswahl
durchgeführt wird.
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
unbekannte Gesamtheit {1,2,3,11,12,13}
mit dem tatsächlichen Mittelwert von ⎯y =7
Aufgabe: Schätze den Mittelwert durch eine Stichprobe
vom Umfang n = 2.
Ungünstigste Stichproben (1,2) und (12,13) mit
Schätzungen für den Mittelwert von 1,5 und 12,5
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Beispiel
vorherige Schichtung in:
Merkmalswerte < 10
⇒ {1,2,3}
Merkmalswerte >= 10
⇒ {11,12,13}
und Ziehung von jeweils einer Einheit in jeder Schicht
ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus
Schicht 2 der Wert 11 führt zu einer wesentlich
verbesserten Schätzung des Mittelwertes mit ⎯y=6
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
N
Schicht 2
Schicht 1
y
Optimierende Aufteilung des Stichprobenumfangs auf Schicht 1 und 2
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Schichtungsprinzipien
Schichtungsprinzip A
Wähle die Auswahl in den Schichten so, dass die Varianz der
Erhebungsmerkmale innerhalb der Schichten möglichst klein ist
⇒ Steigerung der Präzision für die Erhebungsgesamtheit
Schichtungsprinzip B
Wähle die Auswahl in den Schichten so, dass sie möglichst
identisch ist mit der vorgesehenen Ergebnisgliederung der
Erhebung
⇒ Reduzierung des Untergruppeneffekts
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
- proportionale Aufteilung
n
nh = N h
N
- optimale Aufteilung
Zielfunktion:
sY2ˆ = Min!
nh =
N h * shy
∑ (N
h
* shy )
*n
h
⇒ Kleinster Stichprobenfehler für das Gesamtergebnis
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
relativer Standardfehler
Der relative Standardfehler von Yˆ und
y
stimmen überein:
1
s y N sYˆ sYˆ
νy = =
=
= ν Yˆ
1 ˆ Yˆ
y
Y
N
Schätzung des relativen Standardfehlers:
sy
1− f
νy = =
*ν y mit ν y =
y
n
y
sy
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Stichprobenaufteilung
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
- Erhöhung der Präzision für Teilergebnisse durch Abstufung
des relativen Standardfehlers
C
vYˆ = α
h
Yˆh
© Statistisches Bundesamt
Abstufung erfolgt über den Exponent α der
Werte zwischen 0 und 0,5 annehmen kann
www.forschungsdatenzentrum.de
Geschichtete Zufallsstichproben
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
Nh
nh = 2
Nh
C
* 2 +1
α
2
vhy
Yˆh
Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik,
6. Auflage, Oldenbourg Verlag 2001, S. 123 ff.
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Die Stichprobe der
Einkommensteuerstatistik
-
jährliche Erfassung der Einkommensteuererklärungen
N bei rund 28. Mio Steuerpflichtigen
Abbildung des Besteuerungsprozesses
verschiedene geschichtete Stichproben nach dem
Prinzip der vergleichbaren Präzision für gegliederte
Ergebnisse
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Aufgabe 3
In der Haushaltesstichprobe einer Stadt (n=15) wurde
die Stadtteilqualität als Schichtungsmerkmal, mit drei
Ausprägungen, genutzt (h = 1,2,3). Für die Haushalte
wurde die Anzahl der Haushaltsmitglieder erfasst.
(5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2)
(3,3) (2,1) (7,3) (4,2) (3,2)
Schicht h1 N=1500, Schicht h2 N=600, Schicht h3
N=800
Schätzen Sie die Einwohnerzahl der Stadt!
© Statistisches Bundesamt
www.forschungsdatenzentrum.de
Herunterladen