Kompaktskript zur Vorlesung Erhebungsverfahren

Werbung
Kompaktskript zur Vorlesung
Erhebungsverfahren
Friedrich-Schiller-Universität Jena
Wirtschaftswissenschaftliche Fakultät
Lehrstuhl für Wirtschafts- und Sozialstatistik
Prof. Dr. P. Kischka
Sommersemester 2010
1
ÜBERSICHT ÜBER STATISTISCHE ERHEBUNGEN
1
Übersicht über statistische Erhebungen
1.1
Erhebungsplan
Ein Erhebungsplan beinhaltet folgende Punkte:
• Erhebungsgegenstand,
• Erhebungsgebiet,
• Berichtsperiode / Berichtszeitpunkt,
• Erhebungstechnik.
1.2
Erhebungsart
Unter anderem stehen folgende Erhebungsarten zur Verfügung:
• Beobachtung,
• Befragung (mündlich/schriftlich)
– Probleme: Wahrhaftigkeit, Auskunftsverweigerung
1.3
Primär- und Sekundärstatistiken
1.4
Vollerhebung oder Teilerhebung
Vorteile von Stichproben gegenüber Totalerhebungen sind u.a.:
• Kostenminderung,
• kürzere Erhebungszeit,
• evtl. größere Genauigkeit,
• größere Anwendungsbreite.
1.5
Erhebungsfehler
• adäquate Merkmale,
• Stichprobenfehler,
• Fehler bei der Auswertung der Daten.
1.6
Stichprobenkontrolle
• operative Kontrolle,
• deskriptive Kontrolle.
1
2
STICHPROBENDESIGN
2
2
Stichprobendesign
2.1
Definition eines Stichprobendesigns
Gegeben seien:
G = {g1 , ..., gN }
x1 , ..., xN
Ω
E
Grundgesamtheit
kardinales Merkmal der Elemente von G, xi ∈ R
Menge aller Teilmengen von G
Menge aller Teilmengen von Ω
Definition 1 Sei P ein Wahrscheinlichkeitsmaß auf Ω. Dann heißt P ein Stichprobendesign.
P(ωj ) = Wahrscheinlichkeit, dass die Teilmenge ωj ausgewählt wird.
2.1.1
Bernoulli-Design
Für jeden Merkmalsträger wird unabhängig entschieden, ob er in die Stichprobe kommt.
p = Wahrscheinlichkeit, in die Stichprobe zu kommen.
P(∅) = (1 − p)N
P({gj }) = p(1 − p)N −1
2
P({gi , gj }) = p (1 − p)
..
.
N −2
1≤j≤N
1 ≤ i, j ≤ N,
i 6= j
P(G) = pN
Es gilt: Der Umfang der Stichprobe ist zufällig.
2.1.2
Einfache Stichprobe vom Umfang n
Es werden n ∈ N Merkmalsträger so entnommen, dass alle n elementigen Teilmengen von G die
gleiche Chance haben ausgewählt zu werden.
Zugehöriges Stichprobendesign:

 N1
ω ∈ Ω enthält n verschiedene Merkmalsträger
P(ω) = ( n )
0
sonst.
2.1.3
Stichprobe mit Zurücklegen vom Umfang n
Es werden zufällig mit Zurücklegen n Merkmalsträger ausgewählt, so dass bei jedem Zug die
Wahrscheinlichkeit 1/N für einen Merkmalsträger besteht, entnommen zu werden.
Zugehöriges Stichprobendesign bei n = 2
P(∅) = 0
n
1
P({gj }) =
N
n−1
X n 1 n
P({gi , gj }) =
k
N
k=1
1≤j≤N
1 ≤ i, j ≤ N, i 6= j
2
STICHPROBENDESIGN
2.2
3
Zugehörigkeitsindikator
Gegeben sei ein Wahrscheinlichkeitsraum (Ω, E, P) mit einem Stichprobendesign P.
Definition 2 Seien Ai auf (Ω, E, P) definierte Zufallsvariablen mit Ai : Ω → R, so dass gilt:
1,
gi ∈ ω
Ai (ω) =
0,
gi 6∈ ω.
Dann heißt Ai Zugehörigkeitsfunktion. Die Wahrscheinlichkeit
πi := P(Ai = 1)
heißt Zugehörigkeitsindikator 1. Ordnung und
i 6= j
πij := P(Ai = 1, Aj = 1)
Zugehörigkeitsindikaktor 2. Ordnung.
2.2.1
Zugehörigkeitsindikatoren beim Bernoulli-Design
Mit der Auswahlwahrscheinlichkeit p (0 < p < 1) folgt für die Zugehörigkeitsindikatoren beim
Bernoulli-Design
πi = p
1≤i≤N
(1)
πij = p2
1 ≤ i, j ≤ N, i 6= j
2.2.2
Zugehörigkeitsindikatoren bei einfacher Stichprobe vom Umfang n
Die Zugehörigkeitsindikatoren haben die Gestalt:
πi =
πij =
2.2.3
n
N
n(n−1)
N (N −1)
1≤i≤N
1 ≤ i, j ≤ N, i 6= j
(2)
Zugehörigkeitsindikatoren bei Stichprobe mit Zurücklegen vom Umfang n
In dieser Situation gilt:
πi = 1 − (1 − N1 )n
πij = 1 − 2(1 − N1 )n + (1 −
2.2.4
2 n
N)
1≤i≤N
1 ≤ i, j ≤ N, i 6= j
(3)
Eigenschaften der Zugehörigkeitsindikatoren
Satz 1 Sei P ein Stichprobendesign und seien πi die Zugehörigkeitsindikatoren 1. Ordnung und
πij die Zugehörigkeitsindikatoren 2. Ordnung. Dann gelten:
E(Ai ) = πi
1≤i≤N
(4)
Var(Ai ) = πi (1 − πi )
1≤i≤N
(5)
Cov(Ai , Aj ) = πij − πi πj
1 ≤ i, j ≤ N
(6)
Satz 2 Für alle Stichprobendesigns P gilt:
!
N
N
X
X
E
Ai
=
πi
i=1
Var
N
X
i=1
(7)
i=1
!
Ai
=
N
X
i=1
πi −
N
X
i=1
!2
πi
+
N
X
i,j=1
i6=j
πij
(8)
2
STICHPROBENDESIGN
2.3
4
π-Schätzfunktion
N
P
Ziel: Schätzung der Merkmalssumme
xj
j=1
Definition 3 Gegeben sei ein Stichprobendesign P mit Zugehörigkeitsindikatoren πi > 0
(1 ≤ i ≤ N ). Dann heißt
Y : Ω → R mit
N
X
xi
Y (ω) =
Ai (ω)
πi
(9)
i=1
π-Schätzfunktion von
N
P
xj .
j=1
2.3.1
π-Schätzfunktion für das Bernoulli-Design mit p
Mit der Stichprobe ω erhält man
X xj
1 X
=
xj .
πj
p
Y (ω) =
j:gj ∈ω
2.3.2
(10)
j:gj ∈ω
π-Schätzfunktion für einfache Stichproben vom Umfang n
Mit der Stichprobe ω erhält man
Y (ω) =
2.3.3
X xj
n
j:gj ∈ω N
=N·
1 X
xj .
n
(11)
j:gj ∈ω
Erwartungstreue und Varianz der π-Schätzfunktion
Satz 3 Für jedes Stichprobendesign P mit πi > 0
E(Y ) =
N
X
(1 ≤ i ≤ N ) gilt:
xj
(12)
j=1
Var(Y ) =
N
X
x2
i
2 πi (1
π
i=1 i
− πi ) +
X xi xj
i,j
i6=j
πi πj
(πij − πi πj ).
(13)
Ein Schätzer für die Varianz von Y ist
S 2 (ω) =
X
i,j:gi ,gj ∈ω
πij − πi πj xi xj
.
πij
πi πj
(14)
Es gilt:
E(S 2 ) = Var(Y ),
d.h. S 2 ist erwartungstreu zum Schätzen von Var(Y ).
Ein erwartungstreuer Schätzer für die Varianz der Grundgesamtheit ist
X
1
(xi − µω )2
R2 (ω) =
n−1
i:gi ∈ω
mit dem Stichprobenmittelwert µω und Stichprobenumfang n, d.h. |ω| = n.
(15)
3
EINFACHE STICHPROBE
3
5
Einfache Stichprobe
Nach 2.1.2 und 2.3.2 ist die π-Schätzfunktion zum Schätzen von
N
P
xj bei einer einfachen Stich-
j=1
probe vom Umfang n ∈ N gegeben durch
Y (ω) = N ·
1 X
xj = N µω ,
n
(16)
j:gj ∈ω
wobei
µω =
1 X
xj
n
(17)
j:gj ∈ω
als Stichprobenmittelwert bezeichnet wird. Der Stichprobenmittelwert µω ist ein erwartungstreuer Schätzer für die durchschnittliche Merkmalsausprägung µ. Aus 2.3.3 ist bekannt, dass
E(Y ) =
N
X
xj .
j=1
3.1
Varianz der π-Schätzfunktion
Es gilt
Var(Y ) = N 2
1−f 2
σ
n
(18)
mit der Varianz der Grundgesamtheit
N
σ2 =
1 X
(xi − µ)2
N −1
(19)
i=1
und dem Auswahlsatz
f=
n
.
N
Ein Schätzer für die Varianz ist
S 2 (ω) = N 2
1−f 2
σω
n
(20)
mit der Stichprobenvarianz
σω2 =
X
1
(xj − µω )2
n−1
j:gj ∈ω
bzgl. der Stichprobe ω.
(21)
3
EINFACHE STICHPROBE
3.2
6
Vorgehensweise bei einfacher Stichprobe vom Umfang n
Es sollen hier zwei mögliche Verfahren vorgestellt werden, die die Eigenschaft haben, dass jede
n-elementige Teilmenge ω die gleiche Chance
P(ω) =
1
N
n
hat, ausgewählt zu werden.
Möglichkeit I:
Wähle
1. Merkmalsträger mit Wahrscheinlichkeit
..
.
1
N
i-ten Merkmalsträger mit Wahrscheinlichkeit
..
.
n-ten Merkmalsträger mit Wahrscheinlichkeit
1
N −i+1
1
N −n+1
Möglichkeit II:
Sei u1 , u2 , . . . eine Folge gleichverteilter Zufallszahlen aus [0, 1].
n
n
, so wähle g1 aus, ist u1 ≥ N
, so wähle g1 nicht aus.
Ist u1 < N
Definiere:
1 g1 ausgewählt
n2 =
0 g1 nicht ausgewählt.
Allgemein für k = 2, 3, . . .
Sei nk Anzahl der unter den ersten (k − 1) Merkmalsträgern ausgewählten. Ist uk <
wähle gk . Stop, wenn nk = n.
3.3
n−nk
N −k+1 ,
so
Approximation durch die Normalverteilung
Bisher sind lediglich Erwartungswert und Varianz der Zufallsvariablen Y bekannt. Ziel ist es
nun, die gesamte Verteilung von Y durch eine Normalverteilung zu approximieren.
Dafür müssen theoretisch folgende Voraussetzungen für
Nν Umfang der ν-ten Grundgesamtheit,
nν Umfang der Stichprobe aus der ν-ten Grundgesamtheit
erfüllt sein:
Nν
→ ∞ mit wachsendem ν,
nν
→ ∞ mit wachsendem ν,
Nν − nν
→ ∞ mit wachsendem ν.
Dann ist für hinreichend große ν
Yν appr
∼ N (E(Yν ), Var(Yν ))
annähernd normalverteilt mit Erwartungswert
E(Yν ) = Nν µν
(22)
und der Varianz
Var(Yν ) = Nν2
1
nν 2
(1 −
)σ .
nν
Nν ν
(23)
4
GESCHICHTETE STICHPROBEN
7
Für die Praxis sollten die Bedingungen
n > 50,
nN
(24)
erfüllt sein.
Es gelte die Normalverteilungsannahme. Dann ist
N z1− α2 σω p
N z1− α2 σω p
√
√
N µω −
1 − f , N µω +
1−f
n
n
ein (1-α)-Konfidenzintervall für
N
P
j=1
(25)
xj . Dabei ist z1− α2 das (1 − α2 )-Fraktil der Standardnormal-
verteilung.
3.4
Anteilschätzungen
Gegeben sei ein qualitatives Merkmal mit lediglich zwei Ausprägungen, die in die Werte 0 bzw.
N
P
1 transformiert werden, d. h. xi ∈ {0, 1}, i = 1, ..., N. Dann ist
xi die Anzahl der Merkmalsi=1
träger, die das untersuchte Merkmal aufweisen, und µ =
1
N
N
P
xi ist der entsprechende Anteil
i=1
dieser Merkmalsträger in der Grundgesamtheit.
N
P
Als Schätzwerte für µ bzw.
xi wählt man µω bzw. Y (ω).
i=1
Prinzipiell kann die gleiche Vorgehensweise wie bisher verwendet werden. Wegen xi ∈ {0, 1} gilt
jedoch
σ2 =
N
µ(1 − µ)
N −1
(26)
n
µω (1 − µω ).
n−1
(27)
und entsprechend
R2 (ω) =
4
Geschichtete Stichproben
Die Grundgesamtheit G wird in H möglichst homogene Schichten (Teilmengen) aufgeteilt, aus
denen jeweils eine Stichprobe gezogen wird.
4
GESCHICHTETE STICHPROBEN
4.1
8
Bezeichnungen
G
= G1 ∪ · · · ∪ GH , H disjunkte Schichten
Nh
Umfang der h-ten Schicht (1 ≤ h ≤ H). Es gilt:
H
P
Nh = N .
h=1
H
P
nh = n.
Stichprobenumfang in Schicht h (1 ≤ h ≤ H). Es gilt:
h=1
P
xj der Schicht h
π-Schätzfunktion für die Merkmalssumme
nh
Yh
j:gj ∈Gh
(bzgl. des für Schicht h geltenden Designs Ph (1 ≤ h ≤ H))
ωh ⊂ Gh
Stichprobe in Schicht h (1 ≤ h ≤ H). Die gesamte Stichprobe ist
gegeben durch:
ω = ω1 ∪ ω2 ∪ · · · ∪ ωH .
Annahme:
Auswahl in den Schichten geschieht unabhängig voneinander. Es gilt daher:
P(ω) = P1 (ω1 ) · . . . · PH (ωH )
Ph (ωh )
(28)
Wahrscheinlichkeit ωh ⊂ Gh zu entnehmen bei dem Stichprobendesign Ph (1 ≤ h ≤ H) in h-ter Schicht.
Definition 4 Für ω ⊂ G mit ω = ω1 ∪ · · · ∪ ωH , ωh ⊂ Gh (1 ≤ h ≤ H) heißt
YS (ω) =
H
X
Yh (ωh )
(29)
h=1
geschichtete Stichprobenschätzfunktion zum Schätzen der Merkmalssumme
N
P
j=1
Weitere Notation:
P
µh = N1h
xj
Mittelwert in Schicht h (1 ≤ h ≤ H)
j:gj ∈Gh
σh2 =
1
Nh −1
P
(xj − µh )2
Varianz in Schicht h (1 ≤ h ≤ H)
j:gj ∈Gh
Sei ωh Stichprobe aus Schicht h vom Umfang nh
P
µωh = n1h
xj
Schätzer für Mittelwert in Schicht h
j:gj ∈ωh
P
σω2 h = nh1−1
(xj − µωh )2 Schätzer für Varianz in Schicht h
j:gj ∈ωh
xj .
4
GESCHICHTETE STICHPROBEN
9
Zugehörigkeitsindikatoren
1. Ordnung:
Für jedes i gilt: gi ∈ Gh für genau ein h.
X
Ph (ωh )
πi =
1≤i≤N
(30)
ωh :gi ∈ωh
Die Schicht h hängt von i ab.
2. Ordnung:
Fall 1: gi , gj liegen in der gleichen Schicht h. Dann gilt: πij ist durch Ph bestimmt (vgl. 2.2.3).
Fall 2: gi , gj liegen in verschiedenen Schichten. Dann gilt wegen der Unabhängigkeitsannahme
in den Schichten:
πij = πi πj .
4.2
Eigenschaften von YS
Satz 4 YS (ω) ist erwartungstreu zum Schätzen von
N
P
xj .
j=1
Satz 5 Für die Varianz der geschichteten Stichprobenschätzfunktion gilt:
Var(YS (ω)) =
H
X
Var(Yh (ωh ))
(31)
h=1
4.3
Geschichtete Stichprobenverfahren auf der Basis einfacher Stichproben
In jeder Schicht wird eine einfache Stichprobe vom Umfang nh (1 ≤ h ≤ H) gezogen. Der
H
P
nh
Gesamtstichprobenumfang ist n =
nh . Mit fh = N
wird der Auswahlsatz in Schicht h beh
h=1
zeichnet.
Aus 4.1 und 3.1 folgen:
YS =
H
X
Nh µωh
(32)
h=1
und
Var(YS ) =
H
X
h=1
Nh2
1
(1 − fh )σh2 .
nh
(33)
Ein erwartungstreuer Schätzer für die Varianz von YS ist gegeben durch
H
X
h=1
Nh2
1
(1 − fh )σω2 h .
nh
(34)
4
GESCHICHTETE STICHPROBEN
4.4
10
Aufteilung des Gesamtstichprobenumfangs auf die Schichten
Situation aus 4.3, d. h. einfache Stichproben vom Umfang nh in den Schichten h (1 ≤ h ≤ H).
4.4.1
Optimale Aufteilung
Definition 5 Eine Aufteilung des Gesamtstichprobenumfangs n auf die Schichten heißt optimal,
wenn Var(YS ) minimal ist.
Satz 6 (Formel nach Neyman/Tschuporow) Die Lösung des Optimierungsproblems
min Var(YS )
nh
unter der Nebenbedingung
H
X
nh = n
h=1
ist
nh = n
Nh σh
H
P
(1 ≤ h ≤ H).
(35)
Nl σl
l=1
4.4.2
Optimale Aufteilung bei vorgegebenen Kosten
Situation aus 4.3, d. h. einfache Stichproben vom Umfang nh in den Schichten h (1 ≤ h ≤ H).
Die Kosten pro erhobener Einheit einer Stichprobe in Schicht h seien ch . Werden mit c0 die
Fixkosten der Erhebung bezeichnet, dann betragen die Gesamtkosten:
H
X
C = c0 +
ch nh
(36)
h=1
Satz 7 Die Lösung des Optimierungsproblems
min Var(YS )
nh
unter der Nebenbedingung
C = c0 +
H
X
nh ch
h=1
zur Bestimmung des Stichprobenumfangs n ist
H
P
n = (C − c0 ) ·
Nh σh
h=1
H
P
√ −1
ch
√
Nh σh ch
,
(37)
h=1
und für die Aufteilung von n auf die Schichten gilt:
√
Nh σh ( ch )−1
nh = n H
(1 ≤ h ≤ H).
P
√ −1
Nl σl ( cl )
l=1
(38)
4
GESCHICHTETE STICHPROBEN
11
Spezialfall:
Die Kosten zur Erhebung eines Merkmals sind in jeder Schicht gleich, d. h. ch = c für alle
h (1 ≤ h ≤ H). Dann gilt:
C − c0
c
Nh σh
nh = n H
P
Nl σl
(39)
n=
(40)
l=1
4.4.3
Proportionale Aufteilung von n
Es sei die Situation wie in 4.3. Bei gegebenen n, Nh und N ist die proportionale Aufteilung
bestimmt durch
nh
Nh
Nh
=
bzw. nh = n
n
N
N
4.5
Schichtungseffekte
Betrachtet werde die Situation aus 4.3. Gegeben sehen n, H und Nh sowie
YP S geschichtete Stichprobe mit proportionaler Aufteilung von n (vgl. 4.4.3)
YOS geschichtete Stichprobe mit optimaler Aufteilung von n (vgl. 4.4.1)
Y
einfache Stichprobe vom Umfang n
Es gelten:
E(Y ) = E(YP S ) = E(YOS ) =
N
X
xj
(41)
j=1
sowie
Var(YOS ) ≤ Var(YP S ).
4.5.1
(42)
Vorbemerkungen
Allgemeine Aussagen über das Verhältnis der Varianzen dieser Schätzfunktionen sind nicht mögnh
n
lich. Aber für fh = N
∼ 0, f = N
∼ 0 gilt:
h
1
Var(Y ) ≈ N 2 σ 2
n
H
X
1
Var(YS ) ≈
Nh2 σh2
nh
(43)
(44)
h=1
bei proportionaler Aufteilung (4.4.3)
H
NX
Var(YP S ) ≈
Nh σh2
n
(45)
h=1
bei optimaler Aufteilung (Satz 6)
1
Var(YOS ) ≈
n
H
X
h=1
!2
Nh σh
.
(46)
4
GESCHICHTETE STICHPROBEN
4.5.2
12
Vergleich von Varianz YP S mit Varianz Y
Unter Vernachlässigung der Auswahlsätze (fh ∼ 0, f ∼ 0) gilt approximativ:
Var(Y ) = Var(YP S ) +
H
NX
Nh (µh − µ)2
n
(47)
h=1
Da der zweite Summand rechts nicht negativ ist erhält man
Var(Y ) ≥ Var(YP S )
(48)
Je größer der Unterschied der Schichtmittelwerte µh vom Gesamtmittelwert µ ist, desto vorteilhafter ist YP S im Vergleich zu Y .
4.5.3
Vergleich von Var(YP S ) mit Var(YOS )
Unter Vernachlässigung der Auswahlsätze (fh ∼ 0) gilt:
H
NX
Nh (σh − σ)2 ,
n
Var(YP S ) = Var(YOS ) +
(49)
h=1
wobei
σ=
H
1 X
Nh σh .
N
h=1
Der zweite Summand ist genau dann 0, wenn σh = σ = const. (1 ≤ h ≤ H).
4.6
Bestimmung des Gesamtstichprobenumfangs bei vorgegebener Varianz
Ziel ist es, bei vorgegebener Varianz von YS den Stichprobenumfang n so zu bestimmen, dass
bei einfachen Stichproben in den Schichten der gewünschte Wert Var(YS ) erreicht wird.
Zusätzliche Annahme:
Für jedes n ist die Aufteilung vorgegeben, d. h. es existieren 0 ≤ wh ≤ 1,
H
P
wh = 1, so dass
h=1
nh = wh · n für das zu bestimmende n gilt.
Mit dieser Annahme folgt:
Var(YS ) =
H
X
Nh2
1
(1 − fh )σh2
nh
Nh2
X
1
σh2 −
Nh σh2 .
wh · n
h=1
=
H
X
H
h=1
(50)
h=1
Auflösung nach n ergibt:
H
P
n=
h=1
σ2
Nh2 whh
Var(YS ) +
H
P
h=1
.
Nh σh2
(51)
4
GESCHICHTETE STICHPROBEN
13
Anwendung (Verwendung der Stichprobenstreuungen σωh )
• Mit
wh =
Nh σh
H
P
(52)
Nl σl
l=1
ergibt sich für nh = nwh gerade die Stichprobenaufteilung nach Neyman/Tschuporow und
ein Gesamtstichprobenumfang
2
H
P
Nh σwh
h=1
.
(53)
n=
H
P
2
Nh σωh
Var(YS ) +
h=1
• Mit
wh =
ergibt sich für nh =
und es gilt:
Nh
N n
Nh
N
1≤h≤L
gerade die proportionale Aufteilung des Stichprobenumfangs n
N
H
P
h=1
n=
Var(YS ) +
Nh σω2 h
H
P
h=1
4.7
4.7.1
(54)
.
(55)
Nh σω2 h
Spezialfälle
Geschichtete Stichproben für Anteilsschätzungen
Hat das untersuchte Merkmal lediglich zwei Ausprägungen (vgl. 3.4), dann gilt xhj ∈ {0, 1},
1 ≤ h ≤ H, 1 ≤ j ≤ Nh . Bei einfachen Stichproben in den Schichten und wegen (vgl. 3.4)
Var (Yh ) = Nh2
Nh − nh 1
·
· µh (1 − µh )
Nh − 1 nh
erhält man für die Varianz des Schichtschätzers für den Mittelwert
Var
1
YS
N
(56)
1
N YS
=
H
1 X 2 (Nh − nh ) 1
Nh
·
· µh (1 − µh )
N2
Nh − 1
nh
≈
H
1 X 2
µh (1 − µh )
Nh (1 − fh )
.
2
N
nh
h=1
(57)
h=1
wobei
fh =
h)
Man schätzt µh (1−µ
durch
nh
h-ten Schicht.
µωh (1−µωh )
.
nh
nh
Nh
Dabei bezeichnet µωh den Stichprobenmittelwert in der
5
KLUMPENVERFAHREN
4.7.2
14
Konfidenzintervalle
Es gilt die Situation aus 4.3, d. h. einfache Stichproben in den Schichten. Ferner sei nh ≥ 30,
nh
Nh ≤ 0, 05, 1 ≤ h ≤ H. Bezeichnet man mit yS (ω) das Ergebnis der Schichtschätzfunktion,
dann ist
v
uH
uX N 2
h 2
yS (ω) − z1− α t
σ ,
2
n h ωh
v

uH
uX N 2
h 2 
yS (ω) + z1− α2 t
σ
.
n h ωh

h=1
N
P
ein (1 − α)-Konfidenzintervall für
(58)
h=1
xj .
j=1
5
Klumpenverfahren
Die Grundgesamtheit G wird in disjunkte Klumpen zerlegt, die G möglichst gut widerspiegeln.
Eine Erhebung besteht beim Klumpenverfahren aus zwei Stufen für die jeweils ein eigenes Stichprobendesign angewendet wird.
1. Stufe: Stichprobendesign für die Auswahl von Klumpen
2. Stufe: Stichprobendesign für die Auswahl von Merkmalsträgern
5.1
K
Mk
Bezeichnungen
Anzahl der Klumpen,
Anzahl der Merkmalsträger im Klumpen k (1 ≤ k ≤ K). Es gilt
K
X
Mk = N,
(59)
k=1
xk,j
zk
Merkmalsausprägung des j-ten Merkmalsträgers im k-ten Klumpen
(1 ≤ k ≤ K, 1 ≤ j ≤ Mk ),
Merkmalssumme im k-ten Klumpen, d. h.
zk =
Mk
X
xk,j
,
1 ≤ k ≤ K,
(60)
j=1
µKl
Durchschnittliche Merkmalssumme in den Klumpen, d. h.
µKl =
K
1 X
zk
K
,
(61)
k=1
2
σKl
Klumpenvarianz, d. h.
K
2
σKl
1 X
=
(zk − µKl )2 .
K −1
k=1
(62)
5
KLUMPENVERFAHREN
5.2
15
Einstufige Klumpenverfahren
Idee:
In der 2. Stufe werden alle Merkmalsträger der ausgewählten Klumpen erfasst. Das Stichprobendesign in der ersten Stufe bestimmt die Zugehörigkeitsindikatoren 1. und 2. Ordnung
1 ≤ i, j ≤ K
πI,i und πI,ij ,
für die Klumpen und für die Merkmalsträger.
Zugehörigkeitsindikatoren für Merkmalsträger
1. Ordnung: Für jeden Merkmalsträger gi gilt gi ∈ Klk für ein k und somit πi = πI,k .
2. Ordnung: Seien gi , gj zwei Merkmalsträger
1. Fall: gi , gj ∈ Klk . Dann gilt: πij = πI,k .
2. Fall: gi ∈ Klk , gj ∈ Klr (k 6= r). Dann gilt: πij = πI,kr .
Definition 6 Die π-Schätzfunktion für die Merkmalssumme beim einstufigen Klumpenverfahren
ist
YK
K
X
zk
=
Ak
πI,k
(63)
k=1
mit Ak Indikatorfunktion für die Klumpen.
Satz 8 Es gilt:
K
X
zk
E
Ak
πI,k
!
=
N
X
xj ,
(64)
j=1
k=1
d. h. YK ist erwartungstreu zum Schätzen der Merkmalssumme.
Satz 9 Es gilt:
K
K
X
X
zk2
zk zj
Var(YK ) =
πI,k (1 − πI,k ) +
(πI,kj − πI,k πI,j )
2
πI,k πI,j
πI,k
k,j=1
k=1
(65)
k6=j
(vgl. 2.3.3).
Folgerung:
k
Sind alle πzI,k
identisch (1 ≤ k ≤ K) und liegt ein fester Stichprobenumfang vor, so gilt
Var(YK ) = 0.
Interpretation:
Sind bei gegebenen Klumpen die Zugehörigkeitsindikatoren proportional gewählt zur KlumpenN
P
summe zk , so erhält man den wahren Wert
xj als Schätzwert.
j=1
5
KLUMPENVERFAHREN
5.3
16
Klumpeneffekt
Die Frage, ob Klumpenbildung im Vergleich zu einer einfachen Stichprobe vorteilhaft ist, lässt
sich nur bei Klumpen gleicher Größe beantworten. Zu vergleichen sind die Varianzen von
Y
einfache Stichprobe vom Umfang n0 = M0 n.
YK Klumpenstichprobe vom Umfang n
Es gilt:
E(Y ) = E(YK ) =
N
X
xj
j=1
n0
1
(1 − )σ 2
n0
N
n 2
21
Var(YK ) = K (1 − )σKl
n
K
Var(Y ) = N 2
(66)
(67)
(68)
2
besteht bei KlumZwischen der Varianz der Grundgesamtheit σ 2 und der Klumpenvarianz σKL
pen gleicher Größe (Mk = M0 , 1 ≤ k ≤ K) der folgende Zusammenhang:
2
=
σKl
KM0 − 1
(1 + (M0 − 1)ρ)σ 2 ,
K −1
(69)
wobei
M0
K X
X
1
(xk,i − µ)(xk,j − µ)
ρ=
(M0 − 1)(N − 1)σ 2
i,j=1
k=1
(70)
i6=j
der Intraklasskorrelationskoeffizient ist. Es gilt:
−
1
≤ ρ ≤ 1.
M0 − 1
(71)
Man erhält die Darstellung für die Varianz des Klumpenschätzers.
1
n KM0 − 1
(1 + (M0 − 1)ρ)σ 2 .
Var(YK ) = K 2 (1 − )
n
K K −1
(72)
Für ρ = 0 gilt wegen KM0 = N für große K
N2 1
nM0 KM0 − 1 2
(1 −
)
σ
2
N
K −1
M0 n
N2 1
nM0
K
≈
(1 −
)
σ2
M0 n
N K −1
1
nM0 2
≈ N2
(1 −
)σ
M0 n
N
1
n0
= N 2 0 (1 − )σ 2 = Var(Y )
n
N
Var(YK ) =
(73)
D. h. im Falle ρ = 0 stimmt die Varianz des Klumpenverfahrens mit der Varianz der einfachen
Stichprobe vom Umfang n0 = M0 n ungefähr überein. Ist ρ < 0, so wird mit fallendem ρ das
Klumpenverfahren im Vergleich zur einfachen Stichprobe immer vorteilhafter. Ist ρ > 0, so ist
die Varianz des Klumpenverfahrens größer als die der einfachen Stichprobe.
6
VERHÄLTNISSCHÄTZER UND ANDERE SCHÄTZVERFAHREN
5.4
17
Zweistufiges Klumpenverfahren
Idee:
In einer ersten Stufe werden Klumpen ausgewählt und in einer zweiten Stufe Merkmalsträger in
den ausgewählten Klumpen.
1. Stufe: Stichprobendesign für Klumpen
πI,k und πI,kr , 1 ≤ k, r ≤ K
2. Stufe: Stichprobendesign zur Auswahl von Merkmalsträgern
πi|k und πij|k , 1 ≤ i, j ≤ Mk
D. h. wird Klumpen k in Stufe 1 ausgewählt, so wird in Stufe 2 ein (i. a. vom Klumpen k
abhängiges) Stichprobendesign angewendet, welches zu den Zugehörigkeitsindikatoren für die
Merkmalsträger gi , gj führt.
Zugehörigkeitsindikatoren
Für die nicht bedingten Zugehörigkeitsindikatoren (für die Merkmalsträger) gilt:
πi = πI,k πi|k , für gi ∈ Klk
d. h. πi ist die Wahrscheinlichkeit, dass der i-te Merkmalsträger in einem 2-stufigen Klumpenverfahren ausgewählt wird (1 ≤ i ≤ N ).
Für die nicht bedingten Zugehörigkeitsindikatoren 2. Ordnung gilt:
πij
= πI,k πij|k , für gi , gj ∈ Klk
πij
= πI,kr πi|k πj|r , für gi ∈ Klk , gj ∈ Klr .
Mit diesen Zugehörigkeitsindikatoren ist
YK (ω) =
N
X
xi
i=1
πi
Ai (ω)
(74)
ein 2-stufiger Klumpenschätzer. Nach 2.3.3 ist YK erwartungstreu und der Ausdruck in 2.3.3
liefert die Varianz von YK .
6
6.1
Verhältnisschätzer und andere Schätzverfahren
Verhältnisschätzer
Bisher wurde aus einer Stichprobe w die Merkmalssumme durch eine π-Schätzfunktion geschätzt.
Dieses Verfahren wird als freie Hochrechnung bezeichnet. Werden bei der Schätzung zusätzliche
Informationen verwendet, dann spricht man von gebundener Hochrechnung.
Seien wi , 1 ≤ i ≤ N, die bekannten Merkmalsausprägungen eines Merkmals, das mit den unbekannten Ausprägungen xi , 1 ≤ i ≤ N , im Zusammenhang steht. Sei ω ⊂ G eine Stichprobe.
6
VERHÄLTNISSCHÄTZER UND ANDERE SCHÄTZVERFAHREN
18
Ausgehend von der Annahme
P
N
P
xi
i:gi ∈ω
P
xj
j=1
=
N
P
wi
i:gi ∈ω
(75)
wj
j=1
erhält man den Verhältnisschätzer
YV =
N
X
N
P
wj ·
j=1
i=1
N
P
i=1
xi
π i Ai
(76)
wi
π i Ai
Es gilt: YV ist im allgemeinen nicht erwartungstreu. Eine Antwort auf die Frage, wann eine
Verhältnisschätzung einer freien Hochrechnung mit einer einfachen Stichprobe vom Umfang n
vorzuziehen ist, liefert die folgende Faustregel:
Mit den Bezeichnungen
N
P
wj
Mittelwert von W
µw = N1
j=1
s
N
P
σw = N 1−1
(wj − µw )2
Streuung von W
j=1
µx =
σx =
1
n
P
xi
ri:gi ∈ω P
1
σxw =
n−1
1
n−1
Mittelwert in Stichprobe
(xj − µx )2
geschätzte Streuung von X
j:gj ∈ω
P
(xi − µx )(wi − µw )
Kovarianz von X und W bzgl. ω
i:gi ∈ω
ist YV einer einfachen Stichprobe vorzuziehen, falls
σxw
σw
σx
2
>
:
.
σx σw
µw
µx
(77)
Spezialfall (Proportionaler Zusammenhang)
Unter der Annahme αwi = xi , 1 ≤ i ≤ N , folgt
YV =
N
X
j=1
N
P
wj i=1
N
P
i=1
αwi
π i Ai
=α
wi
π i Ai
N
X
j=1
wj =
N
X
xj ,
j=1
d. h. YV liefert den exakten Wert.
6.2
Random Response (Zufällige Antwort-Verfahren)
Ausgangspunkt sind Anteilschätzungen (Vgl. Abschnitt 3.4). Um
1
Y (ω) = µ
p := E
N
(78)
7
ZWEIPHASIGE SCHÄTZFUNKTIONEN
19
bei ”heiklen” Fragen festzustellen, werden die Antworten durch ’kontrolliertes Lügen’ anonymisiert: Jeder Befragte ermittelt durch einen Zufallsmechanismus, ob er lügen soll oder nicht.
Sei
xi wahre Ausprägung des Merkmalträgers gi , 1 ≤ i ≤ N , xi ∈ {0, 1}
q
Anteil der Lügner (0 < q < 12 ),
Qi Antwort des i-ten Merkmalträgers (1 ≤ i ≤ N ) bei gegebener Lügenstruktur (LS).
Dann gilt:
PLS (Qi = 1) = xi (1 − q) + (1 − xi )q.
(79)
Definiere
Qi − q
.
1 − 2q
(80)
ELS (Q0i ) = xi
(81)
Q0i :=
Dann ist
d.h. es liegt Erwartungstreue über die Randomisierung der Lügenstruktur vor.
Vorgehensweise:
1. einfache Stichprobe ω vom Umfang n
2. Festlegung der Lügenstruktur
3. Sei
k
n−k
Anzahl mit Qi = 0, gi ∈ ω
Anzahl mit Qi = 1, gi ∈ ω.
Dann ist
1
n
−q
1−q
k
+ (n − k)
1 − 2q
1 − 2q
(82)
ein erwartungstreuer Schätzer für den Anteil p.
7
Zweiphasige Schätzfunktionen
Ziel:
P
Schätzen der Merkmalsumme N
j=1 xj .
Idee:
In einer Phase I wird ein einfach zu erhebendes Merkmal W erhoben, das mit dem interessierenden Merkmal X korreliert ist. In Phase II wird aus der Stichprobe in Phase I eine Stichprobe
für X entnommen, die Informationen der Phase I berücksichtigt.
7
ZWEIPHASIGE SCHÄTZFUNKTIONEN
7.1
Notation
PI
πi , πij
ωI
PII ( |ωI )
ωII
πi|ωI
20
Stichprobendesign für Phase I
Zugehörigkeitsindikatoren 1. und 2. Ordnung in Phase I
Stichprobe in Phase I
bedingtes Stichprobendesign für Phase II, falls ωi in Phase I
gewählt wurde
Stichprobe in Phase II
bedingte Zugehörigkeitsindiktoren 1. Ordnung in Phase II gegeben ωI
X
πi|ωI =
PII (ωII |ωI )
ωII :gi ∈ωII
πij|ωI
bedingte Zugehörigkeitsindiktoren 2. Ordnung in Phase II gegeben ωI
X
πij|ωI =
PII (ωII |ωI )
ωII :gi ,gj ∈ωII
7.2
Nicht bedingte Zugehörigkeitsindikatoren
Zur Konstruktion eines π-Schätzers sind die Zugehörigkeitsindikatoren
πi
1≤i≤N
über Phase I und Phase II zu ermitteln.
Sei ωII ⊂ ωI Stichprobe in Phase II bei gegebener Stichprobe ωI in Phase I. Dann gilt:
πi =
X
PII (ωII )
ωII :gi ∈ωII
=
X
PI (ωI )PII (ωII |ωI )
ωI :ωII ⊂ωI
=
X
X
PI (ωI )PII (ωII |ωI )
ωII :gi ∈ωII ωI :ωII ⊂ωI
=
X
PI (ωI )
ωI :gi ∈ωI
=
X
X
PII (ωII |ωI )
ωII :ωII ⊂ωI
gi ∈ωII
PI (ωI )πi|ωI
ωI :gi ∈ωI
= πI,i πi|ωI
7.3
(83)
Der π ∗ -Schätzer
Definition 7 Sei ωI eine Stichprobe in Phase I. Dann ist
X xi
Y ∗ (ωII ) =
πi∗
i:gi ∈ωII
mit πi∗ = πI,i πi|ωI der π ∗ -Schätzer zum Schätzen der Merkmalssumme.
(84)
8
NICHTBEANTWORTUNG
21
Satz 10 Es gilt:
E(Y ∗ ) =
N
X
xj .
(85)
j=1
8
8.1
Nichtbeantwortung
Einfache Verfahren
Bei einer Stichprobe vom Umfang n gebe es
n1
Antworter (indiziert mit A)
n − n1 Nichtantworter (indiziert mit NA)
Seien y1 , . . . , yn1 die Merkmalsausprägungen der n1 Antwortenden. Dann gilt:
!
!
n1
n
n
X
1X
n − n1
1
n1 1 X
yi +
yi =
yi
n
n n1
n
n − n1
i=1
i=1
(86)
i=n1 +1
1. Möglichkeit
Annahme:
n1
n
X
1 X
1
yi ≈
yi .
n1
n − n1
(87)
n1
n
1 X
1X
yi =
yi .
n
n1
(88)
i=1
i=n1 +1
Dann gilt:
i=1
i=1
2. Möglichkeit
Annahme: Es gibt eine Ober- und Untergrenze für die Nichtantworter
n
X
1
c1 ≤
yi ≤ c2
n − n1
c1 , c2 reelle Zahlen.
(89)
n1
1 X
yi
n1
(90)
i=n1 +1
Dann gilt:
"
n
1X
n1
yi ∈
n
n
i=1
8.2
n1
1 X
yi
n1
i=1
!
n − n1
n1
+
c1 ,
n
n
i=1
!
#
n − n1
+
c2 .
n
Zweiphasige Verfahren
Phase I:
Mit einem Stichprobendesign PI für das interessierende Merkmal X mit den Zugehörigkeitsindikatoren
πI,i und πI,ij , 1 ≤ i, j ≤ N
erhält man eine Stichprobe ωI = ωA ∪ ωN A ,d.h. ωA enthält die Antworter, ωN A die Nichtantworter bzgl. des interessierenden Merkmals.
8
NICHTBEANTWORTUNG
22
Phase II:
Aus ωN A wird gemäß eines Stichprobendesigns PII ( |ωN A ) eine weitere Stichprobe gezogen mit
Zugehörigkeitsindikatoren
πi|ωN A und πij|ωN A , gi , gj ∈ ωN A
Annahme: Alle Merkmalsträger, die in Phase II ausgewählt werden, antworten.
Satz 11 Der Schätzer
X xi
πi∗
Y ∗ (ω) =
(91)
i:gi ∈ω
mit ω ⊂ ωI und
πi∗
(
πI,i
=
πI,i · πi|ωN A
falls i ∈ ωA
falls i ∈ ωN A
(92)
ist erwartungstreu für die Merkmalssumme.
Bemerkung:
Für den in Satz 11 definierten Schätzer Y ∗ gilt:
X
X xi
+
Y ∗ (ω) =
πI,i
i:gi ∈ωII ⊂ωN A
i:gi ∈ωA
8.3
xi
.
πI,i · πi|ωN A
(93)
Zweiphasige Verfahren mit zusätzlich erhobenem Merkmal
Phase I:
Mit einem Stichprobendesign PI wird eine Stichprobe ωI für das interessierende Merkmal X
sowie für ein weiteres mit X korreliertes Merkmal W erhoben. Bzgl. des Merkmals X kann die
Stichprobe in Antworter und Nichtantworter aufgeteilt werden, d.h.
ωI = ωA ∪ ωN A
Annahme: Bezüglich des W Merkmals haben alle Merkmalsträger geantwortet.
Phase II:
Ziehen von nII Merkmalsträgern aus ωN A mit ungleichen Auswahlwahrscheinlichkeiten
pi = P
wi
j:gj ∈ωN A
und Schätzverfahren aus 8.2 anwenden.
wj
Herunterladen