Kompaktskript zur Vorlesung Erhebungsverfahren Friedrich-Schiller-Universität Jena Wirtschaftswissenschaftliche Fakultät Lehrstuhl für Wirtschafts- und Sozialstatistik Prof. Dr. P. Kischka Sommersemester 2010 1 ÜBERSICHT ÜBER STATISTISCHE ERHEBUNGEN 1 Übersicht über statistische Erhebungen 1.1 Erhebungsplan Ein Erhebungsplan beinhaltet folgende Punkte: • Erhebungsgegenstand, • Erhebungsgebiet, • Berichtsperiode / Berichtszeitpunkt, • Erhebungstechnik. 1.2 Erhebungsart Unter anderem stehen folgende Erhebungsarten zur Verfügung: • Beobachtung, • Befragung (mündlich/schriftlich) – Probleme: Wahrhaftigkeit, Auskunftsverweigerung 1.3 Primär- und Sekundärstatistiken 1.4 Vollerhebung oder Teilerhebung Vorteile von Stichproben gegenüber Totalerhebungen sind u.a.: • Kostenminderung, • kürzere Erhebungszeit, • evtl. größere Genauigkeit, • größere Anwendungsbreite. 1.5 Erhebungsfehler • adäquate Merkmale, • Stichprobenfehler, • Fehler bei der Auswertung der Daten. 1.6 Stichprobenkontrolle • operative Kontrolle, • deskriptive Kontrolle. 1 2 STICHPROBENDESIGN 2 2 Stichprobendesign 2.1 Definition eines Stichprobendesigns Gegeben seien: G = {g1 , ..., gN } x1 , ..., xN Ω E Grundgesamtheit kardinales Merkmal der Elemente von G, xi ∈ R Menge aller Teilmengen von G Menge aller Teilmengen von Ω Definition 1 Sei P ein Wahrscheinlichkeitsmaß auf Ω. Dann heißt P ein Stichprobendesign. P(ωj ) = Wahrscheinlichkeit, dass die Teilmenge ωj ausgewählt wird. 2.1.1 Bernoulli-Design Für jeden Merkmalsträger wird unabhängig entschieden, ob er in die Stichprobe kommt. p = Wahrscheinlichkeit, in die Stichprobe zu kommen. P(∅) = (1 − p)N P({gj }) = p(1 − p)N −1 2 P({gi , gj }) = p (1 − p) .. . N −2 1≤j≤N 1 ≤ i, j ≤ N, i 6= j P(G) = pN Es gilt: Der Umfang der Stichprobe ist zufällig. 2.1.2 Einfache Stichprobe vom Umfang n Es werden n ∈ N Merkmalsträger so entnommen, dass alle n elementigen Teilmengen von G die gleiche Chance haben ausgewählt zu werden. Zugehöriges Stichprobendesign: N1 ω ∈ Ω enthält n verschiedene Merkmalsträger P(ω) = ( n ) 0 sonst. 2.1.3 Stichprobe mit Zurücklegen vom Umfang n Es werden zufällig mit Zurücklegen n Merkmalsträger ausgewählt, so dass bei jedem Zug die Wahrscheinlichkeit 1/N für einen Merkmalsträger besteht, entnommen zu werden. Zugehöriges Stichprobendesign bei n = 2 P(∅) = 0 n 1 P({gj }) = N n−1 X n 1 n P({gi , gj }) = k N k=1 1≤j≤N 1 ≤ i, j ≤ N, i 6= j 2 STICHPROBENDESIGN 2.2 3 Zugehörigkeitsindikator Gegeben sei ein Wahrscheinlichkeitsraum (Ω, E, P) mit einem Stichprobendesign P. Definition 2 Seien Ai auf (Ω, E, P) definierte Zufallsvariablen mit Ai : Ω → R, so dass gilt: 1, gi ∈ ω Ai (ω) = 0, gi 6∈ ω. Dann heißt Ai Zugehörigkeitsfunktion. Die Wahrscheinlichkeit πi := P(Ai = 1) heißt Zugehörigkeitsindikator 1. Ordnung und i 6= j πij := P(Ai = 1, Aj = 1) Zugehörigkeitsindikaktor 2. Ordnung. 2.2.1 Zugehörigkeitsindikatoren beim Bernoulli-Design Mit der Auswahlwahrscheinlichkeit p (0 < p < 1) folgt für die Zugehörigkeitsindikatoren beim Bernoulli-Design πi = p 1≤i≤N (1) πij = p2 1 ≤ i, j ≤ N, i 6= j 2.2.2 Zugehörigkeitsindikatoren bei einfacher Stichprobe vom Umfang n Die Zugehörigkeitsindikatoren haben die Gestalt: πi = πij = 2.2.3 n N n(n−1) N (N −1) 1≤i≤N 1 ≤ i, j ≤ N, i 6= j (2) Zugehörigkeitsindikatoren bei Stichprobe mit Zurücklegen vom Umfang n In dieser Situation gilt: πi = 1 − (1 − N1 )n πij = 1 − 2(1 − N1 )n + (1 − 2.2.4 2 n N) 1≤i≤N 1 ≤ i, j ≤ N, i 6= j (3) Eigenschaften der Zugehörigkeitsindikatoren Satz 1 Sei P ein Stichprobendesign und seien πi die Zugehörigkeitsindikatoren 1. Ordnung und πij die Zugehörigkeitsindikatoren 2. Ordnung. Dann gelten: E(Ai ) = πi 1≤i≤N (4) Var(Ai ) = πi (1 − πi ) 1≤i≤N (5) Cov(Ai , Aj ) = πij − πi πj 1 ≤ i, j ≤ N (6) Satz 2 Für alle Stichprobendesigns P gilt: ! N N X X E Ai = πi i=1 Var N X i=1 (7) i=1 ! Ai = N X i=1 πi − N X i=1 !2 πi + N X i,j=1 i6=j πij (8) 2 STICHPROBENDESIGN 2.3 4 π-Schätzfunktion N P Ziel: Schätzung der Merkmalssumme xj j=1 Definition 3 Gegeben sei ein Stichprobendesign P mit Zugehörigkeitsindikatoren πi > 0 (1 ≤ i ≤ N ). Dann heißt Y : Ω → R mit N X xi Y (ω) = Ai (ω) πi (9) i=1 π-Schätzfunktion von N P xj . j=1 2.3.1 π-Schätzfunktion für das Bernoulli-Design mit p Mit der Stichprobe ω erhält man X xj 1 X = xj . πj p Y (ω) = j:gj ∈ω 2.3.2 (10) j:gj ∈ω π-Schätzfunktion für einfache Stichproben vom Umfang n Mit der Stichprobe ω erhält man Y (ω) = 2.3.3 X xj n j:gj ∈ω N =N· 1 X xj . n (11) j:gj ∈ω Erwartungstreue und Varianz der π-Schätzfunktion Satz 3 Für jedes Stichprobendesign P mit πi > 0 E(Y ) = N X (1 ≤ i ≤ N ) gilt: xj (12) j=1 Var(Y ) = N X x2 i 2 πi (1 π i=1 i − πi ) + X xi xj i,j i6=j πi πj (πij − πi πj ). (13) Ein Schätzer für die Varianz von Y ist S 2 (ω) = X i,j:gi ,gj ∈ω πij − πi πj xi xj . πij πi πj (14) Es gilt: E(S 2 ) = Var(Y ), d.h. S 2 ist erwartungstreu zum Schätzen von Var(Y ). Ein erwartungstreuer Schätzer für die Varianz der Grundgesamtheit ist X 1 (xi − µω )2 R2 (ω) = n−1 i:gi ∈ω mit dem Stichprobenmittelwert µω und Stichprobenumfang n, d.h. |ω| = n. (15) 3 EINFACHE STICHPROBE 3 5 Einfache Stichprobe Nach 2.1.2 und 2.3.2 ist die π-Schätzfunktion zum Schätzen von N P xj bei einer einfachen Stich- j=1 probe vom Umfang n ∈ N gegeben durch Y (ω) = N · 1 X xj = N µω , n (16) j:gj ∈ω wobei µω = 1 X xj n (17) j:gj ∈ω als Stichprobenmittelwert bezeichnet wird. Der Stichprobenmittelwert µω ist ein erwartungstreuer Schätzer für die durchschnittliche Merkmalsausprägung µ. Aus 2.3.3 ist bekannt, dass E(Y ) = N X xj . j=1 3.1 Varianz der π-Schätzfunktion Es gilt Var(Y ) = N 2 1−f 2 σ n (18) mit der Varianz der Grundgesamtheit N σ2 = 1 X (xi − µ)2 N −1 (19) i=1 und dem Auswahlsatz f= n . N Ein Schätzer für die Varianz ist S 2 (ω) = N 2 1−f 2 σω n (20) mit der Stichprobenvarianz σω2 = X 1 (xj − µω )2 n−1 j:gj ∈ω bzgl. der Stichprobe ω. (21) 3 EINFACHE STICHPROBE 3.2 6 Vorgehensweise bei einfacher Stichprobe vom Umfang n Es sollen hier zwei mögliche Verfahren vorgestellt werden, die die Eigenschaft haben, dass jede n-elementige Teilmenge ω die gleiche Chance P(ω) = 1 N n hat, ausgewählt zu werden. Möglichkeit I: Wähle 1. Merkmalsträger mit Wahrscheinlichkeit .. . 1 N i-ten Merkmalsträger mit Wahrscheinlichkeit .. . n-ten Merkmalsträger mit Wahrscheinlichkeit 1 N −i+1 1 N −n+1 Möglichkeit II: Sei u1 , u2 , . . . eine Folge gleichverteilter Zufallszahlen aus [0, 1]. n n , so wähle g1 aus, ist u1 ≥ N , so wähle g1 nicht aus. Ist u1 < N Definiere: 1 g1 ausgewählt n2 = 0 g1 nicht ausgewählt. Allgemein für k = 2, 3, . . . Sei nk Anzahl der unter den ersten (k − 1) Merkmalsträgern ausgewählten. Ist uk < wähle gk . Stop, wenn nk = n. 3.3 n−nk N −k+1 , so Approximation durch die Normalverteilung Bisher sind lediglich Erwartungswert und Varianz der Zufallsvariablen Y bekannt. Ziel ist es nun, die gesamte Verteilung von Y durch eine Normalverteilung zu approximieren. Dafür müssen theoretisch folgende Voraussetzungen für Nν Umfang der ν-ten Grundgesamtheit, nν Umfang der Stichprobe aus der ν-ten Grundgesamtheit erfüllt sein: Nν → ∞ mit wachsendem ν, nν → ∞ mit wachsendem ν, Nν − nν → ∞ mit wachsendem ν. Dann ist für hinreichend große ν Yν appr ∼ N (E(Yν ), Var(Yν )) annähernd normalverteilt mit Erwartungswert E(Yν ) = Nν µν (22) und der Varianz Var(Yν ) = Nν2 1 nν 2 (1 − )σ . nν Nν ν (23) 4 GESCHICHTETE STICHPROBEN 7 Für die Praxis sollten die Bedingungen n > 50, nN (24) erfüllt sein. Es gelte die Normalverteilungsannahme. Dann ist N z1− α2 σω p N z1− α2 σω p √ √ N µω − 1 − f , N µω + 1−f n n ein (1-α)-Konfidenzintervall für N P j=1 (25) xj . Dabei ist z1− α2 das (1 − α2 )-Fraktil der Standardnormal- verteilung. 3.4 Anteilschätzungen Gegeben sei ein qualitatives Merkmal mit lediglich zwei Ausprägungen, die in die Werte 0 bzw. N P 1 transformiert werden, d. h. xi ∈ {0, 1}, i = 1, ..., N. Dann ist xi die Anzahl der Merkmalsi=1 träger, die das untersuchte Merkmal aufweisen, und µ = 1 N N P xi ist der entsprechende Anteil i=1 dieser Merkmalsträger in der Grundgesamtheit. N P Als Schätzwerte für µ bzw. xi wählt man µω bzw. Y (ω). i=1 Prinzipiell kann die gleiche Vorgehensweise wie bisher verwendet werden. Wegen xi ∈ {0, 1} gilt jedoch σ2 = N µ(1 − µ) N −1 (26) n µω (1 − µω ). n−1 (27) und entsprechend R2 (ω) = 4 Geschichtete Stichproben Die Grundgesamtheit G wird in H möglichst homogene Schichten (Teilmengen) aufgeteilt, aus denen jeweils eine Stichprobe gezogen wird. 4 GESCHICHTETE STICHPROBEN 4.1 8 Bezeichnungen G = G1 ∪ · · · ∪ GH , H disjunkte Schichten Nh Umfang der h-ten Schicht (1 ≤ h ≤ H). Es gilt: H P Nh = N . h=1 H P nh = n. Stichprobenumfang in Schicht h (1 ≤ h ≤ H). Es gilt: h=1 P xj der Schicht h π-Schätzfunktion für die Merkmalssumme nh Yh j:gj ∈Gh (bzgl. des für Schicht h geltenden Designs Ph (1 ≤ h ≤ H)) ωh ⊂ Gh Stichprobe in Schicht h (1 ≤ h ≤ H). Die gesamte Stichprobe ist gegeben durch: ω = ω1 ∪ ω2 ∪ · · · ∪ ωH . Annahme: Auswahl in den Schichten geschieht unabhängig voneinander. Es gilt daher: P(ω) = P1 (ω1 ) · . . . · PH (ωH ) Ph (ωh ) (28) Wahrscheinlichkeit ωh ⊂ Gh zu entnehmen bei dem Stichprobendesign Ph (1 ≤ h ≤ H) in h-ter Schicht. Definition 4 Für ω ⊂ G mit ω = ω1 ∪ · · · ∪ ωH , ωh ⊂ Gh (1 ≤ h ≤ H) heißt YS (ω) = H X Yh (ωh ) (29) h=1 geschichtete Stichprobenschätzfunktion zum Schätzen der Merkmalssumme N P j=1 Weitere Notation: P µh = N1h xj Mittelwert in Schicht h (1 ≤ h ≤ H) j:gj ∈Gh σh2 = 1 Nh −1 P (xj − µh )2 Varianz in Schicht h (1 ≤ h ≤ H) j:gj ∈Gh Sei ωh Stichprobe aus Schicht h vom Umfang nh P µωh = n1h xj Schätzer für Mittelwert in Schicht h j:gj ∈ωh P σω2 h = nh1−1 (xj − µωh )2 Schätzer für Varianz in Schicht h j:gj ∈ωh xj . 4 GESCHICHTETE STICHPROBEN 9 Zugehörigkeitsindikatoren 1. Ordnung: Für jedes i gilt: gi ∈ Gh für genau ein h. X Ph (ωh ) πi = 1≤i≤N (30) ωh :gi ∈ωh Die Schicht h hängt von i ab. 2. Ordnung: Fall 1: gi , gj liegen in der gleichen Schicht h. Dann gilt: πij ist durch Ph bestimmt (vgl. 2.2.3). Fall 2: gi , gj liegen in verschiedenen Schichten. Dann gilt wegen der Unabhängigkeitsannahme in den Schichten: πij = πi πj . 4.2 Eigenschaften von YS Satz 4 YS (ω) ist erwartungstreu zum Schätzen von N P xj . j=1 Satz 5 Für die Varianz der geschichteten Stichprobenschätzfunktion gilt: Var(YS (ω)) = H X Var(Yh (ωh )) (31) h=1 4.3 Geschichtete Stichprobenverfahren auf der Basis einfacher Stichproben In jeder Schicht wird eine einfache Stichprobe vom Umfang nh (1 ≤ h ≤ H) gezogen. Der H P nh Gesamtstichprobenumfang ist n = nh . Mit fh = N wird der Auswahlsatz in Schicht h beh h=1 zeichnet. Aus 4.1 und 3.1 folgen: YS = H X Nh µωh (32) h=1 und Var(YS ) = H X h=1 Nh2 1 (1 − fh )σh2 . nh (33) Ein erwartungstreuer Schätzer für die Varianz von YS ist gegeben durch H X h=1 Nh2 1 (1 − fh )σω2 h . nh (34) 4 GESCHICHTETE STICHPROBEN 4.4 10 Aufteilung des Gesamtstichprobenumfangs auf die Schichten Situation aus 4.3, d. h. einfache Stichproben vom Umfang nh in den Schichten h (1 ≤ h ≤ H). 4.4.1 Optimale Aufteilung Definition 5 Eine Aufteilung des Gesamtstichprobenumfangs n auf die Schichten heißt optimal, wenn Var(YS ) minimal ist. Satz 6 (Formel nach Neyman/Tschuporow) Die Lösung des Optimierungsproblems min Var(YS ) nh unter der Nebenbedingung H X nh = n h=1 ist nh = n Nh σh H P (1 ≤ h ≤ H). (35) Nl σl l=1 4.4.2 Optimale Aufteilung bei vorgegebenen Kosten Situation aus 4.3, d. h. einfache Stichproben vom Umfang nh in den Schichten h (1 ≤ h ≤ H). Die Kosten pro erhobener Einheit einer Stichprobe in Schicht h seien ch . Werden mit c0 die Fixkosten der Erhebung bezeichnet, dann betragen die Gesamtkosten: H X C = c0 + ch nh (36) h=1 Satz 7 Die Lösung des Optimierungsproblems min Var(YS ) nh unter der Nebenbedingung C = c0 + H X nh ch h=1 zur Bestimmung des Stichprobenumfangs n ist H P n = (C − c0 ) · Nh σh h=1 H P √ −1 ch √ Nh σh ch , (37) h=1 und für die Aufteilung von n auf die Schichten gilt: √ Nh σh ( ch )−1 nh = n H (1 ≤ h ≤ H). P √ −1 Nl σl ( cl ) l=1 (38) 4 GESCHICHTETE STICHPROBEN 11 Spezialfall: Die Kosten zur Erhebung eines Merkmals sind in jeder Schicht gleich, d. h. ch = c für alle h (1 ≤ h ≤ H). Dann gilt: C − c0 c Nh σh nh = n H P Nl σl (39) n= (40) l=1 4.4.3 Proportionale Aufteilung von n Es sei die Situation wie in 4.3. Bei gegebenen n, Nh und N ist die proportionale Aufteilung bestimmt durch nh Nh Nh = bzw. nh = n n N N 4.5 Schichtungseffekte Betrachtet werde die Situation aus 4.3. Gegeben sehen n, H und Nh sowie YP S geschichtete Stichprobe mit proportionaler Aufteilung von n (vgl. 4.4.3) YOS geschichtete Stichprobe mit optimaler Aufteilung von n (vgl. 4.4.1) Y einfache Stichprobe vom Umfang n Es gelten: E(Y ) = E(YP S ) = E(YOS ) = N X xj (41) j=1 sowie Var(YOS ) ≤ Var(YP S ). 4.5.1 (42) Vorbemerkungen Allgemeine Aussagen über das Verhältnis der Varianzen dieser Schätzfunktionen sind nicht mögnh n lich. Aber für fh = N ∼ 0, f = N ∼ 0 gilt: h 1 Var(Y ) ≈ N 2 σ 2 n H X 1 Var(YS ) ≈ Nh2 σh2 nh (43) (44) h=1 bei proportionaler Aufteilung (4.4.3) H NX Var(YP S ) ≈ Nh σh2 n (45) h=1 bei optimaler Aufteilung (Satz 6) 1 Var(YOS ) ≈ n H X h=1 !2 Nh σh . (46) 4 GESCHICHTETE STICHPROBEN 4.5.2 12 Vergleich von Varianz YP S mit Varianz Y Unter Vernachlässigung der Auswahlsätze (fh ∼ 0, f ∼ 0) gilt approximativ: Var(Y ) = Var(YP S ) + H NX Nh (µh − µ)2 n (47) h=1 Da der zweite Summand rechts nicht negativ ist erhält man Var(Y ) ≥ Var(YP S ) (48) Je größer der Unterschied der Schichtmittelwerte µh vom Gesamtmittelwert µ ist, desto vorteilhafter ist YP S im Vergleich zu Y . 4.5.3 Vergleich von Var(YP S ) mit Var(YOS ) Unter Vernachlässigung der Auswahlsätze (fh ∼ 0) gilt: H NX Nh (σh − σ)2 , n Var(YP S ) = Var(YOS ) + (49) h=1 wobei σ= H 1 X Nh σh . N h=1 Der zweite Summand ist genau dann 0, wenn σh = σ = const. (1 ≤ h ≤ H). 4.6 Bestimmung des Gesamtstichprobenumfangs bei vorgegebener Varianz Ziel ist es, bei vorgegebener Varianz von YS den Stichprobenumfang n so zu bestimmen, dass bei einfachen Stichproben in den Schichten der gewünschte Wert Var(YS ) erreicht wird. Zusätzliche Annahme: Für jedes n ist die Aufteilung vorgegeben, d. h. es existieren 0 ≤ wh ≤ 1, H P wh = 1, so dass h=1 nh = wh · n für das zu bestimmende n gilt. Mit dieser Annahme folgt: Var(YS ) = H X Nh2 1 (1 − fh )σh2 nh Nh2 X 1 σh2 − Nh σh2 . wh · n h=1 = H X H h=1 (50) h=1 Auflösung nach n ergibt: H P n= h=1 σ2 Nh2 whh Var(YS ) + H P h=1 . Nh σh2 (51) 4 GESCHICHTETE STICHPROBEN 13 Anwendung (Verwendung der Stichprobenstreuungen σωh ) • Mit wh = Nh σh H P (52) Nl σl l=1 ergibt sich für nh = nwh gerade die Stichprobenaufteilung nach Neyman/Tschuporow und ein Gesamtstichprobenumfang 2 H P Nh σwh h=1 . (53) n= H P 2 Nh σωh Var(YS ) + h=1 • Mit wh = ergibt sich für nh = und es gilt: Nh N n Nh N 1≤h≤L gerade die proportionale Aufteilung des Stichprobenumfangs n N H P h=1 n= Var(YS ) + Nh σω2 h H P h=1 4.7 4.7.1 (54) . (55) Nh σω2 h Spezialfälle Geschichtete Stichproben für Anteilsschätzungen Hat das untersuchte Merkmal lediglich zwei Ausprägungen (vgl. 3.4), dann gilt xhj ∈ {0, 1}, 1 ≤ h ≤ H, 1 ≤ j ≤ Nh . Bei einfachen Stichproben in den Schichten und wegen (vgl. 3.4) Var (Yh ) = Nh2 Nh − nh 1 · · µh (1 − µh ) Nh − 1 nh erhält man für die Varianz des Schichtschätzers für den Mittelwert Var 1 YS N (56) 1 N YS = H 1 X 2 (Nh − nh ) 1 Nh · · µh (1 − µh ) N2 Nh − 1 nh ≈ H 1 X 2 µh (1 − µh ) Nh (1 − fh ) . 2 N nh h=1 (57) h=1 wobei fh = h) Man schätzt µh (1−µ durch nh h-ten Schicht. µωh (1−µωh ) . nh nh Nh Dabei bezeichnet µωh den Stichprobenmittelwert in der 5 KLUMPENVERFAHREN 4.7.2 14 Konfidenzintervalle Es gilt die Situation aus 4.3, d. h. einfache Stichproben in den Schichten. Ferner sei nh ≥ 30, nh Nh ≤ 0, 05, 1 ≤ h ≤ H. Bezeichnet man mit yS (ω) das Ergebnis der Schichtschätzfunktion, dann ist v uH uX N 2 h 2 yS (ω) − z1− α t σ , 2 n h ωh v uH uX N 2 h 2 yS (ω) + z1− α2 t σ . n h ωh h=1 N P ein (1 − α)-Konfidenzintervall für (58) h=1 xj . j=1 5 Klumpenverfahren Die Grundgesamtheit G wird in disjunkte Klumpen zerlegt, die G möglichst gut widerspiegeln. Eine Erhebung besteht beim Klumpenverfahren aus zwei Stufen für die jeweils ein eigenes Stichprobendesign angewendet wird. 1. Stufe: Stichprobendesign für die Auswahl von Klumpen 2. Stufe: Stichprobendesign für die Auswahl von Merkmalsträgern 5.1 K Mk Bezeichnungen Anzahl der Klumpen, Anzahl der Merkmalsträger im Klumpen k (1 ≤ k ≤ K). Es gilt K X Mk = N, (59) k=1 xk,j zk Merkmalsausprägung des j-ten Merkmalsträgers im k-ten Klumpen (1 ≤ k ≤ K, 1 ≤ j ≤ Mk ), Merkmalssumme im k-ten Klumpen, d. h. zk = Mk X xk,j , 1 ≤ k ≤ K, (60) j=1 µKl Durchschnittliche Merkmalssumme in den Klumpen, d. h. µKl = K 1 X zk K , (61) k=1 2 σKl Klumpenvarianz, d. h. K 2 σKl 1 X = (zk − µKl )2 . K −1 k=1 (62) 5 KLUMPENVERFAHREN 5.2 15 Einstufige Klumpenverfahren Idee: In der 2. Stufe werden alle Merkmalsträger der ausgewählten Klumpen erfasst. Das Stichprobendesign in der ersten Stufe bestimmt die Zugehörigkeitsindikatoren 1. und 2. Ordnung 1 ≤ i, j ≤ K πI,i und πI,ij , für die Klumpen und für die Merkmalsträger. Zugehörigkeitsindikatoren für Merkmalsträger 1. Ordnung: Für jeden Merkmalsträger gi gilt gi ∈ Klk für ein k und somit πi = πI,k . 2. Ordnung: Seien gi , gj zwei Merkmalsträger 1. Fall: gi , gj ∈ Klk . Dann gilt: πij = πI,k . 2. Fall: gi ∈ Klk , gj ∈ Klr (k 6= r). Dann gilt: πij = πI,kr . Definition 6 Die π-Schätzfunktion für die Merkmalssumme beim einstufigen Klumpenverfahren ist YK K X zk = Ak πI,k (63) k=1 mit Ak Indikatorfunktion für die Klumpen. Satz 8 Es gilt: K X zk E Ak πI,k ! = N X xj , (64) j=1 k=1 d. h. YK ist erwartungstreu zum Schätzen der Merkmalssumme. Satz 9 Es gilt: K K X X zk2 zk zj Var(YK ) = πI,k (1 − πI,k ) + (πI,kj − πI,k πI,j ) 2 πI,k πI,j πI,k k,j=1 k=1 (65) k6=j (vgl. 2.3.3). Folgerung: k Sind alle πzI,k identisch (1 ≤ k ≤ K) und liegt ein fester Stichprobenumfang vor, so gilt Var(YK ) = 0. Interpretation: Sind bei gegebenen Klumpen die Zugehörigkeitsindikatoren proportional gewählt zur KlumpenN P summe zk , so erhält man den wahren Wert xj als Schätzwert. j=1 5 KLUMPENVERFAHREN 5.3 16 Klumpeneffekt Die Frage, ob Klumpenbildung im Vergleich zu einer einfachen Stichprobe vorteilhaft ist, lässt sich nur bei Klumpen gleicher Größe beantworten. Zu vergleichen sind die Varianzen von Y einfache Stichprobe vom Umfang n0 = M0 n. YK Klumpenstichprobe vom Umfang n Es gilt: E(Y ) = E(YK ) = N X xj j=1 n0 1 (1 − )σ 2 n0 N n 2 21 Var(YK ) = K (1 − )σKl n K Var(Y ) = N 2 (66) (67) (68) 2 besteht bei KlumZwischen der Varianz der Grundgesamtheit σ 2 und der Klumpenvarianz σKL pen gleicher Größe (Mk = M0 , 1 ≤ k ≤ K) der folgende Zusammenhang: 2 = σKl KM0 − 1 (1 + (M0 − 1)ρ)σ 2 , K −1 (69) wobei M0 K X X 1 (xk,i − µ)(xk,j − µ) ρ= (M0 − 1)(N − 1)σ 2 i,j=1 k=1 (70) i6=j der Intraklasskorrelationskoeffizient ist. Es gilt: − 1 ≤ ρ ≤ 1. M0 − 1 (71) Man erhält die Darstellung für die Varianz des Klumpenschätzers. 1 n KM0 − 1 (1 + (M0 − 1)ρ)σ 2 . Var(YK ) = K 2 (1 − ) n K K −1 (72) Für ρ = 0 gilt wegen KM0 = N für große K N2 1 nM0 KM0 − 1 2 (1 − ) σ 2 N K −1 M0 n N2 1 nM0 K ≈ (1 − ) σ2 M0 n N K −1 1 nM0 2 ≈ N2 (1 − )σ M0 n N 1 n0 = N 2 0 (1 − )σ 2 = Var(Y ) n N Var(YK ) = (73) D. h. im Falle ρ = 0 stimmt die Varianz des Klumpenverfahrens mit der Varianz der einfachen Stichprobe vom Umfang n0 = M0 n ungefähr überein. Ist ρ < 0, so wird mit fallendem ρ das Klumpenverfahren im Vergleich zur einfachen Stichprobe immer vorteilhafter. Ist ρ > 0, so ist die Varianz des Klumpenverfahrens größer als die der einfachen Stichprobe. 6 VERHÄLTNISSCHÄTZER UND ANDERE SCHÄTZVERFAHREN 5.4 17 Zweistufiges Klumpenverfahren Idee: In einer ersten Stufe werden Klumpen ausgewählt und in einer zweiten Stufe Merkmalsträger in den ausgewählten Klumpen. 1. Stufe: Stichprobendesign für Klumpen πI,k und πI,kr , 1 ≤ k, r ≤ K 2. Stufe: Stichprobendesign zur Auswahl von Merkmalsträgern πi|k und πij|k , 1 ≤ i, j ≤ Mk D. h. wird Klumpen k in Stufe 1 ausgewählt, so wird in Stufe 2 ein (i. a. vom Klumpen k abhängiges) Stichprobendesign angewendet, welches zu den Zugehörigkeitsindikatoren für die Merkmalsträger gi , gj führt. Zugehörigkeitsindikatoren Für die nicht bedingten Zugehörigkeitsindikatoren (für die Merkmalsträger) gilt: πi = πI,k πi|k , für gi ∈ Klk d. h. πi ist die Wahrscheinlichkeit, dass der i-te Merkmalsträger in einem 2-stufigen Klumpenverfahren ausgewählt wird (1 ≤ i ≤ N ). Für die nicht bedingten Zugehörigkeitsindikatoren 2. Ordnung gilt: πij = πI,k πij|k , für gi , gj ∈ Klk πij = πI,kr πi|k πj|r , für gi ∈ Klk , gj ∈ Klr . Mit diesen Zugehörigkeitsindikatoren ist YK (ω) = N X xi i=1 πi Ai (ω) (74) ein 2-stufiger Klumpenschätzer. Nach 2.3.3 ist YK erwartungstreu und der Ausdruck in 2.3.3 liefert die Varianz von YK . 6 6.1 Verhältnisschätzer und andere Schätzverfahren Verhältnisschätzer Bisher wurde aus einer Stichprobe w die Merkmalssumme durch eine π-Schätzfunktion geschätzt. Dieses Verfahren wird als freie Hochrechnung bezeichnet. Werden bei der Schätzung zusätzliche Informationen verwendet, dann spricht man von gebundener Hochrechnung. Seien wi , 1 ≤ i ≤ N, die bekannten Merkmalsausprägungen eines Merkmals, das mit den unbekannten Ausprägungen xi , 1 ≤ i ≤ N , im Zusammenhang steht. Sei ω ⊂ G eine Stichprobe. 6 VERHÄLTNISSCHÄTZER UND ANDERE SCHÄTZVERFAHREN 18 Ausgehend von der Annahme P N P xi i:gi ∈ω P xj j=1 = N P wi i:gi ∈ω (75) wj j=1 erhält man den Verhältnisschätzer YV = N X N P wj · j=1 i=1 N P i=1 xi π i Ai (76) wi π i Ai Es gilt: YV ist im allgemeinen nicht erwartungstreu. Eine Antwort auf die Frage, wann eine Verhältnisschätzung einer freien Hochrechnung mit einer einfachen Stichprobe vom Umfang n vorzuziehen ist, liefert die folgende Faustregel: Mit den Bezeichnungen N P wj Mittelwert von W µw = N1 j=1 s N P σw = N 1−1 (wj − µw )2 Streuung von W j=1 µx = σx = 1 n P xi ri:gi ∈ω P 1 σxw = n−1 1 n−1 Mittelwert in Stichprobe (xj − µx )2 geschätzte Streuung von X j:gj ∈ω P (xi − µx )(wi − µw ) Kovarianz von X und W bzgl. ω i:gi ∈ω ist YV einer einfachen Stichprobe vorzuziehen, falls σxw σw σx 2 > : . σx σw µw µx (77) Spezialfall (Proportionaler Zusammenhang) Unter der Annahme αwi = xi , 1 ≤ i ≤ N , folgt YV = N X j=1 N P wj i=1 N P i=1 αwi π i Ai =α wi π i Ai N X j=1 wj = N X xj , j=1 d. h. YV liefert den exakten Wert. 6.2 Random Response (Zufällige Antwort-Verfahren) Ausgangspunkt sind Anteilschätzungen (Vgl. Abschnitt 3.4). Um 1 Y (ω) = µ p := E N (78) 7 ZWEIPHASIGE SCHÄTZFUNKTIONEN 19 bei ”heiklen” Fragen festzustellen, werden die Antworten durch ’kontrolliertes Lügen’ anonymisiert: Jeder Befragte ermittelt durch einen Zufallsmechanismus, ob er lügen soll oder nicht. Sei xi wahre Ausprägung des Merkmalträgers gi , 1 ≤ i ≤ N , xi ∈ {0, 1} q Anteil der Lügner (0 < q < 12 ), Qi Antwort des i-ten Merkmalträgers (1 ≤ i ≤ N ) bei gegebener Lügenstruktur (LS). Dann gilt: PLS (Qi = 1) = xi (1 − q) + (1 − xi )q. (79) Definiere Qi − q . 1 − 2q (80) ELS (Q0i ) = xi (81) Q0i := Dann ist d.h. es liegt Erwartungstreue über die Randomisierung der Lügenstruktur vor. Vorgehensweise: 1. einfache Stichprobe ω vom Umfang n 2. Festlegung der Lügenstruktur 3. Sei k n−k Anzahl mit Qi = 0, gi ∈ ω Anzahl mit Qi = 1, gi ∈ ω. Dann ist 1 n −q 1−q k + (n − k) 1 − 2q 1 − 2q (82) ein erwartungstreuer Schätzer für den Anteil p. 7 Zweiphasige Schätzfunktionen Ziel: P Schätzen der Merkmalsumme N j=1 xj . Idee: In einer Phase I wird ein einfach zu erhebendes Merkmal W erhoben, das mit dem interessierenden Merkmal X korreliert ist. In Phase II wird aus der Stichprobe in Phase I eine Stichprobe für X entnommen, die Informationen der Phase I berücksichtigt. 7 ZWEIPHASIGE SCHÄTZFUNKTIONEN 7.1 Notation PI πi , πij ωI PII ( |ωI ) ωII πi|ωI 20 Stichprobendesign für Phase I Zugehörigkeitsindikatoren 1. und 2. Ordnung in Phase I Stichprobe in Phase I bedingtes Stichprobendesign für Phase II, falls ωi in Phase I gewählt wurde Stichprobe in Phase II bedingte Zugehörigkeitsindiktoren 1. Ordnung in Phase II gegeben ωI X πi|ωI = PII (ωII |ωI ) ωII :gi ∈ωII πij|ωI bedingte Zugehörigkeitsindiktoren 2. Ordnung in Phase II gegeben ωI X πij|ωI = PII (ωII |ωI ) ωII :gi ,gj ∈ωII 7.2 Nicht bedingte Zugehörigkeitsindikatoren Zur Konstruktion eines π-Schätzers sind die Zugehörigkeitsindikatoren πi 1≤i≤N über Phase I und Phase II zu ermitteln. Sei ωII ⊂ ωI Stichprobe in Phase II bei gegebener Stichprobe ωI in Phase I. Dann gilt: πi = X PII (ωII ) ωII :gi ∈ωII = X PI (ωI )PII (ωII |ωI ) ωI :ωII ⊂ωI = X X PI (ωI )PII (ωII |ωI ) ωII :gi ∈ωII ωI :ωII ⊂ωI = X PI (ωI ) ωI :gi ∈ωI = X X PII (ωII |ωI ) ωII :ωII ⊂ωI gi ∈ωII PI (ωI )πi|ωI ωI :gi ∈ωI = πI,i πi|ωI 7.3 (83) Der π ∗ -Schätzer Definition 7 Sei ωI eine Stichprobe in Phase I. Dann ist X xi Y ∗ (ωII ) = πi∗ i:gi ∈ωII mit πi∗ = πI,i πi|ωI der π ∗ -Schätzer zum Schätzen der Merkmalssumme. (84) 8 NICHTBEANTWORTUNG 21 Satz 10 Es gilt: E(Y ∗ ) = N X xj . (85) j=1 8 8.1 Nichtbeantwortung Einfache Verfahren Bei einer Stichprobe vom Umfang n gebe es n1 Antworter (indiziert mit A) n − n1 Nichtantworter (indiziert mit NA) Seien y1 , . . . , yn1 die Merkmalsausprägungen der n1 Antwortenden. Dann gilt: ! ! n1 n n X 1X n − n1 1 n1 1 X yi + yi = yi n n n1 n n − n1 i=1 i=1 (86) i=n1 +1 1. Möglichkeit Annahme: n1 n X 1 X 1 yi ≈ yi . n1 n − n1 (87) n1 n 1 X 1X yi = yi . n n1 (88) i=1 i=n1 +1 Dann gilt: i=1 i=1 2. Möglichkeit Annahme: Es gibt eine Ober- und Untergrenze für die Nichtantworter n X 1 c1 ≤ yi ≤ c2 n − n1 c1 , c2 reelle Zahlen. (89) n1 1 X yi n1 (90) i=n1 +1 Dann gilt: " n 1X n1 yi ∈ n n i=1 8.2 n1 1 X yi n1 i=1 ! n − n1 n1 + c1 , n n i=1 ! # n − n1 + c2 . n Zweiphasige Verfahren Phase I: Mit einem Stichprobendesign PI für das interessierende Merkmal X mit den Zugehörigkeitsindikatoren πI,i und πI,ij , 1 ≤ i, j ≤ N erhält man eine Stichprobe ωI = ωA ∪ ωN A ,d.h. ωA enthält die Antworter, ωN A die Nichtantworter bzgl. des interessierenden Merkmals. 8 NICHTBEANTWORTUNG 22 Phase II: Aus ωN A wird gemäß eines Stichprobendesigns PII ( |ωN A ) eine weitere Stichprobe gezogen mit Zugehörigkeitsindikatoren πi|ωN A und πij|ωN A , gi , gj ∈ ωN A Annahme: Alle Merkmalsträger, die in Phase II ausgewählt werden, antworten. Satz 11 Der Schätzer X xi πi∗ Y ∗ (ω) = (91) i:gi ∈ω mit ω ⊂ ωI und πi∗ ( πI,i = πI,i · πi|ωN A falls i ∈ ωA falls i ∈ ωN A (92) ist erwartungstreu für die Merkmalssumme. Bemerkung: Für den in Satz 11 definierten Schätzer Y ∗ gilt: X X xi + Y ∗ (ω) = πI,i i:gi ∈ωII ⊂ωN A i:gi ∈ωA 8.3 xi . πI,i · πi|ωN A (93) Zweiphasige Verfahren mit zusätzlich erhobenem Merkmal Phase I: Mit einem Stichprobendesign PI wird eine Stichprobe ωI für das interessierende Merkmal X sowie für ein weiteres mit X korreliertes Merkmal W erhoben. Bzgl. des Merkmals X kann die Stichprobe in Antworter und Nichtantworter aufgeteilt werden, d.h. ωI = ωA ∪ ωN A Annahme: Bezüglich des W Merkmals haben alle Merkmalsträger geantwortet. Phase II: Ziehen von nII Merkmalsträgern aus ωN A mit ungleichen Auswahlwahrscheinlichkeiten pi = P wi j:gj ∈ωN A und Schätzverfahren aus 8.2 anwenden. wj