Stichprobenverfahren JProf. Dr. Hans Manner Fakultät Statistik Technische Universität Dortmund Email: [email protected] Sommersemester 2015 Stand: 01.04.2015 §-1 Aktueller Bezug 1 §0 Einführung in die Stichprobenverfahren 0.1 Voraussetzungen und Notationen • Die Menge potentieller Untersuchungseinheiten {U1, U2, . . . , UN } heißt Grundgesamtheit (kurz: GG) vom Umfang N . • Jeder Untersuchungseinheit Ui wird ein eindeutig fester Merkmalswert Yi zugeordnet. • Es wird eine zufällige Stichprobe vom Umfang n gezogen. • Die ”Ergebnisse” yi, i = 1, . . . , n, repräsentieren Zufallsvariablen. • Notation bei Stichprobenverfahren in der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt in der Stichprobe: Kleinbuchstaben, zufällige Werte, Realisationen von Zufallsvariablen 0.2 Gütekriterien im Rahmen der Stichprobentheorie • Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T (y1, . . . , yn) erwartungstreu für θ , falls E(T (y1, . . . , yn)) = E(T ) = θ . • Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Schätzer für θ , dann heißt T1 ”besser” als T2, falls Var(T1) < Var(T2). • MSE-Vergleich: Seien T1 und T2 zwei beliebige Schätzer für θ , dann heißt T1 ”besser” als T2, falls MSE(T1) < MSE(T2). (Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2) 2 §1 Einfache Zufallsauswahl Definition 1.1 Eine Stichprobe vom Umfang n aus einer Grundgesamtheit vom Umfang N heißt einfache Zufallsstichprobe ohne Zurücklegen (kurz: eZoZ), wenn sie die gleiche Auswahlwahrscheinlichkeit wie alle anderen möglichen Stichproben gleichen Umfangs besitzen. Beispiel 1.2 N = 4, Merkmalswerte {1, 3, 5, 7}, Stichprobe vom Umfang n = 2. Mögliche Stichproben {1, 3} {1, 5} {1, 7} {3, 5} {3, 7} Auswahlwahrscheinlichkeiten 1/6 1/6 1/6 1/6 1/6 ⇒ einfache Zufallsstichprobe Auswahlwahrscheinlichkeiten 1/2 0 0 0 0 6⇒ einfache Zufallsstichprobe {5, 7} 1/6 1/2 3 Bemerkung 1.3 (i) Man unterscheidet Modelle ohne Zurücklegen (eZoZ) und mit Zurücklegen (eZmZ). (ii) Modell ohne Zurücklegen: y1, . . . , yn identisch verteilt, aber stochastisch abhängig. (iii) Modell mit Zurücklegen: y1, . . . , yn unabhängig und identisch verteilt. (iv) Problem: viele statistische Analysen (z. B. Lineares Modell, statistische Tests) setzen stochastische Unabhängigkeit voraus; in der Praxis werden aber meist Modelle ohne Zurücklegen angewendet. Definition 1.4 Es bezeichnet in der Grundgesamtheit N 1 X Yi Merkmalsdurchschnitt Ȳ . := N i=1 N X Y. := Yi = N Ȳ . Merkmalssumme i=1 N 2 1 X 2 Yi − Ȳ . SY := N − 1 i=1 N k 1 X µk := Yi − Ȳ . N i=1 Merkmalsvarianz k-tes zentrales Moment 4 Definition 1.4 (Fortsetzung) Es bezeichnet in der Stichprobe n 1X ȳ. := yi n i=1 n X 1 2 2 (yi − ȳ.) sy := n − 1 i=1 Stichprobenmittel Stichprobenvarianz Satz 1.5 Für eine einfache Zufallsstichprobe ohne Zurücklegen gilt: (i) E(ȳ.) = Ȳ . 1 n 1 2 (ii) Var(ȳ.) = K µ2 1− SY = n N n 2 2 (iii) E(sy ) = SY 1 n−3 2 2 (iv) Var(sy ) = K1 µ4 − K2 µ2 n n(n − 1) n−1 der Endlichkeitskorrektur der Mittelwertschätzung und den mit K = 1 − N −1 Endlichkeitskorrekturen der Varianz (n − 1) N 3 − (n2 + 1) N 2 + (n2 + n) N K1 = (n − 1) (N − 1) (N − 2) (N − 3) 5 und −(n − 3) N 4 + (n2 − 3n − 6) N 3 + (9n + 3) N 2 − (3n2 + 3n) N . K2 = −(n − 3) (N − 1)2 (N − 2) (N − 3) Beweis: (i)–(iii): Übungsaufgabe (iv): Beweisskizze in der Vorlesung; ausführlicher Beweis von (iv) in Kreienbrock, L. (1986), Statistische Hefte 27, 23–35 (jetzt Statistical Papers). Endlichkeitskorrekturen sind von besonderer Wichtigkeit für den Vergleich von eZoZ und eZmZ, denn es gilt Satz 1.6 Falls n fest, so gilt lim K = lim K1 = lim K2 = 1. N →∞ N →∞ N →∞ 6 Korollar 1.7 Für eine einfache Zufallsstichprobe mit Zurücklegen gilt: (i) E(ȳ.) = Ȳ . 1 µ2 (ii) Var(ȳ.) = n 2 (iii) E(sy ) = µ2 n−3 1 2 2 µ4 − µ2 (iv) Var(sy ) = n n(n − 1) Bemerkung 1.8 Satz 1.5 entspricht der praktizierten Auswahl, Korollar 1.7 entspricht der praktizierten Auswertung (bzw. Voraussetzung vieler statistischer Verfahren) ⇒ Größenordnung der K’s ist von zentraler Bedeutung, ob eine eZoZ als eZmZ interpretiert werden darf ⇒ vor der Weiterverarbeitung der Daten (Lineares Modell, Test, ...) muss überprüft werden, ob die relativen Abweichungen der Endlichkeitskorrekturen von 1 nicht zu groß sind, d. h. (*) (1 − K) < (**) (1 − K1) < 1 (***) (1 − K2) < 2 7 Gültigkeit dieser Abweichungen: (1 − K) < ⇔ Var(ȳ.(mZ)) − Var(ȳ.(oZ)) Var(ȳ.(mZ)) < n 1− n−1 < ⇔ f := <+ N −1 N N d. h. es gilt ungefähr ”relative Abweichung” = ˆ Auswahlsatz f . Beachte: Diese Aussage ist unabhängig(!) von der Varianz SY2 der Grundgesamtheit. ⇔ Die Ungleichungen (**) und (***) sind keine relativen Varianzabweichungen, da die Varianzen aus Satz 1.5(iv) und Korollar 1.7(iv) Summanden in Abhängigkeit von µ2 und µ4 sind, d. h. (**) und (***) müssen separat berechnet werden und es müssen µ2 und µ4 berücksichtigt werden. Zentraler Grenzwertsatz für die einfache Zufallsauswahl Das Auswahlmodell der eZoZ führt zu dem statistischen Modell • y1, . . . , yn sind identisch verteilt. • E(y1) = Ȳ . N −1 2 SY • Var(y1) = µ2 = N • y1, . . . , yn sind stochastisch abhängig. 1 1 2 • Cov(y1, y2) = − µ 2 = − SY N −1 N 8 ⇒ keine Anwendung des (normalen) Zentralen Grenzwertsatzes, da yi stochastisch abhängig. Dennoch kann ein Grenzwertsatz angegeben werden: Hájek, J. (1960). Limiting distributions in simple random sampling from a finite population. Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5, 361–374. Voraussetzungen 1.9 Sei eine unendliche Folge von Urnen der Größe Nν gegeben, aus denen eZoZ vom Umfang nν gezogen werden. Weiterhin sei • • • • nν → ∞ und (Nν − nν ) → ∞, falls ν → ∞. Iν := {1, . . . , Nν } Yνi, i ∈ Iν Merkmalswert in der GG ν yνi, i = 1, . . . , nν Merkmalswert in der Stichprobe ν ) ( r Xnν yνi für beliebige τ > 0. • Iντ := i ∈ Iν : |Yνi − Ȳν.| > τ Var i=1 1 X Yνi • Ȳν. := Nν i∈I ν 9 Satz 1.10 (Hájek, 1960) Unter den Voraussetzungen 1.9 gilt ȳν. − E(ȳν.) * N (0, 1), p ν→∞ Var(ȳν.) dann und nur dann, wenn P Yνi − Ȳν. i∈Iντ lim P ν→∞ Yνi − Ȳν. 2 2 = 0. i∈Iν (Bedingung vom Lindeberg-Typ) Beweisidee: Weise nach, dass eZoZ asymptotisch äquivalent zu einem Auswahlverfahren mit stochastisch unabhängigen Zufallsvariablen ist. Bemerkung 1.11 Gilt für fν := nν /Nν die Beschränkung 0 < < fν < 1 − für ν > ν0, so kann man auch die schwächere Noether-Bedingung 2 max Yνi − Ȳν. i∈Iν lim P 2 = 0. ν→∞ Yνi − Ȳν. i∈Iν verwenden. 10 Definition 1.12 Seien x1, . . . , xN unabhängig identisch verteilte Zufallsvariablen mit W = P (x1 = 1), x := [x1, . . . , xN ]T und X ∈ {0, 1}N eine Realisation von x. Sei weiterhin I := {1, . . . , N } und s(I) ⊆ I eine beliebige Stichprobe aus I. Dann heißt s(I) nach einer Poisson-Auswahl erzeugt (kurz: Poisson-Stichprobe), falls gilt i ∈ I, Xi = 1 ⇔ i ∈ s(I). Beispiel: N=10 , d. h. I = {1, 2, . . . , 10} X = [0, 0, 0, 1, 1, 0, 0, 1, 0, 0] ⇒ s(I) = {4, 5, 8}. Bemerkung 1.13 (i) Der Auswahlumfang einer Poisson-Auswahl ist eine Zufallsvariable k. (ii) Eine eZoZ mit Bin(N, n/N )-verteilten Stichprobenumfang k führt zur PoissonAuswahl. ( ÜA) 11 Lemma 1.14 (fundamentales Grenzwertlemma der Stichprobentheorie) Voraussetzungen: (i) n < N fest (ii) k ∼ Bin(N, n/N ) und k0 sei eine Realisierung von k. (iii) sn(I) eZoZ vom Umfang n und sk0 (I) Poisson-Stichprobe vom Umfang k0 derart, dass (iv) η := X sn(I) = sk0 (I) falls n = k0 sn(I) ⊂ sk0 (I) falls n < k0 sn(I) ⊃ sk0 (I) falls n > k0 ∗ X (yi − Ȳ .), η := (yi − Ȳ .) i∈sk (I) 0 i∈sn (I) Behauptung: ∗ 2 E(η − η ) ≤ Var(η ∗) s 1 1 + n N −n Beweis: η − η ∗ 0 P (yi − Ȳ. ) = i∈sn (I)6=sk0 (I) i∈s P falls k0 = n falls k0 < n (yi − Ȳ. ) falls k0 > n k0 (I)6=sn (I) 12 d.h. für eine Realisation k0 von k liegt eine Stichprobe von Umfang |k0 − n| vor h i ∗ 2 ∗ 2 ∗ ⇒ E[(η − η ) ] = E E(η − η ) | k = E Var(η − η ) | k |k − n| X |k − n| N − |k − n| X 2 2 · · (Yi − Ȳ. ) ≤ E · (Yi − Ȳ. ) = E N N −1 N i∈I q i∈I E(k − n)2 = µ2 · √ Var k = µ2 · E|k − n| ≤ µ2 · s s n n n = µ2 · N · · 1− = µ2 · n · 1 − N N N h i 1 k N −k X 2 ∗ 2 (Yi − Ȳ. ) = Var η = E Var(η | k) = E · · · µ2 · E N k − k N N −1 N −1 ∗ i∈I h i 1 n 1 2 2 = · µ2 · N · E k − Var k − (E k) = · µ2 · N · n − n · 1 − −n N −1 N −1 N h i n n n 2 = · µ2 · N − 1 + −n = · µ2 · N − N + n − nN N −1 N N · (N − 1) n n · µ2 · [N · (N − 1) − n · (N − 1)] = n · 1 − · µ2 = N · (N − 1) N ∗ 2 ⇒ (insgesamt): E (η − η ) ≤ Var η ∗ s 1 n) = n · (1 − N s 1 1 + n N −n 13 Bemerkung 1.15 (i) Lemma 1.14 besagt, dass die einfache Zufallsauswahl und die Poisson-Auswahl zu asymptotisch gleichen Verteilungen führen. (ii) Da die Poisson-Auswahl auf u.i.v. Zufallsvariablen beruht, ist der ”normale” Zentrale Grenzwertsatz hierauf anwendbar, d. h. ”Rest”-Beweis von Satz 1.10 durch Anwendung des Zentralen Grenzwertsatzes von Lindeberg(-Feller) auf Poisson-Stichprobe (siehe Hájek, 1960) (iii) Lemma 1.14 angewandt auf mit ν indizierte Urnen 2 E (ην − ην∗ ) =0 lim ν→∞ Var(ην∗ ) (iv) Anwendungsregeln für die Gültigkeit n > 50 µ23 n > 25 3 µ2 3/2 Beachte: Schiefekoeffizient µ3/µ2 ; unbekannte Struktur von Y1, . . . , YN beeinflusst die Verteilung von y1, . . . , yn. 14 Satz 1.10 ist von großer praktischer Relevanz: Korollar 1.16 ȳ. − u1−α/2 q q c (ȳ.) ; ȳ. + u1−α/2 Var c (ȳ.) Var c (ȳ.) = ist approximativ ein (1 − α) -Konfidenzintervall für Ȳ . Hierbei ist Var 2 1 n 1 − n N sy . Korollar 1.17 Es gilt für den notwendigen Stichprobenumfang n∗, so dass das (1 − α)-Konfidenzintervall für Ȳ . höchstens eine Länge von 2 d hat, n0 ∗ , n > 1 + n0/N wobei n0 = u1−α/2 sy d 2 . 15 Gebundene Hochrechnung Bislang ist man immer davon ausgegangen, dass bei der Erhebung an Ui ein Merkmal Yi, i = 1, . . . , N , beobachtet werden kann, und dies die einzige Information über die Grundgesamtheit darstellt. Die Schätzung von Ȳ . heißt dann freie Hochrechnung. Häufig liegen aber weitere Informationen vor, z. B. • • • • aus früheren Auswahlen oder Vollerhebungen durch Pilotstudien Informationen der amtlichen Statistik ... Diese Informationen sollen ausgenutzt werden und eine daran gebundene Hochrechnung erfolgen. Voraussetzung 1.18 Neben dem Merkmal Yi besitzt jede Untersuchungseinheit Ui noch ein Merkmal Xi, i = 1, . . . , N . 16 Differenzenschätzung Satz 1.19 Bei einer eZoZ sei neben dem Merkmal Y ein Merkmal X erhoben und zusätzlich sei der Merkmalsdurchschnitt X̄. bekannt. Dann gilt (i) Ȳˆ. = (ȳ. − x̄.) + X̄. ist ein erwartungstreuer Schätzer für Ȳ .. h i n 1 2 2 ˆ 1− SY + SX − 2 ρ SX SY (ii) Var(Ȳ .) = n N n X n 1 1 2 ˆ c (Ȳ .) = (yi − xi − ȳ. + x̄.) (iii) Var 1− n N n − 1 i=1 ist ein erwartungstreuer Schätzer für Var(Ȳˆ.). Beweis: (i) klar! (ii) Sei di = (yi − xi ), i = 1, . . . , n, und Di = (Yi − Xi ), i = 1, . . . , N . Dann gilt Var(Ȳˆ.) = = = ¯ = 1 Var(ȳ. − x̄.) = Var(d.) n 1 n 1 n n 1− N N 2 1 X Di − D̄. N −1 i=1 N n 1− N n 1− N 2 2 SY + SX − 2ρSX SY 1 X 2 2 (Yi − Ȳ .) + (Xi − X̄.) − 2(Yi − Y.)(Xi − X.) N −1 i=1 (iii) klar! 17 Bemerkung 1.20 (i) Differenzenschätzer werden immer dann genutzt, wenn ein Zusammenhang der Form Y = X + a, a ∈ IR, zu vermuten ist (z. B. bei Wahlen, Ernteerträgen, . . . ) (ii) Der Differenzenschätzer ist besser als der Mittelwertschätzer ȳ. aus freier Hochrechnung, falls 2 SX − 2 ρ SX 1 SX <ρ SY < 0 ⇔ 2 SY Verhältnisschätzung Satz 1.21 Bei einer eZoZ mit erhobenen Merkmalen Y und X und bekanntem Merkmalsmittel X̄. sei ȳ. der Verhältnisschätzer für Ȳ ., (i) Ȳˆ. = X̄. x̄. ȳ. Ȳ . (ii) R̂ = der Verhältnisschätzer für R = . x̄. X̄. Dann gilt für die Verzerrung von R̂: B(R̂) = − 1 Cov(R̂, x̄.) E(x̄.) 18 Beweis: Cov R̂, x̄. = = ȳ. ȳ. x̄. − E E E(x̄.) = E(ȳ.) − E(R̂) E(x̄.) = Ȳ . − E(R̂) X̄. x̄. x̄. X̄. R − E(R̂) = E(x̄.) −Bias(R̂) =⇒ Beh. Korollar 1.22 Unter den Voraussetzungen von Satz 1.21 gilt |B(R̂)| ≤ CV(x̄.) q Var(R̂) mit CV(x̄.) dem Variationskoeffizienten von x̄. Beweis: ÜA Dieses Korollar ist schön, aber wenig nützlich, da Var(R̂) wegen der Verzerrung von R̂ keine Aussagen ermöglicht. Deshalb wird B(R̂) anders angenähert. 19 Satz 1.23 Unter den Voraussetzungen von Satz 1.21 ist B̃(R̂) = R CV(x̄.) [CV(x̄.) − ρ(ȳ., x̄.)CV(ȳ.)] Beweis: Vorlesung ˆ. Betrachte den mittleren quadratischen Fehler von R̂ und Ȳ Satz 1.24 Unter den Voraussetzungen von Satz 1.21 ist i n 1 h 2 1 2 2 ] (R̂) = SY + R SX − 2 ρ R SX SY 1− (i) MSE n N X̄.2 eine Näherungswert für MSE(R̂) = E(R̂ − R)2. h i 1 n 2 2 2 ˆ ] (Ȳ .) = (ii) MSE 1− SY + R SX − 2 ρ R SX SY n N ˆ.) = E(Ȳˆ. − Ȳ .)2. eine Näherungswert für MSE(Ȳ Beweis: analog zu Satz 1.23 mit MSE(R̂) = E(R̂ − R)2 = f (θ). 20 Bemerkung 1.25 (i) Die gebundene Hochrechnung liefert einen kleineren quadratischen Fehler als die freie ] (Ȳˆ.,geb) < MSE(ȳ.,frei), falls Hochrechnung, d. h. MSE CV(X) < 2 ρ, CV(Y ) denn ] (Ȳˆ.,geb ) < MSE(ȳ.,frei ) MSE 2 2 ⇔ R SX − 2 ρ R SX SY < 0 ⇔ CV(X) <2ρ CV(Y ) ⇔ R S X < 2 ρ SY ⇔ SX SY <2ρ X̄. Ȳ . (ii) Sind X und Y proportional, d. h. Yi = a Xi, i = 1, . . . , N , so gilt ] (R̂) = 0, MSE 2 2 denn Yi = a Xi =⇒ SY = a2 SX , R = a, ρ = 1. 21 (iii) Hängen X und Y linear voneinander ab, d. h. Yi = a + b Xi, i = 1, . . . , N , so ] (Ȳˆ.,geb), ist die freie Hochrechnung besser als die gebundene, d. h. MSE(ȳ.,frei) < MSE falls b2 1 n X̄.2 MSE(1/x̄.) > 2 1− 2 SX a n N denn mit Yi = a + bXi folgt ȳ. X̄. x̄. 1 MSE(ȳ.,frei ) = n ˆ MSE(Ȳ .,geb ) = MSE und 2 = X̄. MSE n 1− N a + bx̄. x̄. 1 2 SY = n 2 2 2 2 = X̄. a MSE n 1− N 1 x̄. b SX ⇒ Verhältnisschätzung ist gut bei proportionaler Abhängigkeit, schlecht bei linearer Abhängigkeit mit großem Achsenabschnitt. 22 Verbesserung des Verhältnisschätzers durch Modifizierung des Auswahlverfahrens Definition 1.26 Sind die Werte Xi, i = 1, . . . , N , bekannt und wählt man die erste Einheit der Stichprobe mit Wahrscheinlichkeit proportional zur Größe X einer Einheit sowie die restlichen (n − 1) Einheiten als eZoZ, so heißt dieses Verfahren ppas-Auswahl (probability proportional to aggregated size). Satz 1.27 Bei ppas-Auswahl gilt: ȳ. ˆ.) = E X̄. = Ȳ . (i) E(Ȳ x̄. Pn 2 X( yi) 1 1 2 ˆ − Y. (ii) Var(Ȳ .) = 2 N −1 X. Pi=1 n N i=1 xi n−1 (∗) " # Pn 2 N −1 Pn−1 Pn y + 2 n−1 i=1 j=i+1 yi yj c (Ȳˆ.) = 1 (N Ȳˆ.)2 − X. i=1 i (iii) Var P n N2 i=1 xi ˆ.) ist ein erwartungstreuer Schätzer für Var(Ȳ P ( bedeutet Summe über alle möglichen Stichproben) (∗) Beweis: Vorlesung 23 Regressionsschätzung Verhältnisschätzung ist dann schlecht, wenn eine Beziehung Y = A + B X besteht; dies führt zur Idee der Regressionsschätzung Satz 1.28 Für eine eZoZ und b0 ∈ IR fest gilt ˆ. = ȳ. + b (X̄. − x̄.) ist ein erwartungstreuer Schätzer für Ȳ . (i) Ȳ 0 n 1 2 2 2 ˆ.) = 1− (SY − 2 b0 SXY + b0SX ) (ii) Var(Ȳ n N n 1 2 2 2 c (Ȳˆ.) = 1− (sy − 2 b0 sxy + b0sx) ist ein erwartungstreuer Schätzer (iii) Var n N ˆ.) für Var(Ȳ Beweis: ÜA Bemerkung 1.29 ˆ.) → min! ⇔ b = SXY . Für die Varianz gilt in diesem Fall (i) Var(Ȳ 0 2 SX ˆ.) = 1 Var(Ȳ n 1− n N 2 SY − 2 SXY 2 SX ! 24 (ii) Kennt man b0 nicht, so kann man den gewöhnlichen KQ-Schätzer an dessen Stelle setzen; der Satz 1.28 gilt dann allerdings nur noch approximativ. Insbesondere gilt dann für die Varianz n 1 2 2 ˆ.) = 1− SY (1 − ρ ) Var(Ȳ n N Auswahl mit ungleichen Auswahlwahrscheinlichkeiten Bis auf die Modifizierung der ppas-Auswahl wurde bislang immer von gleichen Auswahlwahrscheinlichkeiten ausgegangen. Das ist nicht immer sinnvoll, z. B. • Auswahl von Gemeinden • Auswahl von landwirtschaftlichen Nutzflächen d. h. wenn die (absolute) Realisierung von einer externen Größe der Untersuchungseinheit abhängt. ⇒ Der Satz von Horvitz / Thompson 25 Voraussetzungen 1.30 Betrachtet wird ein beliebiges Auswahlverfahren, bei welchem jede Untersuchungseinheit Ui, i = 1, . . . , N , höchstens ein Mal in die Auswahl gelangen kann. Sei 1 , falls Ui in der Stichprobe, ti := 0 , sonst, und ci ∈ IR, i = 1, . . . , N , feste Koeffizienten. Allgemeiner linearer Schätzer N X ` := ci ti Yi i=1 Mit diesem allgemeinen Ansatz können nun beliebige Parametrisierungen und beliebige Auswahlverfahren betrachtet werden. Lemma 1.31 Sei Πi die Wahrscheinlichkeit, dass Ui, und Πij die Wahrscheinlichkeit, dass Ui und Uj in die Stichprobe gelangen. Dann gilt unter den Voraussetzungen 1.30 E(ti) = Πi, i = 1, . . . , N Var(ti) = Πi(1 − Πi), i = 1, . . . , N E(ti tj ) = Πij , i 6= j, i, j = 1, . . . , N Cov(ti, tj ) = Πij − Πi Πj , i 6= j, i, j = 1, . . . , N N X (v) E(`) = ci Πi Yi (i) (ii) (iii) (iv) i=1 26 Soll ` erwartungstreu für Ȳ . sein, so muss N ci = 1 , i = 1, . . . , N, Πi definiert werden. Für diesen Schätzer gilt der wichtigste Satz der Stichprobentheorie: Satz 1.32 (Horvitz-Thompson-Varianzformel) Sei Π0i, i = 1, . . . , n, die Auswahlwahrscheinlichkeit Untersuchungseinheit in der Stichprobe und der i-ten gezogenen n 1 X 1 ˆ Ȳ .HT := yi N i=1 Π0i der Horvitz-Thompson-Schätzer für Ȳ . Dann gilt N N N 1 X (1 − Πi) 2 X X Πij − Πi Πj ˆ Var(Ȳ .HT) = 2 Yi + Yi Yj N i=1 Πi Πi Πj i=1 j=1 i6=j falls Πi > 0 für alle i = 1, . . . , N. 27 Beweis: ˆ. ) Var(Ȳ HT = = 1 Var N2 N X i=1 = 1 ti Yi Πi N N 1 XX Cov N2 i=1 j=1 1 1 ti Yi , tj Y j Πi Πj ! N N 1 X X Yi Yj = 2 Cov ti , tj N Πi Πj i=1 j=1 N N N 2 X X X Y Y Yi 1 i j Πi (1 − Πi ) + Πij − Πi Πj 2 N2 Π Π Π i j i=1 j=1 i=1 i i6=j Horvitz, D.G., Thompson, D.J. (1952): A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association 47, 663-685. Mit diesem Satz kann im Prinzip jedes beliebige Auswahlverfahren (mit oder ohne Zurücklegen) behandelt werden. Bei Auswahlverfahren mit Zurücklegen ist n in Satz 1.32 die Anzahl der unterschiedlichen Untersuchungseinheiten in der Stichprobe. Die Schätzung der Varianz erfolgt durch: 28 Satz 1.33 0 0 0 n n X n 0 X X Π − Π Π 1 − Π 1 ij i j 2 i ˆ \ y + Var y y HT (Ȳ .HT ) = i j i 0 Π0 Π0 N 2 i=1 (Π0i)2 Π ij i j i=1 j=1 i6=j ˆ. ), ist unter den Voraussetzungen 1.30 und 1.32 ein erwartungstreuer Schätzer für Var(Ȳ HT falls Πij > 0 für alle i 6= j , i, j = 1, . . . , N . Beweis: Seien f und g beliebige reelle Funktionen, dij ∈ IR beliebige Konstanten, `1 = und `2 = n X n X ti ci f (Yi ) i=1 ti tj dij g(Yi ) g(Yj ). Dann gilt i=1 j=1 i6=j E(`1 ) = N X ci f (Yi ) Πi und E(`2 ) = i=1 2 Setze f (Y ) = Y , ci = N X 1 − Πi 2 E(`1 ) = Yi Πi i=1 N X , dij g(Yi ) g(Yj ) Πij i=1 j=1 i6=j 1 − Πi Π2i N X N X , g(Y ) = Y , dij = E(`2 ) = Πij − Πi Πj Πij Πi Πj N X N X Πij − Πi Πj i=1 j=1 i6=j Πij Πi Πj , dann gilt Yi Yj 1 und E (`1 + `2 ) = Var(Ȳˆ.HT ). 2 N 29 Bemerkung: Ausgesprochen wichtig ist, dass für das Auswahlverfahren Πi > 0 ∀i und Πij > 0 ∀i, j, i 6= j gelten muss!!! ABER: Der erwartungstreue Varianzschätzer kann negative Schätzwerte liefern. Falls der tatsächliche Stichprobenumfang n fest ist, lässt sich die Varianz des HorvitzThompson Schätzers und des unverzerrten Varianzschätzers nach Yates und Grundy (1953, JRRS B 15, 253-261) wie folgt darstellen: Satz 1.34 ˆ. gilt: Für den Horvitz-Thompson-Schätzer Ȳ HT 2 N X N X Y Y 1 i j ˆ. ) = (Π Π − Π ) − (i) Var(Ȳ i j ij HT N 2 i=1 j=1 Πi Πj i<j 30 0 0 0 n X n X − Π Π Π 1 ij j i ˆ \ (ii) Var YG (Ȳ .HT ) = n2 i=1 j=1 Π0ij yi yj − Π0i Π0j !2 i<j Aus diesem allgemeinen Ansatz von Horvitz und Thompson kann ein weiteres wichtiges Resultat hergeleitet werden: Satz 1.35 Seien z1, . . . , zn unkorrelierte Zufallsvariablen mit E(zi) = µ, i = 1, . . . , n. Dann gilt n X 1 2 c (zi − z̄.) Var(z̄.) = n (n − 1) i=1 ist ein erwartungstreuer Schätzer für Var(z̄.) 31 Beweis: n 1X E(zi ) = µ, E(z̄.) = n 2 2 E(zi zj ) = Cov(zi , zj )+µ = µ (unkorreliert), 2 2 Var(z̄.) = E(z̄. )−µ i=1 n X 2 (zi − z̄.) n X = i=1 !2 − zi n X 2 2 zi zj + zi − n z̄. = i=1 j=1 i=1 = n X n X 2 2 (n z̄.) − n z̄. − i=1 n X n X ⇒E 1 n (n − 1) ! (zi − z̄.) i=1 2 !2 zi i=1 2 zi zj = n(n − 1)z̄. − i=1 j=1 i6=j n X n X n X n X − n X n X 2 zi zj − n z̄. i=1 j=1 i6=j zi zj i=1 j=1 i6=j n n XX 1 2 2 = E(z̄. )− E(zi zj ) = Var(z̄.)+µ −µ = Var(z̄.) n(n − 1) 2 i=1 j=1 i6=j Bemerkung: Die Voraussetzung in Satz 1.35 beinhaltet keine identischen Verteilungen, d. h. insbesondere keine identischen Varianzen. Konfidenzintervall: Ȳˆ.HT ± q ˆ \ Var HT (Ȳ .HT ) u1−α/2 Eine wichtige Anwendung: pps-Verfahren 32 pps-Verfahren Beispiel: Auswahl aus einer Grundgesamtheit mit Geschlechterverhältnis männlich : weiblich = 2 : 1 in der Form, dass 100 Männer und 100 Frauen in die Stichprobe gelangen ⇒ Männer haben geringere ”Chance” in die Stichprobe zu gelangen. ⇒ Männer sind ”unterrepräsentiert”. Definition 1.36 Sei Pi > 0 die Wahrscheinlichkeit beim einmaligen Ziehen Ui aus der Grundgesamtheit PN zu entnehmen, Pj = 1. Sei Xi ein bekanntes zusätzliches Merkmal von Ui Pj=1 N und Pi = Xi/ j=1 Xj für alle i = 1, . . . , N . Dann heißt eine solche Auswahl pps-Auswahl (probability proportional to size) mit Zurücklegen. Bemerkung: Das obige Auswahlverfahren beschreibt (zunächst) eine Stichprobe vom Umfang eins. Realisierungsmöglichkeiten von pps-Auswahlen Ziehungstechnik 1: Verfahren zum Ziehen einer Einheit / Zufallszahlen " k−1 ! k X X Ik := Pi , Pi , |Ik | = Pk , k = 0, 1, . . . , N, P0 := 0 i=0 i=0 z Zufallszahl aus [0, 1], z ∈ Ik ⇒ wähle Uk 33 Voraussetzung ist, dass alle Pi bekannt sind und die Untersuchungseinheiten angeordnet werden können! Ziehungstechnik 2: Verfahren zum Ziehen einer Einheit / Zufallszahlen Xmax := max Xi, i=1,...,N X0 ≥ Xmax Algorithmus: 1. Schritt: z1 diskrete Zufallszahl aus {1, . . . , N }, wähle Uz1 vorläufig 2. Schritt: z2 stetige Zufallszahl aus [0, X0] falls Xz1 ≥ z2 ⇒ wähle Uz1 endgültig ⇒ STOP falls Xz1 < z2, gehe zu Schritt 1 Lahiri-Verfahren führt zu pps-Auswahl, denn p̃ := Wahrscheinlichkeit, dass bei einem Durchgang eine Einheit gezogen wird; p̃ = N X i=1 q̃ := 1 − p̃, d.h. Z X N X i 1 X̄. 1 Xi = , da du = P (z2 ≤ Xi ), P (Ui in Stichprobe) = N X0 X0 X0 0 z2 ∼ U [0, X0 ) i=1 34 p̃i = Wahrscheinlichkeit, dass bei einem Durchgang Ui gezogen wird = Pi = Wahrscheinlichkeit, dass Ui gezogen wird = ∞ X Xi N X0 P (Ui im j -ten Durchgang und nicht(s) vorher) j=i = ∞ Xi Xi Xi X k Xi 1 2 Xi 3 Xi + q̃ + q̃ + q̃ + ··· = q̃ = N X0 N X0 N X0 N X0 N X0 N X0 1 − q̃ k=0 = 1 Xi 1 1 Xi X0 Xi = = PN N X0 p̃ N X0 X̄. Xj j=1 Vorteil: es sind nur die Xz1 als bekannt vorauszusetzen (Kosten- und Zeitersparnis) Ziehungstechnik 3: Verfahren zum Ziehen einer Stichprobe vom Umfang n mit Zurücklegen wiederhole Ziehungstechnik 1 bzw. 2 n-mal 35 Satz 1.37 Bei n-maliger Wiederholung einer pps-Auswahl mit Zurücklegen gilt: n 1 X yi ˆ ist erwartungstreu für Ȳ . (i) Ȳ . = N n i=1 pi ˆ.) = (ii) Var(Ȳ N X 1 N2 n Pi i=1 1 c (Ȳˆ.) = 1 (iii) Var N 2 n(n − 1) (Hansen-Hurwitz Schätzer) 2 Yi 1 = 2 − Y. Pi N n n X i=1 1 yi − pi n n X j=1 N X Y2 i i=1 Pi ! 2 − Y. 2 yj ist erwartungstreu für Var(Ȳˆ.) pj Beweis: Vorlesung Folgerung 1.38 Unter den Voraussetzungen von Satz 1.37 und Pi = Xi/X., i = 1, . . . , N , gilt ˆ.) = Var(Ȳ 1 N N X X N 2 n i=1 j=1 i<j " Xi Xj Yi Yj − Xi Xj 2 # N X. X = 2 Xi N n i=1 Yi −R Xi 2 36 Beweis: N X N X Yj Yi − Xi Xj Xi Xj i=1 j=1 i<j = N X N X Yi2 Xj Xi i=1 j=1 i<j = N X Y2 i i=1 = X. Xi N X i=1 2 !2 + X. − Y. = Yj2 Xi Xj N X i=1 Xi ! − 2 Yi Yj = N X N X Yi2 Xj i=1 j=1 Xi − N X i=1 2 Yi − N X N X i=1 j=1 Yi Yj + N X i=1 2 N X Yi Xi Yi Y. 2 − Y. = − Xi X. Xi /X. X. Xi X. i=1 2 Yi −R Xi Bemerkung: ˆ.) ist im pps-Verfahren klein, falls Y und X nahezu proportional (i) Var(Ȳ (ii) Verhalten bei linearer Abhängigkeit, siehe ÜA 37 2 Yi Allgemein gilt: Lemma 1.39 ˆ Var Ȳ .pps < Var (ȳ.eZmZ ) dann und nur dann, wenn N X i=1 Yi2 >0 Xi − X̄. Xi (! Dies bedeutet hohe Korrelation!) Beweis: 2 N N X X 2 X. Y Y. 1 1 i ˆ. Var Ȳ < Var (ȳ. ) ⇔ X − < Y − Ȳ . pps i i eZmZ N 2n Xi X. nN i=1 ⇔ N X. X N2 i=1 ⇔ Yi2 Y.2 Xi Yi Y. + − 2 Xi X.2 X. ! N 1 X 2 2 < Yi − Ȳ . N i=1 N N N N X X Yi2 Y.2 1 X 2 X. X Yi2 Y.2 2 2 + Y − Ȳ . ⇔ X̄. − Y <0 − 2 < i i N2 Xi N2 N2 N Xi i=1 ⇔ i=1 N X i=1 2 Yi i=1 X̄. −1 Xi <0⇔ N X Y2 i i=1 Xi i=1 X̄. − Xi < 0 ⇔ i=1 N X Y2 i i=1 Xi Xi − X̄. > 0 38 Ziehungstechnik 4: Zurücklegen / direkt Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne Xi führt zur Einheit U1 X. Xi 2. Schritt: pps-Auswahl mit P̃i = führt zur Einheit U2 X. − X1 Xi ˜ 3. Schritt: pps-Auswahl mit P̃i = führt zur Einheit U3 X. − X1 − X2 ... Xi ∗ führt zur Einheit Un n. Schritt: pps-Auswahl mit Pi = Pn−1 X. − i=1 Xi 1. Schritt: pps-Auswahl mit Pi = Ziehungstechnik 5: Verfahren zum Ziehen einer Stichprobe vom Umfang n ohne Zurücklegen / systematische pps-Auswahl Ik = " k−1 X i=0 Xi, k X # Xi, , |Ik | = Xk , k = 0, . . . , N, X0 := 0 i=0 X. X. , z` := z1 + (` − 1) , ` = 2, . . . , n z1 Zufallszahl aus 0, n n z` ∈ Ik ⇒ wähle Uk , ` = 1, . . . , n 39 Bemerkungen: X. , so ist die Stichprobe vom Umfang n definiert. n X. • Ist Xi > , so gelangt Ui mit Wahrscheinlichkeit eins in die Stichprobe und das n X. Verfahren ist keine pps-Auswahl. Falls Xi > n 1. Möglichkeit: Mehrfachauswertung (praxisgerecht) 2. Möglichkeit: ”Restgesamtheitsverfahren”, Beispiel: • Ist Xi < i 1 2 3 4 5 6 7 8 9 10 Xi 300 90 10 10 50 210 10 10 300 10 n = 4, X. = 1000, ⇒ d = 250 ⇒ U1 und U9 in die Stichprobe. Restgesamtheit i 2 3 4 5 6 7 8 10 0 Xi 90 10 10 50 210 10 10 10 n0 = 2, X.0 = 400, ⇒ d0 = 200 ⇒ U6 in die Stichprobe ⇒ von 4 Stichprobenelementen wird nur eines, nämlich das letzte, zufällig ausgewählt. • Ziehungstechnik setzt geordnete Grundgesamtheit voraus • 50 Modifikationen in Brewer, K.R.W., Hanif, M. (1983), Sampling with unequal probabilities, Springer, New York. 40 Neben solchen ”Feinheiten” treten zwei Hauptprobleme bei pps-Auswahlen auf: Lemma 1.40 Für n = 2 und Ziehung gemäß Ziehungstechnik 4 gilt N X Pj (i) Πi = Pi 1 + 1 − P j j=1 j6=i (ii) Πij = Pi Pj 1 1 + 1 − Pi 1 − Pj Beweis: ÜA Für n > 2 müssen Approximationen angegeben werden. Satz 1.41 X. Sei {Y1, . . . , YN } zufällig geordnet, Xi < für alle i = 1, . . . , N , und eine ppsn Stichprobe ohne Zurücklegen nach Ziehungstechnik 5 (Kumulationsverfahren) erhoben. Dann gilt: 41 2 N X Y 1 i ˆ. (i) Var(Ȳ − Ȳ . Pi Ci kum ) ' n i=1 N Pi mit Ci = 1 − (n − 1)Pi, i = 1, . . . , N c (Ȳˆ.kum) ' (ii) Var n X n X 1 n − 1 i=1 j=1 i<j yi yj − N Π0i N Π0j !2 1− 0 Πi 0 Πj 1 + n n X ! 0 2 (Πi) i=1 Beweis: Hartley, H.O., Rao, J.N.K. (1962). Sampling with unequal probabilities and without replacement. AMS 33, 350-374. Bemerkung: (i) Satz 1.41 ist Folge von Satz 1.32. n (ii) Ist Πi = ⇒ Formeln wie bei eZoZ N (iii) Ist Ci ≡ 1 ⇒ Formeln Satz 1.37 42 Ein weiteres Problem der pps-Auswahl ergibt sich im homograden Fall, d. h. bei der Schätzung von Anteilen Übliche Transformation 1 0 , , falls Ui Eigenschaft besitzt sonst 0 1 , , falls Ui Eigenschaft besitzt sonst Yi = oder Ỹi = ˆ ¯ Ȳˆ.pps + Ỹ. pps = 1 Dann gilt nicht notwendigerweise Beispiel: N = 10, n = 3 i Yi Pi 1 1 1/2 2 0 1/10 3 1 1/20 4 0 1/20 5 0 1/20 6 0 1/20 7 0 1/20 8 0 1/20 9 0 1/20 10 0 1/20 pps-Auswahl: Y1, Y2, Y3 Ȳˆ.pps ˆ ¯ Ỹ. pps = 1 10 · 3 = 1 10 · 3 1 0 1 + + 1/2 1/10 1/20 0 1 0 + + 1/2 1/10 1/20 = 22 11 = 30 15 = 10 5 = 30 15 43 Systematische Auswahl mit zufälligem Start Forderung: einfach zu realisierende Auswahl Durchführung: • • • • geordnete Grundgesamtheit Bestimmung einer Schrittlänge d zufällige Auswahl der ersten Stichprobeneinheit systematische Auswahl: jede d-te Einheit Vorteile: • • • • Kenntnis von N ist nicht unbedingt erforderlich Auswahl ohne Auswahlgrundlage möglich Minimierung der Fehler in der Feldarbeit Kosten- und Zeiterspanis Probleme: • Störung der Repräsentativität bei Systematik der GG • nur ein Element wird zufällig erhoben (Varianzschätzung?) 44 Definition 1.42 N und z eine Zufallszahl aus {1, . . . , d}. n Ermittelt man eine Stichprobe vom Umfang n durch (i) Sei {U1, . . . , Un} eine geordnete GG, d := Uz , Uz+d, Uz+2d, . . . , Uz+(n−1)d, so heißt das Verfahren systematische Auswahl mit zufälligem Start z und Schrittlänge d. (ii) Die Merkmalswerte der GG werden dann auch mit yij , i = 1, . . . , d, j = 1, . . . , n. Schema: Nr. der Stichprobe 1 2 ··· j ··· n 1 ... i yi1 yi2 · · · yij · · · yin ... d Interpretationsmöglichkeiten: • Schichten {(1, . . . , d), (d + 1, . . . , 2d), . . .} ⇒ geschichtete Auswahl mit Umfang jeweils 1 • Klumpen {alle möglichen d Stichproben} ⇒ einfache Zufallsauswahl von einem Klumpen des Umfangs n Frage: N = d n? 45 Auswahlmodelle Voraussetzung: N bekannt 1. Fall: Schrittlänge d ist vorgegeben ⇒ n ist abhängig von z N = (n − 1)d + r N N − d d d mit r = d , , N N falls 6 = d d N N falls = d d z≤r ⇒ Umfang = n r < z ≤ d ⇒ Umfang = n − 1 r=d ⇒ Umfang = n (unabhängig von z ) Lineares Auswahlmodell A: z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . auswählen Lineares Auswahlmodell B: z 0 aus {1, . . . , N } ⇒ r 0 := mod (z 0/d) ∈ {0, . . . , d − 1} r0 = d − 1 ⇒ z = 1 0 r =d−2 ⇒ z =2 ⇒ .. ⇒ weiter wie A . 0 r =0 ⇒ z=d (Stichproben habe unterschiedliche Auswahlwahrscheinlichkeiten) 46 Zirkuläres Auswahlmodell nach Lahiri Skizze in Vorlesung z aus {1, . . . , d} ⇒ Uz , Uz+d, Uz+2d, . . . , Uz̃ mit z̃ ≤ z auswählen (Stichprobenumfang immer gleich n) 2. Fall: Stichprobenumfang n ist vorgegeben Auswahlmodelle analog zu oben und Auswahlmodell mit periodisch wechselnden Auswahlabständen ⇒ (n − r 0)-mal Schrittlänge r 0-mal Schrittlänge N 0 0 = d Rest r n d = d0 d = d0 + 1 Schätzverfahren Auch bei systematischer Auswahl ist ȳ. ein sinnvoller Schätzer, dessen Eigenschaften aber vom Auswahlmodell bestimmt werden. 47 Satz 1.43 (a) Sei N = nd, dann gilt: ȳ. ist erwartungstreu für Ȳ . unabhängig vom verwendeten Auswahlmodell. (b) Sei N 6= nd, dann gilt: ȳ. ist erwartungstreu für Ȳ ., (i) falls nach Auswahlmodell B oder nach Lahiri ausgewählt wurde N − 1 , falls nach Auswahlmodell A ausgewählt wurde. (ii) E(ȳ.) = Ȳ . + Ȳ. n0 d Dabei ist N = (n − 1)d + r und n0 der tatsächlich realisierte Stichprobenumfang. Beweis: ÜA Bemerkung: B(ȳ.) = Ȳ. N −1 0 nd in (ii) ist (häufig) nicht praxisrelevant. Wegen Satz 1.43 kann in guter Approximation von der Voraussetzung E(ȳ.) = Ȳ . N = nd ausgegangen werden. 48 Satz 1.44 Bei einer systematischen Stichprobe mit N = nd gilt Var(ȳ.) = N1 2 N −1 2 SY − S , N N W wobei d 2 SW n 1 XX 2 = (yij − ȳi.) (Variabilität innerhalb der ”Stichproben”) N − 1 i=1 j=1 Beweis: Var(ȳ.) = E ȳi. − Ȳ . 2 d 1X 2 = (ȳi. − ȳ..) d (ȳ.. = Ȳ .) i=1 Betrachte die Streuungszerlegung: d X n X d X n d X X 2 2 2 yij − ȳ.. = yij − ȳi. + n (ȳi. − ȳ..) i=1 j=1 i=1 j=1 i=1 d n d 2 2 1 XX 1 XX N −1 2 N −1 2 n yij − ȳi. = SY − SW ⇒ Var(ȳ.) = yij − ȳ.. − dn dn N N i=1 j=1 i=1 j=1 Varianz hängt von den Stichproben untereinander ab ⇒ (Interpretation wie beim Klumpenverfahren): Intraklasskorrelation 49 Folgerung 1.45 Sei N Pd i=1 Pn Pn ρw = j 0 =1 (yij j=1 j6=j 0 − Ȳ .)(yij 0 − Ȳ .) dn(n − 1)(N − 1)SY2 die Intraklasskorrelation der systematischen Auswahl, dann gilt Var(ȳ.) = N −1 2 S (1 + (n − 1)ρw ) Nn Y Beweis: Var(ȳ.) = = 1 d d X ȳi. − Ȳ . 2 i=1 = 1 d d X i=1 1 n n X 2 yij − Ȳ . = j=1 1 d d X i=1 1 n2 n X 2 (yij − Ȳ .) j=1 d n n 1 XX X (yij − Ȳ .)(yij 0 − Ȳ .) d n2 0 i=1 j=1 j =1 = X d X n d X n X n X 1 2 (yij − Ȳ .) + (yij − Ȳ .)(yij 0 − Ȳ .) d n2 0 i=1 j=1 = i=1 j=1 j =1 j6=j 0 i 1 1 h 2 2 2 (N − 1) S + (n − 1) (N − 1) S ρ = (N − 1) S (1 + (n − 1)ρw ) w Y Y Y d n2 N n 50 Folgerung 1.46 1 Var(ȳ.sys) < Var(ȳ.eZoZ ) ⇔ ρw < − N −1 Satz 1.47 n N − n 02 02 1 X 2 (yij − ȳi.) Sei N = nd, v = sy , sy = Nn n − 1 j=1 h i N −1 2 N −n ⇒ E(v) = Sy (1 − ρw ) 6= Var(ȳ.sys) Nn N Bemerkung: c (ȳ.) bei eZoZ (i) v = ˆ Var 1 N −1 ≈ 0 (zufällige Ordnung der GG), (ii) v erwartungstreu ⇔ ρw = − (iii) praxisrelevant, falls ρw Auswahlsatz) N −n N ≈ 1 (kleiner ⇒ Berücksichtigung von Strukturen der GG: zufällige Anordnung, lineare Anordnung, periodische Anordnung 51 §2 Geschichtete Auswahlverfahren Definition 2.1 Zerlegt man eine GG von N Einheiten in L disjunkte Teilmengen vom Umfang Nh, mit PL N = h=1 Nh , und werden den Nh Einheiten der h-ten Teilmenge nh Einheiten unabhängig und zufällig entnommen, so heißt das Auswahlverfahren geschichtete Zufallsauswahl. Definition 2.2 Es bezeichne in der GG N L Nh Wh = Nh/N Yhi Nh X Ȳh. = Yhi/Nh Ȳ .. = 2 Sh = i=1 Nh L X X h=1 i=1 Nh X Umfang Anzahl der Schichten Umfang in Schicht h Gewicht der Schicht h Merkmal von Einheit i in Schicht h Yhi/N 2 Yhi − Ȳh. /(Nh − 1) Schichtvarianz i=1 In der Stichprobe entsprechend mit kleinen Buchstaben. 52 Satz 2.3 Zieht man aus jeder Schicht unabhängige eZoZ, so gilt ˆ.. = (i) Ȳ L X Wh ȳh. ist erwartungstreu für Ȳ .. h=1 L X 1 nh 2 1 c (Ȳˆ..) = (iii) Var Wh nh h=1 ˆ..) = (ii) Var(Ȳ 2 Wh h=1 L X nh 1− Nh nh 1− Nh 2 Sh 2 sh ist erwartungstreu für Var(Ȳˆ..) Beweis: ÜA Schichtungseffekt: Fünf wesentliche Aspekte • • • • • Stichprobenplan je Schicht Schichtungsvariable Schichtgrenzen Aufteilung des Stichprobenumfangs Anzahl der Schichten ˆ..) minimieren Ziel: Schichtungseffekt maximieren ⇔ Var(Ȳ 53 Voraussetzungen (I) eZoZ in jeder Schicht (II) Schichtungsvariable ist bekannt (III) Anzahl L der Schichten vorgegeben (A) Aufteilungsproblem Zusätzliche Voraussetzung: (IV) Schichtgrenzen vorgegeben • Einfache Aufteilungen – gleichmäßige Aufteilung: nh = n/L, h = 1, . . . , L – proportionale Aufteilung: nh = Wh n, h = 1, . . . , L ˆ.. = ȳ. (selbstgewichtende Stichprobe: Ȳ konstante Auswahlsätze: f = nh/Nh = n/N ) – Aufteilung nach der Auswahl: nh als Zufallsvariable, h = 1, . . . , L • Optimale Aufteilung 54 Einschub: Aufteilung nach der Auswahl Satz Wird eine einfache Zufallsstichprobe nachträglich geschichtet und ist dann n0h der (zufällige) Stichprobenumfang der h-ten Schicht, h = 1, . . . , L, dann gilt 1 ˆ (a) Ȳ .. = N L X 1 Nh 0 nh h=1 n0h X yhi ist ein erwartungstreuer Schätzer für Ȳ .. i=1 L L X X N − n 1 2 2 ˆ..) ≈ (b) Var(Ȳ Wh Sh + 2 (1 − Wh)Sh N n h=1 N h=1 0 nh L L 0 X X X N 1 1 1 n N − n h 2 2 2 h ˆ..2 + c (Ȳˆ..) = y − N Ȳ 1 − s (c) Var hj h h n (N − 1) N h=1 n0h j=1 N 2 h=1 n0h Nh 55 Satz 2.4 Sei ein geschichtetes Auswahlverfahren unter den Voraussetzung (I) – (IV) gegeben. Sei weiterhin L X C = C0 + c h nh h=1 die für die Untersuchung zur Verfügung stehenden Kosten. Dann gilt: √ ch W S / h h ∗ nh = n L P √ Wg Sg / cg g=1 mit L P n = (C − C0) √ Wh Sh/ ch h=1 L P Wh Sh √ ch h=1 ˆ..) unter der Nebenbedingung C = C + PL c n minimiert Var(Ȳ 0 h h=1 h Beweis: Vorlesung 56 Bemerkung (i) Sind die Konstanten in allen Schichten gleich, d.h. ch ≡ c, dann gilt L X nh = h=1 C − C0 =n c (ii) Neyman, J. (1934), Tschuprow, A.A. (1923) ⇒ optimale Aufteilung, NeymanTschuprow-Aufteilung Bemerkung 2.5 Nachteile/Probleme bei der optimalen Aufteilung • • • • Sh unbekannt ∗ nh > Nh möglich ∗ nh 6∈ IN Restriktion muss exakt erfüllt sein d. h. n∗h ist nur pseudo-optimale Lösung 57 (B) Schichtungsproblem Die Voraussetzung (IV) wird hier nicht angenommen, d. h. nur die Voraussetzungen (I) – (III). Hinzu kommen Annahmen 2.6 (i) der Wertebereich des Y -Merkmals sei [a, b] ⊆ IR (ii) die L Schichten werden durch L + 1 Stratifikationspunkte a = y0 < y1 < y2 < · · · < yL−1 < yL = b definiert ⇒ Schichtenbildungsproblem: Minimiere z(y1, . . . , yL−1) = Var(Ȳˆ..) unter den Restriktionen a = y0 < y1 < y2 < · · · < yL−1 < yL = b, yh ≥ 0 Lösungsstrategien: • Dalenius-Gleichungen • Heuristik • Methoden aus OR 58 Dalenius-Gleichungen Dalenius, T. (1950). The problem of optimum stratification. Skandinavisk Aktuarietidskrift 33, 203–213. Voraussetzungen: (I), (II), (III), Annahmen 2.6 und Definition 2.7 Sei auf der GG eine stückweise stetige Dichte f definiert. Dann definiere Z yh (a) ph = f (y) dy, h = 1, . . . , L yh−1 1 (b) µh = ph Z 1 ph Z 2 (c) σh = yh y f (y) dy, yh−1 yh 2 h = 1, . . . , L (y − µh) f (y) dy, h = 1, . . . , L yh−1 Definition 2.7 beinhaltet die stetigen Verallgemeinerungen von Wh, Ȳh. und Sh2 Lemma 2.8 ˆ..), In der stetigen Parametrisierung gemäß Definition 2.7 gilt für die Varianz von Var(Ȳ falls mit Zurücklegen gezogen wird, L LX 2 2 ˆ (a) Varglm(Ȳ ..) = ph σh bei gleichmäßiger Aufteilung n h=1 59 L 1X 2 ˆ ph σh bei proportionaler Aufteilung (b) Varprop(Ȳ ..) = n h=1 !2 L 1 X ˆ (c) Varopt(Ȳ ..) = ph σ h bei optimaler Aufteilung nach Neyman-Tschuprow n h=1 und bei konstanten Kosten in jeder Schicht. ˆ..) = Beweis: Wird in jeder Schicht unabhängig eine eZmZ gezogen, so gilt Var(Ȳ L X h=1 2 1 Wh nh µ2(h) . Mit der stetigen Parametrisierung gemäß Definition 2.7 gilt dann ˆ..) = Var(Ȳ L X 2 1 2 ph σh nh h=1 Einsetzen von nh = n/L (gleichmäßige Aufteilung, nh = ph n (proportionale Aufteilung) und nh = P n ph σh / L g=1 pg σg (Neyman-Tschuprow-Aufteilung) liefert die Beh. (a)–(c) Lösung des Schichtenbildungsproblems durch Minimierung der Varianzen in Anhängigkeit von y1, . . . , yL−1 Satz 2.9 (Dalenius-Gleichungen) Das Gleichungssystem 2 2 2 2 (a) ph σh + (yh − µh) = ph+1 σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1, bei gleichmäßiger Aufteilung 60 (b) yh − µh = µh+1 − yh, h = 1, . . . , L − 1, bei proportionaler Aufteilung 1 2 1 2 2 2 (c) σh + (yh − µh) = σh+1 + (µh+1 − yh) , h = 1, . . . , L − 1, σh σh+1 bei optimaler Aufteilung stellt eine notwendige Bedingung für die Lösung des Schichtenbildungsproblems in Abhängigkeit von y1, . . . , yL−1 dar. Beweis: Vorlesung Bemerkungen: (i) Dalenius-Gleichungen sind nur notwendige Bedingungen, d. h. es existieren mehrere Lösungen; sogar Sattelpunkte erfüllen Satz 2.9 (ii) Lösungen durch numerische Verfahren und Ausnutzen der Staffelungseigenschaft LS(yh−1, yh) = RS(yh, yh+1) Heuristische Schichtenbildung Hier wird keine bestimmte Aufteilungsart vorausgesetzt. • konstante Schichtung nach Aoyama (1954) yh − yh−1 = b−a ≡ const. L 61 • proportionale Schichtung nach Mahalanobis (1952) ph µh ≡ const. √ • kumulative f -Regel nach Dalenius/Hodges (1957); häufig verwendete Regel, da gute Approximation zu Satz 2.9. Z q u Definiere y(u) = ⇒ wähle a y1, . . . , yL−1, f (t) dt, u ≤ b, −→ H, u→b so dass y(yh) = H L Bemerkungen (i) Effizienz der Regeln hängt von f und der Aufteilung ab (ii) Es existiert eine Vielzahl von Regeln, vgl. Drexl (1982), Geschichtete Stichprobenverfahren. (iii) Verallgemeinerungen auf Ziehen ohne Zurücklegen sind möglich, wenn auch nur bedingt notwendig, wenn stetige Dichte vorausgesetzt. 62 §3 Mehrstufige Zufallsstichproben bisher: vollständig zugängliche Auswahlgrundlage jetzt: direkter Zugriff auf potenzielle Untersuchungseinheiten nicht möglich, weil • keine Auswahlgrundlage existiert, • mögliche Verzeichnisse zu groß oder unvollständig sind • Datenschutzgründe den direkten Zugriff auf ein bestehendes Verzeichnis verwehren ⇒ stufenweise Erhebung der Untersuchungseinheiten Vorteil der Stufenbildung: • allgemein im organisatorischen und wirtschaftlichen Bereich • Auswahlgrundlage ist immer nur für jede Stufe einzeln zu beschaffen 63 Beispiel 3.1 Musterstichprobenpläne des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute e.V. von Schäfer (1979) Bevölkerungsstichproben 1. Stufe: Verzeichnisse der Stimmbezirke der Bundestagswahl, z. B. über den Bundeswahlleiter Nur für die ausgewählten Stimmbezirke: 2. Stufe: Liste der Haushalte ermitteln Nur für die ausgewählten Haushalte: 3. Stufe: ”Liste” aller potenziellen Zielpersonen ermitteln Bemerkung 3.2 Vorteile des Musterstichprobenplans • • • • Erleichterung der Erhebungsorganisation Gewährleistung des Datenschutzes Bündelung der Feldarbeit Ersparnis von Wegzeiten und Kosten Nachteil: • Assoziation der ausgewählten Einheiten untereinander 64 Einstufige Zufallsauswahl Definition 3.3 (a) Zerlegt man eine Grundgesamtheit in K disjunkte Teilmengen vom Umfang Mi, P i = 1, . . . , K , mit i Mi = N und wählt man aus diesen Mengen k zufällig aus, so heißen die Teilmengen Klumpen und das Auswahlverfahren Klumpenauswahl. (b) Gehen alle ausgewählten Einheiten in die Untersuchung ein, so bezeichnet man das Verfahren als einstufig. (c) Wird das Prinzip aus (a) in den ausgewählten Klumpen wiederholt, so heißt das Verfahren mehrstufig. Notation 3.4 Bei einer einstufigen Klumpenauswahl sei Yij Yi . = PMi j=1 Yij i-te Klumpensumme 1 Mi Yi . PK 1 i=1 K Durchschnitt im i-ten Klumpen Ȳi. = Ȳ = Ȳ .. = SY2 = 1 N Yi . PK PMi j=1 Yij PK PMi 1 i=1 j=1 Yij N −1 Merkmalswert der j -ten Einheit im i-ten Klumpen, j = 1, . . . , Mi, i = 1, . . . , K durchschnittliche Klumpensumme Merkmalsdurchschnitt i=1 − Ȳ .. 2 Merkmalsvarianz 65 Satz 3.5 (Spezialfall Mi = M , i = 1, . . . , K ) Werden bei einstufiger Klumpenauswahl aus K Klumpen der Größe M k Klumpen durch eine einfache Zufallsstichprobe gezogen, dann gilt k 1 X ˆ Yi. ist ein erwartungstreuer Schätzer für Ȳ .. (a) Ȳ .. = M k i=1 K X 1 k 1 1 k 2 2 ˆ.. = (b) Var Ȳ 1 − (Y . − Ȳ ) = 1 − S i C M2 k K K − 1 i=1 M2 k K Beweis: ˆ..) = E(Ȳ k k K K 1 X 1 XX 1 1 1 X E(Yi. ) = Yj. = k Yj. = Ȳ .. M k M k K M K k i=1 i=1 j=1 j=1 X k K 1 1 1 1 k 1 X eZoZ 2 ˆ Var Var(Ȳ ..) = Yi. = 1− (Yi − Ȳ ) 2 2 M k M k K K−1 i=1 i=1 Definition 3.6 Die Größe ρW K X M X M X 1 (Yij − Ȳ ..)(Yij 0 − Ȳ ..) = 2 (M − 1) (N − 1) SY i=1 j=1 0 j =1 j6=j 0 heißt Intraklasskorrelationskoeffizient. 66 Bemerkung 3.7 Die Größe ρW aus Definition 3.6 ist ein Maß für den Zusammenhang zwischen den Merkmalswerten innerhalb eines Klumpens und es gilt 1 ≤ ρW ≤ 1 − M −1 Lemma 3.8 Für die Varianz aus Satz 3.5(b) gilt ˆ.. ≈ Var(ȳ.) (1 + (M − 1) ρ ) , Var Ȳ W wobei Var(ȳ.) die Varianz der Mittelwertschätzung bei einfacher Zufallsstichprobe ist. Beweis: Betrachte die Varianzzerlegung K K X M X M X X 2 2 (Yi. − Ȳ ) = (N − 1)SY + (Yij − Ȳ ..)(Yij 0 − Ȳ ..) i=1 i=1 j=1 j 0 =1 j6=j 0 67 Dann gilt ˆ Var Ȳ .. = = ≈ i k 1 h 1 2 2 (N − 1) SY + (M − 1)(N − 1)SY ρw 1− M2 k K K−1 1 M k M K−1 2 1− S (1 + (M − 1)ρw ) M k M K M K−M Y M k 1 2 1− SY (1 + (M − 1)ρw ) = Var(ȳ.) (1 + (M − 1)ρw ) M k M K Definition 3.9 Bei einer einstufigen Klumpenauswahl heißt die Größe (1 + (M − 1) ρW ) Designeffekt. 68 Bemerkung 3.10 Der Designeffekt aus Definition 3.9 wird häufig auch als Varianzaufblähungsfaktor bezeichnet, da der Intraklasskorrelationskoeffizient in der Regel größer als Null ist. ρW kann als Hilfe zur Entscheidung zwischen einfacher Zufallsauswahl und Klumpenauswahl benutzt werden: <0 ρw =0 >0 , Klumpenverfahren genauer , beide Auswahlverfahren gleich , einfache Zufallsstichprobe genauer Satz 3.11 Zieht man aus K Klumpen unterschiedlicher Größe k Klumpen mittels einfacher Zufallsstichprobe, so gilt k K X ˆ Yi. ist ein erwartungstreuer Schätzer für Ȳ .. (a) (i) Ȳ ..(a) = N k i=1 K 2 X 2 1 k 1 K ˆ.. 1 − Y . − Ȳ (ii) Var Ȳ = i (a) N2 k K K − 1 i=1 k ˆ.. (b) (i) Ȳ (b) k 1X 1X 1 = Yi. ist ein verzerrter Schätzer für Ȳ .. Ȳi. = k i=1 k i=1 Mi 69 1 ˆ (ii) Var Ȳ ..(b) = k ˆ.. = (c) (i) Ȳ Pk (c) k X 1 i=1 1− Mi k K 1 K−1 K X i=1 Ȳi. − 1 K K X 2 Ȳj . j=1 Yi. ist ein verzerrter Schätzer für Ȳ .. i=1 K 2 X 2 K 1 k 1 2 ˆ.. (ii) Var Ȳ ≈ M Ȳ . − Ȳ .. 1 − i (c) N2 k K K − 1 i=1 i Bemerkung 3.12 Für die Schätzer aus Satz 3.11 gilt ˆ ˆ ˆ Var Ȳ ..(a) > Var Ȳ ..(c) > Var Ȳ ..(b) und für die Verzerrungen 0 = B Ȳˆ..(a) < B Ȳˆ..(c) < B Ȳˆ..(b) 70 §4 Zweiphasige Auswahl Engl.: Two-phase sampling, Double sampling Auswahlprinzip Grundgesamtheit l Merkmalswerte U1 , l (X1, Y1), U2 , l (X2, Y2), . . ., . . ., UN l (XN , YN ) 1. Phase: Auswahl vom Umfang n0 (aus N ) Stichprobe von x-Werten: x01, x02, . . . , x0n0 2. Phase: Auswahl vom Umfang n (aus n0) Stichprobe von x und y -Werten: (x1, y1), (x2, y2), . . . , (xn, yn) Beispiel: Mikrozensus (N ≈ 83000000) 1. Phase: n0 ≈ 830000 Standardbefragung 2. Phase: n ≈ 83000 interessierende Zusatzbefragung, z. B. Daten zum Gesundheitswesen !!! Dies hat NICHTS mit einer zweistufigen Auswahl zu tun !!! 71 Ziel ist die Schätzung von Ȳ . unter ”optimaler” Ausnutzung der Zusatzinformation X , die nicht a-priori bekannt ist (im Gegensatz zur pps-Auswahl). Dazu verwendet man verschiedene Prinzipien. Da zwei Auswahlen betrachtet werden, müssen auch zwei Erwartungswerte bzw. Varianzen betrachtet werden. Bezeichnungen: E1 / Var1: Erwartungswert und Varianz der 1. Phase E2 / Var2: Erwartungswert und Varianz der 2. Phase gegeben die Ergebnisse der 1. Phase Für diese bedingten Momente gilt: Lemma 4.1 Für bedingte Erwartungswerte und Varianzen in zwei Phasen und eine Zufallsvariable z gilt (i) E(z) = E1 E2(z) (ii) Var(z) = E1 Var2(z) + Var1 E2(z) Auswertung bei verschiedenen Subauswahlen • Differenzenschätzung Satz 4.2 In dem oben geschilderten Auswahlverfahren mit eZoZ vom Umfang n0 aus N in der 1. Phase und eZoZ vom Umfang n aus n0 in der 2. Phase gilt: 72 ˆ. = (ȳ. − x̄.) + x̄0. ist erwartungstreu für Ȳ . (i) Ȳ 1 1 1 1 2 ˆ) = (ii) Var(Ȳ − SY − − 0 SX (2ρSY − SX ) n N n n Beweis: Vorlesung Folgerung 4.3 Für die Varianz aus Satz 4.2 (ii) gilt c (Ȳˆ.) = Var mit 1 1 − n0 N 2 sy + 1 1 − 0 n n 2 sd n 2 1 X 2 sd = (yi − xi) − (ȳ. − x̄.) n − 1 i=1 ˆ.) ist ein erwartungstreuer Schätzer für Var(Ȳ Beweis: ÜA 73 Fasst man die zwei Phasen als unabhängige Verfahren auf (z. B. bei Kombination von Untersuchungen: Werte x0i aus 1. Untersuchung, Werte xi aus 2. Untersuchung, d. h. xi nicht notwendigerweise in 1. Untersuchung enthalten.), so gilt: Folgerung 4.4 Bei unabhängigen Auswahlen in der 1. und 2. Phase gilt 0 ˆ (i) E(Ȳ .) = E (ȳ. − x̄.) + x̄ . = Ȳ . 1 1 1 1 2 2 2 ˆ.) = − (SY + SX − 2 ρ SX SY ) + − S (ii) Var(Ȳ X n N n0 N c (Ȳˆ.) = 1 − 1 s2 + 1 − 1 s2 0 ist erwartungstreu für Var(Ȳˆ.), (iii) Var d x n N n0 N n0 X 1 0 0 2 2 (xi − x̄ .) wobei sx0 = 0 n − 1 i=1 Die Folgerung ist sehr wichtig, wenn Untersuchungsergebnisse zusammengefasst werden. Auswahlphase ←→ Untersuchung ←→ Varianzanteil ←→ Varianzkomponente ←→ Lineares Modell 74 • pps-Schätzung Satz 4.5 Falls die 1. Phase durch eZoZ und die 2. Phase durch pps-Auswahl (mit Zurücklegen) nach x0 gewonnen wird, dann gilt n 0 X x . yi 1 ˆ. = ist erwartungstreu für Ȳ . (i) Ȳ 0 n n i=1 xi 1 n0 − 1 1 0 2 V + (N − n ) S , Y N (N − 1) n n0 N n0 2 N X Xi Yi − Y. wobei V = X. X /X. i i=1 !2 n n 0 2 X y2 (x. ) 1 X yi 1 i ˆ c (iii) Var(Ȳ .) = 02 − 2 n n(n − 1) i=1 xi n i=1 xi !2 n 2 n 2 2 0 0 2 Xy X yi Xy (N − n (x.) 1 0 i i + x. − − 2 0 0 0 N n n (n − 1) i=1 xi n n−1 x x i i i=1 i=1 ˆ.) = (ii) Var(Ȳ ˆ.) ist ein unverzerrter Schätzer für Var(Ȳ Beweis: analog zu Satz 4.2 unter Ausnutzung der Ergebnisse von Satz 1.37 und Folgerung 1.38 für die pps-Auswahl 75 Bei Kombination von unabhängigen Untersuchungen gilt analog zu Folgerung 4.4: Folgerung 4.6 Falls die 1. Phase mit eZoZ und die 2. Phase unabhängig mit pps (nach dem LahiriVerfahren) ausgewählt wird, gilt ! 0 n X 1 yi ˆ. = x. ist erwartungstreu für Ȳ . (i) Ȳ 0 n n i=1 xi " 2 2# ˆ.) = 1 − 1 Y . S 2 + 1 V 1 + 1 − 1 SX (ii) Var(Ȳ n0 N X.2 X n n0 N X̄.2 # 2 " 0 2 n 0 X (x.) 1 ȳ. n yi 2 c (Ȳˆ.) = (iii) Var − − 1 − s x n(n − 1)n0 i=1 xi x̄. n0 N !2 n 1 X yi 1 1 2 + − s x n i=1 xi n0 N ist erwartungstreu für Var(Ȳ .) 76 • Verhältnisschätzung Diese Prinzipien können auch auf Verhältnisschätzer übertragen werden. Es gilt: Satz 4.7 Bei eZoZ in 1. und 2. Phase gilt 0 ȳ. ȳ. 0 x̄. = Ȳ . − E1 Cov , x̄.x̄. (i) E x̄. x̄. ! 2 ȳ. 0 Ȳ . 1 1 Ȳ . 2 2 (ii) MSE SY − 2 x̄. ≈ − ρ SX SY + 2 SX x̄. n N X̄. X̄. 2 2 1 Ȳ . 2 1 1 1 1 1 2 SX − − − SY + SX + 0 0 2 n N X̄. n N n N X̄.2 Bemerkung: erwartungstreue Schätzung von Ȳ. dann durch ppas-Auswahl Prinzipiell kann jede Auswahl so berücksichtigt werden. (Ist aber nicht immer einfach!) Zweiphasige Auswahl kann auch genutzt werden, um mit der Information der 1. Phase über die X -Werte Schichten für die 2. Phase zu bilden, siehe Cochran (1977). 77 ———————————————————————————————————— EINSCHUB: Zusammenfassung der Auswahlverfahren Skizze in Vorlesung Beispiel: Muster-Stichprobenpläne des Arbeitskreises Deutscher Marktforschungsinstitute Drei–stufige Klumpenauswahl 1. Stufe: Auswahl von Stimmbezirken • Schichten durch Anordnung (Ordnungskriterium: Bundesländer, Regierungsbezirke, Ortsgrößenklassen nach Boustedt) • pps-Auswahl nach Einwohnerzahl • systematische Auswahl (Kumulationsverfahren nach Mahalanobis) 2. Stufe: Auswahl von Haushalten • einfache Zufallsauswahl • Random-Route 3. Stufe: Auswahl von Haushalten • einfache Zufallsauswahl • Schwedenschlüssel =⇒ ca. sechs Auswahlstrategien werden benutzt =⇒ Schätzer und Varianzen?? 78 §5 Capture-Recapture-Verfahren Problem: N ist unbekannt Beispiele: • Tierpopulation • Marktforschung, z. B. Kunden/Käufer eines Produkts Idee: 1. Schritt: definiere eine (auch räumlich begrenzte) Population 2. Schritt Prüfung, ob • offene Population – Immigration (Einwanderung) – Emigration (Auswanderung) – Recruitment (Erneuerung) – Sterblichkeit • geschlossene Population 79 3. Schritt (i) Ziehen einer Stichprobe (Capture) (ii) Markierung der Individuen (Mark) (iii) Zurücklegen in die GG (Release) 4. Schritt (i) Ziehen einer Stichprobe (Recapture) (ii) Prüfen der Markierungen Voraussetzung: Zwischen Schritt 3 und 4 findet ein vollständiges Durchmischen der GG statt Erweiterung: • Einfache Durchführung von Schritt 3 und 4 (Single-Mark-Release) • Mehrfache Durchführung von Schritt 3 und 4 (Multiple-Marking) 80 • Single-Mark-Release bei geschlossenen Populationen Annahmen 5.1 (i) (ii) (iii) (iv) N konstant In der Capture-Stichprobe gelte πi = const., i = 1, . . . , N . Die Recapture-Stichprobe sei eZoZ. Der Verlust der Markierung ist unmöglich. Definition 5.2 Beim Capture-Recapture-Verfahren unter Annahmen 5.1 sei M Umfang der Capture-Stichprobe (= ˆ Anzahl der Markierungen) n Umfang der Recapture-Stichprobe m Anzahl der markierten Individuen in der Recapture-Stichprobe Dann heißt M n N̂ = m der Petersen- oder Lincoln-Schätzer (Lincoln-Index) für N . Bemerkung: m ∼ Hyp M N, n, N Bemerkung: Der Schätzer N̂ entsteht durch Markierte m M = = ˆ Unmarkierte n−m N̂ − M 81 Geht man von einem Binomial-Modell aus, so gilt Satz 5.3 Ist m ∼ Bin(n, P ) mit P = M/N , dann ist N̂ ML-Schätzer für N . Beweis: Mit n M k M n−k 1− P (m = k) = N N k folgt n ln P (m = k) = ln + k (ln M − ln N ) + (n − k) (ln(N − M ) − ln N ) k d 1 1 1 ! ⇒ ln P (m = k) = k − + (n − k) − =0 dN N N −M N m n−m n−m n−m n nM k=m ⇒ − + − =0⇔ = ⇔ N n − N M = N n − nM ⇒ N̂ = N N −M N N −M N m 2 3 d m ln P (m = k) = · · · = − <0 N =N̂ dN 2 M 2 n(n − m) Bemerkung: (i) ML-Theorie =⇒ asymptotische Normalität, Fisher-Information, Varianzschätzung (ii) da N̂ verzerrt =⇒ Bailey-Schätzer 2 M (n + 1) M (n + 1)(n − m) c (N̂1) = N̂1 = mit Bias(N̂1) < Bias(N̂ ) und Var m+1 (m + 1)2 (m + 2) Begründung des Petersen-Schätzer N̂ über unvollständige Vier-Felder-Tafel: 82 Sei xij die Anzahl der anwesenden Individuen in der ersten und/oder zweiten Stichprobe, d. h. 2. Stichprobe 1. Stichprobe gefangen nicht gef. gefangen x11 = m x12 x1 . = M nicht gef. x21 ? x.1 = n N Herleitung: Die Stichproben sind unabhängig mit E(xij ) = mij , dann gilt m11 m22 m̂12 m̂21 x12 x21 = 1 (Odds Ratio gleich eins) und m̂22 = = m21 m12 m̂11 x11 ⇒ N̂ = = = x12 x21 x11 i 1 2 1 h x11 + x21 x11 + x12 x11 + x12 x21 = (x11 + x12 )(x11 + x21 ) x11 x11 x11 + x21 + x12 + m̂22 = x11 + x21 + x12 + x1. x.1 M n = x11 m 83 Bemerkung: (i) Ein Schätzer für die Varianz des Petersen-Schätzers ist gegeben durch c (N̂ ) = M n (M − m) (n − m) Var m3 =⇒ Konfidenzintervall mit Quantil der Standardnormalverteilung (ii) Die Anzahl der markierten Tiere in der zweiten Stichprobe kann null sein; weiterer modifizierter Schätzer von Chapman: Ñ = (M + 1) (n + 1) −1 m+1 mit approximativ unverzerrtem Varianzschätzer c (Ñ ) = (M + 1) (n + 1) (M − m) (n − m) Var (m + 1)2 (m + 2) 84 • Multiples Marking bei geschlossenen Populationen (Schnabel-Census) Notation 5.4: (i) betrachte Folge von s Stichproben (ii) ni, i = 1, . . . , s Umfang der i-ten Stichprobe (iii) mi, i = 1, . . . , s Anzahl Markierter in i-ter Stichprobe (iv) ui = ni − mi Pi−1 (v) Mi = j=1 uj Gesamtzahl Markierter in der Population vor Stichprobe i, i = 1, . . . , s + 1 =⇒ M1 = 0, M2 = n1 − m1 (vi) r = Ms+1 Gesamtanzahl Markierter nach dem Experiment (vii) w ⊆ {1, . . . , s} Fanggeschichte (viii) aw Anzahl der Tiere mit Fanggeschichte w =⇒ r = P aw (ix) Pw Wahrscheinlichkeit, dass ein Individuum die Fanggeschichte w hat !N −r X Y a N! 1− Pk Pk k P (aw = ak ) = Q k ak !(N − r)! k k Multinomialverteilung über die Fanggeschichten w unter der Voraussetzung, dass alle Individuen unabhängig agieren. w Beispiel: s=3, # Fanggeschichten = 23: (0, 0, 0), (1, 0, 0), (1, 1, 0), (1, 0, 1), (0, 1, 0), (0, 1, 1), (0, 0, 1), (1, 1, 1) 85 Satz 5.5 Im Multiple-Marking-Modell wird der ML-Schätzer bestimmt als Lösung von r 1− N = s Y i=1 ni 1− N Beweis: betrachte Likelihood obiger Multinomialverteilung Bemerkung: • s = 2 =⇒ N̂ Petersen-Schätzer, denn s=2 ⇒ ⇒ ⇒ n1 n2 N −r 1 r = 1− 1− ⇒ = 2 (N − n1 )(N − n2 ) 1− N N N N N 2 2 N − N r = N − N n1 − N n2 + n1 n2 n1 n2 M n M n N = = = n1 + n2 − r M + n − (M + n − m) m • s ≥ 3 =⇒ iterieren; Nullstellen eines Polynoms vom Grade s − 1 • Aber: ML-Theorie kann angewendet werden 86 Satz 5.6 Im Multiple-Marking Modell gilt für den ML-Schätzer N̂ aus Satz 5.5 ! ! s s X X 2 2 s−1 s−1 − N̂ − ni + N̂ − ni 2 N̂ N̂ i=1 i=1 (i) b̂ = ! 2 s X 1 s−1 1 2 + − N̂ − r N̂ N̂ − ni i=1 ist ein Schätzer für die Verzerrung von N̂ . (ii) Die asymptotische Varianz von N̂ ergibt sich aus !−1 s X s−1 1 1 + − Var(N̂ ) ≈ N̂ − r N̂ i=1 N̂ − ni Bemerkung: Allgemeine Abschätzung nach Chapman (1952) ni Mi ni Mi max r, min ≤ N̂ ≤ max i=2,...,s mi mi =⇒ gute Einschränkung für Startwerte eines iterativen Verfahrens 87 Bemerkungen zu offenen Populationen: Das Vorliegen der vier Prozesse: • • • • Einwanderung % Auswanderung & Geburt % Tod & ”stört” die Bestimmung von N̂ . Es müssen zusätzliche Parameter benutzt werden. ϕ νi ... Wahrscheinlichkeit von Stichprobe i nach (i + 1) zu überleben Wahrscheinlichkeit, dass ein in Stichprobe i gezogenes Tier in die Population zurückkehrt =⇒ Folge von (bedingten) Schätzern im Multinomialmodell (d. h. N̂i ist eine Zeitreihe) 88 §6 Netzwerk- oder Multiplizitätsstichproben (engl. Network-Sampling, Multiplicity-Sampling) Beispiel 6.1 (Prävalenz einer seltenen Krankheit) (a) Multiplizität Betrachte eine Zufallsstichprobe von Krankenhäusern. Die Akten der Krankenhäuser der Zufallsstichprobe enthalten die Daten der erkrankten Personen. Beachte, dass ein Patient in mehreren Krankenhäusern behandelt worden sein kann. Je häufiger ein Patient in verschiedenen Krankenhäusern behandelt worden ist, desto größer ist die Wahrscheinlichkeit, dass die Krankenakte des Patienten in die Stichprobe gelangt. (b) Netzwerk Betrachte eine Stichprobe von Haushalten. Alle Bewohner des Haushaltes werden nach der Krankheit befragt. Außerdem wird jeder Bewohner gefragt, ob seine/ihre Geschwister an der Krankheit leiden. Eine Person mit mehrerer Geschwistern in verschiedenen Haushalten hat somit eine höhere Wahrscheinlichkeit als eine Person ohne Geschwister in einem Single-Haushalt in die Stichprobe zu gelangen. Beachte, dass selbst Bewohner eines gemeinsamen Haushalts unterschiedliche Wahrscheinlichkeiten haben können, um in die Stichprobe zu gelangen. Unter einem Netzwerk verstehen wir die Menge aller Untersuchungseinheiten, die die gleiche Verbindungsstruktur (linkage configuration) aufweisen. 89 Voraussetzungen 6.2 • Sei Yi der Merkmalswert der i-ten Untersuchungseinheit. Das Merkmal kann eine Indikatorvariable sein, Yi = 1, falls die Krankheit vorliegt, Yi = 0 sonst, oder z.B. die Behandlungskosten. • Sei N die Anzahl der Untersuchungseinheiten in der Population. N P • Sei Y. = Yi die interessierende Populationssumme. i=1 • Sei M die Anzahl der Auswahleinheiten (Krankenhäuser, Haushalte). • Sei mi die Anzahl, wie oft die i-te Untersuchungseinheit mit den Auswahleinheiten verbunden ist. • Es werden n Auswahleinheiten mittels eZoZ gezogen und alle Untersuchungseinheiten, die mit den gezogenen Auswahleinheiten verbunden sind, gelangen in die Stichprobe. • Die Auswahlwahrscheinlichkeit für die i-te Untersuchungseinheit ist pi = mi/M ; das ist die Wahrscheinlichkeit, dass mindestens eine Auswahleinheit, die mit der Untersuchungseinheit verbunden ist, gezogen wird. 90 Satz 6.3 (Multiplicity estimator) (a) Ein unverzerrter Schätzer für Y. ist gegeben durch M X Yi Ŷ. = , n i∈S mi wobei S die Menge der Untersuchungseinheiten in der Stichprobe bezeichnet. (b) Sei X Yi wj = mi i∈A j mit Aj der Menge der Untersuchungseinheiten in der j -ten Auswahleinheit, dann lässt sich der Schätzer aus (a) auch darstellen als n MX wj , Ŷ. = n j=1 (c) Die Varianz des multiplicity estimator ist gegeben durch M X M (M − n) 1 Var(Ŷ.) = n M − 1 j=1 Y. wj − M 2 91 (d) Ein unverzerrter Schätzer für Var(Ŷ.) ist gegeben durch c (Ŷ.) = M (M − n) s2 , Var w n wobei n 2 sw 1 X 2 (yi − w̄) , = n − 1 j=1 n 1X w̄ = wj . n j=1 Beweis: siehe Vorlesung Bemerkung 6.4 (a) Unter einem Netzwerk verstehen wir die Menge aller Untersuchungseinheiten, die die gleiche Verbindungsstruktur (linkage configuration) aufweisen. Ein Netzwerk kann somit mit mehreren Auswahleinheiten verbunden sein (Geschwister in verschiedenen Haushalten) und eine Auswahleinheit kann mit mehreren Netzwerken (Nicht-Geschwister im selben Haushalt) verbunden sein. (b) Zerlege die Population in K Netzwerke. Sei Yk∗ die Summe der YWerte der Untersuchungseinheiten im k-ten Netzwerk und m∗k die gemeinsame Vielfachheit jeder Untersuchungseinheit innerhalb des Netzwerks, k = 1, . . . , K . Dann haben alle Untersuchungseinheiten innerhalb eines Netzwerks die gleiche Auswahlwahrscheinlichkeit in die Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist gleich der Auswahlwahrscheinlichkeit für das k-te Netzwerk. 92 (c) Die Auswahlwahrscheinlichkeit für das k-te Netzwerk ist , M − m∗ M k . πk = 1 − n n (d) Sei m∗jk die Anzahl der Auswahleinheiten, die mit beiden Netzwerken j und k verbunden sind. Dann ist die Wahrscheinlichkeit, dass die beiden Netzwerke gemeinsam in die Stichprobe gelangen, gegeben durch , M − m∗ − m∗ + m∗ M j k jk πjk = πj + πk − 1 + . n n 93 Satz 6.5 (Horvitz-Thompson-Netzwerk-Schätzer) (a) Der Horvitz-Thompson Schätzer für Y. ist gegeben durch κ X yk∗ , Ŷ . = π k i=1 wobei κ die Anzahl der verschiedenen Netzwerke der Untersuchungseinheiten in der Stichprobe bezeichne. (b) Die Varianz des Horvitz-Thompson-Schätzers ist gegeben durch Var(Ŷ .) = K X 1 − πk k=1 πk ∗ 2 (yk ) + K X X πk` − πk π` k=1 `6=k πk πl ∗ ∗ yk y` (c) Ein erwartungstreuer Schätzer für die Varianz ist gegeben durch c (Ŷ .) = Var κ X k=1 1 1 − πk2 πk ! κ X X 1 1 ∗ 2 ∗ ∗ (yk ) + − yk y` π k π` πk` k=1 `6=k 94 Beispiel 6.6 (Prävalenz einer seltenen Krankheit in einer Stadt) Aus M = 5000 Haushalten einer Stadt werden n = 100 Haushalte mittels eZoZ ausgewählt und alle Erwachsenen in den ausgewählten Haushalten berichten über sich und über alle Geschwister, die in der Stadt leben, ob sie an der Krankheit leiden. Die Ergebnisse der Untersuchung lassen sich wie folgt zusammenfassen: • Im Stichprobenhaushalt 1 leben zwei Erwachsene, ein Mann und eine Frau. – Der Mann hat einen Bruder, der in einem anderen Haushalt in der Stadt lebt. Der Mann hat die Krankheit nicht (y1 = 0), aber der Bruder hat sie (y2 = 1). Zusammen bilden die beiden ein Netzwerk (Netzwerk 1) mit Vielfachheit m∗1 = 2. – Die Frau hat die Krankheit (y3 = 1) und zwei Geschwister leben in unterschiedlichen Haushalten in der Stadt, der Bruder mit der Krankheit (y4 = 1) und die Schwester ohne (y5 = 0). Diese drei Geschwister bilden ein Netzwerk (Netzwerk 2) mit m∗2 = 3. • Der Haushalt der Schwester der Frau aus Haushalt 1 ist auch in die Stichprobe gekommen (Haushalt 2). – Das Netzwerk 2 der drei Geschwister ist doppelt ausgewählt und befragt worden. – Der Ehemann in Haushalt 2 hat die Krankheit nicht (y6 = 0). Da keine Geschwister von ihm in der Stadt leben, bildet er alleine ein Netzwerk (Netzwerk 3) mit m∗3 = 1. • Im Haushalt 3 lebt nur ein Erwachsener mit (y7 = 1). Keine Geschwister von ihm leben in der Stadt. Er bildet alleine ein Netzwerk (Netzwerk 4) mit m∗4 = 1. • In anderen 97 ausgewählten Haushalten hat keiner der Bewohner die Krankheit. Auch deren Geschwister haben die Krankheit nicht. Alle y -Werte sind somit 0. 95 Bemerkung 6.7 (a) Wenn die Auswahleinheiten der Population in Schichten aufgeteilt werden, kann das Problem auftreten, dass Untersuchungseinheiten mit Auswahleinheiten verbunden sind, die zu verschiedenen Schichten gehören. Dann sind die Beobachtungen zwischen den Schichten nicht wie bei der gewöhnlichen geschichteten Auswahl unabhängig. (b) Seien die M Auswahleinheiten in L disjunkte Schichten aufgeteilt. Seien Mh Auswahleinheiten in Schicht h und in jeder Schicht wird eine eZoZ vom Umfang nh gezogen, h = 1, . . . , L. Sei Ahj die Menge der Untersuchungseinheiten, die mit der j -ten Auswahleinheit in Schicht h verbunden sind. Für die i-te Untersuchungseinheit sei mi die Anzahl der Auswahleinheiten, die mit der Untersuchungseinheit verbunden sind. Für die j -te Auswahleinheit in Schicht h definiere die neue interessierende Variable P whj durch whj = i∈Aj Yi /mi . Definiere das Stichprobenmittel der w -Variablen in Pnh Schicht h als w̄h = (1/nh) j=1 whj . Der geschichtete unverzerrte multiplicity Schätzer für Y. lautet dann Ŷ . = L X Mhw̄h. h=1 (c) Beachte, dass Ŷ . unverzerrt für Y. ist; aber Mhw̄h ist im Allgemeinen nicht unverzerrt für die entsprechende Schichtsumme. 96 §7 Nachweisbarkeit und Stichprobenverfahren (engl. Detectability and Sampling) In den bisherigen Verfahren ist (weitestgehend) davon ausgegangen worden, dass das interessierende Merkmal fehlerfrei für jede Untersuchungseinheit in der Stichprobe erfasst werden konnte. In manchen Situationen ist dies jedoch kaum der Fall. Beispiele: (a) Bei Zählungen häufiger Vogelarten ist es unwahrscheinlich, dass alle Vögel in einem Gebiet (plot) entdeckt werden. (b) In Erhebungen aus der Luft zur Zählung großer Säugetiere können einige Tiere unsichtbar bleiben. (c) Bei der Bestimmung von Mineralien, z.B. Diamanten, in Erd- oder Erzstichproben können einige Objekte übersehen werden. Bemerkung 7.1: (Konstante Nachweisbarkeit in einer Region) Angenommen die Nachweisbarkeit für eine gewisse Tierart in einer Region sei gegeben durch eine konstante Wahrscheinlichkeit p. Sei y die Anzahl der beobachteten Tiere in der Region und sei die tatsächliche Anzahl (Populationsgröße) Y . Die Entdeckungswahrscheinlichkeit für ein Tier in der Region sei p. Unter der Annahme, dass die Tiere unabhängig voneinander entdeckt werden, ist y binomial verteilt mit Parametern Y und p. 97 Falls die Entdeckungswahrscheinlichkeit p bekannt ist, dann ist ein unverzerrter Schätzer für Y gegeben durch 1−p y mit Var(Ŷ ) = Y . Ŷ = p p Ein unverzerrter Schätzer für die Varianz ist gegeben durch c (Ŷ ) = y 1 − p . Var p2 Bemerkung 7.2 (Schätzung der Nachweisbarkeit, Entdeckungswahrscheinlichkeit) Die Entdeckungswahrscheinlichkeit p ist in der Regel unbekannt und muss geschätzt werden, siehe Beispiel Verhältnisschätzung mit zweiphasiger Auswahl. Um p zu schätzen, können Methoden der zweiphasigen Auswahl oder Capture-Recapture Methoden angewendet werden. Diese Methoden liefern auch immer eine Schätzung für die Varianz der geschätzten Nachweisbarkeit. Satz 7.3 (Effekt der geschätzten Nachweisbarkeit) Sei p̂ ein (approximativ) unverzerrter Schätzer für die Nachweisbarkeit p, und p̂ sei nicht mit y , der Anzahl der beobachteten Tiere, korreliert. Dann ist ein approximativ unverzerrter Schätzer für die Populationsgröße Y gegeben durch y Ŷ = p̂ 1−p Y2 mit Var(Ŷ ) ≈ Y + 2 Var(p̂) p p Beweis: Anwendung des Fehlerfortpflanzungsgesetzes, siehe Vorlesung. 98 Satz 7.4 (Nachweisbarkeit und eZoZ) Betrachte eine eZoZ von n Untersuchungseinheiten aus einer Grundgesamtheit von N Einheiten. Sei Yi die tatsächliche Anzahl der Tiere in der i-ten Untersuchungseinheit und PN yi die Anzahl der beobachteten Tiere. Die Populationsgröße ist somit Y. = i=1 Yi . Die Entdeckungen in den einzelnen Untersuchungseinheiten seien unabhängig. Für eine feste Untersuchungseinheit i in der Stichprobe ist yi binomial verteilt mit Parameter Yi und p, der konstanten bekannten Entdeckungswahrscheinlichkeit. (a) Ein unverzerrter Schätzer für die Populationsgröße ist gegeben durch n N N1X Ŷ . = yi. ȳ. = p p n i=1 (b) Die Varianz von Ŷ . ist gegeben durch Var(Ŷ .) = N 2 1 n n 1− N 2 SY + 1−p p Y. . Nn (c) Ein erwartungstreuer Schätzer für die Varianz von Ŷ . ist gegeben durch 2 N 1 n 1 − p 2 c (Ŷ .) = 1 − s ȳ. . Var y + p2 n N N Beweis: siehe Vorlesung 99 Satz 7.5 (Geschätzte Nachweisbarkeit und eZoZ) Gegeben die Voraussetzungen von Satz 7.4. Jedoch sei die Entdeckungswahrscheinlichkeit p unbekannt, aber es steht ein (approximativ) unverzerrter Schätzer p̂ zur Verfügung c (p̂). Zudem sei die Schätzung p̂ sowie eine Schätzung für die Varianz von p̂, nämlich Var unkorreliert mit ȳ. . (a) Ein Schätzer für die Populationsgröße ist gegeben durch n N1X N ȳ. = yi. Ŷ . = p̂ p̂ n i=1 Der Schätzer ist nicht mehr erwartungstreu für Y. . (b) Die Varianz von Ŷ . ist gegeben durch " Var(Ŷ .) ≈ N 2 1 n 1− n N 2 SY + 1−p p # 2 Y. Y. + 2 2 Var(p̂) . N n N p (c) Ein Schätzer für die Varianz von Ŷ . ist gegeben durch 2 N c Var(Ŷ .) = 2 p̂ " N −n N s2y n + 1−p N 2 # ȳ c ȳ. + 2 Var(p̂) . p̂ 100 Satz 7.6 Falls eine eZmZ gezogen wird mit bekannter Entdeckungswahrscheinlichkeit p, dann ist ein erwartungstreuer Schätzer für die Populationsgröße gegeben durch " # 2 1−p Y N 2 SY mit Var(Ŷ .) = N + . Ŷ . = ȳ p n p N n Ein unverzerrter Schätzer für die Varianz von Ŷ . ist gegeben durch n X 1 2 c Var(Ŷ .) = (τi − Ŷ .) n(n − 1) i=1 mit τi = N yi/p, i = 1, . . . , n. Bemerkung 7.7 (Ungleiche Auswahlwahrscheinlichkeiten von Gruppen mit ungleichen Entdeckungswahrscheinlichkeiten) Sei Yij das interessierende Merkmal (stetig, diskret, binär) der j -ten Beobachtungseinheit in der i-ten Untersuchungseinheit. Sei πi die Wahrscheinlichkeit, dass die i-te Untersuchungseinheit in die Stichprobe gelangt, und πii0 die Wahrscheinlichkeit, dass die i-te und i0-te Untersuchungseinheit gemeinsam in die Stichprobe gelangen. Sei gij die Entdeckungswahrscheinlichkeit für die j -te Beobachtungseinheit in der i-ten Untersuchungseinheit. 101 Sei Mi die Anzahl der Beobachtungseinheiten in der i-ten Untersuchungseinheit und mi die entdeckten Beobachtungseinheiten in dieser Untersuchungseinheit. Die Anzahl der verschiedenen Untersuchungseinheiten in der Stichprobe sei ν . PMi Sei Yi = j=1 Yij , i = 1, . . . , k . Mi N P P Yij . Populationsgröße: Y = i=1 j=1 Horvitz-Thompson-Schätzer: mi ν X yij 1 X Ŷ = πi j=1 gij i=1 mit Var(Ŷ ) = N X 1 − πi i=1 π Mi N X N X X X 1 − g π − π π 1 0 0 ij i i 2 2 ii Yi + Yi Yi0 + Yij πi πi0 πi j=1 gij 0 i=1 i=1 i6=i Unverzerrter Varianzschätzer: c (Ŷ ) = Var ν X 1 − πi i=1 π2 mi ν X ν X X X π − π π 1 0 0 i i 2 ii Ŷi + Ŷi Ŷi0 + πii0 πi πi0 πi j=1 0 i=1 i=1 i6=i 1 − gij 2 gij Pmi mit Ŷi = j=1 yij /gij , i = 1, . . . , ν . Steinhorst, Samuel (1989), Sightability adjustment methods for aerial surveys of wildlife populations, Biometrics, 45, 415–425. 102 ! 2 yij §8 Adaptive Stichprobenverfahren Adaptive Stichprobenverfahren heißen solche Stichprobendesigns, bei denen die Auswahl von Untersuchungseinheiten, die in die Stichprobe gelangen, abhängig sein darf von den bereits erhobenen Merkmalswerten in der Untersuchung. Motivation: • Viele Tier- und Pflanzenpopulationen haben die Tendenz sich zu versammeln oder anzuhäufen z.B. aufgrund von Herden- oder Schwarmbildung bzw. Umweltregel- bzw. unregelmäßigkeiten. • Häufig ist der Ort und die Form der Ansammlung nicht vor der Untersuchung vorhersagbar, so dass traditionelle Stichprobenverfahren zur Erhöhung der Präzision wie z.B. die Schichtenbildung nicht möglich sind. 8.1 Adaptive Klumpenstichprobenverfahren Definition 8.1 Adaptive Klumpenstichprobenverfahren sind solche Stichprobendesigns, bei denen zunächst eine Startstichprobe von Untersuchungseinheiten (initial set of units) mit einer zufälligen Stichprobenprozedur gezogen wird, und, wenn die erhobenen Merkmale dieser ausgewählten Untersuchungseinheiten ein gewisses Kriterium erfüllen, dann werden auch alle Untersuchungseinheiten in der Nachbarschaft mit in die Stichprobe aufgenommen. 103 Hier: Startstichprobe mit eZoZ oder eZmZ Voraussetzungen 8.2 • Die Population besteht aus N Untersuchungseinheiten, die mit 1, 2, . . . , N (Labels) durchnummeriert werden können und zugehörigen Merkmalswerten Y1, Y2, . . . , YN . • Die Stichprobe s ist eine Menge von Labels, die die Untersuchungseinheiten, die beobachtet werden sollen, identifizieren. • Die Daten bestehen aus den beobachteten y -Werten zusammen mit den dazugehörigen Labels. • Der interessierende Parameter ist das Populationsmittel oder die Populationsgröße, d.h., N 1 X Yi Ȳ . = N i=1 oder Y. = N Ȳ . Bezeichnung 8.3 Ein Stichprobendesign (sampling design) ist eine Funktion P (s|Y ), die jeder Stichprobe s eine Wahrscheinlichkeit zuweist. In diesem Kapitel hängen die Auswahlwahrscheinlichkeiten der Stichproben von den Populationswerten Y1, . . . , YN ab. 104 Annahme 8.4 (a) Für jede Untersuchungseinheit Ui in der Population ist eine Nachbarschaft Ai eindeutig definiert. Die (Definition der) Nachbarschaft hängt nicht von den YPopulationswerten ab. Darüber hinaus ist die Nachbarschaftsbeziehung symmetrisch, d.h. falls Untersuchungseinheit Ui in der Nachbarschaft von Uj ist, dann ist auch Uj in der Nachbarschaft von Ui. (b) Die Bedingung weitere Untersuchungseinheiten aus der Nachbarschaft der Untersuchungseinheiten der Startstichprobe in die Stichprobe aufzunehmen, wird durch ein Intervall oder eine Menge C basierend auf dem Wertebereich der Y-Merkmalswerte bestimmt. Eine Untersuchungseinheit Ui erfüllt die Bedingung, falls Yi ∈ C . Beispiel: Eine Untersuchungseinheit Ui erfüllt die Bedingung, falls Yi größer oder gleich einer Konstanten c ist, d. h. C = {Y : Y ≥ c}. Bemerkung 8.5 (Adaptive Strategie) • Falls eine Untersuchungseinheit Ui die Bedingung aus Annahme 8.4(b) erfüllt, werden alle Untersuchungseinheiten aus der Nachbarschaft von Ui ebenfalls in die Stichprobe aufgenommen und beobachtet. • Einige der neuen Untersuchungseinheiten könnten die Bedingung ebenfalls erfüllen, andere nicht. • Wenn neue Untersuchungseinheiten die Bedingung erfüllen, dann werden auch alle Untersuchungseinheiten aus der Nachbarschaft dieser Untersuchungseinheiten in die Stichprobe aufgenommen und beobachtet. • usw. 105 Bezeichnung 8.6 • Betrachte die Menge aller Untersuchungseinheiten, die mit der adaptiven Strategie aus Bemerkung 8.5 aufgrund der Untersuchungseinheit Ui der Startstichprobe in die Stichprobe gelangt sind. Diese Menge bezeichnen wir als Klumpen (cluster). • Innerhalb eines Klumpens gibt es eine Untermenge, die als Netzwerk bezeichnet wird. Die Untersuchungseinheiten des Netzwerks haben die Eigenschaft, dass, wenn ein Element des Netzwerks in die Startstichprobe gelangt, dann kommen aufgrund der adaptiven Strategie auch alle anderen Elemente des Netzwerks in die Stichprobe; anders ausgedrückt: alle Untersuchungseinheiten in dem Netzwerk erfüllen die Bedingung. • Jede Untersuchungseinheit, die die Bedingung nicht erfüllt, aber in der Nachbarschaft einer Untersuchungseinheit liegt, die die Bedingung erfüllt, wird als edge unit bezeichnet. Bemerkung 8.7 Falls eine Untersuchungseinheit, die zu einem Netzwerk gehört, in die Startstichprobe gelangt, so gelangen alle Untersuchungseinheiten dieses Netzwerks sowie die edge units in die Stichprobe. Die Auswahl eines edge units führt zu keiner weiteren Auswahl von Untersuchungseinheiten. Untersuchungseinheiten, die die Bedingung nicht erfüllen, bilden somit jeweils ein Netzwerk der Größe 1. Seien die Y -Populationswerte gegeben. Dann lässt sich die Population eindeutig in Netzwerke aufteilen. 106 Lemma 8.8 (Startstichprobe mit eZoZ) Sei mi die Anzahl der Untersuchungseinheiten in dem Netzwerk, zu dem die Untersuchungseinheit Ui gehört, und sei ai die Gesamtzahl von Untersuchungseinheiten in Netzwerken, bei denen Ui edge unit ist. Die Startstichprobe von Umfang n wird als eZoZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit für Ui in jedem der n Züge ist pi = mi + ai , N i = 1, . . . , N. (b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist N − m − a .N i i πi = 1 − , n n i = 1, . . . , N. Lemma 8.9 (Startstichprobe mit eZmZ) Die Startstichprobe von Umfang n wird als eZmZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit für Ui in jedem der n Züge ist pi = mi + ai , N i = 1, . . . , N. (b) Die Wahrscheinlichkeit, dass Ui in die Stichprobe gelangt, ist n πi = 1 − (1 − pi) , i = 1, . . . , N. 107 Bemerkung 8.10 (a) Falls die Untersuchungseinheit Ui die Bedingung erfüllt, so ist ai = 0. Falls Ui die Bedingung nicht erfüllt, so ist mi = 1. (b) Die Auswahlwahrscheinlichkeiten pi und die Einschlusswahrscheinlichkeiten πi können nicht anhand der Daten bestimmt werden, weil unter Umständen einige der ai unbekannt bleiben. Satz 8.11 (modifizierter Hansen-Hurwitz Schätzer) Bezeichne Ψi das Netzwerk, das die Untersuchungseinheit Ui enthält, und sei mi die Anzahl der Untersuchungseinheiten in diesem Netzwerk. Definiere 1 X Yj . wi = mi j∈Ψ i (a) Der unverzerrte modifizierte Hansen-Hurwitz Schätzer für das Populationsmittel lautet n 1X ˆ wi . Ȳ . = n i=1 (b) Falls die Startstichprobe eine eZoZ ist, so gilt 1 VaroZ (Ȳˆ.) = n n 1− N N 2 1 X wi − Ȳ . N − 1 i=1 108 (b0) Falls die Startstichprobe eine eZmZ ist, so gilt N X 2 1 1 VarmZ (Ȳˆ.) = wi − Ȳ . n N i=1 (c) Ein unverzerrter Schätzer für die Varianz ist c oZ (Ȳˆ.) = 1 Var n n 1− N n 2 1 X ˆ wi − Ȳ . n − 1 i=1 (c0) Ein unverzerrter Schätzer für die Varianz ist n 2 X 1 1 ˆ ˆ c VarmZ (Ȳ .) = wi − Ȳ . n n − 1 i=1 Beweis: siehe Vorlesung 109 Bemerkung 8.12 (modifizierter Horvitz-Thompson Schätzer) Falls die Startstichprobe eine eZoZ ist, so definiere die Wahrscheinlichkeit 0 πi N − m .N i . =1− n n Falls die Startstichprobe eine eZmZ ist, so definiere πi0 = 1 − (1 − mi/N )n. Dabei ist mi wiederum die Anzahl von Untersuchungseinheiten in dem Netzwerk, das Ui enthält. Erfüllt Ui die Bedingung nicht, so ist mi = 1. Sei Ji = 0, falls Ui nicht die Bedingung erfüllt und nicht in der Startstichprobe ist, andernfalls Ji = 1. Sei ν die Anzahl der unterschiedlichen Untersuchungseinheiten in der Stichprobe. Dann ist der modifizierte Horvitz-Thompson-Schätzer für das Populationsmittel gegeben durch ν 1 X Yi Ji ˆ Ȳ . = . N i=1 πi0 Alternativ: Sei K die Anzahl der Netzwerke in der Population und sei Ψk die Menge der Untersuchungseinheiten im k-ten Netzwerk. Sei xk die Anzahl der Untersuchungseinheiten P im k-ten Netzwerk. Sei Yk∗ = i∈Ψk Yi die Merkmalssumme im k -ten Netzwerk. Die Wahrscheinlichkeit πi0 ist für alle Untersuchungseinheiten in dem Netzwerk gleich, d.h. πi0 = αk und N − x .N k αk = 1 − n n n bei eZoZ und αk = 1 − (1 − xk /N ) bei eZoZ. Definiere Zk = 1, falls irgendeine Untersuchungseinheit aus dem k-ten Netzwerk in der Startstichprobe ist, sonst Zk = 0. 110 Mit der Netzwerknotation lässt sich obiger Schätzer auch darstellen als K X Yk∗ Zk 1 ˆ Ȳ . = N k=1 αk Für die Varianzen und Varianzformeln siehe Thompson (2002), Sampling, Wiley, Seite 296-297. Bemerkung 8.13 Betrachte die adaptive Klumpenstichprobe mit Startstichprobenumfang n und betrachte eine eZoZ mit festen Stichprobenumfang n∗. Dann lässt sich zeigen, dass die adaptive Strategie mit dem modifizierten Hansen-Hurwitz-Schätzer zu einer größeren Präzision der Schätzung führt als eine eZoZ, falls gilt 1 1 − ∗ n n 1 2 Sy < n n 1− N K 1 XX 2 (Yi − wi) N − 1 k=1 i∈Ψ i mit Ψk dem k-ten Netzwerk in der Population. D.h. adaptive Klumpenstichprobenverfahren sind effizienter als eine eZoZ, wenn die Variabilität innerhalb der Netzwerke in der Population hinreichend groß ist. 111 8.2 Systematische und Strip adaptive Klumpenstichprobenverfahren Annahmen 8.14 Die Grundgesamtheit lässt sich in N primäre Einheiten aufteilen. Jede der primären Einheiten besteht aus M sekundären Einheiten. Damit gibt es M N Einheiten in der Grundgesamtheit. Die M N Einheiten der Grundgesamtheit werden mit Uij , i = 1, . . . , N , j = 1, . . . , M , bezeichnet. Jede Uij ist eindeutig mit einem Merkmalswert Yij verbunden. Die interessierenden Parameter sind das Populationsmittel PN PM Ȳ = (M N )−1 i=1 j=1 Yij bzw. die Populationsgröße Y = M N Ȳ . Bemerkung 8.15 Bezüglich der adaptiven Strategie gelten die gleichen Voraussetzungen wie in Abschnitt 8.1. Die Nachbarschaft der sekundären Einheiten muss eindeutig definiert sein. Eine Bedingung muss existieren, die das adaptive Hinzufügen von sekundären Untersuchungseinheiten zur Startstichprobe regelt. Seien die Y -Werte der Grundgesamtheit gegeben, dann lässt sich die Grundgesamtheit eindeutig in K Netzwerke aufteilen. Bemerkung 8.16 (Design) Es wird zunächst eine Startstichprobe von Umfang n der primären Einheiten mittels eZoZ gezogen. Wenn eine sekundäre Einheiten in einer primären Einheit der Startstichprobe die Bedingung erfüllt, so werden alle sekundären Einheiten in der Nachbarschaft ebenfalls in die Stichprobe aufgenommen. Wenn eine der neu aufgenommenen sekundären Einheiten auch die Bedingung erfüllt, so werden auch die sekundären Einheiten aus der Nachbarschaft dieser Einheit in die Stichprobe aufgenommen, usw. 112 Bezeichnung 8.17 (a) Wenn die primären Einheiten gleichmäßig über die Studienregion verteilt sind, so spricht man von einer systematischen Startstichprobe. (b) Die primären Einheiten heißen Strips (Streifen), wenn die sekundären Einheiten in den primären Einheiten in gerader Linie angeordnet sind. Lemma 8.18 (Startstichprobe mit eZoZ) Sei mij die Anzahl der primären Einheiten, die mit dem Netzwerk, welches Uij enthält, verbunden ist, und aij die Anzahl der primären Einheiten, bei denen Ui edge unit ist. Die Startstichprobe von Umfang n wird als eZoZ gezogen. Dann gilt: (a) Die Auswahlwahrscheinlichkeit für Uij in jedem der n Züge ist pij mij + aij , = N i = 1, . . . , N, j = 1, . . . , M. (b) Die Wahrscheinlichkeit, dass Uij in die Stichprobe gelangt, ist πij N − m − a .N ij ij =1− , n n i = 1, . . . , N, j = 1, . . . , M. 113 Satz 8.19 PM Sei Yi = j=1 Yij . Ein unverzerrter Schätzer für Ȳ ist gegeben durch n 1 X ˆ ¯ Yi Y0 = M n i=1 mit 1 ˆ ¯ Var(Y0) = M 2n N n 1− N 1 X 2 (Yi − M Ȳ ) N − 1 i=1 n 1− N 1 X ¯0)2. (Yi − M Yˆ n − 1 i=1 und unverzerrter Varianzschätzung c (Yˆ ¯0) = 1 Var M 2n n Beweis: Anwendung von Satz 1.5 Beachte: Eine unverzerrte Varianzschätzung gibt es nicht, wenn die primären Einheiten mit einer systematischen Auswahl mit zufälligem Start gezogen wurden. 114 Satz 8.20 (Schätzer basierend auf partiellen Auswahlwahrscheinlichkeiten) Sei K die Anzahl der Netzwerke in der Grundgesamtheit und Yk die k-te Netzwerksumme des interessierenden Merkmals. Sei 1, falls die i-te primäre Einheit mit dem Netzwerk k verbunden ist, Iik = 0, sonst. PN Sei xk = i=1 Iik die Anzahl der primären Einheiten in der Grundgesamtheit, die mit dem k-ten Netzwerk verknüpft sind. Die Auswahlwahrscheinlichkeit, dass die primäre Einheit mit dem k-ten Netzwerk verknüpft ist, ist somit xk /N . Definiere für die i-te primäre Einheit K 1 X Yk Iik . wi = M k=1 xk (a) Ein unverzerrter Schätzer für Ȳ ist gegeben durch n 1X ˆ ¯ Y1 = wi n i=1 ¯1) = 1 mit Var(Yˆ n n 1− N N 2 1 X wi − Ȳ . N − 1 i=1 (b) Die Varianz wird unverzerrt geschätzt durch c (Yˆ ¯1) = 1 Var n n 1− N n 2 1 X ˆ ¯ wi − Y1 . n − 1 i=1 115 Satz 8.21 (Schätzer basierend auf partiellen Einschlusswahrscheinlichkeiten) Sei αk die Wahrscheinlichkeit, dass eine oder mehrere primäre Einheiten, die mit dem k-ten Netzwerk verknüpft sind, in die Startstichprobe gelangen, d.h. N − x .N k αk = 1 − . n n Sei αkj die Wahrscheinlichkeit, dass eine oder mehrere primäre Einheiten, die mit dem k-ten und dem j -ten Netzwerk verknüpft sind, in die Startstichprobe gelangen, d.h., N − xk N − xj N − xk − xj + xkj .N , αkj = 1 − + − n n n n wobei xkj die Anzahl der primären Einheiten ist, die mit den Netzwerken k und j verknüpft sind. Sei Zk = 1, wenn eine oder mehrere primären Einheiten in der Startstichprobe sind, die mit dem k-ten Netzwerk verknüpft sind, sonst Zk = 0. Dann ist ein unverzerrter Schätzer für Ȳ gegeben durch Ȳˆ2 = K 1 X Yk Zk M N k=1 αk mit K K XX 1 ˆ Var(Ȳ2) = YK Yj M 2N 2 k=1 j=1 αkj −1 αk αj , 116 wobei αkk = αk . Der unverzerrte Varianzschätzer lautet K K X X YK Yj Zk Zj 1 ˆ c Var(Ȳ2) = M 2N 2 k=1 j=1 αkj αkj −1 αk αj 8.3 Geschichtete adaptive Klumpenstichprobenverfahren Designs für geschichtete adaptive Klumpenstichprobenverfahren: Die Grundgesamtheit wird in L disjunkte Schichten aufgeteilt und jede Schicht h besteht aus Nh Einheiten, PL h = 1, . . . , L. Der Umfang der Grundgesamtheit ist N = Jeder h=1 Nh . Untersuchungseinheit Uhi wird eindeutig ein Merkmalswert Yhi, h = 1, . . . , L, i = 1, . . . , Nh, zugeordnet. In jeder Schicht h wird nun eine Startstichprobe vom Umfang nh gezogen. Für die adaptive Strategie gelten dieselben Annahmen und Voraussetzungen wie in Abschnitt 8.1 und 8.2. Für gegebene Y -Werte kann die Population wiederum in K disjunkte Netzwerke aufgeteilt werden. Netzwerke sind dadurch charakterisiert, dass, wenn eine Einheit des Netzwerks in der Startstichprobe ist, so gelangen alle Einheiten des Netzwerks in die endgültige Stichprobe. Beachte, dass die Einheiten des Netzwerks zu unterschiedlichen Schichten gehören können. 117 Sei rhi die Anzahl, wie oft Untersuchungseinheit Uhi ausgewählt wird. Sei mkhi die Anzahl der Einheiten aus der Schicht k, die mit dem Netzwerk, das Uhi enthält, verknüpft sind. Sei akhi die Anzahl der Netzwerke in Schicht k, bei denen Uhi edge unit ist. Die erwartete Anzahl, wie oft Uhi ausgewählt wird, ist dann E(rhi) = L X k=1 nk mkhi + akhi . Nk Die Wahrscheinlichkeit, dass Uhi in die Stichprobe gelangt, ist πhi L Y Nk − mkhi − akhi.Nk =1− nk nk k=1 Satz 8.22 Definiere L whi L .X n nh X k = ξkhi mkhi, Nh k=1 N k k=1 wobei ξkhi die Gesamtsumme der Y -Werte der Einheiten des Netzwerks von Uhi aus Schicht k. 118 Ein unverzerrter Schätzer für das Populationsmittel Ȳ ist dann gegeben durch nh L X X 1 N h whi Ȳˆ1 = N h=1 nh i=1 mit L 1 X Sh2 ˆ Var(Ȳ1) = 2 Nh(Nh − nh) , N h=1 nh wobei N 2 Sh h X 2 1 = whi − W̄h Nh − 1 i=1 N h 1 X whi. und W̄h = nh i=1 Die Varianz Sh2 wird durch die Stichprobenvarianz n h 1 X 2 2 sh = (whi − w̄) , nh i=1 n h 1 X w̄ = whi, nh i=1 unverzerrt geschätzt. 119 Bemerkung 8.23 (a) Anstelle von whi kann auch die neue Variable 0 whi = L X ξkhi L .X k=1 mkhi k=1 ˆ 0, indem w durch w0 in definiert werden. Damit ergibt sich ein neuer Schätzer Ȳ hi 1 hi 0 Satz 8.22 ersetzt wird. Beachte, dass whi und whi gleich sind, falls die Schichten alle gleich groß sind und die Umfänge der Startstichproben in den Schichten ebenfalls. (b) Anstelle von whi kann auch die neue Variable 00 whi . = ξhhi mhhi definiert werden, d.h. es werden keine Untersuchungseinheiten des Netzwerks von Uhi ˆ 00 ergibt sich, berücksichtigt, die in anderen Schichten liegen. Der neue Schätzer Ȳ 1 00 indem whi durch whi in Satz 8.22 ersetzt wird. Satz 8.24 Seien die K verschiedenen Netzwerke mit 1, 2, . . . , K bezeichnet. Sei Yi die Gesamtsumme im i-ten Netzwerk. Sei xhi die Anzahl der Einheiten in Schicht h, die mit dem Netzwerk i verknüpft sind. Die Wahrscheinlichkeit, dass die Startstichprobe 120 mit dem Netzwerk i verknüpft ist, lautet L Y Nk − xki.Nk αi = 1 − . n n k k k=1 Sei qi = 1 − αi, dann ist die Wahrscheinlichkeit, dass die Startstichprobe mit den Netzwerken i und j verknüpft ist, gegeben durch αij L Y Nk − xki − xkj .Nk = 1 − qi − qj + nk nk k=1 Sei Zi = 1, falls die Startstichprobe mit dem Netzwerk i verknüpft ist, sonst Zi = 0. Der unverzerrte stratifizierte Schätzer vom Horvitz-Thompson-Typ ist gegeben durch K 1 X Yi Zi ˆ Ȳ2 = N i=1 αi k k 1 XX ˆ mit Var(Ȳ2) = 2 Yi Yj N i=1 j=1 αij −1 αi αj Die Varianz wird erwartungstreu geschätzt durch k k 1 X X Yi Yj Zi Zj ˆ c Var(Ȳ2) = 2 N i=1 j=1 αij αij −1 αi αj 121 §9 Ausblick auf weitere Verfahren und Anwendungen • Nonresponse • Multivariate Stichprobenverfahren • Ranked Set Sampling 122 9.1 Nonresponse Einfaches Modell: Unterteile die GG in zwei Schichten; Schicht 1 sind die Responder und Schicht 2 die Nonresponder. Seien W1 = N1/N und W2 = N2/N die entsprechenden Schichtgewichte. Wenn die Untersuchung beendet ist, liegen nur Informationen über Schicht 1 vor; es gibt keine Daten aus Schicht 2. Wie sieht der Erwartungswert von ȳ bei eZoZ bei Vorliegen von Nonresponse aus? Kann ein zuverlässiges Konfidenzintervall für Ȳ angegeben werden? Bias: W2 (Ȳ1 − Ȳ2) Stetiges Merkmal: ?? Binäres Merkmal: P2 ∈ [0, 1] Seien W1 und W2 bekannt und sei eine Stichprobe vom Umfang n1 gegeben, dann ist ein approximatives (1 − α)-Konfidenzintervall für P1 gegeben durch p1 ± u1−α/2 q p1 (1 − p1)/n1 123 Ein konservatives (1 − α)-Konfidenzintervall für P ist gegeben durch [P̂L, P̂U ] mit p1 − u1−α/2 P̂L = W1 und P̂U = W1 p1 + u1−α/2 q p1 (1 − p1)/n1 q + W2 · 0 p1 (1 − p1)/n1 + W2 · 1 Je größer W2, d.h. der Anteil der Nonresponder, desto breiter ist das Konfidenzintervall. Ziel: W2 möglichst klein. Die Grenzen können auch etwas schmaler gemacht werden, da nie gleichzeitig p2 = 0 und p2 = 1 — wie oben angenommen — auftreten kann. Literatur: Kapitel 13 in Cochran (1977), Sampling Techniques, Wiley. 124 9.2 Multivariate Stichprobenverfahren Literatur: Kreienbrock, L. (1986). Einfache und geschichtete Zufallsauswahl aus endlichen Grundgesamtheiten bei multivariaten Beobachtungen. Dissertation, Fachbereich Statistik, Uni Dortmund. In allen bisherigen Stichprobenverfahren wurde nur ein Merkmal Y erhoben. Häufig werden aber mehrere Merkmale Y1, . . . Yk an einer Untersuchungseinheit erhoben. Beachte: einfache und geschichtete Zufallsauswahl wählen die Untersuchungseinheit aus; unabhängig davon, ob ein oder mehrere Merkmal erhoben werden. Aber: die Merkmale Y1, . . . Yk sind in der Regel korreliert; die Rolle der Varianz bei einem Merkmal übernimmt nun die Kovarianzmatrix der Merkmale Y1, . . . Yk . Wann ist eine Kovarianzmatrix A ”kleiner” als eine Kovarianzmatrix B ? 125 9.3 Ranked Set Sampling Kosteneffektive Stichprobenverfahren Problem: Bestimmung von Yi ist kostspielig, arbeitsaufwendig und/oder zeitaufwendig. McIntyre (1952, Australian Journal of Agricultural Research), Durchschnittlicher Heuertrag wurde effizienter (präziser) als durch eZoZ geschätzt. Grundlegende Idee / Annahme: Eine Stichprobe (Menge) von Untersuchungseinheiten kann durch gewisse Charakteristika bezüglich der interessierenden Variablen Y , ohne diese tatsächlich zu messen, klassifiziert bzw. geordnet werden. McIntyre (1952): 1. Schritt: Ziehe eine eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tatsächliche Messung von Y ), wähle das Stichprobenelement mit Rang 1 und messe Y ; ignoriere alle weiteren Stichprobenelemente. 2. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tatsächliche Messung von Y ), wähle das Stichprobenelement mit Rang 2 und messe Y ; ignoriere alle weiteren Stichprobenelemente. ... k. Schritt: Ziehe eine neue eZoZ vom Umfang k, ordne die k Stichprobenelemente bzgl. der Variablen Y durch Beurteilung (ohne die tatsächliche Messung von Y ), wähle das Stichprobenelement mit Rang k und messe Y ; ignoriere alle weiteren Stichprobenelemente. 126 Wiederhole die Schritte 1 bis n m-mal (m Zyklen) ⇒ Stichprobenumfang n = m k. Das Konzept des Ranked Set Sampling (RSS) ist ähnlich der geschichteten Zufallsauswahl. RSS kann als Post-Stratifikation der Stichprobenelemente bezüglich ihrer Ränge aufgefasst werden. Das Ranking kann durch eine latente Variable (Beispiel McIntyre: Beurteilung der Größe des Heuertrags durch einen erfahrenen Bauern per einfacher Betrachtung des Feldes) oder durch eine externe Variable X erfolgen. Unter einer Konsistenzannahme lässt sich zeigen, dass das Stichprobenmittel des RSS-Verfahrens erwartungstreu für das Populationsmittel ist und die Varianz des Stichprobenmittels des RSS-Verfahrens stets kleiner gleich der Varianz des Stichprobenmittels bei eZmZ ist; und die Gleichheit gilt nur dann, wenn das Ranking zufällig geschieht. Literatur: Chen, Z., Bai, Z., Sinha, B.K. (2004), Ranked Set Sampling, Springer. 127