Grundzüge der Stichprobentheorie © Statistisches Bundesamt www.forschungsdatenzentrum.de Gründe für Stichprobenerhebung - deutlich geringere Kosten - größere Anwendungsbreite - kürzere Erhebungs- und Auswertungszeiten - in der Regel größere Genauigkeit der Ergebnisse © Statistisches Bundesamt www.forschungsdatenzentrum.de Begriffsbestimmung Eine Auswahl von Untersuchungseinheiten der Grundgesamtheit bezeichnet man als Stichprobe (engl.: sample). Der quantitative Anteil, den die Stichprobe am Umfang der Grundgesamtheit hat, wird als Auswahlsatz bezeichnet. Eine Stichprobe soll ein möglichst repräsentatives Bild der Grundgesamtheit liefern. Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht. © Statistisches Bundesamt www.forschungsdatenzentrum.de Auswahltechniken bei Zufallsstichproben Echte Zufallsauswahl - Auslosen oder Würfeln - Auswahl nach Zufallszahlen Ersatzverfahren für eine Zufallsauswahl - Systematische Auswahl mit Zufallsstart - Schlussziffernauswahl - Auswahl nach Namensanfang - Auswahl nach dem Geburtstag © Statistisches Bundesamt www.forschungsdatenzentrum.de Klumpenstichprobe (Clustersampling) In einer Klumpenstichprobe wird die Grundgesamtheit in viele kleine (oft geografisch abgegrenzte) Teilgesamtheiten zerlegt, die so genannten Klumpen. Dabei geht man so vor, dass nur ein Teil der Klumpen zufällig ausgewählt wird und in die Stichprobe gelangt. Innerhalb der Klumpen gelangen dann alle Merkmalsträger in die Stichprobe. Gleiche Wahrscheinlichkeit für jeden Klumpen in die Stichprobe zu gelangen, bei ungleich großen Knoten differierende Wahrscheinlichkeit für die Merkmalsträger in die Stichprobe zu gelangen © Statistisches Bundesamt www.forschungsdatenzentrum.de Auswahl bei nichtzufälligen Stichproben typische Auswahl Abschneideverfahren Auswahl nach dem Quotenverfahren © Statistisches Bundesamt www.forschungsdatenzentrum.de Schreibweise und Definitionen N Anzahl der Elemente der Grundgesamtheit n n N Anzahl der Elemente der Stichprobe N n Hochrechnungsfaktor Auswahlsatz y1 , y2 ,..., y N Merkmalswerte der N Elemente der Grundgesamtheit y1 , y2 ,..., yn Merkmalswerte der n Elemente der Stichprobe © Statistisches Bundesamt www.forschungsdatenzentrum.de Anzahl der möglichen Stichproben ⎛N⎞ N! ⎜⎜ ⎟⎟ = ⎝ n ⎠ n!( N − n)! Beispiel: Grundgesamtheit von A, B, C, D, E Auswahlsatz 3 ⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5 ⎜⎜ ⎟⎟ = = = 10 3 ⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2 Mögliche Stichproben: © Statistisches Bundesamt ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE www.forschungsdatenzentrum.de Aufgabe 1 Folgende Einkommensangaben (in Tsd.) sind bekannt: 2, 2, 12, 46, 96 Ziehen Sie alle möglichen Stichproben mit einem Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des Einkommens für die Grundgesamtheit! Ermitteln Sie den Mittelwert der Mittelwerte. © Statistisches Bundesamt www.forschungsdatenzentrum.de Der wahre Wert der Grundgesamtheit © Statistisches Bundesamt www.forschungsdatenzentrum.de Schreibweise und Definitionen Grundgesamtheit: N Y = ∑ yi = y1 + y2 + .... + y N i =1 1 Y = N N ∑y i =1 i Stichprobe (Schätzung des wahren unbekannten Wertes in der Grundgesamtheit): N ˆ Y= n n N yi = ( y1 + y2 + .... + yn ) ∑ n i =1 © Statistisches Bundesamt 1 n ˆ Y = y = ∑ yi n i =1 www.forschungsdatenzentrum.de Varianz Varianz der yi in einer endlichen Grundgesamtheit: N 1 2 σ2 = ( y − Y ) ∑ i N − 1 i =1 Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe: V ( y ) = E (y − Y ) = 2 n wobei f = N © Statistisches Bundesamt σ2 N −n n N = σ2 n (1 − f ) www.forschungsdatenzentrum.de Varianz der Schätzwerte Unverzerrte Schätzfunktion für die Varianz des Mittelwertes: v( y ) = s y2 = s y2 n (1 − f ) Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme: 2 2 ) N sy 2 v(Y ) = sYˆ = (1 − f ) n © Statistisches Bundesamt www.forschungsdatenzentrum.de Konfidenzintervalle Gesamtwert: ⎤ ⎡ˆ ⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥ 2 2 ⎦ ⎣ Mittelwert: ⎤ ⎡ ⎢ y − z1− α s y , y + z1− α s y ⎥ 2 2 ⎦ ⎣ © Statistisches Bundesamt www.forschungsdatenzentrum.de Aufgabe 2 Eine einfache Zufallsstichprobe wird aus einer Stadt mit 14848 Haushalten gezogen. Bei den 30 ausgewählten Haushalten ergaben sich folgende Haushaltsgrößen: 5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4 Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist die Wahrscheinlichkeit, dass der berechnete Wert nicht mehr als +/- 10% vom wahren Wert abweicht? © Statistisches Bundesamt www.forschungsdatenzentrum.de Optimierung von Stichprobenplänen Ziel: Minimierung der Varianz - Sortieren nach einem oder mehreren Merkmalen - Schichtung der Grundgesamtheit - Aufteilung des Stichprobenumfangs © Statistisches Bundesamt www.forschungsdatenzentrum.de Optimierung von Stichprobenplänen Sortierung N y Auf- oder absteigende Sortierung nach einem oder mehreren Merkmalen © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung N Schicht 2 Schicht 1 y © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Als Schichtung wird eine vollständige Zerlegung der Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren wird geschichtete Zufallsstichprobe genannt, wenn in jeder Schicht eine unabhängige Zufallsauswahl durchgeführt wird. © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel unbekannte Gesamtheit {1,2,3,11,12,13} mit dem tatsächlichen Mittelwert von ⎯y =7 Aufgabe: Schätze den Mittelwert durch eine Stichprobe vom Umfang n = 2. Ungünstigste Stichproben (1,2) und (12,13) mit Schätzungen für den Mittelwert von 1,5 und 12,5 © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel vorherige Schichtung in: Merkmalswerte < 10 ⇒ {1,2,3} Merkmalswerte >= 10 ⇒ {11,12,13} und Ziehung von jeweils einer Einheit in jeder Schicht ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus Schicht 2 der Wert 11 führt zu einer wesentlich verbesserten Schätzung des Mittelwertes mit ⎯y=6 © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung N Schicht 2 Schicht 1 y Optimierende Aufteilung des Stichprobenumfangs auf Schicht 1 und 2 © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Schichtungsprinzipien Schichtungsprinzip A Wähle die Auswahl in den Schichten so, dass die Varianz der Erhebungsmerkmale innerhalb der Schichten möglichst klein ist ⇒ Steigerung der Präzision für die Erhebungsgesamtheit Schichtungsprinzip B Wähle die Auswahl in den Schichten so, dass sie möglichst identisch ist mit der vorgesehenen Ergebnisgliederung der Erhebung ⇒ Reduzierung des Untergruppeneffekts © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung - proportionale Aufteilung n nh = N h N - optimale Aufteilung Zielfunktion: sY2ˆ = Min! nh = N h * shy ∑ (N h * shy ) *n h ⇒ Kleinster Stichprobenfehler für das Gesamtergebnis © Statistisches Bundesamt www.forschungsdatenzentrum.de relativer Standardfehler Der relative Standardfehler von Yˆ und y stimmen überein: 1 s y N sYˆ sYˆ νy = = = = ν Yˆ 1 ˆ Yˆ y Y N Schätzung des relativen Standardfehlers: sy 1− f νy = = *ν y mit ν y = y n y sy © Statistisches Bundesamt www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse - Erhöhung der Präzision für Teilergebnisse durch Abstufung des relativen Standardfehlers C vYˆ = α h Yˆh © Statistisches Bundesamt Abstufung erfolgt über den Exponent α der Werte zwischen 0 und 0,5 annehmen kann www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse Nh nh = 2 Nh C * 2 +1 α 2 vhy Yˆh Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik, 6. Auflage, Oldenbourg Verlag 2001, S. 123 ff. © Statistisches Bundesamt www.forschungsdatenzentrum.de Die Stichprobe der Einkommensteuerstatistik - jährliche Erfassung der Einkommensteuererklärungen N bei rund 28. Mio Steuerpflichtigen Abbildung des Besteuerungsprozesses verschiedene geschichtete Stichproben nach dem Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse © Statistisches Bundesamt www.forschungsdatenzentrum.de Aufgabe 3 In der Haushaltesstichprobe einer Stadt (n=15) wurde die Stadtteilqualität als Schichtungsmerkmal, mit drei Ausprägungen, genutzt (h = 1,2,3). Für die Haushalte wurde die Anzahl der Haushaltsmitglieder erfasst. (5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2) (3,3) (2,1) (7,3) (4,2) (3,2) Schicht h1 N=1500, Schicht h2 N=600, Schicht h3 N=800 Schätzen Sie die Einwohnerzahl der Stadt! © Statistisches Bundesamt www.forschungsdatenzentrum.de