II. Grundzüge der Stichprobentheorie © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Gründe für Stichprobenerhebung - deutlich geringere Kosten - größere Anwendungsbreite - kürzere Erhebungs- und Auswertungszeiten - in der Regel größere Genauigkeit der Ergebnisse © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Begriffsbestimmung Eine Auswahl von Untersuchungseinheiten der Grundgesamtheit bezeichnet man als Stichprobe (engl.: sample). Der quantitative Anteil, den die Stichprobe am Umfang der Grundgesamtheit hat, wird als Auswahlsatz bezeichnet. Eine Stichprobe soll ein möglichst repräsentatives Bild der Grundgesamtheit liefern. Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht. © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Auswahltechniken bei Zufallsstichproben Echte Zufallsauswahl - Auslosen oder Würfeln - Auswahl nach Zufallszahlen Ersatzverfahren für eine Zufallsauswahl - Systematische Auswahl mit Zufallsstart - Schlussziffernauswahl - Auswahl nach Namensanfang - Auswahl nach dem Geburtstag © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Klumpenstichprobe In einer Klumpenstichprobe wird die Grundgesamtheit in viele kleine (oft geografisch abgegrenzte) Teilgesamtheiten zerlegt, die so genannten Klumpen. Dabei geht man so vor, dass nur ein Teil der Klumpen zufällig ausgewählt wird und in die Stichprobe gelangt. Innerhalb der Klumpen gelangen dann alle Merkmalsträger in die Stichprobe. © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Auswahl bei nichtzufälligen Stichproben typische Auswahl Abschneideverfahren Auswahl nach dem Quotenverfahren © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Schreibweise und Definitionen N Anzahl der Elemente der Grundgesamtheit n n N Anzahl der Elemente der Stichprobe N n Hochrechnungsfaktor Auswahlsatz y1 , y2 ,..., y N Merkmalswerte der N Elemente der Grundgesamtheit y1 , y2 ,..., yn Merkmalswerte der n Elemente der Stichprobe © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Anzahl der möglichen Stichproben ⎛N⎞ N! ⎜⎜ ⎟⎟ = ⎝ n ⎠ n!( N − n)! Beispiel: Grundgesamtheit von A, B, C, D, E Auswahlsatz 3 ⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5 ⎜⎜ ⎟⎟ = = = 10 3 ⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2 Mögliche Stichproben: © Statistisches Bundesamt Wintersemester 2008/2009 ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE www.forschungsdatenzentrum.de Aufgabe 1 Folgende Einkommensangaben (in Tsd.) sind bekannt: 2, 2, 12, 46, 96 Ziehen Sie alle möglichen Stichproben mit einem Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des Einkommens für die Grundgesamtheit! Ermitteln Sie den Mittelwert der Mittelwerte. © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Der wahre Wert der Grundgesamtheit © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Schreibweise und Definitionen Grundgesamtheit: N Y = ∑ yi = y1 + y2 + .... + y N i =1 1 Y = N N ∑y i =1 i Stichprobe (Schätzung des wahren unbekannten Wertes in der Grundgesamtheit): N ˆ Y= n n N yi = ( y1 + y2 + .... + yn ) ∑ n i =1 © Statistisches Bundesamt Wintersemester 2008/2009 1 n ˆ Y = y = ∑ yi n i =1 www.forschungsdatenzentrum.de Varianz Varianz der yi in einer endlichen Grundgesamtheit: N 1 2 σ2 = ( y − Y ) ∑ i N − 1 i =1 Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe: V ( y ) = E (y − Y ) = 2 σ2 N −n n N = σ2 n (1 − f ) n wobei f = N © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Varianz der Schätzwerte Unverzerrte Schätzfunktion für die Varianz des Mittelwertes: v( y ) = s y2 = s y2 n (1 − f ) Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme: 2 2 ) N sy 2 v(Y ) = sYˆ = (1 − f ) n © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Konfidenzintervalle Gesamtwert: ⎤ ⎡ˆ ⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥ 2 2 ⎦ ⎣ Mittelwert: ⎤ ⎡ ⎢ y − z1− α s y , y + z1− α s y ⎥ 2 2 ⎦ ⎣ © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Aufgabe 2 Eine einfache Zufallsstichprobe wird aus einer Stadt mit 14848 Haushalten gezogen. Bei den 30 ausgewählten Haushalten ergaben sich folgende Haushaltsgrößen: 5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4 Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist die Wahrscheinlichkeit, dass der berechnete Wert nicht mehr als +/- 10% vom wahren Wert abweicht? © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Als Schichtung wird eine vollständige Zerlegung der Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren wird geschichtete Zufallsstichprobe genannt, wenn in jeder Schicht eine unabhängige Zufallsauswahl durchgeführt wird. © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung Idee der optimalen Aufteilung: N Schicht 2 Schicht 1 y © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel unbekannte Gesamtheit {1,2,3,11,12,13} mit dem tatsächlichen Mittelwert von ⎯y =7 Aufgabe: Schätze den Mittelwert durch eine Stichprobe vom Umfang n = 2. Ungünstigste Stichproben (1,2) und (12,13) mit Schätzungen für den Mittelwert von 1,5 und 12,5 © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel vorherige Schichtung in: Merkmalswerte < 10 ⇒ {1,2,3} Merkmalswerte >= 10 ⇒ {11,12,13} und Ziehung von jeweils einer Einheit in jeder Schicht ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus Schicht 2 der Wert 11 führt zu einer wesentlich verbesserten Schätzung des Mittelwertes mit ⎯y=6 © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Schichtungsprinzipien Schichtungsprinzip A Wähle die Schichtung so, dass die Varianz der Erhebungsmerkmale innerhalb der Schichten möglichst klein ist ⇒ Steigerung der Präzision für die Erhebungsgesamtheit Schichtungsprinzip B Wähle die Schichtung so, dass sie möglichst identisch ist mit der vorgesehenen Ergebnisgliederung der Erhebung ⇒ Reduzierung des Untergruppeneffekts © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung - proportionale Aufteilung n nh = N h N - optimale Aufteilung Zielfunktion: sY2ˆ = Min! nh = N h * shy ∑ (N h * shy ) *n h ⇒ Kleinster Stichprobenfehler für das Gesamtergebnis © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de relativer Standardfehler Der relative Standardfehler von Yˆ und y stimmen überein: 1 s y N sYˆ sYˆ νy = = = = ν Yˆ 1 ˆ Yˆ y Y N Schätzung des relativen Standardfehlers: sy 1− f νy = = *ν y mit ν y = y n y sy © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse - Erhöhung der Präzision für Teilergebnisse durch Abstufung des relativen Standardfehlers C vYˆ = α h Yˆh © Statistisches Bundesamt Wintersemester 2008/2009 Abstufung erfolgt über den Exponent α der Werte zwischen 0 und 0,5 annehmen kann www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse Nh nh = 2 Nh C * 2 +1 α 2 vhy Yˆh Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik, 6. Auflage, Oldenbourg Verlag 2001, S. 123 ff. © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Aufgabe 3 In der Haushaltesstichprobe einer weiteren Stadt wurde die Stadtteilqualität als Schichtungsmerkmal h, mit drei Ausprägungen, genutzt. Schicht 1 N=1500, Schicht 2 N=600, Schicht 3 N=800 EF1 Anzahl der Personen im Haushalt EF2 Schichtnummer (5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2) (3,3) (2,1) (7,3) (4,2) (3,2) Schätzen Sie die Einwohnerzahl der Stadt! © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de Lösung der Aufgabe 3 N h.1 h.2 h.3 h.4 h.5 h.6 h.7 h.8 n Auswahlsatz (n/N) Hochrechnungsfaktor (N/n) Anzahl der Köpfe für n Anzahl der Köpfe für N h1 1 500 3 3 2 h2 600 3 2 3 3 4 4 4 3 3 8 3/1 500 8/600 500 75 8 26 4 000 1 950 h3 800 5 6 3 7 4 4/800 200 21 4 200 Einwohnerzahl = ∑ Köpfeh = 4 000 + 1 950 + 4 200 = 10 150 © Statistisches Bundesamt Wintersemester 2008/2009 www.forschungsdatenzentrum.de