III. Grundzüge der Stichprobentheorie Sommersemester 2010 www.forschungsdatenzentrum.de Gründe für Stichprobenerhebung - deutlich geringere Kosten - größere Anwendungsbreite - kürzere Erhebungs- und Auswertungszeiten - in der Regel größere Genauigkeit der Ergebnisse Sommersemester 2010 www.forschungsdatenzentrum.de Begriffsbestimmung Eine Auswahl von Untersuchungseinheiten der Grundgesamtheit bezeichnet man als Stichprobe (engl.: sample). Der quantitative Anteil, den die Stichprobe am Umfang der Grundgesamtheit hat, wird als Auswahlsatz bezeichnet. Eine Stichprobe soll ein möglichst repräsentatives Bild der Grundgesamtheit liefern. Eine Stichprobe heißt repräsentativ, wenn sie in der Verteilung aller interessierenden statistischen Merkmalen der Grundgesamtheit entspricht. Sommersemester 2010 www.forschungsdatenzentrum.de Auswahltechniken bei Zufallsstichproben Echte Zufallsauswahl - Auslosen oder Würfeln - Auswahl nach Zufallszahlen Ersatzverfahren für eine Zufallsauswahl - Systematische Auswahl mit Zufallsstart - Schlussziffernauswahl - Auswahl nach Namensanfang - Auswahl nach dem Geburtstag Sommersemester 2010 www.forschungsdatenzentrum.de Klumpenstichprobe In einer Klumpenstichprobe wird die Grundgesamtheit in viele kleine (oft geografisch abgegrenzte) Teilgesamtheiten zerlegt, die so genannten Klumpen. Dabei geht man so vor, dass nur ein Teil der Klumpen zufällig ausgewählt wird und in die Stichprobe gelangt. Innerhalb der Klumpen gelangen dann alle Merkmalsträger in die Stichprobe. Sommersemester 2010 www.forschungsdatenzentrum.de Auswahl bei nichtzufälligen Stichproben typische Auswahl Abschneideverfahren Auswahl nach dem Quotenverfahren Sommersemester 2010 www.forschungsdatenzentrum.de Schreibweise und Definitionen N Anzahl der Elemente der Grundgesamtheit n n N Anzahl der Elemente der Stichprobe N n Hochrechnungsfaktor Auswahlsatz y1 , y2 ,..., y N Merkmalswerte der N Elemente der Grundgesamtheit y1 , y2 ,..., yn Merkmalswerte der n Elemente der Stichprobe Sommersemester 2010 www.forschungsdatenzentrum.de Anzahl der möglichen Stichproben ⎛N⎞ N! ⎜⎜ ⎟⎟ = ⎝ n ⎠ n!( N − n)! Beispiel: Grundgesamtheit von A, B, C, D, E Auswahlsatz 3 ⎛ 5 ⎞ 1* 2 * 3 * 4 * 5 4 * 5 ⎜⎜ ⎟⎟ = = = 10 3 ⎝ ⎠ 1* 2 * 3 * (1* 2) 1* 2 Mögliche Stichproben: Sommersemester 2010 ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, CDE www.forschungsdatenzentrum.de Aufgabe 1 Folgende Einkommensangaben (in Tsd.) sind bekannt: 2, 2, 12, 46, 96 Ziehen Sie alle möglichen Stichproben mit einem Auswahlsatz von 3 und vergleichen Sie die Mittelwerte der Einkommen mit dem Mittelwert des Einkommens für die Grundgesamtheit! Ermitteln Sie den Mittelwert der Mittelwerte. Sommersemester 2010 www.forschungsdatenzentrum.de Der wahre Wert der Grundgesamtheit Sommersemester 2010 www.forschungsdatenzentrum.de Schreibweise und Definitionen Grundgesamtheit: N Y = ∑ yi = y1 + y2 + .... + y N i =1 1 Y = N N ∑y i =1 i Stichprobe (Schätzung des wahren unbekannten Wertes in der Grundgesamtheit): N ˆ Y= n n N yi = ( y1 + y2 + .... + yn ) ∑ n i =1 Sommersemester 2010 1 n ˆ Y = y = ∑ yi n i =1 www.forschungsdatenzentrum.de Varianz Varianz der yi in einer endlichen Grundgesamtheit: N 1 2 σ2 = ( y − Y ) ∑ i N − 1 i =1 Varianz des Mittelwertes aus einer einfachen Zufallsstichprobe: V ( y ) = E (y − Y ) = 2 σ2 N −n n N = σ2 n (1 − f ) n wobei f = N Sommersemester 2010 www.forschungsdatenzentrum.de Varianz der Schätzwerte Unverzerrte Schätzfunktion für die Varianz des Mittelwertes: v( y ) = s y2 = s y2 n (1 − f ) Unverzerrte Schätzfunktion für die Varianz der Merkmalssumme: 2 2 ) N sy 2 v(Y ) = sYˆ = (1 − f ) n Sommersemester 2010 www.forschungsdatenzentrum.de Konfidenzintervalle Gesamtwert: ⎤ ⎡ˆ ⎢Y − z1− α sYˆ , Yˆ + z1− α sYˆ ⎥ 2 2 ⎦ ⎣ Mittelwert: ⎤ ⎡ ⎢ y − z1− α s y , y + z1− α s y ⎥ 2 2 ⎦ ⎣ Sommersemester 2010 www.forschungsdatenzentrum.de Aufgabe 2 Eine einfache Zufallsstichprobe wird aus einer Stadt mit 14848 Haushalten gezogen. Bei den 30 ausgewählten Haushalten ergaben sich folgende Haushaltsgrößen: 5, 6, 3, 3, 2, 3, 3, 3, 4, 4, 3, 2, 7, 4, 3, 5, 4, 4, 3, 3, 4, 3, 3, 1, 2, 4, 3, 4, 2, 4 Schätzen Sie die Einwohnerzahl der Stadt! Wie groß ist die Wahrscheinlichkeit, dass der berechnete Wert nicht mehr als +/- 10% vom wahren Wert abweicht? Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Als Schichtung wird eine vollständige Zerlegung der Auswahlgesamtheit vor der Auswahl in überschneidungsfreie Gruppen bezeichnet. Das Auswahlverfahren wird geschichtete Zufallsstichprobe genannt, wenn in jeder Schicht eine unabhängige Zufallsauswahl durchgeführt wird. Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung Idee der optimalen Aufteilung: N Schicht 2 Schicht 1 y Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel unbekannte Gesamtheit {1,2,3,11,12,13} mit dem tatsächlichen Mittelwert von ⎯y =7 Aufgabe: Schätze den Mittelwert durch eine Stichprobe vom Umfang n = 2. Ungünstigste Stichproben (1,2) und (12,13) mit Schätzungen für den Mittelwert von 1,5 und 12,5 Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Beispiel vorherige Schichtung in: Merkmalswerte < 10 ⇒ {1,2,3} Merkmalswerte >= 10 ⇒ {11,12,13} und Ziehung von jeweils einer Einheit in jeder Schicht ungünstigster Fall z.B. aus Schicht 1 der Wert 1 und aus Schicht 2 der Wert 11 führt zu einer wesentlich verbesserten Schätzung des Mittelwertes mit ⎯y=6 Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Schichtungsprinzipien Schichtungsprinzip A Wähle die Schichtung so, dass die Varianz der Erhebungsmerkmale innerhalb der Schichten möglichst klein ist ⇒ Steigerung der Präzision für die Erhebungsgesamtheit Schichtungsprinzip B Wähle die Schichtung so, dass sie möglichst identisch ist mit der vorgesehenen Ergebnisgliederung der Erhebung ⇒ Reduzierung des Untergruppeneffekts Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung - proportionale Aufteilung n nh = N h N - optimale Aufteilung Zielfunktion: sY2ˆ = Min! nh = N h * shy ∑ (N h * shy ) *n h ⇒ Kleinster Stichprobenfehler für das Gesamtergebnis Sommersemester 2010 www.forschungsdatenzentrum.de relativer Standardfehler Der relative Standardfehler von Yˆ und y stimmen überein: 1 s y N sYˆ sYˆ νy = = = = ν Yˆ 1 ˆ Yˆ y Y N Schätzung des relativen Standardfehlers: sy 1− f νy = = *ν y mit ν y = y n y sy Sommersemester 2010 www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Stichprobenaufteilung Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse - Erhöhung der Präzision für Teilergebnisse durch Abstufung des relativen Standardfehlers C vYˆ = α h Yˆh Sommersemester 2010 Abstufung erfolgt über den Exponent α der Werte zwischen 0 und 0,5 annehmen kann www.forschungsdatenzentrum.de Geschichtete Zufallsstichproben Prinzip der vergleichbaren Präzision für gegliederte Ergebnisse Nh nh = 2 Nh C * 2 +1 α 2 vhy Yˆh Zur Herleitung z.B. Krug, Nourney, Schmidt: Wirtschafts- und Sozialstatistik, 6. Auflage, Oldenbourg Verlag 2001, S. 123 ff. Sommersemester 2010 www.forschungsdatenzentrum.de Aufgabe 3 In der Haushaltesstichprobe einer weiteren Stadt wurde die Stadtteilqualität als Schichtungsmerkmal h, mit drei Ausprägungen, genutzt. Schicht 1 N=1500, Schicht 2 N=600, Schicht 3 N=800 EF1 Anzahl der Personen im Haushalt EF2 Schichtnummer (5,3) (6,3) (3,2) (3,1) (2,2) (3,2) (3,2) (3,1) (4,2) (4,2) (3,3) (2,1) (7,3) (4,2) (3,2) Schätzen Sie die Einwohnerzahl der Stadt! Sommersemester 2010 www.forschungsdatenzentrum.de Lösung der Aufgabe 3 N i.1 i.2 i.3 i.4 i.5 i.6 i.7 i.8 nh Auswahlsatz (nh/Nh) Hochrechnungsfaktor (Nh/nh) Anzahl der Köpfe in nh Anzahl der Köpfe in Nh h1 1 500 3 3 2 h2 600 3 2 3 3 4 4 4 3 3 8 3/1 500 8/600 500 75 8 26 4 000 1 950 h3 800 5 6 3 7 4 4/800 200 21 4 200 Einwohnerzahl = ∑ Köpfeh = 4 000 + 1 950 + 4 200 = 10 150 Sommersemester 2010 www.forschungsdatenzentrum.de