Zufallsstichproben

Werbung
Zufallsstichproben
•Zufallsstichprobe
•Varianz der Grundgesamtheit
•Streuung des Mittelwertes
•Stichprobengröße
•Konfidenzintervall
•Ziehen einer einfachen Zufallsstichprobe
•Geschichtete Zufallsstichproben
•Klumpenstichprobe
•Mehrstufige Auswahlverfahren
•PPS Design, Zufallsweg & Schwedenschlüssel
Schnell, R. Hill, P. B. Esser, E. 1999, Methoden der empirischen Sozialforschung.
München: Oldenbourg.
Diekmann, A. 2002, Empirische Sozialforschung. Reinbek: Rowohlt.
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/21
Auswahlverfahren
Zufallsstichprobe
(random samples)
•Wahrscheinlichkeit gegeben
•inferenzstatistische Techniken
Schnell, Hill, Esser 1999, S.252
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
Zufallsstichprobe
Schnell, Hill, Esser 1999, S.252
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
2/21
Zufallsstichprobe
Ein Zufallsprozeß entscheidet über die Aufnahme
eines Elementes in die Stichprobe.
Für jedes Element der Grundgesamtheit ist die
Auswahlwahrscheinlichkeit angebbar
(muß größer als Null sein)
Grundgesamtheit:
Stichprobe:
N Elementen
n Elementen (n<N)
Falls jede mögliche Stichprobe n dieselbe
Chance der Realisierung hat :
einfache Zufallsstichprobe
(simple random sample)
EPSEM: equal probability sampling method
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
3/21
Zufallsstichprobe
Es gibt nur begrenzt viele Möglichkeiten
aus einer Grundgesamtheit von N Elementen
unterschiedliche Stichproben mit n Elementen
zu ziehen
Kombinatorik
Urnenauswahl ohne zurücklegen und
ohne Beachtung der Reihenfolge
Beispiel
N!
n !( N − n)!
Grundgesamtheit N=4
A,B,C,D
Stichprobe, n=2
AB, AC,AD, BC,BD,CD
4!/(2!*(4-2)!)=4*3*2*1/(2*1)*(2*1)=12/2=6
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
4/21
Zufallsstichprobe
xi
Parameter:
z.B. Mittelwert
x
Schätzer des Parameters
z.B. Schätzer des Mittelwertes
mit Fehler behaftet
Bei einer genügend großen Anzahl unabhängiger
Stichproben der Größe n, entspricht der Mittelwert
von dem Mittelwert x
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
5/21
Zufallsstichprobe
Die Streuung
von um x hängt von
1. Varianz in der Grundgesamtheit
2. Stichprobengröße n
ab
Standardfehler des
Mittelwertes
Varianz in der Grundgesamtheit
selten bekannt
wird geschätzt durch
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
6/21
Zufallsstichprobe
Mittelwertverteilung für unterschiedliches
σ2 und x
Bortz 1999, S.90
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7/21
Zufallsstichprobe
Mittelwertverteilung für unterschiedliches
σ2 und x
Bortz 1999, S.90
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
8/21
Zufallsstichprobe
Standardfehler des
Mittelwertes
95% Konfidenzintervall
•Die Größe des Konfidenzintervalls hängt von der
Größe des Standardfehlers des Mittelwertes ab
•Die Größe des Standardfehlers des Mittelwertes
hängt von der Varianz der Grundgesamtheit
und der Stichprobengröße ab
•Der Standardfehler sinkt mit der Wurzel aus der
Stichprobengröße
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
9/21
Zufallsstichprobe
Konfidenzintervall
Schnell Hill Esser 1999, S. 258
95% Konfidenzintervall: bei einer unendlichen Anzahl
von Stichproben der Größe n aus der Grundgesamtheit
enthalten 95% der Intervalle den tatsächlichen
Mittelwert aus der Grundgesamtheit
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
10/21
Zufallsstichprobe
Standardfehler des
Mittelwertes
Konfidenzintervall
z.B.
Um Fehler
zu halbieren ->Stichprobengröße n muss vervierfacht werden
Streuen die interessierenden Merkmal stark ín der
Grundgesamtheit (
-> groß) -> Stichprobengröße muß erhöht werden
Größe der Grundgesamtheit spielt fast keine Rolle
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
11/21
Ziehen einer
Zufallsstichprobe
Ziehen einer einfachen Zufallsstichprobe:
A) Kleine Grundgesamtheit:
Urnenauswahl (Lotterieauswahl)
B) Große Grundgesamtheit
Vollständige Auflistung aller Elemente in
einer Grundgesamtheit (Karteiauswahl)
2. Jedes Element hat eine Identifikationsnummer
3. Zufallszahlengenerator für gleichverteilte
Häufigkeiten
Problematisch: systematische Verfahren der
Auswahl aus einer Liste
EPSEM
(Diekmann 1998. S 331)
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
12/21
Geschichtete
Zufallsstichproben
Grundgesamtheit (GG) wird in Schichten (strata)
eingeteilt. Jedes Element der GG gehört nur zu einer
Schicht. Aus jeder Schicht wird eine einfache
Zufallsstichprobe gezogen.
Proportional geschichtete Stichprobe: Anteil in den
Schichten entspricht Anteil in GG
Disproportional geschichtete Stichprobe: Anteil in
den Schichten weicht vom Anteil in der GG ab
-> Gewichtung mit reziprokem Wert der
Auswahlwahrscheinlichkeit
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
13/21
Geschichtete
Zufallsstichproben
Vorteile:
1. Kann genauer sein
2. Kann kostengünstiger sein
3. Für jede Schicht unabhängige Schätzung
4. Garantierte Mindestanzahl von
Beobachtungen in kleinen Gruppen
Nachteil:
1) man benötigt Kenntnisse über Parameter in
GG
2) Schichteinteilung oft nur für ein Merkmal
optimal
Nicht EPSEM
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
14/21
Zufallsstichproben
•Ziehen einer einfachen Zufallsstichprobe
•Geschichtete Zufallsstichproben
•Klumpenstichprobe
•Mehrstufige Auswahlverfahren
•PPS Design, Zufallsweg & Schwedenschlüssel
•ADM Design
•Design Mikrozensus
•Fehlerquellen
•Non-Response
•Ausschöpfungsquote
•Gewichtung
•Repräsentativität
Schnell, R. Hill, P. B. Esser, E. 1999, Methoden der empirischen Sozialforschung.
München: Oldenbourg.
Diekmann, A. 2002, Empirische Sozialforschung. Reinbek: Rowohlt.
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/21
Klumpenstichprobe
Cluster sample
Einfache Zufallsstichprobe, in der sich
Auswahlregeln nicht auf einzelne Elemente
sonder auf Gruppen von Elementen beziehen
z.B. Haushalte, Schulklassen,
Lehrveranstaltungen,
Herstellungsunternehmen
Vorteil
1) wenn es nur eine Liste der zusammengefassten
Elemente gibt
2) wenn Kosten der Erhebung mit der Entfernung
der Elemente steigen
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
1/20
Klumpenstichprobe
Cluster sample
Nachteile
Klumpeneffekt (Clustereffekt): Elemente
innerhalb eines Clusters sind sich ähnlicher
als in einer Zufallsstichprobe
führt zu Genauigkeitsverlust im Vergleich zu
einer einfachen Zufallsstichprobe
Genauigkeitsverlust ist umso größer, je
• homogener die Cluster sind
• größer die Cluster sind
Eine große Anzahl kleiner Cluster erbringt
genauere Schätzungen als eine kleine Anzahl
großer Cluster
Klumpenstichproben werden zumeist mit anderen
Auswahlverfahren kombiniert
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
2/20
Mehrstufige
Auswahlverfahren
1) GG wir in Gruppen von Elementen eingeteilt:
Primäreinheiten: primary sampling units (PSU)
Auswahlgrundlage der ersten Stufe
2) Zufallsstichprobe der Sekundäreinheiten
etc.
Geschichtete Stichprobe und Klumpenstichprobe sind Sonderformen eines mehrtsufigen
Auswahlverfahrens
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
3/20
Mehrstufige
Auswahlverfahren
•Klumpenstichprobe:
1)Zufallsauswahl der Primaereinheiten
2)Alle Elemente eines Clusters werden erhoben
3)Schaetzung ungenauer je homogener die Cluster
4)Praezisionsverlust
•zweistufige Auswahl:
1)Alle Primaereinheiten werden erhoben
2)Zufallsauswahl von Elementen im Cluster
3)Schaetzung genauer je homogener die
Primaereinheiten
4)Praezisionsgewinn
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
4/20
Mehrstufige
Auswahlverfahren
Beispiel:
Primäreinheiten: Stimmbezirke, Kreise
(Flächenstichproben)
Zufallsauswahl einiger Flächen
2) Sekundäreinheiten: Haushalte in den
ausgewählten Primäreinheiten
2a) Erhebung aller Personen in den Haushalten:
cluster sample
2b) Zufallsauswahl von Personen in den Haushalten
Tertiäreinheiten
Kein EPSEM
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
5/20
Mehrstufige
Auswahlverfahren
PPS Designs
(probability proportional to size)
Primäreinheiten: Stimmbezirke, Kreise
(Flächenstichproben): beinhalten oft eine unterschiedliche Anzahl von Elementen
Zufallsauswahl muss gewährleisten, dass
alle Elemente in GG die selbe Auswahlwahrscheinlichkeit haben:
1) Auswahlwahrscheinlichkeiten müssen proportional
zur Größe der Primäreinheit sein
2) Die selbe Anzahl von Sekundäreinheiten in jeder
Primäreinheit ziehen
EPSEM
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
6/20
Mehrstufige
Auswahlverfahren
Zufallsweg
(random walk or random route)
Bei Flächenstichprobe statt vollständige Auflistung
aller Sekundäreinheiten (z.B. Haushalte)
1.zufällig gezogene Startadresse
2. Begehungsanweisung
3. Einfache Zufallsauswahl aus ermittelten
Adressen
Adressenerhebung und Ermittlung sind getrennt
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
7/20
Mehrstufige
Auswahlverfahren
Letzte Erhebungsstufe nicht Haushalte sondern
Personen
Schwedenschlüssel
Schnell, Hill, Esser 1999, S268
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
8/20
Zufallsstichproben in der
Praxis
Grundgesamtheit: “die deutsche Bevoelkerung”
Schwer zu realisieren: Gemeindestichproben auf
der Basis von Melderegister
befolgen der Meldepflicht
Kooperation der einzelnen Gemeinden
Typisches Design: ADM-Design
(ADM..Arbeitsgemeinschaft deutscher
Marktforschungsinstitute)
Fuer
Wahlumfragen
Kommerzielle Marktforschung & Meinungsforschung
Sozialwissenschaftliche Umfragen
Kein EPSEM
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
9/20
Zufallsstichproben in der
Praxis
ADM Design (Diekmann 1999 S.356)
Grundgesamtheit: alle Privathaushalte in Deutschland
Und die darin wohnenden Personen am Ort der HauptWohnung
•
•
•
•
•
Stufe: PPS
Stimmbezirke mit einer Wahrscheinlichkeit
proportional zur Groesse ausgewaehlt
Kleinere Stimmbezirke werden zusammengefasst
(>400 Wahlberechtigte)
sampling points
Stufe: Random Route Methode : Zufallsstichprobe
von Adressen ermittelt. In jedem sampling point
gleiche Anzahl von Haushalten ->EPSEM
Mit Schwedenschluessel Auswahl einzelner Personen im Haushalt: mit HH-Groesse gewichten
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
10/20
Zufallsstichproben in der
Praxis
Mikrozensus (Schnell, Hill, Esser 1999, S. 275)
Von statistischen Aemtern des Bundes & der Laender
durchgefuehrt Haushaltsstichprobe; in 1% der HausHalte (327 000 HH mit 730 000 Personen)
•
Auswahlplan beruht auf Gebaeuden bzw.
Gebaeudeteile (Information aus VZ 1987, Einwohnerregister der DDR, Fortschreibung der Bautaetigkeitsstatistik
1. Stufe
Alle Gebaude wurden entspechend der Anzahl der
Wohnungen in 3 Schichten eingeteilt (1-4;5-10;10>);
4. Schicht: Gemeinschaftsunterkuenfte
2. Stufe
Innerhalb jeder Schicht bilden eine bestimmte Anzahl
von Wohnungen einen Auswahlbezirk
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
11/20
Zufallsstichproben in der
Praxis
Mikrozensus (Schnell, Hill, Esser 1999, S. 275)
3. Stufe
Auswahlbezirk sortiert nach
Region, Kreis, Gemeindegroessenklasse,
Gemeinde, Auswahlbezirksnummer :
20 unabhaengige 1% Zufallsstichprobe der
Auswahlbezirke gezogen
Mehrfach geschichtete Flaechenstichprobe mit
Auwahlbezirken als Primaereinheit
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
12/20
Fehlerquellen
•
Zufallsfehler der Stichprobe (sampling variability)
• Bsp. Streuung des Mittelwertes
•
Systematische Fehler durch Auswahlverfahren
• Bsp Elemente der Bevoelkerung gehen mit
groesserer oder geringerer Wahrscheinlichkeit in
die Stichprobe mit ein
->falls bekannt: Gewichtung
->meistens nicht bekannt: Redressment
Verzerrungen, die nicht durch das Auswahlverfahren produziert werden (nonsampling bias)
Messfehler
Fehlerquellen im Interview
Over/Undercoverage
Non-Response
•
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
13/20
Fehlerquellen
Non-Response
•
Non-Response
• Nichterreichbarket
•
Verweigerung
Unit-Nonresponse
Unit-Nonresponse
Item-Nonresponse
Unit-Nonresponse
Ausschoepfungsquote
Ausfallursachen:
Nicht aufgefundene Adressen
Personen, die nicht zur GG gehoeren
Interviewerausfaelle
Nichterreichbarkeit
Krankheit
Verweigerung
Abbruch des Interviews
Interviewertaeschung
Interviewerfehler
Datenerfassungs-, aufbereitungsfehler
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
14/20
Fehlerquellen
Non-Response
Ausschoepfungsquote
Bruttoausgangsstichprobe
minus
stichprobenneutrale Ausfaelle
(Ausfaelle durch Fehler in Adressliste z.B.
keine Privathaushalte, Adresse existiert
nicht)
ergibt
bereinigte Stichprobe
minus
Unit-nonresponse
tatsaechliche Stichprobe
Ausschoepfungsquote:
tatsaechliche Stichprobe/ bereinigte Stichprobe
Nonresponsequote: 1-Ausschoepfungsquote
ca. bei 25-30%
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
15/20
Schnell, Hill, Esser 1999, S. 288
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
16/20
Schnell, Hill, Esser 1999, S. 289
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
17/20
Erhöhung der
Ausschöpfungsrate
Nichterreichbarkeit:
•mehrere Kontaktversuche,
•schriftliche und telefonische Kontakte
Verweigerung:
•wiederholte Befragungsversuche
durch speziell geschulte Interviewer,
•Bezahlung
•Erwecken von Interesse an Befragungsthema
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
18/20
Gewichtung
1. Theoretisch-statistische Gewichtung auf Grund
des Stichprobenplanes (z.B. Schwedenschlüssel
oder disproportionale Stichprobe)
2. Nachgewichtung (Redressment)
3. Gewichtung auf Grund einer empirischen
Hypothese (Wahlforschung - Recallfrage)
2 und 3 sollen in wissenschaftlichen
Untersuchungen nicht verwendet werden
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
19/20
Repräsentative Stichprobe
Nicht ausreichend: Repräsentanznachweis
bestimmte Merkmale kommen in der Stichprobe
mit der selben Häufigkeit vor wie in der GG
zur Beurteilung der Güte einer Stichprobe benötigt
man:
1. genaue Angaben zur GG
2. Beschreibung der Auswahlgesamtheit
2. Ziehungsprozeß
3. Ausfälle
4. Ausschöpfungsquote
5. verwendeten Instrumente
Gabriele Doblhammer: Empirische Sozialforschung Teil II, SS 2004
20/20
Herunterladen