JProf. Dr. Hans Manner Erhebungstechniken Grundbegriffe der Wahrscheinlichkeitsrechnung Notation: Y y Zufallsvariable Merkmalswert Definition 1 Eine Zufallsvariable Y heißt a) diskret, falls sie nur endlich oder abzählbar unendlich viele Werte y1 , y2 , . . . annimmt. b) stetig, falls sie beliebig viele Werte annehmen kann und die Verteilungsfunktion FY (y) = P (Y ≤ y) stetig ist. 2. Stichprobenverfahren - Einführung 1 JProf. Dr. Hans Manner Erhebungstechniken Definition 2 Erwartungswert a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann. PN Dann heißt E(Y ) = i=1 yi P (Y = yi ) Erwartungswert von Y . b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt R∞ E(Y ) = −∞ yfY (y)dy Erwartungswert von Y . 2. Stichprobenverfahren - Einführung 2 JProf. Dr. Hans Manner Erhebungstechniken Definition 3 Varianz, Standardabweichung, Variationskoeffizient a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann. PN 2 Dann heißt σY Var (Y ) = i=1 (yi − E(Y ))2 P (Y = yi ) Varianz von Y . b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt R∞ 2 σY = Var (Y ) = −∞ (y − E(Y ))2 fY (y)dy Varianz von Y . p c) Sei Y eine Zufallsvariable. Dann heißt σY = Var (Y ) Standardabweichung von Y σY d) Sei Y eine Zufallsvariable. Dann heit CV (Y) = E(Y) Varianzkoeffizient von Y (hierüber lässt sich das Streuverhalten verschiedener Zufallsvariablen vergleichen). 2. Stichprobenverfahren - Einführung 3 JProf. Dr. Hans Manner Erhebungstechniken Spezielle Verteilungen Definition 4 Binomial-Verteilung Eine diskrete Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit Wahrscheinlichkeiten n P (Y = m) = P m (1 − P )n−m , m = 0, 1, 2, . . . , n m annehmen kann, heißt binomialverteilt mit Parametern n und P , oder Y ∼ B(n, P ). Satz 1 Sei Y ∼ B(n, P ). Dann gilt: a) E(Y ) = nP b) Var (Y ) = nP (1 − P ] 2. Stichprobenverfahren - Einführung 4 JProf. Dr. Hans Manner Erhebungstechniken Definition 5 Hypergeometrische Verteilung Eine diskrete Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit Wahrscheinlichkeiten M N −M P (Y = m) = m n−m N n annimmt für m = 0, 1, . . . , n, m ≤ M und n − m ≤ N − M heißt hypergeometrisch verteilt mit Parametern N, n, M , oder Y ∼ H(N, n, M ). Satz 2 Sei Y ∼ H(N, n, M ). Dann gilt: a) E(Y ) = n M N (= nP ) (P = M/N Wahrscheinlichkeit von ’Erfolg’) −n b) Var (Y ) = nP (1 − P ) N N −1 2. Stichprobenverfahren - Einführung 5 JProf. Dr. Hans Manner Erhebungstechniken Definition 6 Normalverteilung Eine stetige Zufallsvariable Y heißt normalverteilt mit Parametern µ und σ 2 , falls ihre Dichte die Form 1 (y − µ)2 1 exp − fY (y) = √ 2 σ2 2πσ hat, oder Y ∼ N (µ, σ 2 ). Satz 3 Sei Y ∼ N (µ, σ 2 ). Dann gilt: a) E(Y ) = µ b) Var (Y ) = σ 2 2. Stichprobenverfahren - Einführung 6 JProf. Dr. Hans Manner Erhebungstechniken Definition 7 Seien Y1 und Y2 Zufallsvariablen, dann heißen Y1 und Y2 stochastisch unabhängig, falls für alle a, b ∈ R gilt P (Y1 ≤ a, Y2 ≤ b) = P (Y1 ≤ a)P (Y2 ≤ b). Definition 8 Für zwei Zufallsvariablen Y1 , Y2 bezeichnet Cov (Y1 , Y2 ) = E [(Y1 − E(Y1 ))(Y2 − E(Y2 ))] die Kovarianz zwischen Y1 und Y2 . Definition 9 Die Größe Cov (Y1 , Y2 ) ρ(Y1 , Y2 ) = ρ = p Var (Y1 )Var (Y2 ) heißt Korrelationskoeffizient zwischen Y1 und Y2 . 2. Stichprobenverfahren - Einführung 7 JProf. Dr. Hans Manner Erhebungstechniken Zentraler Grenzwertsatz Satz 4 Für Zufallsvariablen Sn ∼ B(n, P ), n ∈ N, gilt Sn − nP n→∞ p −→ N (0, 1) nP (1 − P ) (Schwache Konvergenz) Satz 5 Seinen Y1 , Y2 , . . . eine Folge stochastisch unabhängiger identisch verteilter (i.i.d.) Zufallsvariablen mit Erwartungswert E(Yk ) und Var (Yk ) < ∞ für alle k ∈ N. Dann gilt n 1 X Yk − E(Yk ) n→∞ √ p −→ N (0, 1) n Var (Yk ) k=1 2. Stichprobenverfahren - Einführung 8 JProf. Dr. Hans Manner Erhebungstechniken Stichprobe “Das Wort Stichprobe stammt ursprünglich aus der Eisenverhüttung und bezeichnete den Abstich am Hochofen zur Entnahme einer Probe des flüssigen Metalls. Aber auch bei Getreidesäcken gab es Stichproben. Zur Entnahme einer Getreideprobe wurde eine kegelförmige Sonde in den nicht geöffneten Jute-Sack geschoben (gestochen) und damit eine Probe entnommen, ohne dass der Sack beschädigt wurde.” 2. Stichprobenverfahren - Einführung 9 JProf. Dr. Hans Manner Erhebungstechniken Einführung • Stichprobenmethode: Durch bewusste Auswahl und Messung eines Teils des Ganzen sollten Rückschlüsse auf das Ganze gemacht werden • Welche Schwankungen treten in Stichprobenergebnissen auf und wie lassen sich diese beeinflussen • Gibt es für eine gegebene Situation ein bestes Verfahren? • Warum keine Vollerhebung? 2. Stichprobenverfahren - Einführung 10 JProf. Dr. Hans Manner Erhebungstechniken Einführung • Wie bekommt man nach Schließung der Wahllokale genaue Wahlprognosen durch eine Befragung von nur 2000 Personen? • Wie wählt man die Personen aus? • Wie hängt die Berechnung der Prognose von der Auswahl der Personen aus? • Wie sollte man es nicht tun? • Weitere Anwendungen von Stichprobenverfahren: – Marktforschung – Mikrozensus und Sozioökonomisches Panel – Medizinisch-epidemiologische Studien – Abschätzung von Umweltbelastungen – ... 2. Stichprobenverfahren - Einführung 11 JProf. Dr. Hans Manner Erhebungstechniken Population und Stichprobe • Die Population oder Grundgesamtheit ist die Menge alle Individuen oder Objekte, über die eine Aussage getroffen werden soll. • Merkmalsträger, Untersuchungseinheiten, statistische Einheiten oder Individuen sind die Einheiten oder Objekte, an denen Untersuchungen, Messungen oder Beobachtungen vorgenommen werden • Merkmale sind die Eigenschaften der statistischen Einheiten, die untersucht, beobachtet oder gemessen werden • Eine Stichprobe S ist die Teilmenge der Population, an der die Merkmale erhoben werden • Wir unterscheiden eine Vollerhebung und eine Teilerhebung 2. Stichprobenverfahren - Einführung 12 JProf. Dr. Hans Manner Erhebungstechniken Notation • Die Menge potentieller Untersuchungseinheiten {U1 , U2 , . . . , UN } heißt Grundgesamtheit (kurz: GG) vom Umfang N . • Jeder Untersuchungseinheit Ui wird ein eindeutig fester Merkmalswert Yi zugeordnet. • Es wird eine zufällige Stichprobe vom Umfang n gezogen. • Die “Ergebnisse” yi , i = 1, . . . , n, repräsentieren Zufallsvariablen. • Notation bei Stichprobenverfahren In der Grundgesamtheit: Großbuchstaben, feste Werte (meist) unbekannt In der Stichprobe: Kleinbuchstaben, zufällige Werte, Realisationen von Zufallsvariablen 2. Stichprobenverfahren - Einführung 13 JProf. Dr. Hans Manner Erhebungstechniken Studienpopulation • Eine Studienpopulation ist eine zur Verfügung stehende Untermenge der Population • Beispiel: Leute mit Telefon bei einer Telefonumfrage 2. Stichprobenverfahren - Einführung 14 JProf. Dr. Hans Manner Erhebungstechniken Homograd und heterograd Ist Yi qualitativ, Yi ∈ {0, 1}, sprechen wir vom homograden Fall. Hier interessieren uns in der Regel Anteilwerte. (Beispiele?) Sind die Merkmalswerte Yi quantitativ, Yi ∈ R, sprechen wir vom heterograden Fall. Hier interessieren uns in der Regel Mittelwerte. (Beispiele?) 2. Stichprobenverfahren - Einführung 15 JProf. Dr. Hans Manner Erhebungstechniken Gütekriterien im Rahmen der Stichprobentheorie • Erwartungstreue: Sei θ der interessierende Parameter, dann heißt T (y1 , . . . , yn ) erwartungstreu für θ, falls E(T (y1 , . . . , yn )) = E(T ) = θ. • Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Schätzer für θ, dann heißt T1 ”besser” als T2 , falls Var(T1 ) < Var(T2 ). • MSE-Vergleich: Seien T1 und T2 zwei beliebige Schätzer für θ, dann heißt T1 ”besser” als T2 , falls MSE(T1 ) < MSE(T2 ). (Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2 ) 2. Stichprobenverfahren - Einführung 16 JProf. Dr. Hans Manner Erhebungstechniken Gütekriterien In der Regel interessiert uns der Mittelwert der Population N 1 X Yi Ȳ = N i=1 und die dazu gehörige Varianz N 2 1 X 2 S = Yi − Ȳ . N − 1 i=1 Außerdem interessiert uns für einen Schätzer Ȳˆ V ar(Ȳˆ ) 2. Stichprobenverfahren - Einführung 17 JProf. Dr. Hans Manner Erhebungstechniken Gütekriterien • Wir möchten diese Größen unverzerrt schätzen • Wir wollen idealerweise ein Stichprobenverfahren und den dazu gehörigen Schätzer so wählen, dass die Varianz des Mittelwertschätzers so klein wie möglich ist • Berechnung von Konfidenzintervallen • Wie wählt man den Stichprobenumfang n unter bestimmten Zieloder Kostenfunktionen? 2. Stichprobenverfahren - Einführung 18 JProf. Dr. Hans Manner Erhebungstechniken Nicht-zufällige Auswahlverfahren • Auswahl auf “Geratewohl”, den “Mann auf der Straße” befragen • Beispiel: Zufällige Befragung an einem Vormittag im Supermarkt zur Kundenzufriedenheit • Typische Stichprobe • Beispiele: Warenkorb zur Inflationsberechnung, Stadt Haßloch als Testmarkt • Quotenstichprobe, z.B Altersgruppen und Geschlechterverteilung exakt auf die Population abstimmen → Störgrößen werden kontrolliert, aber zufällige Auswahl nötig • Systematische Stichproben: Wähle jedes p’te Element aus der Population 2. Stichprobenverfahren - Einführung 19 JProf. Dr. Hans Manner Erhebungstechniken Verzerrungen • Eine Stichprobe kann für eine Fragestellung geeignet sein, für eine andere jedoch nicht • Beispiel: Eine Gemeinde in einem Landkreis kann repräsentativ für das Konsumverhalten im Landkreis sein, aber nicht für die Parteipräferenz für eine bestimmte Partei, weil z.B. eine sehr beliebter Bürgermeister dieser Partei in der Gemeinde ist • Man hat also eine verzerrte Stichprobe bezüglich der Parteipräferenz • Anderes Beispiel: Man befragt vormittags in einem Supermarkt die Leute nach ihren Berufen 2. Stichprobenverfahren - Einführung 20 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 1 • Alle N Element sind verfügbar und mit Nummern (labels) versehen → wir haben eine Populationsliste • Zufallsauswahl aus den Nummern 1, . . . , N • Die dazugehörigen Untersuchungseinheiten bilden die Stichprobe S • Man kann mit Zurücklegen (mZ) oder ohne Zurücklegen (oZ) ziehen • Eigentlich interessiert nur oZ, aber Formeln für mZ in der Regel einfacher • Wenn der Auswahlsatz n/N klein ist kann man oZ Stichproben wie mZ behandeln 2. Stichprobenverfahren - Einführung 21 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 1: Einfache Stichprobe Die Wahrscheinlichkeit einer bestimmten Stichprobe S vom Umfang n ist dann 1 P (S) = N +n−1 n beim Ziehen mZ und P (S) = 1 N n beim Ziehen oZ. Jedes Element die gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist im Fall ohne Zurücklegen gegeben durch π= 2. Stichprobenverfahren - Einführung n N 22 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 2: Gebundene Hochrechnung • Wir beobachten ein weiteres Merkmal X und wir kennen X̄ • Wir unterstellen einen linearen Zusammenhang zwischen X und Y • Wir verwenden diese Vorkenntnis über X um Ȳ zu schätzen • Führt in der Regel zu Varianzreduktion • Beispiel: Bei der Wahlprognose kennen wir das Ergebnis bei der letzten Wahl genau und erfragen das Wahlverhalten bei der letzten Wahl 2. Stichprobenverfahren - Einführung 23 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 3: Geschichtete Stichprobe • Die Grundgesamtheit ist in M Teilgesamtheiten vom Umfang Nh für die h-te Teilmenge zerlegt • Diese Teilmengen nennt man Schichten • Man zieht aus jeder Schicht und setzt die Gesamtstichprobe daraus zusammen • Dies kann zu einer Reduktion der Varianz der Mittelwertschätzung im Vergleich zur einfachen Stichprobe führen • Beispiel: Deutschland und die Bundesländer 2. Stichprobenverfahren - Einführung 24 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 4: Klumpenstichproben • Man zerlegt die GG in M disjunkte Teilmenge • Man wählt zufällig m dieser Teilmengen • Für jede dieser gewählten Teilmengen führt man eine Vollerhebung durch • Beispiel: GG ist die Menge aller Schulanfänger in einer Stadt. Es werden ganze Klassen ausgewählt und vollständig befragt 2. Stichprobenverfahren - Einführung 25 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 5: Zweiphasige Stichprobe • Situation wie bei 2, aber X̄ ist unbekannt • Wir nehmen an, dass X relative günstig erhoben werden kann • In Phase 1 ziehen wir eine Stichprobe und schätzen X̄ • In Phase 2 gehen wir vor wie in 2 2. Stichprobenverfahren - Einführung 26 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 6: Größenproportionale Stichproben (pps) • Wir wählen die Auswahlwahrscheinlichkeiten πi proportional zu Yi • Hilfsvariable Xi die mit Yi korreliert wird dazu verwendet • So werden informativere Beobachtungen mit höherer Wahrscheinlichkeit gewählt • Varianzreduktion bei der Mittelwertschätzung 2. Stichprobenverfahren - Einführung 27 JProf. Dr. Hans Manner Erhebungstechniken Auswahlform 7: Capture-Recapture Verfahren • Wie viele Ratten gibt es in New York? • Fange 1000 Ratten • Markiere diese und lasse Sie wieder frei • Fange nach einem Monat wieder 1000 Ratten • Wie viele sind davon markiert? 2. Stichprobenverfahren - Einführung 28 JProf. Dr. Hans Manner Erhebungstechniken In der Praxis: Mehrstufige Verfahren • Kombination von verschiedenen Stichprobenplänen • Z.B. Auswahl von Wahlbezirken aus verschiedenen Bundesländern mit Wahrscheinlichkeiten proportional zur Größe • Auswahl von zufälligen Haushalten • Vollerhebung im Haushalt • Praktische Vorteile wie Kostenersparnis in der Feldarbeit möglich • Statistische Eigenschaften häufig schwierig zu analysieren 2. Stichprobenverfahren - Einführung 29