Erhebungstechniken2 mit Notizen

Werbung
JProf. Dr. Hans Manner
Erhebungstechniken
Grundbegriffe der Wahrscheinlichkeitsrechnung
Notation:
Y
y
Zufallsvariable
Merkmalswert
Definition 1 Eine Zufallsvariable Y heißt
a) diskret, falls sie nur endlich oder abzählbar unendlich viele Werte
y1 , y2 , . . . annimmt.
b) stetig, falls sie beliebig viele Werte annehmen kann und die
Verteilungsfunktion FY (y) = P (Y ≤ y) stetig ist.
2. Stichprobenverfahren - Einführung
1
JProf. Dr. Hans Manner
Erhebungstechniken
Definition 2 Erwartungswert
a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit
Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann.
PN
Dann heißt E(Y ) = i=1 yi P (Y = yi ) Erwartungswert von Y .
b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt
R∞
E(Y ) = −∞ yfY (y)dy Erwartungswert von Y .
2. Stichprobenverfahren - Einführung
2
JProf. Dr. Hans Manner
Erhebungstechniken
Definition 3 Varianz, Standardabweichung, Variationskoeffizient
a) Sei Y eine diskrete Zufallsvariable, die Werte yi mit
Wahrscheinlichkeit P (Y = yi ), i = 1, . . . , N annehmen kann.
PN
2
Dann heißt σY Var (Y ) = i=1 (yi − E(Y ))2 P (Y = yi ) Varianz
von Y .
b) Sei Y eine stetige Zufallsvariable mit Dichte fY (y). Dann heißt
R∞
2
σY = Var (Y ) = −∞ (y − E(Y ))2 fY (y)dy Varianz von Y .
p
c) Sei Y eine Zufallsvariable. Dann heißt σY = Var (Y )
Standardabweichung von Y
σY
d) Sei Y eine Zufallsvariable. Dann heit CV (Y) = E(Y)
Varianzkoeffizient von Y (hierüber lässt sich das Streuverhalten
verschiedener Zufallsvariablen vergleichen).
2. Stichprobenverfahren - Einführung
3
JProf. Dr. Hans Manner
Erhebungstechniken
Spezielle Verteilungen
Definition 4 Binomial-Verteilung
Eine diskrete Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit
Wahrscheinlichkeiten
n
P (Y = m) =
P m (1 − P )n−m , m = 0, 1, 2, . . . , n
m
annehmen kann, heißt binomialverteilt mit Parametern n und P ,
oder Y ∼ B(n, P ).
Satz 1 Sei Y ∼ B(n, P ). Dann gilt:
a) E(Y ) = nP
b) Var (Y ) = nP (1 − P ]
2. Stichprobenverfahren - Einführung
4
JProf. Dr. Hans Manner
Erhebungstechniken
Definition 5 Hypergeometrische Verteilung Eine diskrete
Zufallsvariable Y , die die Werte 0, 1, 2, . . . , n mit
Wahrscheinlichkeiten
M N −M
P (Y = m) =
m
n−m
N
n
annimmt für m = 0, 1, . . . , n, m ≤ M und n − m ≤ N − M heißt
hypergeometrisch verteilt mit Parametern N, n, M , oder
Y ∼ H(N, n, M ).
Satz 2 Sei Y ∼ H(N, n, M ). Dann gilt:
a) E(Y ) = n M
N (= nP ) (P = M/N Wahrscheinlichkeit von ’Erfolg’)
−n
b) Var (Y ) = nP (1 − P ) N
N −1
2. Stichprobenverfahren - Einführung
5
JProf. Dr. Hans Manner
Erhebungstechniken
Definition 6 Normalverteilung Eine stetige Zufallsvariable Y heißt
normalverteilt mit Parametern µ und σ 2 , falls ihre Dichte die Form
1 (y − µ)2
1
exp −
fY (y) = √
2 σ2
2πσ
hat, oder Y ∼ N (µ, σ 2 ).
Satz 3 Sei Y ∼ N (µ, σ 2 ). Dann gilt:
a) E(Y ) = µ
b) Var (Y ) = σ 2
2. Stichprobenverfahren - Einführung
6
JProf. Dr. Hans Manner
Erhebungstechniken
Definition 7 Seien Y1 und Y2 Zufallsvariablen, dann heißen Y1 und
Y2 stochastisch unabhängig, falls für alle a, b ∈ R gilt
P (Y1 ≤ a, Y2 ≤ b) = P (Y1 ≤ a)P (Y2 ≤ b).
Definition 8 Für zwei Zufallsvariablen Y1 , Y2 bezeichnet
Cov (Y1 , Y2 ) = E [(Y1 − E(Y1 ))(Y2 − E(Y2 ))]
die Kovarianz zwischen Y1 und Y2 .
Definition 9 Die Größe
Cov (Y1 , Y2 )
ρ(Y1 , Y2 ) = ρ = p
Var (Y1 )Var (Y2 )
heißt Korrelationskoeffizient zwischen Y1 und Y2 .
2. Stichprobenverfahren - Einführung
7
JProf. Dr. Hans Manner
Erhebungstechniken
Zentraler Grenzwertsatz
Satz 4 Für Zufallsvariablen Sn ∼ B(n, P ), n ∈ N, gilt
Sn − nP n→∞
p
−→ N (0, 1)
nP (1 − P )
(Schwache Konvergenz)
Satz 5 Seinen Y1 , Y2 , . . . eine Folge stochastisch unabhängiger
identisch verteilter (i.i.d.) Zufallsvariablen mit Erwartungswert
E(Yk ) und Var (Yk ) < ∞ für alle k ∈ N. Dann gilt
n
1 X Yk − E(Yk ) n→∞
√
p
−→ N (0, 1)
n
Var (Yk )
k=1
2. Stichprobenverfahren - Einführung
8
JProf. Dr. Hans Manner
Erhebungstechniken
Stichprobe
“Das Wort Stichprobe stammt ursprünglich aus der Eisenverhüttung
und bezeichnete den Abstich am Hochofen zur Entnahme einer Probe
des flüssigen Metalls. Aber auch bei Getreidesäcken gab es
Stichproben. Zur Entnahme einer Getreideprobe wurde eine
kegelförmige Sonde in den nicht geöffneten Jute-Sack geschoben
(gestochen) und damit eine Probe entnommen, ohne dass der Sack
beschädigt wurde.”
2. Stichprobenverfahren - Einführung
9
JProf. Dr. Hans Manner
Erhebungstechniken
Einführung
• Stichprobenmethode: Durch bewusste Auswahl und Messung
eines Teils des Ganzen sollten Rückschlüsse auf das Ganze
gemacht werden
• Welche Schwankungen treten in Stichprobenergebnissen auf und
wie lassen sich diese beeinflussen
• Gibt es für eine gegebene Situation ein bestes Verfahren?
• Warum keine Vollerhebung?
2. Stichprobenverfahren - Einführung
10
JProf. Dr. Hans Manner
Erhebungstechniken
Einführung
• Wie bekommt man nach Schließung der Wahllokale genaue
Wahlprognosen durch eine Befragung von nur 2000 Personen?
• Wie wählt man die Personen aus?
• Wie hängt die Berechnung der Prognose von der Auswahl der
Personen aus?
• Wie sollte man es nicht tun?
• Weitere Anwendungen von Stichprobenverfahren:
– Marktforschung
– Mikrozensus und Sozioökonomisches Panel
– Medizinisch-epidemiologische Studien
– Abschätzung von Umweltbelastungen
– ...
2. Stichprobenverfahren - Einführung
11
JProf. Dr. Hans Manner
Erhebungstechniken
Population und Stichprobe
• Die Population oder Grundgesamtheit ist die Menge alle
Individuen oder Objekte, über die eine Aussage getroffen werden
soll.
• Merkmalsträger, Untersuchungseinheiten, statistische
Einheiten oder Individuen sind die Einheiten oder Objekte, an
denen Untersuchungen, Messungen oder Beobachtungen
vorgenommen werden
• Merkmale sind die Eigenschaften der statistischen Einheiten,
die untersucht, beobachtet oder gemessen werden
• Eine Stichprobe S ist die Teilmenge der Population, an der die
Merkmale erhoben werden
• Wir unterscheiden eine Vollerhebung und eine Teilerhebung
2. Stichprobenverfahren - Einführung
12
JProf. Dr. Hans Manner
Erhebungstechniken
Notation
• Die Menge potentieller Untersuchungseinheiten {U1 , U2 , . . . , UN }
heißt Grundgesamtheit (kurz: GG) vom Umfang N .
• Jeder Untersuchungseinheit Ui wird ein eindeutig fester
Merkmalswert Yi zugeordnet.
• Es wird eine zufällige Stichprobe vom Umfang n gezogen.
• Die “Ergebnisse” yi , i = 1, . . . , n, repräsentieren Zufallsvariablen.
• Notation bei Stichprobenverfahren
In der Grundgesamtheit: Großbuchstaben, feste Werte (meist)
unbekannt
In der Stichprobe: Kleinbuchstaben, zufällige Werte,
Realisationen von Zufallsvariablen
2. Stichprobenverfahren - Einführung
13
JProf. Dr. Hans Manner
Erhebungstechniken
Studienpopulation
• Eine Studienpopulation ist eine zur Verfügung stehende
Untermenge der Population
• Beispiel: Leute mit Telefon bei einer Telefonumfrage
2. Stichprobenverfahren - Einführung
14
JProf. Dr. Hans Manner
Erhebungstechniken
Homograd und heterograd
Ist Yi qualitativ,
Yi ∈ {0, 1},
sprechen wir vom homograden Fall. Hier interessieren uns in der
Regel Anteilwerte. (Beispiele?)
Sind die Merkmalswerte Yi quantitativ,
Yi ∈ R,
sprechen wir vom heterograden Fall. Hier interessieren uns in der
Regel Mittelwerte. (Beispiele?)
2. Stichprobenverfahren - Einführung
15
JProf. Dr. Hans Manner
Erhebungstechniken
Gütekriterien im Rahmen der Stichprobentheorie
• Erwartungstreue: Sei θ der interessierende Parameter, dann heißt
T (y1 , . . . , yn ) erwartungstreu für θ, falls
E(T (y1 , . . . , yn )) = E(T ) = θ.
• Varianzvergleich: Seien T1 und T2 zwei erwartungstreue Schätzer
für θ, dann heißt T1 ”besser” als T2 , falls Var(T1 ) < Var(T2 ).
• MSE-Vergleich: Seien T1 und T2 zwei beliebige Schätzer für θ,
dann heißt T1 ”besser” als T2 , falls MSE(T1 ) < MSE(T2 ).
(Hinweis: MSE(T ) = Var(T ) + [E(T ) − θ]2 )
2. Stichprobenverfahren - Einführung
16
JProf. Dr. Hans Manner
Erhebungstechniken
Gütekriterien
In der Regel interessiert uns der Mittelwert der Population
N
1 X
Yi
Ȳ =
N i=1
und die dazu gehörige Varianz
N
2
1 X
2
S =
Yi − Ȳ .
N − 1 i=1
Außerdem interessiert uns für einen Schätzer Ȳˆ
V ar(Ȳˆ )
2. Stichprobenverfahren - Einführung
17
JProf. Dr. Hans Manner
Erhebungstechniken
Gütekriterien
• Wir möchten diese Größen unverzerrt schätzen
• Wir wollen idealerweise ein Stichprobenverfahren und den dazu
gehörigen Schätzer so wählen, dass die Varianz des
Mittelwertschätzers so klein wie möglich ist
• Berechnung von Konfidenzintervallen
• Wie wählt man den Stichprobenumfang n unter bestimmten Zieloder Kostenfunktionen?
2. Stichprobenverfahren - Einführung
18
JProf. Dr. Hans Manner
Erhebungstechniken
Nicht-zufällige Auswahlverfahren
• Auswahl auf “Geratewohl”, den “Mann auf der Straße”
befragen
• Beispiel: Zufällige Befragung an einem Vormittag im Supermarkt
zur Kundenzufriedenheit
• Typische Stichprobe
• Beispiele: Warenkorb zur Inflationsberechnung, Stadt Haßloch
als Testmarkt
• Quotenstichprobe, z.B Altersgruppen und
Geschlechterverteilung exakt auf die Population abstimmen →
Störgrößen werden kontrolliert, aber zufällige Auswahl nötig
• Systematische Stichproben: Wähle jedes p’te Element aus
der Population
2. Stichprobenverfahren - Einführung
19
JProf. Dr. Hans Manner
Erhebungstechniken
Verzerrungen
• Eine Stichprobe kann für eine Fragestellung geeignet sein, für
eine andere jedoch nicht
• Beispiel: Eine Gemeinde in einem Landkreis kann repräsentativ
für das Konsumverhalten im Landkreis sein, aber nicht für die
Parteipräferenz für eine bestimmte Partei, weil z.B. eine sehr
beliebter Bürgermeister dieser Partei in der Gemeinde ist
• Man hat also eine verzerrte Stichprobe bezüglich der
Parteipräferenz
• Anderes Beispiel: Man befragt vormittags in einem Supermarkt
die Leute nach ihren Berufen
2. Stichprobenverfahren - Einführung
20
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 1
• Alle N Element sind verfügbar und mit Nummern (labels)
versehen → wir haben eine Populationsliste
• Zufallsauswahl aus den Nummern 1, . . . , N
• Die dazugehörigen Untersuchungseinheiten bilden die Stichprobe
S
• Man kann mit Zurücklegen (mZ) oder ohne Zurücklegen (oZ)
ziehen
• Eigentlich interessiert nur oZ, aber Formeln für mZ in der Regel
einfacher
• Wenn der Auswahlsatz n/N klein ist kann man oZ Stichproben
wie mZ behandeln
2. Stichprobenverfahren - Einführung
21
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 1: Einfache Stichprobe
Die Wahrscheinlichkeit einer bestimmten Stichprobe S vom Umfang
n ist dann
1
P (S) = N +n−1
n
beim Ziehen mZ und
P (S) =
1
N
n
beim Ziehen oZ. Jedes Element die gleiche Wahrscheinlichkeit in die
Stichprobe zu gelangen. Diese Auswahlwahrscheinlichkeit ist im
Fall ohne Zurücklegen gegeben durch
π=
2. Stichprobenverfahren - Einführung
n
N
22
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 2: Gebundene Hochrechnung
• Wir beobachten ein weiteres Merkmal X und wir kennen X̄
• Wir unterstellen einen linearen Zusammenhang zwischen X und
Y
• Wir verwenden diese Vorkenntnis über X um Ȳ zu schätzen
• Führt in der Regel zu Varianzreduktion
• Beispiel: Bei der Wahlprognose kennen wir das Ergebnis bei der
letzten Wahl genau und erfragen das Wahlverhalten bei der
letzten Wahl
2. Stichprobenverfahren - Einführung
23
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 3: Geschichtete Stichprobe
• Die Grundgesamtheit ist in M Teilgesamtheiten vom Umfang Nh
für die h-te Teilmenge zerlegt
• Diese Teilmengen nennt man Schichten
• Man zieht aus jeder Schicht und setzt die Gesamtstichprobe
daraus zusammen
• Dies kann zu einer Reduktion der Varianz der
Mittelwertschätzung im Vergleich zur einfachen Stichprobe
führen
• Beispiel: Deutschland und die Bundesländer
2. Stichprobenverfahren - Einführung
24
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 4: Klumpenstichproben
• Man zerlegt die GG in M disjunkte Teilmenge
• Man wählt zufällig m dieser Teilmengen
• Für jede dieser gewählten Teilmengen führt man eine
Vollerhebung durch
• Beispiel: GG ist die Menge aller Schulanfänger in einer Stadt. Es
werden ganze Klassen ausgewählt und vollständig befragt
2. Stichprobenverfahren - Einführung
25
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 5: Zweiphasige Stichprobe
• Situation wie bei 2, aber X̄ ist unbekannt
• Wir nehmen an, dass X relative günstig erhoben werden kann
• In Phase 1 ziehen wir eine Stichprobe und schätzen X̄
• In Phase 2 gehen wir vor wie in 2
2. Stichprobenverfahren - Einführung
26
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 6: Größenproportionale Stichproben
(pps)
• Wir wählen die Auswahlwahrscheinlichkeiten πi proportional zu
Yi
• Hilfsvariable Xi die mit Yi korreliert wird dazu verwendet
• So werden informativere Beobachtungen mit höherer
Wahrscheinlichkeit gewählt
• Varianzreduktion bei der Mittelwertschätzung
2. Stichprobenverfahren - Einführung
27
JProf. Dr. Hans Manner
Erhebungstechniken
Auswahlform 7: Capture-Recapture Verfahren
• Wie viele Ratten gibt es in New York?
• Fange 1000 Ratten
• Markiere diese und lasse Sie wieder frei
• Fange nach einem Monat wieder 1000 Ratten
• Wie viele sind davon markiert?
2. Stichprobenverfahren - Einführung
28
JProf. Dr. Hans Manner
Erhebungstechniken
In der Praxis: Mehrstufige Verfahren
• Kombination von verschiedenen Stichprobenplänen
• Z.B. Auswahl von Wahlbezirken aus verschiedenen
Bundesländern mit Wahrscheinlichkeiten proportional zur Größe
• Auswahl von zufälligen Haushalten
• Vollerhebung im Haushalt
• Praktische Vorteile wie Kostenersparnis in der Feldarbeit möglich
• Statistische Eigenschaften häufig schwierig zu analysieren
2. Stichprobenverfahren - Einführung
29
Herunterladen