Stichproben und statistische Fehler

Werbung
Kapitel 10
Stichproben und statistische Fehler
10.1
Verfahren zur Auswahl von Stichproben
Stichprobenauswahl als Bestandteil von Teilerhebungen: Aus dem Ergebnis der Untersuchung
der Stichprobe soll dann auf die Grundgesamtheit geschlossen werden.
Ziel:
10.1.1
Ergebnis der Untersuchung der Stichprobe
= Ergebnis der Untersuchung der Grundgesamtheit, wenn sie exakt durchgeführt werden
könnte, bis auf einen abschätzbaren Fehler, dessen Grenzen vor der Untersuchung
festgelegt werden sollten.
Zufällige Auswahlverfahren
Def. 10.1.1: Eine (streng) zufällige Auswahl einer Stichprobe liegt vor, wenn bei jeder
Ziehung gilt: Jedes Element der Grundgesamtheit (bei ”m. Z.”) bzw. des Restes der Grundgesamtheit (bei ”o. Z.”) hat die gleiche Chance, gezogen zu werden.
Wichtiges Hilfsmittel: Zufallszahlen.
Def. 10.1.2: (zi ) heißt eine Folge von Zufallsziffern, wenn jedes zi eine Realisierung einer ZV
Zi ist, für die gilt:
a) Zi nimmt die Werte 0, 1, . . . , 9 jeweils mit der Wahrscheinlichkeit 0.1 an.
b) Die Zi bilden eine Folge von unabhängigen ZV.
Def. 10.1.3: k sei eine feste natürliche Zahl. (xi ) heißt eine Folge von Zufallszahlen (mit
Stellenzahl ≤ k), wenn jedes xi eine Realisierung einer ZV Xi ist, für die gilt:
a) Xi nimmt die Werte 0, 1, 2, . . . , 10k − 1 jeweils mit der Wahrsch. 10−k an.
b) Die Xi bilden eine Folge von unabhängigen ZV.
Die xi erhält man durch Zusammenfassung von je k Zufallsziffern, wobei Lücken und Überlappungen vermieden werden sollten. Bei der Verwendung von Zufallszahlentabellen sollte die
Anfangsstelle zufällig ausgewählt werden.
Beispiel 10.1.1: Mit Hilfe der Zufallsziffern
3, 3, 2, 6, 7, 7, 9, 3, 9, 9, 3, 0, 1, 3, 6, 0, 4, 1
bilden wir vier ganzzahlige Zufallszahlen mit Stellenzahl ≤ 4:
123
3326,
=: x1 ,
7793,
=: x2 ,
9930,
=: x3 ,
1360
=: x4
Dies sind Realisierungen von unabhängige Zufallsvariablen
X1 , X2 , X3 , X4
mit
P (Xi = m) = 10−4 ,
m = 0, 1, 2, . . . , 9, 10, 11, . . . , 9999
Def. 10.1.4 (xi ) heißt eine Folge von z.B. reellen, auf (0, 1] gleichverteilten Zufallszahlen,
wenn jedes xi Realisierung einer ZV Xi ist, für die gilt:
a) Xi ist auf (0, 1] gleichverteilt, d.h. es gilt: 0 < Xi ≤ 1 und P (a < Xi ≤ b) = b − a für
0 ≤ a ≤ b ≤ 1.
b) Die Xi bilden eine Folge von unabhängigen ZV.
Statt “echter” Zufallszahlen verwendet man meist Pseudo-Zufallszahlen. Dies sind von Rechenprogrammen erzeugte Zahlen, die deshalb keine Zufallszahlen sein können, aber in ausreichender
Näherung die gleichen Eigenschaften wie “echte” Zufallszahlen haben.
Allgemeines Verfahren zur (streng) zufälligen Auswahl einer Stichprobe vom Umfang n:
Annahme: Die Elemente der Grundgesamtheit sind registriert und durchnumeriert mit den Nummern 1, 2, . . . , N .
Ziehe n auf (0, 1] gleichverteilte (Pseudo-)Zufallszahlen xi . Bilde daraus zunächst die Zahlen
yi := xi · N. Diese Zahlen sind auf (0, N ] gleichverteilte (Pseudo-)Zufallszahlen. Bestimme daraus für jedes i = 1, . . . , n die Zahl ui als nächst größere ganze Zahl, d.h. ui ist die kleinste ganze
Zahl mit der Eigenschaft ui ≥ yi . Die Elemente mit den Nummern u1 , u2 , . . . un bilden dann eine
(streng) zufälligen Stichprobe vom Umfang n m.Z.
Will man eine (streng) zufälligen Stichprobe vom Umfang n o.Z., so muss man jedes ui , das zum
zweitenmal vorkommt, streichen, und wenn nötig weitere auf (0, 1] gleichverteilte
(Pseudo-)Zufallszahlen xi ziehen und verarbeiten.
Beispiel 10.1.2: Wir wollen eine Stichprobe vom Umfang 4 o.Z. aus einer Grundgesamtheit von
900 Elementen ziehen. Dazu lassen wir uns vom Computer reelle Zufallszahlen zwischen 0 und
1 erzeugen und bilden daraus nach dem oben beschriebenen Verfahren die für die Stichprobe
benötigten Zufallszahlen:
i
xi
yi = xi · 900 ui := nächst größere ganze Zahl, nicht gerundete Zahl
1 0.833236
749.912
750
2 0.498096
448.286
449
3 0.195437
175.893
176
4 0.236627
212.964
213
Wir wählen also die Elemente 176, 213, 449 und 750 aus der Grundgesamtheit für die Stichprobe
aus.
Quellen für Folgen von Zufallsziffern und –zahlen:
a) Tabellen in Statistik–Lehrbüchern
b) The Rand Corporation: A Million Random Digits with 100,000 Normal Deviates, Glencoe
(Illinois), 1955
c) Feste Unterprogramme in Rechenanlagen
124
10.1.2
Andere Auswahlverfahren
Gründe für nicht streng zufällige Auswahlverfahren: Streng zufällige Verfahren sind nicht immer
möglich oder zu aufwendig, Vorkenntnisse bleiben unberücksichtigt, Vereinfachungen erwünscht.
Geschichtete Stichprobe:
Aufteilung der Grundgesamtheit in Schichten (z.B. Arbeitnehmer, Freiberufliche ...).
Zufällige Stichprobe aus jeder Schicht o.Z.
Bezeichnungen der relevanten Größen:
k
Schichten
Ni (keine ZV) Umfang der Schicht i (i = 1, 2, . . . , k)
!
ni (≥ 1)
µi
Umfang der auf Schicht i entfallenden Teilstichprobe
arithmetisches Mittel der Merkmalswerte aller statistischen
Elemente in Schicht i
modifizierte Standardabweichung der Merkmalswerte aller
statistischen Elemente in Schicht i
arithmetisches Mittel der Merkmalswerte aller statistischen
Elemente in der Grundgesamtheit
modifizierte Standardabweichung der Merkmalswerte aller
statistischen Elemente in der Grundgesamtheit
σ
ei
µ
σ
e
n :=
k
P
ni
i=1
k
P
N :=
Ni
Gesamtstichprobenumfang
Umfang der Grundgesamtheit
i=1
xij
Merkmalswert von dem statistischen Element Nummer j aus
der Schicht i
Ai
Menge der Nummern der statistischen Elemente aus Schicht
i, die für die Teilstichprobe ausgewählt werden. Die Auswahl
aus einer Schicht geschieht unabhängig von der Auswahl aus
jeder anderen Schicht.
Definitionen und Eigenschaften:
card Ai = ni
µi :=
Ni
Ni
1 X
1 X
2
(xij − µi )2
xij , σ
ei :=
Ni
Ni − 1
j=1
j=1
µ
:=
k Ni
k
1 XX
1 X
xij =
µ i · Ni
N
N
i=1 j=1
i=1
125
N
k
σ
e2 =
=
=
i
1 XX
(xij − µ)2
N −1
1
N −1
1
N −1
+
i=1 j=1
Ni
k X
X
(xij − µi + µi − µ)2
i=1 j=1
Ni
k X
X
(xij − µi )2
i=1 j=1
Ni
k X
X
1
N −1
i=1 j=1
k
2(xij − µi )(µi − µ)
|
{z
=0
N
i
1 XX
(µi − µ)2
+
N −1
}
i=1 j=1
=
k
X
Ni − 1
i=1
N −1
σ
ei2
+
k
X
i=1
1
Ni (µi − µ)2
N −1
1 X
xij ist ZV, da die Elemente j ∈ Ai zufällig ausgewählt
Jedes Teilstichprobenmittel Y i :=
ni
j∈Ai
werden.
Y 1 , . . . Y k sind unabhängig.
Die Realisierung y i der ZV Y i (nach der Auswahl der Stichprobe) ist eine erwartungstreue
Schätzung für µi :
E(Y i ) = µi
Die Realisierung z :=
k
k
1 X
1 X
Ni y i der ZV Z :=
Ni Y i ist eine erwartungstreue Schätzung
N
N
i=1
für µ:
E(Z) =
i=1
k
k
1 X
1 X
Ni E(Y i ) =
Ni µ i = µ
N
N
i=1
i=1
Was ist nun überhaupt der Vorteil der Schichtung? Dies sehen wir, wenn wir die Varianzen der
ZV bilden: Aus der Unabhängigkeit der Y i folgt:
V (Z) =
k
X
N2
i=1
i
V
N2
(Y i ) =
k
X
N2 σ
e2
i=1
i
N2
i
ni
(1 −
ni
)
Ni
Zum Vergleich:
A sei eine Zufallsauswahl (ohne Berücksichtigung der Schichten) aus {1, . . . , N } vom Umfang n,
d.h. card A = n
1X
x
eℓ , x
e1 := x11 , x
e2 := x12 , . . . , x
en1 := x1n1 , x
en1 +1 := x21 , . . . , x
en1 +n2 := x2n2
Y :=
n
ℓ∈A
E(Y ) = µ
n
σ
e2
(1 − )
V (Y ) =
n
N
126
Sind die σ
ei bekannt, so würde V (Z) minimal für
Ni · σ
ei
ni = n ·
k
P
ℓ=1
Nℓ · σ
eℓ
Eine eventuell nicht–ganzzahlige rechte Seite ist auf eine ganze Zahl zu runden und führt zu
einem neuen (vom alten höchstens geringfügig abweichenden) Umfang
nneu =
k
X
ni
i=1
Dies liefert die optimale Stichprobe.
Sind die σ
ei nicht bekannt, so wählt man am Besten
Ni
N
Dies liefert die proportionale Stichprobe (wobei bei evtl. nicht–ganzzahliger rechter Seite
wie bei der optimale Stichprobe zu verfahren ist.)
Schon bei der proportionalen Stichprobe gilt mindestens im Fall, dass alle rechten Seiten ganzzahlig sind und dass alle Ni groß gegenüber n sind, für den Vergleich der Varianz der ZV Y ohne
Schichtung mit der Varianz der ZV Z mit Schichtung:
ni = n ·
V (Y ) ≈
V (Z) ≈
k
k
X
ni 2 X ni
σ
e
+
(µi − µ)2
n2 i
n2
i=1
i=1
> falls nicht alle µi gleich sind
k
X
ni · σ
e2
i
i=1
n2
Beispiel 10.2.1: In einem Unternehmen mit N = 100000 Beschäftigten sind
85000 Arbeiter
(Schicht 1)
15000 Angestellte
(Schicht 2)
Wir bezeichnen die Zahl der Arbeiter bzw. Zahl der Angestellten mit N1 bzw. N2 (Hier also
keine ZV).
Wir wollen nun das Gesamtjahreseinkommen aller Beschäftigten schätzen.
Wir gehen dabei von der Annahme aus, dass die modifizierte Standardabweichungen bekannt
seien:
σ˜1 = 10000 DM
σ˜2 = 20000 DM
Die Varianzen, wie sie in Formel (3.2.2) definiert waren, sind somit gegeben durch
σi2 =
Ni − 1 2
σ̃i
Ni
Der Gesamtstichprobenunfang sei nun n = 200
Die Umfänge der Teilstichproben in den beiden Schichten bei der optimale Stichprobe sind somit
85000 · 10000
= 148 (gerundet)
85000 · 10000 + 15000 · 20000
15000 · 20000
= 52 (gerundet)
n2 = 200 ·
85000 · 10000 + 15000 · 20000
n1 = 200 ·
127
n = n1 + n2 = 200
d.h. der Gesamtstichprobenunfang n kann unverändert bleiben. Aus den 85000 Arbeitern werden
also 148 zufällig ausgewählt; bei diesen 148 beträgt der Durchschnitt der Jahreseinkommen
ȳ1 =
Summe der Jahreseinkommen von Arbeiter1, 2, . . . , 148 aus der Teilstichproben
= 53600
148
Enstprechend bei den Angestellten
ȳ2 = 79000
Schätzwert für das Gesamtjahreseinkommen aller Beschäftigten:
N ·z =N
ȳ1 · 85000 + ȳ2 · 15000
= 5.74 · 109 DM
N
Wenn die modifizierte Standardabweichungen nicht bekannt wären, müsste man sich mit der
proportionalen Stichprobe begnügen. Für die Teilstichproben in den beiden Schichten würde
man dann folgende Umfänge wählen:
n1 = 200 ·
85000
= 170
105
15000
= 30
105
n = n1 + n2 = 200, d.h. der Gesamtstichprobenunfang n kann unverändert bleiben.
Def. 10.1.5: Beim Quotenverfahren (z. B. bei Umfragen) muss ein Interviewer Quoten (=
Anteile, relative Häufigkeiten) bei der Auswahl der befragten Personen beachten. Ist z. B. der
Anteil der freiberuflich Tätigen in der Grundgesamtheit p%, so müssen auch p% der befragten
Personen freiberuflich tätig sein. Sonst ist dem Interviewer die Auswahl in seinem Bereich freigestellt.
n2 = 200 ·
Def. 10.1.6: Eine Grundgesamtheit werde in kleinere Einheiten aufgeteilt. Dann wird bei dem
Verfahren der Klumpenstichprobe
a) eine zufällige Stichprobe von kleineren Einheiten gezogen,
b) bei jeder gezogenen kleineren Einheit eine zufällige Stichprobe von Elementen aus dieser
kleineren Einheit gezogen. Häufig werden auch alle statistischen Elemente aus der kleineren
Einheit untersucht.
Ein Beispiel für ein Auswahlverfahren einer systematischen Stichprobe vom Umfang n aus
einer Grundgesamtheit von N Elementen, wobei N durch n teilbar sein soll, ist das folgende:
a) Wähle zufällig eine Zahl aus 1, 2, . . . , i :=
N
. Das Ergebnis sei k.
n
b) Die Elemente mit den Nummern: k, k + i, k + 2i, . . . , k + (n − 1)i kommen in die Stichprobe.
Vorteile: Vereinfachung, Ähnlichkeit mit geschichteter Stichprobe
Nachteil: Mögliche Gefahr durch Regelmäßigkeit, Abhilfe: Statt einer Zufallszahl k werden n
Zufallszahlen k0 , k2 , . . . , kn−1 (m. Z.) gezogen. Die Elemente mit den Nummern: k0 , k1 + i, k2 +
2i, . . . , kn−1 + (n − 1)i kommen in die Stichprobe.
128
10.2
Zufällige und systematische Fehler
Bei einer Messung treten nur zufällige Fehler auf, wenn die Messwerte gleichmäßig um den
richtigen Wert streuen. Den richtigen Wert kann man dann nach den in Kap.8 besprochenen
Verfahren schätzen. Ist aber z. B. das Messinstrument falsch adjustiert, so käme zu dem zufälligen Fehler auch ein systematischer: Die einzelnen Werte würden nicht um den richtigen Wert
streuen, sondern um einen davon verschiedenen. Ein weiteres Beispiel für einen zufälligen Fehler ist der Rundungsfehler, d. h. jener Fehler, der durch das Runden von Zahlen entsteht. Wird
z. B. auf ganze Zahlen gerundet, so wird der Rundungsfehler in der Regel im Intervall ±0.5
gleichverteilt sein, d. h. die Verteilungsdichte der zugehörigen ZV ist = 1 zwischen -0.5 und +0.5
und = 0 sonst.
Die Ursache für zufällige Stichprobenfehler liegt in der Untersuchung der Stichprobe statt
der Grundgesamtheit. Dieser Fehler ist mit Hilfe der Stichprobe der Wahrscheinlichkeitsrechnung (vgl. Kap.8,9,11) kontrollierbar und z. B. durch Erhöhung des Stichprobenumfangs und
durch Berücksichtigung von Vorkenntnissen reduzierbar.
Ursachen für systematische Stichprobenfehler sind (z. T. unvermeidbare) Fehler bei der
Auswahl der Stichprobe, der Datenerfassung, der Aufbereitung der Daten u. s. w.
10.3
Das Rechnen mit fehlerbehafteten Zahlen
Gegeben seien zwei Zahlen x und y, die mit gewissen Fehlern ∆x und ∆y behaftet sind. (x+∆x)
und (y + ∆y) seien also die zugehörigen (unbekannten) exakten Werte. ∆x und ∆y werden als
absolute, ∆x/x und ∆y/y als relative Fehler bezeichnet. Wir interessieren uns dafür, mit welchem
Fehler ein aus x und y berechneter Funktionswert f (x, y) behaftet ist. Wenn wir annehmen, dass
die relativen Fehler dem Betrage nach klein gegen 1 sind (d. h. |∆x| ist klein gegen |x|, und |∆y|
ist klein gegen |y|), gilt:
(10.3.1)
∆f (x, y) := f (x + ∆x, y + ∆y) − f (x, y)
≈
fx (x, y)∆x + fy (x, y)∆y
.
Dabei sind fx und fy die partiellen Ableitungen von f nach x bzw. y.
Spezialfälle:
a) f (x, y) = x ± y
∆(x ± y) := [(x + ∆x) ± (y + ∆y)] − [x ± y]
=
∆x ± ∆y
Für den relativen Fehler gilt also
∆x ± ∆y
∆(x ± y)
=
x±y
x±y
.
Dieser relative Fehler kann dem Betrage nach sehr groß werden und den Zahlenwert (x±y)
sogar unbrauchbar machen, wenn zwar die relativen Fehler von x und y dem Betrage nach
klein gegen 1 sind, aber andererseits |x ± y| klein gegen |x| und gegen |y| ist.
b) f (x, y) = x · y. Es gilt: fx (x, y) = y ∧ fy (x, y) = x. Daraus folgt: ∆(x · y) ≈ y · ∆x + x · ∆y
∆x ∆y
∆(x · y)
≈
+
.
und
x·y
x
y
129
x
1
x
c) f (x, y) = , Es gilt: fx (x, y) = ∧ fy (x, y) = − 2 . Daraus folgt: ∆
y
y
y x
∆x ∆y
x
−
.
/
≈
und ∆
y
y
x
y
10.4
x
x
∆x
− 2 ∆y
≈
y
y
y
Bestimmung des Stichprobenumfangs
Je höher der Stichprobenumfang ist, desto genauer, aber auch desto teurer ist ein statistisches
Verfahren. Es empfiehlt sich also, den für eine bestimmte Genauigkeitsforderung nötigen Stichprobenumfang – wenn möglich – zu bestimmen oder wenigstens abzuschätzen. Als Beispiel dazu
nehmen wir an, dass wir ein 90%–Konfidenzintervall für µ bei einer N (µ, σ)–verteilten ZV bestimmen wollen, wobei σ = 0.5 bekannt sei. Wie groß muss der Stichprobenumfang gewählt
werden, damit das Konfidenzintervall höchstens die Länge 0.3 hat, d. h. die Abweichung höchstens 0.15 beträgt? Da Φ streng monoton wachsend ist, gilt:
√
0.15 n
) − 1 ≥ 0.9 = 2Φ(1.645) − 1
P (|X n − µ| ≤ 0.15) = 2Φ(
0.5
√
⇔ 0.3 n ≥ 1.645 ⇔ n ≥ (1.645/0.3)2 = 30.07
Der Stichprobenumfang sollte also 31 sein.
Allgemein erhält man als Faustregel für die Bestimmung des Stichprobenumfangs bei einer
Grundgesamtheit vom Umfang N , die im wesentlichen auf der Näherung durch die Normalverteilung beruht und nur als grobe Orientierung dienen kann:
!
P (|Schätz–ZV für den Parameter θ − θ| ≤ d) ≥ γ,
(1 + γ)
, wobei σ
wobei d und γ vorgegeben seien. Wir bestimmen q aus der Formel Φ(q) =
2
etwa aufgrund von früheren Untersuchungen bekannt sei. Der Stichprobenumfang wird dann
näherungsweise nach der folgenden Formel bestimmt:
n≈ d
qσ
1
2
+
1
N
oder, wenn N sehr groß ist und damit praktisch eine fast ”unendliche” Grundgesamtheit vorliegt,
n≈
qσ 2
d
130
.
Herunterladen