Teil II Der Weg zur schließenden Statistik: Von den Daten zu

Werbung
Teil II
Der Weg zur schließenden Statistik:
Von den Daten zu
Wahrscheinlichkeiten
StatBio
126
6 Zufallsstichprobe und Parameter
6.1 Parameter einer Grundgesamtheit
6.2 Zufallsstichprobe und Bias
6.3 Stichprobenfehler und Stichprobenverteilung des
Mittelwertes
6.1 Parameter einer Grundgesamtheit
Würde man alle Werte der Merkmalsträger
einer Grundgesamtheit beobachten (Vollerhebung), so könnte man diese Daten mit deskriptiven Methoden (Häufigkeitsverteilung, statistische Maßzahlen) auswerten. Man bestimmt
aber damit statistische Maßzahlen einer Population und nicht einer Stichprobe. Deshalb heißen
sie Populations–Mittelwert (µ), Populations–
Standardabweichung (σ), etc.
StatBio
127
Maßzahlen einer Population (Grundgesamtheit) werden als Parameter bezeichnet.
Symbolisch werden sie üblicherweise durch griechische Buchstaben dargestellt.
Bezeichnungen:
N Anzahl der Merkmalsträger einer Grundgesamtheit
y1, . . . , yN Ausprägungen der von 1 bis N
durchnummerierten Merkmalsträger
n Stichprobenumfang
x1, . . . , xn Stichprobe
Die wichtigsten Parameter und ihre empirischen
Gegenstücke sind in der folgenden Tabelle zusammengefasst.
StatBio
128
Tabelle 6–1 Wichtige Parameter und ihre
empirischen Gegenstücke
Grundgesamtheit
Stichprobe (Daten)
(Populations–)Mittelwert
PN
1
µ = N j=1 yj
Stichprobenmittel
Pn
1
x̄ = n i=1 xi
(Populations–)Varianz
PN
1
2
σ = N j=1(yj − µ)2
Stichprobenvarianz
Pn
1
2
s = n−1 i=1(xi − x̄n)2
(Populations–)
Standardabweichung
√
σ = σ2
Stichproben–
standardabweichung
√
s = s2
(Populations–)Median
y( N +1 ), N ungerade
2
y( N ) + y( N +1) /2,
2
2
N gerade
Stichproben–Median
x( n+1 ), n ungerade
2
x( n2 ) + x( n2 +1) /2,
n gerade
StatBio
129
Bemerkung: Zwischen Maßzahlen einer Stichprobe und Maßzahlen einer Population (den sogenannten Parametern) besteht ein wesentlicher
gedanklicher Unterschied:
Maßzahlen einer Population sind nicht
variabel, sondern fest und daher vom
,,Zufall” nicht beeinflussbar.
Man bezeichnet sie auch als theoretische Maßzahlen (µ, σ, ...) im Unterschied zu den empirischen Maßzahlen (x̄, s, ...), die sich auf eine
Stichprobe beziehen. Mit ,,theoretisch” ist nicht
gemeint, dass diese Zahlen nur theoretisch exisitieren; sie existieren real, sind aber meistens
nicht bekannt und müssen durch empirische Untersuchungen bestimmt (,,geschätzt”) werden.
Die Variabilität steckt in den Daten (Stichproben) und somit auch in den empirischen
Kenngrößen! (vgl. Tab. 6–2 in Abschnitt 6.3)
StatBio
130
6.2 Zufallsstichprobe und Bias
Um von einer Stichprobe auf Eigenschaften einer
Grundgesamtheit schließen zu können, muss die
Stichprobe eine
Zufallsauswahl
darstellen.
Bei einer zufälligen Stichprobe darf man am ehesten annehmen, dass sie auch repräsentativ ist,
die tatsächliche Situation in einer Grundgesamtheit also am besten widerspiegelt.
Zufallsauswahl: Jeder Merkmalsträger gelangt
mit einer berechenbaren Chance (Wahrscheinlichkeit) in die Stichprobe.
Eine Zufallsauswahl ist keine willkürliche Auswahl. Die Merkmalsträger werden auch nicht
bewusst (gezielt) gezogen. Auf keinen Fall darf
StatBio
131
das Auswahlprinzip im Zusammenhang mit
dem zu untersuchenden Merkmal stehen!
Grundlegende statistische Verfahren setzen einfache Stichproben voraus! Einfache Zufallsstichprobe (simple random sample) bedeutet
1. Uneingeschränktheit: Jeder Merkmalsträger
besitzt die gleiche Chance (Wahrscheinlichkeit), in die Stichprobe aufgenommen zu werden.
2. Unabhängigkeit: Die Ziehungen erfolgen
unabhängig. Die Wahrscheinlichkeit ausgewählt zu werden ist bei jeder Ziehung gleich.
Bei homogenen Grundgesamtheiten erhält man
uneingeschränkte Stichproben durch die beiden
folgenden Auswahlmodelle:
StatBio
132
• Ziehen mit Zurücklegen
(sampling with replacement)
• Ziehen ohne Zurücklegen
(sampling without replacement)
Für beide Auswahlmodelle gilt: Die Chance eines Merkmalsträgers, in eine Stichprobe vom
Umfang n aus einer Grundgesamtheit mit N
Merkmalsträgern aufgenommen zu werden, beträgt
n
N
Auswahlmodell ,,Ziehen mit Zurücklegen”:
Nachteil: Mehrfachziehung eines Merkmalsträgers ist möglich.
Vorteil: Unabhängigkeit, d. h. ,,Ziehen mit
Zurücklegen” führt zu einer einfachen Stichprobe.
StatBio
133
Bemerkung: Wenn die Grundgesamtheit im
Verhältnis zum Stichprobenumfang sehr groß
ist, wenn also N wesentlich größer als n ist
(was in der Praxis überwiegend der Fall ist), so
besteht zwischen ,,Ziehen mit Zurücklegen” und
,,Ziehen ohne Zurücklegen” kein bedeutender
Unterschied. Eine durch ,,Ziehen ohne Zurücklegen” resultierende (uneingeschränkte) Stichprobe lässt sich dann näherungsweise als eine
einfache Stichprobe auffassen.
In der Praxis wird eine durch ,,Ziehen ohne
Zurücklegen” gewonnene Stichprobe als einfach
angesehen, falls folgende Faustregel erfüllt ist:
n
≤ 0.05
N
Der Quotient n/N heißt Auswahlsatz.
StatBio
134
Bias
Das Schließen von einer Stichprobe auf eine
Grundgesamtheit ist nur dann zulässig, wenn
nur zufällige Fehler vorkommen (Stichprobenfehler). In diesem Fall gilt die Stichprobe als repräsentativ im Sinne von ,,kein systematischer
Fehler”. Treten in einer Stichprobe systematische Fehler auf, werden Resultate bzw. statistische Aussagen als verfälscht, verzerrt (biased)
bezeichnet.
Systematische Fehler beeinflussen die Validität (Gültigkeit, Rechtskräftigkeit) statistischer Auswertungen. Zufällige Fehler
hingegen beeinflussen wohl die Genauigkeit
statistischer Ergebnisse und die daraus resultierenden Schlußfolgerungen, nicht aber
deren Validität!
StatBio
135
Man unterscheidet drei allgemeine Kategorien
von Bias–Fehlern:
• Bias durch die Auswahl der Merkmalsträger
in einer Stichprobe (sampling bias), wenn z. B.
bestimmte Merkmalsträger eine größere Chance besitzen in die Stichprobe aufgenommen zu
werden,
• Bias durch Vermengung, wenn einflussreiche
Faktoren (Alter, Geschlecht, soziale Indikatoren) nicht berücksichtigt werden,
• Bias durch Falschinformation, verursacht etwa durch systematisch verfälschte Messungen
oder Antworten bei Umfragen.
Bemerkung: Bias–Fehler können nur durch andere, vergleichende Untersuchungen entdeckt
werden.
StatBio
136
6.3 Stichprobenfehler und Stichprobenverteilung des Mittelwertes
Frage: Welcher Zusammenhang besteht zwischen dem Populations–Mittelwert µ und dem
Stichprobenmittel x̄?
Eine Antwort auf diese Frage geben die folgenden
Überlegungen:
Hinweis: Es handelt sich im Folgenden um
einen theoretischen Gedankengang – ein Gedankenexperiment – nicht um eine Anleitung
zur praktischen Vorgehensweise. Erst aus diesen theoretischen Überlegungen heraus wird klar,
warum theoretische Verteilungen ins Spiel kommen (müssen) und welche statistische Aussagen
zu erwarten sind.
Zunächst ein Zahlenbeispiel 6.1:
StatBio
137
Grundgesamtheit mit N = 5 Merkmalsträgern
Einheit
A
B
C
D
E
Wert
2.2
2.0
1.6
2.4
1.8
Populations–Mittelwert:
1
µ = · (2.2 + 2.0 + 1.6 + 2.4 + 1.8) = 2
5
Populations–Varianz:
1
2
2
σ = · (2.2 − 2) + . . . + (1.8 − 2) = 0.08
5
2
Betrachtet werden Zufallsstichproben vom Umfang n = 3. Auswahlprinzip ist ,,Ziehen ohne
Zurücklegen”. Es soll dabei nicht auf die Reihenfolge der Datenerhebung ankommen. Dann
StatBio
138
gibt es
N
5
5!
= 10
=
=
n
2! · 3!
3
mögliche Stichproben.
Tab. 6–2: Mögliche Stichproben vom Umfang 3
mit ihren Kennwerten x̄ und s2
Stichprobe
Nr. 1: ABC
Nr. 2: ABD
Nr. 3: ABE
Nr. 4: ACD
Nr. 5: ACE
Nr. 6: ADE
Nr. 7: BCD
Nr. 8: BCE
Nr. 9: BDE
Nr. 10 CDE
StatBio
Daten
2.2, 2.0, 1.6
2.2, 2.0, 2.4
2.2, 2.0, 1.8
2.2, 1.6, 2.4
2.2, 1.6, 1.8
2.2, 2.4, 1.8
2.0, 1.6, 2.4
2.0, 1.6, 1.8
2.0, 2.4, 1.8
1.6, 2.4, 1.8
x̄
x̄1 = 1.93
x̄2 = 2.20
x̄3 = 2.00
x̄4 = 2.07
x̄5 = 1.87
x̄6 = 2.13
x̄7 = 2.00
x̄8 = 1.80
x̄9 = 2.07
x̄10 = 1.93
s2
s21 = 0.013
s22 = 0.040
s23 = 0.040
s24 = 0.173
s25 = 0.093
s26 = 0.093
s27 = 0.160
s28 = 0.040
s29 = 0.093
s210 = 0.173
139
Beachte: Es muss nicht x̄ = µ sein. In den
meisten Fällen wird x̄ 6= µ gelten. Im Zahlenbeispiel gilt für 2 (von insgesamt 10) Stichproben
x̄ = 2 = µ. Alle anderen Stichproben führen zu
anderen Mittelwerten. Diese Abweichungen vom
Populationsmittelwert µ = 2 sind rein zufälliger
Natur, sind also ausschließlich auf die Variabilität
der Daten zurückzuführen (Stichprobenfehler!).
Bildet man in Bsp. 6.1 den Mittelwert über alle
10 Stichprobenmittelwerte, so gilt
1
· (1.93 + 2.20 + · · · + 1.93) = 2 = µ
10
Dieser Zusammenhang gilt ganz allgemein: Sei
N
m=
n
die Anzahl der möglichen Stichproben vom Umfang n aus einer N –elementigen GrundgesamtStatBio
140
heit (Ziehen ohne Zurücklegen, keine Berücksichtigung der Reihenfolge). Bezeichnen
x̄1, . . . , x̄m
die Mittelwerte von Stichprobe Nr. 1 bis Stichprobe Nr. m, so gilt
m
X
1
x̄i = µ
m i=1
(6.1)
In Worten:
Arithmetisches Mittel aller Stichprobenmittel zum festen Stichprobenumfang ist gleich
dem Mittelwert µ der Grundgesamtheit.
(6.1) besagt Folgendes: Der Populationsmittelwert µ wird durch das Stichprobenmittel x̄ weder systematisch unter– noch überschätzt. Man
StatBio
141
spricht von einer erwartungstreuen oder unverzerrten Schätzung (unbiased estimation).
Man kann die Streuung der Stichprobenmittel
x̄1, x̄2, . . . , x̄m
um den Populations–Mittelwert µ berechnen:
m
2
X
σ
1
N −n
2
2
σx̄ =
x̄j − µ =
·
m j=1
n N −1
(6.2)
Verifizierung von Formel (6.2) anhand Bsp. 6.1:
Hier ist N = 5, n = 3, µ = 2 und σ 2 = 0.08.
Man erhält
σ 2 N − n 0.08 5 − 3 0.08
·
=
·
=
= 0.013
n N −1
3 5−1
6
StatBio
142
und gemäß den Werten aus Tab. 6–2, vorletzte
Spalte, gilt
10
X
2
1
x̄j − 2
10 j=1
1
· (1.93 − 2)2 + (2.20 − 2)2
=
10
+ · · · + (1.93 − 2)2
= 0.013
Zieht man in (6.2) die Wurzel, so erhält man
σx̄
StatBio
v
u X
u1 m
= t
(x̄j − µ)2
m j=1
r
σ
N −n
= √ ·
N −1
n
143
Der Parameter σx̄ (= Stichprobenfehler von x̄)
heißt
Standardfehler des Mittelwertes
(standard error mean, SEM):
σ
SEM = √ ·
n
r
N −n
N −1
(6.3)
Bemerkung: Bei einfachen Stichproben (,,Ziehen mit Zurücklegen”) gilt
Standardfehler des Mittelwertes:
σ
SEM = √
n
(6.4)
Der zusätzliche Faktor in (6.3),
r
N −n
N −1
StatBio
144
wird häufig als Endlichkeitsfaktor bezeichnet.
Ist N im Verhältnis zu n groß, so ist
N −n
N
n
n
=
−
≈1−
≈1
N −1 N −1 N −1
N
und der Endlichkeitsfaktor kann vernachlässigt
werden. Faustregel: n/N ≤ 0.05
In Bsp. 6.1 erhält man nach Formel (6.3)
r
N −n
σ
SEM = √ ·
N −1
n
r
5−3
0.283
= √ ·
5−1
3
= 0.163 · 0.707
= 0.115
(nach Formel (6.4) erhält man SEM = 0.163).
Formeln (6.3) und (6.4) zeigen Folgendes: Mit
StatBio
145
wachsendem Stichprobenumfang n nimmt die
Streuung der Stichprobenmittel um den Populationsmittelwert µ ab! Anschaulich gesprochen
bedeutet dies Folgendes. Bildet man ein Histogramm bezüglich aller Stichprobenmittel
x̄1, x̄2, . . . , x̄m
so konzentriert sich das Histogramm mit wachsendem Stichprobenumfang n mehr und mehr
um die Mitte µ.
Die Häufigkeitsverteilung sämtlicher Stichprobenmittel (zum festen Stichprobenumfang) nennt man die Stichprobenverteilung von x̄.
Genauer spricht man auch von einer Stichprobenkennwertverteilung.
StatBio
146
Aus Tab. 6–2 ergibt sich die folgende Stichprobenverteilung von x̄:
Tabelle 6–3 Ohne Klassierung
Wert von x̄
1.80
1.87
1.93
2.00
2.07
2.13
2.20
relative Häufigkeit
1/10 = 0.1
1/10 = 0.1
2/10 = 0.2
2/10 = 0.2
2/10 = 0.2
1/10 = 0.1
1/10 = 0.1
Tabelle 6–4 Mit Klassierung
Klasse
Klasse 1
Klasse 2
Klasse 3
Intervall
(170, 190]
(190, 210]
(210, 230]
Fläche
F1 = 0.2
F2 = 0.6
F3 = 0.2
Im Histogramm wird als Darstellungsmittel die
Fläche gewählt, d.h. die Flächen repräsentieren die relativen Klassenhäufigkeiten. (Zur Erinnerung: Gesamtfläche = Summe der relativen
Klassenhäufigkeiten = 1)
StatBio
147
Zusammenfassung: Kennwerte der
• Verteilung einer Grundgesamtheit:
Mittelwert µ
Standardabweichung σ
• Verteilung einer Stichprobe:
empirischer Mittelwert x̄
empirische Standardabweichung s
• Stichprobenverteilung von x̄:
Mittelwert µ (nach Formel (6.1))
Standardabweichung σx̄ = SEM
r
SEM
SEM
StatBio
σ
N −n
= √ ·
(nach Formel (6.3))
N −1
n
σ
= √ (nach Formel (6.4))
n
148
Bei Bekanntheit der Stichprobenverteilung von x̄
wäre man in der Lage, die Präzision der Parameterschätzung x̄ genau zu beschreiben. Erwartet
wird, dass die ,,meisten” Stichprobenmittelwerte
innerhalb der Grenzen µ ± SEM liegen:
µ − SEM ≤ x̄ ≤ µ + SEM
(6.5)
In Bsp. 6.1 ergeben sich die Grenzen
2 − 0.115 = 1.885 und 2 + 0.115 = 2.115
und nach Tab. 6.3 bzw. Tab. 6.4 liegen 60%
(=
ˆ Flächenanteil F2) der Stichprobenmittel innerhalb dieser beiden Grenzen.
Frage: Wie lässt sich die Präzision der Parameterschätzung x̄ beurteilen, wenn die Stichprobenverteilung nicht bekannt ist?
StatBio
149
Häufig zeigt das Histogramm der Stichprobenverteilung von x̄ (wenn die Flächen die relativen Klassenhäufigkeiten repräsentieren) einen
glockenkurvenförmigen Verlauf (Dichte der Normalverteilung).
Diese empirische Tatsache lässt sich durch
ein wahrscheinlichkeitstheoretisches Gesetz begründen, der zentrale Grenzwertsatz (Kap.
8).
Die Stichprobenverteilung des Mittelwertes lässt
sich somit annähernd durch eine Normalverteilung beschreiben. Daran ändert sich auch nichts,
wenn man die Stichprobenverteilung des standardisierten Stichprobenmittels
x̄ − µ
SEM
betrachtet.
StatBio
150
Warum? Durch die Standardisierung (dies ist eine lineare Transformation) ändert sich die Form
der Verteilung nicht, vgl. Abschnitt 4.4. D. h.
die Stichprobenverteilung des standardisierten
Mittelwertes (x̄ − µ)/SEM lässt sich ebenfalls
durch einen glockenkurvenförmigen Verlauf darstellen. Dies ist dann die Dichte der Standard–
Normalverteilung ϕ.
Dass es sich um eine Standardisierung handelt
ist klar (vgl. Abschnitt 4.4): Die standardisierten
Stichprobenmittelwerte
x̄i − µ
z̄i =
,
SEMx̄
i = 1, . . . , m
haben die Lage 0 und die Streuung 1:
m
X
1
z̄i = 0 und SEMz̄ = 1
m i=1
StatBio
151
Zurück zur Beantwortung der Frage: Zunächst
ist (6.5) gleichbedeutend mit
x̄ − µ
−1 ≤
≤1
SEM
Folglich ist der Anteil der Stichprobenmittelwerte, die (6.5) erfüllen gleich dem Anteil der
standardisierten Stichprobenmittelwerte, die zwischen −1 und 1 liegen. Und dieser Anteil beträgt
60% (=
ˆ Flächenanteil F2 im Histogramm nach
Tab. 6.4).
Dieser Anteilswert entspricht annährend der
Fläche zwischen der Dichte der ϕ und dem Achsenabschnitt [−1, 1]. Die Fläche beträgt
Z
1
ϕ(x) dx = 0.68
−1
StatBio
152
Abbildung 6–1 Fläche zwischen ϕ und dem
Achsenabschnitt [−1, 1]
Schätzen des Standardfehlers
Die Bedingung (6.5) ist genau dann erfüllt, wenn
der Populationsmittelwert µ im Bereich x̄±SEM
liegt:
x̄ − SEM ≤ µ ≤ x̄ + SEM
(6.6)
Für die statistische Anwendung ist (6.6) wesentlich interessanter. Denn µ ist unbekannt und
man versucht einen Bereich anzugeben, so dass
µ mit einer gewissen Wahrscheinlichkeit in diesem Bereich liegen wird (Intervallschätzung).
StatBio
153
Da σ und somit SEM unbekannt ist, verwendet
man bei Vorliegen einer konkreten Stichprobe
x1, . . . , xn die Stichprobenstandardabweichung
s als Schätzwert für σ und erhält mit Formel
(6.4) den
geschätzten Standardfehler des
Mittelwertes (estimated standard error mean, ESEM):
s
ESEM = √
n
Man weiß also, in welcher Größenordnung die
(zufällige) Abweichung eines Stichprobenmittels
x̄ vom Populationsmittelwert µ erwartet werden
kann!
Bemerkung: (i) Formel (6.3) ist zum Schätzen
des Standardfehlers nicht geeignet, da N im
Allgemeinen nicht bekannt ist.
StatBio
154
(ii) Bei einfachen Stichproben (,,Ziehen mit
Zurücklegen”) ist die Stichprobenvarianz s2 eine
unverzerrte Schätzung des Parameters σ 2.
In Bsp. 6.1 gilt
√
σ
0.08
SEM = √ = √ = 0.163
n
3
Bei Vorliegen der Stichprobe Nr. 4 ist s2 = 0.173
und man erhält
√
0.173
s
= 0.240
ESEM = √ = √
n
3
Alle Werte, die nur zufallsbedingt von x̄ abweichen, sind neben der (erwartungstreuen)
Schätzung x̄ ebenfalls plausible Schätzwerte für
den Parameter µ, also etwa alle Werte im Intervall
s
s
x̄ − √ , x̄ + √
n
n
StatBio
155
Man spricht von einer Intervallschätzung
(Kap. 9).
Beachte: Die Variabilität steckt im Intervall,
denn die Intervallgrenzen
s
x̄ ± √
n
hängen von den empirischen Kenngrößen x̄ und
s ab. Der Parameter µ ist fest und muss nicht
im obigen Intervall liegen.
In Bsp. 6.1 führt die Stichprobe Nr. 4 (x̄ = 2.07)
zum Intervall
[2.07 − 0.240, 2.07 + 0.240] = [1.83, 2.31]
Der Populationsmittelwert µ = 2 liegt in diesem
Intervall. Dies ist sicher. Aber: Diese 100%ige
Sicherheit ist nur vorhanden, weil µ = 2 bekannt
ist!!!
StatBio
156
Die Crux ist: µ ist i. A. unbekannt!
Konsequenz: Es besteht keine 100%ige Sicherheit darüber, ob der Mittelwert µ im obigen
Intervall liegt.
Wie bewertet, quantifiziert man diese (Un–) Sicherheit?
Rein logisch gesehen gibt es nur zwei Möglichkeiten: Entweder µ liegt in diesem Intervall oder
nicht. Ad hoc–Lösung: Jede Möglichkeit besitzt
die gleiche Wahrscheinlichkeit, also 50%ige Sicherheit. Die Chancen stehen fifty–fifty.
Aber: Die Sicherheit darüber, dass µ im Intervall
√
√
[x̄ − s/ n, x̄ + s/ n]
liegt, kann höher bewertet werden! Dazu folgende Tabelle:
StatBio
157
Tab. 6–5: Geschätzte Standardfehler und Intervallschätzungen der Stichproben aus Tab. 6–2
Stichprobe
Nr. 1: ABC
Nr. 2: ABD
Nr. 3: ABE
Nr. 4: ACD
Nr. 5: ACE
Nr. 6: ADE
Nr. 7: BCD
Nr. 8: BCE
Nr. 9: BDE
Nr. 10 CDE
√
ESEM
=
s/
n
√
s1/ 3 = 0.066
√
s2/ 3 = 0.115
√
s3/ 3 = 0.115
√
s4/ 3 = 0.240
√
s5/ 3 = 0.176
√
s6/ 3 = 0.176
√
s7/ 3 = 0.231
√
s8/ 3 = 0.115
√
s9/ 3 = 0.176
√
s10/ 3 = 0.240
√
√
[x̄ − s/ n, x̄ + s/ n]
[1.864, 1.996]
[2.085, 2.315]
[1.885, 2.115]
[1.830, 2.310]
[1.694, 2.046]
[1.954, 2.306]
[1.769, 2.231]
[1.685, 1.915]
[1.894, 2.246]
[1.690, 2.170]
Von den 10 Stichproben führen nur 3 Stichproben (Nr. 1, 2 und 8) zu einer Intervallschätzung,
die den Parameter µ = 2 nicht enthalten. Die
Chance, dass ein konkret vorliegendes Intervall
den Parameter µ = 2 enthält, wäre also sinnStatBio
158
vollerweise mit 7/10, also mit 70% zu bewerten.
Dies ist ein rein theoretischer Gedankengang, da
µ nicht bekannt ist und in der Praxis nur eine
Stichprobe zur Verfügung steht. Die Stichprobenverteilung von x̄ ist ebenfalls nicht bekannt.
Trotzdem kann die Sicherheit annähernd mit
70% quantifiziert werden, wenn man theoretische Verteilungen (z. B. die Normalverteilung)
zulässt!
Zunächst:
s
s
x̄ − √ ≤ µ ≤ x̄ + √
n
n
ist genau dann erfüllt, falls
x̄ − µ
−1 ≤ √ ≤ 1
s/ n
gilt.
StatBio
159
Wenn der Stichprobenumfang n ≥ 30 ist, dann
lässt sich die Stichprobenverteilung von
x̄ − µ
√
s/ n
durch die Diche ϕ der Standard–Normalverteilung
beschreiben (zentraler Grenzwertsatz, Kap. 8).
Folglich kann man sagen: Mit einer Wahrscheinlichkeit von ca. 0.68 liegt der Parameter µ im
√
√
Intervall [x̄ − s/ n, x̄ + s/ n].
Zur Erinnerung:
Z
1
ϕ(x) dx = 0.68
−1
StatBio
160
Theoretische Verteilungen (man spricht auch von
Modellen) beruhen auf dem Begriff der Wahrscheinlichkeit. Dies sind Zahlen, die zwischen 0
(völlige Unsicherheit) und 1 (völlige Sicherheit)
liegen.
Statistische Entscheidungen sind immer
Entscheidungen unter Unsicherheit. Durch
Wahrscheinlichkeitsaussagen wird diese Unsicherheit nicht aufgehoben, wohl aber
quantitativ erfassbar!
Die statistische Welt liegt zwischen
0 und 1
StatBio
161
Herunterladen