hier

Werbung
Contents
1 Numerische und graphische Zusammenfassung quantitativer Daten
1.1
1.2
1.3
1.4
1.5
1.6
1.7
Lageparameter . . . . . . . . . . . . . . . . . . . .
Variabilitatskenngroen oder Streuungsparameter .
Der Box-Plot . . . . . . . . . . . . . . . . . . . . .
Das Histogramm . . . . . . . . . . . . . . . . . . .
Balkendiagramme und Paretodiagramme . . . . . .
Streudiagramme oder Scatter Plots . . . . . . . . .
Kovarianz und Korrelation als Abhangigkeitsmae
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Wahrscheinlichkeitstheoretische Grundlagen
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
Zufallsgroen, Ereignisse, Wahrscheinlichkeiten . . . . . . . .
Binomial- und hypergeometrisch verteilte Zufallsgroen . . .
Laplace-verteilte Zufallsgroen und rein zufallige Auswahlen .
Allgemeine diskrete Verteilungen . . . . . . . . . . . . . . . .
Verteilungen mit Dichten . . . . . . . . . . . . . . . . . . . .
Vier wichtige Klassen von Wahrscheinlichkeitsdichten . . . . .
Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . .
Erwartungswert und Varianz von Zufallsgroen . . . . . . . .
Naherungsformeln fur Wahrscheinlichkeiten . . . . . . . . . .
Unabhangigkeit und Korrelation . . . . . . . . . . . . . . . .
3 Schatzer fur Verteilungsparameter
3.1
3.2
3.3
3.4
Punktschatzer . . . . . . . . . . . . . . . .
Vergleich verschiedener Schatzverfahren .
Intervallschatzer oder Kondenzintervalle
Kovarianz- und Korrelationsschatzer . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
5
6
9
10
11
13
13
17
22
23
27
30
35
38
44
45
50
50
54
57
62
4 Lineare Regression
63
5 Statistische Entscheidungsverfahren
67
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
Entscheidung zwischen zwei moglichen Mittelwerten (Signaldetektion)
Tests fur den Mittelwert einer normalverteilten Stichprobe . . . . . . .
Vergleich der Mittelwerte zweier normalverteilter Stichproben . . . . .
Tests fur die Varianzen normalverteilter Daten . . . . . . . . . . . . .
Test auf Unabhangigkeit zweier normalverteilter Stichproben . . . . .
Der Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . .
Kontingenztafeln und der Chi-Quadrat-Unabhangigkeitstest . . . . . .
Binomial- und Vorzeichentests . . . . . . . . . . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
67
70
74
75
80
81
88
90
1 Numerische und graphische Zusammenfassung quantitativer Daten
Seit die elektronische Datenverarbeitung sich durchgesetzt hat, werden uberall groe Datenmengen gesammelt
und { manchmal { auch analysiert. Die meisten realistischen Datensatze sind so gro, da das direkte Anschauen der Zahlenkolonnen keine nennenswerte Information bringt: Man sieht den Wald, d.h. die eigentliche
interessierende Struktur, vor lauter Baumen, d.h. vor lauter Einzelbeobachtungen, nicht mehr. Es ist daher
notig, die Masse an Informationen so weit wie moglich zu reduzieren { auf wenige numerische Strukturparameter
oder auf uberschaubare graphische Darstellungen.
Die Reduktion der Daten auf wenige Kenngroen darf allerdings nicht zu weit getrieben werden, da sonst
wichtige Feinheiten der Datenstruktur verschleiert werden. Um entscheiden zu konnen, wieviele und welche
Strukturparameter oder -kenngroen einen Datensatz in ausreichender Weise charakterisieren, braucht
man ein mathematisches Modell fur den Mechanismus, der die Daten erzeugt. Solche Modelle werden in den
folgenden Kapiteln vorgestellt. Mit ihrer Hilfe lat sich z.B. beurteilen, was in einem Experiment zufallige
Variabilitat und was interessanter Eekt ist. Mathematische Modelle fur die Erzeugung von Daten werden auch
spatestens dann benotigt, wenn man es mit mehrdimensionalen Beobachtungen zu tun hat, wo keine einfachen
graphischen Darstellungsmoglichkeiten mehr existieren.
In diesem Kapitel verzichten wir aber erst noch auf die Modellierung, sondern betrachten numerische und
graphische Zusammenfassungen eindimensionaler quantitativer Daten. Darunter verstehen wir numerische
Beobachtungen, d.h. auf naturliche Weise als Zahlen gegebene Meergebnisse. Als Gegensatz hierzu lassen
sich qualitativen Daten wie Antworten auf eine Frage nach dem Familienstand oder nach der Parteipraferenz
nur willkurlich Zahlen zuordnen. Hierzu gehoren auch Daten, die wie Zeugnisnoten geordnet und mit Zahlen
versehen sind, die aber nur fur Werturteile und nicht fur numerische Messungen stehen.
1.1 Lageparameter
Im folgenden betrachten wir einen Datensatz (oder eine Stichprobe) x1; : : : ; xN von reellen Zahlen. Die
Anzahl N der Daten heit Stichprobenumfang. Ein Lageparameter des Datensatzes gibt an, wo auf der
reellen Achse die Zahlenwerte x1; : : : ; xN liegen. Verschiebt man den ganzen Datensatz um einen konstanten
Wert c, d.h. geht man zu dem neuen Datensatz x1 + c; : : : ; xN + c uber, so andert sich ein Lageparameter
entsprechend durch Addition von c :
Ist ` ein Lageparameter des Datensatzes x1 ; : : : ; xN ; so ist `+c der entsprechende Lageparameter des Datensatzes
x1 + c; : : : ; xN + c:
Die beiden am haugsten benutzten Lageparameter sind das Stichprobenmittel (oder Mittelwert) xN sowie
der Stichprobenmedian (oder Zentralwert) x_ N : Das Stichprobenmittel ist das arithmetische Mittel der Daten:
Stichprobenmittel
N
X
xN = N1
xi = N1 (x1 + : : : + xN )
i=1
Der Stichprobenmedian ist der mittelste Datenwert, wenn N ungerade ist, bzw. die Mitte zwischen den beiden
mittelsten Datenwerten, wenn N gerade ist. Links bzw. rechts des Stichprobenmedians liegt jeweils etwa die
Halfte der Daten. Um ihn formal denieren zu konnen, mussen wir zuerst die Daten x1 ; : : : ; xN der Groe nach
ordnen. Wir erhalten dann die sogenannten Ordnungsstatistiken x(1) x(2) : : : x(N ) :
Die Ordnungsstatistiken x(1); : : : ; x(N ) sind die der Groe nach geordneten Daten x1; : : : ; xN ; wobei x(1)
der kleinste und x(N ) der grote Datenwert ist.
Stichprobenmedian
x_ N = x(m+1)
; falls N = 2m + 1 ungerade
x_ N = 21 fx(m) + x(m+1) g ; falls N = 2m
2
gerade
Das Stichprobenmittel ist einfach und schnell zu berechnen, lat sich direkt auf hoherdimensionale, d.h. vektorwertige Daten x1; : : : ; xN verallgemeinern und hat in bestimmten, oft benutzten mathematischen Modellen
gewisse Optimalitatseigenschaften (vgl. Kapitel 3.1). Der Stichprobenmedian ist dagegen unempndlich gegenuber wenigen, stark von der Mehrheit der Daten abweichenden Mewerten, sogenannten Ausreiern. In
Datensatzen, die vereinzelte grobe Me- oder Datenubertragungsfehler enthalten oder in denen es aus internen
Grunden seltene extreme Beobachtungen gibt, vermittelt der Stichprobenmedian einen besseren Eindruck, wo
sich die Mehrheit der Zahlenwerte x1; : : : ; xN bendet.
In der Praxis schadet es nichts, beide Lageparameter xN und x_ N zu berechnen. Stimmen sie in etwa uberein, so spielt es keine Rolle,
welchen der beiden Werte wir als Kenngroe fur die Lage des Datensatzes verwenden. Unterscheiden sie sich deutlich (relativ zur generellen
Groenordnung der Daten), so deutet dies auf die Anwesenheit von Ausreiern oder auf die Schiefe des Datensatzes hin (vgl. Kapitel 1.4).
10.4 10.9
11.1
11.5
11.6
Studienzeiten
11.7
11.9 13.1
13.18 = N
11 9 = _ N
13.1
13.3
14.7
16.8
21.3
x
:
8.06 9.13 9.25
9.40
9.53
9.57
x
Bauteillangen
9.57
9.73 10.08 10.25 10.38 10.52 10.98 11.24 12.91
10.04 = N
9 73 = _ N
x
:
8.06 9.13 9.40
x
Bauteillangen mit Ausreier ("Komma verschoben")
9.53
9.57
9.57
9.73
10.08 10.25 10.38 10.52 10.98 11.24 12.91 92.50
15 59 = N
10 08 = _ N
:
x
:
x
Ausfallzeitpunkte der Bauteile
0.43 9.44 22.25 26.09 26.83 29.54 32.68 34.46 37.66 38.02 38.77 38.91 39.20 41.37 42.58
30 55 = N
34 46 = _ N
:
x
:
x
1.2 Variabilitatskenngroen oder Streuungsparameter
Ein Streuungsparameter eines Datensatzes ist ein Ma fur die Groe des Bereichs, uber den die Zahlenwerte
x1; : : : ; xN verteilt sind. Er quantiziert also die Variabilitat der Daten. Verschiebt man den ganzen Datensatz
um einen konstanten Wert, so andert sich an der Variabilitat nichts:
Ist s ein Streuungsparameter des Datensatzes x1; : : : ; xN ; so ist s auch der entsprechende Streuungsparameter
des Datensatzes x1 + c; : : : ; xN + c:
Wir betrachten drei Streuungsparameter: die Stichprobenstandardabweichung sN ; die Spannweite dN
sowie die Viertelweite (oder Quartilenweite) dvN : Die Stichprobenstandardabweichung ist die Wurzel aus der
Stichprobenvarianz s2N , und diese ist wiederum in etwa die mittlere quadratische Abweichung der Zahlenwerte
x1; : : : ; xN von ihrem Mittelwert xN :
Stichprobenvarianz
N
X
s2N = N 1; 1 (xi ; xN )2
i=1
Man konnte auch die Summe der quadratischen Abweichungen (x1 ; xN )2 ; : : : ; (xN ; xN )2 durch N statt durch N ; 1 teilen, was in
manchen Buchern und Software-Paketen auch gemacht wird. Fur groe N ist der Unterschied vernachlassigbar. Unsere Denition hat den
Vorteil, da so die Formel fur die t-Statistik (vgl. Kapitel 5.2) einfacher wird.
Es liegt nahe, auch den Mittelwert der absoluten Abweichungen jx1 ; xN j; : : : ; jxN ; xN j zu betrachten, der auch ein Streuungsparameter
ware. sN hat aber mathematisch wesentlich angenehmere Eigenschaften, so da wir diesem Streuungsparameter den Vorzug geben.
3
min
Die Spannweite ist die Dierenz der groten Beobachtung xmax
N und der kleinsten Beobachtung xN ; d.h. die
Dierenz x(N ) ; x(1) der groten und kleinsten Ordnungsstatistik:
Spannweite
min
dN = xmax
N ; xN = x(N ) ; x(1)
Die Spannweite ist ein Ma fur die Gesamtgroe des Bereichs, uber den sich die Daten x1; : : : ; xN verteilen. Sie
hangt aber allein von den beiden extremen Beobachtungen ab und vermittelt kein Bild von der Variabilitat der
Mehrheit der Daten. Abbildung 1.2a zeigt z.B. zwei sehr verschiedene Datensatze mit derselben Spannweite.
Abbildung 1.2a
Auch sN hangt { wie das Stichprobenmittel xN { vergleichsweise stark von den extrem groen und kleinen Beobachtungen ab, ist also empndlich gegen Ausreier. Ein Streuungsparameter, der eine dem Stichprobenmedian
vergleichbare Unempndlichkeit gegenuber wenigen extremen Datenwerten aufweist, ist die Viertelweite. Sie
ist der Abstand zwischen dem oberen und dem unteren Viertelwert (oder Quartil) vNo bzw. vNu ; d.h. zwei
Werten uber bzw. unter denen etwa ein Viertel der Zahlenwerte x1; : : : ; xN liegen. Es gilt also
vNu x_ N vNo ;
und die beiden Viertelwerte und der Stichprobenmedian teilen den Datensatz in vier etwa gleich groe Teile:
alle Werte unterhalb von vNu ; zwischen vNu und x_ N ; zwischen x_ N und vNo sowie oberhalb von vNo :
Ist N + 1 durch 4 teilbar, d.h. N + 1 = 4m; so ist vNu der m-grote Datenwert x(m) und vNo der (3m)grote Datenwert x(3m): Andernfalls wird, ahnlich wie bei der Denition des Stichprobenmedians fur gerade N;
zwischen zwei Datenwerten interpoliert { wie, das hangt von dem Rest r ab, der beim Teilen von N + 1 durch
4 ubrig bleibt.
Viertelwerte
r = 0; N + 1 = 4m
: vNu = x(m)
vNo = x(3m)
r = 1; N + 1 = 4m + 1 : vNu =
vNo =
3x + 1x
4 (m) 4 (m+1)
r = 2; N + 1 = 4m + 2 : vNu =
vNo =
1 fx + x
(m+1) g
2 (m)
r = 3; N + 1 = 4m + 3 : vNu =
vNo =
1x + 3x
4 (m) 4 (m+1)
Viertelweite
dvN = vNo ; vNu
4
1x
3
4 (3m) + 4 x(3m+1)
1 fx
2 (3m) + x(3m+1) g
3x
1
4 (3m) + 4 x(3m+1)
1.47 2.68 3.41 3.48 3.86 4.41 5.86 6.09 6.14
1.91 = sN
6:33 = dN
3:27 = dvN
6.41
6.54
6.75
7.00
7.30 7.80
0.40 1.27 3.22 4.17 4.35 6.26 6.81 15.40 16.66 23.91 34.54 44.89
14.29 = sN
44:49 = dN
18:64 = dvN
Die absolute Groe der Variabilitat eines Datensatzes hangt entscheidend von der Skala ab, in der die Daten
gemessen werden. Eine Skalenanderung entspricht der Multiplikation aller Datenwerte mit einer Konstanten
c > 0 (z.B. c=100 beim U bergang von m zu cm; c = 0; 001 beim U bergang von msec zu sec), und mit
dieser Konstante werden sowohl Lage- wie auch Streuungsparameter multipliziert. Entsprechend erhalt man
aus einem Datensatz mit Streuungsparameter 1 durch eine Skalenanderung, d.h. durch Multiplikation mit der
Konstanten s > 0; einen Datensatz mit Streuungsparameter s: Daher nennt man Streuungsparameter auch
Skalenparameter.
Sind ` und s ein Lage- bzw. Streuungsparameter des Datensatzes x1; : : : ; xN ; so sind (fur c > 0) c` und cs die
entsprechenden Parameter des Datensatzes cx1; : : : ; cxN :
Streuungsparameter nehmen nur positive Werte (bzw. im Extremfall x1 = : : : = xN den Wert 0) an. Ihre
Einheit ist dieselbe wie die Einheit der Daten. s2N ist daher als quadratische Groe (Einheit z.B. kg2 fur
Messungen in der Einheit kg) selbst kein Streuungs- oder Skalenparameter.
1.3 Der Box-Plot
Der Box-Plot ist eine einfache und eingangige Methode, die numerische Information uber den Datensatz, die
in Stichprobenmedian, Viertelweite und Spannweite steckt, zu veranschaulichen. Besonders nutzlich ist dieses
Verfahren fur den Vergleich verschiedener Stichproben.
Wir unterscheiden beim Box-Plot Datensatze ohne Ausreier und Datensatze mit Ausreiern. Als Ausreier
betrachten wir hier einzelne Datenwerte, die um mehr als 1; 5 dvN oberhalb des oberen Viertelwerts vNo bzw.
unterhalb des unteren Viertelwerts vNu liegen.
Der Begri "Ausreier" wird in anderen Zusammenhangen auch anders prazisiert. Warum Beobachtungen, die um mehr als 1; 5 dvN von der
mittleren Halfte der Datenwerte entfernt liegen, als extrem angesehen werden, werden wir im Zusammenhang mit "normalen" Stichproben
untersuchen (vgl. Kapitel 2.8), sobald wir passende Modelle zur Verfugung haben.
Das Zentrum des Box-Plots besteht aus einem Rechteck, das den unteren mit dem oberen Viertelwert verbindet
und in das zusatzlich eine Trennlinie in Hohe des Medians eingezeichnet ist.
XNmin
vNu
vNo
X_ N
Box-Plot ohne Ausreier
XNmax
Sind keine Ausreier vorhanden, so schlieen sich links und rechts zwei Balken an, die bei der kleinsten Beobachtung XNmin = X(1) bzw. bei der groten Beobachtung XNmax = X(N ) mit einem Strich enden.
Sind Ausreier vorhanden, so enden die Balken auf der Seite der Ausreier bei vNu ; 1; 5 dvN bzw. vNo + 1; 5 dvN :
Die wenigen, daruber hinausgehenden Ausreier werden einzeln eingetragen (als Punkte, Sterne, Kreuze,...) und
5
bei Bedarf so markiert, da man sie identizieren kann, d.h. da man wei, welche speziellen Beobachtungen
extreme Werte angenommen haben.
XNmin
vNu
vNo
X_ N
vNo + 1; 5 dvN
extreme Werte
Durchschnittliches Pro-Kopf-Einkommen in den Vereinigten Staaten
Alaska
6315
Georgia
4091
Louisiana
3545
Montana
4347
North Dakota
5087
Tennessee
3821
Wyoming
4566
Arizona
4530
Hawaii
4963
Maine
3694
Nebraska
4508
Ohio
4561
Texas
4188
Arkansas
3378
Idaho
4119
Maryland
5299
Nevada
5149
Oklahoma
3983
Utah
4022
California
5114
Illinois
5107
Massachusetts
4755
New Hampshire
4281
Oregon
4660
Vermont
3907
Colorado
4884
Indiana
4458
Michigan
4751
New Jersey
5237
Pennsylvania
4449
Virginia
4701
Connecticut
5348
Iowa
4628
Minnesota
4675
New Mexico
3601
Rhode Island
4558
Washington
4864
Delaware
4809
Kansas
4669
Mississippi
3098
New York
4903
South Carolina
3635
West Virginia
3617
3000
3500
4000
4500
5000
5500
6000
Alabama
3624
Florida
4815
Kentucky
3712
Missouri
4254
North Carolina
3875
South Dakota
4167
Wisconsin
4468
Abbildung 1.3
1.4 Das Histogramm
Lage- und Streuungsparameter und die daraus abgeleiteten Box-Plots zeigen nicht alle eventuell interessanten
Eigenschaften eines Datensatzes. Beobachtet man die Lebensdauer mehrerer identischer technischer Bauteile,
so ist der resultierende Datensatz typischerweise rechtsschief, d.h. die meisten Beobachtungen konzentrieren
sich um den Stichprobenmedian herum, aber ein nennenswerter Anteil an Datenwerten ist groer, d.h. liegt
weiter rechts. Wir reden hier nicht von Ausreiern, sondern von typischen Daten; die Abweichungen von
Stichprobenmedian sind nur nach rechts hin systematisch groer als nach links. Tritt der umgekehrte Fall
ein, nennt man einen Datensatz linksschief. Solche Eigenschaften eines Datensatzes werden sichtbar, wenn
man sich ein Histogramm anschaut. Hierzu wird die reelle Achse in Intervalle unterteilt, und uber jedem
Intervall wird ein Rechteck gezeichnet, dessen Flache proportional zur Anzahl der Datenwerte xi ist, die in
dem betreenden Intervall liegen. Sind die Intervalle alle gleich lang (und nur diesen Fall betrachten wir im
6
folgenden), so wahlt man als Hohe des Rechtecks die Anzahl der xi im entsprechenden Intervall oder alternativ
die relative Haugkeit (= N1 Anzahl) der xi im Datensatz x1 ; : : : ; xN , die in das Intervall fallen. Man kann
das Histogramm auch als Funktion auassen, die auf den einzelnen Intervallen konstant ist:
Histogramm
Wahle Startpunkt a und Intervallbreite b > 0:
Unterteile (;1; 1) in Intervalle In = (a + (n ; 1)b; a + nb]; ;1 < n < 1; der Breite b:
Zahle, wieviele der Datenpunkte aus dem Datensatz x1; : : : ; xN in die einzelnen Intervalle
fallen:
Zn = Anzahl der i = 1; : : : ; N mit a + (n ; 1)b < xi a + nb
Histogramm der Anzahlen:
HN (x) = Zn fur x 2 In ; ;1 < n < 1:
Histogramm der relativen Haugkeiten:
hN (x) = N1 HN (x) = N1 Zn fur x 2 In ; ;1 < n < 1:
Da wir nur N Daten haben, sind nur endlich viele der Anzahlen Zn von 0 verschieden, und es gilt:
1
X
Zn = N :
0.0
6
0.05
8
10
0.10
12
0.15
14
16
0.20
n=;1
4
6
8
10
12
14
16
Abbildung 1.4a
2
20
0
0
4
40
6
60
Naturlich gibt es aufgrund der zufalligen Variationen in einem Datensatz nur selten ein perfekt symmetrisches
Histogramm (vgl. Abb. 1.4a). Man spricht daher nur von einem rechts- oder linksschiefen Datensatz, wenn das
Histogramm sehr deutlich asymmetrisch ist.
0
Abbildung 1.4b
7
2
4
6
8
Rechts- und Linksschiefe erkennt man auch am Box-Plot, wenn auch eventuell nicht so deutlich (s. Abb. 1.4b).
Ein weiteres Kennzeichen schiefer Datensatze ist es, da Stichprobenmittel und Stichprobenmedian sich stark
voneinander unterscheiden. Wir schreiben hier (lies: "sehr viel groer als") fur einen im Vergleich zur
Variabilitat der Daten nennenswerten Unterschied. Wo man die Grenze zwischen einem noch symmetrischen
und einem schiefen Datensatz zieht, ist aber subjektiv, solange wir kein Modell fur den datenerzeugenden
Mechanismus formuliert haben.
0
0
20
20
40
40
60
60
80
80
Ist xN x_ N ; so ist der Datensatz rechtsschief. Ist x_ N xN ; so ist der Datensatz linksschief.
1
2
3
4
5
1
Eruptionslaenge in min
Anfangspunkt x0 = 0; 75
2
3
4
5
Eruptionslaenge in min
Abbildung 1.4c
Anfangspunkt x0 = 0; 5
Der optische Eindruck, den ein Histogramm vermittelt, hangt bekanntlich deutlich von der Wahl der Intervalloder Zellenbreite b ab und kann auch { was weniger bekannt ist { wesentlich von der Wahl des Anfangspunktes
abhangen (s. Abb. 1.4c). Im Zweifelsfall kann man sich verschiedene Histogramme mit unterschiedlichen Wahlen
von a und b anschauen.
Faustregel: Wahle a so, da der Stichprobenmedian ungefahr in der Mitte eines Intervalls liegt.
max
Wahle b so, da das groe Intervall [xmin
N ; xN ], in dem uberhaupt Daten liegen, von
wenigstens 5 und hochstens 20 Teilintervallen der Lange b uberdeckt wird { je groer
N ist, desto groer sollte die Zahl der Teilintervalle sein. Dabei sollte die Anzahl der
Datenwerte N wenigstens das Funache der Anzahl der genannten Teilintervalle sein.
Unter Berucksichtigung dieser Gesichtspunkte wahlt man a und b der Einfachheit halber
als glatte Zahlen. Vermittelt das so gefundene Histogramm keinen zufriedenstellenden
Eindruck von den Daten, so variiert man b und eventuell auch a:
Eine andere interessante Eigenschaft eines Datensatzes, die sich eventuell am Histogramm erkennen lat, ist die
Zwei- oder Mehrgipigkeit (Bi- oder Multimodalitat), d.h. das Histogramm hat zwei oder mehrere deutliche
Maxima. Ein klassisches Beispiel ist die britische Einkommensverteilung, die in den funfziger und sechziger
Jahren eingipig (oder unimodal) war, wobei das Maximum dem "Mittelstandsbauch" entsprach, seither sich
aber zu einer deutlich zweigipigen Verteilung entwickelt hat mit zwei Maxima im niederen (Arbeitslose, Billigjobs,...) und im mittleren Bereich (Mittelstand). Zwei- oder Mehrgipigkeit des Histogramms deutet eventuell
darauf hin, da die Daten aus zwei unterschiedlichen Populationen erhoben worden sind.
Wie schon bei der Schiefe bleibt es ohne statistisches Modell und daraus abgeleiteten Verfahren dem subjektiven Urteilsvermogen des
Datenauswerters uberlassen, ob er lokale Nebenmaxima im Histogramm als zufalliges Phanomen oder als ernsthaften Hinweis auf die
Mehrgipigkeit des Datensatzes interpretiert. Im Beispiel steht die Zweigipigkeit auer Frage, aber in vielen Grenzfallen braucht man
entweder viel Erfahrung mit ahnlichen Datensatzen oder ein objektives statistisches Entscheidungsverfahren wie z.B. die in Kap. 5.6
beschriebenen Anpassungstests.
Die Willkur hinsichtlich der Wahl des Anfangspunktes a umgeht das sogenannte WARP-Verfahren (vgl. Hardle, Smoothing Techniques with
Implementation in S, Springer Verlag, 1991). Hierbei wird das Histogramm fur viele, jeweils leicht verschobene Anfangspunkte a1 ; : : : ; am
(m)
und stets dasselbe b berechnet (mit ak+1 ; ak = ; m = b); und die so entstehenden Histogramme h(1)
N ; : : : ; hN werden gemittelt. Die
resultierende Funktion
m
X
w (x) = 1 h(i) (x)
N
m i=1 N
8
ist unempndlich gegen den Einu des Anfangspunktes und hat geringere Sprunghohen, wirkt insgesamt also glatter (vgl. Abb. 1.4d,
rechts unten).
Abbildung 1.4d
1.5 Balkendiagramme und Paretodiagramme
%
0
10
20
30
40
Fur qualitative Daten u1; : : : ; uN ; die keine numerischen Werte annehmen, wird das Histogramm durch das
Balkendiagramm ersetzt. Hier wird in mehr oder weniger willkurlicher Anordnung zu jedem Wert, der in
u1; : : : ; uN vorkommt, ein Balken aufgetragen, dessen Hohe (bei jeweils derselben Breite) proportional zur
Anzahl der ui ; i = 1; : : : ; N, ist, die den betreenden Wert angenommen haben.
SPD
CDU
B90/Gr ne
andere
keine Angabe
Abbildung 1.5a: Umfrage zur Landtagswahl
Ein Paretodiagramm ist ein spezielles Balkendiagramm, das im Zusammenhang mit der Qualitatssicherung
betrachtet wird. Beobachtet werden die Ursachen fur das Versagen oder die unbefriedigende Leistung eines
9
Systems. Die Haugkeit der einzelnen Ursachen wird dann mit einem Balkendiagramm veranschaulicht. Dabei
zeigt sich oft die Gultigkeit von Paretos Regel (kein Naturgesetz und kein mathematischer Satz, sondern eine
Erfahrungstatsache, die in der Praxis oft, aber nicht immer bestatigt wird): Von vielen moglichen Ursachen fur
ein Ereignis leisten einige wenige den Hauptbeitrag.
Beispiel: Eine von einem Rechner kontrollierte Drehbank liefert zu oft unbefriedigende Ergebnisse. Die Bedienungsmannschaft registrierte
die folgenden Ursachen und ihre Haugkeiten: Fehler bei der Bedienung (14), Stromschwankungen (5), Instabilitat des Kontrollrechners
(24), zu spater Austausch eines abgenutzten Schneidkopfes (2), andere Grunde (6). Das Paretodiagramm zeigt deutlich, da zur Steigerung
der Qualitat in erster Linie die Fehleranfalligkeit des Rechners verringert und in zweiter Linie die Leistung der Bedienungsmannschaft
verbessert werden mu, wobei andere Fehlerquellen vernachlassigbar sind.
Abbildung 1.5b
1.6 Streudiagramme oder Scatter Plots
15
Bisher haben wir nur eindimensionale Daten betrachtet. Oft werden aber an ein und demselben Objekt zwei oder
mehr Messungen vorgenommen, fur deren wechselseitige Abhangigkeit man sich interessiert. Wir betrachten
einen zweidimensionalen Datensatz
x x 1
N
y1 ; : : : ; yN ; xi ; yi reellwertig:
Tragt man die Punkte mit Koordinaten xi ; yi in einem zweidimensionalen Koordinatensystem auf, so nennt
man dies ein Streudiagramm oder einen Scatter Plot. Hangen xi und yi nicht voneinander ab, so hat die
resultierende Punktwolke ungefahr die Form einer Ellipse mit zu den Koordinatenachsen parallelen Hauptachsen
(Abb. 1.6a). Die Ellipse wird zum Kreis, wenn die Variabilitaten der eindimensionalen Datensatze x1; : : : ; xN
bzw. y1 ; : : : ; yn in etwa gleich sind. Zeigt die Punktwolke eine steigende (Abb. 1.6b) bzw. fallende (Abb. 1.6c)
Tendenz, so hangen xi und yi (in erster Naherung linear) voneinander ab: je groer der Wert xi; desto groer
bzw. kleiner ist meist auch der Wert yi : Gelegentlich erkennt man am Scatterplot auch speziellere Formen der
Abhangigkeit zwischen xi und yi : Abb. 1.6d zeigt z.B. eine Situation, wo Vergroerung von xi bis zu einem
gewissen Sattigungswert auch yi vergroert, noch weitere Vergroerung von xi aber keinen Einu mehr auf yi
hat.
o
o
o
o
o
8
o
o
o o
o
o
6
oo
o
o
o
Y
o
o
5
o
o
o
o
0
o
o
o
o
o
o oo
oo
o o
o
oo
oo
o
oo
o ooo
o
o o
o
oo
o o o
o
o
o
oo
o
o oo
o
oo
o o
o o
oo
o
o oo
o
o
oo
o oo o
o
oo
o
o o oo
o
o
oo o oo
o
o
o
oo
o
oo
oo o
o o
oo
oo o
o
oo o o
o
oo
o o
o o o oo oo
o
o
o o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
-2
o
o
oo
o
o
o
o
4
o
o
o
o
o
oo o o
o
o oo
o
o o o
oo
o
o oo
o
o
o
o
o
oo
o
o
o o o
o
o
o o
oo
o
o o o
o
oo
o
o
o o
oo
o
o oo
oo o
o
o
oo o o
o
oo
o
o o
o
o o
o
o
o
o
o o
o
o
o
o
o
o
o o
o
o
o
o
o
oo
o
oo
o
o
o
o
o o o
oo
o
o
o
o
o
o
o
o
Y
o
2
o
ooo
o o
o
0
10
o
o
o
o
o
o
-2
0
2
4
6
8
0
2
4
6
X
X
Abbildung 1.6a
Abbildung 1.6b
10
8
o
o
o
o
o
o
o
oo
o
o
o
4
o
2
Y
-4
-2
o
oo o o
oo
oo
o o
o o o
o
o o o
o o o ooo
o o
o oo o oo
o
o o oo
o
ooo
o
o
ooo oo
o o o o
oo
o
o
o o
o
o
o
o
oo o oo
o
o
o o
o
o o o
o
o
-6
o
o
o
oo
oo
o
o oo o
o
o
o
oo o o
o
oo
o
o
o
o oo
o oo
o o
o
o o oo
o
o
o
-8
o
o
o
o
6
o
o
o
o
o
o
o
oo
o
o
8
o
o o
o
o
-2
o
o
o
4
o
o oo
o o oo o
oo
o
o o o o ooo o
o o
o oo
o
o
o
ooo o o
oo o o o o o ooo
o
o
o
oo
o
oooo
o
ooo
o
o
o
oooo
oo o oo
oo o o
o o o o oo
o
o
o
o
o ooo
o
o
o
o
o
o
o
o oo
o
o
o oo
oo oo o o o o
o o
o oo
o
o
o
o o o
o
oo
oo
ooo oo o
o
o
o
o o
oo o
o
o
oo
oo o
o oo o
o
o
o oo
oo
o
o
o o o oo o oo ooo o
o
o
o
o
o oo o o o o
o
o
oo
o
o
o
o
oo
oo
o
o
o
o
oo
o o
o
o
o
o
o
o
o
o
o
o
o
o o
o
2
o
o
o
o
0
o
o
6
o
o o
o
o
o
o
o
o
Y
o
o
0
0
o
10
0
2
X
4
6
8
X
Abbildung 1.6c
Abbildung 1.6d
1.7 Kovarianz und Korrelation als Abhangigkeitsmae
Die im Streudiagramm erkennbare Abhangigkeit zwischen xi und yi lat sich mit Hilfe der Stichprobenkovarianz c^N , dem Mittelwert der Produkte der durch Abziehen des jeweiligen Stichprobenmittels um 0 zentrierten
xi und yi , quantizieren:
Stichprobenkovarianz
N
X
c^N = N 1; 1 (xi ; xN )(yi ; y N )
i=1
Oft wird auch durch N statt durch N ; 1 dividiert. Wir ziehen diese Denition vor, da wir dann bei der folgenden Denition der
Stichprobenkorrelation direkt die Stichprobenstreuungen einsetzen konnen.
Wie die Stichprobenstreuung ist die Stichprobenkovarianz nicht invariant gegenuber A nderung der Skalen, in
denen die xi bzw. yi gemessen werden. Daher ziehen wir als Abhangigkeitsma die skalen- und verschiebungsinvariante Stichprobenkorrelation ^N vor:
Stichprobenkorrelation
P
s2N;x = N 1;1 Ni=1 (xi ; xN )2
P
s2N;y = N 1;1 Ni=1 (yi ; y N )2
^N
= sN;xc^NsN;y
Es gilt immer: ;1 ^N 1:
Man erhalt die Stichprobenkorrelation also aus der Stichprobenkovarianz, indem man durch die Stichprobenstandardabweichungen der x1 ; : : : ; xN und der y1 ; : : : ; yN dividiert. Unabhangig von den Skalen der xi und
yi nimmt ^N immer Werte zwischen ;1 und +1 an. Dies folgt sofort aus der Cauchy-Schwarz-Ungleichung
in RN ; wenn man benutzt, da bis auf den sich herauskurzenden Faktor N 1;1 die Stichprobenkovarianz das
Skalarprodukt und sN;x ; sN;Y die Normen der beiden Vektoren mit Koordinaten x1 ; xN ; : : : ; xN ; xN bzw.
y1 ; y N ; : : : ; yN ; y N sind.
Ist ^N die Stichprobenkorrelation zwischen x1; : : : ; xN und y1 ; : : : ; yN ; so ist ^N auch die Stichprobenkorrelation
zwischen
i ) x1 + cx ; : : : ; xN + cx und y1 + cy ; : : : ; yN + cy (Verschiebungsinvarianz)
ii) cx x1; : : : ; cxxN und cy y1 ; : : : ; cy yN fur cx ; cy > 0 (Skaleninvarianz)
11
73
o
o
o
o
o oo
o
72
o
o
o
o
o
o
o
o
o
o
71
o
o
o
o
o
o
o
o o
o
o
o
oo
o
o
o o
70
Lebenserwartung
o
o
o o
o
o
o
o
69
o
o
o
68
o
o
o
3000
3500
4000
4500
5000
5500
6000
Einkommen
Abbildung 1.7: Zusammenhang zwischen Pro-Kopf-Einkommen und Lebenserwartung in den USA (X : Einkommen, Y : Lebensdauer):
X N = 4435; 8 Y N = 70:88
c^N = 280:66
sN;X = 614:47 SN;Y = 1:34
^N = 0:34
12
2 Wahrscheinlichkeitstheoretische Grundlagen
Die datenanalytischen Verfahren des ersten Kapitels haben den Nachteil, da Schlusse subjektiv gezogen werden
und oft viel Erfahrung erfordern. Fragen wie "Ist ein Histogramm zweigipig, so da die Population, aus der
Daten stammen, in zwei Teile zerfallt, oder erweckt es nur zufallig den Eindruck der Zweigipigkeit?" oder
"Ist j^N j gro genug, um auf Abhangigkeit zwischen xi und yi schlieen zu konnen?" lassen sich aber auch mit
objektiven statistischen Entscheidungsverfahren in einer Weise beantworten, die jederzeit reproduzierbar ist.
Grundlage dieser Verfahren sind Modelle fur den datenerzeugenden Mechanismus. In diesem Kapitel entwickeln
wir solche Modelle und interpretieren die Modellparameter fur einen Datensatz aus unabhangigen, auf identische
Weise gewonnenen Daten (Zahlenwerte und qualitative Merkmale).
Zur Sprachregelung: Stochastik ist ein Sammelbegri fur Wahrscheinlichkeitstheorie und mathematische Statistik, beschreibt also die mathematische Disziplin, die sich mit der Modellierung und dem Studium des Zufalls beschaftigt. Stochastische Modelle sind dementsprechend mathematische Modelle, die den Zufall benutzen, um fur deterministische Betrachtungen zu komplexe Phanomene zu beschreiben. Paradebeispiel ist
der Wurfelwurf, dessen Ergebnis sich auf der Basis der klassischen Mechanik im Prinzip aus Handhaltung,
Luftwiderstand, Reibung, Rollverhalten, ... exakt vorausberechnen lat. Das physikalische System ist aber viel
zu kompliziert, um diese deterministischen Rechnungen durchfuhren zu konnen. Stattdessen kann man fur viele
Zwecke ein einfaches stochastisches Modell benutzen: Das Ergebnis des Wurfelwurfes ist eine Zufallsgroe mit
Werten in der Menge f1; 2; 3; 4; 5; 6g; wobei jede Zahl 1; : : : ; 6 dieselbe Wahrscheinlichkeit 61 hat, als Wert der
Zufallsgroe aufzutreten.
2.1 Zufallsgroen, Ereignisse, Wahrscheinlichkeiten
Wir betrachten eine Messung oder eine andere Art von Feststellung eines numerischen oder qualitativen Merkmals,
deren Ergebnis in einem Werteraum X liegt. Wiederholte Messungen derselben Art fuhren zu unterschiedlichen Ergebnissen. Wir modellieren den einzelnen Mevorgang, indem wir von einem Zufallsmechanismus
ausgehen, dessen einmalige Betatigung eine Zufallsgroe X mit Werten in X liefert. Betatigen wir den Zufallsmechanismus wiederholt, so produziert er verschiedene Realisationen der Zufallsgroe X.
X heit in diesem Zusammenhang eine quantitative Zufallsgroe, wenn der Werteraum X auf naturliche Weise
als Teilmenge der reellen Zahlen oder allgemeiner des Rd fur ein d 1 aufgefat werden kann. Quantitative
Zufallsgroen haben also Zahlen oder Vektoren als Werte.
Beispiele: i)
ii)
iii)
iv)
R
Korpergroe eines Menschen: X = (0; 1) Anzahl der defekten Gerate in einer Tagesproduktion von 100 Geraten: X = f0; 1; : : : ; 100g Lange, Breite, Hohe eines Quaders X = (0; 1) (0; 1) (0; 1) 3
Alter und Gewicht eines Menschen X = f0; 1; 2; : : : g (0; 1) 2
RR
R
X heit andernfalls eine qualitative Zufallsgroe. In diesem Fall lassen sich den moglichen Werte aus X gar
nicht oder nur willkurlich Zahlen zuordnen.
Beispiele: i)
ii)
iii)
iv)
v)
Familienstand eines Menschen: X = f ledig, verheiratet, verwitwet, geschieden, keine Angabe g
Meinungsauerung auf Frage nach Tempo 100 auf der Autobahn: X = fdagegen, dafur, egal, keine Angabeg
Farbe eines bestellten Neuwagens: X = f rot, grun, blau, wei, schwarz, ... g
Zeugnisnote in einem Schulfach: X = f1; 2; 3; 4; 5; 6g
Ergebnis eines Wurfelwurfs: X = f1; 2; 3; 4; 5; 6g
Eine besonders einfache Klasse von Zufallsmechanismen, die sowohl qualitative wie quantitative Zufallsgroen
(hier: Anzahlen) liefern konnen, sind die Laplace-Mechanismen. Sie treten bei der rein zufalligen Auswahl
eines Individuums aus einer endlichen Menge auf und bilden so die Grundlage von Stichprobenverfahren in z.B.
Marktforschung oder Qualitatskontrolle.
Denition 1: A sei eine endliche Menge.
1. Ein geordnetes n-tupel von Elementen aus A, d.h. eine Anordnung (evtl. mit Wiederholungen) von
Elementen aus A, heit Stichprobe vom Umfang n.
2. Ein Mechanismus, der wiederholt aus A ein Element auswahlen kann, so da fur alle n 1 bei n-maliger
Betatigung jede Stichprobe vom Umfang n dieselbe Chance hat, als Ergebnis aufzutreten, heit LaplaceMechanismus. Die einzelnen Wahlen heien unabhangige Realisierungen des Mechanismus.
13
3. Die einmalige Betatigung des Mechanismus liefert eine Laplace-verteilte Zufallsgroe mit Werten in
X = A:
Beispiele:
i) A = f1; : : : ; 6g: (1; 3; 4; 1; 3) und (1; 2; 4; 6; 5) sind zwei Stichproben vom Umfang n = 5: Ein zu A passender
Laplace-Mechanismus ware das wiederholte Werfen eines idealen,
d.h. vollig regelmaigen Wurfels. Jede
der beiden genannten Stichproben hatte dieselbe Chance (= ( 61 )5 ); das Ergebnis funfmaligen Wurfelns zu
sein.
ii) Gegeben sei eine Urne mit gleich vielen roten (r), schwarzen (s) und blauen (b) Kugeln und A = fr; s; bg: 8tupel wie (r; s; s; s; b; r; b; b) oder (s; r; b; b; r; r; s; s) haben beim wiederholten Ziehen mit Zurucklegen jeweils
dieselbe Chance (= ( 13 )8 ); als Ergebnis des sukzessiven Ziehens realisiert zu werden.
Um andere Typen von Zufallsmechanismen und Zufallsgroen charakterisieren zu konnen, brauchen wir die
Begrie Ereignis, Wahrscheinlichkeit und Verteilung.
Sprechweisen: X sei eine Zufallsgroe mit Werten in der Menge X :
1. Beobachtbare Ereignisse sind von der Form fX 2 B g, wobei B eine beliebige, nicht pathologische
Teilmenge von X ist. Nach Betatigen des Zufallsmechanismus, der X erzeugt, steht fest, ob ein solches
Ereignis eingetreten ist oder nicht.
2. Jedem Ereignis fX 2 B g wird eine Wahrscheinlichkeit Ws(X 2 B) zugedacht, d.h. eine Zahl zwischen
0 und 1, die die Chance, da fX 2 B g eintrit, mit. Diese Zuordnung erfullt:
Ist Ws(X 2 B) = 0, so ist fX 2 B g ein unmogliches Ereignis, das zwar hypothetisch vorstellbar, in
der Praxis aber nicht realisierbar ist. Ist Ws(X 2 B) = 1; so ist fX 2 B g ein sicheres Ereignis.
3. Die Abbildung P; die jeder (nicht pathologischen) Teilmenge B von X die Wahrscheinlichkeit Ws(X 2 B)
des zugehorigen Ereignisses zuordnet, heit die Verteilung von X:
P : f nicht pathologische Teilmenge von Xg ;! [0; 1]
P (B) := Ws(X 2 B)
Wegen 2) gilt insbesondere:
P (;) = Ws(X 2 ;) = 0
P (X ) = Ws(X 2 X ) = 1
R
Beispiel: X sei die Lebensdauer (in Tagen) einer Gluhbirne, die ununterbrochen brennt. Ein passender Werteraum ist
X = [0; 1) :
Beobachtbare
und interessierende Ereignisse sind z.B. fX 5:5g = fX 2 [0; 5:5]g, d.h. die Gluhbirne brennt
hochstens 5 12 Tage lang, oder f7 < X 28g = fX 2 (7; 28]g; d.h. die Gluhbirne brennt in der 2.-4. Woche durch.
Ein grobes Modell fur die Lebensdauer von Gluhbirnen geht davon aus, da es ein geeignetes > 0 gibt mit
Ws(X 5:5) P ([0; 5:5]) = 1 ; e;5:5
Ws(7 < X 28) P ((7; 28]) = e;7 ; e;28
Allgemein gilt fur diese Verteilung P , die sogenannte Exponentialverteilung:
P ([a; b]) Ws(a X b) = e;a ; e;b fur alle 0 a b < 1
Bevor wir einige einfache, praktisch wichtige Verteilungen kennenlernen, ist es nutzlich, ein paar Rechenregeln
fur Wahrscheinlichkeiten anzuschauen. An ihnen erkennt man, da zur Angabe einer Verteilung nur die Wahrscheinlichkeiten einfacher Ereignisse vorgegeben werden mussen. Daraus lassen sich dann mit den folgenden
Regeln Wahrscheinlichkeiten beliebiger Ereignisse berechnen.
Vorher ist ein kurzer Ruckblick auf einige Begrie der Mengenlehre notig: A; B seien Teilmengen des Werteraums
X.
Kann
nur endlich oder abzahlbar viele verschiedene Werte aus X annehmen, so ist f 2 g fur jede Teilmenge X ein
beobachtbares Ereignis. Hat einen kontinuierlichen Wertebereich, z.B. alle positiven reellen Zahlen bei einer Langenmessung, so
mussen gewisse pathologische Teilmengen von X aus den Betrachtungen ausgeschlossen werden. Solche Teilmengen sind aber sehr
kompliziert und lassen sich nur mit erheblichem mathematischen Aufwand beschreiben. In einfachen praktischen Situationen, wie
wir sie in diesem Skript durchweg betrachten, treten solche pathologischen Situationen nicht auf.
X
X
X
14
B
B
i) Die Vereinigung A [ B von A und B ist die Menge aller Werte in X , die zu A oder zu B gehoren.
ii) Der Durchschnitt A \ B von A und B ist die Menge aller Werte in X , die zu A und zu B gehoren.
iii) A und B heien disjunkt, wenn sie keine gemeinsamen Elemente haben, d.h. wenn A \ B die leere Menge
; ist.
iv) Das Komplement Ac von A ist die Menge aller Werte in X , die nicht zu A gehoren.
Diese mengentheoretischen Begrie lassen sich leicht in der Sprache der Ereignisse, deren Eintreten oder
Nichteintreten uns interessiert, interpretieren:
i) fX 2 A [ B g tritt ein, wenn wenigstens eines der Ereignisse fX 2 Ag oder fX 2 B g eintritt.
ii) fX 2 A \ B g tritt ein, wenn beide Ereignisse fX 2 Ag und fX 2 B g eintreten.
iii) Wenn A; B disjunkt sind, so schlieen die Ereignisse fX 2 Ag und fX 2 B g einander aus, d.h. es kann
hochstens eines der beiden eintreten.
iv) fX 2 Ac g = fX 2= Ag tritt ein, wenn fX 2 Ag nicht eintritt.
Beispiel: Wir betrachten in erster Linie endliche oder abzahlbare Mengen oder Teilintervalle der reellen Zahlen.
i) X = fa; b; c; : : : ; zg seien die Buchstaben des Alphabets.
Fur A = fa; b; c; d; e; f g; B = fa; d; g; j; mg ist A [ B = fa; b; c; d; e; f; g; j; mg; A \ B = fa; dg:
Die Mengen A = fa; b; cg; B = fh; k;w; zg sind disjunkt.
Die Menge A
=
fa; e; i; o:ug der Vokale hat als Komplement Ac
fb; c; d; f; g; h; j; : : : ; n; p; : : : ; t; v; : : : ; zg; die Menge der Konsonanten.
ii) [0; 2] [ [1; 5] = [0; 5] [0; 2] \ [1; 5] = [1; 2]
(;1; 0] und c(0; 1] sind cdisjunkt.
fx; jxj 1cg = [;1; 1]c = (;1; ;1) [ (1; 1) = fx; jxj > 1g
fx; x cg = (;1; c] = (c; 1) = fx; x > cg
15
=
Die ersten drei Rechenregeln fur Wahrscheinlichkeiten wurden von Kolmogorow als Postulate gefordert, d.h.
nur solche Zuordnungen von Zahlenwerten zu Ereignissen wurden als Wahrscheinlichkeiten betrachtet, die diese
Kolmogorowschen Axiome erfullen:
Fur alle (nicht pathologischen) B; B1 ; B2 ; : : : X gilt:
W1) 0 Ws(X 2 B) 1
W2) Ws(X 2 X ) = 1
W3) Sind B1 ; B2 ; : : : paarweise disjunkt, d.h. Bi \ Bj = ; fur i 6= j; so gilt:
Ws(X 2 Bj fur ein j = 1; 2; : : :) Ws(X 2
1
[
j =1
Bj ) =
1
X
j =1
Ws(X 2 Bj ):
W1 und W2 besagen, da Wahrscheinlichkeiten immer Zahlen zwischen 0 und 1 sind und da das sichere
Ereignis fX 2 Xg den maximal moglichen Wahrscheinlichkeitswert zugeordnet bekommt. Entscheidend ist W3,
die sogenannte abzahlbare Additivitat: wenn die Ereignisse fX 2 Bj g einander ausschlieen, dann ist die
Wahrscheinlichkeit, da uberhaupt eines von ihnen eintritt (es kann ja hochstens eines eintreten), die Summe
der Wahrscheinlichkeiten, da die einzelnen Ereignisse eintreten.
Beispiel:
R
i) X sei eine reellwertige Zufallsgroe, d.h. X = : Die halboenen Intervalle (0; 1]; (1; 2]; (2; 3]; : : : sind paarweise
disjunkt, und
1
[
(j ; 1; j ] = (0; 1] [ (1; 2] [ (2; 3] [ : : : = (0; 1)
Mit W3 folgt so:
j=1
Ws(X > 0) = Ws(X 2 (0; 1)) =
1
X
j=1
Ws(X 2 (j ; 1; j ]) =
1
X
j=1
Ws(j ; 1 < X j )
ii) A = fa1 ; : : : ; am g X sei eine endliche Menge. Ist Ws(X = aj ); j = 1; : : : ; m; bekannt, so lat sich
Ws(X 2 B) fur alle Teilmengen B A berechnen, z.B. fur B = fa1 ; a3 ; a6 g = fa1 g [ fa3 g [ fa6 g :
Ws(X 2 B) = Ws(X = a1 ) + Ws(X = a3 ) + Ws(X = a6 )
oder allgemeiner, da B = Si;ai 2B fai g d.h. B ist Vereinigung seiner Elemente:
Ws(X 2 B) =
X
i;ai 2B
Ws(X = ai )
Als Spezialfalle von W3 ergeben sich drei einfache Regeln, die wir im folgenden oft benutzen:
Fur alle (nicht pathologischen) B; C X gilt:
W3a) Sind B; C disjunkt, d.h. fX 2 B g; fX 2 C g schlieen einander aus, so gilt:
Ws(X 2 B oder X 2 C) Ws(X 2 B [ C) = Ws(X 2 B) + Ws(X 2 C)
W3b) Ws(X 2= B) = 1 ; Ws(X 2 B)
W3c) Ist B C; d.h. aus fX 2 B g folgt fX 2 C g; so gilt:
Ws(X 2 B) Ws(X 2 C)
W3a folgt aus W3, wenn man dort B1 = B; B2 = C und Bj = ; fur alle j 3 wahlt. W3b folgt aus W3a fur C = Bc und aus der
Tatsache, da fX 2 Bg oder fX 2= Bg auf jeden Fall eintritt, als sicheres Ereignis also die Wahrscheinlichkeit 1 hat:
Ws(X 2 B) + Ws(X 2= B) = Ws(X 2 B oder X 2= B) = 1 :
16
Fur W3c sei B0 der Teil von C; der nicht zu B gehort. B; B0 sind dann disjunkt, und B [ B0 = C , so da wegen W3a:
Ws(X 2 B) = Ws(X 2 C ) ; Ws(X 2 B0 ) Ws(X 2 C ):
i) B = f0g; C = f1g: Wegen W3a: Ws(X = 0 oder X = 1) = Ws(X = 0) + Ws(X = 1)
ii) B = (0; 1): Wegen W3b: Ws(X 0) = 1 ; Ws(X > 0)
iii) B = (0; 1); C = [0; 1) = f0g [ B: Wegen W3c: Ws(X > 0) Ws(X 0)
Die Begrie Zufallsgroe, Zufallsmechanismus und damit der daraus abgeleitete Begri Ereignis haben in diesem Abschnitt im Mittelpunkt
des Interesses gestanden, sind aber nicht in einem mathematisch exakten Sinn deniert worden. Das ist im Rahmen dieses auf Anwendungen
zielenden Skriptes auch nicht notwendig. Es reicht aus, sich einen Zufallsmechanismus als die idealisierte Form einer Apparatur vorzustellen,
die bei wiederholter Betatigung verschiedene Ergebnisse liefert. Das Gedankenkonstrukt Zufallsmechanismus dient dann als idealisiertes
Modell fur reale, datenproduzierende Vorgange.
Beispiel:
Der Begri Wahrscheinlichkeit lat sich dagegen uber die Kolmogorowschen Axiome als eine Abbildung von (einem Teilsystem der)
Teilmengen von X in das Intervall [0; 1] auassen, die gewisse Rechenregeln erfullt. Diese Denition ist mathematisch exakt genug, um im
folgenden damit arbeiten zu konnen. Der Kern eines stochastischen Modells fur einen datenerzeugenden Mechanismus ist daher immer die
Angabe des Werteraums X und der zugehorigen Wahrscheinlichkeiten Ws(X 2 B); B X (B nicht pathologisch), d.h. die Angabe der
Verteilung.
Ein stochastisches Modell benutzt man in Situationen, wo eine Messung kein deterministisches, d.h. kein
sicher vorhersagbares, Ergebnis hat. Das Ergebnis der Messung liege aber auf jeden Fall in der Menge X . Als
Modell fur eine solche Messung dient dann die Realisation einer Zufallsgroe X mit Werteraum X , und es wird
speziziert durch Angabe der Wahrscheinlichkeiten Ws(X 2 B); B X (nicht pathologisch).
2.2 Binomial- und hypergeometrisch verteilte Zufallsgroen
Die Verteilungen dieses Abschnitts spielen eine wichtige Rolle in der Stichprobentheorie und damit bei Umfragen
und in der Qualitatssicherung.
Fur n 1 und 0 < p < 1 nennen wir eine Zufallsgroe X mit Werten in X = f0; : : : ; ng binomialverteilt
zum Parameter (n; p); wenn
n
Ws(X = k) = k pk (1 ; p)n;k ; k = 0; : : : ; n :
Als Kurzschreibweise benutzen wir dafur: 00 X ist B(n; p)-verteilt".
; Zur Erinnerung: Die Binomialkoezienten nk { lies: n uber k { sind deniert durch
n!
n(n ; 1) : : : (n ; k + 1)
k = k!(n ; k)! = 1 2 : : : (k ; 1) k ; k = 0; : : : ; n;
n
wobei k! = 1;n2 : :;:n(k ; 1) k { lies: k-Fakultat { fur k 2 und 0! = 1! = 1 :
Speziell gilt 0 = n = 1 :
Der binomische Lehrsatz zeigt, da die Rechenregel W2: Ws(X 2 X ) = 1 erfullt ist:
Ws(X 2 X ) =
n
X
k=0
Ws(X = k) =
n n
X
k=0 k
pk (1 ; p)n;k = (p + 1 ; p)n = 1 :
Modellbildung: Binomialverteilte Zufallsgroen treten im Zusammenhang mit folgender Situation auf: Es
werden n unabhangige, gleichartige Versuche durchgefuhrt, die nur zwei mogliche Ergebnisse haben konnen.
Wir nennen diese beiden Ergebnisse stets Erfolg und Mierfolg, wobei wir an n technische oder wissenschaft-
liche Experimente denken. Bei Meinungsumfragen tritt eine solche Situation auf, wenn n Personen eine Frage
gestellt wird, die sie nur mit "Ja" oder "Nein" beantworten konnen. Angenommen, ein Einzelversuch fuhrt mit
Wahrscheinlichkeit p zum Erfolg { und damit wegen W3b mit Wahrscheinlichkeit 1 ; p zum Mierfolg:
Ws(Erfolg) = p ; Ws(Mierfolg) = 1 ; p :
Dann ist die Zufallsgroe
X = Anzahl der Erfolge in n Versuchen
B(n; p)-verteilt.
17
Spezialfall (Stichprobenziehen mit Zurucklegen): Gegeben seien N Objekte (oder Personen), von denen
genau M ein bestimmtes Merkmal haben. Wir wahlen nacheinander n dieser Objekte aus, wobei bei jedem
Ziehungsvorgang alle Objekte { also auch die bereits gezogenen { in Frage kommen. Als Endergebnis erhalten
wir eine Stichprobe vom Umfang n aus der Menge der N Objekte. Dann kann man mit Hilfe der Kombinatorik
zeigen:
X = Anzahl der gezogenen Objekte, die das Merkmal besitzen
ist B(n; p)-verteilt mit p = MN : Wenn man bei den gezogenen Objekten nur darauf achtet, ob sie das Merkmal
besitzen oder nicht, so ist jede Einzelziehung ein Versuch mit nur zwei moglichen Ausgangen, so da das Ziehen
einer Stichprobe mit Zurucklegen in diesem Sinn ein Spezialfall der obigen Modellbildung ist. "Erfolg" entspricht
dabei dem Ziehen eines Objektes mit dem Merkmal.
Binomialverteilte Zufallsgroen treten als Anzahlen von Erfolgen in n Versuchen auf. Sie lassen sich daher
als Summe sogenannter 0-1-Zufallsgroen (oder auch Bernoulli-verteilter Zufallsgroen) schreiben. Eine
solche 0-1-verteilte Zufallsgroe Y kann nur die beiden Werte 0 oder 1 annehmen, und ihre Verteilung ist durch
die Wahrscheinlichkeit p, da Y = 1 ist, gegeben:
Ws(Y = 1) = p; Ws(Y = 0) = 1 ; p fur ein 0 < p < 1 :
Durch Vergleich mit der Denition einer binomialverteilten Zufallsgroe im Spezialfall n = 1 sieht man, da
eine 0-1-verteilte Zufallsgroe nichts anderes als eine B(1; p)-verteilte Zufallsgroe ist.
Wir stellen uns nun eine Versuchsreihe von n unabhangigen, identischen Versuchen vor, die als Ergebnis jeweils
nur "Erfolg" oder "Mierfolg" haben konnen, und wir setzen fur j = 1; : : : ; n :
Yj = 1 , falls Erfolg im j-ten Versuch
Yj = 0 , falls Mierfolg im j-ten Versuch.
Y1 ; : : : ; Yn sind dann n unabhangige 0-1-Zufallsgroen mit demselben Parameter p:
p = Ws(Erfolg) = Ws(Yj = 1) ; j = 1; : : : ; n ;
und die Anzahl der Erfolge in den n Versuchen ist
X=
n
X
j =1
Yj = Anzahl der Erfolge in n Versuchen.
X ist, wie oben bereits behauptet, B(n; p)-verteilt.
Diese Aussage lat sich beweisen, wenn das vorerst noch heuristische Konzept der "Unabhangigkeit" von Versuchen oder { allgemeiner {
von Zufallsgroen prazisiert wird (vgl. Kap. 2.10). Wir verzichten aber im Rahmen dieses Skripts auf den Beweis.
Binomialverteilung
Werteraum X ;= f0; : : : ; ng; Parameter n 1; 0 < p < 1
Ws(X = k) = nk pk (1 ; p)n;k ; k = 0; : : : ; n
Schreibweise: X ist B(n; p)-verteilt
Spezialfall fur n = 1 : 0-1-Zufallsgroe Y
Werteraum X = f0; 1g; Parameter 0 < p < 1
Ws(Y = 1) = p; Ws(Y = 0) = 1 ; p
Schreibweise: Y ist B(1; p)-verteilt
18
0.8
0.6
0.15
0.4
0.10
0.0
0.2
0.05
0.0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
0
Ws(X = k) fur n = 20 und p = 0; 5
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Ws(X = k) fur n = 20 und p = 0; 1
Abbildung 2.2a
Beispiel:
i) n Personen mit Kopfschmerzen erhalten ein neues Medikament und geben an, ob der Schmerz nachlat (Erfolg) oder nicht (Mierfolg).
Wir setzen
Yj = 1, wenn das Medikament beim j -ten Patienten gewirkt hat
Yj = 0, andernfalls.
Ist p = Ws(Yj = 1) die Wahrscheinlichkeit, da das Medikament bei einem rein zufallig ausgewahlten Kopfschmerzpatienten wirkt,
so ist
n
X
X = Yj = Anzahl der Erfolge in den n Versuchen
j=1
binomialverteilt zum Parameter (n; p):
ii) Bei n jungen Kraftfahrern wird registriert, ob sie das
erste Jahr nach Erwerb des Fuhrerscheins unfallfrei uberstehen (Erfolg, Yj = 1)
oder nicht (Mierfolg, Yj = 0). Die Anzahl X = Pnj=1 Yj der Fahrer ohne Unfall ist dann B(n; p)-verteilt mit p = Ws(Yj = 1) =
Ws("unfallfrei").
iii) Umfragen unter Unternehmern uber ihre Einschatzung der zukunftigen Geschaftsentwicklung dienen zur Einschatzung der wirtschaftlichen Lage. Um die Verlalichkeit solcher Prognosen zu uberprufen, wird bei den n befragten Personen nach einem Jahr nachgefragt,
ob die ursprungliche Einschatzung sich bewahrheitet hat (Erfolg, Yj = 1) oder nicht (Mierfolg, Yj = 0). Die Zahl der Unternehmer,
die die Entwicklung ihrer Firma richtig eingeschatzt haben, ist dann X = Pnj=1 Yj und somit binomialverteilt.
Fur n; M N nennen wir eine Zufallsgroe X mit Werten X = f0; : : : ; min(n; M)g hypergeometrisch verteilt
zum Parameter (n; M; N) ; wenn
;M ;N ;M Ws(X = k) = k ;Nn;k ; k = 0; : : : ; min(n; M)
n
Als Kurzschreibweise benutzen wir dafur: 00 X ist H(n; M; N);verteilt".
Modellbildung (Stichprobenziehen ohne Zurucklegen): Gegeben seien wie oben N Objekte (oder Personen), von denen genau M ein bestimmtes Merkmal haben. Wir wahlen nacheinander n Objekte aus, wobei
einmal gewahlte Objekte nicht wieder gewahlt werden konnen. Das Ergebnis ist eine Stichprobe vom Umfang
n ohne Wiederholungen, d.h. jedes Objekt erscheint hochstens einmal in der Stichprobe. Dann folgt mit
Hilfe der Kombinatorik:
X = Anzahl der gezogenen Objekte, die das Merkmal besitzen
ist H(n; M; N)-verteilt. Es spielt in diesem Zusammenhang ubrigens keine Rolle, ob die Objekte nacheinander
gezogen werden oder ob simultan n Stuck aus der Gesamtheit von N Objekten gewahlt werden. Wichtig ist
allein, da alle Objekte dieselbe Chance haben, in der Stichprobe enthalten zu sein, und da jedes Objekt
hochstens einmal in der Stichprobe auftreten kann.
19
Hypergeometrische Verteilung
Werteraum X = f0; : : : ; min(n; M)g; Parameter n; M N
;M ;N ;M Ws(X = k) = k ;Nn;k ; k = 0; : : : ; min(n; M)
n
0.0
0.05
0.10
0.15
Schreibweise: X ist H(n; M; N)-verteilt
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Abbildung 2.2b: Ws(X = k) fur N = 300; M = 100; n = 30
Anwendungsfeld Qualitatskontrolle:
Um die Qualitat von Produkten zu uberprufen, werden (wenn die Tests kostenintensiv oder destruktiv sind)
nur Stichproben aus der Produktion genau untersucht. In der Form der Endkontrolle fuhrt der Produzent
diese Tests selbst durch: aus einer Tagesproduktion von N Geraten wird eine Stichprobe von n Stuck gezogen
und genau untersucht. Bei der Abnahmekontrolle fuhrt der Kaufer der Gerate oder eine fur die Einhaltung
gesetzlich festgelegter Mindestanforderungen verantwortliche Behorde die entsprechenden Tests durch: aus einer
Lieferung oder einem sogenannten Los von N Geraten wird eine Stichprobe von n Stuck gezogen und untersucht.
Mathematisch unterscheiden sich diese beiden Falle vorerst nicht; die unterschiedlichen Interessen von Produzent
und Abnehmer mussen aber spater bei der Entwicklung statistischer Entscheidungsverfahren berucksichtigt
werden. M ist jeweils die { unbekannte { Gesamtzahl defekter Gerate in der Tagesproduktion bzw. in der
Lieferung. Das "Merkmal", das manche Objekte haben, ist also die Eigenschaft, den Qualitatsanspruchen nicht
zu genugen.
X = Anzahl der defekten Gerate in der Stichprobe vom Umfang n
ist also eine hypergeometrisch verteilte Zufallsgroe. X wird in der Qualitatskontrolle dazu benutzt, Ruckschlusse
auf das unbekannte M zu ziehen und eine Entscheidung zu treen, ob z.B. eine Maschine gewartet werden mu
oder ob eine Lieferung vom Kunden abgelehnt wird.
Bei der Qualitatskontrolle ist es in der Praxis wichtig, da die Stichprobe rein zufallig aus der Gesamtheit von N Objekten gezogen
wird. Jedes Gerat mu dieselbe Chance haben, getestet zu werden. Man erreicht dies z.B., indem man die Gerate numeriert und einen
Zufallszahlengenerator n Nummern auswahlen lat. Andernfalls kann es zu schwerwiegenden Fehlschlussen kommen: Untersucht man
bei der Endkontrolle nur vormittags produzierte Gerate, so wird eine nachmittags durch Ermudungserscheinungen des Personals deutlich
nachlassende Qualitat nicht entdeckt. Untersucht man bei einer Abnahmekontrolle nur solche Gerate, die im Container vorne stehen, so
konnten diese z.B. aus einer fehlertrachtigeren Montagsproduktion stammen und so zur falschlichen Ablehnung der in Wahrheit aus allen
Wochentagen gemischten und qualitatsmaig befriedigenden Lieferung fuhren.
Wenn M und N ; M beide sehr viel groer als n sind, d.h. wenn die Stichprobe klein gegenuber der Zahl der
Objekte mit und ohne Merkmal ist, dann lat sich eine hypergeometrisch verteilte Zufallsgroe mit Parameter
(n; M; N) durch eine binomialverteilte Zufallsgroe mit Parameter (n; p) und p = MN approximieren:
20
X sei H(n; M; N)-verteilt
kmit M;Nn;;k M n
;
Ws(X = k) nk MN
1 ; MN
d.h. H(n; M; N) B(n; MN ) fur M; N ; M n
o
o
0.25
o
0.15
o
o
0.20
o
o
0.15
0.10
o
o
o
o
0.05
0.05
0.10
o
o
o
o
o
o
0
2
4
6
8
o
0.0
0.0
o
o
o
o
10
o
0
: hyp (N = 50; M = 20; n = 10)
: B(n = 10; p = 0; 4)
o
o
o
5
10
o
15
o
o
o
o
o
20
: hyp (N = 400; M = 160; n = 20)
: B(n = 20; p = 0; 4)
Abbildung 2.2c
Dies kann mit Methoden der Analysis gezeigt werden, ist aber auch intuitiv einleuchtend: die hypergeometrische
Verteilung tritt beim Stichprobenziehen ohne Zurucklegen auf, die Binomialverteilung beim Stichprobenziehen
mit Zurucklegen. Ist nun die Zahl der Objekte sehr gro gegenuber der Stichprobe, so ist auch beim Ziehen
mit Zurucklegen die Chance, da ein Objekt zwei- oder mehrfach in der Stichprobe auftaucht, vernachlassigbar
klein. In solchen Fallen kann man als Modell fur die Anzahl der gezogenen Objekte mit Merkmal statt einer
hypergeometrischen auch eine binomialverteilte Zufallsgroe nehmen, auch wenn die Stichprobe eigentlich ohne
Wiederholungen gezogen wird. Der Fehler ist vernachlassigbar, und die Rechnungen sind fur die Binomialverteilung wesentlich einfacher.
Bei der Qualitatskontrolle kann die hypergeometrische Verteilung im Normalfall nicht durch die Binomialverteilung ersetzt werden, da die Anzahl M der defekten Objekte (hoentlich!) klein und daher die Annahme
M n verletzt ist. Bei Meinungsumfragen kann man dagegen in der Regel das Binomialmodell benutzen,
obwohl die Stichproben auch hier ohne Wiederholungen aus der Gesamtpopulation gezogen werden.
Anwendungsfeld Meinungsumfragen:
Um die Meinung einer Population (Bevolkerung der Bundesrepublik, Kunden des ABC-Baumarktes, Anhanger
des 1.FCK, Studierende der Universitat bis zum 4. Semester, ...) zu erkunden, wird eine Stichprobe vom
Umfang n ausgewahlt und befragt. Die Frage kann nur auf zwei Weisen beantwortet werden (z.B. "Ja" oder
"Nein"). Im Normalfall wird jede Einzelperson hochstens einmal befragt, so da die Zahl der Ja-Antworten
eigentlich hypergeometrisch verteilt ist. Wir nehmen aber an, da die Groe N der Gesamtpopulation sowie die
Anzahlen M und N ; M der Personen in der Gesamtpopulation, die die eine oder die andere Antwort geben
wurden, sehr viel groer als n sind (N mu nicht bekannt sein). In diesem Fall ist
X = Anzahl der Personen in der Stichprobe, die mit "Ja" antworten
in genugend guter Naherung eine binomialverteilte Zufallsgroe mit Parameter n und p = MN : p ist der
(unbekannte) Bruchteil der Gesamtpopulation, der mit "Ja" antworten wurde, und den man mit Hilfe der
Beobachtung X schatzen kann.
Auf die meisten Fragen bei Meinungsumfragen gibt es mehr als zwei mogliche Antworten, z.B. m verschiedene
einander ausschlieende Antworten A1; : : : ; Am : Sei in einer Stichprobe von Umfang n fur i = 1; : : : ; n:
Xi = Anzahl der Personen, die mit Ai antworten
21
Dann sind X1 ; : : : ; Xm alle binomialverteilt:
Xi ist B(n; pi)-verteilt ; i = 1; : : : ; m ;
wobei p1 + : : : + pm = 1 :
pi ist hier der Anteil der Personen in der Gesamtpopulation, der die Antwort Ai geben wurde. Da jeder Befragte
in der Stichprobe genau eine der Antworten Ai gibt, gilt
X1 + : : : + Xm = n :
Die Zufallsgroen X1 ; : : : ; Xm hangen also voneinander ab. Wenn der Stichprobenumfang n klein gegen die Gesamtpopulation ist, liefert die Annahme, da der Vektor (X1 ; : : : ; Xm ) multinomial verteilt ist ein brauchbares
Modell (vgl. Kapitel 2.4).
Beispiel:
i) Ein Kaufhaus interessiert sich dafur, welcher Anteil p der Kunden mit dem Wagen zum Einkaufen kommt, also auf Parkplatze
angewiesen ist. Die Untersuchung wird fur die einzelnen Wochentage getrennt durchgefuhrt. Am Montag werden n Kunden befragt,
von denen X angeben, da sie mit dem Wagen in die Stadt gefahren sind. X ist B(n; p)-verteilt, und aus X lat sich die interessierende
Groe p schatzen.
ii) Bei einer Umfrage werden n Personen (typisch hier: n = 1000 oder 2000) befragt, welcher Partei sie ihre Stimme geben wurden,
wenn am kommenden Wochenende gewahlt wurde. Von diesen n Personen bekennen sich X1 zur SPD, X2 zur CDU, X3 zur FDP,...
Jede dieser Anzahlen Xi ist binomialverteilt zum Parameter (n; pi ), wobei pi der Anteil an Stimmen ist, den die Partei Nr. i bei
der hypothetischen Wahl bekame.
2.3 Laplace-verteilte Zufallsgroen und rein zufallige Auswahlen
In Kapitel 2.2 wurde jeweils angenommen, da die Objekte oder Personen in einer Stichprobe rein zufallig aus
der Gesamtpopulation ausgewahlt wurden, d.h. da jedes Element der Ausgangsmenge dieselbe Chance hat,
in die Stichprobe aufgenommen zu werden. Eine solche rein zufallige Auswahl liefert das einmalige Betatigen
eines Laplace-Mechanismus, und das Ergebnis nennen wir eine Laplace- verteilte Zufallsgroe:
Sei A = fa1; : : : ; am g eine endliche Menge. Eine Zufallsgroe X mit Werten in X = A heit Laplace-verteilt
in A, wenn
Ws(X = aj ) = m1 ; j = 1; : : : ; m:
Beispiel: Ein fairer Wurfel wird zwei Mal geworfen. Die moglichen Ergebnisse sind die Paare (j; k); j; k = 1; : : : ; 6; und
jedes dieser Ergebnisse hat dieselbe Chance, erwurfelt zu werden. Sei A = f(j; k); j; k = 1; : : : ; 6g; X das
Wurfelergebnis. Dann ist X Laplace-verteilt in A mit
1 ; j; k = 1; : : : ; 6 ;
Ws(X = (j; k)) = 36
da A m = 36 Elemente hat.
Ist X Laplace-verteilt, so lassen sich die Wahrscheinlichkeiten von Ereignissen fX 2 B g fur B X = A
besonders einfach berechnen. Sei A = fa1; : : : ; am g; B = fai1 : : : ; ail g A:
Aus der Rechenregel W3 folgt:
Ws(X 2 B) = Ws(X = aij fur ein j = 1; : : : ; l)
l
X
Xl
=
Ws(X = aij ) = m1 = ml
j =1
j =1
Laplace-Wahrscheinlichkeit
X sei Laplace-verteilt in A; und sei B A:
der Elemente von B
Ws(X 2 B) = Anzahl
Anzahl der Elemente von A
22
Diese Identitat wird oft an den Anfang der Wahrscheinlichkeitstheorie gestellt. Mit ihr und mit kombinatorischen Hilfsmitteln kann
man z.B. die hypergeometrische bzw. die Binomialverteilung
beim Stichprobenziehen ohne bzw. mit Zurucklegen herleiten, solange der
Binomialparameter p rational, d.h. von der Form M
N ; ist. Schon fur irrationales p scheitert dieser elementare Ansatz, und kontinuierliche
Zufallsgroen lassen sich bestenfalls auf sehr kunstliche Weise mit Grenzubergangen auf einen Laplace-Mechanismus zuruckfuhren. Wir
haben daher auf diesen Zugang verzichtet und stattdessen gleich die Kolmogorowschen Axiome W1-W3 als Grundlage fur das Rechnen mit
Wahrscheinlichkeiten gewahlt.
Beispiel (Fortsetzung): X stehe wieder fur den zweifachen Wurfelwurf mit Werten in A = f(j; k); j; k = 1; : : : ; 6g: Wir schreiben
X = (X1 ; X2 ); wobei X1 das Ergebnis des ersten, X2 des zweiten Wurfs ist.
Sei B = f(j; k) 2 A; j + k = 6g = f(1; 5); (2; 4); (3; 3); (4; 2); (5; 1)g . Also heit X 2 B; da die Augensumme X1 + X2 = 6 ist, und:
der Elemente von B 5
Ws(X1 + X2 = 6) = Ws(X 2 B) = Anzahl
Anzahl der Elemente von A = 36
2.4 Allgemeine diskrete Verteilungen
Bereits in Kapitel 2.1 haben wir gesehen, da die Verteilung einer Zufallsgroe X, die nur endlich viele
verschiedene Werte a1 ; : : : ; am nehmen kann, vollstandig durch die Wahrscheinlichkeiten Ws(X = ai); i =
1; : : : ; m; bestimmt wird. Die entsprechenden U berlegungen lassen sich auch auf Zufallsgroen ubertragen, die
abzahlbar unendlich viele verschiedene Werte annehmen konnen.
Wir betrachten eine Zufallsgroe X mit Werteraum X , die nur die Werte x1; x2; : : : 2 X annehmen kann.
Um die Verteilung von X festzulegen, geben wir Wahrscheinlichkeitsgewichte p(x1); p(x2); : : : vor mit den
Eigenschaften:
p(xj ) 0 ; j = 1; 2; : : : ;
1
X
j =1
p(xj ) = 1 :
Die Gewichte sind also nichtnegativ und summieren sich zu 1 auf. Dann denieren wir
Ws(X = xj ) = p(xj ) ; j = 1; 2; : : : ;
Ws(X 2 B) =
X
j ; xj 2B
p(xj ) fur alle B X :
Die so denierte diskrete Verteilung genugt den Rechenregeln W1-W3. Fur beliebige Wahrscheinlichkeitsgewichte erhalt man also passende Wahrscheinlichkeiten fur alle Ereignisse der Form fX 2 B g; die die
Kolmogorowschen Axiome erfullen.
Nimmt X nur endlich viele Werte x1 ; : : : ; xm an, so mussen nur fur diese Werte Wahrscheinlichkeitsgewichte p(x1 ); : : : ; p(xm ) 0 mit
p(x1 )+ : : : + p(xm ) = 1 vorgegeben werden. Der einzige Unterschied zum
1 abzahlbar unendlichen Fall mbesteht darin, da die Folge x1 ; x2 ; : : :
nach der m-ten Stelle xm abbricht und da die unendliche Summe P durch die endliche Summe P ersetzt wird. Wir betrachten daher
j=1
j=1
in der Folge den endlichen Fall nicht getrennt, sondern fassen ihn als Spezialfall des abzahlbaren Falls auf.
Diskrete Verteilung
Gegeben:
mogliche Werte x1; x2; : : : von X
Wahrscheinlichkeitsgewichte p(x1); p(x2); : : : 0
mit p(x1) + p(x2 ) + : : : = 1
Dann gilt: Ws(X = xj ) = p(x
Pj ) p(x ) =
Ws(X 2 B) =
j
j ;xj 2B
23
P Ws(X = x ) fur alle B X
j
j ;xj 2B
Beispiel:
i) Zu n 1; 0 < p < 1 und moglichen Werten 0; : : : ; n denieren wir Wahrscheinlichkeitsgewichte
p(k) = nk pk (1 ; p)n;k ; k = 0; : : : ; n :
Die Zufallsgroe X mit diesen Gewichten, d.h. mit
Ws(X = k) = p(k) ; k = 0; : : : ; n ;
ist { wie wir aus Kapitel 2.2 wissen { B(n;p)-verteilt.
Mit der obigen Identitat fur Ws(X 2 B) folgt z.B.
Ws(X 3)
=
Ws(X gerade )
=
Ws(X > 3)
=
3
3
P
p(k) = P ;nkpk (1 ; p)n;k fur B = f0; 1; 2; 3g
k=0
k=0
n
n
;n k
P
P
n;k fur B = f0 k n; k gerade g
p(k) =
k p (1 ; p)
k=0; k gerade
k=0; k gerade
n
P
p(k) = 1 ; Ws(x 3)
k=4
Bei der letzten Gleichung haben wir W3b benutzt, da Ws(X 3) fur groere n wesentlich leichter auszurechnen ist als Ws(X > 3):
Hinweis: Fur kleine Werte von n und l lat sich Ws(X l) in der beschriebenen Weise leicht ausrechnen. Fur mittlere Werte
von n und verschiedene p sind diese Wahrscheinlichkeiten im Anhang tabelliert. Fur groe Werte von n gibt es brauchbare
Naherungsformeln (vgl. Kapitel 2.9).
ii) Beim Entwurf einer neuen Verpackung stellt sich die Frage, welcher dominierende Farbton die Kunden am meisten anspricht. Um
eine objektive Entscheidung treen zu konnen, werden Musterverpackungen in den Farbtonen rot, blau, grun, gelb, wei und schwarz
angefertigt. Zufallig an einer Verkaufsstelle vorbeikommende Kunden werden gefragt, welche Verpackung ihnen am besten gefallt.
Die Antwort Y eines einzelnen Kunden ist dann eine Zufallsgroe mit Werten in X = fr; b; gr; ge; w; sg; deren Verteilung durch die
Wahrscheinlichkeitsgewichte
p(r); p(b); p(gr); p(ge); p(w); p(s) 0
gegeben sind. Damit lat sich z.B. die Wahrscheinlichkeit, da der Kunde eine bunte Verpackung vorzieht, berechnen:
Ws(Y 2 fr; b; gr; geg) = p(r) + p(b) + p(gr) + p(ge) :
Die Wahrscheinlichkeitsgewichte sind naturlich unbekannt und sollen mit der Befragung geschatzt werden. Werden n Kunden
unabhangig voneinander gefragt, so registriert man
Xf = Anzahl der Kunden, die sich fur Farbe f entscheiden
fur f = r; b; gr; ge; w; s : Jedes einzelne Xf ist binomialverteilt, wahrend der Vektor aus den 6 Anzahlen (Xr ; Xb ; : : : ; Xs ) multinomialverteilt ist. (Xr ; Xb ; : : : ; Xs ) ist eine Zufallsgroe mit Werten in f0; : : : ; ng6 = f(i1 ; i2 ; : : : ; i6 ); 0 i1 ; i2 ; : : : ; i6 ng
Abnahmekontrolle bei Lieferung: Es werden N Gerate geliefert, von denen eine Stichprobe des Umfangs
n einer genauen Untersuchung unterzogen wird. X sei die zufallige Anzahl von Geraten, die dabei als defekt
identiziert werden. Aus Kapitel 2.2 wissen wir, da X hypergeometrisch verteilt ist. Die Zahl aller Gerate
N und die Zahl der getesteten Gerate n sind bekannt. Die Anzahl M der defekten Gerate in der gesamten
Lieferung ist unbekannt, und damit hangen auch die Wahrscheinlichkeitsgewichte
;M ;N ;M pM (k) = WsM (X = k) = k ;Nn;k ; k = 0; : : : ; min(n; M)
n
von M ab. Wir betrachten pM (k) fur jedes feste k daher als Funktion von M, wobei M alle moglichen Werte
0; : : : ; N durchlauft. Ausgehend von der beobachteten Zahl X sieht ein plausibles Verfahren zur Entscheidung
zwischen Annahme und Zuruckweisung der Lieferung so aus: wahle eine Schranke c = c(n; N) ; die naturlich
von n und N abhangt, und
... akzeptiere Lieferung, falls X c;
... lehne Lieferung ab, falls X > c:
Um c vernunftig wahlen zu konnen, mu man sich anschauen, wie wahrscheinlich das Ereignis fX cg; d.h.
die Annahme der Lieferung, fur die verschiedenen Werte von M ist, d.h. man studiert
WsM (X c) =
24
c
X
k=0
pM (k)
als Funktion von M: Der Kunde konnte dann z.B. fordern, da c klein genug sein mu, damit WsM (X c)
klein fur M > 0; 05 N (mehr als 5% Ausschu in der Lieferung). Der Lieferant dagegen fordert WsM (X c)
gro fur M < 0:01 N (vgl. Kapitel 5).
Fur n 1; m 2 ; 0 < p1; : : : ; pm < 1 mit p1 + : : :pm = 1 nennen wir eine Zufallsgroe X = (X1 ; : : : ; Xm )
mit Werten in f0; : : : ; ngm multinomial verteilt zum Parameter (n; p1; : : : ; pm ) ; wenn
Ws(X = (k1; : : : ; km)) = Ws(X
n1 = k1; : : : ; Xm = km)
= k : : :k pk11 : : : pkmm
1
m
;
n
n!
fur alle k1 ; : : : ; km 0 mit k1 + : : : + km = n, wobei k1 :::k
m = k1!:::km ! ein Multinomialkoezient ist.
Fur die Komponenten X1 ; : : : ; Xm des multinomial verteilten Vektors X gilt stets: X1 ; : : : ; Xm 0 sowie
X1 + : : : + X m = n :
Ist X1 B(n; p)-verteilt und setzt man X2 = n ; X1 ; p1 = p; p2 = 1 ; p ; so ist (X1 ; X2) im obigen Sinn
multinomial verteilt. Die Binomialverteilung ist also gerade die Multinomialverteilung fur den Fall m = 2:
Modellbildung: Es werden n unabhangige, gleichartige Versuche durchgefuhrt, die m mogliche Ergebnisse
E1; : : : ; Em haben konnen { z.B. bekommen n Personen eine Frage mit m moglichen Antworten gestellt. Seien
pi = Ws(Versuch hat Ergebnis Ei ) ; i = 1; : : : ; m ;
die Wahrscheinlichkeiten der verschiedenen Ergebnisse in jedem der Einzelversuche. Sei
Xi = Anzahl der Versuche mit Ergebnis Ei; i = 1; : : : ; m :
Dann ist X = (X1 ; : : : ; Xm ) multinomial verteilt mit Parameter (n; p1; : : : ; pm ): Jede einzelne Anzahl Xi ist
B(n; pi)-verteilt.
Fur > 0 nennen wir eine Zufallsgroe X mit Werten in f0; 1; 2; : : : g Poisson-verteilt zum Parameter ,
wenn die Wahrscheinlichkeitsgewichte die Form
k
p(k) = Ws(X = k) = k! e; ; k = 0; 1; 2; : : :
haben. Als Kurzschreibweise benutzen wir: "X ist P ();verteilt."
Modellbildung: Es wird beobachtet, wie gleichartige Ereignisse in unregelmaiger Abfolge eintreten. Die
Anzahl der Ereignisse in einem festen Zeitintervall lat sich dann als P ()-verteilte Zufallsgroe X modellieren.
Der Parameter lat sich als mittlere Anzahl von Ereignissen in Intervallen der vorgegebenen Lange interpretieren (vgl. Kapitel 2.6). Ist gro, so folgen die Ereignisse dicht aufeinander; ist klein, so ist die
Ereignisdichte gering.
Die Poisson-Verteilung liefert ein einfaches Modell fur Anzahlen von Ereignissen in festen Zeitraumen, das fur
einige physikalische oder okonomische Prozesse brauchbar ist, aber keineswegs immer benutzt werden kann. Die
wahre Bedeutung der Poisson-Verteilung als der wichtigsten diskreten Verteilung basiert auf der Moglichkeit, die
Poisson-Verteilung als Baustein fur wesentlich kompliziertere Modelle zu benutzen, die in der Bedienungstheorie vielfaltige Anwendungen nden. Hierbei geht es um den Entwurf technischer oder okonomischer Systeme
(vom Server eines Rechnernetzes bis zu den Kassen eines Supermarkts), die in zufallige Abfolge an sie herantretende Bedienungswunsche moglichst ezient und kostengunstig befriedigen sollen.
Beispiel: i) Als Poisson-verteilte Zufallsgroen modelliert werden konnen z.B.:
{ die Anzahl der Kunden, die zwischen 10 Uhr und 11 Uhr die Kasse eines Supermarkts benutzen,
{ die Anzahl Telefonanrufer, die vormittags (zwischen 9 und 12 Uhr) in einem Netzknoten ankommen und weitervermittelt werden,
{ die Anzahl gefalschter Euroschecks, die einer Bank im Laufe eines Tages prasentiert werden,
{ die Anzahl von Atomen, die in einem radioaktiven Praparat innerhalb eines Jahres zerfallen.
25
ii) X sei P ()-verteilt. Dann interessieren Ereignisse der Form fk X lg mit 0 k l < 1: Sie lassen sich berechnen als
Ws(k X l) =
l
X
j=k
p(j ) =
l
X
j e; :
j=k j !
Poisson-verteilte Zufallsgroen eignen sich nicht nur zur Modellierung fur die Anzahl von Ereignissen in einem
Zeitraum, sondern auch fur die Anzahl von Objekten auf einer gegebenen Flache oder in einem gegebenen
Volumen.
Modellbildung: Kleine, d.h. idealisiert punktformige, Objekte sind zufallig uber eine groe Flache bzw.
ein groes Volumen verteilt. Die Anzahl der Objekte auf einer festen Teilache oder in einem festen
Teilvolumen kann als P ()-verteilte Zufallsgroe modelliert werden. Der Parameter ist hier ein Ma fur die
mittlere raumliche Dichte der Objekte.
Beispiel: Poisson-verteilte Zufallsgroen konnen als Modelle dienen fur
{ die Anzahl von Verunreinigungen in einem Kristall,
{ die Anzahl von Rosinen in einem Rosinenbrotchen,
{ die Anzahl von Bakterien auf einer 1 cm2 groen Teilache einer Petrischale
{ die Anzahl von Baumen einer bestimmten Art auf 10 km2 Urwaldache.
Poisson-Verteilung
0.0
0.05
0.10
0.15
0.20
Werteraum X = f0; 1; 2; : : : g; Parameter > 0
k
Ws(X = k) = k! e; ; k = 0; 1; 2; : ::
Schreibweise: X ist P ()-verteilt.
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Abbildung 2.4a: Ws(X = k); = 4
Abnahmekontrolle bei Lieferung: Es werden N Gerate geliefert, von denen eine Stichprobe des Umfangs
n einer genauen Untersuchung unterzogen wird. X sei die zufallige Anzahl von Geraten, die dabei als defekt
identiziert werden. Aus Kapitel 2.2 wissen wir, da X hypergeometrisch verteilt ist. Die Zahl aller Gerate
N und die Zahl der getesteten Gerate n sind bekannt. Die Anzahl M der defekten Gerate in der gesamten
Lieferung ist unbekannt, und damit hangen auch die Wahrscheinlichkeitsgewichte
;M ;N ;M pM (k) = WsM (X = k) = k ;Nn;k ; k = 0; : : : ; min(n; M)
n
26
von M ab. Wir betrachten pM (k) fur jedes feste k daher als Funktion von M, wobei M alle moglichen Werte
0; : : : ; N durchlauft. Ausgehend von der beobachteten Zahl X sieht ein plausibles Verfahren zur Entscheidung
zwischen Annahme und Zuruckweisung der Lieferung so aus: wahle eine Schranke c = c(n; N) ; die naturlich
von n und N abhangt, und
... akzeptiere Lieferung, falls X c;
... lehne Lieferung ab, falls X > c:
Um c vernunftig wahlen zu konnen, mu man sich anschauen, wie wahrscheinlich das Ereignis fX cg; d.h.
die Annahme der Lieferung, fur die verschiedenen Werte von M ist, d.h. man studiert
WsM (X c) =
c
X
k=0
pM (k)
0.0
0.2
0.4
OC
0.6
0.8
1.0
als Funktion von M: Der Kunde konnte dann z.B. fordern, da c klein genug sein mu, damit WsM (X c)
klein fur M > 0; 05 N (mehr als 5% Ausschu in der Lieferung). Der Lieferant dagegen fordert WsM (X c)
gro fur M < 0:01 (vgl. Kapitel 5).
Die Annahmewahrscheinlichkeit nennt man als Funktion von M bei festgehaltenem c; n und N die Operationscharakteristik des Verfahrens:
OCN;n;c (M) = WsM (X c):
In Handbuchern zur Qualitatskontrolle, in entsprechenden DIN-Normen und in Softwarepaketen ndet man
solche Kurven wie z.B. Abbildung 2.4b (fur N = 100; n = 10 und { von oben nach unten { c = 2; 1; 0). Aus den
Operationscharakteristiken konnen Hersteller und Lieferant direkt ablesen, ob fur den gegebenen Lieferungsumfang N die gewahlte Schranke c und der gewahlte Stichprobenumfang n den jeweiligen Wunschen entsprechen
bzw. ob man nicht auch mit einem kleineren Stichprobenumfang n auskommen wurde.
0
10
20
30
40
50
M
Abbildung 2.4b
2.5 Verteilungen mit Dichten
Zufallsgroen mit diskreten Verteilungen eignen sich in der Praxis als Modelle fur z.B. Anzahlen, Vektoren von
Anzahlen oder qualitative Beobachtungen. Numerische Messungen wie Langen, Gewichte, ... lassen sich dagegen
besser als Zufallsgroen mit kontinuierlichem Wertebereich (R; ein Teilintervall von R; R3;...) modellieren. Wir
betrachten in diesem Abschnitt nur reellwertige Zufallsgroen. Vektorwertige Zufallsgroen mit Dichten streifen
wir nur kurz im Zusammenhang mit der Korrelation als Abhangigkeitsma (vgl. Kapitel 2.10).
Wir betrachten eine Zufallsgroe X mit Werteraum X = R: Die Verteilung von X beschreiben wir durch
Angabe einer Wahrscheinlichkeitsdichte p(x); ;1 < x < 1; d.h. einer nichtnegativen Funktion, deren
Integral uber die ganze reelle Achse 1 ergibt:
p(x) 0
fur alle ; 1 < x < 1 ;
27
Z1
;1
p(x) dx = 1 :
Dann denieren wir die zu dieser Funktion gehorende Verteilung durch
Ws(X 2 B) =
Z
B
p(x) dx fur alle (nicht-pathologischen) B R:
Die so denierte kontinuierliche Verteilung genugt den Rechenregeln W1 ; W3: Wir konnen uns meist darauf
beschranken, solche Wahrscheinlichkeiten fur einfache Mengen B, z.B. fur Intervalle (a; b) zu berechnen:
Verteilung mit Dichte
Gegeben: Wahrscheinlichkeitsdichte p(x) 0 ; x 2 R;
mit
Z1
;1
p(x) dx = 1
Dann gilt fur alle ;1 a < b 1
Ws(X 2 (a; b)) = Ws(a < X < b) =
Zb
a
p(x) dx
0.0
0.1
0.2
0.3
0.4
Wir haben dabei die Werte a = ;1; b = +1 zugelassen, da dann die angegebene Formel auch das Berechnen
von Ws(X < b) = Ws(;1 < X < b) und Ws(a < X) = Ws(a < X < 1) erlaubt. Die Wahrscheinlichkeit, da
X Werte zwischen a und b annimmt, wird also als Integral berechnet und ist so die Groe der Flache zwischen
der Dichtefunktion p(x) und der x-Achse zwischen den Punkten a und b.
0
2
4
6
8
Abbildung 2.5a: Ws(a < x < b)
Die Wahrscheinlichkeitsgewichte diskreter Zufallsgroen konnen direkt als Wahrscheinlichkeiten interpretiert
werden. Kontinuierliche Zufallsgroen konnen aber uberabzahlbar viele Werte annehmen; jeder einzelne Wert
wird aber nur mit Wahrscheinlichkeit 0 angenommen:
Ws(X = y) =
Z
fyg
p(x) dx =
Zy
y
p(x) dx = 0 fur alle y 2 R:
Fur gewisse Intervalle (a; b) gilt also Ws(a < X < b) > 0; aber Ws(X = y) = 0 fur alle y 2 (a; b); was auf den ersten Blick wie ein
Widerspruch aussieht. Man kann sich mit der Vorstellung helfen, da es in dem kontinuierlichen Intervall so viele (uberabzahlbar viele!)
Punkte gibt, da die Wahrscheinlichkeit, genau einen vorgegebenen Punkt zu treen, tatsachlich 0 ist. Man kann sich aber auch auf den
pragmatischen Standpunkt stellen, da eine kontinuierliche Zufallsgroe X sowieso nur ein Modell ist und da in diesem Zusammenhang
sowieso nur Ereignisse der Form fa < X < bg interessieren. Man will nur wissen, wo in etwa X liegt (z.B. auf 2 Dezimalen genau, wenn X
z.B. Modell fur einen Aktienkurs ist), nicht aber, was der exakte Wert von X ist.
Die Wahrscheinlichkeit, da X Werte in einem Intervall annimmt, hangt nicht davon ab, ob die Randpunkte
zum Intervall gehoren oder nicht, denn Ws(X = a) = 0 = Ws(X = b): Also gilt fur ;1 < a < b < 1 :
28
Ws(a X b) = Ws(a X < b) = Ws(a < X b) = Ws(a < X < b) =
Ws(X b) = Ws(X < b) =
Ws(X a) = Ws(X > a) =
Zb
Z;1
1
a
Zb
a
p(x) dx
p(x) dx
p(x) dx
Die Wahrscheinlichkeitsdichte p(y) an der Stelle y ist also nicht die Wahrscheinlichkeit, da X den Wert y
annimmt. p(y) mit aber die Wahrscheinlichkeit, da X Werte in der Nahe von y annimmt. Wenn p in der
Nahe von y eine glatte, z.B. stetig dierenzierbare Funktion ist und > 0 so klein gewahlt wird, da p in dem
Intervall [y; y + ] praktisch konstant ist, so folgt aus Ergebnissen der Dierential- und Integralrechnung:
Ws(y X y + ) =
yR+
y
p(x)dx p(y) :
Fur festes ist also die Wahrscheinlichkeit, da X zwischen y und y + liegt, in etwa proportional zu p(y):
Also nimmt X mit groer Wahrscheinlichkeit Werte in den Bereichen der reellen Zahlen an, wo die Dichte p
gro ist. Umgekehrt kann X dort keine Werte annehmen, wo p verschwindet:
Ist p(x) = 0 fur a < x < b; so ist Ws(X 2 (a; b)) = 0 :
Beispiel: Betrachte fur ;1 < < < 1 die Funktion
p(x) = ;1 fur x ; sowie p(x) = 0 fur x < und x > :
Das Integral der Funktion ist oensichtlich 1, und sie ist somit eine Wahrscheinlichkeitsdichte. Eine Zufallsgroe X mit dieser Dichte nimmt
nur Werte im Intervall [; ] an, da p auerhalb dieses Intervalls verschwindet, und es gilt:
Ws(a < X < b) =
Z b
b
a
p(x) dx = ;1 dx = b ;
; fur a < b :
a
a
Z
Eine solche Zufallsgroe X heit uniform verteilt im Intervalle [; ] oder kurz U (;)-verteilt.
Uniform verteilte Zufallsgroen treten in der Praxis nicht so oft als Modell fur Daten auf, aber es gibt Beispiele: so ist der Abstand
der Bruchstelle eines sich aufspaltenden Polymerstrangs der Lange zum linken Rand U (0; )-verteilt, d.h. es gibt keine Stellen des
Strangs, wo der Bruch bevorzugt stattndet. Das Interesse an uniform verteilten Zufallsgroen ruhrt von ihrer Bedeutung fur Simulationen
her. Zufallszahlengeneratoren auf Rechnern erzeugen Zufallszahlen, die im Rahmen der Rechnergenauigkeit U (0; 1)-verteilt sind. Aus
uniform verteilten Zufallsgroen kann man dann mit einfachen Transformationen andere wichtige Typen von Zufallsgroen erhalten. Ist
z.B. X U (0; 1)-verteilt, so ist ; ln X exponentiell verteilt mit Parameter 1 (s. Kapitel 2.6).
Uniforme Verteilung
Werte in [; ] R; Parameter < 1
x
Wahrscheinlichkeitsdichte p(x) = ;0 sonst
Schreibweise: X ist U(; )-verteilt
29
1.5
1.0
0.5
0.0
0
1
2
3
4
5
Abbildung 2.5b: = 1; = 3
2.6 Vier wichtige Klassen von Wahrscheinlichkeitsdichten
Eine noch groere Bedeutung fur Theorie und Praxis als die Poisson-Verteilung im diskreten Fall hat die
Normalverteilung im kontinuierlichen Fall.
Normalverteilung
0.0
0.1
0.2
0.3
0.4
Werte in (;1; 1); Parameter 2 R; 2 > 0;
Wahrscheinlichkeitsdichte
(x;)2
p(x) = ';2 (x) = p 1 2 e; 22 ; ;1 < x < 1
2
Schreibweise: X ist N (; 2 )-verteilt.
0
2
4
6
8
Abbildung 2.6a: = 4; 2 = 1
Die beiden Parameter der Normalverteilung heien Mittelwert und Varianz 2 : Die Dichte ';2 nimmt ihr
Maximum in an und ist symmetrisch um . 2 steuert dagegen die Breite dieser sogenannten Gauschen
Glockenkurve: Je groer 2, desto breiter und acher ist die Kurve.
Jede Normalverteilung lat sich durch einfache Verschiebung und Skalentransformation aus der StandardNormalverteilung N (0; 1) mit der Dichte
2
'(x) '0;1(x) = p1 e; x2
2
erzeugen { und umgekehrt:
30
a) Z sei N (0; 1)-verteilt mit Dichte '(x)
Dann ist X = Z + N (; 2 )-verteilt mit Dichte
';2 (x) = 1 ' x; b) X sei N (; 2 )-verteilt. Dann ist Z = X; standardnormal verteilt.
Modellbildung: Eine normalverteilte Zufallsgroe X ist oft ein brauchbares Modell fur die Messung einer
Groe, deren aktueller Wert von einer Vielzahl von Einussen bestimmt wird, unter denen keiner dominiert.
X entsteht im wesentlichen durch Addition vieler kleiner (nicht beobachtbarer) Beitrage "j ; j = 1; : : : ; N; die
unabhangig voneinander sind und die alle von der gleichen Groenordnung sind:
X
N
X
j =1
"j
An die "j selbst brauchen fast keine Annahmen gestellt zu werden (eine genaue Formulierung liefert der zentrale
Grenzwertsatz, Kapitel 3.3). Daher trit man in Naturwissenschaft, Technik und O konomie eine Vielzahl von
Groen, die zumindestens in erster Naherung als normalverteilt angenommen werden konnen. Voraussetzung
ist allerdings, da die Groe symmetrisch um einen Wert streut, da die Dichte ';2 und damit auch die
Verteilung N (; 2 ) symmetrisch ist. Der Parameter gibt an, wo die Zufallsgroe am haugsten zu beobachten
ist, wahrend ein Ma fur die Streuung ist, d.h. fur die Wahrscheinlichkeit, da X stark von abweicht.
Beispiel:
i) Die Korpergroe eines 20-jahrigen Mannes hangt von verschiedenen genetischen Faktoren, von der Ernahrung in den verschiedenen
Lebensaltern, von Umwelteinussen, von Krankheiten wahrend der Kindheit, ... ab. Jeder dieser Einusse liefert einen kleinen
(positiven oder negativen) Beitrag zur Endgroe, die so in sehr guter Naherung als normalverteilt angenommen werden kann.
ii) Messungen von Lange, Volumen, Gewicht { sei es von technischem Produkt oder von Lebewesen { sind sehr oft naherungsweise normalverteilt. Bedingung: Die Objekte oder Individuen, an denen die Messungen durchgefuhrt werden, stammen aus einer homogenen
Grundgesamtheit. Mit man z.B. die Korpergroe einer 20-jahrigen Person ohne Ansehens des Geschlechts, so ist die resultierende
Messung nicht normalverteilt. Ihre Wahrscheinlichkeitsdichte entsteht durch U berlagerung der Groenverteilung von Mannern und
Frauen und hat zwei Maxima.
iii) Die Storungen, die bei U bertragung eines Signals in einem Leiter durch das thermische Rauschen der freien Elektronen entsteht,
lat sich durch normalverteilte Zufallsgroen modellieren.
iv) EEG- oder EKG-Messungen sind zu jedem festen Zeitpunkt normalverteilte Zufallsgroen.
Eine normalverteilte Zufallsgroe nimmt mit positiver Wahrscheinlichkeit negative Werte an { unabhangig von und 2 : Es scheint daher
auf den ersten Blick verwunderlich, da man sie auch als Modell fur an sich positive Messungen (Lange, Gewicht,...) verwendet. Wir mussen
uns aber stets bewut machen, da die mathematischen Modelle, die wir benutzen, die Wirklichkeit nicht perfekt beschreiben, sondern nur
versuchen, die (fur die Absichten, die wir mit der statistischen Analyse verfolgen) wesentlichen Aspekte der Wirklichkeit zu erfassen. Im
Rahmen der notigen Approximationsgenauigkeit zwischen Modell und Realitat stort es nicht, wenn die eine positive Messung modellierende
Zufallsgroe negative Werte annehmen kann, solange die Wahrscheinlichkeit dafur extrem gering ist.
Es gibt eine Reihe von Messungen, die nur positive Werte annehmen { mit nennenswerter Wahrscheinlichkeit
auch in der Nahe von 0 { und die nicht symmetrisch um einen Wert streuen. Im Rest des Abschnitts betrachten
wir drei Modelle mit schiefen oder asymmetrischen Wahrscheinlichkeiten, die in verschiedenen Bereichen Anwendungen nden.
Lognormalverteilung
Werte in (0; 1); Parameter 2 R; 2 > 0
lnX ist N (; 2)-verteilt.
Eine logarithmisch normalverteilte oder kurz lognormalverteilte Zufallsgroe X kann durch Anwendung einer
logarithmischen Transformation { die den Wertebereich (0; 1) in (;1; 1) uberfuhrt { zu einer normalverteilten
Zufallsgroe gemacht werden. Daher kann man Wahrscheinlichkeiten von Ereignissen, die von X abhangen, uber
die Normalverteilung berechnen. Fur 0 < a < b < 1 gilt z.B. wegen der Monotonie des Logarithmus:
31
Ws(a < X < b) = Ws(lna < ln X < ln b) =
R ' 2 (x) dx :
;
ln b
ln a
Fur Neugierige geben wir aber auch die Dichte der Lognormalverteilung an, die sich mit Hilfe der Transformationsformel der Analysis ausrechnen lat:
p212 x1 e;
0
(ln x;)2
22
fur x > 0
fur x 0
0.0
0.05
0.10
0.15
0.20
0.25
p(x) =
(
0
2
4
6
8
Abbildung 2.6b: = 1; 2 = 1
Die Normalverteilung ist in Situationen nutzlich, wo viele kleine Beitrage additiv die letztendliche Beobachtung bestimmen. Es gibt Situationen, wo die einzelnen Beitrage multiplikativ den Endwert beeinussen, was
insbesondere bei Finanzdaten manchmal eine sinnvolle Annahme ist. In diesen Fallen bietet { wiederum wegen des zentralen Grenzwertsatzes { die Lognormalverteilung ein brauchbares Modell, da die logarithmische
Transformation die Multiplikation in eine Addition uberfuhrt:
X
N
Y
j =1
"j () lnX =
N
X
j =1
ln "j
Modellbildung: Eine lognormalverteilte Zufallsgroe ist ein in Frage kommendes Modell fur positive Daten,
deren Histogramm einen deutlichen Gipfel rechts von der 0 besitzt und dann langsam abfallt, im Sinn von
Kapitel 1.4 also rechtsschief ist.
Beispiel:
i) Aktienkurse werden im Black-Scholes-Ansatz, der der Bewertung von Optionen und anderen Finanzderivaten zugrunde liegt, als lognormalverteilte Zufallsgroen modelliert.
ii) Ein klassisches Modell fur die Einkommensverteilung der Bevolkerung eines Landes ist die Lognormalverteilung. Greift man rein zufallig einen Haushalt heraus, so lat sich dessen Einkommen als lognormalverteilte Zufallsgroe modellieren. Allerdings ist dieser bis etwa Mitte der siebziger Jahre praktikable Ansatz
heute nicht mehr gerechtfertigt, da durch den hohen Sockel an Arbeitslosen die Einkommensverteilung
nicht mehr eingipig ist. Man braucht also als Modell eine Zufallsgroe mit einer Wahrscheinlichkeitsdichte, die wenigstens zwei Maxima aufweist.
iii) SO2 ;Konzentration in der Luft an einem Sommertag oder auch andere Messungen des Gehalts einer
Substanz an Spurenstoen.
32
Exponentialverteilung
0.0
0.2
0.4
0.6
0.8
1.0
Werte in (0; 1) ; Parameter > 0
;x ur x 0
Wahrscheinlichkeitsdichte p(x) = e0 f
fur x < 0
Schreibweise: X ist Exp()-verteilt
0
2
4
6
8
Abbildung 2.6c: = 1
Modellbildung: Eine exponentiell verteilte Zufallsgroe X ist ein besonders einfaches Modell fur die Wartezeit
bis zum Eintreten eines Ereignisses. Der Parameter ist { wie bei der Poisson-Verteilung { ein Ma fur die
Dichte, mit der diese Ereignisse aufeinander folgen.
Wachst , so wird X eher kleiner, d.h. die Wahrscheinlichkeit fur kurze Wartezeiten steigt.
Beispiel:
i) Wartezeit bis zur Ankunft des nachsten Kunden in einem Laden
ii) Zeit bis zum nachsten Zerfall eines Atoms in einem radioaktiven Praparat
iii) Zeit zwischen Inbetriebnahme und Ausfall eines Transistors in Dauerbetrieb.
Exponentialverteilung und Poissonverteilung hangen uber den Poisson-Proze, der die zufallige Abfolge gleichartiger Ereignisse modelliert, eng miteinander zusammen. Der Poisson-Proze und daraus abgeleitete kompliziertere
Modelle fur eine Abfolge von Zeitpunkten ist die Grundlage der Bedienungstheorie. Er modelliert die zufallige
Abfolge der Zeitpunkte, zu denen Kunden das System (Kasse, Server im Netz, Landebahn auf Flughafen, ...)
benutzen wollen.
Ein Poisson-Proze auf [0; 1) ist eine zufallige Menge von (Zeit-) Punkten 0 < T1 < T2 < : : : mit gewissen
Eigenschaften, aus denen folgt:
a) Die Anzahl der Punkte (d.h. Ereignisse) in einem Intervall der Lange L ist P (L)-verteilt.
b) Die Abstande zwischen je zwei aufeinanderfolgenden Punkten, d.h. die Zufallsgroen T1 und Tk+1 ; Tk ;
k 1; sind Exp()-verteilt und unabhangig voneinander. ist die Intensitat des Poisson-Prozesses, d.h.
sie mit die Dichte der Punkte.
Beispiel: Ein Laden onet zur Zeit 0 (d.h. wir messen die Zeit ab Ladenonung). Zu den Zeitpunkten 0 < T1 < T2 < ::: kommen Kunden
und wollen bedient werden. Diese Zeitpunkte lassen sich in erster Naherung als Poisson-Proze auassen. Die Wartezeit T6 ; T5 zwischen
dem 5. und 6. Kunden ist dann exponentiell verteilt mit einem Parameter ; und fur jeden Zeitpunkt t ist die Zahl der Kunden, die im
anschlieenden Zeitraum der Lange L ankommt, d.h. zwischen der Zeit t und der Zeit t + L; Poisson-verteilt mit Parameter L:
33
Die Exponentialverteilung hat die Eigenschaft, da Werte der Zufallsgroe nahe 0 wahrscheinlicher als groere
Werte sind, wie man an der Form der Dichte sieht. Daher eignet sie sich nicht immer als Modell fur Wartezeiten.
Eine groere Klasse an Modellen, die die Exponentialverteilung einschliet, bietet die Weibull-Verteilung. Man
erhalt Weibull-verteilte Zufallsgroen durch geeignete Transformation von exponentiell verteilten Zufallsgroen.
Weibull-Verteilung
Werte in (0; 1) ; Parameter > 0; > 0
X ist Exp()-verteilt
p
x 7;! x liefert auf [0; 1) fur alle > 0 eine monotone Transformation der Daten (z.B. fur = 21 : x 7;! x;
fur = 2 : x 7;! x2 ): Daher kann man { wie schon bei der Lognormalverteilung { Wahrscheinlichkeiten von
Ereignissen, deren Eintreen vom Wert einer Weibull{verteilten Zufallsgroe abhangen, uber die Exponentialverteilung ausrechnen. Fur 0 < a < b < 1 gilt z.B.:
Rb
Ws(a < X < b) = Ws(a < X < b ) = e;x dx
a
Auch hier sei der Vollstandigkeit halber die Wahrscheinlichkeitsdichte der Weibull{Verteilung angegeben:
x;1e;x fur x > 0
0
fur x 0
0.0
0.0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
p(x) =
0
2
4
6
= 0; 5; = 1
8
0
Abbildung 2.6d
2
4
6
8
= 1; 5; = 1
Wir brauchen die Dichte nicht zum Ausrechnen von Wahrscheinlichkeiten. Die entsprechende Kurve gibt aber
einen Hinweis, wo die Weibull-verteilte Zufallsgroe mit groer Wahrscheinlichkeit Werte annimmt. Fur = 1
erhalten wir so die Dichte einer Exponentialverteilung, fur < 1 eine ahnliche, aber starker gekrummte Kurve
(X nimmt hier eher sehr kleine und sehr groe Werte an als bei der Exponentialverteilung), fur > 1 eine
Kurve mit einem Maximum, die eine gewisse A hnlichkeit zur Dichte der Lognormalverteilung aufweist.
Modellbildung: Weibull-verteilte Zufallsgroen dienen als exible Klasse von Modellen fur die Wartezeit
bis zum Eintreten eines Ereignisses, vor allem auf den Ausfall eines Gerates bei Zuverlassigkeitsstudien. ist
wieder ein Ma fur die generelle Ereignisdichte, d.h. fur groe ist die Wartezeit eher gering. Fur < 1 tritt
das Ereignis sehr schnell oder sehr spat ein, und mittlere Werte werden im Vergleich zur Exponentialverteilung
( = 1) mit demselben nur selten angenommen.
Fur > 1 sind Wartezeiten in einem mittleren Bereich besonders wahrscheinlich, wie es z.B. beim Warten
auf den allein durch Verschlei bedingten Ausfall eines Gerates typisch ist. Rein pragmatisch lat sich eine
34
Weibull-Verteilung mit > 1 auch in den Situationen verwenden, wo eine Lognormalverteilung nutzlich ist,
d.h. fur Daten mit einem eingipigen, schiefen Histogramm; welches Modell hier brauchbarer ist, lat sich bei
kleinen und mittleren Stichprobenumfangen oft nicht unterscheiden.
Beispiel:
i) Betriebsdauer eines mechanischen Gerats (in Tagen), dessen Ausfall in erster Linie durch Werkstoermudung bedingt ist ( > 1)
ii) Zeit bis zum Versagen einer elektronischen Komponente (in Minuten), die standige Vibrationen ausgesetzt ist. Das Gerat fallt
entweder schnell aus, oder es erweist sich dank gelungener Befestigung als weitgehend resistent gegen die Vibrationen und funktioniert
dann lange ( < 1):
2.7 Verteilungsfunktion und Quantile
Die Wahrscheinlichkeit, da eine kontinuierliche Zufallsgroe X einen Wert zwischen a und b annimmt, wird als
Integral der Dichte p in den Grenzen a und b berechnet. Statt das Integral stets neu zu berechnen, ist daher
nutzlich, sich ein fur alle Mal eine Stammfunktion F der Wahrscheinlichkeitsdichte p zu beschaen. Dann ist
namlich
Zb
Ws(a < X < b) = p(x) dx = F (b) ; F(a) ;
a
d.h. die Wahrscheinlichkeit, da X Werte im Intervall (a; b) annimmt, lat sich direkt aus der Funktion F
ablesen. Eine ahnliche Begrisbildung ist auch fur diskrete Zufallsgroen nutzlich; dabei mu man nur an den
Intervallrandern vorsichtig sein, da z.B. Ws(X = b) > 0 sein kann.
Sei X eine Zufallsgroe mit Werten in den reellen Zahlen. Dann heit die Funktion
F (y) = Ws(X y); ;1 < y < 1
die Verteilungsfunktion von X . Speziell ist:
R y p(x)dx und p(x) = F 0(x); falls X eine Wahrscheinlichkeitsdichte p besitzt.
a) F(y) = ;1
P p(x ) = Summe der Gewichte p(x ) uber alle Werte x y; falls X eine diskrete Verteilung
b) F(y) =
j
j
j
j ; xj y
mit moglichen Werten in x1; x2; : : : und Wahrscheinlichkeitsgewichten p(xj ); j = 1; 2; : : : ; besitzt.
Die Verteilungsfunktion bestimmt die Verteilung bereits eindeutig. Kennt man die Verteilungsfunktion, so
lassen sich viele uns interessierende Wahrscheinlichkeiten direkt ablesen:
Fur ;1 < a < b gilt:
Ws(X b) = F(b) ; Ws(X > a) = 1 ; F(a)
Ws(a < X b) = F (b) ; F(a)
Fur eine Zufallsgroe X mit Wahrscheinlichkeitsdichte kann man in diesen Formeln jederzeit und < bzw. >
und gegeneinander austauschen. Bei diskreten Zufallsgroen mu man die Moglichkeit berucksichtigen, da
X den Wert a bzw. b mit positiver Wahrscheinlichkeit annimmt:
Ws(X < b) = F (b) ; Ws(X = b) ; Ws(X a) = 1 ; F(a) + Ws(X = a);
Ws(a X b) = F(b) ; F(a) + Ws(X = a);
Ws(a < X < b) = F(b) ; F(a) ; Ws(X = b) :
Verteilungsfunktionen wachsen fur ;1 < y < 1 monoton von 0 nach 1. Die Verteilungsfunktion einer kontinuierlichen Zufallsgroe
ist stetig. Die Verteilungsfunktion einer diskreten Zufallsgroe mit Werten in x1 ; x2 ; : : : ist konstant bis auf Sprunge der Hohe p(xj ) in
xj ; j = 1; 2; : : : .
Die Verteilungsfunktion der Exponential- und Weibull-Verteilung lat sich explizit ausrechnen. Die Stammfunktion der Normalverteilung lat sich dagegen nicht in geschlossener Form hinschreiben. Da sich N (; 2 )-verteilte
35
Zufallsgroen in N (0; 1)-verteilte Zufallsgroen transformieren lassen und umgekehrt, genugt es zum Gluck, die
Verteilungsfunktion der Standardnormalverteilung zu kennen, die auch Gausche Fehlerfunktion genannt
wird. Ihre Werte sind in allen gangigen Statistikbuchern tabelliert, bzw. ist sie in Statistiksoftware implementiert. In den Tabellen ndet man meist nur die Werte von (y) fur y 0; da die Werte fur negative y sich
wegen der Symmetrie der Dichte ' daraus direkt ergeben:
Gausche Fehlerfunktion
N (0; 1)-Verteilungsfunktion
Ry
Ry
2
0.0
0.2
0.4
0.6
0.8
1.0
(y) = '(x) dx = p12 e; x2 dx
;1
;1
(y) = 1 ; (;y) fur y < 0
-4
-2
0
2
4
Abbildung 2.7a
Mit Hilfe von lassen sich dann auch die Verteilungsfunktionen von N (; 2 )- bzw. lognormal-verteilten
Zufallsgroen bestimmen.
Verteilungsfunktionen kontinuierlicher Zufallsgroen
Normalverteilung
F (y) = ( y; ) ; ;1 < y < 1
Lognormalverteilung
F (y) = ln y; ; y > 0
Exponentialverteilung F (y) = 1 ; e;y ; y 0
Weibull-Verteilung
Uniforme Verteilung
F (y) = 1 ; e;y ; y 0
F (y) = y ;
;; y
Die Verteilungsfunktionen von Binomial-, hypergeometrischer und Poisson{Verteilung liegen fur gewisse Parameterwerte in Tabellenform vor. Fur andere Parameterwerte gibt es einfache Naherungsformeln fur die Verteilungsfunktion (vgl. Kapitel 2.9) .
Aus den Tabellen der Verteilungsfunktionen kann man ablesen, mit welcher Wahrscheinlichkeit eine Zufallsgroe
einen Wert y annimmt. Umgekehrt fragt man fur gegebene Wahrscheinlichkeit nach dem passenden Wert
y = y(); den die Zufallsgroe mit Wahrscheinlichkeit nicht uberschreitet. Eine solche, passend zu gewahlte
Zahl heit -Quantil der Zufallsgroe.
36
Zu einer gegebenen Wahrscheinlichkeit ; 0 < < 1; heit eine Zahl q ein -Quantil der stetigen Zufallsgroe
X bzw. der stetigen Verteilungsfunktion F , wenn
0.0
0.2
0.4
0.6
0.8
1.0
= F(q) = Ws(X q)
Speziell heit fur kontinuierliche Zufallsgroen ein 21 -Quantil q0:5 Median, und ein 14 - bzw. 34 -Quantil q0:25
und q0:75 heien unteres und oberes Viertelquantil (oder Quartil) .
-2
-1
0
1
2
3
4
Abbildung 2.7b: 0.25-, 0.5- und 0.75-Quantil
Kontinuierliche Zufallsgroen nehmen mit jeweils gleicher Wahrscheinlichkeit 21 Werte links bzw. rechts ihres
Medians an. Der Median ist also ein Ma dafur, wo das Zentrum des Bereiches ist, in dem die Zufallsgroe
mit hoher Wahrscheinlichkeit Werte annimmt. Fur diskrete Zufallsgroen, deren Verteilungsfunktion als reine
Sprungfunktion hochstens abzahlbar viele Werte annimmt, also den Wert 12 eventuell gar nicht, mu der Median
im obigen Sinn nicht unbedingt deniert sein. Als wichtiger Lageparameter einer Verteilung wird der Median
daher etwas allgemeiner deniert:
X sei eine reellwertige Zufallsgroe mit Verteilungsfunktion F: Eine reelle Zahl m heit Median von X bzw.
von F { kurz: m = med(X) { wenn:
Ws(X < m) 12 Ws(X m)
Wenn Ws(X = m) = 0 , so stimmt dies mit der speziellen Denition als 21 -Quantil uberein.
Beispiel:
i) Sei X eine 0-1-Variable mit Parameter p: Dann ist die Verteilungsfunktion
8
0
x<0
>
>
>
<
F (x) = > 1 ; p 0 x < 1
>
>
:
1
x1
Ist p = 21 ; so ist jede Zahl m mit 0 m < 1 demnach ein 21 -Quantil und damit ein Median. Ist p 6= 12 ; so gibt es kein 12 -Quantil,
aber der Median ist im obigen Sinn deniert, und zwar m = 0 fur p < 12 und m = 1 fur p > 21 :
ii) Sei X B(2; 12 )-verteilt, d.h. X nimmt die Werte 0,1,2 mit Wahrscheinlichkeiten 41 ; 21 ; 14 an. Die Verteilungsfunktion ist
8
0
x<0
>
>
>
>
>
>
1
>
0x<1
<
F (x) = > 43
>
>
4 1x<2
>
>
>
>
:
1
x2
1
Der Median ist m = 1: Allgemein ist m 2 IN der Median einer B(2m; 2 )-verteilten Zufallsgroe.
iii) Der Median einer N (; 2 )-verteilten Zufallsgroe ist : Ist allgemeiner X eine Zufallsgroe mit einer um symmetrischen Dichte
p; d.h.
p( ; x) = p( + x) fur alle x > 0 ;
so ist das Symmetriezentrum der Median med(X ) von X .
Median und Viertelquantile liefern Lage- und Streuungsparameter einer Zufallsgroe (vgl. Kapitel 1.1 und
1.2). Auerdem werden allgemeine -Quantile fur die Berechnung von Kondenzintervallen und fur statistische
Entscheidungsverfahren gebraucht (vgl. Kapitel 3.3 und 5) .
37
2.8 Erwartungswert und Varianz von Zufallsgroen
Wahlt man rein zufallig aus der Bevolkerung eine Frau und einen Mann aus und mit ihre Groen X bzw. Y ,
so kann es passieren, da die Frau groer als der Mann ist (X > Y ): Wir rechnen aber eher mit dem Gegenteil,
da wir wissen, da Frauen im Mittel kleiner als Manner sind, d.h. da der Mittelwert von X kleiner als der
von Y ist. Wir erwarten fur Y einen groeren Wert als fur X. Diese intuitiven Begrie wie "im Mittel" oder
"erwarten" werden in unserem stochastischen Modell, das wir fur die Groenordnung wahlen, durch den Begri
des (mathematischen) Erwartungswerts prazisiert.
Nimmt X nur die Zahlenwerte x1; : : : ; xN an und jeden davon mit derselben Wahrscheinlichkeit N1 :
Ws(X = xj ) = N1 ; j = 1; : : : ; N ;
d.h. ist X Laplace-verteilt in fx1; : : : ; xN g, so ist die Denition des Erwartungswerts oder Mittelwerts E X als
gewohnliches arithmetisches Mittel der Werte von X naheliegend:
E X = N1
N
X
j =1
xj :
Wenn die einzelnen Werte x1; : : : ; xN aber mit unterschiedlichen Wahrscheinlichkeiten angenommen werden,
so pat das arithmetische Mittel dieser Zahlen nicht mehr zu unserer Intuition von Erwartungswert. Ist z.B.
333 fur i = 1; 2; 3; Ws(X = x ) = 1 ; so
N = 4; x1 = 1; x2 = 2; x3 = 3; x4 = 100 und Ws(X = xi ) = 1000
4
1000
erwarten wir einen Wert um 2 herum (nach der folgenden Denition ist es 2,098) und nicht das arithmetische
Mittel 26,5. Sehr selten angenommene Werte wie x4 beeinussen unsere Erwartung, wie gro X sein wird, nur
geringfugig. Wir denieren daher den Erwartungswert als gewichtetes Mittel der moglichen Werte x1; x2; : : :
von X, wobei der Wert xj mit der Wahrscheinlichkeit, da er von X angenommen wird, gewichtet wird. Die so
motivierte Herleitung des Erwartungswerts E X fur diskrete Zufallsgroen X wird dann durch Grenzubergang
auf kontinuierliche Zufallsgroen ubertragen, wobei die Summe in ein Integral ubergeht.
Erwartungswert
X sei eine reellwertige Zufallsgroe
a) Nimmt X Werte in fx1; x2; : : : g an mit Wahrscheinlichkeitsgewichten p(xj ) = Ws(X = xj ); j = 1; 2; : : : ; so setzen wir
P1
E X = P1
j =1 xj p(xj ) = j =1 xj Ws(X = xj )
b) Besitzt X eine
p(x); so setzen wir
R 1 Wahrscheinlichkeitsdichte
E X = ;1
xp(x) dx
Anmerkung: Beide Denitionen von E X sind nur sinnvoll, wenn die unendliche Reihe in a) bzw. das Integral in b) existieren. Es gibt
auch in der Praxis { allerdings selten { Falle, wo das nicht der Fall ist. Wir betrachten solche Ausnahmen aber nicht.
Beispiel:
i) X sei das Ergebnis eines fairen Wurfelwurfs, ist also Laplace-verteilt in f1; : : : ; 6g :
E X = 16
6
X
j=1
j = 3; 5
ii) X sei P ()-verteilt, d.h. die moglichen Werte sind f0; 1; 2; : : : g :
EX =
1
X
j=0
j p(j ) =
1
X
j=0
j
j j ! e; = e; 38
1
X
j;1 = e; e = (
j
j=1 ; 1)!
iii) X sei Exp()-verteilt: Mit partieller Integration folgt:
Z 1
Z 1
EX =
xp(x) dx =
x e;x dx = 1
;1
0
Die Berechnung der Erwartungswerte von z.B. normal- oder Weibull-verteilten Zufallsgroen erfordern z.T.
aufwendige Rechnungen. Wir geben daher die Erwartungswerte der uns bekannten Verteilungen in Tabellenform
an.
Erwartungswerte spezieller Verteilungen
Verteilung von X
EX
0-1-Variable B(1; p)
p
binomial B(n; p)
np
hypergeometrisch H(n; M; N)
n MN
Poisson P ()
Exponentiell Exp()
Weibull (; )
; 1 ;(1 + 1 )
normal N (; 2)
lognormal (; 2 )
e+ 2
uniform U(; )
+
1
2
2
Anmerkungen:
i) Der Parameter einer Normalverteilung heit also zu recht Mittelwert, da er der Mittelwert oder Erwartungswert einer N (; 2 )-verteilten Zufallsgroe ist.
ii) Die Abhangigkeit des Erwartungswerts einer Poisson- bzw. einer Exponentialverteilung, die uber einen
Poisson-Proze miteinander verbunden sind, vom gemeinsamen Parameter unterstutzt dessen Interpretation als Ma fur die Ereignisdichte: ist die mittlere Zahl von Ereignissen in einem Zeitintervall der
Lange 1, und je groer ist, desto kleiner ist die mittlere Wartezeit 1 auf das nachste Ereignis.
Beispiel: Eine verderbliche Ware mu am gleichen Tag, an dem sie ins Geschaft genommen wird, verkauft werden. Andernfalls mu sie als
Totalverlust abgeschrieben werden. Aufgrund vergangener Beobachtungen ist bekannt, da zwischen 2 und 10 Kunden taglich diese Ware
verlangen mit folgenden Wahrscheinlichkeiten:
Zahl der Bestellungen
2
3
4
5
6
7
8
9
10
Wahrscheinlichkeit
0.03
0.05
0.09
0.19
0.22
0.19
0.15
0.04
0.04
X , die zufallige Zahl an Kunden an einem gegebenen Tag, ist dann eine diskrete Zufallsgroe mit Werten in der endlichen Menge
f2; 3; : : : ; 10g: Wird ein Stuck der Ware ins Geschaft genommen, so verursacht dies Kosten von DM 48,- (Einkaufspreis zzgl. Nebenkosten), die abgeschrieben werden mussen, wenn die Ware nicht verkauft wird. Wird die Ware verkauft, so wird ein Preis von DM 70,erzielt.
Im Erwartungswert einer Weibull-verteilten Zufallsgr
oe tritt die ;-Funktion (Gamma-Funktion) auf, eine uber ein unbestimmtes Integral denierte Funktion auf (0 1), deren Werte in Tabellenwerken nachgeschlagen werden konnen. Sie ist eine stetige
Version der nur fur naturliche Zahlen denierten Fakultaten:
;( + 1) = ! fur alle = 0 1 2
;
n
n
n
39
;
;
;:::
Es stellt sich nun die Frage, wieviel Stuck Ware jeden Tag ins Geschaft genommen werden sollen, wobei als Ziel naheliegenderweise
Gewinnmaximierung angestrebt wird. Da der aktuelle Tagesgewinn zufallig ist und von der nicht vorhersehbaren Kundenzahl abhangt,
kann nur der Gesamtgewinn uber einen langeren Zeitraum oder { gleichwertig { der durch Zahl der Tage geteilte Gesamtgewinn, d.h. der
mittlere Gewinn uber einen langeren Zeitraum, maximiert werden. Dieser hangt eng mit dem erwarteten Gewinn zusammen, so da wir
den Erwartungswert des Tagesgewinns in Abhangigkeit von der Zahl der verfugbaren Ware betrachten mussen.
Werden 2 Stuck Ware ins Geschaft genommen, so werden sie auf jeden Fall verkauft, und der Gewinn ist 140 DM - 96 DM = 44 DM.
Werden 3 Stuck Ware verfugbar gehalten, so besteht eine Wahrscheinlichkeit von 0.03, da an diesem Tag nur 2 verlangt werden, wahrend
mit Wahrscheinlichkeit 0.97 alle 3 verkauft werden. Der erwartete Gewinn ist also:
140 DM Ws(X = 2) + 210 DM Ws(X 3) - 144 DM = 67,90 DM.
Fur 4 Stuck Ware auf Lager ist der erwartete Gewinn:
140 DM Ws(X = 2) + 210 DM Ws(X = 3) + 280DM Ws(X 4) ; 192 DM = 84; 30 DM
usw. Der maximale Wert wird fur 5 Stuck Ware erreicht und ist 95,40 DM, wahrend der Erwartungswert bei 6 Stuck Ware schon leicht auf
91,20 DM sinkt.
Maximierung des Erwartungswertes ist die Grundidee vieler "objektiver" Verfahren zur Entscheidungsndung
(Stichwart: decision support). Man legt eine Zielgroe fest (moglichst groer Gewinn, moglichst groe Steuerersparnis, moglichst geringe Kosten, moglichst groe Haltbarkeit, ...), sucht ein passendes stochastisches Modell fur
die zugrundeliegenden Variablen (im Beispiel: die tagliche Zahl der Kunden) und trit dann die Entscheidung,
die zum grotmoglichen Erwartungswert der Zielgroe fuhrt.
Abgesehen von den praktischen Schwierigkeiten, ein passendes Modell zu nden und die interessierenden Erwartungswerte zu berechnen (bei komplizierten, realen Systemen ist dies oft nur mit Simulationsverfahren moglich),
gibt es zwei prinzipielle Probleme:
{ Oft ist es nur schwer moglich, dem Ziel, das man im Auge hat, einen exakten numerischen Wert zuzuweisen.
Im Beispiel wurden als Kosten nur direkt in Geld mebare Groen (Einkaufspreis, Ladenmiete anteilig
auf die beanspruchte Verkaufsache umgelegt, Energiekosten zur Kuhlung, ... ) berucksichtigt. Kosten
verursacht es aber auf langere Sicht auch, wenn ein Kunde nach einer Ware verlangt, die an diesem
Tag bereits ausverkauft ist, da er { wenn ihm dies ofter passiert { gleich zur Konkurrenz geht. Die
nanziellen Auswirkungen dieses Eekts lassen sich vielleicht noch grob abschatzen. Viel schwieriger
wird es aber bei Investitionen z.B. im PR-Bereich: Wieviel Geld soll die Stadt in einen Theaterneubau
stecken, wenn die Investition in erster Linie mit hoherer Attraktivitat fur Gewerbeansiedlungen und damit
verbundenen zukunftigen Einnahmesteigerungen begrundet wird? Rentiert es sich wirklich fur einen
Automobilhersteller, 6 Millionen DM pro Jahr an einen Fuballverein zu zahlen?
{ Auch in Situationen, wo Erwartungswerte der Zielgroe auf einer sicheren Grundlage berechnet werden
konnen, sollte man auch an das Risiko denken, da durch die Schwankungen der Zielgroe um den Erwartungswert entsteht. Angenommen, man hat die Wahl zwischen zwei Investitionen A und B, die jeweils
mit Wahrscheinlichkeit 0.2, 0.7 und 0.1 zu einem von 3 moglichen Gewinnen fuhren:
Wahrscheinlichkeit
0.2 0.7 0.1 Erwartungswert
Gewinn bei Strategie A 50 100 200
100
Gewinn bei Strategie B - 50 50 800
105
Allein vom Erwartungswert her ist B vorzuziehen, obwohl A mit Wahrscheinlichkeit 0.9, d.h. in 9 von
10 Fallen einen deutlichen hoheren Gewinn abwirft. Ob man sich dennoch fur B entscheidet, ist also
eigentlich keine Frage der mittleren Gewinnmaximierung sondern der Risikofreudigkeit. Um das Risiko in
komplexeren Situationen abschatzen zu konnen, betrachten wir daher neben dem Erwartungswert auch
Mae fur die Variabilitat einer Zufallsgroe.
Eine wesentliche Eigenschaft des Erwartungswerts, die Rechnungen sehr erleichtert, ist seine Linearitat (die aus
der Tatsache folgt, da der Erwartungswert als Summe oder als Integral ausgerechnet wird):
Linearitat des Erwartungswerts
X1 ; : : : ; Xn seien reellwertige Zufallsgroen mit Erwartungswerten
E Xj ; j = 1; : : : ; n: c1 ; : : : ; cn seien reelle Zahlen. Dann gilt:
1 n
0n
X
X
E @ cj Xj A = cj E Xj
j =1
j =1
40
Beispiel: Sei X B(n; p)-verteilt. Aus der Denition des Erwartungswerts folgt:
EX =
n
X
k=0
k Ws(X = k) =
n
X
k nk pk (1 ; p)n;k
k=0
Diesen Ausdruck direkt auszurechnen, erfordert etwas Muhe. Leichter ist der folgende Weg: X lat sich als Anzahl von Erfolgen in n
unabhangigen, identischen Versuchen schreiben als
X=
n
X
j=1
Yj ; Yj =
1 mit Wahrscheinlichkeit p
0 mit Wahrscheinlichkeit 1 ; p
Y1; : : : ; Yn haben als identisch verteilte Zufallsgroen alle denselben Erwartungswert:
E Yj =
so da
1
X
k=0
k Ws(Yj = k) = 0 (1 ; p) + 1 p = p ;
EX =
n
X
j=1
E Yj = np :
Aus der Linearitat des Erwartungswerts folgt auch sofort, da E X ein Lageparameter von X ist. Verschiebt
man die Skala, auf der die Werte von X gemessen werden, um c, so andert sich mit den Werten der Zufallsgroe
auch der Erwartungswert: E (X +c) = E X +c: Dieselbe Eigenschaft hat auch der Median von X, der somit auch
ein Lageparameter ist. Beide stimmen fur Verteilungen mit symmetrischen Dichten uberein, und zwar mit dem
Symmetriezentrum. Allgemein liefert ein Lageparameter die Information, wo auf der reellen Achse die Werte
der Zufallsgroe mit hoher Wahrscheinlichkeit zu nden sind.
Lageparameter
Sei x eine reelle Zahl, X eine reellwertige Zufallsgroe mit Erwartungswert
E X und Median med(X): Dann gilt:
E (X + c) = E X + c
med(X + c) = med(X) + c
Beispiel:
i) Ist X N (; 2 )-verteilt, so ist die Wahrscheinlichkeitsdichte symmetrisch um ; und daher gilt: E X = = med(X ):
ii) Ist X Exp()-verteilt, so ist E X = 1 (s. oben). Das 12 -Quantil und damit der Median ergibt sich aus der Bedingung:
1
; med(X )
2 = Ws(X med(X )) = F (med(X )) = 1 ; e
und daher:
med(X ) = ln2 < 1 = E X :
Lageparameter liefern Information, wo auf der reellen Achse der Wert einer Zufallsgroe X mit hoher Wahrscheinlichkeit zu nden ist. Streuungsparameter geben als erganzende Information an, wie stark der Wert
der Zufallsgroe variiert. Eine gebrauchliche Groe mit dieser Bedeutung ist die Standardabweichung (X)
einer Zufallsgroe, die uber die Varianz var X deniert wird:
Varianz und Standardabweichung
var X = Ef(X ; E X)2 g = E (X 2 ) ; (E X)2
p
(X) = varX
Die Varianz einer Zufallsgroe X mit also die mittlere quadratische Abweichung zwischen X und ihrem eigenen
Erwartungs- oder Mittelwert E X: Denition von Varianz und Standardabweichung beziehen sich beide auf den
41
Begri des Erwartungswerts und hangen wie E X selbst vergleichsweise stark von der Wahrscheinlichkeit seltener,
extremer Werte fur X ab. Interessiert man sich weniger fur solche Extremfalle, sondern eher fur das Verhalten
der Zufallsgroe in dem Bereich, wo sie am ehesten zu beobachten ist, so eignen sich Median als Lageparameter
und die Viertelweite Q(X) (oder Quartilenabstand) als Streuungsparameter, d.h. die Dierenz zwischen
oberen und unteren Viertelquantil:
Viertelweite
Q(X) = q0:75 ; q0:25
Besitzt X eine Wahrscheinlichkeitsdichte und halt man diese Funktion im zentralen Bereich, wo sie gro ist und wo X mit hoher Wahrscheinlichkeit Werte annimmt, fest, andert sie aber im Extrembereich (x ;! 1) geringfugig ab, so bleiben Median und Viertelweite
weitgehend unverandert, wahrend Erwartungswert und Standardabweichung sich deutlicher andern (vgl. Diskussion des Ausreierbegris
in Kapitel 1).
Standardabweichung (X) und Viertelweite Q(X) sind als Streuungsparameter auch Skalenparameter von
X. A ndert man die Skala, in der man die Werte von X mit, so andern sich (X) und Q(X) entsprechend,
wahrend beide invariant gegen reine Verschiebungen des Koordinatensystems sind:
Streuungs- oder Skalenparameter
Sei c eine reelle Zahl und a > 0; X eine Zufallsgroe mit Standardabweichung (X)
und Viertelweite Q(X): Dann gilt:
(X + c) = (X)
(aX) = a (X)
Q(X + c) = Q(X)
Q(aX) = a Q(X)
Fur die Viertelweite sieht man das mehr oder weniger direkt, wahrend es fur die Standardabweichung aus der Linearitat des Erwartungswerts
folgt:
var(aX ) = Ef(aX ; E (aX ))2 g = Ef(aX ; aE X )2 g = a2 Ef(X ; E X )2 g = a2 var X
Wahrend Skalenparameter wie (X) und Q(X) dieselbe Einheit wie die Werte von X haben, ist die Varianz
eine quadratische Groe:
Sei c 2 R; a > 0: Dann gilt:
var(X + c) = var X
var(aX) = a2 var X
Um die Varianz und damit die Standardabweichung einer Zufallsgroe X ausrechnen zu konnen, muten wir
nach der Denition des Erwartungswertes erst die Verteilung (d.h. die Wahrscheinlichkeitsdichte bzw. die
Wahrscheinlichkeitsgewichte) der abgeleiteten Zufallsgroe f(X) = (X ; E X)2 bestimmen. Es ist aber auch
moglich, den Erwartungswert einer beliebigen Funktion von X direkt zu berechnen { sogar wenn X selbst eine
qualitative Zufallsgroe ist und somit selbst keinen Erwartungswert hat.
Erwartungswert der Funktion einer Zufallsgroe
X sei eine Zufallsgroe mit Werten in X ; f : X ;! R eine reellwertige
Funktion auf dem Wertebereich X ; so da f(X) eine Zufallsgroe mit
Werten in R ist.
a) X hat Wahrscheinlichkeitsgewichte p(x1); p(x2 ); : : : in den Punkten x1; x2; : : : 2 X :
E f(X) =
1
X
j =1
f(xj )p(xj ) =
1
X
j =1
f(xj ) Ws(X = xj )
b) X = R; X habe Wahrscheinlichkeitsdichte p(x)
E f(X) =
Z1
;1
42
f(x)p(x) dx
Aus diesen allgemeinen Rechenregeln erhalt man naturlich fur die spezielle Funktion f(x) = x die ursprunglichen
Gleichungen fur E X zuruck. Fur die spezielle Funktion f(x) = (x ; E X)2 erhalt man die Varianz.
Beispiel:
i) X sei P ()-verteilt, so da E X = : f (x) = (x ; )2 :
var X = E (X ; )2 =
1
X
k=0
k
(k ; )2 k! e; = ii) X sei Exp()-verteilt, so da E X = 1 : f (x) = (x ; 1 )2
Z 1
var X = E (X ; 1 )2 =
(x ; 1 )2 e;x dx = 12
0
iii) X sei N (; 2 )-verteilt, so da E X = : f (x) = (x ; )2 :
var X =
Z
(x;)2
1
(x ; )2 p 1 2 e; 22 dx = 2
2
;1
Varianzen und Standardabweichungen spezieller Verteilungen
Verteilungen von X
var X
0-1-Variable B(1; p)
p(1 ; p)
binomial B(n; p)
np(1 ; p)
hypergeometrisch H(n; M; N)
nM (N ;M )(N ;n)
N 2 (N ;1)
Poisson P ()
Exponentiell Exp()
2
Weibull (; )
(X)
p
p(1 ; p)
pnp(1 ; p)
q
1 nM (N ;M )(N ;n)
N
N ;1
p
1
1
q
2
1
; (;(1 + 2 ) ; f;(1 + 1 )g2 ) ; ;(1 + 2 ) ; f;(1 + 1 )g2
normal N (; 2)
2
lognormal (; 2 )
e2+2 (e2 ; 1)
e+ 12 2 e2 ; 1
uniform U(; )
1
2
12 ( ; )
p1
2 3 ( ; )
p
Beispiel (Viertelweite und Ausreierbegri fur normalverteilte Daten): X sei N (; 2 )-verteilt. Dann lat sich X darstellen als
X = Z + wobei Z standardnormalverteilt ist (vgl. Kapitel 2.6). Wir berechnen zuerst die Viertelweite von Z und suchen dazu aus Tabelle 3 die
beiden Viertelquantile q0:25 und q0:75 von ; d.h. die Losungen der beiden Gleichungen
(q0:25 ) = 0:25 und (q0:75 ) = 0:75 :
In der Tabelle nden wir q0:75 = 0:675; und wegen der Symmetrie der Standardnormalverteilung um 0 folgt q0:25 = ;0:675; da (vgl.
Kapitel 2.7)
(;0:675) = 1 ; (0:675) = 1 ; 0:75 = 0:25 :
Die Viertelweite der Standardnormalverteilung ist also Q(Z ) = 0:675 ; (;0:675) = 1:35. Mit den Rechenregeln fur Skalenparameter folgt
damit:
Q(X ) = Q( Z + ) = Q( Z ) = Q(Z ) = 1:35 Ausreier sind intuitiv Beobachtungen, die so extrem vom Rest der Stichprobe abweichen, da wir an ihr zufalliges Zustandekommen nicht
glauben. In Kapitel 1.3 hatten wir solche Daten als Ausreier bezeichnet, die um mehr als das Eineinhalbfache der Stichprobenviertelweite
43
dvN uber den oberen bzw. unteren Viertelwert hinausragen. In Kapitel 3.1 sehen wir, da dvN und die Viertelwerte fur genugend groe
Stichprobenumfange N gute Schatzer fur Q(X ) und die Viertelquantile q0:25 und q0:75 sind.2 Wir nehmen jetzt an, da wir die Daten
als normalverteilt modellieren konnen und berechnen die Wahrscheinlichkeit, da eine N (; )-verteilte Zufallsgroe X Werte groer als
q0:75 + 1:5Q(X ) annimmt. Z sei wieder standardnormalverteilt, so da X = Z + geschrieben werden kann. q0:75 erhalten wir aus der
Bedingung:
;
;
0:75 = Ws(X q0:75 ) = Ws Z + q0:75 = Ws(Z q0:75 ; ) = q0:75 ; ;
also aus Tabelle 3
q0:75 ; = 0:675 ; d.h. q = + 0:675 0:75
2
Diese Beziehung zwischen Quantilen von N (; ) und Quantilen von N (0; 1) gilt allgemein (ersetze q0:75 durch ein beliebiges q ). Von
oben wissen wir:
1:5Q(X ) = 1:5 1:35 = 2:025 ;
und damit
q0:75 + 1:5 Q(X ) = + 2:7 :
Ws(X + 2:7 ) = Ws( + Z + 2:7 )
= Ws(Z 2:7) = 1 ; (2:7) = 0:0035
Entsprechend gilt auch fur die linke Seite der Stichprobe:
Ws(X q0:25 ; 1:5 Q(X )) = 0:0035
Da X so exteme Werte annimmt, ist also sehr unwahrscheinlich. In Stichproben der Groe N = 30; 50 oder 100 rechnet man nicht mit
solchen Beobachtungen, wenn alles mit rechten Dingen zugeht, und man ist eher bereit, einen solchen Wert als Ausreier zu bezeichnen,
als an das Eintreten eines so unwahrscheinlichen Ereignisses zu glauben.
Bei sehr groen Stichproben ist das naturlich etwas anderes. Ist z.B. N = 1000; so hat man 1000 unabhangige N (; 2 )-verteilte Zufallsgroen, die mit Wahrscheinlichkeit p = 0:0035 jeweils Werte groer als + 2:7 annehmen. Die Zahl solcher Beobachtungen ist
B(N; p)-verteilt, so da im Mittel N p = 3:5 unter 1000 normalverteilten Zufallsgroen rein zufallig so gro sind.
In der Praxis charakterisiert man Ausreier auch manchmal durch die 3-Regel, d.h. Beobachtungen werden als Ausreier deklariert, die
um mehr als 3sN (als Schatzer fur 3) vom Stichprobenmittel xN (als Schatzer fur ) abweichen. Dieses Verfahren unterscheidet sich fur
normalverteilte Daten naturlich nicht sehr von den oben beschriebenen, das in diesem Fall eine 2:7-Regel ist. Fur die 3-Regel gilt:
Ws(X + 3 ) = Ws(Z 3) = 1 ; (3) = 0:0013:
Quantile und Viertelweite normalverteilter Daten
X sei N (; 2 )-verteilt mit Viertelweite Q(X) und
-Quantil q; 0 < < 1: Dann gilt
Q(X) = 1:35 q = + q0
wobei q0 das -Quantil der Standardnormalverteilung ist.
2.9 Naherungsformeln fur Wahrscheinlichkeiten
Die Verteilungsfunktion der hypergeometrischen und der Binomialverteilung konnen nur fur kleine n auf einfache
Weise direkt ausgerechnet werden. Daher benutzt man fur groere n Naherungsformeln. Wir wissen bereits,
da sich eine hypergeometrisch verteilte Zufallsgroe durch eine binomialverteilte Zufallsgroe mit passendem
Parameter p approximieren lat. (vgl. Kapitel 2.2). Diese Naherungsformel gilt auch schon fur kleine n und
wird vor allem fur mittlere n benutzt, wo die B(n; MN )-Wahrscheinlichkeiten noch, die H(n; M; N)-Gewichte
aber nicht mehr leicht ausgerechnet werden konnen.
H(n; M; N) B(n; MN ) falls M; N ; M n
Ist X H(n; M; N)-verteilt, so gilt dann:
Ws(X = k) Ws(X k) n M k ;
k
n;k ; k = 0; : : : ; n
1; M
N
N
k n M l ;
X
l=0
l
N
44
n;l
1; M
N
Fur groere n kann man Binomialwahrscheinlichkeiten naherungsweise mit Hilfe der Normalverteilung oder der
Poisson-Verteilung ausrechnen, je nachdem wie gro der Wert von p in Relation zur Groe von n ist.
B(n; p) P () falls n gro, p klein und np mittlere Groenordnung
Ist X B(n; p)-verteilt, so gilt dann:
k
;np
Ws(X = k) (np)
k! e ; k = 0; : : : ; n
k (np)l
X
e;np
Ws(X k) l!
l=0
B(n; p) N (np; npq) mit q := 1 ; p; falls n gro, p nicht zu klein und
nicht zu nahe bei 1 (0 p 1)
Ist X B(n; p)-verteilt, so gilt dann:
1 ' k ; np ; k = 0; : : : ; n
Ws(X = k) pnpa
pnpq
np a ; np Ws(a X b) bp;npq
; pnpq
Die Parameter = np bzw. = np; 2 = npq der approximierenden Poisson- bzw. Normalverteilung sind jeweils so gewahlt, da
Erwartungswert bzw. Erwartungswert und Varianz identisch zur angenaherten Binomialverteilung sind. Die Moglichkeit der Approximation
der Binomialverteilung durch die Normalverteilung ist eine spezielle Form des Zentralen Grenzwertsatzes
(vgl. Kapitel 3.3), da ein B(n;p)n
verteiltes X sich als Summe von unabhangigen B(1;p)-Zufallsgroen Y1; Y2 ; : : : schreiben lat: X = P Yj (vgl. Kapitel 2.2).
j=1
In der Praxis stellt sich oft die Frage, ab wann diese Naherungsformeln benutzt werden konnen. Bei der
Ersetzung der hypergeometrischen durch die Binomialverteilung gibt es keine Schwierigkeiten, da hier meist
klar ist, ob M n (z.B. Qualitatskontrolle) oder M und N ; M n (z.B. Meinungsumfragen) ist. Fur die
Poisson- bzw. Normalapproximation der Binomialverteilung gibt es zwei Faustregeln:
{ fur n 20 und p 0:05 liefert P (np) eine annehmbare Naherung fur B(n; p);
fur n 100 und np 10 erhalt man eine gute Naherung
{ falls np 5 und n(1 ; p) 5 liefert N (np; npq) eine brauchbare Naherung fur B(n; p):
Ob man eine Approximationsformel benutzen sollte, hangt aber nicht nur von n und p ab, sondern auch von
dem Bereich (d.h. von dem k bzw. von a und b), wo man sie benutzt. Kritisch ist der Bereich sehr kleiner
(k 0) und sehr groer (k n) Werte, wo der relative Approximationsfehler gro ist. Gerade diese Werte
spielen aber bei statistischen Entscheidungsverfahren eine wichtige Rolle. Wenn man sich nur einen vorlaugen
Eindruck vom Gehalt des Datenmaterials verschaen will oder wenn es um eine Entscheidung geht, die auf der
Basis zu erwartender neuer Daten schnell wieder korrigiert werden kann, kann man die Naherungsformeln guten
Gewissens benutzen. Soll aber mit einem statistischen Verfahren eine wichtige und endgultige Entscheidung
getroen werden, so lohnt es sich, die Moglichkeiten des Rechners auszunutzen und mit exakten Binomialwahrscheinlichkeiten zu rechnen.
2.10 Unabhangigkeit und Korrelation
Bisher haben wir vorwiegend eine eindimensionale Zufallsgroe als Modell fur den Ausgang einer Messung
betrachtet. In der Praxis betrachtet man aber meist Stichproben, d.h. eine Reihe gleichartiger Messungen,
45
so da simultan mehrere Zufallsgroen betrachtet werden mussen, um eine solche Situation zu modellieren.
Dann reicht es aber nicht aus, die Verteilung der einzelnen Zufallsgroen X1 ; : : : ; XN isoliert zu betrachten,
sondern man mu die wechselseitige Abhangigkeit der Messungen berucksichtigen, d.h. man mu im Prinzip
die gemeinsame Verteilung von X1 ; : : : ; XN , d.h. die Verteilung des Zufallsvektors X = (X1 ; : : : ; XN )T
betrachten. Im einfachsten Fall nimmt man an, da die X1 ; : : : ; XN unabhangig sind und auerdem alle
dieselbe Verteilung haben. Dann reicht es tatsachlich aus, nur die eindimensionalen Verteilungen der Xi zu
betrachten, da sich dann die gemeinsame Verteilung aus der Denition der (mathematischen) Unabhangigkeit
ergibt:
Zwei Zufallsgroen X und Y mit Werten in X heien unabhangig, wenn
Ws(X 2 A und Y 2 B) = Ws(X 2 A) Ws(Y 2 B) fur alle (nicht-pathologischen) A; B 2 X :
Unabhangigkeit ist also gleichbedeutend mit der Multiplikationsregel fur Wahrscheinlichkeiten: Die Wahrscheinlichkeit, da gleichzeitig X 2 A und Y 2 B zutrit, ist das Produkt der Einzelwahrscheinlichkeiten.
Wenn X und Y abh
angig sind, gilt die Multiplikationsregel nicht. Im Extremfall kann Y vollig durch X bestimmt sein: z.B. sei X N (0; 1)verteilt und Y = X 2 : Dann gilt:
Ws(0 X 1) = (1) ; (0)
Ws(0 Y 1) = Ws(0 X 2 1) = Ws(;1 X 1) = (1) ; (;1) < 1
Ws(0 X 1 und 0 Y 1) = Ws(0 X 1) > Ws(0 X 1) Ws(0 Y 1)
da aus 0 X 1 automatisch 0 Y = X 2 1 folgt.
Die Denition von Unabhangigkeit lat sich direkt auf mehr als zwei Zufallsgroen verallgemeinern.
Unabhangigkeit
Zufallsgroen X1 ; : : : ; XN mit Werten in X sind unabhangig, wenn
Ws(X1 2 B1 und X2 2 B2 und : : :und XN 2 BN )
= Ws(X1 2 B1 ) Ws(X2 2 B2 ) : : : Ws(XN 2 BN )
fur alle (nicht-pathologischen) B1 ; : : : ; BN X :
Oft betrachtet man Zufallsgroen, die nicht nur unabhangig sind, sondern die auch alle dieselbe Verteilung
haben:
Unabhangig, identisch verteilte Zufallsgroen
Zufallsgroen X1 ; : : : ; XN mit Werten in X heien unabhangig,
identisch verteilt (u.i.v.), wenn sie unabhangig sind und wenn
zusatzlich fur alle (nicht-pathologischen) B X :
Ws(Xi 2 B) = Ws(Xj 2 B) fur alle i; j = 1; : : : ; N:
Identisch verteilte Zufallsgroen haben also gleiche Wahrscheinlichkeitsgewichte bzw. Wahrscheinlichkeitsdichte,
denselben Median, Erwartungswert, Varianz usw.
Modellbildung: Unabhangige Zufallsgroen (im obigen, mathematischen Sinn) eignen sich als Modelle fur
Ergebnisse von Messungen, die im intuitiven Sinn unabhangig sind. Der Ausgang der einen Messung beeinut
in keiner denkbaren Weise den Ausgang einer anderen Messung. Unabhangig, identisch verteilte Zufallsgroen
sind dementsprechend ein Modell fur die wiederholte Durchfuhrung desselben Experiments, wobei die einzelnen
Ergebnisse sich nicht gegenseitig beeinussen.
Beispiel: Bei einer Meinungsumfrage werden Personen einzeln befragt, so da sie nicht wissen, wer auerdem befragt wird, geschweige
denn wie die Antworten der anderen ausfallen. Die Antworten verschiedener Personen auf dieselbe Frage lassen sich also durch unabhangige
Zufallsgroen modellieren.
Sind die Befragten rein zufallig aus der Gesamtpopulation ausgewahlt worden, so sind die Antworten sogar u.i.v. . Die Wahrscheinlichkeit,
da die Antwort einer rein zufallig ausgewahlten Person "Ja" lautet, ist der Anteil der "Ja"-Sager an der Gesamtpopulation. Fur
46
unabhangige Zufallsgroen gelten einige einfache Rechenregeln:
X1 ; : : : ; XN seien unabhangige reellwertige Zufallsgroen mit existierendem Erwartungswert
bzw. Varianz. Dann gilt:
E (X1 : : : XN ) = (E X1 ) : : : (E XN )
var(
N
X
j =1
N
X
Xj ) =
j =1
var Xj
Sind X1 ; : : : ; XN sogar u.i.v. , so gilt speziell
E (X1 : : : XN ) = (E X1)N
var(
N
X
Xj ) = N varX1
j =1
Beispiel: X sei B(n; p)-verteilt, lat sich also schreiben als
X=
n
X
j=1
Yj ;
wobei Y1; : : : ; Yn u.i.v. 0-1-Variablen mit Ws(Yj = 1) = p sind. Direkt rechnet man:
var Yj = E (Yj ; p)2 = (1 ; p)2 Ws(Yj = 1) + p2 Ws(Yj = 0)
= (1 ; p)2 p + p2 (1 ; p) = p(1 ; p):
Wegen der Additivitat der Varianz fur unabhangige Zufallsgroen folgt sofort:
n
X
var X = var(
j=1
Yj ) = n var Y1 = np(1 ; p):
R
Sind zwei Zufallsgroen X; Y abhangig voneinander, so wird die genaue Art ihrer Abhangigkeit durch die gemeinsame Verteilung beschrieben.
Sind z.B. X; Y beide reellwertig, so ist die gemeinsame Verteilung die Verteilung des Zufallsvektors (X; Y )T mit Werten in 2. Hat
diese Verteilung eine Dichte p(x; y); so lassen sich Wahrscheinlichkeiten von Ereignissen, deren Eintreten von den Werten von X und Y
abhangen als Integrale bzgl. dieser Dichte ausrechnen:
Ws (X; Y )T 2 B) =
;
speziell:
Z Z
B
p(x; y) dxdy ;
Ws(a X b; c Y d) =
Z
dZ b
p(x; y) dxdy:
c a
Oft interessiert man sich in der Praxis nicht fur Details der gemeinsamen Verteilung, die man aufgrund unzureichenden Datenmaterials nicht erschlieen kann. Stattdessen versucht man, die Starke der Abhangigkeit
durch eine einzige Zahl zu charakterisieren: die Korrelation { ahnlich wie E X den mittleren Wert von X
charakterisiert und (X) die Variabilitat von X mit. Die Korrelation corr(X; Y ) von X und Y ist stets eine
Zahl zwischen ;1 und +1: Sie entsteht durch Normierung aus der Kovarianz cov(X; Y ) von X und Y :
Kovarianz und Korrelation
X; Y seien zwei reellwertige Zufallsgroen mit endlicher, nicht verschwindender Varianz .
cov(X; Y ) = Ef(X ; E X)(Y ; E Y )g = EfX Y g ; E X E Y
cov(X; Y ) = p cov(X; Y ) 2 [;1; +1]
corr(X; Y ) = (X)
(Y )
var X var Y
Ist corr(X; Y ) = 0; so heien X und Y unkorreliert.
47
Die Kovarianz nimmt beliebige reelle Werte an und hangt von der Skalierung von X und Y , nicht aber von deren
Lage ab; sie { und damit die Korrelation { ist invariant gegenuber Verschiebungen. Die Korrelation ist zusatzlich
auch skaleninvariant und nimmt nur Werte im Intervall [;1; +1] an. Sie eignet sich daher als Abhangigkeitsma,
das ja nicht von den Skalen, in denen die betrachtete Zufallsgroen gemessen werden, abhangen sollte.
X; Y seien zwei reellwertige Zufallsgroen mit endlicher, nicht verschwindender Varianz.
Fur b; d 2 R gilt (Verschiebungsinvarianz)
cov(X + b; Y + d) = cov(X; Y ) und corr(X + b; Y + d) = corr(X; Y )
Fur a; c > 0 gilt:
cov(aX; cY ) = ac cov(X; Y )
corr(aX; cY ) = corr(X; Y )
(Skaleninvarianz)
Ist Y proportional zu X, d.h. Y = cX fur eine reelle Zahl c 6= 0; so rechnet man aus:
Y ; E Y = c(X ; E X) und var Y = c2 varX; so da
cov(X; Y ) = c Ef(X ; E X)2 g = c varX
corr(X; Y ) = p c2 var X 2 = jccj :
c (var X)
Die Korrelation von cX und X ist also +1; wenn c > 0; bzw. ;1; wenn c < 0; und dies bleibt richtig, wenn
man zu cX noch eine Konstante d addiert.
Ist Y = cX + d ; c 6= 0 ; so ist
+1 ; wenn c > 0
corr(X; Y ) = ;1 ; wenn c < 0
Sind X und Y unabhangig, so sind auch X ; E X und Y ; E Y unabhangig, und es folgt aus der Multiplikationsregel fur Erwartungswerte:
cov(X; Y ) = Ef(X ; E X)(Y ; E Y )g = fE (X ; E X)gfE (Y ; E Y )g = 0 :
Unabhangige Zufallsgroen sind also unkorreliert. Die Umkehrung gilt im allgemeinen nicht; es gibt vollstandig
abhangige Zufallsgroen, die dennoch Korrelation 0 haben (s. Beispiel). In einem wichtigen Spezialfall folgt
aber schon aus der Unkorreliertheit die Unabhangigkeit: fur Zufallsgroen X und Y , die gemeinsam normalverteilt sind, d.h. die zweidimensionale Dichte p(x; y) hat die spezielle Form einer Gauschen Glocke.
Beispiel: X sei uniform verteilt auf dem Intervall [;1; +1], d.h. die Dichte ist 12 auf [;1; +1] und 0 sonst, und es gilt:
EX =
Z 1
1
xp(x) dx = 21
x dx = 0
;1
;1
Z
Betrachte Y = X 2 ; Y wird also vollig durch X bestimmt. Dennoch gilt:
cov(X; Y ) = E (XY ) ; E X E Y = E (X Y ) = E X 3
Z 1
Z 1
=
x3 p(x) dx = 21
x3 dx = 0 ;
;1
;1
d.h. X und Y sind unkorreliert.
48
Unkorreliert und Unabhangig
Sind X und Y unabhangig, so folgt stets
corr(X; Y ) = 0:
Sind X und Y gemeinsam normalverteilt, so gilt auch die Umkehrung.
Fur normalverteilte Zufallsgroen mit die Korrelation also tatsachlich in allgemeiner Form die wechselseitige
Abhangigkeit. Fur andere Zufallsgroen mit die Korrelation dagegen nur den Grad der linearen Abhangigkeit.
So kann man zeigen (der Einfachheit halber fur auf Erwartungswert 0 und Varianz 1 standardisierte Zufallsgroen):
Sind X und Y reellwertige Zufallsgroen mit E X = E Y = 0 und var X = var Y = 1 sowie corr(X; Y ) = ; so
ist X die beste Approximation von Y durch eine linear-ane Funktion von X , d.h.
R
min E (Y ; cX ; d)2 = E (Y ; X)2 = 1 ; 2 ;
c;d2
und der mittlere quadratische Approximationsfehler ist 1 ; 2 :
49
3 Schatzer fur Verteilungsparameter
In Kapitel 2 haben wir eine Reihe von Modellen fur Daten kennengelernt. Sind x1; : : : ; xN Mewerte, die durch
gleichartige, einander nicht beeinussende Mevorgange gewonnen worden sind, so lautet ein solches Modell
typischerweise:
x1; : : : ; xN sind Werte von unabhangigen, identisch verteilten Zufallsgroen X1 ; : : : ; XN , die P# -verteilt ist,
wobei der Wert des Parameters # 2 Rd oengelassen wird.
Der Typ der Verteilung P# ist dabei durch das Modell vorgegeben, und auch ein Teil der Verteilungsparameter,
z.B. n bei der Binomialverteilung, kann festgelegt sein. Der Wert eines ein- oder mehrdimensionalen Parameters
# bleibt aber oen. Das Modell legt nur manchmal fest, da # keine beliebigen Werte in Rd annehmen kann,
sondern auf jeden Fall in einem Teilbereich Rd; dem sogenannten Parameterbereich, liegt.
Die folgende Liste gibt fur die bisher bekannten Verteilungen an, was jeweils der unbekannte Parameter # bzw.
der Parameterbereich ist:
Hypergeometrisch
H(n; M; N) in der Qualitatskontrolle:
n; N sind bekannt; # = M; = f0; 1; 2; : :: ; N g:
Binomial
B(n; p) :
n ist bekannt; # = p; = [0; 1]; d.h. 0 p 1:
Poisson oder Exponential P () oder Exp() :
# = ; = (0; 1); d.h. > 0
Normal
N (; 02 ) mit bekannter Varianz:
02 ist bekannt; # = ; = (;1; 1)
Normal oder lognormal
N (; 2 ) oder lognormal mit Parameter (; 2) :
# = (; 2 ); = (;1; 1) (0; 1); d.h. 2 R; 2 > 0
Weibull
# = (; ); = (0; 1) (0; 1); d.h. > 0; > 0
Uniform
U(0; ) als Verteilung einer Lange:
# = ; = (0; 1); d.h. > 0:
Uniform
U(; ) :
# = (; ); = f(; ); ;1 < < < 1g
In diesem und dem folgenden Kapitel betrachten wir Verfahren, mit denen man anhand der Daten Aussagen
uber den Wert des unbekannten Parameters # machen kann, z.B.
{ Schatzverfahren, die aus den Daten einen Schatzwert #^ fur # berechnen;
{ Intervallschatzer, die fur einen eindimensionalen Parameter # durch die Daten festgelegte Schranken #^0; #^1
liefern, zwischen denen # ziemlich sicher liegt
{ Entscheidungsverfahren, die z.B. fur gegebenes #0 eine objektive, kontrollierte Entscheidung zwischen den
beiden Moglichkeiten # #0 und # > #0 ermoglichen.
3.1 Punktschatzer
Ausgangspunkt ist wieder ein Datensatz x1 ; : : : ; xN von reellwertigen Messungen und ein
Statistisches Modell:
x1; : : : ; xN sind Realisationen von unabhangig, identisch verteilten Zufallsgroen X1 ; : : : ; XN mit Verteilungs-
funktion
F#(t) = Ws(Xj t);
50
wobei F# bekannt ist bis auf den Parameter # 2 Rd:
Wir wollen # aus den Daten schatzen. Dabei kommen als Schatzverfahren zunachst einmal alle (regularen,
z.B. stuckweise stetigen) Funktionen T der Daten mit Werten im Parameterbereich in Frage. Wenden
wir diese Schatzfunktion T auf die aktuell beobachteten Daten an, so erhalten wir den Schatzwert #^N =
T(X1 ; : : : ; XN ) fur #:
Schatzproblem: Schatze # aus den Daten X1; : : : ; XN !
Schatzverfahren: Funktion T : RN ;! Schatzwert:
#^N = T (X1 ; : : : ; XN )
Der Schatzer #^N fur # ist als Funktion der Zufallsgroen X1 ; : : : ; XN selbst wieder eine Zufallsgroe. Eine
Minimalforderung, die ein brauchbares Schatzverfahren erfullen mu, ist die sogenannte Konsistenz:
Fur wachsenden Stichprobenumfang N soll der Schatzer #^N immer bessere Naherungen fur den Parameterwert
# liefern. Genauer:
#^N ;! # fur N ! 1 (im geeigneten Sinn).
Zahlreiche Schatzverfahren, die diese Eigenschaft besitzen, lassen sich aus einem grundlegenden Resultat der
Wahrscheinlichkeitstheorie herleiten:
Das Gesetz der groen Zahlen: X1 ; X2 ; : : : seien1 unabh
angig, identisch verteilte Zufallsgroen mit
E Xj = : Dann konvergiert das Stichprobenmittel XN = N PNj=1 Xj fur N ! 1 gegen den Erwartungswert (mit Wahrscheinlichkeit 1):
Ws( lim XN = ) = 1
N !1
Diese Konvergenz des Stichprobenmittels ist leicht einzusehen:
i) Da X1 ; : : : ; XN u.i.v., wissen wir aus Kapitel 2.10:
var(
N
X
j =1
N
X
1
Xj ) = N varX1 ; also var XN = N12 var( Xj ) = varX
N
j =1
XN streut also mit wachsendem N immer weniger und zieht sich fur N ! 1 auf eine Konstante zusammen.
ii) Diese Konstante mu sein, da wegen der Linearitat des Erwartungswerts:
E X N = N1
N
X
j =1
E Xj = N1
N
X
j =1
=
fur alle N :
Aus dem Gesetz der groen Zahlen ergibt sich eine intuitiv einleuchtende Interpretation des Begris "Erwartungswert" und des Begris "Wahrscheinlichkeit".
Erwartungswert als Grenzwert von endlichen Mittelwerten
X sei eine Zufallsgroe, deren Erwartungswert E X existiert. Wiederholt man das Zufallsexperiment, das X
liefert, sehr oft (N gro) auf unabhangige Weise, so erhalt man Messungen X1 ; : : : ; XN , die alle wie X verteilt
sind. Betrachtet man deren Stichprobenmittel, so "mittelt sich der Zufall heraus", d.h. die zufalligen positiven
und negativen Abweichungen vom Erwartungswert heben sich auf, und das Ergebnis ist in etwa E X :
N
1X
N j =1 Xj = XN E X
51
(N sehr gro ):
Wahrscheinlichkeit als Grenzwert von relativen Haugkeiten
X sei eine Zufallsgroe mit Werten in X : Wir interessieren uns dafur, ob bei dem Zufallsexperiment, das X
erzeugt, das Ereignis fX 2 B g eintritt oder nicht. B ist hierbei eine feste Teilmenge von X ; und p = Ws(X 2 B)
sei die Wahrscheinlichkeit fur das Eintreten des uns interessierenden Ereignisses. Wir wiederholen jetzt wieder
das Experiment, das X liefert, auf unabhangige Weise immer wieder und erhalten unabhangige Messungen
X1 ; X2; : : : ; die alle wie X verteilt sind. Wir setzen
1 ; wenn X 2 B
Yj = 0 ; wenn Xjj 2= B ; j = 1; 2; : : :
Y1 ; Y2; : : : sind dann unabhangige 0-1-Variable mit
Ws(Yj = 1) = Ws(Xj 2 B) = Ws(X 2 B) = p fur alle j :
Y1 + : : : + YN ist dann die Zahl der Experimente unter den ersten N, in denen fXj 2 B g beobachtet werden
konnte. YN ist die relative Haugkeit der Experimente unter den ersten N mit fXj 2 B g: Das Gesetz der
groen Zahlen liefert (vgl. auch Kapitel 2.8 fur den Erwartungswert von 0-1-Variablen):
YN = relative Haugkeit der j = 1; : : : ; N mit Xj 2 B ;! E Yj = p = Ws(Xj 2 B)
fur N ! 1 mit Wahrscheinlichkeit 1. Die Wahrscheinlichkeit des Ereignisses fX 2 B g ist also fur groe N
ungefahr die relative Haugkeit, mit der das Ereignis in N unabhangigen, identischen Experimenten eintritt.
Das Gesetz der groen Zahlen ist nicht nur bei der Entwicklung von Schatzverfahren hilfreich, sondern ist auch die Grundlage von Simulationsverfahren (oder auch Monte Carlo-Verfahren) in Technik und Wirtschaft. Dabei wird ein mathematisches Modell eines komplexen
Systems auf dem Rechner implementiert. Systemkenngroen lassen sich wegen der Kompliziertheit realistischer Modelle oft nicht mehr
analytisch berechnen, aber durch wiederholtes Laufenlassen des Rechnermodells approximieren. Ist z.B. # die mittlere Zeit, die ein Kunde
zwischen seiner Ankunft und seinem Verlassen eines komplexen Bedienungssystems beim Warten und beim Bedienvorgang verbringt, so
schickt man im Rechner N "Kunden" in das Systemmodell und registriert die von ihnen im System verbrachten Zeiten T1 ; : : : ; TN : Fur
genugend groe N ist das Stichprobenmittel TN dann eine gute Naherung fur #. Sei # die Wahrscheinlichkeit, da ein Kfz-Bauteil wahrend
der ersten 100 000 km Fahrtsimulation noch funktioniert. Die relative Haugkeit ist dann eine Naherung fur die gesuchte Wahrscheinlichkeit
#:
X1 ; X2; : : : ; XN sei jetzt eine Stichprobe von N unabhangig, identisch verteilten Zufallsgroen mit Werten in
R: Aus dem Gesetz der groen Zahlen folgt sofort, da XN ein brauchbarer (d.h. fur N ! 1 konsistenter)
Schatzer fur # = E Xj ist. Ist # = f(E Xj ) eine stetige Funktion des Erwartungswerts, so kann man # durch
#^N = f(XN ) schatzen.
Beispiel: X1 ; : : : ; XN seien u.i.v. Exp()-Zufallsgroen. Da E Xj = 1 bzw. = 1=E Xj (vgl. Kapitel 2.8), ist ^ N = 1=XN ein brauchbarer
Schatzer fur :
Ist # = E f(Xj ) fur eine beliebige Funktion f, so sind f(X1 ); : : : ; f(XN ) u.i.v. Zufallsgroen mit gemeinsamem
Erwartungswert #: Wegen des Gesetzes der groen Zahlen approximiert ihr Stichprobenmittel den Wert von # :
N
X
#^N = N1 f(Xj ) E f(Xj ) = # :
j =1
Sind speziell X1 ; : : : ; XN u.i.v. mit Erwartungswert und Varianz 2 , so erhalt man fur f(x) = (x ; )2 :
N
1X
2
2
2
N j =1(Xj ; ) E (Xj ; ) = :
Berucksichtigt man noch, da in diesem Fall fur groe N XN ; so folgt
N
X
^N2 = N1 (Xj ; XN )2 2
j =1
und, da NN;1 ;! 1 fur N ! 1,
s2N = N N; 1 ^N2 2 :
52
Die Stichprobenvarianz s2N (vgl. Kapitel 1) und ^N2 schatzen also beide die Varianz 2 : Welche der beiden
Schatzer man wahlt, ist meist Geschmackssache. Einige Testverfahren (vgl. Kapitel 5) haben fur s2N eine etwas
einfachere Gestalt, so da wir im folgenden s2N als Varianzschatzer betrachten.
Beispiel: Die Verformung zweier stodampfender Materialien A und B wird untersucht. Gesucht wird ein Material, das sich bei einem
genormten Sto stark verformt, d.h. viel Stoenergie absorbiert, gleichzeitig aber auch zuverlassig im Sinne geringer Schwankungsbreite
ist. Die Messungen bei je N = 9 unabhangigen Versuchen sind:
Material A
Material B
1,25
1,01
1,16
0,89
1,33
0,97
1,15
0,95
1,23
0,94
1,20
1,02
1,32
0,99
1,28
1,06
1,21
0,98
Modell: Die Verformungen X1 ; : : : ; X9 von Material A bzw. Y1; : : : ; Y9 von Material B sind jeweils u.i.v. N (x ; x2 )- bzw. N (y ; y2 )verteilte Zufallsgroen, wobei (vgl. Kapitel 2.8)
x = E Xj ; x2 = var Xj ; j = 1; : : : ; 9
y = E Yi ; y2 = var Yj2 ; j = 1; : : : ; 9
Als Schatzer fur die unbekannten Parameter des Modells berechnet man aus den Daten:
^x = X9 = 1; 24 ; s2x = 0; 0042 ; sx = 0; 065
^y = Y9 = 0; 98 ; s2y = 0; 0025 ; sy = 0; 050
Der Versuch ermoglicht also keine eindeutige Entscheidung zugunsten eines der beiden Materialien. A verformt sich zwar starker, aber B
zeigt dafur ein weniger variables Verhalten.
Es gibt auch Schatzer, deren Konsistenz nicht direkt aus dem Gesetz der groen Zahlen folgt, sondern deren
Nutzlichkeit aus ahnlichen Grenzwertsatzen folgt. Ein Beispiel ist der Stichprobenmedian X_ N eines Datensatzes
X1 ; : : : ; XN aus u.i.v. Zufallsgroen. Unter schwachen Regularitatsvoraussetzungen { z.B.: die Xj besitzen
eine Wahrscheinlichkeitsdichte p und p(med(Xj )) > 0 { liefert der Stichprobenmedian eine gute Naherung des
Medians med(Xj ) der Zufallsgroe Xj :
X_ N ;! med(Xj )
fur N ! 1
mit Wahrscheinlichkeit 1 :
Entsprechend gilt unter geeigneten, in der Praxis in den allermeisten Fallen erfullten Voraussetzungen, da die
Stichprobenviertelwerte vNu ; vNo und ihr Abstand dvN gegen die Viertelquantile q0.25 und q0.75 bzw. gegen die
Verteilungsviertelweite Q(X) konvergieren, wenn N ! 1:
X1 ; : : : ; XN seien u.i.v. mit Erwartungswert , Varianz 2 und Median m.
Zu schatzender Parameter
Schatzer
= E Xj
XN
f(XN )
# = f()
# = E f(Xj )
1
N
PN f(X )
j
j =1
2 = var Xj
s2N
m = med(Xj )
X_ N
q0.25
vNu
q0.75
vNo
Q(X) = q0.75 ; q0.25
dvN = vNo ; vNu
53
3.2 Vergleich verschiedener Schatzverfahren
Wir haben in Kapitel 3.1 jede Funktion der Daten #^N = T(X1 ; : : : ; XN ) mit Werten in als Schatzverfahren
zugelassen, falls # 2 der zu schatzende Parameter ist.Dann haben wir eine Reihe von Funktionen T durch
die plausible Forderung der Konsistenz ausgewahlt:
#^N ;! # fur N ! 1 im geeigneten Sinn.
Es gibt aber immer noch eine Vielzahl konsistenter Schatzverfahren fur ein und dasselbe Schatzproblem. Wir
mussen also unsere Anforderungen an die Qualitaten eines Schatzers prazisieren, um uns fur eines der noch in
Frage kommenden Schatzverfahren entscheiden zu konnen.
Beispiel: X1 ; : : : ; XN seien u.i.v. N (; 2 ): Da (vgl. Kapitel 2.7 und 2.8) E Xj = = med(Xj ), kommen aufgrund der obigen
U berlegungen sofort zwei (konsistente) Schatzer fur in Frage: das Stichprobenmittel XN und der Stichprobenmedian X_ N : Um die
Qualitat dieser Schatzer vergleichen zu konnen, berechnen wir ihre Erwartungswerte und Varianzen:
2
E XN = ; varXN = N
(vgl. Bemerkungen im Anschlu an das Gesetz der groen Zahlen)
2
E X_ N = ; varX_ N = 2 N 1; 57
N
2
(auf die Rechnungen, die zu diesem Ergebnis fuhren, verzichten wir). Beide Schatzer schatzen also im Mittel den wahren Parameterwert :
Die Varianz des Stichprobenmedians ist aber fur normalverteilte Daten und festen Stichprobenumfang N mehr als eineinhalbmal so gro
wie die Varianz des Stichprobenmittels. XN ist in diesem Modell (u.i.v. N (; 2 )-verteilte Zufallsgroen) ein genauerer Schatzer als X_ N :
Von einem guten Schatzverfahren wunschen wir uns, da der (zufallige!) Schatzfehler #^N ; # meist klein ist.
Eine gebrauchliche Formulierung dieses Wunsches ist, da der mittlere quadratische Schatzfehler (mse fur
"mean squared error")
mse(#^N ) = E (#^N ; #)2 = var(#^N ) + (E #^N ; #)2
klein sein soll.
Den mittleren Schatzfehler E (#^N ; #) = E #^N ; # nennt man auch den Bias des Schatzers #^N : Ein Schatzer mit der Eigenschaft E #^N = #
heit dementsprechend biasfrei oder auch erwartungstreu. Bei einigen theoretischen Fragestellungen werden nur solche biasfreie Schatzer
zugelassen und dann derjenige unter ihnen ermittelt, der den kleinsten mittleren quadratischen Schatzfehler (mse) hat. Biasfreiheit fur
jeden endlichen Stichprobenumfang ist aber keine zwingende Bedingung fur ein Schatzverfahren. Es gibt Situationen, wo ein Schatzer mit
kleinem, aber nicht verschwindendem Bias einen deutlich kleineren mse hat als das beste biasfreie Schatzverfahren, denn zum mse tragt ja
nicht nur der Bias, sondern auch die Varianz bei. Ein brauchbarer Schatzer mu daher nur asymptotisch biasfrei sein, d.h.
E #^N ;! # fur N ! 1 :
Dies folgt automatisch aus der folgenden, starkeren Bedingung.
Da wir an einem kleinen mse interessiert sind, verscharfen wir die Forderung der Konsistenz und betrachten
nur noch Schatzverfahren T(X1 ; : : : ; XN ) = #^N mit
Forderung: mse(#^N ) ;! 0 fur N ! 1 ; fur alle # 2 :
Fur alle in Frage kommenden Parameterwerte # 2 mu das Schatzverfahren mit wachsendem Stichprobenumfang immer besser und besser { und im Grenzubergang N ! 1 fehlerfrei { schatzen.
Der mittlere quadratische Schatzfehler hangt meist nicht nur vom Schatzverfahren, sondern auch vom Wert des Parameters # ab:
mse(#^N ) mse#(#^N ) = E# (#^N ; #)2 ;
denn der Erwartungswert wird ja fur jedes # unter der Annahme berechnet, da gerade dieses # der wahre, den Daten zugrundeliegende
Parameterwert ist. Nur in wenigen Situationen gibt es dann den besten Schatzer #^opt
N , d.h. einen Schatzer mit
()
mse# (#^opt
N ) mse# (#^N ) fur alle # 2 ; N 1
fur alle anderen Schatzer #^N ; die die obige Forderung erfullen. Oft gibt es mehrere gute Schatzer, wobei es vom wahren unbekannten
Parameterwert # abhangt, welcher gerade besser ist. Man schwacht daher die Bedingung (*) ab und fordert sie nicht mehr fur alle N 1,
sondern nur noch fur N ! 1: Auch dann kann es noch mehrere unter diesem Gesichtspunkt gleich gute Schatzverfahren geben.
Daneben gibt es auch andere Ansatze, bestimmte Schatzverfahren auszuzeichnen, z.B. die Suche nach Minimaxschatzern #^mm
N mit
^mm
^
max
#2 mse(#N ) max
#2 mse(#N ) fur alle N 1
54
fur alle anderen Schatzer #^N ; die die obige Forderung erfullen. Der maximal mogliche mittlere quadratische Schatzfehler soll klein gehalten
werden, d.h. der Schatzer soll selbst in der schlimmsten Situation (d.h. fur das zum Schatzen ungeeigneteste # 2 ) noch brauchbar sein
(Worst-Case-Kriterium).
In vielen Fallen lassen sich durch ein allgemeines Verfahren gute Schatzer konstruieren (die sogenannten
Maximum-Likelihood-Schatzer). Hier betrachten wir nur eine Liste von "guten" Schatzern fur die Parameter
der Modelle, die wir in Kapitel 2.2, 2.4 und 2.6 vorgestellt haben.
1) Modell: X ist hypergeometrisch H(n; M; N)-verteilt.
Schatzer fur M :
M^ = X n N
2)
Modell: X is binomial B(n; p)-verteilt.
Schatzer fur p :
p^ = Xn
3a) Modell: X1 ; : : : ; XN sind unabhangig und Poisson P ()-verteilt.
Schatzer fur :
^ = XN
3b) Modell: X ist P (t)-verteilt (in Zusammenhang mit Poisson-Proze)
Schatzer fur :
^ = Xt
4)
Modell: X1 ; : : : ; XN sind unabhangig und exponentiell Exp()-verteilt.
Schatzer fur :
^ = X1
N
5)
Modell: X1 ; : : : ; XN sind unabhangig und normal N (; 2 )-verteilt.
Schatzer fur :
^ = XN
Schatzer fur 2 :
6)
Modell: X1 ; : : : ; XN sind unabhangig und lognormal-verteilt mit Parameter (; 2 )
N
X
Schatzer fur :
^ = N1
ln Xj
j =1
Schatzer fur 2 :
7)
^2 = s2N
N
X
^2 = N 1; 1 (ln Xj ; ^)2
j =1
Modell: X1 ; : : : ; XN sind unabhangig und Weibull-verteilt mit Parameter (; ):
X
;1
N
Schatzer fur :
^ = N1
Xj^
j =1
Schatzer fur :
^ lost die nichtlineare Gleichung
N ^;1
P
Xj
N
X
ln Xj ; ^2 j =1P
1 + ^ N1
N ^ = 0
j =1
Xj
j =1
Anmerkungen:
3b) Ein Poisson-Proze mit Intensitat wird beobachtet, und X ist die Anzahl der Ereignisse in einem Intervall der Lange t: Ist t
ganzzahlig, so lat sich X als Summe von t unabhangigen P ()-Zufallsgroen Z1 ; : : : ; Zt schreiben: Das Intervall der Lange t wird
in1 t Teilintervalle
der Lange 1 zerlegt, und Zj ist die Anzahl der Ereignisse im j -ten Teilintervall. Es gilt dann:
1
t X = t (Z1 + : : : + Zt ) = Zt: 3b ist in diesem Fall also ein Spezialfall aus 3a. Umgekehrt gilt auch immer:
Sind Z1; : : : ; ZN unabhangig, P ()-verteilt, so ist die Summe Z1 + : : : + ZN P (N )-verteilt.
6) X1 ; : : : 2; XN unabhangig, lognormal-verteilt bedeutet nichts anderes als: ln X1 ; : : : ln XN unabhangig, N (; 2 )-verteilt. Die Schatzer
fur ; ergeben sich daher sofort durch Anwendung von 5) auf die transformierten Daten ln X1 ; : : : ; ln XN :
55
7) Ware bekannt, so folgt der Schatzer fur sofort aus 4) und der Tatsache, da die transformierten Daten X1 ; : : : ; XN unabhangig,
Exp()-verteilt sind. Da i.a. nicht bekannt ist, mu erst der Schatzer ^ bestimmt werden. Man hat hier ein Beispiel fur den in
der Praxis bei komplexeren Modellen oft vorkommenden Fall, da es keine einfache Formel fur den Schatzer als Funktion der Daten
gibt, sondern da man ihn als Losung einer Gleichung oder eines Extremwertproblems numerisch bestimmen mu.
Beispiel: Wie gro soll ein geplantes Bedienungssystem angelegt werden, das aus einem Warteraum und mehreren Bedienungseinheiten
besteht? Eine wichtige Planungsgroe ist die mittlere Anzahl der Bedienungswunsche pro Zeiteinheit.
Modellierung: Die Anzahl der Bedienungswunsche im Zeitintervall (s; t) sei Z (s; t): Wir gehen davon aus, da die Zeitpunkte der eintreenden
Bedienungswunsche einen Poisson-Proze bilden, d.h.:
i) Z (t; t + t) ist P ( t)-verteilt fur alle t; t > 0
ii) Z (t; t + t) und Z (s; s + s) sind fur t + t < s; t; s > 0; unabhangig.
Daten: Die Gesamtzahl der Bedienungswunsche X = Z (0;N ) in einem langen Zeitintervall (0; N ) wird (bei einem bereits existierenden,
ahnlichen System) beobachtet.
Setzen wir fur j = 1; : : : ; N Yj = Z (j ; 1; j ) ; so sind Y1; : : : ; YN wegen unserer Modellannahme unabhangig und P ()-verteilt, und
X = Y1 + : : : + YN : Als Schatzer fur = E Yj erhalten wir aus dem Gesetz der groen Zahlen:
^ = Y = 1 X :
N
N
Die Qualitat des Schatzers lat sich durch den mse beschreiben:
X ; 2 = 1 E (X ; N)2
mse (^) = E (^ ; )2 = E N
N2 = N12 var X = N
N2 = N ;
denn, da X P (N )-verteilt ist, ist E X = varX = N:
Die Schatzer der obigen Liste sind gut, wenn das zugrundegelegte Modell stimmt. Wir hatten z.B. zu Beginn
dieses Abschnitts gesehen, da XN ein besserer Schatzer fur ist als X_ N ; wenn die Daten wirklich normalverteilt
sind. Enthalten die Daten dagegen einen gewissen Prozentsatz an Ausreiern, d.h. an eher groen Werten, die
von einem andersgearteten Zufallsmechanismus (Fehler, Individuen aus anderer Subpopulation, etc.) erzeugt
werden, so wird der Stichprobenmedian besser als das Stichprobenmittel. X_ N ist unempndlicher gegenuber
solchen Ausreiern (vgl. Kapitel 1.1). Es ist daher nicht immer ratsam, sich ausschlielich auf Schatzverfahren
zu beschranken, die fur das gewahlte Modell einen moglichst kleinen mse liefern. Als Alternative sollte man auch
sogenannte robuste Schatzer in Betracht ziehen, die zwar nicht optimal fur ein spezisches Modell, aber dafur
gut fur eine ganze Klasse von Modellen sind. Sie verzeihen dem Statistiker eher Fehler bei der Spezizierung
seines Modells. Gute robuste Schatzer sind oft aufwendig zu berechnen; moderne statistische Software enthalt
aber oft entsprechende Verfahren.
Beispiel: Die Herstellerrma eines Produktes (Kaee, Zucker, Zement, ...) setzt automatische Abfullanlagen ein und garantiert, da jede
Packung im Mittel kg enthalt. Gelegentlich mu uberpruft werden, ob die Abfullanlage diese Bedingung einhalt. 11 Wiegungen ergeben:
51,2 - 48,2 - 50,6 - 50,1 - 49,3 - 48,8 - 51,7 - 50,8 - 49,8 - 49,5 - 50,3.
Modellierung: X1 ; : : : ; X11 sind unabhangig N (; 2 )-verteilt.
Als Schatzer fur betrachten wir Stichprobenmittel und Stichprobenmedian:
X11
X_ 11
=
=
11
1 P
11 j=1 Xj
X(6)
=
=
50,0
50,1
Aus langjahrigen Beobachtungen wei man 2 = 1; 1 kg2 . Im Vergleich zu liegen X11 und X_ 11 nicht weit auseinander, so da wir mit
keinen, einseitig das Stichprobenmittel verfalschenden, Ausreiern rechnen mussen. Der mse der beiden Schatzer ist (s. oben)
mse X11 = var X11 =
mse X_ 11 = var X_ 11 =
2
11
2
2 11
=
=
0,1
0,16
Wir ziehen also in diesem Fall das Stichprobenmittel als Schatzer vor. Beobachten wir aber einen 12. Datenpunkt X12 = 5; 1 (der durch
einen Tippfehler aus dem wahren Gewicht 51,0 entstanden ist), so erhalten wir
X12 = 46; 3 und X_ 12 = 12 (X(6) + X(7) ) = 50; 2:
Der Stichprobenmedian ist robuster gegen den Ausreier X12 , und der deutliche Unterschied zwischen X12 und X_ 12 weist auf die Prasenz
von Ausreiern in den Daten hin.
56
3.3 Intervallschatzer oder Kondenzintervalle
In Kapitel 3.1 haben wir Punktschatzer betrachtet, die einen Schatzwert #^N fur einen uns interessierenden
Parameter # liefern. Allein aus dem Wert von #^N konnen wir aber nicht erkennen, wie genau die Schatzung
ist, d.h. welche Erwartungen wir bzgl. der Groe des Schatzfehlers #^N ; # haben sollten. Der mittlere
quadratische Schatzfehler mse(#^N ) aus Kapitel 3.2 liefert eine Moglichkeit, die Qualitat eines Schatzverfahrens
zu quantizieren. Ohne weitere theoretische Grundlagen ist es aber nicht einfach, aus der Angabe des mse zu
ersehen, welche Werte von # angesichts des Schatzwerts #^N noch plausibel sind und welche Werte von # so weit
von #^N abweichen, da sie kaum noch als Parameterwerte fur das den aktuellen Daten zugrundegelegte Modell
in Frage kommen. In diesem Abschnitt betrachten wir als Alternative Intervallschatzer fur #. Statt eines
Schatzwertes #^N geben wir ein ganzes Intervall von aufgrund der Daten fur # in Frage kommender Werte an.
Dieses Intervall enthalt den Schatzwert; ist es klein, so wissen wir, da #^N "ziemlich sicher" eine gute Naherung
fur # liefert. Der Grad dieser "Sicherheit" wird durch das sogenannte Sicherheitsniveau quantiziert.
Beispiel: Eine Umfrage kurz vor einer Wahl ergibt, da die ABC-Partei 6,2% der Stimmen erhalten wird. Genauer: n Personen werden
befragt, von denen sich X zur Partei ABC bekennen. p^ = Xn = 0; 062 schatzt den Anteil aller Wahlberechtigten, die sich fur ABC
entscheiden wollen. Diese Angabe reicht allein nicht aus, um uns ein Gefuhl zu vermitteln, ob die Partei die 5%-Hurde sicher uberspringt
oder nicht. Aussagekraftig ware eine Aussage der Form: Der Stimmanteil von ABC liegt "ziemlich sicher" zwischen 5,2% und 7,2% .
Wie in Kapitel 3.1 gehen wir von einem Datensatz x1 ; : : : ; xN reellwertiger Messungen und dem folgenden
Modell aus:
Statistisches Modell: x1; : : : ; xN sind Realisationen von unabhangigen, identisch verteilten Zufallsgroen
X1 ; : : : ; XN mit Verteilungsfunktion
F# (t) = Ws(Xj t) ;
wobei F# bekannt ist bis auf den reellwertigen Parameter # 2 R:
Der gesuchte Intervallschatzer fur # wird folgendermaen charakterisiert.
Denition: Wahle ein 0 < 1 (typisch: = 0:05 oder 0:01 oder 0:001 ). Ein Kondenzintervall zum
Sicherheitsniveau 1 ; (kurz: ein (1 ; )-Kondenzintervall) fur # ist ein zufalliges Intervall [T1; T2] mit
Grenzen
Ti = gi (X1 ; : : : ; XN ) ; i = 1; 2;
die bekannte Funktionen der Daten sind, so da
Ws# ([T1; T2 ] 3 #) 1 ; fur alle # 2 :
Gleich, was der wahre Wert des den Daten zugrundeliegenden Parameters ist: der Intervallschatzer [T1 ; T2]
uberdeckt ihn mit hoher Wahrscheinlichkeit ( 1 ; ):
Um die Konstruktion solcher Kondenzintervalle zu illustrieren, betrachten wir unabhangige N (; 2 )-verteilte
Daten X1 ; : : : ; XN mit bekannter Varianz 2 als Beispiel. Der zu schatzende Parameter ist , und aus Kapitel
3.2 wissen wir, da XN ein guter Punktschatzer fur ist. Man kann zeigen:
2
Sind X1 ; : : : ; XN unabhangig, N (; 2 )-verteilt, so ist XN selbst N (; N )-verteilt.
Zu gegebenem sei q = q1;=2 das (1 ; 2 )-Quantil der Standardnormalverteilung. Ist Z N (0; 1)-verteilt, so
gilt dann (vgl. Kapitel 2.7):
Ws(;q Z q) =
=
=
=
(q) ; (;q)
(q) ; (1 ; (q))
1 ; 2 ; (1 ; (1 ; 2 ))
1 ; :
57
Da XN selbst normalverteilt ist, ist
N ; p X N ; Z = Xq
= N 2
N
N (0; 1)-verteilt, so da
p 1 ; = Ws(;q N XN; q) = Ws(; p q XN ; p q)
N
N
= Ws(XN ; p q XN + p q):
N
N
Mit T1 = XN ; pN q ; T2 = XN + pN q ist also [T1 ; T2] ein (1 ; )-Kondenzintervall fur :
Anmerkung: Der Fall, da 2 bekannt, aber unbekannt ist, ist zwar nicht die Regel, tritt aber in der Praxis auf. Ist eine physikalische
Groe, die mit einem Megerat ermittelt werden soll, so ist der Mewert X von der Form:
X = +W
wobei W der Mefehler ist. Im Normalfall kann man davon ausgehen, da dank der Eichung das Gerat keinen systematischen
Fehler
produziert und da somit E W = 0: Als Modell fur die Verteilung des Mefehlers eignet sich oft eine Normalverteilung N (0; 2 ): ist als
Ma fur den vom Gerat verursachten Fehler bekannt (da man z.B. die Qualitat der Mevorgange an bekannten Groen eingehend studieren
kann).
Um den Mefehler zu verringern, wiederholt man die Messung derselben Groe oft mehrfach auf unabhangige Weise hintereinander und
erhalt dann Mewerte
Xj = + Wj ; j = 1; : : : ; N:
Da W1 ;: : : ; WN unabhangig N (0; 2 )-verteilt sind, sind X1 ; : : : ; XN unabhangig N (; 2 )-verteilt. XN ist dann ein Punktschatzer,
XN pN q ein Intervallschatzer fur :
Beispiel: Die Lange eines Objektes wird 10 mal gemessen. Als Stichprobenmittel der N = 10 Mewerte ergibt sich X10= 23;7 m. In der
Anleitung zum Megerat ndet man die Angabe = 0; 6m. Fur die Wahl = 0;05 ndet man in Tabelle 3 als (1 ; 2 ) = 0;975-Quantil
q = 1;96. Ein 95%-Kondenzintervall fur ist demnach
X10 p0; 6 1; 96 = [23; 33; 24; 07]:
10
Sind X1 ; : : : ; XN unabhangig und N (; 2 )-verteilt, ist 2 aber unbekannt, so ist das oben beschriebene Kondenzintervall fur nicht mehr berechenbar. Man konnte den unbekannten Storparameter 2 durch den Schatzer
s2N ersetzen und erhielte dann als approximatives (1 ; )-Kondenzintervall fur : XN psNN q1;=2: Fur groe
N ist dies auch legitim. Wegen der Bedeutung des Normalverteilungsmodells zieht man es aber fur kleine N
vor, mit exakten Kondenzintervallen zu arbeiten. Dabei benutzt man:
N
P
Sind X1 ; : : : ; XN unabhangig, N (; 2 )-verteilt, s2N = N1;1 (Xj ; X N )2 ; so ist
j =1
p XN ; N
sN
0.0
0.1
0.2
0.3
t-verteilt (oder Student-verteilt) mit N ; 1 Freiheitsgraden, kurz: tN ;1 -verteilt.
-4
-2
0
2
4
Abbildung 3.3: Dichte der t-Verteilung mit 4 Freiheitsgraden
58
Das -Quantil der t -Verteilung bezeichnen wir im folgenden mit t;: Da die t-Verteilungen wie die Standardnormalverteilung eine um 0 symmetrische Dichte haben, gilt t;1; = ;t;: Fur < 21 sind die Quantile
negativ. Wachst die Zahl der Freiheitsgrade, so nahert sich die t -Verteilung der N (0; 1)-Verteilung an, d.h.
fur groe kann man die Quantile der Standardnormalverteilung benutzen. In Tabelle 4 ndet man sie in der
letzten Zeile fur = inf (innity).
-Quantil der t -Verteilung = t;
t;1; = ;t;
t; q = -Quantil von N (0; 1) fur groe Wie oben fur die N (0; 1)-verteilte Zufallsgroe Z gilt
p XN ; 1 ; = Ws tN ;1;=2 N s
tN ;1;1;=2
N
s
s
N
N
= Ws XN ; p tN ;1;1;=2 XN + p tN ;1;1;=2
N
N
Mit T1 = XN ; psNN tN ;1;1;=2 und T2 = XN + psNN tN ;1;1;=2 ist also [T1; T2] ein (1 ; )-Kondenzintervall fur
:
Beispiel: Ist im obigen Beispiel (Langenmessung, N = 10; X10 = 23;7 m) 2 nicht bekannt und schatzt man es durch sN = 0;6 m aus
den Daten, so ergibt sich aus Tabelle 4 fur die Wahl = 0;05 als 95%-Kondenzintervall fur X10 p0; 6 t9;0:975 = X10 p0; 6 2; 262 = [23; 28; 24; 12]
10
10
Die Unsicherheit bzgl. fuhrt zu einem etwas groerem Kondenzintervall.
Kondenzintervalle fur die Varianz einer Normalverteilung
X1 ; : : : ; XN seien unabhangig und N (; 2)-verteilt. Dann ist
(N ; 1) s2N
2
2-verteilt mit N ; 1 Freiheitsgraden (vgl. Abschnitt 5.4).
2; bezeichne das -Quantil der 2 -Verteilung (s. Tabelle 5). Zu gegebenem seien
; 1)s2N und S = (N ; 1)s2N ;
S1 = (N
2
2
2
N ;1;1;=2
N ;1;=2
wobei s2N die Stichprobenvarianz von X1 ; : : : ; XN ist. Dann ist [S1 ; S2] ein (1 ; )-Kondenzintervall fur 2 ;
d.h.
Ws;2 ([S1 ; S2 ] 3 2 ) = Ws;2 (S1 2 S2 ) = 1 ; fur alle 2 R; 2 > 0:
Kondenzintervalle fur die Binomialverteilung
X sei binomialverteilt B(n; p): Wenn n gro genug ist, so ist X ungefahr N (np; np(1 ; p))-verteilt (s. Kapitel
2.9), und damit ist
p^ = Xn ungefahr N (p; p(1 n; p) )-verteilt:
59
Bezeichnet q = q1;=2 das (1; 2 )-Quantil von N (0; 1); so folgt wie oben fur normalverteilte Daten mit bekannter
Varianz:
r
r
r p(1 ; p)
p(1
;
p)
p(1
;
p)
p^ n q = p^ ;
n q; p^ +
n q
ist ein approximatives (1 ; ){Kondenzintervall fur p { approximativ, da die Normalapproximation der Binomialverteilung benutzt worden ist. Dieses Kondenzintervall ist naturlich nicht berechenbar, da das unbekannte
p darin auftaucht. Wir fuhren daher eine zweite Naherung ein und ersetzen p durch den Punktschatzer p^ :
r
r
r p^(1 ; p^)
p
^
(1
;
p
^
)
p
^
(1
;
p
^
)
p^ = [T1; T2]
n q = p^ ; q
n ; p^ + q
n
ist dann ein berechenbares, approximatives (1 ; )-Kondenzintervall fur p: Wegen der zweifachen Naherung
ist die Bedingung
Wsp ([T1 ; T2] 3 p) 1 ; fur alle p 2 (0; 1)
nur naherungsweise erfullt. Will man sicher gehen, so kann man das Intervall [T1 ; T2] etwas vergroern, indem
man den Wert q durch einen leicht aufgerundeten Wert ersetzt.
Beispiel: Bei einer Umfrage unter n = 2000 Wahlberechtigten geben X = 120 an, fur die ABC-Partei stimmen zu wollen. Der geschatzte
Stimmanteil ist demnach p^ = Xn =6%. Fur = 0;05 ist q1;=2 = 1;96, was wir zu 2 aufrunden. Ein approximatives 95%-Kondenzintervall
fur den wahren Stimmanteil p ist demnach:
r
0; 94 = [0; 0494; 0; 0706]:
0; 06 2 0; 062000
Wir konnen also nicht ganz sicher sein, da der Stimmanteil von ABC uber der 5%-Hurde liegen wird.
Kondenzintervalle fur Erwartungswerte
Ein grundlegendes Resultat der Wahrscheinlichkeitstheorie ist der zentrale Grenzwertsatz, der besagt, da
Stichprobenmittel fur groe Stichprobenumfange (und das heit oft schon ab N 30) ungefahr normalverteilt
sind. Wir formulieren diesen Satz fur unabhangig, identisch verteilte Zufallsgroen. Er gilt aber auch fur nicht
zu stark abhangige, unterschiedlich verteilte Summanden Xj , solange diese alle von der gleichen Groenordnung
sind, d.h., da der Wert der Summe nicht von einigen wenigen Summanden dominiert wird.
Zentraler Grenzwertsatz: X1; X2; : : : seien unabhangig, identisch verteilte Zufallsgroen mit E Xj = ;
varXj = 2: Dann gilt:
2
p XN ; N ist ungefahr N (0; 1)-verteilt, d.h. X N ist ungefahr N (; N )-verteilt.
Genauer heit dies fur N ! 1 :
p X ; Ws N N y = FN (y) ;! (y) fur N ! 1 und alle y :
Die Verteilungsfunktion FN der um 0 zentrierten und auf Varianz 1 skalierten Stichprobenmittel konvergiert
damit gegen die Verteilungsfunktion der Standardnormalverteilung. Entsprechendes gilt fur andere Wahrscheinlichkeiten und fur Quantile.
Bemerkungen: 1) Der zentrale Grenzwertsatz liefert eine prazise Formulierung der intuitiv geschilderten Situation, die dem Normalverteilungsmodell zugrundeliegt (vgl. Kapitel 2.6): Zufallsgroen (hier: XN ), die Summe
vieler kleiner unabhangiger Beitrage (hier: N1 Xj ) sind, sind ungefahr normalverteilt.
2) Fur den Fall, da die Xj speziell 0-1-Variablen Yj mit W s(Yj = 1) = p sind, ist N YN B(N; p)-verteilt. Als
Spezialfall folgt dann aus dem zentralen Grenzwertsatz die Normalapproximation der Binomialverteilung (vgl.
Kapitel 2.9).
Mit Hilfe des zentralen Grenzwertsatzes erhalten wir sofort approximative Kondenzintervalle fur den Erwartungswert von
unabhangig, identisch verteilten Zufallsgroen X1 ; : : : ; XN ; deren Varianz 2 sei. Ware XN
2
exakt N (; N )-verteilt (wie es fur normalverteilte Xj der Fall ist), so ware (s. oben)
p
p
p
XN q = XN ;
q; XN +
q
N
N
N
60
mit q = q1;=2 = (1 ; 2 )-Quantil von N (0; 1) ein exaktes (1 ; )-Kondenzintervall fur : Da XN i.a. nur
ungefahr normalverteilt ist, handelt es sich nur um ein approximatives Kondenzintervall, das zudem wegen
der unbekannten Varianz nicht berechenbar ist. Wir benutzen eine zweite Naherung und ersetzen 2 durch
den Schatzer s2N : Zum Ausgleich vergroern wir zur Sicherheit das Intervall etwas, indem wir die Quantile der
passenden t-Verteilung statt die Quantile von N (0; 1) benutzen. Als approximatives (1 ; )-Kondenzintervall
fur den Erwartungswert einer Stichprobe von unabhangig, identisch verteilten X1 ; : : : ; XN erhalten wir so
XN psN tN ;1; 1;=2 = XN ; psN tN ;1; 1;=2; XN + psN tN ;1; 1;=2 :
N
N
N
Anmerkung: Da der zentrale Grenzwertsatz ohne weitere Annahmen nur fur groere N (N > 30) eine brauchbare Naherung fur die Verteilung
von XN liefert, gilt dann auch tN ;1; 1;=2 q1;=2 , so da es in der Praxis keinen groen Unterschied macht, welches Quantil man
benutzt. Man kann das beschriebene Kondenzintervall fur = E Xj aber auch fur kleinere N (N < 30) benutzen, wenn die Daten
keine deutliche Abweichungen von der Normalverteilung (z.B. deutliche Schiefe oder Ausreier) erkennen lassen. Dann sollte man aber die
t-Quantile verwenden.
[T1 ; T2] sei ein (1 ; )-Kondenzintervall fur den unbekannten Verteilungsparameter #:
q = q1;=2 = (1 ; 2 )-Quantil der N (0; 1)-Verteilung
t = t;1;=2 = (1 ; 2 )-Quantil der t -Verteilung
i) X1 ; : : : ; XN unabhangig, N (; 2 )-verteilt, 2 bekannt
[T1 ; T2] = XN pN q
ii) X1 ; : : : ; XN unabhangig, N (; 2 )-verteilt, 2 unbekannt
P
[T1 ; T2] = XN psNN tN ;1 ; s2N = N 1;1 Nj=1(Xj ; XN )2
iii) X B(n; p)-verteilt
q
[T1 ; T2] p^ p^(1N;p^) q ; p^ = Xn
iv) X1 ; : : : ; XN unabhangig, identisch verteilt mit E Xj = [T1 ; T2] XN psNN tN ;1
Beispiel: Maschinen eines bestimmten Typs fallen nach einer gewissen Zeit durch mechanische Beanspruchung aus. T1 ; : : : ; T80 seien
die beobachteten Betriebszeiten vor Ausfall fur 80 dieser Maschinen. Fur eine genaue Analyse der Daten ware die Weibull-Verteilung ein
in Frage kommendes Modell. Will man sich aber nur schnell einen Eindruck von der mittleren Betriebsdauer verschaen, so reicht ein
approximatives Kondenzintervall aus. T80 = 64;2 Monate und s80 = 8;5 Monate seien Stichprobenmittel und - standardabweichung. Ein
95%-Kondenzintervall fur ist dann naherungsweise:
T80 ps80 q0;975 = 64; 2 p8; 5 1; 96 = [62; 3; 66; 1] :
80
80
Beispiel: Ein ubliches Qualitatsma fur Festplatten ist die mittlere Zeit bis zum Ausfall (mtbf = meantime before failure). Langfristige
Beobachtungen
von 100 Platten im Dauerbetrieb ergeben ein Stichprobenmittel von T100 = 85 200 h und eine Stichprobenvarianz von
s2100 = 7210 106 h2 : Ein 98%-Kondenzintervall fur ist dann naherungsweise
q = 85 200 8410912 2; 327 = [65 441; 104 959] :
T100 ps100
100 0;99
Da (T100 )2 s2N ; konnte man die Betriebszeiten als exponentiell verteilte Zufallsgroe modellieren, denn fur eine Exp()-verteilte Zufallsgroe T gilt: (E X )2 = 12 = varX: Da = E1X eine monotone Funktion von = E X ist, erhalt man aus dem obigen Kondenzintervall
fur auch sofort ein entsprechendes Kondenzintervall fur :
1 1 :
65441 104959 genau dann, wenn auch 104959
65441
Fur exponentiell verteilte Zufallsgroen X1 ; : : : ; XN kennt man die Verteilung von XN genau, so da die im
Beispiel beschriebene Methode zur Berechnung approximativer Kondenzintervalle fur durch ein besseres,
exaktes Verfahren ersetzt werden kann. Dies wurde aber im Rahmen dieser Einfuhrung zu weit fuhren und fur
groe N auch nicht zu wesentlichen A nderungen fuhren.
61
3.4 Kovarianz- und Korrelationsschatzer
In Kapitel 2.10 haben wir Kovarianz cov(X; Y ) und Korrelation corr(X; Y ) als Mae fur die Abhangigkeit
zweier Zufallsgroen eingefuhrt, die wir als Modelle fur zwei verschiedene Mewerte ansehen. Diese Verteilungskenngroen lassen sich schatzen, wenn eine Stichprobe von unabhangig, identisch verteilten Paaren von Messungen vorliegt. Wir gehen dabei stets von dem folgenden Modell aus:
Modell: (x1; y1 ); : : : ; (xN ; yN ) sind Realisationen von unabhangig, identisch verteilten (zweidimensionalen)
Zufallsvektoren (X1 ; Y1); : : : ; (XN ; YN ) mit
Erwartungswerten
x = E Xj ; y = E Yj
x2 = var Xj ; y2 = var Yj
Varianzen
Kovarianz und Korrelation c = cov(Xj ; Yj ) ; = corr(Xj ; Yj )
Da Kovarianz und Korrelation uber Erwartungswerte deniert sind, erhalt man aus dem Gesetz der groen
Zahlen
N
X
cov(Xj ; Yj ) = Ef(Xj ; x ) (Yj ; y )g N 1; 1 (Xj ; x )(Yj ; y )
N 1; 1
corr(Xj ; Yj ) =
j =1
N
X
(Xj ; XN )(Yj ; YN ) = c^N
j =1
cov(Xj ; Yj )
x y
s c^Ns = ^N ; wobei
N;x N;y
N
N
X
X
s2N;x = N 1; 1 (Xj ; XN )2 und s2N;y = N 1; 1 (Yj ; YN )2:
j =1
j =1
Stichprobenkovarianz ^cN und Stichprobenkorrelation ^N (vgl. Kapitel 1.7) sind also brauchbare Schatzer fur
Kovarianz und Korrelation.
Als standardisiertes, von der Skala unabhangiges Abhangigkeitsma interessiert uns besonders die Korrelation,
wenn wir die (lineare bzw. fur normalverteilte Daten allgemeine) Abhangigkeit zweier Messungen beurteilen
wollen. Aus dem Schatzwert ^N allein erkennt man noch nicht, ob der Wert 0 (=b Unkorreliertheit) noch als
wahrer Parameterwert in Frage kommt oder ob die beiden Messungen ziemlich sicher voneinander abhangen.
Intervallschatzer fur erhalt man aus dem zentralen Grenzwertsatz aber nicht direkt. Der Schatzer ^N ist zwar
fur sehr groe N ungefahr normalverteilt, aber in diesem Fall ist die Naherung fur kleine und mittlere N noch
sehr schlecht. Die wahre Verteilung von ^N ist { vor allem fur nahe 1 { deutlich schief und lat sich nur
schlecht durch eine Normalverteilung approximieren, da ja ^N nur Werte zwischen ;1 und +1 annehmen kann.
u
Als Abhilfe betrachtet man die monotone Funktion u 7;! 21 ln 1+
1;u fur juj < 1 , die das Intervall (;1; +1) in die
ganze reelle Achse uberfuhrt. Die transformierte Zufallsgroe
+ ^N
w^N = 12 ln 11 ;
^N
ist dann fur N 50 und jj nicht zu nahe bei 1 ungefahr normalverteilt mit Mittelwert
w = 12 ln 11 +
;
p
und Varianz N 1;3 : Die standardisierte Zufallsgroe Z = N ; 3(w^N ; w) ist dann ungefahr standardnormalverteilt, so da man wie in Kapitel 3.3 Kondenzintervalle fur und damit durch Anwenden der inversen Funktion
exp(2w);1 auch Kondenzintervalle fur erhalt.
w 7;! exp(2
w)+1
62
(X1 ; Y1); : : : ; (XN ; YN ) unabhangig, identisch verteilt mit corr(Xj ; Yj ) = :
q = q1;=2 = (1 ; 2 )-Quantil der N (0; 1)-Verteilung.
i) Fur T1 = w^N ; pNq;3 ; T2 = w^N + pNq;3 ist [T1; T2 ] ungefahr ein (1 ; )-Kondenzintervall
fur w.
ii) Fur R1 =
fur .
exp(2T1);1 ;
exp(2T1)+1
R2 =
exp(2T2);1
exp(2T2)+1
ist [R1; R2] ungefahr ein (1 ; )-Kondenzintervall
4 Lineare Regression
Im vorigen Abschnitt haben wir diskutiert, wie die Abhangigkeit zwischen zwei Messungen X und Y am selben
Objekt uber die Stichprobenkorrelation geschatzt werden kann. Oft gibt man sich aber nicht damit zufrieden,
da es eine durch die Korrelation quantizierte Abhangigkeit gibt, sondern man mochte prazise Aussagen uber
die Form dieser Abhangigkeit machen. Dafur gibt es zwei wichtige Grunde:
1. Aufgrund okonomischer oder naturwissenschaftlicher Theorie hat man bestimmte Vorstellungen uber die
Art des Zusammenhangs zwischen X und Y: Diese Vorstellungen mochte man im Experiment anhand der
Daten bestatigen oder widerlegen.
2. Man mochte eine der beiden Mewerte, z.B. Y; aus dem anderen, z.B. X; vorhersagen bzw. schatzen.
Dieser Typ von Problem tritt auf, wenn X zeitlich vor Y beobachtet wird (z.B. X = Goldpreis von
heute und Y = Goldpreis von morgen) oder wenn sich X wesentlich leichter (billiger messen lat als
der eigentlich interessierende Wert Y (z.B. X = einfache zu messende Belastungsgroen an einem Kfz
wie Beschleunigungen, Fahrtstrecken, Geschwindigkeiten und Y = Verschlei von schwer zuganglichen
Bauteilen).
Wir gehen im folgenden immer davon aus, da X die sogenannte unabhangige Variable bezeichnet, aufgrund
derer man die sogenannte abhangige Variable Y schatzen oder vorhersagen mochte. X und Y durfen mehrdimensional sein, d.h. fur zwei Gruppen von Messungen am Objekt stehen. Wir beschranken uns hier auf den Fall
eindimensionaler X und Y , an dem sich die wesentlichen Ansatze schildern lassen. Im Mehrdimensionalen spielt
allerdings die Wahl eines adaquaten Modells eine noch groere Rolle, worauf wir hier nicht eingehen konnen.
Um den Zusammenhang zwischen X und Y schatzen zu konnen, stehen uns unabhangige Datenpaare
(X1 ; Y1); : : : ; (XN ; Yn)
zur Verfugung. Ein vergleichsweise allgemeines Regressionsmodell hat die Form
Yj = g(Xj ) + ej ; j = 1; : : : ; N
e1 ; : : : ; eN u.i.v. mit E ej = 0 ; var ej = e2 < 1
g(x) heit die Regressionsfunktion. Wenn wir sie kennen, dann haben wir sofort eine Losung des oben
angesprochenen Vorhersage- bzw. Schatzproblems: Wenn ein neues Datenpaar (XN +1 ; YN +1 ) erhoben werden
soll und wir zuerst XN +1 mitgeteilt bekommen, dann ist die beste Vorhersage (im Sinne eines moglichst
kleinen mittleren quadratischen Vorhersagefehlers) fur YN +1 auf der Grundlage dieser Information:
Y^N +1 = g(XN +1 ):
In der Praxis kennt man g(x) nicht, so da unsere Aufgabe darin besteht, die Funktion g(x) aus den Daten
(X1 ; Y1); : : : ; (XN ; YN ) zu schatzen.
Anmerkung: Die interessierenden Groen X und Y mussen in der Regressionsanalyse quantitativ sein, d.h. Zahlen oder Vektoren von
Zahlen. Die Untersuchung von Abhangigkeiten fur den Fall, da Y eine quantitative Messung, X aber qualitativ ist (z.B. X = Art der
Versuchsanordnung in einem Experiment), ist Gegenstand der Varianzanalyse. Ist umgekehrt Y qualitativ und X quantitativ, z.B. Y =
\Erfolg" oder \Mierfolg", so gibt es Verfahren, mit denen die Verteilung von Y als Funktion von X geschatzt wird:
Ws(Yj = "Erfolg") = g(Xj ) ; j = 1; : : : ; N
63
In der klassischen parametrischen Regressionsanalyse geht man davon aus, da g(x) eine bis auf endlich viele
Parameter bekannte Funktion ist. Ein wichtiger Spezialfall ist das lineare Regressionsmodell:
Yj = b1 f1(Xj ) + b2f2 (Xj ) + : : : + bd fd (Xj ) + ej ; j =
1; : : : ; N
e1 ; : : : ; eN u.i.v. mit E ej = 0 ; varej = e2 < 1
f1 (x); : : : ; fd (x) bekannte Funktionen
b1 ; : : : ; bd 2 R unbekannte Parameter
Die Regressionsfunktion g(x) = b1f1 (x) + : : : + bd fd (x) ist dabei keineswegs linear in x, sondern sie hangt in
linearer Weise von den unbekannten Parametern ab. Wichtige Spezialfalle sind:
{ Regressionsgerade: f1(x) 1; f2(x) = x : g(x) = b1 + b2 x
{ Regressionspolynom: fk (x) = xk;1; k = 1; : : : ; p + 1 : g(x) = b1b2 x + : : : + bp+1 xp
{ trigonometrische Regressionsfunktion:
f1 (x) 1; fk (x) = cos(!k x); k = 2; : : :p
fk (x) = sin(!k x); k = p + 1; : : : ; q :
g(x) = b1 +
p
X
k=2
bk cos(!k x) +
q
X
k=p+1
bk sin(!k x)
wobei !2 ; : : : ; !q bekannte Frequenzen sind.
Im linearen Regressionsmodell genugt es, aus den Daten die unbekannten Parameter b1; : : : ; bd zu schatzen. Ein
gebrauchliches Verfahren liefert hierfur die sogenannten Kleinste-Quadrate-Schatzer ^b1 ; : : : ; ^bd ; mit denen
man sofort eine Schatzung fur die ganze Regressionsfunktion g(x) erhalt:
g^(x) = ^b1 f1(x) + : : : + ^bd fd (x)
und damit auch eine Losung des Vorhersageproblems:
Y^ N +1 = g^(XN +1 ):
Oft nimmt man an, da die Beobachtungsfehler, die sogenannten Residuen e1; : : : ; eN ; unabhangig identisch
N (0; e2)-verteilt sind. In diesem Fall sind die Kleinste-Quadrate-Schatzer die bestmoglichen Schatzer. Sie sind
aber auch brauchbar, wenn die Residuen nur ungefahr normalverteilt sind.
Im Rahmen dieser Einfuhrung beschranken wir uns auf den Fall des Schatzers einer Regressionsgeraden g(x) =
b1+b2 x. Kleinste-Quadrate-Schatzer der Parameter komplizierterer Funktionen g(x) lassen sich analog einfuhren;
in der Praxis ist man bei der Berechnung aber in den meisten Fallen auf geeignete Software angewiesen. Die
Kleinste-Quadrate-Schatzer ^b1; : : : ; ^bd werden so gewahlt, da die an die Datenpunkte (Xj ; Yj ); j = 1; : : : ; N;
angepate Kurve g^(x) moglichst nahe an den Datenpunkten liegt. Genauer: Die Summe der quadratischen
Abstande zwischen Datenpunkten (Xj ; Yj ) und den zugehorigen Punkten (Xj ; g^(Xj )) auf der Kurve wird minimiert (vgl. Abbildung 4.1 a):
N
X
j =1
(Yj ; g^(Xj ))2 = b min
;::: ;b
1
N
X
d j =1
(Yj ; b1f1 (Xj ) ; : : : ; bd fd (Xj ))2 :
64
1.5
o
o
o
o
o
o
o
o
o
o
1.0
o
o
o
o
o
o
o
o
o
o
o
o
y
o
0.5
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o o
o
0.0
o
o
o
o
o
o o
0
2
4
6
8
10
x
Abbildung 4.1 a
Speziell fur das Modell der Regressionsgerade heit dies
N
X
X
(Yj ; ^b1 ; ^b2Xj )2 = bmin
(Yj ; b1 ; b2 Xj )2:
;b
N
1 2 j =1
j =1
Dieses Minimierungsproblem hat die Losung ( @b@ 1 ; @b@2 bilden und 0 setzen):
PN (Y ; Y )(X ; X )
N
^b2 = j =1PNj N j
(X ; X )2
j
j =1
^b1 = Y N ; ^b2X N
N
Anmerkung: Mit Hilfe der Stichprobenvarianz der X1 ; : : : ; XN und der Stichprobenkovarianz der (Xj ; Yj );
j = 1; : : : ; N; (vgl. Kapitel 1.2 und 1.6) lat sich die Steigung der Kleinste-Quadrate-Gerade auch schreiben als
^b2 = ^c2N :
sN;x
Formal gilt diese Beziehung auch, wenn X1 ; : : : ; XN uberhaupt nicht zufallig sind, sondern im Rahmen eines geplanten Experiments fest
vorgegeben sind. Im Rahmen der Regressionsanalyse macht es keinen Unterschied, ob die Werte der unabhangigen Variablen X zufallig
sind (wie bei der Zufallsauswahl von Objekten aus einer Population, an denen jeweils zwei Werte Xj ; Yj gemessen werden) oder ob sie
fest vorgegeben sind (wie z.B. bei einem naturwissenschaftlichen Experiment, bei dem die Flexibilitat von Stahl in Abhangigkeit vom
Kohlenstoanteil untersucht wird und der Experimentator sich die im Experiment prasentierten Stahlmischungen selbst aussuchen kann).
Wichtig ist nur, da die Residuen e1; : : : ; eN als u.i.v. Zufallsgroen modelliert werden.
Beispiel: Eine Fast-Food-Kette hat im vergangenen Geschaftsjahr in 9 verschiedenen Grostadten die Ausgaben fur Werbung unterschiedlich stark angehoben. Nachtraglich wird untersucht, wie sich dies auf den Absatz ausgewirkt hat:
Anstieg der Werbeausgaben (in %)
Veranderung des Absatzes (in %)
0
2,1
1
3,0
3
6,1
5
6,9
6
3,5
6
8,4
7
7,9
9
7,4
12
8,0
Aus diesen Daten ergibt sich (mit N = 9)
X N = 5; 44
s2N;X = 14; 28
^b2 = 0; 48
,
Y N = 5; 92
c^N = 6; 86
,
^b1 = 3; 30
,
Die Kleinste-Quadrate-Gerade fur die Abhangigkeit des Absatzzuwachses von der Werbungssteigerung is demnach
Y = ^b1 + ^b2X = 3; 3 + 0; 48X
Ein wesentliches Problem bei der linearen Regressionsanalyse ist die Wahl des richtigen Modells, d.h. insbesondere die Wahl der richtigen Regressionsfunktion g(x): Bei den Daten in Abbildung 4.1b ist z.B. nicht sofort
ersichtlich, ob eine Gerade den Zusammenhang der Groen X und Y adaquat beschreibt oder ob die Kurve
65
gekrummt ist. Abbildung 4.1c zeigt die an die Daten angepate Kleinste-Quadrate-Gerade Y = ^b11 + ^b12X
und die Kleinst-Quadrate-Parabel Y = ^b21 + ^b22X + ^b23X 2 : Es gibt Tests der Hypothese H0 : b23 = 0 gegen
die Alternative H1 : b23 6= 0 (vgl. Kapitel 5 fur die Begrie), anhand derer sich man zwischen Gerade (H0
wird akzeptiert) und Parabel (Entscheidung fallt fur H1) entscheiden kann. Es gibt auch datenadaptive Modellwahlverfahren, bei denen man sich nicht von vorneherein auf eine bestimmte Form der Regressionsfunktion
festlegen mu.
o
o
1.4
1.4
o
o
o
o
o
o
o
o
o
1.2
1.2
o
o
o
o
y
0.8
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
oo o
o
o
0.2
o
o
2
o
oo o
o
o
0
o
o
o
o
0.4
0.4
o
o
o
o
o
o
o
o
o
o
0.6
0.6
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
0.2
y
o
o
o
o
o
o
o
1.0
o
0.8
1.0
o
o
o
o
4
6
8
10
0
x
2
4
6
x
Abbildung 4.1b
Abbildung 4.1c
66
8
10
5 Statistische Entscheidungsverfahren
Es gibt viele Situationen, wo weniger der exakte Wert eines Parameters geschatzt werden mu, sondern wo
stattdessen eine Entscheidung getroen werden mu, ob eine Aussage uber den Wert des Parameters richtig ist
oder nicht.
Beispiel: Ein neuer Lack soll besonders schnell trocknen: laut Herstellerangaben im Mittel in 10 min. Bevor das bisher benutzte Fabrikat
gegen den neuen Lack ausgetauscht wird, um so den Produktionsvorgang zu beschleunigen, soll diese Angabe uberpruft werden. Zu
diesem Zweck werden 50 unterschiedliche Dosen Lack ausgewahlt und mit jeder von ihnen ein Blech lackiert. Anhand der beobachteten
Trockenzeiten soll dann ein Urteil gefallt werden, ob die Herstellerangabe akzeptiert und der neue Lack eingesetzt werden soll oder nicht.
Ein mogliches Entscheidungsverfahren akzeptiert die Herstellerangabe als glaubhaft, wenn das Stichprobenmittel der beobachteten Trockenzeiten kleiner als 12 min ist, wahrend ein groerer Wert dazu fuhrt, da der neue Lack nicht eingesetzt wird. Die so getroene Entscheidung
kann { wegen der Variabilitat der Daten, die wir als zufallig modellieren { falsch sein, und zwar auf zwei Arten:
{ Auch bei einer mittleren Trockenzeit von 10 min kann es vorkommen, da eine Stichprobe vom Umfang 50 ein Stichprobenmittel
von 12 min und mehr aufweist.
{ Umgekehrt kann eine Stichprobe von Trockenzeiten mit Erwartungswert 13 min zufallig ein Stichprobenmittel unterhalb von 12
min haben. Wie wahrscheinlich diese beiden Typen von Fehlentscheidungen sind, hangt naturlich wesentlich von der Groe der
Variabilitat der Daten ab.
Ziel dieses Kapitels ist es, Entscheidungsprobleme systematisch zu beschreiben und Verfahren { sogenannte
Hypothesentests { zu entwickeln, mit denen anhand der Daten moglichst eine richtige Entscheidung getroen
werden kann. Vom Typ her sind diese Verfahren sich ahnlich; die Einzelheiten der Tests hangen allerdings davon
ab, welches Modell man fur den datenerzeugenden Mechanismus wahlt und welcher Modellparameter von Interesse ist. In den ersten Abschnitten betrachten wir exemplarisch Tests fur den Mittelwert und die Varianz 2
von normalverteilten Daten, bevor wir dann eine allgemeine Beschreibung statistischer Entscheidungsprobleme
und {verfahren angeben.
5.1 Entscheidung zwischen zwei moglichen Mittelwerten (Signaldetektion)
Beispiel (Signaldetektion): Ein zeitdiskretes, binares Signal wird erzeugt, das entweder aus einer Reihe von
Nullen oder einer Reihe von Einsen besteht (Abwesenheit oder Anwesenheit eines Objektes oder eines Systemzustandes). Empfangen wird aber nicht das Signal selbst, sondern eine durch additives Rauschen gestorte Version
X1 ; : : : ; XN : Eine ubliche Modellannahme, die z.B. fur durch thermische Bewegung der freien Elektronen in
einem Leiter hervorgerufene Storungen erfullt ist, ist:
Das Rauschen R1 ; : : : ; RN besteht aus unabhangig, identisch N (0; 2)-verteilten Zufallsgroen. Empfangen
werden also unabhangige N (; 2 )-verteilte Zufallsgroen
Xj = + Rj ; i = 1; : : : ; N ; mit = 0 oder = 1 :
Anhand dieser Daten mu zwischen den beiden Moglichkeiten = 0 oder = 1 entschieden werden.
Wegen des Gesetzes der groen Zahlen gilt XN E Xj = : Wenn XN 0 beobachtet wird, ist es plausibel,
sich fur = 0 zu entscheiden. Diese Entscheidung kann aber falsch sein, denn auch bei = 1 kann zufallig
XN 0 beobachtet werden, und zwar mit der Wahrscheinlichkeit
p XN ; 1 pN pN Ws=1 (XN 0) = Ws=1 N
;
= ;
;
p
da N XN; standardnormalverteilt ist (vgl. Kapitel 3.3). Fur = 1; N = 8 erhalt man z.B. (;2; 83) 0; 002: Die Wahrscheinlichkeit fur eine Fehlentscheidung bei Beobachtung von XN 0 und obiger Entscheidungsregel ist also sehr klein. Ist dagegen = 3; N = 8; so erhalt man mit (;0; 94) 0; 174 eine nennenswerte
Irrtumswahrscheinlichkeit.
Wenn XN 1 beobachtet wird, so ist ebenfalls plausibel, sich fur = 1 zu entscheiden. Oen bleibt die
Entscheidung fur Daten mit 0 < XN < 1:
Allgemein sieht ein solches Entscheidungsverfahren folgendermaen aus:
67
Wahle eine Schranke d, und
{ wenn XN d; entscheide fur = 0;
{ wenn XN > d; entscheide fur = 1:
Wir nehmen einstweilen an, da die Varianz 2 (von Rauschen Rj und Daten Xj ) bekannt ist, da z.B. das
Rauschen sehr gut untersucht worden ist, bevor die eigentlich pinteressierenden Messungen gemacht werden.
Dann betrachten wir statt XN die standardisierte Teststatistik N XN = und formulieren das Entscheidungsverfahren folgendermaen
Wahle eine
p Schranke c, und
{ wenn pN XN c; entscheide fur = 0;
{ wenn N XN > c; entscheide fur = 1:
Es gibt zwei mogliche Fehlentscheidungen:
p
I) In Wahrheit ist = 0 ; aber zufallig wird N XN > c beobachtet, so da falschlicherweise fur = 1
entschieden wird. Die Wahrscheinlichkeit hierfur ist
p X Ws=0 (Fehler) = Ws=0 N N > c = 1 ; (c) ;
p
da im Fall = 0 die Teststatistik N XN = N (0; 1)-verteilt ist (vgl. Kapitel 3.3).
p
II) in Wahrheit ist = 1; aber zufallig wird N XN c beobachtet und fur = 0 entschieden. Die
Irrtumswahrscheinlichkeit ist hier
p p p XN p XN ; 1
Ws=1 (Fehler) = Ws=1 N c = Ws=1 N c ; N = c ; N ;
p
da im Fall = 1 N(XN ; 1)= N (0; 1)-verteilt ist.
Die von dem wahren Wert von (0 oder 1) und unserer Entscheidung abhangenden 4 Moglichkeiten lassen sich
in Form einer kleinen Tabelle ubersichtlich darstellen:
p N XN = c
p N XN = > c
entscheide fur = 0 entscheide fur = 1
= 0 wahr richtige Entscheidung Fehler vom Typ I
= 1 wahr Fehler vom Typ II
richtige Entscheidung
Die Verteilungsfunktion (x) der Standardnormalverteilung wachst monoton in x: Lassen wir c wachsen, so
fallt daher Ws=0 (Fehler), wahrend die andere Irrtumswahrscheinlichkeit
Ws=1 (Fehler)
wachst. Die beiden Irrtumswahrscheinlichkeiten konnen nicht beide gleichzeitig klein gemacht werden. Statt
beiden Entscheidungsmoglichkeiten gleich zu behandeln und die beiden Irrtumswahrscheinlichkeiten auszubalancieren, hat es sich in der Praxis eingeburgert, die beiden Entscheidungen unterschiedlich zu behandeln und
dies auch in der Bezeichnung deutlich zu machen. Eine der Entscheidungen wird Hypothese (oder Nullhypothese) H0, die ander Alternative (oder Gegenhypothese) H1 genannt. Im Beispiel konnte die Entscheidung
zwischen
Hypothese H0 : = 0 und Alternative H1 : = 1
fallen (oder umgekehrt { welche der beiden Entscheidungen zur Hypothese, welche zur Alternative wird, diskutieren wir spater). Es gibt einen prinzipiellen und einen eher technischen Grund fur die Unterscheidung zwischen
den beiden Entscheidungsmoglichkeiten:
a) Die beiden Typen von Fehlentscheidungen haben oft unterschiedlich gravierende Folgen. Dann mochte
man naturlich besonders die Wahrscheinlichkeit fur den schwerwiegenden Fehler klein halten { auf Kosten
der anderen Irrtumswahrscheinlichkeit.
68
b) Die Irrtumswahrscheinlichkeit fur eine Fehlerart lat sich leicht ausrechnen, wahrend die andere Irrtumswahrscheinlichkeit nur mit erheblichem Aufwand naherungsweise berechnet werden kann.
Die beiden moglichen Fehlentscheidungen haben jetzt die Form:
Fehler 1. Art: Verwerfe Hypothese H0 (d.h. entscheide fur H1), obwohl H0 wahr ist.
Fehler 2. Art: Akzeptiere Hypothese H0 (d.h. entscheide fur H0), obwohl H1 wahr ist.
Die obige Tabelle nimmt dann die allgemeine Form an:
akzeptiere H0
verwerfe H0
H0 wahr richtige Entscheidung Fehler 1. Art
H1 wahr Fehler 2. Art
richtige Entscheidung
Die beiden Entscheidungsmoglichkeiten werden nun so zu Hypothese und Alternative gemacht, da die dann zum
Fehler 1. Art werdende Fehlentscheidung diejenige mit den schlimmeren Folgen ist. Das Entscheidungsverfahren
wird dann so entworfen, da die Wahrscheinlichkeit fur einen solchen Irrtum (d.h. fur einen Fehler 1. Art) auf
jeden Fall klein ist { wie klein, bleibt uns uberlassen. Genauer gesagt, geben wir eine obere Schranke ; das
sogenannte Signikanzniveau oder kurz Niveau, vor, so da
Ws(Fehler 1. Art) = :
Diese Bedingung gestattet dann im Beispiel die Berechnung der Grenze c zwischen der Entscheidung fur H0
oder H1: Typische Werte sind = 0; 05 oder 0,01 oder 0,001. Die Wahrscheinlichkeit fur einen Fehler 2. Art
kann dagegen gro sein; sie wird umso groer, je hohere Anforderungen wir an die Kleinheit der Irrtumswahrscheinlichkeit 1. Art stellen.
Das obige Beispiel hat jetzt die folgende Form:
Aufgabe: Entscheide zwischen Hypothese H0 : = 0 und Alternative H1 : = 1 !
Verfahren: Wahle Signikanzniveau
p X: NBestimme zu eine Schranke c , und
{ akzeptiere H0 , falls N cp
{ verwirf H0 zugunsten H1; falls N XN > c :
c mu dabei die Bedingung erfullen:
= Ws(Fehler 1. Art) = Ws=0
p
N
XN
> c = 1 ; (c);
woraus c = q1; = (1 ; )-Quantil von N (0; 1) folgt.
Fur = 0;05 erhalt man z.B. aus Tabelle 3 c0:05 = q0:95 = 1;65. Die Wahrscheinlichkeit fur den Fehler 2. Art
hangt dann von ab:
p 8
< 0; 119 fur N = 8; = 1; = 0; 05
N
Ws (Fehler 2. Art) = c ; =:
0; 761 fur N = 8; = 3; = 0; 05
Ist 2 unbekannt, so schatzen wir wie bei der Bestimmung von Kondenzintervallen fur die Varianz 2 durch
N
X
s2N = N 1; 1 (Xj ; XN )2 :
j =1
Das Testverfahren bleibt dann unverandert, auer da q1; durch das (1 ; )-Quantil der tN ;1 -Verteilung
ersetzt wird:
69
Verfahren: Wahle Niveau . Zu sei c = tN ;1; 1; das (1 ; )-Quantil der
tN ;1 -Verteilung. Berechne die sogenannte t-Statistik
p t(X1 ; : : : ; XN ) = N Xs N ;
N
{ akzeptiere H0, falls t(X1 ; : : : ; XN ) c
{ verwirf H0 zugunsten H1; falls t(X1 ; : : : ; XN ) > c .
Dieser Test hat tats
p achlich das Niveau , da unter der Hypothese H0; d.h. im Beispiel fur den wahren Parameterwert = 0; N XsNN tN ;1 -verteilt ist (vgl. Kapitel 3.3):
Ws(Fehler 1. Art) = Ws=0 (verwirf H0) = WsH0 richtig (Fehlentscheidung)
p X
p X
N
N
= Ws=0 N s > c = 1 ; Ws=0 N s c
N
N
= 1 ; (1 ; ) = :
wegen der Wahl von c = tN ;1; 1;:
Bereits in diesem einfachen Beispiel bereitet es Schwierigkeiten, die zweite Irrtumswahrscheinlichkeit
Ws(Fehler 2. Art) = Ws=1
pN XN c sN
p
auszurechnen. Die t-Statistik N XN =sN ist namlich nicht mehr t-verteilt, wenn der Mittelwert der Daten 6= 0 ist. In diesem Fall
p
kennt man die Verteilung der Teststatistik unter der Alternative, d.h. die Verteilung von N XN =sN fur = 1 : es handelt sich um eine
sogenannte nicht-zentrale t-Verteilung. Man ndet die Ws (Fehler 2. Art) daher in Tabellen oder in Form von Kurven (in Abhangigkeit
von 6= 0; das nicht unbedingt 1 sein mu). Im allgemeinen ist man aber auf Simulationsverfahren angewiesen, wenn man sich einen
Eindruck von der Groe der Ws (Fehler 2. Art) verschaen will.
5.2 Tests fur den Mittelwert einer normalverteilten Stichprobe
Die im Kapitel 5.1 betrachtete Situation, da nur zwei mogliche Werte fur den Mittelwert der Daten in Betracht kommen, kommt nur selten vor. U blicherweise mu man entscheiden, ob der Mittelwert mit einem
vorgegebenen Sollwert ubereinstimmt oder nicht ( = 0 gegen 6= 0 ): Wir gehen in diesem Abschnitt stets
von dem folgenden Modell fur die vorliegenden Daten x1; : : : ; xN aus:
Modell: x1; : : : ; xN sind Realisationen von unabhangigen N (; 2 )-verteilten Zufallsgroen X1 ; : : : ; XN :
Wir betrachten zuerst das folgende Testproblem:
Entscheide zwischen Hypothese H0 : = 0
und Alternative H1 : > 0 :
Wie in Kapitel 5.1 liegt es nahe, die Entscheidung von der Groe des Stichprobenmittels X N abhangig zu
machen, da XN E Xj = : Wenn XN "klein" ist, entscheiden wir uns daher fur H0; wenn XN "gro" ist,
dagegen eher fur H1: Das Entscheidungsverfahren wird einfacher, wenn wir statt XN selbst eine normierte und
bei Gultigkeit von H0 um 0 zentrierte Teststatistik betrachten. Unter einer Teststatistik verstehen wir stets
eine Funktion der Daten, deren Wert uber Annahme oder Ablehnung der Hypothese H0 entscheidet.
Fall 1: 2 ist bekannt. Wir betrachten die Teststatistik
p Z = N XN ; 0
Zu vorgegebenem Niveau schlagen wir in Tabelle 3 den Wert
c = q1; = (1 ; )-Quantil von N (0; 1)
nach. Wir entscheiden uns fur:
70
{ akzeptiere H0 : = 0 als mit den Daten vertraglich, falls Z c ;
{ verwirf H0 : = 0 zugunsten von H1 : > 0 ; falls Z > c :
Dieses Entscheidungsverfahren nennen wir Gau-Test.
P
Fall 2: 2 ist unbekannt. Wir schatzen 2 durch s2N = N 1;1 Nj=1(Xj ; X N )2 und betrachten als Teststatistik
die t-Statistik
p t(X1 ; : : : ; XN ) = N XNs ; 0
N
Zu vorgegebenem Niveau schlagen wir in Tabelle 4 den Wert
c = tN ;1; 1; = (1 ; )-Quantil von tN ;1
nach. Wir entscheiden uns fur:
{ akzeptiere H0 : = 0 als mit den Daten vertraglich, falls t(X1 ; : : : ; XN ) c ;
{ verwirf H0 : = 0 zugunsten von H1 : > 0 ; falls t(X1 ; : : : ; XN ) > c :
Dieses Entscheidungsverfahren heit Einstichproben-t-Test.
Beide Tests haben das vorgegebene Signikanzniveau , da unter der Hypothese H0 : = 0 im Fall 1
Z N (0; 1)-verteilt und im Fall 2 t(X1 ; : : : ; XN ) tN ;1 -verteilt ist, so da
WsH0 (Z > c ) = 1 ; WsH0 (Z q1;) = 1 ; (1 ; ) = WsH0 (t(X1 ; : : : ; XN ) > c ) = 1 ; WsH0 (t(X1 ; : : : ; XN ) tN ;1; 1;) = Wie bereits in Kapitel 3.3 im Zusammenhang mit Kondenzintervallen diskutiert, ist Fall 2 die in der Praxis
hauger vorkommende Situation. Es gibt aber Entscheidungsprobleme, wo 2 bekannt ist, z.B. bei wiederholten
Messungen mit einem geeichten Megerat, dessen Mefehler bekannte Eigenschaften hat.
Beispiel: (s. oben): 50 Proben des neuen Lacks mit der vom Hersteller behaupteten mittleren Trockenzeit
= 10 min werden untersucht.
2 0
Die Meergebnisse modellieren wir als unabhangige normalverteilte Zufallsgroen, uber deren Varianz wir keine Information haben. Wir
mussen entscheiden, ob die Aussage "wahre mittlere Trockenzeit = 0 " angesichts der Daten glaubhaft ist oder ob die mittlere Trockenzeit
eher groer ist, d.h. wir mussen zwischen H0 : = 0 und H1 : > 0 entscheiden. Aus den Daten berechnen wir Stichprobenmittel
50
1 X
1
X50 = 10;89 min und als Schatzer fur die Stichprobenstandardabweichung s50 = 49
(Xj ; X50 )2 2 = 1;54 min. Die t-Statistik ist
j=1
dann
p 10 min = 4; 087 :
t(X1 ; : : : ; X50 ) = 50 X501; ;
54 min
Als Signikanzniveau wahlen wir = 0; 05: Aus Tabelle 4 erhalten wir als (1 ; ) = 0:95-Quantil der t49 -Verteilung (Zeile = inf)
c = 1;645. Da die Teststatistik einen deutlich groeren Wert hat, lehnen wir die Hypothese = 0 zugunsten der Alternative > 0 auf
dem 5%-Niveau ab. Ein Blick auf Tabelle 4 zeigt, da wir H0 sogar auf dem 0,5%-Niveau hatten verwerfen konnen. Wir konnen also mit
ziemlicher Sicherheit behaupten, da die Herstellerangabe nicht stimmt. Die Wahrscheinlichkeit, da wir uns dabei irren, ist kleiner oder
gleich = 0;05.
Die Schlusse, die man am Ende eines statistischen Entscheidungsverfahrens ziehen kann, hangen entscheidend
davon ab, ob es zur Annahme oder zum Verwerfen der Hypothese gefuhrt hat. Im Beispiel ist H0 abgelehnt
worden. In diesem Fall sind wir sicher (bis auf die kleine Irrtumswahrscheinlichkeit ), die richtige Entscheidung
getroen zu haben. Akzeptieren wir dagegen (mit einem anderen Datensatz) die Hypothese H0, so bleibt
ungewi, ob die Hypothese richtig ist oder nicht. Die Irrtumswahrscheinlichkeit ist in diesem Fall (fur unbekannte
2)
Ws(Fehler 2. Art) = WsH1 (H0 wird akzeptiert) = Ws>0 (t(x1 ; : : : ; XN ) c ) ;
und dies kann gro sein. Genauer: Fur den t-Test ist diese Wahrscheinlichkeit gro fur Werte , die nur wenig
groer als 0 sind. Wenn gegen 0 geht, gilt
lim
>0 ; !0
Ws (Fehler 2. Art) = 1 ; :
Ist 0, so ist allerdings die Irrtumswahrscheinlichkeit auch in diesem Fall klein:
lim
>0 ; !1
Ws (Fehler 2. Art) = 0 :
71
Wenn wir die Hypothese H0 akzeptieren, so bedeutet dies also folgendes:
a) die Hypothese = 0 kann richtig sein, aber auch Werte > 0 sind ohne weiteres moglich. Wir wissen
nur, da die Daten der Hypothese H0 nicht eindeutig widersprechen.
b) Werte 0, die "weit entfernt" von der Hypothese = 0 liegen, kommen aber mit "ziemlicher
Sicherheit" nicht mehr als Mittelwert der Daten in Betracht. Was "weit entfernt" und "ziemlich sicher"
genau heit, hangt vom Stichprobenumfang N und vom gewahlten Niveau des Testes ab.
Fur prazise Aussagen mu man die Irrtumswahrscheinlichkeit Ws (t(X1; : : : ; XN ) c ) als Funktion von > 0 untersuchen. Die
folgende Abbildung zeigt fur = 0;05 und = 0;01 Kurven dieser Irrtumswahrscheinlichkeiten fur verschiedene N . 0 ist hier 0, aber das
spielt keine Rolle, da der Test nur auf die Dierenz ; 0 schaut. Aus der Graphik sieht man z.B., da fur N = 20 der t-Test von = 0
gegen > 0 auf dem 5%-Niveau bei wahrem = xp2 2:68 die Hypothese falschlicherweise nur mit einer Wahrscheinlichkeit von 0;05
akzeptiert, wahrend bei wahrem zwischen 0 und 1.2 die Wahrscheinlichkeit fur ein Fehler 2. Art 0;65 ist.
Abbildung 5.2
Es gibt auch Situationen, wo man sich fur den Test der Hypothese H0 : = 0 gegen die Alternative < 0
interessiert. Die Testverfahren sehen hier genauso aus wie im oben ausfuhrlich behandelten Fall, auer da
naturlich jetzt Werte von XN ; die deutlich kleiner als 0 sind, zur Ablehnung der Hypothese fuhren. Genauer:
Beispiel: (Fortsetzung): Wir betrachten die Lacktrockenzeiten von oben. Wir wissen bereits, da die mittlere Trockenzeit nicht die
Versprechungen des Herstellers halt und ziemlich sicher groer als 10 min ist. Der Schatzwert X50 = 10;89 min ist aber nicht wesentlich
schlechter. Wir wissen aus langjahriger Erfahrung, da der bisherige Lack eine mittlere Trockenzeit von 13 min hat, und wir waren
bereit, auf das neue Fabrikat umzustellen, wenn dessen mittlere Trockenzeit kurzer als 12 min ware. Um dies zu uberprufen, testen wir
H0 : = 0 = 12 min gegen H1 : < 0 : Die t-Statistik ist jetzt
p 12 min = ;5; 098:
t(X1; : : : ; X50 ) = 50 X501;;54min
Als Signikanzniveau wahlen wir = 0;01, denn vor einer groeren Bestellung wollen wir ziemlich sicher sein, da der neue Lack gut genug
ist. Das 0,01-Quantil der t49 -Verteilung ist das Negative des 0,99-Quantils, d.h. -2,326 (vgl. Tabelle 4). Da die t-Statistik deutlich kleiner
ist, lehnen wir die Hypothese auf dem 1%-Niveau ab.
Fall 1: (Gau-Test) 2pbekannt, c = q = -Quantil von N (0; 1) = ;q1;
Wenn Z = N XN;0 c ; so akzeptiere H0:
Fall 2: (t-Test) 2 unbekannt, c = ptN ;1; = -Quantil von tN ;1 = ;tN ;1; 1;
Wenn t(X1 ; : : : ; XN ) = N XNsN;0 c ; so akzeptiere H0 :
Fallt die Entscheidung zwischen H0 : = 0 und entweder H1 : > 0 oder H1 : < 0; so spricht man von
einem Testproblem mit einseitiger Alternative, da alle zur Alternative gehorenden Werte von auf einer
Seite von 0 liegen. Entsprechend heit die Aufgabe, zwischen H0 : = 0 und H1 : 6= 0 zu unterscheiden,
ein Testproblem mit zweiseitiger Alternative. A hnliche Argumente wie oben fuhren zu folgenden Verfahren:
Fall 1 (Gau-Test): 2 pbekannt, c = q1;=2 = (1 ; 2 )-Quantil von N (0; 1)
Wenn jZ j = N jXN;0 j c; so akzeptiere H0:
tN ;1; 1;=2 = (1 ; 2 )-Quantil von tN ;1
Fall 2 (t-Test): 2 unbekannt, c = p
Wenn jt(X1; : : : ; XN )j = N jXNsN;0 j c; so akzeptiere H0 :
72
Es ist intuitiv einsichtig, da bei einer Entscheidung zwischen H0 : = 0 und H1 : 6= 0 die Groe von
jX N ; 0 j den Ausschlag gibt, da dies wegen des Gesetzes derp groen Zahlen
p etwa j ; 0 j ist. Im Falle = 0
wird also jX N ; 0 j nicht zu gro sein. Die Skalierung mit = N bzw. sN = N dient dazu, da die Teststatistik
Z bzw. t(X1 ; : : : ; XN ) bei Gultigkeit der Hypothese eine einfache Verteilung hat.
Bei der Alternative 6= 0 gibt es zwei Moglichkeiten, die Hypothese = 0 falschlicherweise zu verwerfen,
obwohl sie richtig ist: XN kann zufallig sehr viel kleiner (XN 0) oder sehr viel groer (XN 0 ) als 0 sein.
Bei der Aufteilung der Wahrscheinlichkeit fur einen Fehler 1. Art gestehen wir jeder der beiden Moglichkeiten
denselben Anteil, d.h. je 2 , zu. Daher ist c das (1 ; 2 )-Quantil von N (0; 1) bzw. tN ;1 . Der Test hat
insgesamt dann das geforderte Niveau : Wir rechnen dies am Beispiel des Gau-Tests, wo die Teststatistik Z
bei Gultigkeit von H0 : = 0 gerade N (0; 1)-verteilt ist, aus:
Ws (Fehler 1. Art) =
=
=
=
WsH0 (H0 ablehnen) = Ws0 (jZ j > c )
1 ; Ws0 (jZ j c ) = 1 ; Ws0 (;c Z c )
1 ; f(c) ; (;c )g = 1 ; (q1;=2) + (q=2)
1 ; (1 ; 2 ) + 2 = Dabei haben wir benutzt, da ;c = ;q1;=2 = q=2 das 2 -Quantil ist. Die Rechnung fur den t-Test ist analog.
Beispiel: (Vorher-Nachher-Studie) Ein neues Medikament gerat in Verdacht, den Blutdruck zu verandern. Um dies zu uberprufen, wird
bei N Patienten jeweils der Blutdruck vor und nach Einnahme des Medikaments gemessen. Die Mewerte seien
X1 ; X2 ; : : : ; XN
Y1 ; Y2; : : : ; YN
Es handelt sich um gepaarte Beobachtungen, da wir je zwei Messungen am selben Objekt machen. Bei der Modellierung gehen wir
davon aus, da die Paare (Xj ; Yj ); j = 1; : : : ; N , unabhangig voneinander und identisch normalverteilt sind. Uns interessieren weniger die absoluten Blutdruckwerte, sondern die A nderung aufgrund der Medikamenteneinnahme. Wir betrachten daher die Dierenzen
(Nachher-Vorher):
Zj = Yj ; Xj ; j = 1; : : : ; N
Unter der Modellannahme an die (Xj ; Yj ) sind Z1 ; : : : ; ZN ebenfalls unabhangig, identisch N (; 2 )-verteilt mit unbekanntem und 2 .
Wir mussen nun zwischen zwei Fallen unterscheiden:
{ das Medikament andert den Blutdruck im Mittel nicht, d.h. E Zj = = 0
{ das Medikament beeinut den Blutdruck, d.h. E Zj = 6= 0 :
Wir wahlen die erste Entscheidung als Hypothese H0 : = 0:
Begrundung: Der zugehorige
Fehler 1. Art: H0 : = 0 verwerfen, obwohl es zutrit
hat die schlimmeren Folgen als der
Fehler 2. Art: H0 : = 0 akzeptieren, obwohl in Wahrheit 6= 0 :
Bei einem Fehler 1. Art wurden wir das Medikament vom Markt nehmen oder wenigstens die Anwendungen erheblich einschranken. Bei
einem Fehler 2. Art, der fur starke Eekte jj 0 unwahrscheinlich ist, bleibt das Medikament auf dem Markt, obwohl es den Blutdruck
(in vermutlich nicht zu groem Ausma) andert. Weitere Studien, d.h. eektiv eine Vergroerung des Stichprobenumfangs N , fuhren dann
aber uber kurz oder lang zur Entdeckung dieses Eekts.
Da ein Fehler 1. Art gravierende wirtschaftliche Folgen hatte, wahlen wir ein kleines Niveau = 0;01. Wir berechnen das Stichprobenmittel
ZN und die Stichprobenstandardabweichung
sN der Dierenzen Z1; : : : ; ZN , und wenden den t-Test von H0 : = 0 gegen H1 : 6= 0
an. Das (1 ; 2 ) = 0;995-Quantil von tN ;1 ndet man in Tabelle 4. Wenn
p t(Z1; : : : ; ZN ) = N jZs N j > tN ;1; 0:995
N
lehnen wir die Hypothese H0 ab.
Zahlenbeispiel: N = 20; t19; 0:995 = 2;861; Z20 = 10;8; s20 = 20;5 ergibt
p
;8
t(Z1; : : : ; Z20 ) = 20 10
20; 5 = 2; 356 < 2; 861
so da H0 akzeptiert wird.
Die beschriebenen Tests lassen sich auch in Situationen einsetzen, wo man entscheiden mu, ob der Erwartungswert der Daten unterhalb oder oberhalb einer Schranke 0 liegt, also z.B. zwischen:
H0 : 0 und H1 : > 0 :
73
Wir verwenden hier genau denselben Test wie fur den Fall H0 : = 0 gegen H1 : > 0 ; da unter alle den
Werten 0 die zur Hypothese gehoren, der Wert = 0 am schwersten von der Alternative > 0 zu
unterscheiden ist. Haben die Daten einen Mittelwert < 0 ; so wird XN auch eher einen zur Annahme der
Hypothese fuhrenden Wert haben als fur den Grenzfall = 0: Der Test hat dann das Niveau im folgenden
Sinn:
Ws (H0 ablehnen) Ws0 (H0 ablehnen) = fur alle 0 ;
also z.B. fur den t-Test:
p X ; p XN ; 0 N
0
Ws N s
> c Ws0 N s
> c = :
N
N
Entsprechendes gilt auch fur den Test von H0 : 0 gegen H1 : < 0 :
Gau-Test zum Niveau Modell: X1 ; : : : ; XNp u.i.v. N (; 2 ); 2 bekannt
XN ;0
; q = -Quantil von N (0; 1)
Hypothese Alternative H0 verwerfen, wenn
H0 : = 0 H1 : > 0 Z > q1;
oder 0
H0 : = 0 H1 : < 0 Z < q
oder 0
H0 : = 0 H1 : 6= 0 jZ j > q1;=2
Teststatistik: Z = N
t-Test zum Niveau Modell: X1 ; : : : ; XN u.i.v. N (;p2 ); 2 unbekannt
Teststatistik: t(X1 ; : : : ; XN ) = N XNsN;0 ; tN ;1; = -Quantil von tN ;1
Hypothese
H0 : = 0
oder 0
H0 : = 0
oder 0
H0 : = 0
Alternative H0 verwerfen, wenn
H1 : > 0 t(X1 ; : : : ; XN ) > tN ;1; 1;
H1 : < 0 t(X1 ; : : : ; XN ) < tN ;1; H1 : 6= 0 jt(X1 ; : : : ; XN )j > tN ;1; 1;=2
5.3 Vergleich der Mittelwerte zweier normalverteilter Stichproben
A hnlich wie im vorigen Abschnitt fur zwei Stichproben aus gepaarten Beobachtungen konnen auch fur zwei
voneinander unabhangige Stichproben die Mittelwerte mit einem t-Test verglichen werden. Eine kritische Modellannahme, ohne deren wenigstens approximative Gultigkeit der Test nicht angewandt werden kann, ist die Gleichheit
der Varianzen der beiden den Stichproben zugrundeliegenden Normalverteilungen. Wir gehen also von folgendem Modell aus:
Modell: Die Daten x1; : : : ; xN ; y1; : : : ; yM sind Realisationen von unabhangigen Zufallsgroen X1 ; : : : ; XN ;
Y1 ; : : : ; YM : Dabei sind X1 ; : : : ; XN N (1 ; 2 )-verteilt und Y1 ; : : : ; YM N (2 ; 2)-verteilt mit derselben Varianz
2 :
Wir gehen davon aus, da 2 unbekannt ist. Da die Stichprobenvarianzen
N
M
X
X
s2N;x = N 1; 1 (Xj ; XN )2 und s2M;y = M 1; 1 (Yj ; YM )2
j =1
j =1
74
unter der Modellannahme beide denselben Wert 2 schatzen, konnen wir sie zu einem einzigen Wert kombinieren.
Stimmen die beiden Stichprobenumfange uberein (M = N), so verwenden wir einfach das gewohnliche Mittel
1 2
2
2 (sN;x + sN;y ): Im allgemeinen wird der Varianzschatzer, der aus mehr Daten berechnet wird und daher im
Mittel genauer ist, starker berucksichtigt:
(N ; 1)s2N;x + (M ; 1)s2M;y
:
s2N;M =
N +M ;2
Der t-Test fur die Entscheidung zwischen der Hypothese H0 : 1 = 2 (Mittelwertsgleichheit beider Stichproben) gegen die Alternative H1 : 1 6= 2 (oder 1 > 2 oder 1 < 2 ) beruht auf dem Vergleich der beiden
Schatzer XN und YM fur 1 und 2 : Ist die Dierenz XN ; YM klein, so ist H0 : 1 = 2 glaubhaft. Wie
beim Einstichproben-t-Test wird diese Dierenz wieder geeignet standardisiert, so da die Teststatistik unter
der Hypothese eine von den wahren, unbekannten Werten von 1 = 2 und 2 unbeeinute Verteilung (wieder
eine t-Verteilung, und zwar mit N + M ; 2 Freiheitsgraden) hat:
t(X1 ; : : : ; XN ; Y1 ; : : : ; YM ) = q XN ; YM
1
1
N + M sN;M
Zwei-Stichproben-t-Test zum Niveau Modell: X1; : : : ; XN u.i.v. N (1 ; 2 ) und unabhangig davon Y1; : : : ; YM
u.i.v. N (2 ; 2 ); 2 unbekannt.
Teststatistik: t(X1 ; : : : ; XN ; Y1; : : : ; YM ) = p X1N+;1YsMN;M
N M
tN +M ;2; = -Quantil von tN +M ;2
Alternative
H0 verwerfen, wenn
H1 : 1 > 2 t(X1 ; : : : ; XN ; Y1; : : : ; YM ) > tN +M ;2; 1;
Hypothese
H0 : 1 = 2
oder 1 2
H0 : 1 = 2 H1 : 1 < 2
t(X1 ; : : : ; XN ; Y1 ; : : : ; YM ) < tN +M ;2; oder 1 2
H0 : 1 = 2 H1 : 1 =
6 2 jt(X1; : : : ; XN ; Y1 ; : : : ; YM )j > tN +M ;2; 1;=2
Beispiel: Der elektrische Widerstand von Kupferdraht soll angeblich gesenkt werden, wenn man Kupfer mit einem geringen Anteil anderer
Metalle legiert. Messungen mit 60 Standardkupferdrahten (x1 ; : : : ; x60 ) und 40 Drahten aus der Legierung (y1 ; : : : ; y40 ) ergeben X60 =
0;125 Ohm, s60;x = 0;005 Ohm bzw. Y40 = 0;114 Ohm, s40;y = 0;006 Ohm. Die Hypothese lautet H0 : 1 2 , d.h. der mittlere
Widerstand der Legierung ist mindestens so gro wie der des Kupferdrahts. Die Alternative ist H1 : 1 > 2 ; d.h. die Legierung hat einen
geringeren Widerstand. Der kombinierte Varianzschatzer ist:
s260;40 =
59 s260;x + 39 s240;y 59:25 + 39:36 ;6
=
10 Ohm2 = 29; 38 10;6 Ohm2
60 + 40 ; 2
98
also s60;40 = 0;0054 Ohm. Die Teststatistik ist
009 = 8; 18
t(X1 ; : : : ; X60 ; Y1 ; : : : ; Y40 ) = (0;q1251 ; 0;1114)Ohm = 00;;0011
60 + 40 s60;40
Das (1 ; )-Quantil der t98 -Verteilung ist t98;0:95 = 1;645 (Tabelle 4, Zeile = inf), und der Wert der t-Statistik ist deutlich groer. Wir
konnen daher die Hypothese verwerfen. Bei dieser Entscheidung sind wir ziemlich sicher (bis auf Irrtumswahrscheinlichkeit 5%), da die
Legierung einen geringeren Widerstand hat.
5.4 Tests fur die Varianzen normalverteilter Daten
Gute Produkte zeichnen sich nicht nur dadurch aus, da ihre Qualitat (charakterisiert durch den Wert bestimmter physikalischer Groen wie Lange, Gewicht oder elektrischer Widerstand) im Mittel den gewunschten Wert
hat, sondern da dieser Wert auch ohne groere Schwankungen zuverlassig eingehalten wird. Diese Vorgabe lat
sich praziser so formulieren: Die Varianz der Qualitatskenngroen der einzelnen Produkte soll unterhalb einer
75
bestimmten Schranke 02 liegen. Diese Aussage kann anhand von Stichproben uberpruft werden. Wir gehen
wieder davon aus, da die Daten normalverteilt sind:
Modell: x1; : : : ; xN sind Realisationen von u.i. N (; 2)-verteilten Zufallsgroen X1 ; : : : ; XN :
Wir mussen anhand der Daten eine Entscheidung zwischen den beiden Moglichkeiten 2 > 02 und 2 02
treen. In der Praxis zieht man die Stichproben regelmaig aus der laufenden Produktion. Entscheidet man
falschlicherweise fur 2 02 ; so lauft die Produktion bis zum nachsten Testtermin weiter, obwohl die Variabilitat
der Produkte (in der Regel geringfugig) zu gro ist. Eine falsche Entscheidung fur 2 > 02 bringt dagegen die
Produktion wegen der dann anstehenden Wartung der Maschinen zum Erliegen, obwohl dies nicht notig gewesen
ware. In dieser Situation hat der zweite Typ von Fehler schlimme Folgen, so da wir 2 02 als Hypothese,
2 > 02 als Alternative wahlen.
Da s2N ein brauchbarer Schatzer fur 2 ist, werden wir uns dann fur 2 > 02 entscheiden, wenn s2N deutlich
uber der Toleranzgrenze 02 liegt. Als Teststatistik wahlen wir die standardisierte Groe
S 2 = (N ;21)sN :
2
0
0.0
0.05
0.10
0.15
0.20
0.25
Unter der Hypothese H0 : 2 = 02 hat diese Zufallsgroe fur normalverteilte Daten X1 ; : : : ; XN eine bekannte
Verteilung: eine 2 -Verteilung (Chi-Quadrat) mit N ; 1 Freiheitsgraden oder kurz: eine 2N ;1 -Verteilung.
Tabelle 5 enthalt die (1 ; )-Quantile der 2 -Verteilung fur verschiedene Werte von und :
0
2
4
6
8
10
12
Abbildung 5.4a: Dichte der 24 -Verteilung
Chi-Quadrat-Test fur Varianz zum Niveau Modell: X1; : : : ; XN u.i.v. N (; 2 ); unbekannt.
2
Teststatistik: S 2 = (N ;1)02 sN ; 2N ;1; = -Quantil von 2N ;1
Hypothese
Alternative H0 verwerfen, wenn
H0 : 2 = 02 H1 : 2 > 02 S 2 > 2N ;1; 1;
oder 2 02
H0 : 2 = 02 H1 : 2 < 02
S 2 < 2N ;1;
2
2
oder 0
Beispiel:
Bei einer Bierasche mu der Abstand zwischen Flaschenhalsoberkante und Flussigkeitspegel 0 = 5 cm betragen, damit der
1
Inhalt 2 Liter ist. Unabhangig von der ublichen Forderung, da eine Verpackung die aufgedruckte Menge enthalten mu, gibt es zwei
weitere Grunde, da der Flussigkeitspegel weder zu hoch noch zu niedrig sein darf:
a) Liegt der Pegel um mehr als d = 1 cm uber dem Normwert, so besteht beim Pasteurisieren die Gefahr, da die Flasche platzt.
b) Liegt der Pegel um mehr als 1 cm unter der Norm, so leiden Haltbarkeit und Geschmack des Inhalts.
76
Eine Abfullanlage soll daher so eingestellt werden, da nicht mehr als 1% der Flaschen einen Flussigkeitspegel haben, der um mehr als
d = 1 cm von der Norm abweicht.
Wir gehen davon aus, da der Abstand2 X zwischen Flussigkeitspegel und Flaschenrand N (; 2 )-verteilt ist. Wird der Normwert = 0
eingehalten, suchen wir eine Varianz 0 ; fur die
Ws(jX ; 0 j > d) = 0; 01 :
Da fur N (0 ; 02 )-verteiltes X die standardisierte Zufallsgroe (X ; 0 )=0 N (0; 1)-verteilt ist, fordern wir also:
0; 01 = Ws jX ; 0 j > d = 1 ; Ws jX ; 0 j d
0
0 0
0
d
d
d
= 1 ; ( ) ; (; = 2(1 ; ( ))
0
0
0
und damit: ( d0 ) = 0; 995:
2
1
d
0 ist also das 0,995-Quantil von N (0; 1); so da (Tabelle 3) d = 2;575 0 ; also 0 = 2;575 cm = 0,388 cm. Ist die Varianz kleiner als
2
0 ; so sind Abweichungen des Flussigkeitspegels um mehr als 1 cm vom Normwert noch unwahrscheinlicher als 1%.
Um die Leistung der Abfullanlage zu uberprufen, werden aus der laufenden Produktion 20 Flaschen entnommen und die Abstande2 zwischen
Pegel und Flaschenrand gemessen. Es ergibt sich:2 X202 = 4; 85 cm, 202 = 0; 45 cm. Wir modellieren die Daten als u.i. N (; )-verteilt
und mussen uberprufen, ob = 0 = 5 cm und 0 = (0; 388 cm) mit den Messungen vereinbar ist.
1) t-Test fur H0 : = 0 gegen H1 : 6= 0 auf dem Niveau = 5%: Die Teststatistik ist:
jt(X1 ; : : : ; X20 )j = p20 jX20 s; 5 cmj = 1; 491
20
Aus Tabelle 4: t19;1;=2 = t19; 0:975 = 2; 093:
Die Daten sprechen also nicht gegen die Gultigkeit der Hypothese.
2) 2 -Test fur H0 : 2 02 gegen H1 : 2 > 02 auf dem Niveau 5%. Die Teststatistik ist:
2
S 2 = 192sN = 25; 557
0
Aus Tabelle 5: 219; 1; = 219; 0:95 = 30; 144:
Die Daten sprechen also auch nicht gegen 2 02 ; so da wir auch diese Hypothese akzeptieren.
Die Verwendbarkeit des Zwei-Stichproben-t-Tests hangt wesentlich davon ab, da die Varianzen der beiden
Stichproben, deren Mittelwerte verglichen werden, ubereinstimmen. Daher ist es sinnvoll, diese Voraussetzung
selbst mit einem Test zu uberprufen, bevor man den t-Test anwendet. Wir gehen dabei von dem folgenden
Modell aus:
Modell: Die Daten x1; : : : ; xN ; y1; : : : ; yM sind Realisationen von unabhangigen Zufallsgroen X1 ; : : : ; XN ;
Y1; : : : ; YM : Dabei sind X1 ; : : : ; XN N (1 ; 12)-verteilt und Y1 ; : : : ; YM N (2 ; 22)-verteilt.
Wir wollen anhand der Daten entscheiden, ob die Hypothese 12 = 22 der Varianzengleichheit mit den Daten
vertraglich ist oder nicht. Wenn die beiden Varianzen ubereinstimmen, dann sollten auch ihre Schatzer
N
M
X
X
s2N;x = N 1; 1 (Xj ; X N )2 und s2M;y = M 1; 1 (Yj ; YM )2
j =1
j =1
ungefahr gleich sein. Wir betrachten daher als Teststatistik den Quotienten s2N;x =s2M;y und akzeptieren die
Hypothese H0 : 12 = 22 ; wenn der Wert dieser Teststatistik ungefahr 1 ist.
Unter der Hypothese H0 : 12 = 22 hat s2N;x =s2M;y eine bekannte Verteilung: eine Fisher- oder F -Verteilung
mit (N ; 1; M ; 1)-Freiheitsgraden, kurz: eine FN ;1; M ;1 -Verteilung.
77
0.6
0.4
0.2
0.0
0
1
2
3
4
5
6
Abbildung 5.4b: Dichte der F8;15-Verteilung
Tabelle 6a und 6b enthalten die (1 ; )-Quantile f1 ;2 ;1; der F1;2 -Verteilung fur = 0; 05 bzw. = 0; 01 :
Testen wir die Hypothese H0 : 12 = 22 (oder 12 22 ) gegen die Alternative H1 : 12 > 22 ; so lehnen wir H0
auf dem Niveau ab, wenn
s2N;x
s2 > fN ;1; M ;1; 1;:
M;y
Testen wir dagegen H0 : 12 = 22 (oder 12 22 ) gegen H1 : 12 < 22 ; so lehnen wir H0 ab, wenn
s2N;x
s2M;y < fN ;1; M ;1; :
Diese Quantile sind aber nicht in Tabelle 6 angegeben. Stattdessen
konnen wir aber auch die Rollen der X - bzw. Y -Stichprobe vertauschen
und das Entscheidungsproblem so formulieren: Teste H0 : 22 = 12 (oder 22 12 ) gegen H1 : 22 > 12 : Einen aquivalenten Test erhalten
wir also, indem wir H0 ablehnen, falls
s2M;y
s2N;x > fM ;1; N ;1; 1; :
Fisher- oder F-Test zum Niveau Modell: X1; : : : ; XN ; Y1; : : : ; YM unabhangig; X1 ; : : : ; XN N (1; 12 )-verteilt und
Y1 ; : : : ; YM N (2 ; 22)-verteilt.
Teststatistik: s2N;x =s2M;y ;
Hypothese
H0 : 12 = 22
oder 12 22
H0 : 12 = 22
oder 12 22
H0 : 12 = 22
fN ;1;M ;1; = -Quantil von FN ;1;M ;1
Alternative
H0 verwerfen, wenn
H1 : 12 > 22 s2N;x =s2M;y > fN ;1; M ;1;1;
H1 : 12 < 22 s2M;y =s2N;x > fM ;1; N ;1; 1;
H1 : 12 6= 22 s2N;x =s2M;y > fN ;1; M ;1; 1;=2
oder
s2M;y =s2N;x > fM ;1; N ;1; 1;=2
Beispiel: Zwei Prazisionsmegerate fur Langen im m-Bereich stehen zur Wahl, wobei das genauere der beiden zum Einsatz kommen soll.
Um die Genauigkeit zu uberprufen, wird eine (mit kostspieligen Laborgeraten) normierte Strecke von 0 = 10m je 20 mal gemessen. Wir
gehen bei der Modellbildung davon aus, da die einzelnen Messungen unabhangig voneinander und normalverteilt sind. Die Stichprobenmittel und -varianzen seien:
X20 = 10; 1m ; s220;x = 0; 09m2
Y20 = 9; 8m ; s220;y = 0; 25m2
Zuerst uberprufen wir, ob die Gerate einen systematischen Fehler produzieren oder ob sie korrekt justiert sind und im Mittel 0 messen.
Fur das erste Gerat benutzen wir:
Modell: X1 ; : : : ; X20 u.i.v. N (; x2 )
78
Entscheide: H0 : = 0 oder H1 : 6= 0 ?
Als Niveau wahlen wir = 0;05. Die t-Statistik ist:
p ; ) p20(0; 1)
20
0 =
t(X1 ; : : : ; X20 ) = 20(X
s20;x
0; 3 = 1; 491:
Da der Betrag von t(X1 ; : : : ; X20 ) kleiner als t19; 0:975 = 2:093 ist, akzeptieren wir die Hypothese als mit den Daten vertraglich.
Analog erhalten wir fur die Daten des zweiten Gerats
p
t(Y1 ; : : : ; Y20 ) = 20(0;;50; 2) = ;1; 789 ;
so da wir auch hier die Hypothese E Yj = 0 auf dem 5%-Niveau akzeptieren.
Nun konnen wir auf der Basis des Modells:
Modell: X1 ; : : : ; X20 u.i.v. N (0 ; x2 ), und Y1; : : : ; Y20 u.i.v. N (0 ; y2 ) das eigentlich interessierende Entscheidungsproblem (Genauigkeit
der Megerate)
H0 : x2 = y2 oder H1 : x2 6= y2
mit dem F -Test untersuchen. Als Niveau wahlen wir = 0;02. Die Teststatistik ist (N = M = 20):
s220;x 0; 09
s220;y = 0; 25 = 0; 360 bzw.
s220;y 0; 25
s220;x = 0; 09 = 2; 778:
Aus Tabelle 6b erhalten wir als (1 ; 2 ) = 0;99-Quantil der F19;19 -Verteilung f19;19; 0:99 3;03 (grobe Interpolation zwischen f20;19; 0:99 =
3;00 und f20;15; 0:99 = 3,15). Die Daten reichen also nicht aus, um die Hypothese gleicher Megenauigkeit auf dem 2%-Niveau zu verwerfen.
Die Teststatistik ist aber nahe genug an der Grenze zwischen Akzeptieren und Ablehnen von H0 ; da man einige Zusatzmessungen (d.h.
Vergroerung des Stichprobenumfangs N ) ins Auge fassen sollte.
Falls die Varianzen 12 und 22 der beiden Stichproben nicht ubereinstimmen, lat sich der Zwei-Stichproben-tTest nicht anwenden. Fur diesen Fall gibt es andere Tests, z.B. die folgende Variante des t-Tests.
Smith-Satterthwaite-Testfur den Vergleich von Mittelwerten zweier normalverteilter Stichproben mit ungleichen Varianzen
Analog zur Teststatistik t des Zwei-Stichproben-t-Tests (vgl. Abschnitt 5.3) wird die folgende Teststatistik betrachtet:
t0 (X1 ; : : : ; XN ; Y1; : : : ; YM ) =
q
XN ; Y M
1 s2 + 1 s2
N N;x M M;y
;
wobei s2N;x und s2M;y die beiden Stichprobenvarianzen sind, die hier die beiden unterschiedlichen Varianzen 12 bzw. 22 schatzen. Diese
Teststatistik ist wieder { allerdings nur naherungsweise { t-verteilt, wobei die Anzahl f der Freiheitsgrade nicht N + M ; 2 ist, sondern
vom Verhaltnis der Varianzen abhangt:
1 s2 + 1 s2M;y
M
f 1 1 N2 N;x
2
2 ;
1
1
N ;1 N sN;x + M ;1 M s2M;y
d.h. genauer: man berechnet die rechte Seite aus den Daten, rundet auf die nachste ganze Zahl und erhalt damit f .
Smith-Satterthwaite-Test zum Niveau Modell:
X1 ; : : : ; XN u.i.v. N (1 ; 12 ) und unabhangig davon Y1; : : : ; YM
u.i.v. N (2 ; 22 ) ; 12 ; 22 unbekannt.
Teststatistik:
Hypothese
t0 (X1 ; : : : ; XN ; Y1 ; : : : ; YM ) wie oben, f wie oben
tf; = -Quantil von tf
H0 : 1 = 2
oder 1 2
H0 : 1 = 2
oder 1 2
H0 : 1 = 2
Alternative
H1 : 1 > 2
H0 0 verwerfen, wenn
t (X1 ; : : : ; XN ; Y1; : : : ; YM ) > ttf ;1;
H1 : 1 < 2
t0 (X1 ; : : : ; XN ; Y1; : : : ; YM ) < tf;
H1 : 1 6= 2
jt0(X1 : : : ; XN ; Y1; : : : ; YM )j > tf;1; 2
79
5.5 Test auf Unabhangigkeit zweier normalverteilter Stichproben
Die Frage, ob zwei Groen sich gegenseitig beeinussen (mit positiven oder negativen Konsequenzen), tritt oft
auf. Hangt z.B. der Betrag, den ein Mann zwischen 20 und 30 1994 fur Unterhaltungselektronik ausgegeben
hat, von seinen Jahreseinkommen ab? Beeinut die aktuelle Luftfeuchtigkeit in der Werkhalle die Dicke
der Silberschicht, die auf ein Werkstuck aufgedampft wird (wenn ja, mussen Manahmen zur Kontrolle der
Luftfeuchtigkeit ergrien werden)? Wenn die beiden gemessenen Werte als gemeinsam normalverteilt modelliert
werden konnen, dann ist ihre gegenseitige Unabhangigkeit gleichbedeutend damit, da ihre Korrelation = 0
ist. In diesem Fall kann man testen, ob = 0 ist oder nicht. Fur Daten, die deutlich nicht normalverteilt sind
oder die gar nur qualitativer Natur sind, lernen wir spater einen Test auf Unabhangigkeit kennen (vgl. Kapitel
5.7).
Modell: (X1 ; Y1); : : : ; (XN ; YN ) sind unabhangig, identisch gemeinsam normalverteilt mit Korrelation :
Entscheidungsproblem: Hypothese H0 : = 0 (Xi und Yi sind unabhangig) gegen Alternative H1 : 6= 0
(Xi ; Yi beeinussen sich gegenseitig).
Wir betrachten gleich das allgemeinere Entscheidungsproblem H0 : = 0 gegen H1 : 6= 0 ; das fur den Fall
0 = 0 den Test auf Unabhangigkeit beinhaltet.
Da die Stichprobenkorrelation ^N ein brauchbarer Schatzer fur ist (vgl. Kapitel 3.4), liegt es nahe, die
Entscheidung auf einem direkten Vergleich von ^N mit 0 zu basieren, z.B. auf der Groe der Dierenz ^N ; 0 :
Fur sehr groe Stichprobenumfange ist dies auch moglich. Fur mittlere Stichprobenumfange (N 50) mussen
wir ^N ; ; 0 wie bei der Berechnung von Kondenzintervallen (vgl. Kapitel 3.4) transformieren, z.B. mit der
Fisher-Transformation:
+ ^N ; w = 1 ln 1 + ; w = 1 ln 1 + 0 :
w^N = 21 ln 11 ;
^
2 1; 0 2 1;
N
0
Fur N 50; nicht zu nahe bei 1, ist dann die Teststatistik
p
Z = N ; 3(w^N ; w0 )
unter der Hypothese H0 : = 0 (d.h. w = w0) ungefahr N (0; 1)-verteilt.
Korrelationstest (und fur 0 = 0 Test auf Unabhangigkeit) zum Niveau Modell: (X1 ; Y1); : : : ; (XN ; YN ) unabhangig, identisch gemeinsam normalverteilt mit
Korrelation :
p
p
N
1+0
Teststatistik: Z = N ; 3 (w^N ; w0) = N2;3 fln 11+^
;^N ; ln 1;0 g
q = -Quantil von N (0; 1)
Hypothese
H0 : = 0
oder 0
H0 : = 0
oder 0
H0 : = 0
Alternative H0 verwerfen, wenn
H1 : > 0 Z > q1;
H1 : < 0 Z < q = ;q1;
H1 : 6= 0 jZ j > q1;=2
Beispiel: Die Geschaftsfuhrung einer Ladenkette, die Fachgeschafte in einer Reihe von Stadten unterhalt, interessiert sich dafur, ob hohere
Ladenmieten (f
ur angeblich bessere Geschaftslagen) sich uber einen hoheren Umsatz rentieren. Bei 53 Geschaften wurden jeweils der
Umsatz pro m2 Ladenache und die Miete pro m2 betrachtet. Als Stichprobenkorrelation ergab sich ^53 = 0;37. Da wir uns nur fur
positive Korrelation zwischen Miete und Umsatz interessieren, wahlen wir als Entscheidungsproblem H0 : = 0 (Unabhangigkeit) gegen
H1 : > 0 (positive Abhangigkeit). Die Teststatistik ergibt sich als:
0; 37
1 1+0
w^53 = 21 ln 11 +
; 0; 37 = 0; 388; w0 = 2 ln 1 ; 0 = 0
p
Z = 50 0; 388 = 2; 744:
80
Als Niveau wahlen wir = 0;01, so da q1; = q0:99 = 2;326. Z ist deutlich groer, wir konnen die Hypothese auf dem 1%-Niveau
verwerfen, und wir sind ziemlich sicher, da es einen positiven Zusammenhang zwischen Hohe der Ladenmiete und Umsatz gibt.
Anmerkung: Die Modellannahme, da (Xj ; Yj ) gemeinsam normalverteilt sind, haben wir bisher nicht prazisiert. Sie bedeutet,
da der zufallige Punkt (Xj ; Yj ) 2 2 eine Verteilung besitzt, deren Wahrscheinlichkeitsdichte eine zweidimensionale Gausche Dichte
R
R
ist. Eine alternative Charakterisierung, die wir mit unseren Mitteln prazisieren konnen, ist die Eigenschaft, da jede Linearkombination
aXj + bYj ; a; b 2 ; N (; 2 )-verteilt ist, wobei und 2 naturlich von a,b abhangen.
Fur kleinere Stichprobenumfange und ausschlielich fur den Fall 0 = 0 (Test auf Unabhangigkeit) kann man
auch den folgenden exakten Test benutzen, dessen Teststatistik
p
R = N ; 2 p ^N 2
1 ; ^N
unter der Hypothese H0 : = 0 t-verteilt mit (N ; 2)-Freiheitsgraden ist.
Test auf Unabhangigkeit zum Niveau Modell: wie oben
p
Teststatistik: R = N ; 2 p1^;N^2 ; tN ;2; = -Quantil von tN ;2
N
Hypothese
H0 : = 0
oder 0
H0 : = 0
oder 0
H0 : = 0
Alternative H0 verwerfen, wenn
H1 : > 0 R > tN ;2;1;
H1 : < 0 R < tN ;2; = ;tN ;2;1;
H1 : 6= 0 jRj > tN ;2;1;=2
Beispiel (Forts.): Fur N = 53 und ^53 = 0;37 erhalten wir
p
R = 51 p 0; 37 2 = 2; 844 :
1 ; 0; 37
Das (1 ; ) = 0;99-Quantil von t51 ist: t51;0:99 = 2;326. Da R groer ist, lehnt auch hier dieser Test die Hypothese H0 : = 0 zugunsten
der Alternative H1 : > 0 auf dem 1%-Niveau ab.
Anmerkung: Beide Tests gehen davon aus, da die Daten als gemeinsam normalverteilt angenommen werden konnen. Im Beispiel ist
dies nicht von vorneherein klar, da Finanzdaten (Mieten, Umsatze, Einkommen, ...) auch oft eine schiefe Verteilung, z.B. eine lognormale
Verteilung zeigen. Bevor man Tests auf Korrelation = 0 anwendet, sollte man sich daher z.B. Histogramme anschauen. Deuten diese auf
z.B. eine Lognormalverteilung hin, so sollte man erst die Daten so transformieren, z.B. logarithmieren, da sie anschlieend normalverteilt
aussehen, bevor man dann den Test auf Unabhangigkeit anwendet. Hilft auch eine einfache Transformation nichts, so hat sich in der Praxis
der Rangkorrelation-Test von Spearman bewahrt, der ohne spezische Verteilungsannahmen auskommt. Im Rahmen dieser Einfuhrung
wurde die Diskussion dieses vergleichsweise komplexen Tests aber zu weit fuhren.
5.6 Der Chi-Quadrat-Anpassungstest
Zufallsgroen { ob quantitiv (Zahlen) oder qualitativ (Bewertungen, Klassenzugehorigkeiten, : : : ) { mit nur
endlich vielen moglichen Werten werden eindeutig charakterisiert durch die Angabe der einzelnen Wahrscheinlichkeiten, mit denen diese Werte angenommen werden (vgl. Kapitel 2.4). Der Chi-Quadrat-Anpassungstest
erlaubt das U berprufen von Hypothesen bzgl. der Form dieser Wahrscheinlichkeiten. Im einfachsten Fall wird
getestet, ob die Wahrscheinlichkeiten mit vorgegebenen Werten ubereinstimmen oder nicht.
Modell: N Objekte (oder Personen) fallen unabhangig voneinander mit jeweils denselben Wahrscheinlichkeiten
in eine von d vorgegebenen Klassen A1; : : : ; Ad : In welche Klasse das j-te Objekt fallt, wird durch Anzeigevariablen Yj markiert:
Yj = k ; wenn j-tes Objekt zu Klasse Ak gehort, k = 1; : : : ; d:
Y1; : : : ; YN sind dann u.i.v. Zufallszahlen mit Werten in f1; : : : ; dg und
Ws(Yj = k) = pk = Ws(Objekt fallt in Klasse Ak ):
81
Als Wahrscheinlichkeitsgewichte erfullen die pk : pk 0 ; p1 + : : : + pd = 1:
Beispiel: Um zu uberprufen, ob die Kunden einer Firma vorzugsweise zu bestimmten Berufsgruppen gehoren, werden N rein zufallig aus-
gewahlte Kunden befragt. Die moglichen Antworten entsprechen den vorgegebenen Berufsgruppen A1 ; : : : ; Ad ; z.B. A1 = "Freiberuer",
A2 = "selbstandige Handwerker", A3 = "mittlere Angestellte ohne Leitungsfunktion", ... . Ist z.B. der 5. befragte Kunde ein selbstandiger
Handwerker, so setzen wir Y5 = 2:
Fur die weitere Analyse der Daten interessiert nicht, in welcher Reihenfolge die zu den einzelnen Klassen
gehorigen Objekte beobachtet worden sind, sondern nur die jeweilige Gesamtzahlen:
Xk = (Anzahl der j = 1; : : : ; N mit Yj = k)
= Anzahl der Objekte unter den insgesamt N Objekten, die in Klasse Ak fallen
Da jedes der Objekte zu genau einer Klasse gehort, mussen sich die X1 ; : : : ; Xd zu N aufaddieren:
X1 + : : : + Xd = N :
Als Daten erhalt man meistens gleich die Anzahlen X1 ; : : : ; Xd und nicht die Einzelbeobachtungen Y1; : : : ; YN ;
oft in der Form einer Tabelle:
Klasse A1 A2 : : : Ad
Anzahl X1 X2 : : : Xd
Statt A1 ; : : : ; Ad steht in der Tabelle eine verbale Charakterisierung der jeweiligen Klasse. Den Stichprobenumfang N erhalt man, falls er nicht angegeben ist, durch Addition der X1 ; : : : ; Xd :
Wir betrachten zuerst das Problem zu entscheiden, ob die Klassenwahrscheinlichkeiten p1 ; : : : ; pd mit fest
vorgegebenen Wahrscheinlichkeiten ubereinstimmen:
Entscheidungsproblem: Gegeben p1 ; : : : ; pd . Gilt pk = pk ; k = 1; : : : ; d; oder nicht?
Beispiel: (Fortsetzung): p1 ; : : : ; pd seien die Haugkeiten der Berufsgruppen in der Gesamtbevolkerung. Ein Test der Hypothese H0 :
pk = pk ; k = 1; : : : ; d uberpruft also, ob die Zusammensetzung der Kundschaft mit der der Bevolkerung ubereinstimmt oder ob die Firma
von bestimmten Berufsgruppen bevorzugt wird.
Aus dem Gesetz der groen Zahlen und der daraus sich ergebenden Interpretation von Wahrscheinlichkeit als
Grenzwert relativer Haugkeit wissen wir
Xk = relative Haugkeit der Objekte in Klasse A
k
N
Wahrscheinlichkeit, da ein Objekt in Klasse Ak = Ws(Yj = k) = pk
Wenn die Hypothese korrekt ist, sollten alle Xk =N ungefahr mit den pk ubereinstimmen:
Unter H0 : XNk pk ; k = 1; : : : ; d:
Wir kombinieren daher die quadratischen Abstande (Xk ; Npk )2 zu der Teststatistik
D=
d (X ; N p )2
X
k
k
k=1
Npk
d X2 X
k
= N1
k ; N
p
k=1
Die zweite Form, die sich durch eine einfache Rechnung und p1 + : : : ; +pd = 1 ergibt, erleichtert manchmal die
Berechnung von D: Da Npk = EH0 Xk der Erwartungswert von Xk bei Gultigkeit der Hypothese ist, beschreibt
man die Teststatistik des Chi-Quadrat-Anpassungstest oft auch als:
D=
d (beobachtet in Klasse k ; erwartet in Klasse k )2
X
k=1
erwartet in Klasse k
82
:
Wenn D gro ist, so sind die beobachteten Klassenzahlen Xk nicht mit unseren Erwartungen unter der Hypothese
vertraglich, und wir lehnen die Hypothese ab.
Wenn N gro ist und gewisse andere Bedingungen erfullt sind, hat die Teststatistik D unter der Hypothese
naherungsweise eine 2 -Verteilung.
Faustregel: D ist unter H0 naherungsweise 2d;1 -verteilt, falls Npk 1 fur alle k = 1; : : : ; d ; und falls
Npk 5 fur mindestens 80% der k = 1; : : : ; d:
Chi-Quadrat-Anpassungstest zum Niveau Modell: Y1; : : : ; YN u.i.v. mit pk = Ws(Yj = k); k = 1; : : : ; d:
Xk = (Anzahl der j mit Yj = k) = Anzahl Objekte in Klasse Ak
P
2
;Np
)
Teststatistik: D = dk=1 (XkNp
k k ; 2d;1;1; = (1 ; )-Quantil von 2d;1
Bedingung: Np1 ; : : : ; pd erfullen die Faustregel
Hypothese Alternative
H0 verwerfen, wenn
pk = pk ;
pl 6= pl fur
D > 2d;1;1;
k = 1; : : : ; d wenigstens ein l
Beispiel: Es soll stichprobenartig uberpruft werden, ob d = 5 Filialen einer Kette, die alle in dem selben Gebiet liegen, gleich erfolgreich
sind oder ob die Kunden einzelne Filialen vorziehen. An einem Testtag wird die Zahl der Kunden in den einzelnen Ladenlokalen registriert:
Klasse (Filiale)
Xk = Kundenzahl
A1
123
A2
96
A3
164
A4
131
A5
106
Die "Klasse", zu der ein Kunde gehort, steht fur die Filiale, die er an dem Testtag aufgesucht hat. Die Gesamtzahl der Kunden ist
N = X1 + : : : + X5 = 620: Die Hypothese, da die 5 Filialen gleich attraktivsind,1 bedeutet im Modell, da die Wahrscheinlichkeit pk , da
ein Kunde sich fur die Filiale Ak entscheidet, fur alle Filialen dieselbe ist (pk = 5 ; k = 1; : : : ; 5) :
Hypothese H0 : pk = 15 ; k = 1; : : : ; 5 (keine Unterschiede)
Alternative H1 : pk 6= 51 fur wenigstens ein k (es gibt Unterschiede)
Da alle Klassenwahrscheinlichkeiten
p1 ; : : : ; p5 unter der Hypothese ubereinstimmen, ist auch der Erwartungswert von Xk unter der
Hypothese stets derselbe: Npk = N 51 = 124; ; k = 1; : : : ; 5: Einsetzen liefert
D=
5
X
(Xk ; 124)2 = 22; 242
124
k=1
Als Niveau wahlen wir = 0;05, und aus Tabelle 5 lesen wir ab: 24;1; = 24;0:95 = 9;488. Da D uber dieser Schranke liegt, verwerfen
wir die Hypothese, da es keine Unterschiede zwischen den Filialen gibt.
Um den Chi-Quadrat-Anpassungstest durchfuhren zu konnen, mussen wir fur jede Klasse Ak die erwartete
Anzahl EH0 Xk = Npk unter der Hypothese berechnen. Es ist gunstig, diese Werte in die Tabelle der X1 ; : : : ; Xd
einzutragen:
Klasse
A1 A2 : : : Ad
Anzahl beobachtet
X1 X2 : : : Xd
Anzahl unter H0 erwartet Np1 Np2 : : : Npd
Dies hat zwei Vorteile:
{ man erkennt an der letzten Zeile sofort, ob die Bedingungen der Faustregel (immer Npk 1; in mindestens
80% der Falle Npk 5) erfullt ist. Wenn dies nicht der Fall ist, sieht man, welche Klassen zu schwach besetzt
sind und welche man daher zu groeren Klassen zusammenfassen (gruppieren) sollte.
83
{ wenn der Test die Hypothese H0 verwirft, liefert ein Vergleich der beiden letzten Zeilen Anhaltspunkte, bei
welchen Klassen besonders groe Abweichungen vorliegen. Dies kann als Grundlage fur weitere Untersuchungen
dienen.
Wenn die Faustregel verletzt ist, so fat man einige schwach besetzte Klassen (d.h. Ak mit Npk < 5) zusammen.
Durch dieses Gruppieren erhalt man neue, groere Klassen mit neuen groeren Klassenwahrscheinlichkeiten,
die dann die Bedingungen der Faustregel erfullen. Dabei mu man nur beachten, da beim Zusammenfassen
z.B. der Klassen A1 ; A2; A3 zu einer neuen Klasse A~3 die neue Klassenwahrscheinlichkeit p~1 sich durch Addition
der gruppierten alten Klassenwahrscheinlichkeiten p1 ; p2; p3 ergibt:
A~1 = A1 [ A2 [ A3 ;! p~1 = p1 + p2 + p3
Anmerkung: Gruppieren ist notig, wenn die Bedingungen der Faustregel grob verletzt sind. Dabei sollte
man aber nicht mehr Klassen zusammenfassen als unbedingt notig, denn: Je weniger Klassen vorliegen, desto
schlechter wird der Chi-Quadrat-Anpassungstest in dem Sinn, da die Wahrscheinlichkeit fur einen Fehler 2.
Art wachst.
Beispiel: Die Wirksamkeit einer Werbemanahme fur Sektmarken soll auf einem Testmarkt uberpr
uft werden. Ein Supermarkt im Testge-
biet bietet 12 Sektmarken (d = 12 Klassen) an, deren Marktanteile (Klassenwahrscheinlichkeiten pk ) aufgrund von Langzeitbeobachtungen
bekannt sind.
Sekt Nr. k
alter Marktanteil pk
1
25%
2
20%
3
16%
4
13%
5
9%
6
6%
7
3%
8
3%
9
2%
10
1%
11
1%
12
1%
Die Werbeaktion wird lokal durchgefuhrt. Anschlieend wird an 3 Testtagen registriert, wie viele Kunden im Supermarkt welche Sektmarke
kaufen:
Sekt Nr. k
Kundenzahl Xk
erwartete Kundenzahl Npk
unter H0
1
32
30
2
19
24
3
26
19,2
4
11
15,6
5
6
10,8
6
10
7,2
7
8
3,6
8
1
3,6
9
5
2,4
10
0
1,2
11
0
1,2
12
2
1,2
Insgesamt haben N = X1 + X2 + : : : + X12 = 120 Kunden im fraglichen Zeitraum Sekt gekauft. Die Werbeaktion sollte den Verkauf der
beiden (von derselben Firma produzierten) Marken Nr. 3 und Nr. 7 fordern. Von beiden Marken istim Testzeitraum mehr verkauft
worden,
als unter der Hypothese (unveranderter Marktanteil) zu erwarten gewesen ware: X3 = 26 > Np3 = 19;2, X7 = 8 > Np7 = 3;6. Mit
dem Chi-Quadrat-Test soll uberpruft werden, ob dies zufallige Fluktuationen sein konnen oder ob die Werbeaktion einen sichtbaren Erfolg
gehabt hat.
Gruppieren:
Die erste Bedingung der Faustregel (Npk 1 fur alle k) ist erfullt, die zweite aber nicht. Nur bei 6 Klassen (k = 1; : : : ; 6)
liegt Npk uber 5, wahrend 80% von d = 12 Klassen 9,6 ist, d.h. fur 10 Klassen (oder { mit etwas schlechtem Gewissen { fur wenigstens 9
Klassen) mute die erwartete Kundenzahl unter der Hypothese wenigstens 5 sein. Es ist daher notig zu gruppieren. Dabei bietet sich an,
die schwach besetzten Klassen 9{12 zusammenzufassen und die anderen Klassen unverandert beizubehalten:
A~k =^ Sekt Nr. k;
k = 1; : : : ; 8;
A~9 =^ Sekt
Nr. 9-12
p~k = pk ;
k = 1; : : : ; 8;
p~9 = p9 + p10 + p11 + p12 = 5%
X~k = Xk ;
k = 1; : : : ; 8;
X~9 = X9 + X10 + X11 + X12 = 7
Wir erhalten so die neue Tabelle:
Klasse A~k
beobachtete Kundenzahl X~k
erwartete Kundenzahl N p~k
unter H0
1
32
30
2
19
24
3
26
19,2
4
11
15,6
5
6
10,8
6
10
7,2
7
8
3,6
8
1
3,6
9
7
6
Jetzt erfullen 7 von 9 Klassen die zweite Bedingungen der Faustregel. Da 7.2 (80% von 9) nur unwesentlich groer ist, konnen wir den
Chi-Quadrat-Test jetzt anwenden:
9 (X~k ; N p~ )2 (32 ; 30)2 (19 ; 24)2
2
X
k =
D=
+
+ : : : + (7 ;6 6) = 12; 47:
N p~k
30
24
k=1
Als Niveau wahlen wir = 0;05, das 95%-Quantil von 29;1 = 28 ist 28;0:95 = 15;51. D ist kleiner, so da wir die Hypothese akzeptieren.
Die Daten reichen nicht aus, um Sicherheit uber die Wirksamkeit der Werbeaktion zu erhalten.
Alternativ hatten wir zusatzlich
die Sektmarken 7 und 8 zusammenfassen konnen, so da nur 8 Klassen ubriggeblieben waren, bei denen
allerdings in allen Fallen N p~k 5 gewesen ware. Die Tabelle sahe dann so aus:
84
Klasse
beobachtete Kundenzahl
erwartete Kundenzahl unter H0
1
32
30
2
19
24
3
26
19,2
4
11
15,6
5
6
10,8
6
10
7,2
7
9
7,2
8
7
6
Klasse 7 entspricht hier den Sektmarken Nr. 7 und 8, Klasse 8 den Sektmarken Nr. 9-12. D = 5; 69 < 27;0:95 = 14; 07 ware jetzt die
Teststatistik, so da die Hypothese H0 wieder akzeptiert wird.
Der Chi-Quadrat-Anpassungstest lat sich auch in Situationen verwenden, wo die hypothetischen Klassenwahrscheinlichkeiten p1 ; : : : ; pd nicht xiert sind, sondern wo nur ihre allgemeine Form festgelegt wird, wobei der
Wert eines oder mehrerer Parameter oengelassen wird. Unter anderem kann man auf diese Art testen, ob
Daten zu einem Modell passen oder nicht. Bevor wir den allgemeinen Fall betrachten, diskutieren wir zwei
Beispiele.
Poisson-Proze als Modell fur zufallige Zeitpunkte
Fur die Simulation komplexer Bedienungssysteme mu man Annahmen uber die Verteilung der Zufallsgroen
machen, die als Eingangsgroen fur das System benutzt werden. Eine einfache Annahme ist z.B., da die
Ankunftszeiten der Kunden einen Poisson-Proze bilden. Die Gultigkeit dieser Annahme wollen wir mit dem
Chi-Quadrat-Test uberprufen. Wir gehen davon aus, da wir den Proze uber einen langen Zeitraum [0; t] beobachtet haben. Wir teilen diesen Zeitraum in N gleichlange, sich nicht uberlappende Zeitintervalle I1 ; I2; : : : ; IN ;
und wir zahlen, wie viele der zufalligen Zeitpunkte in jedem dieser Intervalle enthalten ist:
Yj = Anzahl der zufalligen Zeitpunkte im Intervall Ij :
Wenn die zufalligen Zeitpunkte einen Poisson-Proze bilden, so sind Y1 ; : : : ; YN unabhangige P ()-verteilte
Zufallsgroen fur einen passenden Parameterwert :
Um den Chi-Quadrat-Test anwenden zu konnen, betrachten wir die Intervalle I1 ; : : : ; IN als Objekte, die zu
einer der Klasse A0 ; : : : ; Am gehoren, und zwar:
a) fur k = 0; : : : ; m ; 1 :
Ij gehort zur Klasse Ak , wenn Yj = k
b) fur k = m :
Ij gehort zur Klasse Am ; wenn Yj m
Die Anzahl Yj der Zufallszeitpunkte in Ij bestimmt die Klasse, zu der das Intervall gehort. Die seltenen Falle
mit vielen Zufallszeitpunkten (Yj m) sind zu einer einzigen Klasse zusammengefat.
Unter der Hypothese des Poisson-Prozesses gilt fur ein > 0 :
H0 : Ws(Ij in Klasse Ak ) = Ws(Yj = k) = pk () = kk! e; ; k = 0; : : : ; m ; 1
P ;1 p ()
Ws(Ij in Klasse Am ) = Ws(Yj m) = pm () = 1 ; mk=0
k
Die Alternative ist:
H1 : Ws(Yj = k); k = 0; : : : ; m ; 1; und Ws(Yj m) haben eine andere Form.
Der Test vergleicht wieder die beobachteten Zahlen von Objekten in Klasse k:
Xk = Anzahl der Intervalle Ij ; die k der Zufallszeitpunkte enthalten, k = 0; : : : ; m ; 1;
Xm = Anzahl der Intervalle Ij ; die mindestens m der Zufallszeitpunkte enthalten,
wobei wieder X0 + : : : + Xm = N:
Der Erwartungswert von Xk unter der Hypothese H0 ist
EH0 Xk = Npk () ; k = 0; : : : ; m:
ist aber unbekannt. Wir schatzen nun durch
N
X
^ = N1
Yj = YN :
j =1
85
Dann fuhren wir den Chi-Quadrat-Anpassungstest mit ^ anstelle des unbekannten durch:
m (X ; Np (^ ))2
X
k
k
D=
:
(^)
Np
k
k=0
Durch das Schatzen des einen unbekannten Parameters verlieren wir aber einen Freiheitsgrad, d.h. (bei
d = m + 1 Klassen) ist D unter der Hypothese H0 nicht mehr 2d;1 -, sondern 2d;2 = 2m;1 -verteilt.
Chi-Quadrat-Anpassungstest fur Poisson-Verteilung zum Niveau Modell: Y1; : : : ; YN u.i.v. Zufallsgroen mit Werten f0; 1; 2; : : : g
Xk = (Anzahl der j mit Yj = k), k = 0; : : : ; m ; 1
Xm = (Anzahl der j mit Yj m)
2m;1;1; = (1 ; )-Quantil von 2m;1
Alternative
H0 verwerfen, wenn
Hypothese
Y1; : : : ; YN sind
Y1 ; : : : ; YN sind
D > 2m;1;1;
Poisson-verteilt nicht Poisson-verteilt
Es bleibt noch die Frage oen, wie gro die Zahl d = m + 1 der Klassen gewahlt werden soll. Dabei mu man
beachten, da die Faustregel N pk (^) 1 fur alle k und N pk (^ ) 5 fur mindestens 80% der k auch hier erfullt
sein mu. Abgesehen davon sollte man m so gro wie moglich wahlen.
Normalverteilung als Modell fur Messungen
Wir haben Mewerte z1 ; : : : ; zN ; die wir als Realisationen von unabhangig, identisch verteilten Zufallsgroen
Z1 ; : : : ; ZN modellieren. Wir fragen uns, ob die Annahme, da die Zj normalverteilt sind, vertraglich mit
den Daten ist. Wir unterteilen den Wertebereich der Zufallsgroen Zj ; d.h. hier die ganze reelle Achse, in
verschiedene, sich nicht uberlappende Intervalle.
s
s
I1
ss
s1
s
ss
I2
sss
s2
I3
s sssss ss
s3
I4
s4
ss
I5
sss
s5
s s ss
I6
s6
s
I7
s
s
s7
s
s
I8
Dazu wahlen wir m Trennpunkte s1 ; : : : ; sm ; wir setzen s0 = ;1; sm+1 = +1 ; und betrachten dann die
Intervalle
Ik = (sk;1; sk ] = fz; sk;1 < z sk g; k = 1; : : : ; m
Im+1 = (sm ; sm+1 ) = (sm ; 1) = fz; sm < z g:
Die Intervalle sind nicht gleich lang, sondern sie sind da kurzer, wo viele Datenpunkte liegen. Wir sagen jetzt,
da ein Datenpunkt Zj zur Klasse Ak gehort, wenn er im Intervall Ik liegt, und wir zahlen, wie viele Punkte in
den einzelnen Intervallen (Klassen) liegen:
Xk = Anzahl der Zj ; die im Intervall Ik liegen
= Anzahl der Zj mit sk;1 < Zj sk
Wenn die Daten N (; 2 )-verteilt sind, so ist die Wahrscheinlichkeit, da ein Datenpunkt zur Klasse k gehort:
s ; s ; 2
; k;1
; 1 < k < m+1
pk (; ) = Ws(sk;1 < Zj sk ) = k s1 ; p1 (; 2 ) = Ws(Zj s1 ) = sm ; 2
pm+1 (; ) = Ws(sm < Zj ) = 1 ; 86
Diesmal mussen wir zwei Parameter schatzen, bevor wir den Chi-Quadrat-Test anwenden konnen, wodurch wir
zwei Freiheitsgrade verlieren. Die Teststatistik D ist unter der Hypothese H0 2d;3 -verteilt statt 2d;1 -verteilt.
Als Schatzer verwenden wir:
N
N
X
X
^ = ZN = N1
Zj ; ^ 2 = N1 (Zj ; ZN )2 = N N; 1 s2N
j =1
j =1
(^2 ist der Maximum-Likelihood-Schatzer fur 2 ; der hier benutzt werden mu). Die Teststatistik ist
D=
mX
+1
k=1
(Xk ; Npk (^; ^ 2))2 :
Npk (^; ^ 2 )
Fur die Wahl von d = m + 1 gilt dasselbe wie fur den Test auf Poisson-Verteilung: so gro wie moglich,
solange die Faustregel erfullt bleibt. Die Trennpunkte wahlt man symmetrisch um ^; wobei ^ entweder selbst
Trennpunkt ist oder in der Mitte des mittleren Intervalls liegt.
Chi-Quadrat-Anpassungstest fur Normalverteilung zum Niveau Modell: Z1; : : : ; ZN u.i.v. Zufallsgroen mit Werten in R
Xk = (Anzahl der j mit sk;1 < Zj sk ), k = 1; : : : ; m + 1
2m;2;1; = (1 ; )-Quantil von 2m;2 = 2d;3
Hypothese
Alternative
H0 verwerfen, wenn
Z1 ; : : : ; ZN sind Z1 ; : : : ; ZN sind
D > 2m;2;1;
normalverteilt nicht normalverteilt
Der Chi-Quadrat-Anpassungstest lat sich allgemein einsetzen, um Annahmen uber die Form der Klassenwahrscheinlichkeiten zu uberprufen. Dabei braucht diese Form nur bis auf endlich viele unbekannte Parameter
#1; : : : ; #l speziziert sein. Beim Test auf Poisson-Verteilung war l = 1; #1 = , beim Test auf Normalverteilung
war l = 2; #1 = ; #2 = 2 : Das Modell und das Entscheidungsproblem lauten also:
Modell: N Objekte (oder Personen) fallen unabhangig voneinander mit jeweils denselben
Wahrscheinlichkeiten pk = Ws (Objekt fallt in Klasse k); k = 1; : : : ; d;
in eine von d vorgegebenen Klassen.
Entscheidungsproblem: Gegeben Klassenwahrscheinlichkeiten p1 (#); : : : ; pd (#); wobei der l-dimensionale
Parameter # in einer gegebenen Parametermenge Rl variieren darf. Gilt pk = pk (#); k = 1; : : : ; d; fur ein
passendes #; oder haben die wahren Klassenwahrscheinlichkeiten p1 ; : : : ; pd eine andere Form?
Im ersten Schritt wird davon ausgegangen, da die Hypothese
H0 : pk = pk (#); k = 1; : : : ; d; fur ein # 2 gilt. Unter dieser Annahme wird der unbekannte Parametervektor # mit dem Maximum-Likelihood-Verfahren
geschatzt; der Schatzwert sei #^: Dann berechnet man wieder die Chi-Quadrat-Statistik
d (X ; Np (#^))2
X
k
k
D=
;
k (#^)
Np
k=1
wobei als hypothetische Klassenwahrscheinlichkeiten die Werte p1 (#^); : : : ; pd(#^) eingesetzt werden. Unter allen
Wahrscheinlichkeiten p1 (#); : : : ; pd (#) aus der Hypothese passen sie am besten zu den Daten. Unter den Bedingungen der Faustregel ist D wieder naherungsweise 2 -verteilt, allerdings mit d ; l ; 1 Freiheitsgraden. Die
Anzahl der Freiheitsgrade reduziert sich um die Zahl der aus den Daten geschatzten Parameter #1; : : : ; #l : Die
Entscheidungsregel lautet dann:
Verwirf H0 auf dem Niveau , wenn D > 2d;l;1; 1; , wobei 2d;l;1; das (1 ; )-Quantil der 2d;l;1 -Verteilung
ist.
87
Der allgemeine Chi-Quadrat-Anpassungstest lat sich { wie oben am Beispiel der Poisson- und Normalverteilung
beschrieben { einsetzen, um Verteilungsannahmen an die Daten zu uberprufen. Fur die Parameter der anderen
in Kapitel 3.2 behandelten Verteilungen (vor allem: Exp() und Weibull (; ), da sich die Lognormalverteilung
durch Logarithmieren der Daten auf die Normalverteilung zuruckfuhren lat) kann man die dort beschriebenen
Parameterschatzer benutzen, bei denen es sich ebenfalls um die Maximum-Likelihood-Schatzer handelt. Eine
weitere Anwendung des Chi-Quadrat-Tests lernen wir in Kapitel 5.7 kennen.
5.7 Kontingenztafeln und der Chi-Quadrat-Unabhangigkeitstest
Eine haug gestellte Frage ist die nach der Abhangigkeit zweier Merkmale oder Messungen, die an demselben
Objekt erhoben werden: Hat die Lage eines Grundstucks einen Einu auf dessen Wert? Beeinut das Alter
die Markenpraferenz beim Kauf eines Automobils?
Sind beide
Megroen quantitativ und konnen sie direkt oder nach einer geeigneten monotonen Transformation
(z.B. ln; p oder 1=:) als gemeinsam normalverteilte Zufallsgroe modelliert werden, so kann der Korrelationstest
aus Abschnitt 5.5 eingesetzt werden. Diese Moglichkeit scheidet also aus, wenn eines oder beide Merkmale
qualitativer Natur sind. Wir gehen im folgenden davon aus, da zwei Merkmale mit jeweils endlich vielen
Werten an insgesamt N Personen oder Objekten beobachtet werden und da die einzelnen Messungen auf
unabhangige und identische Weise erfolgen. Steht Xj fur das erste und Yj fur das zweite Merkmal am j-ten
Objekt, so liegen insgesamt N Beobachtungspaare (X1 ; Y1 ); : : : ; (XN ; YN ) vor. Wir nehmen an, da das erste
Merkmal m verschiedene und das zweite n verschiedene Werte fa1; : : : ; am g bzw. fb1; : : : ; bng annehmen kann.
Um die Notation einfach zu halten, identizieren wir jetzt den Wert eines Merkmals mit seiner Nummer, d.h.
wir setzen Xj = k, wenn der Wert des 1. Merkmals ak ist, etc. Die Xj sind somit Zufallsgroen mit Werten in
den Merkmalsnummern f1; : : : ; mg, und die Yj nehmen Werte aus f1; : : : ; ng an.
Insgesamt haben wir also das folgende Modell:
Modell: (X1 ; Y1 ); : : : ; (XN ; YN ) sind unabhangig, identisch verteilte Zufallsgroen mit Werten in den Zahlenpaaren f(k; l); k = 1; : : : ; m; l = 1; : : : ; ng; deren gemeinsame Verteilung durch die Wahrscheinlichkeitsgewichte
pkl = Ws(Xj = k; Yj = l); k = 1; : : : ; m; l = 1; : : : ; n
gegeben sind.
Beispiel: Eine Firma mochte die Aussagekraft von Diplomnoten uberprufen. Zu diesem Zweck werden 400 Mitarbeiter, die an dem
Programm teilgenommen haben, zufallig ausgewahlt. Die gegenwartigen Vorgesetzten werden nach ihren Leistungen befragt, wobei als
Kategorien "gut", "durchschnittlich" und "schlecht" zur Verfugung stehen. Aus dem Archiv wird herausgesucht, mit welcher Gesamtnote
die Mitarbeiter ihr Studium abgeschlossen haben (hierbei kommen nur 1, 2 und 3 vor). Die Frage ist nun, ob die Diplomnote und die
Leistung im Beruf voneinander abhangen oder nicht. Die Ausgangsdaten sind 400 Datenpaare (Xj ; Yj ); j = 1; : : : ; 400; wobei
Xj = Nr. der Einstufung der Berufsleistung (1 = "gut", : : : , 3 = "schlecht")
Yj = Note im Diplom
sind.
Da die Datenpaare unabhangig und auf identische Weise gewonnen werden, hangen statistische Entscheidungsverfahren nicht von der Reihenfolge, sondern nur von der Zahl der Beobachtungen ab, die einen bestimmten
Wert annehmen:
Zkl = Anzahl der Daten (Xj ; Yj ) mit Xj = k und Yj = l
k = 1; : : : ; m; l = 1; : : : ; n: Diese Anzahlen, die unsere auf das Wesentliche reduzierte Daten darstellen, werden
in Form einer (m n)-Kontingenztafel geschrieben:
/
Xj Yj
1
2
..
.
m
Spaltensumme
1
Z11
Z21
..
.
Zm1
Z1
2
Z12
Z22
..
.
Zm2
Z2
::: n
Zeilensummen
: : : Z1n
Z1
: : : Z2n
Z2
..
..
.
.
: : : Zmn
Zm
Zn Gesamtsumme = N
88
Beispiel (Forts.): Die 400 Leistungsbewertungen / Diplomnoten ergeben die folgende (33)-Kontingenztafel:
Diplomnote
1
2
3
63 49
9
gut
Leistung im Beruf
Zeilensummen
121
durchschnittl.
60
79
28
167
schlecht
29
152
60
188
23
60
112
400
Als abkurzende Schreibweise benutzen wir
Zk = Zk1 + Zk2 + : : : + Zkn
Zl = Z1l + Z2l + : : : + Zml
d.h. der Punkt gibt an, da uber den entsprechenden Index summiert wird. Z1 ist z.B. die Anzahl aller
Objekte, fur die das 1. Merkmal den ersten Wert annimmt:
Z1 = Anzahl der (Xj ; Yj ) mit Xj = 1:
Unter Ausnutzung der Additivitat von Wahrscheinlichkeiten erhalten wir
Ws(Xj = k) =
=
und entsprechend
Ws(Yj = l) =
n
X
Ws(Xj = k; Yj = l)
l=1
pk1 + : : : + pkl = pk
m
X
Ws(Xj = k; Yj = l)
k=1
p1l + : : : + pml = pl :
=
Wenn Xj und Yj unabhangig sind, die beiden Merkmale sich also nicht gegenseitig beeinussen, so gilt:
pkl = Ws(Xj = k; Yj = l) = Ws(Xj = k) Ws(Yj = l) = pk pl :
Der Test auf Unabhangigkeit reduziert sich damit auf einen Chi-Quadrattest: Die Klassen entsprechen den
moglichen Wertepaaren
(Xj ; Yj ) 2 Akl ; wenn Xj = k; Yj = l; k = 1; : : : ; m; l = 1; : : : ; n :
Die Klassenwahrscheinlichkeiten pkl haben unter der Hypothese eine bestimmte (multiplikative) Form:
pkl = pk pl ; die von den Parametern p1 ; : : : ; pm ; p1 ; : : : ; pn abhangt. Eektiv handelt es sich um m + n ; 2
frei wahlbare Parameter, da
p1 + : : : + pm = 1; p1 + : : : + pn = 1 :
Da die Parameter Wahrscheinlichkeiten sind, lassen sie sich durch relative Haugkeiten schatzen:
pk durch p^k = N1 Zk
pl durch p^l = N1 Zl
pkl durch p^kl = p^k p^l :
Wie in Abschnitt 5.6 erhalten wir als Chi-Quadrat-Statistik
m X
n (Z ; N p^ )2
X
kl
kl
D =
N
p
^
kl
k=1 l=1
n (Z ; 1 Z Z )2
m X
X
kl N k l
=
:
1
N Zk Zl
k=1 l=1
89
Unter der Hypothese ist dies ungefahr 2-verteilt mit
mn;Anzahl geschatzter Parameter ;1 = mn ; (m + n ; 2) ; 1 = (m ; 1)(n ; 1)
Freiheitsgraden.
Chi-Quadrat-Unabhangigkeitstest zum Niveau Modell: (X1; Y1); : : : ; (XN ; YN ) u.i.v. mit pkl = Ws(Xj = k; Yj = l); k = 1; : : : ; m; l = 1; : : : ; n:
Zkl = Anzahl der Objekte mit Xj = k; Yj = l
2
1
P P
Teststatistik: D = mk=1 nl=1 (Zkl;N1 ZNkZkZZl l )
2(m;1)(n;1);1; = (1 ; )-Quantil von 2(m;1)(n;1)
Bedingung: Npkl ; k = 1; : : : ; m; l = 1; : : : ; n erfullen die Faustregel
Hypothese
Alternative
H0 verwerfen, wenn
pkl = pkl = pk pl Xj ; Yj abhangig D > 2(m;1)(n;1); 1;
fur alle k; l; d.h.
Xj ; Yj unabhangig
Beispiel (Forts.):
Hypothese H0 : Diplomnote und Leistung im Beruf sind unabhangig.
Alternative H1 : Es bestehe eine Abhangigkeit.
Die Zeilen- und Spaltensumme Zk ; Zl liest man direkt aus der obigen Kontingenztafel ab. Als Hilfsgroen berechnet man (hier auf eine
Dezimale)
1 121 152 = 46; 0
lkl = N1 Zk Zl ; z.B. e11 = 400
1 121 188 = 56; 9
e12 = 400
1 112 60 = 16; 8
e33 = 400
Die Teststatistik D ist dann
m X
n (Zkl ; ekl )2 (63 ; 46; 0)2 (49 ; 56; 9)2
X
; 8)2 = 20; 34:
D=
=
+
+ : : : + (23 ;1616
e
46
;
0
56
;
9
;
8
kl
k=1 l=1
Die Anzahl der Freiheitsgrade ist (m ; 1)(n ; 1) = 2 2 = 4: Aus der Tabelle der 2-Verteilung erhalt man fur = 0:01 :
24;0:99 = 13:28:
Da D > 13:28; lehnen wir die Hypothese auf dem 1%-Niveau ab. Wir sind anhand der Daten ziemlich sicher, da die Leistung im Beruf
und die Diplomnote etwas miteinander zu tun haben.
5.8 Binomial- und Vorzeichentests
Ist X eine B(n;p)-verteilte Zufallsgroe, so nimmt X mit hoher Wahrscheinlichkeit Werte in der Nahe des Erwartungswerts E X = np an.
Dies lat sich fur den Test der Hypothese H0 : p = p0 benutzen: Unter der Hypothese sollte jX ; np0 j nicht zu gro sein. Weicht X zu
weit nach oben bzw. nach unten von np0 ab, wird die Hypothese verworfen.
Exakter Binomialtest fur die Erfolgswahrscheinlichkeit p zum Niveau Modell: X sei B(n; p)-verteilt
Teststatistik: X ;
bn;p; = -Quantil von B(n; p)
Hypothese
H0 : p = p0
oder p po
H0 : p = p0
oder p p0
H0 : p = p0
H0 verwerfen, wenn
X > bn;p0 ;1;
X < bn;po;
X > bn;p0 ;1;1
oder
X < bn;p0 ;2
mit
1 + 2 = ; 1 2 2
Alternative
H1 : p > p0
H1 : p < p0
H1 : p 6= p0
90
Anmerkung: Da die Binomialverteilung eine diskrete Verteilung ist, ist ihre Verteilungsfunktion F jeweils zwischen den Sprungstellen
0; 1; : : : ; n konstant. F nimmt also nur n + 1 verschiedene Werte an, so da auch nur fur n + 1 Werte das zugehorige -Quantil, d.h.
die Losung der Gleichung F (q ) = existiert. Fur Tests wahlt man daher zuerst ein Niveau ~ ; das den eigenen Anspruchen an die
Wahrscheinlichkeit fur Fehler 1. Art entspricht. Dann fuhrt man den Test auf einem Niveau ~ durch, fur das die in der obigen Tabelle
auftretenden Quantile existieren. Diese Quantile kann man (fur einige Werte von n und p0 ) aus Tabelle 1 ablesen.
Beispiel: 11 Weintester uberprufen blind den 94er und den 95er Jahrgang des Lautrer Betzenberg Spatlese. 9 von ihnen schmeckt der
94er besser. Kann
das noch Zufall sein? Da von vornherein nicht klar ist, welchen Wein die Tester vorziehen, betrachten wir die Hypothese
H0 : p = p0 = 21 gegen die Alternative H1 : p 6= 21 : H0 bedeutet, da die beiden Weine im Grunde gleich gut sind und nur der zufallige
personliche Tagesgeschmack eines Testers zu einer ~Entscheidung fur den einen oder den anderen fuhrt. Als Niveau1 fur den Test wahlen wir
~ = 5%: Zuerst suchen wir 1 ; 2 mit 1 2 2 ; fur die bn;p0 ;1;1 und bn;p0;2 existieren fur n = 11; p0 = 2 : In Tabelle 1 nden wir
das 0,0327-Quantil (=2) und das 0,9673-Quantil (=8), also 1 = 2 = 0; 0327 und = 1 + 2 = 0; 0654 (Fur p0 6= 21 ist i.a. 1 6= 2 ):
Wir fuhren den Test nun auf dem Niveau = 6; 54% durch (was keinen groen Unterschied zum ursprunglich geplanten Niveau ~ = 5%
macht). Da X = 9 > bn;p0 ;1;1 = 8; lehnen wir die Hypothese auf dem Niveau 6,54 % ab. Der 4er Jahrgang war wohl wirklich besser.
Wenn n gro genug ist, konnen wir die Normalapproximation der Binomialverteilung benutzen (vgl. Kapitel 2.9). Statt der binomialverteilten Zufallsgroe X benutzen wir die standardisierte Teststatistik
; np0 ; q0 = 1 ; p0 ;
X = Xpnp
0 q0
die unter der Hypothese H0 : p = p0 ungefahr N (0; 1)-verteilt ist.
Approximativer Binomialtest fur die Erfolgswahrscheinlichkeit p zum Niveau Modell: X sei B(n; p)-verteilt, 0 p 1; n gro
;np0 ; q = -Quantil von N (0; 1)
Teststatistik: X = pXnp
0 q0
Hypothese
H0 : p = p0
oder P p0
H0 : p = p0
oder p p0
H0 : p = p0
H0 verwerfen, wenn
X > q1;
X < q = ;q1;
jX j > q1; 2
Alternative
H1 : p > p0
H1 : p < p0
H1 : p 6= p0
Beispiel: Bei der letzten Wahl hat die ABC-Partei einen Stimmanteil von p0 = 0; 1 = 10% erhalten. Nachdem ein Jahr vergangen ist,
sprechen sich in einer Umfrage unter n = 500 Wahlberechtigten nur noch X = 42 fur ABC aus. Deutet dies auf eine sinkende Popularitat
der Partei hin? Unter der Hypothese H0 , da weiterhin p0 = 10% der Wahler fur ABC stimmen wurden, ist X B(n; p0 )-verteilt. Wir testen
dies auf dem Niveau = 5% gegen die Alternative sinkende Popularitat H1 : p < p0 : Die Teststatistik ist
X = p50042 ;0; 50
1 0; 9 = ;1; 19:
Das 5%-Quantil von N (0; 1) ist (Tabelle 3 oder letzte Zeile der Tabelle 4): q0:05 = ;1; 645 < X : Also ist die Hypothese H0 : p = 0; 1
noch mit den Daten vertraglich.
Der (exakte oder approximative) Binomialtest lat sich in der Form des Vorzeichentests auch auf gepaarte Beobachtungen anwenden,
wobei die Daten auch qualitativer Natur sein konnen (im Gegensatz zum Vergleich gepaarter Beobachtung mit dem Einstichproben-t-Test
{ vgl. Kapitel 5.2). Ausgangspunkt sind gepaarte Beobachtungen an N unabhangigen Objekten (oft: Vorher-Nachher-Daten). U berpruft
wird, ob der jeweils erste Datenwert eines Paars tendenziell groer (oder - bei qualitativen Daten { besser) ist als der zweite. Es kann auch
vorkommen, da beide Werte gleich gro (gleich gut) sind. Solche Beobachtungspaare entfernen wir der Einfachheit halber vor dem Test aus
der Stichprobe; es gibt aber Modikationen des Vorzeichentests, die die in solchen "Bindungen" (engl. "ties") enthaltene Information mit
benutzen. Nach Entfernen dieser "Bindungen" bleiben n Datenpaare ubrig, von denen bei einem Teil { bei X Paaren { der erste Datenwert
groer oder besser ist, wahrend beim Rest { bei n ; X Paaren { es sich gerade umgekehrt verhalt. Damit sind wir wieder in der Situation
eines Binomialexperiments: Die Anzahl X der "Erfolge"1 ist B(n; p)-verteilt, und wenn es zwischen dem ersten und zweiten Datenwert1
eines Paars tendenziell keinen Unterschied gibt, ist p = 2 : Letzteres lat sich durch einen Binomialtest der Hypothese H0 : p = p0 = 2
uberprufen.
Beispiel (Vorzeichentest): Ein neues Rezept fur Tomatensuppe in Dosen soll uberpruft werden. 10 Geschmackstester erhalten (neben
verschiedenen Konkurrenzprodukten) je eine Suppe nach altem und nach neuem Rezept zum Kosten. Sie bewerten die Suppen mit jeweils
0 bis 10 Punkten.
Tester
Bewertung
Dierenz
Vorzeichen
alt
neu
A
6
8
-2
-
B
4
9
-5
-
C
5
4
1
+
D
8
7
1
+
E
3
9
-6
-
F
6
9
-3
-
G
7
7
0
0
H
5
9
-4
-
I
8
9
-1
-
J
6
5
1
+
Die 2. und 3. Zeile der Tabelle zeigen die Bewertungen. Es tritt eine Bindung auf (Tester G), die beim Test nicht berucksichtigt wird. Der
Stichprobenumfang reduziert sich so auf n = 9; da n klein ist, fuhren wir den Vorzeichentest in Form eines exakten Binomialtests durch.
Die Anzahl der positiven Vorzeichen ist X = 3:
Wir mochten nachweisen, da das neue Rezept besser schmeckt als das alte. Daher testen wir
H0 : p 12 (neu ist nicht besser als alt, Ws(+) 12 )
gegen H1 : p < 21 (neu besser als alt, Ws(+) < 21 ):
91
Als Niveau wahlen wir erst 5%; aus Tabelle 1 (fur n = 9; p0 = 12 ) sieht man, da nur die Niveaus 0,0195 ( 2%) und 0,0898 ( 9%)
moglich sind. Wir entscheiden uns fur das kleinere Niveau. Das entsprechende Quantil ist
bq; 21 ;0:0195 = 1 < X;
so da wir die Hypothese auf dem Niveau 2% akzeptieren. Die Daten sind nicht schlussig genug, um mit dem Vorzeichentest den
besseren Geschmack der neuen Suppe nachweisen zu konnen.
Anmerkung: Aus der 4. Zeile der Tabelle sieht man, da die Tester, die der neuen Suppe den Vorzug gegeben haben, dies meist deutlich
getan haben (groe Punktdierenz), wahrend den Testern C,D,J die alte Suppe nur wenig besser geschmeckt hat. Diese Information, die fur
die neue Suppe spricht, fallt beim Vorzeichentest unter den Tisch. Die Anwendung des Einstichproben-t-Tests auf die Dierenzen scheidet
aber aus, da die Daten qualitativer Natur und nur willkurlich mit Zahlen kodiert sind, auf jeden Fall aber nicht annahernd normalverteilt
sind. Fur solche Falle bietet die nichtparametrische Statistik (zu der auch der Vorzeichentest gehort) alternative Verfahren, z.B. den
Wilcoxon-Test, die auf die Daten der Tabelle angewandt werden konnen und eine groere Macht haben, d.h. sie entdecken Unterschiede
zwischen dem ersten und zweiten Wert eines Datenpaars eher als der Vorzeichentest.
Es ist oft von Interesse, ob der Anteil an Objekten oder Personen aus zwei verschiedenen Populationen, die ein bestimmtes Merkmal haben,
gleich sind. Ausgangspunkt der Untersuchung sind zwei Stichproben vom Umfang n bzw. m aus den beiden Populationen, von denen X
bzw. Y Objekte/Personen das interessierende Merkmal haben. p1 bzw. p2 seien die wahren Anteile des Merkmals in der ersten bzw. der
zweiten Population. Wir schatzen sie durch die relativen Haugkeiten in den Stichproben:
Y:
p^1 = Xn und p^2 = m
Als Hilfsgroe benotigen wir noch
p^ = Xn ++ mY ;
die relative Haugkeit der Objekte/Personen mit dem Merkmal in der kombinierten Stichprobe des Umfangs n + m aus beiden Populationen.
Wenn p1 = p2 , dann ist fur groe n und m (was bei den Anwendungen dieses Tests in der Regel der Fall ist, so da wir nicht auf die
exakten Binomialwahrscheinlichkeiten zuruckgreifen mussen)
=
p^1 ; p^2
+m
p^(1 ; p^) nnm
q
ungefahr standardnormalverteilt.
Zwei-Stichproben-Binomialtest zum Niveau Modell:
X sei B(n;p1 )-verteilt, Y B(m; p2 )-verteilt, und X; Y unabhangig,
0 p1 ; p2 1; n; m gro
Teststatistik:
q
+m
= (^p1 ; p^2 )= p^(1 ; p^) nnm
q = -Quantil von N (0; 1)
Hypothese
H0 : p1 = p2
oder p1 p2
H0 : p1 = p2
oder p1 p2
H0 : p1 = p2
Alternative
H1 : p1 > p2
H1 : p1 < p2
H1 : p1 6= p2
H0 verwerfen, wenn
> q1;
< q = ;q1;
jj > q1; 2
Anmerkung: Im Gegensatz zum Zwei-Stichproben-t-Test mu keine Bedingung an die Varianzen gestellt werden. p^1 ; p^2 sind ja Stichprobenmittel von 0-1-Zufallsgroen, die unter der Hypothese H0 : p1 = p2 nicht nur denselben Erwartungswert p1 = p2 , sondern automatisch auch dieselbe Varianz p1 (1 ; p1 ) = p2 (1 ; p2 ) haben. Aus Monotoniegrunden lat sich der Test dann auch auf Hypothesen der Form
H0 : p1 p2 (oder p1 p2 ) anwenden.
Beispiel: Ein Produzent hat den Verdacht, da seine Weinbrandmarke Landmanns Uralt bei den jungeren Kauferschichten nicht mehr
ankommt. Er denkt an die Einfuhrung einer neuen Marke, deren Verpackung (bei gleichem Inhalt) vor allem den jungen Verbraucher
ansprechen soll. Vorher mochte er aber sicher sein, da ihn sein Gefuhl nicht trugt, und beauftragt ein Marktforschungsinstitut mit einer
entsprechenden Umfrage. Je 500 Weinbrandkaufer unter 30 bzw. uber 40 werden gefragt, fur welche Marke sie sich entschieden haben.
X = 48 junge und Y = 83 alte Verbraucher haben dabei zu Landmanns Uralt gegrien. Ist dies Zufall, oder ist der Anteil p1 der Liebhaber
dieser Marke unter den jungen Weinbrandfreunden tatsachlich kleiner als der Anteil p2 unter den alteren?
Wir testen H0 : p1 p2 gegen H1 : p1 < p2 :
48 = 0; 096 ; p^2 = 83 = 0; 166
p^1 = 500
500
p^
=
=
131
1000 = 0; 131
q ;0;071000 = ;3; 075
p^(1;p^) 500500
Da die Einfuhrung einer neuen Marke eine kostspielige Angelegenheit ist, wahlen wir als Niveau = 0; 5%: Da
< ;2; 576 = q0;005 ;
konnen wir die Hypothese H0 : p1 p2 auf dem 0,5%-Niveau verwerfen. Wir sind also ziemlich sicher, da man etwas fur den Marktanteil
unter den Verbrauchern bis 30 tun sollte.
92
Musterklausur
1. Aufgabe: (1+1+3+1) = 6
Bei der Untersuchung der Auswirkung eines Medikaments auf das Wachstum wurde 15 Kalbern das Mittel verabreicht. Einer Vergleichsgruppe mit 20 Kalbern wurde das Mittel nicht gegeben. Nach dem Ende der Versuchszeit wurde die Gewichtszunahme der
Tiere (in kg) ermittelt.
Bei der ersten Gruppe errechnete man als Mittelwert fur die Gewichtszunahme 8,1 kg und eine Stichprobenvarianz von (1,3 kg)2 : Bei der zweiten Gruppe betrug der Mittelwert 7,6 kg, die Stichprobenvarianz (1,2 kg)2 :
Testen Sie, ob das Medikament das Wachstum beeinut (in dem Sinn, da die erwartete Gewichtszunahme in der ersten Gruppe
groer ist) unter der Annahme, da die Gewichtszunahmen unabhangig und normalverteilt sind.
2. Aufgabe: (1+1+3) = 6
Bei einer Umfrage von 500 zufallig ausgewahlten wahlberechtigten Personen einer Grostadt sprachen sich 224 fur die geplante
neue Stadthalle aus. Schatzen Sie den Anteil der wahlberechtigten Einwohner, die die Stadthalle befurworten. Berechnen Sie ein
Kondenzintervall fur diesen Anteil. Drucken Sie das Ergebnis in Worten aus.
3. Aufgabe: ((1+1+5+1) = 8
Bei der Produktion eines Werkstuckes sei der Materialverbrauch (in g) pro Stuck normalverteilt. Bei einer Stichprobe vom Umfang
20 werden die Werte x1 ; : : : ; x20 ermittelt. Insbesondere ergab sich
20
X
i=1
xi = 205 ;
20
X
i=1
(xi ; x)2 = 494 :
a) Berechnen Sie ein Kondenzintervall fur den erwarteten Materialverbrauch.
b) Wenn die Varianz des Materialverbrauchs den Wert 22 uberschreitet, soll die Anlage neu eingestellt werden. Da dies mit
erheblichen Kosten verbunden ist, soll die Neueinstellung erst dann vorgenommen werden, wenn mit relativ groer Sicherheit
behauptet werden kann, da die Varianz den Wert 22 uberschreitet. Benutzen Sie ein geeignetes Testverfahren, um zu prufen,
ob bei den vorliegenden Daten eine Neueinstellung vorgenommen werden mu.
4. Aufgabe: (1+1+2) = 4
Die Anzahl der Autos, die zwischen 3 und 4 Uhr morgens eine bestimmte Tankstelle anfahren, sei P ();verteilt, = 5:
Wie gro ist die Wahrscheinlichkeit, da in dieser Zeit mehr als 3 Autos kommen? Mit wievielen Autos kann der Tankwart im Mittel
rechnen?
5. Aufgabe: (1+0+3+1) = 5
Der Hopfenertrag (in Zentner pro Hektar) eines Anbaugebietes sei N (; 8)-verteilt. Auf 7 Flachen wurden folgende Hektarertrage
gemessen:
35,5 39,0 34,0 33,5 32,0 35,0 30,0 .
Berechnen Sie einen geeigneten Schatzer und ein Kondenzintervall fur :
6. Aufgabe: (1+1+3+1) = 6
Die folgende Tabelle zeigt die Milchleistung (in Hektoliter pro Jahr) von 125 Milchkuhen einer bestimmten Zuchtung. Testen Sie,
ob die Milchleistung durch eine N (34; 25)-verteilte Zufallsgroe angemessen beschrieben wird.
Milchleistung
Anzahl der Kuhe
Hinweis:
28 28-32 32-36 36-40 > 40
11
29
41
33
11
Berechnen Sie
pi = Ws(fMilchleistung liegt zwischen zi und zi + 1g) fur
z0 = ;1 ; z1 = 28 ; z2 = 32 ; z3 = 36 ; z4 = 40 ; z5 = 1 :
Allgemeine Hinweise:
- Verwenden Sie bei der Berechnung von Tests und Kondenzintervallen geeignete Signikanzniveaus bzw. Sicherheitsniveaus
(1 ; ):
- Die Zahlen in Klammern geben einen Anhaltspunkt fur die Verteilung der Punkte fur die Losung. Dabei ist fur (i + j + k + l)
i die Punktzahl fur die richtige Modellbeschreibung, j die Punktzahl fur die richtige Problemstellung, k die Punktzahl fur die
richtige Losung der Problemstellung, l die Punktzahl fur die richtige Schlufolgerung.
Losungsstrategie:
1. Was sind die Daten?
(Evtl. sind sie nicht im einzelnen gegeben, um Rechenschritte zu sparen)
2. Welches statistische Modell fur den Mechanismus, der die Daten erzeugt, liegt vor?
3. Was ist das Problem?
(Angabe von Schatzwert - Angabe von Bereich, in dem unbekannte Groe ziemlich sicher liegt (Kondenzintervall) { Entscheidung
treen (Hypothesentest))
4. Welches Verfahren? (Schatzer, Test etc.)
5. Einsetzen der Zahlenwerte und Ausrechnen
6. Formulierung des Ergebnisses. Fur Kondenzintervalle und Tests auerdem: Diskussion des Ergebnisses, d.h. insbesondere der
Irrtumswahrscheinlichkeiten.
93
Anmerkung: die letzte Zeile = inf, die fur 30 benutzt werden kann,
enthalt die Quantile der Standardnormalverteilung N (0; 1): Fur
groe ahnelt die t -Verteilung immer mehr N (0; 1):
94
Herunterladen