Stochastik f¨ur Lehramtsstudierende

Werbung
Jan Kallsen
Stochastik für Lehramtsstudierende
CAU Kiel, SS 2014, Stand 14. Juli 2015
Inhaltsverzeichnis
1
2
3
Grundbegriffe der beschreibenden Statistik
1.1 Grundgesamtheit, Merkmale, Stichproben . . . . . . . . . . . .
1.2 Empirische Verteilung von Merkmalen . . . . . . . . . . . . . .
1.3 Lage- und Streuungsmaße . . . . . . . . . . . . . . . . . . . .
1.3.1 Beschreibung des Zentrums der Daten . . . . . . . . . .
1.3.2 Beschreibung der Streuung der Daten . . . . . . . . . .
1.3.3 Weitere Maßzahlen für die Form der Daten . . . . . . .
1.3.4 Maßzahlen für gemeinsames Verhalten bivariater Daten .
1.4 Methode der kleinsten Quadrate (empirische Regression) . . . .
Wahrscheinlichkeitsrechnung
2.1 Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . .
2.1.1 Diskrete Wahrscheinlichkeitsräume . . . . . . . . . .
2.1.2 Kombinatorik . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . .
2.1.4 Exkurs zur Maßtheorie . . . . . . . . . . . . . . . . .
2.1.5 Unabhängigkeit und bedingte Wahrscheinlichkeiten . .
2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Zufallsvariablen im diskreten Fall . . . . . . . . . . .
2.2.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . .
2.2.3 Erwartungswert und Momente . . . . . . . . . . . . .
2.2.4 Zufallsvariablen im allgemeinen Fall . . . . . . . . .
2.3 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Konvergenzbegriffe . . . . . . . . . . . . . . . . . . .
2.3.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . .
2.3.3 Verteilungsapproximation und zentraler Grenzwertsatz
Schließende Statistik
3.1 Statistische Modellbildung . . . . . . . . .
3.2 Parameterschätzung . . . . . . . . . . . . .
3.2.1 Konstruktionsmethoden für Schätzer
3.3 Testen von Hypothesen . . . . . . . . . . .
3.4 Konfidenzintervalle . . . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
10
12
13
14
15
17
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
20
20
24
28
29
37
42
42
45
49
57
66
66
68
70
.
.
.
.
.
80
80
82
86
92
102
INHALTSVERZEICHNIS
3.5
Elemente der Bayesschen Statistik
3.5.1 Schätzen . . . . . . . . .
3.5.2 Konfidenzbereiche . . . .
3.5.3 Testen . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
104
106
107
108
4
INHALTSVERZEICHNIS
Die Vorlesung besteht aus drei Teilen:
1. Beschreibende Statistik (kurz): (Nur) Erhebung und Darstellung von Daten, keine mathematische Theorie im engeren Sinne
2. Wahrscheinlichkeitsrechnung: Prognosen über zukünftige Ereignisse, Berechnung der
Wahrscheinlichkeiten komplexerer Ereignisse auf Grundlage der Wahrscheinlichkeiten einfacher Ereignisse
3. Mathematische/Schließende Statistik: Bestimmung der für die Wahrscheinlichkeitsrechnung benötigten Wahrscheinlichkeiten auf Grundlage von Daten
Kapitel 1
Grundbegriffe der beschreibenden
Statistik
Der Begriff Statistik“ stammt aus dem Staatswesen bzw. der Staatskunde. Die beschrei”
bende (deskriptive) Statistik befasst sich mit der Erhebung und Darstellung von Daten,
die schließende (beurteilende, induktive, inferentielle, mathematische) Statistik schließt auf
Grundlage von Stichproben bzw. Daten auf die Grundgesamtheit bzw. den zu Grunde liegenden Zufallsmechanismus.
1.1
Grundgesamtheit, Merkmale, Stichproben
Definition 1.1.1 Die Grundgesamtheit oder Population Ω ist die Menge aller denkbaren
Beobachtungseinheiten, auf die sich die statistische Untersuchung bezieht. Die Elemente
ω ∈ Ω heißen Merkmalsträger.
Beispiel 1.1.2
Ω1 := {ω : ω Hörer der Vorlesung},
Ω2 := {ω : ω hat gültige Stimme bei letzter Landtagswahl abgegeben}.
Von Interesse sind oft weniger die Merkmalsträger selbst, sondern bestimmte Eigenschaften
(Merkmale):
Definition 1.1.3 Ein Merkmal ist eine Abbildung X : Ω → R (oder allgemeiner X : Ω →
M mit einer beliebigen Menge M ). X(Ω) heißt Menge der Merkmalsausprägungen. X
heißt quantitatives Merkmal, falls X(Ω) ⊆ R, sonst qualitatives Merkmal. Ein quantitatives Merkmal heißt diskret, falls es nur isolierte Zahlenwerte annimmt, und stetig, falls es
prinzipiell jeden Wert eines Intervalls annehmen kann.
Beispiel 1.1.4
X1 : Ω1 → {männlich, weiblich}, ω 7→ Geschlecht von ω; qualitatives Merkmal.
X2 : Ω1 → {sehr gut, gut, befriedigend, ausreichend}, ω 7→ Abiturnote von ω; qualitatives
5
6
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Merkmal, aber äquivalent dazu:
X3 : Ω1 → {1, 2, 3, 4}, ω 7→ Abiturnote von ω; diskretes quantitatives Merkmal.
X4 : Ω1 → R, ω 7→ Körpergröße von ω; stetiges quantitatives Merkmal.
X5 : Ω2 → {CDU, SPD, FDP, Grüne, Linke, SSW, Sonstige}, ω 7→ gewählte Partei (Zweitstimme); qualitatives Merkmal.
Bemerkung 1.1.5 Unterscheidung nach Skalentypen:
metrische/kardinale quantitative Merkmale: Zahlenwert X(ω) hat Bedeutung (vgl. X4
oben).
ordinale Merkmale: Rang hat Bedeutung, (Zahlen-)Wert an sich nicht (vgl. X2 , X3 oben).
nominale Merkmale: keine Struktur auf X(Ω) in obigem Sinne (vgl. X1 , X5 oben).
Die vollständige Erhebung der Population Ω ist wünschenswert, aber aus praktischen Gründen oft nicht möglich. Daher erfolgt die Beschränkung auf eine Teilerhebung/Stichprobe.
Definition 1.1.6 Sei n ∈ N. Teilmengen {ω1 , . . . , ωn } ⊆ Ω der Grundgesamtheit werden
als (empirische) Stichprobe bezeichnet. Falls X : Ω → R (bzw. M ) ein Merkmal ist, nennt
man auch (X(ω1 ), . . . , X(ωn )) (empirische) Stichprobe oder Messreihe, Urliste, Daten (des
Merkmals X). Eine Stichprobe heißt zufällig, wenn jedes Element der Population die gleiche
Aussicht hatte, in die Stichprobe aufgenommen zu werden.
Bemerkung 1.1.7
1. Obwohl die Reihenfolge unerheblich ist, bezeichnen wir nicht
{X(ω1 ), . . . , X(ωn )} als Stichprobe, da sonst Informationen über die Häufigkeit verloren gingen.
2.
Repräsentative“ Stichprobe: Das soll andeuten, dass die Stichprobe die Population
”
bezüglich des Merkmals X gut repräsentiert. Die konkrete Bedeutung des Begriffs ist
aber nicht immer klar.
3. Schlüsse von (zufälligen) Stichproben auf die Population sind Aufgabe der schließenden Statistik.
1.2
Empirische Verteilung von Merkmalen
Definition 1.2.1 Sei n ∈ N. Sei X : Ω → M ein Merkmal und (x1 , . . . , xn ) Stichprobe des
Merkmals X. Für A ⊆ M heißen
h(A) :=
n
X
1A (xi )
absolute Häufigkeit von A und
i=1
r(A) :=
1
h(A)
n
relative Häufigkeit von A
1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN
7
in der Stichprobe. Dabei sei
1A :=
(
1 falls x ∈ A,
0 sonst.
Die Abbildungen h : P(M ) → R bzw. r : P(M ) → R nennen wir empirische Häufigkeitsverteilung des Merkmals X in der Stichprobe, wobei P(M ) := {A : A ⊆ M } die
Potenzmenge von M sei.
Bemerkung 1.2.2
1. h(A): Wie oft taucht eine A-wertige Beobachtung in der Stichprobe auf?
r(A): Anteil der A-wertigen Beobachtungen an der Stichprobe
2. Eigenschaften:
r(∅) = 0 (da 1∅ (x) = 0 für alle x ∈ M ).
r(M ) = 1 (da 1M (x) = 1 für alle x ∈ M ).
r(A ∪ B) = r(A) + r(B), falls A, B ⊆ M disjunkt sind (da 1A∪B = 1A + 1B , falls
A ∩ B = ∅).
3. Häufigkeiten sind bei stetigen Merkmalen (vgl. X4 in 1.1.4) wenig sinnvoll, da Werte
in der Regel nur einmal auftreten. Stattdessen wird eine Bildung von Klassen vorgenommen, d. h. eine Partition von Ω in disjunkte Intervalle (ai−1 , ai ], i = 1, . . . , n.
Faustregeln: konstante Intervalllänge, einfache“ Intervallgrenzen, Anzahl der Inter”
√
valle m ≈ n falls 5 ≤ m ≤ 25.
Bemerkung 1.2.3 (Darstellung von Häufigkeiten). Beispiel: Landtagswahl SchleswigHolstein.
1. Tabelle: Vergleiche Abbildung 1.1.
2. Stabdiagramm: Vergleiche Abbildung 1.2.
3. Kreisdiagramm: Vergleiche Abbildung 1.3.
Beispiel: Körpergewicht von Schülern.
1. Histogramm: Vergleiche Abbildung 1.4.
2. Stamm- und Blattdarstellung: Vergleiche Abbildung 1.5.
Bezeichnung 1.2.4 (Eigenschaften von Histogrammen/Verteilungen). Vergleiche Abbildung 1.6.
8
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Abbildung 1.1: Tabelle.
Abbildung 1.2: Stabdiagramm.
Abbildung 1.3: Kreisdiagramm.
1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN
Abbildung 1.4: Histogramm.
Abbildung 1.5: Stamm- und Blattdarstellung: Links befindet sich der Stamm, rechts das Blatt.
Abbildung 1.6: Eigenschaften von Histogrammen: a) unimodal eingipflig; b) bimodal zweigipflig;
c) linksschief, rechssteil; d) symmetrisch; e) rechtssteil, linksschief.
9
10
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Definition 1.2.5 Sei n ∈ N. Seien X : Ω → R quantitative Merkmale und (x1 , . . . , xn ) eine
Stichprobe von X. Die Funktion F : R → R mit
n
1X
F (x) := r((−∞, x]) =
1(−∞,x] (xi )
n i=1
heißt empirische Verteilungsfunktion des Merkmals in der Stichprobe.
Satz 1.2.6 Sei F die empirische Verteilungsfunktion des Merkmals X in der Stichprobe
(x1 , . . . , xn ). Dann gelten:
1. F ist monoton steigend,
2. F ist rechtsseitig stetig,
3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.
Beweis. Klar.
Bemerkung 1.2.7 (Darstellung von Häufigkeiten multivariater (= mehrdimensionaler)
Merkmale)
1. Kontingenztabelle (für bivariate diskrete Merkmale)
Beispiel: Ω = {ω : ω erwachsener Bundesbürger},
X : Ω → {überhaupt nicht, etwas, ziemlich, sehr} × {1, 2, 3, 4, 5},
ω 7→ (Beeinträchtigung durch Umweltschadstoffe, Schulabschluss)(ω),
wobei 1“ = ungelernt, . . . , 5“ = Hochschulabschluss.
”
”
(Vergleiche Abbildungen 1.7 und 1.8).
2. Streudiagramme (für bivariate stetige Merkmale)
Beispiel: Ω = {ω : ω Kieler Mietwohnung},
X : Ω → R2 , ω 7→ (Fläche von ω, Nettomiete von ω).
(Vergleiche Abbildung 1.9).
1.3
Lage- und Streuungsmaße
Wir befassen uns nun mit Maßzahlen und Objekten zur Beschreibung der Lage bzw. Streuung der Daten auf der Zahlengeraden. Seien x1 , . . . , xn ∈ R Daten (Stichprobe eines quantitativen Merkmals).
1.3. LAGE- UND STREUUNGSMASSE
Abbildung 1.7: Kontingenztabelle: Absolute Werte.
Abbildung 1.8: Kontingenztabelle: Relative Werte.
Abbildung 1.9: Streudiagramm.
11
12
1.3.1
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Beschreibung des Zentrums der Daten
Definition 1.3.1
n
1X
x :=
xi
n i=1
heißt arithmetisches Mittel von (x1 , . . . , xn ).
Bemerkung 1.3.2 Schwerpunkteigenschaft:
n
X
(xi − x) = 0.
i=1
Das arithmetische Mittel ist eher instabil im Hinblick auf Ausreißer“, also extreme Beob”
achtungen, die zufällig oder durch Erhebungsfehler im Datensatz auftreten. Robuster ist der
Median:
Definition 1.3.3 Seien (x(1) , . . . , x(n) ) die nach Größe aufsteigend geordneten Daten, also x(1) ≤ x(2) ≤ · · · ≤ x(n−1) ≤ x(n) . Der empirische Median (Zentralwert) x1/2 von
(x1 , . . . , xn ) ist definiert als
x1/2 :=
(
x( n+1 )
falls n ungerade,
2
1
(x( n2 )
2
+ x( n2 +1) )
falls n gerade.
Bemerkung 1.3.4 Jeweils mindestens 50% der Daten sind größer oder gleich bzw. kleiner
oder gleich dem empirischen Median.
Für diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus
interessant:
Definition 1.3.5 Der Modus (Modalwert) xmod der Daten (x1 , . . . , xn ) ist der am häufigsten
auftretende Wert (falls ein solcher existiert).
Beispiel 1.3.6 Daten (beispielsweise Studiendauern in Semestern):
(x1 , . . . , x10 ) = (11, 10, 8, 11, 30, 9, 13, 11, 10, 12).
geordnete Daten: (x(1) , . . . , x(10) ) = (8, 9, 10, 10, 11, 11, 11, 12, 13, 30).
arithmetisches Mittel: x = 12,5.
empirischer Median: x1/2 = 21 (x(5) + x(6) ) = 11.
Modus: xmod = 11.
Bemerkung 1.3.7 Weitere Mittelwerte:
Q
1
1. geometrisches Mittel: xg := ( ni=1 xi ) n ,
P
2. harmonisches Mittel: xh := n( ni=1 x1i )−1 ,
1.3. LAGE- UND STREUUNGSMASSE
13
3. α-getrimmes Mittel: arithmetisches Mittel der Daten, die übrig bleiben, wenn zuvor
die 100α% größten und kleinsten Werte entfernt wurden. Das α-getrimme Mittel ist
also robuster gegen Ausreißer.
Eine Verallgemeinerung des Medians stellen die Quantile dar:
Definition 1.3.8 Seien (x(1) , . . . , x(n) ) wie in Definition 1.3.3. Für p ∈ (0, 1) wird das empirische p-Quantil xp von (x1 , . . . , xn ) definiert durch
(
x([np+1])
falls np ∈
/ N,
xp := 1
(x(np) + x(np+1) ) falls np ∈ N,
2
wobei [y] := max{k ∈ N : k ≤ y}.
Bemerkung 1.3.9 Mindestens 100p% der Daten sind kleiner oder gleich xp . Mindestens
100(1 − p)% der Daten sind größer oder gleich xp .
Bezeichnung 1.3.10 x1/4 heißt unteres Quartil, x3/4 heißt oberes Quartil.
Beispiel 1.3.11 Für die Daten aus Beispiel 1.3.6 gilt x1/4 = x(3) = 10, x3/4 = x(8) = 12.
1.3.2
Beschreibung der Streuung der Daten
Definition 1.3.12 Sei n ∈ N.
n
1 X
(xi − x)2
s2 :=
n − 1 i=1
1
=
n−1
n
X
!!
x2i − nx2
i=1
heißt√empirische Varianz von (x1 , . . . , xn ).
s = s2 heißt empirische Standardabweichung (Streuung) von (x1 , . . . , xn ).
Bemerkung 1.3.13
1. Warum 1/n−1 und nicht 1/n? Diese Frage wird in Kapitel 3 thematisiert werden, vgl. Bemerkung 3.2.7.
2. s besitzt dieselbe Einheit“ wie die Daten (beispielsweise m, kg oder Semester), s2
”
hingegen nicht.
Definition 1.3.14 Weitere Streuungsmaße:
1
n
Pn
2. mittlere absolute Abweichung:
sL :=
Pn
1
3. Interquartilsabstand:
x3/4 − x1/4
4. Stichprobenspannweite/-variationsbreite:
x(n) − x(1)
5. Variationskoeffizient (für positive Daten):
s/x
1. mittlere lineare Streuung:
n
i=1
i=1
|xi − x1/2 |
|xi − x|
Bemerkung 1.3.15 (Graphische Darstellung). Kistendiagramm (Box-Plot): Vergleiche Abbildung 1.10.
14
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Abbildung 1.10: Box-Plot:
a) Extrem große Beobachtungen (Ausreißer),
b) größte normale Beobachtung: max xi : xi ≤ x3/4 +
c) oberes Quartil x3/4 ,
d) Median x1/2 ,
e) unteres Quartil x1/4 ,
f) kleinste normale Beobachtung: min xi : xi ≥ x1/4 −
g) extrem kleine Beobachtungen (Ausreißer).
1.3.3
3
2
x3/4 − x1/4
3
2
x3/4 − x1/4
,
,
Weitere Maßzahlen für die Form der Daten
Definition 1.3.16
n
m3
1X
b3 := 3 mit m3 :=
(xi − x)3
s
n i=1
heißt Schiefe von (x1 , . . . , xn ).
n
m4
1X
b4 := 4 − 3mit m4 :=
(xi − x)4
s
n i=1
heißt Wölbung (Exzess, Kurtosis) von (x1 , . . . , xn ).
Bemerkung 1.3.17
1. Die Schiefe beschreibt die Asymmetrie der Daten (Links/Rechtssteilheit): GRAFIK
2. Die Wölbung beschreibt, ob Randbereiche und Zentrum stark bzw. schwach besetzt
sind. GRAFIK Das Teilen durch s3 , s4 führt dazu, dass es sich bei b3 , b4 um dimensionslose Zahlen handelt. Der Summand −3“ ist dadurch motiviert dass die
”
Wölbung bei in diesem Sinne bei der Normalverteilung verschwindet, vgl. Bemerkung 2.3.26(2).
1.3. LAGE- UND STREUUNGSMASSE
1.3.4
15
Maßzahlen für gemeinsames Verhalten bivariater Daten
Seien (x1 , y1 ), . . . , (xn , yn ) ∈ R2 Daten (Stichprobe eines R2 -wertigen Merkmals (X, Y )).
Definition 1.3.18
n
sXY
1 X
:=
(xi − x)(yi − y)
n − 1 i=1
heißt empirische Kovarianz von ((x1 , y1 ), . . . , (xn , yn )). Im Falle s2X 6= 0, s2Y 6= 0 heißt
sXY
τXY := p 2 2
sX sY
empirische Korrelation von ((x1 , y1 ), . . . , (xn , yn )), wobei s2X , x2Y die empirischen Varianzen von (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) seien.
Bemerkung 1.3.19 Die empirische Korrelation beschreibt den linearen Zusammenhang
von Daten: Vergleiche Abbildung 1.13.
Eigenschaften (bewiesen in Satz 2.2.32):
1. −1 ≤ %XY ≤ 1,
2. %XY = ±1 gilt genau dann, wenn es a ∈ R, b ∈ (0, ∞) derart gibt, dass für alle
i ∈ {0, . . . , n} gilt: yi = a ± bxi .
16
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
Abbildung 1.11: Schiefe: a) b3 > 0, b) b3 < 0.
Abbildung 1.12: Wölbung: a) b4 > 0, b) b4 = 0, c) b4 < 0.
Abbildung 1.13: Korrelation: a) r = 1; b) r ≈ 0,7; c) r ≈ 0; d) r ≈ 0; e) r = −1.
1.4. METHODE DER KLEINSTEN QUADRATE (EMPIRISCHE REGRESSION)
1.4
17
Methode der kleinsten Quadrate (empirische Regression)
Seien (x1 , y1 ), . . . , (xn , yn ) ∈ R2 Daten (Stichprobe eines R2 -wertigen Merkmals (X, Y )).
Vermutung: Zwischen den Komponenten besteht bis auf Messfehler, zufällige Störungen
oder Ähnliches ein linearer Zusammenhang y = a + bx mit a, b ∈ R.
Idee: Bestimme a, b zu den Daten so, dass die quadratische Abweichung
Q(a, b) :=
n
X
(yi − a − bxi )2
i=1
minimiert wird.
Dabei handelt es sich bisher um ein rein heuristisches Konzept. Weshalb bzw. unter welchen
Annahmen es sich bei diesem Verfahren um eine gute Schätzung eines tatsächlichen linearen
Zusammenhangs handelt, ist eine Frage, die von der mathematischen Statistik beantwortet
wird, siehe Beispiel 3.2.27.
Satz 1.4.1 Im Fall sX =
6 0 (d. h. wenn nicht alle xi identisch sind) wird Q(a, b) minimiert
durch
Pn
(x − x)(yi − y)
sXY
∗
Pn i
b = i=1
= 2 und a∗ = y − b∗ x.
2
sX
i=1 (xi − x)
Beweis. Bei Q : R2 → R handelt es sich um eine stetig differenzierbare Funktion mit
D1 Q(a, b) = −2
n
X
(yi − a − bxi ) = −2n(y − a − bx),
i=1
!
n
n
n
X
X
X
D2 Q(a, b) = −2
(yi − a − bxi )xi = −2
xi yi − nax − b
x2i .
i=1
i=1
i=1
Diese Ableitungen werden genau dann 0, wenna a = y − bx und
0=
=
=
n
X
i=1
n
X
i=1
n
X
xi yi − n(y − bx)x − b
n
X
x2i
i=1
xi yi − nx y − b
!
n
X
(x2i − x2 )
i=1
(xi − x)(yi − y) − b
i=1
n
X
!
(xi − x)2 ,
i=1
also für a = a∗ , b = b∗ wie oben. Die Hessematrix
D11 Q(a, b) D12 Q(a, b)
1
H(a, b) =
= 2n
D21 Q(a, b) D22 Q(a, b)
x
1
n
x
Pn
i=1
x2i
18
KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK
ist positiv definit, denn 2n > 0 und
n
det H(a, b) = 2n
1X 2
xi − x2
n i=1
!
n
X
=2
(xi − x)2 > 0
i=1
(vgl. Heuser, Analysis 2, Satz 172.6). Es folgt, dass Q genau bei (a∗ , b∗ ) minimal wird.
Abbildung 1.14: Streudiagramm mit Regressionsgerade.
Kapitel 2
Wahrscheinlichkeitsrechnung
Wir befassen uns jetzt mit der Betrachtung von Zufallsexperimenten. Ziel ist es, aus der
Kenntnis der Grundgesamtheit oder einfacher Wahrscheinlichkeiten Aussagen über komplexe Wahrscheinlichkeiten in durchzuführenden Stichproben/Experimenten abzuleiten.
Einige wichtige historische Stationen der Wahrscheinlichkeitsrechnung:
• De Vetula (Richard de Fournival?,1201-1260): Wahrscheinlichkeiten von Augensummen dreier Würfel,
• Cardano (1501-1576): Liber de Ludo Aleae,
• Briefwechsel 1654 von Pascal (1623-1662) und Fermat (1601-1665): Geburtsstunde
”
der Wahrscheinlichkeitsrechnung“,
• Huygens (1629-1695): Tractatus de Rationiciis in Aleae Ludo,
• Jakob Bernoulli (1655-1705): Ars Conjectandi,
• De Moivre (1667-1754): The Doctrine of Chances,
• Bayes (1702?-1761): An Essay towards solving a Problem in the Doctrine of Chances,
• Laplace (1749-1827): Théorie Analytique des Probabilités,
• ...
• Kolmogorow (1903-1987): Grundbegriffe der Wahrscheinlichkeitsrechnung (1933)
zweite Geburtsstunde der Wahrscheinlichkeitsrechnung“.
”
• ...
19
20
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
2.1
2.1.1
Wahrscheinlichkeitsräume
Diskrete Wahrscheinlichkeitsräume
Wir möchten Zufallsexperimente mathematisch modellieren. Es ist dabei unerheblich, ob
das Experiment wirklich zufällig ist und ob es Zufall überhaupt gibt. Eine stochastische
Modellierung kann auch bei Nichtwissen angemessen sein.
Definition 2.1.1 Die Menge Ω aller möglichen Ausgänge eines Zufallsexperimentes nennen
wir Ergebnisraum, Grundraum, Stichprobenraum. Die Elemente ω ∈ Ω heißen Ergebnisse.
Teilmengen A ⊆ Ω heißen (vorläufig) Ereignisse. (Vergleiche Grundgesamtheit in Definition 1.1.1).
Beispiel 2.1.2
1. Einmaliger Würfelwurf: Ω = {1, 2, 3, 4, 5, 6},
Ereignis Wurf ist gerade Zahl“: A = {2, 4, 6}.
”
2. n-maliger Würfelwurf:
Ω = {1, 2, 3, 4, 5, 6}n = {(ω1 , . . . , ωn ) : ωi ∈ {1, . . . , 6} für i = 1, . . . , n}.
Achtung: Anders als in Kapitel 1 wählt man zur Modellierung nicht Ω = {1, . . . , 6}
und n Ergebnisse ω1 , . . . , ωn ∈ Ω, sondern einen großen“ Grundraum, aus dem man
”
nur ein Ergebnis ω = (ω1 , . . . , ωn ) zieht.
Bei der Wahl von Ω besteht oft große Freiheit. Falls beispielsweise nur die Anzahl der
Einsen, Zweien usw. von Belang ist, könnte man alternativ wählen:
P6
Ω0 = {(k1 , . . . , k6 ) ∈ N6 :
i=1 ki = n}.
3. Unendlich viele Münzwürfe: Schreibe 0 für Kopf“ und 1 für Zahl“:
”
”
∗
Ω = {0, 1}N = Abb(N∗ , {0, 1})
= {(ωi )i∈N∗ : ωi ∈ {0, 1} für alle i ∈ N∗ }.
(Bezeichnung: N := {0, 1, 2, . . . }, N∗ := {1, 2, . . . })
4. Wartezeit auf den nächsten Bus: Ω = R+ oder auch Ω = [0, 10], falls der Bus alle
zehn Minuten fährt.
Von nun an sei Ω höchstens abzählbar, der allgemeine Fall folgt in Abschnitt 2.1.3.
Definition 2.1.3 Sei Ω nichtleer und höchstens abzählbar. Eine Abbildung P : P(Ω) →
[0, 1] heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf Ω, falls
die Kolmogorowschen Axiome gelten:
1. P (Ω) = 1 (Normiertheit) und
S
P∞
2. P ( ∞
i=1 Ai ) =
i=1 P (Ai ) für paarweise disjunkte A1 , A2 , . . . ⊆ Ω
(d. h. falls Ai ∩ Aj = ∅ für i 6= j) (σ-Additivität).
(Ω, P(Ω), P ) heißt (diskreter) Wahrscheinlichkeitsraum.
2.1. WAHRSCHEINLICHKEITSRÄUME
21
Beispiel 2.1.4 Seien M eine (nichtleere, vorerst höchstens abzählbare) Menge und
x1 , . . . , xn ∈ M . Dann ist die relative Häufigkeit r : P(M ) → [0, 1] aus Definition 1.2.1
ein Wahrscheinlichkeitsmaß auf M , die empirische Verteilung von x1 , . . . , xn .
Motivation 2.1.5 Warum verwenden wir diese Axiome? Was kann man sich unter Wahrscheinlichkeiten vorstellen? Was bedeutet P (A) = 0,3 eigentlich?
1. (Frequentistische Sichtweise).
Wahrscheinlichkeiten werden interpretiert als idealisierte relative Häufigkeiten, d. h.
P (A) steht für den Anteil an Versuchswiederholungen, in denen das Ereignis A einträte, wenn man das Experiment theoretisch bzw. im Geiste unendlich oft unter glei”
chen Bedingungen“ ablaufen ließe. Nach dieser Sichtweise sind Wahrscheinlichkeiten ohne prinzipielle Wiederholbarkeit des Experiments sinnlos. Auch muss klar sein,
worin die gleichen Bedingungen“ bestehen.
”
Motivation der Axiome: Diese gelten für relative Häufigkeiten, wie sie in 1.2.1 definiert wurden. P (A) = 0,3 bedeutet also, dass das Ereignis A auf lange Sicht in 30%
der Versuchswiederholungen eintreten würde.
2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten und subjektive Deutung).
Für endliches Ω definiere
P (A) :=
|A|
,
|Ω|
A ⊆ Ω.
(2.1)
P (A) beschreibt den Anteil der möglichen Versuchsergebnisse, die zum Ereignis A
führen. Wenn wegen offensichtlicher oder naheliegender Symmetrie alle ω ∈ Ω gleich
plausibel sind (Indifferenzprinzip, Prinzip des unzureichenden Grundes), ist P (A) ein
natürliches Maß dafür, mit welchem Grad an Sicherheit A zu erwarten ist. (P (A) = 0
impliziert ein unmögliches, P (A) = 1 ein sicheres Ereignis usw.)
Motivation der Axiome: Sie gelten offensichtlich für die LaplaceWahrscheinlichkeiten aus (2.1). In allgemeinen Situationen (in denen (2.1) nicht
unbedingt gilt) lassen sich Wahrscheinlichkeiten durch Vergleich mit LaplaceWahrscheinlichkeiten interpretieren. In diesem Sinne bedeutet P (A) = 0,3, dass A so
wahrscheinlich ist oder für man es für so wahrscheinlich hält wie eine dreielementige
Menge in einem Zufallsexperiment mit zehn gleich wahrscheinlichen Ausgängen
(z. B. drei Seiten eines zehnseitigen Würfels). Bei irrationalen Zahlen approximiere man. Diese eher subjektive Interpretation ist prinzipiell auch für einmalige
Experimente möglich: P ( Gott existiert“) = 0,7?
”
Bemerkung 2.1.6
1. Die Verbindung zwischen Wirklichkeit und mathematischem Modell wird vor allem durch Wahl eines geeigneten Wahrscheinlichkeitsmaßes P geschaffen. Diesen Vorgang nennt man Modellierung oder auch Modellbildung. Wie
erhält man nun P ? Entweder (i) durch Kenntnis des Versuchsaufbaus bzw. mittels
22
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Annahmen über den Zufallsmechanismus (Symmetrien) oder (ii) mit Mitteln der mathematischen Statistik. Viele Fehler, scheinbare Paradoxien und Missverständnisse
gerade auch in der Schule sind auf die falsche Wahl von P (falsche Modellierung)
zurückzuführen. Die stochastische Modellierung ist eine eigenständige und nur teilweise mathematische Leistung.
2. Das Axiom der Additivität (A ∪ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)) kann
über relative Häufigkeiten bzw. Laplace-Wahrscheinlichkeiten motiviert werden, die
σ-Additivität (d. h. Additivität unendlicher statt endlicher Vereinigungen) hingegen
nicht direkt. Bei der σ-Additivität handelt es sich zusätzlich zur Additivität um eine
Art Stetigkeitsannahme, die das Arbeiten mit Wahrscheinlichkeiten erleichtert.
Satz 2.1.7 Sei |Ω| < ∞. Es existiert genau ein Wahrscheinlichkeitsmaß P auf Ω derart,
dass P ({ω}) für alle ω ∈ Ω gleich ist, nämlich die oben erwähnte Laplace-Verteilung
(Gleichverteilung) mit P (A) = |A|/|Ω| für A ⊆ Ω.
Beweis. Nachweis der Existenz durch Nachrechnen:
P (A) = |A|/|Ω| ∈ [0, 1] sowie
1. P (Ω) =
|Ω|
|Ω|
2. | ∪∞
i=1 Ai | =
= 1;
P∞
i=1
|Ai | für disjunkte Vereinigungen ⇒ P (∪∞
i=1 Ai ) =
P∞
i=1
P (Ai ).
Eindeutigkeit: Für alle ω ∈ Ω gilt auf Grund der Additivität, dass
X
1 = P (Ω) =
P ({ω}) = |Ω|P ({ω}),
ω∈Ω
also P ({ω}) = 1/|Ω|. Es folgt
P (A) =
X
P ({ω}) = |A|
ω∈A
1
.
|Ω|
Beispiel 2.1.8 Würfelwurf: Ω = {1, . . . , 6}. Da alle Würfelseiten gleich“ sind, wählt man
”
als Wahrscheinlichkeitsmaß P die Laplace-Verteilung.
Satz 2.1.9 Sei (Ω, P(Ω), P ) ein Wahrscheinlichkeitsraum. Seien A, B, A1 , A2 , . . . ⊆ Ω.
Dann gelten:
1. P (∅) = 0,
2. A1 , . . . , An paarweise disjunkt ⇒ P (∪ni=1 Ai ) =
3. P (A ∪ B) + P (A ∩ B) = P (A) + P (B),
4. A ⊆ B ⇒ P (A) ≤ P (B) (Monotonie),
Pn
i=1
P (Ai ) (endliche Additivität),
2.1. WAHRSCHEINLICHKEITSRÄUME
5. P (∪∞
i=1 Ai ) ≤
P∞
i=1
23
P (Ai ) (σ-Subadditivität),
6. An ↑ A (d. h. A1 ⊆ A2 ⊆ . . . und A = ∪∞
i=1 Ai ) ⇒ P (An ) → P (A) für n → ∞;
An ↓ A (d. h. A1 ⊇ A2 ⊇ . . . und A = ∩∞
i=1 Ai ) ⇒ P (An ) → P (A) für n → ∞;
(σ-Stetigkeit bzw. Stetigkeit von unten/oben),
7. P (AC ) = 1 − P (A), wobei AC := Ω \ A.
Beweis.
1. P (∅) = P (∪∞
i=1 ∅) =
P∞
i=1
P (∅), also P (∅) = 0
2. σ-Additivität mit ∅ = An+1 = An+2 = . . .
3. Aus 2. folgen
P (A) = P (A \ B) + P (A ∩ B),
P (B) = P (B \ A) + P (A ∩ B),
P (A ∪ B) = P (A \ B) + P (B \ A) + P (A ∩ B).
2.
4. P (B) = P (A) + P (B \ A) ≥ P (A)
| {z }
≥0
∞
5. ∪∞
i=1 Ai = ∪i=1 Bi , wobei
Bi := Ai \
i−1
[
!
Aj
⊆ Ai .
j=1
Da B1 , B2 , . . . paarweise disjunkt sind, folgt
P (∪∞
i=1 Ai )
=
σ-Add.
P (∪∞
i=1 Bi ) =
∞
X
4.
P (Bi ) ≤
i=1
2.
6. P (A) + P (AC ) = P (Ω) = 1.
7. Mit σ-Additivität gilt:
P (A) = P (∪∞
i=1 (Ai \ Ai−1 ))
∞
X
=
P (Ai \ Ai−1 )
i=1
= lim
n→∞
n
X
P (Ai \ Ai−1 )
i=1
2.
= lim P (∪ni=1 (Ai \ Ai−1 ))
n→∞
= lim P (An ).
n→∞
∞
X
i=1
P (Ai );
24
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
C
Außerdem folgt aus An ↓ A schon AC
n ↑ A und somit
6.
(1. Teil)
6.
C
1 − P (An ) = P (AC
n ) → P (A ) = 1 − P (A).
2.1.2
Kombinatorik
Motivation: Zur Berechnung von Laplace-Wahrscheinlichkeiten wie in 2.1.5 (d. h. mit
P (A) = |A|/|Ω|) müssen Mengen abgezählt werden. Das geschieht mit Mitteln der Kombinatorik.
Bemerkung 2.1.10 (Fundamentale Zählprinzipien)
Seien A, B, A1 , A2 , . . . endliche Mengen.
1.
(a) Falls eine Bijektion f : A → B existiert, gilt |A| = |B|.
(b) A ∩ B = ∅ ⇒ |A ∪ B| = |A| + |B|.
(c) A ⊆ B ⇒ |B \ A| = |B| − |A|.
Begründung:
(a) Definition der Gleichmächtigkeit: |A| = n bedeutet, dass eine Bijektion g gibt
mit g : A → {1, . . . , n}.
Da g ◦ f −1 : B → {1, . . . , n} eine Bijektion ist, folgt |B| = n = |A|.
(b) Seien |A| = m, |B| = n. Dann existieren Bijektionen gA und gB mit gA : A →
{1, . . . , m} und gB : B → {1, . . . , n}. Ebenso existiert eine Bijektion h : B →
{m+1, . . . , m+n}. Also existiert eine Bijektion gA∪B : (A∪B) → {1, . . . , m+
n}, nämlich
(
gA (x) falls x ∈ A,
gA∪B (x) :=
h(x) falls x ∈ B.
Somit ist |A ∪ B| = m + n.
(c) B = A ∪˙ (B \ A) wobei der Punkt disjunkte Vereinigung symbolisiert. Die
Behauptung folgt mit (b).
2. Kartesisches Produkt:
|A × B| = |A||B|
Q
Allgemeiner |A1 × · · · × AN | = ni=1 |Ai |, insbesondere |An | = |A|n .
Sm
Begründung: Sei |B| = m, etwa B = {b1 , . . . , bm }. Aus |A × B| = ˙ i=1 A × {bi }
1(a)
1(b) Pm
und |A × {bi }| = |A| folgt, dass |A × B| =
i=1 |A| = m|A|.
Induktion ergibt die zweite Aussage, denn A1 × · · · × An = (A1 × · · · × An−1 ) × An
(bzw. es existiert eine natürliche Bijektion).
3. Funktionen:
2.1. WAHRSCHEINLICHKEITSRÄUME
25
(a) Beliebige Funktionen: Für B A := Abb(A, B) := {f : A → B} ist
|B A | = |B||A| .
|B|!
.
(|B|−|A|)!
(b) Injektive Funktionen: |{f ∈ Abb(A, B) : f injektiv}| =
(c) Spezialfall bijektive Funktionen für |A| = |B|:
|{f ∈ Abb(A, B) : f bijektiv}| = |A|!,
also beispielsweise |Sn | = n! für A = B = {1, . . . , n}.
Begründung:
(a) Sei A = {a1 , . . . , an }. Wir identifizieren die Funktion f : A → B mit dem Tupel
(f (a1 ), . . . , f (an )) ∈ B × · · · × B = B n .
1(a)
2.
Es folgt |{f : A → B}| = |B n | = |B|n = |B||A| .
(b) Seien A = {a1 , . . . , an }, B = {b1 , . . . , bn }. Identifiziere injektive Funktionen
f : A → B mit einem Tupel (x1 , . . . , xn ). Hierbei sei
x1 ∈ {1 . . . , n} der Rangplatz von f (a1 ) in {b1 , . . . , bn },
|
{z
}
n Elemente
x2 ∈ {1, . . . , n − 1} der Rangplatz von f (a2 ) in {b1 , . . . , bn } \ {f (a1 )},
|
{z
}
usw.,
xm ∈ {1, . . . , n − m + 1} der Rangplatz von f (am )
(n−1) Elemente
in {b1 , . . . , bn } \ {f (a1 ), . . . , f (am−1 )}.
|
{z
}
(n−m+1) Elemente
Es folgt
1(a)
|{f ∈ Abb(A, B) : f injektiv}| = |{1, . . . , n} × · · · × {1, . . . , n − m + 1}|
2(a)
= n(n − 1) · · · (n − m + 1)
n!
=
.
(n − m)!
4.
(a) k-elementige Teilmengen:
|{C ⊆ A : |C| = k}| = |A|
für k ∈ N, wobei
k
n
n(n − 1) · · · (n − k + 1)
:=
k!
k
falls k≤n
=
n!
(n − k)!k!
für k, n ∈ N den Binomialkoeffizient bezeichnet.
(b) Aufteilen auf Teilmengen gegebener Größe:
P
Seien n1 , . . . , nr ∈ N mit ri=1 ni = n = |A|. Dann gilt
|{(A1 , . . . , Ar ) : A1 , . . . , Ar ⊆ A pw. disj., |Ai | = ni für i = 1, . . . , r}|
n!
=
n1 ! · · · nr !
(Multinomialkoeffizient).
26
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
(c) Alle Teilmengen: |P(A)| = 2|A|
Begründung:
(b) Seien A = {a1 , . . . , an } und M := {(A1 , . . . , Ar ) : A1 , . . . , Ar ⊆
A pw. disjunkt, |Ai | = ni für i = 1, . . . , r}.
Identifiziere die Bijektion f : A → A mit dem Tupel (α, π1 , . . . , πr } ∈ M ×
Sn1 × · · · × Snr via
f (a1 ), . . . , f (an1 ), f (an1 +1 ), . . . , f (an1 +n2 ), . . . , f (aPar−1 ni +1 ), . . . , f (an ) ,
i=1
{z
}
|
|
{z
} |
{z
}
A1
Ar
A2
denn eine Permutation von A entspricht der Aufteilung von A in r Mengen,
zusammen mit der Festlegung der Reihenfolge auf den r einzelnen Teilmengen.
Also
3(c)
n! = |{f ∈ Abb(A, A) : f bijektiv}|
1(a)
= |M × Sn1 × · · · × Snr |
2.
= |M ||Sn1 | · · · |Snr |
3(b)
= |M |n1 ! · · · nr !
und damit |M | = n!/(n1 ! · · · nr !).
(a) Identifiziere die k-elementige Teilmenge C von A mit der Aufteilung von A in
zwei Mengen A1 := C, A2 := A \ C. Dann gilt |A1 | = k, |A2 | = |A| − k, und es
folgt
|A|!
1(a), 4(b)
|{C ⊆ A : |C| = k}| =
.
k!(|A| − k)!
(c) 2n = (1 + 1)n
(2.1.11)
=
Pn
k n−k Pn
1 1
= k=1
n
k=0 k
|P(A)| = |
1(b)
=
[
˙ |A|
|A|
X
k=0
n
k
, also
{C ⊆ A : |C| = k}|
|{C ⊆ A : |C| = k}|
k=0
=
|A| X
|A|
k=0
|A|
k
= 2 .
(Alternativ: Beachte, dass P(A)=
b Abb(A, {0, 1}) und wähle die Abbildung
1(a)
3(a)
C 7→ 1C , es folgt |P(A)| = |Abb(A, {0, 1})| = 2|A| .)
2.1. WAHRSCHEINLICHKEITSRÄUME
27
5. Äquivalenzklassen:
Sei ∼ eine Äquivalenzrelation auf A derart, dass alle Äquivalenzklassen [x], x ∈ A,
genau n Elemente haben. Dann gilt
|{[x] : x ∈ A}| =
|A|
.
n
Begründung: Seien [x1 ], . . . , [xk ] die Äquivalenzklassen von ∼. Es ist A =
P
und nach 1(b) also |A| = ki=1 |[xi ]| = kn.
Sk
i=1 [xi ]
Korollar 2.1.11 (Multinomialsatz) Für x1 , . . . , xn ∈ R, r ∈ N gilt
X
(x1 + · · · + xn )n =
n1 ,...,nr ≥0
n1 +···+nr =n
n!
xn1 1 · · · xnr r .
n1 ! · · · nr !
Für r = 2 und x, y ∈ R ergibt sich der Binomialsatz:
n
(x + y) =
n X
n
k=0
k
xk y n−k .
Beweis.
n
X
!n
xi
=
i=1
X
r
Y
|Ai |
xi
(A1 ,...,Ar ) Zer- i=1
legung von {1,...,n}
=
=
X
X
r
Y
xni i
n1 ,...,nr ≥0
(A1 ,...,Ar ) Zer- i=1
n1 +···+nr =n legung von {1,...,n}
mit |Ai |=ni
r
X
Y
n!
xni i .
n
!
·
·
·
n
!
1
r i=1
n1 ,...,nr ≥0
n1 +···+nr =n
Der Binomialsatz folgt direkt. Beachte dafür, dass n2 = n − n1 wegen n1 + n2 = n.
Beispiel 2.1.12 Viele Zufallsexperimente entsprechen aus wahrscheinlichkeitstheoretischer
Sicht einem Urnenmodell (Ziehen von Kugeln aus einem Krug).
1. (Ziehen mit Zurücklegen unter Beachtung der Reihenfolge).
Hierbei handelt es sich um Anordnungen der Länge n aus N Elementen. Wiederholungen sind möglich, d. h. Elemente können mehrfach auftauchen.
Ω := {(ω1 , . . . , ωn ) : ωi ∈ {1, . . . , N } für i = 1, . . . , n} = {1, . . . , N }n
Nach 2.1.10 (3) gilt |Ω| = N n .
Beispiele: n-maliges Würfeln mit einem N -seitigen Würfel; Ziehung der Lottozahlen
mit Zurücklegen, aber ohne Sortieren.
28
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
2. (Ziehen ohne Zurücklegen mit Beachtung der Reihenfolge).
Hierbei handelt es sich ebenfalls um Anordnungen der Länge n aus N Elementen, bei
denen allerdings kein Element mehr als einmal auftreten kann.
Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ωi 6= ωj für i 6= j}
!
Nach 2.1.10 (1a, 3b) ist |Ω| = |{f : {1, . . . , n} → {1, . . . , N } : f injektiv}| = (NN−n)!
.
Beispiel: Ziehung der Lottozahlen ohne Sortieren.
3. (Ziehen ohne Zurücklegen ohne Beachtung der Reihenfolge).
Kombinationen der Länge n aus N Elementen ohne Wiederholungen:
Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 < ω2 < · · · < ωn }
Nach 2.1.10 (1a) und (4a) ist |Ω| = |{C ⊆ {1, . . . , N } : |C| = n}| =
Beispiel: Ziehung der Lottozahlen.
N
n
.
4. (Ziehen mit Zurücklegen ohne Beachtung der Reihenfolge).
Kombinationen der Länge n aus N Elementen mit Wiederholungen:
Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 ≤ ω2 ≤ · · · ≤ ωn }
Um |Ω| zu berechnen, betrachte
e := {(ω1 , . . . , ωn ) ∈ {1, . . . , N + n − 1} : ω1 < · · · < ωn } und
Ω
e (ω1 , . . . , ωn ) 7→ (ω1 , ω2 + 1, . . . , ωn + n − 1).
f : Ω → Ω,
e = N +n−1 .
f ist bijektiv, also gilt nach 2.1.10 (1a) und (3), dass |Ω| = |Ω|
n
Achtung: Die Elemente von Ω sind bei realen, dazu passenden“ Zufallsexperimen”
ten (beispielsweise Wurf mit n Würfeln und Sortieren, Ziehung der Lottozahlen
mit Zurücklegen) in aller Regel nicht gleichwahrscheinlich. Die zugehörige LaplaceVerteilung ist also unangemessen! Eine bemerkenswerte Ausnahme bilden zufällige
Zustände von Bosonen (Elementarteilchen) in der statistischen Physik (Bose-EinsteinVerteilung).
Beispiel 2.1.13 Würfeln mit 3 Würfeln.
Ω = {1, . . . , 6}3 , P entspreche der Laplace-Verteilung auf Ω.
A = { Gesamtaugenzahl ist 11“} := {(ω1 , ω2 , ω3 ) ∈ Ω : ω1 + ω2 + ω3 = 11},
”
B = { Gesamtaugenzahl ist 12“} := {(ω1 , ω2 , ω3 ) ∈ Ω : ω1 + ω2 + ω3 = 12}.
”
Abzählen ergibt |A| = 27, |B| = 25, also P (A) = |A|/|Ω| = 27/216 = 0,125 und P (B) =
|B|/|Ω| = 25/216 ≈ 0,116.
Im Modell aus 2.1.12 (4) hätten beide Ergebnisse die gleiche Wahrscheinlichkeit, denn 11
lässt sich ohne Berücksichtigung der Reihenfolge darstellen als 146, 155, 236, 245, 335,
344, und 12 lässt sich darstellen als 156, 246, 255, 336, 345, 344. Das entspräche in beiden
Fällen einer Wahrscheinlichkeit von 6/56 ≈ 0,1071. Bei Verwendung der Gleichverteilungsannahme ist also Vorsicht geboten!
2.1.3
Allgemeine Wahrscheinlichkeitsräume
Motivation 2.1.14 Manchmal reicht ein abzählbares Ω (vgl. Definition 2.1.3) nicht aus,
siehe Beispiele 2.1.2 (3, 4). Unser nächstes Ziel wird es daher sein, die Grundlagen aus
2.1. WAHRSCHEINLICHKEITSRÄUME
29
Abschnitt 2.1.1 auf beliebige Ω zu übertragen. Beispielsweise hätten wir gerne für Beispiel
(4) eine Art Gleichverteilung auf Ω = [0, 1], d. h. P ([a, b]) = b−a für a, b ∈ [0, 1] und a ≤ b.
Dies entspricht der Intuition, dass die Wahrscheinlichkeit einer Busankunft proportional zur
Wartezeit an der Haltestelle wächst.
Es ergibt sich aber folgendes Problem: Es ist nicht allzu schwer zu zeigen, dass es kein
Wahrscheinlichkeitsmaß P auf ([0, 1], P[0, 1]) mit den oben geforderten Eigenschaften geben kann. Maßtheoretisch gesprochen heißt das, dass man nicht jeder Teilmenge von [0, 1]
in sinnvoller Weise eine Länge zuordnen kann. Derselbe Sachverhalt in stochastischer Sprache: Wenn man an einer Gleichverteilung interessiert ist, kann man nicht jedem denkbaren
Ereignis A ⊆ [0, 1] in sinnvoller Weise eine Wahrscheinlichkeit zuordnen.
Ausweg: Wir beschränken uns auf eine Teilmenge F ⊆ P, eine sogenannte σ-Algebra.
Nur Elementen dieser Teilmenge wird eine Wahrscheinlichkeit (oder in der Maßtheorie eine
Länge, Fläche, ein Volumen, . . . ) zugeordnet. Daher muss man sich, wenn man Stochastik
mathematisch sauber behandeln will, mit Maßtheorie auseinandersetzen.
2.1.4
Exkurs zur Maßtheorie
Definition 2.1.15 Sei Ω 6= ∅. Ein Mengensystem F ⊆ P(Ω) heißt σ-Algebra auf Ω, falls
1. Ω ∈ F ,
2. A ∈ F ⇒ AC := Ω \ A ∈ F und
S
3. A1 , A2 , . . . ∈ F ⇒ ∞
i=1 Ai ∈ F .
(Ω, F ) heißt messbarer Raum, Messraum, Ereignisraum. Die Elemente von F heißen Ereignisse oder messbare Mengen.
Wahrscheinlichkeiten werden später nur für die Elemente von F definiert. Es wird also nicht
jeder Menge wird eine Wahrscheinlichkeit zugeordnet, aber abzählbare Mengenoperationen
führen nicht aus den in diesem Sinne messbaren Mengen heraus, wie an der folgenden Bemerkung sichtbar wird.
Bemerkung 2.1.16 Aus den Axiomen folgt:
4. ∅ ∈ F (denn ∅ = ΩC ),
T
T∞
S∞ C C
5. A1 , A2 , · · · ∈ F ⇒ ∞
i=1 Ai ∈ F (denn
i=1 Ai = ( i=1 Ai ) ),
S
S
6. A1 , . . . , An ∈ F ⇒ A1 ∪ · · · ∪ An ∈ F (denn ni=1 Ai = ∞
i=1 Ai mit Ai = ∅ für
i > n),
T
T
7. A1 , . . . , An ∈ F ⇒ A1 ∩ · · · ∩ An ∈ F (denn ni=1 Ai = ∞
i=1 Ai mit Ai = Ω für
i > n),
8. A, B ∈ F ⇒ A \ B ∈ F (denn A \ B = A ∩ B C ).
30
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Wie gewinnt man nun eine σ-Algebra?
Definition 2.1.17 Seien Ω 6= ∅, G ⊆ P(Ω).
\
σ(G ) := {F ⊆ P(Ω) : F ist σ-Algebra mit G ⊆ F }
heißt von G erzeugte σ-Algebra.
Bemerkung 2.1.18 σ(G ) ist tatsächlich eine σ-Algebra, und zwar die kleinste σ-Algebra
in Ω, die G umfasst. (Nachrechnen)
Beispiel 2.1.19
1. {∅, Ω} ist die kleinste σ-Algebra auf Ω.
2. P(Ω) ist eine σ-Algebra, nämlich die größte auf Ω. Falls Ω abzählbar ist, gilt
P(Ω) = σ({{ω} : ω ∈ Ω}) (d. h. die Potenzmenge wird von den einelementigen
Mengen erzeugt).
Faustregel: Für höchstens abzählbares Ω wird immer die Potenzmenge verwendet.
3. Für Ω = Rn verwenden wir in aller Regel (Faustregel: immer) die Borel-σ-Algebra
B n := σ({A ⊆ Rn : A offen})
= σ({A ⊆ Rn : A abgeschlossen})
= σ({[a1 , b1 ] × · · · × [an , bn ] ⊆ Rn : ai , bi ∈ Q mit ai < bi für i = 1, . . . , n}).
Für n = 1 gilt B := B 1 = σ({(∞, c] : c ∈ R}). Nicht borel-messbare Mengen
existieren, sofern wenn man das Auswahlaxiom der Mengenlehre akzeptiert, sind aber
sehr exotisch.
4. Für nichtleeres Ω ⊆ Rn verwenden wir die Borel-σ-Algebra auf Ω:
BΩn := {A ∩ Ω : A ∈ B n }.
Nun können wir analog zu Definition 2.1.3 den Begriff des Wahrscheinlichkeitsmaßes
einführen:
Definition 2.1.20 Sei (Ω, F ) ein Ereignisraum. Eine Abbildung P : F → R+ (oder für
Wahrscheinlichkeitsmaße äquivalent [0, 1] statt R+ ) heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf (Ω, F ), falls
1. P (Ω) = 1 und
2. A1 , A2 , . . . ∈ F paarweise disjunkt ⇒ P (
S∞
i=1 Ai ) =
(Ω, F , P ) heißt Wahrscheinlichkeitsraum.
Falls 1. ersetzt wird durch das (schwächere) Axiom
1’. P (∅) = 0,
P∞
i=1
P (Ai ).
2.1. WAHRSCHEINLICHKEITSRÄUME
31
heißt P Maß und (Ω, F , P ) Maßraum.
Bemerkung 2.1.21 Satz 2.1.9 gilt weiterhin, falls P(Ω) durch F und ⊆ Ω“ durch ∈ F“
”
”
ersetzt wird.
Ein wichtiges Resultat ist der
Satz 2.1.22 (Eindeutigkeitssatz) Sei G ein ∩-stabiler Erzeuger des Ereignisraums (Ω, F ),
d. h. F = σ(G ) und A ∩ B ∈ G für A, B ∈ G . Für Wahrscheinlichkeitsmaße P, Q auf
(Ω, F ) mit P |G = Q|G gilt dann schon P = Q.
Beweis. Maßtheorie
Nun zur Charakterisierung, Konstruktion und Existenz von Verteilungen:
P
Satz 2.1.23 Sei Ω 6= ∅ abzählbar. Sei % : Ω → [0, 1] mit ω∈Ω %(ω) = 1. Dann existiert
genau ein Wahrscheinlichkeitsmaß P auf (Ω, P(Ω)) mit P ({ω}) = %(ω) für alle ω ∈ Ω. In
diesem Fall gilt
X
P (A) =
%(ω), A ∈ P(Ω).
(2.2)
ω∈A
% heißt Zähldichte oder Wahrscheinlichkeitsfunktion von P .
Beweis.
Existenz und (2.2): Sei P wie in (2.2) definiert. Dann ist P (Ω) = 1. Seien A1 , A2 , . . . ⊆ Ω
paarweise disjunkt. Mit dem Doppelreihensatz aus der Analysis (Heuser, Analysis 1, Satz
45.1) folgt
!
∞
[
X
P
Ai =
%(ω)
S
ω∈ ∞
i=1 Ai
i=1
=
=
∞ X
X
%(ω)
i=1 ω∈Ai
∞
X
P (Ai ).
i=1
Eindeutigkeit: Sei P ein Maß, das die oben genannten Bedingungen erfüllt. Dann ist schon
X
X
σ-Add.
Vorauss.
P (A) =
P ({ω}) =
%(ω)
ω∈A
ω∈A
für alle A ∈ P(Ω).
Beispiel 2.1.24 Seien Ω = N, λ > 0 und definiere für alle k ∈ N
%(k) := e−λ
λk
.
k!
32
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Wegen
X
%(k) = e−λ
k∈Ω
∞
X
λk
k=0
= e−λ eλ = 1,
k!
gibt es nach obigem Satz genau ein Wahrscheinlichkeitsmaß P auf (N, P(N)) mit Zähldichte %. P heißt Poisson-Verteilung zum Parameter λ. Die Poisson-Verteilung wird genutzt, um
beispielsweise die Anzahl von Telefonanrufen, Kunden, Versicherungsschäden usw. in einem festen Zeitintervall zu modellieren. Argumente hierfür werden wir später kennenlernen,
siehe Bemerkung 2.3.18.
Satz 2.1.25 Seien Ω = R, % : Ω → R+ (abschnittsweise) stetig mit
existiert genau ein Wahrscheinlichkeitsmaß P auf (R, B) mit
Z b
%(x) dx
P ((a, b]) =
R∞
−∞
%(x)dx = 1. Dann
a
für alle −∞ ≤ a ≤ b < ∞. % heißt (Lebesgue-)Dichte von P .
Beweis. Eindeutigkeit: G := {(−∞, c] : c ∈ R} ist ∩-stabiler Erzeuger von B, vgl. 2.1.19
(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P damit durch P ((−∞, c]), c ∈ R, eindeutig festgelegt ist.
R
Existenz: Definiere P (A) := A %(x)dx für alle A ∈ B. Dann gilt:
R
1. P (Ω) = R %(x)dx = 1.
2. Für paarweise disjunkte A1 , A2 , . . . ∈ B:
!
Z
∞
[
P
Ai
=
1S ∞
Ai (x) %(x) dx
|P i=1{z }
i=1
∞
i=1
Z
=
mon. Konv.
=
=
=
lim
n→∞
Z
lim
1Ai (x)
n
X
i=1
n
X
n→∞
lim
∞
X
1Ai %(x) dx
i=1
n Z
X
n→∞
1Ai (x)%(x) dx
1Ai %(x) dx
i=1
P (Ai ).
i=1
3. P ((a, b]) =
R
%(x) dx =
(a,b]
Rb
a
%(x) dx für a ≤ b.
Beispiel 2.1.26 Sei λ > 0 und definiere für x ∈ R
%(x) := 1R+ (x)λe−λx .
2.1. WAHRSCHEINLICHKEITSRÄUME
Wegen
Z
∞
Z
%(x) dx =
−∞
33
∞
λe−λx dx = −e−λx |∞
x=0 = 0 − (−1) = 1
0
folgt nach obigem Satz die Existenz eines eindeutigen Wahrscheinlichkeitsmaßes P auf
(R, B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Exponentialverteilung zum
Parameter λ. Die Exponentialverteilung wird genutzt, um beispielsweise die Wartezeit auf
Telefonanrufe, Kunden, Versicherungsschäden, etc. oder die Lebensdauer von Bauteilen zu
modellieren. Den Grund dafür werden wir später kennenlernen, siehe Satz 2.1.51.
Beispiel 2.1.27 Seien a, b ∈ R mit a ≤ b und definiere für x ∈ R
%(x) :=
1
1[a,b] (x).
b−a
Wegen
Z
∞
1
%(x) dx =
b−a
−∞
Z
b
1 dx =
a
b−a
=1
b−a
existiert ein eindeutiges Wahrscheinlichkeitsmaß P auf (R, B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Gleichverteilung auf [a, b] und ist das in Vorbemerkung
2.1.14 gesuchte Analogon zur diskreten Gleichverteilung.
Bemerkung 2.1.28 Ein Wahrscheinlichkeitsmaß auf Ω = N oder anderen abzählbaren
(z. B. {1, . . . , n}, Z, Q) oder überabzählbaren (z. B. [a, b], R+ ) Teilmengen von R induziert
in natürlicher Weise ein Wahrscheinlichkeitsmaß auf R, nämlich für A ∈ B via
Pe(A) := P (A ∩ Ω).
Definition 2.1.29 Sei P ein Wahrscheinlichkeitsmaß auf (Ω, F ) = (R, B). Die Funktion
F : R → [0, 1] mit
F (x) := P ((−∞, x])
heißt (kumulative) Verteilungsfunktion von P .
Beispiel 2.1.30
1. Die Verteilungsfunktion der empirischen Verteilung von x1 , . . . , xn ∈
R (vgl. Beispiel 2.1.4) ist gerade die empirische Verteilungsfunktion aus Definition
1.2.5.
2. Die Exponentialverteilung zum Parameter λ > 0 hat die Verteilungsfunktion
(
0
für x < 0,
F (x) =
1 − e−λx für x ≥ 0.
3. Die Gleichverteilung auf [a, b] hat die Verteilungsfunktion


für x < a,

0
F (x) = x−a
für a ≤ x < b,
b−a


1
für x ≥ b.
34
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
4. Die diskrete Gleichverteilung auf {1, . . . , n} (vgl. Satz 2.1.7) hat die Verteilungsfunktion


für x < 1,

0
F (x) =
1
n


1
[x]
für 1 ≤ x < n,
für x ≥ n.
Satz 2.1.31 Sei F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R, B).
Dann gelten:
1. F ist monoton wachsend,
2. F ist rechtsseitig stetig,
3. limx→∞ F (x) = 1 und limx→−∞ F (x) = 0.
Beweis.
1. Satz 2.1.9(4) (Monotonie von P )
2. Satz 2.1.9(6) (Stetigkeit von oben)
3. Sei (xn )n eine wachsende Folge reeller Zahlen mit limn→∞ xn = ∞. Dann gilt nach
Satz 2.1.9(6)
n→∞
F (xn ) = P ((−∞, xn ]) −−−→ P (−∞, ∞) = 1.
| {z }
=R
Analog für fallende Folgen mit limn→∞ xn = −∞.
Satz 2.1.32 Sei eine Funktion F : R → [0, 1] mit den Eigenschaften 1–3 aus Satz 2.1.31
gegeben. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (R, B) mit Verteilungsfunktion F .
Beweis. Eindeutigkeit: G := {(−∞, c] : c ∈ R} ist ∩-stabiler Erzeuger von B, vgl. 2.1.19
(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P durch P ((−∞, c]), c ∈ R eindeutig
festgelegt ist.
Existenz: Maßtheorie.
Satz 2.1.33 Sei P ein Wahrscheinlichkeitsmaß auf (R, B) mit Verteilungsfunktion F .
Falls F stetig differenzierbar mit Ableitung f ist (oder allgemeiner: falls F (c) =
Rc
f (x) dx, c ∈ R für ein stückweise stetiges f : R → R+ ), dann ist f Lebesgue-Dichte
−∞
von P .
2.1. WAHRSCHEINLICHKEITSRÄUME
35
Beweis. Für a ≤ b ist
Z
b
Z
b
a
f (x) dx −
f (x) dx =
a
Z
−∞
f (x) dx
−∞
= F (b) − F (a)
= P ((−∞, b]) − P ((−∞, a])
= P ((a, b]).
Nun zu Produkräumen:
Definition 2.1.34 Seien (Ω1 , F1 ), . . . , (Ωn , Fn ) messbare Räume und sei Ω :=
Ω1 × · · · × Ωn das kartesische Produkt.
F :=
n
O
Qn
i=1
Ωi =
Fi := F1 ⊗ · · · ⊗ Fn := σ({A1 × · · · × An : Ai ∈ Fi für i = 1, . . . , n})
i=1
heißt Produkt-σ-Algebra und ist die Standard-σ-Algebra auf Ω.
Satz 2.1.35 Seien (Ωi , Fi , Pi ), i = 1, . . . , n Wahrscheinlichkeitsräume und definiere Ω :=
Nn
Qn
:=
Ω
und
F
i=1 Fi . Dann gibt es genau ein Wahrscheinlichkeitsmaß P auf (Ω, F )
i=1
mit
n
Y
P (A1 × · · · × An ) =
Pi (Ai )
i=1
für alle Ai ∈ Fi , i = 1, . . . , n. Man nennt P Produktmaß schreibt P =:
Nn
i=1
Pi .
Beweis. Existenz: Maßtheorie.
Eindeutigkeit: {A1 , × · · · × An : Ai ∈ Fi für i = 1, . . . , n} ist ∩-stabiler Erzeuger von F .
Die Behauptung folgt mit dem Eindeutigkeitssatz 2.1.22.
Q
Bemerkung 2.1.36
1. Ω = ni=1 Ωi verwendet man für aus Einzelexperimenten mit Ergebnisraum Ωi zusammengesetzte Experimente. Warum bzw. wann das ProduktmaßP
zur Modellierung angemessen ist, werden wir in Bemerkung 2.2.13 erfahren.
2. Satz 2.1.35 gilt auch für Maße anstelle von Wahrscheinlichkeitsmaßen.
Betrachte beispielsweise (R, B, λ), wobei λ das Lebesguemaß, also das eindeutige
Maß auf (R, B) sei mit
λ((a, b]) = b − a
N
für a ≤ b, d. h. λ misst die Länge einer Menge. Das Produktmaß λn := ni=1 λ auf
Q
N
(Rn , B n ) = ( ni=1 R, ni=1 B) heißt Lebesguemaß auf (Rn , B n ) und ist charakterisiert durch
n
Y
n
λ ((a1 , b1 ] × · · · × (an , bn ]) =
(bi − ai ),
i=1
d. h. λn misst die Fläche bzw. das Volumen usw. einer Menge.
36
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
3. Produkt-σ-Algebren und Produktwahrscheinlichkeitsmaße gibt es auch für unendliche
Q
kartesische Produkte Ω = i∈I Ωi mit beliebiger Indexmenge I. Dabei ist
(
Y
)
ω: I →
Ωi :=
i∈I
F :=
Ωi : ω(i) ∈ Ωi für alle i ∈ I
i∈I
(insbesondere ΩI :=
O
[
Fi := σ
Q
i∈I
nn
Ω = Abb(I, Ω)) und
Y
ω∈
i∈I
o
Ωi : ω(i1 ) ∈ A1 , . . . , ω(in ) ∈ An :
i∈I
n ∈ N : i1 , . . . , in ∈ I, Ak ∈ Ωik für k = 1, . . . , n
N
i∈I
o
.
Pi ist das eindeutige Wahrscheinlichkeitsmaß P auf (Ω, F ) mit
(
P
ω∈
)!
Y
Ωi : ω(i1 ) ∈ A1 , . . . , ω(an ) ∈ An
=
i∈I
n
Y
Pik (Ak ).
k=1
für alle Rechteckmengen, also alle Mengen der Form auf der rechten Seite.
Bemerkung 2.1.37 Seien (Ωi , P(Ωi ), Pi ), i = 1, . . . , n, endliche Wahrscheinlichkeitsräume mit Laplace-Verteilung Pi auf Ωi .
N
N
Q
Definiere (Ω, F , P ) := ( ni=1 Ωi , ni=1 P(Ωi ), ni=1 Pi ). Dann ist F = P(Ω) und P die
Laplace-Verteilung auf Ω.
Beweis.
1. Für ω = (ω1 , . . . , ωn ) ∈ Ω gilt
{ω} = {(ω1 , . . . , ωn )} = {ω1 } × · · · × {ωn } ∈
n
O
P(Ωi ) = F
i=1
und somit
P(Ω)
2.1.19(2)
=
σ({ω} : ω ∈ Ω) ⊆ F ⊆ P(Ω).
2. Für alle ω = (ω1 , . . . , ωn ) ∈ Ω ist
Def.
P ({ω}) = P ({ω1 } × · · · × {ωn }) =
n
Y
i=1
Pi ({ωi }) = Qn
1
i=1
somit folgt die Behauptung mit dem Eindeutigkeitssatz 2.1.22.
2.1.10
|Ωi |
=
1
,
|Ω|
2.1. WAHRSCHEINLICHKEITSRÄUME
2.1.5
37
Unabhängigkeit und bedingte Wahrscheinlichkeiten
Definition 2.1.38 Seien (Ω, F , P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) >
0. Für A ∈ F heißt
P (A ∩ B)
P (A | B) := PB (A) :=
(2.3)
P (B)
die bedingte Wahrscheinlichkeit von A gegeben B.
Satz 2.1.39 Seien (Ω, F , P ) und B wie in Definition 2.1.38. Dann ist PB : F → [0, 1] ein
Wahrscheinlichkeitsmaß auf (Ω, F ) mit PB (B) = 1.
Beweis.
1. PB (A) ∈ [0, 1] für alle A ∈ F
2. PB (Ω) =
3.
PB
P (B)
P (B)
[∞
˙
i=1
=1
Ai
S∞
P (( ˙ i=1 Ai ) ∩ B)
=
P (B)
S
∞
P ( ˙ i=1 (Ai ∩ B))
=
P (B)
P∞
P (Ai ∩ B)
= i=1
P (B)
∞
X
=
PB (Ai )
i=1
4. PB (B) =
P (B∩B)
P (B)
=1
Motivation 2.1.40 Warum definiert man bedingte Wahrscheinlichkeiten durch die Formel
in (2.3)? Analog zu 2.1.5 gibt es zwei Begründungen:
1. (Frequentistische Sichtweise)
Sei (x1 , . . . , xn ) die Stichprobe eines Merkmals X : Ω → M . Für A ⊆ M ist die
relative Häufigkeit
r(A) =
Zahl der xi ∈ A in Stichprobe (x1 , . . . , xn )
.
Zahl der xi überhaupt in Stichprobe (x1 , . . . , xn )
Für festes B ∈ M entferne nun alle Beobachtungen aus der Stichprobe, die nicht in B
liegen. Wir betrachten also eine kleinere Stichprobe (e
x1 , . . . , x
ek ), k ≤ n. Die relative
Häufigkeit von A in der neuen Stichprobe ist
Zahl der x
ei ∈ A in neuer Stichprobe (e
x1 , . . . , x
en )
Zahl der x
ei überhaupt in Stichprobe (e
x1 , . . . , x
en )
nr(A ∩ B)
r(A ∩ B)
=
=
.
nr(B)
r(B)
rB (A) :=
38
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die frequentistische Interpretation von Wahrscheinlichkeiten als idealisierte relative
Häufigkeiten motiviert somit die Definition (2.3) von bedingten Wahrscheinlichkeiten.
Falls keine Beziehung“ zwischen A und B besteht, wird man ferner erwarten, dass
”
der Anteil von A in der verminderten Stichprobe dem in der ursprünglichen Stichprobe ähnelt, d. h. rB (A) ≈ r(A).
Beispiel: Seien (x1 , . . . , xn ) die Studenten an der CAU Kiel, A das Ereignis, dass ein
Student weiblich ist und B das Ereignis, dass ein Student im Mai geboren wurde. Hier
sollte man vermuten, dass rB (A) ≈ r(A) gilt.
2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten)
Für endliche Ω betrachte die Laplace-Verteilung P (A) = |A|/|Ω|, A ⊆ Ω. Für die
Laplace-Verteilung PB auf B ⊆ Ω mit |B| > 0 gilt
PB (A) =
|A ∩ B|
|A ∩ B| |Ω|
P (A ∩ B)
=
=
,
|B|
|Ω| |B|
P (B)
A ⊆ Ω.
Die Interpretation von Wahrscheinlichkeiten als verallgemeinerten LaplaceWahrscheinlichkeiten motiviert somit ebenfalls (2.3). PB kann als Maß der Plausibilität angesehen werden, wenn man die zusätzliche Information die Tatsache ω ∈
”
B“erhält, aber nichts sonst, was die Plausibilität innerhalb von B neu gewichten
würde.
Wie im Beispiel aus 1. kann PB (A) ≈ P (A) so gedeutet werden, dass A durch Kenntnis von B nicht plausbiler/unplausibler wird.
Beispiel 2.1.41 (Zweimaliger Würfelwurf)
Ω = {1, . . . , 6}2 , P sei die Laplace-Verteilung auf Ω.
A := { 2. Wurf ist eine 6“} = {1, . . . , 6} × {6}, P (A) = |A|/|Ω| = 1/6
”
B := { Augensumme ist 11 “} = {(5, 6)(6, 5)}, P (B) = |B|/|Ω| = 1/18
”
|A ∩ B| = {(5, 6)}, P (A ∩ B) = |A ∩ B|/|Ω| = 1/36
P (A | B) = P (A ∩ B)/P (B) = 1/2.
Sei ab jetzt (Ω, F , P ) ein Wahrscheinlichkeitsraum.
Satz 2.1.42 (Multiplikationsformel) Seien A1 , . . . , An ∈ F mit P (A1 ∩ · · · ∩ An ) > 0.
Dann gilt
P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 | A1 ) · · · P (An | A1 ∩ · · · ∩ An−1 ).
Beweis. Vollständige Induktion: Der Induktionsanfang n = 1 ist trivial.
Die Aussage gelte nun für (n − 1). Es folgt
P (A1 ∩ · · · ∩ An ) =
P (An ∩ (A1 ∩ · · · ∩ An−1 ))
P (A1 ∩ · · · ∩ An−1 )
P (A1 ∩ · · · ∩ An−1 )
Ind.vor.
= P (A1 )P (A2 |A1 ) · · · P (An |A1 ∩ · · · ∩ An−1 ).
2.1. WAHRSCHEINLICHKEITSRÄUME
39
S
Satz 2.1.43 (Satz von der totalen Wahrscheinlichkeit) Sei Ω = i∈I Bi eine (höchstens)
abzählbare Zerlegung von Ω in paarweise disjunkte Bi ∈ F . Dann gilt für alle A ∈ F :
X
P (A) =
P (A | Bi )P (Bi ).
i∈I mit
P (Bi )>0
S
∩ Bi ) (paarweise disjunkt), also
X
X
X
P (A) =
P (A ∩ Bi ) =
P (A ∩ Bi ) =
P (A | Bi )P (Bi ).
Beweis. A =
i∈I (A
i∈I
i∈I mit
P (Bi )>0
i∈I mit
P (Bi )>0
Satz 2.1.44 (Formel von Bayes) Sei (Bi )i∈I eine Zerlegung von Ω wie in Satz 2.1.43. Für
alle A ∈ F mit P (A) > 0 und alle j ∈ I mit P (Bj ) > 0 gilt
P (Bj | A) =
P (A | Bj )P (Bj )
P
.
P (A | Bi )P (Bi )
i∈I mit
P (Bi )>0
Beweis.
P (Bj | A) =
P (A ∩ Bj ) 2.1.43
=
P (A)
P (A | Bj )P (Bj )
P
.
P (A | Bi )P (Bi )
i∈I mit
P (Bi )>0
Die Formel von Bayes kommt zur Anwendung, falls man nur die umgekehrten“ bedingten
”
Wahrscheinlichkeiten kennt:
Beispiel 2.1.45 Eine Krankheit K trete bei einer von 145 Personen auf. Somit tritt das Ereignis B = Sie haben K“ mit P (B) = 1/145 auf. Angenommen, es wurde ein Test zur
”
Untersuchung auf das Vorliegen von K entwickelt. Sei A das Ereignis, dass der Test positiv
ausfällt. Der Test sei relativ gut: P (A | B) = 0,96, P (AC | B C ) = 0,94. Dann ist
2.1.44
P (B | A) =
1
0,96 145
1
P (A | B)P (B)
=
.
1
144 =
C
C
P (A | B)P (B) + P (A | B )P (B )
10
0,96 145 + 0,06 145
Wenn der Test positiv ausfällt, sind Sie also nur mit 10%-iger Wahrscheinlichkeit tatsächlich
an K erkrankt!
Definition 2.1.46 Zwei Ereignisse A, B ∈ F heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A)P (B).
Bemerkung 2.1.47
1. Im Falle P (B) > 0 ist dies äquivalent zu P (A | B) = P (A).
2. A und Ω sowie A und ∅ sind stets unabhängig.
40
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
3. Unabhängigkeit hat nicht unbedingt etwas mit Kausalbeziehungen zu tun: Beispielsweise könnte die beobachtete stochastische Abhängigkeit der Zahl der Störche und
der Zahl der Geburten auf eine Kausalbeziehung hindeuten, obwohl beide nur von
einer dritten Größe abhängen. Dies ist hier die Zeit, da beide in den letzten dreißig
Jahren allmählich zurückgingen. Das Auftreten von stochastischer Abhängigkeit bzw.
Unabhängigkeit birgt also die Gefahr von Fehlinterpretationen.
Umgekehrtes Beispiel (Unabhängigkeit trotz Kausalbeziehung): Betrachtet sei der
zweifache Würfelwurf, Ω = {1, . . . , 6}2 mit Laplace-Verteilung P auf Ω.
A := { 2. Wurf ist eine 6 “} = {1, . . . , 6} × {6}, P (A) = 1/6,
”
B := { Augensumme ist 7 “} = {(1, 6), . . . , (6, 1)}, P (B) = 1/6,
”
A ∩ B = {(1, 6)}, P (A ∩ B) = 1/36 = P (A)P (B), also sind A und B unabhängig,
obwohl das Ergebnis des zweiten Würfelwurfs und die Summe der Augenzahlen
natürlich kausal zusammenhängen.
Allgemeiner:
Definition 2.1.48 Seien I 6= ∅ eine Indexmenge, Ai ∈ F für alle i ∈ I. Die Familie
(Ai )i∈I heißt unabhängig, falls für jede endliche, nichtleere Teilmenge J ⊆ I gilt:
\ Y
Ai =
P (Ai ).
P
i∈J
i∈J
Bemerkung 2.1.49
1. Falls für (Ai )i∈I nur gilt, dass P (Ai ∩ Aj ) = P (Ai )P (Aj ) für
i 6= j, dann heißt die Familie paarweise unabhängig. Diese Eigenschaft ist im Allgemeinen schwächer als Unabhängigkeit.
Beispiel: Zweifacher Münzwurf, Ω = {0, 1}2 und P sei die Gleichverteilung auf Ω.
A := { 1. Wurf ist 0“} = {0} × {0, 1}, P (A) = 1/2,
”
B := { 2. Wurf ist 0“} = {0, 1} × {0}, P (B) = 1/2,
”
C := { Beide Würfe sind gleich“} = {(0, 0), (1, 1)}, P (C) = 1/2.
”
A ∩ B = B ∩ C = A ∩ C = A ∩ B ∩ C = {(0, 0)} haben die Wahrscheinlichkeit 1/4,
somit sind die drei Mengen paarweise unabhängig.
Aber P (A ∩ B ∩ C) = 1/4 6= (1/2)3 = P (A)P (B)P (C), also sind A, B, C nicht
unabhängig.
2. Unabhängigkeit impliziert, dass alle bedingten Wahrscheinlichkeiten von A1 , . . . , An
in der Multiplikationsformel 2.1.42 nicht von den Bedingungen abhängen.
Satz 2.1.50 Sei (Ai )i∈I eine unabhängige Familie von Ereignissen. Dann ist auch (Ci )i∈I
unabhängig, wobei Ci ∈ {Ai , AC
i } für alle i ∈ I.
Beweis. Sei J ⊆ I nichtleer und endlich.
Beweis durch Induktion nach |{i ∈ J : Ci = AC
i }| =: n.
n = 0:
\ \ Y
Y
Vor.
P
Ci = P
Ai =
P (Ai ) =
P (Ci )
i∈J
i∈J
i∈J
i∈J
2.1. WAHRSCHEINLICHKEITSRÄUME
41
n → n + 1: Sei dazu j ∈ J so gewählt, dass Cj = AC
j .
\ \
\
P
Ci = P
Ci \
Ci ∩ Aj
i∈J
i∈J\{j}
= P
\
i∈J\{j}
Ci
−P
i∈J\{j}
Ind.vor.
Y
=
=
i∈J\{j}
=
Y
Ci ∩ Aj
i∈J\{j}
P (Ci ) −
Y
i∈J\{j}
Y
\
P (Ci ) P (Aj )
i∈J\{j}
P (Ci ) (1 − P (Aj ))
|
{z
}
=P (Cj )
P (Ci ).
i∈J
Nun zur Motivation der Exponentialverteilung für Wartezeiten und Lebensdauern ohne
”
Gedächtnis“:
Satz 2.1.51 (Gedächtnislosigkeit und Exponentialverteilung) Eine Wahrscheinlichkeitsverteilung P auf (R, B) mit P (R+ ) = 1 und P ([t, ∞)) < ∞ für alle t ∈ R+ heißt gedächtnislos, falls
P ((t + s, ∞) | (t, ∞)) = P ((s, ∞))
(2.4)
für alle s, t ∈ R+ . Die in diesem Sinne gedächtnislosen Verteilungen sind genau die Exponentialverteilungen aus Beispiel 2.1.26.
Beweis.
1. Sei P eine Exponentialverteilung zum Parameter λ. Dann gilt
P ((t + s, ∞))
P ((t, ∞))
1 − P ((−∞, t + s])
=
1 − P ((−∞, t])
−λ(t+s)
)
2.1.26 1 − (1 − e
=
−λt
1 − (1 − e )
P ((t + s, ∞) | (t, ∞)) =
= e−λs
2.1.26
= 1 − P ((−∞, s])
= P ((s, ∞)).
2. Sei P gedächtnislos mit Verteilungsfunktion F . Sei ferner λ := − log P ((1, ∞)).
Nach Satz 2.1.32 und Beispiel 2.1.30 reicht es zu zeigen, dass F (t) = 1 − e−λt für
alle t > 0 (denn F (t) = 0 für alle t ≤ 0 ist klar). Äquivalent zeigen wir, dass für
42
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
G := 1 − F gilt, dass G(t) = e−λt , t > 0. Auf Grund der Monotonie und Stetigkeit
genügt es, rationale t, etwa t = m/n für m, n ∈ N zu betrachten. Es gilt
G(t)G(s) = P ((t, ∞))P ((s, ∞))
P ((t + s, ∞))
(2.4)
= P ((t, ∞))
P ((t, ∞))
= P ((t + s, ∞))
= G(t + s)
für alle t ∈ R. Mit Induktion folgt
G(t1 + . . . + tk ) =
k
Y
G(ti )
(2.5)
i=1
für t1 , . . . , tk ≥ 0 und somit
n
1
1
1
(2.5)
−λ
G
= G(1) = e ⇒ G
= e−λ n
n
n
sowie
m (2.5) 1 m m
1
m
−λ n
= G
G
= e
= e−λ n .
n
n
2.2
Zufallsvariablen
In vielen Situationen ist oft weniger das Ergebnis ω ∈ Ω eines Zufallsexperimentes von
Interesse, als vielmehr quantitative Aspekte davon, vgl. Merkmale in Definition 1.1.3.
2.2.1
Zufallsvariablen im diskreten Fall
Sei zunächst Ω höchstens abzählbar. Der allgemeine Fall folgt in Abschnitt 2.2.4.
Definition 2.2.1 Sei (Ω, F , P ) ein (diskreter) Wahrscheinlichkeitsraum. Eine Abbildung
X : Ω → R (oder allgemeiner X : Ω → Ω0 ) heißt Zufallsgröße bzw. im allgemeinen Fall
Zufallsvariable.
Bezeichnung 2.2.2 Wir definieren
{X ∈ B} := {ω ∈ Ω : X(ω) ∈ B} = X −1 (B)
sowie
P (X ∈ B) := P ({X ∈ B}).
Beispiel: P (X > 5) := P ({ω ∈ Ω : X(ω) > 5}), {X > 5} := {ω ∈ Ω : X(ω) > 5}
Allgemein: P ((von ω ∈ Ω abhängige) Aussage) := P ({w ∈ Ω : Aussage gilt für ω})
2.2. ZUFALLSVARIABLEN
43
Beispiel 2.2.3 n-facher Münzwurf, Ω = {0, 1}n (0 entspricht Kopf, 1 entspricht Zahl).
P
X : Ω → Ω0 := {0, . . . , n} (oder alternativ R), ω = (ω1 , . . . , ωn ) 7→ X(ω) := ni=1 ωi .
steht für die Anzahl der Zahl“-Würfe.
”
Satz 2.2.4 Seien (Ω, P(Ω), P ) ein (diskreter) Wahrscheinlichkeitsraum, X : Ω → Ω0 eine
Zufallsvariable, wobei Ω0 abzählbar sei. Dann definiert
P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 )
für A0 ∈ Ω0 ein Wahrscheinlichkeitsmaß P X auf (Ω0 , P(Ω0 )).
Beweis.
1. P X (A0 ) = P (X −1 (A0 )) ∈ [0, 1]
2. P X (Ω0 ) = P (X −1 (Ω0 )) = P (Ω) = 1
3. Seien A01 , A02 , . . . paarweise disjunkt. Dann sind auch X −1 (A01 ), X −1 (A02 ), . . . paarweise disjunkt und somit
PX
∞
[
i=1
!
A0i
=P
X −1
∞
[
!!
A0i
i=1
{z
}
S∞
= i=1 X −1 (A0i )
σ-Add.
=
∞
X
P (X −1 (A0i )) =
i=1
∞
X
P X (A0i ).
i=1
|
Definition 2.2.5
1. P X in Satz 2.2.4 heißt Verteilung von X oder Bildmaß von P unter
X.
Schreibweisen: P X = PX = P ◦ X −1 = X(P ) = L(X; P ) = L(X).
2. Zufallsvariablen X, Y heißen identisch verteilt, falls P X = P Y .
Beispiel 2.2.6 Ziehen mit Zurücklegen aus einer Urne mit schwarzen und weißen Kugeln,
vgl. Definition 2.1.12(1). Sei Ω := {1, . . . , s + w}n , wobei 1, . . . , s einer schwarzen,
s + 1, . . . , s + w einer weißen Kugel entspreche. P sei die Laplace-Verteilung auf Ω.
Definiere X als die Anzahl der in n Durchgängen gezogenen schwarzen Kugeln, d. h.
X : Ω → {0, . . . , n} mit X((ω1 , . . . , ωn )) = |{i ∈ {1, . . . , n} : ωi ∈ {1, . . . , s}}|.
44
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Was ist die Verteilung von X?
P X ({k}) = P (X = k)
[
= P
{(ω1 , . . . , ωn ) ∈ Ω : ωi ∈ {1, . . . , s} für i ∈ I,
!
I⊆{1,...,n} :
|I|=k
X
=
I⊆{1,...,n} :
|I|=k
2.1.10(2)
=
ωi ∈ {s + 1, . . . , s + w} für i ∈ I C
Y
1 Y
{1,
.
.
.
,
s}
×
{s
+
1,
.
.
.
,
s
+
w}
|Ω| i∈I
C
X
I⊆{1,...,n} :
|I|=k
i∈I
sk wn−k
(s + w)n
k n−k
n
s
w
=
k
s+w
s+w
n k
=
p (1 − p)n−k , k ∈ {0, . . . , n}
k
2.1.10(4)
mit p :=
s
.
s+w
Diese Verteilung auf {0, . . . , n} heißt Binomialverteilung zu Parametern n, p.
Beispiel 2.2.7 Ziehen ohne Zurücklegen aus einer Urne mit schwarzen und weißen Kugeln,
vgl. Beispiel 2.1.12 (2). Sei Ω := {(ω1 , . . . , ωn ) ∈ {1, . . . , s + w}n : ω1 < · · · < ωn },
wobei 1, . . . , s einer schwarzen, s + 1, . . . , s + w einer weißen Kugel entspreche. P sei die
Laplace-Verteilung von X. Definiere wieder X als die Anzahl der in n ≤ s+w Durchgängen
gezogenen schwarzen Kugeln, d. h. X : Ω → {0, . . . , n} mit X((ω1 , . . . , ωn )) 7→ |{i ∈
{1, . . . , n} : ωi ≤ s}|. Wieder interessiert uns die Verteilung von X.
Für k = 0, . . . , n mit k ≤ s und n − k ≤ w gilt {X = k} = Ω0 × Ω00 mit
s
0
k
0
Ω := (ω1 , . . . , ωn ) ∈ {1, . . . , s} : ω1 < · · · < ωn ,
|Ω | =
,
k
w
00
n−k
00
Ω := (ωk+1 , . . . , ωn ) ∈ {s + 1, . . . , s + w}
: ωk+1 < · · · < ωn , |Ω | =
,
n−k
also
|Ω0 × Ω00 |
P X ({k}) = P (X = k) =
|Ω|
2.1.12(3),
2.1.10(2)
=
s
k
w
n−k
s+w
n
.
Diese Verteilung heißt hypergeometrisch. Nach Satz 2.2.4 handelt es sich tatsächlich um
eine Wahrscheinlichkeitsverteilung.
Definition 2.2.8 Seien n ∈ N \ {0}, Ω = {0, . . . , n} (oder N), s, w ∈ N mit (s + w) ≥ n.
Die hypergeometrische Verteilung zu Parametern n, s, w auf (Ω, P(Ω)) ist definiert durch
die Zähldichte
w s
%(k) :=
k
n−k
s+w
n
.
2.2. ZUFALLSVARIABLEN
45
Beispiel 2.2.9 Ziehung der Lottozahlen 6 aus 49“ im Urnenmodell aus Beispiel 2.2.7.
”
s + w = 49, s = 6 (entspricht den angekreuzten Zahlen), n = 6 (entspricht den gezogenen
Kugeln). Sei X wie oben, entspreche also den richtigen“ Kugeln, die sowohl angekreuzt
”
als auch gezogen wurden.
6 43
P ( Genau 5 Richtige“) = P (X = 5) =
”
2.2.2
5
1
49
6
≈ 1,8 · 10−5 .
Unabhängigkeit von Zufallsvariablen
Sei Ω weiterhin (höchstens) abzählbar.
Definition 2.2.10 Seien I 6= ∅ eine Indexmenge und Xi : Ω → Ωi Zufallsvariablen für alle
i ∈ I. Die Familie (Xi )i∈I heißt unabhängig, falls für jede endliche Teilmenge J ⊆ I mit
J 6= ∅ und alle Bi ⊆ Ωi , i ∈ J gilt, dass
\
Y
P
{Xi ∈ Bi } =
P (Xi ∈ Bi )
i∈J
i∈J
(d. h. für alle Bi ∈ Ωi , i ∈ I ist die Familie ({Xi ∈ Bi })i∈I unabhängig).
Satz 2.2.11 Seien Xi : Ω → Ωi , i = 1, . . . , n Zufallsvariablen, wobei für i = 1, . . . , n
die Mengen Ωi höchstens abzählbar seien. Dann sind X1 , . . . , Xn genau dann unabhängig,
wenn
n
Y
P (X1 = ω1 , . . . , Xn = ωn ) =
P (Xi = ωi )
i=1
für alle ω1 ∈ Ω1 , . . . , ωn ∈ Ωn gilt.
Beweis.
⇒“: Setze J := {1, . . . , n}, Bi := {ωi } für i = 1, . . . , n.
”
⇐“: Seien J ⊆ I, Bi ⊆ Ωi wie in Definition 2.2.10. Ohne Beschränkung der Allgemeinheit
”
sei J = {1, . . . , n} (sonst wähle Bi := Ωi für i ∈
/ J). Dann gilt
!
n
\
X
σ-Add.
P
{Xi ∈ Bi }
=
P (X1 = ω1 , . . . , Xn = ωn )
ω1 ∈B1 ,...,ωn ∈Bn
i=1
X
=
n
Y
P (Xi = ωi )
ω1 ∈B1 ,...,ωn ∈Bn i=1
=
σ-Add.
=
n
Y
i=1
n
Y
!
X
P (Xi = ωi )
ωi ∈Bi
P (Xi ∈ Bi ).
i=1
46
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Satz 2.2.12 Seien Xi : Ω → Ωi , i = 1, . . . , n Zufallsvariablen, wobei für i = 1, . . . , n die
Mengen Ωi höchstens abzählbar seien.
Q
Definiere X := (X1 , . . . , Xn ) : Ω → ni=1 Ωi , X(ω) = (X1 (ω), . . . , Xn (ω)). Dann gilt:
X1 , . . . , Xn unabhängig ⇔ P
X
=
n
O
P Xi
i=1
(d. h. Unabhängigkeit gilt ganau dann, wenn die gemeinsame Verteilung gerade dem Produkt der Randverteilungen entspricht).
Beweis.
X1 , . . . , Xn unabhängig
!
n
n
\
Y
⇔P
{Xi ∈ Bi } =
P (Xi ∈ Bi )
i=1
|
für Bi ⊆ Ωi , i = 1, . . . , n
i=1
{z
}
⇔ P X (B1 × · · · × Bn ) =
|
n
Y
{z
}
P Xi (Bi )
für Bi ⊆ Ωi , i = 1, . . . , n
i=1
⇔P
X
=
n
O
P Xi
i=1
Bemerkung 2.2.13 Zurück zu Bemerkung 2.1.36 (1) über Wahrscheinlichkeitsmaße bei unabhängigen Versuchswiederholungen:
Sei (Ω, P(Ω), P ) als (diskreter) Wahrscheinlichkeitsraum Modell für ein Zufallsexperiment. Wenn das zugehörige Experiment n-mal wiederholt wird, passt dazu der Grundraum
Q
Ωn = ni=1 Ω. Die i-te Projektion
πi : Ωn → Ω, (ω1 , . . . , ωn ) 7→ ωi
steht für das i-te Einzelexperiment.
Frage: Welches Wahrscheinlichkeitsmaß Q auf (Ωn , P(Ωn )) passt zu dem Mehrfach- bzw.
Gesamtexperiment?
Nebenbedingungen: Wir möchten, dass das Einzelexperiment πi die Verteilung P besitzt
und dass die Einzelexperimente stochastisch unabhängig sind, da dies der Anschauung einer
unabhängigen Versuchswiederholung unter identischen Bedingungen entspricht.
Antwort: Wenden wir Satz 2.2.12 auf X = (π1 , . . . , πn ) = id : Ωn → Ωn an, kommt nur das
Produktmaß
n
O
⊗n
P :=
P
i=1
in Frage. Bei der unabhängigen Hintereinanderausführung verschiedener Experimente
Nn
(Ωi , P(Ωi ), Pi ), i = 1, . . . , n, führt analoges Vorgehen zum Produktmaß
i=1 Pi auf
Qn
i=1 Ωi .
2.2. ZUFALLSVARIABLEN
47
Beispiel 2.2.14 n-maliger Wurf einer p-Münze mit p ∈ [0, 1].
Ωi = {0, 1}, Pi ({1}) = p = 1 − Pi ({0}), i = 1, . . . , n.
N
(Ω, P(Ω), P ) := ({0, 1}n , P({0, 1}n ), ni=1 Pi ) mit
P ({(ω1 , . . . , ωn )}) =
n
Y
Pi ({ωi })
i=1
Zahl der Einsen
=p
=p
Pn
i=1
ωi
(1 − p)Zahl der Nullen
(1 − p)n−
Pn
i=1
ωi
.
Diese Verteilung heißt Bernoulli-Verteilung.
P
Sei nun X : Ω → {0, . . . , n}, (ω1 , . . . , ωn ) 7→ ni=1 ωi die Zufallsgröße, die die Anzahl der
Einsen wiedergibt. Die Verteilung von X ist charakterisiert durch
P X ({k}) = P (X = k)
=
X
n
Y
P ({(ωI )i })
wobei (ωI )i :=
I⊆{1,...,n} i=1
mit |I|=k
=
X
(
1
0
falls i ∈ I,
sonst
pk (1 − p)n−k
I⊆{1,...,n}
mit |I|=k
n k
=
p (1 − p)n−k ,
k
k = 0, . . . , n.
Die Zufallsgröße ist also binomialverteilt, vgl. Beispiel 2.2.6.
Definition 2.2.15 Seien n ∈ N∗ , Ω = {0, 1, . . . , n} (oder N), p ∈ [0, 1]. Die Binomialverteilung mit Parametern n, p auf (Ω, P(Ω), P ) ist definiert durch die Zähldichte
n k
%(k) :=
p (1 − p)n−k ,
k
k ∈ {0, . . . , n} (bzw. N).
Beispiel 2.2.16 Analog: n-maliges Werfen eines unfairen“ Würfels mit r Seiten und Wahr”
scheinlichkeiten p1 , . . . , pr .
Ωi = {1, . . . , r}, Pi ({k}) = pk mit k = 1, . . . , r und i = 1, . . . , n,
N
(Ω, P(Ω), P ) := ({1, . . . , r}n , P({1, . . . , r}n ), ni=1 Pi ).
P
Betrachte die Zufallsvariable X : Ω → {(n1 , . . . , nr ) : n1 , . . . , nr ∈ N mit ni=1 ni = n},
(ω1 , . . . , ωn ) 7→ (|{i ∈ {1, . . . , n} : ωi = 1}|, . . . , |{i ∈ {1, . . . , n} : ωi = r}|)
= (Anzahl der Einsen, Anzahl der Zweien, . . . , Anzahl der r“-Würfe ).
”
48
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Die Verteilung von X ist charakterisiert durch
P X ({(n1 , . . . , nr )})
=
=
P (X = (n1 , . . . , nr ))
n
X
Y
Pi ({ωA1 ,...,Ar }i )
i=1
(Ai )i=1,...,r
Zerlegung von {1,...,n} |
mit |Ai |=ni für i=1,...,r
2.1.10(4b)
=
{z
mit (ωA1 ,...,Ar )i := k für i ∈ Ak
}
n
r
=p1 1 ···pn
r
n!
pn1 · · · pnr r
n1 ! · · · nr ! 1
für n1 , . . . , nr ∈ N mit
n
X
ni = n.
i=1
Diese Verteilung heißt Multinomialverteilung.
Pr
Definition 2.2.17 Seien n, r ∈ N∗ , Ω = {(n1 , . . . , nr ) ∈ Nr :
i=1 ni = n} sowie
Pr
p1 , . . . , pr ∈ [0, 1] mit i=1 pi = 1. Die Multinomialverteilung auf (Ω, P(Ω), P ) mit Parametern n, r, p1 , . . . , pr ist definiert durch die Zähldichte
%((n1 , . . . , nr )) =
n!
pn1 1 · · · pnr r .
n1 ! · · · nr !
Nun zu Summen unabhängiger Zufallsgrößen:
Definition 2.2.18 Seien X, Y unabhängige Zufallsvariablen und S := X + Y . Die Verteilung P S heißt Faltung von P X und P Y . Schreibweise: P X ∗ P Y := P S .
Satz 2.2.19 Seien X, Y unabhängige Zufallsgrößen mit Werten in Z und %X , %Y : Z → [0, 1]
die zu P X , P Y gehörigen Zähldichten. Dann ist
X
%S := Z → [0, 1], %S (k) :=
%X (`)%Y (k − `)
`∈Z
die Zähldichte von P X ∗ P Y . Schreibweise: %X ∗ %y := %S (Faltung von %X und %Y ).
Beweis.
%S (k) = P X+Y ({k})
= P (X + Y = k)
X
=
P (X = `, Y = k − `)
`∈Z
Unabh.
=
X
P (X = `)P (Y = k − `)
`∈Z
=
X
%X (`)%Y (k − `).
`∈Z
2.2. ZUFALLSVARIABLEN
2.2.3
49
Erwartungswert und Momente
Der Erwartungswert einer Zufallsgrößen ist das Mittel ihrer Werte, gewichtet mit den Wahrscheinlichkeiten ihres Auftretens. Was bedeutet diese Zahl, denn bei einem Würfelwurf wird
man alles mögliche erwarten“, aber sicher nicht, eine 3,5 zu würfeln?
”
Interpretation gemäß Motivation 2.1.5:
1. (Frequentistische Sichtweise). Der Erwartungswert ist das Stichprobenmittel einer
unendlich großen“ Stichprobe.
”
2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten). Der Erwartungswert ist das arithmetische Mittel der Werte von X bezogen auf eine Grundgesamtheit gleichwahrscheinlicher Ergebnisse.
Sei Ω weiterhin höchstens abzählbar.
Definition 2.2.20 Sei X : Ω → R eine Zufallsgröße. Der Erwartungswert von X ist definiert als
X
X(ω)P ({ω}),
E[X] :=
ω∈Ω
falls dies sinnvoll ist, genauer: falls X ≥ 0 (dann gilt möglicherweise E[X] = ∞) oder falls
X ∈ L 1 :⇔ E[ |X| ] < ∞.
|{z}
≥0
Beispiel 2.2.21 Einfacher Würfelwurf
Ω = {1, . . . , 6}, P sei die Laplace-Verteilung auf Ω, X : Ω → R, ω 7→ ω.
P
P
E[X] = 6ω=1 X(ω)P ({ω}) = 6ω=1 ω 61 = 3,5.
Satz 2.2.22 (Transformationssatz) Sei X : Ω → R eine Zufallsgröße. Dann gilt
X
E[X] =
xP (X = x),
x∈X(Ω)
falls der Ausdruck sinnvoll ist, d. h. falls X ≥ 0 oder
X
X ∈ L1 ⇔
|x|P (X = x) < ∞.
x∈X(Ω)
Allgemeiner: Für f : R → R gilt
E[f (X)] =
X
f (x)P (X = x),
x∈X(Ω)
falls f ≥ 0 oder
f (X) ∈ L 1 ⇔
X
x∈X(Ω)
|f (x)|P (X = x) < ∞.
50
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Beweis.
X
f (X(ω))P ({ω}) =
ω∈Ω
X
X
f (x)
x∈X(ω)
X
P ({ω}) =
ω∈{X=x}
f (x)P (X = x)
x∈X(Ω)
sowie
s.o.
f (X) ∈ L 1 ⇔ E[|f (X)|] < ∞ ⇔
X
|f (x)|P (X = x) < ∞.
x∈X(Ω)
Bemerkung 2.2.23
1. E[X] hängt nicht direkt von X als Abbildung ab, sondern nur
von dessen Verteilung P X auf X(Ω).
2. Für A ⊆ Ω ist E[1A ] = 0P (1A = 0) + 1P (1A = 1) = P (A).
3. Wenn P X die empirische Verteilung von x1 , . . . , xn ∈ R ist (vgl. Definition 2.1.4), ist
der Erwartungswert E(X) gerade deren arithmetisches Mittel, vgl. Definition 1.3.1.
Satz 2.2.24 (Rechenregeln) Seien X, Y, X1 , X2 , . . . : Ω → R Zufallsgrößen in L 1 , c ∈ R.
Dann gelten:
1. Monotonie:
X ≤ Y ⇒ E[X] ≤ E[Y ],
2. Linearität:
X + Y ∈ L 1 und E[X + Y ] = E[X] + E[Y ] sowie
cX ∈ L 1 und E[cX] = cE[X] (insbesondere E[c] = c),
3. monotone Konvergenz:
0 ≤ Xn ↑ X für n → ∞ ⇒ E[Xn ] ↑ E[X] für n → ∞,
4. Produktregel bei Unabhängigkeit:
X, Y unabhängig ⇒ XY ∈ L 1 und E[XY ] = E[X]E[Y ].
Beweis.
P
X(ω) P ({ω}) ≤
| {z }
P
|(X + Y )(ω)| P ({ω}) ≤
|
{z
}
P
1. E[X] =
ω∈Ω
ω∈Ω
Y (ω)P ({ω}) = E[Y ]
≤Y (ω)
2.
P
ω∈Ω
ω∈Ω
|X(ω)|P ({ω}) +
P
≤|X(ω)|+|Y (ω)|
Bei Weglassen der Betragsstriche gilt Gleichheit und damit
E[X + Y ] = E[X] + E[Y ].
Die zweite Aussage folgt analog.
ω∈Ω
|Y (ω)|P ({ω}) < ∞.
2.2. ZUFALLSVARIABLEN
51
3. Aus der Monotonie folgt, dass E[Xn ] ↑ c ≤ E[X] für ein c ∈ R+ . Sei nun ε > 0. Sei
P
A ⊆ Ω mit |A| < ∞ so groß, dass E[X] − ω∈A X(ω)P ({ω}) < ε (existiert wegen
Konvergenz). Sei n so groß, dass X(ω) − Xn (ω) < ε für alle ω ∈ A. Dann folgt
X
X
0 ≤ E[X] − E[Xn ] ≤
X(ω)P ({ω}) +
(X(ω) − Xn (ω)) P ({ω})
|
{z
}
C
ω∈A
ω∈A
≤ε
≤ ε + P (A)ε ≤ 2ε.
4.
X
|z|P (XY = z) =
z∈XY (Ω)
z
|z| P X = x, Y =
x}
{z
|
z∈XY (Ω),
X
z
6=0 nur falls y:= x
∈Y (Ω)
06=x∈X(Ω)
X
=
|xy| P (X = x, Y = y)
{z
}
|{z} |
y∈Y (Ω)
x∈X(Ω) =|x||y|
X
=
Unabh.
= P (X=x)P (Y =y)
|x|P (X = x)
x∈X(Ω)
X
|y|P (Y = y) < ∞.
y∈Y (Ω)
Die gleiche Rechnung ohne Betragsstriche ergibt, dass E[XY ] = E[X]E[Y ].
Beispiel 2.2.25 Sei X binomialverteilt mit Parametern n, p (vgl. Definition 2.2.6). Dann ist
n
X
n k
E[X] =
kP (X = k) =
k
p (1 − p)n−k
k
k=0
k∈X(Ω)
n X
n − 1 k−1
binom. Lehrs.
= np
p (1 − p)(n−1)(k−1)
=
np(p + (1 − p))n−1 = np.
k
−
1
k=1
X
Definition 2.2.26 Seien X : Ω → R eine Zufallsgröße und p ∈ [1, ∞).
Man schreibt X ∈ L p , falls |X|p ∈ L 1 (d. h. falls E[|X|p ] < ∞). Für X ∈ L p heißt
E[X p ] p-tes Moment von X.
0
0
Bemerkung 2.2.27 Für p ≤ p0 gilt L p ⊆ L p , denn |X|p ≤ 1 + |X|p .
Definition 2.2.28 Seien X, Y ∈ L 2 .
1. Var(X)p:= E[(X − E[X])2 ] heißt Varianz von X,
σX := Var(X) heißt Streuung oder Standardabweichung von X.
2. Kov(X, Y ) := E[(X − E[X])(Y − E[Y ])] heißt Kovarianz von X und Y .
3. Im Falle σX , σY 6= 0 heißt %X,Y =
Kov(X,Y )
σX σY
Korrelationskoeffizient von X, Y .
4. X, Y heißen unkorreliert, falls Kov(X, Y ) = 0.
52
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Bemerkung 2.2.29
1. Kov(X, Y ) ist definiert, denn für X, Y ∈ L 2
E[|(X − E[X])(Y − E[Y ])|]
≤ E[|XY |] + E[|E[X]Y |] + E[|XE[Y ]|] + E[|E[X]E[Y ]|]
≤ E [ |XY | ] + 3E[|X|]E[|Y |] < ∞.
| {z }
≤X 2 +Y 2
2. Varianz und Streuung beschreiben, wie dicht die Zufallsgröße am Erwartungswert
liegt. Kovarianz und Korrelation beschreiben die lineare Abhängigkeit von Zufallsgrößen.
3. Empirische Varianz, Streuung, Kovarianz und Korrelation von Daten x1 , . . . , xn in
Kapitel 1 sind fast“ Varianz, Streuung, Kovarianz und Korrelation einer Zufalls”
größen, deren Verteilung die empirische Verteilung der Daten x1 , . . . , xn ist. Der einzige Unterschied besteht im Vorfaktor 1/(n − 1) anstelle von 1/n in der Definition
von empirischer Varianz, Streuung und Kovarianz. Ein Grund dafür wird in Bemerkung 3.2.7 genannt.
4. Var(X) und σX hängen nur von P X ab, vgl. Bemerkung 2.2.23.
Satz 2.2.30 (Rechenregeln) Seien X, Y, X1 , . . . , Xn ∈ L 2 und a, b, c ∈ R.
1. Var(X) = E[X 2 ] − (E[X])2
2. Kov(X, Y ) = E[XY ] − E[X]E[Y ]
3. Die Abbildung (X, Y ) 7→ Kov(X, Y ) ist bilinear und symmetrisch, d. h.
(a) Kov(X1 + X2 , Y ) = Kov(X1 , Y ) + Kov(X2 , Y ),
(b) Kov(cX, Y ) = cKov(X, Y ),
(c) Kov(Y, X) = Kov(X, Y ).
4. Kov(X + b, Y ) = Kov(X, Y )
5. Var(aX + b) = a2 Var(X)
6. (E[XY ])2 ≤ E[X 2 ]E[Y 2 ] (Cauchy-Schwarzsche Ungleichung),
insbesondere (Kov(X, Y ))2 ≤ Var(X)Var(Y )
Pn
2
7.
i=1 Xi ∈ L und
!
n
n
n
X
X
X
Var
Xi =
Var(Xi ) +
Kov(Xi , Xj )
i=1
i=1
i,j=1
i6=j
Sind X1 , . . . , Xn paarweise unkorreliert, gilt
!
n
n
X
X
Var
Xi =
Var(Xi ) (Gleichung von Bienaymé).
i=1
i=1
2.2. ZUFALLSVARIABLEN
53
8. X, Y unabhängig ⇒ X, Y unkorreliert.
Beweis.
1. Folgt aus 2.
2. Kov(X, Y ) = E[(X − E[X])(Y − E[Y ])]
= E[XY ] − E[X]E[Y ] − E[X]E[Y ] + E[X]E[Y ]
= E[XY ] − E[X]E[Y ].
3. Kov(X1 + X2 , Y ) = E[(X1 + X2 )Y ] − E[X1 + X2 ]E[Y ]
2.
= E[X1 Y ] + E[X2 Y ] − E[X1 ]E[Y ] − E[X2 ]E[Y ]
E[·] linear
= Kov(X1 , Y ) + Kov(X2 , Y ).
Analog für Kov(cX, Y ). Symmetrie ist klar.
4. Kov(X + b, Y ) = E[(X + b − E[X + b])(Y − E[Y ])] = Kov(X, Y ).
|
{z
}
=X−E[X]
4.
5. Var(aX + b) = Kov(aX + b, aX + b) = Kov(aX, aX)
3.
= a2 Kov(X, X) = a2 Var(X).
6. Fall 1: E[X 2 ] = 0. Dann P (|X| > ε) = 0 für ε > 0, denn
ε2 1{|X|>ε} ≤ |X|2 ⇒ ε2 P (|X| > ε) = E[ε2 1{|X|>ε} ] ≤ E[X 2 ] = 0,
also P (X 6= 0) = 0 (Stetigkeit von unten) und somit E[XY ] = 0.
Fall 2: E[X 2 ] 6= 0. Für beliebige λ ∈ R gilt
0 ≤ E[(λX − Y )2 ] = λ2 E[X 2 ] − 2λE[XY ] + E[Y 2 ]
und mit λ :=
0≤
E[XY ]
E[X 2 ]
somit
(E[XY ])2
(E[XY ])2
−
2
+ E[Y 2 ] ⇒ (E[XY ])2 ≤ E[X 2 ]E[Y 2 ].
2
2
E[X ]
E[X ]
7. Wegen 4. können wir o. B. d. A. annehmen, dass E[Xi ] = 0. Also

!
!2 
n
n
X
X
Var
Xi = E 
Xi 
i=1
i=1
=
n
X
i=1
=
n
X
i=1
E[Xi2 ]
+
n
X
E[Xi Xj ]
i,j=1
i6=j
n
X
Var(Xi ) +
i,j=1
i6=j
Kov(Xi , Xj ).
54
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
8. Satz 2.2.24(4)
Beispiel 2.2.31 Sei X binomialverteilt mit Parametern n, p, vgl. Definition 2.2.15.
n
X
2
2 n
E[X ] =
k
pk (1 − p)n−k
k
k=0
n
X
n − 1 k−1
= np
k
p (1 − p)n−k
k
−
1
k=1
n−1
X
n−1 k
= np
(k + 1)
p (1 − p)n−k−1
k
k=0
!
n−1 n−1 X
X
n
−
1
n−1 k
pk (1 − p)n−1−k
= np
k
p (1 − p)n−1−k +
k
k
k=0
k=0
{z
} |
{z
}
|
=1
=(n−1)p (Bsp. 2.2.25)
= np((n − 1)p + 1),
2.2.25
also Var(X) = E[X 2 ] − (E[X])2 = (np)2 − np2 + np − (np)2 = np(1 − p).
Satz 2.2.32 Seien X, Y ∈ L 2 mit σX , σY 6= 0. Dann gelten:
1. %XY ∈ [−1, 1],
2. %XY = ±1 genau dann, wenn es a ∈ R, b ∈ (0, ∞) gibt mit P (Y = a ± bX) = 1.
Beweis.
1. Satz 2.2.30(6).
2.2.30(4)
2. ⇐“: Kov(X, Y ) = Kov(X, a ± bX) = ±bKov(X, X) = ±bVar(X) und
”
p
2.2.30(5) p
Var(X)Var(Y ) =
Var(X)b2 Var(X) = bVar(X).
e := X − E[X], Ye := Y − E[Y ] gilt (E[X
e Ye ])2 = E[X
e 2 ]E[Ye 2 ]. Analog
⇒“. Für X
”
zum Beweis von 2.2.30(6) folgt
ee
e − Ye )2 ] für λ = E[X Y ] = %XY σY
0 = E[(λX
e 2]
σX
E[X
e − Ye 6= 0) = 0.
und somit P (Y 6= λX − λE[X] + E[Y ]) = P (λX
Bemerkung 2.2.33 Achtung: Aus der Unkorreliertheit von X, Y folgt nicht, dass X, Y unabhängig sind!
Seien beispielsweise P (X = −1) = P (X = 0) = P (X = 1) = 1/3, Y := X 2 .
P (X = 1, Y = 1) = P (X = 1) = 1/3 6= 2/9 = (1/3)(2/3) = P (X = 1)P (Y = 1), also
sind X, Y nicht unabhängig.
Aber Kov(X, Y ) = E[XY ] − E[X]E[Y ] = 1/3 + 0 − 1/3 − 0(2/3) = 0, also sind X, Y
unkorreliert.
2.2. ZUFALLSVARIABLEN
55
Nun zum mehrdimensionalen Fall:
Definition 2.2.34 Sei X = (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable.
1. Im Fall X1 , . . . , Xn ∈ L 1 heißt
E[X] = (E[X1 ], . . . , E[Xn ]) ∈ Rn
Erwartungswertvektor von X.
2. Im Fall X1 , . . . , Xn ∈ L 2 ist die Kovarianzmatrix Kov(X) ∈ Rn×n definiert durch
Kov(X)ij := Kov(Xi , Xj ).
Satz 2.2.35 Seien X eine Rn -wertige Zufallsvariable, A ∈ Rm×n , b ∈ Rm . Dann gelten:
1. X1 , . . . , Xn ∈ L 1 ⇒ E[AX + b] = AE[X] + b,
2. X1 , . . . , Xn ∈ L 2 ⇒ Kov(AX + b) = AKov(X)AT ,
3. X1 , . . . , Xn ∈ L 2 ⇒ Kov(X) ist symmetrisch und positiv semidefinit.
Beweis.
1. Satz 2.2.24(2).
P
P
2. Kov(AX + b)ij = Kov( nk=1 Aik Xk + bi , nl=1 Ajl Xl + bj )
2.2.30 Pn
T
=
k,l=1 Aik Ajl Kov(Xk , Xl ) = (A Kov(X)A )ij .
2.
3. Symmetrie ist klar. Für a ∈ Rn gilt aT Kov(X)a = Kov(aT X, aT X) = Var(aT X) ≥
0, also ist Kov(X) auch positiv semidefinit.
Nützlich für konkrete Berechnungen:
Definition 2.2.36 Sei P ein Wahrscheinlichkeitsmaß auf (N, P(N)) mit Zähldichte %. Die
Funktion ϕP : [0, 1] → R mit
∞
X
ϕP (s) :=
%(k)sk
k=0
heißt erzeugende Funktion von P .
Bemerkung 2.2.37
renzierbar.
P∞
k=0
%(k) = 1 < ∞ ⇒ ϕP endlich und auf [0, 1) unendlich oft diffe-
Beispiel 2.2.38
1. P Gleichverteilung auf {1, . . . , n}:
1
ϕP (s) = n (s + s2 + · · · + sn )
2. P Binomialverteilung mit Parametern n, p:
P
ϕP (s) = nk=0 nk pk (1 − p)n−k sk = (ps + (1 − p))n
56
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
3. P Poissonverteilung mit Parameter λ:
P
−λ k
ϕP (s) = ∞
(λ /k!)sk = e−λ(1−s)
k=0 e
Bezeichnung 2.2.39 Ist X eine N-wertige Zufallsgröße, nennt man ϕX := ϕP X erzeugende
Funktion von X.
Bemerkung 2.2.40 ϕX (s) =
Satz 2.2.41
P∞
k=0
P (X = k)sk = E[sX ] für s ∈ [0, 1].
1. Sei P Wahrscheinlichkeitsverteilung auf N mit Zähldichte %. Dann gilt
1 (k)
ϕ (0),
k! P
%(k) =
k ∈ N,
(k)
wobei ϕP die k-te Ableitung sei. Insbesondere ist P durch ϕP eindeutig bestimmt.
2. Sei X eine N-wertige Zufallsgröße. Dann gelten
(a) X ∈ L 1 ⇔ ϕ0X (1−) := lims↑1 ϕ0X (s) existiert ⇔ ϕ0X (1) existiert;
(b) X ∈ L 2 ⇔ ϕ00X (1−) := lims↑1 ϕ00X (s) existiert .
In diesem Fall Var(X) = ϕ00X (1) − (E[X])2 + E[X].
Beweis.
1. Analysis, z. B. Heuser, Analysis I, 64.2.
2. (a)
(ϕ0X (1)
ϕX (1) − ϕX (s)
=) lim
s↑1
1−s
∞
X
= lim
s↑1
= sup
n∈N
= lim
s↑1
k=0
n
X
k=0
∞
X
%(k)
k−1
X
s
i
∞
X
1 − sk
= lim
%(k)
s↑1
1−s
k=0
= sup sup
s<1 n∈N
j=0
%(k)k
=
∞
X
n
X
k=0
%(k)
k−1
X
sj
j=0
%(k)k
(= E[X])
k=0
%(k)ksk−1
k=0
= lim ϕ0X (s).
s↑1
(b) Analog zu (a):
∞
ϕ0 (1) − ϕ0X (s) X
lim X
=
%(k)k(k − 1)
s↑1
1−s
k=1
= lim
s↑1
∞
X
k=1
%(k)k(k − 1)sk−2 = lim ϕ00 (s),
s↑1
insbesondere im Fall X ∈ L 2 :
ϕ00X (1) = E[X 2 − X] = Var(X) + (E[X])2 − E[X] = lims↑1 ϕ00X (s).
2.2. ZUFALLSVARIABLEN
57
Beispiel 2.2.42 Sei X Poissonverteilt mit Parameter λ.
∂ −λ(1−s)
∂ 2 −λ(1−2)
Dann sind E[X] = ∂s
e
|s=1 = λ und Var(X) = ∂s
|s=1 − λ2 + λ = λ.
2e
Satz 2.2.43 Seien X, Y unabhängige N-wertige Zufallsgrößen. Dann gilt
ϕX+Y (s) = ϕX (s)ϕY (s),
Beweis. ϕX+Y (s) = E[sX+Y ] = E[sX sY ]
2.2.24(4)
=
s ∈ [0, 1].
E[sX ]E[sY ] = ϕX (s)ϕY (s).
Korollar 2.2.44 Seien P1 , P2 Verteilungen auf N. Dann gilt
ϕP1 ∗P2 (s) = ϕP1 (s)ϕP2 (s),
s ∈ [0, 1].
Beweis. Definition der Faltung 2.2.18.
Beispiel 2.2.45
1. Sind P1 , P2 binomialverteilt mit Parametern m, p bzw. n, p, ist auch
P1 ∗ P2 binomialverteilt mit Parametern (m + n), p (nach Beispiel 2.2.38 (2) und
Korollar 2.2.44).
2. Sind P1 , P2 poissonverteilt mit Parametern λ1 bzw. λ2 , ist auch P1 ∗ P2 poissonverteilt
mit Parameter (λ1 + λ2 ) (nach Beispiel 2.2.38 (3) und Korollar 2.2.44).
2.2.4
Zufallsvariablen im allgemeinen Fall
Wir möchten unsere Theorie nun auf überabzählbare Ω übertragen. Dabei ergeben sich folgende Probleme:
• P (X ∈ B) = P (X −1 (B)) ist eventuell nicht definiert für das Wahrscheinlichkeitsmaß P : F → R+ , denn im Allgemeinen ist F 6= P(Ω);
• E[X] =
P
ω∈Ω
X(ω)P ({ω}) ergibt für überabzählbares Ω keinen Sinn.
Auf maßtheoretische Beweise verzichten wir in dieser Einführung.
Definition 2.2.46 (vgl. Definition 2.2.1)
Seien (Ω, F ), (Ω0 , F 0 ) Ereignisräume.
X : Ω → Ω0 heißt (F -F 0 )-messbar, falls X −1 (A0 ) ∈ F für alle A0 ∈ F 0 (Urbilder messbarer Mengen sind messbar). Falls (Ω, F , P ) ein Wahrscheinlichkeitsraum ist, heißen messbare X Zufallsvariablen, falls zusätzlich (Ω0 , F 0 ) = (R, B), auch Zufallsgrößen.
Bemerkung 2.2.47
zeigen.
1. Es reicht, X −1 (A0 ) ∈ F für alle A0 aus dem Erzeuger von F 0 zu
58
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
2. A ∈ F ⇒ 1A : Ω → R ist messbar.
Summen, Produkte, inf, sup, lim inf, lim sup und Hintereinanderausführungen messbarer Abbildungen sind messbar.
Stetige Abbildungen sind Borel-messbar (d. h. messbar bezüglich der Borel-σAlgebra).
Faustregel: Messbarkeit ist kein kritischer Punkt.
Satz 2.2.48 (vgl. Satz 2.2.4)
Sei X : (Ω, F , P ) → (Ω0 , F 0 ) eine Zufallsvariable, d. h. (Ω, F , P ) ist ein Wahrscheinlichkeitsraum, (Ω0 , F 0 ) ein Ereignisraum, und X ist messbar. Dann definiert
P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 ),
A0 ∈ F 0
ein Wahrscheinlichkeitsmaß P X auf (Ω0 , F 0 ) (allgemeiner: ein Maß P X , falls P ein Maß
ist).
Beweis. Die Funktion ist wohldefiniert, da X −1 (A0 ) ∈ F . Rest wie in Satz 2.2.4.
Definition 2.2.49 (vgl. Definition 2.2.5)
Die Verteilung von X, das Bildmaß von P unter X (auch falls P nur Maß) und identisch
verteilt werden genau wie im abzählbaren Fall definiert.
Definition 2.2.50 (vgl. Definition 2.2.10)
Seien I 6= ∅ eine Indexmenge und Xi : (Ω, F , P ) → (Ωi , Fi ) Zufallsvariablen für alle
i ∈ I.
(Xi )i∈I heißt unabhängig, falls
!
\
Y
P
{Xi ∈ Bi } =
P (Xi ∈ Bi )
i∈J
i∈J
für alle nichtleeren, endlichen J ⊆ I und alle Bi ∈ Fi , i ∈ J.
Bemerkung 2.2.51
1. (vgl. Satz 2.2.11)
Statt aller Bi ∈ Fi reicht es, alle Bi aus einem ∩-stabilen Erzeuger von Fi zu betrachten. Beispielsweise sind Zufallsgrößen X1 , . . . , Xn genau dann unabhängig, wenn
P (X1 ≤ c1 , . . . , Xn ≤ cn ) =
n
Y
P (Xi ≤ ci )
i=1
für alle c1 , . . . , cn ∈ [−∞, ∞]. (Es reichen sogar c1 , . . . , cn ∈ R).
2. Ist (Xi )i∈I unabhängig, ist auch (fi (Xi ))i∈I unabhängig, falls fi messbare Funktionen
sind. Ferner sind auch Kombinationen“ der Xi unabhängig. Beispielsweise folgt aus
√
”
der Unabhängigkeit von X1 , . . . , X5 , dass auch (X1 + X2 , X3 , X4 X5 ) unabhängig
ist.
2.2. ZUFALLSVARIABLEN
59
Satz 2.2.52 (vgl. Satz 2.2.12)
Seien Xi : (Ω, F , P ) → (Ωi , Fi ), i ∈ I Zufallsvariablen. Definiere X := (Xi )i∈I : Ω →
Q
i∈I Ωi , vgl. Bemerkung 2.1.36(3). Dann gilt:
O
(Xi )i∈I unabhängig ⇔ P X =
P Xi .
i∈I
(P X , i∈I P Xi
2.1.36(3))
N
Q
N
sind Wahrscheinlichkeitsmaße auf ( i∈I Ωi , i∈I Fi ), vgl. Bemerkung
Bemerkung 2.2.53 Bemerkung 2.2.13 (unabhängige Versuchswiederholung) gilt entsprechend. Sie ist auch für unendliche Versuchswiederholungen sinnvoll. Die Modellierung erQ
N
N
folgt via ( i∈I Ωi , i∈I Fi , i∈I Pi ), wobei (Ωi , Fi , Pi ) das Einzelexperiment mit Nummer i beschreibt.
Beispiel 2.2.54 (vgl. Beispiel 2.2.14)
Folge unendlich vieler Würfe einer p-Münze mit p ∈ [0, 1].
Ωi = {0, 1}, Pi ({1}) = p = 1 − Pi ({0}), i = 1, 2, . . .
Die 0 wird als Misserfolg, die 1 als Erfolg interpretiert.
N∞
N∞
Q
P({0,
1}),
{0,
1},
(Ω, F , P ) := ( ∞
i=1 Pi )
i=1
Q∞ i=1
N∗
Hierbei ist i=1 {0, 1} =: {0, 1} die Menge aller Abbildungen N∗ → {0, 1}.
Die Zufallsgröße Xr beschreibe für r ∈ N die Zahl der Misserfolge bis zum r-ten Erfolg,
d. h.
(
)
k
X
Xr : Ω → N, ω 7→ inf k ∈ N :
ωi = r − r
i=1
(insbesondere ist X1 die Wartezeit bis zum ersten Erfolg). Dann gilt
!
k+r−1
X
P (Xr = k) = P ω ∈ Ω : ωk+r = 1,
ωi = r − 1
i=1
X
=
P ({ω ∈ Ω : ωi = 1 für i ∈ A ∪ {k + i},
A⊆{1,...,k+r−1}
|A|=r−1
Unabh.
X
=
ωi = 0 für i ∈ {1, . . . , k + r − 1} \ A})
pr (1 − p)(k+r−1)−(r−1)
A⊆{1,...,k+r−1}
|A|=r−1
=
k+r−1 r
p (1 − p)k ,
r−1
k ∈ N.
Diese Verteilung heißt negative Binomialverteilung und für r = 1 geometrische Verteilung.
Definition 2.2.55 Seien p ∈ (0, 1), r ∈ N∗ . Die negative Binomialverteilung oder PascalVerteilung mit Parametern r, p auf (N, P(N)) ist definiert durch die Zähldichte
k+r−1 r
%(k) :=
p (1 − p)k , k ∈ N.
r−1
Für r = 1 heißt die Verteilung geometrische Verteilung mit Parameter p.
60
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 2.2.56 Sei P die negative Binomialverteilung mit Parametern r, p.
1. Erzeugende Funktion:
∞
X
k+r−1
ϕP (s) =
pr (1 − p)k sk
r
−
1
k=0
|
{z
}
k+r−1
−r
=( k )=( k )(−1)k
∞ X
−r
r
=p
(−s(1 − p))k
k
k=0
r
p
=
.
1 − (1 − p)s
k
P
α
(Binomische Reihe: (1 + x)α = ∞
k=0 k x )
2. Folgerung: Seien P1 , P2 negative Binomialverteilungen mit Parametern r1 , p bzw.
r2 , p. Dann ist P1 ∗ P2 eine negative Binomialverteilung mit Parametern r1 + r2 , p
(nach Korollar 2.2.44).
3. Sei X negativ binomialverteilt mit Parametern r, p. Dann gelten
r p
2.2.41 ∂
E[X] =
∂s 1 − (1 − p)s s=1
−r−1
r
= r(1 − p)p (1 − (1 − p)s)
|s=1
1−p
1
= r
=r
−1 ,
p
p
r 2
2
2
p
2.2.41 ∂
− r (1 − p) + r(1 − p)
Var(X) =
∂s2 1 − (1 − p)s s=1
p2
p
2
r (1 − p)2 r(1 − p)
+
= r(r + 1)(1 − p)2 pr (1 − (1 − p)s)−r−2 s=1 −
p2
p
|
{z
}
=r(r+1)
(1−r)2
p2
1−p
.
p2
Man beachte, dass Erwartungswert und Varianz proportional zu r sind. Dies ist auch
zu erwarten, wenn man die Wartezeit auf den r-ten Erfolg als unabhängige Summe
von r Wartezeiten jeweils auf den nächsten Erfolg versteht.
= r
Nun zum Erwartungswert mittels Lebesgue-Integration:
Definition 2.2.57 (vgl. Definition 2.2.20)
Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum (oder allgemeiner ein Maßraum). X : Ω → R
heißt elementar, falls
n
X
X=
ai 1Ai
i=1
mit a1 , . . . , an ∈ R+ , A1 , . . . , An ∈ F . (Die Mengen A1 , . . . , An können in diesem Fall
disjunkt gewählt werden.)
2.2. ZUFALLSVARIABLEN
61
1. Definiere das Integral für solche X als gewichteten Mittelwert:


Z
n
X
X
X dP :=
ai P (Ai ) =
xP (X = x) .
i=1
x∈X(Ω)
2. Sei X : Ω → R eine Zufallsgröße (bzw. messbar) mit X ≥ 0. Definiere das Integral
Z
Z
X dP := sup
Y dP : Y elementar mit Y ≤ X .
R
3. Sei X : Ω → R eine Zufallsgröße (bzw. messbar) mit X + dP < ∞ oder
R −
X dP < ∞ im Sinne von 2., wobei X + := max{0, X}, X − := max{0, −X}.
Definiere das Integral
Z
Z
Z
+
X dP := X dP − X − dP.
R
R
X heißt integrierbar, falls |X| dP < ∞ (oder äquivalent dazu, falls X + dP < ∞
R
und X − dP < ∞). Schreibweise: X ∈ L 1
4. Seien X : Ω → R eine Zufallsgröße (bzw. messbar) wie in 2. oder 3. und A ∈ F .
Definiere das Integral
Z
Z
X dP := X1A dP.
A
R
R
1. Man schreibt auch X dP := X(ω) P (dω).
R
R
2. Im Fall P = λ (Lebesguemaß) sei A f (x) dx := A f dλ. Dieses Lebesgue-Integral
stimmt mit dem (eigentlichen) Riemann-Integral überein, falls letzteres existiert.
R
3. Für Wahrscheinlichkeitsmaße P schreibt man E[X] := X dP und nennt das Integral
Erwartungswert von X, vgl. Definition 2.2.20 und Satz 2.2.22.
Bezeichnung 2.2.58
Eigenschaften 2.2.59 (vgl. Satz 2.2.24)
1. Für höchstens abzählbares Ω entspricht der Erwartungswert dem Erwartungswert aus
Definition 2.2.20.
Begründung für endliches Ω und X ≥ 0:
Z
X
X
2.2.57(1)
X=
X(ω)1{ω} ⇒
X dP =
X(ω)P ({ω})
ω∈Ω
ω∈Ω
oder
X=
X
x1{X=x}
x∈X(Ω)
2.
R
X dP ist wohldefiniert.
2.2.57(1)
⇒
Z
X dP =
X
x∈X(Ω)
xP (X = x).
62
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
3. X 7→
R
X dP ist linear und monoton.
4. Falls X, X1 , X2 , . . . messbar und nichtnegativ sind mit Xn ↑ X für n → ∞, gilt
Z
Z
Xn dP ↑n→∞ X dP (monotone Konvergenz).
5. Falls X, X1 , X2 , . . . messbar sind mit Xn → X für n → ∞ (punktweise) und
R
supn |Xn | dP < ∞, gilt
Z
Z
n→∞
Xn dP −−−→ X dP (majorisierte Konvergenz).
Satz 2.2.60 (Transformationssatz) (vgl. Satz 2.2.22)
Seien X : (Ω, F , P ) → (Ω0 , F 0 ) und die Funktion f : (Ω0 , F 0 ) → (R, B) messbar. Dann
gilt
Z
Z
f dP X ,
f (X) dP =
falls der Ausdruck definiert ist, d. h. f ≥ 0 oder
R
|f (X)| dP < ∞ (⇔
R
|f | dP X < ∞).
Bemerkung 2.2.61 (vgl. Bemerkung 2.2.23(1))
R
R
Insbesondere gilt E[X] = X dP = x P X (dx), d. h. der Erwartungswert hängt nur von
P X ab.
Satz 2.2.62 (vgl. Satz 2.2.22)
Sei P ein Wahrscheinlichkeitsmaß auf (R, B) mit Lebesgue-Dichte %, vgl. Satz 2.1.25. Dann
gilt
Z
%(x) dx,
P (B) =
B ∈ B.
B
mit dem Integral aus Bemerkung 2.2.58(2). Allgemeiner:
Z
Z
f dP = f (x)%(x) dx
für f : (R, B) → (R, B) mit f ≥ 0 oder
R
|f | dP < ∞ (⇔
R
|f (x)|%(x) dx < ∞).
Beispiel 2.2.63
1. Sei X eine auf [a, b] gleichverteilte Zufallsgröße, d. h. P X ist die
Gleichverteilung auf [a, b]. Dann ist
Z
Z
1
2.2.61
2.2.62
X
E[X] =
x P (dx) =
x%(x) dx
mit %(x) =
1[a,b] (x)
b−a
Z
Z b
1
1
=
x
dx =
x dx
b−a a
[a,b] b − a
b
1 x2 b 2 − a2
=
=
b − a 2 x=a 2(b − a)
a+b
=
.
2
2.2. ZUFALLSVARIABLEN
63
2. Sei X eine exponentialverteile Zufallsgröße mit Parameter λ, d. h. P X ist exponentialverteilt mit Parameter λ. Dann ist
Z
Z
2.2.61
2.2.62
X
E[X] =
x P (dx) =
x%(x) dx
mit %(x) = 1R+ (x)λe−λx
Z ∞
xλe−λx dx
=
0
Z ∞
−λx ∞
e−λx dx
= −xe
+
x=0
∞ 0
1 −λx = 0− e λ
x=0
1
=
.
λ
3. Allgemein also: Ist X eine Zufallsgröße, deren Verteilung Lebesgue-Dichte % hat und
ist f : R → R messbar, gilt
Z
E[f (X)] = f (x)%(x) dx,
falls der Erwartungswert existiert, denn
Z
Z
Z
Def.
2.2.60
X 2.2.62
E[f (X)] =
f (X) dP =
f dP
=
f (x)%(x) dx.
Vergleiche im Diskreten:
2.2.22
E[f (X)] =
X
f (x)P (X = x) =
x∈X(Ω)
X
f (x)%(x),
x∈X(Ω)
falls % die Zähldichte der Verteilung von X ist.
Bemerkung 2.2.64 L p , p-te Momente, Varianz, Streuung, Standardabweichung, Kovarianz, Korrelationskoeffizient, Unkorreliertheit, Erwartungswertvektor und Kovarianzmatrix
werden wie in Definitionen 2.2.26, 2.2.28, 2.2.34 definiert. Die Rechenregeln und Bemerkungen 2.2.23, 2.2.24, 2.2.27, 2.2.29, 2.2.30, 2.2.32, 2.2.33, 2.2.35 gelten mit denselben
Beweisen auch allgemein.
Beispiel 2.2.65 Sei X exponentialverteilt mit Parameter λ. Dann ist
Z ∞
Z ∞
2 2.2.63(3)
2
−λx
2 −λx ∞
E[X ] =
x λe
dx = −x e
+
2xe−λx dx
x=0
0
0
Z
2 ∞
2
1
2.2.63(2)
= 0+
xλe−λx dx =
λ 0
λλ
2
= 2
λ
und somit
Var(X) = E[X 2 ] − (E[X])2
2.2.63(2)
=
2
1
1
−
=
.
λ2 λ2
λ2
64
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Zur Integration von Produktmaßen:
Satz 2.2.66 (Satz von Fubini) Seien (Ω1 , F1 , P1 ), (Ω2 , F2 , P2 ) Wahrscheinlichkeitsräume
und f : Ω1 × Ω2 → R mit f ≥ 0 oder f ∈ L 1 (P1 ⊗ P2 ). Dann gilt
Z
Z Z
f d(P1 ⊗ P2 ) =
f (ω1 , ω2 )P2 ( dω2 )P1 ( dω1 )
Z Z
=
f (ω1 , ω2 )P1 ( dω1 )P2 ( dω2 ).
Insbesondere für A ∈ F1 ⊗ F2 :
Z Z
(P1 ⊗ P2 )(A) =
1A (ω1 , ω2 )P2 ( dω2 )P1 ( dω1 )
Z Z
=
1A (ω1 , ω2 )P1 ( dω1 )P2 ( dω2 ).
Bemerkung 2.2.67 Satz 2.2.66 gilt nicht nur für Wahrscheinlichkeitsmaße, sondern auch
für die meisten anderen Maße, beispielsweise das Lebesguemaß, d. h.
Z
Z Z
Z Z
f (x) dx =
f (x1 , x2 ) dx1 dx2 =
f (x1 , x2 ) dx2 dx1 .
R2
Beispiel 2.2.68
1. Sie schalten zwei Glühbirnen ein, deren Lebensdauern unabhängig
exponentialverteilt sind mit Parametern λ1 , λ2 . Mit welcher Wahrscheinlichkeit ist die
erste Glühbirne zuerst defekt? Seien X1 , X2 die Lebensdauer der jeweiligen Glühbirne. Dann gilt
P (X1 ≤ X2 ) = P ((X1 , X2 ) ∈ {x ∈ R2 : x1 ≤ x2 })
= P (X1 ,X2 ) ({x ∈ R2 : x1 ≤ x2 })
Unabh.
= (P X1 ⊗ P X2 )({x ∈ R2 : x1 ≤ x2 })
Z Z
(2.2.66)
=
1{x∈R2 : x1 ≤x2 } (x1 , x2 )P X1 ( dx1 )P X2 ( dx2 )
Z ∞ Z x2
(2.2.61)
1R+ (x1 )λ1 e−λ1 x1 dx1 1R+ (x2 )λ2 e−λ2 x2 dx2
=
0
0
Z ∞
=
.(−e−λ1 x1 )|xx21 =0 λ2 e−λ2 x2 dx2
Z0 ∞
=
(1 − e−λ1 x2 )λ2 e−λ2 x2 dx2
0
λ2
e−(λ1 +λ2 )x2 )|∞
x2 =0
λ1 + λ2
λ2
λ1
= 1−
=
.
λ1 + λ2
λ1 + λ2
= 1 − .(
2. Seien X1 , X2 unabhängige Zufallsgrößen mit Verteilungsdichten %1 , %2 und sei
f : R2 → R (vgl. Beispiel 2.2.63 (3)). Dann gilt
Z Z
E[f (X1 , X2 )] =
f (x1 , x2 )%1 (x1 ) dx1 %2 (x2 ) dx2 .
2.2. ZUFALLSVARIABLEN
65
Insbesondere für A ⊆ R2 :
Z Z
P ((X1 , X2 ) ∈ A) =
1A (x1 , x2 )%1 (x1 ) dx1 %2 (x2 ) dx2 .
Für diskrete Zufallsgrößen mit Zähldichten %1 , %2 vereinfacht sich dies zu
X
E[f (X1 , X2 )] =
f (x1 , x2 )
P ((X1 , X2 ) = (x1 , x2 ))
|
{z
}
(x1 ,x2 )∈(X1 ,X2 )(Ω)
X
=
Unabh.
= P (X1 =x1 )P (X2 =x2 )=%1 (x1 )%2 (x2 )
X
f (x1 , x2 )%1 (x1 )%2 (x2 ).
x2 ∈X2 (Ω) x1 ∈X1 (Ω)
Zur Faltung bei Dichten:
Satz 2.2.69 (vgl. Satz 2.2.19)
Seien X, Y unabhängige Zufallsgrößen mit zugehörigen Verteilungsdichten %X , %Y : R →
R+ . Dann ist %S : R → R+ mit
Z
%S (x) = %X (z)%Y (x − z) dz
die Dichte von P X ∗ P Y . Schreibweise: %X ∗ %Y := %S (Faltung von %X und %Y ).
Beweis. Seien X, Y unabhängig, S := X + Y .
Sei F die Verteilungsfunktion von P X ∗ P Y = P X+Y = P S . Dann gilt
F (t)
P (S ≤ t) = P (X + Y ≤ t)
=
P ((X, Y ) ∈ {(x, y) ∈ R2 : x + y ≤ t})
Z Z
2.2.68(2)
=
1{x+y≤t} %Y (y) dy %X (x) dx
Z ∞ Z t−x
=
%Y (y) dy %X (x) dx
−∞ −∞
Z t Z ∞
=
%Y (z − x)%X (x) dx dz,
=
−∞
also
−∞
∂
HDI
%S (t) =
F (t) =
∂t
2.1.33
Z
∞
%Y (t − x)%X (x) dx.
−∞
Definition 2.2.70 Sei F : R → [0, 1] die Verteilungsfunktion einer Verteilung auf (R, B)
(z. B. der Verteilung einer Zufallsgröße X). Dann heißt F ← : (0, 1) → R mit
p 7→ inf{x ∈ R : F (x) ≥ p}
verallgemeinerte Inverse oder Quantilfunktion von F .
66
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Bemerkung 2.2.71
1. F ← ist linksseitig stetig;
2. F ← = F −1 |(0,1) falls F streng monoton und stetig;
3. F ← (p) ≤ t ⇔ p ≤ F (t) für alle t ∈ R, p ∈ (0, 1).
Definition 2.2.72 Sei F die Verteilungsfunktion einer Verteilung P auf (R, B), etwa die
Verteilung einer Zufallsgröße X.
1. Jede Zahl m ∈ [F ← ( 21 ), F ← ( 12 +)] heißt Median von P bzw. X, wobei
F ← (p+) := limq↓p F ← (q).
2. Für p ∈ (0, 1) heißt jede Zahl q ∈ [F ← (p), F ← (p+)] p-Quantil von P bzw. X.
Bemerkung 2.2.73
1. q ist ein p-Quantil von X genau dann wenn P (X ≤ q) ≥ p und
P (X ≥ q) ≥ 1 − p.
2. Der Median ist gerade das 1/2-Quantil, 1/4- und 3/4-Quantile heißen untere bzw. obere
Quartile.
Beispiel 2.2.74
1. Wenn F die empirische Verteilungsfunktion von x1 , . . . , xn ∈ R ist,
entsprechen Median und p-Quantil bis auf die spezielle Wahl denen aus den Definitionen 1.3.3 und 1.3.8.
2. Sei X exponentialverteilt mit Parameter λ > 0 (beispielsweise Lebensdauer eines
radioaktiven Teilchens). X hat die Verteilungsfunktion
F (t) = P (X ≤ t)
2.1.30(1)
=
1 − e−λt ,
also F ← (p) = − λ1 log(1 − p).
Der eindeutige Median (Halbwertszeit) von X ist somit
1
1
1
1
m = − log
6= = E[X] .
= log(2)
λ
2
λ
λ
Definition 2.2.75 Sei X eine Zufallsgröße, deren Verteilung die Zähldichte oder LebesgueDichte % hat. Falls % ein eindeutiges Maximum bei x0 ∈ R hat, heißt x0 Modus oder Modalwert von X.
2.3
2.3.1
Grenzwertsätze
Konvergenzbegriffe
Frage: Wie verhalten sich stochastische Experimente im Limes, z. B. wenn Versuche oft wiederholt werden? Gesetze der großen Zahlen etwa besagen, dass bei häufiger Versuchswiederholung das arithmetische Mittel gegen den Erwartungswert konvergiert (bzw. die relative
Häufigkeit gegen die entsprechende Wahrscheinlichkeit). Allerdings ist nicht von vornherein
klar, in welchem Sinne Konvergenz bei Folgen von Zufallsgrößen zu verstehen ist.
2.3. GRENZWERTSÄTZE
67
Definition 2.3.1 Seien X, X1 , X2 , . . . : (Ω, F , P ) → (R, B) Zufallsgrößen.
1. (Xn )n∈N∗ konvergiert stochastisch (oder in Wahrscheinlichkeit) gegen X, falls für alle
ε>0
n→∞
P (|Xn − X| ≤ ε) −−−→ 1.
P
(Schreibweise: Xn −
→ X).
2. (Xn )n∈N∗ konvergiert P -fast sicher gegen X, falls
P (Xn → X für n → ∞) = 1.
Bemerkung 2.3.2
1. Fast sichere Konvergenz impliziert stochastische Konvergenz. Wir
betrachten in dieser Vorlesung nur stochastische Konvergenz.
2. Es gibt weitere Begriffe, wie z. B.
n→∞
Xn → X in L p :⇔ E[|Xn − X|p ] −−−→ 0.
Diese betrachten wir in dieser Vorlesung nicht.
Definition 2.3.3 Seien X, X1 , X2 , . . . Zufallsgrößen mit zugehörigen Verteilungsfunktionen FX , FX1 , FX2 , . . .
Die Folge (Xn )n∈N∗ konvergiert in Verteilung gegen X (bzw. (P Xn )n∈N∗ konvergiert
schwach gegen P X ), falls
n→∞
FXn (c) −−−→ FX (c)
für alle c ∈ R, in denen FX stetig ist.
L
d
D
Schreibweisen: Xn −
→ X, Xn →
− X, Xn −
→ X für n → ∞.
Bemerkung 2.3.4
1. Verteilungskonvergenz hängt nur von der Folge der Verteilungen
X1
X2
P , P , . . . ab. Die Zufallsgrößen selbst brauchen in keiner Beziehung zueinander
zu stehen.
2. Man kann zeigen:
Xn → X in Verteilung ⇔ E[f (Xn )] → E[f (X)] für alle stetigen, beschränkten
Funktionen f : R → R.
Satz 2.3.5 Seien X, X1 , X2 , . . . N-wertige Zufallsgrößen mit Verteilungsfunktionen
FX , FX1 , FX2 , . . . . Die folgenden Aussagen sind äquivalent:
1. Xn → X in Verteilung,
n→∞
2. FXn (c) −−−→ FX (c) für alle c ∈ R,
n→∞
3. P (Xn = k) −−−→ P (X = k) für alle k ∈ N
(d. h. punktweise Konvergenz der Zähldichten von P Xn ).
68
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Beweis. 2 ⇒ 1: klar
1 ⇒ 3:
1
1
1
1
k − ,k +
P (Xn = k) = P
= FXn k +
− FXn k −
2
2
2
2
1
1
n→∞
− FX k −
= P (X = k), k ∈ N
−−−→ FX k +
2
2
Xn
3 ⇒ 2:
FXn (c) =
[c]
X
n→∞
P (Xn = k) −−−→
k=0
[c]
X
P (X = k) = FX (c)
k=0
P
Satz 2.3.6 Falls Xn −
→ X, dann auch Xn → X in Verteilung.
Beweis. Seien η > 0 und c ein Stetigkeitspunkt von FX . Dann gilt
FXn (c) − FX (c) = P (Xn ≤ c) − P (X ≤ c)
≤ P (X ≤ c + ε) − P (X ≤ c) + P (|Xn − X| > ε) < η
{z
} |
{z
}
|
< η2 für kleines ε
< η2 für großes n(ε)
für großes n. Analog: FXn (c) − FX (c) > −η für großes n.
2.3.2
Gesetze der großen Zahlen
Nun zur eingangs erwähnten Konvergenz:
Satz 2.3.7 (Markow-Ungleichung) Seien X eine Zufallsgröße und f : R+ → R+ monoton
wachsend mit f (x) > 0 für x > 0. Dann gilt
P (|X| ≥ ε) ≤
E[f (|X|)]
,
f (ε)
ε > 0.
Beweis. E[f (|X|)] ist definiert, da f (|X|) ≥ 0. Weiter ist f (ε)1{|X|≥ε} ≤ f (|X|) und somit
f (ε)P (|X| ≥ ε) = E[f (ε)1{|X|≥ε} ] ≤ E[f (|X|)].
Korollar 2.3.8 (Tschebyschow-Ungleichung) Für X ∈ L 2 und ε > 0 gilt
P (|X − E[X]| ≥ ε) ≤
Var(X)
.
ε2
Beweis. Satz 2.3.7 für X 0 := X − E[X] und f (x) := x2 .
2.3. GRENZWERTSÄTZE
69
Satz 2.3.9 (Schwaches Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige, identische verteilte Zufallsgrößen in L 2 . Dann gilt
n
1X
P
Xi −
→ E[X1 ]
n i=1
für n → ∞.
Beweis. Für Yn :=
1
n
Pn
i=1
gilt
n
1X
E[Xi ] = E[X1 ],
E[Yn ] =
n i=1
n
1 X
1
Var(Yn ) = 2
Var(Xi ) = Var(X1 ),
n i=1
n
2.2.30
also folgt
P
!
n
1 X
2.3.8 Var(X1 ) 1
Xi − E[X1 ] > ε = P (|Yn − E[Yn ]| > ε) ≤
→0
n
ε2
n
i=1
für n → ∞.
Korollar 2.3.10 Seien X1 , X2 unabhängige, identisch verteilte Zufallsgrößen und A ∈ B.
Dann gilt
n
1X
P
1A (Xi ) −
→ P X1 (A)
n i=1
|
{z
}
| {z }
rel. Häufigkeit
Wahrscheinlichkeit
für n → ∞.
Beweis. P X1 (A) = P (X1−1 (A)) = E[1X −1 (A) ] = E[1A (X1 )]
Beispiel 2.3.11 Seien X1 , X2 , . . . unabhängig und auf {1, . . . , 6} gleichverteilt (Würfelwürfe). Dann gelten
n
1X
P
Xi −
→ E[X1 ] = 3,5
n i=1
sowie
n
1X
1
P
1{k} (Xi ) −
→ P (X1 = k) = ,
n i=1
6
k = 1, . . . , 6.
Bemerkung 2.3.12
1. In 2.3.9 und 2.3.10 genügt es, statt Unabhängigkeit nur paarweise
Unkorreliertheit zu fordern. Der Beweis bleibt gleich.
2. 2.3.9 und 2.3.10 gelten sogar mit fast sicherer anstelle von stochastischer Konvergenz.
Satz 2.3.9 heißt dann starkes Gesetz der großen Zahlen.
70
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
3. Konkrete Abschätzungen erhält man beispielsweise mit der TschebyschowUngleichung. Diese sind jedoch oft sehr grob.
4. Das Gesetz der großen Zahlen ist einer der wichtigsten Sätze der Stochastik. Es sorgt
dafür, dass man trotz Zufall oft ohne Stochastik auskommt, da mit Erwartungswerten
gerechnet werden kann.
2.3.3
Verteilungsapproximation und zentraler Grenzwertsatz
Motivation 2.3.13 Die hypergeometrische Verteilung steht für die Zahl der Erfolge bei Ziehen ohne Zurücklegen aus einer Urne, die Binomialverteilung für Ziehen mit Zurücklegen,
vgl. Beispiele 2.2.6, 2.2.7. Ist die Urne im Vergleich zur Stichprobe groß, ist das Zurücklegen nahezu irrelevant für die Wahrscheinlichkeiten.
N →∞
Satz 2.3.14 Seien (KN )N ∈N eine Folge in N, n ∈ N und p ∈ (0, 1) mit KNN −−−→ p. Sei XN
hypergeometrisch verteilt mit Parametern n, kN , N − KN (vgl. Definition 2.2.8). Sei ferner
X binomialverteilt mit Parametern n, p. Dann konvergiert (XN )N ∈N in Verteilung gegen X
für N → ∞.
N →∞
Beweis. Satz 2.3.5: Zu zeigen ist P (XN = k) −−−→ P (X = k) für alle k ∈ N (bzw.
k = 0, . . . , n).
N −KN KN
P (XN = k) =
k
n
=
k
N
n
n−k
!
KN − k + 1
K N KN − 1
···
N N −1
N −k+1
|{z} | {z }
|
{z
}
→p
→p
→p
|
{z
}
k Stück
!
N − KN N − K N − 1
N − KN − (n − k) + 1
···
N −k N −k−1
N −n+1
| {z } |
{z
}
|
{z
}
→1−p
→1−p
→1−p
|
{z
}
(n−k) Stück
n k
N →∞
−−−→
p (1 − p)n−k = P (X = k).
k
Beispiel 2.3.15 Von 10 000 Glühbirnen sind 200 defekt. Der Kunde weist die Sendung
zurück, falls in einer Stichprobe von 20 Glühbirnen mindestens eine defekt ist. Wie hoch
ist die Wahrscheinlichkeit hierfür?
Die Zufallsgröße X beschreibe die Zahl der defekten Glühbirnen in der Stichprobe. Beispiel 2.2.7: X ist hypergeometrisch verteilt mit Parametern 20 (Größe der Stichprobe), 200
2.3. GRENZWERTSÄTZE
71
(defekte Glühbirnen), 9 800 (heile Glühbirnen). Also ist
200 9 800
P (X 6= 0) = 1 − P (X = 0) = 1 −
0
20
10 000
20
=1−
9 800 · · · 9 781
≈ 0,3327.
10 000 · · · 9 981
Approximation durch die Binomialverteilung mit n = 20, p =
200
10 000
= 0,02:
9 800 · · · 9 800
20
P (X =
6 0) = 1 − P (X = 0) ≈ 1 −
0,020 0,9820 = 1 −
≈ 0,3324.
0
10 000 · · · 10 000
| {z }
=1
Motivation 2.3.16 Für Anrufe in einer Telefonzentrale wird eine plausible Wahrscheinlichkeitsverteilung für die Anzahl der Anrufe in einer Stunde gesucht, wenn im Mittel 20 Anrufe
pro Stunde eingehen.
Intuition: Münzwurfexperiment mit einem Münzwurf pro Sekunde, die Wahrscheinlichkeit
für Kopf (entspricht einem Anruf) ist p = 20/3 600. Man erhält eine Binomialverteilung mit
Parametern 3 600, 20/3 600.
Alternativ: Betrachte Millisekunden statt Sekunden. Man erhält eine Binomialverteilung mit
Parametern 3 600 000, 20/3 600 000.
Was passiert im Limes verschwindender Zeitintervalle?
Satz 2.3.17 ( Gesetz der kleinen Zahlen“) Sei Xn binomialverteilt mit Parametern n, pn ,
”
n→∞
wobei npn −−−→ λ ∈ (0, ∞). Sei ferner X poissonverteilt mit Parameter λ. Dann konvergiert Xn für n → ∞ in Verteilung gegen X.
n→∞
Beweis. Satz 2.3.5: Zu zeigen ist P (Xn = k) −−−→ P (X = k) für alle k ∈ N. Für
λn := npn gilt
n k
P (Xn = k) =
p (1 − p)n−k
k
n −k
n(n − 1) · · · (n − k + 1) λkn
λn
λn
=
1−
1−
nk
k!
n
n
n
k
1
1
λn
λn
k−1
= 1
1−
1−
··· 1 −
n
n
n
(1 − λnn )k k!
{z
} | {z } |{z} |
|{z} | {z } |
{z
}
=1
n→∞
−−−→
→1
→1
λk −λ
e = P (X = k),
k!
→1
k
→ λk! →e−λ , da λn →λ
(Analysis)
k ∈ N.
Bemerkung 2.3.18 2.3.16 und 2.3.17 liefern die fehlende Motivation der Poissonverteilung
in Beispiel 2.1.24.
72
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Beispiel 2.3.19 Wir betrachten noch einmal die Situation aus Beispiel 2.3.15 und approximieren die Binomialverteilung nun durch die Poissonverteilung mit Parameter λ = np =
20 · 0,02 = 0,4:
P (X 6= 0) = 1 − P (X = 0) ≈ 1 − e−0,4
0,40
= 1 − e−0,4 ≈ 0,3297.
0!
Motivation 2.3.20
1. Für die Approximation der Binomialverteilung durch die Poissonverteilung in Satz 2.3.17 muss p klein sein (wegen np → λ). Was passiert für großes
n und festes p?
P
2. Seien X1 , X2 , . . . unabhängig identisch verteilte Zufallsgrößen, Sn := ni=1 Xi
(z. B. Würfe einer p-Münze wie in 2.2.14, d. h. die Xi sind Bernoulli-verteilt und Sn
ist – nach Beispiel 2.2.45 und Induktion – binomialverteilt mit Parametern n, p).
Frage: Was ist die Verteilung von Sn für große n? Konvergiert die Verteilung?
P
→ E[X1 ] für n → ∞,
Wir wissen: Nach dem Gesetz der großen Zahlen gilt Sn /n −
d. h. der Zufall verschwindet bei Teilen durch n im Limes. Ferner gilt E[Sn ] =
Pn
Pn
i=1 Var(Xi ) = nVar(X1 ), d. h. ohi=1 E[Xi ] = nE[X1 ] sowie Var(Sn ) =
ne Reskalierung kann die Folge in keinem vernünftigen Sinne konvergieren, da Erwartungswert und Varianz divergieren. Um überhaupt nichttriviale Konvergenz zu
ermöglichen, müssen wir die Sn zunächst geeignet standardisieren.
Bezeichnung 2.3.21 Seien X1 , X2 , . . . Zufallsgrößen in L 2 . Dann heißt
Sn − E[Sn ]
Sn∗ := p
Var(Sn )
standardisierte Summe(nvariable), wobei Sn :=
Bemerkung 2.3.22
Var(Sn∗ ) = √
1. E[Sn∗ ] = √
1
2 Var(Sn )
Var(Sn )
Pn
i=1
1
(E[Sn ]
Var(Sn )
Xi .
− E[Sn ]) = 0
=1
2. Falls X1 , X2 , . . . unabhängig und identisch verteilt sind, ist
Sn − nE[X1 ]
.
Sn∗ = p
nVar(X1 )
Falls X1 , X2 , . . . zudem Bernoulli-verteilt sind mit Parameter p (d. h. binomialverteilt
mit Parametern 1, p), dann ist
Sn − np
Sn∗ = p
.
np(1 − p)
2.3. GRENZWERTSÄTZE
73
Satz 2.3.23 (Lokale Approximation der Binomialverteilung) Sei p ∈ (0, 1), q := 1 − p
und c > 0. Sei Sn binomialverteilt mit Parametern n, p. Dann gilt
P (Sn = k)
lim max − 1 :
n→∞
ϕnp,npq (k)
k − np √
npq ≤ c = 0
für
(x − µ)2
ϕµ,σ2 (x) := √
exp −
.
2σ 2
2πσ 2
1
√
Beweis. Hilfsmittel aus der Analysis: n! ∼ 2πn nn e−n für n → ∞ (Stirlingsche Formel),
z. B. Heuser, Analysis I, §96. ∼“ bedeutet hier, dass der Quotient für n → ∞ gegen 1
”
konvergiert.
Definiere xn (k) :=
k−np
√
.
npq
Sei (kn )n eine beliebige Folge in N mit |xn (kn )| = | k√n −np
| ≤ c.
npq
n
⇒ | knn − p| → 0, | n−k
− (1 − p)| → 0
n
⇒ kn → ∞ und (n − kn ) → ∞ für n → ∞
⇒
n!
pkn q n−kn
kn !(n − kn )!
kn n−kn
r
1
n
np
nq
∼√
n − kn
2π kn (n − kn ) kn
P (Sn = kn ) =
Es ist
kn
np
=1+
xn (kn )
√
n
q
q
p
und
n−kn
nq
=1−
xn (kn )
kn (m − kn )
= npq 1 + √
n
n
| {z
→0
xn (kn )
√
n
q
p
q
für n → ∞.
also
r !
r !
q
xn (kn ) p
1− √
∼ npq
p
q
n
}
| {z }
→0
für n → ∞.
74
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Ferner folgt mit der Taylorentwicklung log(1 + x) = x −
x2
2
+ O(x3 ), dass
k n−kn !
kn n n − kn
log
np
nq
n − kn
kn
+ (n − kn ) log
= kn log
np
nq
r r xn (kn ) q
xn (kn ) q
= np 1 + √
log 1 + √
p
p
n
n
r r xn (kn ) p
xn (kn ) p
log 1 − √
+ nq 1 − √
q
q
n
n
!
r r
2
3
q
q
x
(k
)
x
(k
)
x
(k
)
q
Taylor
n
n
n
n
n
√ n
= np 1 + √
−
+ O n− 2
p
p
2n p
n
n
!
r r
3
xn (kn ) p
xn (kn ) p xn (kn )2 p
+ nq 1 − √
− √
−
+ O n− 2
q
q
2n q
n
n
!
r
2
3
x
(k
)
q
x
(k
)
q
Ausmult.
n
n
n
√ n
= np
+
+ O n− 2
p
2n p
n
!
r
3
xn (kn ) p xn (kn )2 p
+ nq − √
+
+ O n− 2
q
2n q
n
1
(xn (kn ))2
+ O n− 2 ,
=
2
p
)|
eine beschränkte Folge ist. Zusammen
wobei O(np ) für eine Folge derart steht, dass |O(n
np
folgt
1
1
(xn (kn ))2
P (Sn = kn ) ∼ √ √
exp −
= ϕnp,npq (kn ).
2
2π npq
Wählt man kn so, dass das Maximum in Satz 2.3.23 bei kn angenommen wird, folgt die
Behauptung.
Bemerkung 2.3.24 Satz 2.3.23 bedeutet P (Sn = k) ≈ ϕnp,npq (k) für große n.
Gehört ϕµ,σ2 auch zu einer Wahrscheinlichkeitsverteilung? Ja, in folgendem Sinne:
Definition 2.3.25 Seien µ ∈ R, σ 2 > 0. Die Normalverteilung oder Gauß-Verteilung
N (µ, σ 2 ) auf (R, B) ist definiert durch die Lebesgue-Dichte
(x − µ)2
exp −
ϕµ,σ2 (x) := √
,
2σ 2
2πσ 2
1
N (0, 1) heißt Standard-Normalverteilung.
x ∈ R.
2.3. GRENZWERTSÄTZE
Bemerkung 2.3.26
75
1.
∞
Z
2
2
− x2
e
Z
dx
∞
Z
∞
e−
=
−∞
Subst.-regel
=
=
−∞
Z 2π
−∞
Z ∞
x2 +y 2
2
dy dx
r2
re− 2 dr dp
0
0
∞
r2 = 2π
−2π e− 2 r=0
und somit
Z
∞
ϕµ,σ2 (x) dx
−∞
y= x−µ
σ
Z
∞
=
−∞
y2
1
√ e− 2 dy = 1.
2π
Also ist ϕµ,σ2 tatsächlich eine Dichte im Sinne von Satz 2.1.25.
2. Sei XN (µ, σ 2 )-verteilt. Dann gilt
Z ∞
E[X] =
xϕµ,σ2 (x) dx
−∞
Z ∞
1
(x − µ)2
=√
x exp −
dx
2σ 2
2πσ 2 −∞
Z ∞
y2
1
y=x−µ
y exp − 2 dy
= √
2σ
2πσ 2 −∞
{z
}
|
=0, da Integrand ungerade
Z ∞
1
(x − µ)2
+µ√
exp −
dx
2σ 2
2πσ 2 −∞
{z
}
|
=1
= µ,
Var(X)
= E[(X − µ)2 ]
Z ∞
=
(x − µ)2 ϕµ,σ2 (x) dx
−∞
Z ∞
y= x−µ
y2
1
σ2
σ 2 y 2 e− 2 dy
= √
2π −∞
!
∞
Z ∞
2
y2 y2
part. Int. σ
= √
ye− 2 +
e− 2 dy
2π
−∞
y=−∞
|
{z
} |
{z
}
√
=0
= 2π
2
=σ .
Ähnlich erhält man E[(X − µ)3 ] = 0 und E[(X − µ)4 ] = 3σ 4 .
Aus dem lokalen Grenzwertsatz erhalten wir den folgenden Zentralen Grenzwertsatz für
Bernoulli-Folgen.
76
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
Korollar 2.3.27 (Satz von de Moivre-Laplace)
Sei X1 , X2 , . . . eine Folge unabhängiger, identisch verteilter Zufallsgrößen mit P (X1 =
1) = p = 1 − P (X1 = 0) für ein p ∈ (0, 1). Seien Sn∗ die zugehörigen standardisierten
Summen, vgl. 2.3.22(2). Sei ferner S standard-normalverteilt, d. h. P S = N (0, 1).
Dann konvergiert Sn∗ in Verteilung gegen S für n → ∞, d. h.
n→∞
P (a ≤ Sn∗ ≤ b) −−−→ Φ(b) − Φ(a)
für [a, b] ∈ [−∞, ∞] mit a ≤ b, wobei
Z
x
Φ(x) :=
−∞
x2
1
√ e− 2 dx.
2π
Beweis. Fall 1: −∞ < a < b < ∞.
Seien c := max{|a|, |b|} und ε > 0. Nach Satz 2.3.23 existiert ein N ∈ N derart, dass für
alle k > N
ϕnp,npq (k)
− 1 : |xn (k)| ≤ c < ε
max P (Sn = k)
und somit
X ϕ0,1 (xn (k)) P (a ≤ Sn∗ ≤ b) −
√
npq k
mit
a≤xn (k)≤b
X
X ϕ0,1 (xn (k)) P (Sn = k) −
=
√
npq k
mit
k
mit
a≤xn (k)≤b
a≤xn (k)≤b
X
ϕnp,npq (k) |P (Sn = k)| 1 −
≤
P (Sn = k) k mit
≤ ε.
a≤xn (k)≤b
|
{z
≤1
}|
{z
≤ε
}
Ferner gilt
Z
b
ϕ0,1 (x) dx −
a
X
k mit
a≤xn (k)≤b
ϕ0,1 (xn (k)) n→∞
−−−→ 0,
√
npq da es sich um die Riemann-Approximation des Integrals handelt. (Beachte, dass
1
xn (k + 1) − xn (k) = √npq
). Mit der Dreiecksungleichung folgt die Behauptung.
Fall 2: a = −∞ (b = ∞ folgt analog).
p
Sei ε > 0. Da limc→−∞ Φ(c) = 0, muss es ein c > 3/ε derart geben, dass Φ(−c) < ε/3.
Nach Fall 1 gibt es weiter ein N ∈ N derart, dass für alle n > N
ε
|P (−c ≤ Sn∗ ≤ b) − Φ(b) − Φ(−c)| < .
3
2.3. GRENZWERTSÄTZE
77
Also gilt
|P (Sn∗ ≤ b) − Φ(b)|
≤ |P (Sn∗ ≤ b) − P (−c ≤ Sn∗ ≤ b)|
+ |P (−c ≤ Sn∗ ≤ b) − Φ(b) + Φ(−c)| + |Φ(−c)|
ε ε
< P (|Sn∗ | > c) + + .
|
{z
}
3 3
≤
∗)
Var(Sn
< 3ε nach
c2
2.3.8
Bemerkung 2.3.28
1. Seien X1 , X2 , . . . wie in Korollar 2.3.27. Für ganzzahlige k, l ist
offenbar P (k ≤ Sn ≤ l) = P (k − 21 ≤ Sn ≤ l + 12 ). Die Approximation in Korollar
2.3.27 wird besser, wenn man mit a :=
und b =
l−np
√
npq
k− 12 −np
√
npq
und b :=
l+ 12 −np
√
npq
anstelle von a =
k−np
√
npq
arbeitet.
2. Faustregel: Für npq ≥ 9 ist die Approximation gut.
Für großes n und kleines np eignet sich die Poisson-Verteilung aus Satz 2.3.17 besser.
Beispiel 2.3.29 Betrachte die Situation aus Beispiel 2.3.15.
Approximation der Binomialverteilung durch den zentralen Grenzwertsatz mit np = 0,9,
npq = 0,392:
P (X 6= 0) = 1 − P (X = 0) ≈ 1 − ϕnp,npq (0) = 1 − √
1
≈ 0,3628.
2π0,392
Das Beispiel ist für die Anwendung des zentralen Grenzwertsatzes schlecht geeignet, da
npq ≈ 0,4 deutlich kleiner als 9 ist.
Beispiel 2.3.30 (Qualitätskontrolle)
Betrachte Kartons mit jeweils 1 000 Glühbirnen. Mit welcher Wahrscheinlichkeit sind nicht
mehr als 1% der Glühbirnen in einem Karton defekt, wenn im Mittel 1% der Glühbirnen
defekt sind? (Annahme: Es gibt keine Serienfehler).
Seien dazu X1 , X2 , . . . , X100 unabhängig Bernoulli-verteilt mit Parameter 0,01, wobei die 0
für eine heile, die 1 für eine kaputte Glühbirne stehe.
P 000
Gesucht ist P (S ≤ 10) mit S := 1i=1
Xi . Als Summe ist S mit Parametern 1 000 und 0,01
binomialverteilt.
1. Exakte Wahrscheinlichkeit (mühsame Rechnung):
10 X
1 000
P (S ≤ 10) =
0,01k 0,991 000−k ≈ 0,583.
k
k=0
78
KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG
2. Mit Korollar 2.3.27 ( quick and dirty“):
”
E[S] = 1 000 · 0,01 = 10
Var(S) = 1 000 · 0,01 · 0,99 = 9,9
S − 10
1
√
P (S ≤ 10) = P
≤ 0 ≈ Φ(0) = .
2
9,9
3. Etwas besser mit Bemerkung 2.3.28:
P (S ≤ 10) = P (S ≤ 10,5) = P
S − 10
√
≤ 0,159 ≈ Φ(0,159) ≈ 0,563.
9,9
Äußerst wichtig und bemerkenswert: Satz 2.3.27 gilt auch für beliebige Verteilungen:
Satz 2.3.31 (Zentraler Grenzwertsatz von Lindeberg-Lévy) Sei X1 , X2 , . . . eine Folge
unabhängiger, identisch verteilter Zufallsgrößen in L 2 mit Var(X1 ) > 0. Seien Sn∗ die zugehörigen standardisierten Summen, vgl. 2.3.21. Sei ferner S standard-normalverteilt, d. h.
P S = N (0, 1). Dann konvergiert Sn∗ in Verteilung gegen S für n → ∞.
Beweis. nicht in dieser Vorlesung
Bemerkung 2.3.32
1. Die Grenzverteilung hängt magischerweise nicht von der Verteilung der Xi ab. (Bitte staunen!)
2. Satz 2.3.31 macht die Normalverteilung zur wichtigsten Verteilung überhaupt, obwohl
vermutlich so gut wie nichts exakt normalverteilt ist.
Achtung: Trotz ihrer Universalität ist die Normalverteilung nicht immer zur Modellierung von Zufallsexperimenten angemessen, warum sollte sie auch?
Bemerkung 2.3.33
1. Was tun, wenn X1 , X2 , . . . > 0 unabhängig und identisch verteilt
Qn
sind, aber Zn := i=1 Xi von Interesse ist (multiplikative Effekte)?
Betrachte dann
n
X
Sn := log Zn =
log(Xi ).
{z }
|
i=1
unabh., ident. verteilt
⇒ Sn ist approximativ normalverteilt (im Sinne von Satz 2.3.31).
2. Was ist die Verteilung von Z = eS , falls S normalverteilt ist mit N (µ, σ 2 )?
Sei FZ die Verteilungsfunktion von Z und % die zugehörige Dichte. Dann gelten
Z
log(t)
ϕµ,σ2 (x) dx, t ≥ 0,
1
1
(log(t) − µ)2
0
%(t) = Fz (t) = ϕµ,σ2 (log t) = √
exp −
,
t
2σ 2
2πσ 2 t
Fz (t) = P (Z ≤ t) = P (S ≤ log t) =
0
t ≥ 0.
2.3. GRENZWERTSÄTZE
79
Definition 2.3.34 Die Verteilung auf R+ mit Lebesguedichte
1
(log(t) − µ)2
%(x) := 1(0,∞) (x) √
exp −
2σ 2
2πσ 2 t
heißt Lognormalverteilung (Gallon-McAlister-Verteilung, Cobb-Douglas-Verteilung) mit
Parametern µ ∈ R, σ 2 > 0.
Kapitel 3
Schließende Statistik
Bisher haben wir uns mit Wahrscheinlichkeitsrechnung beschäftigt, in der es darum ging,
Schlussfolgerungen aus einem gegebenen stochastischen Modell (Ω, F , P ) zu ziehen. Woher aber bekommt man dieses Modell, insbesondere P , sofern nicht gerade der Versuchsaufbau die Laplace-Verteilung nahelegt?
In der Statistik geht es darum, mit Hilfe von Beobachtungen/Daten auf das unbekannte
Wahrscheinlichkeitsmaß P , das diesen Daten zugrunde liegt, zu schließen. Wegen der Stochastik der Daten werden Aussagen über P aber in der Regel mit mehr oder minder großer
Unsicherheit behaftet sein. Fragestellungen in der Statistik laufen daher oft auf ein Entscheiden unter Unsicherheit hinaus.
3.1
Statistische Modellbildung
Beispiel 3.1.1 Eine p-Münze werde 100 mal geworfen, vgl. Beispiel 2.2.14. p ist unbekannt.
1. (Schätzen). Was ist p?
Idee: Seien x1 , . . . , x100 die Ergebnisse der hundert Würfe. Man könnte p durch die
P100
1
relative Häufigkeit p̂ := 100
i=1 xi schätzen. Ist das vernünftig?
2. (Testen). Ist die Münze fair, d. h. ist p = 1/2?
Idee: Vermutlich ja, falls |p̂ − 1/2| klein. Vermutlich nein, falls |p̂ − 1/2| groß. Was heißt
in diesem Zusammenhang klein und groß?
3. (Konfidenzintervalle). Ergänzung zur ersten Frage: Schätzung von p mit Genauigkeitsaussage, d. h. in der Form p̂ ± Toleranz. Welche Toleranz?
Bemerkung 3.1.2 Stochastische Modellbildung
(Ω, F , P ) ist ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgröße. Berechne dann
P (X ∈ B), E[X], Var(X) etc.
Genauer: Oft ist nur P X bekannt (nicht aber der Raum (Ω, F , P ) und die Abbildung X
selbst), dies reicht aber für Berechnungen aus.
80
3.1. STATISTISCHE MODELLBILDUNG
81
Statistik: Wir wollen Aussagen über das unbekannte P X mit Hilfe von Daten x1 , . . . , xn
treffen, vgl. 3.1.1.
Achtung: Wir modellieren Beispiel 3.1.1 nicht mit einer einzelnen Zufallsgrößen X : Ω →
R, die den einfachen Münzwurf repräsentiert, und 100 zufällig gezogenen Ergebnissen
ω1 , . . . , ω100 , die zur Stichprobe (x1 , . . . , x100 ) = (X(ω1 ), . . . , X(ω100 )) führen.
Sondern: Wir betrachten 100 Zufallsgrößen Xi : Ω → R, i = 1, . . . , 100, und fassen
die Stichprobe (x1 , . . . , x100 ) = (X1 (ω), . . . , X100 (ω)) = X(ω) als in einem nur einmal durchgeführten Experiment erhaltenen Wert der vektorwertigen Zufallsvariable X =
(X1 , . . . , X100 ) : Ω → R100 auf.
In der obigen Situation wissen wir, dass X1 , . . . , X100 unabhängig und Bernoulli-verteilt
N
Xi
sind, allerdings mit unbekanntem Parameter p. Somit ist P X = P (X1 ,...,X100 ) = 100
i=1 P
mit P Xi ({1}) = 1 − P Xi ({0}) = p die Bernoulli-Verteilung im Sinne von Beispiel 2.2.14
auf {0, 1}100 bzw. R100 .
Mathematischer Rahmen 3.1.3 Wir betrachten folgendes statistisches Ausgangsmodell:
Seien (Ω, F ) ein messbarer Raum und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen
auf Ω. Seien weiter X1 , . . . , Xn : Ω → R Zufallsgrößen und X = (X1 , . . . , Xn ).
Interpretation: X1 , . . . , Xn sind die vorliegenden Beobachtungen (die Stichprobe).
Bekannt ist die Verteilung von (X1 , . . . , Xn ) unter Pϑ für alle ϑ ∈ Θ (Parameterraum).
Unbekannt (und gesucht) ist der Parameter ϑ (bzw. Eigenschaften davon).
Gegeben sind die Daten (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)), die man Realisierungen der
Zufallsgrößen X1 , . . . , Xn nennt.
Das Modell heißt parametrisch, falls Θ ⊆ Rd für ein d ∈ N (insbesondere einparametrig
für d = 1), andernfalls nichtparametrisch.
Das Modell heißt diskret, falls die Zufallsvariablen X1 , . . . , Xn höchstens abzählbar viele Werte annehmen können, und stetig, falls die Verteilungen der Xi eine Lebesguedichte
besitzen.
Bemerkung 3.1.4
1. Meistens nehmen wir X1 , . . . , Xn unter allen Pϑ als unabhängig
und identisch verteilt an (unabhängige Versuchswiederholung), z. B. als exponentialverteilt mit Parameter ϑ ∈ Θ := (0, ∞), wenn es sich um Lebensdauern handelt.
Beispiel einer Ausnahme: Seien X1 , . . . , Xn Ergebnisse beim Ziehen ohne Zurücklegen aus einer Urne mit ϑ ∈ {n, n + 1, . . .} durchnummerierten Kugeln. Dann ist
(X ,...,Xn )
Pϑ 1
die Gleichverteilung auf
M := {(x1 , . . . , xn ) ∈ Nn : xi ∈ {1, . . . , ϑ} und xi 6= xj für i 6= j}.
Die Xi sind hier nicht unabhängig.
2. Die Beschränkung auf die Familie möglicher Pϑ erfolgt z. B. durch theoretische Überlegungen. Diese Auswahl (Modellbildung) kann schon hochgradig nicht-trivial sein.
Beispiel 3.1.5 vgl. Beispiel 3.1.2: Münzwürfe mit unbekanntem Erfolgsparameter ϑ (beispielsweise Werfen einer Heftzwecke): X1 , . . . , Xn sind unter allen Pϑ unabhängig und
identisch verteilt mit P (X1 = 1) = ϑ = 1 − P (X1 = 0), wobei Θ = [0, 1].
82
KAPITEL 3. SCHLIESSENDE STATISTIK
3.2
Parameterschätzung
Gesucht ist ein vernünftiger Schätzwert für den unbekannten Parameter ϑ oder eine Funktion
τ (ϑ) davon.
Definition 3.2.1 Eine Zufallsvariable der Form T = t(X1 , . . . , Xn ) mit t : Rn → R (oder
allgemeiner Rd , . . . ) nennen wir Statistik.
Sei τ : Θ → R (oder allgemeiner Rd , . . . ) eine Abbildung (Kenngröße).
Eine Statistik T heißt auch Schätzer für τ .
Beispiel 3.2.2 n-facher Münzwurf wie in Beispiel 3.1.5.
Sei τ : Θ → R, τ (ϑ) = ϑ (d. h. ϑ soll voll geschätzt werden).
P
Wähle beispielsweise T := n1 ni=1 Xi als Schätzer für τ , d. h. t(x1 , . . . , xn ) =
(arithmetisches Mittel).
Weitere Beispiele: Median, getrimmtes Mittel, . . .
1
n
Pn
i=1
xi
Wünschenswerte Eigenschaften:
Definition 3.2.3 Ein Schätzer T = t(X1 , . . . , Xn ) für τ : ϑ → R heißt erwartungstreu
(unverfälscht, unverzerrt), falls
Eϑ [T ] = τ (ϑ),
ϑ ∈ Θ.
Allgemein heißt Bϑ (T ) := Eϑ [T ] − τ (ϑ) Verzerrung (Bias, systematischer Fehler) von T .
Beispiel 3.2.4 siehe Beispiel 3.2.2:
n
1X
1
Eϑ [T ] =
Eϑ (Xi ) = nϑ = ϑ = τ (ϑ)
n i=1
n
T ist also erwartungstreu.
Beispiel 3.2.5 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt derart,
dass der Erwartungswert m(ϑ) := Eϑ (X1 ) und die Varianz v(ϑ) := Varϑ (X1 ) existieren
und endlich sind.
P
1. Sei T ein linearer Schätzer für m, d. h. T = ni=1 αi Xi mit α1 , . . . , αn ∈ R. Dann
gilt
n
n
X
X
Eϑ [T ] =
αi Eϑ [Xi ] = m(ϑ)
αi ,
i=1
i=1
Pn
d. h. T ist genau dann erwartungstreu, wenn i=1 αi = 1.
Das ist beispielsweise der Fall, wenn αi = 1/n für i = 1, . . . , n.
2. Schätzer für die Varianz v:
3.2. PARAMETERSCHÄTZUNG
83
(a) m(ϑ) sei bekannt, d. h. m(ϑ) = m ∈ R für alle ϑ ∈ Θ.
P
Wähle T := ni=1 αi (Xi − m)2 . Dann gilt
n
X
Eϑ [T ] =
2
αi Eϑ [(Xi − m) ] = v(ϑ)
i=1
n
X
αi .
i=1
T ist genau dann erwartungstreu, wenn
Pn
i=1
αi = 1.
(b) m(ϑ) sei unbekannt.
P
Idee: Ersetze m durch den Schätzer X := n1 ni=1 Xi .
P
Wähle T := ni=1 n1 (Xi − X)2 . Dann gilt
Eϑ [T ]
n
h
X
2 i
1
=
E ϑ Xi − X
n
i=1
n
X
1
Varϑ Xi − X
n
i=1
Eϑ [Xi −X]=0
=
!
n−1
1X
Xi −
Xj
n
n j6=i
X
!
n
X
1
1
n
−
1
Unabh.
Varϑ
Xi +
Xj
=
Varϑ
n i=1
n
n
j6=i
!
2
1
n−1
n−1
=
v (ϑ)
+
n
n
n2
n
1X
=
Varϑ
n i=1
=
n−1
v (ϑ) .
n
T ist nicht erwartungstreu für v.
n
Stattdessen ist n−1
T erwartungstreu für v.
Korollar 3.2.6 Seien X1 , . . . , Xn wie in Beispiel 3.2.5. Dann ist das Stichprobenmittel
n
X :=
1X
Xi
n i=1
ein erwartungstreuer Schätzer für m.
Ferner ist die Stichprobenvarianz
n
S 2 :=
1 X
(Xi − X)2
n − 1 i=1
ein erwartungstreuer Schätzer für v.
Bemerkung 3.2.7 Korollar 3.2.6 motiviert die Definition der empirischen Varianz in Definition 1.3.12.
84
KAPITEL 3. SCHLIESSENDE STATISTIK
Es gibt viele weitere erwartungstreue Schätzer, beispielsweise ist auch T := X1 erwartungstreu für m. Interessant ist daher auch z. B. die mittlere Abweichung des Schätzers:
Definition 3.2.8 Sei T = t(X1 , . . . , Xn ) Schätzer für die Kenngröße τ : Θ → R.
1. Der mittlere quadratische Fehler von T (bei ϑ) ist definiert als
Fϑ (T ) := Eϑ [(T − τ (ϑ))2 ] = Varϑ (T ) + (Bϑ (T ))2 .
2. Sei T zudem erwartungstreu. T heißt varianzminimierender/gleichmäßig bester/
UMVU-Schätzer (für uniform minimum variance unbiased), falls für alle erwartungstreuen Schätzer S gilt:
Varϑ (T ) ≤ Varϑ (S),
ϑ ∈ Θ.
Bemerkung 3.2.9 Zwei Schätzer S, T sind im Allgemeinen nicht direkt vergleichbar, d. h.
im Allgemeinen ist Fϑ (S) < Fϑ (T ) für manche ϑ und Fϑ (S) > Fϑ (T ) für andere ϑ. Insbesondere ist es in 2. sinnlos, einen Schätzer mit allen denkbaren (also auch nicht erwartungstreuen) Schätzern zu vergleichen, da z. B. S := ϑ0 bei ϑ0 optimal schätzt und bei anderen ϑ
schlecht.
Beispiel 3.2.10 Achtung:
• Es gibt nicht immer einen gleichmäßig besten Schätzer.
• Es lässt sich nicht immer klären, ob es einen gleichmäßig besten Schätzer gibt.
• Es kann vorkommen, dass ein nicht erwartungstreuer Schätzer einen gleichmäßig kleineren mittleren quadratischen Fehler hat als jeder erwartungstreue Schätzer.
• Das Stichprobenmittel ist nicht immer UMVU für den Erwartungswert (z. B. in Beispiel 3.2.11(5) mit m(ϑ) = ϑ/2).
Beispiel 3.2.11 Seien X1 , . . . , Xn unabhängig und identisch verteilt unter allen Pϑ .
1. Sei PϑX1 Bernoulli-verteilt mit Parameter ϑ ∈ Θ := [0, 1].
Dann ist X UMVU für ϑ (vgl. Beispiel 3.2.2).
2. Sei PϑX1 Poisson-verteilt mit Parameter ϑ ∈ Θ := (0, ∞).
Dann ist X UMVU für ϑ.
3. Sei PϑX1 N (µ, σ 2 )-verteilt für ϑ = (µ, σ 2 ) ∈ Θ := R × (0, ∞).
Dann ist X UMVU für µ und S 2 ist UMVU für σ 2 .
4. Sei PϑX1 exponentialverteilt mit Parameter ϑ ∈ Θ := (0, ∞).
Dann ist X UMVU für ϑ1 .
3.2. PARAMETERSCHÄTZUNG
85
5. Sei PϑX1 gleichverteilt mit Parameter ϑ ∈ Θ := (0, ∞).
Dann ist n+1
max(X1 , . . . , Xn ) UMVU für ϑ.
n
Beispiel 3.2.12 zurück zu Beispiel 3.2.5(1):
P
Wegen T = ni=1 αi Xi , gilt
n
X
Fϑ (T ) = Eϑ [(T − m(ϑ))2 ] = Varϑ (T ) =
!
αi2 Varϑ (X1 ).
i=1
Außerdem
n
1 X 2 1.3.12
α ≥
n i=1 i
n
1X
αi
n i=1
!2
n
1
1X
= 2 =
n
n i=1
2
1
.
n
Der Fehler wird also minimal für αi = 1/n für i = 1, . . . , n.
Unter den linearen erwartungstreuen Schätzern des Erwartungswerts ist das Stichprobenmittel also der beste (der BLUE – best linear unbiased estimator).
Ein weiteres alternatives Gütekriterium betrifft die Konvergenz für wachsenden Stichprobenumfang.
Definition 3.2.13 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt.
Sei τ : ϑ → R eine Kenngröße, und für alle n ∈ N sei Tn = tn (X1 , . . . , Xn ) ein (nur von
den ersten n Beobachtungen abhängiger) Schätzer für τ .
Die Schätzfolge (Tn )n∈N für τ heißt konsistent, falls
P
ϑ
Tn −→
τ (ϑ),
ϑ ∈ Θ,
n→∞
d. h. für alle ϑ ∈ Θ und alle ε > 0 gilt Pϑ (|Tn − τ (ϑ)| ≤ ε) −−−→ 1.
Satz 3.2.14 Seien (Xn )n∈N , (Yn )n∈N Folgen von Zufallsgrößen.
P
P
1. Falls Xn −
→ 0, dann auch Xn2 −
→ 0.
P
P
P
2. Falls Xn −
→ 0 und Yn −
→ 0, dann auch Xn + Yn −
→ 0.
Beweis.
√ n→∞
1. Für ε > 0 gilt P (|Xn2 | ≤ ε) = P (|Xn | ≤ ε) −−−→ 1.
ε
ε n→∞
2. Für ε > 0 gilt P (|Xn + Yn | > ε) ≤ P |Xn | >
+ P |Yn | >
−−−→ 0.
2
2
|
{z
} |
{z
}
→0
→0
Satz 3.2.15 In der Situation aus 3.2.5 ist (X n )n konsistent für m und (Sn2 )n konsistent für
v.
Beweis.
86
KAPITEL 3. SCHLIESSENDE STATISTIK
1. Schwaches Gesetz der großen Zahlen (Satz 2.3.9): (X n )n ist konsistent.
2. Sei ϑ ∈ Θ. Für
n
X
f2 := 1
S
(Xi − m(ϑ))2
n
n i=1
gilt nach dem schwachen Gesetz der großen Zahlen (das auch für Folgen in L 1 anPϑ
f2 −
stelle von L 2 gilt), dass S
n → v(ϑ) für n → ∞. Mit Satz 2.3.9 und Satz 3.2.14(1)
Pϑ
0 für n → ∞. Wegen
folgt außerdem, dass (X n − m(ϑ))2 −→
n
1X
n−1 2
f2 − (X n − m(ϑ))2 1.3.12
=
(Xi − X n )2 =
Sn
S
n
n i=1
n
P
n−1 2
Sn
n
ϑ
− v(ϑ) −→
0 und somit, dass
n
n−1 2
1
Pϑ
2
Sn − v(ϑ) +
v(ϑ) −→
0.
Sn − v(ϑ) =
n−1
n
n−1
|
{z
}
|
{z
}
→0
Pϑ
−→0
folgt aus Satz 3.2.14(2), dass
3.2.1
Konstruktionsmethoden für Schätzer
Maximum-Likelihood-Prinzip
Bemerkung 3.2.16 Sei ein diskretes oder stetiges statistisches Modell gegeben. Wir nennen
%ϑ : Rn → R die zugehörige Dichte, falls
1. im diskreten Fall (d. h. (X1 , . . . , Xn )(Ω) ist höchstens abzählbar), falls
Pϑ ((X1 , . . . , Xn ) = (x1 , . . . , xn )) = %ϑ (x1 , . . . , xn )
(x1 , . . . , xn ) ∈ Rn ,
2. im stetigen Fall, falls
Z
Z
···
Pϑ ((X1 , . . . , Xn ) ∈ B1 × · · · × Bn ) =
B1
%ϑ (x1 , . . . , xn ) dxn · · · dx1
Bn
für alle Intervalle (oder allgemeiner Borelmengen) Bi ⊆ R, i = 1, . . . , n.
(Verallgemeinerung des Dichtebegriffs auf Rn ).
Falls (wie meistens) X1 , . . . , Xn unter allen Pϑ , ϑ ∈ Θ unabhängig und identisch verteilt
sind, dann ist
Q
1. %ϑ (x1 , . . . , xn ) = ni=1 %eϑ (xi ), wobei %eϑ : R → R die Zähldichte von PϑX1 ist,
Q
2. %ϑ (x1 , . . . , xn ) = ni=1 %eϑ (xi ), wobei %eϑ : R → R die Lebesguedichte von PϑX1 ist.
3.2. PARAMETERSCHÄTZUNG
87
(X ,...,X ) Unabh.
n
Begründung: In diesen Fällen ist Pϑ 1
=
Qn
Pϑ (X1 ∈ B1 , . . . , Xn ∈ Bn ) = i=1 Pϑ (X1 ∈ B1 ).
Nn
i=1
PϑXi =
Nn
i=1
PϑX1 und somit
Definition 3.2.17 Sei ein diskretes oder stetiges statistisches Modell mit zugehörigen Dichten %ϑ : Rn → R gegeben.
i) Die Funktion % : Rn × ϑ → R+ mit %(x, ϑ) := %ϑ (x) heißt Likelihood- oder Plausibilitätsfunktion.
Die Abbildung %x : Θ → R+ , ϑ 7→ %(x, ϑ) heißt Likelihood-Funktion zum Beobachtungswert x ∈ Rn .
ii) Ein Schätzer T = t(X1 , . . . , Xn ) für ϑ (d. h. für die Identität τ : ϑ 7→ ϑ) heißt
Maximum-Likelihood-Schätzer (ML-Schätzer), falls
%(x, t(x)) = max %(x, ϑ),
ϑ∈Θ
x ∈ Rn
(d. h. %x wird bei t(x) maximal).
Bemerkung 3.2.18
1. Idee: Zufallsexperimente bringen in der Regel Ergebnisse x mit
großer Wahrscheinlichkeitsdichte %(x) hervor. Man glaubt daher eher an Parameter ϑ,
für die die Beobachtung x eine große Wahrscheinlichkeit %ϑ (x) besitzt. Das bedeutet
nicht, dass ϑ große Wahrscheinlichkeit besitzt, denn auf Θ ist kein Wahrscheinlichkeitsmaß gegeben (außer in der Bayesschen Statistik).
2. ML-Schätzer sind in der Regel konsistent (ohne Beweis) und oft auch in anderer Hinsicht gut.
3. Statt %x maximiert man meistens log %x , da das viele Rechnungen vereinfacht.
4. Falls T ML-Schätzer für ϑ ist, heißt τ (T ) ML-Schätzer für eine Kenngröße τ .
Beispiel 3.2.19 Seien X1 , . . . , Xn wie in Beispiel 3.1.5, d. h. mit Parameter ϑ Bernoulliverteilt (Münzwürfe).
Nach Beispiel 2.2.19 ist die zugehörige Zähldichte gegeben durch
Pn
%ϑ (x1 , . . . , xn ) = ϑ
i=1
xi
(1 − ϑ)n−
Pn
i=1
xi
=: %(x1 , . . . , xn ; ϑ).
Maximiere
ϑ 7→ log %(x1 , . . . , xn ; ϑ) =
n
X
i=1
xi log ϑ +
n−
n
X
!
xi
i=1
Ermitteln eines Kandidaten:
∂
log %(x1 , . . . , xn ; ϑ)
∂ϑ
!
n
n
X
1X
1
=
xi −
n−
xi ,
ϑ i=1
1−ϑ
i=1
0=
log(1 − ϑ).
88
KAPITEL 3. SCHLIESSENDE STATISTIK
P
P
d. h. ni=1 xi = ϑn, wähle also ϑ̂ := n1 ni=1 xi . Nachrechnen liefert, dass ϑ̂ tatsächlich eine
globale Maximalstelle ist. Der ML-Schätzer für ϑ ist also
n
1X
T =
xi ,
n i=1
also die relative Häufigkeit, vgl. Beispiele 3.1.1, 3.2.2, 3.2.11.
Beispiel 3.2.20 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch N (µ, σ 2 )verteilt, wobei ϑ = (µ, σ 2 ) ∈ Θ := R × (0, ∞) (ein übliches Modell etwa bei wiederholten,
fehlerbehafteten physikalischen Messungen).
Dann gilt
n
1
(xi − µ)2
3.2.16(2) Y
√
%x (ϑ) = %(x, ϑ) =
exp −
2
2σ 2
2πσ
i=1
!
n
X
(xi − µ)2
1
−
=
n exp
2σ 2
(2πσ 2 ) 2
i=1
für x ∈ Rn , ϑ = (µ, σ 2 ) ∈ Θ. Somit ist
n
n
1 X
2
2
:=
`x (µ, σ )
log %x (µ, σ ) = − log(2πσ ) − 2
(xi − µ)2
2
2σ i=1
2
und
n
n
1 X
2 X
(xi − µ) = 2 (
xi − nµ),
D1 `x (µ, σ ) = 0 + 2
2σ i=1
σ i=1
2
D2 `x (µ, σ 2 ) = −
n
1 X
n 2π
+
(xi − µ)2 .
2 2πσ 2 2σ 4 i=1
P
P
Beide Ableitungen werden null für µ̂ := n1 ni=1 xi und σˆ2 := n1 ni=1 (xi − µ̂)2 . Untersuchen
der Hesse-Matrix und Grenzbetrachtungen zeigen, dass es sich tatsächlich um eine globale
Maximalstelle handelt. Der ML-Schätzer für (µ, σ 2 ) ist also
! n
n
1X
n−1 2
1X
2
T =
Xi ,
(Xi − X) = X,
S .
n i=1
n i=1
n
(Beachte, dass T2 =
n−1 2
S
n
nicht erwartungstreu für σ 2 ist.)
Beispiel 3.2.21 Schätzen von Tierpopulationen (beispielsweise Fische in einem Teich).
Vorgehen:
1. fangen, zählen, kennzeichnen, freilassen (beispielsweise n1 = 213),
2. später an ggf. anderer Stelle erneut fangen und zählen (beispielsweise n2 = 104,
davon k = 13 schon gekennzeichnet).
3.2. PARAMETERSCHÄTZUNG
89
Gesucht ist die Anzahl der Fische im Teich.
Idee: nk2 ≈ nn1 , wähle also n̂ ≈ n1kn2 als Schätzer (hier: n̂ = (213 · 104)/13 = 1 704).
Stochastisches Modell: Urnenmodell wie in 2.2.7, Ziehen ohne Zurücklegen.
Seien X die Zahl der gefangenen, markierten Fische unter den n2 gezogenen (eine Beobachtung) und PϑX die hypergeometrische Verteilung auf N (bzw. R) mit Parametern n2 (gezogen), n1 (markiert) und ϑ − n1 (nicht markiert). Sei weiter Θ = {n ∈ N : n ≥ n1 ∨ n2 }.
Die Zähldichte ist gegeben durch
n1 ϑ−n1
%ϑ (k) = Pϑ (X = k) =
k
n2 −k
n2
k
.
Betrachte den Quotienten %ϑ (k)/%ϑ (k − 1):
%ϑ (k)
(ϑ − n1 )!(ϑ − n2 )! (ϑ − 1 − n1 − n2 + k)!(ϑ − 1)!
=
%ϑ (k − 1)
(ϑ − n1 − n2 + k)!ϑ! (ϑ − 1 − n1 )!(ϑ − 1 − n2 )!
(ϑ − n1 )(ϑ − n2 )
=
.
(ϑ − n1 − n2 + k)n
Es gilt
%ϑ (k)
≥ 1 ⇔ (ϑ − n1 )(ϑ − n2 ) ≥ ϑ(ϑ − n1 − n2 + k)
%ϑ (k − 1)
⇔ ϑ2 − ϑn2 − ϑn1 + n1 n2 ≥ ϑ2 − ϑn1 − ϑn2 + ϑk
⇔ n1 n2 ≥ ϑk,
d. h. ϑ 7→ %ϑ (k) wächst für ϑ ≤
ein Maximum in [ n1kn2 ] an, und
n1 n2
k
und fällt für % >
n1 n2
.
k
Die Zähldichte nimmt somit
hn n i
1 2
X
ist der ML-Schätzer für die unbekannte Anzahl ϑ (= n).
T :=
Momentenmethode und Substitutionsprinzip
Idee: Schätze unbekannte Parameter so, dass empirische und theoretische Momente übereinstimmen.
Definition 3.2.22 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt. Sei
Θ ⊆ Rd . Für alle ϑ ∈ ϑ sei |X1 |d ∈ L 1 . Ein Schätzer T = t(X1 , . . . , Xn ) für ϑ (d. h. für
τ : ϑ → ϑ) heißt Momentenschätzer, falls
n
1X k
X = mk (T ),
n i=1 i
wobei mk (ϑ) := Eϑ [X1k ] das k-te Moment sei.
k = 1, . . . , d
90
KAPITEL 3. SCHLIESSENDE STATISTIK
Bemerkung 3.2.23 Unter gewissen Voraussetzungen sind Momentenschätzer konsistent.
(ohne Beweis)
Beispiel 3.2.24 Situation aus Beispielen 3.1.5 und 3.2.20:
m2 (ϑ) = Varϑ (X1 ) + (Eϑ [X1 ])2 = σ 2 + µ2 .
m1 (ϑ) = µ,
Wähle T = (T1 , T2 ) so, dass
n
1X
Xi = m1 (T1 , T2 ) = T1 ,
n i=1
n
1X 2
X = m2 (T1 , T2 ) = T12 + T2 .
n i=1 i
Das ist der Fall, wenn T1 = X und
n
n
1X 2
1X
n−1 2
2
S .
T2 =
Xi − X =
(Xi − X)2 =
n i=1
n i=1
n
Also ist
T =
n−1 2
S
X,
n
auch Momentenschätzer für ϑ = (µ, σ 2 ). (Dies gilt offensichtlich auch für jede andere Verteilungsfamilie mit Erwartungswert µ und Varianz σ 2 .)
Die Momentenmethode beruht auf folgendem Substitutionsprinzip:
Bemerkung 3.2.25 Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch verteilt.
Sei τ : Θ → R (oder allgemeiner Rd ) eine Kenngröße, die nur von PϑX1 abhängt, z. B. das
k-te Moment
Z
τ (ϑ) := mk (ϑ) = Eϑ (X1k ) =
xk PϑX1 (dx).
für ein k ∈ N. Nach dem Substitutionsprinzip schätzt man τ (ϑ), indem man die unbekannte Verteilung PϑX1 in der Definition von τ durch die empirische Verteilung der Daten
X1 (ω), . . . , Xn (ω) ersetzt (vgl. Beispiel 2.1.4), also das Wahrscheinlichkeitsmaß P̂(X1 ,...,Xn )
auf R der Form
n
1X
P̂(X1 ,...,Xn ) (A) :=
1A (Xi ), A ∈ B.
(3.1)
n i=1
Für τ wie oben führt dies zum Schätzer
Z
n
2.2.59(1) 1 X
k
Xik
T := x P̂(X1 ,...,Xn ) (dx) =
n i=1
3.2. PARAMETERSCHÄTZUNG
91
Beispiel 3.2.26 (Value at risk)
Im Risikomanagement des Finanzwesens ist der sogenannte Value at risk zum Niveau
α ∈ (0, 1) von Interesse, z. B. für α = 0,99. Darunter versteht man das α-Quantil einer Zufallsgrößen X, die den zukünftigen Verlust etwa einer Bank innerhalb der folgenden
zehn Tage bezeichnet, vgl. Definition 2.2.72. Dieses mit VaRα (X) bezeichnete Quantil steht
also für die Verlusthöhe, die mit Wahrscheinlichkeit α nicht überschritten werden wird.
In der Praxis ist die Verteilung von X unbekannt, aber es stehen möglicherweise Daten
x1 , . . . , xn über vergangene 10-Tages-Verluste zur Verfügung, die als Realisierungen unabhängiger, nach P X identisch verteilter Zufallsgrößen X1 , . . . , Xn angenommen werden
können. Nach dem Substitutionsprinzip ist dann das α-Quantil der empirischen Verteilung
(vgl. Beispiel 2.1.4) ein naheliegender Schätzer für VaRα (X), Dieses stimmt nach Beispiel 2.2.74(1) im Wesentlichen mit dem empirischen Quantil der beobachteten Verluste
x1 , . . . , xn überein.
Kleinste-Quadrate-Methode
Idee: Schätze Parameter so, dass die mittlere quadratische Abweichung der Daten zum Erwartungswert minimal wird.
Beispiel 3.2.27 Einfache lineare Regression, vergleiche Abschnitt 1.4:
Seien X1 , . . . , Xn unter allen Pϑ unabhängig und identisch N (a + bti , σ 2 )-verteilt, i =
1, . . . , n.
Seien ϑ = (a, b, σ 2 ) ∈ Θ = R2 × (0, ∞) und t1 , . . . , tn ∈ R gegeben.
T = t(X1 , . . . , Xn ) heißt Kleinste-Quadrate-Schätzer für τ (ϑ) = (a, b), falls
n
n
X
X
2
2
(Xi − T ) = min
Xi − Eϑ [Xi ] .
ϑ∈Θ
| {z }
i=1
i=1
=a+bti
Nach Satz 1.4.1 ist also
StX
T = X − b̂t, 2
St
Kleinste-Quadrate–Schätzer, wobei
n
1X
t :=
ti ,
n i=1
n
StX
1 X
:=
(ti − t)(Xi − X),
n − 1 i=1
n
St2
:=
1 X
(ti − t)2 ,
n − 1 i=1
Man kann zeigen: T ist BLUE für (a, b).
Bayes-Schätzer
Diese werden in Abschnitt 3.5 behandelt.
b̂ :=
StX
.
St2
92
KAPITEL 3. SCHLIESSENDE STATISTIK
3.3
Testen von Hypothesen
In der Praxis laufen statistische Probleme häufig auf eine Ja-Nein-Entscheidung hinaus, die
davon abhängt, ob eine Hypothese über den unbekannten Sachverhalt wahr ist oder nicht.
Soll ein Patient behandelt werden oder nicht? Soll eine neue Methode eingeführt werden
oder nicht? Soll man einer neuen wissenschaftlichen Theorie glauben oder nicht? Ob die
Hypothese stimmt, kann oft nur indirekt aus Daten erschlossen werden, die einem zufälligen
Einfluss unterliegen.
Beispiel 3.3.1 Es gebe ein neues Verfahren, das angeblich das Geschlechterverhältnis bei
Rindergeburten beeinflusst: Angeblich werden mehr (wertvollere) Kuhkälber als Stierkälber
geboren. Soll der Landwirt/Züchter das Verfahren kaufen oder nicht? Als Entscheidungsgrundlage dient die Beobachtung von aus Zeitgründen nicht zu vielen Geburten.
Definition 3.3.2 Sei ein statistisches Modell wie in 3.1.3 gegeben.
Ein Testproblem besteht aus einer disjunkten Zerlegung Θ = Θ0 ∪ Θ1 in eine (Null-)Hypothese Θ0 und eine Alternative (Gegenhypothese) Θ1 .
Ein Test von Θ0 gegen Θ1 ist eine Statistik ϕ(X1 , . . . , Xn ) mit ϕ : Rn → {0, 1}.
Die Menge K := {x ∈ Rn : ϕ(x) = 1} heißt Ablehnungsbereich, Verwerfungsbereich oder
kritischer Bereich des Tests.
Bemerkung 3.3.3
1. Interpretation: Die Hypothese ist der erwartete/angenommene
Normalfall, die Alternative die Abweichung von der Norm, die wir gegebenenfalls
entdecken möchten. ϕ(x) = 1 bedeutet, dass wir uns auf Grund der Daten x für die
Alternative entscheiden.
2. Zwei Arten von Fehlern sind möglich:
Fehler 1. Art. Fälschliches Ablehnen der Hypothese: ϕ(x) = 1, obwohl ϑ ∈ Θ0 .
Fehler 2. Art. Fälschliches Akzeptieren der Hypothese: ϕ(x) = 0, obwohl ϑ ∈ Θ1 .
Ziel ist es, die Wahrscheinlichkeit für beide Fehler klein zu halten.
3. Schätztheorie: Bestimmung von ϑ ∈ Θ.
Testtheorie: (nur) Entscheidung, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1 .
Beispiel 3.3.4 zu Beispiel 3.3.1:
Beobachtet seien n = 20 Geburten, davon X Kuhkälber (Erfolge). X (nur eine Beobachtung) sei unter Pϑ binomialverteilt mit Parametern n, ϑ, wobei Θ = [1/2, 1].
Hypothese: Θ0 = {1/2} (kein Effekt)
Alternative: Θ1 = (1/2, 1] (Das Verfahren wirkt.)
Definition 3.3.5 Fortsetzung von Definition 3.3.2
1. Der maximale Fehler 1. Art, d. h.
sup Pϑ ((X1 , . . . , Xn ) ∈ K)
ϑ∈Θ0
3.3. TESTEN VON HYPOTHESEN
93
heißt Umfang oder effektives Niveau von ϕ. Wir bezeichnen ϕ als Test zum (Irrtums-,
Signifikanz-)Niveau α, falls supϑ∈Θ0 Pϑ ((X1 , . . . , Xn ) ∈ K) ≤ α.
2. Die Funktion Gϕ : Θ → [0, 1] mit
Gϕ (ϑ) := Pϑ ((X1 , . . . , Xn ) ∈ K)
(= Eϑ [ϕ(X)])
heißt Gütefunktion des Tests. Für ϑ ∈ Θ1 heißt Gϕ (ϑ) Macht, Stärke oder Schärfe von
ϕ bei ϑ.
Bemerkung 3.3.6 Für ϑ ∈ Θ0 ist Gϕ (ϑ) die Wahrscheinlichkeit eines Fehlers 1. Art. Für
ϑ ∈ Θ1 ist βϕ (ϑ) := 1 − Gϕ (ϑ) die Wahrscheinlichkeit eines Fehlers 2. Art.
Problem: Eine Verringerung der Wahrscheinlichkeit des Fehlers 1. Art bewirkt meist eine
Erhöhung der Wahrscheinlichkeit des Fehlers 2. Art. Eine gleichzeitige Minimierung ist also
nicht möglich.
Ausweg: Asymmetrische Betrachtung der Fehler. Man wählt ein Niveau α ∈ (0, 1) (oft
α = 0,05) und sucht unter allen Tests zum Niveau α (d. h. Tests mit einer Irrtumswahrscheinlichkeit 1. Art ≤ α.) einen Test mit maximaler Macht Gϕ (ϑ) für alle ϑ ∈ Θ1 (d. h.
mit einer möglichst kleinen Irrtumswahrscheinlichkeit 2. Art für alle ϑ ∈ Θ1 ).
Definition 3.3.7 Fortsetzung von Definitionen 3.3.2, 3.3.4
1. Ein Test ϕ von Θ0 gegen Θ1 heißt (gleichmäßig) bester Test zum Niveau α, falls er
ein α-Niveau-Test ist und
Gϕ (ϑ) ≥ Gψ (ϑ),
ϑ ∈ Θ1
für alle anderen α-Niveau-Tests ψ.
2. Ein Test ϕ heißt unverfälscht zum Niveau α, falls
Gϕ (ϑ0 ) ≤ α ≤ Gϕ (ϑ1 ),
ϑ0 ∈ Θ0 , ϑ1 ∈ Θ1
(d. h. die Entscheidung für die Alternative ist wahrscheinlicher, wenn sie wahr ist, als
wenn sie falsch ist).
Bemerkung 3.3.8
1. Die Zuordnung von Hypothese und Alternative hängt von der Anwendung, dem Interesse bzw. den Folgen eines Irrtums ab. Die Hypothese ist das,
wofür man sich entscheidet, wenn aus Mangel an Daten kein Urteil möglich ist.
2. Asymmetrische Sprechweise:
ϕ(x) = 1: Man lehnt die Hypothese ab (entspricht Entscheidung für die Alternative).
ϕ(x) = 0: Man lehnt die Hypothese nicht ab. Dies bedeutet nicht unbedingt, dass man
die Alternative für falsch hält, sondern vielleicht nur, dass die Daten nicht ausreichen,
um die Hypothese zu verwerfen (d. h. in dubio pro reo, wobei der Angeklagte hier die
Hypothese ist).
94
KAPITEL 3. SCHLIESSENDE STATISTIK
3. Achtung: Wenn ein Test ϕ das Niveau 0,05 hat, bedeutet das nicht, dass im Fall ϕ(x) =
1 die Alternative oder im Fall ϕ(x) = 0 die Hypothese mit Wahrscheinlichkeit 0,95
wahr sind. Hypothese und Alternative sind nicht zufällig (außer in der Bayesschen
Statistik, vgl. Abschnitt 3.5)!
4. Gleichmäßig beste Tests müssen nicht existieren. Manchmal existieren immerhin
gleichmäßig beste unverfälschte Tests. Aber auch diese müssen nicht immer existieren
oder bestimmbar sein.
Beispiel 3.3.9 zu Beispiel 3.3.1, 3.3.4:
Wähle beispielsweise das Niveau α = 0,05 (falls das Verfahren nutzlos ist, soll es höchstens
mit 5% Wahrscheinlichkeit gekauft werden).
Idee: Wähle ϕ(x) = 1(c,∞) (x), d. h. K = {c + 1, c + 2, . . . , n} für ein c ∈ {0, . . . , n}.
P20
20 1 20
Fehler 1. Art: P1/2 (X ∈ K) = P1/2 (X > c) =
k=c+1 k ( 2 ) . Dieser Wert beträgt
0,0207 für c = 14 und 0,0577 für c = 13. Für c ≥ 14 wird das Niveau α eingehalten.
k
P
20
(20−k)
Macht bei ϑ ∈ Θ1 : Pϑ (X ∈ K) = 20
. Diese fällt monoton in c.
k=c+1 k ϑ (1 − ϑ)
Wähle also c = 14, d. h. das Verfahren wird gekauft, wenn mehr als 14 der 20 geborenen
Tiere Kuhkälber sind.
Angenommen, ϑ = 0,7. Das Verfahren wäre also schon wirtschaftlich interessant. Die
Macht bei ϑ = 0,7 ist P0,7 (X ∈ K) ≈ 0,417, d. h. mit Wahrscheinlichkeit 1−0,417 = 0,583
wird ein solches Verfahren nicht entdeckt. Der Fehler 2. Art ist hier also unbefriedigend
groß.
Möglicher Ausweg: Betrachtung einer größeren Stichprobe n zur Erhöhung der
Trennschärfe.
Bemerkung 3.3.10 zur Konstruktion von Tests:
Wir betrachten zunächst den sehr einfachen Fall von einfachen Hypothesen, d. h. Θ0 , Θ1
sind einelementig. Sei im Folgenden ein diskretes oder stetiges stochastisches Modell mit
zugehörigen Dichten %ϑ gegeben, vergleiche Bemerkung 3.2.16. Seien Θ = {ϑ0 , ϑ1 }, Θ0 =
{ϑ0 }, Θ1 = {ϑ1 }.
Idee: Ist die Wahrscheinlichkeit der Beobachtung x unter ϑ1 groß und unter ϑ0 klein, entscheiden wir uns für Θ1 . Im umgekehrten Fall entscheiden wir uns für Θ0 .
Definition 3.3.11
1. Die Funktion R : Rn → [0, ∞] mit
( %ϑ (x)
1
falls %ϑ0 (x) > 0,
R(x) := %ϑ0 (x)
∞
sonst
heißt Likelihood-Quotient (LQ) oder Dichte-Quotient.
2. Ein Likelihood-Quotienten-Test (LQT) von ϑ0 gegen ϑ1 ist ein Test ϕ(X1 , . . . , Xn )
der Form
(
1 falls R(x) > c,
ϕ(x) =
0 falls R(x) < c
für ein c ≥ 0.
3.3. TESTEN VON HYPOTHESEN
95
Solche Tests sind tatsächlich optimal.
Satz 3.3.12 (Neyman-Pearson-Lemma) In obigem Rahmen ist jeder LQT ϕ(X1 , . . . , Xn )
bester Test zu seinem effektiven Niveau α.
Beweis. Wir beweisen nur den Fall diskreter Dichten. Stetige Dichten werden analog behandelt.
Sei ψ ein weiterer Test zum Niveau α und x ∈ Rn . Für %ϕ1 (x) − c%ϕ0 (x) > 0 ist ϕ(x) = 1,
für %ϕ1 (x) − c%ϕ0 (x) < 0 ist ϕ(x) = 0. Es folgt, dass
(ϕ(x) − ψ(x))(%ϕ1 (x) − c%ϕ0 (x)) ≥ 0
und damit auch
X
(ϕ(x) − ψ(x))(%ϕ1 (x) − c%ϕ0 (x)) ≥ 0.
x∈Rn
Also ist
Eϕ1 [ϕ(X1 , . . . , Xn )] − Eϕ1 [ψ(X1 , . . . , Xn )]
X
X
2.2.22
=
ϕ(x)%ϕ1 (x) −
ψ(x)%ϕ1 (x)
x∈Rn
≥ c(
X
x∈Rn
ϕ(x)%ϕ0 (x) − ψ(x)%ϕ0 (x))
x∈Rn
= c Eϕ0 [ϕ(X1 , . . . , Xn )] − Eϕ0 [ψ(X1 , . . . , Xn )]
{z
} |
{z
}
|
≤α
=α
≥ 0,
d. h. Eϕ1 [ϕ(X1 , . . . , Xn )] ≥ Eϕ1 [ψ(X1 , . . . , Xn )].
Dieser einfache Fall ist eher selten. Jetzt werden daher mit der obigen Idee zusammengesetzte (d. h. mehrelementige) Hypothesen bzw. Alternativen betrachtet.
Definition 3.3.13 Sei ein diskretes oder stetiges stochastisches Modell mit zugehörigen
Dichten %ϑ gegeben, vgl. Bemerkung 3.2.16. Sei Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung.
1. Die Funktion R : Rn → [0, ∞] mit
 sup % (x)
ϑ

 ϑ∈Θ1
sup %ϑ (x)
R(x) := ϑ∈Θ
0


∞
falls der Nenner > 0 ist,
sonst
heißt (verallgemeinerter) Likelihood-Quotient.
2. Ein Likelihood-Quotienten-Test (LQT) von Θ0 gegen Θ1 ist ein Test ϕ(X1 , . . . , Xn )
der Form
(
1 falls R(x) > c,
ϕ(x) =
0 falls R(x) < c
für ein c ≥ 0.
96
KAPITEL 3. SCHLIESSENDE STATISTIK
Bemerkung 3.3.14
1. LQ-Tests haben nicht immer, aber zumindest oft gewisse Optimalitätseigenschaften (vgl. ML-Schätzer).
2. Falls T0 = t0 (X1 , . . . , Xn ) ML-Schätzer von ϑ bezüglich Θ0 (anstelle von Θ) und
T1 = t1 (X1 , . . . , Xn ) ML-Schätzer von ϑ bezüglich Θ1 (anstelle von Θ) ist, dann ist
R(x) =
%T1 (x) (x)
%T0 (x) (x)
für alle x ∈ Rn , für die der Nenner positiv ist.
Beispiel 3.3.15 Welche Gestalt haben LQ-Tests in Beispiel 3.3.1, 3.3.4, 3.3.9?
Es ist %ϑ (x) = nx ϑx (1 − ϑ)n−x , also
∂
n x−1
%ϑ (x) =
ϑ (1 − ϑ)n−x−1 (x(1 − ϑ) − (n − x)ϑ) .
∂ϑ
x
|
{z
}|
{z
}
>0
=x−nϑ
Wegen x − nϑ > 0 für ϑ < x/n und x − nϑ < 0 für ϑ > x/n ist
sup %ϑ (x) = %max{ 1 , x } (x),
ϑ∈(1/2,1]
2 n
und der Likelihood-Quotient hat somit die Form
 n x x x n−x
( ) (1− )
%max{ 1 , x } (x)  (x) n n 1 nn
= (2κk (1 − κ)1−k )n
2 n
(x)( 2 )
=
R(x) =

%1/2 (x)
1
falls κ :=
falls
x
n
x
n
> 12 ,
≤ 12 .
∂
k
∂
log(κk (1 − κ)1−k ) = ∂κ
(k log(k) + (1 − κ) log(1 − k)) = log( 1−k
) > 0 für k > 12 ,
Es ist ∂κ
also ist x 7→ R(x) monoton wachsend und LQ-Tests sind von der Form
(
1 falls x ≥ c,
ϕ(x) =
0 falls x < c
für ein c, wie in Beispiel 3.3.9 angesetzt.
Beispiel 3.3.16 Normalverteilung, einseitiger Test bei bekannter Varianz:
Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei σ 2 > 0 gegeben sei.
Gesucht ist ϑ = µ. Hypothese Θ0 = (−∞, µ0 ], Alternative Θ1 = (µ0 , ∞) für ein µ0 ∈ R.
Welche Gestalt haben die LQ-Tests? Es ist
n Y
1
(xi − µ)2
√
%ϑ (x) =
exp −
2σ 2
2πσ 2
i=1
!!
n
X
1
2 −n
2
2
= (2πσ ) 2 exp − 2
(xi − x) + n(x − µ)
2σ
i=1
3.3. TESTEN VON HYPOTHESEN
mit x :=
1
n
Pn
i=1
97
xi . Also ist
sup %ϑ (x) = %min{x,µ0 } (x) und sup %ϑ (x) = %max{x,µ0 } (x),
ϑ∈Θ0
ϑ∈Θ1
und der Likelihood-Quotient hat die Form
(
exp(− 2σ1 2 n(x − µ0 )2 )
%max{x,µ0 } (x)
R(x) =
=
%min{x,µ0 } (x)
exp( 1 2 n(x − µ0 )2 )
2σ
falls x ≤ µ0 ,
falls x > µ0 .
Also ist x 7→ R(x) eine in x monoton wachsende Funktion und LQ-Tests haben die Form
ϕ(x) =
(
1
falls x > c,
0
falls x < c
für ein c ∈ R.
Was ist das effektive Niveau α von ϕ? Nach Satz 3.3.19 ist X unter Pϑ gerade N (µ, σ2/n)verteilt. Also gilt
α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = sup N(µ,σ2/n) ((c, ∞))
µ≤µ0
ϑ∈Θ0
c−µ
c−µ
= sup N(0,1)
,∞
= sup 1 − Φ σ √
σ/√n
/ n
µ≤µ0
µ≤µ0
c − µ0
=1−Φ σ √
,
/ n
−1
0
(1 − α), um
da Φ monoton wachsend ist. Zu gegebenem Niveau α wähle also c−µ
σ/√n = Φ
das Niveau voll auszuschöpfen, d. h. den Test

q
1 falls x > µ + σ2 Φ−1 (1 − α),
0
n
ϕ(x) =
0 sonst.
Die Gütefunktion des Tests ist
X −µ
µ0 − µ
µ0 − µ
−1
−1
Gϕ (ϑ) = Pϑ
> Φ (1 − α) + σ √
= 1 − Φ Φ (1 − α) + σ √
.
σ/√n
/ n
/ n
| {z }
N (0,1)-vert.
unter Pϑ
Bemerkung 3.3.17 Der einseitige Gaußtest in Beispiel 3.3.16 ist gleichmäßig bester Test
zu seinem Niveau (ohne Beweis).
Beispiel 3.3.18 Normalverteilung, zweiseitiger Test bei bekannter Varianz:
Sei das stochastische Modell wie in Beispiel 3.3.16.
Hypothese Θ0 = {µ0 }, Alternative Θ1 = R \ {µ0 } für ein µ0 ∈ R.
98
KAPITEL 3. SCHLIESSENDE STATISTIK
Welche Gestalt haben die LQ-Tests? Analog gilt, dass
sup %ϑ (x) = %x (x) und sup %ϑ (x) = %µ0 (x)
ϑ∈Θ1
und
%x (x)
= exp
R(x) =
%µ0 (x)
ϑ∈Θ0
1
2
n(x − µ0 ) .
2σ 2
Weiter ist x 7→ R(x) eine streng monotone Funktion von |x − µ0 |. Die LQ-Tests sind von
der Form
(
1 falls |x − µ0 | > c,
ϕ(x) =
0 falls |x − µ0 | < c,
für ein c ∈ R.
Was ist das effektive Niveau?
α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = N (µ0 , σ2/n) [µ0 − c, µ0 + c]C
ϑ∈Θ0
√ √
√ C !
√ c n
−c n
c n c n
,
=1− Φ
−Φ −
= N (0, 1) −
σ
σ
σ
σ
√ c n
=2 1−Φ
,
σ
da Φ symmetrisch ist.
√
Zu gegebenem Niveau wähle also c σ n = Φ−1 (1 − α2 ), d. h. den Test

q
1 falls |x − µ | > σ2 Φ−1 (1 − α ),
0
n
2
ϕ(x) =
0 sonst.
Ergänzungen zur Normalverteilung (zum Teil ohne Beweis):
Satz 3.3.19
1. Seien X1 , X2 unabhängig und N (µ1 , σ12 )- bzw. N (µ2 , σ22 )-verteilt.
Dann ist S := X1 + X2 gerade N (µ1 + µ2 , σ12 + σ22 )-verteilt
(d. h. N (µ1 , σ12 ) ∗ N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 )).
2. Seien X1 , . . . , Xn unabhängig und N (µ, σ 2 )-verteilt.
Dann ist X gerade N (µ, σ2/n)-verteilt.
Beweis.
1. Die Verteilungsfunktion von S ist
Z
2.2.69
%S (x) =
ϕµ1 ,σ12 (z)ϕµ2 ,σ22 (x − z) dz
Z
1
(z − µ1 )2 (x − z − µ2 )2
=
exp −
−
dz
2πσ1 σ2
2σ12
2σ22
(x − µ)2
= c exp −
2σ 2
3.3. TESTEN VON HYPOTHESEN
99
1
für c ∈ R, µ ∈ R, σ 2 ∈ R+ . Da %S eine Dichte ist, muss c = √2πσ
gelten, S ist
2
2
also N (µ, σ )-verteilt. Aus E[S] = E[X1 ] + E[X2 ] folgt µ = µ1 + µ2 , und aus
Var(S) = Var(X1 ) + Var(X2 ) folgt σ 2 = σ12 + σ22 .
P
P
2. Induktion: ni=1 Xi ist N (nµ, nσ 2 )-verteilt. Es folgt sofort, dass n1 ni=1 Xi dann
N (µ, σ2/√n)-verteilt ist.
Satz 3.3.20 Seien X1 , . . . , Xn unabhängig und N (0, 1)-verteilt. Dann hat die Verteilung
von T := √ 1 PXn 2 für alle x ∈ R die Dichte
n
i=1
Xi
n+1
2 − 2
)
Γ( n+1
x
2
1+
.
%n (x) = n √
n
Γ( 2 ) nπ
R∞
Γ ist die Gammafunktion, d. h. Γ(x) := 0 e−t tx−1 dt für x > 0
√
(insbesondere Γ(1) = 1, Γ(x + 1) = xΓ(x), Γ(n + 1) = n!, Γ(1/2) = π).
(ohne Beweis)
Definition 3.3.21 Die Verteilung tn mit Dichte %n wie in Satz 3.3.20 heißt Studentsche tVerteilung mit n Freiheitsgraden.
Satz 3.3.22 Seien X1 , . . . , Xn unabhängig, N (µ, σ 2 )-verteilt. Dann ist
X −µ
T := p
S 2 /n
tn−1 -verteilt, wobei X :=
1
n
Pn
i=1
Xi , S 2 :=
1
n−1
Pn
i=1 (Xi
− X)2 .
(ohne Beweis)
In praktischen Anwendungen ist die Varianz in den Beispielen 3.3.16, 3.3.18 meist unbekannt.
Beispiel 3.3.23 Normalverteilung, einseitiger Test bei unbekannter Varianz:
Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei ϑ = (µ, σ 2 ) ∈ R ×
(0, ∞).
Hypothese: Θ0 = (−∞, µ0 ] × (0, ∞), Alternative Θ1 = (µ0 , ∞) × (0, ∞) für ein µ0 ∈ R.
Welche Gestalt haben die LQ-Tests? Es gilt
!
n
Y
(xi −µ)2
1
√
e− 2σ2
log %ϑ (x) = log
2
2πσ
i=1
n
n
1 X
2
= − log(2πσ ) − 2
(xi − µ)2
2
2σ i=1
100
KAPITEL 3. SCHLIESSENDE STATISTIK
und somit
n
∂
n 1
1 X
log(%ϑ (x)) = − 2 +
(xi − µ)2 .
∂(σ 2 )
2σ
2(σ 2 )2 i=1
P
Der Ausdruck ist größer null für σ 2 < vµ := n1 ni=1 (xi − µ)2 und kleiner null für σ 2 > vµ .
Also ist
sup %ϑ (x) = sup %(µ,σ2 ) (x) = sup %(µ,vµ ) (x)
µ≤µ0
µ≤µ0
σ 2 >0
ϑ∈Θ0
und analog
sup %ϑ (x) = sup %(µ,vµ ) (x).
µ>µ0
ϑ∈Θ1
Also ist
sup %(µ,vµ ) (x)
R(x) =
µ>µ0
sup %(µ,vµ ) (x)
µ≤µ0
n
sup (2πvµ )− 2 exp(− 2v1µ nvµ )
=
µ>µ0
n
sup (2πvµ )− 2 exp(− 2v1µ nvµ )
µ≤µ0
−n
2
sup vµ
=
µ>µ0
−n
2
.
sup vµ
µ≤µ0
Da
n
n
1X
1X
vµ =
(xi − µ)2 =
(xi − x)2 +
n i=1
n i=1
{z
}
|
=:σ̂ 2
(x − µ)2 ,
| {z }
wachsend in |x−µ|
folgt

( σ̂2 ) n2
vµ0
R(x) =
( vµ20 ) n2
σ̂
Ferner gilt
vµ0
σ̂ 2
=1+
(x−µ0 )2
σ̂ 2
=1+
τµ0
τµ20
n−1
falls x < µ0 ,
falls x ≥ µ0 .
mit
√
(x − µ0 ) n
:= q
.
Pn
1
2
(x
−
x)
i=1 i
n−1
R ist eine streng monoton wachsende Funktion von τµ0 (sofern x ≥ µ0 ), und der LQ-Test
hat die Form
(
1 falls τµ0 > c,
ϕ(x) =
0 falls τµ0 < c
für ein c ∈ R.
3.3. TESTEN VON HYPOTHESEN
101
Was ist das effektive Niveau? Unter Pϑ ist τµ (X1 , . . . , Xn ) gerade tn−1 -verteilt nach Satz
3.3.22. Da
√
(µ0 − µ) n
τµ0 = τµ − q
,
Pn
1
2
i=1 (xi − x)
n−1
{z
}
|
≥0
ist Pϑ (ϕ(X1 , . . . , Xn ) = 1) auf Θ0 maximal für µ = µ0 . Also
α := sup Pϑ (ϕ(X1 , . . . , Xn ) = 1) = tn−1 ((c, ∞)) = 1 − tn−1 ((−∞, c]).
ϑ∈Θ0
Zum Niveau α wähle also c = tn−1,1−α , wobei tn−1,1−α das (1 − α)-Quantil der tn−1 Verteilung sei, d. h.
(
1 falls τµ0 > tn−1,1−α ,
ϕ(x) =
0 sonst.
Beispiel 3.3.24 Normalverteilung, zweiseitiger Test bei unbekannter Varianz:
Sei das Modell wie in Beispiel 3.3.23.
Hypothese Θ0 = {µ0 } × (0, ∞), Alternative Θ1 = (R \ {µ0 }) × (0, ∞).
Analog zu Beispiel 3.3.23 ergibt sich
sup %ϑ (x) = %(µ0 ,vµ0 ) (x) und sup %ϑ (x) = %(x,σ̂2 ) (x)
ϑ∈Θ0
ϑ∈Θ1
und somit
R(x) =
v n2
µ0
σ̂ 2
=
τµ20
1+
n−1
n2
.
R ist eine streng monoton wachsende Funktion von |τµ0 |.
Analog zu den Beispiel 3.3.18 und 3.3.23 hat dann der LQ-Test zum Niveau α die Form
(
1 falls |τµ0 | > tn−1,1−α ,
ϕ(x) =
0 sonst.
Bemerkung 3.3.25 Die ein- bzw. zweiseitigen t-Tests in den Beispielen 3.3.23, 3.3.24 sind
gleichmäßig beste unverfälschte Tests zum Niveau α, aber nicht gleichmäßig beste Tests
(ohne Beweis).
Bemerkung 3.3.26 In den bisherigen Beispielen wurden Familien von Tests mit kritischem
Bereich Kα , α ∈ (0, 1) berechnet, wobei Kα ⊆ Kα0 für α ≤ α0 , etwa Kα = {t(x) > t1−α }
für eine feste Statistik T = t(X1 , . . . , Xn ).
Für x ∈ Rn definiert man den p-Wert als
p(x) := inf{α ∈ (0, 1) : x ∈ Kα },
d. h. das kleinste Niveau α derart, dass die Hypothese bei Beobachtung von x durch den zu
α gehörigen Test der Testfamilie abgelehnt wird.
102
KAPITEL 3. SCHLIESSENDE STATISTIK
Bemerkung 3.3.27 zu sauberem und unsauberem Vorgehen:
1. Man sollte in der folgenden Reihenfolge arbeiten:
(a) Wahl des statistischen Modells,
(b) Wahl von Hypothese und Alternative,
(c) Wahl des Niveaus,
(d) Wahl des Tests,
(e) Erhebung der Daten,
(f) Entscheidung.
2. In der Medizinstatistik geht man noch weiter (good clinical practice):
(a) Kontrollgruppe: Es wird mit ununterscheidbarem Medikament ohne Wirkstoff
verglichen, um einen Placebo-Effekt auszuschließen;
(b) Doppel-Blind: Weder Arzt noch Patient wissen, ob Medikament oder Placebo
verabreicht werden;
(c) Randomisieren: Die Zuordnung Placebo/Wirkstoff erfolgt zufällig.
3. Mögliche Fehler (→ publication bias):
• Hypothese an denselben Daten bilden und testen,
• Niveau dem Ergebnis anpassen (p-Werte!),
• mehrere Tests nacheinander, bis Ablehnung erfolgt,
• und viele andere mehr . . .
3.4
Konfidenzintervalle
Problem: Schätzer liefern in aller Regel nicht genau den wahren“ Wert der Kenngröße,
”
sondern weichen mehr oder weniger stark davon ab.
Ausweg: Angabe eines ganzen Intervalls, in dem man den wahren Wert mit hoher Wahrscheinlichkeit vermutet.
Definition 3.4.1 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben. Seien τ : Θ →
R (bzw. Rd , . . . ) eine Kenngröße, α ∈ (0, 1).
Eine Abbildung C = c(X1 , . . . , Xn ) mit c : Rn → P(R) (bzw. P(Rd ), . . . ) heißt Bereichsschätzer für τ zum Irrtumsniveau α (oder Sicherheitsniveau (1 − α)), falls
inf Pϑ (τ (ϑ) ∈ C) ≥ 1 − α.
ϑ∈Θ
Für x ∈ Rn heißt c(x) Konfidenzintervall für τ (bzw. bei Rd -wertigem τ Konfidenz- oder
Vertrauensbereich).
3.4. KONFIDENZINTERVALLE
103
Bemerkung 3.4.2 Das bedeutet anschaulich, dass der wahre Parameter höchstens mit
Wahrscheinlichkeit α nicht im Konfidenzbereich liegt.
Achtung: Zufällig (da von Daten X1 , . . . , Xn abhängig) ist hier die Menge C =
c(X1 , . . . , Xn ), nicht aber der Parameter ϑ.
Satz 3.4.3 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben.
Seien τ : Θ → R (bzw. Rd , . . . ) eine Kenngröße, α ∈ (0, 1).
1. Ist für alle ϑ0 ∈ Θ ein α-Niveau-Test ϕϑ0 (X1 , . . . , Xn )
von H0 = {ϑ0 } gegen H1 = Θ \ {ϑ0 } gegeben, definiert
c(x) := {τ (ϑ) : ϑ ∈ Θ mit ϕϑ (x) = 0}
einen Bereichsschätzer τ zum Niveau α.
2. Ist C = c(X1 , . . . , Xn ) ein Bereichsschätzer für τ zum Niveau α, dann definiert für
ϑ0 ∈ Θ0
ϕ(x) := 1 − 1c(x) (τ (ϑ0 ))
einen α-Niveau-Test von Θ0 = {ϑ ∈ Θ : τ (ϑ) = τ (ϑ0 )} gegen Θ1 = Θ \ Θ0 .
Beweis.
1. Sei ϑ0 ∈ Θ. Dann gilt
Pϑ0 (τ (ϑ0 ) ∈ c(X1 , . . . , Xn )) ≥ Pϑ0 (ϕϑ0 (X1 , . . . , Xn ) = 0)
α-Niv.-Test
≥
1 − α.
2. Sei ϑ0 ∈ Θ, sei ϑ ∈ Θ mit τ (ϑ) = τ (ϑ0 ). Dann gilt
Pϑ (ϕ(X1 , . . . , Xn ) = 0) = Pϑ (τ (ϑ) ∈ c(X1 , . . . , Xn )) ≥ 1 − α.
Beispiel 3.4.4 Seien X1 , . . . , Xn unter Pϑ unabhängig und N (µ, σ 2 )-verteilt, wobei σ 2 > 0
gegeben und ϑ = µ seien, vgl. Beispiel 3.3.18.
Zu schätzen sei ϑ = µ (d. h. τ (ϑ) = ϑ).
Sei α ∈ (0, 1). Nach Beispiel 3.3.18 ist der α-Niveau-Test für Θ0 = {µ0 } gegen Θ1 = R\Θ0
ϕ(X1 , . . . , Xn ) = 1
|X−µ0 |>
q
σ 2 −1
Φ (1− α
)
n
2
.
Satz 3.4.3: Wähle als Konfidenzbereich beispielsweise C = c(X1 , . . . , Xn ) mit
σ −1 α
σ −1 α
c(x) = x − √ Φ
,x + √ Φ
.
1−
1−
2
2
n
n
104
KAPITEL 3. SCHLIESSENDE STATISTIK
Beispiel 3.4.5 Realistischere Situation: Auch σ 2 ist unbekannt, wie in Beispiel 3.2.20 bzw.
3.3.24. Für ϑ := (µ, σ 2 ) sei τ (ϑ) = µ zu schätzen.
Sei α ∈ (0, 1) gegeben. Nach Beispiel 3.3.24 ist der α-Niveau-Test für Θ0 = {µ0 } ×
(0, ∞) = {ϑ ∈ Θ : m(ϑ) = µ0 } gegen Θ1 = Θ \ Θ0 gegeben durch
ϕ(X1 , . . . , Xn ) = 1 (X−µ0 )√n √
S2
>tn−1,1−α/2
,
wobei X das Stichprobenmittel, S 2 die Stichprobenvarianz und tn−1,1−α/2 das (1 − α/2)Quantil der tn−1 -Verteilung sei. Nach Satz 3.4.3 wähle als Konfidenzbereich daher z. B.
!
√
√
S2
S2
C = c(X1 , . . . , Xn ) = X − √ tn−1,1−α/2 , X + √ tn−1,1−α/2 .
n
n
Bemerkung 3.4.6
1. Die Länge des Konfidenzintervalls ist proportional zu 1/√n. Um
die Genauigkeit zu verdoppeln, muss man n vervierfachen.
2. Die Konfidenzintervalle in 3.4.4 und 3.4.5 sind asymptotisch auch für andere Verteilungen anwendbar, da X nach dem zentralen Grenzwertsatz auch dann approximativ
normalverteilt ist, wenn das für die Xi nicht der Fall ist.
Beispiel 3.4.7 Produktion von Schrauben mittlerer Länge µ (Maschineneinstellung) und
Varianz σ 2 (Maschinenkonstante):
Schätzung von µ durch Vermessen von 100 Schrauben
1. X = 115 mm, σ 2 = (15,4 mm)2 , n = 100, α = 0,05:
Dann ist √σn Φ−1 (1 − α/2) ≈ 2,6, also C = (112,4 mm, 117,6 mm), falls σ 2 bekannt.
2. Wie
oben, aber S 2 = (15,4 mm)2 geschätzt:
√
2
√S tn−1,1−α/2 ≈ 2,65, also C = (112,35 mm, 117,65 mm).
n
3.5
Elemente der Bayesschen Statistik
Motivation 3.5.1 Idee der Bayesschen Statistik:
Man betrachtet den Parameter als zufällig. Hierzu hat man eine Vorbewertung (Vorinformation, Erfahrung, Vorurteil), die dann auf Grund von Beobachtungen konkretisiert wird.
Vorteile: Man erhält Verteilungsaussagen über den Parameter. Das Verfahren entspricht auch
eher der menschlichen Vorgehensweise, aus Erfahrung zu lernen.
Nachteil: Abhängigkeit der Resultate von der oft subjektiven Wahl der Vorbewertung
Mathematischer Rahmen 3.5.2 Seien X1 , . . . , Xn unter allen Pϑ , ϑ ∈ Θ unabhängig und
identisch verteilt. Sei zunächst ein diskretes Modell mit (Zähl-)Dichten %ϑ und abzählbarem Θ betrachtet. Der unbekannte Parameter wird als Zufallsgröße U : Ω → Θ aufgefasst,
d. h. nun sind sowohl der unbekannte und nicht beobachtbare Parameter ϑ (genauer: die
zugehörige Zufallsgröße U ), als auch die Beobachtungen X1 , . . . , Xn zufällig.
3.5. ELEMENTE DER BAYESSCHEN STATISTIK
105
Gegeben seien die Verteilung P U (Vorbewertung) mit Zähldichte α : Θ → R, d. h. α(ϑ) =
P (U = ϑ). P U heißt auch a priori-Verteilung, α heißt a priori-Dichte.
Die Pϑ werden nunmehr als bedingte Wahrscheinlichkeiten interpretiert, d. h.
%ϑ (x) := Pϑ ((X1 , . . . , Xn ) = x) := P ((X1 , . . . , Xn ) = x | U = ϑ)
für x ∈ Rn , ϑ ∈ Θ.
Gesucht ist die a posteriori-Dichte
πx (ϑ) := P (U = ϑ | (X1 , . . . , Xn ) = x),
(3.2)
ϑ ∈ Θ, x ∈ (X1 , . . . , Xn )(Ω), also die (Zähl-)Dichte der a posteriori-Verteilung A 7→
P (U ∈ A | (X1 , . . . , Xn ) = x), also der Verteilung des unbekannten Parameters unter
Berücksichtigung der beobachteten Daten x = (x1 , . . . , xn )
Interpretation: Neubewertung der Einschätzung über ϑ auf Grund der Beobachtungen.
Berechnung:
= P (U = ϑ | (X1 , . . . , Xn ) = x)
πx (ϑ)
Bayessche
Formel
=
P
P ((X1 , . . . , Xn ) = x | U = ϑ)P (U = ϑ)
e (U = ϑ)
e
P ((X1 , . . . , Xn ) = x | U = ϑ)P
e
ϑ∈Θ
=P
%ϑ (x)α(ϑ)
e
ϑ∈Θ
e
%ϑe(x)α (ϑ)
.
(3.3)
Falls das Modell stetig ist (d. h. %ϑ ist Lebesgue-Dichte), wird analog vorgegangen, auch
wenn die rechte Seite von (3.2) wegen P ((X1 , . . . , Xn ) = x) = 0 mathematisch sinnlos
scheint. Für eine saubere Definition ist mehr Maßtheorie erforderlich. Falls Θ ⊆ R und P U
stetig ist (d. h. α ist Lebesgue-Dichte statt Zähldichte), ist die a posteriori-Dichte analog zu
(3.3) definiert durch
%ϑ (x)α(ϑ)
πx (ϑ) := R
.
(3.4)
e dϑe
% e(x)α (ϑ)
Θ
ϑ
Beispiel 3.5.3 n-facher Münzwurf, vgl. 3.1.5, 3.2.2, 3.2.19
Vorbewertung: Gleichverteilung auf Θ = [0, 1], d. h. P U hat die Dichte α : [0, 1] →
R, α(ϑ) = 1, also ein gemischter Fall: P U hat eine stetige Dichte, Pϑ hingegen eine Zähldichte.
A posteriori-Dichte in Analogie zu (3.3, 3.4):
πx (ϑ) = R
%ϑ (x)α(ϑ)
e dϑe
% e(x)α (ϑ)
A ϑ
= R1
0
ϑk (1 − ϑ)n−k
e n−k dϑe
ϑek (1 − ϑ)
k
n−k
ϑ (1 − ϑ)
B(k + 1, n − k + 1)
(n + 1)! k
=
ϑ (1 − ϑ)n−k
k!(n − k)!
=
mit k :=
n
X
i=1
xi
106
KAPITEL 3. SCHLIESSENDE STATISTIK
R1
mit B(x, y) := 0 tx−1 (1 − t)y−1 dt = (x−1)!(y−1)!
für x, y ∈ N \ {0}.
(x+y−1)!
πx ist die Dichte einer Beta-Verteilung mit Parametern k + 1, n − k + 1.
3.5.1
Schätzen
Definition 3.5.4 Ein Schätzer T = t(X1 , . . . , Xn ) für eine Kenngröße τ : Θ → R heißt
Bayes-Schätzer, falls er den erwarteten quadratischen Fehler E[(T − τ (U ))2 ] unter allen
Schätzern minimiert.
Satz 3.5.5 Der Bayes-Schätzer in Beispiel 3.5.3 ist gegeben durch
(P
t(x) =
ϑ∈Θ
R
τ (ϑ)πx (ϑ)
falls πx Zähldichte,
τ (ϑ)πx (ϑ) dϑ
falls πx Lebesgue-Dichte,
d. h. T ist der Erwartungswert von τ unter der durch πx gegebenen a posteriori-Verteilung
auf dem Parameterraum Θ.
Beweis. Hier für den diskreten Fall, der stetige Fall wird ähnlich bewiesen.
Sei %(x) := P ((X1 , . . . , Xn ) = x). Dann ist
%(x)πx (ϑ) = P (U = ϑ | (X1 , . . . , Xn ) = x)P ((X1 , . . . , Xn ) = x)
= P ((X1 , . . . , Xn ) = x, U = ϑ).
Sei S = s(X1 , . . . , Xn ) ein weiterer Schätzer. Dann gilt
E[(S − τ (ϑ))2 ] − E[(T − τ (ϑ))2 ]
X
=
P ((X1 , . . . , Xn ) = x, U = ϑ) (s(x) − τ (ϑ))2 − (t(x) − τ (ϑ))2
|
{z
}
ϑ∈Θ
x∈(X1 ,...,Xn )(Ω)
X
=
x∈(X1 ,...,Xn )(Ω)
=s(x)2 −2s(x)τ (ϑ)−t(x)2 +2t(x)τ (ϑ)
X
X
%(x) s(x)2
πx (ϑ) −2s(x)
πx (ϑ)τ (ϑ)
ϑ∈Θ
|
ϑ∈Θ
{z
}
X
πx (ϑ) +2t(x)
=1
− t(x)2
|
ϑ∈Θ
|
X
=
{z
}
=t(x)
X
πx (ϑ)τ (ϑ)
ϑ∈Θ
{z
=1
}
|
{z
=t(x)
}
%(x)(s(x) − t(x))2
x∈(X1 ,...,Xn )(Ω)
≥ 0.
3.5. ELEMENTE DER BAYESSCHEN STATISTIK
107
Beispiel 3.5.6 n-facher Münzwurf, vgl. 3.1.5, 3.2.2, 3.2.19, 3.5.3, zur Notation siehe Beispiel 3.5.3.
Betrachte τ (ϑ) = ϑ, d. h. ϑ soll geschätzt werden. Der Bayes-Schätzer ist gegeben durch
Z
t(x) = ϑπx (ϑ) dϑ
Z
(n + 1)!
=
ϑk+1 (1 − ϑ)n−k dϑ
k!(n − k)!
(n + 1)!
B(k + 2, n − k + 1)
=
k!(n − k)!
(n + 1)! (k + 1)!(n − k)!
=
k!(n − k)!
(k + 2)!
k+1
=
n+2
Pn
für k = i=1 xi . (Vgl. mit t(x) = nk in 3.2.2 bzw. 3.2.19.)
3.5.2
Konfidenzbereiche
Definition 3.5.7 Seien eine Kenngröße τ : Θ → R und α ∈ (0, 1) gegeben. Eine Abbildung
C = c(X1 , . . . , Xn ) mit c : Rn → P(R) heißt Bereichsschätzer für τ zum Irrtumsniveau
α, falls
P (τ (U ) ∈ c(X1 , . . . , Xn )) > 1 − α.
Bemerkung 3.5.8 Achtung: Anders als in Definition 3.4.1 sind nun beide Seiten zufällig,
also neben X1 , . . . , Xn auch der unbekannte Parameter U .
Idee zur Konstruktion, hier nur im Fall Θ ⊆ R und τ (ϑ) = ϑ: Wähle ϑ ∈ c(x) genau dann,
wenn πx (ϑ) > q(x), wobei q(x) derart beschaffen sei, dass
Z
X
πx (ϑ) > 1 − α.
bzw.
πx (ϑ) dϑ > 1 − α
c(x)
ϑ∈c(x)
Es wird also ein möglichst kleiner Konfidenzbereich gewählt, da er gerade die ϑ mit größter
a-posteriori Wahrscheinlichkeit enthält.
C = c(X1 , . . . , Xn ) ist dann ein Konfidenzbereich, denn
X
X
P (U ∈ c(X1 , . . . , Xn )) =
P ((X1 , . . . , Xn ) = x, U = ϑ)
x∈(X1 ,...,Xn )(Ω) ϑ∈c(x)
=
X
%(x)
x∈(X1 ,...,Xn )(Ω)
X
ϑ∈c(x)
|
X
> (1 − α)
πx (ϑ)
{z
>1−α
%(x)
x∈(X1 ,...,Xn )(Ω)
= (1 − α).
(Im Fall von Lebesgue-Dichten argumentiert man analog.)
}
108
KAPITEL 3. SCHLIESSENDE STATISTIK
3.5.3
Testen
Definition 3.5.9 Seien Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung in die Hypothese Θ0 und
die Alternative Θ1 sowie c0 , c1 > 0. Ein Test (vgl. Definition 3.3.2) ϕ(X1 , . . . , Xn ) von Θ0
gegen Θ1 heißt Bayes-Test zu Kosten c0 , c1 , falls
E[c0 ϕ(X1 , . . . , Xn )1Θ0 (U ) + c1 (1 − ϕ(X1 , . . . , Xn ))1Θ1 (U )]
minimal wird unter allen Tests.
Bemerkung 3.5.10 In Definition 3.5.9 stehen c0 für die Kosten des Fehlers 1. Art und c1
für die Kosten des Fehlers 2. Art. Der Bayes-Test minimiert die erwarteten Fehlerkosten,
insbesondere die Wahrscheinlichkeit einer Fehlentscheidung für c0 = c1 = 1.
Satz 3.5.11 Wähle
ϕ(x) :=
(
1 falls
0
P (U ∈Θ1 |(X1 ,...,Xn )=x)
P (U ∈Θ0 |(X1 ,...,Xn )=x)
>
c0
,
c1
sonst
(wobei P (U ∈ Θi | (X1 , . . . , Xn ) = x) =
Dann definiert ϕ einen Bayes-Test.
P
ϑ∈Θi
πx (ϑ) für i ∈ {0, 1}).
Beweis. Wir betrachten den abzählbaren Fall (sonst analog):
E[c0 ϕ(X1 , . . . , Xn )1Θ0 (U ) + c1 (1 − ϕ(X1 , . . . , Xn ))1Θ1 (U )]
X
=
P ((X1 , . . . , Xn ) = x) c0 ϕ(x)P (U ∈ Θ0 | (X1 , . . . , Xn ) = x)
x∈R
+ c1 (1 − ϕ(x))P (U ∈ Θ1 | (X1 , . . . , Xn ) = x)
=:
X
P ((X1 , . . . , Xn ) = x)`(x).
x∈R
Es ist
`(x) =
(
c0 p0 (x)
c1 (1 − p0 (x))
mit p0 (x) = P (U ∈ Θ0 | (X1 , . . . , Xn ) = x).
c0 p0 (x) < c1 (1 − p0 (x)), gilt genau dann, wenn
definierte ϕ den Ausdruck `(x) für alle x.
falls ϕ(x) = 1,
falls ϕ(x) = 0
c0
c1
<
1−p0 (x)
.
p0 (x)
Also minimiert das im Satz
Bemerkung 3.5.12 Im Fall c0 = c1 = 1 kann ϕ(x) aus Satz 3.5.11 so interpretiert werden,
dass man sich für diejenige der beiden Hypothesen entscheidet, die die größere a posterioriWahrscheinlichkeit besitzt.
Herunterladen