1x1

Prof. Dr. Michael Eisermann
•
Höhere Mathematik 3 (vertieft)
Kapitel V
Der zentrale Grenzwertsatz
Zweck des vorliegenden Heftes ist eine axiomatische Begründung der
Wahrscheinlichkeitsrechnung. (...) Vor Entstehung der Lebesgueschen
Maß- und Integrationstheorie war diese Aufgabe ziemlich hoffnungslos.
Nach den Lebesgueschen Untersuchungen lag die Analogie zwischen
dem Maße einer Menge und der Wahrscheinlichkeit eines Ereignisses
sowie zwischen dem Integral einer Funktion und der mathematischen
Erwartung einer zufälligen Größe auf der Hand.
Andrei Kolmogorov (1902–1987), Grundbegriffe der Wahrscheinlichkeitstheorie (1933)
WiSe 2017/18
•
www.igt.uni-stuttgart.de/eiserm/lehre/HM3
•
Stand 17.10.2017
Inhalt dieses Kapitels
1
Zufallsvariablen und Chebychev–Ungleichung
Zufallsvariablen, Erwartung und Varianz
Die Ungleichungen von Chebychev
2
Unabhängigkeit und das Gesetz der großen Zahlen
Unabhängige Zufallsvariablen
Das Gesetz der großen Zahlen
3
Der zentrale Grenzwertsatz
Der zentrale Grenzwertsatz
Konfidenzintervalle
4
Fazit: der zentrale Grenzwertsatz
Summen von Zufallsvariablen
Anwendungen der Grenzwertsätze
5
Analytische Methoden der Wahrscheinlichkeitsrechnung
Potenzreihen und erzeugende Funktionen
Laplace– und Fourier–Transformation
V000
Motivation
V001
Erläuterung
Wir kennen bereits zwei nützliche und wichtige Grenzwertsätze:
Bei seltenen Ereignissen können wir die Binomialverteilung B(n, t)
durch die Poisson–Verteilung P (nt) nähern mit guter Fehlerschranke.
Das Gesetz der kleinen Zahlen besagt B(n, λ/n) → P (λ) für n → ∞.
Der lokale Grenzwertsatz hingegen nützt für beliebige 0 < t < 1
und approximiert Binomialverteilungen durch Normalverteilungen:
P(a ≤ S ≤ b)
exakt
=
b X
n
k=a
k
k
n−k
t (1 − t)
approx
ˆ
β
=
α
2
e−ξ /2
√
dξ + δ
2π
Die Normalverteilung ist zudem universell: Sie entsteht immer, wenn
sich viele unabhängige, ähnlich große Beiträge zu S aufsummieren:
ˆ β −ξ2 /2
e
√
S = X1 + X2 + · · · + Xn ,
P(a ≤ S ≤ b) =
dξ + δ
2π
α
Entscheidend ist hier, wie immer, den Fehler δ geeignet zu beschränken.
Die genaue Aussage ist Inhalt des zentralen Grenzwertsatzes V3A.
Vorgehensweise
V002
Erläuterung
Unser Ziel sind rationale Entscheidungen unter Unsicherheit.
Hierzu wollen wir stochastische Gesetzmäßigkeiten erklären und nutzen.
Eine Messung betrachten wir als Zufallsvariable X : Ω → R.
Sie definiert eine WVerteilung auf R mit Erwartung und Varianz.
Entscheidend ist der Begriff der Unabhängigkeit von Zufallsvariablen.
Die intuitive Anschauung präzisieren wir durch Definitionen und Sätze.
Wir können damit die Chebychev–Ungleichung formulieren
und hieraus das (schwache) Gesetz der großen Zahlen ableiten.
Höhepunkt dieses Kapitels ist der zentrale Grenzwertsatz V3A.
Diesen formuliere ich mit einer allgemeinen, expliziten Fehlerschranke.
Die vom ZGS vorhergesagte Normalverteilung ist ein universelles
Werkzeug und bietet für viele Situationen ein brauchbares Modell.
Sie dient insbesondere zur Bestimmung von Konfidenzintervallen
und wird daher in nahezu allen praktischen Anwendungen benötigt.
Hierzu gebe ich abschließend erste einfache Anwendungsbeispiele.
Mit diesen Grundlagen gewappnet beginnt die mathematische Statistik.
Erinnerung: Augensumme von zwei Würfeln
V101
1
Ergebnisse ω ∈ Ω = {1, 2, 3, 4, 5, 6}2 mit Gleichverteilung P({ω}) = 36
.
Augenzahlen X1 , X2 : Ω → R mit X1 (ω1 , ω2 ) = ω1 und X2 (ω1 , ω2 ) = ω2 .
Augensumme X : Ω → R mit X = X1 + X2 . Die Verteilung von X ist:
6/36
6+1
5/36
5+1
5+2
6+2
4+1
4+2
4+3
5+3
6+3
3+1
3+2
3+3
3+4
4+4
5+4
6+4
2+1
2+2
2+3
2+4
2+5
3+5
4+5
5+5
6+5
1+1
1+2
1+3
1+4
1+5
1+6
2+6
3+6
4+6
5+6
6+6
2
3
4
5
6
7
8
9
10
11
12
4/36
3/36
2/36
1/36
Erinnerung: unabhängig wiederholte Tests
V102
Ergebnisse sind n–Tupel ω ∈ Ω = {0, 1}n . Die WVerteilung ist hier
P({ω}) = tk (1 − t)n−k
bei Trefferzahl k = ω1 + · · · + ωn .
Für Xi : Ω → {0, 1} mit Xi (ω1 , ω2 , . . . , ωn ) = ωi gilt Xi ∼ B(1, t).
Für X = X1 + · · · + Xn gilt X ∼ B(n, t), d.h. X hat die Verteilung
n k
P(X=k) = P ω X(ω) = k
=
t (1 − t)n−k .
k
n = 100, t = 0.1
n = 100, t = 0.3
n = 100, t = 0.5
0.12
0.10
0.08
0.06
0.04
0.02
0
10
20
30
40
50
60
Zufallsvariablen
V103
Oft interessiert bei Experimenten nicht das detaillierte Ergebnis ω ∈ Ω,
sondern nur eine reelle Größe X(ω) ∈ R, die vom Ergebnis ω abhängt.
Definition V1A (Zufallsvariable)
Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A , P).
??
Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R.
Diese definiert auf R eine WVerteilung PX : B(R) → [0, 1] durch
PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B .
Diese nennen wir die Verteilung der Zufallsvariablen X (Bildmaß).
Wir sagen hierzu X ist PX –verteilt und schreiben kurz X ∼ PX .
Wir stellen uns Ω als Lostopf vor; zu jedem Los ω ∈ Ω ist X(ω) ∈ R der Gewinn. Die Wkt P ist
auf die verschiedenen Ergebnisse ω ∈ Ω verteilt, entsprechend PX auf die möglichen Gewinne.
Messbarkeit von X ist eine technisch notwendige
Sie bedeutet:
Voraussetzung.
Für jedes
Intervall
B ⊂ R ist die Urbildmenge A = X −1 (B) = ω ∈ Ω X(ω) ∈ B = „ X ∈ B “ in Ω
messbar, das heißt A ∈ A . Diese Vorsichtsmaßnahme ist (wie immer) nur technischer Natur:
Sie stellt sicher, dass die Definition von PX und alle weiteren Rechnungen möglich sind.
Zufallsvariablen
V104
Erläuterung
Wir betrachten statt reeller auch vektorwertige Zufallsvariablen
X = (X1 , . . . , Xn ) : (Ω, A , P) → (Rn , B, PX ).
Allgemeiner: Jede Zufallsvariable ist eine messbare Abbildung
X : (Ω, A , P) → (Ω0 , B, PX )
Anschaulich wird die Massenverteilung von P auf PX transportiert.
Statt mit einer Zufallsvariable X : Ω → Ω0 auf dem WRaum (Ω, A , P)
können wir ebenso auch direkt mit dem Bildraum (Ω0 , B, PX ) arbeiten.
Mit der Zufallsvariable X können wir so einen komplizierten
durch einen einfachen Wahrscheinlichkeitsraum ersetzen.
Die Einführung von Zufallsvariablen ist oft bequem und nützlich:
Bequeme Notation und natürliche Sprechweise: ZVariablen sind z.B.
Messungen, Stichproben, etc. Das ist für Anwendungen hilfreich.
Wir können mehrere Experimente als Zufallsvariablen X1 , X2 , . . .
auf dem gemeinsamen WRaum (Ω, A , P) betrachten.
Wir können vom zugrundeliegenden WRaum (Ω, A , P)
abstrahieren und müssen ihn häufig gar nicht explizit ausführen.
Kontinuierliches Beispiel
V105
Erläuterung
R
Ω
Aufgabe: (1) Auf Ω = [−1, 1] betrachten wir die Gleichverteilung P.
Zeichnen Sie hierzu die WDichte g und die kumul. Verteilung G.
(2) Bestimmen Sie für die ZVariable X : Ω → R mit X(t) = t2
die kumulative Verteilungsfunktion F und ihre WDichte f .
Lösung: Die Bildmenge ist [0, 1], aber nicht gleichverteilt!
Das Bildmaß PX hat für 0 ≤ x ≤ 1 die kumulative Verteilung
√
√
F (x) = P(t2 ≤ x) = P(|t| ≤ x) = x.
Demnach hat PX die Dichte f (x) = F 0 (x) =
1
√
.
2 x
Kontinuierliches Beispiel
V106
Erläuterung
(1) Gleichverteilung P auf dem Definitionsbereich Ω = [−1, 1]:
Kumul G
WDichte g
x
Kontinuierliches Beispiel
V107
Erläuterung
(2) Verteilung PX der ZVariablen X(t) = t2 im Bildbereich Ω0 = [0, 1]:
Kumul F
WDichte f
x
Kontinuierliches Beispiel
V108
Erläuterung
Anschaulich wird die Massenverteilung von P auf PX transportiert:
Die Parameter t ∈ [−1, 1] sind gleichverteilt, nicht jedoch t2 ∈ [0, 1].
Im Bildraum [0, 1] werden die niedrigen Werte um 0 wahrscheinlicher
getroffen (hohe Dichte) als die hohen Werte um 1 (geringere Dichte).
Konkret kann man dies wie folgt simulieren: Generieren Sie zufällig
gleichverteilt Zahlen t ∈ [−1, 1] und tragen Sie die Bildpunkte X(t) = t2
ein. Es ergibt sich eine Punktwolke in [0, 1], deren Dichte von 0 nach 1
monoton abnimmt. Nahe 0 wird diese Wolke extrem dicht.
Unser Ergebnis für die Zufallsvariable X(t) = t2 ist daher plausibel.
Will man die genaue Verteilung, so muss man rechnen (wie oben).
Diese einfache Illustration ist der Sinn dieser Aufgabe.
Man sieht insbesondere, dass die Dichte nicht beschränkt sein muss.
Hier hat sie eine Polstelle, bei 0 also unendlich große Dichte.
Dennoch ist die Gesamtmasse endlich, immer noch gleich 1.
Erwartung: diskretes Beispiel
V109
Wenn X : Ω → R nur endlich viele Werte a1 < a2 < · · · < an annimmt,
dann ist der Erwartungswert E(X) der gewichtete Mittelwert:
E(X) :=
n
X
k=1
ak · P(X=ak )
Aufgabe: Man berechne E(X) für X ∼ B(n, t) binomialverteilt.
Lösung: Die Berechnung des Erwartungswertes kennen wir
n
n
X
X
n k
E(X) =
k · P(X=k) =
k·
t (1 − t)n−k
k
k=0
U209 :
=
nt
k=0
Konkret betrachten wir wie oben die Trefferzahl X : {0, 1}n → R mit X(ω) = ωP
1 + · · · + ωn .
Dies ist eine einfache Funktion, in diesem konkreten Beispiel gilt nämlich X = n
k=1 k IAk
mit Ak = X −1 ({k}) = { ω ∈ Ω | X(ω) = k }. Dies verallgemeinert Treppenfunktionen A307 ,
hier nun sind A1 , . . . , An beliebige messbare Mengen (nicht nur Quader im Rn ).
Die Menge T (Ω, R) aller P
einfachen Funktionen
Pnist ein R–Vektorraum. Hierauf ist die Erwartung
n
E : T (Ω, R) → R mit E
k=1 ak IAk =
k=1 ak P(Ak ) die einzige normierte, lineare
Abbildung. Das entspricht dem Integral! Wir können unser Wissen nutzen. Alles wird gut.
Definition der Erwartung
V110
Erläuterung
Für die Erwartung gehen wir wie beim Integral vor (siehe Kapitel A):
Für jede einfache Funktion können wir das Integral durch eine endliche
Summe definieren (wie bei Treppenfunktionen). Anschließend gelangen
wir per Grenzübergang von einfachen zu messbaren Funktionen:
Satz V1B (Ausschöpfung durch einfache Funktionen)
Sei (Ω, A , P) ein Wahrscheinlichkeitsraum.
Für jede Funktion f : Ω → [0, ∞] sind äquivalent:
(1) Für alle a ∈ R ist f −1 ([0, a]) messbar: { ω ∈ Ω | f (ω) ≤ a } ∈ A .
(2) Es existiert eine wachsende Folge einfacher Funktionen
0 ≤ f0 ≤ f1 ≤ f2 ≤ . . . : Ω → [0, ∞] mit
fk % f.
In diesem Fall gilt 0 ≤ E(f0 ) ≤ E(f1 ) ≤ . . . und wir definieren
E(f ) := lim E(fk ) ∈ [0, ∞].
Dies ist wohldefiniert, d.h. von der Wahl der Folge (fk )k∈N unabhängig.
Definition der Erwartung
„(1)⇒(2)“: Wir konstruieren einfache Funktionen fk : Ω → [0, ∞].
Sei k ∈ N. Für j ∈ {0, . . . , N = k2k } setzen wir hj := j/2k und
Aj := f −1 ([hj , hj+1 [), wobei AN := f −1 ([hN , ∞]). Wir definieren
P
fk := N
k=0 hj · IAj . Für jeden Punkt x ∈ Ω gilt dann fk (x) % f (x).
„(2)⇐(1)“: Seien fk : Ω → [0, ∞] messbar und fk % f .
Die Menge Ak = fk−1 ([0, a]) ist messbar, also Ak ∈ A .
T
Für A = f −1 ([0, a]) gilt dann A = ∞
k=0 Ak , also A ∈ A .
V111
Erläuterung
Definition der Erwartung
V112
Erläuterung
Definition V1C (messbare und absolut integrierbare Funktionen)
Für jede Funktion f : Ω → R̄ gilt f = f + − f − und |f | = f + + f − .
Genau dann ist f : Ω → R̄ messbar, wenn f + und f − messbar sind.
In diesem Fall ist auch |f | = f + + f − messbar, und somit gilt
E(|f |) = E(f + ) + E(f − ).
Ist dieser Wert endlich, so nennen wir f absolut integrierbar.
In diesem Fall können wir den Erwartungswert von f definieren durch
E(f ) := E(f + ) − E(f − ).
Satz V1D (Erwartung als Integral)
Der Erwartungswert verhält sich als Integral E(f ) =
´
x∈Ω f (x) dP:
Die integrierbaren Funktionen f : Ω → R bilden einen Vektorraum.
Hierauf ist f 7→ E(f ) eine normierte, lineare, monotone Abbildung.
Erwartung: kontinuierliches Beispiel
V113
Für jede Zufallsvariable X : Ω → R ist der Erwartungswert das Integral:
ˆ
ˆ
E(X) :=
X(ω) dP =
x dPX
ω∈Ω
x∈R
Im diskreten Fall ist dies eine Summe, im kontinuierlichen ein Integral. Dies ist nur sinnvoll für
E(|X|) < ∞: Wir nennen X integrierbar oder sagen: Der Erwartungswert von X existiert.
R
Ω
Aufgabe: Sei P die kontinuierliche Gleichverteilung auf Ω = [−1, 1].
Berechnen Sie den Erwartungswert von X : Ω → R mit X(t) = t2 .
Lösung: Das gelingt durch Integration über (Ω, P):
ˆ
ˆ 1
ˆ 1
1
1 3 1
1
2 1
E(X) =
X(t) dP =
X(t) · dt =
t · dt =
t
=
2
2
6 −1 3
Ω
−1
−1
Erwartung: kontinuierliches Beispiel
V114
Erläuterung
Die Verteilung PX dieser Zufallsvariable haben wir oben diskutiert.
Der Erwartungswert ist anschaulich plausibel: Niedrige Werte nahe 0
werden wahrscheinlicher getroffen als hohe Werte nahe 1. Ein Wert
unter 1/2 scheint daher plausibel. Den genauen Wert 1/3 hingegen
muss man ausrechnen. Dafür haben wir alle Techniken zur Integration!
Aufgabe: Berechnen Sie den Erwartungswert alternativ mit dem
Bildmaß PX . Stimmen beide Ergebnisse überein? Warum ist das so?
√
Lösung: Zu PX auf [0, 1] haben wir oben die Dichte f (x) = 1/(2 x)
ausgerechnet. Hieraus erhalten wir den Erwartungswert wie folgt:
ˆ 1
ˆ 1
ˆ
ˆ 1
h1
i1 1
1
1 1/2
x √ dx =
x dx = x3/2 =
x dPX =
xf (x) dx =
3
3
2 x
0
0
0 2
R
0
Beide Integrale sind gleich dank Transformationssatz / Substitution!
Der Erwartungswert lässt sich also auf zwei Weisen betrachten und berechnen: als Integral der
messbaren Funktion X : Ω → R bezüglich des Maßes P auf Ω, oder als Schwerpunkt des
Bildmaßes PX auf R. Beide ergeben dasselbe Ergebnis, und ein jeder darf sich aussuchen,
welcher Rechenweg im konkreten Beispiel bequemer für ihn ist. Ich werde im Folgenden meist
Bildmaße auf Rn vorziehen, da uns diese aus der n–dimensionalen Integration vertraut sind.
Erwartung von Zufallsvariablen
V115
Definition V1E (Erwartungswert von Zufallsvariablen)
Sei (Ω, A , P) ein WRaum und X : Ω → R̄ eine Zufallsvariable.
Ihr Erwartungswert (oder kurz ihre Erwartung) ist gegeben durch
ˆ
ˆ
µ(X) = E(X) :=
X(ω) dP =
x dPX .
ω∈Ω
x∈R
Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt
ˆ
E(X) =
x f (x) dx.
R
Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt
X
E(X) =
x p(x).
x∈R
Dies ist jeweils nur sinnvoll für E(|X|) < ∞. In diesem Fall nennen wir
X integrierbar oder sagen: Der Erwartungswert von X existiert.
Erwartungswert: warnende Beispiele
V116
Erläuterung
Bei endlichen WRäumen (Ω, P) ist Summierbarkeit kein Problem.
Ebenso besteht für einfache Funktionen X : Ω → R kein Hindernis.
Vorsicht ist geboten, wenn X unendlich viele Werte annimmt:
Aufgabe: Seien X, Y : Ω → Z Zufallsvariablen mit Verteilung
a
P X=(−2)k = 2−k und P Y = k = 2 für k = 1, 2, 3, . . .
k
(1) Sind dies WVerteilungen? (2) Existiert die Erwartung?
P
2
Lösung: (1) Ja, es gilt p(k) ≥ 0 und ∞
k=1 p(k) = 1, wobei a = 6/π .
(2) Nein, die zum Erwartungswert benötigte Reihe konvergiert nicht:
∞
∞
X
X
xk · P(X=xk ) =
(−2)k · 2−k = −1 + 1 − 1 + 1 − 1 ± . . .
k=1
k=1
∞
X
∞
X
k=1
k · P(Y =k)
=
k=1
k·
a
k2
=
6 1 1 1 1 1
+
+
+
+
+
.
.
.
π2 1 2 3 4 5
Die hier erforderlichen Reihen konvergieren nicht.
Einen Erwartungswert können wir hier also nicht definieren!
Varianz von Zufallsvariablen
V117
Definition V1F (Varianz und höhere Momente)
Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable.
Sei E(|X|) < ∞, so dass der Erwartungswert µ = E(X) existiert.
Die Varianz von X ist die mittlere quadratische Abweichung
σ 2 (X) = V(X) := E (X − µ)2 = E(X 2 ) − E(X)2 ≥ 0.
Die Streuung oder Standardabweichung von X ist die Quadratwurzel
p
σ(X) := V(X) ≥ 0.
Das (absolute, zentrierte) n–te Moment von X ist gegeben durch
ρn (X) = E |X − µ|n .
Anschaulich ist der Erwartungswert µ der Schwerpunkt der Verteilung.
Varianz und höhere Momente messen, wie weit die Werte um µ streuen.
Große Abweichungen wiegen schwerer: quadratisch oder gar hoch n.
Varianz von Zufallsvariablen
V118
Erläuterung
Aufgabe: Sei µ = E(X). Zeigen Sie die praktisch nützliche Formel
!
V(X) = E (X − µ)2 = E(X 2 ) − E(X)2
Nachrechnen: Dank Linearität des Erwartungswerts gilt
2 E X −µ
= E X 2 − 2Xµ + µ2
= E X 2 − 2E X µ + µ2
= E(X 2 ) − 2µ2 + µ2
= E(X 2 ) − E(X)2
Die Varianz V(X) = E (X − µ)2 = E(X 2 ) − E(X)2 kann man
also mit jeder der beiden Formeln ausrechnen. Beide sind nützlich.
Dies ist eine besondere Eigenschaft des zweiten Moments.
Für alle anderen Momente E[|X − µ|n ] mit n 6= 2 gilt dies nicht!
Erwartung und Varianz
V119
Erläuterung
Sei X eine Zufallsvariable mit µ := E(X) und σ 2 := V(X).
Aufgabe: Wie verhalten sich Erwartung und Varianz bei Verschiebung
zu Y = X + c mit c ∈ R und Skalierung zu Z = aX mit a ∈ R?
Was gilt demnach für Y = X − µ und Z = (X − µ)/σ?
Lösung: Wir haben P(Ω) = 1. Bei Addition einer Konstanten c ∈ R gilt
ˆ
ˆ
ˆ
E(Y ) = E(X + c) =
X + c dP =
X dP +
c dP = E(X) + c.
Ω
Ω
Ω
Bei Skalierung mit einem konstanten Faktor a ∈ R gilt
ˆ
ˆ
E(Z) = E(aX) =
aX dP = a X dP = aE(X).
Ω
Ω
Diese einfachen aber nützlichen Rechenregeln verdanken wir
der Linearität der Erwartung und der Normierung P(Ω) = 1.
Erwartung und Varianz
V120
Erläuterung
Bei Verschiebungen bleibt die Varianz unverändert:
h
h
2 i
2 i
V(X + c) = E X + c − E(X + c)
= E X + c − E(X) − c
h
2 i
= E X − E(X)
= V(X)
Bei Skalierung verhält sich die Varianz quadratisch:
h
h
2 i
2 i
V(aX) = E aX − E(aX)
= E aX − aE(X)
h
2 i
= a2 E X − E(X)
= a2 V(X)
Speziell für Y = X − µ gilt somit E(Y ) = 0 und V(Y ) = V(X) = σ 2 .
Speziell für Z = (X − µ)/σ gilt somit E(Z) = 0 und V(Z) = 1.
Wir nennen Y = X − µ die Zentrierung und Z = (X − µ)/σ die
Normierung von X. Dies lässt sich umkehren zu X = µ + Zσ.
Für die Zufallsvariable X ist die natürliche Betrachtung
die (µ, σ)–Skala mit Ursprung in µ und Längeneinheit σ > 0.
Varianz von Zufallsvariablen
V121
Aufgabe: Berechnen Sie das 1./2./3. Moment für X ∼ B(1, t).
Lösung: Hier ist X : Ω → {0, 1} eine Zufallsvariable mit Verteilung
P(X=1) = t
und P(X=0) = 1 − t =: t̄.
Ihre Erwartung und 1./2./3. Momente berechnen wir nach Definition:
= 0 · P(X=0) + 1 · P(X=1)
µ = E(X)
E |X − µ|1
E |X − µ|2
E |X − µ|
= |0 − µ|1 · P(X=0) + |1 − µ|1 · P(X=1)
= t1 · (1 − t) + (1 − t)1 · t
3
= |0 − µ|2 · P(X=0) + |1 − µ|2 · P(X=1)
= t2 · (1 − t) + (1 − t)2 · t
= |0 − µ|3 · P(X=0) + |1 − µ|3 · P(X=1)
= t3 · (1 − t) + (1 − t)3 · t
=t
= 2t(1 − t)
= t(1 − t)
= tt̄(t2 + t̄2 )
Zum Vergleich: Auch E(X 2 ) − E(X)2 = t − t2 liefert die Varianz.
Die Ungleichungen von Chebychev
V122
Erläuterung
Sei X : Ω → R eine Zufallsvariable mit Erwartung µ = E(X).
Anschaulich gilt: Die Werte schwanken zufällig um µ, und große
Abweichungen vom Erwartungswert sind eher unwahrscheinlich.
Wie unwahrscheinlich? Wir fragen also nach P(|X − µ| ≥ c).
Die Ungleichung von Chebychev gibt eine bequeme Abschätzung!
Die Streuung σ misst hierzu die typische Breite der Verteilung.
Man muss hierbei über die Verteilung von X nichts weiter wissen
als ihren Erwartungswert µ = E(X) und ihre Varianz σ 2 = V(X)!
Dies sind daher die beiden wichtigsten Kenngrößen.
Selbst wenn man mehr weiß oder mehr herausfinden könnte,
die Chebychev–Abschätzungen sind unschlagbar einfach und
oft sehr nützlich als erste Überschlagsrechnung.
Anschließend werden wir den zentralen Grenzwertsatz V3A kennen
und nutzen lernen. Wenn der ZGS anwendbar ist, dann ermöglich er viel
präzisere Schätzungen. In diesen Fällen ist Chebychev vergleichsweise
grob und kann in Punkto Genauigkeit meist nicht konkurrieren.
Die Ungleichungen von Chebychev
V123
Satz V1G (Chebychev 1867)
Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable
mit Erwartungswert µ = E(X) und Varianz σ 2 = E (X − µ)2 .
Für alle k > 0 gelten universelle „worst case“ Abschätzungen:
1
P |X − µ| ≥ kσ
≤
,
k2
1
P X ≥ µ + kσ
≤
,
1 + k2
Die erste Ungleichung lässt sich umformulieren und verallgemeinern:
1
P µ − kσ < X < µ + kσ
≥ 1− 2
k
4(hk − 1)
P µ − hσ < X < µ + kσ
≥
.
(h + k)2
Wenn man nur µ und σ kennt, dann sind diese Ungleichungen optimal.
Typische Anwendungen zu Chebychev
V124
Aufgabe: Was sagt Chebychev für folgende typische Abschätzungen?
P |X − µ| ≥ 1σ)
≤
1/1
= 100%
= 25%
P |X − µ| ≥ 3σ)
≤
1/4
≤
1/9
≤
1/16
≈ 11%
≈ 6%
P X ≥ µ + 1σ)
≤
1/2
= 50%
= 20%
P X ≥ µ + 3σ)
≤
1/5
≤
1/10
= 10%
≤
1/17
≈ 6%
P |X − µ| ≥ 2σ)
P |X − µ| ≥ 4σ)
P X ≥ µ + 2σ)
P X ≥ µ + 4σ)
Große Abweichungen vom Erwartungswert sind unwahrscheinlich.
Diese Abschätzungen sind grob, dafür aber universell einsetzbar.
Die erste Abschätzung ist trivialerweise immer richtig aber nie hilfreich.
Mindestens 3/4 der Wkt liegt in der 2σ–Umgebung [µ − 2σ, µ + 2σ].
Mindestens 8/9 der Wkt liegt in der 3σ–Umgebung [µ − 3σ, µ + 3σ].
Für Normalverteilungen gilt die genauere 68–95–99–Regel U236 .
Die beidseitige Chebychev–Abschätzung
V125
Erläuterung
Die beidseitige Chebychev–Ungleichung ist äquivalent zu:
P |X − µ| ≥ c
≤
σ2
c2
Aufgabe: Man überprüfe sie für folgende Verteilung. Ist sie scharf?
p/2
−c
Wkt
1−p
p/2
+c
0
Lösung: Es gilt µ = 0 und σ 2 = c2 p. Die Ungleichung ist scharf:
p = P |X − µ| ≥ c
≤
σ2
=p
c2
Die Abschätzung ist meist grob, dafür aber universell einsetzbar.
Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt.
Die einseitige Chebychev–Abschätzung
V126
Erläuterung
Die einseitige Chebychev–Ungleichung ist für a < µ < b äquivalent zu
P X≤a ≤
1
2
1 + ( a−µ
σ )
bzw.
P X≥b ≤
1
2
1 + ( b−µ
σ )
.
Aufgabe: Man überprüfe sie für folgende Verteilung. Sind sie scharf?
Wkt
q = 4/5
p = 1/5
a = −1/2
b=2
Lösung: Hier gilt µ = 0 und σ 2 = 1. Die Ungleichungen sind scharf:
q=P X≤a
≤
4
1
=
2
1+a
5
bzw.
p=P X≥b ≤
1
1
= .
2
1+b
5
Die Abschätzung ist meist grob, dafür aber universell einsetzbar.
Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt.
Anwendungsbeispiel zu Chebychev
V127
Aufgabe: Für eine Klausur sind n = 320 Teilnehmer angemeldet.
Jeder davon tritt nur mit Wahrscheinlichkeit t = 0.8 tatsächlich an.
Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt)
Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also
µ = nt = 256,
σ 2 = nt(1 − t) = 51.2,
σ ≈ 7.2
Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch
1
45
P T ≥ 301 = P T − 256 ≥ 45 ≤ 1+k
mit k = 7.2
≈ 6.22.
2 / 2.5%
Die Schätzung 3% ist deutlich zu hoch, dafür aber bequem zu berechnen. Wir wissen über T
noch viel mehr als nur µ und σ: Wir kennen die gesamte Verteilung. Die Binomialverteilung
B(n, t) erlaubt dank lokalem Grenzwertsatz eine wesentlich genauere Abschätzung:
´∞
LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 10−5 ,
Approximationsfehler: |δ| < 1/(6σ) < 0.023, insgesamt Wkt < 2.3%.
Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.9 · 10−12 .
Anwendungsbeispiel zu Chebychev
V128
Aufgabe: Angenommen, im obigen Beispiel gilt n = 320 und t = 0.9.
Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt)
Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also
µ = nt = 288,
σ 2 = nt(1 − t) = 28.8,
σ ≈ 5.4
Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch
1
13
mit k = 5.4
≈ 2.33.
P T ≥ 301 = P T − 288 ≥ 13 ≤ 1+k
2 / 15%
Diese Größenordnung ist alarmierend: Wir sollten einen größeren Hörsaal buchen — oder
genauer hinschauen! Die Binomialverteilung erlaubt eine wesentlich genauere Abschätzung:
´∞
LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 0.01,
Approximationsfehler: |δ| ≤ 1/(6σ) < 0.04, insgesamt Wkt < 5%.
Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.00684.
Die Ungleichung von Chebychev ist vor allem in Situationen nützlich, in denen wir über die
Verteilung wenig wissen (z.B. nur µ und σ) aber die Wahrscheinlichkeit großer Abweichungen
abschätzen wollen. In obigen Beispielen kennen wir die Verteilung sogar genau. Der lokale
Grenzwertsatz und die Tabelle der Normalverteilung liefern hier präzisere Abschätzungen.
Beweis der beidseitigen Chebychev–Abschätzung
V129
Erläuterung
Chebychev gilt nicht nur für die Varianz, sondern für alle Momente!
Nachrechnen: Die Zufallsvariable X zentrieren wir zu Z := X − µ.
Das n–te Moment ist ρn = E(|Z|n ). Für n = 2 ist dies die Varianz.
Wir vergleichen Z mit der einfachen, zweiwertigen Zufallsvariablen
(
c falls |Z(ω)| ≥ c,
Y = c I{|Z|≥c} , also Y (ω) =
0 falls |Z(ω)| < c.
Es gilt |Z| ≥ Y . Dank Monotonie der Erwartung folgt
ρn = E(|Z|n ) ≥ E(Y n ) = cn · P |X − µ| ≥ c .
Wir erhalten hieraus die gewünschte Abschätzung
P |X − µ| ≥ c
≤
ρn
.
cn
Für n = 2 und c = kσ ist dies die beidseitige Chebychev–Ungleichung.
Beweis der einseitigen Chebychev–Abschätzung
V130
Erläuterung
Als Hilfsmittel zeigen wir zunächst die Markov–Ungleichung:
Sei Y : Ω → [0, ∞] eine nicht-negative Zufallsvariable.
Für alle b > 0 gilt dann die Abschätzung P(Y ≥ b) ≤ E(Y )/b.
Beweis: Es gilt Y ≥ b I{Y ≥b} , also E(Y ) ≥ bP(Y ≥ b).
Beweis der einseitigen Chebychev–Abschätzung:
Wir zentrieren die Zufallsvariable X zu Z := X − µ.
Für alle t ∈ R mit t + b > 0 gilt dann:
P[Z ≥ b] = P[Z + t ≥ b + t]
≤ P[(Z + t)2 ≥ (b + t)2 ]
≤ E((Z + t)2 ) / (b + t)2
=
σ 2 + t2
(b + t)2
Die zweite Ungleichung ist die Markov–Ungleichung. Sie gilt für alle t
mit t + b > 0. Wir wählen t so, dass die rechte Seite minimal wird:
Für t = σ 2 /b und b = kσ erhalten wir die gewünsche Ungleichung.
Die asymmetrische Chebychev–Abschätzung
V131
Erläuterung
Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu:
4 (b − µ)(µ − a) − σ 2
P a<X<b
≥
,
(b − a)2
σ 2 + (m − µ)2
P |X − m| ≥ c
≤
.
c2
Zur Umformulierung setzt man m = (a + b)/2 und c = (b − a)/2.
Für m = µ ergibt sich die symmetrische Chebychev–Ungleichung.
Auch diese Abschätzung
p lässt sich nicht verbessern.
pObiges Beispiel:
Zu 0 < t < 1 sei b = (1 − t)/t) und a = −1/b = − t/(1 − t) sowie
P(X=a) = 1 − t und
P(X=b) = t.
Es gilt E(X) = a(1 − t) + bt = 0 und V(X) = a2 (1 − t) + b2 t = 1.
In diesem Beispiel sind die obigen Ungleichungen scharf.
Die asymmetrische Chebychev–Abschätzung
V132
Erläuterung
Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu:
4 (b − µ)(µ − a) − σ 2
P a<X<b
≥
.
(b − a)2
Kennen wir die Verteilung von X, so können wir genauer rechnen!
Ist X ∼ B(n, t) binomialverteilt, so können wir den LGS nutzen:
ˆ (b+1/2−µ)/σ −ξ2 /2
b X
n k
e
n−k
√
P a≤X≤b =
t (1 − t)
≈
dξ
k
2π
(a−1/2−µ)/σ
k=a
Ist X = X1 + · · · + Xn die Summe vieler unabhängiger Beiträge,
so ist X dank ZGS annähernd normalverteilt, PX ≈ N (µ, σ 2 ), das heißt:
ˆ (b−µ)/σ −ξ2 /2
e
√
P a≤X≤b ≈
dξ
2π
(a−µ)/σ
Diese Näherungen sind meist recht gut – und genauer als Chebychev.
Ziel dieses Kapitels ist der ZGS, um dies allgemein nutzen zu können.
Produktwahrscheinlichkeit
V201
Erläuterung
Wir beschreiben die Durchführung unabhängiger Experimente
durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ).
Der Produktraum (Ω, A , P) nutzt das kartesische Produkt
Ω = Ω1 × · · · × Ωn = (ω1 , . . . , ωn ) ω1 ∈ Ω1 , . . . , ωn ∈ Ωn .
Die Ereignismenge A = A1 ⊗ · · · ⊗ An wird erzeugt von Produkten
A = A1 × · · · × An
mit
A1 ∈ A 1 , . . . , A n ∈ A n .
Das Produktmaß P = P1 ⊗ · · · ⊗ Pn : A → [0, 1] ist definiert durch
P(A1 × · · · × An ) = P1 (A1 ) · · · Pn (An ).
Wir erhalten den WRaum (Ω, A , P) durch eindeutige Fortsetzung.
Für diskrete WRäume haben wir dies bereits gesehen und genutzt.
??
Sind P1 , . . . , Pn kontinuierliche WMaße auf R mit Dichten f1 , . . . , fn ,
dann ist das Produktmaß P auf Rn kontinuierlich und hat die Dichte
f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ).
Unabhängige Zufallsvariablen
V202
Zwei Zufallsvariablen X, Y sind unabhängig, wenn das Ergebnis
von X nicht die Wkten von Y beeinflusst, und umgekehrt. Beispiel:
Die gemeinsame Verteilung von (X, Y ) : Ω → R2 sei wie skizziert.
Y
Y
1/2
abhängig
1/2
unabhängig
X
1/2
1/2
X
Die Skizze zeigt die Gleichverteilung auf den Mengen Q, R ⊂ R2 mit
Q = ([0, 1] × [0, 1]) ∪ ([2, 3] × [2, 3]), R = ([0, 1] × [0, 1]) ∪ ([2, 3] × [0, 1]).
Unabhängige Zufallsvariablen
V203
Zwei Zufallsvariablen X1 , X2 sind unabhängig, wenn das Ergebnis von
X1 nicht die Wkten von X2 beeinflusst. Dies präzisieren wir wie folgt:
Definition V2A (Unabhängigkeit von Zufallsvariablen)
Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt
(stochastisch) unabhängig, wenn für alle Intervalle I1 , . . . , In ⊂ R gilt
P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ).
Anders gesagt, die Ereignisse X1 ∈ I1 , . . . , Xn ∈ In sind unabhängig,
das heißt A1 , . . . , An ⊂ Ω mit Ak = { ω ∈ Ω | Xk (ω) ∈ Ik } = Xk−1 (Ik ).
Unabhängigkeit der X1 , . . . , Xn entspricht somit dem Produktmaß:
P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn
In Worten: Die gemeinsame Verteilung ist die Produktverteilung.
Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn ,
so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte
f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ).
Zweidimensionale Normalverteilung
1 −2x
f (x, y) = 2π
e
= ϕ(2x) · ϕ(y/2)
2 +y 2 /8
V204
X, Y sind unabhängig!
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0
−3
−2
0
−1
0
x
1
2
3
−1
−2
−3
1
y
2
3
Zweidimensionale Normalverteilung
1 −(x+y)
f (x, y) = 2π
e
6= f1 (x) · f2 (y)
2 −(x−y)2 /16
V205
X, Y sind abhängig!
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0
−3
−2
0
−1
0
x
1
2
3
−1
−2
−3
1
y
2
3
Beispiel zur Unabhängigkeit
V206
Erläuterung
Aufgabe: (1) Wann sind die Indikatorfunktionen IA , IB zweier Ereignisse
A, B ⊂ Ω unabhängig? (2) Wann gilt E(IA · IB ) = E(IA ) · E(IB )?
Lösung: (1) Sei A ⊂ Ω ein Ereignis und IA seine Indikatorfunktion,
(
1 falls ω ∈ A,
IA : Ω → R, IA (ω) =
0 falls ω ∈
/ A.
Unabhängigkeit von IA und IB bedeutet vier äquivalente Bedingungen:
!
P(IA =1, IB =1) = P(A ∩ B)
=
P(IA =1, IB =0) = P(A ∩ B)
=
P(IA =0, IB =1) = P(A ∩ B)
=
P(IA =0, IB =0) = P(A ∩ B)
=
!
!
!
P(IA =1) P(IB =1) = P(A) P(B)
P(IA =1) P(IB =0) = P(A) P(B)
P(IA =0) P(IB =1) = P(A) P(B)
P(IA =0) P(IB =0) = P(A) P(B)
Dies ist äquivalent zur Unabhängigkeit der Ereignisse A und B!
S217
Beispiel zur Unabhängigkeit
V207
Erläuterung
(2) Die Indikatorfunktion IA nimmt nur die beiden Werte 0 und 1 an:
P(IA =1) = P(A) und
Demnach ist ihr Erwartungswert
P(IA =0) = 1 − P(A)
E(IA ) = P(A).
Für das Produkt von IA und IB gilt
IA · IB = IA∩B .
Wir vergleichen schließlich, wie in der Aufgabenstellung gefragt, den
Erwartungswert des Produkts mit dem Produkt der Erwartungswerte:
E(IA · IB )
E(IA ) · E(IB )
= E(IA∩B )
= P(A ∩ B),
= P(A) · P(B).
Gleichheit links ist demnach äquivalent zu Gleichheit rechts:
Die Zufallsvariablen IA , IB : Ω → R sind genau dann unabhängig V203 ,
wenn die betrachteten Ereignisse A, B ⊂ Ω unabhängig sind S217 .
Nur dann ist die Erwartung multiplikativ, E(IA · IB ) = E(IA ) · E(IB ).
Erwartungswert und Varianz
V208
Aufgabe: Gilt E(X + Y ) = E(X) + E(Y ) für alle Zufallsvariablen X, Y ?
und E(X · Y ) = E(X) · E(Y )? und V(X + Y ) = V(X) + V(Y )?
Lösung: (1) Ja! Dank Linearität des Integrals gilt stets
ˆ
ˆ
ˆ
X + Y dP =
X dP +
Y dP = E(X) + E(Y ).
E(X + Y ) =
Ω
Ω
Ω
(2) Nein! Gegenbeispiel: Für X : Ω → {±1} mit P(X = ±1) = 1/2 gilt
E(X · X) = E(1) = 1
6=
0 = E(X) · E(X).
Die Erwartungswerte multiplizieren sich im Allgemeinen nicht!
Allgemein: Die Varianz ist V(X) = E(X 2 ) − E(X)2 ≥ 0 und i.A. > 0.
Alternativ: E(IA · IB ) = E(IA ) · E(IB ) gilt nur für unabhängige A, B.
(3) Nein! Für jede Zufallsvariable X : Ω → R mit V(X) > 0 gilt
V(X + X) = V(2X) = 4V(X)
6=
V(X) + V(X).
Die Varianzen addieren sich im Allgemeinen nicht!
Erwartungswert und Varianz bei Unabhängigkeit
V209
Satz V2B (Fubini für unabhängige Zufallsvariablen)
(1) Sind X, Y unabhängige Zufallsvariablen, dann gilt dank Fubini
E(X · Y ) = E(X) · E(Y ).
(2) Varianzen unabhängiger Zufallsvariablen addieren sich:
V(X + Y ) = V(X) + V(Y ).
Nachrechnen: (1) Unabhängigkeit bedeutet P(X,Y ) = PX ⊗ PY , also:
Def ´
Prod ´ ´
E X ·Y
= R2 xy dP(X,Y )
= R R xy dPX dPY
´
´
Lin ´
Lin ´
= R R x dPX y dPY = R x dPX · R y dPY = E(X) · E(Y )
(2) Nach Zentrierung können wir E(X) = E(Y ) = 0 annehmen. Dann:
= E X 2 + 2XY + Y 2
V(X + Y ) = E (X + Y )2
= V(X) + 2E(X)E(Y ) + V(Y )
= V(X) + V(Y )
Anwendung: Varianz der Binomialverteilung
V210
Aufgabe: Man berechne Erwartungswert und Varianz des Münzwurfs
B(1, t) und hiermit (möglichst geschickt) der Binomialverteilung B(n, t).
Lösung: Seien X1 , . . . , Xn : {0, 1}n → R unabhängig B(1, t)–verteilt:
P(Xk =1) = t und
P(Xk =0) = 1 − t.
Der Erwartungswert ist E(Xk ) = t und die Varianz V(Xk ) = t(1 − t).
Die Trefferzahl bei n Versuchen ist ihre Summe
S = X1 + · · · + Xn .
Sie ist B(n, t)–verteilt. Dank Linearität gilt E(S) = nE(X) = nt.
Dank Unabhängigkeit gilt zudem V(S) = nV(X) = nt(1 − t).
Man vergleiche dies mit der direkten, längeren Rechnung! U209
Mit den Begriffen und Techniken dieses Kapitels wird’s ein Zweizeiler.
Das Gesetz der großen Zahlen
V211
Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen,
Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0.
Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400
durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den
n
1X
Messung
=
57.5
Stichprobenmittelwert: x̂ :=
xk
n
k=1
Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10.
Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ?
I1 = [57, 58],
I2 = [56.5, 58.5],
I3 = [56, 59],
Ik = [57.5 ± 0.5k]
Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw.
αk ≥ 99% den Erwartungswert µ? Was sagt Chebychev? (später ZGS)
Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist,
diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂.
Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine
neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm
verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir?
Das Gesetz der großen Zahlen
V212
Lösung: Die Messung wird beschrieben durch X : Ω → R
mit Erwartungswert µ = E(X) und Varianz σ 2 = V(X), 0 < σ < ∞.
Aus unabhängigen Wiederholungen X1 , X2 , X3 , . . . , Xn bilden wir den
1
Mittelwert X̂ :=
X1 + · · · + Xn .
n
Dank Linearität gilt E(X̂) = E(X) und dank Unabhängigkeit zudem
1
1
1
V(X̂) = 2 V(X1 + · · · + Xn ) = 2 V(X1 ) + · · · + V(Xn ) = V(X).
n
n
n
√
√
Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5.
Für unsere Intervalle gelten die Chebychev–Abschätzungen:
α1 ≥ 1 − 1/12 = 0,
α3 ≥ 1 − 1/32 > 88%,
α10 ≥ 1 − 1/102 ≥ 99%,
α2 ≥ 1 − 1/22 ≥ 75%,
α5 ≥ 1 − 1/52 ≥ 96%,
αk ≥ 1 − 1/k 2 .
Diese genial-einfache Idee arbeiten wir im Rest des Kapitels aus!
Ziel sind schärfere Abschätzungen und somit genauere Intervalle.
Das Gesetz der großen Zahlen
V213
Dieses Argument und die Rechnung sind allgemein anwendbar.
Da sie häufig gebraucht werden, halten wir diese Regel als Satz fest:
Satz V2C (Gesetz der großen Zahlen)
Der empirische Mittelwert X̂ nähert sich dem Erwartungswert µ:
√
√
(1) Seine Streuung σ(X̂) = σ(X)/ n → 0 fällt wie 1/ n für n → ∞.
(2) Abweichung um ε > 0 werden beliebig unwahrscheinlich gemäß
σ2
≤
P X̂ − µ ≥ ε
→ 0.
n ε2
Das erklärt, warum man Messungen unabhängig wiederholt, um die Genauigkeit zu verbessern!
Das Gesetz der großen Zahlen erklärt insbesondere, wie man Wahrscheinlichkeiten messen kann:
Die Indikatorfunktion X = IA zählt das Eintreten des Ereignisses A. (Beim Würfeln sei zum
Beispiel X = 1 falls eine 6 gewürfelt wird und X = 0 sonst.) Der Mittelwert X̂ ist dann die
relative Häufigkeit nach n Versuchen und konvergiert gegen µ = E(X) = P(A).
In praktischen Anwendungen will man n nicht allzu groß wählen,
denn wiederholte Messungen sind teuer. Wir brauchen daher bessere
Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS!
Motivation zum zentralen Grenzwertsatz
V301
Anwendung: Jede Messung Xk ist zufälligen Fehlern unterworfen.
Sie habe Erwartungswert µk = E(Xk ) und Varianz σk2 = E(Xk2 ) > 0.
Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn .
Bei Unabhängigkeit addieren sich die Varianzen σ 2 = σ12 + · · · + σn2 .
Typischerweise ähnelt die Verteilung von S der Normalverteilung:
S ∼ PS
P(a ≤ S ≤ b)
≈
≈
N (µ, σ 2 ),
ˆ
(b−µ)/σ
(a−µ)/σ
das heißt ausgeschrieben
2
e−ξ /2
√
dξ
2π
=
h i(b−µ)/σ
Φ
(a−µ)/σ
Das ist eine enorme Vereinfachung: Die Verteilung von S ist kompliziert
und i.A. unbekannt, die Normalverteilung hingegen ist explizit & leicht!
Die Normalverteilung entsteht, egal welche Verteilungen die Xk haben!
Aufgabe: Illustrieren Sie dies numerisch für Würfelsummen.
Wie gut ist die Approximation für festes n? Wie groß ist der Fehler δ?
Gilt δ → 0 für n → ∞? Das ist Inhalt des zentralen Grenzwertsatzes!
Augenzahl bei einmaligen Würfeln
N (µ, σ 2 )
Würfeln
0.20
Wahrscheinlichkeit
V302
0.15
0.10
0.05
0
1
2
3
4
5
Augenzahl beim Würfen
6
Die Augenzahl hat Erwartung µ = 7/2 und Varianz σ 2 = 35/12.
Augensumme bei zweimaligem Würfeln
N (2µ, 2σ 2 )
Würfeln
0.15
Wahrscheinlichkeit
V303
0.10
0.05
0
2
3
4
5
6
7
8
9
10 11 12
Augensumme bei zwei unabhängigen Würfen
Die Augensumme hat Erwartung 2µ = 7 und Varianz 2σ 2 = 35/6.
Augensumme bei dreimaligem Würfeln
V304
Wahrscheinlichkeit
N (3µ, 3σ 2 )
Würfeln
0.10
0.05
0
3
4
5 6 7 8 9 10 11 12 13 14 15 16 17 18
Augensumme bei drei unabhängigen Würfen
Dank Linearität addieren sich die Erwartungswerte.
Augensumme bei viermaligem Würfeln
N (4µ, 4σ 2 )
Würfeln
0.10
Wahrscheinlichkeit
V305
0.05
0
4
6
8
10 12 14 16 18 20 22
Augensumme bei vier unabhängigen Würfen
Dank Unabhängigkeit addieren sich auch die Varianzen.
24
Augensumme bei zehnmaligem Würfeln
N (10µ, 10σ 2 )
Würfeln
0.07
Wahrscheinlichkeit
V306
0.06
0.05
0.04
0.03
0.02
0.01
0
20
25
30
35
40
45
50
Augensumme bei zehn unabhängigen Würfen
Große Zahlen: Die Verteilung von X̂ konzentriert sich um µ.
Augensumme bei hundertmaligem Würfeln
N (100µ, 100σ 2 )
0.020
0.015
0.010
0.005
0
200
250
300
350
400
450
500
Augensumme bei hundert unabhängigen Würfen
Grenzwertsatz: Die Verteilung nähert sich der Normalverteilung!
V307
Augenzahl bei einmaligem Würfeln
Wahrscheinlichkeit
0.2
V308
fair
gezinkt
0.15
0.1
0.05
0
1
2
3
4
5
Augenzahl beim Würfen
6
Gezinkt ist die Erwartung µ2 = 3.65 etwas größer als fair µ1 = 3.5.
Augensumme bei zweimaligem Würfeln
fair
gezinkt
0.15
Wahrscheinlichkeit
V309
0.10
0.05
0
2
3
4
5
6
7
8
9
10 11 12
Augensumme bei zwei unabhängigen Würfen
Auch die Varianz σ22 = 3.0275 ist etwas größer als σ12 = 2.9167.
Augensumme bei dreimaligem Würfeln
V310
Wahrscheinlichkeit
fair
gezinkt
0.10
0.05
0
3
4
5 6 7 8 9 10 11 12 13 14 15 16 17 18
Augensumme bei drei unabhängigen Würfen
Dank Linearität addieren sich die Erwartungswerte.
Augensumme bei viermaligem Würfeln
fair
gezinkt
0.10
Wahrscheinlichkeit
V311
0.05
0
4
6
8
10 12 14 16 18 20 22
Augensumme bei vier unabhängigen Würfen
Dank Unabhängigkeit addieren sich auch die Varianzen.
24
Augensumme bei hundertmaligem Würfeln
0.020
V312
fair
gezinkt
0.015
0.010
0.005
0
300
350
400
Augensumme bei hundert unabhängigen Würfen
Zur Vereinfachung zeichne ich hier nicht mehr die Einzelwkten.
Augensumme bei tausendmaligem Würfeln
V313
fair
gezinkt
0.007
0.006
0.005
0.004
0.003
0.002
0.001
0
3300
3400
3500
3600
3700
3800
Augensumme bei tausend unabhängigen Würfen
Nach vielen Würfen unterscheiden sich beide Würfel deutlich.
Was sehen wir in diesen Beispielen?
V314
Erläuterung
Die Wahrscheinlichkeitsverteilung des Experiments Xk , hier Würfeln,
bestimmt die Erwartung µ = E(Xk ) und die Varianz σ 2 = V(Xk ).
Die Summe S = X1 + · · · + Xn von n unabhängigen Wiederholungen
hat dann Erwartung nµ und Varianz nσ 2 .
Sie ist nicht binomialverteilt,
also können wir den lokalen Grenzwertsatz U3A hier nicht anwenden.
Bei vielen Wiederholungen spielt die Ausgangsverteilung jedoch keine
Rolle: Es entsteht immer annähernd die Normalverteilung N (nµ, nσ 2 ).
Ihre universelle Rolle ist ein phantastisch nützliche Eigenschaft!
Man kann dies (etwas vage aber poetisch) auch wie folgt formulieren:
Im Kleinen, bei einzelnen Experimenten regiert der Zufall ungezügelt;
im Großen, bei vielen Experimenten muss er sich Gesetzen beugen.
Diese Gesetzmäßigkeit sollten Sie kennen und nutzen können.
„Nul n’est censé ignorer la loi.“ [Niemand darf das Gesetz ignorieren.]
Der zentrale Grenzwertsatz
V315
Erläuterung
Anschaulich besagt der zentrale Grenzwertsatz: Die Summe
vieler unabhängiger Zufallsvariablen ist annähernd normalverteilt.
Beispiel: Für unabhängige und identisch verteilte Zufallsvariablen
Xk : Ω → {0, 1} ist S = X1 + · · · + Xn binomialverteilt, S ∼ B(n, t).
Für diesem Spezialfall kennen wir den lokalen Grenzwertsatz U3A!
Im allgemeineren ZGS dürfen X1 , X2 , . . . , Xn beliebig verteilt sein.
Wir benötigen allerdings einige Vorsichtsmaßnahmen V409 :
1 Die Beiträge X1 , X2 , . . . , Xn sollen unabhängig sein.
Für S = X + X + · · · + X gilt der ZGS sicher nicht.
2 Die Beiträge X1 , X2 , . . . , Xn sollen alle etwas streuen.
Für S = 1 + 1 + · · · + 1 gilt der ZGS sicher nicht.
3 Die Beiträge X1 , X2 , . . . , Xn sollen „ähnlich groß“ sein.
Der folgende Satz (formuliert nach Berry 1941 und Esséen 1944)
präzisiert diese Voraussetzungen in Form des 2. und 3. Moments und
quantifiziert den Approximationsfehler durch eine explizite Schranke.
Allgemein gültige Näherung mit informativer Fehlerabschätzung!
Der zentrale Grenzwertsatz
V316
Satz V3A (zentraler Grenzwertsatz, ZGS)
Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit
µk = E(Xk ),
endlichen Erwartungen
σk2 = E |Xk − µk |2 ≥ σ02 > 0,
beschränkten dritten Momenten ρ3k = E |Xk − µk |3 ≤ ρ30 < ∞.
strikt positiven Varianzen
Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn
und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer:
ˆ
P(a ≤ S ≤ b)
(b−µ)/σ
=
(a−µ)/σ
2
e−ξ /2
√
dξ
2π
+
δ
und für den Approximationsfehler δ gilt die allgemeine Schranke
|δ|
≤
ρ31 + · · · + ρ3n
(σ12 + · · · + σn2 )3/2
≤
ρ30
√
σ03 n
→
0.
Alle drei Voraussetzungen werden wirklich gebraucht.
V409
Vergleich zwischen ZGS und LGS
V317
Aufgabe: Wer ist für X1 , . . . , Xn ∼ B(1, t) genauer: ZGS oder LGS?
Lösung: Aus Xk ∼ B(1, t) berechnen wir µk = t und σk2 = t(1 − t)
sowie ρ3k = t(1 − t)(t2 + (1 − t)2 ). Die Summe S = X1 + · · · + Xn ist
B(n, t)–verteilt mit µ = nt und σ 2 = nt(1 − t). Dann gilt exakt / approx.:
ˆ (b+1/2−µ)/σ −ξ2 /2
b X
n k
e
n−k
√
P(a ≤ S ≤ b) =
t (1 − t)
=
dξ + δ
k
2π
(a−1/2−µ)/σ
k=a
Für σ ≥ 5 ist der Approximationsfehler δ im LGS/ZGS beschränkt durch
LGS
|δ| <
ZGS
1
ρ30
t2 + (1 − t)2
1
1
p
√
= p
<
=
<p
3
6σ
σ0 n
6 nt(t − 1)
nt(t − 1)
nt(t − 1)
Der LGS liefert eine bessere Konstante: 1/6 ≤ 1/2 ≤ t2 + (1 − t)2 ≤ 1
Mit Korrekturterm κ sinkt der Fehler auf |ε| < 1/(3σ 2 ) = 1/[3nt(t − 1)].
Der lokale Grenzwertsatz ist spezieller, dabei aber auch präziser.
Wozu bzw. wann brauchen wir dann den zentralen Grenzwertsatz?
Der ZGS gilt nicht nur für S ∼ B(n, t), sondern ganz allgemein!
Vergleich zwischen ZGS und LGS
V318
Erläuterung
Der LGS nutzt die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen
zur genaueren Approximation. Der ZGS kennt diese Korrektur nicht:
Er gilt für kontinuierlich verteilte Zufallsvariablen ebenso wie für diskrete.
Aufgabe: Welcher Fehler entsteht hierdurch schlimmstenfalls?
Lösung: Für S ∼ B(n, t) und k = 0, 1, . . . , n gilt exakt und nach LGS
ˆ (k+1/2−µ)/σ −ξ2 /2
LGS
e
n k
√
dξ
P k≤S≤k
=
t (1 − t)n−k ≈
k
1
2π
(k− /2−µ)/σ
2
≈
e−(k−µ) /2σ
√
σ 2π
2
≤
1
p
2πnt(1 − t)
Man beachte die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen.
Andernfalls wäre die Approximation P k ≤ S ≤ k ≈ 0 völlig nutzlos.
Die obere Schranke erhält man für k = µ und nutzt σ 2 = nt(1 − t).
Hier nimmt die Normalverteilung (Glockenkurve) ihr Maximum an.
Vergleich zwischen ZGS und LGS
V319
Erläuterung
Der ZGS hingegen liefert ohne Stetigkeitskorrektur leider nur
ˆ (k−µ)/σ −ξ2 /2
ZGS
e
√
=
P k≤S≤k
dξ + δ = 0 + δ
2π
(k−µ)/σ
Dieses Integral verschwindet! Belügt uns der ZGS in diesem Fall?
Nein, er nützt nur nicht mehr viel, denn er besagt jetzt lediglich:
0
≤
P k≤S≤k =δ
≤
ρ30
√
3
σ0 n
Alles ist gut. Der Fehler δ bleibt unter der Fehlerschranke des ZGS:
t2 + (1 − t)2
1
1
ρ30
p
√
=
≥ p
≥p
≥δ≥0
σ03 n
nt(t − 1)
2 nt(1 − t)
2πnt(1 − t)
In solch extremen Fällen wird man den ZGS wohl kaum nutzen wollen.
Sie illustrieren jedoch eindrücklich, was schlimmstenfalls passiert.
Hier wird der ZGS missbraucht, aber dank δ bleibt alles richtig:
Die Approximation kann schlecht sein, die Fehlerschranke stimmt immer.
Summen gleichverteilter Zufallsvariablen
V320
Aufgabe: Wir betrachten unabhängige gleichverteilte Zufallsvariablen
X1 , X2 , X3 , . . . : Ω → [0, 1], das heißt PXk hat die Dichte f1 = I[0,1] .
Welche Verteilung hat Sn = X1 + · · · + Xn ? Bestimmen Sie die Dichte:
ˆ ∞
ˆ 1
fn (x) = (fn−1 ∗ f1 )(x) =
fn−1 (x − u)f1 (u) du =
fn−1 (x − u) du
−∞
0
Summen gleichverteilter Zufallsvariablen
V321
Erläuterung
Lösung: Die Summe Sn = X1 + · · · + Xn gleichverteilter ZVariablen ist
nicht gleichverteilt. Ihre Dichte fn ist stückweise polynomiell vom Grad
< n. Für x = k + t mit t ∈ [0, 1] und k = 0, 1, 2, . . . finden wir:
(
t
für k = 0,
f2 (k + t) =
1 − t für k = 1.

1 2

für k = 0,
2t
1
2
f3 (k + t) = 2 + t − t
für k = 1,

1
2
(1 − 2t + t ) für k = 2.
2
1 3

für k = 0,

6t


 1 (1 + 3t + 3t2 − 3t3 ) für k = 1,
f4 (k + t) = 61
2
3

für k = 2,

6 (4 − 6t + 3t )


 1 (1 − 3t + 3t2 − t3 ) für k = 3.
6
Die ersten Terme f1 , f2 , . . . , f5 sind in obiger Graphik dargestellt.
Summen gleichverteilter Zufallsvariablen
V322
Erläuterung
Die obige Verteilung der fünfachen Summe S5 ähnelt augenscheinlich
der Normalverteilung N (5/2, 5/12). Der Vergleich zeigt Abweichungen.
Nicht jede glockenähnliche Kurve ist eine Normalverteilung!
Die Zwölferregel ist eine einfache Methode, um näherungsweise
normalverteilte Zufallszahlen zu erzeugen: „Wählt man Zufallszahlen
X1 , . . . , X12 unabhängig und gleichverteilt im Intervall [−1/2, 1/2], so ist
ihre Summe S = X1 + · · · + X12 näherungsweise std-normalverteilt.“
Summen gleichverteilter Zufallsvariablen
V323
Erläuterung
Aufgabe: Berechnen Sie Erwartung µk = E(Xk ), Varianz σk2 = V(Xk )
und drittes Moment ρ3k = E(|Xk3 |) der Summanden. Welche Erwartung
und Varianz hat die Summe S? Welchen Träger hat PS ? und N (0, 1)?
Welche Fehlerschranke garantiert der ZGS zwischen PS und N (0, 1)?
Lösung: Es gilt µk = 1/2. Wir berechnen das n–te absolute Moment:
ˆ 1 ˆ 1/2 n
n+1 1/2
1 n
1
−2 1
2−n
x
−
dx
=
2
dx
=
=
−
x
−
x
2
n+1 2
n+1
x=0
x=0 2
x=0
Demnach gilt σk2 = 1/12 und ρ3k = 1/32. Die Summe S hat Erwartung
E(S) = 0 und Varianz V(S) = 1. Die Näherung ist recht brauchbar, doch
die pessimistische Fehlerschranke des ZGS garantiert nur |δ| ≤ 12/32.
(Der tatsächliche Fehler ist hier – dank Symmetrie – wesentlich kleiner.)
Die Polarmethode ist wesentlich genauer und effizienter, siehe
en.wikipedia.org/wiki/Marsaglia_polar_method: Sie erzeugt zwei
exakt normalverteilte Zufallszahlen durch den Gaußschen Kunstgriff.
Lobeshymne auf den zentralen Grenzwertsatz
V324
Erläuterung
In Natur- und Ingenieurwissenschaften, in Wirtschaft und Gesellschaft
treten zufällige Größen X auf. Sie sind meist unvermeidbar, genauere
Informationen sind oft zu teuer oder manchmal gar nicht zugänglich.
Die Stochastik liefert Werkzeuge zum sicheren Umgang mit unsicheren
Ergebnissen, allgemein zum rationalen Entscheiden unter Unsicherheit.
Hierzu ist es von zentraler Bedeutung, die Verteilung PX zu kennen.
Oft ist unsere Zufallsgröße S eine Summe zahlreicher kleiner Einflüsse,
die unabhängig voneinander wirken. Der zentrale Grenzwertsatz erklärt,
dass wir dann eine Normalverteilung erwarten dürfen, PS ≈ N (µ, σ 2 ).
Der Name des Satzes geht zurück auf George Pólyas Arbeit Über den
zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung von 1920.
Wie in der Mathematik üblich, geht man zum Grenzwert (Limes) über,
um die Ergebnisse bequem und übersichtlich formulieren zu können.
Im Satz V3A wird hierzu die Konvergenz in Verteilung formuliert.
Für praktische Anwendungen ist eine Fehlerschranke notwendig für
den Wechsel von PS zu N (µ, σ 2 ). Satz V3A stellt hierzu alles bereit.
Lobeshymne auf den zentralen Grenzwertsatz
V325
Erläuterung
Der zentrale Genzwertsatz ist ein phantastisches Ergebnis.
Er ist allgemein gültig und daher vielseitig anwendbar. Das ermöglicht die Modellierung,
Berechnung und Erklärung vieler stochastischer Phänomene, die uns täglich umgeben.
Implizit oder explizit wird er in praktisch allen naturwissenschaftlichen Modellen oder
industriellen Prozessen benutzt, in denen zufällige Schwankungen vorkommen.
Die Voraussetzungen des ZGS sind sehr allgemein und oft erfüllt.
Daher ist der ZGS nahezu überall anwendbar (anders als der LGS).
Zunächst setzen wir die Unabhängigkeit der Zufallsvariablen X1 , X2 , X3 , . . . voraus, was für
viele Anwendungen realistisch ist. (Man kann dies weiter abschwächen, und ein kontrolliertes
Maß an Abhängigkeit erlauben, aber dies würde uns hier zu weit vom Weg führen.)
Die vorausgesetzten Schranken σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen Grenzwertsatzes
V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . . ähnlich stark streuen. Andernfalls könnte
zum Beispiel X1 alle anderen Summanden X2 , X3 , . . . überwiegen, und in der Summe würde
keine Normalverteilung entstehen, sondern im Wesentlichen die Verteilung von X1 . V409
Eine allgegenwärtige Anwendung sind Konfidenzintervalle.
V336
Diese werden überall in Naturwissenschaft und Technik verwendet, um die Genauigkeit einer
Messung, Rechnung oder Spezifikation zu quantifizieren (Fehlerrechnung). Diese wichtige
Information muss man mindestens intuitiv passiv verstehen, meist auch präzise aktiv nutzen.
Lobeshymne auf den zentralen Grenzwertsatz
V326
Erläuterung
Sehr wenige Informationen reichen für den ZGS aus!
Für die Näherung genügen die Erwartungen µk und Varianzen σk2 , für die Fehlerschranke zudem
die dritten Momente ρ3k ≤ ρ30 , notfalls nach oben abgeschätzt. Das ist meist problemlos möglich.
Ein besonders wichtiger Spezialfall ist die unabhängige Wiederholung von Messungen bzw.
Experimenten: Hier sind die Zufallsvariablen X1 , . . . , Xn unabhängig und identisch verteilt,
insbesondere gilt für ihre Kenngrößen µk = µ0 , σk = σ0 , ρk = ρ0 für alle k = 1, . . . , n.
Zur Existenz dieser Integrale benötigen wir lediglich Xk ∈ L3 (Ω, R), denn L3 ⊃ L2 ⊃ L1 .
Der lokale Grenzwertsatz U3A ist bei Bedarf genauer: Dort geht es nur um Binomialverteilungen,
dafür liefert der LGS den nützlichen Korrekturterm κ und wesentlich schärfere Fehlerschranken.
Diese Verbesserung ist auch für den ZGS möglich und führt zur Edgeworth–Entwicklung mittels
höherer Momente. Der obige zentrale Grenzwertsatz ist die erste Näherung dieser Reihe.
Wir können den ZGS durch Fourier–Transformation nachrechnen.
Da wir die Fourier–Transformation aus Kapitel K bereits gut kennen, skizziere ich die Rechnung
im Anhang zu diesem Kapitel, ab Seite V518. Die Idee ist genial aber leicht zu verstehen!
Ohne die geforderten Momente gilt der ZGS im Allgemeinen nicht!
Wir finden auch einfache Gegenbeispiele, in denen der ZGS nicht anwendbar ist. V409
Die Cauchy–Verteilungen V525 zum Beispiel erfüllen nicht die Voraussetzungen des ZGS und
auch nicht seine Schlussfolgerung, denn sie konvergieren nicht gegen die Normalverteilung.
Lobeshymne auf den zentralen Grenzwertsatz
V327
Erläuterung
Der ZGS liefert eine explizite Fehlerschranke.
Der Grenzwertsatz in der Form PS ≈ N (µ, σ 2 ) oder besser PS → N (µ, σ 2 ) für n → ∞ ist
eine qualitative Aussage: Er garantiert die Konvergenz der Verteilungen, sagt aber noch nichts
über die Konvergenzgeschwindigkeit oder den Approximationsfehler für ein vorgegebenes n.
Oft verwendet man den ZGS nicht für n → ∞, sondern als PS ≈ N (µ, σ 2 ) für ein festes n.
Für konkrete Anwendungen ist dann wichtig zu wissen: Wie gut ist die Approximation?
Obige Formulierung von Berry–Esséen ist eine quantitative Präzisierung: Sie besagt, wie schnell
√
die Konvergenz ist (nämlich wie 1/ n → 0) und gibt sogar explizite Fehlerschranken an!
Der LGS gibt eine genauere Schranke; symmetrisch oder mit Korrekturterm sinkt der Fehler
√
sogar von |δ| ≤ const/ n auf |ε| ≤ const/n. Wenn im ZGS eine ähnliche Garantie nötig sein
sollte, müsste man genauere und umfangreichere Rechnungen anstrengen. Auch das kommt in
sicherheitskritischen Anwendungen vor. Hierzu existiert eine ausgedehnte Spezialliteratur.
Oft ist die Näherung besser als die pessimistische Fehlerschranke!
√
Die im zentralen Grenzwertsatz angegebene Fehlerschranke |δ| ≤ ρ30 /σ03 n ist ein bequemer
erster Schritt. In günstigen Fällen ist die Approximation tatsächlich besser, wie Beispiele zeigen.
√
Beispiele zeigen den asymptotischen Fehler |δ| ∼ const/ n. V417
Diese Fehlerschranke lässt sich also allgemein nicht verbessern.
Konfidenzintervalle
V328
Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen,
Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0.
Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400
durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den
n
1X
Messung
=
57.5
Stichprobenmittelwert: x̂ :=
xk
n
k=1
Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10.
Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ?
I1 = [57, 58],
I2 = [56.5, 58.5],
I3 = [56, 59],
Ik = [57.5 ± 0.5k]
Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw.
≥ 99% den Erwartungswert µ? Was sagt Chebychev? der ZGS?
Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist,
diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂.
Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine
neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm
verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir?
Konfidenzintervalle
V329
Lösung: Wir nutzen das Gesetz der großen Zahlen und den ZGS!
Der Mittelwert X̂ := n1 X1 + · · · + Xn unabhängiger Messungen
hat Erwartung E(X̂) = E(X) = µ und Varianz V(X̂) = V(X)/n.
√
√
Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5.
Chebychev liefert eine einfache aber leider grobe Abschätzung:
α1 ≥ 1 − 1/12 = 0,
α3 ≥ 1 − 1/32 > 88%,
α5 ≥ 1 − 1/52 ≥ 96%,
α2 ≥ 1 − 1/22 ≥ 75%,
α4 ≥ 1 − 1/42 > 93%,
α10 ≥ 1 − 1/102 ≥ 99%,
Dank ZGS gilt annähernd X̂ ∼ N (µ, σ 2 /n) mit besseren Schranken:
α1 > 68.26% − δ,
α2 > 95.44% − δ,
α5 > 99.99994% − δ,
α6 > 99.9999998% − δ.
α3 > 99.73% − δ,
α4 > 99.993% − δ,
Für die Normalverteilung gilt die 68–95–99–Regel U236 :
Schon das 2σ–Intervall genügt für 95%ige Sicherheit!
Beispiel: Meinungsforschung
V330
Erinnerung
Eine Wahl mit über 5 000 000 Stimmberechtigten steht bevor.
Der Stimmanteil p ∈ [0.02, 0.98] einer Partei soll geschätzt werden.
Hierzu werden n zufällige Personen befragt; die Schätzung soll mit
Wahrscheinlichkeit ≥ 95% bis auf einen Fehler von ≤ 0.01 genau sein.
Aufgabe: Wieviele Personen sollten hierfür befragt werden?
Lösung: Sicherheit 95% garantieren wir mit einer 2σ–Umgebung.
Für den empirischen Mittelwert X̂ = (X1 + · · · + Xn )/n gilt
V(X̂) =
1
p(1 − p)
1
V(X) =
≤
,
n
n
4n
1
σ(X̂) ≤ √ .
2 n
Wir wollen eine Genauigkeit von 2σ(X̂) ≤ 0.01. Hierzu genügt
1 !
2σ(X̂) ≤ √ ≤ 0.01,
n
also n ≥ 10 000.
Die detaillierte Rechnung haben wir bereits im letzten Kapitel U
mit dem LGS und allen Fehlerabschätzungen ausgeführt. ??
Mit den Techniken dieses Kapitels wird’s ein Zweizeiler.
Beispiel: Wareneingangsprüfung
V331
Erläuterung
Ihr Zulieferer schickt Ihnen N = 6000 Bauteile (z.B. Temperaturfühler).
Als Eingangsprüfung nehmen Sie eine Stichprobe von n = 200 Teilen
und prüfen die vereinbarten Anforderungen; k = 10 Stück fallen durch.
Aufgabe: Wie viele Teile von den 6000 sind fehlerhaft? Geben Sie ein
Intervall an, das den wahren Wert mit 95%iger Sicherheit überdeckt.
(Für einen analogen aber einfacheren Hypothesentest siehe T339 .)
Lösung: Wir schätzen den Anteil fehlerhafter Teile auf t = k/n = 5%.
Das entspräche K = N t = 300 Teilen in der gesamten Lieferung.
Wie gut ist diese Schätzung? Einzelprüfung: σ 2 (X) = t(1 − t) ≤ 0.08.
Stichprobe: σ 2 (X̂) ≤ 0.08/200 = 0.0004, Streuung σ(X̂) ≤ 0.02.
Das 2σ–Intervall um unsere Schätzung ist demnach:
Anteil t ∈ [0.01, 0.09],
absolut K ∈ [60, 540]
Die Wareneingangsprüfung obliegt dem Käufer (§377 HGB). Hierzu gibt es normierte Methoden.
Die Norm ISO2859 etwa beschreibt ein statistisches Qualitätsprüfungsverfahren für attributive
Merkmale („in Ordnung“ / „nicht in Ordnung“). Sie wurde 1974 eingeführt und basiert auf dem
Standard der amerikanischen Streitkräfte zur Qualitätsprüfung der anzukaufenden Ausrüstung.
Konfidenzintervalle
V332
Erläuterung
Problem: Jede Messung unterliegt zufälligen Störungen,
wir betrachten sie daher als eine Zufallsvariable X : Ω → R.
Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0.
Die Erwartung µ und die Verteilung von X sind jedoch unbekannt.
Das Ziel der Messung ist meist, µ möglichst genau zu bestimmen.
Annahme: Die Messung lässt sich beliebig, unabhängig wiederholen.
Wir erhalten unabhängige Zufallsvariablen X1 , X2 , . . . verteilt wie X.
Wir können den Erwartungswert µ durch eine Stichprobe schätzen!
n
1X
Xk
Schätzfunktion X̂ :=
n
k=1
ZGS hilft: X̂ ist annähernd normalverteilt, kurz X̂ ∼ N (µ, σ 2 /n).
Für große n spielt die genaue Verteilung von X keine Rolle mehr!
Für den zentralen Grenzwertsatz müssen wir nur µ und σ kennen!
Dieses Ergebnis hat ungemein praktische Konsequenzen. . .
Konfidenzintervalle
V333
Erläuterung
Anwendung: Aus Messwerten x1 , . . . , xn ∈ R bilden wir den
n
Stichprobenmittelwert x̂ :=
1X
xk .
n
k=1
Dieser wird meist vom Erwartungswert µ = E(X) abweichen!
Als 2σ–Konfidenzintervall dieser Stichprobe bezeichnet man
√
√
I2 =
x̂ − 2σ/ n, x̂ + 2σ/ n .
Wie x̂ ist auch das Intervall I2 zufälligen Schwankungen untworfen.
Mit 95% Wkt überdeckt dieses Intervall den Erwartungswert µ.
Problem: Wie die Erwartung µ ist auch die Streuung σ unbekannt.
Lösung: Wir schätzen die Varianz σ 2 durch die (korrigierte)
n
Stichprobenvarianz σ̂ 2 =
1 X
(xk − x̂)2 .
n−1
k=1
Der korrigierte Nenner n − 1 sichert Erwartungstreue: E(σ̂ 2 ) = σ 2 .
Für große n ist der Unterschied zwischen n und n − 1 unerheblich.
Konfidenzintervalle: erwartungstreue Schätzer
V334
Erläuterung
Wir rechnen nach: Der Schätzer X̂ für µ ist erwartungstreu, denn
X
n
n
1X
1
1
Xk =
E(Xk ) = nµ = µ
E(X̂) = E
n
n
n
k=1
k=1
Ist der Erwartungswert µ bekannt, so schätzen wir die Varianz σ durch
n
S02
2
1X
:=
Xk − µ .
n
k=1
Für den Erwartungswert von
E(S02 ) =
S02
gilt dann tatsächlich
n
n
k=1
k=1
1X
1
1X
E (Xk − µ)2 =
V(Xk ) = nσ 2 = σ 2 .
n
n
n
Ist µ unbekannt, so würde man zunächst folgendes versuchen:
n
S12
2
1X
:=
Xk − X̂ .
n
k=1
Dies nennt man die unkorrigierte Stichprobenvarianz.
Konfidenzintervalle: erwartungstreue Schätzer
V335
Erläuterung
Den Erwartungswert von S12 rechnen wir wie folgt nach:
n
n
2
1X
1X
S12 =
(Xk − X̂)2 =
(Xk − µ) − (X̂ − µ)
n
n
k=1
k=1
X
X
n
n
1
1
2
=
(Xk − µ) − 2
(Xk − µ)(X̂ − µ) + (X̂ − µ)2
n
n
k=1
k=1
X
n
1
(Xk − µ)2 − (X̂ − µ)2
=
n
k=1
Somit gilt E(S12 ) = V(X) − V(X̂) = σ 2 − σ 2 /n = σ 2 · (n − 1)/n.
Als Schätzer nimmt man daher die korrigierte Stichprobenvarianz
n
2
1 X
2
S :=
Xk − X̂ .
n−1
k=1
Dieser Schätzer ist nun erwartungstreu, das heißt E(S 2 ) = σ 2 .
Das Gesetz der großen Zahlen V2C garantiert die Konvergenz
X̂ → E(X̂) = µ
und S 2 → E(S 2 ) = σ 2
für n → ∞.
Konfidenzintervalle
V336
Satz V3B (Konfidenzintervalle)
Als Stichprobe für X führen wir n unabhängige Messungen aus.
Aus den so gewonnenen Messwerten x1 , . . . , xn ∈ R berechnen wir
n
den Stichprobenmittelwert
1X
x̂ :=
xk ,
n
k=1
n
die Stichprobenvarianz
σ̂ 2 :=
1 X
(xk − x̂)2 ,
n−1
I2 :=
h
k=1
das 2σ–Konfidenzintervall
σ̂
σ̂ i
x̂ − 2 √ , x̂ + 2 √ .
n
n
Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2
den (konstanten aber uns unbekannten) Erwartungswert µ = E(X).
Ein wunderbar praktischer Satz! Mit kleinem Schönheitsfehler:
Was genau bedeutet „große n“? Als Faustregel gilt schon n = 30 als
groß genug. Bei ungünstiger Verteilung von X ist größeres n nötig.
Konfidenzintervalle
V337
Ergänzung
Das 2σ–Intervall liefert 95% Sicherheit, das 3σ–Intervall über 99%.
Bei sicherheitskritischen Anwendungen wird man mehr verlangen.
Als extremes Sicherheitsniveau wurde zum Beispiel 6σ propagiert,
was bei Normalverteilung über 99.9999998% Sicherheit bedeutet.
Je nach Kosten / Nutzen wird man n möglichst groß wählen:
√
Mit wachsendem n wird der Intervallradius 2σ̂/ n beliebig klein.
√
Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine
viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal
größere Stichprobe. Das ist Fluch und Segen der großen Zahlen!
Sicherheit ≥ 95% für das 2σ–Intervall gilt für „große n“.
Solche Faustregeln ohne Begründung sind Autoritätsargumente;
manchmal beruhen sie auf Erfahrung, meist jedoch auf Unwissen.
Für kleine Stichproben sind sorgfältige Korrekturen notwendig,
auf diese will ich hier jedoch nicht genauer eingehen. ??
Ich belasse es bei diesem Überblick. Für die ernsthafte Anwendung
statistischer Methoden verweise ich auf die umfangreiche Literatur.
Konfidenzintervalle
V338
Erläuterung
Ich warne vorsorglich vor einem weitverbreiteten Missverständnis:
Man sagt „Mit Wkt ≥ 95% überdeckt das Intervall I den wahren Wert µ.“
Das ist bequem aber irreführend; die Interpretation müssen wir klären.
Der Mittelwert µ = E(X) ∈ R ist eine Zahl, unbekannt aber konstant.
Aus den Messdaten x1 , . . . , xn ∈ R berechnen wir ein Intervall I ⊂ R.
Die durchgeführte Messung legt somit das Intervall I fest.
Entweder liegt µ in I oder nicht: Das ist eine Aussage über eine feste
Zahl µ und ein festes Intervall I, mit Wkt hat das nichts mehr zu tun.
Die Aussage „mit Wkt ≥ 95%“ betrifft also nicht ein einzelnes
berechnetes Intervall, sondern das Verfahren der Berechnung:
Bei unabhängiger Wiederholung können wir jedesmal dieses Verfahren
anwenden, und in ≥ 95% aller Fälle werden wir damit richtig liegen. In
diesem Sinne gilt: Mit Wkt ≥ 95% überdeckt das Intervall I den Wert µ.
Zur Illustration gebe ich zwei Beispiele: zunächst ein etwas künstliches
aber besonders einfaches zum Würfeln, sodann ein sehr realistisches
aber auch komplizierteres mit echten Daten zum Venus Express.
Konfidenzintervalle
V339
Die Graphik zeigt 100 Konfidenzintervalle
√
[ x̂ ± 2σ̂/ n ], Sicherheitsniveau ≥ 95%.
Illustration: Wir werfen 400 mal
p einen fairen Würfel.
Wir wissen µ = 3.5 und σ = 35/12 ≈ 1.70783.
Die Messwerte schwanken, und mit ihnen StichprobenMittelwert x̂ ≈ µ und -Streuung σ̂ ≈ σ. Jede Stichprobe
liefert daher ihr eigenes Konfidenzintervall. Bei unserer
Simulation überdecken 96 Intervalle den Erwartungswert
µ = 3.5, die übrigen 4 Intervalle (in rot) tun dies nicht.
Dieses Beispiel ist etwas künstlich, dafür aber besonders
leicht zu verstehen. In realistischen Anwendungen kennt
man den wahren Mittelwert µ und die wahre Streuung σ
nicht, sondern will / muss sie durch Stichprobe schätzen.
Genau dieses Verfahren wenden wir hier 100 mal an.
Im Allgemeinen weiß man nicht, ob man eine typische
Stichprobe erwischt (schwarz) oder viele Außreißer (rot).
Das Verfahren kann keine absolute Sicherheit garantieren,
aber immerhin 95%. Die 3σ–Umgebung liefert 99%, etc.
3
µ
4
Mars & Venus Express
V340
Missionen der ESA
Start Jun. 2003 in Baikonur
Mars-Orbit ab Jan. 2004
→ Suche nach Wasser
Start Nov. 2005 in Baikonur
Venus-Orbit ab Apr. 2006
→ Atmosphäre der Venus
Orbiter: Masse 633kg plus
Treibstoff (MMH+NTO)
Acht Steuertriebwerke
mit jeweils 10N Schub
Fortsetzung oder Ende:
Wie lange reicht der Sprit?
Siehe en.wikipedia.org/wiki/Mars_Express und /Venus_Express
Mars & Venus Express
V341
Erläuterung
Design erfordert Entscheidungen und meist Kompromisse. Die ESA hat auf Messgeräte für die
Tankfüllung verzichtet. Zum geplanten Ende der Mission stellt sich die Frage: Kann die Mission
verlängert werden? Ist dazu noch genug Treibstoff im Tank? Wie kann man das mit ausreichender
Sicherheit herausfinden? Idee: Die ESA verfügt über alle bisherigen Positions- und Steuerdaten.
Hieraus könnte man jeweils die Trägheit berechnen und indirekt die Gesamtmasse! Geht das?
Realistische Analogie: Heutige Autos haben eine Masse von etwa 1.2 bis 1.6 Tonnen bei einem
Tankvolumen von 50 bis 70 Litern. Sie fahren ein Auto ohne Tankanzeige, die Tankfüllung
erspüren Sie in Kurven, beim Gasgeben und Abbremsen. Ist das verrückt? Ja. Ist das möglich?
Schwierig! Man muss genau und sehr häufig messen – und dann die Messfehler rausfiltern!
Vereinfachte Analogie: Sie haben eine Gasflasche für einen Herd oder Grill: Leergewicht 6kg,
Inhalt 0-5kg Propan, ebenfalls ohne Anzeige des Füllstandes. Sie können durch Schütteln recht
gut erspüren, wie voll die Gasflasche ist. Probieren Sie es bei Gelegenheit mal aus!
Jede Messung ist mit Fehlern behaftet: systematische müssen wir vermeiden, zufällige können
wir nicht direkt korrigieren. Wir müssen lernen, sie geschickt rauszufiltern, um ein möglichst
verlässliches Ergebnis zu erhalten. Genau das ist Aufgabe der mathematischen Statistik.
Es geht um rationale Entscheidungen unter Unsicherheit. Dafür genügt es nicht, eine willkürliche
Schätzung auszuspucken! Die Anwendung ist ernst, es geht um Geld, wir müssen überzeugen.
Wir wollen nicht nur eine gute Schätzung, sondern auch die Güte der Schätzung berechnen!
Hierzu will ich Sie mit meiner Einführung anleiten. Wer darüber hinaus ernsthafte statistische
Analysen betreiben will/muss, kann sich darauf aufbauend in die Spezialliteratur einarbeiten.
Venus Express: Wieviel Treibstoff ist im Tank?
V342
Aus Steuermanövern errechnete Masse für 366 Tage bis 31.12.2012.
760 Masse/kg
unplausibel: schwerer als voll
740
720
700
680
660
640
620
unplausibel: leichter als leer
Tag
600
−350
−300
−250
−200
−150
−100
−50
0
Venus Express: Wieviel Treibstoff ist im Tank?
V343
Erläuterung
Impuls-Messungs-Methode (Impulse Measurement Method, IMM):
Aus Positions- und Steuerdaten errechnet man Werte für die Masse.
Tag
1
2
3
...
Datum
01.01.2012
02.01.2012
03.01.2012
...
Masse
640
674
659
...
Tag
...
364
365
366
Datum
...
29.12.2012
30.12.2012
31.12.2012
Masse
...
664
704
712
www.igt.uni-stuttgart.de/eiserm/lehre/HM3/VEX2012.txt
Datengewinnung ist mühsam, erfordert Umsicht und Sachkenntnis!
Diese Daten stellt uns freundlicherweise Herr Caglayan Gürbüz zur
Verfügung. Er hat 2012 die Höhere Mathematik 3 gehört und am IRS /
ESOC seine Bachelor-Arbeit zum Mars & Venus Express geschrieben.
Rationale Entscheidung: Kann / sollte man die Mission verlängern?
Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit!
Techniken: Erwartung und Streuung, Stichproben und Schätzung,
Gesetz der großen Zahlen, zentraler Grenzwertsatz, Konfidenzintervall
This is rocket science. Mathematische Statistik zeigt, wie’s geht.
Mathematische Statistik: Konfidenzintervalle
V344
Jahresmittelwert der Gesamtmasse mit 3σ–Konfidenzintervall.
760 Masse/kg
740
720
700
680
660
640
620
If people do not believe that mathematics is simple,
it is only because they do not realize how complicated life is.
(John von Neumann)
Tag
600
−350
−300
−250
−200
−150
−100
−50
0
Mathematische Statistik: Konfidenzintervalle
V345
Erläuterung
Aufgabe: Wir groß war der Tankinhalt im Jahresmittel 2012?
Geben Sie das 3σ–Konfidenzintervall an (für 99%ige Sicherheit).
Lösung: Unser Datensatz liefert Mittelwert und Streuung:
Der Stichprobenmittelwert ist m̂ = 684kg. Dies schätzt die Masse m.
Die Stichprobenstreuung ist σ̂m = 24.6kg. Dies schätzt die Streuung.
√
Bei n = 345 Datenpunkten gilt σ̂m̂ = σ̂m / n = 1.33kg. Großes n hilft!
Das 3σ–Intervall [m̂ ± 3σ̂m̂ ] = [680; 688]kg ist erstaunlich schmal!
Der Tankinhalt betrug demnach [47; 55]kg mit 99%iger Sicherheit.
Messdaten sind voller Messfehler und anderer Ungenauigkeiten.
Unsere Daten sind schmutzig doch glücklicherweise sehr zahlreich:
Wir können Gesetze der großen Zahlen und Grenzwertsätze nutzen!
Dank passender Technik können Sie so präzise Schlüsse ziehen!
Dank Statistik fördern Sie Information zutage, die zuvor verborgen war.
Jede Prognose ist höchstens so gut wie die zugrundeliegenden
Daten! Zufällige Fehler können wir durch große Messreihen rausfiltern,
systematische Fehler nicht! Hier helfen nur Umsicht und Sachkenntnis!
Mathematische Statistik: lineare Regression
V346
Regressionsgerade mit Konfidenzintervallen: 1σ, 2σ, 3σ.
760 Masse/kg
740
720
700
680
660
640
620
It is difficult to make predictions,
especially about the future.
600
−350
−300
−250
−200
−150
−100
Tag
−50
0
Mathematische Statistik: lineare Regression
V347
Erläuterung
Aufgabe: Wir groß war der Tankinhalt Ende 2012?
Wie lange reicht’s noch? Wie sicher ist Ihre Prognose?
Lösung: Unser Datensatz liefert die Regressionsgerade y = â + b̂ x:
Ende 2012 ist die Gesamtmasse â = 680.5kg mit Streuung σ̂â = 2.6kg.
Im Tank verbleiben t̂ = 47.5kg Treibstoff mit Streuung σ̂t̂ = 2.6kg.
Der Verbrauch ist b̂ = −20.3g/Tag mit Streuung σ̂b̂ = 12.6g/Tag.
Sehr grobe Prognose der verbleibenden Missionsdauer: 2300 Tage.
Wie verlässlich ist diese Prognose aufgrund unserer Messdaten?
Mit 95% Sicherheit reicht der Treibstoff noch für über 930 Tage:
Tank [t̂ ± 2σ̂t̂ ] ⊂ [42.3; 52.7]kg, Verbrauch [b̂ ± 2σ̂b̂ ] ⊂ [−45.5; 4.9]g/Tag.
Mit 99% Sicherheit reicht der Treibstoff noch für über 680 Tage:
Tank [t̂ ± 3σ̂t̂ ] ⊂ [39.7; 55.3]kg, Verbrauch [b̂ ± 3σ̂b̂ ] ⊂ [−58.1; 17.5]g/Tag.
Wir extrahieren sorgsam, was die vorliegenden Daten hergeben!
Systematische Fehler? physikalische Annahmen? Alternativen?
War 2012 ein typisches Jahr? Wenn man Sprit spart, reicht er länger!
VEX wird 2013/14 tiefer in Atmosphäre abgesenkt ⇒ mehr Verbrauch.
Die Mission endet im Dezember 2014 wegen Treibstoffmangels. Wow!
Mathematische Statistik: Konfidenzintervalle
V348
Das Ergebnis X einer Messung hängt von zufälligen Störungen F ab:
X =x+F
etwa mit F ∼ N (0, σF2 )
Das heißt: Messwerte X = x + F schwanken um den Wert x = E(X),
der Fehler F = X − x hat Mittelwert E(F ) = 0 und Varianz V(F ) = σF2 .
Problem: Erwartung E(X) = x und Varianz V(X) = σF2 sind uns nicht
bekannt. Wir wollen sie durch wiederholte Messungen ermitteln.
Unabhängige Wiederholung ergibt die Messwerte x1 , x2 , . . . , xn .
2 = σ 2 schätzen wir hieraus wie folgt:
Erwartung µX = x und Varianz σX
F
x ≈ x̂ :=
n
n
i=1
i=1
1X
1 X
σ̂X
2
2
xi , σX
≈ σ̂X
:=
(xi − x̂)2 , σX̂ ≈ σ̂X̂ := √
n
n−1
n
Hieraus erhalten wir Konfidenzintervalle für den gesuchten Wert x:
I2 = [x̂ ± 2σX̂ ] = x̂ − 2σX̂ ; x̂ + 2σX̂
3 x mit 95% Sicherheit
I3 = [x̂ ± 3σX̂ ] = x̂ − 3σX̂ ; x̂ + 3σX̂
3 x mit 99% Sicherheit
Mathematische Statistik: Konfidenzintervalle
V349
Erläuterung
Gesucht ist der wahre Wert x, doch dieser ist uns leider unbekannt.
Wir schätzen ihn durch x̂ anhand der Messdaten (x1 , x2 , . . . , xn ).
2 .
Die Güte dieser Schätzung wird bestimmt durch die Varianz σX
2
Wir schätzen sie wiederum durch die Stichprobenvarianz σ̂X .
Grundlegende Annahmen unseres stochastischen Modells:
Der Messfehler F ist zufällig und hat Mittelwert E(F ) = 0.
Andernfalls machen wir einen systematischen Fehler!
Den Fehler F können wir nicht direkt beobachtet (und korrigieren).
Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern:
Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert x.
Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert x.
Dies sind die Konfidenzniveaus 95% bzw. 99% der Normalverteilung!
Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß,
denn X̂ ∼ N (x, σF2 /n) gilt exakt oder in guter Näherung dank ZGS.
Mit hinreichend vielen Messdaten bestimmen wir x beliebig genau.
Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit.
Doppelte Genauigkeit kostet viermal so viele Messungen.
Mathematische Statistik: lineare Regression
V350
Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F :
Y = a + bX + F
etwa mit F ∼ N (0, σF2 )
Unabhängige Wiederholung ergibt die Messdaten (x1 , y1 ), . . . , (xn , yn ).
Die Regressionsparameter a und b schätzen wir hieraus wie folgt:
P
(xi − x̂)(yi − ŷ)
P
b ≈ b̂ :=
a ≈ â := ŷ − b̂ x̂
,
(xi − x̂)2
Die Güte dieser Schätzungen wird bestimmt durch die Varianzen:
P
n
σ̂b̂2 X
(â + b̂ xi − yi )2
2
2
2
2
P
,
σb̂ ≈ σ̂b̂ :=
σ
≈
σ̂
:=
x2i
â
â
(n − 2) (xi − x̂)2
n
i=1
Wir erhalten Konfidenzintervalle für die gesuchten Werte a bzw. b:
I2 = [â ± 2σâ ] = â − 2σâ ; â + 2σâ
3 a mit 95% Sicherheit
I3 = [â ± 3σâ ] = â − 3σâ ; â + 3σâ
3 a mit 99% Sicherheit
Mathematische Statistik: lineare Regression
V351
Erläuterung
Gesucht sind die Werte a, b, doch diese sind uns leider unbekannt.
Wir schätzen sie durch â, b̂ anhand der Messdaten (x1 , y1 ), . . . , (xn , yn ).
Grundlegende Annahmen unseres stochastischen Modells:
Der Messfehler F ist unabängig von X mit Mittelwert E(F ) = 0.
Andernfalls machen wir einen systematischen Fehler!
Den Fehler F können wir weder direkt beobachten noch korrigieren.
Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern:
Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert a.
Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert a.
Auch hier nutzen wir die Konfidenzniveaus der Normalverteilung!
Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß,
denn Â ∼ N (a, σâ2 ) und B̂ ∼ N (b, σb̂2 ) gilt exakt oder in guter Näherung.
Ausreichend viele Messdaten bestimmen a, b beliebig genau.
Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit.
Doppelte Genauigkeit kostet viermal so viele Messungen.
Bestimmung der Ausgleichsgeraden
V352
Erläuterung
Wir nehmen an, yi hängt linear von xi ab plus zufällige Störung fi :
yi = a + b xi + fi
mit Fehler fi = yi − a − b xi
Wir suchen nach der Geraden, die diese Fehlerterme minimiert:
Xn
Xn
!
Q(a, b) :=
fi2 =
(yi − a − b xi )2 = min
i=1
i=1
Das ist eine positive quadratische Funktion in a und b. Minimum:
∂Q Xn
!
=
2(yi − a − b xi ) · (−1)
= 0
i=1
∂a
∂Q Xn
!
=
2(yi − a − b xi ) · (−xi ) = 0
i=1
∂b
Dieses lineare Gleichungssystem führt zu den obigen Formeln:
P
P
(xi − x̂)(yi − ŷ)
xi yi − nx̂ŷ
P
â = ŷ − b̂ x̂,
b̂ =
= P 2
2
(xi − x̂)
xi − nx̂2
Geometrisch: Für die zentrierten Vektoren ~xi = xi − x̂ und
~yi = yi − ŷ berechnet sich b̂ = h ~x | ~y i/h ~x | ~x i durch Skalarprodukte!
Bestimmung der Ausgleichsgeraden
V353
Erläuterung
Wir nennen y = â + b̂ x die Kleinste-Quadrate-Gerade (KQ-Gerade).
Der Wert ŷi = â + b̂ xi heißt der KQ-gefittete Wert und entsprechend
die Abweichung fˆi = yi − ŷi = yi − â + b̂ xi der KQ-gefittete Fehler.
Eigenschaften: Die Summe aller Fehler fˆi = yi − a − b xi ist Null.
Liegen alle Datenpunkte (xi , yi ) auf einer Geraden y = a + bx,
so gilt â = a und b̂ = b mit perfektem Fit: ŷi = yi und fˆi = 0.
Wie gut beschreibt die Gerade die Daten? Korrelationskoeffizient
P
(xi − x̂)(yi − ŷ)
h ~x | ~y i
pP
p
r(x, y) := pP
=p
2
2
h ~x | ~x i h ~y | ~y i
(xi − x̂)
(yi − ŷ)
Es gilt −1 ≤ r ≤ 1 und r = ±1 genau dann, wenn alle Daten auf einer
Geraden liegen: gleichsinnig für r = +1 und gegensinnig für r = −1.
Die Linearisierung ist gut für große Werte von r2 , schlecht für kleine.
Geometrisch bedeutet r = 0, dass die Vektoren ~x, ~y senkrecht stehen.
Stochastisch bedeutet es, dass x, y linear unkorreliert sind.
Für Skalarprodukte h ~x | ~y i gilt die Cauchy–Schwarz–Ungleichung. ??
Zur Wiederholung siehe Kimmerle–Stroppel, Lineare Algebra, §2.6
Bestimmung der Ausgleichsgeraden
V354
Erläuterung
Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F :
Y = a + bX + F
etwa mit F ∼ N (0, σF2 )
Wie gut ist unsere Schätzung â, b̂ für die unbekannten Parameter a, b?
Wir betrachten unabhängig wiederholte Messungen (Xi , Yi ) und
analysieren unsere Schätzungen â, b̂ als Zufallsvariable Â, B̂:
Yi = a + b Xi + Fi ,
n
1X
Xi ,
X̂ :=
n
i=1
P
(Xi − X̂)(Yi − Ŷ )
B̂ =
,
P
(Xi − X̂)2
Fi ∼ N (0, σF2 )
n
1X
Ŷ :=
Yi
n
i=1
Â = Ŷ − B̂ X̂
Wir nehmen vereinfachend an, die additiven Fehler Fi ∼ N (0, σF2 ) sind
normalverteilt. Dann sind die Zufallsvariablen Â und B̂ normalverteilt;
allgemein gilt dies für große n in guter Näherung dank ZGS.
Bestimmung der Ausgleichsgeraden
V355
Erläuterung
Für die Erwartungen finden wir (nach kurzer Rechnung):
P
(xi − x̂)(yi − ŷ)
P
E(B̂) = b ≈ b̂ :=
,
E(Â) = a ≈ â := ŷ − b̂ x̂
(xi − x̂)2
Für die Varianzen finden wir (nach längerer Rechnung):
P
σF2
(â + b̂ xi − yi )2
P
V(B̂) =
≈ σ̂b2 :=
n V(X)
(n − 2) (xi − x̂)2
n
σ 2 E(X 2 )
1X 2
V(Â) = F
≈ σ̂a2 := σ̂b2 ·
xi
n V(X)
n
i=1
Die Form der Varianzschätzer ist plausibel, die kleine Korrektur
von 1/n zu 1/(n − 1) oder 1/(n − 2) sichert die richtige Erwartung.
(Für große n, etwa n 100, ist diese Korrektur meist unerheblich.)
Hieraus erhalten wir Vertrauensintervalle, etwa 2σ zu 95% Sicherheit.
Der Aufwand lohnt sich: Wir gewinnen ein Maß für die (Un)Sicherheit.
Wir bekommen nicht nur Punktschätzer der gesuchten Werte a, b,
sondern sogar Intervallschätzer: Das enthält viel mehr Information!
Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit!
Zufallsvariablen und Erwartungswerte
V401
Fazit
Sei (Ω, A , P) ein WRaum ?? , zum Beispiel diskret oder kontinuierlich.
Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R.
Sie ordnet jedem Ergebnis ω ∈ Ω eine reelle Zahl X(ω) ∈ R zu.
Ihre Verteilung PX : B(R) → [0, 1] im Bildbereich R ist definiert durch
PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B .
Ihr Erwartungswert ist gegeben durch
ˆ
ˆ
µ = E(X) :=
X(ω) dP =
x dPX .
R
Ω
Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt
ˆ
E(X) =
x f (x) dx.
R
Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt
X
E(X) =
x p(x).
x∈R
Varianz und Streuung
V402
Fazit
Das (absolute, zentrierte) n–te Moment von X ist gegeben durch
h
n i
E X − µ .
Fall n = 2: Die Varianz von X ist die mittlere quadratische Abweichung
h
2 i
= E(X 2 ) − E(X)2 ≥ 0.
σ 2 (X) = V(X) := E X − µ
Die Streuung oder Standardabweichung ist die Quadratwurzel
p
σ(X) := V(X).
Nach Chebychev gelten folgende Abschätzungen, wobei h, k > 0:
1
1
P |X − µ| ≥ kσ ≤ 2 ,
P µ − kσ < X < µ + kσ ≥ 1 − 2
k
k
4(hk − 1)
1
P X ≥ µ + kσ ≤
, P µ − hσ < X < µ + kσ ≥
1 + k2
(h + k)2
Unabhängige Zufallsvariablen
V403
Fazit
Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt
(stochastisch) unabhängig, wenn für alle Intervalle Ik ⊂ R gilt
P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ).
Ihre gemeinsame Verteilung ist dann die Produktverteilung:
P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn .
Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn ,
so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte
f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ).
Sind X, Y unabhängige Zufallsvariablen, dann gilt nach Fubini:
E(X · Y ) = E(X) · E(Y )
Für die Varianzen unabhängiger Zufallsvariablen folgt Additivität:
V(X + Y ) = V(X) + V(Y )
Dies sind besonders einfache und nützliche Formeln.
Für abhängige Zufallsvariablen gelten sie i.A. nicht!
Das Gesetz der großen Zahlen
V404
Fazit
Eine Messung / ein Experiment entspricht einer Zufallsvariablen
X : Ω → R mit Erwartung µ = E(X) und Varianz σ 2 = V(X) < ∞.
Wir führen unabhängige Wiederholungen X1 , X2 , X3 , . . . durch.
Aus diesen Messwerten bilden wir den empirischen Mittelwert
1
X̂ :=
X1 + · · · + Xn .
n
Es gilt E(X̂) = µ und dank Unabhängigkeit zudem V(X̂) = σ 2 /n.
√
Mit zunehmendem n streut X̂ immer weniger, gemäß 1/ n → 0.
Der Mittelwert nähert sich dem Erwartungswert: Für jedes ε > 0 gilt
σ2
→ 0.
P |X̂ − µ| ≥ ε
≤
n ε2
Dieser Grenzwert besagt in Worten: Große Abweichungen |X̂ − µ| ≥ ε
sind beliebig unwahrscheinlich, wenn man n hinreichend groß wählt.
In praktischen Anwendungen möchte man n nicht allzu groß wählen,
denn wiederholte Messungen sind teuer. Wir brauchen daher bessere
Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS!
Der zentrale Grenzwertsatz (ZGS)
V405
Fazit
Der ZGS besagt: Die Summe S = X1 + · · · + Xn vieler unabhängiger
aber ähnlich großer Zufallsvariablen ist annähernd normalverteilt.
Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit
endlichen Erwartungen
µk = E(Xk ),
strikt positiven Varianzen
σk2 = E(|Xk − µk |2 ) ≥ σ02 > 0,
beschränkten dritten Momenten ρ3k = E(|Xk − µk |3 ) ≤ ρ30 < ∞.
Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn
und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer:
ˆ (b−µ)/σ −ξ2 /2
e
√
P(a ≤ S ≤ b) =
dξ + δ
2π
(a−µ)/σ
und für den Approximationsfehler δ gilt die allgemeine Schranke
|δ|
≤
ρ31 + · · · + ρ3n
(σ12 + · · · + σn2 )3/2
≤
ρ30
√
3
σ0 n
→
0.
Der lokale Grenzwertsatz U3A ist spezieller, dabei aber auch präziser.
Konfidenzintervalle
V406
Fazit
In der Praxis ist folgende Anwendung des ZGS besonders wichtig:
Als Stichprobe führen wir n unabhängige Messungen aus.
Aus den so gewonnenen Messwerten x1 , . . . , xn berechnen wir
n
den Stichprobenmittelwert
1X
x̂ :=
xk ,
n
k=1
n
die Stichprobenvarianz
1 X
(xk − x̂)2 ,
σ̂ :=
n−1
2
k=1
das 2σ–Konfidenzintervall
I2 :=
h
σ̂
σ̂ i
x̂ − 2 √ , x̂ + 2 √ .
n
n
Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2
den (festen aber uns unbekannten) Erwartungswert µ = E(X).
√
Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine
viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal
größere Stichprobe. Das ist Fluch und Segen der großen Zahlen!
Verständnisfragen: Zufallsvariablen
Versuchen Sie, folgende Fragen frei aber genau zu beantworten,
etwa so, wie Sie sie einem Kommilitonen / Kollegen erklären wollen.
Was ist ein Wahrscheinlichkeitsraum (Ω, A , P)? Was ist hierauf eine
(reelle) Zufallsvariable X? Was ist ihre Verteilung PX auf R?
Wie berechnet man den Erwartungswert µ = E(X)? bei diskreter
Verteilung? bei kontinuierlicher Verteilung? Wie berechnet man die
Varianz σ 2 = V(X) und Streuung σ? Was sind die Momente von X?
Nennen Sie wichtige Verteilungen und ihre Anwendungen.
Was sind ihre Kenngrößen µ und σ? Wie berechnet man sie?
Wie verhalten sie sich bei einer affinen Skalierung Y = aX + b?
Wie lauten und was besagen die Ungleichungen von Chebychev?
Wann lassen sie sich anwenden, was muss man hierzu wissen?
Gibt es genauere Ungleichungen, wenn man die Verteilung kennt?
Z.B. für die Normalverteilung? Was besagt die 68–95–99–Regel?
V407
Fazit
Verständnisfragen: zentraler Grenzwertsatz
V408
Fazit
Wann sind zwei Zufallsvariablen X, Y unabhängig? Wann sind die
Indikatorfunktionen IA , IB zweier Ereignisse A, B ⊂ Ω unabhängig?
Kennen Sie weitere Beispiele von un/abhängigen Zufallsvariablen?
Gilt stets E(X + Y ) = E(X) + E(Y )? und E(X · Y ) = E(X) · E(Y )?
und V(X + Y ) = V(X) + V(X)? Was gilt bei Unabhängigkeit?
Was sind Erwartungswert und Varianz für B(1, t)? Wie kann man
hieraus mühelos Erwartungswert und Varianz von B(n, t) ablesen?
Was besagt das Gesetz der großen Zahlen? Wie kann man Wkten /
Erwartungswerte empirisch messen? Wie schnell ist die Konvergenz?
Was besagt der zentrale Grenzwertsatz? Welche drei Voraussetzungen
braucht, welche Schlussfolgerung gewinnt man? Wie schnell ist die
Konvergenz? Was ist gleich / anders beim lokalen Grenzwertsatz?
Wie berechnet man Stichprobenmittelwert und -Varianz?
Wie bestimmt man hieraus das Konfidenzintervall der Stichprobe?
Wie liegt es zum (gesuchten aber unbekannten) Erwartungswert?
ZGS: Wann erhalten wir die Normalverteilung?
V409
Erläuterung
Die Voraussetzungen σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen
Grenzwertsatzes V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . .
ähnlich stark streuen. Andernfalls können wir nicht garantieren, dass
ihre Summen Sn = X1 + · · · + Xn sich der Normalverteilung nähern.
Warnende Gegenbeispiele illustrieren dies, einfach aber eindrücklich:
Seien X1 , X2 , X3 . . . : Ω → {0, 1} gleichverteilte Zufallsvariablen,
also P(Xk =0) = P(Xk =1) = 1/2, und untereinander unabhängig.
Aufgabe: (1) Wir betrachten die Summe Sn = X1 + · · · + Xn sowie ihre
Normierung Sn∗ = (Sn − µ(Sn ))/σ(Sn ), sodass µ(Sn∗ ) = 0 und σ(Sn∗ ) = 1.
(a) Berechnen Sie explizit µ(Xk ), σ(Xk ), ρ(Xk ) sowie µ(Sn ), σ(Sn ).
(b) Bestimmen Sie die Verteilung PSn , skizzieren Sie die ersten Fälle.
(c) Welche Voraussetzungen des ZGS sind erfüllt, welche nicht?
(d) Welcher Grenzverteilung nähern sich PSn bzw. PSn∗ für n → ∞?
(2) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = X1 .
(3) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2−k Xk .
(4) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2k−1 Xk .
Variante: X1 , X2 , X3 . . . : Ω → {−1, 0, +1} und (3–4) zur Basis 3 statt 2.
ZGS: Wann erhalten wir die Normalverteilung?
V410
Erläuterung
0.08
B(100, 0.5)
N (50, 25)
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
35
40
45
50
55
60
65
ZGS: Wann erhalten wir die Normalverteilung?
V411
Erläuterung
Lösung: (1a) Hier gilt µ(Xk ) = 1/2 und σ 2 (Xk ) = 1/4 und ρ3 (Xk ) = 1/8,
dank Linearität µ(Sn ) = n/2, dank Unabhängigkeit σ 2 (Sn ) = n/4.
(1b) Wir wissen bereits PSn = B(n, p) mit p = 1/2, also ausgeschrieben:
n k
n 1
P Sn = k
=
p (1 − p)n−k =
k 2n
k
(1c) Alle drei Voraussetzungen des Satzes V3A sind hier erfüllt! 4 4 4
(1d) Dank ZGS erhalten wir PSn∗ → N (0, 1). Ausführlich und genauer:
ˆ (b−µn )/σn −ξ2 /2
e
√
P(a ≤ Sn ≤ b) =
dξ + δ
2π
(a−µn )/σn
ˆ β −ξ2 /2
e
∗
√
dξ
+δ
P(α ≤ Sn ≤ β) =
2π
α
√
mit der Fehlerschranke |δ| ≤ 1/ n → 0. Der lokale Grenzwertsatz U3A
garantiert die noch bessere Fehlerschranke |δ| ≤ 4/3n für n ≥ 100.
Ohne Normierung gilt P(Sn ∈ [a, b]) → 0 für n → ∞. (Skizze!)
ZGS: Wann erhalten wir die Normalverteilung?
V412
Erläuterung
(2a) Wie in (1a) gilt µ(Yk ) = 1/2 und σ 2 (Yk ) = 1/4 und ρ3 (Yk ) = 1/8.
Für die Summe Sn = nX1 gilt µ(Sn ) = n/2 aber σ 2 (Sn ) = n2 /4.
(2b) Die Summe Sn ist gleichverteilt auf {0, n}, das heißt,
sie nimmt nur zwei Werte an: P(Sn =0) = P(Sn =n) = 1/2.
Normiert ist Sn∗ = 2X1 − 1 gleichverteilt auf {−1, +1}.
(2c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt:
Die Varianzen σk2 = 1/4 > 0 sind strikt positiv.
Die dritten Momente ρ3k = 1/8 < ∞ sind beschränkt.
Aber die Zufallsvariablen Y1 , Y2 , . . . sind nicht unabhängig!
4
4
8
Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden.
Tatsächlich konvergiert PSn∗ nicht gegen die Normalverteilung N (0, 1)!
(2d) Für alle n ist die normierte Summe Sn∗ gleichverteilt auf {−1, +1}.
Ohne Normierung gilt für n → ∞ der Grenzwert P(Sn ∈ [a, b]) → 0
falls 0 ∈
/ [a, b] und P(Sn ∈ [a, b]) → 1/2 falls 0 ∈ [a, b]. Das ist keine
WVerteilung mehr: Wie in (1d) verschwindet Masse nach Unendlich.
ZGS: Wann erhalten wir die Normalverteilung?
S0
Die Summen Sn = Y1 + Y2 + · · · + Yn mit
Yk = 2−k Xk und Xk ∼ B(1, 1/2)
als ein binärer Baum.
+Y1
S1
+Y2
S2
S3
S4
V413
Erläuterung
+Y2
ZGS: Wann erhalten wir die Normalverteilung?
V414
Erläuterung
(3a) Für Yk = 2−k Xk gilt dank (1a) nach Skalierung µ(Yk ) = 2−k /2
und σ 2 (Yk ) = 2−2k /4 und ρ3 (Yk ) = 2−3k /8. Dank Linearität gilt dann
µ(Sn ) = (1 − 2−n )/2, dank Unabhängigkeit σ 2 (Sn ) = (1 − 2−2n )/12.
(3b) Im Binärsystem gilt:
Sn = 2−1 X1 + 2−2 X2 + · · · + 2−n Xn = (0.X1 X2 . . . Xn )bin
Demnach ist PSn die Gleichverteilung auf der endlichen Menge
Mn = m/2n m = 0, 1, . . . , 2n − 1 ⊂ [0, 1].
(3c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt:
Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig.
Die dritten Momente ρ3k = 2−3k /8 ≤ ρ31 = 1/64 < ∞ sind beschränkt.
Hingegen gilt σk2 = 2−2k /4 & 0, also nicht σk ≥ σ0 > 0.
Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden.
Genauer zeigen wir schließlich, dass die Verteilungen PSn bzw. PSn∗
tatsächlich nicht gegen die Normalverteilung konvergieren!
4
4
8
ZGS: Wann erhalten wir die Normalverteilung?
V415
Erläuterung
(3d) Für n → ∞ nähert sich PSn der Gleichverteilung auf [0, 1].
Dank (3b) scheint dies plausibel. Wir rechnen es ausführlich nach.
Für alle 0 ≤ a < b ≤ 1 und k ∈ N gelten folgende Implikationen:
[a, b] ∩ Mn = k
=⇒ k2−n ≤ |b − a| < (k + 1)2−n
=⇒ [a, b] ∩ Mn ∈ {k, k + 1}
Man beweist dies für k = 0 und per Induktion für k = 1, 2, 3, . . . . Also:
b(b − a)2n c + {0, 1}
P Sn ∈ [a, b] ∈
→ |b − a|
2n
Die Wahrscheinlichkeit für das Ereignis Sn ∈ [a, b] geht für n → ∞
gegen die Intervalllänge |b − a|. Das ist die Gleichverteilung auf [0, 1].
Demnach konvergiert die normierte Zufallsvariable Sn∗ = (Sn −√
µn )/σ
√n
gegen die kontinuierliche Gleichverteilung auf dem Intervall [− 3, 3].
All diese Verteilungen haben Erwartung 0 und Streuung 1. ??
ZGS: Wann erhalten wir die Normalverteilung?
V416
Erläuterung
(4a) Für Yk = 2k−1 Xk gilt nach (1a) dank Skalierung µ(Yk ) = 2k−1 /2
und σ 2 (Yk ) = 22k−2 /4 und ρ3 (Yk ) = 23k−3 /8. Dank Linearität gilt
µ(Sn ) = (2n − 1)/2 dank Unabhängigkeit σ 2 (Sn ) = (22n − 1)/12.
(4b) Im Binärsystem gilt:
Sn = X1 + 2X2 + · · · + 2n−1 Xn = (Xn . . . X2 X1 )bin
Demnach ist PSn die Gleichverteilung auf der endlichen Menge
Mn = 0, 1, . . . , 2n − 1 ⊂ N.
(4c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt:
Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig.
Die Varianzen σk2 = 22k−2 /4 ≥ σ12 = 1/4 > 0 sind strikt positiv.
Hingegen gilt ρ3k = 23k−3 /8 % ∞, also nicht ρk ≤ ρ0 < ∞.
4
4
8
Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden.
Wie in (3d) folgt, dass die Verteilung von Sn∗ tatsächlich nicht gegen
√ √
N (0, 1) konvergiert, sondern gegen die Gleichverteilung auf [− 3, 3].
Vergleich: Binomial, Poisson, Normal
V417
Erläuterung
N (10, 10)
B(200, 0.05)
P (10)
0.12
0.10
0.08
0.06
0.04
0.02
0
0
2
4
6
8
10
12
14
16
18
20
22
Aufgabe: Die Poisson–Näherung B(n, µ/n) → P (µ) für n → ∞ und
der LGS B(n, µ/n) ≈ N (µ, µ) zeigen P (µ) ≈ N (µ, µ) wie skizziert.
Welche Fehlerschranke gilt demnach zwischen P (µ) und N (µ, µ)?
Vergleich: Binomial, Poisson, Normal
V418
Erläuterung
Lösung: Für µ ≥ 0 ist die Poisson–Verteilung gegeben durch
µk −µ
e .
k!
Sie hat Erwartung µ und Varianz σ 2 = µ. Für t = µ/n und n → ∞ gilt
n k
µk −µ
B(n, t) → P (µ) also punktweise
t (1 − t)n−k →
e .
k
k!
P (µ) : N → [0, 1] mit P (µ)(k) =
Dank LGS nähert sich also auch die Poisson– der Normalverteilung:
ˆ β −ξ2 /2
b b
X
X
n k
µk −µ
e
√
t (1 − t)n−k →
e
=
dξ + δ
k
k!
2π
α
k=a
k=a
ˆ β −ξ2 /2
h 1 − ξ2
iβ
e
2
√
√ e−ξ /2
=
dξ +
+ ε
α
2π
6σ 2π
α
mit den Grenzen α = (a − 1/2 − µ)/σ und β = (b + 1/2 − µ)/σ
und Fehlerschranken |δ| < 1/(6σ) bzw. |ε| < 1/(3σ 2 ) für σ ≥ 5.
√
Dies zeigt |δ| < 1/σ → 0, aber auch |δ| ∼ const/ n im ZGS.
Poissons Gesetz der kleinen Zahlen
V419
Erläuterung
Zum Vergleich mit dem ZGS nochmal die Poisson–Approximation:
Satz V4A (Poissons Gesetz der kleinen Zahlen)
Seien X1 , . . . , Xn : Ω → {0, 1} unabhängig mit P (Xk =1) = pk ∈ [0, 1],
also jeweils B(1, pk )–verteilt mit E(Xk ) = pk und V(Xk ) = pk (1 − pk ).
Die Summe S = X1 + · · · + Xn hat die Erwartung µ = p1 + · · · + pn und
dank Unabhängigkeit die Varianz σ 2 = pk (1 − pk ) + · · · + pn (1 − pn ).
Für kleine pk ist S annähernd Poisson–verteilt, PS ≈ P (µ). Genauer:
PS − P (µ) ≤ p21 + · · · + p2n
Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, und somit
B(n, p) − P (µ) ≤ np2 = µ2 /n.
Poissons Gesetz der kleinen Zahlen
V420
Ergänzung
Mit den Techniken dieses Kapitels können wir diese allgemeine
Fassung beweisen und die explizite Fehlerschranke nachrechnen:
Aufgabe: (0) Definieren Sie den totalen Abstand diskreter WMaße.
(1) Sind X ∼ P (λ) und Y ∼ P (µ) unabhängig und Poisson–verteilt,
dann ist ihre Summe X + Y ∼ P (λ + µ) ebenfalls Poisson–verteilt.
(2) Berechnen Sie den Abstand der WMaße
B(1, p) und P (p).2
Vergröbern Sie die exakte Rechnung zu B(1, p) − P (p) ≤ p .
(3) Bei Produktmaßenaddieren sich die totalen
Abstände
gemäß
der einfachen Formel P ⊗ Q − P0 ⊗ Q0 = P − P0 + Q − Q0 .
(4) Seien P, P0 WMaße auf Ω und S : Ω → N eine Zufallsvariable.
Für den Abstand der Bildmaße gilt dann kPS − P0S k ≤ kP − P0 k.
(5) Folgern Sie Poissons Gesetz der kleinen Zahlen (Satz V4A).
Poissons Gesetz der kleinen Zahlen
V421
Ergänzung
Lösung: Wir beginnen mit der Erinnerung zur Abstandsmessung:
(0) Für diskrete WMaße P0 , P1 nutzen wir den totalen Abstand T323 :
X
P0 ({ω}) − P1 ({ω})
P0 − P1 := sup P0 (A) − P1 (A) = 1
2
A⊂Ω
ω∈Ω
(1) Wir berechnen die Wkten geduldig und sorgsam:
X
disj
P(X + Y = n)
=
P(X = k, Y = `)
k+`=n
unabh
=
X
P(X = k)P(Y = `)
=
k+`=n
k+`=n
=
X λk
µ` −µ
e−λ ·
e
k!
`!
n 1 −(λ+µ) X n k n−k
e
λ µ
n!
k
k=0
=
(λ + µ)n −(λ+µ)
e
n!
Dies beweist die Faltung P (λ) ∗ P (µ) = P (λ + µ).
Poissons Gesetz der kleinen Zahlen
V422
Ergänzung
(2) Auf der Menge N vergleichen wir die Binomialverteilung B(1, p) mit
Trefferwkt p ∈ [0, 1] und die Poisson–Verteilung P (p) zum Parameter p:
X
B(1, p)(k) − P (p)(k)
2B(1, p) − P (p) =
k∈N
∞
p1 −p X pk −p
p0 −p = (1 − p) −
e + p −
e +
e
0!
1!
k!
k=2
−p
= (e
− 1 + p) + p(1 − e
= 2p(1 − e−p )
≤
−p
) + (1 − e
−p
− p e−p )
2p2
Hierbei nutzen wir zweimal die Ungleichung 1 − p ≤ e−p .
T106
Wir erhalten die ersehnte Abschätzung des totalen Abstands:
B(1, p) − P (p) ≤ p2
Dies ist Satz V4A für den einfachsten Fall n = 1. Wir übertragen die
Ungleichung nun von X1 , . . . , Xn auf ihre Summe S = X1 + · · · + Xn .
Poissons Gesetz der kleinen Zahlen
V423
Ergänzung
(3) Gegeben sind WMaße P, P0 auf der Menge A sowie Q, Q0 auf B.
Auf Ω = A × B vergleichen wir die Produktmaße P ⊗ Q und P0 ⊗ Q0 :
X p(a)q(b) − p0 (a)q 0 (b)
2P ⊗ Q − P0 ⊗ Q0 =
(a,b)∈A×B
=
X
(a,b)∈A×B
=
X
(a,b)∈A×B
=
XX
a∈A b∈B
p(a)q(b) − p0 (a)q(b) + p0 (a)q(b) − p0 (a)q 0 (b)
p(a) − p0 (a) · q(b) + p0 (a) · q(b) − q 0 (b)
XX 0
q(b) · p(a) − p0 (a) +
p (a) · q(b) − q 0 (b)
b∈B a∈A
X
X
p(a) − p0 (a) +
q(b) − q 0 (b) = 2kP − P0 k + 2kQ − Q0 k
=
a∈A
b∈B
Wir erhalten folgende nützliche Gleichung für den totalen Abstand:
P ⊗ Q − P0 ⊗ Q0 = kP − P0 k + kQ − Q0 k
Poissons Gesetz der kleinen Zahlen
V424
Ergänzung
(4) Es gilt |PS (A) − P0S (A)| = |P(S −1 (A)) − P0 (S −1 (A))| ≤ kP − P0 k
für jede Teilmenge A ⊂ N. Hieraus folgt die nützliche Ungleichung
kPS − P0S k ≤ kP − P0 k.
(5) Dank (2,3) haben die Produktmaße P = B(1, p1 ) ⊗ · · · ⊗ B(1, pn )
und P0 = P (p1 ) ⊗ · · · ⊗ P (pn ) auf Nn den totalen Abstand
P − P0 ≤ p21 + · · · + p2n .
Unter P ist die Treffersumme S = X1 + · · · + Xn verteilt gemäß PS .
Unter P0 ist das Bildmaß P0S = P (µ) die Poisson–Verteilung dank (1).
Dank (4) haben beide Bildmaße auf N den totalen Abstand
PS − P (µ) ≤ p21 + · · · + p2n .
Das ist Poissons Gesetz der kleinen Zahlen (Satz V4A).
Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, also
B(n, p) − P (µ) ≤ np2 = µ2 /n.
Anwendungsbeispiel: radioaktiver Zerfall
V425
Ein Atom Uran 238 zerfällt in der nächsten Stunde mit Wkt p = 2 · 10−14 .
Eine Probe von 20mg enthält etwa n = 5 · 1019 Atome. Wir nehmen die
Zerfälle als stochastisch unabhängig an (insb. ohne Kettenreaktion).
Aufgabe: Sei X die Gesamtzahl der Zerfälle in der nächsten Stunde.
(1) Nennen Sie die exakte Verteilung (in diesem vereinfachten Modell).
(2) Berechnen Sie Erwartung µ = E(X), Varianz σ 2 = V(X), Streuung
σ. Runden Sie jedes Ergebnis auf die nächstgelegene ganze Zahl.
(3) Wie klein ist der totale Abstand zur Poisson–Verteilung P (µ)?
(4) Wie klein ist der Näherungsfehler zur Normalverteilung N (µ, σ 2 )?
(5) Bestimmen Sie die Wahrscheinlichkeit P |X − µ| ≤ 2500
in Prozent, gerundet auf den nächstgelegenen Prozentpunkt.
(6) Ist unser Modell für Uran 238 realistisch? Warum / warum nicht?
(7) Würden Sie diese Rechnung ebenso durchführen bei spaltbarem
Material, etwa Uran 235? (Hier kann eine Kettenreaktion entstehen.
Dies wird genutzt zum Beispiel als Kernreaktor oder als Kernwaffe.)
Anwendungsbeispiel: radioaktiver Zerfall
V426
Lösung: (1) Es handelt sich um die Binomialverteilung B(n, p):
n k
P(X=k) =
p (1 − p)n−k
k
(2) Erwartung, Varianz und Streuung von B(n, p) sind
µ = E(X)
= np = 5 · 1019 · 2 · 10−14
= 106
σ 2 = V(X)
= np(1 − p) = 106 − 2 · 10−8 ≈ 106
p
√
p
σ = V(X) = 106 − 2 · 10−8 ≈ 106
= 103
(3) Es gilt PX − P (µ) ≤ np2 = 5 · 1019 · 4 · 10−28 = 2 · 10−8 .
(4) Im LGS bzw. ZGS gilt für den Approximationsfehler δ die Schranke
|δ| ≤
|1 − 2p|
1
1
1
+ 2 <
< = 10−3 .
10σ
3σ
6σ
σ
Mancher verwendet die Grenzwertsätze nur gefühlt „nach Erfahrung“.
Die Fehlerschranken sind weitaus präziser als eine vage Erfahrung.
Sie helfen insbesondere auch dort, wo noch keine Erfahrung vorliegt!
Anwendungsbeispiel: radioaktiver Zerfall
V427
(5) Dank (4) ist die Normalverteilung ausreichend genau:
ˆ α
ˆ 2.5
ϕ(t) dt = 2 ·
ϕ(t) dt
P |X − µ| ≤ 2500 ≈
−α
≈ 2 · 0.49379
= 0.98758
t=0
≈ 99%
Wir entscheiden uns hier für den lokalen Grenzwertsatz U3A
und nähern die Binomialverteilung durch die Normalverteilung.
Dank unserer Fehlerabschätzung (4) ist das genau genug.
Genau genommen müssten wir mit α = 2500.5/σ = 2.5005 rechnen,
aber die Stetigkeitskorrektur ist hier klein und fällt nicht ins Gewicht.
Die Poisson–Verteilung wäre nach (3) eine noch bessere Näherung.
Für P (1 000 000) haben wir hier allerdings keine Tabelle vorliegen.
Es gibt auch kumulative Tabellen zu Poisson–Verteilungen P (µ);
noch bequemer ist heutzutage die Nutzung eines Computers.
Anwendungsbeispiel: radioaktiver Zerfall
V428
Erläuterung
(6) Ja. Zwischen Uran 238 findet nahezu keine Wechselwirkung statt.
(7) Nein. Die stochastische Unabhängigkeit der Zerfälle gilt nicht mehr!
Allein die größere Zerfallswkt p ∈ [0, 1] ändert nicht das Modell.
Doch unser Modell B(n, p) beruht auf stochastischer Unabhängigkeit!
Andernfalls ist die Anzahl X der Zerfälle nicht mehr binomialverteilt.
Eine fahrlässige, falsche Modellbildung kann zu Katastrophen führen!
Zwar sind die Werte innerhalb des Modells noch rechnerisch richtig,
aber das gewählte Modell beschreibt keineswegs die Wirklichkeit.
Die Grundlagen der Kernphysik gehören natürlich nicht zur HM3, aber
soviel Anwendungsbezug gehört zur Allgemeinbildung für technisch
Gebildete, insbesondere angehende Ingenieure. Ein qualitatives Modell
kennen Sie vielleicht aus der Schule: Die Kettenreaktion entsteht, weil
beim Zerfall Neutronen emitiert werden, die von anderen Atomkernen
absorbiert werden und diese zum Zerfall anregen. Das ist das Gegenteil
von Unabhängigkeit! Otto Hahn (1879–1968) bekam für diese wichtige
Entdeckung 1945 den Nobelpreis für Chemie. Ihre Anwendungen, zum
Guten wie zum Bösen, prägten das 20. Jahrhundert und wirken fort.
Zufällige Irrfahrt / Random Walk
1−p
a−1
a
V429
Erläuterung
p
a+1
Zufällige Irrfahrt: Zur Zeit t = 0 starten Sie im Punkt S0 = a.
Im Schritt von St nach St+1 gehen Sie mit Wahrscheinlichkeit p ∈ [0, 1]
nach rechts und entsprechend mit Wahrscheinlichkeit (1 − p) nach links.
Das heißt, St : Ω → Z ist gegeben durch St = a + X1 + · · · + Xt mit
unabhängigen Zuwächsen, P(Xt =+1) = p und P(Xt =−1) = 1 − p.
Das ist ein einfaches aber wichtiges Modell. Mögliche Anwendung: Kontostand bei zufälligen
Gewinnen und Verlusten. Daher werden solche Modelle häufig für Aktienkurse genutzt.
Ähnlich entsteht die Brownsche Bewegung durch Wärmebewegung. Der schottische Botaniker
Robert Brown (1773–1858) entdeckte 1827 unter dem Mikroskop das unregelmäßige Zittern von
Pollen in Wasser. Anfangs hielt er Pollen für belebt, doch er fand dasselbe bei Staubteilchen.
Albert Einstein erklärte die Zitterbewegung 1905 durch die ungeordnete Wärmebewegung der
Wassermoleküle, die aus allen Richtungen in großer Zahl gegen die Pollen stoßen. Quantitativ
konnte er so die Größe von Atomen bestimmen und die Anzahl pro Mol (Avogadro–Zahl).
Die präzisen quantitativen Vorhersagen wurden in den Folgejahren experimentell bestätigt.
Zufällige Irrfahrt / Random Walk
V430
Erläuterung
St Vier mögliche Pfade der Irrfahrt
t
Aufgabe: (1) Bestimmen Sie die Wahrscheinlichkeit P(St = b).
Wir untersuchen speziell den symmetrischen Fall p = 1/2, ohne Drift.
(2) Sie beginnen im Startpunkt a ∈ Z und fixieren einen Zielpunkt b ∈ Z.
Wie groß ist die Wahrscheinlichkeit, ihn irgendwann zu erreichen?
(3) Wie groß ist hierzu die erwartete Anzahl von Schritten?
Lösung: (1) Wir erhalten eine Binomialverteilung (affin transformiert):
1
t 1
t k
t−k p= 2
P St = a − t + 2k
=
p (1 − p)
=
k
k 2t
Zufällige Irrfahrt / Random Walk
V431
Erläuterung
(2) Wir fixieren den Zielpunkt b ∈ Z und formulieren die Frage neu:
Sei u(a) ∈ [0, 1] die Wkt, vom Start a irgendwann zum Ziel b zu kommen.
u(a)
b
a
Offensichtlich gilt u(b) = 1, denn hier ist der Start auch sofort das Ziel.
Für a > b gilt die Mittelwerteigenschaft u(a) = 12 u(a + 1) + 21 u(a − 1).
Somit ist u : Z≥b → [0, 1] eine Gerade, u(a) = 1 + m(a − b). (Warum?)
Zudem ist u beschränkt, daher folgt m = 0. Ebenso auf Z≤b .
Die Gerade finden wir durch vollständige Induktion: Aus u(b) = 1 und u(b + 1) = 1 + m folgt
u(a + 1) = 2u(a) − u(a − 1) = [2 + 2m(a − b)] − [1 + m(a − 1 − b)] = 1 + m(a + 1 − b).
Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir jeden Punkt mit Wkt 1!
George Pólya (1887–1985) zeigte 1921: Mit Wkt 1 besuchen wir jeden Punkt in Z unendlich oft.
Dies gilt ebenso in Dimension 2 bei Irrfahrt auf dem ebenen Gitter Z2 . Erstaunlicherweise gilt es
nicht mehr in Dimension n ≥ 3 bei Irrfahrt auf dem Gitter Zn . Anschaulich bedeutet das: Ein
betrunkener Mensch findet sicher irgendwann nach Hause, ein betrunkener Vogel hingegen nicht!
Zufällige Irrfahrt / Random Walk
V432
Erläuterung
(3) Sei Tb die Zeit des ersten Besuchs im Punkt b und Ea (Tb ) die
erwartete Anzahl von Schritten vom Startpunkt a zum Zielpunkt b.
Dies ist invariant unter Verschiebungen, also Ea+k (Tb+k ) = Ea (Tb ).
Zunächst gilt Ea (Ta ) = 0. Für a 6= b zeigen wir nun Ea (Tb ) = ∞:
x := E0 (T1 )
= 12 E1 (T1 ) +E−1 (T1 ) + 1 = 12 E−1 (T1 ) + 1
| {z }
=0
E−1 (T1 )
= E−1 (T0 ) + E0 (T1 )
| {z } | {z }
=x
Hieraus folgt
Es bleibt nur
= 2x
=x
x = 21 (2x) + 1 = x + 1. Das ist für x ∈ R unmöglich.
E0 (T1 ) = x = ∞. Also erst recht E0 (Tb ) = ∞ für alle
b 6= 0.
Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir
jeden Punkt mit Wkt 1, aber die erwartete Weglänge ist unendlich!
Die Rechnung ist einfach, dank unserer geschickten Formalisierung.
Die Interpretation hingegen muss man erst einmal verarbeiten.
Die naive Anschauung kann einen hier leicht narren.
Anwendung des ZGS auf den fairen Würfel
V433
Aufgabe: Sie würfeln 100 mal mit einem fairen Würfel.
Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390?
Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung?
Lösung: Für die Augenzahl X bei einem fairen Würfel gilt:
E(X) = 1 ·
2
2
1
6
E(X ) = 1 ·
+2·
2
1
6 +2
2
1
6
·
+3·
1
6
1
6
2
+4·
+3 ·
2
1
6
1
6
+5·
2
+4 ·
1
6
1
6
+6·
2
+5 ·
1
6
1
6
= 21/6 = 3.5
+ 62 ·
1
6
= 91/6
V(X) = E(X ) − E(X) = 91/6 − 49/4 = 35/12 ≈ 2.9167
µ(X) = 3.5,
σ 2 (X) ≈ 2.9167,
σ(X) ≈ 1.7078
σ 2 (S) = 291.67,
σ(S) ≈ 17.078
Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach:
µ(S) = 350,
Man bewundere die Magie der großen Zahlen!
Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit
√
n = 10. Im Verhältnis zum Erwartungswert 350 wird die Streuung 17 deutlich geringer!
Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben
hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe!
Anwendung des ZGS auf den fairen Würfel
V434
Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt
α = (390 − µ)/σ = (390 − 350)/17 ≈ 2.34.
Chebychev gilt allgemein und liefert eine erste grobe Abschätzung:
1
/ 0.16
1 + α2
Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist!
Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung:
ˆ ∞ −ξ2 /2
e
√
P(S ≥ 390) ≈
dξ ≈ 0.01
2π
α
P(S ≥ 390) ≤
Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.49036 = 0.00964.
Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (X) = 6.375.
Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert.
In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen:
Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir:
P(S ≥ 390) = 0.0102875 . . . ≈ 1%
Anwendung des ZGS auf gezinkten Würfel
V435
Aufgabe: Sie würfeln 100 mal mit unserem gezinkten Würfel.
Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390?
Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung?
Lösung: Für die Augenzahl Y bei unserem gezinkten Würfel gilt:
E(Y ) = 1 · 0.15 + 2 · 0.16 + 3 · 0.16 + 4 · 0.16 + 5 · 0.16 + 6 · 0.21 = 3.65
E(Y 2 ) = 12 · 0.15 + 22 · 0.16 + 32 · 0.16 + 42 · 0.16 + 52 · 0.16 + 62 · 0.21
V(Y ) = E(Y 2 ) − E(Y )2 = 16.35 − 13.3225 = 3.0275
µ(Y ) = 3.65,
σ 2 (Y ) ≈ 3.0275,
σ(Y ) ≈ 1.74
Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach:
µ(S) = 365,
σ 2 (S) = 302.75,
σ ≈ 17.4
Man bewundere die Magie der großen Zahlen!
Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit
√
n = 10. Im Verhältnis zum Erwartungswert 365 wird die Streuung 17.4 deutlich geringer!
Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben
hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe!
Anwendung des ZGS auf gezinkten Würfel
V436
Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt
α = (390 − µ)/σ = (390 − 365)/17.4 ≈ 1.44.
Chebychev gilt allgemein und liefert eine erste grobe Abschätzung:
1
/ 0.33
1 + α2
Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist!
Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung:
ˆ ∞ −ξ2 /2
e
√
P(S ≥ 390) ≈
dξ ≈ 0.075
2π
α
P(S ≥ 390) ≤
Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.42507 = 0.07493 ≈ 7.5%
Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (Y ) = 6.745.
Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert.
In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen:
Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir:
P(S ≥ 390) = 0.0794448 . . . ≈ 8%
Anwendung: fair oder gezinkt?
V437
Aufgabe: Sie haben drei Würfel, zwei faire und unseren gezinkten (alle
äußerlich gleich). Sie wählen einen zufällig und würfeln damit 100 mal.
(1) Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390?
(2) Angenommen S ≥ 390: Mit welcher Wkt ist der Würfel gezinkt?
Lösung: (1) Die totale Wahrscheinlichkeit ist:
P(S ≥ 390) = P(S ≥ 390|fair) P(fair) + P(S ≥ 390|gezinkt) P(gezinkt)
≈ 0.01 · 2/3 + 0.08 · 1/3 = 1/30 ≈ 3.33%
(2) Nach der Formel von Bayes gilt:
P(S ≥ 390|gezinkt) P(gezinkt)
P(S ≥ 390)
0.08 · 1/3
≈
= 80%
1/30
P(gezinkt|S ≥ 390) =
Anwendung: fair oder gezinkt?
V438
Erläuterung
Wir frischen hier nochmals die Grundlagen aus Kapitel S auf.
Dank der Formel von Bayes sind solche Rechnungen meist leicht
– und doch oft überraschend. Üben Sie sich mit diesem Werkzeug!
Ohne weitere Information ist der von Ihnen gewählte Würfel mit Wkt 1/3
gezinkt und mit Wkt 2/3 fair. Nach Durchführung des Tests mit dem
Ergebnis S ≥ 390 ist er mit deutlich höherer Wkt von 80% gezinkt.
Wir können nicht 100% sicher sein, aber der Test spricht dafür, dass der
Würfel nicht fair ist. Ist eine höhere Sicherheit nötig, dann sollten Sie
weitere Tests durchführen. Eine größere Datenreihe liefert größere
Genauigkeit bzw. größere Sicherheit (wenn auch nie 100%).
Anwendung: ZGS oder LGS?
V439
Aufgabe: In einer Geburtsklinik beträgt die Wahrscheinlichkeit für eine
Jungengeburt t = 0.514. Wie groß ist die Wahrscheinlichkeit, dass von
den nächsten n = 1000 Neugeborenen genau k = 514 Jungen sind?
Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung?
Lösung: Wir haben S ∼ B(n, t). Wir suchen P(S = k). Es gilt:
µ = E(S) = nt = 514,
σ 2 = V(S) = nt(1 − t) ≈ 249.8,
σ ≈ 15.8
Chebychev nützt für Intervalle um µ, aber nicht für einzelne Punkte!
Das gilt auch für den ZGS. Mangels Stetigkeitskorrektur liefert er nur
ˆ (k−µ)/σ −ξ2 /2
e
√
P k≤S≤k =
dξ + δ
2π
(k−µ)/σ
Pech: Das Integral verschwindet! Die Fehlerschranke liefert immerhin
1
0≤P k≤S≤k =δ≤ p
/ 0.032.
2 nt(1 − t)
Die Ungleichung stimmt, aber damit sind wir noch nicht zufrieden!
Anwendung: ZGS oder LGS?
V440
Der LGS ist besser: Dank seiner Stetigkeitskorrektur liefert er
ˆ (k+1/2−µ)/σ −ξ2 /2
n k
e
√
P k≤S≤k =
t (1 − t)n−k ≈
dξ
k
2π
(k−1/2−µ)/σ
2
≈
e−(k−µ) /2σ
√
σ 2π
2
1
= √
σ 2π
(k=µ)
≈
0.0252412 . . .
Die Fehlerschranke ist wegen κ ≈ 0 hier |ε| < 1/(3σ 2 ) < 0.0014.
Noch besser: Die exakte Rechnung ist hier direkt und mühelos!
1000
P S=k =
(0.514)514 (0.486)486 = 0.0252349 . . .
514
Was lernen wir daraus? Augen auf bei der Methodenwahl!
Diese bemerkenswerten Grenzwertsätze bilden einen umfangreichen
Werkzeugkasten: Sie liefern mächtige Werkzeuge und ganz praktische
Rechenregeln. Um sie zu nutzen, muss man die Voraussetzungen
kennen und die Schlussfolgerungen verstehen. Es lohnt sich!
Anwendung: Fehlerwahrscheinlichkeiten
V441
Aufgabe: Ein Elektroniksystem habe n = 106 unabhängige Bauteile mit
verschiedenen Fehlerwkten pk . Wir wissen nur 10−4 ≤ pk ≤ 10−2 .
Wir denken an eine mehrjährige Marsmission, Störungen durch Sonnenwind, oder ähnliches.
Fehler sind zahlreich, daher wollen wir ausreichend Redundanz für ein solches System.
Ein explizites Beispiel für n = 3 haben wir auf Seite S317 ausführlich diskutiert.
Sie interessieren sich für die Gesamtzahl S der auftretenden Fehler.
(1) Berechnen Sie Erwartung µ = E(S) und Varianz σ 2 = V(S).
Ist hier die Verteilung durch (µ, σ) bereits festgelegt?
(2) Welche Modelle beschreiben die Verteilung von S exakt / approx.?
Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken?
(3) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern?
Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern?
(4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600.
Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit?
(5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10?
Anwendung: Fehlerwahrscheinlichkeiten
V442
(1) Wir berechnen zunächst Erwartung und Varianz (wie immer).
Der Fehler des k-ten Bauteils ist eine ZVariable
Pn Xk : Ω → {0, 1} mit
P(Xk =1) = pk . Für die Gesamtsumme S = k=1 Xk erhalten wir:
µ = E(S) =
n
X
E(Xk ) =
k=1
n
X
k=1
pk
∈
[100, 10 000]
Da die X1 , . . . , Xn unabhängig sind, addieren sich auch die Varianzen:
σ 2 = V(S) =
n
X
k=1
V(Xk ) =
n
X
k=1
pk (1 − pk )
∈
[99, 9999].
Wegen (1 − pk ) ∈ [0.99, 1] gilt σ 2 ≈ µ bis auf 1% genau.
Die exakte Verteilung ist allein durch (µ, σ) noch nicht festgelegt.
Die Summe S ist nicht binomialverteilt, sobald die pk verschieden sind.
Anwendung: Fehlerwahrscheinlichkeiten
V443
(2) Welche Modelle beschreiben die Verteilung von S exakt / approx.?
Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken?
Die Summe ist nicht binomialverteilt, da die pk verschieden sind.
Poissons Gesetz der kleinen Zahlen liefert PS ≈ P (µ) mit Fehler
kPS − P (µ)k ≤ p21 + · · · + p2n
∈
[0.01, 100].
Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist.
Der ZGS ist anwendbar und liefert PS ≈ N (µ, σ 2 ) mit Fehler
|δ| ≤
ρ31 + · · · + ρ3n
µ
1
≈ 3/2 = √
2
3/2
2
µ
(σ1 + · · · + σn )
µ
∈
[0.01, 0.1].
Daher nutzen wir den ZGS für große pk und Poisson für kleine pk .
Die einzelnen Summanden von S = X1 + · · · + Xn sind leicht zu verstehen: Xk ∼ B(1, pk )
hat Erwartung µk = E(Xk ) = pk , Varianz σk2 = V(Xk ) = pk (1 − pk ) ≈ pk , drittes Moment
ρ3k = E(|Xk − µk |3 ) = pk (1 − pk )(p2k + (1 − pk )2 ) ≈ pk . Trotz der großen Zahl n = 106 ist
die Fehlerschranke nicht besonders gut. Für Poisson sieht’s allerdings auch nicht besser aus.
Anwendung: Fehlerwahrscheinlichkeiten
V444
(3a) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern?
Im Extremfall µ = 10 000 und σ = 100 liefert Chebychev ganz grob
P(S ≥ 11 000) ≤
1
< 0.01 mit k = 10.
1 + k2
Für die Normalverteilung sind 10σ–Abweichungen unwahrscheinlich:
ˆ ∞ −ξ2 /2
e
√
√
dξ < 10−23 , aber leider nur |δ| ≤ 1/ µ ∈ [0.01, 0.1].
2π
10
Wenn wir der Normalverteilung glauben, dann ist eine 10σ–Abweichung praktisch unmöglich:
Sie ist unwahrscheinlicher als dreimal nacheinander sechs Richtige im Lotto zu tippen!
Exakt liegt hier allerdings nicht die Normalverteilung N (µ, σ 2 ) vor, daher müssen wir zusätzlich
den Approximationsfehler berücksichtigen: Unsere Schranke aus (2) ist hier leider recht grob.
Für µ < 10 000 wird alles nur noch schlimmer. Nach Beobachtung von 11 000 Fehlern scheint
das Modell jedenfalls nicht mehr glaubwürdig! Dann ist die Annahme pk ≤ 10−2 nicht haltbar,
oder die angenommene Unabhängigkeit ist nicht gegeben.
Anwendung: Fehlerwahrscheinlichkeiten
(3b) Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern?
Das ist etwa mit µ = 10 000 und σ = 100 durchaus vereinbar.
(4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600.
Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit?
√
√
Wir haben σ ≈ 60 und N = 5, also 2σ/ N = 24.
Als Intervall finden wir [3576, 3624]. (Das ist bereits recht genau.)
(5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10?
√
Wir verlangen 2σ/ N ≤ 10, im oben Beispiel σ ≈ 60 also N ≥ 144.
(Das könnte in diesem Fall zu aufwändig, d.h. zu teuer sein.)
V445
Wie selten sind seltene Ereignisse?
V446
Erläuterung
„We were seeing things that were 25-standard deviation moves, several
days in a row.“, sagte der Finanzvorstand von Goldman-Sachs, David
Viniar, der Financial Times im August des Krisenjahres 2007.
Aufgabe: Ist das plausibel? Meint er ernsthaft die Normalverteilung?
Lösung: Für die Normalverteilung ist das sicher nicht plausibel!
Die Wkt für kσ–Abweichungen nach Normalverteilung und Chebychev:
ˆ ∞ −x2 /2
1
e
√
pk =
dx ≤
1 + k2
2π
k
Die Werte von pk entnimmt man der (erweiterten) Tabelle:
k=
2
3
4
5
6
pk /
0.02275
0.00135
3.2 · 10−5
2.9 · 10−7
9.9 · 10−10
k=
7
10
15
20
25
pk /
1.3 · 10−12
7.7 · 10−24
3.7 · 10−51
2.8 · 10−87
3.1·10−136
Letzteres ist unwahrscheinlicher als 20mal nacheinander im Lotto sechs
Richtige zu tippen. Das genannte Modell scheint unplausibel / unseriös.
Anwendung: ZGS oder LGS?
V447
Ergänzung
Wir untersuchen die Summe S = X1 + · · · + Xn von n unabhängigen
ZVariablen X1 , . . . , Xn : Ω → R. Als Verteilungen betrachten wir dabei:
(1) Xk ∼ N (µk , σk2 ) normalverteilt mit µk , σk ∈ R
(2) Xk ∼ B(1, tk ) mit tk ∈ [0.1, 0.9] abhängig von k
(3) Xk ∼ B(1, t) mit t ∈ [0.1, 0.9] unabhängig von k
(4) Xk ∼ B(Nk , t) mit Nk ∈ N und t ∈ [0.1, 0.9]
Aufgabe: Auf welche Summen S lässt sich der ZGS anwenden?
Auf welche lässt sich zudem der speziellere LGS anwenden?
Was lässt sich jeweils über den Approximationsfehler δ sagen?
In welchen Fällen kennen Sie die exakte Verteilung von S?
Anwendung: ZGS oder LGS?
V448
Ergänzung
Lösung: (1) Der ZGS lässt sich anwenden, aber nicht der LGS da die
Summe S nicht binomialverteilt ist. Sie ist hier exakt normalverteilt:
2
S ∼ N (µ, σ )
mit
µ=
n
X
k=1
µk
2
und σ =
n
X
σk2
k=1
Der Approximationsfehler ist demnach δ = 0, siehe folgende Aufgaben.
(2) Der ZGS lässt sich anwenden, der LGS nicht da die Summe S nicht
binomialverteilt ist. Den Approximationsfehler δ entnimmt man Satz V3A.
Ein solches Beispiel diskutiert die obige Aufgabe V441 .
(3) Die exakte Verteilung ist hier die Binomialverteilung S ∼ B(n, t).
Der ZGS lässt sich anwenden, der LGS auch und liefert eine bessere
Näherung. Den Fehler δ bzw. korrigiert ε entnimmt man Satz U3A.
(4) Die exakte Verteilung ist hier S ∼ B(N, t) mit N = N1 + · · · + Nn .
Der ZGS lässt sich anwenden, der LGS auch, wenn man es richtig
anstellt. Zur Summe von binomialverteilten ZVariablen siehe unten.
Summe normalverteilter Zufallsvariablen
V449
Ergänzung
Aufgabe: Die Zufallsvariablen X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) seien
unabhängig und normalverteilt mit den angegebenen Parametern.
Bestimmen Sie für die Summe S = X + Y den Erwartungswert E(S)
und die Varianz V(S) sowie die Verteilung auf R. Ist S normalverteilt?
Lösung: Dank Linearität addieren sich die Erwartungswerte:
E(S) = E(X + Y ) = E(X) + E(Y ) = µ1 + µ2
Dank Unabhängigkeit addieren sich auch die Varianzen:
V(S) = V(X + Y ) = V(X) + V(Y ) = σ12 + σ22
Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit:
N (µ1 , σ12 ) ∗ N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 )
Das ist keineswegs offensichtlich! Man kann es geduldig direkt
ausrechnen oder geschickt mit Fourier–Transformation K417 .
Summe normalverteilte Zufallsvariablen
V450
Ergänzung
Aufgabe: Seien X1 , X2 , X3 , . . . unabhängige Zufallsvariablen,
und jede sei normalverteilt gemäß Xk ∼ N (µk , σk2 ) mit µk , σk ∈ R.
Bestimmen Sie für die Summe S = X1 + · · · + Xn die Erwartung E(S)
und die Varianz V(S) sowie die Verteilung auf R. Gilt hier der ZGS?
Es darf gelacht werden: Wie groß ist der Approximationsfehler δ?
Lösung: Dank Linearität addieren sich die Erwartungswerte:
E(S) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = µ1 + · · · + µn =: µ
Dank Unabhängigkeit addieren sich auch die Varianzen:
V(S) = V(X1 + · · · + Xn ) = V(X1 ) + · · · + V(Xn ) = σ12 + · · · + σn2 =: σ 2
Aus der vorigen Aufgabe erhalten wir die Verteilung S ∼ N (µ, σ 2 ).
(Wir haben dies für zwei Summanden explizit nachgerechnet.
Für n Summanden folgt es dann offensichtlich durch Induktion.)
Hier gilt der ZGS exakt, d.h. mit Approximationsfehler δ = 0.
Summe binomialverteiler Zufallsvariablen
V451
Ergänzung
Aufgabe: Seien X ∼ B(1, p) und Y ∼ B(1, q) unabhängig mit p, q > 0.
Bestimmen Sie für die Summe S = X + Y die Erwartung E(S) und die
Varianz V(S) sowie die Verteilung auf {0, 1, 2}. Ist S binomialverteilt?
Lösung: Dank Linearität addieren sich die Erwartungswerte:
E(S) = E(X + Y ) = E(X) + E(Y ) = p + q
Dank Unabhängigkeit addieren sich auch die Varianzen:
V(S) = V(X + Y ) = V(X) + V(Y ) = p(1 − p) + q(1 − q).
Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit:
P(S=0) = (1 − p)(1 − q), P(S=1) = p(1 − q) + (1 − p)q, P(S=2) = pq
Wäre dies binomialverteilt, so hätten wir S ∼ B(2, t) für ein t ∈ [0, 1].
Wegen E(S) = 2t = p + q müsste dann t = (p + q)/2 gelten.
Vergleich: t2 = pq bedeutet p2 + 2pq + q 2 = 4pq, also (p − q)2 = 0.
Eine Binomialverteilung erhalten wir demnach nur für den Fall p = q!
Zusatz: Im Sonderfall p = 0 gilt S ∼ B(1, q); für q = 0 gilt S ∼ B(1, p).
Summe binomialverteiler Zufallsvariablen
V452
Ergänzung
Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N.
Bestimmen Sie für S = X + Y die Erwartung E(S) und Varianz V(S)
Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern?
Lösung: Wir wissen E(X) = mt und V(X) = mt(1 − t).
Entsprechend gilt E(Y ) = nt und V(Y ) = nt(1 − t).
Dank Linearität folgt E(S) = E(X + Y ) = E(X) + E(Y ) = (m + n)t.
Dank Unabhängigkeit addieren sich auch die Varianzen:
V(S) = V(X + Y ) = V(X) + V(Y ) = (m + n)t(1 − t).
Wie findet man am geschicktesten die Verteilung von S? Rechnung?
Wir nutzen die Darstellung X = X1 + · · · + Xm und Y = Y1 + · · · + Yn
als Summe unabhängiger Zufallsvariablen Xi , Yj ∼ B(1, t).
Hieraus folgt S ∼ B(m + n, t) ohne weitere Rechnung.
Dieser Rechentrick vereinfacht die Aufgabe ungemein!
Die explizite Rechnung führt auch zum Ziel ist aber länglich. . .
Hier nützt die folgende Rechenmethode der erzeugenden Funktionen.
Rechenmethode: erzeugende Funktion
V501
Ergänzung
Aufgabe: (1) Berechnen Sie G(z) := E z X für X ∼ B(n, t) und z ∈ C.
(2) Berechnen Sie hieraus umgekehrt G(k) (0)/k! für k = 0, 1, 2, . . .
Lösung: (1) Wir kennen die Binomialverteilung B(n, t):
n k
P(X=k) =
t (1 − t)n−k .
k
Als Funktion G(z) = E z X erhalten wir ein hübsches Polynom:
∞ X
n k
G(z) =
t (1 − t)n−k · z k = (tz + 1 − t)n
k
k=0
(2) Es gilt G(k) (z) = n(n − 1) · · · (n − k + 1) tk (tz + 1 − t)n−k , also
1 (k)
n k
G (0) =
t (1 − t)n−k .
k!
k
Das geht ganz leicht und das Ergebnis ist noch dazu sehr einfach!
Diesen Trick wollen wir daher zu einer Rechenmethode ausbauen. . .
Rechenmethode: erzeugende Funktion
V502
Ergänzung
Das vorige schöne Beispiel motiviert folgende Definition.
Definition V5A (erzeugende Funktion einer WVerteilung auf N)
Zur diskreten WVerteilung g : N → [0, 1] ist die erzeugende Funktion
G(z) :=
∞
X
g(k)z k = g(0)z 0 + g(1)z 1 + g(2)z 2 + . . . .
k=0
Ist X : Ω → N verteilt gemäß P(X=k) = g(k), so gilt demnach
∞
X
X
G(z) := E z
=
P(X=k) · z k
k=0
für z ∈ C.
Die Elementarwahrscheinlichkeiten können wir rekonstruieren durch
P(X=k) = g(k) =
1 (k)
G (0).
k!
Rechenmethode: erzeugende Funktion
V503
Ergänzung
Erzeugende Funktionen bieten nützliche Rechentricks, zum Beispiel:
Für die Summe X + Y unabhängiger Zufallsvariablen X, Y gilt
GX+Y (z) = E z X+Y
= E zX · zY
= E z X ·E z Y = GX (z) · GY (z).
Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N.
Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern?
Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet:
GX (z) = (tz + 1 − t)m
und GY (z) = (tz + 1 − t)n
Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen
GS (z) = GX (z) · GY (z) = (tz + 1 − t)m+n .
Somit ist S ∼ B(m + n, t) tatsächlich binomialverteilt.
Hier stellt sich die Frage: Lässt sich die Verteilung von S aus GS
rekonstruieren? Wenn ja, wie? Das ist Inhalt der nächsten Aufgabe.
Rechenmethode: erzeugende Funktion
V504
Ergänzung
Sei X : Ω → N eine Zufallsvariable mit
= g(k)
Verteilung
P P(X=k)
k für z ∈ C.
und erzeugender Funktion G(z) = E z X = ∞
g(k)z
k=0
Aufgabe: Berechnen Sie G(1). Ist somit der Konvergenzradius ≥ 1?
Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)?
Lösung: Da g eine WVerteilung ist, erhalten wir definitionsgemäß
∞
X
g(k) ≥ 0 und G(1) =
g(k) = 1.
k=0
Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| ≤ 1.
Der Konvergenzradius ρ erfüllt also ρ ≥ 1, und wir erhalten
G : { z ∈ C | |z| ≤ 1 } → C.
Innerhalb des Konvergenzkreises ist G beliebig oft differenzierbar.
Die Potenzreihe können wir wie gewohnt termweise differenzieren:
1
G(k) (z) = k! g(k)z 0 + . . . , also g(k) = G(k) (0).
k!
Die WVerteilung g und die Funktion G bestimmen sich so gegenseitig.
Rechenmethode: erzeugende Funktion
V505
Ergänzung
Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z X
für eine Poisson–verteile Zufallsvariable X ∼ P (λ) mit λ ≥ 0.
Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall?
Lösung: Wir kennen die Poisson–Verteilung P (λ) mit λ ≥ 0:
P(X=k) = e−λ λk /k!.
Die erzeugende Funktion ist demnach
G(z) =
∞
X
k=0
= e−λ
P(X=k) · z k
∞
X
k=0
(λz)k
k!
=
∞
X
e−λ
k=0
= e−λ eλz
λk k
·z
k!
= eλ(z−1) .
Der Konvergenzradius ist hier ∞. Der Exponentialreihe sei Dank!
Zudem ist das Ergebnis eλ(z−1) denkbar einfach. Alles wird gut. . .
Rechenmethode: erzeugende Funktion
V506
Ergänzung
Aufgabe: Seien X ∼ P (λ) und Y ∼ P (µ) unabhängig, λ, µ ≥ 0.
Ist die Summe S = X + Y Poisson–verteilt? Mit welchem Parameter?
Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet:
GX (z) = eλ(z−1)
und GY (z) = eµ(z−1)
Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen
GS (z) = GX (z) · GY (z) = eλ(z−1) · eµ(z−1) = e(λ+µ)(z−1) .
Somit ist S ∼ P (λ + µ) tatsächlich Poisson–verteilt.
Auch hier stellt sich die Frage: Lässt sich die Verteilung von S aus
GS rekonstruieren? Ja! Zum Glück wissen wir g(k) = G(k) (0)/k!.
Rechenmethode: erzeugende Funktion
V507
Ergänzung
Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z X für
eine geometrisch verteilte Zufallsvariable X ∼ Geom(q) mit 0 ≤ q < 1.
Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall?
Lösung: Wir kennen die geometrische Verteilung:
P(X=k) = (1 − q)q k−1 .
Die erzeugende Funktion ist hier
G(z) =
∞
X
k=1
∞
X
(1 − q)z
P(X=k) · z =
(1 − q)q k−1 z k =
.
(1 − qz)
k
k=1
Pol in z = q −1 : Der Konvergenzradius ist q −1 > 1, beliebig dicht an 1!
Es kann also vorkommen, dass die erzeugende Funktion G(z) nicht
für alle z ∈ C definiert ist. Wegen G(1) = 1 ist die Reihe aber zumindest
für alle |z| ≤ 1 absolut konvergent. Das genügt für Anwendungen.
Rechenmethode: erzeugende Funktion
V508
Ergänzung
Aufgabe: Seien X ∼ Geom(q) und Y ∼ Geom(p) unabhängig mit
0 ≤ p, q < 1. Ist die Summe S = X + Y ebenfalls geometrisch verteilt?
Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet:
GX (z) =
(1 − q)z
(1 − qz)
und GY (z) =
(1 − p)z
(1 − pz)
Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen
GS (z) = GX (z) · GY (z) =
(1 − q)(1 − p)z 2
.
(1 − qz)(1 − pz)
Wäre S geometrisch verteilt, also S ∼ Geom(r) mit 0 ≤ r < 1, so wäre
GS (z) =
(1 − r)z
.
(1 − rz)
Der Vergleich zeigt: S ist nicht geometrisch verteilt. (Warum?)
Die Familie der geometrisch verteilten Zufallsvariablen ist also nicht
stabil unter Faltung (unabhängigen Summen). Auch das ist also möglich
und mit erzeugenden Funktionen besonders leicht zu erkennen.
Rechenmethode: erzeugende Funktion
V509
Ergänzung
Aufgabe: (1) Für die erzeugende Funktion G(z) = E z X gilt
E(X) = G0 (1)
V(X) = G00 (1) + G0 (1) − G0 (1)2
und
Berechnen Sie auf diese Weise erneut die Erwartung und die Varianz
(2) der Binomialverteilung B(n, t) und (3) der Poisson–Verteilung P (λ).
Lösung: (1) Aus
G(z) =
∞
X
k=0
folgt
G0 (z) =
∞
X
k=0
und
G00 (z) =
∞
X
k=0
g(k) · z k
k g(k) · z k−1
k(k − 1) g(k) · z k−2 .
Einsetzen von z = 1 liefert die angegebenen Formeln.
Dieser Trick beschert uns die beiden wichtigsten Kenngrößen.
Rechenmethode: erzeugende Funktion
V510
Ergänzung
(2) Für X ∼ B(n, t) kennen wir die erz. Funktion G(z) = (tz + 1 − t)n .
Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos:
G0 (z) = n t (tz + 1 − t)n−1
=⇒
E(X) = G0 (1) = nt
Auch die Varianz erhalten wir leicht durch Ableiten nach z:
G00 (z) = n(n − 1) t2 (tz + 1 − t)n−1
V(X) = G00 (1) + G0 (1) − G0 (1)2 = nt(1 − t)
(3) Für X ∼ P (λ) kennen wir die erz. Funktion G(z) = eλ(z−1) .
Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos:
G0 (z) = λ eλ(z−1)
=⇒
E(X) = G0 (1) = λ
Auch die Varianz erhalten wir leicht durch Ableiten nach z:
G00 (z) = λ2 eλ(z−1)
V(X) = G00 (1) + G0 (1) − G0 (1)2 = λ2 + λ − λ2 = λ
Das entspricht den zuvor berechneten Werten. Die explizite
Berechnung führt natürlich auch zum Ziel. Erzeugende Funktionen
organisieren die Rechnung jedoch besonders geschickt und effizient.
Rechenmethode: erzeugende Funktion
V511
Ergänzung
Allgemeiner als zuvor X : Ω → N sei X : Ω → Z eine ganzzahlige
Zufallsvariable, die nun auch negative Werte annehmen darf.
Dies definiert die diskrete WVerteilung g : Z → [0, 1],
Pg(k) = P(X=k).
Wie immer ist die Gesamtmasse gleich Eins, also ∞
k=−∞ g(k) = 1.
Die erzeugende Funktion G(z) hat nun auch negative Exponenten, ist
also eine Laurent–Reihe und im Allgemeinen keine Potenzreihe mehr:
G(z) := E z X
=
∞
X
k=−∞
P(X=k) · z k
für z ∈ C.
Aufgabe: Berechnen Sie G(1). Konvergiert G auf der Kreislinie?
Lässt sich die obige Formel g(k) = G(k) (0)/k! weiterhin anwenden?
Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)?
Welche der obigen Rechentricks bleiben uns noch erhalten?
Rechenmethode: erzeugende Funktion
V512
Ergänzung
Lösung: Da g eine WVerteilung ist, haben wir definitionsgemäß
X
g(k) ≥ 0 und G(1) =
g(k) = 1.
k∈Z
Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| = 1.
Die übliche Formel g(k) = G(k) (0)/k! versagt bei einem Pol in z = 0.
Glücklicherweise können wir alle Koeffizienten eindeutig rekonstruieren
indem wir Residuen mittels komplexer Wegintegrale ausrechnen ?? :
ˆ
G(z)
1
g(k) =
dz.
2πi ∂B(0,1) z k+1
Die Wahrscheinlichkeitsverteilung
g : Z → [0, 1] und die erzeugende
P
k
Funktion G(z) = k∈Z g(k)z bestimmen sich so gegenseitig.
Die Integralsätze und Cauchys Residuenkalkül leben hoch!
Alle unsere Rechentricks für erzeugende Funktionen bleiben gültig,
selbst wenn X nicht nur Werte in N, sondern nun auch in Z annimmt.
Rechenmethode: Laplace–Transformation
V513
Ergänzung
Die Laplace–Transformation ist in vielen Bereichen ein nützliches
Werkzeug, insbesondere bei Differentialgleichungen (Kapitel L).
Ihre Anwendung in der WTheorie will ich hier kurz skizzieren.
Motivation: Zu X : Ω → N haben wir die erzeugende Funktion
G(z) = E z X
zumindest für |z| ≤ 1.
In der Wahrscheinlichkeitsrechnung
treten erzeugende Funktionen
X
G(z) = E z natürlich auf, wenn man Zufallsvariablen X : Ω → N
effizient behandeln will. Wir haben dies oben in Beispielen ausgeführt.
Entsprechendes wollen wir auch für Zufallsvariablen X : Ω → R≥0 .
Der Erwartungswert existiert für z = 1, denn E(1X ) = E(1)
= 1.
Für 0 < z ≤ 1 gilt 0 < z X ≤ 1, also existiert auch E z X .
Wir setzen daher z = e−s für s ∈ R≥0 und vereinbaren:
Rechenmethode: Laplace–Transformation
V514
Ergänzung
Definition V5B (Laplace–Transformierte eines WMaßes auf R≥0 )
Für jedes WMaß PX auf R≥0 ist seine Laplace–Transformierte:
ˆ ∞
−sX F : R≥0 → R, F (s) := E e
=
e−sx dPX
x=0
Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also
ˆ ∞
F (s) =
e−sx f (x) dx.
x=0
Allgemeiner erhalten wir so F : CRe≥0 → C holomorph auf CRe>0 .
´
Dank f (x) dx = 1 gilt absolute Integrierbarkeit und |F (s)| ≤ F (0) = 1.
Hier treten Laplace–Transformationen F (s) = E e−sX natürlich auf,
um kontinuierliche Zufallsvariablen X : Ω → R≥0 effizient zu behandeln.
Dies möchte ich mit einem kurzen Beispiel illustrieren.
Rechenmethode: Laplace–Transformation
V515
Ergänzung
Aufgabe: (1) Für die Laplace–Transformation F (s) = E e−sX gilt
F (0) = E(1) = 1, F 0 (0) = −E(X), F 00 (0) = E(X 2 ).
(2) Berechnen Sie F (s) sowie E(X) und V(X) für X ∼ E(λ),
also die Exponentialverteilung mit Dichte f (x) = λ e−λx für x ≥ 0.
Lösung: (1) Wir nehmen an, dass diese Erwartungswerte existieren:
ˆ ∞
ˆ ∞
2
E(X) =
xf (x) dx, E(X ) =
x2 f (x) dx.
x=0
x=0
Wir können dann F unter dem Integral ableiten und erhalten
ˆ ∞
ˆ ∞
0
−sx
00
F (s) =
−x e f (x) dx, F (s) =
x2 e−sx f (x) dx.
x=0
x=0
Für s = 0 ergeben sich hieraus obige Formeln.
Rechenmethode: Laplace–Transformation
(2) Sei X exponentialverteilt gemäß E(λ) mit λ > 0, mit Dichte
f : R≥0 → R≥0 ,
f (x) = λ e−λx .
Ihre Laplace–Transformierte rechnen wir direkt aus:
ˆ ∞
ˆ ∞
−sx
F (s) =
e f (x) dx =
e−sx · λ e−λx dx
x=0
x=0
ˆ ∞
λ h −(s+λ)x i∞
λ
=
e−(s+λ)x dx =
−e
=λ
s+λ
s+λ
x=0
x=0
Hieraus ergeben sich nun leicht Erwartungswert und Varianz:
−λ
,
(s + λ)2
2λ
F 00 (s) =
,
(s + λ)2
F 0 (s) =
1
,
λ
2
E(X 2 ) = F 00 (0) = 2 .
λ
E(X) = −F 0 (0) =
Wir erhalten V(X) = E(X 2 ) − E(X)2 =
1
,
λ2
wie zuvor berechnet.
V516
Ergänzung
Fourier–Transformation von WVerteilungen
V517
Ergänzung
Motivation: Die vorigen Rechnungen sind effizient und elegant.
Zur Zufallsvariablen X : Ω → N nutzen wir die erzeugende Funktion
∞
X
G(z) = E z X =
P(X=k) · z k
k=0
zumindest für |z| ≤ 1.
Allgemeiner, zu X : Ω → Z eventuell mit negativen Werten haben wir
∞
X
G(z) = E z X =
P(X=k) · z k
k=−∞
zumindest für |z| = 1.
Mit diesen Potenzreihen können wir gut arbeiten, wie oben gesehen!
Entsprechendes wünschen wir auch für Zufallsvariablen X : Ω → R.
Der Erwartungswert E z X wird zumindest für |z| = 1 existieren.
Wir setzen daher z = e−iξ für ξ ∈ R und vereinbaren:
Fourier–Transformation von WVerteilungen
V518
Ergänzung
Definition V5C (Fourier–Transformierte eines WMaßes auf R)
Für jedes WMaß PX auf R≥0 ist seine Fourier–Transformierte
ˆ
−iξX F : R → C, F (ξ) := E e
=
e−iξx dPX
x∈R
Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also
ˆ ∞
F (ξ) =
e−iξx f (x) dx.
Dank
´
R f (x) dx
−∞
= 1 gilt absolute Integrierbarkeit und |F (ξ)| ≤ F (0) = 1.
Man beachte die hier gewählte Konvention der Normierung:
√
Zur Bequemlichkeit lasse ich den Normierungsfaktor 1/ 2π weg.
In der Rücktransformation benötigen wir dann den Faktor 1/2π.
Fourier E e−iξX ist ein Spezialfall von Laplace E e−sX
eingeschränkt auf die imaginäre Achse s = iξ mit ξ ∈ R.
Fourier–Transformation von WVerteilungen
V519
Ergänzung
Wiederholung: Nennen Sie die Wahrscheinlichkeitsdichte f (x)
2
einer normalverteilten Zufallsvariablen
−iξXX
∼ N (µ, σ ) sowie die
Fourier–Transformierte F (ξ) = E e
und ihre Rücktransformation.
Lösung: Für die Normalverteilung N (µ, σ 2 ) wissen wir
(x−µ)2
1
f (x) = √ e− 2σ2
σ 2π
=⇒
K128
F (ξ) = e−iµξ−σ
2 ξ 2 /2
.
Durch Rücktransformation von F lässt sich f rekonstruieren:
ˆ ∞
1
f (x) =
F (ξ) eiξx dξ
2π −∞
Man beachte die hier gewählte Konvention der Normierung.
Bei der Fourier–Transformation geht keine Information verloren:
Die Rücktransformation rekonstruiert die ursprüngliche Verteilung.
Fourier–Transformation von WVerteilungen
V520
Ergänzung
Die Fourier–Transformation ist ein mächtiges Universalwerkzeug.
Wir haben dieser Technik daher ein eigenes Kapitel gewidmet.
Die dort erlernten Rechenmethoden zahlen sich bei der Behandlung
vieler Probleme aus, so auch hier für die Wahrscheinlichkeitsrechnung.
Zudem haben wir wichtige Beispiele und Erfahrungen gesammelt,
die in vielen Problemstellungen erneut auftreten.
−sX Erzeugende Funktionen E z X , Laplace–Transformierte
E
e
−iξX
und Fourier–Transformierte E e
sind nützliche Rechenmethoden.
Sie entspringen alle derselben natürlichen Idee, wie hier skizziert:
Transformation reorganisiert alle Informationen auf praktische Weise.
Durch Rücktransformation lässt sich jeweils die ursprüngliche Verteilung
rekonstruieren, es geht also tatsächlich keinerlei Information verloren.
Zur Illustration will ich als Hauptergebnis den zentralen Grenzwertsatz
mit der Fourier–Transformation erklären und nachrechnen.
Erwartungswert und Varianz
V521
Ergänzung
Aufgabe: Berechnen Sie F (0), F 0 (0), F 00 (0) und F 000 (0) sowie hiermit
die Taylor–Entwicklung zweiter Ordnung von F (ξ) um ξ = 0.
´
Lösung: Existieren die Momente R |x|k f (x) dx < ∞ für k = 1, 2, 3, . . . ,
so dürfen wir für F (k) die Ableitung unters Integral ziehen ?? :
ˆ
ˆ
d
∂ −iξx
0
−iξx
F (ξ) =
e
f (x) dx
e
f (x) dx
=
dξ R
∂ξ
R
ˆ
= (−ix) e−iξx f (x) dx =⇒ F 0 (0) = −iE(X)
ˆR
00
F (ξ) = (−x2 ) e−iξx f (x) dx =⇒ F 00 (0) = −E(X 2 )
ˆR
F 000 (ξ) = (ix3 ) e−iξx f (x) dx
=⇒ F 000 (0) = iE(X 3 )
R
Für µ = 0 und σ 2 > 0 hat F demnach die Taylor–Entwicklung
F (ξ) = 1 − σ 2 ξ 2 /2 + . . .
Das dritte Moment liefert eine Fehlerschranke O(ξ 3 ) für das Restglied.
Ausführung bei Feller, Introduction to Probability, vol. 2 (1971), §XVI
Summe unabhängiger Zufallsvariablen
V522
Ergänzung
Lemma V5D (Summe unabhängiger Zufallsvariablen)
Seien X, Y : Ω → R unabhängige ZV mit Transformierten FX , FY .
Die Summe X + Y hat dann die Transformierte FX+Y = FX · FY .
Nachrechnen: Auch e−iξX und e−iξY sind unabhängig, also gilt
FX+Y (ξ) = E e−iξ(X+Y )
= E e−iξX · e−iξY
= FX (ξ) · FY (ξ)
= E e−iξX · E e−iξY
Das ist der entscheidende Trick! Er vereinfacht die Rechnung.
Damit haben wir alle Werkzeuge, um den zentralen Grenzwertsatz zu
beweisen! Ich formuliere ihn in vereinfachter Form für identisch verteilte,
unabhängige Zufallsvariablen. Vor allem aber zeige ich die Konvergenz
ohne eine explizite Fehlerschranke, um alle Argumente so einfach wie
möglich zu halten. Für eine detaillierte Ausarbeitung müsste man die
Fehlerterme kontrollieren, die hier nur mit „. . . “ abgekürzt werden.
Beweis des zentralen Grenzwertsatzes
V523
Ergänzung
Seien X1 , X2 , X3 , . . . : Ω → R unabhängige Zufallsvariablen.
Es gelte E(Xk ) = µ und E(Xk2 ) = σ 2 > 0 sowie E(|Xk |3 ) ≤ ρ3 < ∞.
Die Summe Sn = X1 + · · · + Xn hat Erwartung nµ und Varianz nσ 2 .
Wir normieren Sn zu Erwartung 0 und Varianz 1 durch die Skalierung
Sn∗ :=
X1 + · · · + Xn − nµ
√
.
σ n
Wir wollen nun PSn ≈ N (nµ, nσ 2 ) zeigen, normiert also PSn∗ ≈ N (0, 1).
Fehlerschranken sind für die Praxis wichtig aber schwer zu beweisen.
In dieser Skizze begnügen wir uns mit dem Grenzwert für n → ∞.
Satz V5E (zentraler Grenzwertsatz, ohne Fehlerschranken)
Die Verteilung von Sn∗ konvergiert gegen die Normalverteilung N (0, 1).
Das ist die qualitative Aussage PS ≈ N (nµ, nσ 2 ) aus Satz V3A.
Die quantitative Fehlerabschätzung lassen wir hier außer Acht.
Beweis des zentralen Grenzwertsatzes
V524
Ergänzung
Aufgabe: (1) Berechnen Sie die Fourier–Transformierte Fn von Sn∗ .
(2) Wie folgt hieraus der zentrale Grenzwertsatz für n → ∞?
(3) Warum geht das plötzlich so leicht?
Beweis: (1) Die Transformierte von
Xk√−µ
σ n
ist Fk (ξ) = 1 − ξ 2 /2n + . . . .
Die Transformierte der Summe Sn∗ ist das Produkt der Transformierten:
n
→ exp(−ξ 2 /2) = F (ξ) für n → ∞.
Fn (ξ) = 1 − ξ 2 /2n + . . .
(2) Der Grenzwert F ist die Transformierte der Normalverteilung N (0, 1)!
Rücktransformation: Die Verteilung von Sn∗ konvergiert gegen N (0, 1).
(3) Das geht leicht dank starker Werkzeuge wie Fourier–Transformation!
Zwecks Vereinfachung verzichten wir zudem auf Fehlerabschätzungen.
Damit können wir den ZGS zumindest qualitativ nachrechnen:
Für großes n ist X1 + · · · + Xn annähernd N (nµ, nσ 2 )–verteilt.
Fourier–Transformation der Cauchy–Verteilung
V525
Ergänzung
Aufgabe: Ist für a > 0 die folgende Funktion eine WDichte?
f : R → R,
f (x) =
1
a
2
π a + x2
Man bestimme Erwartung und Varianz und die Fourier–Transformierte.
f (x)
endlastig
(fat tail)
−3
−2
−1
0
1
2
3
√
2
Der Graph erinnert an die Glockenkurve ϕ(x) = e−x /2 / 2π.
Aber die Cauchy–Verteilung hat völlig andere Eigenschaften:
Vor allem klingt sie nicht exponentiell ab, sondern nur wie 1/x2 .
Das hat dramatische Konsequenzen: Es existiert keine Erwartung!
x
Fourier–Transformation der Cauchy–Verteilung
V526
Ergänzung
Lösung: Wir haben f ≥ 0 und die Gesamtmasse ist
ˆ
x ∞
1
f (x) dx =
arctan
=1
π
a −∞
R
Für Erwartung und Varianz benötigen wir folgende Integrale:
ˆ
ˆ
ax
1
ax2
1
dx
dx = ∞.
und
π R a2 + x2
π R a2 + x2
Das erste ist nicht absolut integrierbar, nur als Cauchy–Hauptwert.
Der Median ist offensichtlich 0, aber die Erwartung existiert nicht!
Hier haben Erwartungswert und Varianz demnach keinen Sinn.
Die Fourier–Transformierte haben wir bereits berechnet K113 :
ˆ ∞
1 −iξx
a
F (ξ) = E e−iξX =
e
· 2
dx = e−a|ξ|
2
π
a
+
x
−∞
Die ursprüngliche WDichte f rekonstruiert man hieraus durch
Rücktransformation. Man beachte, dass F in 0 nicht differenzierbar ist.
Dies entspricht der Tatsache, dass die Erwartung E(f ) nicht existiert.
Fourier–Transformation der Cauchy–Verteilung
V527
Ergänzung
Die Cauchy–Verteilung C(a) mit a > 0 ist gegeben durch die Dichte
f :R → R
mit
f (x) =
1
a
.
2
π a + x2
Aufgabe: Seien X ∼ C(a) und Y ∼ C(b) unabhängig Cauchy–verteilt.
Ist ihre Summe S = X + Y Cauchy–verteilt? Mit welchem Parameter?
Lösung: Wir wissen E e−iξX = e−a|ξ| und ebenso E e−iξY = e−b|ξ| .
Dank Unabhängigkeit von X und Y gilt für die Summe S = X + Y somit
E e−iξS = E e−iξ(X+Y )
= E e−iξX · e−iξY
= E e−iξX · E e−iξY
= e−a|ξ| · e−b|ξ|
= e−(a+b)|ξ|
Durch Rücktransformation gewinnen wir hieraus die Verteilung von S:
Demnach ist die Summe ebenfalls Cauchy–verteilt gemäß C(a + b).
Die Cauchy–Verteilungen (C(a))a∈R>0 sind stabil unter Faltung!
Fourier–Transformation der Cauchy–Verteilung
V528
Ergänzung
Seien X1 , . . . , Xn ∼ C(a) unabhängig und identisch Cauchy–verteilt.
Wie im ZGS betrachten wir die (wie üblich normierte) Summe
1
Sn∗ := √ X1 + · · · + Xn .
n
Aufgabe: Welche Verteilung PSn∗ hat die Zufallsvariable Sn∗ ?
Konvergiert PSn∗ für n → ∞ gegen eine Normalverteilung?
Lösung: Die Summe X1 + · · · + Xn ist C(na)–verteilt.
√
Durch den Normierungsfaktor 1/ n ist Sn∗ dann C(a)–verteilt.
Für n → ∞ ist die Verteilung fix und konvergiert somit gegen C(a).
Insbesondere konvergiert sie nicht gegen eine Normalverteilung!
Die Cauchy–Verteilungen C(a) erfüllen nicht die Voraussetzungen
des ZGS (V3A): Die geforderten Momente µ, σ, ρ existieren nicht!
Daher lässt sich der zentrale Grenzwertsatz hier nicht anwenden.
Unsere explizite Rechnung zeigt tatsächlich genauer noch mehr:
Die Verteilung der Summe konvergiert nicht gegen die Normalverteilung!