MAE4 Mathematik: Analysis für Ingenieure 4

Werbung
MAE4
Mathematik: Analysis für Ingenieure 4
Christoph Kirsch
2. Juni 2016
Inhaltsverzeichnis
1 Wahrscheinlichkeitsrechnung (Forts.)
1.1 Zusammenfassung/Erinnerung: Wahrscheinlichkeitsrechnung aus MAE3 . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit .
1.3 Zufallsvariablen und Verteilungen . . . . . . . . . . . . . . . . . .
1.3.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . .
1.3.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . .
1.3.3 Überabzählbar unendliche Ergebnismengen . . . . . . . .
1.3.4 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . .
1.3.5 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . .
1.4 Verteilungen von Zufallsvariablen in MATLAB . . . . . . . . . .
1.5 Transformationen von Zufallsvariablen . . . . . . . . . . . . . . .
1.5.1 Lineare Transformationen . . . . . . . . . . . . . . . . . .
1.5.2 Anwendung: Transformation auf die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.3 Nichtlineare Transformationen . . . . . . . . . . . . . . .
1.6 Quantilfunktion und Masszahlen von Verteilungen . . . . . . . .
1.6.1 Quantilfunktion . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Lagemasse und Streuungsmasse . . . . . . . . . . . . . . .
1.7 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen .
1.7.1 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . .
1.7.2 Stochastische Unabhängigkeit von Zufallsvariablen . . . .
1.8 Transformationen von Zufallsvektoren . . . . . . . . . . . . . . .
1.8.1 Masszahlen der Transformierten . . . . . . . . . . . . . .
1.8.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . .
1.8.3 Verteilung der Transformierten . . . . . . . . . . . . . . .
1.8.4 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . .
1
2
2
6
12
13
23
28
29
33
35
38
38
39
40
41
41
44
53
54
62
66
67
72
73
74
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
2 Statistik
2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB
2.2 Deskriptive Statistik . . . . . . . . . . . . . . . . .
2.3 Schliessende Statistik . . . . . . . . . . . . . . . . .
2.3.1 Parameterschätzung . . . . . . . . . . . . .
2.3.2 Vertrauensintervalle . . . . . . . . . . . . .
2.3.3 Parameterschätzung in MATLAB . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
78
80
80
84
88
Überblick
In diesem vierten und letzten Teil einer viersemestrigen Vorlesung über Analysis
für Ingenieure werden die Stochastik sowie Funktionen von mehreren Variablen
und die Vektoranalysis als Hauptthemen behandelt.
Die Stochastik umfasst die Gebiete Wahrscheinlichkeitsrechnung und Statistik. Die elementare Wahrscheinlichkeitsrechnung aus MAE3 wird hier fortgesetzt, um auch überabzählbar unendliche Ergebnismengen behandeln zu können.
Danach werden Zufallsvariablen sowie Verteilungen eingeführt. In diesem Zusammenhang lernen Sie wichtige Kennzahlen wie den Erwartungswert oder die
Varianz kennen. In der Statistik werden die Themen Schätztheorie und statistische Tests behandelt. (wir sind nur bis hierhin gekommen)
Die Differenzialrechnung für Funktionen von mehreren Variablen wurde in
MAE3 eingeführt. Sie wird hier fortgesetzt mit der Einführung der wichtigsten Differenzialoperatoren sowie der mehrdimensionalen Integration. Auch die
Integralsätze von Gauss und Stokes werden behandelt.
Schliesslich werden ausgewählte Beispiele von partiellen Differenzialgleichungen behandelt, bei denen – im Gegensatz zu den gewöhnlichen Differenzialgleichungen aus MAE3 – die gesuchte Funktion von mehreren Variablen abhängt.
Einige der in dieser Vorlesung behandelten Themen sollten in Ihrer Vorlesung
FTH3 direkte Anwendung finden.
1
1.1
Wahrscheinlichkeitsrechnung (Forts.)
Zusammenfassung/Erinnerung: Wahrscheinlichkeitsrechnung aus MAE3
In der Wahrscheinlichkeitsrechnung betrachten wir Zufallsexperimente (MAE3,
Def. 24) mit einer (bisher endlichen) Ergebnismenge Ω. Die Elemente ω ∈ Ω
sind die möglichen Ergebnisse des betrachteten Zufallsexperiments.
Bei jeder Durchführung des Zufallsexperiments erhalten wir ein Ergebnis ω ∈ Ω.
Bemerkung: Ω ist nicht notwendigerweise eine Zahlenmenge.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
3
Beispiele:
1. Zufallsexperiment “einmaliger Würfelwurf”,
Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}.
2. Zufallsexperiment “zweimaliger Münzwurf”,
Ergebnismenge Ω = {(K, K), (K, Z), (Z, K), (Z, Z)}.
Für eine gegebene Ergebnismenge Ω definieren wir das Ereignisfeld Σ ⊆ P(Ω),
wobei P(Ω) die Potenzmenge (Menge aller Teilmengen) von Ω bezeichnet (MAE3,
Def. 25). Die Elemente A ∈ Σ (Teilmengen von Ω) heissen Ereignisse (MAE3,
Def. 26).
Wir sagen “das Ereignis A ∈ Σ tritt ein”, falls das Ergebnis ω ∈ Ω
des Zufallsexperiments auch ω ∈ A erfüllt.
Für abzählbare Ereignismengen Ω definiert man in der Regel Σ := P(Ω), das
heisst jede Teilmenge von Ω ist ein Ereignis. Für überabzählbar unendliche Ergebnismengen Ω ist die Situation komplizierter, und es gibt in diesem Fall Teilmengen von Ω, die keine Ereignisse sind. Wir werden später in dieser Vorlesung
auf diesen Fall eingehen.
Beispiel: Ω := {1, 2, 3, 4, 5, 6} (endlich, also abzählbar), Σ := P(Ω) (26 = 64
Elemente). Das Ereignis A := {2, 4, 6} ∈ Σ lässt sich interpretieren als “eine
gerade Zahl gewürfelt”: ω ∈ A gilt genau dann, wenn das Ergebnis ω ∈ Ω des
Würfelwurfs eine gerade Zahl ist.
Ein Paar (Ω, Σ), bestehend aus einer Ergebnismenge Ω und einem Ereignisfeld Σ ⊆ P(Ω), nennen wir einen messbaren Raum. Auf einem messbaren Raum
definieren wir ein Wahrscheinlichkeitsmass P : Σ → [0, 1].
Für jedes Ereignis A ∈ Σ gibt P (A) ∈ [0, 1] die Wahrscheinlichkeit
dafür an, dass das Ereignis A eintritt.
Für Ereignisse A, B ∈ Σ hat ein Wahrscheinlichkeitsmass P die folgenden Eigenschaften (MAE3, Satz 8):
1. P (Ac ) = 1 − P (A) (Gegenwahrscheinlichkeit),
2. P (∅) = 0,
3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (Additionssatz).
Ein Tripel (Ω, Σ, P ), bestehend aus einer Ergebnismenge Ω, einem Ereignisfeld
Σ ⊆ P(Ω) und einem Wahrscheinlichkeitsmass P : Σ → [0, 1], nennen wir einen
Wahrscheinlichkeitsraum.
Für endliche Ergebnismengen Ω kann man wie folgt ein Wahrscheinlichkeitsmass P konstruieren (MAE3, Satz 7):
• Für n ∈ N sei Ω = {ω1 , ω2 , . . . , ωn } die endliche Ergebnismenge des Zufallsexperiments.
• Definiere das Ereignisfeld Σ := P(Ω) (2n Elemente).
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
• Für n Zahlen pi ≥ 0, i ∈ {1, 2, . . . , n}, mit
n
4
pi = 1, definiere
i=1
P ({ωi }) := pi ,
i ∈ {1, 2, . . . , n}.
• Dadurch wird eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt, und für ein beliebiges Ereignis A ∈ Σ gilt
pi .
P (A) =
i: ωi ∈A
Bemerkung: Der wesentliche Punkt bei dieser Konstruktion ist, dass man den
Wert des Wahrscheinlichkeitsmasses P nicht für jedes einzelne der 2n Ereignisse definieren muss, sondern nur für die n sog. Elementarereignisse {ωi },
i = 1, 2, . . . , n (einelementige Teilmengen von Ω). Weil in der Regel n 2n
gilt, ist dies eine grosse Erleichterung.
Beispiel: (manipulierter Würfel) Ein Würfel sei derart manipuliert, dass die
Wahrscheinlichkeit dafür, eine 6 zu würfeln, doppelt so gross ist wie bei einem fairen Würfel. Die restlichen Elementarereignisse haben alle dieselbe Wahrscheinlichkeit. Wir definieren die Ergebnismenge Ω := {1, 2, 3, 4, 5, 6} und das
Ereignisfeld Σ := P(Ω) (26 = 64 Elemente). Für diesen Würfel wählen wir
p6 :=
1
3
2
, i ∈ {1, 2, 3, 4, 5}.
15
und pi :=
Diese Zahlen erfüllen
6
i=1
pi =
2
1 2
1
+5·
= + = 1.
3
15
3 3
Gemäss MAE3, Satz 7, wird durch die Definition von P ({i}) := pi ,
i ∈ {1, 2, 3, 4, 5, 6}, eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt. Zum Beispiel erhalten wir für das Ereignis A := {1, 3, 5} ∈ Σ (“ungerade
Zahl gewürfelt”) mit diesem Würfel die Wahrscheinlichkeit
P (A) =
pi = p1 + p3 + p5 =
i∈A
2
2
6
2
2
+
+
=
= = 40 %.
15 15 15
15
5
Als Spezialfall hatten wir schliesslich die Laplace-Experimente behandelt, bei
denen jedes Elementarereignis {ωi }, i ∈ {1, 2, . . . , n}, dieselbe Wahrscheinlichkeit hat, d. h. pi = n1 , i ∈ {1, 2, . . . , n}. In diesem Fall erhalten wir für ein
Ereignis A ∈ Σ die Wahrscheinlichkeit
P (A)
=
i: ωi ∈A
=
P ({ωi }) =
1
|A|
|A|
=
=
n
n
|Ω|
i: ωi ∈A
Anzahl der Ergebnisse, bei denen das Ereignis A eintritt
.
Anzahl aller möglichen Ergebnisse
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
5
Beispiel: (fairer Würfel) Es sei wieder Ω := {1, 2, 3, 4, 5, 6} und Σ := P(Ω)
(26 = 64 Elemente). Diesmal gelte aber pi = 16 , i ∈ {1, 2, 3, 4, 5, 6}, d. h. jedes
Elementarereignis {i}, i ∈ {1, 2, 3, 4, 5, 6}, habe dieselbe Wahrscheinlichkeit. Ein
Wurf mit einem solchen (fairen) Würfel ist ein Laplace-Experiment, und für
das Ereignis A := {1, 3, 5} ∈ Σ (“ungerade Zahl gewürfelt”) erhalten wir die
Wahrscheinlichkeit
P (A) =
=
Anzahl der Ergebnisse, bei denen das Ereignis A eintritt
Anzahl aller möglichen Ergebnisse
3
1
|A|
= = = 50 %.
|Ω|
6
2
Bei dem manipulierten Würfel aus dem letzten Beispiel betrug die Wahrscheinlichkeit für dieses Ereignis hingegen nur 40 %.
Um Wahrscheinlichkeiten für Ereignisse bei Laplace-Experimenten zu berechnen, muss man also die Mächtigkeit von Mengen (d. h. die Anzahl ihrer
Elemente) berechnen. Dies kann man mit Hilfe der (abzählbaren) Kombinatorik
(MAE3, Kap. 10) tun. In diesem Zusammenhang hatten wir das Urnenmodell
(MAE3, Kap. 10.1) verwendet:
Im Urnenmodell wird das Eintreten eines Elementarereignisses in
einem Laplace-Experiment durch das Ziehen einer Kugel aus einer
Urne, die n ∈ N verschiedene Kugeln enthält, veranschaulicht
(n ist dabei die Anzahl der Elementarereignisse, also auch die Anzahl der Ergebnisse). Jede Kugel aus der Urne wird mit derselben Wahrscheinlichkeit gezogen.
Beispiel: (fairer Würfelwurf interpretiert als Ziehung einer Kugel) Das Werfen
eines fairen Würfels (Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}) kann auch als das
Ziehen einer Kugel aus einer Urne, die n = 6 nummerierte Kugeln enthält,
aufgefasst werden.
Wenn ein Laplace-Experiment einmal mit Hilfe des Urnenmodells formuliert
wurde, dann kann man einfach auch Wahrscheinlichkeiten für die wiederholte
Durchführung dieses Zufallsexperiments berechnen.
Beispiel: (wiederholte Ziehung) Wir betrachten k ∈ N Würfe mit einem fairen
Würfel (jeder einzelne Wurf ist ein Laplace-Experiment) und veranschaulichen
den Vorgang mit Hilfe einer Urne mit n = 6 nummerierten Kugeln, aus der k-mal
mit Zurücklegen gezogen wird. Gemäss der Tabelle in MAE3, Kap. 10.1, gibt es
V ∗ (6; k) = 6k mögliche Wurfergebnisse (geordnete k-Tupel mit Elementen aus
{1, 2, 3, 4, 5, 6}, z. B. für k = 5: (1, 1, 1, 1, 1), (1, 4, 3, 4, 2), . . . ). Wir fragen nun
nach der Wahrscheinlichkeit dafür, dass in einem solchen Wurfergebnis die Zahl
2 nicht vorkommt. Für k = 1 erhalten wir
P ({keine 2 nach einem Wurf}) =
|{1, 3, 4, 5, 6}|
5
= .
|{1, 2, 3, 4, 5, 6}|
6
Dieselbe Wahrscheinlichkeit gilt auch für jeden einzelnen Wurf:
P ({keine 2 im i-ten Wurf}) =
5
,
6
i = 1, 2, . . . , k.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
6
Wenn in allen k Würfen keine 2 vorkommen darf, so können wir die Anzahl
der Möglichkeiten dafür mit V ∗ (5; k) = 5k angeben (Anzahl der geordneten
Stichproben (Umfang k) aus den verbleibenden Zahlen {1, 3, 4, 5, 6} (mit Wiederholung)), und die Wahrscheinlichkeit dafür mit
P ({keine 2 nach k Würfen}) =
5k
=
6k
k
5
> 0,
6
∀ k ∈ N,
mit P ({keine 2 nach k Würfen}) → 0, k → ∞. Die Gegenwahrscheinlichkeit
(MAE3, Satz 8, 1.) ist gegeben durch
P ({in k Würfen mindestens einmal 2 gewürfelt}) = 1 −
k
5
< 1,
6
∀ k ∈ N,
mit P ({in k Würfen mindestens einmal 2 gewürfelt}) → 1, k → ∞. Die Wahrscheinlichkeit dafür, in k Würfen mindestens einmal eine 2 zu würfeln, nimmt
also mit mit k zu und geht für k → ∞ sogar gegen 1. Die Wahrscheinlichkeit,
im (k + 1)-ten Wurf eine 2 zu würfeln, ist aber immer 1/6, auch wenn in den k
Würfen davor nie eine 2 erschienen ist!
1.2
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
Wir betrachten ein Laplace-Experiment, d. h. einen Wahrscheinlichkeitsraum
(Ω, Σ, P ) mit endlicher Ergebnismenge Ω = {ω1 , ω2 , . . . , ωn }, n ∈ N, und Σ :=
P(Ω), in dem alle Elementarereignisse gleich wahrscheinlich sind. Sei B ∈ Σ ein
Ereignis, dann gilt
P (B) =
Anzahl der Ergebnisse, bei denen das Ereignis B eintritt
|B|
=
Anzahl aller möglichen Ergebnisse
|Ω|
(Kap. 1.1). Sei A ∈ Σ ein weiteres Ereignis. Wir fragen, was die Wahrscheinlichkeit dafür ist, dass das Ereignis A eintritt, wenn wir bereits wissen, dass das
Ereignis B eingetreten ist. Diese Wahrscheinlichkeit ist gegeben durch
|A ∩ B|
=
|B|
|A∩B|
|Ω|
|B|
|Ω|
=
P (A ∩ B)
,
P (B)
falls P (B) = 0.
Diese bedingte Wahrscheinlichkeit kann auch im Allgemeinen (also auch für Zufallsexperimente, die keine Laplace-Experimente sind) auf diese Weise definiert
werden:
Definition 1 (bedingte Wahrscheinlichkeit) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ Ereignisse mit P (B) = 0. Die Wahrscheinlichkeit
von A unter der Bedingung, dass B eingetreten ist, ist definiert als
P (A|B) :=
P (A ∩ B)
.
P (B)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
7
Bemerkung: Bedingte Wahrscheinlichkeiten lassen sich einfach mit Hilfe von
Venn-Diagrammen (nach J. Venn, 1834–1923, der sich übrigens selbst auch mit
Wahrscheinlichkeitstheorie beschäftigt hat) veranschaulichen.
Beispiel: (fairer Würfel) Sei n = 6, Ω = {1, 2, 3, 4, 5, 6}, Σ = P(Ω), P ({i}) = 16 ,
i ∈ Ω (Laplace-Experiment). Wir definieren die Ereignisse
• A := {1, 3, 5} (“ungerade Zahl gewürfelt”),
• B := {1, 4} (“1 oder 4 gewürfelt”),
mit A ∩ B = {1}. Es gelten
P (A) =
3
1
|B|
2
1
|A ∩ B|
1
|A|
= = , P (B) =
= = und P (A ∩ B) =
= .
|Ω|
6
2
|Ω|
6
3
|Ω|
6
Mit Def. 1 erhalten wir die bedingten Wahrscheinlichkeiten
1
P (A ∩ B)
1
3
= 61 = = (wenn wir bereits wissen, dass eine 1
P (B)
6
2
3
oder eine 4 gewürfelt wurde, dann ist die Wahrscheinlichkeit dafür, dass
die gewürfelte Zahl ungerade ist, gleich 1/2),
• P (A|B) =
1
P (B ∩ A)
1
2
= 61 = = (wenn wir bereits wissen, dass eine
P (A)
6
3
2
ungerade Zahl gewürfelt wurde, dann ist die Wahrscheinlichkeit dafür,
dass die gewürfelte Zahl 1 oder 4 ist, gleich 1/3.
• P (B|A) =
Satz 1 (Multiplikationssatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und
seien A, B ∈ Σ Ereignisse. Dann gelten
P (A ∩ B) =
P (A|B)P (B),
falls P (B) = 0,
P (A ∩ B) =
P (B|A)P (A),
falls P (A) = 0.
Satz 2 (Gesetz der totalen Wahrscheinlichkeit) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ zwei Ereignisse mit P (A) = 0 und P (Ac ) = 0.
Dann gilt
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ).
Allgemeiner gilt für n ∈ N Ereignisse A1 , A2 , . . . , An ∈ Σ mit
n
Ai = Ω,
i=1
Ai ∩ Aj = ∅, i = j, und mit P (Ai ) = 0, i = 1, 2, . . . , n (eine sog. Partition von
Ω):
n
P (B|Ai )P (Ai ).
P (B) =
i=1
Bemerkung: Das Gesetz der totalen Wahrscheinlichkeit lässt sich mit Hilfe von
Ereignisbäumen veranschaulichen:
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
P (Ac )
P (A)
Ac
A
P (B |A)
c
P (B|A)
P (B c |Ac )
c
P (B|A )
Bc
B
8
Bc
B
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac )
Beispiel: Wir betrachten das Zufallsexperiment des zweimaligen Ziehens (ohne
Zurücklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln. Die
Ergebnismenge dieses Zufallsexperiments ist Ω = {(r, r), (r, b), (b, r), (b, b)}, und
wir definieren das Ereignisfeld Σ := P(Ω) (24 = 16 Elemente). Wir können
dieses Zufallsexperiment wie folgt als Ereignisbaum darstellen:
3
10
7
10
r
b
2
9
7
9
3
9
6
9
(r, r)
(r, b)
(b, r)
(b, b)
Wir definieren die Ereignisse
• A := {(r, r), (r, b)} (“die erste Kugel ist rot”),
Ac = {(b, r), (b, b)} (“die erste Kugel ist blau”),
• B := {(r, r), (b, r)} (“die zweite Kugel ist rot”),
B c = {(r, b), (b, b)} (“die zweite Kugel ist blau”).
An den Kanten der ersten Ebene stehen die Wahrscheinlichkeiten
P (A) =
3
,
10
P (Ac ) =
7
,
10
und an den Kanten der zweiten Ebene stehen die bedingten Wahrscheinlichkeiten
P (B|A) =
2
,
9
P (B c |A) =
7
,
9
P (B|Ac ) =
3
,
9
P (B c |Ac ) =
6
.
9
Nach dem Gesetz der totalen Wahrscheinlichkeit (Satz 2) erhalten wir
P (B)
=
P (B c ) =
3 7
3
2 3
+
=
,
9 10 9 10
10
6 7
7
7 3
+
=
.
P (B c |A)P (A) + P (B c |Ac )P (Ac ) =
9 10 9 10
10
P (B|A)P (A) + P (B|Ac )P (Ac ) =
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
9
Dieses Zufallsexperiment ist kein Laplace-Experiment, denn wir erhalten mit
dem Multiplikationssatz:
2
2 3
=
,
9 10
30
7
7 3
P ({(r, b)}) = P (B c |A)P (A) =
=
,
9 10
30
7
3 7
P ({(b, r)}) = P (B|Ac )P (Ac ) =
=
,
9 10
30
14
6 7
P ({(b, b)}) = P (B c |Ac )P (Ac ) =
=
.
9 10
30
P ({(r, r)})
= P (B|A)P (A) =
Also hat nicht jedes Elementarereignis dieselbe Wahrscheinlichkeit.
Satz 3 (Satz von Bayes (T. Bayes, 1701–1761)) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ zwei Ereignisse mit P (A) = 0 und P (B) = 0.
Dann gilt
P (A|B) =
P (B|A)P (A)
P (B)
Satz 2
=
P (B|A)P (A)
.
P (B|A)P (A) + P (B|Ac )P (Ac )
Allgemeiner gilt für n ∈ N Ereignisse A1 , A2 , . . . , An ∈ Σ mit
P (B|Aj )P (Aj )
P (B)
Satz 2
=
Ai = Ω,
i=1
Ai ∩ Aj = ∅, i = j, und mit P (Ai ) = 0, i = 1, 2, . . . , n:
P (Aj |B) =
n
P (B|Aj )P (Aj )
,
n
P (B|Ai )P (Ai )
j = 1, 2, . . . , n.
i=1
Bemerkung: Der Satz von Bayes erlaubt es, die bedingte Wahrscheinlichkeit
P (A|B) zu berechnen, wenn die bedingte Wahrscheinlichkeit P (B|A) bekannt
ist (oder umgekehrt). Dies ist oft nützlich, wenn eine der beiden bedingten
Wahrscheinlichkeiten auf direkte Weise schwierig zu berechnen ist.
Beispiele:
1. Mit den Wahrscheinlichkeiten aus dem vorherigen Beispiel und dem Satz
von Bayes erhalten wir
P (A|B) =
P (B|A)P (A)
=
P (B)
2 3
9 10
3
10
=
2
.
9
Die Wahrscheinlichkeit dafür, dass die erste Kugel rot ist, wenn wir bereits
wissen, dass die zweite Kugel rot ist, ist also 2/9.
2. Wir betrachten zwei Urnen mit insgesamt 20 Kugeln. Urne 1 enthält 7
rote und 3 blaue Kugeln, Urne 2 enthält 1 rote und 9 blaue Kugeln.
Jemand zieht zufällig eine Kugel aus einer zufällig gewählten Urne (wir
wissen nicht, aus welcher). Die gezogene Kugel ist rot. Wir gross ist die
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
10
Wahrscheinlichkeit dafür, dass die Kugel aus Urne 1 gezogen wurde? Wir
betrachten die drei Ereignisse
U1
= {die Kugel stammt aus Urne 1},
U2
R
= {die Kugel stammt aus Urne 2},
= {die Kugel ist rot}.
Wir wollen P (U1 |R) berechnen und verwenden dazu das Gesetz der totalen
Wahrscheinlichkeit sowie den Satz von Bayes: Die Urne wurde zufällig
ausgewählt, also gilt P (U1 ) = P (U2 ) = 12 . Wir berechnen ausserdem die
bedingten Wahrscheinlichkeiten
P (R|U1 ) =
7
,
10
P (R|U2 ) =
1
.
10
Wegen U1c = U2 erhalten wir mit dem Gesetz der totalen Wahrscheinlichkeit (Satz 2):
P (R) = P (R|U1 )P (U1 )+P (R|U2 )P (U2 ) =
8 1
4
2
7 1 1 1
· + · =
· =
= .
10 2 10 2
10 2
10
5
Diese Wahrscheinlichkeit hätten wir auch direkt berechnen können, denn
es sind ja insgesamt 8 von 20 Kugeln rot, also ist die Wahrscheinlichkeit
dafür, dass eine rote Kugel gezogen wird, gegeben durch P (R) = 8/20 =
2/5. Nach dem Satz von Bayes (Satz 3) gilt
P (U1 |R) =
P (R|U1 )P (U1 )
=
P (R)
7
10
·
2
5
1
2
=
7
= 87.5 %.
8
Die Wahrscheinlichkeit dafür, dass eine zufällig gezogene Kugel aus Urne
1 stammt, wenn sie rot ist, ist also 87.5 %. Auch das ist wie erwartet, denn
es liegen ja 7 der insgesamt 8 roten Kugeln in Urne 1.
Definition 2 (stochastisch unabhängige Ereignisse) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ Σ heissen stochastisch unabhängig,
falls P (A ∩ B) = P (A)P (B).
Bemerkung: Wenn A, B ∈ Σ stochastisch unabhängige Ereignisse sind, dann gilt
für die bedingten Wahrscheinlichkeiten P (A|B) und P (B|A):
P (A|B)
P (B|A)
Def. 1
=
Def. 1
=
P (A ∩ B)
P (B)
P (A ∩ B)
P (A)
Def. 2
=
Def. 2
=
P (A)P (B)
= P (A),
P (B)
P (A)P (B)
= P (B),
P (A)
falls P (B) = 0, und
falls P (A) = 0.
Dies bedeutet, dass das Eintreten des Ereignisses B die Wahrscheinlichkeit für
das Eintreten des Ereignisses A nicht beeinflusst, und umgekehrt.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
11
Beispiele:
1. Wir betrachten einen einmaligen Wurf mit einem fairen Würfel (LaplaceExperiment): P ({i}) = 16 , i = 1, 2, 3, 4, 5, 6.
• Die Ereignisse A := {1, 2, 3} und B := {1, 3, 5} sind nicht stochastisch unabhängig, denn es gilt P (A) = P (B) = 3/6 = 1/2, also
P (A)P (B) = 1/4, aber P (A ∩ B) = P ({1, 3}) = 2/6 = 1/3 = 1/2.
• Die Ereignisse A := {2, 4, 6} und B := {3, 6} sind stochastisch unabhängig, denn es gilt P (A) = 3/6 = 1/2, P (B) = 2/6 = 1/3, also
P (A)P (B) = 1/6. Es gilt auch P (A ∩ B) = P ({6}) = 1/6.
• Die Ereignisse A := {1, 3} und B := {3, 4} sind nicht stochastisch
unabhängig, denn es gilt P (A) = P (B) = 26 = 13 , also P (A)P (B) =
1
1
1
9 , aber P (A ∩ B) = P ({3}) = 6 = 9 .
2. Betrachten wir hingegen einen manipulierten Würfel mit P ({1}) = P ({2}) =
1
1
5
2
9 , P ({3}) = 18 , P ({4}) = 18 , P ({5}) = P ({6}) = 9 , so sind die Ereignisse A := {1, 3} und B := {3, 4} stochastisch unabhängig. Es gilt nämlich
nach dem Additionssatz (MAE3, Satz 8, 3.):
P (A) =
1
1
1
+
= ,
9 18
6
P (B) =
1
5
1
+
= ,
18 18
3
und auch
P (A ∩ B) = P ({3}) =
P (A)P (B) =
1 1
1
· =
,
6 3
18
1
,
18
also P (A ∩ B) = P (A)P (B).
3. Wir betrachten das zweimalige Ziehen von Kugeln aus einer Urne mit 3
roten und 7 blauen Kugeln. Je nachdem, ob wir mit oder ohne Zurücklegen
ziehen, erhalten wir die folgenden Ereignisbäume:
Ziehen ohne Zurücklegen
3
10
Ziehen mit Zurücklegen
7
10
r
3
10
b
7
10
r
2
9
7
9
3
9
6
9
(r, r)
(r, b)
(b, r)
(b, b)
b
3
10
(r, r)
7
10
(r, b)
Wir definieren die beiden Ereignisse
• A := {(r, r), (r, b)} (“die erste Kugel ist rot”),
• B := {(r, r), (b, r)} (“die zweite Kugel ist rot”).
3
10
(b, r)
7
10
(b, b)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
12
Die Ereignisse A und B sind beim Ziehen mit Zurücklegen stochastisch
unabhängig, beim Ziehen ohne Zurücklegen jedoch nicht. Nach dem Multiplikationssatz (Satz 1) gelten nämlich
2 3
9 10
3 3
10 10
• Ziehen ohne Zurücklegen: P (A ∩ B) = P (B|A)P (A) =
=
• Ziehen mit Zurücklegen: P (A ∩ B) = P (B|A)P (A) =
=
1
15 ,
9
100 .
3
, und mit dem Gesetz der totalen WahrIn beiden Fällen gilt P (A) = 10
scheinlichkeit (Satz 2) berechnen wir
• Ziehen ohne Zurücklegen:
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) =
3 7
3
2 3
+
=
,
9 10 9 10
10
• Ziehen mit Zurücklegen:
P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) =
3 7
3
3 3
+
=
,
10 10 10 10
10
3 3
9
und damit in beiden Fällen das Produkt P (A)P (B) = 10
10 = 100 . Nur
beim Ziehen mit Zurücklegen gilt also P (A ∩ B) = P (A)P (B), und damit
sind in diesem Fall die Ereignisse A und B stochastisch unabhängig.
Bei der stochastischen Unabhängigkeit spielen also sowohl die Ereignisse A, B ∈
Σ als auch das Wahrscheinlichkeitsmass P eine Rolle.
1.3
Zufallsvariablen und Verteilungen
Wir haben bisher Zufallsexperimente mit endlichen Ergebnismengen Ω betrachtet. Ab jetzt wollen wir auch abzählbar unendliche Ergebnismengen zulassen.
Beispiel: Wir zählen die innerhalb von 24 Stunden in einem Onlineshop eingegangenen Bestellungen. Dies ist ein Zufallsexperiment mit Ergebnismenge
Ω = N0 . Diese Ergebnismenge ist unendlich (es lässt sich keine Obergrenze
für die Anzahl der Bestellungen angeben), aber abzählbar.
Der Satz 7 aus MAE3 lässt sich leicht verallgemeinern, um auch für abzählbar
unendliche Ergebnismengen ein Wahrscheinlichkeitsmass zu konstruieren:
Satz 4 (Konstruktion eines Wahrscheinlichkeitsmasses) Sei Ω = {ω1 , ω2 , . . . }
eine abzählbare Ergebnismenge (endlich oder unendlich), und sei Σ := P(Ω).
Seien Zahlen pi ≥ 0, i ∈ N, gegeben mit
∞
i=1
pi = lim
N →∞
N
pi = 1.
(1)
i=1
Wir definieren die Funktion P : Σ → [0, 1] für die Elementarereignisse {ωi } ∈ Σ:
P ({ωi }) := pi ,
i ∈ N.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
13
Dadurch wird eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt,
und für ein beliebiges Ereignis A ∈ Σ gilt
P (A) =
pi .
i: ωi ∈A
Das Tripel (Ω, Σ, P ) ist dann ein Wahrscheinlichkeitsraum.
Bemerkungen:
• Im Falle von endlichen Ergebnismengen Ω ist dies genau die Konstruktion
aus MAE3, Satz 7. Wenn die Ergebnismenge Ω endlich ist, d. h. n ∈ N
Elemente hat, so können wir in Satz 4 einfach pi := 0 wählen für i > n.
• Aus MAE1 & MAE2 wissen Sie, dass die Konvergenz der unendlichen Rei∞
he
pi in (1) zumindest lim pi = 0 erfordert (notwendige Bedingung für
i→∞
i=1
Konvergenz). Es ist daher nicht möglich, dass alle pi gleich sind. Deshalb
gibt es keine Laplace-Experimente mit unendlicher Ergebnismenge.
Beispiel: Die Wahrscheinlichkeiten für die Anzahlen der innerhalb von 24 Stunden in einem Onlineshop eingegangenen Bestellungen können z. B. so aussehen:
0.06
p i = 48
0.05
i
exp(-48)/i!
p
i
0.04
0.03
0.02
0.01
0
0
20
40
60
80
100
i
Wir haben hier die Werte pi nur bis i = 100 gezeichnet, aber das Bild geht
natürlich rechts noch weiter, denn pi ist für alle i ∈ N0 definiert. Dies ist eine
sog. Poisson-Verteilung mit Parameter λ = 48, wie wir später in diesem Kapitel
noch sehen werden. Im betrachteten Zeitraum von 24 Stunden geht also im
Mittel alle 30 Minuten eine Bestellung ein.
1.3.1
Diskrete Zufallsvariablen
Wir haben bereits in MAE3 gesehen, dass Ergebnismengen von Zufallsexperimenten nicht immer Zahlenmengen sind. Zufallsvariablen erlauben es, für beliebige Ergebnismengen dennoch mit Zahlen zu rechnen.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
14
Definition 3 (diskrete reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum mit einer abzählbaren Ergebnismenge Ω und mit Σ = P(Ω). Eine
diskrete reelle Zufallsvariable ist eine Funktion X : Ω → R.
Bemerkungen:
• Die Zufallsvariable X ordnet jedem Ergebnis ω ∈ Ω genau einen Wert
X(ω) ∈ R zu (nach Definition einer Funktion, vgl. MAE1).
• Weil die Ergebnismenge Ω nach Voraussetzung abzählbar ist, so ist auch
das Bild der Zufallsvariablen X,
Ω := im(X) = {X(ω) | ω ∈ Ω} ⊆ R,
abzählbar. Es kann daher in der Form Ω = {x1 , x2 , . . . } dargestellt werden.
Beispiele:
1. Aus einer Urne mit 10 Kugeln (3 rote, 7 blaue) werden zufällig 3 Kugeln
gezogen (mit Zurücklegen). Die Ergebnismenge dieses Zufallsexperiments
ist gegeben durch die Menge der geordneten Tripel
Ω = {(r, r, r), (r, r, b), (r, b, r), (b, r, r), (r, b, b), (b, r, b), (b, b, r), (b, b, b)}
mit |Ω| = V ∗ (2; 3) = 23 = 8 (Variation mit Wiederholung; MAE3, Kap. 10.1).
Die Ergebnismenge Ω ist endlich, also abzählbar, und wir definieren das
Ereignisfeld Σ := P(Ω) (28 = 256 Elemente). Wir können dieses Zufallsexperiment wie folgt als Ereignisbaum darstellen:
3
10
7
10
r
b
3
10
7
10
(r, r)
3
10
(r, b)
7
10
(b, r)
(b, b)
3
10
7
10
3
10
7
10
3
10
7
10
3
10
7
10
(r, r, r)
(r, r, b)
(r, b, r)
(r, b, b)
(b, r, r)
(b, r, b)
(b, b, r)
(b, b, b)
Die Wahrscheinlichkeiten für die Elementarereignisse können wir jetzt mit
dem Multiplikationssatz (Satz 1) berechnen:
3
10
3
P ({(r, r, b)}) = P ({(r, b, r)}) = P ({(b, r, r)}) =
10
3
P ({(r, b, b)}) = P ({(b, r, b)}) = P ({(b, b, r)}) =
10
7
P ({(b, b, b)}) =
10
P ({(r, r, r)}) =
3
10
3
·
10
7
·
10
7
·
10
·
3
10
7
·
10
7
·
10
7
·
10
·
=
=
=
=
27
,
1000
63
,
1000
147
,
1000
343
.
1000
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
15
Es gilt
27
63
147
343
+3·
+3·
+
= 1,
1000
1000
1000 1000
also ist nach Satz 4 das Wahrscheinlichkeitsmass P : Σ → [0, 1] eindeutig
durch diese Werte auf den Elementarereignissen festgelegt. Betrachten wir
jetzt z. B. das Ereignis
A := {(r, r, b), (r, b, r), (b, r, r)}
(“genau zwei rote Kugeln gezogen”),
so ist die Wahrscheinlichkeit dafür, dass das Ereignis A eintritt, gemäss
Satz 4 gegeben durch
P (A)
=
=
=
P ({(r, r, b), (r, b, r), (b, r, r)})
P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)})
63
63
63
189
+
+
=
19 %.
1000 1000 1000
1000
Wir definieren die Funktion X : Ω → R durch
X(ω) = “Anzahl der roten Kugeln in ω”, ω ∈ Ω.
Gemäss Def. 3 ist X eine diskrete reelle Zufallsvariable, und es gilt z. B.
X((r, r, r)) = 3,
X((b, b, b)) = 0,
X((b, r, r)) = 2.
Das Bild der Zufallsvariable X ist Ω = im(X) = {0, 1, 2, 3}.
2. Ein fairer Würfel werde fünfmal geworfen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}5
besteht also aus V ∗ (6; 5) = 65 = 7776 geordneten 5-Tupeln (Variation mit
Wiederholung), z. B. ω := (2, 1, 4, 5, 5) ∈ Ω. Die Zufallsvariable X : Ω → R
sei jetzt definiert als
X := “Anzahl der Würfe mit Augenzahl 1”,
also z. B.
X ((3, 4, 1, 1, 6)) = 2,
X ((1, 1, 3, 4, 1)) = 3,
X ((3, 3, 5, 2, 4)) = 0.
Das Bild der Zufallsvariable X ist gegeben durch Ω = im(X) = {0, 1, 2, 3, 4, 5}.
3. Zwei faire Würfel werden gleichzeitig geworfen. Die Ergebnismenge Ω =
2
{1, 2, 3, 4, 5, 6} besteht also aus |Ω| = V ∗ (6; 2) = 62 = 36 geordneten
Paaren. Die Zufallsvariable X : Ω → R sei jetzt definiert als
X := “Augensumme der beiden Würfel”,
also z. B.
X ((1, 1)) = 2,
X ((3, 6)) = 9,
X ((4, 5)) = 9,
X ((6, 6)) = 12.
Das Bild der Zufallsvariable X ist Ω = im(X) = {2, 3, 4, . . . , 12}.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
16
Anstatt die Ergebnisse ω ∈ Ω des ursprünglichen Zufallsexperiments direkt zu
betrachten, können wir jetzt auch die Werte der Zufallsvariablen X, x ∈ Ω ,
als Ergebnisse eines neuen Zufallsexperiments auffassen. Weil die ursprüngliche
Ergebnismenge Ω abzählbar ist, so ist auch die neue Ergebnismenge Ω abzählbar, und wir können daher das neue Ereignisfeld als Σ := P(Ω ) definieren.
Damit erhalten wir den messbaren Raum (Ω , Σ ). Schliesslich definieren wir
das durch X induzierte Wahrscheinlichkeitsmass PX : Σ → [0, 1] auf (Ω , Σ )
für ein beliebiges A ∈ Σ wie folgt:
PX (A) := P ({ω ∈ Ω | X(ω) ∈ A}) = P X −1 (A) .
(2)
Dabei bezeichnet X −1 (A) ∈ Σ das Urbild von A ∈ Σ unter X. Gemäss Satz 4 ist
PX bereits durch seine Werte auf den Elementarereignissen {x} ∈ Σ eindeutig
festgelegt.
Ergebnismenge (abzählbar!)
Ereignisfeld
Elementarereignisse
Wahrscheinlichkeitsmass
Wahrscheinlichkeitsraum
ursprüngliches
Zufallsexperiment
Ω
Σ = P(Ω)
{ω} ∈ Σ, ω ∈ Ω
P : Σ → [0, 1]
(Ω, Σ, P )
neues
Zufallsexperiment
Ω = im(X) ⊆ R
Σ = P(Ω )
{x} ∈ Σ , x ∈ Ω
PX : Σ → [0, 1]
(Ω , Σ , PX )
Im Wahrscheinlichkeitsraum (Ω , Σ , PX ) sind viele Rechnungen einfacher als
im Wahrscheinlichkeitsraum (Ω, Σ, P ), weil im neuen Wahrscheinlichkeitsraum
jedes Ereignis eine Teilmenge der reellen Zahlen ist (A ∈ Σ ⇒ A ⊆ R).
Beispiele: Wir beziehen uns hier auf die vorherigen Beispiele 1.–3.
1. Das Bild von X ist Ω = im(X) = {0, 1, 2, 3}, also müssen wir die Werte von PX für die Elementarereignisse {0}, {1}, {2}, {3} ∈ Σ = P(Ω )
berechnen. Wir bestimmen zuerst die Urbilder dieser Elementarereignisse:
X −1 ({0}) = {ω ∈ Ω | X(ω) = 0} = {(b, b, b)} ∈ Σ = P(Ω),
X −1 ({1}) = {ω ∈ Ω | X(ω) = 1} = {(r, b, b), (b, r, b), (b, b, r)} ∈ Σ,
X −1 ({2}) = {ω ∈ Ω | X(ω) = 2} = {(r, r, b), (r, b, r), (b, r, r)} ∈ Σ,
X −1 ({3}) = {ω ∈ Ω | X(ω) = 3} = {(r, r, r)} ∈ Σ.
Jetzt berechnen wir die Werte von PX für die Elementarereignisse in Σ
mit (2) und Satz 4, sowie mit Hilfe der vorher berechneten Werte von P
für die Elementarereignisse in Σ:
343
34 %,
PX ({0}) = P X −1 ({0}) = P ({(b, b, b)}) =
1000
−1
PX ({1}) = P X ({1}) = P ({(r, b, b), (b, r, b), (b, b, r)})
= P ({(r, b, b)}) + P ({(b, r, b)}) + P ({(b, b, r)})
441
147 + 147 + 147
=
44 %,
=
1000
1000
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
17
PX ({2}) = P X −1 ({2}) = P ({(r, r, b), (r, b, r), (b, r, r)})
= P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)})
189
63 + 63 + 63
=
19 %,
=
1000
1000
27
PX ({3}) = P X −1 ({3}) = P ({(r, r, r)}) =
= 2.7 %.
1000
Das Wahrscheinlichkeitsmass PX auf (Ω , Σ ) lässt sich mit einem Stabdiagramm darstellen (MATLAB-Befehl stem):
0.45
0.4
0.35
0.25
X
P ({x})
0.3
0.2
0.15
0.1
0.05
0
0
1
2
3
x
Mit Satz 4 können wir jetzt auch Wahrscheinlichkeiten von weiteren Ereignissen berechnen, z. B.
PX (“höchstens 2 rote Kugeln”) =
PX ({0, 1, 2})
PX ({0}) + PX ({1}) + PX ({2})
973
343 + 441 + 189
=
97 %,
=
1000
1000
PX (“mindestens 2 rote Kugeln”) = PX ({2, 3}) = PX ({2}) + PX ({3})
189 + 27
27
=
=
22 %.
1000
125
Für diese Berechnungen wird das ursprüngliche Wahrscheinlichkeitsmass
P nicht mehr benötigt.
=
2. Bei einem fairen Würfel hat jedes Elementarereignis dieselbe Wahrscheinlichkeit
1
1
1
= 5 =
0.013 %, ω ∈ Ω = {1, 2, 3, 4, 5, 6}5.
P ({ω}) =
|Ω|
6
7776
Es handelt sich hier also um ein Laplace-Experiment (Kap. 1.1). Die Werte
des Wahrscheinlichkeitsmasses PX sind daher gegeben durch
−1
X −1 (A)
(2)
, A ∈ Σ = P(Ω ).
PX (A) = P X (A) =
|Ω|
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
18
Wir müssen daher nur die Mächtigkeit der Urbilder bestimmen und nicht
die Urbilder selbst. Dazu verwenden wir die abzählende Kombinatorik
(MAE3, Kap. 10.1). Gemäss Satz 4 ist PX eindeutig festgelegt durch seine
Werte auf den Elementarereignissen {0}, {1}, . . . , {5} ∈ Σ . Wir berechnen
die Mächtigkeiten der Urbilder dieser Elementarereignisse:
−1
X ({0}) = |{ω ∈ Ω | X(ω) = 0}| = 55 = 3125,
−1
X ({1}) = |{ω ∈ Ω | X(ω) = 1}| = 5 54 = 3125,
1
−1
X ({2}) = |{ω ∈ Ω | X(ω) = 2}| = 5 53 = 1250,
2
−1
X ({3}) = |{ω ∈ Ω | X(ω) = 3}| = 5 52 = 250,
3
−1
X ({4}) = |{ω ∈ Ω | X(ω) = 4}| = 5 51 = 25,
4
−1
X ({5}) = |{ω ∈ Ω | X(ω) = 5}| = 5 50 = 1.
5
Damit erhalten wir
PX ({xi }) =
mit
6
−1
X ({xi })
|Ω|
,
xi = 0, 1, 2, 3, 4, 5,
PX ({xi }) = 1. Wir stellen das Wahrscheinlichkeitsmass PX in
i=1
Tabellenform sowie als Stabdiagramm dar:
i
xi
PX ({xi })
in % (gerundet)
1
0
3125
7776
40
2
1
3
2
3125
7776
625
3888
40
16
4
3
5
4
125
3888
25
7776
3.2
0.32
6
5
1
7776
0.013
0.45
0.4
0.35
X
P ({x})
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
x
4
5
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
19
3. Bei zwei fairen Würfeln betrachten wir wieder ein Laplace-Experiment,
−1
d. h. PX (A) = P X −1 (A) = |X 36(A)| , A ∈ Σ = P(Ω ). Wir bestimmen
die Urbilder der Elementarereignisse in Σ :
X −1 ({2}) =
X −1 ({3}) =
{(1, 1)} ,
{(1, 2), (2, 1)} ,
X −1 ({4}) =
X −1 ({5}) =
{(1, 3), (2, 2), (3, 1)} ,
{(1, 4), (2, 3), (3, 2), (4, 1)} ,
X −1 ({6}) =
X −1 ({7}) =
{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} ,
{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} ,
X −1 ({8}) =
X −1 ({9}) =
{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} ,
{(3, 6), (4, 5), (5, 4), (6, 3)} ,
X −1 ({10}) =
X −1 ({11}) =
{(4, 6), (5, 5), (6, 4)} ,
{(5, 6), (6, 5)} ,
X −1 ({12}) =
{(6, 6)} .
Damit erhalten wir das folgende Wahrscheinlichkeitsmass PX auf (Ω , Σ ):
i
1
xi
2
1
PX ({xi })
36
in % (gerundet) 2.8
Es gilt
11
2
3
3
4
1
18
4
5
1
12
1
9
5.6 8.3 11
5
6
6
7
14
17
5
36
1
6
7
8
8
9
14
11 8.3 5.6 2.8
5
36
1
9
9
10
10
11
1
12
1
18
11
12
1
36
PX ({xi }) = 1. Das Stabdiagramm für PX sieht folgendermas-
i=1
sen aus:
0.18
0.16
0.14
X
P ({x})
0.12
0.1
0.08
0.06
0.04
0.02
0
2
3
4
5
6
7
x
8
9
10
11
12
Definition 4 (Wahrscheinlichkeits- und Verteilungsfunktionen) Sei (Ω, Σ, P )
ein Wahrscheinlichkeitsraum mit abzählbarer Ergebnismenge Ω und Ereignisfeld
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
20
Σ = P(Ω). Sei X : Ω → R eine diskrete reelle Zufallsvariable, und sei Ω :=
im(X) ⊆ R das Bild von X (abzählbare Teilmenge der reellen Zahlen). Die
Verteilung der Zufallsvariablen X kann dargestellt werden
• durch die Wahrscheinlichkeitsfunktion (Zähldichte) fX : Ω → [0, 1],
fX (x) := PX ({x}) = P ({ω ∈ Ω | X(ω) = x}) = “P (X = x)”,
x ∈ Ω ⊆ R, oder
• durch die (kumulative) Verteilungsfunktion FX : R → [0, 1],
fX (xi ) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”,
FX (x) :=
xi ∈Ω
xi ≤x
x ∈ R.
Bemerkungen:
• Die Wahrscheinlichkeitsfunktion (Zähldichte) fX haben wir in den vorherigen Beispielen mittels Stabdiagrammen dargestellt. Sie erfüllt
fX (xi ) =
xi ∈Ω
P ({ω ∈ Ω | X(ω) = xi })
Ω =im(X)
=
P (Ω) = 1.
xi ∈Ω
• Die Zähldichte fX ist gemäss Def 4 nur auf Ω ⊆ R definiert, kann aber
auf ganz R fortgesetzt werden. Für x ∈ R \ Ω gilt nämlich
P ({ω ∈ Ω | X(ω) = x})
x ∈ im(X)
=
P (∅)
MAE3, Satz 8, 2.
=
0,
also kann man für x ∈ R \ Ω einfach fX (x) := 0 setzen.
• Mit Hilfe der Wahrscheinlichkeitsfunktion fX können wir die Wahrscheinlichkeit von Ereignissen A ∈ Σ berechnen durch
Satz 4
PX (A) = PX
{xi }
=
PX ({xi }) =
fX (xi ).
xi ∈A
xi ∈A
xi ∈A
• Oft schreibt man abgekürzt (und mathematisch nicht korrekt )
– “P (X = x)” für P ({ω ∈ Ω | X(ω) = x}) = PX ({x}),
– “P (X ≤ x)” für P ({ω ∈ Ω | X(ω) ≤ x}) = PX ((−∞, x]),
– oder allgemein “P (X ∈ A)” für P ({ω ∈ Ω | X(ω) ∈ A}) = PX (A),
A ∈ Σ .
• Die englischsprachigen Bezeichnungen und Abkürzungen sind
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
21
– probability mass function (pmf ) für die Wahrscheinlichkeitsfunktion
(Zähldichte) fX ,
– cumulative distribution function (cdf ) für die (kumulative) Verteilungsfunktion FX .
In den folgenden Grafiken stellen wir die Wahrscheinlichkeitsfunktion (Zähldichte) fX und die (kumulative) Verteilungsfunktion FX für die vorangehenden
Beispiele dar:
Beispiel 1
1
0.4
0.35
0.8
0.25
0.6
X
F (x)
fX(xi)
0.3
0.2
0.4
0.15
0.2
0.1
0.05
0
0
0
1
2
3
xi (Anzahl gezogene rote Kugeln)
0
1
2
3
x
Beispiel 2
1
0.4
0.35
0.8
0.25
0.6
X
F (x)
fX(xi)
0.3
0.2
0.4
0.15
0.2
0.1
0.05
0
0
0
1
2
3
4
5
x (Anzahl der Wuerfe mit Augenzahl 1)
i
0
1
2
3
4
8
10
5
x
Beispiel 3
1
0.16
0.14
0.8
0.1
0.6
X
F (x)
fX(xi)
0.12
0.08
0.4
0.06
0.2
0.04
0.02
0
0
2
3
4
5
6
7
8
9 10 11 12
xi (Augensumme der beiden Wuerfel)
2
4
6
12
x
Offensichtlich hat die (kumulative) Verteilungsfunktion FX (abzählbar viele)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
22
Sprungstellen bei x ∈ Ω mit Sprunghöhen fX (x). Weitere Eigenschaften von
FX sind im folgenden Satz zusammengefasst:
Satz 5 (Eigenschaften der Verteilungsfunktion) Sei FX die Verteilungsfunktion
einer diskreten reellen Zufallsvariablen X. Dann gelten
1. FX ist monoton wachsend,
lim FX (x) = FX (x0 ), ∀ x0 ∈ R,
2. FX ist rechtsstetig: x→x
0
x>x0
3.
lim FX (x) = 0 und lim FX (x) = 1.
x→−∞
x→∞
Wir leiten eine für die Praxis wichtige Rechenregel her: Seien a, b ∈ R, a < b.
Dann gilt
Def. 4
FX (b) − FX (a)
=
fX (xi ) −
fX (xi ) =
fX (xi )
xi ∈Ω
xi ≤b
Def. 4
=
xi ∈Ω
xi ≤a

(2)
=

Satz 4

 PX ({xi }) = PX 
{xi }
xi ∈Ω
a<xi ≤b
=
xi ∈Ω
a<xi ≤b
xi ∈Ω
a<xi ≤b
PX ({xi ∈ Ω | a < xi ≤ b})
P ({ω ∈ Ω | a < X(ω) ≤ b}) .
Also ist die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X im
Intervall (a, b] liegt, gegeben durch die Differenz FX (b) − FX (a):
PX ((a, b]) = P ({ω ∈ Ω | a < X(ω) ≤ b}) = FX (b) − FX (a).
(3)
Mit Hilfe von Satz 5, 3., kann in (3) der Grenzübergang b → ∞ gemacht werden:
“P (X > a)” = PX ((a, ∞))
=
=
=
=
Satz 5, 3.
=
Def. 4
=
=
P ({ω ∈ Ω | a < X(ω) < ∞})
lim P ({ω ∈ Ω | a < X(ω) ≤ b})
b→∞
lim (FX (b) − FX (a))
b→∞
lim FX (b) − FX (a)
b→∞
1 − FX (a)
1 − P ({ω ∈ Ω | X(ω) ≤ a})
1 − PX ((−∞, a]) = 1 − “P (X ≤ a)”
Dies ist in Übereinstimmung mit der Gegenwahrscheinlichkeit (MAE3, Satz 8,
1.), denn es gilt (a, ∞) = (−∞, a]c .
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.3.2
23
Diskrete Verteilungen
In der folgenden Tabelle listen wir einige wichtige Verteilungen von diskreten
reellen Zufallsvariablen (kurz: “diskrete Verteilungen”) auf:
Name(n)
Bezeichnung(en)
(diskrete)
Gleichverteilung
UT
Bernoulli-Verteilung
(J. Bernoulli,
1655–1705)
B(1, p), Bernoulli(p)
Binomialverteilung
B(n, p), Bin(n, p)
hypergeometrische
Verteilung
Zähldichte fX
Definitionsbereich
1
fX (xi ) =
n
xi ∈ T (“Träger”)
p,
k=1
fX (k) =
1 − p, k = 0
k∈ {0, 1}
n k
fX (k) =
p (1 − p)n−k
k
k ∈ {0, 1, 2, . . . , n}
M N −M fX (k) =
k
Nn−k
Parameter
T = {x1 , . . . , xn } ⊆ R
n∈N
p ∈ [0, 1]
p ∈ [0, 1]
n∈N
M, N ∈ N, M ≤ N
n
H(N, M, n),
Hyp(N, M, n)
negative
Binomialverteilung
Pascal-Verteilung
(B. Pascal,
1623–1662)
N B(r, p), NB(r, p)
geometrische
Verteilung
G(p), N B(1, p)
Poisson-Verteilung
(S. D. Poisson,
1781–1840)
P(λ), Poisson(λ)
k ∈ {0, 1, . . . , min{n, M }}
n ∈ N, n ≤ N
k+r−1 r
fX (k) =
p (1 − p)k
k
p ∈ (0, 1)
k ∈ N0
r∈N
fX (k) = p(1 − p)k
p ∈ (0, 1)
k ∈ N0
fX (k) =
λk −λ
e
k!
λ ∈ R, λ > 0
k ∈ N0
Bemerkungen:
• Wenn eine diskrete reelle Zufallsvariable X z. B. binomialverteilt ist mit
Parametern n ∈ N und p ∈ [0, 1], so schreiben wir X ∼ B(n, p). Das
Symbol ∼ steht hier für “ist verteilt wie”.
• Kann eine Zufallsvariable X nur die Werte 0 oder 1 annehmen, so spricht
man von einem Bernoulli-Experiment. Bei einem solchen werden der Wert
0 als “Misserfolg” und der Wert 1 als “Erfolg” interpretiert. Die Erfolgswahrscheinlichkeit beträgt p ∈ [0, 1]. Die Zufallsvariable X ist dann Bernoulliverteilt, X ∼ Bernoulli(p).
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
24
• Die Binomialverteilung B(n, p) beschreibt die Anzahl der Erfolge in einer Serie von n gleichartigen und unabhängigen Bernoulli-Experimenten.
Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen
Versuches.
• Die Bernoulli-Verteilung ist also ein Spezialfall der Binomialverteilung für
n = 1. Deswegen wird auch die Bezeichnung B(1, p) für die BernoulliVerteilung verwendet.
• Die hypergeometrische Verteilung H(N, M, n) gibt Auskunft darüber, mit
welcher Wahrscheinlichkeit in einer Stichprobe vom Umfang n eine bestimmte Anzahl von Elementen vorkommt, die eine gewünschte Eigenschaft haben. Dabei haben in der Grundgesamtheit vom Umfang N genau
M Elemente diese Eigenschaft (und N − M Elemente nicht).
• Die negative Binomialverteilung N B(r, p) beschreibt für eine Serie von
gleichartigen und unabhängigen Bernoulli-Experimenten die Anzahl der
Misserfolge, bis r Erfolge erzielt wurden. Dabei bezeichnet p ∈ [0, 1] die
Erfolgswahrscheinlichkeit jedes einzelnen Versuches.
• Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung für r = 1 (Anzahl der Misserfolge bis zum ersten Erfolg). Deswegen
auch die Bezeichnung N B(1, p) für die geometrische Verteilung.
• Wegen der Normierungsbedingung für die Zähldichte der negativen Binomialverteilung gilt
∞ ∞ k+r−1 r
k+r−1 k
q:=1−p
k
−r
p (1 − p) = 1 =⇒ (1 − q) =
q .
k
k
k=0
k=0
Dies ist eine Verallgmeinerung (nach Newton) der binomischen Formel für
negative Exponenten (daher der Name negative Binomialverteilung). Für
r = 1 erhält man die geometrische Reihe als Spezialfall.
• Die Poisson-Verteilung wird oft verwendet zur Beschreibung von diskreten
Ereignissen, zwischen denen ein Zeitintervall mit der mittleren Länge t > 0
liegt. Für eine Poisson-verteilte Zufallsvariable X ∼ P(λ), λ := Tt , ist
fX (k) die Wahrscheinlichkeit dafür, dass in einem gegebenen Zeitintervall
der Länge T > 0 genau k dieser Ereignisse auftreten.
Beispiele:
1. (Gleich- und Bernoulli-Verteilung) Wir betrachten das Zufallsexperiment
Einmaliger Wurf mit einem fairen Würfel,
sowie die Zufallsvariablen
X
:=
Y
:=
“Augenzahl”,
1, Augenzahl ≥ 3 (“Erfolg”)
.
0, Augenzahl < 3 (“Misserfolg”)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
25
Die Zufallsvariable X ist gleichverteilt, X
∼ U{1,2,3,4,5,6} , und die Zufallsvariable Y ist Bernoulli-verteilt, Y ∼ B 1, 23 :
1
fX (xi ) = ,
6
xi ∈ {1, 2, 3, 4, 5, 6},
fY (k) =
2
3,
1
3,
k=1
.
k=0
(4)
2. (Binomialverteilung)
a. Wir betrachten das Zufallsexperiment
Ziehung (mit Zurücklegen) von 3 Kugeln aus einer Urne mit
3 roten und 7 blauen Kugeln,
sowie die Zufallsvariable
X := “Anzahl gezogene rote Kugeln”.
Interpretieren wir eine gezogene rote Kugel als “Erfolg” (Wahrscheinlichkeit in jeder Ziehung
3/10), so gilt gemäss den Erläuterungen von
3
oben: X ∼ B 3, 10
(Serie von 3 gleichartigen und unabhängigen
Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit 3/10):
fX (k) =
k 3−k
7
3
3
,
10
10
k
k
fX (k)
0
343
1000
1
441
1000
2
189
1000
k = 0, 1, 2, 3,
3
27
1000
b. Wir betrachten das Zufallsexperiment
5-maliger Wurf eines fairen Würfels,
sowie die Zufallsvariable
X := “Anzahl der Würfe mit Augenzahl 1”.
Interpretieren wir eine gewürfelte 1 als “Erfolg” (Wahrscheinlichkeit
in jedem
Wurf
1/6), so gilt gemäss den Erläuterungen von oben:
X ∼ B 5, 16 , also
k 5−k
5
5
1
,
fX (k) =
6
6
k
k
fX (k)
0
3125
7776
1
3125
7776
2
625
3888
k = 0, 1, 2, 3, 4, 5,
3
125
3888
4
25
7776
(5)
5
1
7776
c. Die Zufallsvariable aus Serie 3, Aufg. 1, hat die Verteilung B 6, 35 .
Die Zufallsvariable aus Serie 3, Aufg. 2, hat die Verteilung B 3, 12 .
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
26
3. (hypergeometrische Verteilung)
a. Wir betrachten das Zufallsexperiment
Ziehung (ohne Zurücklegen) von 4 Kugeln aus einer Urne
mit 3 roten und 17 blauen Kugeln,
sowie die Zufallsvariable
X := “Anzahl rote Kugeln in der Stichprobe”
Die Zufallsvariable X ist hypergeometrisch verteilt, X ∼ H(20, 3, 4):
3 17 fX (k) =
k
204−k
,
k = 0, 1, 2, 3,
4
k
fX (k)
0
28
57
1
8
19
2
8
95
3
1
285
Die Grundgesamtheit besteht hier aus N = 20 Elementen (Kugeln);
davon haben M = 3 die gewünschte Eigenschaft (“rot”). Der Stichprobenumfang ist n = 4.
b. Die Zufallsvariable aus Serie 3, Aufg. 3, hat die Verteilung H(10, 2, 3).
4. (negative Binomialverteilung) Wir betrachten das Zufallsexperiment
Ziehung (mit Zurücklegen) von Kugeln aus einer Urne mit 3
roten und 7 blauen Kugeln,
sowie die Zufallsvariable
X
:= “Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden”
= “Anzahl Misserfolge, bis 3 Erfolge erzielt wurden”.
Wenn die Zufallsvariable X = k ∈ N0 erfüllt, dann müssen
• die (k + 3)-te gezogene Kugel rot sein (“Erfolg”) und
• von den davor gezogenen k + 2 Kugeln genau k blau sein (“Misserfolge”). Ihre Position ist dabei beliebig.
Die Wahrscheinlichkeit, in einer einzelnen Ziehung eine rote Kugel zu
zie-
3
hen (Erfolgswahrscheinlichkeit) beträgt 10
. Es gibt C(k + 2; k) = k+2
k
Möglichkeiten, die k blauen Kugeln auf die k + 2 Ziehungen zu verteilen
(Kombinationen ohne Wiederholung). Damit ist die Wahrscheinlichkeit
PX ({k}) gegeben durch
3 k
7
k+2
3
.
fX (k) =
10
10
k
Dies gilt für jedes k∈ N0. Also ist die Zufallsvariable X negativ binomi3
alverteilt, X ∼ N B 3, 10
.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
27
Ziehung (mit Zuruecklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln
0.1
0.09
0.08
0.07
fX(x)
0.06
0.05
0.04
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
x (Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden)
5. (geometrische Verteilung)
a. Im Zufallsexperiment aus Beispiel 4 ist die Anzahl der gezogenen
blauen Kugeln
roten Kugel geometrisch ver 3bis
zur ersten
3gezogenen
teilt, X ∼ G 10
= N B 1, 10
.
b. Die Zufallsvariable aus Serie 3, Aufg. 4, hat die Verteilung G 45 .
0.8
X ~ NB(1,3/10)
X ~ NB(1,4/5)
f X(x)
0.6
0.4
0.2
0
0
5
10
15
20
x (Anzahl Misserfolge bis zum 1. Erfolg)
6. (Poisson-Verteilung) Für ein Kaufhaus wurde durch Zählung ermittelt,
dass es an einem Samstag von ca. 10 Kunden pro Minute betreten wird.
Das Zeitintervall zwischen dem Eintreffen von zwei Kunden hat daher im
Mittel die Länge t = 6 s. Die Anzahl der Kunden, die in einem Zeitraum
von T = 60 s das Kaufhaus betreten, wird beschrieben durch eine Poissonverteilte Zufallsvariable X ∼ P(λ) mit λ = Tt = 60
6 = 10.
im Mittel trifft alle 6 Sekunden ein Kunde ein
0.14
0.12
fX(x)
0.1
0.08
0.06
0.04
0.02
0
0
5
10
15
20
25
30
x (Anzahl eintreffende Kunden im Zeitraum von 1 Minute)
35
40
Wie erwartet ist die Wahrscheinlichkeit maximal für k 10.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.3.3
28
Überabzählbar unendliche Ergebnismengen
In den nächsten Kapiteln wollen wir stetige Zufallsvariablen betrachten. Sie
treten im Zusammenhang mit Zufallsexperimenten auf, deren Ergebnismenge Ω
überabzählbar unendlich ist.
Beispiele:
1. Wir betrachten das Zufallsexperiment des Werfens eines Pfeils auf eine
Dartscheibe. Der Auftreffpunkt der Dartspitze liegt irgendwo in einer
Kreisscheibe, also haben wir hier eine überabzählbar unendliche Ergebnismenge.
2. Die Wartezeit eines Kunden vor dem Postschalter liegt im Intervall [0, T ],
wobei T > 0 die Öffnungsdauer des Schalters bezeichnet. Auch hier ist die
Ergebnismenge überabzählbar unendlich.
Im Fall von überabzählbar unendlichen Ergebnismengen gibt es einige technische
Schwierigkeiten bei der Konstruktion eines Wahrscheinlichkeitsraums (Ω, Σ, P ).
Diese Erkenntnis geht auf Arbeiten der drei polnischen Mathematiker S. Banach
(1892–1945), K. Kuratowski (1896–1980) und A. Tarski (1901–1983) zurück. Der
Inhalt dieser Arbeiten übersteigt den Stoff dieser Vorlesung, so dass wir nicht
weiter darauf eingehen.
Eine wichtige Konsequenz dieser Arbeiten ist, dass wir im Fall von überabzählbar unendlichen Ergebnismengen Ω nicht mehr das Ereignisfeld (Menge aller
Ereignisse) Σ := P(Ω) verwenden können (wie im Satz 4), weil sich darauf kein
Wahrscheinlichkeitsmass P : Σ → [0, 1] definieren lässt – wir müssen uns also
mit einem Ereignisfeld Σ ⊆ P(Ω) mit Σ = P(Ω) begnügen. Das bedeutet, dass
nicht mehr jede Teilmenge von Ω auch ein Ereignis ist (es gilt A ∈ Σ ⇒ A ⊆ Ω,
aber i. A. nicht die Umkehrung). Das Ereignisfeld Σ muss eine sog. σ-Algebra
sein:
Definition 5 (σ-Algebra) Sei Ω eine Menge. Ein Mengensystem Σ ⊆ P(Ω)
heisst eine σ-Algebra mit Ω als Grundmenge, falls es die folgenden Eigenschaften erfüllt:
1. Ω ∈ Σ,
2. A ∈ Σ ⇒ Ac ∈ Σ,
3. A1 , A2 , · · · ∈ Σ ⇒
An := A1 ∪ A2 ∪ · · · ∈ Σ, d. h. die Vereinigung von
n∈N
abzählbar vielen Mengen aus Σ liegt wieder in Σ.
Bemerkungen:
• Die Potenzmenge von Ω, P(Ω), erfüllt selbstverständlich die Eigenschaften
der Def. 5. Es gibt aber auch viel kleinere Mengensysteme Σ P(Ω), die
σ-Algebren mit Ω als Grundmenge sind.
• Wie in MAE3, Def. 26, nennen wir ein Paar (Ω, Σ), wobei Σ eine σ-Algebra
mit Ω als Grundmenge ist, einen messbaren Raum.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
29
Diejenigen Teilmengen von Ω, die auch in Σ liegen (also Ereignisse sind) bezeichnen wir als messbare Mengen. Ein Wahrscheinlichkeitsmass P : Σ → [0, 1]
ist nämlich genau für diese Mengen definiert. Weil es für überabzählbar unendliche Ergebnismengen Ω auch überabzählbar unendlich viele Elementarereignisse
{ω} ∈ Σ, ω ∈ Ω, gibt, können wir P nicht mehr (wie im Satz 4) durch seine
Werte auf den Elementarereignissen festlegen. Hingegen fordern wir, dass P die
folgenden Kolmogorow-Axiome erfüllt:
Definition 6 (Wahrscheinlichkeitsmass; nach A. N. Kolmogorow, 1903–1987)
Sei (Ω, Σ) ein messbarer Raum. Eine Funktion P : Σ → [0, 1] heisst ein Wahrscheinlichkeitsmass auf (Ω, Σ), falls es die folgenden Kolmogorow-Axiome erfüllt:
1. Normierung: P (Ω) = 1,
2. σ-Additivität: Für sich gegenseitig ausschliessende Ereignisse A1 , A2 , · · · ∈
Σ, Am ∩ An = ∅, m = n, gilt
P
An =
P (An ).
n∈N
n∈N
In diesem Fall heisst das Tripel (Ω, Σ, P ) ein Wahrscheinlichkeitsraum.
Bemerkungen:
• Weil
Σ eine σ-Algebra mit Ω als Grundmenge ist, gilt wegen Def. 5, 3.:
An ∈ Σ. Jede abzählbare Vereinigung von Ereignissen ist also ein
n∈N
Ereignis und damit messbar.
• Wenn wir für eine abzählbare Ergebnismenge Ω gemäss Satz 4 einen Wahrscheinlichkeitsraum (Ω, Σ, P ) konstruieren, dann ist das Ereignisfeld Σ =
P(Ω) eine σ-Algebra (Def. 5), und das Wahrscheinlichkeitsmass P : Σ →
[0, 1] erfüllt die Kolmogorow-Axiome (Def. 6). Mit den Definitionen 5 und
6 können Wahrscheinlichkeitsräume aber auch für überabzählbar unendliche Ergebnismengen Ω definiert werden.
1.3.4
Stetige Zufallsvariablen
Mit den stetigen Zufallsvariablen wollen wir im Prinzip dasselbe erreichen wie
mit den diskreten Zufallsvariablen (Kap. 1.3.1), nämlich von einer komplizierten Ergebnismenge Ω in die reellen Zahlen Ω ⊆ R zu gelangen, wo wir dann
Verteilungen bequem mit Hilfe von Funktionen von reellen Variablen angeben
können. Die im letzten Kapitel 1.3.3 angesprochenen technischen Schwierigkeiten mit überabzählbar unendlichen Ergebnismengen treten auch hier wieder
auf.
Wenn nämlich X : Ω → R eine Funktion ist und Ω überabzählbar unendlich,
dann ist i. A. auch im(X) ⊆ R eine überabzählbar unendliche Menge. In der
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
30
Regel wählen wir Ω := R ⊇ im(X), und als Ereignisfeld die sog. Borelsche
σ-Algebra auf R (nach E. Borel, 1871–1956):
Definition 7 Die Borelsche σ-Algebra auf R, B(R), ist die kleinste σ-Algebra
mit R als Grundmenge, die alle offenen Intervalle enthält.
Bemerkungen:
• Die Teilmengen A ⊆ R mit A ∈ B(R) heissen auch Borel-Mengen.
• Sehr viele Teilmengen von R sind Borel-Mengen, z. B. alle offenen, alle
abgeschlossenen und alle halboffenen Intervalle, sowie abzählbare Vereinigungen und Durchschnitte von diesen. Für uns wird es später wichtig
sein, dass alle Intervalle der Form (−∞, x], x ∈ R, Borel-Mengen sind.
Dies deshalb, weil
c
(−∞, x] =
(x, x + n) ∈ B(R),
n∈N
denn auf der rechten Seite steht das Komplement einer abzählbaren Vereinigung von offenen Intervallen (x, x + n) ∈ B(R), n ∈ N.
Man kann ausserdem zeigen: wenn eine Aussage für alle Intervalle (−∞, x],
x ∈ R, gilt, dann gilt sie sogar für alle Borel-Mengen A ∈ B(R).
• Es gilt B(R) P(R), d. h. es gibt Teilmengen A ⊆ R (A ∈ P(R)), die
keine Borel-Mengen sind (A ∈ B(R)). Sie müssen mühsam konstruiert
werden, weshalb wir hier darauf verzichten. Alle Teilmengen von R, die
wir im Folgenden betrachten, werden Borel-Mengen sein.
• Wenn für den Fall Ω = R nichts über die σ-Algebra gesagt wird, dann
nimmt man üblicherweise an, dass Σ = B(R).
Wir arbeiten jetzt also auf dem messbaren Raum (R, B(R)), und es geht jetzt
noch um die Konstruktion des durch eine Zufallsvariable X induzierten Wahrscheinlichkeitsmasses PX : B(R) → [0, 1]. Dieses wollen wir für jedes A ∈ B(R)
wieder als
PX (A) := P (X −1 (A)),
X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ⊆ Ω,
definieren. Hier gibt es aber das Problem, dass zwar X −1 (A) eine Teilmenge
von Ω ist, aber eben nicht notwendigerweise messbar, denns es ist ja nicht jede
Teilmenge von Ω messbar (Σ P(Ω)). Deshalb kommt jetzt nicht mehr jede
Funktion X : Ω → R als Zufallsvariable infrage, sondern nur die sog. messbaren
Funktionen:
Definition 8 (reelle Zufallsvariable) Eine reelle Zufallsvariable ist eine Funktion X : Ω → R mit
∀x ∈ R :
X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ Σ.
(6)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
31
Bemerkungen:
• Wie oben nach der Def. 7 bereits bemerkt, impliziert die Eigenschaft (6),
dass X −1 (A) ∈ Σ, ∀ A ∈ B(R).
• Jede diskrete Zufallsvariable nach Def. 3 ist eine reelle Zufallsvariable nach
Def. 8. Die Def. 8 ist also eine Verallgemeinerung auf überabzählbar unendliche Ergebnismengen.
Für eine reelle Zufallsvariable X : Ω → R können wir jetzt das durch X induzierte Wahrscheinlichkeitsmass PX : B(R) → [0, 1] definieren durch PX (A) :=
P (X −1 (A)), und wir erhalten den neuen Wahrscheinlichkeitsraum (R, B(R), PX ).
Ergebnismenge
(überabzählbar unendlich)
Ereignisfeld (σ-Algebra der
messbaren Teilmengen)
Wahrscheinlichkeitsmass
Wahrscheinlichkeitsraum
ursprüngliches
Zufallsexperiment
neues
Zufallsexperiment
Ω
Ω ⊇ im(X)
Σ P(Ω)
B(R) P(R)
P : Σ → [0, 1]
(Ω, Σ, P )
PX : B(R) → [0, 1]
(R, B(R), PX )
Die (kumulative) Verteilungsfunktion FX : R → [0, 1] ist für jede Zufallsvariable
X wie in Def. 4 definiert:
FX (x) := PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x) .
(7)
Für sie gilt der Satz 5. Eine Funktion fX analog zur Wahrscheinlichkeitsdichtefunktion aus Def. 4 existiert jedoch nur für sog. stetige reelle Zufallsvariablen:
Definition 9 (stetige reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable. X heisst stetig, falls
eine integrierbare Funktion fX : R → [0, ∞) existiert, so dass
b
“P (a ≤ X ≤ b) = PX ( [a, b] ) = P ({ω ∈ Ω | a ≤ X(ω) ≤ b}) =
∈B(R)
fX (x) dx,
a
(8)
für alle a, b ∈ R, a ≤ b.
Bemerkungen:
• Die Funktion fX heisst Wahrscheinlichkeitsdichtefunktion, Dichtefunktion,
Wahrscheinlichkeitsdichte, oder nur Dichte. Ihre englische Bezeichnung ist
probability density function (pdf ). Sie erfüllt die Normierungsbedingung
∞
fX (x) dx = PX (R) = 1,
−∞
wobei auf der linken Seite ein uneigentliches Integral steht (MAE3, Def. 4).
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
32
• Die Wahrscheinlichkeit von Elementarereignissen {a} ∈ B(R), a ∈ R, ist
für stetige reelle Zufallsvariablen immer Null:
a
PX ({a}) = P ({ω ∈ Ω | X(ω) = a}) =
fX (x) dx = 0.
a
• Die kumulative Verteilungsfunktion einer stetigen reellen Zufallsvariablen
ist gegeben durch die Flächenfunktion
b
FX (b) = P ({ω ∈ Ω | X(ω) ≤ b}) =
fX (x) dx,
b ∈ R.
(9)
−∞
Auf der rechten Seite steht wieder ein uneigentliches Integral.
kumulative Verteilungsfunktion
Wahrscheinlichkeitsdichtefunktion
1.4
1
1.2
0.8
0.6
X
F (x)
0.8
X
f (x)
1
0.6
0.4
0.4
0.2
0.2
0
0
−1
−0.5
0
x
0.5
1
−1
−0.5
0
x
0.5
1
Nach dem Hauptsatz der Differenzial- und Integralrechnung ist FX eine
Stammfunktion von fX . Es gilt also “P (a ≤ X ≤ b)” =
Def. 9
b
fX (x) dx = FX (b) − FX (a) = FX (x)|ba .
PX ([a, b]) =
(10)
a
• Die kumulative Verteilungsfunktion FX einer stetigen reellen Zufallsvaria
blen X ist differenzierbar (FX
(x) = fX (x) ∀ x ∈ R), also stetig. Reelle Zufallsvariablen mit einer unstetigen Verteilungsfunktion können also nicht
stetig sein. Dies trifft u. a. für die diskreten reellen Zufallsvariablen zu (bei
diesen ist FX eine Treppenfunktion), aber es gibt auch reelle Zufallsvariablen, die weder stetig noch diskret sind.
Die folgende Tabelle gibt einen Überblick über Gemeinsamkeiten und Unterschieden von diskreten bzw. stetigen reellen Zufallsvariablen:
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Zufallsvariable X
Ergebnismenge Ω
Ereignisfeld Σ
Wahrscheinlichkeits(dichte)funktion
Normierung
diskret reell
im(X) ⊆ R
(abzählbar)
P(im(X))
stetig reell
R
(überabzählbar unendlich)
B(R) P(R)
fX : im(X) → [0, 1]
fX : R → [0, ∞)
∞
fX (xi ) = 1
xi ∈im(X)
Elementarereignis
{x} ∈ Σ , x ∈ Ω
Intervall
“P (a < X ≤ b)”
a, b ∈ R, a < b
33
fX (x) dx = 1
−∞
PX ({x}) = fX (x)
fX (xi )
PX ({x}) = 0
b
fX (x) dx
xi ∈im(X)
a<xi ≤b
a
FX (b) − FX (a)
Bei den Wahrscheinlichkeiten für Intervalle sind auch die Grenzübergänge a →
−∞ und/oder b → ∞ erlaubt, was auf unendliche Reihen bzw. uneigentliche
Integrale führt.
In Analogie zu MAE3, Def. 27, nennen wir in einem Wahrscheinlichkeitsraum
(Ω, Σ, P )
• ein Ereignis A ∈ Σ mit P (A) = 1 ein fast sicheres Ereignis und
• ein Ereignis N ∈ Σ mit P (N ) = 0 ein fast unmögliches Ereignis.
Bemerkungen: Natürlich ist das sichere Ereignis (Ω ∈ Σ, P (Ω) = 1) ein fast
sicheres Ereignis und das unmögliche Ereignis (∅ ∈ Σ, P (∅) = 0) ein fast unmögliches Ereignis. Es gibt jedoch i. A. noch mehr fast sichere bzw. fast unmögliche
Ereignisse als diese beiden!
Beispiel: Im Wahrscheinlichkeitsraum (R, B(R), PX ) ist jede abzählbare Teilmenge N = {x1 , x2 , . . . } ⊆ R, N ∈ B(R), ein fast unmögliches Ereignis, denn es gilt
mit der σ-Additivität des Wahrscheinlichkeitsmasses PX :
PX ({xi }) = 0.
PX (N ) = PX ({x1 , x2 , . . . }) =
i∈N
=0
Wir sagen auch, N ⊆ R ist eine Nullmenge in R. Wenn N ∈ B(R) ein fast
unmögliches Ereignis ist, so ist N c = R \ N ∈ B(R) ein fast sicheres Ereignis
(Gegenwahrscheinlichkeit; MAE3, Satz 8, 1.).
1.3.5
Stetige Verteilungen
In der folgenden Tabelle listen wir einige wichtige Verteilungen von stetigen
reellen Zufallsvariablen (kurz: “stetige Verteilungen”) auf:
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Name
Bezeichnung
(stetige)
Gleichverteilung
U(a, b)
Exponentialverteilung
Exp(λ)
Chi-QuadratVerteilung
(F. R. Helmert,
1843–1917)
χ2n
F-Verteilung
(R. A. Fisher,
1890–1962)
Fm,n
Normalverteilung
(C. F. Gauss,
1777–1855)
N (µ, σ 2 )
t-Verteilung
(W. S. Gosset
“Student”,
1876–1937)
tn
CauchyVerteilung
(A. L. Cauchy,
1789–1857)
Cauchy(t, s)
34
Wahrscheinlichkeitsdichtefunktion fX
1
b−a ,
fX (x) =
a≤x≤b
sonst
0,
λe−λx ,
0,
fX (x) =
n
x
x 2 −1 e− 2
n
2 2 Γ( n
2)
fX (x) =
0,
fX (x) =
m
n
m 2 n2
Γ(
m
2
a, b ∈ R
a<b
x≥0
x<0
λ>0
, x≥0
n∈N
x<0
m
n
Γ( m
2 +2)
n
2
)Γ( )
x 2 −1
m
n
(mx+n) 2 + 2
Parameter
, x≥0
0,
m, n ∈ N
x<0
(x − µ)2
fX (x) = √
exp −
2σ 2
2πσ 2
1
− n+1
2
Γ n+1
x2
2 1
+
fX (x) = √
n
nπΓ n2
fX (x) =
s
1
2
π s + (x − t)2
µ∈R
σ2 > 0
n∈N
t∈R
s>0
In der Chi-Quadrat-, der F- und der t-Verteilung tritt jeweils die GammaFunktion Γ auf, deren Funktionswerte durch uneigentliche Integrale definiert
sind:
∞
Γ(x) := tx−1 e−t dt, x > 0.
0
Für x = n ∈ N gilt Γ(n) = (n − 1)! (Beweis durch partielle Integration). Die
Funktionswerte Γ(x), x ∈ N, können hingegen zumeist
√ nicht in geschlossener
√
Form angegeben werden (Ausnahmen sind Γ 12 = π und Γ 32 = 12 π).
Dafür werden numerische Näherungen verwendet.
Numerische Näherungen müssen oft auch zur Auswertung der kumulativen
Verteilungsfunktion FX verwendet werden, da die Flächenfunktion häufig nicht
in geschlossener Form angegeben werden kann.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
35
Wahrscheinlichkeitsdichtefunktionen von stetigen Gleichverteilungen
2
U(−3,1)
U(−4,−2)
U(−4,4)
U(1.5,2)
U(3,4)
fX(x)
1.5
1
0.5
0
−5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Exponentialverteilungen
Wahrscheinlichkeitsdichtefunktionen von Chi−Quadrat−Verteilungen
2
2
2
χ
0.8
χ2
0.6
χ5
0.4
χ3
1
fX(x)
1.5
fX(x)
1
Exp(2)
Exp(5)
Exp(0.4)
Exp(7)
Exp(0.2)
1
2
2
2
0.5
0.2
0
−5
0
x
χ6
0
−5
5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von F−Verteilungen
1
F(1,1)
F(3,1)
F(4,1)
F(3,2)
F(3,5)
0.8
X
f (x)
0.6
0.4
0.2
0
−5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen
1.6
N(0,1)
N(−2,0.25)
N(4,4)
N(−3,9)
N(2,0.0625)
1.4
1.2
t1
0.3
t
3
t
0.8
4
f (x)
fX(x)
1
Wahrscheinlichkeitsdichtefunktionen von t−Verteilungen
0.4
X
0.6
0.2
t6
t9
0.4
0.1
0.2
0
−5
0
x
0
−5
5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Cauchy−Verteilungen
1.4
1.2
fX(x)
1
0.8
Cauchy(0,0.5)
Cauchy(−2,3)
Cauchy(1,2)
Cauchy(3,3)
Cauchy(2,0.3)
0.6
0.4
0.2
0
−5
0
x
5
Wir werden später weiter auf diese Verteilungen und auf die Beziehungen zwischen ihnen eingehen.
1.4
Verteilungen von Zufallsvariablen in MATLAB
In MATLABs “Statistics Toolbox” (doc stats) sind alle bisher behandelten
Verteilungen von Zufallsvariablen (ausser der Cauchy-Verteilung) und noch einige mehr als Funktionen definiert:
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Verteilung der Zufallsvariablen X
diskret
U{1,2,...,n}
gleich
Bernoulli
B(1, p)
binomial
B(n, p)
hyperH(N, M, n)
geometrisch
negativ
N B(r, p)
binomial
N B(1, p)
geometrisch
G(p)
Poisson
P(λ)
stetig gleich U(a, b)
exponential Exp(λ)
Chiχ2n
Quadrat
F
Fm,n
2
normal
N (µ, σ )
t
tn
36
Auswerten von fX an
einer Stelle k bzw. x
Auswerten von FX
an einer Stelle x
unidpdf(k,n)
unidcdf(x,n)
binopdf(k,1,p)
binopdf(k,n,p)
binocdf(x,1,p)
binocdf(x,n,p)
hygepdf(k,N,M,n)
hygecdf(x,N,M,n)
nbinpdf(k,r,p)
nbincdf(x,r,p)
nbinpdf(k,1,p)
geopdf(k,p)
poisspdf(k,lambda)
unifpdf(x,a,b)
exppdf(x,1/lambda)
nbincdf(x,1,p)
geocdf(x,p)
poisscdf(x,lambda)
unifcdf(x,a,b)
expcdf(x,1/lambda)
chi2pdf(x,n)
chi2cdf(x,n)
fpdf(x,m,n)
normpdf(x,mu,...
sqrt(sigmaˆ2))
tpdf(x,n)
fcdf(x,m,n)
normcdf(x,mu,...
sqrt(sigmaˆ2))
tcdf(x,n)
In den Funktionsbezeichnungen wird immer das Kürzel der Verteilung zusammen mit pdf (“probability (density) function”, fX ) oder cdf (“cumulative distribution function”, FX ) verwendet.
Beispiele:
1. Sei X ∼ B 20, 19 . Wir berechnen
• “P (X = 4)” = fX (4) mit binopdf(4,20,1/9) ( 11 %),
• “P (X > 5)” = 1− “P (X ≤ 5)” = 1 − FX (5) mit
1 - binocdf(5,20,1/9) ( 1.8 %)
• “P (1 < X ≤ 3)” = FX (3) − FX (1) = fX (2) + fX (3) mit
binocdf(3,20,1/9) - binocdf(1,20,1/9) oder mit
binopdf(2,20,1/9) + binopdf(3,20,1/9) ( 49 %)
• PX ({1, 2, . . . , 16}) =
16
fX (k) = FX (16) − FX (0) mit
k=1
binocdf(16,20,1/9) - binocdf(0,20,1/9) ( 91 %)
Wir zeichnen das Stabdiagramm der Wahrscheinlichkeitsfunktion fX mit
den MATLAB-Befehlen
x = 0:20; % {0,1,2,...,20}
y = binopdf(x,20,1/9);
stem(x,y)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
37
Zaehldichte einer B(20,1/9)−verteilten Zufallsvariable
0.3
0.25
X
f (x)
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
x
12
14
16
18
20
2. Sei X ∼ N (0.8, 4.3). Wir berechnen
• “P (1 < X ≤ 2)” = FX (2) − FX (1) mit
normcdf(2,0.8,sqrt(4.3)) - normcdf(1,0.8,sqrt(4.3)) ( 18 %)
• “P (X < 0.8)” = FX (0.8) mit normcdf(0.8,0.8,sqrt(4.3))
(= 50 %)
• “P (X > 0.5)” = 1−FX (0.5) mit 1 - normcdf(0.5,0.8,sqrt(4.3))
( 56 %)
Wir zeichnen die Wahrscheinlichkeitsdichtefunktion fX auf dem Intervall
[−10, 10] mit den MATLAB-Befehlen
x = -10:0.01:10;
y = normpdf(x,0.8,sqrt(4.3));
plot(x,y)
Wahrscheinlichkeitsdichtefunktion einer N(0.8,4.3)−verteilten Zufallsvariablen
0.2
X
f (x)
0.15
0.1
0.05
0
−10
−8
−6
−4
−2
0 0.8
x
2
4
6
8
10
Wir werden später noch weitere Funktionen aus MATLABs “Statistics Toolbox”
kennen lernen.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.5
1.5.1
38
Transformationen von Zufallsvariablen
Lineare Transformationen
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1],
FX (x) = PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”,
x ∈ R.
Für a, b ∈ R, b > 0, definieren wir die Funktion Y : Ω → R durch
ω∈Ω
Y (ω) := a + bX(ω),
(kurz: Y := a + bX).
Wir fragen nun:
• Ist Y eine reelle Zufallsvariable?
• Wenn ja, was ist ihre kumulative Verteilungsfunktion FY ?
Sei y ∈ R. Wir wollen zeigen, dass Y −1 ((−∞, y]) ∈ Σ; in diesem Fall erfüllt Y
die Messbarkeitsbedingung aus Def. 8. Durch einfache Umformungen erhalten
wir
Y −1 ((−∞, y])
=
b>0
=
{ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | a + bX(ω) ≤ y}
y−a
y−a
= X −1
∈ Σ,
−∞,
ω ∈ Ω X(ω) ≤
b
b
weil y−a
b ∈ R und weil X eine reelle Zufallsvariable ist. Dies gilt für jedes y ∈ R,
also ist Y eine reelle Zufallsvariable. Für die kumulative Verteilungsfunktion
von Y erhalten wir mit derselben Umformung
y−a
y−a
FY (y) = PY ((−∞, y]) = PX
= FX
, y ∈ R. (11)
−∞,
b
b
Umgekehrt können wir auch schreiben: FX (x) = FY (a + bx), x ∈ R (X =
Y
Y = a + bX
y
−∞, y−a
b
0
a
b
1
y−a
b
(−∞, y]
X
Y −a
b ).
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
39
Für diskrete bzw. stetige reelle Zufallsvariablen erhalten wir die Wahrscheinlichkeits(dichte)funktionen
yi − a
yi − a
diskret:
fY (yi ) = PY ({yi }) = PX
= fX
, yi ∈ im(Y ),
b
b
1
y−a
y−a
(11) 1 stetig:
fY (y) = FY (y) = FX
= fX
, y ∈ R.
b
b
b
b
Im Allgemeinen ist die Verteilung der transformierten Zufallsvariablen Y nicht
mehr vom gleichen Typ wie jene der Zufallsvariablen X.
Beispiele:
1. Sei X ∼ Exp(λ), dann ist die Wahrscheinlichkeitsdichtefunktion der linear
transformierten Zufallsvariablen Y gegeben durch
1
y−a
y−a
1
λe−λ b , y−a
b
b ≥0
=
fY (y) = fX
y−a
b
b
0,
b <0
λ λ λ
e b a b e− b y , y ≥ a
, y ∈ R.
=
0,
y<a
Für a = 0 gilt also Y ∼ Exp λb , aber für a = 0 ist fY keine Wahrscheinlichkeitsdichtefunktion einer exponential verteilten Zufallsvariablen.
2. Sei X ∼ N (µ, σ 2 ). Dann ist die Wahrscheinlichkeitsdichtefunktion der
linear transformierten Zufallsvariablen Y gegeben durch
2 y−a
1 1
y−a
1
b −µ
√
fY (y) = fX
=
exp −
b
b
b 2πσ 2
2σ 2
1
(y − (a + bµ))2
,
= √
exp −
2b2 σ 2
2πb2 σ 2
für y ∈ R. Es gilt also Y ∼ N (a + bµ, b2 σ 2 ).
1.5.2
Anwendung: Transformation auf die Standardnormalverteilung
Normalverteilte Zufallsvariablen bleiben also unter linearen Transformationen
normalverteilt. Aus dem Beispiel 2 von oben folgern wir (a = − σµ , b = σ1 ):
X ∼ N (µ, σ 2 )
⇒
Y :=
µ
1
X −µ
= − + X ∼ N (0, 1),
σ
σ σ
für µ ∈ R und σ > 0. Umgekehrt gilt natürlich auch
Y ∼ N (0, 1)
⇒
X := µ + σY ∼ N (µ, σ 2 ),
µ ∈ R, σ > 0.
Die kumulative Verteilungsfunktion der sog. Standardnormalverteilung N (0, 1)
wird üblicherweise mit Φ bezeichnet. Ihre Werte lassen sich nicht in geschlossener
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
40
Form angeben. Wenn sie jedoch z. B. als Wertetabelle vorliegt (s. Formelsammlung von Papula, S. 508), so lässt sich damit die kumulative Verteilungsfunktion einer beliebig normalverteilten Zufallsvariablen auswerten. Es gilt nämlich
X ∼ N (µ, σ 2 ) ⇒ FX (x) =
1
µ
x − µ FY ≡Φ
x−µ
,
(12)
= Φ
FY (a + bx) = FY − + x = FY
σ σ
σ
σ
für µ ∈ R, σ > 0.
√
Beispiel: Sei X ∈ N (0.8, 4.3) (µ = 0.8, σ = 4.3). Nach (12) gilt
2 − 0.8
“P (X ≤ 2)” = FX (2) = Φ √
Φ(0.58) 0.7190,
4.3
wobei wir die Tabelle aus der Formelsammlung von Papula verwendet haben.
Mit MATLAB erhalten wir normcdf(2,0.8,sqrt(4.3)) 0.718601, also war
der Tabellenwert schon ziemlich genau. Die Tabellenwerte könnten wir natürlich
auch noch interpolieren (s. Vorlesung MNEU), um eine höhere Genauigkeit für
Zwischenwerte zu erreichen.
1.5.3
Nichtlineare Transformationen
Im Falle von nichtlinearen Transformationen müssen nichtlineare Ungleichungen
gelöst werden, was i. A. schwierig ist. Sei nämlich Y := g(X) (d. h. Y (ω) :=
g(X(ω)), ω ∈ Ω) für eine gegebene Funktion g : R → R, dann ist Y : Ω → R
eine reelle Zufallsvariable (Def. 8), falls
Y −1 ((−∞, y]) =
=
{ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | g(X(ω)) ≤ y}
X −1 ({x ∈ R | g(x) ≤ y}) ∈ Σ
∀ y ∈ R.
Dies ist genau dann der Fall, wenn {x ∈ R | g(x) ≤ y} ∈ B(R) gilt, ∀ y ∈ R. Die
Werte der kumulativen Verteilungsfunktion FY : R → [0, 1] von Y sind dann
gegeben durch
FY (y) = PY ((−∞, y]) = P Y −1 ((−∞, y]) = P X −1 ({x ∈ R | g(x) ≤ y})
= PX ({x ∈ R | g(x) ≤ y}) ,
y ∈ R.
(13)
Es müssen also zunächst die nichtlinearen Ungleichungen g(x) ≤ y nach x aufgelöst werden, für alle y ∈ R!
Y
Y = g(X)
y
{x ∈ R | g(x) ≤ y}
(−∞, y]
X
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
41
Beispiel: Sei X ∼ N (0, 1). Es stellt sich heraus, dass Y := X 2 ∼ χ21 gilt, d. h. das
Quadrat einer standardnormalverteilten Zufallsvariablen ist Chi-Quadrat-verteilt
mit einem Freiheitsgrad (n = 1).
1
0.9
y = F (x) (N(0,1))
0.8
y = FX2(x) (χ21)
X
0.7
y
0.6
0.5
0.4
0.3
0.2
0.1
0
−5
1.6
−4
−3
−2
−1
0
x
1
2
3
4
5
Quantilfunktion und Masszahlen von Verteilungen
Im Folgenden sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine
reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die
Funktion FX ist rechtsstetig und monoton wachsend mit lim FX (x) = 0 und
x→−∞
lim FX (x) = 1 (Satz 5).
x→∞
1.6.1
Quantilfunktion
Sei p ∈ (0, 1) gegeben. Wir fragen:
Für welche Zahl q ∈ R gilt FX (q) = “P (X ≤ q)” = p
(und damit “P (X > q)”= 1−“P (X ≤ q)” = 1 − FX (q) = 1 − p)?
Jede solche Zahl q ∈ R ist ein sog. p-Quantil der Verteilung der Zufallsvariablen
X. Offensichtlich benötigen wir zur Berechnung der p-Quantile das Urbild von
−1
p unter der Funktion FX , FX
(p) = {x ∈ R | FX (x) = p} ⊆ R. Wie die folgende
Zeichnung zeigt, kann dieses Urbild i. A. gar keine oder auch mehrere Elemente
enthalten:
y
1
p3
y = FX (x)
p2
p1
0
−1
(p1 )
FX
−1
FX
(p2 )
−1
FX
(p3 ) = ∅
x
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
42
Um eine Quantilfunktion QX : (0, 1) → R definieren zu können (die jedem
p ∈ (0, 1) genau ein p-Quantil QX (p) ∈ R zuordnet), betrachten wir jeweils die
grösste untere Schranke:
Definition 10 (Quantilfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum,
und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die Quantilfunktion QX : (0, 1) → R der Zufallsvariablen
X ist definiert durch
QX (p) := inf ({x ∈ R | FX (x) ≥ p}) ,
p ∈ (0, 1).
(14)
Für ein gegebenes p ∈ (0, 1) heisst die Zahl QX (p) das p-Quantil der Verteilung
der Zufallsvariablen X.
Bemerkungen:
• Die Existenz des Infimums folgt aus der Monotonie von FX .
• Wegen der Rechtsstetigkeit von FX ist das Infimum in (14) sogar ein
Minimum, d. h. es ist selbst ein Element der Menge: FX (QX (p)) ≥ p.
• Falls FX streng monoton wachsend ist, so ist FX bijektiv und damit um−1
kehrbar, und es gilt QX ≡ FX
. Dies ist z. B. bei stetigen reellen Zufallsvariablen mit strikt positiver Wahrscheinlichkeitsdichtefunktion fX der Fall,
z. B. bei den Normal-, t- und Cauchy-Verteilungen.
• In MATLAB können Sie Quantilfunktionen mit den Funktionen ...inv
auswerten, z. B. mit den Funktionen nbininv, expinv, norminv, usw.
Beispiel: Aus einer Urne mit 3 roten und 7 blauen Kugeln werden nacheinander
Kugeln gezogen (mit Zurücklegen). Wir fragen:
Wieviele Ziehungen sind nötig, bis die Wahrscheinlichkeit dafür, dass
5 rote Kugeln gezogen wurden, mindestens 95 % beträgt?
Zur Beantwortung dieser Frage definieren wir zunächst die Zufallsvariable
“Anzahl gezogene blaue Kugeln,
bis genau 5 rote Kugeln gezogen wurden”,
3
dann ist X ∼ N B 5, 10
(Kap. 1.3.2). Für k ∈ N0 gibt FX (k) = “P (X ≤ k)”
die Wahrscheinlichkeit dafür an, dass höchstens k blaue Kugeln gezogen werden,
bis 5 rote Kugeln gezogen wurden (FX : R → [0, 1] ist eine Treppenfunktion).
Das 95 %-Quantil der Verteilung,
X
QX (0.95)
Def. 10
=
:=
inf ({x ∈ R | FX (x) ≥ 0.95}) = nbininv(0.95,5,3/10) = 23,
gibt an, dass die Wahrscheinlichkeit dafür, höchstens 23 blaue Kugeln ziehen zu
müssen, bis 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt:
“P (X ≤ 23)” = FX (23) ≥ 0.95 (tatsächlich gilt FX (23) 0.9526).
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
43
Weil nach der Gesamtzahl der Ziehungen gefragt wurde, müssen wir die 5 Ziehungen, bei denen eine rote Kugel gezogen wurde, noch dazu zählen. Die Antwort auf die obige Frage ist also “Es sind 28 Ziehungen nötig”.
Wahrscheinlichkeitsfunktion, NB(5,3/10)
kumulative Verteilungsfunktion, NB(5,3/10)
0.08
0.07
0.06
F (x)
0.04
X
X
f (k)
0.05
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
k
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
x
Analog zu den Eigenschaften der kumulativen Verteilungsfunktion FX einer
reellen Zufallsvariablen (Satz 5) fassen wir auch die Eigenschaften der Quantilfunktion in einem Satz zusammen:
Satz 6 (Eigenschaften der Quantilfunktion) Sei QX die Quantilfunktion einer
reellen Zufallsvariablen X. Dann gelten
1. QX ist monoton wachsend,
lim QX (p) = QX (p0 ), ∀ p0 ∈ (0, 1),
2. QX ist linksstetig: p→p
0
p<p0
3. lim QX (p) = −∞ und lim QX (p) = ∞
p→0
p→1
(bestimmte Divergenz; MAE3, Def. 2).
y
y = QX (p)
QX (p3 )
QX (p2 )
QX (p1 )
0 p1
p2
p3
1p
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
44
Bestimmte p-Quantile haben eigene Namen:
• Median: QX (0.5). Im Falle einer stetigen reellen Zufallsvariablen X teilt
der Median die Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse in zwei gleich grosse Teile auf:
“P (X ≤ QX (0.5))” = “P (X > QX (0.5))” = 50 %.
• Terzile: QX (1/3), QX (2/3). Aufteilung in drei gleich grosse Teile.
• Quartile: QX (0.25), QX (0.5), QX (0.75). Aufteilung in vier gleich grosse
Teile. Der Median ist ebenfalls ein Quartil (das mittlere).
• Quintile: QX (0.2), QX (0.4), QX (0.6), QX (0.8). Fünf gleich grosse Teile.
• Dezile: QX (0.1), QX (0.2), . . . , QX (0.9). Zehn gleich grosse Teile.
• Perzentile: QX (0.01), QX (0.02), . . . , QX (0.99). 100 gleich grosse Teile.
Beispiel: Für die Quartile der Standardnormalverteilung N (0, 1) berechnen wir
mit dem MATLAB-Befehl norminv(p,0,1):
QX (0.25) −0.67,
QX (0.5) = 0,
Wahrscheinlichkeitsdichtefunktion, N(0,1)
0.4
0.35
0.3
Φ(x)
φ(x)
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5
1.6.2
0
x
0.5
1
1.5
2
2.5
3
QX (0.75) 0.67.
kumulative Verteilungsfunktion, N(0,1)
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
x
3
Lagemasse und Streuungsmasse
Masszahlen fassen die wesentlichen Eigenschaften einer Wahrscheinlichkeitsverteilung zusammen. Wir lernen hier einige Lagemasse und Streuungsmasse kennen.
Ein erstes Lagemass ist der Median, also das 50 %-Quantil QX (0.5). Die
Quantilfunktion QX einer Zufallsvariablen hatten wir im letzten Abschnitt definiert. Ein weiteres Lagemass ist der Erwartungswert:
Definition 11 (Erwartungswert) Der Erwartungswert einer diskreten oder stetigen reellen Zufallsvariablen X mit Wahrscheinlichkeits(dichte)funktion fX ist
• im diskret reellen Fall definiert durch
E[X] =
xi fX (xi ),
xi ∈im(X)
falls der Ausdruck auf der rechten Seite existiert,
(15)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
45
• im stetig reellen Fall definiert durch
∞
(16)
xfX (x) dx,
E[X] =
−∞
falls der Ausdruck auf der rechten Seite existiert.
Bemerkungen:
• Es kann E[X] = ±∞ gelten, wenn die Ausdrücke auf der rechten Seite
bestimmt divergent sind. Dieser Fall wird allerdings oft ausgeschlossen.
• Manchmal schreibt man µX anstatt E[X] für den Erwartungswert der
diskreten oder stetigen reellen Zufallsvariablen X.
• Die Ausdrücke auf der rechten Seite können unbestimmt divergent sein.
In diesem Fall ist der Erwartungswert der Zufallsvariablen nicht definiert.
Dies ist z. B. bei der Cauchy-Verteilung der Fall. Allgemein gilt (MAE3,
Def. 4, 3.)
∞
E[X] =
c
xfX (x) dx = lim
xfX (x) dx + lim
xfX (x) dx,
µ→∞
λ→−∞
−∞
µ
λ
=:I1 (λ)
c
=:I2 (µ)
für einen beliebigen Teilpunkt c ∈ R. Sei nun X ∼ Cauchy(t, s) mit Parametern t ∈ R, s > 0. Zur Vereinfachung der folgenden Rechnungen wählen
wir c := t. Wir erhalten
t
I1 (λ)
=
λ
=
1
π
u:= x−t
1
xs
dx = s
2
2
π s + (x − t)
0
s
su + t
du =
1 + u2
π
λ−t
s
0
λ−t
s
0
1 (su + t)s
s du
π s2 + s2 u 2
λ−t
s
0
t
1 2u
du +
2 1 + u2
π
1
du
1 + u2
λ−t
s
0
s 1 t
0
2 ln 1 + u =
+ arctan(u)| λ−t
s
π 2
π
λ−t
s
2
λ−t
λ−t
t
1s
ln 1 +
,
− arctan
= −
2π
s
π
s
und damit den Grenzwert
2 1s
λ−t
t π
lim I1 (λ) = −
−
lim ln 1 +
−
= −∞.
λ→−∞
2 π λ→−∞
s
π 2 = t ∈R
<0 =∞
2
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
46
Auf dieselbe Weise berechnen wir
2 µ−t
µ−t
t
1s
ln 1 +
,
+ arctan
I2 (µ) = · · · =
2π
s
π
s
und damit den Grenzwert
2 1s
µ−t
tπ
lim ln 1 +
+
= ∞.
lim I2 (µ) =
µ→∞
µ→∞
2
π
s
π
2
= t ∈R
>0 =∞
2
Also ist
E[X] = lim I1 (λ) + lim I2 (µ) = −∞ + ∞
µ→∞
λ→−∞
nicht definiert.
• Der Erwartungswert E[X] entspricht der x-Koordinate des geometrischen
Schwerpunktes der Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse. Im Allgemeinen ist der Erwartungswert nicht gleich dem Median, z. B. für die F-Verteilung:
X∼F
10,5
0.7
Wahrscheinlichkeitsdichtefunktion
geometrischer Schwerpunkt
Erwartungswert
Median
Modus
0.6
0.5
fX
0.4
0.3
0.2
0.1
0
0
0.571
1.07
1.67
2
2.5
x
3
3.5
4
4.5
5
Ein drittes Lagemass ist der Modus oder Modalwert einer Verteilung. Er ist definiert als diejenige Stelle x0 ∈ R, an der die Wahrscheinlichkeitsdichtefunktion
bzw. die Zähldichte maximal ist (globales Maximum). Der Modus einer Verteilung ist i. A. nicht eindeutig. Für Verteilungen werden manchmal die Begriffe
unimodal (eingipflig), bimodal (zweigipflige) sowie multimodal (mehrgipflig) verwendet, je nach der Form der jeweiligen Wahrscheinlichkeits(dichte)funktion.
unimodale Verteilung
bimodale Verteilung
0.35
0.3
0.3
0.25
0.25
0.2
X
f (x)
0.2
X
f (x)
0.35
0.15
0.15
0.1
0.1
0.05
0.05
0
−5
0
x
5
0
−5
0
x
5
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
47
Beispiele:
1. Sei X ∼ B 5, 13 . Dann gilt im(X) = {0, 1, 2, . . . , 5} und damit
E[X] =
xi fX (xi ) =
xi ∈im(X)
5
k=0
k 5−k
5
2
5
1
5
kfX (k) =
k
= .
3
3
3
k
k=0
2. Sei X ∼ Exp(2). Dann gilt nach MAE3, Def. 4, 1.:
∞
E[X] =
∞
xfX (x) dx =
−∞
x·2e
0
−2x
1
dx =
2
y=2x
∞
ye
−y
0
1
lim
dy =
2 λ→∞
λ
ye−y dy .
0
=:I(λ)
Für das Integral I erhalten wir
λ
I(λ) =
λ
ye−y dy = −(y + 1)e−y 0 = 1 − (λ + 1) e−λ ,
0
und damit für den Grenzwert
1
1
lim 1 − (λ + 1) e−λ =
E[X] =
2 λ→∞
2
λ
1
−λ
1 − lim λ − lim e
= ,
λ→∞ e
λ→∞
2
mit der Grenzwertregel von Bernoulli und de L’Hospital (MAE3, Satz 1).
In der folgenden Tabelle listen wir die Erwartungswerte, Mediane und Modi der
in Kap. 1.3.2 und Kap. 1.3.5 eingeführten Verteilungen auf:
Verteilung
Erwartungswert
E[X]
Median
QX (0.5)
Berechnung in
MATLAB
U{1,2,...,n}
n+1
2
n+1
2
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
np
M
N
1−p
r
p
n
λ
unidinv(0.5,n)
entweder np
oder np
binoinv(0.5,n,p)
Modus
{x ∈ R | fX (x)
maximal}
{1,2,. . . ,n}
nbininv(0.5,r,p)
(n + 1)p oder
(n + 1)p − 1
(oder beide)
(n + 1) M+1
N +2
(r − 1) 1−p
p
poissinv(0.5,lambda)
λ − 1 und λ
hygeinv(0.5,N,M,n)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Verteilung
48
Erwartungswert
E[X]
Median
QX (0.5)
Berechnung in
MATLAB
a+b
2
1
λ
a+b
2
expinv(0.5,1/lambda)
n
chi2inv(0.5,n)
max{n − 2, 0}
n
,n>2
n−2
finv(0.5,m,n)
(m − 2)n
,m>2
m(n + 2)
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
µ
tn
0, n > 1
−
Cauchy(t, s)
Modus
{x ∈ R | fX (x)
maximal}
jedes x ∈ [a, b]
unifinv(0.5,a,b)
ln(2)
λ
0
µ
norminv(0.5,mu,...
sqrt(sigmaˆ2))
0
tinv(0.5,n)
t
µ
0
t
In dieser Tabelle bedeuten die Klammern · bzw. · das Ab- bzw. Aufrunden
auf die nächste ganze Zahl.
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine diskrete oder
stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX , und
sei g : R → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine
reelle Zufallsvariable ist:
X
g
Ω −→ R −
→ R,
Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R,
ω ∈ Ω.
Im Kap. 1.5.3 haben wir gesehen, dass die Berechnung der (kumulativen) Verteilungsfunktion FY : R → [0, 1] von Y im Allgemeinen mühsam ist. Die Berechnung des Erwartungswertes von Y ist jedoch recht einfach: Im diskret reellen
Fall ist der Erwartungswert von Y gegeben durch
E[Y ] = E[g(X)] =
g(xi )fX (xi ),
(17)
xi ∈im(X)
und im stetig reellen Fall durch
∞
E[Y ] = E[g(X)] =
g(x)fX (x) dx,
(18)
−∞
falls die jeweiligen Ausdrücke auf den rechten Seiten von (17), (18) existieren.
Auf den Beweis verzichten wir hier.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
49
Beispiele: Wir nehmen an, X sei eine stetige reelle Zufallsvariable.
1. Seien a, b ∈ R, b > 0. Wir definieren g(x) := a + bx, x ∈ R, und Y :=
g(X) = a + bX (vgl. Kap. 1.5). Mit (18) erhalten wir den Erwartungswert
∞
E[Y ] =
E[a + bX] =
a
g(x)fX (x) dx =
−∞
∞
=
∞
∞
fX (x) dx +b
−∞
xfX (x) dx = a + bE[X].
−∞
=1 (Normierung)
(a + bx) fX (x) dx
−∞
=E[X] (Def. 11)
Diesen Erwartungswert einer linear transformierten Zufallsvariablen können wir auch direkt mit Hilfe der in Kap. 1.5 bestimmten Verteilung von
Y berechnen:
∞
∞
y−a
1
E[Y ]
=
dy
yfY (y) dy =
y fX
b
b
x= y−a
b
−∞
∞
=
−∞
−∞
1
(a + bx) fX (x)b dx =
b
∞
(a + bx) fX (x) dx,
−∞
also wieder das Integral von oben.
√
2. Sei X ∼ N (0, 1), und sei g(x) := |x| = x2 , x ∈ R. Dann gilt Y :=
g(X) = |X|. Der Erwartungswert von Y ist gegeben durch
∞
E[Y ] =
E[|X|] =
−∞
x2
1
|x| √ e− 2 dx
2π
0
∞
x2
1 − x2
1
=
(−x) √ e 2 dx + x √ e− 2 dx .
2π
2π
−∞
0
=:I1
=:I2
Für die Berechnung von I1 verwenden wir die Substitution t := −x, dx =
−dt:
0
I1 =
−∞
x2
1
(−x) √ e− 2 dx =
2π
0
∞
t2
1
t √ e− 2 (−1) dt =
2π
∞
0
t2
1
t √ e− 2 dt = I2 .
2π
Der Erwartungswert von Y ist also gegeben durch
∞
λ
2
2
2
x2
− x2
E[Y ] = I1 + I2 = 2I2 = √
lim
xe
dx =
xe− 2 dx .
λ→∞
π
2π
0
0
=:I(λ)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
50
2
Für die Berechnung von I(λ) verwenden wir die Substitution t := − x2 ,
dx = − x1 dt:
2
λ
−
2
0
0
λ2
1
dt =
xe −
et dt = et − λ2 = 1 − e− 2 .
2
x
t
I(λ) =
0
2
− λ2
Für den Grenzwert erhalten wir lim I(λ) = 1 − lim e−
λ→∞
λ2
2
λ→∞
= 1 − 0 = 1,
und damit
E[Y ] = E[|X|] =
2
lim I(λ) =
π λ→∞
2
·1=
π
2
0.798.
π
Ein Streuungsmass soll die Streubreite einer Wahrscheinlichkeitsverteilung um
einen geeigneten Lageparameter (z. B. Median, Erwartungswert, Modus) herum
beschreiben. Wir definieren die drei Streuungsmasse
Definition 12 (Streuungsmasse)
1. (Inter-)Quartilsabstand (interquartile range, IQR):
IQR := QX (0.75) − QX (0.25),
2. Varianz (mittlere quadratische Abweichung vom Erwartungswert):
2
Var[X] ≡ V [X] := E (X − E[X]) ,
(19)
(20)
falls E[|X|] < ∞,
3. Standardabweichung:
σX :=
!
V [X].
(21)
Satz 7 (Eigenschaften von Erwartungswert und Varianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine reelle Zufallsvariable mit E[|X|] < ∞, und
seien a, b ∈ R. Dann gelten
1. E[a + bX] = a + bE[X] (Linearität des Erwartungswertes),
2. V [a + bX] = b2 V [X].
Beweis:
1. geht wie in Beispiel 1., auch für b ≤ 0.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
51
2. Wir verwenden die Definition der Varianz sowie die Linearität des Erwartungswertes (1.):
Def. 12, 2.
2
V [a + bX]
=
E (a + bX − E[a + bX])
Satz 7, 1.
2
=
E (a + bX − (a + bE[X]))
2
2
=
E (bX − bE[X]) = E b2 (X − E[X])
Satz 7, 1.
2 Def. 12, 2. 2
=
b2 E (X − E[X])
=
b V [X].
In der folgenden Tabelle listen wir die Varianzen der früher behandelten Verteilungen auf:
Verteilung
Varianz V [X]
U{1,2,...,n}
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
n2 −1
12
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
tn
Cauchy(t, s)
np(1 − p)
N −M N −n
nM
N
N
N −1
pr
(1−p)2
λ
(b−a)2
12
1
λ2
2n
2n2 (m+n−2)
m(n−2)2 (n−4) ,
2
n>4
σ
n>2
−
n
n−2 ,
Beachten Sie, dass die Bernoulli-Verteilung ein Spezialfall der Binomalverteilung
und die geometrische Verteilung ein Spezialfall der negativen Binomaialverteilung ist, weshalb diese Verteilungen in der Tabelle nicht extra aufgeführt sind.
Beispiele:
1. Berechnung von Erwartungswert und Varianz einer diskret gleichverteilten
Zufallsvariablen. Sei n ∈ N und X ∼ U{1,2,...,n} , also im(X) = {1, 2, . . . , n}.
Gemäss Def. 11 ist der Erwartungswert von X gegeben durch
E[X] =
xi ∈im(X)
xi fX (xi ) =
n
n
1
n+1
1
1 n(n + 1)
=
.
i =
i=
n
n
n
2
2
i=1
i=1
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Damit ist die Varianz von X gegeben durch
Def. 12, 2.
2 (17)
=
E (X − E[X])
=
V [X]
52
2
(xi − E[X]) fX (xi )
xi ∈im(X)
=
2
n n 1
1 2
n+1
n + 1 (n + 1)2
=
+
i−
i − 2i
2
n
n i=1
2
4
i=1
=
1 (n + 1)2
1 2 n+1
i −
i+ n
n i=1
n i=1
n
4
n
n
1 n(n + 1)(2n + 1) n + 1 n(n + 1) (n + 1)2
−
+
n
6
n
2
4
(n + 1)2
(n + 1)(2n + 1) (n + 1)2
−
+
6
2
4
2(n + 1)(2n + 1) − 3(n + 1)2
(n + 1)(2n + 1) (n + 1)2
−
=
6
4
12
(n + 1) (4n + 2 − 3n − 3)
(n + 1) (2(2n + 1) − 3(n + 1))
=
12
12
2
n −1
(n + 1)(n − 1)
=
.
12
12
=
=
=
=
=
2. Berechnung von Erwartungswert und Varianz einer exponentialverteilten
Zufallsvariablen. Sei λ > 0 und X ∼ Exp(λ). Gemäss Def. 11 ist der
Erwartungswert von X gegeben durch
∞
E[X] =
∞
xfX (x) dx =
−∞
∞
xλe−λx dx = −xe−λx 0 +
0
∞
e−λx dx
0
∞
1
1
= 0 + − e−λx = .
λ
λ
0
Damit ist die Varianz von X gegeben durch
V [X]
Def. 12, 2.
=
2
E (X − E[X])
∞ =
0
−
2
λ
1
2
x − x+ 2
λ
λ
2
∞
0
2
∞ 1
x−
=
λe−λx dx
λ
(18)
0
xλe−λx dx +
λe
1
λ
−λx
∞
0
∞
dx =
0
e−λx dx
x2 λe−λx dx +
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
=
∞
−x2 e−λx 0
+
1
λ
∞
0
∞
+
2xe
−λx
0
2
dx −
λ
∞
53
xλe−λx dx +
0
∞
1
1
e−λx dx = 0 + − 2 e−λx = 2 .
λ
λ
0
Bemerkungen:
• Eine reelle Zufallsvariable X : Ω → R mit E[X] = 0 heisst zentriert. Eine
zentrierte Zufallsvariable mit V [X] = 1 heisst standardisiert.
• Sei X eine reelle Zufallsvariable mit E[|X|] < ∞. Dann ist die reelle
Zufallsvariable
X − E[X]
E[X]
1
Y := !
= −!
+!
X
V [X]
V [X]
V [X]
standardisiert, wie wir leicht mit Satz 7 beweisen:
"
#
E[X]
E[X]
1
1
Satz 7
E[Y ] = E − !
= −!
+!
X
+!
E[X] = 0,
V [X]
V [X]
V [X]
V [X]
2
#
"
1
1
E[X]
Satz 7
!
=
V [X] = 1.
+!
X
V [Y ] = V − !
V [X]
V [X]
V [X]
• der MATLAB-Befehl ...stat gibt den Erwartungswert und die Varianz
einer Verteilung mit gegebenen Parametern aus,
z. B. [m,v] = binostat(10,1/6) oder [m,v] = chi2stat(5).
1.7
Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen
Bisher haben wir Zufallsexperimente betrachtet, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand, z. B. die Augenzahl beim Würfeln
oder die Anzahl gezogener Kugeln aus einer Urne. In diesem Kapitel betrachten wir Zufallsexperimente, bei denen gleichzeitig mehrere Zufallsgrössen beobachtet werden. Dabei stossen wir auf mehrdimensionale Zufallsvariablen mit
multivariaten Verteilungen. Die Wahrscheinlichkeits(dichte)funktionen sowie die
(kumulativen) Verteilungsfunktionen von solchen mehrdimensionalen Zufallsvariablen sind Funktionen von mehreren Variablen, wie sie in MAE3, Kap. I.5.,
eingeführt wurden. Im Kap. 1.3.4 haben wir gesehen, dass für
• einen Wahrscheinlichkeitsraum (Ω, Σ, P ) und für
• eine reelle Zufallsvariable X : Ω → R
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
54
das durch X induzierte Wahrscheinlichkeitsmass PX : B(R) → [0, 1] definiert
werden kann, so dass (R, B(R), PX ) ein Wahrscheinlichkeitsraum ist. Dabei ist
B(R) P(R) die Borelsche σ-Algebra auf R. In diesem Kapitel geht es um
n-dimensionale reelle Zufallsvariablen, und für diese erhalten wir den (neuen)
Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ), für ein n ∈ N, wobei B(Rn ) P(Rn )
die Borelsche σ-Algebra auf Rn bezeichnet.
1.7.1
Mehrdimensionale Zufallsvariablen
Definition 13 (mehrdimensionale reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i = 1, 2, . . . , n, n ∈ N, reelle Zufallsvariablen. Dann ist die Funktion X : Ω → Rn ,
X(ω) := (X1 (ω), X2 (ω), . . . , Xn (ω)) ,
ω ∈ Ω,
eine n-dimensionale reelle Zufallsvariable oder ein n-dimensionaler reeller Zufallsvektor. Eine mehrdimensionale reelle Zufallsvariable X heisst diskret, wenn
jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine diskrete reelle Zufallsvariable
ist. Eine mehrdimensionale reelle Zufallsvariable X heisst stetig, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine stetige reelle Zufallsvariable ist.
Bemerkungen:
• Das Bild einer n-dimensionalen Zufallsvariablen X ist im Allgemeinen
gegeben durch
im(X) = im(X1 ) × im(X2 ) × · · · × im(Xn ) ⊆ Rn ,
wobei im(Xi ) ⊆ R das Bild der i-ten Komponente bezeichnet, i = 1, 2, . . . , n.
• Für eine diskrete n-dimensionale reelle Zufallsvariable ist im(X) ⊆ Rn ein
Punktgitter im Rn , also insbesondere abzählbar.
• Für n = 2 verwendet man oft X = (X, Y ) anstatt X = (X1 , X2 ) und
für n = 3 oft X = (X, Y, Z) anstatt X = (X1 , X2 , X3 ) .
Wie wir wissen, induzieren die reellen Zufallsvariablen Xi : Ω → R, i = 1, 2, . . . , n,
Wahrscheinlichkeitsmasse auf dem messbaren Raum (R, B(R)):
PXi : B(R) → [0, 1], PXi (A) := P Xi−1 (A) = “P (Xi ∈ A)”, A ∈ B(R),
wobei B(R) die Borelsche σ-Algebra auf R bezeichnet (die kleinste σ-Algebra mit
R als Grundmenge, die alle offenen Intervalle enthält; Def. 7). Die (kumulativen)
Verteilungsfunktionen FXi : R → [0, 1] sind gegeben durch
FXi (xi ) := PXi ((−∞, xi ]) = “P (Xi ≤ xi )”,
xi ∈ R,
i = 1, 2, . . . , n.
Ganz analog induziert die n-dimensionale Zufallsvariable X = (X1 , X2 , . . . , Xn )
ein Wahrscheinlichkeitsmass auf einem messbaren Raum, wie wir im Folgenden
herleiten werden: Sei x = (x1 , x2 , . . . , xn ) ∈ Rn , dann gilt nach Def. 8:
Xi−1 ((−∞, xi ]) = {ω ∈ Ω | Xi (ω) ≤ xi } ∈ Σ,
i = 1, 2, . . . , n.
(22)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
55
Wir betrachten nun das Urbild des Kegels
(−∞, x] := (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ] ⊆ Rn
(23)
unter X: X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ∈ (−∞, x]}
(23)
=
{ω ∈ Ω | X(ω) ∈ (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ]}
=
{ω ∈ Ω | X1 (ω) ≤ x1 ∧ X2 (ω) ≤ x2 ∧ · · · ∧ Xn (ω) ≤ xn }
n
n
$
$
{ω ∈ Ω | Xi (ω) ≤ xi } =
Xi−1 ((−∞, xi ]) ∈ Σ,
i=1
i=1
=
(24)
∈Σ (22)
weil Σ ⊆ P(Ω) eine σ-Algebra ist (Def. 5). Analog zu Def. 7 ist die Borelsche
σ-Algebra auf Rn , B(Rn ) P(Rn ), definiert als die kleinste σ-Algebra mit
Rn als Grundmenge, die alle n-dimensionalen offenen Quader mit Eckpunkten
a = (a1 , a2 , . . . , an ) , b = (b1 , b2 , . . . , bn ) ,
(a, b) := (a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ) ⊆ Rn ,
ai , bi ∈ R, ai < bi ,
i = 1, 2, . . . , n, enthält. Wie im eindimensionalen Fall sind alle “gängigen” Teilmengen des Rn Borel-Mengen. Man kann zeigen, dass B(Rn ) von den Kegeln
(−∞, x] ⊆ Rn mit x ∈ Rn erzeugt wird, d. h. wenn eine Aussage für alle solchen Kegel gilt, dann gilt sie sogar für sämtliche Borel-Mengen im Rn . Das Paar
(Rn , B(Rn )) ist ein messbarer Raum (MAE3, Def. 26), und X ist eine messbare
Funktion: ∀ A ∈ B(Rn ): X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ.
Das durch X induzierte Wahrscheinlichkeitsmass auf (Rn , B(Rn )), also die
Funktion PX : B(Rn ) → [0, 1], ist definiert durch
(25)
PX (A) := P X −1 (A) = “P (X ∈ A)”, A ∈ B(Rn ).
Damit erhalten wir den neuen Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ). Für
n = 1 erhalten wir die bereits bekannten Definitionen für reelle Zufallsvariablen,
also sind dies Verallgemeinerungen, wie auch die folgende Definition:
Definition 14 ((kumulative) Verteilungsfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable.
Die (kumulative) Verteilungsfunktion von X, FX : Rn → [0, 1], ist definiert
durch
FX (x) := PX ((−∞, x]) = P X −1 ((−∞, x])
(26)
n
$
(24)
= P
Xi−1 ((−∞, xi ])
i=1
=
“P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ · · · ∧ Xn ≤ xn )” = “P (X ≤ x)”,
für x = (x1 , x2 , . . . , xn ) ∈ Rn . Die (kumulative) Verteilungsfunktion FX beschreibt die Verteilung der Zufallsvariablen X oder die gemeinsame Verteilung der reellen Zufallsvariablen X1 , X2 , . . . , Xn . Die Verteilungen der einzelnen
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
56
Komponenten Xi heissen (eindimensionale) Rand- oder Marginalverteilungen:
FXi (xi ) = “P (Xi ≤ xi )” =
lim “P (X1 ≤ x1 ∧ · · · ∧ Xi−1 ≤ xi−1 ∧ Xi ≤ xi ∧ Xi+1 ≤ xi+1 ∧ · · · ∧ Xn ≤ xn )”
xk →∞
∀k:k=i
FX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) ,
= xlim
→∞
k
∀k:k=i
xi ∈ R,
(27)
i = 1, 2, . . . , n.
Wir illustrieren die (kumulative) Verteilungsfunktion einer zweidimensionalen
stetigen reellen Zufallsvariablen X : Ω → R2 , ω → X(ω) = (X1 (ω), X2 (ω)) ,
sowie ihre Randverteilungen in der folgenden Grafik:
Anhand dieser Funktionen werden wir die Differenzial- und Integralrechnung in
mehreren Dimensionen behandeln.
Definition 15 (Wahrscheinlichkeitsdichtefunktionen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine diskrete oder stetige n-dimensionale
reelle Zufallsvariable.
• Im diskreten Fall erfüllt die (kumulative) Verteilungsfunktion
FX (x) =
fX (xi ) =
fX (xi ),
xi ∈im(X)∩(−∞,x]
(28)
xi ∈im(X)
xi ≤x
für x ∈ Rn , wobei fX : im(X) → [0, 1] die Wahrscheinlichkeitsfunktion
(Zähldichte) der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
57
• Im stetigen Fall erfüllt die (kumulative) Verteilungsfunktion
b1 b2
FX (b) =
bn
···
fX (x) dx =
−∞ −∞
(−∞,b]
fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 ,
−∞
(29)
für b = (b1 , b2 , . . . , bn ) ∈ Rn , wobei fX : Rn → [0, ∞) die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X oder die gemeinsame
Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet.
Bemerkungen:
• In (29) steht ein n-dimensionales Integral, das “von innen nach aussen”
durch n-fache eindimensionale Integration ausgewertet werden kann. Unter gewissen Voraussetzungen an den Integranden fX (die in der Regel
erfüllt sind) spielt die Reihenfolge der Integrationen keine Rolle (Satz von
Fubini; G. Fubini, 1879–1943).
• Wie im eindimensionalen Fall kann für stetige reelle Zufallsvariablen die
Wahrscheinlichkeitsdichtefunktion durch Ableiten aus der (kumulativen)
Verteilungsfunktion berechnet werden:
fX (x) =
∂ n FX
∂ ∂
∂FX
(x) =
···
(x).
∂x1 ∂x2 · · · ∂xn
∂x1 ∂x2
∂xn
(30)
Dieser Ausdruck wird ebenfalls “von innen nach aussen” durch n-fache
eindimensionale partielle Ableitung berechnet, wobei die Reihenfolge der
partiellen Ableitungen keine Rolle spielt.
Wie im Kap. 1.3.4 stellen wir einige Eigenschaften von diskreten und stetigen
n-dimensionalen reellen Zufallsvariablen in einer Tabelle zusammen:
Zufallsvariable X
Ergebnismenge Ω
Ereignisfeld Σ
Wahrscheinlichkeits(dichte)funktion
Normierung
Elementarereignis
{x} ∈ Σ , x ∈ Ω
Quader
“P (a < X ≤ b)”
a, b ∈ Rn , a < b
diskret reell
n-dimensional
im(X) ⊆ Rn
(abzählbar)
P (im(X))
stetig reell
n-dimensional
Rn
(überabzählbar unendlich)
B(Rn ) P(Rn )
fX : im(X) → [0, 1]
fX : Rn → [0, ∞)
fX (x) dx = 1
fX (xi ) = 1
xi ∈im(X)
PX ({x}) = fX (x)
fX (xi )
xi ∈im(X )
a<xi ≤b
Rn
PX ({x}) = 0
fX (x) dx
(a,b)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
58
wobei das n-dimensionale Integral unten rechts in der Tabelle gegeben ist durch
b1 b2
···
fX (x) dx =
(a,b)
bn
a1 a2
fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 .
(31)
an
Dabei sind Grenzübergänge ai → −∞ und/oder bj → ∞ zugelassen, was auf
unendliche Reihen bzw. uneigentliche Integrale führt.
Beispiele: Wir illustrieren die obigen Begriffe an zweidimensionalen Zufallsvariablen (n = 2).
1. Wir betrachten das Zufallsexperiment
Ziehen von Kugeln aus einer Urne mit 3 roten und 7 blauen
Kugeln,
und wir definieren die Zufallsvariablen
X1
:=
“Anzahl der roten Kugeln bei der 1. Ziehung”,
X2
:=
“Anzahl der roten Kugeln bei der 2. Ziehung”,
mit im(X1 ) = im(X2 ) = {0, 1}. Wir definieren die diskrete zweidimensionale Zufallsvariable X := (X1 , X2 ) mit
im(X) = im(X1 ) × im(X2 ) = {0, 1}2 = {(0, 0), (0, 1), (1, 0), (1, 1)}.
Wir wollen berechnen die Zähldichte von X, also die Funktion fX :
{0, 1}2 → [0, 1]:
fX ((0, 0)) = PX ({(0, 0)}) = “P (X = (0, 0))” = “P (X1 = 0 ∧ X2 = 0)”,
fX ((0, 1)) = PX ({(0, 1)}) = “P (X = (0, 1))” = “P (X1 = 0 ∧ X2 = 1)”,
fX ((1, 0)) = PX ({(1, 0)}) = “P (X = (1, 0))” = “P (X1 = 1 ∧ X2 = 0)”,
fX ((1, 1)) = PX ({(1, 1)}) = “P (X = (1, 1))” = “P (X1 = 1 ∧ X2 = 1)”.
Es stellt sich heraus, dass diese Zähldichte unterschiedlich ist je nachdem,
ob mit oder ohne Zurücklegen gezogen wird:
“P (X1
“P (X1
“P (X1
“P (X1
= 0 ∧ X2
= 0 ∧ X2
= 1 ∧ X2
= 1 ∧ X2
= 0)”
= 1)”
= 0)”
= 1)”
mit Zurücklegen
7
7
49
10 · 10 = 100
7
3
21
10 · 10 = 100
3
7
21
10 · 10 = 100
3
3
9
10 · 10 = 100
ohne Zurücklegen
7
6
7
10 · 9 = 15
7
3
7
10 · 9 = 30
3
7
7
10 · 9 = 30
3
2
1
10 · 9 = 15
Die Wertetabellen der entsprechenden Zähldichten der gemeinsamen Verteilung sowie der (eindimensionalen) Randverteilungen sind gegeben durch
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
mit Zurücklegen:
x1
fX
0
1 fX2
21
49
7
0 100 100
10
x2
9
21
3
1 100 100
10
3
7
fX1 10
1
10
59
ohne Zurücklegen:
x1
fX 0
1 fX2
7
7
7
0 15 30
10
x2
1
7
3
1 30 15
10
3
7
fX1 10
1
10
Offensichtlich sind die Randverteilungen in beiden Fällen gleich, obwohl
die gemeinsame Verteilung unterschiedlich ist. Im Allgemeinen kann daher
von den Randverteilungen nicht auf die gemeinsame Verteilung geschlossen werden!
Mit Hilfe dieser Tabellen können wir jetzt z. B. die folgenden Wahrscheinlichkeiten berechnen:
21
100 , mit Zurücklegen, ,
• “P (X1 = 1 ∧ X2 = 0)” = fX ((1, 0)) =
7
ohne Zurücklegen
30 ,
• “P (X1 = 1)” = “P (X1 = 1 ∧ (X2 = 0 ∨ X2 = 1))”
= “P ((X1 = 1 ∧ X2 = 0) ∨ (X1 = 1 ∧ X2 = 1))”
= “P (X1 = 1 ∧ X2 = 0) + P (X1 = 1 ∧ X2 = 1)”
21
9
100 + 100 , mit Zurücklegen
= fX ((1, 0)) + fX ((1, 1)) =
7
1
ohne Zurücklegen
30 + 15 ,
3
= fX1 (1).
=
10
2. Die kumulative Verteilungsfunktion einer stetigen zweidimensionalen reellen Zufallsvariablen X sei gegeben durch
1
1
1 − e−2x2 , x2 ≥ 0
− π1 arctan 3−x
2
4
FX (x1 , x2 ) =
,
0,
x2 < 0
für x1 , x2 ∈ R. Die (eindimensionalen) Randverteilungen erhalten wir
durch Berechnung der Grenzwerte:
1
3 − x1
1
, x1 ∈ R,
FX1 (x1 ) =
lim FX (x1 , x2 ) = − arctan
x2 →∞
2 π
4
1 − e−2x2 , x2 ≥ 0
FX2 (x2 ) =
lim FX (x1 , x2 ) =
, x2 ∈ R.
0,
x2 < 0
x1 →∞
Wir wollen die Wahrscheinlichkeitsdichtefunktion fX mit Hilfe von (30)
als zweite partielle Ableitung von FX berechnen. Dazu berechnen wir zunächst die (ersten) partiellen Ableitungen (für x2 > 0; MAE3, Def. 15):
∂FX
1
1 1
1 − e−2x2 ,
(x1 , x2 ) = −
−
∂x1
π 1 + 3−x1 2
4
4
∂FX
1
3 − x1
1
− arctan
2e−2x2 .
(x1 , x2 ) =
∂x2
2 π
4
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
60
Jetzt leiten wir diese Ausdrücke noch einmal partiell ab, und zwar nach
der jeweils anderen Variablen:
∂ 2 FX
1
e−2x2
1
1
8
2e−2x2 =
= −
,
3−x1 2 −
∂x2 ∂x1
π1+
4
π 16 + (3 − x1 )2
4
∂ 2 FX
1
e−2x2
1
1
8
2e−2x2 =
= −
.
3−x1 2 −
∂x1 ∂x2
π1+
4
π 16 + (3 − x1 )2
4
Offensichtlich erhalten wir unabhängig von der Reihenfolge der partiellen
Ableitungen dieselbe Wahrscheinlichkeitsdichtefunktion
fX (x1 , x2 ) =
e−2x2
8
,
π 16 + (3 − x1 )2
x2 > 0.
Mit der Wahrscheinlichkeitsdichtefunktion fX können wir Wahrscheinlichkeiten durch Integration berechnen, z. B.
“P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))”
= PX ((0, 5] × (−1, 1))
5 1
=
fX (x1 , x2 ) dx2 dx1 .
0 −1
Dieses zweidimensionale Integral werten wir “von innen nach aussen” aus,
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
61
1
d. h. wir berechnen zuerst das Integral über x2 :
fX (x1 , x2 ) dx2
−1
1
=
0
=
1
8
e−2x2
1
8
dx2 =
2
π 16 + (3 − x1 )
π 16 + (3 − x1 )2
e−2x2 dx2
0
1
1
1 − e−2
4
8
−2
1
−
e
=
,
π 16 + (3 − x1 )2 2
π 16 + (3 − x1 )2
und integrieren dann noch über x1 : “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))”
5
=
t=
3−x1
=4
5
4
1
1 − e−2
1 − e−2
dx1 =
dx1
1 2
π 16 + (3 − x1 )2
4π
1 + ( 3−x
4 )
0
0
3
1
1 − e−2
arctan
− arctan −
30 %.
π
4
2
2
f (X
1
,X )
2
(x 1 ,x 2 )
1.5
x2
0.01
1
0.0
1
0.03
1
0.0
0.5
0.0
5
5
0.0 .07
0
.03
0
0
-6
-4
-2
0
2
0.0
3
0.0
9
0.0 .11
0 0.13
7
4
6
8
10
12
x1
Die Berechnung der (eindimensionalen) Randdichten fXi , i = 1, 2, . . . , n, aus
der gemeinsamen Wahrscheinlichkeits(dichte)funktion fX erfolgt
• im diskreten Fall über die (n − 1)-fache Summe fXi (xi ) =
···
···
fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ),
x1 ∈
im(X1 )
xi−1 ∈
xi+1 ∈
im(Xi−1 ) im(Xi+1 )
xn ∈
im(Xn )
(32)
für xi ∈ im(Xi ), und
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
62
• im stetigen Fall über das (n − 1)-fache Integral fXi (xi ) =
∞
∞
···
−∞
fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) dxn · · · dxi+1 dxi−1 · · · dx1 ,
−∞
(33)
für xi ∈ R,
wobei über alle Komponenten ausser der i-ten summiert bzw. integriert wird.
Beispiel: Sei X : Ω → R2 eine zweidimensionale stetige reelle Zufallsvariable
mit Wahrscheinlichkeitsdichtefunktion
e−2x2
8
π 16+(3−x1 )2 , x2 > 0 ,
fX (x1 , x2 ) =
x1 , x2 ∈ R2
0,
x2 ≤ 0
(vgl. vorheriges Beispiel). Die eindimensionalen Randdichten sind nach (33) für
n = 2 gegeben durch
∞
fX1 (x1 )
=
∞
fX (x1 , x2 ) dx2 =
−∞
=
1
8
π 16 + (3 − x1 )2
∞
0
0
8
e−2x2
dx2
π 16 + (3 − x1 )2
e−2x2 dx2 =
1
8
π 16 + (3 − x1 )2
∞
1
− e−2x2 2
0
= 12
fX2 (x2 )
4
1
,
π 16 + (3 − x1 )2
x1 ∈ R ⇒ X1 ∼ Cauchy(3, 4),
 ∞
) 8 e−2x2


∞

π 16+(3−x1 )2 dx1 , x2 > 0
−∞
=
fX (x1 , x2 ) dx1 =
)∞


0 dx1 ,
x2 ≤ 0

−∞
−∞

∞
 8 e−2x2 )
1
π
16+(3−x1 )2 dx1 , x2 > 0
=
−∞

0,
x2 ≤ 0
3−x ∞
−2x
8 −2x 1
1
2
− 4 arctan 4
, x2 > 0
2e 2 , x2 > 0
πe
−∞
=
=
0,
x2 ≤ 0
0,
x2 ≤ 0
=
⇒
1.7.2
X2 ∼ Exp(2).
Stochastische Unabhängigkeit von Zufallsvariablen
Viele statistische Methoden setzen die (stochastische) Unabhängigkeit der beteiligten Zufallsvariablen voraus. In diesem Kapitel erweitern wir die Definition
für die (stochastische) Unabhängigkeit von Ereignissen (Def. 2) auf die (stochastische) Unabhängigkeit von reellen Zufallsvariablen.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
63
Definition 16 (Unabhängigkeit von mehreren Ereignissen) Sei (Ω, Σ, P ) ein
Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien A1 , A2 , . . . , An ∈ Σ
Ereignisse.
• Die Ereignisse A1 , A2 , . . . , An heissen paarweise unabhängig, falls die Ereignisse Ai und Aj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}, d. h. falls
P (Ai ∩ Aj ) = P (Ai )P (Aj ) gilt, für alle i, j ∈ {1, 2, . . . , n}.
• Die Ereignisse A1 , A2 , . . . , An heissen gegenseitig unabhängig, falls für
jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt:


k
k
$
*
Aij  =
P (Aij ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).
P
j=1
j=1
Bemerkungen:
• Für n = 2 Ereignisse sind die drei Begriffe “gegenseitig unabhängig” und
“paarweise unabhängig” (Def. 16) sowie “unabhängig” (Def. 2) äquivalent.
• Für n > 2 Ereignisse gibt es jedoch zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich eben die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft.
Die (stochastische) Unabhängigkeit von Ereignissen wird auch in der Definition
der (stochastischen) Unabhängigkeit von reellen Zufallsvariablen benötigt:
Definition 17 ((stochastisch) unabhängige reelle Zufallsvariablen) Sei (Ω, Σ, P )
ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen.
X und Y heissen (stochastisch) unabhängig, falls für alle A, B ∈ B(R) die
Ereignisse X −1 (A), Y −1 (B) ∈ Σ (stochastisch) unabhängig sind, d. h. falls
∀ A, B ∈ B(R) : P X −1 (A) ∩ Y −1 (B) = P X −1 (A) P Y −1 (B) . (34)
Andernfalls heissen X und Y (stochastisch) abhängig.
Im Falle der (stochastischen) Unabhängigkeit der reellen Zufallsvariablen X und
Y gelten spezielle Formeln für die (kumulative) Verteilungsfunktion und für die
Wahrscheinlichkeits(dichte)funktion der zweidimensionalen reellen Zufallsvariablen X := (X, Y ) :
Satz 8 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R
zwei reelle Zufallsvariablen. Wir definieren die zweidimensionale reelle Zufallsvariable X := (X, Y ) . Die Zufallsvariablen X und Y sind genau dann (stochastisch) unabhängig, wenn für die (kumulativen) Verteilungsfunktionen FX , FX ,
FY gilt:
FX (x, y) = FX (x)FY (y), ∀ x, y ∈ R.
(35)
Im diskreten oder stetigen Fall ist dies äquivalent dazu, dass für die Wahrscheinlichkeits(dichte)funktionen fX , fX , fY gilt:
fX (x, y) = fX (x)fY (y),
∀ x, y ∈ R.
(36)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
64
Bemerkungen:
• Dieser Satz kann als Kriterium für die (stochastische) Unabhängigkeit
von zwei reellen Zufallsvariablen X, Y verwendet werden, wenn sowohl
die Verteilungen von X und Y als auch ihre gemeinsame Verteilung (die
Verteilung von X = (X, Y ) ) bekannt sind.
Viel öfter wird jedoch die (stochastische) Unabhängigkeit von X und
Y vorausgesetzt, um z. B. mit (36) die gemeinsame Wahrscheinlichkeits(dichte)funktion aus bekannten Randdichten berechnen zu können.
• Nur wenn X und Y (stochastisch) unabhängig sind, kann man aus den
Randverteilungen auf die gemeinsame Verteilung schliessen.
Beispiele:
1. Im letzten Kapitel hatten wir die Wahrscheinlichkeitsverteilungen von zwei
diskreten Zufallsvariablen X1 und X2 berechnet: Mit Satz 8 prüfen wir nun
nach, ob diese beiden Zufallsvariablen (stochastisch) unabhängig sind:
x1
0
0
1
1
x2
0
1
0
1
Ziehen mit Zurücklegen
fX (x1 , x2 ) fX1 (x1 )fX2 (x2 )
7
49
7
49
100
10 · 10 = 100
7
21
3
21
100
10 · 10 = 100
3
21
7
21
100
10 · 10 = 100
3
9
3
9
100
10 · 10 = 100
Ziehen ohne Zurücklegen
fX (x1 , x2 ) fX1 (x1 )fX2 (x2 )
7
7
7
49
15
10 · 10 = 100
7
7
3
21
30
10 · 10 = 100
3
7
7
21
30
10 · 10 = 100
3
1
3
9
15
10 · 10 = 100
wobei X := (X1 , X2 ) . Nach Satz 8 sind also
• X1 und X2 (stochastisch) unabhängig, falls mit Zurücklegen gezogen
wird und
• X1 und X2 (stochastisch) abhängig, falls ohne Zurücklegen gezogen
wird.
2. Seien X ∼ N (0, 1) und Y := 2X−3 (dann gilt Y ∼ N (−3, 4), vgl. Kap. 1.5)
stetige Zufallsvariablen. Da Y eine Transformierte von X ist vermuten wir,
dass X und Y (stochastisch) abhängig sind. Die gemeinsame (kumulative)
Verteilungsfunktion von X und Y ist gegeben durch
FX (x), y ≥ 2x − 3
F(X,Y ) (x, y) = “P (X ≤ x ∧ Y ≤ y)” =
,
FY (y), y < 2x − 3
für x, y ∈ R. Das Kriterium aus Satz 8 ist offensichtlich nicht erfüllt, also
sind X und Y tatsächlich (stochastisch) abhängig. In der folgenden Grafik
vergleichen wir Niveaulinien von F(X,Y ) mit jenen von FX FY :
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
X ∼ N(0,1), Y := 2 X - 3
0
0.8
0.5
0.4
0.3
0.2
-4
0.1
0.1
-6
0.9
0.8
0.7
0.1
0.1
0.6
0.5
0.4
0.3
0.2
-4
∼ N(-3,4), unabhaengig
0.9
-2
0.2
y
X ∼ N(0,1), Y
0.2
0.3
-2
2
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0
∼ N(-3,4)
y
2
65
-6
y=2x-3
F(X,Y) (x,y)
FX (x) F Y(y)
-8
-8
-5
0
5
-5
0
5
x
x
Genau wie für Ereignisse kann man auch die (stochastische) Unabhängigkeit
von mehr als zwei Zufallsvariablen definieren:
Definition 18 (Unabhängigkeit von mehreren reellen Zufallsvariablen) Sei
(Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien
X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen.
• Die Zufallsvariablen X1 , X2 , . . . , Xn heissen paarweise unabhängig, falls
die Zufallsvariablen Xi und Xj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}.
• Die Zufallsvariablen X1 , X2 , . . . , Xn heissen gegenseitig unabhängig, falls
für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt:


k
k
$
*

Xi−1
(A
)
=
P Xi−1
(Aj ) ,
∀ A1 , A2 , . . . , Ak ∈ B(R) : P 
j
j
j
j=1
j=1
(37)
−1
−1
das heisst falls die Ereignisse Xi−1
(A
),
X
(A
),
.
.
.
X
(A
)
gegenseitig
1
2
k
i2
ik
1
unabhängig sind für alle Borel-Mengen A1 , A2 , . . . , Ak ∈ B(R).
Bemerkungen:
• Für n = 2 Zufallsvariablen sind die drei Begriffe “gegenseitig unabhängig” und “paarweise unabhängig” (Def. 18) sowie “unabhängig” (Def. 17)
äquivalent. Für n > 2 Zufallsvariablen hingegen gibt es wieder zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei
die stärkere Eigenschaft.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
66
• Mit X := (X1 , X2 , . . . , Xn ) folgt aus der Formel (37) für k = n:
“P (X ≤ a)”
= “P (X1 ≤ a1 ∧ X2 ≤ a2 ∧ · · · ∧ Xn ≤ an )”
n
n
$
(37) *
Xi−1 ((−∞, ai ]) =
P Xi−1 ((−∞, ai ])
= P
i=1
i=1
= “P (X1 ≤ a1 )P (X2 ≤ a2 ) · · · P (Xn ≤ an )”
n
*
“P (Xi ≤ ai )”, ∀ a = (a1 , a2 , . . . , an ) ∈ Rn ,
=
i=1
weil (−∞, a1 ], (−∞, a2 ], . . . , (−∞, an ] ∈ B(R). Daraus folgt für die gemeinsame (kumulative) Verteilungsfunktion:
FX (x) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) =
n
*
FXi (xi ),
(38)
i=1
für alle x = (x1 , x2 , . . . , xn ) ∈ Rn , und für die Wahrscheinlichkeits(dichte)funktionen im diskreten oder stetigen Fall:
fX (x) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) =
n
*
fXi (xi ),
(39)
i=1
für alle x = (x1 , x2 , . . . , xn ) ∈ Rn . Die Formeln (38), (39) sind Verallgemeinerungen von (35), (36) und sehr nützlich für praktische Rechnungen.
Um sie anwenden zu können, muss man die gegenseitige Unabhängigkeit
der reellen Zufallsvariablen X1 , X2 , . . . , Xn voraussetzen – paarweise Unabhängigkeit genügt nicht!
1.8
Transformationen von Zufallsvektoren
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine
n-dimensionale reelle Zufallsvariable. Wir betrachten Funktionen g : Rn → R,
so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist:
X
g
Ω −→ Rn −
→ R,
Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R,
ω ∈ Ω.
Wir sind in erster Linie an Summen und Produkten der Komponenten von X
interessiert, also z. B. an Transformationen der Form
g(x) :=
n
i=1
xi
oder g(x) :=
n
*
xi ,
x = (x1 , x2 , . . . , xn ) ∈ Rn .
i=1
Wir illustrieren diese Abbildungen für den Fall n = 2 in der folgenden Grafik:
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
67
Bevor wir uns anschauen, wie die Verteilung einer derart transformierten Zufallsvariablen Y = g(X) aussieht, wollen wir zuerst untersuchen, wie die Masszahlen
transformieren.
1.8.1
Masszahlen der Transformierten
Satz 9 (Erwartungswert einer Transformierten) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale diskrete
oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX .
Sei g : Rn → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz Y := g(X))
eine reelle Zufallsvariable ist. Der Erwartungswert von Y ist dann
• im diskreten Fall gegeben durch
E[Y ] = E[g(X)] =
g(xi )fX (xi )
(40)
xi ∈im(X)
• und im stetigen Fall gegeben durch
g(x)fX (x) dx.
E[Y ] = E[g(X)] =
Rn
(41)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
68
Bemerkungen:
• Die Formeln (40), (41) sind Verallgemeinerungen der Formeln (17), (18)
auf n ≥ 1 Dimensionen.
• Auf der rechten Seite von (41) steht wieder ein n-dimensionales Integral,
das als Hintereinanderausführung von n eindimensionalen Integralen aufgefasst werden kann, die “von innen nach aussen” ausgewertet werden können:
g(x)fX (x) dx
Rn
∞
∞
∞
···
=
−∞ −∞
g(x1 , x2 , . . . , xn )fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 .
−∞
Speziell für Linearkombinationen von Zufallsvariablen gilt der
Satz 10 (Additionssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen.
Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt
#
" n
n
ai Xi + an+1 =
ai E[Xi ] + an+1 .
(42)
E
i=1
i=1
Bemerkung: Dies ist eine Verallgemeinerung von Satz 7, 1. (Linearität des Erwartungswertes). Beachten Sie, dass der Satz 10 auch für stochastisch abhängige
Zufallsvariablen gilt.
Als Nächstes berechnen wir die Varianz einer Summe von zwei reellen Zufallsvariablen X1 , X2 . Nach Def. 12, 2., und mit Satz 10 gilt
Def. 12, 2.
V [X1 + X2 ]
=
E (X1 + X2 − E[X1 + X2 ])2
Satz 10
2
=
E (X1 + X2 − (E[X1 ] + E[X2 ]))
2
=
E (X1 − E[X1 ] + X2 − E[X2 ])
=
E (X1 − E[X1 ])2 + 2 (X1 − E[X1 ]) (X2 − E[X2 ]) + (X2 − E[X2 ])2
Satz 10
2
=
E (X1 − E[X1 ]) + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])]
2
+E (X2 − E[X2 ])
Def. 12. 2.
=
V [X1 ] + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] + V [X2 ].
Der hier auftretende Erwartungswert des gemischten Produkts ist die Kovarianz
von X1 und X2 :
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
69
Definition 19 (Kovarianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann
heisst
σXY ≡ Cov(X, Y ) := E [(X − E[X]) (Y − E[Y ])]
(43)
die Kovarianz von X und Y .
Damit erhalten wir
V [X1 + X2 ] = V [X1 ] + 2Cov(X1 , X2 ) + V [X2 ],
was wir auch wieder auf Linearkombinationen von n Zufallsvariablen verallgemeinern können:
Satz 11 (Additionssatz für Varianzen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen mit
E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈
R, dann gilt
" n
#
n
V
=
ai Xi + an+1
ai aj Cov(Xi , Xj )
(44)
i=1
i,j=1
=
n
i=1
a2i V [Xi ] + 2
n−1
n
ai aj Cov(Xi , Xj ). (45)
i=1 j=i+1
Bemerkung: Dies ist eine Verallgemeinerung von Satz 7, 2. Für n = 2 und
a1 = a2 = 1 erhalten wir die Formel von oben für V [X1 + X2 ].
Die zweite Gleichung in Satz 11 folgt aus den Eigenschaften der Kovarianz:
Satz 12 (Eigenschaften der Kovarianz) Die Kovarianz von reellen Zufallsvariablen ist
1. bilinear:
Cov(λ · X + Y, Z) = λ · Cov(X, Z) + Cov(Y, Z),
Cov(X, λ · Y + Z) = λ · Cov(X, Y ) + Cov(X, Z),
2. symmetrisch: σY X = Cov(Y, X) = Cov(X, Y ) = σXY ,
2
≥ 0.
3. positiv semidefinit: σXX = Cov(X, X) = V [X] = σX
Ausserdem gilt
4. X, Y stochastisch unabhängig ⇒ Cov(X, Y ) = 0
Beweis: Die Eigenschaften 1.–3. lassen sich direkt mit Def. 19, Def. 12, 2., und
mit Satz 10 beweisen. Wir beweisen hier nur
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
70
4. für den stetigen Fall. Seien fX und fY die Wahrscheinlichkeitsdichtefunktionen der stetigen reellen Zufallsvariablen X und Y . Weil X, Y stochastisch unabhängig sind, gilt für die gemeinsame Wahrscheinlichkeitsdichtefunktion fX , X := (X, Y ) , nach Satz 8: fX (x, y) = fX (x)fY (y),
x, y ∈ R. Damit erhalten wir für die Kovarianz von X und Y :
Cov(X, Y )
=
Satz 9
=
Satz 8
E [(X − E[X]) (Y − E[Y ])]
∞ ∞
(x − E[X])(y − E[Y ])fX (x, y) dy dx
−∞ −∞
∞ ∞
(x − E[X])(y − E[Y ])fX (x)fY (y) dy dx
=
−∞ −∞
∞
∞
(x − E[X])fX (x)
=
−∞
(y − E[Y ])fY (y) dy dx
−∞
∞
−∞
(y − E[Y ])fY (y) dy
−∞
Satz 9
E [X − E[X]] E [Y − E[Y ]]
Satz 10
(E[X] − E[X]) (E[Y ] − E[Y ]) = 0.
=
=
∞
(x − E[X])fX (x) dx
=
Konstante
Der Beweis für den diskreten Fall geht analog mit Summen an Stelle von
Integralen.
Bemerkung: Beachten Sie, dass die Umkehrung von 4. i. A. nicht gilt! Wir zeigen
dies mit dem folgenden
Beispiel: Sei p ∈ (0, 1) und seien Z1 , Z2 ∼ B(1, p). Wir nehmen an, Z1 , Z2 seien
stochastisch unabhängig, und wir definieren die diskreten reellen Zufallsvariablen X := Z1 + Z2 , Y := Z1 − Z2 . Wir erstellen zuerst die folgende Tabelle mit
den Werten von Z1 und Z2 , ihren gemeinsamen Wahrscheinlichkeiten, sowie den
entsprechenden Werten von X und Y :
z1
0
0
1
1
z2
0
1
0
1
“P (Z1 = z1 ∧ Z2 = z2 )” =
x=
“P (Z1 = z1 )P (Z2 = z2 )” z1 + z2
(1 − p)2
0
p(1 − p)
1
p(1 − p)
1
p2
2
y=
z1 − z2
0
−1
1
0
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
71
Damit erhalten wir die Wahrscheinlichkeitsfunktionen fX , fY , fX , X := (X, Y ) :
x
y
fX
−1
0
1
fX
0
0
(1 − p)2
0
(1 − p)2
1
2
p(1 − p) 0
0
p2
p(1 − p) 0
2p(1 − p) p2
fY
p(1 − p)
(1 − p)2 + p2
p(1 − p)
1
Die Zufallsvariablen X und Y sind stochastisch abhängig, denn es gilt z. B.
fX (1, −1) = p(1 − p) = 2p2 (1 − p)2 = fX (1)fY (−1),
für p ∈ (0, 1).
Für die Kovarianz von X und Y erhalten wir jedoch mit Satz 12:
Cov(X, Y )
=
Cov(Z1 + Z2 , Z1 − Z2 )
Bilinearität
Cov(Z1 , Z1 − Z2 ) + Cov(Z2 , Z1 − Z2 )
Bilinearität
Cov(Z1 , Z1 ) − Cov(Z1 , Z2 ) + Cov(Z2 , Z1 ) − Cov(Z2 , Z2 )
Symmetrie
V [Z1 ] − Cov(Z1 , Z2 ) + Cov(Z1 , Z2 ) − V [Z2 ]
V [Z1 ] − V [Z2 ] = 0,
=
=
=
=
denn es gilt V [Z1 ] = V [Z2 ] = p(1 − p) für B(1, p)-verteilte Zufallsvariablen.
Aus Satz 11 und Satz 12, 4., erhalten wir das
Korollar 1 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R paarweise unabhängige reelle Zufallsvariablen mit
E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈
R, dann gilt
#
" n
n
V
ai Xi + an+1 =
a2i V [Xi ].
i=1
i=1
Beweis: Wegen der paarweisen Unabhängigkeit von X1 , X2 , . . . , Xn gilt nach
Satz 12, 4.: Cov(Xi , Xj ) = 0, i = j. Daher verschwindet die Doppelsumme auf
der rechten Seite im Satz 11.
Zur Berechnung des Erwartungswertes des Produkts XY von zwei reellen
Zufallsvariablen machen wir die folgende Hilfsrechnung:
XY
=
XY − E[X]Y + E[X]Y = (X − E[X]) Y + E[X]Y
=
(X − E[X]) Y + E[X]Y − (X − E[X]) E[Y ] + (X − E[X]) E[Y ]
=
(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ].
Mit Satz 10 erhalten wir
E[XY ] =
=
E [(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]]
E [(X − E[X]) (Y − E[Y ])] + E[X]E[Y ] + E [X − E[X]] E[Y ]
=0
=
Cov(X, Y ) + E[X]E[Y ].
Wir erhalten den
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
72
Satz 13 (Multiplikationssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Dann gelten
1. im Fall n = 2:
E[X1 X2 ] = E[X1 ]E[X2 ] + Cov(X1 , X2 ),
2. und im Fall n ≥ 2, falls X1 , X2 , . . . , Xn gegenseitig unabhängig sind:
#
" n
n
*
*
E
Xi =
E[Xi ].
i=1
i=1
Bemerkung: Im Fall n = 2 erhalten wir den sog. Verschiebungssatz für die
Kovarianz:
Cov(X, Y ) = E[XY ] − E[X]E[Y ],
der im Fall Y = X zum Verschiebungssatz für die Varianz wird:
V [X] = Cov(X, X) = E[XX] − E[X]E[X] = E[X 2 ] − E[X]2 .
1.8.2
Kovarianz und Korrelation
Gemäss Satz 12, 1.–3., ist die Kovarianz Cov eine sog. positiv semidefinite, symmetrische Bilinearform. Sie erfüllt daher die Cauchy-Schwarzsche Ungleichung
(A.-L. Cauchy, 1789–1857, K. H. A. Schwarz, 1843–1921)
Cov(X, Y )2 = Cov(X, Y )Cov(X, Y ) ≤ Cov(X, X)Cov(Y, Y ) = V [X]V [Y ]
und damit (durch Wurzelziehen)
|σXY | = |Cov(X, Y )| ≤
!
V [X]
!
V [Y ] = σX σY .
Es ist üblich, die Kovarianz durch das Produkt der Standardabweichungen zu
dividieren – damit erhält man den Korrelationskoeffizienten:
Definition 20 (Korrelationskoeffizient) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] <
∞. Dann heisst
Cov(X, Y )
σXY
!
rXY ≡ Kor(X, Y ) := !
.
=
σX σY
V [X] V [Y ]
der Korrelationskoeffizient von X und Y .
(46)
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
73
Bemerkungen:
• Mit der Cauchy-Schwarzschen Ungleichung für die Kovarianz gilt |rXY | ≤
1.
• Zwei Zufallsvariablen X, Y mit rXY = 0 (und damit σXY = 0) heissen
unkorreliert.
• Sind X und Y stochastisch unabhängig, so sind sie auch unkorreliert, aber
nicht umgekehrt!
Die Kovarianz oder der Korrelationskoeffizient der Zufallsvariablen X und Y
geben Auskunft über den Grad des monotonen Zusammenhangs zwischen X
und Y . Wir illustrieren dies an Hand der bivariaten Normalverteilung:
7
f (X,Y) (x,y), r XY = 0
6
5
x
5
1
0.0
01
0.
0.01
y
y
y
0.05
0
0.03
0
-1
1
-2
-5
1
01
0.
0.0
6
2
0.03
x
4
3
2
0
3
1
0
0.03
-2
2
0.01
0.03
05
1
0.0
5
0.
0.07
0.0
-4
-4
0.0
-2
4
0.0
0
01
0.01
0
4
0.
.03
0.01
2
0.05
f (X,Y) (x,y), r XY < 0
f (X,Y) (x,y), r XY > 0
6
-2
-3
-8
-6
-4
-2
0
x
Ist der Zusammenhang zwischen X und Y hingegen nicht-monoton, so ist es
möglich, dass rXY = 0 gilt, obwohl X und Y stochastisch abhängig sind!
1.8.3
Verteilung der Transformierten
In der folgenden Tabelle listen wir die Verteilungen von einigen Transformierten
Y = g ◦ X von Zufallsvektoren X = (X1 , X2 , . . . , Xn ) , n ∈ N, auf. Dabei
wird immer angenommen, dass die Zufallsvariablen X1 , X2 , . . . , Xn gegenseitig
unabhängig sind.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Verteilung
der Xi
B(ni , p)
Transformation
Y
n
Xi
i=1
N B(ri , p)
n
i=1
n
P(λi )
i=1
n
χ2ni
Xi
Xi
Verteilung
von Y
n
B
ni , p
i=1n
NB
ri , p
i=1
n
P
λi
i=1
χ2
n
Xi
i=1
N (µi , σi2 )
Cauchy(ti , si )
i=1
n
i=1
n
N (0, 1)
χ2ni
X1 ∼ N (0, 1)
X2 ∼ χ2n
n
i=1
N
Xi
µi ,
i=1
Xi
Cauchy
n
ni
n
Xi2
σi2
i=1
ti ,
i=1
n
si
i=1
χ2n
i=1
X1
X2
X1 /n1
N (0, 1)
1.8.4
n
74
Cauchy(0, 1)
Fn1 ,n2
X2 /n2
X
! 1
X2 /n
tn
Zentraler Grenzwertsatz
Wir betrachten jetzt eine Folge Xi = X1 , X2 , X3 , . . . von reellen Zufallsvariablen, die gegenseitig unabhängig sind und die alle dieselbe Verteilung haben.
Man spricht von unabhängigen und identisch verteilten (englisch: independent
and identically distributed, abgekürzt i. i. d. oder einfach iid ) Zufallsvariablen.
Der Erwartungswert und die Varianz der Xi seien
E[Xi ] = µ,
V [Xi ] = σ 2 ,
i = 1, 2, 3, . . . ,
mit µ ∈ R, σ > 0
(insbesondere müssen sowohl die Erwartungswerte als auch die Varianzen aller
Xi existieren). Wir betrachten jetzt die n-te Teilsumme der Xi ,
Sn :=
n
i=1
Xi ,
n ∈ N,
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
75
die wieder eine reelle Zufallsvariable ist. Gemäss Satz 10 und Satz 11 gelten
#
" n
n
E[Sn ] = E
Xi =
E[Xi ] = nµ,
i=1
V [Sn ] = V
" n
i=1
#
Xi =
i=1
n
V [Xi ] = nσ 2 ,
i=1
für n ∈ N. Die reellen Zufallsvariablen
Zn :=
Sn − E[Sn ]
Sn − nµ
!
,
= √
nσ
V [Sn ]
n ∈ N,
sind standardisiert, d. h. E[Zn ] = 0 und V [Zn ] = 1, n ∈ N. Der zentrale Grenzwertsatz sagt aus, dass für n → ∞ die Verteilung von Zn gegen die Standardnormalverteilung konvergiert:
Satz 14 (Zentraler Grenzwertsatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum,
und seien Xi : Ω → R, i ∈ N, unabhängige und identisch verteilte reelle Zufallsvariablen mit E[Xi ] = µ und V [Xi ] = σ 2 , i ∈ N, mit µ ∈ R und σ > 0. Wir
betrachten die standardisierten Zufallsvariablen
Zn :=
Sn − nµ
√
,
nσ
Sn :=
n
Xi ,
n ∈ N.
i=1
Für die (kumulativen) Verteilungsfunktionen von Zn gilt
lim FZn (z) = Φ(z),
n→∞
z ∈ R,
(47)
wobei Φ die (kumulative) Verteilungsfunktion der Standardnormalverteilung N (0, 1)
bezeichnet.
Bemerkung: Falls Xi ∼ N (µ, σ 2 ), i ∈ N, so gelten gemäss der Tabelle in
Kap. 1.8.3 sowie gemäss Kap. 1.5.2
Sn =
n
Xi ∼ N (nµ, nσ 2 ),
i=1
Zn =
Sn − nµ
√
∼ N (0, 1),
nσ
für jedes n ∈ N. Bemerkenswert am zentralen Grenzwertsatz ist aber, dass auch
für nicht normalverteilte Zufallsvariablen Xi die Verteilung der standardisierten
Zufallsvariablen Zn gegen die Standardnormalverteilung konvergiert.
Beispiel/Anwendung: (Normal-Approximation) Seien Xi ∼ B(1, p), i ∈ N, unabhängige Bernoulli-verteilte Zufallsvariablen mit Parameter p ∈ (0, 1). Gemäss
den Tabellen im Kap. 1.6.2 gelten
E[Xi ] = p =: µ,
V [Xi ] = p(1 − p) =: σ 2 ,
i ∈ N.
1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
76
Gemäss der Tabelle in Kap. 1.8.3 sind die n-ten Teilsummen der Xi binomialverteilt:
n
Sn =
Xi ∼ B(n, p), n ∈ N.
i=1
Die (kumulativen) Verteilungsfunktionen der standardisierten Zufallsvariablen
Zn =
Sn − np
Sn − nµ
√
= !
,
nσ
np(1 − p)
n ∈ N,
erfüllen nach dem zentralen Grenzwertsatz: lim FZn (z) = Φ(z), z ∈ R.
n→∞
!
Mit
S
=
np
+
np(1
−
p)Z
,
n
∈
N,
gilt nach Kap. 1.5 (a := np, b :=
n
n
!
np(1 − p)) für die (kumulativen) Verteilungsfunktionen:
s − np
, s ∈ R, n ∈ N.
FSn (s) = FZn !
np(1 − p)
Für grosse Werte von n erhalten wir nun wegen des zentralen Grenzwertsatzes
eine Approximation der Binomial- durch die Normalverteilung:
n k
s − np
n−k
,
p (1 − p)
Φ !
k
np(1 − p)
min{
s,n} FSn (s) =
k=0
s ∈ R.
(48)
Die Funktion Φ auf der rechten Seite von (48) ist viel leichter auszuwerten als die
Summe und auch numerisch günstiger, da keine grossen Binomialkoeffizienten
auftreten.
Als Faustregel ist die Näherung (48) hinreichend gut, falls σS2 n = np(1−p) ≥
9. Sei z. B. p = 1/6, dann ist diese Faustregel erfüllt für n ≥ 65: 65 61 65 9.03.
1
B(65,1/6)
N(65*1/6,65*1/6*5/6)
0.9
0.8
0.7
FX (x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
x
20
25
2 STATISTIK
2
77
Statistik
Das Gebiet der Statistik umfasst Methoden, um empirische Daten zu analysieren. Diese Methoden basieren auf der in Kap. 1 behandelten Wahrscheinlichkeitstheorie. Die Statistik umfasst die drei Teilgebiete
• deskriptive (beschreibende) Statistik: Verdichtung von Daten zu Tabellen,
Diagrammen, Kenngrössen
• induktive (mathematische, schliessende) Statistik: Ableiten von Eigenschaften der Grundgesamtheit aus einer Stichprobe. Schätz- und Testverfahren.
• explorative (analytische) Statistik (data mining): systematische Suche nach
möglichen Zusammenhängen zwischen Daten
Wir werden hier nur kurz auf die deskriptive Statistik eingehen und uns dann
auf die induktive Statistik konzentrieren.
2.1
Erzeugung von Pseudo-Zufallszahlen in MATLAB
Aus MATLABs “Statistics Toolbox” (doc stats) haben wir bereits die Funktionen
• ...pdf zur Auswertung von Wahrscheinlichkeits(dichte)funktionen (fX ),
• ...cdf zur Auswertung von (kumulativen) Verteilungsfunktionen (FX ),
• ...inv zur Auswertung von Quantilfunktionen (QX ), und
• ...stat zur Berechnung von Erwartungswert und Varianz (E[X], V [X]),
kennen gelernt. Mögliche Verteilungen waren dabei
Funktionsname
unid...
bino...
hyge...
nbin...
poiss...
unif...
exp...
chi2...
f...
norm...
t...
Verteilung
U{1,2,...,n}
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
tn
Parameter
n
n, p
N, M, n
r, p
λ
a, b
1/λ (!)
n
m,
√ n
µ, σ 2 (!)
n
Mit den Funktionen ...rnd können wir Pseudo-Zufallszahlen mit einer vorgegebenen Verteilung erzeugen. So erzeugt z. B. der Befehl r = binornd(n,p,N,1)
2 STATISTIK
78
einen Spaltenvektor der Länge N (eine (N ×1)-Matrix) von Realisierungen binomialverteilter Zufallsvariablen, Xi ∼ B(n, p), i = 1, 2, . . . , N (iid). Die erzeugten
Zahlen sind keine echten Zufallszahlen, denn sie werden von einem (deterministischen) Algorithmus erzeugt. Sie haben jedoch viele Eigenschaften von echten
Zufallszahlen, und sie sind bei Bedarf reproduzierbar.
Da es in der Regel schwierig ist, an echte statistische Datensätze zu kommen
(wenn man nicht gerade selbst eine Studie durchführt), werden wir unsere statistischen Methoden an solchen simulierten Daten illustrieren und ausprobieren.
2.2
Deskriptive Statistik
Wir betrachten hier zwei simulierte Datensätze mit jeweils n := 10000 Datenpunkten. Die typische Annahme in der Statistik ist, dass jeder Datensatz (jede Stichprobe) Realisierungen von unabhängigen und identisch verteilten (iid)
Zufallsvariablen enthält, wobei deren Verteilung natürlich für jede der beiden
Stichproben unterschiedlich sein kann. In der schliessenden Statistik versucht
man, anhand der Stichproben Aussagen über diese (unbekannten!) Verteilungen sowie über den Zusammenhang der zugrunde liegenden Zufallsvariablen zu
machen.
In der deskriptiven Statistik geht es hingegen um eine übersichtliche Darstellung der Daten. Wir zeichnen zuerst die Rohdaten, d. h. die Punkte (i, xi ),
i = 1, 2, . . . , n:
160
150
xi
140
130
120
110
Datensatz 1
Datensatz 2
100
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
i
Es gibt viele weitere Darstellungen, mit denen die Datensätze deutlich übersichtlicher dargestellt werden können, z. B.
• den Boxplot (box-and-whisker-plot),
• das Histogramm (Häufigkeitsverteilung),
• die empirische (kumulative) Verteilungsfunktion.
2 STATISTIK
79
boxplot
900
155
800
histogram
0.9
150
Datensatz 1
Datensatz 2
0.8
700
145
0.7
600
140
cdfplot
1
Datensatz 1
Datensatz 2
500
130
400
F(x)
0.6
135
0.5
0.4
125
300
0.3
120
200
0.2
115
100
110
1
2
0
100
0.1
120
140
160
0
100
120
140
160
x
Auskünfte über den Zusammenhang zwischen den zugrunde liegenden Zufallsvariablen erhält man z. B. mit
• dem Streudiagramm (scatter plot) oder mit
• dem dreidimensionalen Histogramm.
Ausser den grafischen Darstellungen gehört auch die Berechnung von empirischen Kenngrössen zur deskriptiven Statistik. In der folgenden Tabelle sind
einige MATLAB-Befehle dazu angegeben:
MATLAB-Befehl
quantile
median
mean
mode
iqr
var
std
mad
cov
corrcoef
StichprobenQuantile
Median
Mittelwert
Modus
(Inter-)Quartilsabstand
Varianz
Standardabweichung
mittlere abs. Abweichung
Kovarianzmatrix
Korrelationskoeffizienten
Datensatz 1
Datensatz 2
133
140
133
140
133
122 (!)
9.00
6.71
44.0
25.2
6.63
5.02
5.30
3.99
Eintrag (1,2): 0.711
Eintrag (1,2): 0.0213
Die Berechnung von einigen dieser Grössen wird im Kapitel über die schliessende
Statistik behandelt.
2 STATISTIK
2.3
80
Schliessende Statistik
Im vorherigen Kapitel über die beschreibende Statistik hatten wir Stichproben
{x1 , x2 , . . . , xn } ⊆ R vom Umfang n ∈ N grafisch dargestellt oder durch wenige Zahlen charakterisiert. In der schliessenden Statistik nehmen wir an, die
i-te Beobachtung xi sei eine Realisierung der i-ten Stichprobenvariable Xi , i =
1, 2, . . . , n. Dabei seien die Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R iid reelle Zufallsvariablen (wie immer auf einem Wahrscheinlichkeitsraum (Ω, Σ, P )).
Anders gesagt, die Stichprobe x := (x1 , x2 , . . . , xn ) ∈ Rn wird aufgefasst als
eine Realisierung der n-dimensionalen reellen Zufallsvariablen X : Ω → Rn ,
X := (X1 , X2 , . . . , Xn ) , deren Komponenten iid sind.
2.3.1
Parameterschätzung
In einem parametrischen statistischen Modell nimmt man an, die (kumulative)
Verteilungsfunktion der Stichprobenvariablen Xi sei gegeben durch
“P (Xi ≤ x)” = F (x; ϑ),
x ∈ R,
i = 1, 2, . . . , n,
mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ (Parameterraum), dessen wahrer Wert unbekannt ist. Der Parameter kann auch ein Vektor sein – in einem d-dimensionalen parametrischen statistischen Modell gilt
Θ ⊆ Rd . Beachten Sie, dass in der Regel n d gilt, d. h. wir haben viel mehr
Beobachtungen als Modellparameter.
Beispiele:
1. Die Stichprobenvariablen erfüllen Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem
Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Ihre kumulative
Verteilungsfunktion ist gegeben durch
min{
x,50} “P (Xi ≤ x)” =
50 k
p (1 − p)50−k =: F (x; p),
k
k=0
x ∈ R,
i = 1, 2, . . . , n, und wir erhalten ein eindimensionales parametrisches statistisches Modell mit Parameter ϑ := p.
2. Die Stichprobenvariablen erfüllen Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Parametern µ ∈ R, σ > 0, deren wahre Werte unbekannt sind. Die kumulative
Verteilungsfunktion der Xi ist gegeben durch
x
√
“P (Xi ≤ x)” =
−∞
1
2πσ 2
e−
(ξ−µ)2
2σ2
dξ =: F (x; µ, σ),
x ∈ R,
i = 1, 2, . . . , n, und wir erhalten ein zweidimensionales parametrisches
statistisches Modell mit Parameter ϑ := (µ, σ) .
2 STATISTIK
81
Wir beschränken uns im Folgenden auf den Fall d = 1 (eindimensionale parametrische statistische Modelle), und wir wollen jetzt den wahren Wert des
Parameters, ϑ0 ∈ Θ, aus der gegebenen Stichprobe x ∈ Rn schätzen. Dazu
verwenden wir eine Schätzfunktion (kurz: einen Schätzer )
Tn := gn ◦ X : Ω → R,
Tn (ω) = gn (X(ω)) ,
ω ∈ Ω,
(49)
wobei gn : Rn → R eine Funktion ist, so dass Tn eine reelle Zufallsvariable
gn
X
ist: Ω −→ Rn −→ R. Der Schätzwert für den wahren Parameterwert ϑ0 ∈ Θ
aufgrund der gegebenen Stichprobe x ∈ Rn ist dann gegeben durch ϑ̂ := gn (x).
Dieser Schätzwert ist eine Realisierung der Zufallsvariablen (Schätzfunktion) Tn
und damit zufällig! Im Allgemeinen gilt also ϑ̂ = ϑ0 .
Wir geben hier zwei ausgewählte Funktionen gn an, die häufig zur Parameterschätzung verwendet werden:
Name
Funktion gn
der Schätzers
arithmetisches
x :=
Mittel
korrigierte
Stichprobenvarianz
s2 :=
1
n
1
n−1
n
i=1
n
geschätzter
MATLAB-
Parameter ϑ
Befehl
Erwartungswert
xi
E[Xi ] = µ
2
(xi − x)
i=1
Varianz
V [Xi ] = σ 2
mean
var
Bemerkung: Beachten Sie, dass µ und σ 2 lediglich Bezeichnungen für die Erwartungswerte und Varianzen der Zufallsvariablen Xi , i = 1, 2, . . . , n, sind. Sie
dürfen daraus nicht schliessen, dass die Xi normalverteilt sind (mit Parametern
µ und σ 2 )! Die Verteilung der Xi ist in der Tat beliebig.
Die in Kap. 2.2 erwähnten MATLAB-Befehle sind alles Schätzer für gewisse
Parameter der Verteilung der Stichprobenvariablen X1 , X2 , . . . , Xn :
MATLABBefehl
quantile
median
mode
Schätzung für
QXi
QXi (0.5)
argmax fXi (x)
MATLABBefehl
iqr
std
mad
Schätzung für
QXi (0.75)
! − QXi (0.25)
V [Xi ] = σ
E [|Xi − E[Xi ]|]
x∈R
Beispiel: Gegeben sei die folgende Stichprobe vom Umfang 10:
i
xi
1
2
3
4
5
6
7
8
9
10
−1.08 3.37 5.01 2.46 10.6 −1.04 −1.69 −6.75 6.55 6.34
Wir fassen sie auf als eine Realisierung der 10-dimensionalen stetigen Zufalls
variablen X = (X1 , X2 , . . . , X10 ) , deren Komponenten X1 , X2 , . . . , X10 iid
reelle Zufallsvariablen sind mit Erwartungswert E[Xi ] = µ und V [Xi ] = σ 2 ,
i = 1, 2, . . . , 10, mit µ ∈ R, σ > 0. Über die Verteilung der Xi machen wir keine
2 STATISTIK
82
Annahme! Wir berechnen die folgenden Schätzwerte µ̂, σ̂ 2 für den Erwartungswert und die Varianz (arithmetisches Mittel und korrigierte Stichprobenvarianz):
1
xi 2.38,
n i=1
1 (xi − x)2 25.8.
n − 1 i=1
n
µ̂ = x =
n
σ̂ 2 = s2 =
Betrachten wir 1000 solche Stichproben vom Umfang 10 und berechnen für jede
Stichprobe die Schätzwerte µ̂, σ̂ 2 , so erhalten wir 1000 verschiedene Schätzwerte. Wir stellen beispielhafte Häufigkeitsverteilungen dieser Schätzwerte in den
folgenden Histogrammen dar:
300
1000 Stichproben vom Umfang n=10
300
250
250
200
200
150
150
100
100
50
50
0
1000 Stichproben vom Umfang n=10
0
-5
0
5
Schaetzungen fuer
10
0
µ
20
40
60
Schaetzungen fuer
σ
80
2
Ein Merkmal für einen “guten” Schätzer Tn ist, dass seine Werte häufig “nahe”
beim wahren Parameterwert ϑ0 liegen.
Maximum-Likelihood-Schätzer Wir stellen hier eine häufig verwendete Methode vor, um Schätzer Tn (genauer Funktionen gn ) (49) für bestimmte Parameter zu erhalten. Die Maximum-Likelihood-Methode benötigt Wahrscheinlichkeits(dichte)funktionen, d. h. die iid reellen Zufallsvariablen Xi müssen diskret
oder stetig sein. Für die kumulative Verteilungsfunktion der Xi , i = 1, 2, . . . , n,
gilt also
entweder F (x; ϑ) =
x
f (xi ; ϑ) oder F (x; ϑ) =
xi ∈im(Xi )
xi ≤x
f (ξ; ϑ) dξ,
−∞
mit einer gegebenen Wahrscheinlichkeits(dichte)funktion f ( · ; ϑ) : im(Xi ) →
[0, 1] bzw. f ( · ; ϑ) : R → [0, ∞), für jeden beliebigen (festen) Wert des Parameters ϑ ∈ Θ. Die gemeinsame Wahrscheinlichkeits(dichte)funktion ist wegen der
gegenseitigen Unabhängigkeit von X1 , X2 , . . . , Xn nach Satz 8 gegeben durch
fX (x; ϑ) =
n
*
f (xi ; ϑ),
x = (x1 , x2 , . . . , xn ) ∈ Rn .
i=1
Für eine Stichprobe x ∈ Rn definieren wir die Likelihood-Funktion
L(ϑ; x) := fX (x; ϑ),
ϑ ∈ Θ.
2 STATISTIK
83
Im Falle von diskreten Zufallsvariablen Xi gibt L(ϑ; x) die Wahrscheinlichkeit
dafür an, mit dem Parameterwert ϑ ∈ Θ das Ergebnis x ∈ Rn zu beobachten. Entsprechend ist der Maximum-Likelihood-Schätzer (maximum likelihood
estimator) definiert als derjenige Parameterwert, für den L maximal ist (bei
gegebener Beobachtung (Stichprobe) x ∈ Rn ):
ϑ̂mle = gn (x) := argmax L(ϑ; x).
(50)
ϑ∈Θ
Im Falle von stetigen Zufallsvariablen Xi wird derselbe Schätzer (50) verwendet,
auch wenn in diesem Fall die direkte Interpretation der Funktionswerte von L
als Wahrscheinlichkeit nicht mehr möglich ist.
Beispiele:
1. (Schätzung der Erfolgswahrscheinlichkeit bei der Binomialverteilung) Es
gelte Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen
wahrer Wert unbekannt ist. Zu seiner Schätzung liege eine Stichprobe vom
Umfang n vor: x ∈ {0, 1, 2, . . . , 50}n . Der Maximum-Likelihood-Schätzer
für die wahre Erfolgswahrscheinlichkeit p0 ∈ (0, 1) ist gegeben durch
x
1 .
xi =
50n i=1
50
n
p̂mle = gn (x) :=
2. (Schätzung der Varianz der Normalverteilung bei gegebenem Erwartungswert ) Es gelte Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Erwartungswert µ ∈ R
(gegeben) und Varianz σ 2 > 0, deren wahrer Wert unbekannt ist. Zu
ihrer Schätzung liege eine Stichprobe vom Umfang n vor: x ∈ Rn . Der
Maximum-Likelihood-Schätzer für den wahren Wert der Varianz (bei gegebenem Erwartungswert) ist gegeben durch
1
2
(xi − µ) .
n i=1
n
2
σ̂mle
= gn (x) :=
Sei Tn : Ω → R (Zufallsvariable) eine Schätzfunktion für den wahren Wert ϑ0
eines Parameters ϑ ∈ Θ. Die Genauigkeit der Schätzfunktion Tn wird oft durch
ihren erwarteten quadratischen Fehler (mean squared error) ausgedrückt:
2
2
MSE[Tn ] := E (Tn − ϑ0 ) = E (Tn − E[Tn ] + E[Tn ] − ϑ0 )
=
(E[Tn ] − ϑ0 )2 + V [Tn ] ≥ 0,
=:Bias[Tn ]
wobei Bias[Tn ] ∈ R die Verzerrung des Schätzers Tn bezeichnet. Ein Schätzer
Tn mit E[Tn ] = ϑ0 (Bias[Tn ] = 0) heisst erwartungstreu (unbiased).
Beispiel: Wir betrachten das arithmetische Mittel als Schätzer für den Erwartungswert, ϑ0 = E[Xi ],
n
1
Xi .
Tn :=
n i=1
2 STATISTIK
84
Nach Satz 10 und Satz 11 gelten
#
" n
1
E[Tn ] = E
Xi =
n i=1
#
" n
1
Xi =
V [Tn ] = V
n
i=1
1
E[Xi ] = E[Xi ] = ϑ0 ,
n i=1
n
n
1 V [Xi ]
V [Xi ] =
,
n2
n
i=1
wobei wir in der zweiten Gleichung die gegenseitige Unabhängigkeit der Stichprobenvariablen X1 , X2 , . . . , Xn verwendet haben. Der Schätzer Tn ist also erwartungstreu (unbiased), und wir erhalten für den erwarteten quadratischen
Fehler:
V [Xi ]
2
MSE[Tn ] = (E[Tn ] − ϑ0 ) + V [Tn ] =
, n ∈ N.
n
Damit wird auch klar, dass der Schätzwert desto genauer ist, je grösser der
Stichprobenumfang n ∈ N ist: lim MSE[Tn ] = 0.
n→∞
1000 Stichproben vom Umfang n=10
500 Stichproben vom Umfang n=20
200
110
180
100
160
90
200 Stichproben vom Umfang n=50
45
40
35
80
140
30
70
120
60
25
50
20
100
80
40
60
10
40
20
20
10
0
0
6
7
8
9
Schaetzung fuer
2.3.2
15
30
10
11
µ
5
0
6
7
8
9
Schaetzung fuer
10
µ
11
6
7
8
9
Schaetzung fuer
10
11
µ
Vertrauensintervalle
Im letzten Kapitel haben wir gesehen, dass wir mit Hilfe einer Schätzfunktion
(einem Schätzer) Tn = gn ◦ X den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ
aufgrund einer Stichprobe x ∈ Rn vom Umfang n ∈ N (Realisierung der ndimensionalen reellen Zufallsvariablen X : Ω → Rn ) schätzen können: ϑ̂ :=
gn (x). Der Schätzwert ϑ̂ ist zufällig, denn er ist eine Realisierung der reellen
Zufallsvariablen Tn . Wir hatten bereits bemerkt, dass i. A. ϑ̂ = ϑ0 gilt. Wenn
das Bild im(Tn ) ⊆ R überabzählbar unendlich ist, dann gilt sogar “P (Tn = ϑ0 )”
= 0!
Obwohl mit Hilfe des MSE Aussagen über die Genauigkeit des Schätzers
gemacht werden können, hilft uns dieser nicht bei der Beurteilung der Genauigkeit eines erhaltenen Schätzwertes. Selbst wenn der MSE des Schätzers klein ist,
kann der Schätzwert ϑ̂ erheblich vom wahren Wert ϑ0 des Parameters abweichen,
denn der MSE macht eben nur eine Aussage über die erwartete Genauigkeit des
Schätzers.
2 STATISTIK
85
Um die statistische Sicherheit einer Schätzung vorgeben zu können, verwenden wir sog. Intervallschätzer (im Gegensatz zu den im letzten Kapitel behandelten Punktschätzern). Konkret verwenden wir zwei Stichprobenfunktionen
Un := gnu ◦ X : Ω → R,
Vn := gno ◦ X : Ω → R,
Un (ω) = gnu (X(ω)),
Vn (ω) = gno (X(ω)),
ω ∈ Ω,
ω ∈ Ω,
wobei gnu , gno : Rn → R Funktionen sind, so dass Un , Vn reelle Zufallsvariablen
gu ,go
X
n n
sind: Ω −→ Rn −−
−→ R.
Definition 21 (Konfidenzintervall) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum,
und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen, deren Verteilung von
einem Parameter ϑ ∈ Θ ⊆ R abhängt, dessen wahrer Wert ϑ0 unbekannt ist.
Seien weiterhin X := (X1 , X2 , . . . , Xn ) und gnu , gno : Rn → R Funktionen, so
u
o
dass Un := gn ◦ X, Vn := gn ◦ X reelle Zufallsvariablen sind. Falls für ein
γ ∈ (0, 1) gilt, dass
“P (ϑ0 ∈ (Un , Vn ))” = “P (Un < ϑ0 < Vn )” = “P (Un < ϑ0 ∧ Vn > ϑ0 )” ≥ γ,
(51)
so heisst das (stochastische) Intervall (Un , Vn ) ein Konfidenzintervall für ϑ0 zum
Konfidenzniveau γ oder ein γ-Konfidenzintervall für ϑ0 .
Bemerkungen:
• Andere Bezeichnungen für das Konfidenzintervall sind Vertrauensintervall
oder Vertrauensbereich.
• Gemäss (51) enthält ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ
den wahren Parameterwert ϑ0 mit einer Wahrscheinlichkeit von mindestens γ. Das Konfidenzniveau γ ∈ (0, 1) können wir beliebig vorgeben und
damit die gewünschte statistische Sicherheit selbst festlegen.
• An Stelle des Konfidenzniveaus γ kann man auch das Irrtumsniveau α ∈
(0, 1) vorgeben. Zwischen diesen beiden Zahlen besteht die simple Beziehung γ = 1 − α. Wenn (Un , Vn ) ein γ-Konfidenzintervall für ϑ0 ist, so gilt
mit (51) und mit der Gegenwahrscheinlichkeit (MAE3, Satz 8, 1.):
“P (ϑ0 ∈ (Un , Vn ))” = 1 − “P (ϑ0 ∈ (Un , Vn ))” ≤ 1 − γ = α,
d. h. die Wahrscheinlichkeit dafür, dass das Konfidenzintervall (Un , Vn )
den wahren Parameterwert ϑ0 nicht enthält, ist höchstens gleich α.
In der Regel wählt man daher ein kleines Irrtumsniveau α und entsprechend ein grosses Konfidenzniveau γ. Häufig verwendete Werte für das
Irrtumsniveau sind: α ∈ {0.01, 0.05, 0.10} und entsprechend für das Konfidenzniveau: γ ∈ {0.99, 0.95, 0.90}.
• Für eine gegebene Stichprobe x ∈ Rn vom Umfang n ∈ N erhalten wir
mit u := gnu (x) und v := gno (x) das Schätzintervall (u, v) ⊆ R. Die Frage,
2 STATISTIK
86
ob ein gegebenes Intervall (u, v) den wahren Parameterwert ϑ0 enthält,
ist nicht mehr vom Zufall abhängig, und wir können daher keine Wahrscheinlichkeit dafür angeben. Wir wissen aber, dass wenn wir N ∈ N
solcher Stichproben hätten und für jede dieser Stichproben das Schätzintervall berechneten, dann würden mindestens γN dieser Schätzintervalle
den wahren Parameterwert enthalten und höchstens αN Schätzintervalle
nicht.
Die Frage ist jetzt natürlich, wie die Funktionen gnu , gno zu wählen sind, um ein
Konfidenzintervall für einen bestimmten Parameter zu erhalten. In der folgenden
Tabelle geben wir einige dieser Funktionen für häufig verwendete Intervallschätzer an:
Verteilung
der Xi (iid)
Konfidenzintervall für
2
N (µ, σ )
(σ 2 bekannt)
N (µ, σ 2 )
(σ 2 unbekannt)
µ
µ
gnu (x)
σ
x − cα √
n
s
x − cα √
n
+
N (µ, σ 2 )
beliebig
(V [Xi ] =: σ 2
bekannt)
beliebig
(V [Xi ]
unbekannt)
σ
s
n−1
c1,α
gno (x)
σ
x + cα √
n
s
x + cα √
n
+
s
n−1
c2,α
E[Xi ]
σ
x − cα √
n
σ
x + cα √
n
E[Xi ]
s
x − cα √
n
s
x + cα √
n
cα
c1,α
c2,α
(1 −
der
N (0, 1)-Verteilung
(1 − α2 )-Quantil der
tn−1 -Verteilung
α
(1 − α2 )2Quantil
Quantil
der χ2n−1 - der χ2n−1 Verteilung Verteilung
α
2 )-Quantil
(1 − α2 )-Quantil der
N (0, 1)-Verteilung
n gross! (Satz 14)
(1 − α2 )-Quantil der
tn−1 -Verteilung
n gross! (Satz 14)
In dieser Tabelle bezeichnen x das arithmetische Mittel und s die korrigierte
Stichprobenvarianz.
Wenn das Irrtumsniveau α vergrössert wird (also eine grössere statistische
Unsicherheit akzeptiert wird), so werden die Werte für cα kleiner und damit
das Konfidenzintervall kürzer. Das Intervall wird ebenfalls kürzer, wenn der
Stichprobenumfang n vergrössert wird.
Beispiel: Gegeben sei die folgende Stichprobe vom Umfang n = 10:
i
xi
1
2
3
4
5
6
7
8
9
10
4.15 9.34 −7.04 5.45 3.28 −3.23 0.27 3.37 16.3 13.1
Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ, σ 2 ), mit Parametern µ ∈ R, σ 2 > 0, deren wahre Werte beide
2 STATISTIK
87
unbekannt sind. Wir schätzen diese Parameterwerte mit dem arithmetischen
Mittel und mit der korrigierten Stichprobenvarianz:
1
µ̂ = x =
xi 4.50,
n i=1
n
1 2
σ̂ = s =
(xi − x) 50.1.
n − 1 i=1
n
2
2
Wir wollen jetzt 95 %-Konfidenzintervalle (Konfidenzniveau γ = 0.95, Irrtumsniveau α = 0.05) für µ und σ berechnen. Dazu verwenden wir die obige Tabelle.
Zur Bestimmung des 95 %-Konfidenzintervalls für µ benötigen wir das 0.975Quantil der t9 -Verteilung. Die Quantile der t-Verteilung sind tabelliert (z. B. in
der Formelsammlung von Papula, S. 514), und wir erhalten c0.05 2.26. Damit
ist das Schätzintervall für µ für diese Stichprobe gegeben durch
s
s
(−0.567, 9.56) .
x − c0.05 √ , x + c0.05 √
n
n
Zur Bestimmung des 95 %-Konfidenzintervalls für σ benötigen wir das 0.975Quantil und das 0.025-Quantil der χ29 -Verteilung. Auch die Quantile der χ2 Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 512),
und wir erhalten c1,0.05 19.02 und c2,0.05 2.70. Damit ist das Schätzintervall
für σ für diese Stichprobe gegeben durch
+
+
n−1
n−1
s
(4.87, 12.9) .
,s
c1,α
c2,α
Tatsächlich wurde die obige Stichprobe erzeugt als (gerundete) Zufallszahlen
aus einer N (2, 16)-Verteilung. Das Schätzintervall für µ enthält also den wahren Parameterwert µ = 2, aber das Schätzintervall für σ enthält den wahren
Parameterwert σ = 4 nicht.
Betrachten wir 100 Stichproben vom Umfang n = 10 aus einer N (2, 16)Verteilung, so erhalten wir für jede Stichprobe andere Schätzintervalle für µ
und σ. Wir erwarten, dass mindestens 95 der 100 Schätzintervalle den wahren
Parameterwert enthalten, und dies ist auch tatsächlich der Fall:
2 STATISTIK
88
µ =2
97 Intervalle enthalten
100
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10
-5
0
5
95 % - Schaetzintervalle fuer
2.3.3
σ=4
98 Intervalle enthalten
100
2
µ
4
6
8
10
95 % - Schaetzintervalle fuer
σ
Parameterschätzung in MATLAB
In MATLAB können Sie für einige Verteilungen die Funktionen ...fit verwenden, um die Parameter der Verteilung aus einer Stichprobe zu schätzen (sowohl
Punkt- als auch Intervallschätzer). Die folgenden Befehle benötigen jeweils mehrere Ausgabeargumente (Dokumentation lesen!):
Verteilung
Parameterschätzung
B(n, p)
N B(r, p)
P(λ)
U(a, b)
Exp(λ)
N (µ, σ 2 )
binofit(x,n)
nbinfit(x)
poissfit(x)
unifit(x)
expfit(x)
normfit(x)
geschätzte(r)
Parameter
p
r, p
λ
a, b
1/λ
µ, σ
bekannter
Parameter
n
–
–
–
–
–
LITERATUR
89
Literatur
[1] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik;
Vieweg
[2] L. Papula: Mathematik für Ingenieure und Naturwissenschaftler (3 Bände);
Vieweg & Teubner
[3] M. Sachs: Wahrscheinlichkeitsrechnung und Statistik; Hanser
[4] W. A. Stahel: Statistische Datenanalyse; Vieweg
Herunterladen