MAE4 Mathematik: Analysis für Ingenieure 4

Werbung
MAE4
Mathematik: Analysis für Ingenieure 4
Christoph Kirsch
29. Mai 2015
Inhaltsverzeichnis
I
Stochastik
2
1 Wahrscheinlichkeitsrechnung (Forts.)
1.1 Zufallsvariablen und Verteilungen . . . . . . . . . . . . . . . . . .
1.1.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . .
1.1.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . .
1.1.3 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . .
1.1.4 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . .
1.2 Verteilungen von Zufallsvariablen in MATLAB . . . . . . . . . .
1.3 Transformationen von Zufallsvariablen . . . . . . . . . . . . . . .
1.3.1 Lineare Transformationen . . . . . . . . . . . . . . . . . .
1.3.2 Anwendung: Transformation auf die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3 Nichtlineare Transformationen . . . . . . . . . . . . . . .
1.4 Quantilfunktion und Masszahlen von Verteilungen . . . . . . . .
1.4.1 Quantilfunktion . . . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Lagemasse und Streuungsmasse . . . . . . . . . . . . . . .
1.5 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen .
1.5.1 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . .
1.5.2 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . .
1.6 Transformationen von Zufallsvektoren . . . . . . . . . . . . . . .
1.6.1 Masszahlen der Transformierten . . . . . . . . . . . . . .
1.6.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . .
1.6.3 Verteilung der Transformierten . . . . . . . . . . . . . . .
1.6.4 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . .
3
3
3
12
17
22
24
26
26
27
28
30
30
33
42
43
52
56
57
64
65
65
2 Statistik
68
2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB . . . . . . . . 68
2.2 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.3 Schliessende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 71
1
INHALTSVERZEICHNIS
2.3.1
2.3.2
2.3.3
2.3.4
II
Parameterschätzung .
Vertrauensintervalle .
Parameterschätzung in
Statistische Tests . . .
2
. . . . . . .
. . . . . . .
MATLAB .
. . . . . . .
.
.
.
.
.
.
.
.
Funktionen von mehreren Variablen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
77
82
83
91
3 Niveaumengen, partielle Ableitungen
91
4 Partielle Ableitungen höherer Ordnung
94
5 Differenzialoperatoren
95
6 Ableitungsregeln
99
7 Kurven entlang von Flächen
100
8 Beispiele für partielle Differenzialgleichungen
106
9 Mehrdimensionale Integration
107
Überblick
In diesem vierten und letzten Teil einer viersemestrigen Vorlesung über Analysis
für Ingenieure werden die Stochastik sowie Funktionen von mehreren Variablen
und die Vektoranalysis als Hauptthemen behandelt.
Die Stochastik umfasst die Gebiete Wahrscheinlichkeitsrechnung und Statistik. Die elementare Wahrscheinlichkeitsrechnung aus MAE3 wird hier fortgesetzt, um auch überabzählbar unendliche Ergebnismengen behandeln zu können.
Danach werden Zufallsvariablen sowie Verteilungen eingeführt. In diesem Zusammenhang lernen Sie wichtige Kennzahlen wie den Erwartungswert oder die
Varianz kennen. In der Statistik werden die Themen Schätztheorie und statistische Tests behandelt.
Die Differenzialrechnung für Funktionen von mehreren Variablen wurde in
MAE3 eingeführt. Sie wird hier fortgesetzt mit der Einführung der wichtigsten Differenzialoperatoren sowie der mehrdimensionalen Integration. Auch die
Integralsätze von Gauss und Stokes werden behandelt.
Schliesslich werden ausgewählte Beispiele von partiellen Differenzialgleichungen behandelt, bei denen – im Gegensatz zu den gewöhnlichen Differenzialgleichungen aus MAE3 – die gesuchte Funktion von mehreren Variablen abhängt.
Einige der in dieser Vorlesung behandelten Themen sollten in Ihrer Vorlesung
FTH3 direkte Anwendung finden.
3
Teil I
Stochastik
1
Wahrscheinlichkeitsrechnung (Forts.)
1.1
1.1.1
Zufallsvariablen und Verteilungen
Diskrete Zufallsvariablen
Wie in MAE3, Kap. 8, betrachten wir Zufallsexperimente (MAE3, Def. 24)
mit einer abzählbaren Ergebnismenge, oder anders gesagt einen sog. diskreten
Wahrscheinlichkeitsraum, d. h. ein Tripel (Ω, Σ, P ) mit
• einer abzählbaren Ergebnismenge Ω = {ω1 , ω2 , . . . },
• dem Ereignisfeld Σ := P(Ω) (MAE3, Def. 25–27) und
• einem Wahrscheinlichkeitsmass P auf (Ω, Σ) (MAE3, Def. 29),
P : Σ → [0, 1] (konstruiert nach MAE3, Satz 8).
Für ein beliebiges Ereignis A ∈ Σ ist P (A) ∈ [0, 1] die Wahrscheinlichkeit dafür,
dass es eintritt. Im hier betrachteten Spezialfall Σ = P(Ω) ist jede Teilmenge von Ω auch ein Ereignis (A ⊆ Ω ⇒ A ∈ Σ). Dies wird insbesondere für
überabzählbar unendliche Ergebnismengen Ω nicht mehr der Fall sein.
Beispiel: Aus einer Urne mit 10 Kugeln (3 rote, 7 blaue) werden zufällig 3 Kugeln gezogen (mit Zurücklegen). Für jede einzelne Ziehung gibt es zwei mögliche
Ergebnisse, “rot” (r) oder “blau” (b). Wir betrachten Variationen mit Wiederholung (MAE3, Kap. 9), d. h. geordnete Tripel, z. B. (r, b, b). Die Ergebnismenge
dieses Zufallsexperiments ist also gegeben durch Ω = {r, b}3 =
= {(r, r, r), (r, r, b), (r, b, r), (b, r, r), (r, b, b), (b, r, b), (b, b, r), (b, b, b)} ,
mit Mächtigkeit |Ω| = V ∗ (2; 3) = 23 = 8. Die Ergebnismenge Ω ist endlich,
also abzählbar. Wir definieren das Ereignisfeld Σ := P(Ω) mit Mächtigkeit
|Σ| = 2|Ω| = 256. Nach MAE3, Satz 8, ist ein Wahrscheinlichkeitsmass P :
Σ → [0, 1] eindeutig festgelegt durch seine Werte auf den Elementarereignissen
(einelementige Teilmengen von Ω, z. B. {(r, b, r)} ∈ Σ). Unter der Annahme,
dass jede einzelne der 10 Kugeln mit gleicher Wahrscheinlichkeit 1/10 gezogen
wird, erhalten wir
P ({(r, r, r)}) =
3
10
2
3
3
7
10
10
2
3
7
P ({(r, b, b)}) = P ({(b, r, b)}) = P ({(b, b, r)}) =
10 10
P ({(r, r, b)}) = P ({(r, b, r)}) = P ({(b, r, r)}) =
=
27
,
1000
=
63
,
1000
=
147
,
1000
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
P ({(b, b, b)}) =
7
10
3
=
4
343
.
1000
Es gilt wie erwartet
P (Ω) =
27
63
147
343
+3
+3
+
= 1.
1000
1000
1000 1000
Wegen der σ-Additivität des Wahrscheinlichkeitsmasses (MAE3, Def. 29, 2.) ist
dann z. B. die Wahrscheinlichkeit des Ereignisses A := “genau zwei rote Kugeln”
gegeben durch
P (A)
=
P ({(r, r, b), (r, b, r), (b, r, r)})
=
P ({(r, r, b)} ∪ {(r, b, r)} ∪ {(b, r, r)})
σ-Additivität
=
=
P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)})
63
63
189
63
+
+
=
' 19 %.
1000 1000 1000
1000
Auf einem solchen Wahrscheinlichkeitsraum (Ω, Σ, P ) definieren wir jetzt sog. Zufallsvariablen. Sie werden es uns erlauben, mit reellen Zahlen anstatt mit Elementen einer i. A. komplizierten Ergebnismenge Ω zu rechnen.
Definition 1 (diskrete reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum mit einer abzählbaren Ergebnismenge Ω und mit Σ = P(Ω). Eine
diskrete reelle Zufallsvariable ist eine Funktion X : Ω → R.
Bemerkungen:
• Die Zufallsvariable X ordnet jedem Ergebnis ω ∈ Ω genau einen Wert
X(ω) ∈ R zu (vgl. MAE1, Def. 12).
• Weil die Ergebnismenge Ω nach Voraussetzung abzählbar ist, so ist auch
das Bild der Zufallsvariablen X, Ω0 := im(X) = {X(ω) | ω ∈ Ω} ⊆ R
(MAE1, Def. 13), abzählbar. Es kann daher in der Form Ω0 = {x1 , x2 , . . . }
dargestellt werden.
Beispiele:
1. Im Beispiel von oben können wir die Zufallsvariable X : Ω → R als
X := “Anzahl gezogene rote Kugeln”
definieren. Es gelten dann z. B.
X ((r, r, r)) = 3,
X ((b, b, b)) = 0,
Das Bild von X ist Ω0 = im(X) = {0, 1, 2, 3}.
X ((b, r, r)) = 2.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
5
2. Ein fairer Würfel werde 5-mal geworfen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}
besteht also aus |Ω| = V ∗ (6; 5) = 65 = 7776 geordneten 5-Tupeln (Variation mit Wiederholung), z. B. ω := (2, 1, 4, 5, 5) ∈ Ω. Die Zufallsvariable
X : Ω → R sei jetzt definiert als
5
X := “Anzahl der Würfe mit Augenzahl 1”,
also z. B.
X ((3, 4, 1, 1, 6)) = 2,
X ((1, 1, 3, 4, 1)) = 3,
X ((3, 3, 5, 2, 4)) = 0.
Das Bild der Zufallsvariablen X ist gegeben durch Ω0 = im(X) = {0, 1, 2, 3, 4, 5}.
3. Zwei unterscheidbare, faire Würfel werden gleichzeitig geworfen. Die Er2
gebnismenge Ω = {1, 2, 3, 4, 5, 6} besteht also aus |Ω| = V ∗ (6; 2) = 62 =
36 geordneten Paaren. Die Zufallsvariable X : Ω → R sei jetzt definiert
als
X := “Augensumme der beiden Würfel”,
also z. B.
X ((1, 1)) = 2,
X ((3, 6)) = 9,
X ((4, 5)) = 9,
X ((6, 6)) = 12.
Das Bild der Zufallsvariablen X ist Ω0 = im(X) = {2, 3, 4, . . . , 12}.
Anstatt die Ergebnisse ω ∈ Ω des ursprünglichen Zufallsexperiments direkt zu
betrachten, können wir jetzt auch die Werte der Zufallsvariablen X, x ∈ Ω0 =
im(X) ⊆ R, als Ergebnisse eines neuen Zufallsexperiments auffassen:
Ergebnismenge (abzählbar!)
Ereignisfeld
Elementarereignisse
Wahrscheinlichkeitsmass
Wahrscheinlichkeitsraum
ursprüngliches
Zufallsexperiment
Ω
Σ = P(Ω)
{ω} ∈ Σ, ω ∈ Ω
P : Σ → [0, 1]
(Ω, Σ, P )
neues
Zufallsexperiment
Ω0 = im(X) ⊆ R
Σ0 = P(Ω0 )
{x} ∈ Σ0 , x ∈ Ω0
PX : Σ0 → [0, 1]
(Ω0 , Σ0 , PX )
Das (durch X induzierte) Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ), PX : Σ0 →
[0, 1], ist definiert durch
PX (A) := P ({ω ∈ Ω | X(ω) ∈ A}) = P X −1 (A) = P ◦ X −1 (A),
(1)
für A ∈ Σ0 , wobei X −1 (A) ∈ Σ das Urbild von A unter X bezeichnet (MAE1,
Def. 13) und P ◦X −1 die Komposition (Hintereinanderausführung) der Funktionen X −1 und P (MAE1, Def. 15). Gemäss MAE3, Satz 8, ist PX bereits durch
seine Werte auf den Elementarereignissen {x} ∈ Σ0 eindeutig festgelegt.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
6
Beispiele: Wir berechnen diese Werte für die Zufallsvariablen aus den vorherigen
Beispielen.
1. Das Bild von X ist Ω0 = im(X) = {0, 1, 2, 3}, also müssen wir die Werte von PX für die Elementarereignisse {0}, {1}, {2}, {3} ∈ Σ0 = P(Ω0 )
berechnen. Wir bestimmen zuerst die Urbilder dieser Elementarereignisse:
X −1 ({0})
= {ω ∈ Ω | X(ω) = 0} = {(b, b, b)} ∈ Σ = P(Ω),
X −1 ({1})
= {ω ∈ Ω | X(ω) = 1} = {(r, b, b), (b, r, b), (b, b, r)} ∈ Σ,
X
−1
({2})
= {ω ∈ Ω | X(ω) = 2} = {(r, r, b), (r, b, r), (b, r, r)} ∈ Σ,
X
−1
({3})
= {ω ∈ Ω | X(ω) = 3} = {(r, r, r)} ∈ Σ.
Jetzt berechnen wir die Werte von PX für die Elementarereignisse in Σ0
mit (1), der σ-Additivität von P sowie mit Hilfe der vorher berechneten
Werte von P für die Elementarereignisse in Σ:
PX ({1})
343
= P X −1 ({0}) = P ({(b, b, b)}) =
' 34 %,
1000
= P X −1 ({1}) = P ({(r, b, b), (b, r, b), (b, b, r)})
PX ({2})
= P ({(r, b, b)}) + P ({(b, r, b)}) + P ({(b, b, r)})
441
147 + 147 + 147
=
' 44 %,
=
1000 1000
= P X −1 ({2}) = P ({(r, r, b), (r, b, r), (b, r, r)})
PX ({0})
=
PX ({3})
P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)})
189
63 + 63 + 63
=
' 19 %,
=
1000
1000
27
= P X −1 ({3}) = P ({(r, r, r)}) =
= 2.7 %.
1000
Das Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ) lässt sich mit einem Stabdiagramm darstellen (MATLAB-Befehl stem):
0.45
0.4
0.35
PX({x})
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
x
Mit der σ-Additivität von PX können wir jetzt auch Wahrscheinlichkeiten
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
7
von weiteren Ereignissen berechnen, z. B.
PX (“höchstens 2 rote Kugeln”)
=
PX ({0, 1, 2})
=
PX ({0}) + PX ({1}) + PX ({2})
343 + 441 + 189
973
=
' 97 %,
=
1000
1000
PX (“mindestens 2 rote Kugeln”) = PX ({2, 3}) = PX ({2}) + PX ({3})
189 + 27
27
=
=
' 22 %.
1000
125
Für diese Berechnungen wird das ursprüngliche Wahrscheinlichkeitsmass
P nicht mehr benötigt.
2. Bei einem fairen Würfel hat jedes Elementarereignis dieselbe Wahrscheinlichkeit
5
1
1
1
=
' 0.013 %, ω ∈ Ω = {1, 2, 3, 4, 5, 6}5 .
P ({ω}) =
=
6
7776
|Ω|
Es handelt sich hier daher um ein Laplace-Experiment (MAE3, Kap. 8).
Die Werte des Wahrscheinlichkeitsmasses PX sind daher gegeben durch
X −1 (A)
−1
PX (A) = P X (A) =
, A ∈ Σ0 = P(Ω0 ).
|Ω|
Wir müssen daher nur die Mächtigkeit der Urbilder bestimmen und nicht
die Urbilder selbst. Dazu verwenden wir die abzählende Kombinatorik
(MAE3, Kap. 9). Gemäss MAE3, Satz 8, ist PX eindeutig festgelegt durch
seine Werte auf den Elementarereignissen {0}, {1}, . . . , {5} ∈ Σ0 . Wir berechnen die Mächtigkeiten der Urbilder dieser Elementarereignisse:
−1
X ({0}) = |{ω ∈ Ω | X(ω) = 0}| = 55 = 3125,
−1
X ({1}) = |{ω ∈ Ω | X(ω) = 1}| = 5 54 = 3125,
1
−1
X ({2}) = |{ω ∈ Ω | X(ω) = 2}| = 5 53 = 1250,
2
−1
X ({3}) = |{ω ∈ Ω | X(ω) = 3}| = 5 52 = 250,
3
−1
X ({4}) = |{ω ∈ Ω | X(ω) = 4}| = 5 51 = 25,
4
−1
X ({5}) = |{ω ∈ Ω | X(ω) = 5}| = 5 50 = 1.
5
Damit erhalten wir
PX ({xi }) =
−1
X ({xi })
|Ω|
,
xi = 0, 1, 2, 3, 4, 5,
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
8
P6
mit i=1 PX ({xi }) = 1. Wir stellen das Wahrscheinlichkeitsmass PX in
Tabellenform sowie als Stabdiagramm dar:
i
xi
PX ({xi })
in % (gerundet)
1
0
2
1
3
2
4
3
5
4
6
5
3125
7776
3125
7776
625
3888
125
3888
25
7776
1
7776
40
40
16
3.2
0.32
0.013
0.45
0.4
0.35
0.3
PX({x})
1
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
x
3. Bei zwei fairen Würfeln betrachten wir wieder ein Laplace-Experiment,
−1
d. h. PX (A) = P X −1 (A) = |X 36(A)| , A ∈ Σ0 = P(Ω0 ). Wir bestimmen
die Urbilder der Elementarereignisse in Σ0 :
X −1 ({2})
=
{(1, 1)} ,
({3})
=
{(1, 2), (2, 1)} ,
({4})
=
{(1, 3), (2, 2), (3, 1)} ,
({5})
=
{(1, 4), (2, 3), (3, 2), (4, 1)} ,
X −1 ({6})
=
{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} ,
X
−1
X
−1
X
−1
X
−1
({7})
=
{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} ,
X
−1
({8})
=
{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} ,
X −1 ({9})
=
{(3, 6), (4, 5), (5, 4), (6, 3)} ,
−1
X ({10}) =
X −1 ({11}) =
{(4, 6), (5, 5), (6, 4)} ,
{(5, 6), (6, 5)} ,
X −1 ({12})
{(6, 6)} .
=
Damit erhalten wir das folgende Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ):
i
xi
PX ({xi })
in % (gerundet)
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
11
11
12
1
36
1
18
1
12
1
9
5
36
1
6
5
36
1
9
1
12
1
18
1
36
2.8
5.6
8.3
11
14
17
14
11
8.3
5.6
2.8
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
9
P11
Es gilt i=1 PX ({xi }) = 1. Das Stabdiagramm für PX sieht folgendermassen aus:
0.18
0.16
0.14
PX({x})
0.12
0.1
0.08
0.06
0.04
0.02
0
2
3
4
5
6
7
x
8
9
10
11
12
Definition 2 (Wahrscheinlichkeits- und Verteilungsfunktionen) Sei X : Ω → R
eine diskrete reelle Zufallsvariable, und sei Ω0 := im(X) ⊆ R (abzählbare Teilmenge der reellen Zahlen). Die Verteilung der Zufallsvariablen X kann dargestellt werden durch
• die Wahrscheinlichkeitsfunktion (Zähldichte) fX : Ω0 → [0, 1],
x ∈ Ω0 ⊆ R,
fX (x) := PX ({x}) = P ({ω ∈ Ω | X(ω) = x}) ,
oder durch
• die (kumulative) Verteilungsfunktion FX : R → [0, 1],
X
FX (x) :=
fX (xi ) = P ({ω ∈ Ω | X(ω) ≤ x}) ,
x ∈ R.
xi ∈Ω0
xi ≤x
Bemerkungen:
• Die Wahrscheinlichkeitsfunktion (Zähldichte) fX haben wir in den vorherigen Beispielen mittels Stabdiagrammen dargestellt. Sie erfüllt
X
xi ∈Ω0
fX (xi ) =
X
P ({ω ∈ Ω | X(ω) = xi })
Ω0 =im(X)
=
P (Ω) = 1.
xi ∈Ω0
• fX kann auf ganz R fortgesetzt werden (MAE1, Def. 14). Für x ∈ R \ Ω0
gilt nämlich
P ({ω ∈ Ω | X(ω) = x})
x 6∈ im(X)
=
P (∅)
MAE3, Satz 7, 2.
also kann man einfach fX (x) := 0, x ∈ R \ Ω0 , setzen.
=
0,
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
10
• Mit Hilfe der Wahrscheinlichkeitsfunktion fX können wir die Wahrscheinlichkeit von Ereignissen A ∈ Σ0 berechnen durch
!
MAE3, Def. 29, 2. X
X
[
(σ-Additivität)
PX (A) = PX
=
PX ({xi }) =
fX (xi ).
{xi }
xi ∈A
xi ∈A
xi ∈A
• Oft schreibt man abgekürzt (und mathematisch nicht korrekt)
– “P (X = x)” für P ({ω ∈ Ω | X(ω) = x}) = PX ({x}),
– “P (X ≤ x)” für P ({ω ∈ Ω | X(ω) ≤ x}),
– oder allgemein “P (X ∈ A)” für P ({ω ∈ Ω | X(ω) ∈ A}) = PX (A),
A ∈ Σ0 .
• Die englischsprachigen Bezeichnungen und Abkürzungen sind
– probability mass function (pmf ) für die Wahrscheinlichkeitsfunktion
(Zähldichte) fX ,
– cumulative distribution function (cdf ) für die (kumulative) Verteilungsfunktion FX .
In den folgenden Grafiken stellen wir die Wahrscheinlichkeitsfunktion (Zähldichte) fX und die (kumulative) Verteilungsfunktion FX für die vorangehenden
Beispiele dar:
Beispiel 1
1
0.4
0.35
0.8
FX(x)
fX(xi)
0.3
0.25
0.2
0.6
0.4
0.15
0.2
0.1
0.05
0
0
0
1
2
3
xi (Anzahl gezogene rote Kugeln)
0
1
2
3
x
Beispiel 2
1
0.4
0.35
0.8
FX(x)
fX(xi)
0.3
0.25
0.2
0.6
0.4
0.15
0.2
0.1
0.05
0
0
0
1
2
3
4
5
x (Anzahl der Wuerfe mit Augenzahl 1)
0
1
2
3
4
8
10
5
x
i
Beispiel 3
1
0.16
0.14
0.8
0.1
FX(x)
fX(xi)
0.12
0.08
0.6
0.4
0.06
0.2
0.04
0.02
0
0
2
3
4
5
6
7
8
9 10 11 12
xi (Augensumme der beiden Wuerfel)
2
4
6
x
12
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
11
Offensichtlich hat die (kumulative) Verteilungsfunktion FX (abzählbar viele)
Sprungstellen (MAE1, Kap. 3.1) bei x ∈ Ω0 mit Sprunghöhen fX (x).
Weitere Eigenschaften von FX sind im folgenden Satz zusammengefasst:
Satz 1 (Eigenschaften der Verteilungsfunktion) Sei FX die Verteilungsfunktion
einer diskreten reellen Zufallsvariablen X. Dann gelten
1. FX ist monoton wachsend (MAE1, Def. 18),
2. FX ist rechtsstetig: x→x
lim FX (x) = FX (x0 ), ∀ x0 ∈ R (vgl. MAE1, Def. 34),
0
x>x0
3.
lim FX (x) = 0 und lim FX (x) = 1 (MAE2, Def. 27).
x→−∞
x→∞
Wir leiten eine für die Praxis wichtige Rechenregel her: Seien a, b ∈ R, a < b.
Dann gilt
X
X
X
Def. 2
FX (b) − FX (a)
=
fX (xi ) −
fX (xi ) =
fX (xi )
xi ∈Ω0
xi ≤b
xi ∈Ω0
xi ≤a
xi ∈Ω0
a<xi ≤b

Def. 2
=
X
PX ({xi })
σ-Additivität
=
xi ∈Ω0
a<xi ≤b
=
(1)
=

 [

PX 
{xi }
xi ∈Ω0
a<xi ≤b
PX ({xi ∈ Ω0 | a < xi ≤ b})
P ({ω ∈ Ω | a < X(ω) ≤ b}) .
Also ist die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X im
Intervall (a, b] liegt, gegeben durch die Differenz FX (b) − FX (a):
“P (a < X ≤ b)” = P ({ω ∈ Ω | a < X(ω) ≤ b}) = FX (b) − FX (a).
(2)
Mit Hilfe von Satz 1, 3., kann in (2) der Grenzübergang b → ∞ gemacht werden:
“P (X > a)” = P ({ω ∈ Ω | X(ω) > a})
=
Def. 2
1 − FX (a)
=
1 − P ({ω ∈ Ω | X(ω) ≤ a})
=
1 − “P (X ≤ a)”
Dies ist in Übereinstimmung mit der Gegenwahrscheinlichkeit (MAE3, Satz 7,
1.), denn es gilt
{ω ∈ Ω | X(ω) > a} = {ω ∈ Ω | X(ω) ≤ a}c .
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.1.2
12
Diskrete Verteilungen
In der folgenden Tabelle listen wir einige wichtige Verteilungen von diskreten
reellen Zufallsvariablen (kurz: “diskrete Verteilungen”) auf:
Name(n)
Bezeichnung(en)
(diskrete)
Gleichverteilung
UT
Bernoulli-Verteilung
(J. Bernoulli,
1655–1705)
B(1, p), Bernoulli(p)
Binomialverteilung
B(n, p), Bin(n, p)
hypergeometrische
Verteilung
H(N, M, n),
Hyp(N, M, n)
negative
Binomialverteilung
Pascal-Verteilung
(B. Pascal,
1623–1662)
N B(r, p), NB(r, p)
geometrische
Verteilung
G(p), N B(1, p)
Poisson-Verteilung
(S. D. Poisson,
1781–1840)
P(λ), Poisson(λ)
Zähldichte fX
Definitionsbereich
1
fX (xi ) =
n
xi ∈ T (“Träger”)
p,
k=1
fX (k) =
1 − p, k = 0
k∈ {0, 1}
n k
fX (k) =
p (1 − p)n−k
k
k ∈ {0, 1, 2, . . . , n}
M N −M
fX (k) =
k
n−k
N
n
Parameter
T = {x1 , . . . , xn } ⊆ R
n∈N
p ∈ [0, 1]
p ∈ [0, 1]
n∈N
M, N ∈ N, M ≤ N
k ∈ {0, 1, . . . , min{n, M }}
n ∈ N, n ≤ N
k+r−1 r
fX (k) =
p (1 − p)k
k
p ∈ (0, 1]
k ∈ N0
r∈N
fX (k) = p(1 − p)k
p ∈ (0, 1)
k ∈ N0
fX (k) =
λk −λ
e
k!
λ ∈ R, λ > 0
k ∈ N0
Bemerkungen:
• Wenn eine diskrete reelle Zufallsvariable X z. B. binomialverteilt ist mit
Parametern n ∈ N und p ∈ [0, 1], so schreiben wir X ∼ B(n, p). Das
Symbol ∼ steht hier für “ist verteilt wie”.
• Kann eine Zufallsvariable X nur die Werte 0 oder 1 annehmen, so spricht
man von einem Bernoulli-Experiment. Bei einem solchen werden der Wert
0 als “Misserfolg” und der Wert 1 als “Erfolg” interpretiert. Die Erfolgswahrscheinlichkeit beträgt p ∈ [0, 1]. Die Zufallsvariable X ist dann Bernoulliverteilt, X ∼ Bernoulli(p).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
13
• Die Binomialverteilung B(n, p) beschreibt die Anzahl der Erfolge in einer Serie von n gleichartigen und unabhängigen Bernoulli-Experimenten.
Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen
Versuches.
• Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für n =
1. Deswegen wird auch die Bezeichnung B(1, p) für die Bernoulli-Verteilung
verwendet.
• Die hypergeometrische Verteilung H(N, M, n) gibt Auskunft darüber, mit
welcher Wahrscheinlichkeit in einer Stichprobe vom Umfang n eine bestimmte Anzahl von Elementen vorkommt, die eine gewünschte Eigenschaft haben. Dabei haben in der Grundgesamtheit vom Umfang N genau
M Elemente diese Eigenschaft (und N − M Elemente nicht).
• Die negative Binomialverteilung N B(r, p) beschreibt für eine Serie von
gleichartigen und unabhängigen Bernoulli-Experimenten die Anzahl der
Misserfolge, bis r Erfolge erzielt wurden. Dabei bezeichnet p ∈ [0, 1] die
Erfolgswahrscheinlichkeit jedes einzelnen Versuches.
• Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung für r = 1 (Anzahl der Misserfolge bis zum ersten Erfolg). Deswegen
auch die Bezeichnung N B(1, p) für die geometrische Verteilung.
• Wegen der Normierungsbedingung für die Zähldichte der negativen Binomialverteilung gilt
∞ ∞ X
X
k+r−1 k
k+r−1 r
q:=1−p
k
−r
q .
p (1 − p) = 1
=⇒
(1 − q) =
k
k
k=0
k=0
Dies ist eine Verallgmeinerung (nach Newton) der binomischen Formel für
negative Exponenten (daher der Name negative Binomialverteilung). Für
r = 1 erhält man die geometrische Reihe als Spezialfall.
• Die Poisson-Verteilung wird oft verwendet zur Beschreibung von diskreten
Ereignissen, zwischen denen ein Zeitintervall mit der mittleren Länge t > 0
liegt. Für eine Poisson-verteilte Zufallsvariable X ∼ P(λ), λ := Tt , ist
fX (k) die Wahrscheinlichkeit dafür, dass in einem gegebenen Zeitintervall
der Länge T > 0 genau k dieser Ereignisse auftreten.
Beispiele:
1. (Gleich- und Bernoulli-Verteilung) Wir betrachten das Zufallsexperiment
Einmaliger Wurf mit einem fairen Würfel,
sowie die Zufallsvariablen
X
Y
:= “Augenzahl”,
1, Augenzahl ≥ 3 (“Erfolg”)
:=
.
0, Augenzahl < 3 (“Misserfolg”)
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
14
Die Zufallsvariable X ist gleichverteilt, X ∼ U{1,2,3,4,5,6} , und die Zufallsvariable Y ist Bernoulli-verteilt, Y ∼ B 1, 23 :
2
1
3, k = 1 .
fY (k) =
(3)
fX (xi ) = , xi ∈ {1, 2, 3, 4, 5, 6},
1
6
3, k = 0
2. (Binomialverteilung)
a. Wir betrachten das Zufallsexperiment
Ziehung (mit Zurücklegen) von 3 Kugeln aus einer Urne mit
3 roten und 7 blauen Kugeln,
sowie die Zufallsvariable
X := “Anzahl gezogene rote Kugeln”.
Interpretieren wir eine gezogene rote Kugel als “Erfolg” (Wahrscheinlichkeit in jeder Ziehung
3/10), so gilt gemäss den Erläuterungen von
3
(Serie von 3 gleichartigen und unabhängigen
oben: X ∼ B 3, 10
Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit 3/10):
fX (k) =
k 3−k
3
3
7
,
k
10
10
k
fX (k)
k = 0, 1, 2, 3,
0
1
2
3
343
1000
441
1000
189
1000
27
1000
b. Wir betrachten das Zufallsexperiment
5-maliger Wurf eines fairen Würfels,
sowie die Zufallsvariable
X := “Anzahl der Würfe mit Augenzahl 1”.
Interpretieren wir eine gewürfelte 1 als “Erfolg” (Wahrscheinlichkeit
in jedem Wurf
1/6), so gilt gemäss den Erläuterungen von oben:
X ∼ B 5, 16 , also
k 5−k
5
1
5
fX (k) =
,
k
6
6
k
fX (k)
k = 0, 1, 2, 3, 4, 5,
0
1
2
3
4
5
3125
7776
3125
7776
625
3888
125
3888
25
7776
1
7776
(4)
c. Die Zufallsvariable aus Serie 1, Aufg. 1, hat die Verteilung B 6, 53 .
Die Zufallsvariable aus Serie 1, Aufg. 2, hat die Verteilung B 3, 12 .
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
15
3. (hypergeometrische Verteilung)
a. Wir betrachten das Zufallsexperiment
Ziehung (ohne Zurücklegen) von 4 Kugeln aus einer Urne
mit 3 roten und 17 blauen Kugeln,
sowie die Zufallsvariable
X := “Anzahl rote Kugeln in der Stichprobe”
(vgl. MAE3, Kap. 10, Anwendungsbeispiel “Qualitätskontrolle”). Die
Zufallsvariable X ist hypergeometrisch verteilt, X ∼ H(20, 3, 4):
17 3
fX (k) =
k
fX (k)
k
4−k
20
4
,
0
1
2
3
28
57
8
19
8
95
1
285
k = 0, 1, 2, 3,
Die Grundgesamtheit besteht hier aus N = 20 Elementen (Kugeln);
davon haben M = 3 die gewünschte Eigenschaft (“rot”). Der Stichprobenumfang ist n = 4.
b. Die Zufallsvariable aus Serie 1, Aufg. 3, hat die Verteilung H(10, 2, 3).
4. (negative Binomialverteilung) Wir betrachten das Zufallsexperiment
Ziehung (mit Zurücklegen) von Kugeln aus einer Urne mit 3
roten und 7 blauen Kugeln,
sowie die Zufallsvariable
X
:= “Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden”
=
“Anzahl Misserfolge, bis 3 Erfolge erzielt wurden”.
Wenn die Zufallsvariable X = k ∈ N0 erfüllt, dann müssen
• die (k + 3)-te gezogene Kugel rot sein (“Erfolg”) und
• von den davor gezogenen k + 2 Kugeln genau k blau sein (“Misserfolge”). Ihre Position ist dabei beliebig.
Die Wahrscheinlichkeit, in einer einzelnen Ziehung eine rote
Kugel zu zie3
. Es gibt k+2
Möglichkeiten,
hen (Erfolgswahrscheinlichkeit) beträgt 10
k
die k blauen Kugeln auf die k + 2 Ziehungen zu verteilen. Damit ist die
Wahrscheinlichkeit PX ({k}) gegeben durch
3 k
k+2
3
7
fX (k) =
.
k
10
10
Dies gilt für jedes k ∈ N0. Also ist die Zufallsvariable X negativ binomi3
alverteilt, X ∼ N B 3, 10
.
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
16
Ziehung (mit Zuruecklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln
0.1
0.09
0.08
0.07
fX(x)
0.06
0.05
0.04
0.03
0.02
0.01
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
x (Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden)
5. (geometrische Verteilung)
a. Im Zufallsexperiment aus Beispiel 4. ist die Anzahl der gezogenen
blauen Kugeln bis
roten Kugel geometrisch ver zur ersten3gezogenen
3
teilt, X ∼ G 10
= N B 1, 10 .
b. Die Zufallsvariable aus Serie 1, Aufg. 4, hat die Verteilung G 45 .
0.8
X ~ NB(1,3/10)
X ~ NB(1,4/5)
X
f (x)
0.6
0.4
0.2
0
0
5
10
15
20
x (Anzahl Misserfolge bis zum 1. Erfolg)
6. (Poisson-Verteilung) Für ein Kaufhaus wurde durch Zählung ermittelt,
dass es an einem Samstag von ca. 10 Kunden pro Minute betreten wird.
Das Zeitintervall zwischen dem Eintreffen von zwei Kunden hat daher im
Mittel die Länge t = 6 s. Die Anzahl der Kunden, die in einem Zeitraum
von T = 60 s das Kaufhaus betreten, wird beschrieben durch eine Poissonverteilte Zufallsvariable X ∼ P(λ) mit λ = Tt = 60
6 = 10.
im Mittel trifft alle 6 Sekunden ein Kunde ein
0.14
0.12
0.1
0.08
X
f (x)
1
0.06
0.04
0.02
0
0
5
10
15
20
25
30
x (Anzahl eintreffende Kunden im Zeitraum von 1 Minute)
35
40
Wie erwartet ist die Wahrscheinlichkeit maximal für k ' 10.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.1.3
17
Stetige Zufallsvariablen
Als Beispiel für eine überabzählbar unendliche Ergebnismenge hatten wir in
MAE3, Kap. 8, die Wartezeit eines Kunden vor dem Postschalter erwähnt: dort
war Ω = [0, T ], wobei T > 0 die Öffnungsdauer des Schalters bezeichnete.
Im Falle von überabzählbar unendlichen Ergebnismengen Ω können wir nicht
mehr Σ := P(Ω) definieren. Die Potenzmenge P(Ω) ist dann nämlich derart
mächtig, dass sich auf ihr kein Wahrscheinlichkeitsmass P : Σ → [0, 1] (MAE3,
Def. 29) mehr definieren lässt! Diese Erkenntnis geht auf Arbeiten der drei
polnischen Mathematiker S. Banach (1892–1945), K. Kuratowski (1896–1980)
und A. Tarski (1901–1983) zurück. Der Inhalt dieser Arbeiten übersteigt den
Stoff dieser Vorlesung, so dass wir nicht weiter darauf eingehen.
Im Falle einer überabzählbar unendlichen Ergebnismenge betrachten wir
daher einen Wahrscheinlichkeitsraum (Ω, Σ, P ) mit einer σ-Algebra (MAE3,
Def. 26) Σ ⊆ P(Ω), aber mit Σ 6= P(Ω). Dies hat zur Folge, dass nicht mehr
jede Teilmenge von Ω messbar ist, oder anders gesagt, es gibt Teilmengen
A ⊆ Ω mit A 6∈ Σ. Diese sind keine Ereignisse, und daher kann ihnen auch
keine Wahrscheinlichkeit zugeordnet werden, denn das Wahrscheinlichkeitsmass
P : Σ → [0, 1] ist ja nur für die messbaren Teilmengen A ⊆ Ω mit A ∈ Σ
definiert.
Wir betrachten Funktionen X : Ω → Ω0 sowie eine σ-Algebra von messbaren
Teilmengen von Ω0 , Σ0 ⊆ P(Ω0 ), wobei i. A. ebenfalls Σ0 6= P(Ω0 ) gilt. Bei der
allgemeinen Definition einer Zufallsvariablen wird berücksichtigt, dass sowohl im
Definitionsbereich Ω als auch im Wertebereich Ω0 von X nicht notwendigerweise
jede Teilmenge messbar ist:
Definition 3 (Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und
(Ω0 , Σ0 ) ein messbarer Raum (MAE3, Def. 27). Eine Zufallsvariable ist eine
Funktion X : Ω → Ω0 mit
∀ A ∈ Σ0 :
X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ.
Bemerkungen:
• Über die Urbilder von nicht messbaren Teilmengen A ⊆ Ω0 , A 6∈ Σ0 , macht
die Definition keine Voraussetzung. Für sie kann X −1 (A) ∈ Σ gelten, muss
aber nicht.
• Dank der sog. Messbarkeitsbedingung an X ist das durch X induzierte
Wahrscheinlichkeitsmass PX : Σ0 → [0, 1] auf (Ω0 , Σ0 ) (1) wohldefiniert:
Sei
A ∈ Σ0 , dann ist X −1 (A) ∈ Σ und damit PX (A) := P X −1 (A) ∈ [0, 1]
definiert.
• I. A. ist also nicht jede Funktion X : Ω → Ω0 eine Zufallsvariable, sondern
eben nur die sog. messbaren Funktionen.
• Jede diskrete reelle Zufallsvariable nach Def. 1 ist eine Zufallsvariable nach
Def. 3, mit Ω0 = im(X) ⊆ R (abzählbare Teilmenge) und Σ0 = P(Ω0 ).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
18
Seien nun (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, (Ω0 , Σ0 ) ein messbarer Raum,
X : Ω → Ω0 eine Zufallsvariable (Def. 3) und PX = P ◦ X −1 das durch X
induzierte Wahrscheinlichkeitsmass auf (Ω0 , Σ0 ). Wie im Kap. 1.1.1 identifizieren
wir den Wahrscheinlichkeitsraum (Ω, Σ, P ) mit dem ursprünglichen und den
Wahrscheinlichkeitsraum (Ω0 , Σ0 , PX ) mit dem neuen Zufallsexperiment:
Ergebnismenge
(nicht notwendigerweise abzählbar)
Ereignisfeld (σ-Algebra der
messbaren Teilmengen von Ω)
ursprüngliches
Zufallsexperiment
neues
Zufallsexperiment
Ω
Ω0 ⊇ im(X)
Σ ⊆ P(Ω)
Σ0 ⊆ P(Ω0 )
Wahrscheinlichkeitsmass
P : Σ → [0, 1]
Wahrscheinlichkeitsraum
(Ω, Σ, P )
PX : Σ0 → [0, 1]
PX := P ◦ X −1
(Ω0 , Σ0 , PX )
Wie in Kap. 1.1.1 beschränken wir uns auch hier auf reellwertige Zufallsvariablen, d. h. auf Ω0 = R. In diesem Fall wählt man üblicherweise Σ0 := B(R), wobei
B(R) die Borelsche σ-Algebra auf R bezeichnet (nach E. Borel, 1871–1956):
Definition 4 Die Borelsche σ-Algebra auf R, B(R), ist die kleinste σ-Algebra
mit R als Grundmenge, die alle offenen Intervalle enthält.
Bemerkungen:
• Die Teilmengen A ⊆ R mit A ∈ B(R) heissen auch Borel-Mengen.
• Sehr viele Teilmengen von R sind Borel-Mengen, z. B. alle offenen, alle
abgeschlossenen und alle halboffenen Intervalle (MAE1, Def. 11), sowie
abzählbare Vereinigungen und Durchschnitte von diesen. Für uns wird es
später wichtig sein, dass alle Intervalle der Form (−∞, x], x ∈ R, BorelMengen sind. Dies deshalb, weil
!c
[
(−∞, x] =
(x, x + n) ∈ B(R),
n∈N
denn auf der rechten Seite steht das Komplement einer abzählbaren Vereinigung von offenen Intervallen (x, x + n) ∈ B(R), n ∈ N.
Man kann ausserdem zeigen: wenn eine Aussage für alle solchen Intervalle
gilt, dann gilt sie sogar für alle Borel-Mengen.
• Es gilt B(R) ( P(R), d. h. es gibt Teilmengen A ⊆ R (A ∈ P(R)), die
keine Borel-Mengen sind (A 6∈ B(R)). Sie müssen mühsam konstruiert
werden, weshalb wir hier darauf verzichten. Alle Teilmengen von R, die
wir im Folgenden betrachten, werden Borel-Mengen sein.
• Wenn für den Fall Ω0 = R nichts über die σ-Algebra gesagt wird, dann
nimmt man üblicherweise an, dass Σ0 = B(R).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
19
Definition 5 (reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum.
Eine reelle Zufallsvariable ist eine Funktion X : Ω → R mit
∀x ∈ R :
X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ Σ.
Bemerkungen:
• Jede reelle Zufallsvariable nach Def. 5 ist eine Zufallsvariable nach Def. 3,
mit Ω0 = R und Σ0 = B(R).
• Jede diskrete reelle Zufallsvariable nach Def. 1 ist eine reelle Zufallsvariable
nach Def. 5. Es gelten also
diskrete reelle
Zufallsvariable
(Def. 1)
⇒
reelle
Zufallsvariable
(Def. 5)
⇒
Zufallsvariable
(Def. 3)
Wie in Kap. 1.1.1 sind wir an der Verteilung einer reellen Zufallsvariablen interessiert. Allgemein ist die (kumulative) Verteilungsfunktion einer reellen Zufallsvariablen X : Ω → R definiert durch
FX (x) := PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”.
Für sie gilt ebenfalls der Satz 1. Wir beschränken uns im Folgenden auf stetige
reelle Zufallsvariablen.
Definition 6 (stetige reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable. X heisst stetig, falls
eine integrierbare Funktion fX : R → [0, ∞) existiert, so dass
Zb
“P (a ≤ X ≤ b)” = PX ( [a, b] ) = P ({ω ∈ Ω | a ≤ X(ω) ≤ b}) =
|{z}
∈B(R)
fX (x) dx,
a
(5)
für alle a, b ∈ R, a ≤ b.
Bemerkungen:
• Die Funktion fX heisst Wahrscheinlichkeitsdichtefunktion, Dichtefunktion,
Wahrscheinlichkeitsdichte, oder nur Dichte. Ihre englische Bezeichnung ist
probability density function (pdf ). Sie erfüllt die Normierungsbedingung
Z∞
fX (x) dx = PX (R) = 1,
−∞
wobei auf der linken Seite ein uneigentliches Integral steht (MAE3, Def. 3).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
20
• Die Wahrscheinlichkeit von Elementarereignissen {a} ∈ B(R), a ∈ R, ist
für stetige reelle Zufallsvariablen immer Null:
Za
PX ({a}) = P ({ω ∈ Ω | X(ω) = a}) =
fX (x) dx = 0
a
(MAE2, Satz 3, 4.).
• Die kumulative Verteilungsfunktion einer stetigen reellen Zufallsvariablen
ist gegeben durch die Flächenfunktion (MAE2, Kap. 1.3)
Zb
FX (b) = P ({ω ∈ Ω | X(ω) ≤ b}) =
fX (x) dx,
b ∈ R.
(6)
−∞
Auf der rechten Seite steht wieder ein uneigentliches Integral.
kumulative Verteilungsfunktion
Wahrscheinlichkeitsdichtefunktion
1.4
1
1.2
0.8
FX(x)
fX(x)
1
0.8
0.6
0.4
0.6
0.4
0.2
0.2
0
0
−1
−0.5
0
x
0.5
1
−1
−0.5
0
x
0.5
1
Nach dem Hauptsatz der Differenzial- und Integralrechnung (MAE2, Satz 2)
ist FX eine Stammfunktion von fX . Nach MAE2, Kap. 1.5, gilt also
Zb
“P (a ≤ X ≤ b)” =
b
fX (x) dx = FX (b) − FX (a) = FX (x)|a .
(7)
a
• Die kumulative Verteilungsfunktion FX einer stetigen reellen Zufallsvaria0
blen X ist differenzierbar (FX
(x) = fX (x) ∀ x ∈ R), also stetig (MAE1,
Kap. 4.1). Reelle Zufallsvariablen mit einer unstetigen Verteilungsfunktion können also nicht stetig sein. Dies trifft u. a. für die diskreten reellen
Zufallsvariablen zu (bei diesen ist FX eine Treppenfunktion), aber es gibt
auch reelle Zufallsvariablen, die weder stetig noch diskret sind.
Die folgende Tabelle gibt einen Überblick über Gemeinsamkeiten und Unterschieden von diskreten bzw. stetigen reellen Zufallsvariablen:
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Zufallsvariable X
Ergebnismenge Ω0
Ereignisfeld Σ0
Wahrscheinlichkeits(dichte)funktion
Normierung
diskret reell
im(X) ⊆ R
(abzählbar)
P(im(X))
stetig reell
R
(überabzählbar unendlich)
B(R) ( P(R)
fX : im(X) → [0, 1]
fX : R → [0, ∞)
X
Z∞
fX (xi ) = 1
xi ∈im(X)
Elementarereignis
{x} ∈ Σ0 , x ∈ Ω0
Intervall
“P (a < X ≤ b)”
a, b ∈ R, a < b
21
fX (x) dx = 1
−∞
PX ({x}) = fX (x)
X
fX (xi )
PX ({x}) = 0
Zb
fX (x) dx
xi ∈im(X)
a<xi ≤b
a
FX (b) − FX (a)
Bei den Wahrscheinlichkeiten für Intervalle sind auch die Grenzübergänge a →
−∞ und/oder b → ∞ erlaubt, was auf unendliche Reihen bzw. uneigentliche
Integrale führt.
In Analogie zu MAE3, Def. 28 nennen wir in einem Wahrscheinlichkeitsraum
(Ω, Σ, P )
• ein Ereignis A ∈ Σ mit P (A) = 1 ein fast sicheres Ereignis und
• ein Ereignis N ∈ Σ mit P (N ) = 0 ein fast unmögliches Ereignis.
Bemerkungen: Natürlich ist das sichere Ereignis (Ω ∈ Σ, P (Ω) = 1) ein fast
sicheres Ereignis und das unmögliche Ereignis (∅ ∈ Σ, P (∅) = 0) ein fast unmögliches Ereignis. Es gibt jedoch i. A. noch mehr fast sichere bzw. fast unmögliche
Ereignisse als diese beiden!
Beispiel: Im Wahrscheinlichkeitsraum (R, B(R), PX ) ist jede abzählbare Teilmenge N = {x1 , x2 , . . . } ⊆ R, N ∈ B(R), ein fast unmögliches Ereignis, denn es gilt
mit der σ-Additivität des Wahrscheinlichkeitsmasses PX :
X
PX (N ) = PX ({x1 , x2 , . . . }) =
PX ({xi }) = 0.
| {z }
i∈N
=0
Wir sagen auch, N ⊆ R ist eine Nullmenge in R. Wenn N ∈ B(R) ein fast
unmögliches Ereignis ist, so ist N c = R \ N ∈ B(R) ein fast sicheres Ereignis
(Gegenwahrscheinlichkeit; MAE3, Satz 7, 1.).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.1.4
22
Stetige Verteilungen
In der folgenden Tabelle listen wir einige wichtige Verteilungen von stetigen
reellen Zufallsvariablen (kurz: “stetige Verteilungen”) auf:
Name
Bezeichnung
(stetige)
Gleichverteilung
U(a, b)
Exponentialverteilung
Exp(λ)
Chi-QuadratVerteilung
(F. R. Helmert,
1843–1917)
χ2n
F-Verteilung
(R. A. Fisher,
1890–1962)
Fm,n
Normalverteilung
(C. F. Gauss,
1777–1855)
N (µ, σ 2 )
t-Verteilung
(W. S. Gosset
“Student”,
1876–1937)
tn
CauchyVerteilung
(A. L. Cauchy,
1789–1857)
Cauchy(t, s)
Wahrscheinlichkeitsdichtefunktion fX
Parameter
1
b−a ,
a, b ∈ R
fX (x) =
0,
λe−λx ,
0,
fX (x) =
n
fX (x) =
0,
fX (x) =
m
n
m 2 n2
Γ(
x≥0
x<0
λ>0
,
x≥0
n∈N
x<0
n
Γ( m
2 +2)
m
2
a<b
x
x 2 −1 e− 2
n
2 2 Γ( n
2)
(
(
a≤x≤b
sonst
)Γ( )
n
2
m
x 2 −1
m
n
(mx+n) 2 + 2
,
0,
x≥0
m, n ∈ N
x<0
2
(x − µ)
fX (x) = √
exp −
2
2σ 2
2πσ
1
!
− n+1
2
Γ n+1
x2
2
1+
fX (x) = √
n
n
nπΓ 2
fX (x) =
1
s
π s2 + (x − t)2
µ∈R
σ2 > 0
n∈N
t∈R
s>0
In der Chi-Quadrat-, der F- und der t-Verteilung tritt jeweils die GammaFunktion Γ auf, deren Funktionswerte durch uneigentliche Integrale definiert
sind:
Z∞
Γ(x) := tx−1 e−t dt, x > 0.
0
Für x = n ∈ N gilt Γ(n) = (n − 1)! (Beweis durch partielle Integration). Die
Funktionswerte Γ(x), x 6∈ N, können hingegen zumeist nicht in geschlossener
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
23
√
√
Form angegeben werden (Ausnahmen sind Γ 21 = π und Γ 32 = 12 π).
Dafür werden numerische Näherungen verwendet.
Numerische Näherungen müssen oft auch zur Auswertung der kumulativen
Verteilungsfunktion FX verwendet werden, da die Flächenfunktion häufig nicht
in geschlossener Form angegeben werden kann.
Wahrscheinlichkeitsdichtefunktionen von stetigen Gleichverteilungen
2
fX(x)
1.5
U(−3,1)
U(−4,−2)
U(−4,4)
U(1.5,2)
U(3,4)
1
0.5
0
−5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Exponentialverteilungen
Wahrscheinlichkeitsdichtefunktionen von Chi−Quadrat−Verteilungen
2
χ2
0.8
2
2
χ1
f (x)
1
0.6
X
fX(x)
1.5
1
Exp(2)
Exp(5)
Exp(0.4)
Exp(7)
Exp(0.2)
0.4
χ25
χ2
3
χ2
0.5
0.2
0
−5
0
x
6
0
−5
5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von F−Verteilungen
1
0.8
fX(x)
0.6
F(1,1)
F(3,1)
F(4,1)
F(3,2)
F(3,5)
0.4
0.2
0
−5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen
1.6
1.4
1.2
Wahrscheinlichkeitsdichtefunktionen von t−Verteilungen
0.4
t1
0.3
t3
t4
0.8
fX(x)
X
f (x)
1
N(0,1)
N(−2,0.25)
N(4,4)
N(−3,9)
N(2,0.0625)
0.6
0.2
t6
t9
0.4
0.1
0.2
0
−5
0
x
0
−5
5
0
x
5
Wahrscheinlichkeitsdichtefunktionen von Cauchy−Verteilungen
1.4
1.2
fX(x)
1
0.8
Cauchy(0,0.5)
Cauchy(−2,3)
Cauchy(1,2)
Cauchy(3,3)
Cauchy(2,0.3)
0.6
0.4
0.2
0
−5
0
x
5
Wir werden später weiter auf diese Verteilungen und auf die Beziehungen zwischen ihnen eingehen.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.2
24
Verteilungen von Zufallsvariablen in MATLAB
In MATLABs “Statistics Toolbox” (doc stats) sind alle bisher behandelten
Verteilungen von Zufallsvariablen (ausser der Cauchy-Verteilung) und noch einige mehr als Funktionen definiert:
Verteilung der Zufallsvariablen X
diskret
U{1,2,...,n}
gleich
Bernoulli
B(1, p)
binomial
B(n, p)
hyperH(N, M, n)
geometrisch
negativ
N B(r, p)
binomial
N B(1, p)
geometrisch
G(p)
Poisson
P(λ)
stetig gleich U(a, b)
exponential Exp(λ)
Chiχ2n
Quadrat
F
Fm,n
normal
N (µ, σ 2 )
t
tn
Auswerten von fX an
einer Stelle k bzw. x
Auswerten von FX
an einer Stelle x
unidpdf(k,n)
unidcdf(x,n)
binopdf(k,1,p)
binopdf(k,n,p)
binocdf(x,1,p)
binocdf(x,n,p)
hygepdf(k,N,M,n)
hygecdf(x,N,M,n)
nbinpdf(k,r,p)
nbincdf(x,r,p)
nbinpdf(k,1,p)
geopdf(k,p)
poisspdf(k,lambda)
unifpdf(x,a,b)
exppdf(x,1/lambda)
nbincdf(x,1,p)
geocdf(x,p)
poisscdf(x,lambda)
unifcdf(x,a,b)
expcdf(x,1/lambda)
chi2pdf(x,n)
chi2cdf(x,n)
fpdf(x,m,n)
normpdf(x,mu,...
sqrt(sigmaˆ2))
tpdf(x,n)
fcdf(x,m,n)
normcdf(x,mu,...
sqrt(sigmaˆ2))
tcdf(x,n)
In den Funktionsbezeichnungen wird immer der Name der Verteilung zusammen
mit pdf (“probability (density) function”, fX ) oder cdf (“cumulative distribution
function”, FX ) verwendet.
Beispiele:
1. Sei X ∼ B 20, 19 . Wir berechnen
• “P (X = 4)” = fX (4) mit binopdf(4,20,1/9) (' 11 %),
• “P (X > 5)” = 1− “P (X ≤ 5)” = 1 − FX (5) mit
1 - binocdf(5,20,1/9) (' 1.8 %)
• “P (1 < X ≤ 3)” = FX (3) − FX (1) = fX (2) + fX (3) mit
binocdf(3,20,1/9) - binocdf(1,20,1/9) oder mit
binopdf(2,20,1/9) + binopdf(3,20,1/9) (' 49 %)
P16
• PX ({1, 2, . . . , 16}) = k=1 fX (k) = FX (16) − FX (0) mit
binocdf(16,20,1/9) - binocdf(0,20,1/9) (' 91 %)
Wir zeichnen das Stabdiagramm der Wahrscheinlichkeitsfunktion fX mit
den MATLAB-Befehlen
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
25
x = 0:20; % {0,1,2,...,20}
y = binopdf(x,20,1/9);
stem(x,y)
Zaehldichte einer B(20,1/9)−verteilten Zufallsvariable
0.3
0.25
X
f (x)
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
x
12
14
16
18
20
2. Sei X ∼ N (0.8, 4.3). Wir berechnen
• “P (1 < X ≤ 2)” = FX (2) − FX (1) mit
normcdf(2,0.8,sqrt(4.3)) - normcdf(1,0.8,sqrt(4.3)) (' 18 %)
• “P (X < 0.8)” = FX (0.8) mit normcdf(0.8,0.8,sqrt(4.3))
(= 50 %)
• “P (X > 0.5)” = 1−FX (0.5) mit 1 - normcdf(0.5,0.8,sqrt(4.3))
(' 56 %)
Wir zeichnen die Wahrscheinlichkeitsdichtefunktion fX auf dem Intervall
[−10, 10] mit den MATLAB-Befehlen
x = -10:0.01:10;
y = normpdf(x,0.8,sqrt(4.3));
plot(x,y)
Wahrscheinlichkeitsdichtefunktion einer N(0.8,4.3)−verteilten Zufallsvariablen
0.2
fX(x)
0.15
0.1
0.05
0
−10
−8
−6
−4
−2
0 0.8
x
2
4
6
8
10
Wir werden später noch weitere Funktionen aus MATLABs “Statistics Toolbox”
kennen lernen.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.3
1.3.1
26
Transformationen von Zufallsvariablen
Lineare Transformationen
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1],
FX (x) = PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”,
x ∈ R.
Für a, b ∈ R, b > 0, definieren wir die Funktion Y : Ω → R durch
ω∈Ω
Y (ω) := a + bX(ω),
(kurz: Y := a + bX).
Wir fragen nun:
• Ist Y eine reelle Zufallsvariable?
• Wenn ja, was ist ihre kumulative Verteilungsfunktion FY ?
Sei y ∈ R. Wir wollen zeigen, dass Y −1 ((−∞, y]) ∈ Σ; in diesem Fall erfüllt Y
die Messbarkeitsbedingung aus Def. 5. Durch einfache Umformungen erhalten
wir
Y −1 ((−∞, y])
=
b>0
=
{ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | a + bX(ω) ≤ y}
y−a
y−a
= X −1
−∞,
∈ Σ,
ω ∈ Ω X(ω) ≤
b
b
weil y−a
b ∈ R und weil X eine reelle Zufallsvariable ist. Dies gilt für jedes y ∈ R,
also ist Y eine reelle Zufallsvariable. Für die kumulative Verteilungsfunktion
von Y erhalten wir mit derselben Umformung
y−a
y−a
FY (y) = PY ((−∞, y]) = PX
= FX
, y ∈ R. (8)
−∞,
b
b
Y
Y = a + bX
y
−∞, y−a
b
0
a
(−∞, y]
b
1
y−a
b
X
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
27
Für diskrete bzw. stetige reelle Zufallsvariablen erhalten wir die Wahrscheinlichkeits(dichte)funktionen
yi − a
yi − a
diskret:
fY (yi ) = PY ({yi }) = PX
= fX
, yi ∈ im(Y ),
b
b
y−a
1
y−a
(8) 1 0
stetig:
fY (y) = FY0 (y) = FX
= fX
, y ∈ R.
b
b
b
b
Im Allgemeinen ist die Verteilung der transformierten Zufallsvariablen Y nicht
mehr vom gleichen Typ wie jene der Zufallsvariablen X.
Beispiele:
1. Sei X ∼ Exp(λ), dann ist die Wahrscheinlichkeitsdichtefunktion der linear
transformierten Zufallsvariablen Y gegeben durch
1
y−a
−λ y−a
1
y−a
b ,
b λe
b ≥0
fY (y) = fX
=
y−a
b
b
0,
b <0
λ λ λ
e b a b e− b y , y ≥ a
, y ∈ R.
=
0,
y<a
Für a = 0 gilt also Y ∼ Exp λb , aber für a 6= 0 ist fY keine Wahrscheinlichkeitsdichtefunktion einer exponential verteilten Zufallsvariablen.
2. Sei X ∼ N (µ, σ 2 ). Dann ist die Wahrscheinlichkeitsdichtefunktion der
linear transformierten Zufallsvariablen Y gegeben durch
2 !
y−a
1
y−a
1 1
b −µ
√
fY (y) = fX
=
exp −
b
b
b 2πσ 2
2σ 2
!
2
1
(y − (a + bµ))
= √
exp −
,
2b2 σ 2
2πb2 σ 2
für y ∈ R. Es gilt also Y ∼ N (a + bµ, b2 σ 2 ).
1.3.2
Anwendung: Transformation auf die Standardnormalverteilung
Normalverteilte Zufallsvariablen bleiben also unter linearen Transformationen
normalverteilt. Aus dem Beispiel 2 von oben folgern wir:
X ∼ N (µ, σ 2 )
⇒
Y :=
X −µ
µ
1
= − + X ∼ N (0, 1),
σ
σ σ
für µ ∈ R und σ > 0. Umgekehrt gilt natürlich auch
Y ∼ N (0, 1)
⇒
X := µ + σY ∼ N (µ, σ 2 ),
µ ∈ R, σ > 0.
Die kumulative Verteilungsfunktion der sog. Standardnormalverteilung N (0, 1)
wird üblicherweise mit Φ bezeichnet. Ihre Werte lassen sich nicht in geschlossener
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
28
Form angeben. Wenn sie jedoch z. B. als Wertetabelle vorliegt (s. Formelsammlung von Papula, S. 508), so lässt sich damit die kumulative Verteilungsfunktion
einer beliebig normalverteilten Zufallsvariablen auswerten. Es gilt nämlich
x−µ
2
, µ ∈ R, σ > 0.
(9)
X ∼ N (µ, σ ) ⇒ FX (x) = Φ
σ
√
Beispiel: Sei X ∈ N (0.8, 4.3) (µ = 0.8, σ = 4.3). Nach (9) gilt
2 − 0.8
' Φ(0.58) ' 0.7190,
“P (X ≤ 2)” = FX (2) = Φ √
4.3
wobei wir die Tabelle aus der Formelsammlung von Papula verwendet haben.
Mit MATLAB erhalten wir normcdf(2,0.8,sqrt(4.3)) ' 0.718601, also war
der Tabellenwert schon ziemlich genau. Die Tabellenwerte könnten wir natürlich
auch noch interpolieren (s. Vorlesung MNEU), um eine höhere Genauigkeit für
Zwischenwerte zu erreichen.
1.3.3
Nichtlineare Transformationen
Im Falle von nichtlinearen Transformationen müssen nichtlineare Ungleichungen
gelöst werden, was i. A. schwierig ist.
Beispiele:
1. Sei Y := X 2 (kurz für Y (ω) := X(ω)2 , ω ∈ Ω). Dann gilt für y ≥ 0:
Y −1 ((−∞, y])
= {ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | X(ω)2 ≤ y}
√
√
= {ω ∈ Ω | − y ≤ X(ω) ≤ y}
√ √
= X −1 ([− y, y]) ∈ Σ,
und damit
√
√
√ √
FY (y) = PY ((−∞, y]) = PX ([− y, y]) = FX ( y) − FX (− y), (10)
für y ≥ 0. Ausserdem gilt für y < 0:
Y −1 ((−∞, y]) = {ω ∈ Ω | X(ω)2 ≤ y} = ∅, und damit FY (y) = 0.
1
0.9
y = FX(x) (N(0,1))
0.8
y = FX2(x) (χ21)
0.7
y
0.6
0.5
0.4
0.3
0.2
0.1
0
−5
−4
−3
−2
−1
0
x
1
2
3
4
5
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
29
Sei X ∼ N (0, 1). Es stellt sich heraus, dass X 2 ∼ χ21 , d. h. das Quadrat
einer standardnormalverteilten Zufallsvariablen ist Chi-Quadrat-verteilt
mit einem Freiheitsgrad (n = 1). Es gilt nämlich für x > 0:
√ 1
√ 1
(10)
0
0
0
=
FX
x √ + FX
− x √
fX 2 (x)
2 (x) = FX
2 x
2 x
√ √ 1
√ fX
=
x + fX − x
2 x
x
x
x
1
1
1
1
X∼N (0,1)
√
√ e− 2 + √ e− 2 = √
=
e− 2
2 x
2π
2π
2πx
1
=
x
x− 2 e− 2
,
1
2 2 Γ 21
√
wobei wir Γ 12 = π verwendet haben (ohne Beweis). Am Ende steht
die Wahrscheinlichkeitsdichtefunktion einer χ21 -verteilten Zufallsvariablen.
2. Sei Y :=
1
X
Y −1 ((−∞, y])
1
X(ω) ,
ω ∈ Ω). Dann gilt für y < 0:
1
= {ω ∈ Ω | Y (ω) ≤ y} = ω ∈ Ω ≤y
X(ω)
1
1
=
ω ∈ Ω ≤ X(ω) < 0 = X −1
,0
,
y
y
(kurz für Y (ω) :=
für y = 0:
Y
−1
((−∞, 0])
= {ω ∈ Ω | Y (ω) ≤ 0} =
1
ω∈Ω
≤0
X(ω)
= {ω ∈ Ω | X(ω) < 0 } = X −1 ((−∞, 0)) ,
und für y > 0:
Y
−1
1
((−∞, y]) = {ω ∈ Ω | Y (ω) ≤ y} = ω ∈ Ω ≤y
X(ω)
1
=
ω ∈ Ω X(ω) ≥ ∨ X(ω) < 0
y
1
−1
= X
(−∞, 0) ∪
.
,0
y
Damit erhalten wir für die kumulative Verteilungsfunktion von Y :

h
1

P
,
0
,
y<0

X
y

PX ((−∞, 0)) ,
FY (y) = PY ((−∞, y]) =
h
y = 0


 PX ((−∞, 0)) + PX 1 , ∞ , y > 0
y

1

y<0

 FX (0) − FX y ,
FX (0),
=
y=0 .


 FX (0) + 1 − FX 1 , y > 0
y
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
30
1
Die Verteilung von Y := X
heisst auch die inverse Verteilung von X.
Wenn X eine stetige reelle Zufallsvariable ist, dann ist Y = X1 ebenfalls
eine stetige reelle Zufallsvariable mit Wahrscheinlichkeitsdichtefunktion
1
1
1
1
0
0
− 2 = 2 fX
, y 6= 0.
fY (y) = FY (y) = −FX
y
y
y
y
1.4
Quantilfunktion und Masszahlen von Verteilungen
Im Folgenden sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine
reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die
Funktion FX ist rechtsstetig und monoton wachsend mit lim FX (x) = 0 und
x→−∞
lim FX (x) = 1 (Satz 1).
x→∞
1.4.1
Quantilfunktion
Sei p ∈ (0, 1) gegeben. Wir fragen:
Für welche Zahl q ∈ R gilt FX (q) = “P (X ≤ q)” = p
(und damit “P (X > q)”= 1−“P (X ≤ q)” = 1 − FX (q) = 1 − p)?
Jede solche Zahl q ∈ R ist ein sog. p-Quantil der Verteilung der Zufallsvariablen
X. Offensichtlich benötigen wir zur Berechnung der p-Quantile das Urbild von
−1
p unter der Funktion FX , FX
(p) = {x ∈ R | FX (x) = p} ⊆ R. Wie die folgende
Zeichnung zeigt, kann dieses Urbild i. A. gar keine oder auch mehrere Elemente
enthalten:
y
1
p3
y = FX (x)
p2
p1
0
−1
FX
(p1 )
−1
FX
(p2 )
−1
FX
(p3 ) = ∅ x
Um eine Quantilfunktion QX : (0, 1) → R definieren zu können (die jedem
p ∈ (0, 1) genau ein p-Quantil QX (p) ∈ R zuordnet), betrachten wir jeweils die
grösste untere Schranke:
Definition 7 (Quantilfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und
sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
31
FX : R → [0, 1]. Die Quantilfunktion QX : (0, 1) → R der Zufallsvariablen X
ist definiert durch
QX (p) := inf ({x ∈ R | FX (x) ≥ p}) ,
p ∈ (0, 1).
(11)
Für ein gegebenes p ∈ (0, 1) heisst die Zahl QX (p) das p-Quantil der Verteilung
der Zufallsvariablen X.
Bemerkungen:
• Das Infimum von Teilmengen der reellen Zahlen (grösste untere Schranke)
wurde in MAE2 definiert (Def. 2). Die Existenz des Infimums folgt hier
aus der Monotonie von FX .
• Wegen der Rechtsstetigkeit von FX ist das Infimum in (11) sogar ein
Minimum, d. h. es ist selbst ein Element der Menge: FX (QX (p)) ≥ p.
• Falls FX streng monoton wachsend ist, so ist FX bijektiv und damit um−1
kehrbar (MAE1, Kap. 3.2), und es gilt QX ≡ FX
. Dies ist z. B. bei stetigen reellen Zufallsvariablen mit strikt positiver Wahrscheinlichkeitsdichtefunktion fX der Fall, z. B. bei den Normal-, t- und Cauchy-Verteilungen.
• In MATLAB können Sie Quantilfunktionen mit den Funktionen ...inv
auswerten, z. B. mit den Funktionen nbininv, expinv, norminv, usw.
Beispiel: Aus einer Urne mit 3 roten und 7 blauen Kugeln werden nacheinander
Kugeln gezogen (mit Zurücklegen). Wir fragen:
Wieviele Ziehungen sind nötig, bis die Wahrscheinlichkeit dafür, dass
5 rote Kugeln gezogen wurden, mindestens 95 % beträgt?
Zur Beantwortung dieser Frage definieren wir zunächst die Zufallsvariable
X
:= “Anzahl gezogene blaue Kugeln,
bis genau 5 rote Kugeln gezogen wurden”,
3
dann ist X ∼ N B 5, 10
(Kap. 1.1.2). Für k ∈ N0 gibt FX (k) = “P (X ≤ k)”
die Wahrscheinlichkeit dafür an, dass höchstens k blaue Kugeln gezogen werden,
bis 5 rote Kugeln gezogen wurden (FX : R → [0, 1] ist eine Treppenfunktion).
Das 95 %-Quantil der Verteilung,
Def. 7
QX (0.95) = inf ({x ∈ R | FX (x) ≥ 0.95}) = nbininv(0.95,5,3/10) = 23,
gibt an, dass die Wahrscheinlichkeit dafür, höchstens 23 blaue Kugeln ziehen zu
müssen, bis 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt:
“P (X ≤ 23)” = FX (23) ≥ 0.95 (tatsächlich gilt FX (23) ' 0.9526).
Weil nach der Gesamtzahl der Ziehungen gefragt wurde, müssen wir die 5 Ziehungen, bei denen eine rote Kugel gezogen wurde, noch dazu zählen. Die Antwort auf die obige Frage ist also “Es sind 28 Ziehungen nötig”.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Wahrscheinlichkeitsfunktion, NB(5,3/10)
kumulative Verteilungsfunktion, NB(5,3/10)
0.08
0.07
0.06
F (x)
0.04
X
fX(k)
0.05
0.03
0.02
0.01
0
32
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
k
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930
x
Analog zu den Eigenschaften der kumulativen Verteilungsfunktion FX einer
reellen Zufallsvariablen (Satz 1) fassen wir auch die Eigenschaften der Quantilfunktion in einem Satz zusammen:
Satz 2 (Eigenschaften der Quantilfunktion) Sei QX die Quantilfunktion einer
reellen Zufallsvariablen X. Dann gelten
1. QX ist monoton wachsend,
2. QX ist linksstetig: p→p
lim QX (p) = QX (p0 ), ∀ p0 ∈ (0, 1),
0
p<p0
3. lim QX (p) = −∞ und lim QX (p) = ∞
p→0
p→1
(bestimmte Divergenz; MAE2, Def. 26).
y
y = QX (p)
QX (p3 )
QX (p2 )
QX (p1 )
0 p1
p2
p3
1p
Bestimmte p-Quantile haben eigene Namen:
• Median: QX (0.5). Im Falle einer stetigen reellen Zufallsvariablen X teilt
der Median die Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse in zwei gleich grosse Teile auf:
“P (X ≤ QX (0.5))” = “P (X > QX (0.5))” = 50 %.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
33
• Terzile: QX (1/3), QX (2/3). Aufteilung in drei gleich grosse Teile.
• Quartile: QX (0.25), QX (0.5), QX (0.75). Aufteilung in vier gleich grosse
Teile. Der Median ist ebenfalls ein Quartil (das mittlere).
• Quintile: QX (0.2), QX (0.4), QX (0.6), QX (0.8). Fünf gleich grosse Teile.
• Dezile: QX (0.1), QX (0.2), . . . , QX (0.9). Zehn gleich grosse Teile.
• Perzentile: QX (0.01), QX (0.02), . . . , QX (0.99). 100 gleich grosse Teile.
Beispiel: Für die Quartile der Standardnormalverteilung N (0, 1) berechnen wir
mit dem MATLAB-Befehl norminv(p,0,1):
QX (0.25) ' −0.67,
QX (0.5) = 0,
Wahrscheinlichkeitsdichtefunktion, N(0,1)
0.4
0.35
0.3
Φ(x)
φ(x)
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5
1.4.2
0
x
0.5
1
1.5
2
2.5
3
QX (0.75) ' 0.67.
kumulative Verteilungsfunktion, N(0,1)
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5
x
3
Lagemasse und Streuungsmasse
Masszahlen fassen die wesentlichen Eigenschaften einer Wahrscheinlichkeitsverteilung zusammen. Wir lernen hier einige Lagemasse und Streuungsmasse kennen.
Ein erstes Lagemass ist der Median, also das 50 %-Quantil QX (0.5). Die
Quantilfunktion QX einer Zufallsvariablen hatten wir im letzten Abschnitt definiert. Ein weiteres Lagemass ist der Erwartungswert:
Definition 8 (Erwartungswert) Der Erwartungswert einer diskreten oder stetigen reellen Zufallsvariablen X mit Wahrscheinlichkeits(dichte)funktion fX ist
• im diskret reellen Fall definiert durch
X
E[X] =
xi fX (xi ),
(12)
xi ∈im(X)
falls der Ausdruck auf der rechten Seite existiert,
• im stetig reellen Fall definiert durch
Z∞
E[X] =
xfX (x) dx,
−∞
falls der Ausdruck auf der rechten Seite existiert.
(13)
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
34
Bemerkungen:
• Es kann E[X] = ±∞ gelten, wenn die Ausdrücke auf der rechten Seite
bestimmt divergent sind. Dieser Fall wird allerdings oft ausgeschlossen.
• Manchmal schreibt man µX anstatt E[X] für den Erwartungswert der
diskreten oder stetigen reellen Zufallsvariablen X.
• Die Ausdrücke auf der rechten Seite können unbestimmt divergent sein.
In diesem Fall ist der Erwartungswert der Zufallsvariablen nicht definiert.
Dies ist z. B. bei der Cauchy-Verteilung der Fall. Allgemein gilt (MAE3,
Def. 3, 3.)
Z∞
E[X] =
Zµ
Zc
µ→∞
λ→−∞
−∞
xfX (x) dx,
xfX (x) dx + lim
xfX (x) dx = lim
c
λ
{z
|
=:I1 (λ)
|
}
{z
=:I2 (µ)
}
für einen beliebigen Teilpunkt c ∈ R. Sei nun X ∼ Cauchy(t, s) mit Parametern t ∈ R, s > 0. Zur Vereinfachung der folgenden Rechnungen wählen
wir c := t. Wir erhalten
Zt
I1 (λ)
=
u:= x−t
1
xs
dx = s
2
2
π s + (x − t)
=
1 (su + t)s
s du
π s2 + s2 u2
λ−t
s
λ
1
π
Z0
Z0
su + t
s
du =
1 + u2
π
λ−t
s
Z0
1 2u
t
du +
2 1 + u2
π
λ−t
s
Z0
1
du
1 + u2
λ−t
s
0
s 1
t
0
2 =
ln 1 + u + arctan(u)| λ−t
s
π 2
π
λ−t
s
!
2
1s
λ−t
t
λ−t
= −
ln 1 +
− arctan
,
2π
s
π
s
und damit den Grenzwert
1s
lim I1 (λ) = −
lim ln 1 +
λ→−∞
2 π} λ→−∞
| {z
|
{z
<0
=∞
λ−t
s
2 !
}
t π
−
−
= −∞.
| π {z 2 }
= 2t ∈R
Auf dieselbe Weise berechnen wir
2 !
1s
µ−t
t
µ−t
I2 (µ) = · · · =
ln 1 +
+ arctan
,
2π
s
π
s
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
35
und damit den Grenzwert
2 !
1s
µ−t
tπ
lim I2 (µ) =
lim ln 1 +
+
= ∞.
µ→∞
2 π µ→∞
s
π2
|{z}
|{z}
|
{z
} = t ∈R
>0
2
=∞
Also ist
E[X] = lim I1 (λ) + lim I2 (µ) = −∞ + ∞
µ→∞
λ→−∞
nicht definiert.
• Der Erwartungswert E[X] entspricht der x-Koordinate des geometrischen
Schwerpunktes der Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse. Im Allgemeinen ist der Erwartungswert nicht gleich dem Median, z. B. für die F-Verteilung:
X ∼ F10,5
0.7
Wahrscheinlichkeitsdichtefunktion
geometrischer Schwerpunkt
Erwartungswert
Median
Modus
0.6
0.5
fX
0.4
0.3
0.2
0.1
0
0
0.571
1.07
1.67
2
2.5
x
3
3.5
4
4.5
5
Ein drittes Lagemass ist der Modus oder Modalwert einer Verteilung. Er ist definiert als diejenige Stelle x0 ∈ R, an der die Wahrscheinlichkeitsdichtefunktion
bzw. die Zähldichte maximal ist (globales Maximum). Der Modus einer Verteilung ist i. A. nicht eindeutig. Für Verteilungen werden manchmal die Begriffe
unimodal (eingipflig), bimodal (zweigipflige) sowie multimodal (mehrgipflig) verwendet, je nach der Form der jeweiligen Wahrscheinlichkeits(dichte)funktion.
bimodale Verteilung
0.3
0.3
0.25
0.25
0.2
0.2
fX(x)
0.35
X
f (x)
unimodale Verteilung
0.35
0.15
0.15
0.1
0.1
0.05
0.05
0
−5
0
x
5
0
−5
0
x
5
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
36
Beispiele:
1. Sei X ∼ B 5, 31 . Dann gilt im(X) = {0, 1, 2, . . . , 5} und damit
E[X] =
X
xi fX (xi ) =
xi ∈im(X)
5
X
k=0
k 5−k
5
X
5
2
5
1
= .
kfX (k) =
k
3
3
3
k
k=0
2. Sei X ∼ Exp(2). Dann gilt
Z∞
Z∞
x·2e
xfX (x) dx =
E[X] =
−∞
−2x
1
dx =
2
y=2x
0
Z∞
−y
ye
1
dy =
lim
2 λ→∞
0
Zλ
ye−y dy .
0
|
{z
=:I(λ)
Für das Integral I erhalten wir
Zλ
I(λ) =
λ
ye−y dy = −(y + 1)e−y 0 = 1 − (λ + 1) e−λ ,
0
und damit für den Grenzwert
1
1
E[X] =
lim 1 − (λ + 1) e−λ =
2 λ→∞
2
λ
1 − lim λ − lim e−λ
λ→∞ e
λ→∞
=
1
,
2
mit der Grenzwertregel von Bernoulli und de L’Hospital (MAE3, Satz 1).
In der folgenden Tabelle listen wir die Erwartungswerte, Mediane und Modi der
in Kap. 1.1.2 und Kap. 1.1.4 eingeführten Verteilungen auf:
Verteilung
U{1,2,...,n}
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
Erwartungswert
E[X]
Median
QX (0.5)
Berechnung in
MATLAB
n+1
2
n+1
2
np
M
N
1−p
r
p
n
λ
unidinv(0.5,n)
entweder bnpc
oder dnpe
binoinv(0.5,n,p)
Modus
{x ∈ R | fX (x)
maximal}
{1,2,. . . ,n}
nbininv(0.5,r,p)
b(n + 1)pc oder
b(n + 1)pc − 1
(oder beide)
j
k
+1
(n + 1) M
N +2
j
k
(r − 1) 1−p
p
poissinv(0.5,lambda)
dλe − 1 und bλc
hygeinv(0.5,N,M,n)
}
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Verteilung
37
Erwartungswert
E[X]
Median
QX (0.5)
Berechnung in
MATLAB
a+b
2
1
λ
a+b
2
expinv(0.5,1/lambda)
n
chi2inv(0.5,n)
max{n − 2, 0}
n
,n>2
n−2
finv(0.5,m,n)
(m − 2)n
,m>2
m(n + 2)
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
µ
tn
0, n > 1
−
Cauchy(t, s)
Modus
{x ∈ R | fX (x)
maximal}
jedes x ∈ [a, b]
unifinv(0.5,a,b)
ln(2)
λ
0
µ
norminv(0.5,mu,...
sqrt(sigmaˆ2))
0
tinv(0.5,n)
t
µ
0
t
In dieser Tabelle bedeuten die Klammern b·c bzw. d·e das Ab- bzw. Aufrunden
auf die nächste ganze Zahl.
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine diskrete oder
stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX , und
sei g : R → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine
reelle Zufallsvariable ist:
X
g
Ω −→ R −
→ R,
Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R,
ω ∈ Ω.
Dann ist der Erwartungswert von Y im diskret reellen Fall gegeben durch
X
E[Y ] = E[g(X)] =
g(xi )fX (xi ),
(14)
xi ∈im(X)
und im stetig reellen Fall durch
Z∞
E[Y ] = E[g(X)] =
g(x)fX (x) dx,
(15)
−∞
falls die jeweiligen Ausdrücke auf der rechten Seite von (14), (15) existieren. Auf
den Beweis verzichten wir hier.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
38
Beispiele: Wir nehmen an, X sei eine stetige reelle Zufallsvariable.
1. Seien a, b ∈ R, b > 0. Wir definieren g(x) := a + bx, x ∈ R, und Y :=
g(X) = a + bX (vgl. Kap. 1.3). Mit (15) erhalten wir den Erwartungswert
Z∞
Z∞
E[Y ]
=
−∞
−∞
Z∞
= a
Z∞
fX (x) dx +b
−∞
|
(a + bx) fX (x) dx
g(x)fX (x) dx =
E[a + bX] =
xfX (x) dx = a + bE[X].
−∞
{z
=1
}
|
{z
}
=E[X] (Def. 8)
Diesen Erwartungswert einer linear transformierten Zufallsvariablen können wir auch direkt mit Hilfe der in Kap. 1.3 bestimmten Verteilung von
Y berechnen:
Z∞
E[Y ]
=
Z∞
yfY (y) dy =
x= y−a
b
−∞
Z∞
=
1
y fX
b
y−a
b
dy
−∞
1
(a + bx) fX (x)b dx =
b
−∞
Z∞
(a + bx) fX (x) dx,
−∞
also wieder das Integral von oben.
√
2. Sei X ∼ N (0, 1), und sei g(x) := |x| = x2 , x ∈ R. Dann gilt Y :=
g(X) = |X|. Der Erwartungswert von Y ist gegeben durch
Z∞
E[Y ]
=
E[|X|] =
−∞
x2
1
|x| √ e− 2 dx
2π
Z∞
x2
1 − x2
1
2
=
(−x) √ e
dx + x √ e− 2 dx .
2π
2π
−∞
0
{z
}
|
{z
} |
Z0
=:I1
=:I2
Für die Berechnung von I1 verwenden wir die Substitution t := −x, dx =
−dt:
Z0
I1 =
−∞
x2
1
(−x) √ e− 2 dx =
2π
Z0
∞
t2
1
t √ e− 2 (−1) dt =
2π
Z∞
t2
1
t √ e− 2 dt = I2 .
2π
0
(16)
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
39
Der Erwartungswert von Y ist also gegeben durch
E[Y ]
=
2
I1 + I2 = 2I2 = √
2π
Z∞
r
2
xe
− x2
dx =
2
lim
π λ→∞
0
Zλ
xe−
x2
2
dx .
0
|
{z
=:I(λ)
}
2
Für die Berechnung von I(λ) verwenden wir die Substitution t := − x2 ,
dx = − x1 dt (vgl. Serie5, Aufg. 4a):
2
− λ2
Z
xe
I(λ) =
t
1
−
x
Z0
dt =
0
λ2
et dt = et − λ2 = 1 − e− 2 .
2
0
2
− λ2
Für den Grenzwert erhalten wir lim I(λ) = 1 − lim e−
λ→∞
λ2
2
λ→∞
= 1 − 0 = 1,
und damit
r
E[Y ] = E[|X|] =
2
lim I(λ) =
π λ→∞
r
2
·1=
π
r
2
' 0.798.
π
Ein Streuungsmass soll die Streubreite einer Wahrscheinlichkeitsverteilung um
einen geeigneten Lageparameter (z. B. Median, Erwartungswert, Modus) herum
beschreiben. Wir definieren die drei Streuungsmasse
Definition 9 (Streuungsmasse)
1. (Inter-)Quartilsabstand (interquartile range, IQR):
IQR := QX (0.75) − QX (0.25),
2. Varianz (mittlere quadratische Abweichung vom Erwartungswert):
h
i
2
Var[X] ≡ V [X] := E (X − E[X]) ,
(17)
(18)
falls E[|X|] < ∞,
3. Standardabweichung:
σX :=
p
V [X].
(19)
Satz 3 (Eigenschaften von Erwartungswert und Varianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine reelle Zufallsvariable mit E[|X|] < ∞, und
seien a, b ∈ R. Dann gelten
1. E[a + bX] = a + bE[X] (Linearität des Erwartungswertes),
2. V [a + bX] = b2 V [X].
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
40
Beweis:
1. geht wie in Beispiel 1., auch für b ≤ 0.
2. Wir verwenden die Definition der Varianz sowie die Linearität des Erwartungswertes (1.):
h
i
Def. 9, 2.
2
V [a + bX]
=
E (a + bX − E[a + bX])
i
h
Satz 3, 1.
2
=
E (a + bX − (a + bE[X]))
h
i
h
i
2
2
=
E (bX − bE[X]) = E b2 (X − E[X])
h
i
Satz 3, 1.
2 Def. 9, 2. 2
=
b2 E (X − E[X])
= b V [X].
In der folgenden Tabelle listen wir die Varianzen der früher behandelten Verteilungen auf:
Verteilung
Varianz V [X]
U{1,2,...,n}
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
n2 −1
12
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
tn
Cauchy(t, s)
np(1 − p)
N −M N −n
nM
N
N
N −1
pr
(1−p)2
λ
(b−a)2
12
1
λ2
2n
2n2 (m+n−2)
m(n−2)2 (n−4) ,
2
n>4
σ
n>2
−
n
n−2 ,
Beachten Sie, dass die Bernoulli-Verteilung ein Spezialfall der Binomalverteilung
und die geometrische Verteilung ein Spezialfall der negativen Binomaialverteilung ist, weshalb diese Verteilungen in der Tabelle nicht extra aufgeführt sind.
Beispiele:
1. Berechnung von Erwartungswert und Varianz einer diskret gleichverteilten
Zufallsvariablen. Sei n ∈ N und X ∼ U{1,2,...,n} , also im(X) = {1, 2, . . . , n}.
Gemäss Def. 8 ist der Erwartungswert von X gegeben durch
E[X] =
X
xi ∈im(X)
xi fX (xi ) =
n
n
X
1
1X
1 n(n + 1)
n+1
i =
i=
=
.
n
n i=1
n
2
2
i=1
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Damit ist die Varianz von X gegeben durch
h
i
X
Def. 9, 2.
2 (14)
V [X]
=
E (X − E[X])
=
41
2
(xi − E[X]) fX (xi )
xi ∈im(X)
n X
=
i−
i=1
n+1
2
2
n
n 1
1X 2
n + 1 (n + 1)2
=
i − 2i
+
n
n i=1
2
4
n
1 X 2 n+1X
1 (n + 1)2
i −
i+ n
n i=1
n i=1
n
4
=
1 n(n + 1)(2n + 1) n + 1 n(n + 1) (n + 1)2
−
+
n
6
n
2
4
(n + 1)(2n + 1) (n + 1)2
(n + 1)2
−
+
6
2
4
(n + 1)(2n + 1) (n + 1)2
2(n + 1)(2n + 1) − 3(n + 1)2
−
=
6
4
12
(n + 1) (4n + 2 − 3n − 3)
(n + 1) (2(2n + 1) − 3(n + 1))
=
12
12
2
(n + 1)(n − 1)
n −1
=
.
12
12
=
=
=
=
=
2. Berechnung von Erwartungswert und Varianz einer exponentialverteilten
Zufallsvariablen. Sei λ > 0 und X ∼ Exp(λ). Gemäss Def. 8 ist der Erwartungswert von X gegeben durch
Z∞
E[X]
=
Z∞
xfX (x) dx =
−∞
0
=
∞
xλe−λx dx = −xe−λx 0 +
0+
Z∞
e−λx dx
0
∞
1
1
− e−λx = .
λ
λ
0
Damit ist die Varianz von X gegeben durch
V [X]
=
2
i (15) Z∞ 1
E (X − E[X])
=
x−
λe−λx dx
λ
=
Z∞ Z∞
1
2
2
−λx
dx = x2 λe−λx dx +
x − x + 2 λe
λ
λ
Def. 9, 2.
h
2
0
0
−
0
2
λ
Z∞
0
xλe−λx dx +
1
λ
Z∞
0
e−λx dx
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
=
∞
−x2 e−λx 0
Z∞
+
2xe
−λx
2
dx −
λ
0
+
1
λ
Z∞
e−λx dx = 0 +
0
Z∞
42
xλe−λx dx +
0
−
∞
1
1 −λx e
= λ2 .
λ2
0
Bemerkungen:
• Eine Zufallsvariable X : Ω → R mit E[X] = 0 heisst zentriert. Eine
zentrierte Zufallsvariable mit V [X] = 1 heisst standardisiert.
• Sei X eine reelle Zufallsvariable mit E[|X|] < ∞. Dann ist die reelle
Zufallsvariable
E[X]
1
X − E[X]
= −p
+p
X
Y := p
V [X]
V [X]
V [X]
standardisiert, wie wir leicht mit Satz 3 beweisen:
"
#
E[X]
1
E[X]
1
Satz 3
E[Y ] = E − p
+p
X
= −p
+p
E[X] = 0,
V [X]
V [X]
V [X]
V [X]
#
!2
"
1
E[X]
1
Satz 3
p
+p
X
V [X] = 1.
V [Y ] = V − p
=
V [X]
V [X]
V [X]
• der MATLAB-Befehl ...stat gibt den Erwartungswert und die Varianz
einer Verteilung mit gegebenen Parametern aus,
z. B. [m,v] = binostat(10,1/6) oder [m,v] = chi2stat(5).
1.5
Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen
Bisher haben wir Zufallsexperimente betrachtet, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand, z. B. die Augenzahl beim Würfeln
oder die Anzahl gezogener Kugeln. In diesem Kapitel betrachten wir Zufallsexperimente, bei denen gleichzeitig mehrere Zufallsgrössen beobachtet werden. Dabei
stossen wir auf mehrdimensionale Zufallsvariablen mit multivariaten Verteilungen. Die Wahrscheinlichkeits(dichte)funktionen sowie die (kumulativen) Verteilungsfunktionen von solchen mehrdimensionalen Zufallsvariablen sind Funktionen von mehreren Variablen, wie sie in MAE3, Kap. I.4., eingeführt wurden. Im
Kap. 1.1.3 haben wir gesehen, dass für
• einen Wahrscheinlichkeitsraum (Ω, Σ, P ),
• einen messbaren Raum (Ω0 , Σ0 ) und
• eine Zufallsvariable X : Ω → Ω0
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
43
das durch X induzierte Wahrscheinlichkeitsmass PX := P ◦ X −1 : Σ0 → [0, 1]
definiert werden kann, so dass (Ω0 , Σ0 , PX ) ein Wahrscheinlichkeitsraum ist. Wir
haben uns dann auf reelle Zufallsvariablen eingeschränkt, d. h. Ω0 ⊆ R. In diesem
Kapitel geht es um n-dimensionale reelle Zufallsvariablen, d. h. Ω0 ⊆ Rn , für
ein n ∈ N.
1.5.1
Mehrdimensionale Zufallsvariablen
Definition 10 (mehrdimensionale reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i = 1, 2, . . . , n, n ∈ N, reelle Zufallsvariablen. Dann ist die Funktion X : Ω → Rn ,
>
X(ω) := (X1 (ω), X2 (ω), . . . , Xn (ω)) ,
ω ∈ Ω,
eine n-dimensionale reelle Zufallsvariable oder ein n-dimensionaler reeller Zufallsvektor. Eine mehrdimensionale reelle Zufallsvariable X heisst diskret, wenn
jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine diskrete reelle Zufallsvariable
ist. Eine mehrdimensionale reelle Zufallsvariable X heisst stetig, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine stetige reelle Zufallsvariable ist.
Bemerkungen:
• Das Bild einer n-dimensionalen Zufallsvariablen X ist im Allgemeinen
gegeben durch
im(X) = im(X1 ) × im(X2 ) × · · · × im(Xn ) ⊆ Rn ,
wobei im(Xi ) ⊆ R das Bild der i-ten Komponente bezeichnet, i = 1, 2, . . . , n.
• Für eine diskrete n-dimensionale reelle Zufallsvariable ist im(X) ⊆ Rn ein
Punktgitter im Rn , also insbesondere abzählbar.
>
• Für n = 2 verwendet man oft X = (X, Y ) anstatt X = (X1 , X2 )> und
für n = 3 oft X = (X, Y, Z)> anstatt X = (X1 , X2 , X3 )> .
Wie wir wissen, induzieren die reellen Zufallsvariablen Xi : Ω → R, i = 1, 2, . . . , n,
Wahrscheinlichkeitsmasse auf dem messbaren Raum (R, B(R)):
PXi : B(R) → [0, 1], PXi (A) := P Xi−1 (A) = “P (Xi ∈ A)”, A ∈ B(R),
wobei B(R) die Borelsche σ-Algebra auf R bezeichnet (die kleinste σ-Algebra mit
R als Grundmenge, die alle offenen Intervalle enthält; Def. 4). Die (kumulativen)
Verteilungsfunktionen FXi : R → [0, 1] sind gegeben durch
FXi (xi ) := PXi ((−∞, xi ]) = “P (Xi ≤ xi )”,
xi ∈ R,
i = 1, 2, . . . , n.
Ganz analog induziert die n-dimensionale Zufallsvariable X = (X1 , X2 , . . . , Xn )>
ein Wahrscheinlichkeitsmass auf einem messbaren Raum, wie wir im Folgenden
herleiten werden: Sei x = (x1 , x2 , . . . , xn )> ∈ Rn , dann gilt nach Def. 5:
Xi−1 ((−∞, xi ]) = {ω ∈ Ω | Xi (ω) ≤ xi } ∈ Σ,
i = 1, 2, . . . , n.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
44
Wir betrachten nun das Urbild des Kegels
(−∞, x] := (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ] ⊆ Rn
unter X: X −1 ((−∞, x]) = X −1 ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ])
= {ω ∈ Ω | X(ω) ∈ (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ]}
= {ω ∈ Ω | Xi (ω) ≤ xi , i = 1, 2, . . . , n}
n
n
\
\
=
{ω ∈ Ω | Xi (ω) ≤ xi } =
Xi−1 ((−∞, xi ]) ∈ Σ.
i=1
i=1
Analog zu Def. 4 ist die Borelsche σ-Algebra auf Rn , B(Rn ), definiert als die
kleinste σ-Algebra mit Rn als Grundmenge, die alle n-dimensionalen offenen
Quader mit Eckpunkten a = (a1 , a2 , . . . , an )> , b = (b1 , b2 , . . . , bn )> ,
(a, b) := (a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ) ⊆ Rn ,
ai , bi ∈ R, ai < bi ,
i = 1, 2, . . . , n, enthält. Wie im eindimensionalen Fall sind alle “gängigen” Teilmengen des Rn Borel-Mengen. Man kann zeigen, dass B(Rn ) von den Kegeln
(−∞, x] ⊆ Rn mit x ∈ Rn erzeugt wird, d. h. wenn eine Aussage für alle solchen Kegel gilt, dann gilt sie sogar für sämtliche Borel-Mengen im Rn . Das Paar
(Rn , B(Rn )) ist ein messbarer Raum (MAE3, Def. 27), und X ist eine messbare
Funktion:
∀ A ∈ B(Rn ) :
X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ.
Das durch X induzierte Wahrscheinlichkeitsmass auf (Rn , B(Rn )), also die Funktion PX : B(Rn ) → [0, 1], ist definiert durch
PX (A) := P X −1 (A) = “P (X ∈ A)”, A ∈ B(Rn ).
(20)
Damit erhalten wir den neuen Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ). Für
n = 1 erhalten wir die bereits bekannten Definitionen für reelle Zufallsvariablen,
also sind dies Verallgemeinerungen, wie auch die folgende Definition:
Definition 11 ((kumulative) Verteilungsfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable.
Die (kumulative) Verteilungsfunktion von X, FX : Rn → [0, 1], ist definiert
durch
FX (x) := PX ((−∞, x]) = P X −1 ((−∞, x])
(21)
!
n
\
= P
Xi−1 ((−∞, xi ]) = “P (X ≤ x)”
(22)
i=1
=
“P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ · · · ∧ Xn ≤ xn )”,
>
(23)
für x = (x1 , x2 , . . . , xn ) ∈ Rn . Die (kumulative) Verteilungsfunktion FX beschreibt die Verteilung der Zufallsvariablen X oder die gemeinsame Verteilung der reellen Zufallsvariablen X1 , X2 , . . . , Xn . Die Verteilungen der einzelnen
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
45
Komponenten Xi heissen (eindimensionale) Rand- oder Marginalverteilungen:
FXi (xi ) = “P (Xi ≤ xi )” =
lim “P (X1 ≤ x1 ∧ · · · ∧ Xi−1 ≤ xi−1 ∧ Xi ≤ xi ∧ Xi+1 ≤ xi+1 ∧ · · · ∧ Xn ≤ xn )”
xk →∞
∀k:k6=i
=
lim FX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) ,
xk →∞
∀k:k6=i
xi ∈ R,
i = 1, 2, . . . , n.
(24)
Wir illustrieren die (kumulative) Verteilungsfunktion einer zweidimensionalen
>
stetigen reellen Zufallsvariablen X : Ω → R2 , ω 7→ X(ω) = (X1 (ω), X2 (ω)) ,
sowie ihre Randverteilungen in der folgenden Grafik:
Auf Funktionen von mehreren Variablen – insbesondere auf die Differenzialund Integralrechnung in mehreren Dimensionen – werden wir später in dieser
Vorlesung noch genauer eingehen.
Definition 12 (Wahrscheinlichkeitsdichtefunktionen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine diskrete oder stetige n-dimensionale
reelle Zufallsvariable.
• Im diskreten Fall erfüllt die (kumulative) Verteilungsfunktion
X
X
FX (x) =
fX (xi ) =
fX (xi ),
xi ∈im(X)∩(−∞,x]
xi ∈im(X)
xi ≤x
(25)
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
46
für x ∈ Rn , wobei fX : im(X) → [0, 1] die Wahrscheinlichkeitsfunktion
(Zähldichte) der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet.
• Im stetigen Fall erfüllt die (kumulative) Verteilungsfunktion
FX (b) =
···
fX (x) dx =
(−∞,b]
Zbn
Zb1 Zb2
Z
−∞ −∞
fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 ,
−∞
(26)
für b = (b1 , b2 , . . . , bn )> ∈ Rn , wobei fX : Rn → [0, ∞) die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X oder die gemeinsame
Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet.
Bemerkungen:
• Analog zum eindimensionalen Fall erfüllt die Wahrscheinlichkeitsfunktion
(Zähldichte) fX : im(X) → [0, 1] der diskreten Zufallsvariablen X:
fX (x) = “P (X = x)” = “P (X1 = x1 ∧ X2 = x2 ∧ · · · ∧ Xn = xn )”, (27)
für x = (x1 , x2 , . . . , xn )> ∈ Rn . Eine stetige Zufallsvariable X erfüllt
jedoch
“P (X = x)” = PX ({x}) = 0, ∀ x ∈ Rn .
(28)
• In (26) steht ein n-dimensionales Integral, das “von innen nach aussen”
durch n-fache eindimensionale Integration ausgewertet werden kann. Unter gewissen Voraussetzungen an den Integranden fX (die in der Regel
erfüllt sind) spielt die Reihenfolge der Integrationen keine Rolle (Satz von
Fubini; G. Fubini, 1879–1943).
• Wie im eindimensionalen Fall kann für stetige reelle Zufallsvariablen die
Wahrscheinlichkeitsdichtefunktion durch Ableiten aus der (kumulativen)
Verteilungsfunktion berechnet werden:
fX (x) =
∂ n FX
(x).
∂x1 ∂x2 · · · ∂xn
(29)
Dieser Ausdruck wird ebenfalls “von innen nach aussen” durch n-fache
eindimensionale partielle Ableitung berechnet, wobei die Reihenfolge der
partiellen Ableitungen keine Rolle spielt.
Wie im Kap. 1.1.3 stellen wir einige Eigenschaften von diskreten und stetigen
n-dimensionalen reellen Zufallsvariablen in einer Tabelle zusammen:
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Zufallsvariable X
Ergebnismenge Ω0
Ereignisfeld Σ0
Wahrscheinlichkeits(dichte)funktion
diskret reell
n-dimensional
im(X) ⊆ Rn
(abzählbar)
P (im(X))
stetig reell
n-dimensional
Rn
(überabzählbar unendlich)
B(Rn ) ( P(Rn )
fX : im(X) → [0, 1]
fX : Rn → [0, ∞)
Z
fX (x) dx = 1
X
fX (xi ) = 1
Normierung
xi ∈im(X)
Elementarereignis
{x} ∈ Σ0 , x ∈ Ω0
Quader
“P (a < X ≤ b)”
a, b ∈ Rn , a < b
47
Rn
PX ({x}) = fX (x)
X
fX (xi )
xi ∈im(X)
a<xi ≤b
PX ({x}) = 0
Z
fX (x) dx
(a,b)
wobei das n-dimensionale Integral unten rechts in der Tabelle gegeben ist durch
Zb1 Zb2
Z
···
fX (x) dx =
a1 a2
(a,b)
Zbn
fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 .
(30)
an
Dabei sind Grenzübergänge ai → −∞ und/oder bj → ∞ zugelassen, was auf
unendliche Reihen bzw. uneigentliche Integrale führt.
Beispiele: Wir illustrieren die obigen Begriffe an zweidimensionalen Zufallsvariablen (n = 2).
1. Wir betrachten das Zufallsexperiment
Ziehen von Kugeln aus einer Urne mit 3 roten und 7 blauen
Kugeln,
und wir definieren die Zufallsvariablen
X1
:= “Anzahl der roten Kugeln bei der 1. Ziehung”,
X2
:= “Anzahl der roten Kugeln bei der 2. Ziehung”,
mit im(X1 ) = im(X2 ) = {0, 1}. Wir definieren die diskrete zweidimensionale Zufallsvariable X := (X1 , X2 )> mit
im(X) = im(X1 ) × im(X2 ) = {0, 1}2 = {(0, 0), (0, 1), (1, 0), (1, 1)}.
Wir wollen die Zähldichte von X, also die Funktion fX : {0, 1}2 → [0, 1],
berechnen. Dazu verwenden wir (27):
fX ((0, 0))
= “P (X = (0, 0))” = “P (X1 = 0 ∧ X2 = 0)”,
fX ((0, 1))
= “P (X = (0, 1))” = “P (X1 = 0 ∧ X2 = 1)”,
fX ((1, 0))
= “P (X = (1, 0))” = “P (X1 = 1 ∧ X2 = 0)”,
fX ((1, 1))
= “P (X = (1, 1))” = “P (X1 = 1 ∧ X2 = 1)”.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
48
Es stellt sich heraus, dass diese Zähldichte unterschiedlich ist je nachdem,
ob mit oder ohne Zurücklegen gezogen wird:
“P (X1
“P (X1
“P (X1
“P (X1
= 0 ∧ X2
= 0 ∧ X2
= 1 ∧ X2
= 1 ∧ X2
= 0)”
= 1)”
= 0)”
= 1)”
mit Zurücklegen
7
7
49
10 · 10 = 100
7
3
21
10 · 10 = 100
7
21
3
10 · 10 = 100
3
3
9
10 · 10 = 100
ohne Zurücklegen
7
6
7
10 · 9 = 15
7
3
7
10 · 9 = 30
7
7
3
10 · 9 = 30
3
2
1
10 · 9 = 15
Die Wertetabellen der entsprechenden Zähldichten der gemeinsamen Verteilung sowie der (eindimensionalen) Randverteilungen sind gegeben durch
mit Zurücklegen:
x1
fX
0
1 fX2
21
49
7
0 100 100
10
x2
21
3
9
1 100 100
10
7
3
fX1 10
1
10
ohne Zurücklegen:
x1
fX 0
1 fX2
7
7
7
0 15 30
10
x2
7
3
1
1 30 15
10
7
3
fX1 10
1
10
Offensichtlich sind die Randverteilungen in beiden Fällen gleich, obwohl
die gemeinsame Verteilung unterschiedlich ist. Im Allgemeinen kann daher
von den Randverteilungen nicht auf die gemeinsame Verteilung geschlossen werden!
Mit Hilfe dieser Tabellen können wir jetzt z. B. die folgenden Wahrscheinlichkeiten berechnen:
(
21
100 , mit Zurücklegen, ,
• “P (X1 = 1 ∧ X2 = 0)” =
7
ohne Zurücklegen
30 ,
• “P (X1 = 1)” = “P (X1 = 1 ∧ (X2 = 0 ∨ X2 = 1))”
= “P ((X1 = 1 ∧ X2 = 0) ∨ (X1 = 1 ∧ X2 = 1))”
= “P
( (X1 = 1 ∧ X2 = 0) + P (X1 = 1 ∧ X2 = 1)”
21
9
3
100 + 100 , mit Zurücklegen
=
=
,
7
1
10
ohne Zurücklegen
30 + 15 ,
“P (X1 = 1 ∧ X2 = 0)”
• “P (X2 = 0|X1 = 1)” =
“P (X1 = 1)”

21

7
100
 3 = , mit Zurücklegen
10
10
=
7

7
 30
ohne Zurücklegen
3 = 9,
10
(bedingte Wahrscheinlichkeit; vgl. MAE3, Def. 30).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
49
2. Die kumulative Verteilungsfunktion einer stetigen zweidimensionalen reellen Zufallsvariablen X sei gegeben durch
1
1
− π1 arctan 3−x
1 − e−2x2 , x2 ≥ 0
2
4
FX (x1 , x2 ) =
,
0,
x2 < 0
für x1 , x2 ∈ R. Die (eindimensionalen) Randverteilungen erhalten wir
durch Berechnung der Grenzwerte:
1
3 − x1
1
, x1 ∈ R,
FX1 (x1 ) =
lim FX (x1 , x2 ) = − arctan
x2 →∞
2 π
4
1 − e−2x2 , x2 ≥ 0
FX2 (x2 ) =
lim FX (x1 , x2 ) =
, x2 ∈ R.
0,
x2 < 0
x1 →∞
Wir wollen die Wahrscheinlichkeitsdichtefunktion fX mit Hilfe von (29)
als zweite partielle Ableitung von FX berechnen. Dazu berechnen wir zunächst die (ersten) partiellen Ableitungen (für x2 > 0; MAE3, Def. 14):
1
∂FX
1
1
1 − e−2x2 ,
(x1 , x2 ) = −
2 −
3−x
1
∂x1
π1+
4
4
1
3 − x1
∂FX
1
− arctan
2e−2x2 .
(x1 , x2 ) =
∂x2
2 π
4
Jetzt leiten wir diese Ausdrücke einfach noch einmal partiell ab, und zwar
nach der jeweils anderen Variablen:
1
1
e−2x2
∂ 2 FX
1
8
−2x2
= −
,
−
2e
=
∂x2 ∂x1
π 1 + 3−x1 2
4
π 16 + (3 − x1 )2
4
∂ 2 FX
1
e−2x2
1
1
8
−2x2
.
= −
−
2e
=
∂x1 ∂x2
π 1 + 3−x1 2
4
π 16 + (3 − x1 )2
4
Offensichtlich erhalten wir unabhängig von der Reihenfolge der partiellen
Ableitungen dieselbe Wahrscheinlichkeitsdichtefunktion
fX (x1 , x2 ) =
8
e−2x2
,
π 16 + (3 − x1 )2
x2 > 0.
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
50
Damit können wir Wahrscheinlichkeiten durch Integration berechnen, z. B.
“P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))”
= PX ((0, 5] × (−1, 1))
Z5 Z1
=
fX (x1 , x2 ) dx2 dx1 .
0 −1
Dieses zweidimensionale Integral werten wir “von innen nach aussen” aus,
Z1
d. h. wir berechnen zuerst das Integral über x2 :
fX (x1 , x2 ) dx2
−1
Z1
=
0
=
e−2x2
8
1
8
dx2 =
π 16 + (3 − x1 )2
π 16 + (3 − x1 )2
Z1
e−2x2 dx2
0
8
4
1
1
1 − e−2
−2
1
−
e
=
,
π 16 + (3 − x1 )2 2
π 16 + (3 − x1 )2
und integrieren dann noch über x1 : “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))”
Z5
1 − e−2
1 − e−2
1
4
dx1
dx
=
1
1 2
π 16 + (3 − x1 )2
4π
1 + ( 3−x
4 )
0
0
−2
1−e
3
1
arctan
− arctan −
' 30 %.
π
4
2
Z5
=
t=
3−x1
=4
2
f (X
1
,X )
2
(x 1 ,x 2 )
1.5
0.01
x2
1
1
0.0
0.03
0.0
1
0.5
0.0
5
0.0 .07
0
.03
0
0
-6
1
-4
-2
0
4
x1
0.0
3
0.0
7
9
0.0 .11
0 0.13
2
5
6
8
10
12
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
51
Die Berechnung der (eindimensionalen) Randdichten fXi , i = 1, 2, . . . , n, aus
der gemeinsamen Wahrscheinlichkeits(dichte)funktion fX erfolgt
• im diskreten Fall über die (n − 1)-fache Summe fXi (xi ) =
X
X
X
X
···
fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ),
···
xn ∈
im(Xn )
xi−1 ∈
xi+1 ∈
im(Xi−1 ) im(Xi+1 )
x1 ∈
im(X1 )
(31)
für xi ∈ im(Xi ), und
• im stetigen Fall über das (n − 1)-fache Integral fXi (xi ) =
Z∞
Z∞
···
−∞
fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) dxn · · · dxi+1 dxi−1 · · · dx1 ,
−∞
(32)
für xi ∈ R,
wobei über alle Komponenten ausser der i-ten summiert bzw. integriert wird.
Beispiel: Sei X : Ω → R2 eine zweidimensionale stetige reelle Zufallsvariable
mit Wahrscheinlichkeitsdichtefunktion
(
8
e−2x2
π 16+(3−x1 )2 , x2 > 0 ,
fX (x1 , x2 ) =
x1 , x2 ∈ R2
0,
x2 ≤ 0
(vgl. vorheriges Beispiel). Die eindimensionalen Randdichten sind nach (32) für
n = 2 gegeben durch
Z∞
fX1 (x1 )
=
Z∞
fX (x1 , x2 ) dx2 =
−∞
=
e−2x2
8
dx2
π 16 + (3 − x1 )2
0
8
1
π 16 + (3 − x1 )2
Z∞
0
e−2x2 dx2 =
1
8
π 16 + (3 − x1 )2
∞
1
− e−2x2 2
0
|
{z
}
= 12
4
1
,
π 16 + (3 − x1 )2
x1 ∈ R ⇒ X1 ∼ Cauchy(3, 4),
 ∞
R 8 e−2x2


Z∞

π 16+(3−x1 )2 dx1 , x2 > 0
−∞
fX2 (x2 ) =
fX (x1 , x2 ) dx1 =
R∞


0 dx1 ,
x2 ≤ 0

−∞
−∞

∞
 8 e−2x2 R
1
π
16+(3−x1 )2 dx1 , x2 > 0
=
−∞

0,
x2 ≤ 0
8 −2x
−2x
∞
1
2
− 41 arctan 3−x
, x2 > 0
2e 2 , x2 > 0
πe
4
−∞
=
=
0,
x2 ≤ 0
0,
x2 ≤ 0
=
⇒
X2 ∼ Exp(2).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.5.2
52
Stochastische Unabhängigkeit
Viele statistische Methoden setzen die (stochastische) Unabhängigkeit der beteiligten Zufallsvariablen voraus. In diesem Kapitel erweitern wir die Definition
für die (stochastische) Unabhängigkeit von Ereignissen aus MAE3 auf die (stochastische) Unabhängigkeit von reellen Zufallsvariablen.
Zuerst erinnern wir kurz an den Schluss der Vorlesung MAE3, wo die (stochastische) Unabhängigkeit von Ereignissen behandelt wurde (MAE3, Def. 31):
Definition 13 ((stochastisch) unabhängige Ereignisse) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ Σ heissen (stochastisch) unabhängig, falls P (A ∩ B) = P (A)P (B).
Bemerkung: Für (stochastisch) unabhängige Ereignisse A, B ∈ Σ gilt
P (A|B)
=
P (B|A)
=
P (A ∩ B)
P (A)P (B)
=
= P (A),
P (B)
P (B)
P (A ∩ B)
P (A)P (B)
=
= P (B),
P (A)
P (A)
falls P (B) 6= 0, und
falls P (A) 6= 0
(bedingte Wahrscheinlichkeiten: MAE3, Def. 30). Dies bedeutet, dass das Eintreten des Ereignisses B die Wahrscheinlichkeit für das Eintreten des Ereignisses
A nicht beeinflusst, und umgekehrt.
Definition 14 (Unabhängigkeit von mehreren Ereignissen) Sei (Ω, Σ, P ) ein
Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien A1 , A2 , . . . , An ∈ Σ
Ereignisse.
• Die Ereignisse A1 , A2 , . . . , An heissen paarweise unabhängig, falls die Ereignisse Ai und Aj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}.
• Die Ereignisse A1 , A2 , . . . , An heissen gegenseitig unabhängig, falls für
jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt:


k
k
\
Y
P
Ai j  =
P (Aij ) = P (Ai1 )P (Ai2 ) · · · P (Aik ).
(33)
j=1
j=1
Bemerkungen:
• Für n = 2 Ereignisse sind die drei Begriffe “gegenseitig unabhängig”, “paarweise unabhängig” und “unabhängig” äquivalent.
• Für n > 2 Ereignisse gibt es jedoch zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich eben die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
53
Die (stochastische) Unabhängigkeit von Ereignissen wird auch in der Definition der (stochastischen) Unabhängigkeit von reellen Zufallsvariablen benötigt:
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R zwei reelle Zufallsvariablen. Wie im Kap. 1.1.3 betrachten wir den messbaren Raum
(R, B(R)) mit der Borelschen σ-Algebra (Def. 4). X und Y sind messbare Funktionen, d. h.
∀ A ∈ B(R) :
∀ B ∈ B(R) :
X −1 (A)
Y
−1
(B)
= {ω ∈ Ω | X(ω) ∈ A} ∈ Σ,
= {ω ∈ Ω | Y (ω) ∈ B} ∈ Σ
(Urbilder von messbaren Mengen sind messbar). Für A, B ∈ B(R) können wir
die folgenden bedingten Wahrscheinlichkeiten betrachten:
P X −1 (A) ∩ Y −1 (B)
−1
−1
,
“P (X ∈ A|Y ∈ B)” = P X (A)|Y (B) =
P (Y −1 (B))
P X −1 (A) ∩ Y −1 (B)
“P (Y ∈ B|X ∈ A)” = P Y −1 (B)|X −1 (A) =
,
P (X −1 (A))
falls P (Y −1 (B)) 6= 0 bzw. P (X −1 (A)) 6= 0 (vgl. MAE3, Def. 30). Die beiden
Zufallsvariablen X und Y heissen (stochastisch) unabhängig, wenn die Realisierung von X keinerlei Einfluss auf die Realisierung von Y hat, und umgekehrt:
Definition 15 ((stochastisch) unabhängige reelle Zufallsvariablen) Sei (Ω, Σ, P )
ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen.
X und Y heissen (stochastisch) unabhängig, falls für alle A, B ∈ B(R) die
Ereignisse X −1 (A), Y −1 (B) ∈ Σ (stochastisch) unabhängig sind, d. h. falls
∀ A, B ∈ B(R) : P X −1 (A) ∩ Y −1 (B) = P X −1 (A) P Y −1 (B) . (34)
Andernfalls heissen X und Y (stochastisch) abhängig.
Bemerkung: Die Formel (34) können wir auch schreiben als
∀ A, B ∈ B(R) :
∀ a, b ∈ R :
“P (X ∈ A ∧ Y ∈ B)”
=
“P (X ∈ A)P (Y ∈ B)”, oder als
“P (X ≤ a ∧ Y ≤ b)”
=
“P (X ≤ a)P (Y ≤ b)”,
denn eine Aussage gilt genau dann für alle Borel-Mengen A, B ∈ B(R), wenn
sie für alle linksseitig unendlichen, abgeschlossenen Intervalle (−∞, a], (−∞, b],
mit a, b ∈ R, gilt.
Im Falle der (stochastischen) Unabhängigkeit von X und Y gilt für die bedingten Wahrscheinlichkeiten von oben:
“P (X ∈ A|Y ∈ B)” = P X −1 (A)|Y −1 (B) = P X −1 (A) = “P (X ∈ A)”,
“P (Y ∈ B|X ∈ A)” = P Y −1 (B)|X −1 (A) = P Y −1 (B) = “P (Y ∈ B)”,
d. h. die Tatsache, dass der Wert der Zufallsvariablen Y in der Menge B liegt, hat
keinen Einfluss auf die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X in der Menge A liegt, und umgekehrt. Dies gilt für alle Borel-Mengen
A, B ∈ B(R)!
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
54
Im Falle der (stochastischen) Unabhängigkeit der reellen Zufallsvariablen
X und Y gelten ausserdem spezielle Formeln für die (kumulative) Verteilungsfunktion und für die Wahrscheinlichkeits(dichte)funktion der zweidimensionalen
reellen Zufallsvariablen X := (X, Y )> :
Satz 4 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R
zwei reelle Zufallsvariablen. Wir definieren die zweidimensionale reelle Zufallsvariable X := (X, Y )> . Die Zufallsvariablen X und Y sind genau dann (stochastisch) unabhängig, wenn für die (kumulativen) Verteilungsfunktionen FX , FX ,
FY gilt:
FX (x, y) = FX (x)FY (y), ∀ x, y ∈ R.
(35)
Im diskreten oder stetigen Fall ist dies äquivalent dazu, dass für die Wahrscheinlichkeits(dichte)funktionen fX , fX , fY gilt:
fX (x, y) = fX (x)fY (y),
∀ x, y ∈ R.
(36)
Bemerkungen:
• Dieser Satz kann als Kriterium für die (stochastische) Unabhängigkeit
von zwei reellen Zufallsvariablen X, Y verwendet werden, wenn sowohl
die Verteilungen von X und Y als auch ihre gemeinsame Verteilung (die
Verteilung von X = (X, Y )> ) bekannt sind.
Viel öfter wird jedoch die (stochastische) Unabhängigkeit von X und
Y vorausgesetzt, um z. B. mit (36) die gemeinsame Wahrscheinlichkeits(dichte)funktion aus bekannten Randdichten berechnen zu können.
• Nur wenn X und Y (stochastisch) unabhängig sind, kann man aus den
Randverteilungen auf die gemeinsame Verteilung schliessen.
Beispiele:
1. Im letzten Kapitel hatten wir die Wahrscheinlichkeitsverteilungen von zwei
diskreten Zufallsvariablen X1 und X2 berechnet: Mit Satz 4 prüfen wir nun
nach, ob diese beiden Zufallsvariablen (stochastisch) unabhängig sind:
x1
0
0
1
1
x2
0
1
0
1
Ziehen mit Zurücklegen
fX (x1 , x2 ) fX1 (x1 )fX2 (x2 )
7
7
49
49
100
10 · 10 = 100
21
7
3
21
100
10 · 10 = 100
21
3
7
21
100
10 · 10 = 100
9
3
3
9
100
10 · 10 = 100
Ziehen ohne Zurücklegen
fX (x1 , x2 ) fX1 (x1 )fX2 (x2 )
7
7
49
7
15
10 · 10 = 100
7
7
3
21
30
10 · 10 = 100
7
3
7
21
30
10 · 10 = 100
1
3
3
9
15
10 · 10 = 100
Nach Satz 4 sind also
• X1 und X2 (stochastisch) unabhängig, falls mit Zurücklegen gezogen
wird und
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
55
• X1 und X2 (stochastisch) abhängig, falls ohne Zurücklegen gezogen
wird.
2. Seien X ∼ N (0, 1) und Y := 2X−3 (dann gilt Y ∼ N (−3, 4), vgl. Kap. 1.3)
stetige Zufallsvariablen. Da Y eine Transformierte von X ist vermuten wir,
dass X und Y (stochastisch) abhängig sind. Die gemeinsame (kumulative)
Verteilungsfunktion von X und Y ist gegeben durch
FX (x), y ≥ 2x − 3
F(X,Y ) (x, y) = “P (X ≤ x ∧ Y ≤ y)” =
,
FY (y), y < 2x − 3
für x, y ∈ R. Das Kriterium aus Satz 4 ist offensichtlich nicht erfüllt, also
sind X und Y tatsächlich (stochastisch) abhängig. In der folgenden Grafik
vergleichen wir Niveaulinien von F(X,Y ) mit jenen von FX FY :
X ∼ N(0,1), Y := 2 X - 3
0
0.8
0.5
0.4
0.3
0.2
-4
0.1
0.1
-6
0.9
0.8
0.7
0.1
0.1
0.6
0.5
0.4
0.3
0.2
-4
∼ N(-3,4), unabhaengig
0.9
-2
0.2
y
X ∼ N(0,1), Y
0.2
0.3
-2
2
0.6
0.5
0.4
0.3
0.7
0.6
0.5
0.4
0
∼ N(-3,4)
y
2
-6
y=2x-3
F(X,Y) (x,y)
FX (x) F Y(y)
-8
-8
-5
0
5
-5
0
5
x
x
Genau wie für Ereignisse kann man auch die (stochastische) Unabhängigkeit
von mehr als zwei Zufallsvariablen definieren:
Definition 16 (Unabhängigkeit von mehreren reellen Zufallsvariablen) Sei
(Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien
X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen.
• Die Zufallsvariablen X1 , X2 , . . . , Xn heissen paarweise unabhängig, falls
die Zufallsvariablen Xi und Xj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}.
• Die Zufallsvariablen X1 , X2 , . . . , Xn heissen gegenseitig unabhängig, falls
für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt:


k
k
\
Y

∀ A1 , A2 , . . . , Ak ∈ B(R) : P 
Xi−1
(A
)
=
P Xi−1
(Aj ) ,
j
j
j
j=1
j=1
(37)
−1
−1
das heisst falls die Ereignisse Xi−1
(A
)
gegenseitig
(A
),
X
(A
),
.
.
.
X
1
2
k
i2
ik
1
unabhängig sind für alle Borel-Mengen A1 , A2 , . . . , Ak ∈ B(R).
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
56
Bemerkungen:
• Für n = 2 Zufallsvariablen sind die drei Begriffe “gegenseitig unabhängig”,
“paarweise unabhängig” und “unabhängig” äquivalent. Für n > 2 Zufallsvariablen hingegen gibt es wieder zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich die “paarweise” und die “gegenseitige”.
Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft.
• Mit X := (X1 , X2 , . . . , Xn )> folgt aus der Formel (37) für k = n:
“P (X ≤ a)”
=
=
“P (X1 ≤ a1 ∧ X2 ≤ a2 ∧ · · · ∧ Xn ≤ an )”
!
n
n
\
(37) Y
P
Xi−1 ((−∞, ai ]) =
P Xi−1 ((−∞, ai ])
i=1
=
=
i=1
“P (X1 ≤ a1 )P (X2 ≤ a2 ) · · · P (Xn ≤ an )”
n
Y
“
P (Xi ≤ ai )”, ∀ a = (a1 , a2 , . . . , an )> ∈ Rn ,
i=1
weil (−∞, a1 ], (−∞, a2 ], . . . , (−∞, an ] ∈ B(R). Daraus folgt für die gemeinsame (kumulative) Verteilungsfunktion:
FX (x) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) =
n
Y
FXi (xi ),
(38)
i=1
für alle x = (x1 , x2 , . . . , xn )> ∈ Rn , und für die Wahrscheinlichkeits(dichte)funktionen im diskreten oder stetigen Fall:
fX (x) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) =
n
Y
fXi (xi ),
(39)
i=1
für alle x = (x1 , x2 , . . . , xn )> ∈ Rn . Die Formeln (38), (39) sind Verallgemeinerungen von (35), (36) und sehr nützlich für praktische Rechnungen.
Um sie anwenden zu können, muss man die gegenseitige Unabhängigkeit
der reellen Zufallsvariablen X1 , X2 , . . . , Xn voraussetzen – paarweise Unabhängigkeit genügt nicht!
1.6
Transformationen von Zufallsvektoren
Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine
n-dimensionale reelle Zufallsvariable. Wir betrachten Funktionen g : Rn → R,
so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist:
g
X
Ω −→ Rn −
→ R,
Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R,
ω ∈ Ω.
Wir sind in erster Linie an Summen und Produkten der Komponenten von X
interessiert, also z. B. an Transformationen der Form
g(x) :=
n
X
i=1
xi
oder g(x) :=
n
Y
i=1
xi ,
x = (x1 , x2 , . . . , xn )> ∈ Rn .
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
57
Wir illustrieren diese Abbildungen für den Fall n = 2 in der folgenden Grafik:
Bevor wir uns anschauen, wie die Verteilung einer derart transformierten Zufallsvariablen Y = g(X) aussieht, wollen wir zuerst untersuchen, wie die Masszahlen
transformieren.
1.6.1
Masszahlen der Transformierten
Satz 5 (Erwartungswert einer Transformierten) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale diskrete
oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX .
Sei g : Rn → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz Y := g(X))
eine reelle Zufallsvariable ist. Der Erwartungswert von Y ist dann
• im diskreten Fall gegeben durch
X
E[Y ] = E[g(X)] =
g(xi )fX (xi )
(40)
xi ∈im(X)
• und im stetigen Fall gegeben durch
Z
E[Y ] = E[g(X)] =
g(x)fX (x) dx.
Rn
(41)
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
58
Bemerkungen:
• Die Formeln (40), (41) sind Verallgemeinerungen der Formeln (14), (15)
auf n ≥ 1 Dimensionen.
• Auf der rechten Seite von (41) steht wieder ein n-dimensionales Integral,
das als Hintereinanderausführung von n eindimensionalen Integralen aufgefasst werden kann, die “von innen nach aussen” ausgewertet werden können:
Z
g(x)fX (x) dx
Rn
Z∞
Z∞
Z∞
···
=
−∞ −∞
g(x1 , x2 , . . . , xn )fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 .
−∞
Beispiel: Sei n = 2 und X1 ∼ N (0, 1), X2 ∼ N (−3, 4), dann ist X := (X1 , X2 )>
eine zweidimensionale stetige reelle Zufallsvariable. Sei die Funktion g : R2 → R
definiert durch g(x) := x1 + x2 , x = (x1 , x2 )> ∈ R2 . Dann ist
Y := g(X) = X1 + X2
eine Summe von stetigen reellen Zufallsvariablen, also selbst wieder eine stetige
reelle Zufallsvariable. Den Erwartungswert von Y berechnen wir mit (41) als
Z
E[Y ] = E[X1 + X2 ] = E[g(X)] = g(x)fX (x) dx
R2
Z∞ Z∞
=
(x1 + x2 )fX (x1 , x2 ) dx2 dx1 .
−∞ −∞
{z
|
=:I1 (x1 )
}
Wir berechnen zuerst das innere Integral I1 mit Hilfe der Summen- und der
Faktorregel (MAE2, Satz 3):
Z∞
I1 (x1 )
=
Z∞
(x1 + x2 )fX (x1 , x2 ) dx2 =
−∞
Z∞
x1 fX (x1 , x2 ) dx2 +
−∞
Z∞
= x1
x2 fX (x1 , x2 ) dx2
−∞
−∞
|
−∞
Z∞
fX (x1 , x2 ) dx2 +
{z
=fX1 (x1 )
}
Z∞
= x1 fX1 (x1 ) +
x2 fX (x1 , x2 ) dx2 ,
−∞
x2 fX (x1 , x2 ) dx2
x1 ∈ R,
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
59
mit der Randdichte fX1 (Formel (32) für n = 2 und i = 1). Wir setzen ein und
verwenden wieder die Summenregel:


Z∞
Z∞
Z∞
x1 fX1 (x1 ) +
E[X1 + X2 ] =
I1 (x1 ) dx1 =
x2 fX (x1 , x2 ) dx2  dx1
−∞
Z∞
=
−∞
−∞
Z∞ Z∞
x1 fX1 (x1 ) dx1 +
−∞
|
x2 fX (x1 , x2 ) dx2 dx1
−∞ −∞
{z
=E[X1 ]
}
Z∞ Z∞
=
x2 fX (x1 , x2 ) dx2 dx1 ,
E[X1 ] +
−∞ −∞
{z
|
}
=:I
wobei wir die Definition des Erwartungswertes der stetigen reellen Zufallsvariablen X1 verwendet haben (Def. 8). Für die Berechnung des Integrals I verwenden wir den bereits angesprochenen Satz von Fubini, der es uns erlaubt, die
Reihenfolge der Integrationen zu vertauschen:
Z∞ Z∞
I=
Z∞ Z∞
x2 fX (x1 , x2 ) dx1 dx2
x2 fX (x1 , x2 ) dx2 dx1 =
−∞ −∞
−∞ −∞
{z
|
=:I2 (x2 )
}
Für die Berechnung von I2 verwenden wir die Faktorregel:
Z∞
I2 (x2 ) =
Z∞
fX (x1 , x2 ) dx1 = x2 fX2 (x2 )
x2 fX (x1 , x2 ) dx1 = x2
−∞
−∞
|
{z
=fX2 (x2 )
}
(Formel (32) für n = 2 und i = 2). Einsetzen liefert
Z∞
I=
Z∞
I2 (x2 ) dx2 =
−∞
x2 fX2 (x2 ) dx2 = E[X2 ],
−∞
wobei wir die Definition des Erwartungswertes der stetigen reellen Zufallsvariablen X2 verwendet haben (Def. 8). Zusammengefasst erhalten wir also
E[X1 + X2 ] = E[X1 ] + I = E[X1 ] + E[X2 ].
Die Erwartungswerte auf der rechten Seite sind in diesem Beispiel bekannt, und
wir erhalten E[X1 + X2 ] = E[X1 ] + E[X2 ] = 0 + (−3) = −3.
Die Rechnung aus diesem Beispiel lässt sich auf Linearkombinationen von n
Zufallsvariablen verallgemeinern, und wir erhalten den
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
60
Satz 6 (Additionssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen.
Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt
" n
#
n
X
X
E
ai Xi + an+1 =
ai E[Xi ] + an+1 .
(42)
i=1
i=1
Bemerkung: Dies ist eine Verallgemeinerung von Satz 3, 1. (Linearität des Erwartungswertes). Beachten Sie, dass der Satz 6 auch für stochastisch abhängige
Zufallsvariablen gilt.
Als Nächstes berechnen wir die Varianz einer Summe von zwei reellen Zufallsvariablen X1 , X2 . Nach Def. 9, 2., und mit Satz 6 gilt
h
i
Def. 9, 2.
2
V [X1 + X2 ]
=
E (X1 + X2 − E[X1 + X2 ])
h
i
Satz 6
2
=
E (X1 + X2 − (E[X1 ] + E[X2 ]))
h
i
2
=
E (X1 − E[X1 ] + X2 − E[X2 ])
h
i
2
2
=
E (X1 − E[X1 ]) + 2 (X1 − E[X1 ]) (X2 − E[X2 ]) + (X2 − E[X2 ])
h
i
Satz 6
2
=
E (X1 − E[X1 ]) + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])]
h
i
2
+E (X2 − E[X2 ])
Def. 9. 2.
=
V [X1 ] + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] + V [X2 ].
Der hier auftretende Erwartungswert des gemischten Produkts ist die Kovarianz
von X1 und X2 :
Definition 17 (Kovarianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann
heisst
σXY ≡ Cov(X, Y ) := E [(X − E[X]) (Y − E[Y ])]
(43)
die Kovarianz von X und Y .
Damit erhalten wir
V [X1 + X2 ] = V [X1 ] + 2Cov(X1 , X2 ) + V [X2 ],
was wir auch wieder auf Linearkombinationen von n Zufallsvariablen verallgemeinern können:
Satz 7 (Additionssatz für Varianzen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen mit
E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
R, dann gilt
" n
#
X
V
ai Xi + an+1
n
X
=
i=1
61
ai aj Cov(Xi , Xj )
(44)
i,j=1
=
n
X
a2i V [Xi ] + 2
i=1
n−1
X
n
X
ai aj Cov(Xi , Xj ). (45)
i=1 j=i+1
Bemerkung: Dies ist eine Verallgemeinerung von Satz 3, 2. Für n = 2 und
a1 = a2 = 1 erhalten wir die Formel von oben für V [X1 + X2 ].
Die zweite Gleichung in Satz 7 folgt aus den Eigenschaften der Kovarianz:
Satz 8 (Eigenschaften der Kovarianz) Die Kovarianz von reellen Zufallsvariablen ist
1. bilinear:
Cov(X + Y, Z)
=
Cov(X, Z) + Cov(Y, Z),
Cov(X, Y + Z)
=
Cov(X, Y ) + Cov(X, Z),
Cov(λX, Y ) = Cov(X, λY )
=
λCov(X, Y ),
λ ∈ R,
2. symmetrisch: σY X = Cov(Y, X) = Cov(X, Y ) = σXY ,
2
≥ 0.
3. positiv semidefinit: σXX = Cov(X, X) = V [X] = σX
Ausserdem gilt
4. X, Y stochastisch unabhängig ⇒ Cov(X, Y ) = 0
Beweis: Die Eigenschaften 1.–3. lassen sich direkt mit Def. 17, Def. 9, 2., und
mit Satz 6 beweisen. Wir beweisen hier nur
4. für den stetigen Fall. Seien fX und fY die Wahrscheinlichkeitsdichtefunktionen der stetigen reellen Zufallsvariablen X und Y . Weil X, Y stochastisch unabhängig sind, gilt für die gemeinsame Wahrscheinlichkeitsdichtefunktion fX , X := (X, Y )> , nach Satz 4: fX (x, y) = fX (x)fY (y),
x, y ∈ R. Damit erhalten wir für die Kovarianz von X und Y :
Cov(X, Y )
=
Satz 5
=
Satz 4
E [(X − E[X]) (Y − E[Y ])]
Z∞ Z∞
(x − E[X])(y − E[Y ])fX (x, y) dy dx
−∞ −∞
Z∞ Z∞
(x − E[X])(y − E[Y ])fX (x)fY (y) dy dx
=
−∞ −∞
Z∞
Z∞
(x − E[X])fX (x)
=
−∞
(y − E[Y ])fY (y) dy dx
−∞
|
{z
Konstante
}
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
Z∞
Z∞
(x − E[X])fX (x) dx
=
(y − E[Y ])fY (y) dy
−∞
−∞
Satz 5
E [X − E[X]] E [Y − E[Y ]]
Satz 6
(E[X] − E[X]) (E[Y ] − E[Y ]) = 0.
=
=
62
Der Beweis für den diskreten Fall geht analog mit Summen an Stelle von
Integralen.
Bemerkung: Beachten Sie, dass die Umkehrung von 4. i. A. nicht gilt! Wir zeigen
dies mit dem folgenden
Beispiel: Sei p ∈ (0, 1) und seien Z1 , Z2 ∼ B(1, p). Wir nehmen an, Z1 , Z2 seien
stochastisch unabhängig, und wir definieren die diskreten reellen Zufallsvariablen X := Z1 + Z2 , Y := Z1 − Z2 . Wir erstellen zuerst die folgende Tabelle mit
den Werten von Z1 und Z2 , ihren gemeinsamen Wahrscheinlichkeiten, sowie den
entsprechenden Werten von X und Y :
z1
0
0
1
1
z2
0
1
0
1
“P (Z1 = z1 ∧ Z2 = z2 )” =
x=
“P (Z1 = z1 )P (Z2 = z2 )” z1 + z2
(1 − p)2
0
p(1 − p)
1
p(1 − p)
1
p2
2
y=
z1 − z2
0
−1
1
0
Damit erhalten wir die Wahrscheinlichkeitsfunktionen fX , fY , fX , X := (X, Y )> :
x
y
fX
−1
0
1
fX
0
0
(1 − p)2
0
(1 − p)2
1
2
p(1 − p) 0
0
p2
p(1 − p) 0
2p(1 − p) p2
fY
p(1 − p)
(1 − p)2 + p2
p(1 − p)
1
Die Zufallsvariablen X und Y sind stochastisch abhängig, denn es gilt z. B.
fX (1, −1) = p(1 − p) 6= 2p2 (1 − p)2 = fX (1)fY (−1),
für p ∈ (0, 1).
Für die Kovarianz von X und Y erhalten wir jedoch mit Satz 8:
Cov(X, Y )
=
Cov(Z1 + Z2 , Z1 − Z2 )
Bilinearität
Cov(Z1 , Z1 − Z2 ) + Cov(Z2 , Z1 − Z2 )
Bilinearität
Cov(Z1 , Z1 ) − Cov(Z1 , Z2 ) + Cov(Z2 , Z1 ) − Cov(Z2 , Z2 )
Symmetrie
=
V [Z1 ] − Cov(Z1 , Z2 ) + Cov(Z1 , Z2 ) − V [Z2 ]
=
V [Z1 ] − V [Z2 ] = 0,
=
=
denn es gilt V [Z1 ] = V [Z2 ] = p(1 − p) für B(1, p)-verteilte Zufallsvariablen.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
63
Aus Satz 7 und Satz 8, 4., erhalten wir das
Korollar 1 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R paarweise unabhängige reelle Zufallsvariablen mit
E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈
R, dann gilt
" n
#
n
X
X
V
ai Xi + an+1 =
a2i V [Xi ].
i=1
i=1
Beweis: Wegen der paarweisen Unabhängigkeit von X1 , X2 , . . . , Xn gilt nach
Satz 8, 4.: Cov(Xi , Xj ) = 0, i 6= j. Daher verschwindet die Doppelsumme auf
der rechten Seite im Satz 7.
Zur Berechnung des Erwartungswertes des Produkts XY von zwei reellen
Zufallsvariablen machen wir die folgende Hilfsrechnung:
XY
= XY − E[X]Y + E[X]Y = (X − E[X]) Y + E[X]Y
=
(X − E[X]) Y + E[X]Y − (X − E[X]) E[Y ] + (X − E[X]) E[Y ]
=
(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ].
Mit Satz 6 erhalten wir
E[XY ]
=
E [(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]]
=
E [(X − E[X]) (Y − E[Y ])] + E[X]E[Y ] + E [X − E[X]] E[Y ]
{z
}
|
=
Cov(X, Y ) + E[X]E[Y ].
=0
Wir erhalten den
Satz 9 (Multiplikationssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Dann gelten
1. im Fall n = 2:
E[X1 X2 ] = E[X1 ]E[X2 ] + Cov(X1 , X2 ),
2. und im Fall n ≥ 2, falls X1 , X2 , . . . , Xn gegenseitig unabhängig sind:
" n
#
n
Y
Y
E
Xi =
E[Xi ].
i=1
i=1
Bemerkung: Im Fall n = 2 erhalten wir den sog. Verschiebungssatz für die
Kovarianz:
Cov(X, Y ) = E[XY ] − E[X]E[Y ],
der im Fall Y = X zum Verschiebungssatz für die Varianz wird:
V [X] = Cov(X, X) = E[XX] − E[X]E[X] = E[X 2 ] − E[X]2 .
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.6.2
64
Kovarianz und Korrelation
Gemäss Satz 8, 1.–3., ist die Kovarianz Cov eine sog. positiv semidefinite, symmetrische Bilinearform. Sie erfüllt daher die Cauchy-Schwarzsche Ungleichung
(A.-L. Cauchy, 1789–1857, K. H. A. Schwarz, 1843–1921)
Cov(X, Y )2 = Cov(X, Y )Cov(X, Y ) ≤ Cov(X, X)Cov(Y, Y ) = V [X]V [Y ]
und damit (durch Wurzelziehen)
|σXY | = |Cov(X, Y )| ≤
p
p
V [X] V [Y ] = σX σY .
Es ist üblich, die Kovarianz durch das Produkt der Standardabweichungen zu
dividieren – damit erhält man den Korrelationskoeffizienten:
Definition 18 (Korrelationskoeffizient) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] <
∞. Dann heisst
σXY
Cov(X, Y )
p
=
.
(46)
rXY ≡ Kor(X, Y ) := p
σX σY
V [X] V [Y ]
der Korrelationskoeffizient von X und Y .
Bemerkungen:
• Mit der Cauchy-Schwarzschen Ungleichung für die Kovarianz gilt |rXY | ≤
1.
• Zwei Zufallsvariablen X, Y mit rXY = 0 (und damit σXY = 0) heissen
unkorreliert.
• Sind X und Y stochastisch unabhängig, so sind sie auch unkorreliert, aber
nicht umgekehrt!
Die Kovarianz oder der Korrelationskoeffizient der Zufallsvariablen X und Y
geben Auskunft über den Grad des monotonen Zusammenhangs zwischen X
und Y . Wir illustrieren dies an Hand der bivariaten Normalverteilung:
7
6
f (X,Y) (x,y), r XY = 0
6
5
y
1
0.0
0
-1
0
x
5
01
0.01
1
01
0.
0.
-2
-5
0.05
y
y
6
0.03
x
4
2
1
0.0
2
0
3
0.03
0
0.03
-2
0.01
0.03
5
1
2
3
5
0
0.
0.07
-4
0.0
0.0
-4
0.0
01
-2
4
1
0.0
3
0.0
0.
0.01
0
4
0.01
2
0.05
f (X,Y) (x,y), r XY < 0
f (X,Y) (x,y), r XY > 0
-2
-3
-8
-6
-4
-2
0
x
Ist der Zusammenhang zwischen X und Y hingegen nicht-monoton, so ist es
möglich, dass rXY = 0 gilt, obwohl X und Y stochastisch abhängig sind!
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
1.6.3
65
Verteilung der Transformierten
In der folgenden Tabelle listen wir die Verteilungen von einigen Transformierten
Y = g ◦ X von Zufallsvektoren X = (X1 , X2 , . . . , Xn )> , n ∈ N, auf. Dabei
wird immer angenommen, dass die Zufallsvariablen X1 , X2 , . . . , Xn gegenseitig
unabhängig sind.
Verteilung
der Xi
B(ni , p)
Transformation
Y
n
X
Xi
i=1
N B(ri , p)
n
X
i=1
n
X
P(λi )
i=1
n
X
χ2ni
Xi
Xi
Verteilung
von Y
!
n
X
B
ni , p
i=1
!
n
X
ri , p
NB
i=1
!
n
X
P
λi
i=1
χ2X
n
Xi
i=1
ni
i=1
N (µi , σi2 )
Cauchy(ti , si )
i=1
n
X
i=1
n
X
N (0, 1)
Xi
χ2ni
X1 ∼ N (0, 1)
X2 ∼ χ2n
n
X
N
µi ,
i=1
Xi
Cauchy
n
X
Xi2
!
σi2
i=1
n
X
ti ,
i=1
i=1
X1
X2
X1 /n1
N (0, 1)
1.6.4
n
X
n
X
!
si
i=1
χ2n
Cauchy(0, 1)
X2 /n2
X
p 1
X2 /n
Fn1 ,n2
tn
Zentraler Grenzwertsatz
Wir betrachten jetzt eine Folge hXi i = X1 , X2 , X3 , . . . von reellen Zufallsvariablen, die gegenseitig unabhängig sind und die alle dieselbe Verteilung haben.
Man spricht von unabhängigen und identisch verteilten (englisch: independent
and identically distributed, abgekürzt i. i. d. oder einfach iid ) Zufallsvariablen.
Der Erwartungswert und die Varianz der Xi seien
E[Xi ] = µ,
V [Xi ] = σ 2 ,
i = 1, 2, 3, . . . ,
mit µ ∈ R, σ > 0
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
66
(insbesondere müssen sowohl die Erwartungswerte als auch die Varianzen aller
Xi existieren). Wir betrachten jetzt die n-te Teilsumme der Xi ,
Sn :=
n
X
n ∈ N,
Xi ,
i=1
die wieder eine reelle Zufallsvariable ist. Gemäss Satz 6 und Satz 7 gelten
" n
#
n
X
X
E[Sn ] = E
Xi =
E[Xi ] = nµ,
i=1
V [Sn ]
= V
" n
X
i=1
#
Xi =
i=1
n
X
V [Xi ] = nσ 2 ,
i=1
für n ∈ N. Die reellen Zufallsvariablen
Zn :=
Sn − nµ
Sn − E[Sn ]
p
= √
,
nσ
V [Sn ]
n ∈ N,
sind standardisiert, d. h. E[Zn ] = 0 und V [Zn ] = 1, n ∈ N. Der zentrale Grenzwertsatz sagt aus, dass für n → ∞ die Verteilung von Zn gegen die Standardnormalverteilung konvergiert:
Satz 10 (Zentraler Grenzwertsatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum,
und seien Xi : Ω → R, i ∈ N, unabhängige und identisch verteilte reelle Zufallsvariablen mit E[Xi ] = µ und V [Xi ] = σ 2 , i ∈ N, mit µ ∈ R und σ > 0. Wir
betrachten die standardisierten Zufallsvariablen
Zn :=
Sn − nµ
√
,
nσ
Sn :=
n
X
Xi ,
n ∈ N.
i=1
Für die (kumulativen) Verteilungsfunktionen von Zn gilt
lim FZn (z) = Φ(z),
n→∞
z ∈ R,
(47)
wobei Φ die (kumulative) Verteilungsfunktion der Standardnormalverteilung N (0, 1)
bezeichnet.
Bemerkung: Falls Xi ∼ N (µ, σ 2 ), i ∈ N, so gelten gemäss der Tabelle in
Kap. 1.6.3 sowie gemäss Kap. 1.3.2
Sn =
n
X
i=1
Xi ∼ N (nµ, nσ 2 ),
Zn =
Sn − nµ
√
∼ N (0, 1),
nσ
für jedes n ∈ N. Bemerkenswert am zentralen Grenzwertsatz ist aber, dass auch
für nicht normalverteilte Zufallsvariablen Xi die Verteilung der standardisierten
Zufallsvariablen Zn gegen die Standardnormalverteilung konvergiert.
1
WAHRSCHEINLICHKEITSRECHNUNG (FORTS.)
67
Beispiel/Anwendung: (Normal-Approximation) Seien Xi ∼ B(1, p), i ∈ N, unabhängige Bernoulli-verteilte Zufallsvariablen mit Parameter p ∈ (0, 1). Gemäss
den Tabellen im Kap. 1.4.2 gelten
E[Xi ] = p =: µ,
V [Xi ] = p(1 − p) =: σ 2 ,
i ∈ N.
Gemäss der Tabelle in Kap. 1.6.3 sind die n-ten Teilsummen der Xi binomialverteilt:
n
X
Sn =
Xi ∼ B(n, p), n ∈ N.
i=1
Die (kumulativen) Verteilungsfunktionen der standardisierten Zufallsvariablen
Zn =
Sn − np
Sn − nµ
√
,
=p
nσ
np(1 − p)
n ∈ N,
erfüllen nach dem zentralen Grenzwertsatz: lim FZn (z) = Φ(z), z ∈ R.
n→∞
p
Mit
S
=
np
+
np(1
−
p)Z
,
n
∈
N,
gilt nach Kap. 1.3 (a := np, b :=
n
n
p
np(1 − p)) für die (kumulativen) Verteilungsfunktionen:
!
s − np
FSn (s) = FZn p
, s ∈ R, n ∈ N.
np(1 − p)
Für grosse Werte von n erhalten wir nun wegen des zentralen Grenzwertsatzes
eine Approximation der Binomial- durch die Normalverteilung:
!
min{bsc,n} X
n k
s − np
n−k
p (1 − p)
'Φ p
FSn (s) =
, s ∈ R.
(48)
k
np(1 − p)
k=0
Die Funktion Φ auf der rechten Seite von (48) ist viel leichter auszuwerten als die
Summe und auch numerisch günstiger, da keine grossen Binomialkoeffizienten
auftreten.
Als Faustregel ist die Näherung (48) hinreichend gut, falls σS2 n = np(1−p) ≥
9. Sei z. B. p = 1/6, dann ist diese Faustregel erfüllt für n ≥ 65: 65 61 56 ' 9.03.
1
B(65,1/6)
N(65*1/6,65*1/6*5/6)
0.9
0.8
0.7
FX (x)
0.6
0.5
0.4
0.3
0.2
0.1
0
0
5
10
15
x
20
25
2
STATISTIK
2
68
Statistik
Das Gebiet der Statistik umfasst Methoden, um empirische Daten zu analysieren. Diese Methoden basieren auf der in Kap. 1 behandelten Wahrscheinlichkeitstheorie. Die Statistik umfasst die drei Teilgebiete
• deskriptive (beschreibende) Statistik: Verdichtung von Daten zu Tabellen,
Diagrammen, Kenngrössen
• induktive (mathematische, schliessende) Statistik: Ableiten von Eigenschaften der Grundgesamtheit aus einer Stichprobe. Schätz- und Testverfahren.
• explorative (analytische) Statistik (data mining): systematische Suche nach
möglichen Zusammenhängen zwischen Daten
Wir werden hier nur kurz auf die deskriptive Statistik eingehen und uns dann
auf die induktive Statistik konzentrieren.
2.1
Erzeugung von Pseudo-Zufallszahlen in MATLAB
Aus MATLABs “Statistics Toolbox” (doc stats) haben wir bereits die Funktionen
• ...pdf zur Auswertung von Wahrscheinlichkeits(dichte)funktionen (fX ),
• ...cdf zur Auswertung von (kumulativen) Verteilungsfunktionen (FX ),
• ...inv zur Auswertung von Quantilfunktionen (QX ), und
• ...stat zur Berechnung von Erwartungswert und Varianz (E[X], V [X]),
kennen gelernt. Mögliche Verteilungen waren dabei
Funktionsname
unid...
bino...
hyge...
nbin...
poiss...
unif...
exp...
chi2...
f...
norm...
t...
Verteilung
U{1,2,...,n}
B(n, p)
H(N, M, n)
N B(r, p)
P(λ)
U(a, b)
Exp(λ)
χ2n
Fm,n
N (µ, σ 2 )
tn
Parameter
n
n, p
N, M, n
r, p
λ
a, b
1/λ (!)
n
m, n
µ, σ (!)
n
Mit den Funktionen ...rnd können wir Pseudo-Zufallszahlen mit einer vorgegebenen Verteilung erzeugen. So erzeugt z. B. der Befehl r = binornd(n,p,N,1)
2
STATISTIK
69
einen Spaltenvektor der Länge N (eine (N ×1)-Matrix) von Realisierungen binomialverteilter Zufallsvariablen, Xi ∼ B(n, p), i = 1, 2, . . . , N (iid). Die erzeugten
Zahlen sind keine echten Zufallszahlen, denn sie werden von einem (deterministischen) Algorithmus erzeugt. Sie haben jedoch viele Eigenschaften von echten
Zufallszahlen, und sie sind bei Bedarf reproduzierbar.
Da es in der Regel schwierig ist, an echte statistische Datensätze zu kommen
(wenn man nicht gerade selbst eine Studie durchführt), werden wir unsere statistischen Methoden an solchen simulierten Daten illustrieren und ausprobieren.
2.2
Deskriptive Statistik
Wir betrachten hier zwei simulierte Datensätze mit jeweils n := 10000 Datenpunkten. Die typische Annahme in der Statistik ist, dass jeder Datensatz (jede Stichprobe) Realisierungen von unabhängigen und identisch verteilten (iid)
Zufallsvariablen enthält, wobei deren Verteilung natürlich für jede der beiden
Stichproben unterschiedlich sein kann. In der schliessenden Statistik versucht
man, anhand der Stichproben Aussagen über diese (unbekannten!) Verteilungen sowie über den Zusammenhang der zugrunde liegenden Zufallsvariablen zu
machen.
In der deskriptiven Statistik geht es hingegen um eine übersichtliche Darstellung der Daten. Wir zeichnen zuerst die Rohdaten, d. h. die Punkte (i, xi ),
i = 1, 2, . . . , n:
160
150
x
i
140
130
120
110
Datensatz 1
Datensatz 2
100
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
i
Es gibt viele weitere Darstellungen, mit denen die Datensätze deutlich übersichtlicher dargestellt werden können, z. B.
• den Boxplot (box-and-whisker-plot),
• das Histogramm (Häufigkeitsverteilung),
• die empirische (kumulative) Verteilungsfunktion.
2
STATISTIK
70
boxplot
900
155
800
histogram
0.9
150
Datensatz 1
Datensatz 2
0.8
700
145
0.7
600
140
cdfplot
1
Datensatz 1
Datensatz 2
500
130
400
F(x)
0.6
135
0.5
0.4
125
300
0.3
120
200
0.2
115
100
110
1
2
0
100
0.1
120
140
160
0
100
120
140
160
x
Auskünfte über den Zusammenhang zwischen den zugrunde liegenden Zufallsvariablen erhält man z. B. mit
• dem Streudiagramm (scatter plot) oder mit
• dem dreidimensionalen Histogramm.
Ausser den grafischen Darstellungen gehört auch die Berechnung von empirischen Kenngrössen zur deskriptiven Statistik. In der folgenden Tabelle sind
einige MATLAB-Befehle dazu angegeben:
MATLAB-Befehl
quantile
median
mean
mode
iqr
var
std
mad
cov
corrcoef
StichprobenQuantile
Median
Mittelwert
Modus
(Inter-)Quartilsabstand
Varianz
Standardabweichung
mittlere abs. Abweichung
Kovarianzmatrix
Korrelationskoeffizienten
Datensatz 1
Datensatz 2
133
' 140
' 133
' 140
133
' 122 (!)
9.00
' 6.71
' 44.0
' 25.2
' 6.63
' 5.02
' 5.30
' 3.99
Eintrag (1,2): ' 0.711
Eintrag (1,2): ' 0.0213
Die Berechnung von einigen dieser Grössen wird im Kapitel über die schliessende
Statistik behandelt.
2
STATISTIK
2.3
71
Schliessende Statistik
Im vorherigen Kapitel über die beschreibende Statistik hatten wir Stichproben
{x1 , x2 , . . . , xn } vom Umfang n ∈ N grafisch dargestellt oder durch wenige Zahlen charakterisiert. In der schliessenden Statistik nehmen wir an, die i-te Beobachtung xi sei eine Realisierung der i-ten Stichprobenvariable Xi , i = 1, 2, . . . , n.
Dabei seien die Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R iid reelle Zufallsvariablen (wie immer auf einem Wahrscheinlichkeitsraum (Ω, Σ, P )). An>
ders gesagt, die Stichprobe x := (x1 , x2 , . . . , xn ) ∈ Rn wird aufgefasst als
eine Realisierung der n-dimensionalen reellen Zufallsvariablen X : Ω → Rn ,
>
X := (X1 , X2 , . . . , Xn ) , deren Komponenten iid sind.
2.3.1
Parameterschätzung
In einem parametrischen statistischen Modell nimmt man an, die (kumulative)
Verteilungsfunktion der Stichprobenvariablen Xi sei gegeben durch
“P (Xi ≤ x)” = F (x; ϑ),
x ∈ R,
i = 1, 2, . . . , n,
mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ (Parameterraum), dessen wahrer Wert unbekannt ist. Der Parameter kann auch ein Vektor sein – in einem d-dimensionalen parametrischen statistischen Modell gilt
Θ ⊆ Rd . Beachten Sie, dass in der Regel n d gilt, d. h. wir haben viel mehr
Beobachtungen als Modellparameter.
Beispiele:
1. Die Stichprobenvariablen erfüllen Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem
Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Ihre kumulative
Verteilungsfunktion ist gegeben durch
min{bxc,50} “P (Xi ≤ x)” =
X
k=0
50 k
p (1 − p)50−k =: F (x; p),
k
x ∈ R,
i = 1, 2, . . . , n, und wir erhalten ein eindimensionales parametrisches statistisches Modell mit Parameter ϑ := p.
2. Die Stichprobenvariablen erfüllen Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Parametern µ ∈ R, σ > 0, deren wahre Werte unbekannt sind. Die kumulative
Verteilungsfunktion der Xi ist gegeben durch
Zx
“P (Xi ≤ x)” =
−∞
√
1
2πσ 2
e−
(ξ−µ)2
2σ 2
dξ =: F (x; µ, σ),
x ∈ R,
i = 1, 2, . . . , n, und wir erhalten ein zweidimensionales parametrisches
>
statistisches Modell mit Parameter ϑ := (µ, σ) .
2
STATISTIK
72
Wir beschränken uns im Folgenden auf den Fall d = 1 (eindimensionale parametrische statistische Modelle), und wir wollen jetzt den wahren Wert des
Parameters, ϑ0 ∈ Θ, aus der gegebenen Stichprobe x ∈ Rn schätzen. Dazu
verwenden wir eine Schätzfunktion (kurz: einen Schätzer )
Tn := gn ◦ X : Ω → R,
Tn (ω) = gn (X(ω)) ,
ω ∈ Ω,
(49)
wobei gn : Rn → R eine Funktion ist, so dass Tn eine reelle Zufallsvariable
gn
X
ist: Ω −→ Rn −→ R. Der Schätzwert für den wahren Parameterwert ϑ0 ∈ Θ
aufgrund der gegebenen Stichprobe x ∈ Rn ist dann gegeben durch ϑ̂ := gn (x).
Dieser Schätzwert ist eine Realisierung der Zufallsvariablen (Schätzfunktion) Tn
und damit zufällig! I. A. gilt also ϑ̂ 6= ϑ0 .
Wir geben hier zwei ausgewählte Funktionen gn an, die häufig zur Parameterschätzung verwendet werden:
Name
Funktion gn
der Schätzers
arithmetisches
x :=
Mittel
korrigierte
s2 :=
Stichprobenvarianz
1
n
1
n−1
n
X
i=1
n
X
geschätzter
MATLAB-
Parameter ϑ
Befehl
Erwartungswert
xi
E[Xi ] = µ
2
(xi − x)
i=1
Varianz
mean
var
V [Xi ] = σ 2
Bemerkung: Beachten Sie, dass µ und σ 2 lediglich Bezeichnungen für die Erwartungswerte und Varianzen der Zufallsvariablen Xi , i = 1, 2, . . . , n, sind. Sie
dürfen daraus nicht schliessen, dass die Xi normalverteilt sind (mit Parametern
µ und σ 2 )! Die Verteilung der Xi ist in der Tat beliebig.
Die in Kap. 2.2 erwähnten MATLAB-Befehle sind alles Schätzer für gewisse
Parameter der Verteilung der Stichprobenvariablen X1 , X2 , . . . , Xn :
MATLABBefehl
quantile
median
mode
Schätzung für
QXi
QXi (0.5)
argmax fXi (x)
MATLABBefehl
iqr
std
mad
Schätzung für
QXi (0.75)
p − QXi (0.25)
V [Xi ] = σ
E [|Xi − E[Xi ]|]
x∈R
Beispiel: Gegeben sei die folgende Stichprobe vom Umfang 10:
i
xi
1
−1.08
2
3.37
3
5.01
4
2.46
5
10.6
6
7
8
−1.04 −1.69 −6.75
9
6.55
10
6.34
Wir fassen sie auf als eine Realisierung der 10-dimensionalen stetigen Zufalls>
variablen X = (X1 , X2 , . . . , X10 ) , deren Komponenten X1 , X2 , . . . , X10 iid
reelle Zufallsvariablen sind mit Erwartungswert E[Xi ] = µ und V [Xi ] = σ 2 ,
i = 1, 2, . . . , 10, mit µ ∈ R, σ > 0. Über die Verteilung der Xi machen wir keine
2
STATISTIK
73
Annahme! Wir berechnen die folgenden Schätzwerte µ̂, σ̂ 2 für den Erwartungswert und die Varianz:
n
µ̂ = x =
1X
xi ' 2.38,
n i=1
n
1 X
(xi − x)2 ' 25.8.
n − 1 i=1
σ̂ 2 = s2 =
Betrachten wir 1000 solche Stichproben vom Umfang 10 und berechnen für jede
Stichprobe die Schätzwerte µ̂, σ̂ 2 , so erhalten wir 1000 verschiedene Schätzwerte. Wir stellen beispielhafte Häufigkeitsverteilungen dieser Schätzwerte in den
folgenden Histogrammen dar:
300
1000 Stichproben vom Umfang n=10
300
250
250
200
200
150
150
100
100
50
50
0
1000 Stichproben vom Umfang n=10
0
-5
0
5
Schaetzungen fuer
10
0
20
40
60
Schaetzungen fuer
µ
80
σ2
Ein Merkmal für einen “guten” Schätzer Tn ist, dass seine Werte häufig “nahe”
beim wahren Parameterwert ϑ0 liegen.
Maximum-Likelihood-Schätzer Wir stellen hier eine häufig verwendete Methode vor, um Schätzer Tn (genauer Funktionen gn ) (49) für bestimmte Parameter zu erhalten. Die Maximum-Likelihood-Methode benötigt Wahrscheinlichkeits(dichte)funktionen, d. h. die iid reellen Zufallsvariablen Xi müssen diskret
oder stetig sein. Für die kumulative Verteilungsfunktion der Xi , i = 1, 2, . . . , n,
gilt also
X
entweder F (x; ϑ) =
Zx
f (xi ; ϑ) oder F (x; ϑ) =
xi ∈im(Xi )
xi ≤x
f (ξ; ϑ) dξ,
−∞
mit einer gegebenen Wahrscheinlichkeits(dichte)funktion f ( · ; ϑ) : im(Xi ) →
[0, 1] bzw. f ( · ; ϑ) : R → [0, ∞), für jeden beliebigen (festen) Wert des Parameters ϑ ∈ Θ. Die gemeinsame Wahrscheinlichkeits(dichte)funktion ist wegen der
gegenseitigen Unabhängigkeit von X1 , X2 , . . . , Xn nach Satz 4 gegeben durch
fX (x; ϑ) =
n
Y
f (xi ; ϑ),
>
x = (x1 , x2 , . . . , xn ) ∈ Rn .
i=1
Für eine Stichprobe x ∈ Rn definieren wir die Likelihood-Funktion
L(ϑ; x) := fX (x; ϑ),
ϑ ∈ Θ.
2
STATISTIK
74
Im Falle von diskreten Zufallsvariablen Xi gibt L(ϑ; x) die Wahrscheinlichkeit
dafür an, mit dem Parameterwert ϑ ∈ Θ das Ergebnis x ∈ Rn zu beobachten. Entsprechend ist der Maximum-Likelihood-Schätzer (maximum likelihood
estimator) definiert als derjenige Parameterwert, für den L maximal ist (bei
gegebener Beobachtung (Stichprobe) x ∈ Rn ):
ϑ̂mle = gn (x) := argmax L(ϑ; x).
(50)
ϑ∈Θ
Im Falle von stetigen Zufallsvariablen Xi wird derselbe Schätzer (50) verwendet,
auch wenn in diesem Fall die direkte Interpretation der Funktionswerte von L
als Wahrscheinlichkeit nicht mehr möglich ist.
Beispiele:
1. (Schätzung der Erfolgswahrscheinlichkeit bei der Binomialverteilung) Es
gelte Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen
wahrer Wert unbekannt ist. Zu seiner Schätzung liege eine Stichprobe vom
Umfang n vor: x ∈ {0, 1, 2, . . . , 50}n . Die Wahrscheinlichkeitsfunktion der
Xi ist gegeben durch
50 x
f (x; p) =
p (1 − p)50−x , x ∈ {0, 1, 2, . . . , 50}.
x
Die gemeinsame Wahrscheinlichkeitsfunktion ist gegeben durch das Produkt
n Y
50 xi
p (1 − p)50−xi ,
fX (x; p) =
xi
i=1
für x = (x1 , . . . , xn )
daher gegeben durch
L(p; x)
>
∈ {0, 1, 2, . . . , 50}n . Die Likelihood-Funktion ist
= fX (x; p) =
n Y
50
i=1
=
!
n Y
50
i=1
xi
exp
xi
exi ln(p)+(50−xi ) ln(1−p)
n
X
!
(xi ln(p) + (50 − xi ) ln(1 − p)) ,
i=1
wobei wir die Rechenregeln für die Exponentialfunktion verwendet haben
(MAE2, Kap. 2.1). Der Maximum-Likelihood-Schätzer für den Wert des
Parameters p ∈ (0, 1) ist gegeben durch
p̂mle = gn (x) = argmax L(p; x)
p∈(0,1)
Eine notwendige Bedingung für ein lokales Maximum der Funktion L(p; x)
an der Stelle p0 ∈ (0, 1) ist
dL
(p0 ; x) = 0
dp
2
STATISTIK
75
(MAE1, Satz 20, 1.). Wir müssen daher die Nullstellen der Ableitung von
L (nach der Variablen p) bestimmen. Wir erhalten
!
!
n n
Y
X
dL
50
(p; x) =
exp
(xi ln(p) + (50 − xi ) ln(1 − p)) ×
dp
xi
i=1
i=1
!
n
d X
(xi ln(p) + (50 − xi ) ln(1 − p)) = 0
×
dp i=1
!
n
d X
⇔
(xi ln(p) + (50 − xi ) ln(1 − p)) = 0
dp i=1
⇔
n X
xi
i=1
p
−
50 − xi
1−p
n
=0
⇔
p=
x
1 X
xi =
.
50n i=1
50
Der Maximum-Likelihood-Schätzer für die wahre Erfolgswahrscheinlichkeit p0 ∈ (0, 1) ist also gegeben durch
n
p̂mle = gn (x) :=
1 X
x
xi =
.
50n i=1
50
2. (Schätzung der Varianz der Normalverteilung bei gegebenem Erwartungswert) Es gelte Xi ∼ N (1, σ 2 ), i = 1, 2, . . . , n, mit Varianz σ 2 > 0, deren
wahrer Wert unbekannt ist. Zu ihrer Schätzung liege eine Stichprobe vom
Umfang n vor: x ∈ Rn . Die Wahrscheinlichkeitsdichtefunktion der Xi ist
gegeben durch
1
(x − 1)2
2
f (x; σ ) = √
exp −
, x ∈ R.
2σ 2
2πσ 2
Die gemeinsame Wahrscheinlichkeitsfunktion ist gegeben durch das Produkt
n
Y
1
(xi − 1)2
>
√
fX (x; σ 2 ) =
exp −
, x = (x1 , x2 , . . . , xn ) ∈ Rn .
2
2
2σ
2πσ
i=1
Die Likelihood-Funktion ist daher gegeben durch
2
L(σ ; x) =
1
n/2
(2πσ 2 )
exp −
n
X
(xi − 1)2
i=1
2σ 2
!
,
σ 2 > 0,
und ihre Ableitung nach der Variablen σ 2 durch
!
!
n
n
2
X
dL 2
1
1 X
1
(x
−
1)
i
(xi − 1)2 − n
(σ ; x) =
exp −
.
n/2
dσ 2
2σ 2 σ 2 i=1
2σ 2
(2πσ 2 )
i=1
2
STATISTIK
76
Wir erhalten den folgenden Maximum-Likelihood-Schätzer für den wahren
Wert der Varianz:
n
1X
2
2
σ̂mle
= gn (x) :=
(xi − 1) .
n i=1
Sei Tn : Ω → R (Zufallsvariable) eine Schätzfunktion für den wahren Wert ϑ0
eines Parameters ϑ ∈ Θ. Die Genauigkeit der Schätzfunktion Tn wird oft durch
ihren erwarteten quadratischen Fehler (mean squared error) ausgedrückt:
h
i
h
i
2
2
MSE[Tn ] := E (Tn − ϑ0 ) = E (Tn − E[Tn ] + E[Tn ] − ϑ0 )
(E[Tn ] − ϑ0 )2 + V [Tn ] ≥ 0,
| {z }
=
=:Bias[Tn ]
wobei Bias[Tn ] ∈ R die Verzerrung des Schätzers Tn bezeichnet. Ein Schätzer
Tn mit E[Tn ] = ϑ0 (Bias[Tn ] = 0) heisst erwartungstreu (unbiased).
Beispiel: Wir betrachten das arithmetische Mittel als Schätzer für den Erwartungswert, ϑ0 = E[Xi ],
n
1X
Xi .
Tn :=
n i=1
Nach Satz 6 und Satz 7 gelten
" n
#
1X
E[Tn ] = E
Xi =
n i=1
#
" n
1X
Xi =
V [Tn ] = V
n i=1
n
1X
E[Xi ] = E[Xi ] = ϑ0 ,
n i=1
n
1 X
V [Xi ]
V [Xi ] =
,
2
n i=1
n
wobei wir in der zweiten Gleichung die gegenseitige Unabhängigkeit der Stichprobenvariablen X1 , X2 , . . . , Xn verwendet haben. Der Schätzer Tn ist also erwartungstreu (unbiased), und wir erhalten für den erwarteten quadratischen
Fehler:
V [Xi ]
2
, n ∈ N.
MSE[Tn ] = (E[Tn ] − ϑ0 ) + V [Tn ] =
n
Damit wird auch klar, dass der Schätzwert desto genauer ist, je grösser der
Stichprobenumfang n ∈ N ist: lim MSE[Tn ] = 0.
n→∞
1000 Stichproben vom Umfang n=10
500 Stichproben vom Umfang n=20
200
110
180
100
160
90
200 Stichproben vom Umfang n=50
45
40
35
80
140
30
70
120
60
25
50
20
100
80
40
60
15
30
10
40
20
20
10
0
0
6
7
8
9
Schaetzung fuer
10
µ
11
5
0
6
7
8
9
Schaetzung fuer
10
µ
11
6
7
8
9
Schaetzung fuer
10
µ
11
2
STATISTIK
2.3.2
77
Vertrauensintervalle
Im letzten Kapitel haben wir gesehen, dass wir mit Hilfe einer Schätzfunktion
(einem Schätzer) Tn = gn ◦ X den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ
aufgrund einer Stichprobe x ∈ Rn vom Umfang n ∈ N (Realisierung der ndimensionalen reellen Zufallsvariablen X : Ω → Rn ) schätzen können: ϑ̂ :=
gn (x). Der Schätzwert ϑ̂ ist zufällig, denn er ist eine Realisierung der reellen
Zufallsvariablen Tn . Wir hatten bereits bemerkt, dass i. A. ϑ̂ 6= ϑ0 gilt. Wenn
das Bild im(Tn ) ⊆ R überabzählbar unendlich ist, dann gilt sogar “P (Tn = ϑ0 )”
= 0!
Obwohl mit Hilfe des MSE Aussagen über die Genauigkeit des Schätzers
gemacht werden können, hilft uns dieser nicht bei der Beurteilung der Genauigkeit eines erhaltenen Schätzwertes. Selbst wenn der MSE des Schätzers klein ist,
kann der Schätzwert ϑ̂ erheblich vom wahren Wert ϑ0 des Parameters abweichen,
denn der MSE macht eben nur eine Aussage über die erwartete Genauigkeit des
Schätzers.
Um die statistische Sicherheit einer Schätzung vorgeben zu können, verwenden wir sog. Intervallschätzer (im Gegensatz zu den im letzten Kapitel behandelten Punktschätzern). Konkret verwenden wir zwei Stichprobenfunktionen
Un := gnu ◦ X : Ω → R,
Vn :=
gno
◦ X : Ω → R,
Un (ω) = gnu (X(ω)),
ω ∈ Ω,
gno (X(ω)),
ω ∈ Ω,
Vn (ω) =
wobei gnu , gno : Rn → R Funktionen sind, so dass Un , Vn reelle Zufallsvariablen
X
g u ,g o
n n
sind: Ω −→ Rn −−
−→ R.
Definition 19 (Konfidenzintervall) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum,
und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen, deren Verteilung von
einem Parameter ϑ ∈ Θ ⊆ R abhängt, dessen wahrer Wert ϑ0 unbekannt ist.
>
Seien weiterhin X := (X1 , X2 , . . . , Xn ) und gnu , gno : Rn → R Funktionen, so
u
o
dass Un := gn ◦ X, Vn := gn ◦ X reelle Zufallsvariablen sind. Falls für ein
γ ∈ (0, 1) gilt, dass
“P (ϑ0 ∈ (Un , Vn ))” = “P (Un < ϑ0 < Vn )” = “P (Un < ϑ0 ∧ Vn > ϑ0 )” ≥ γ,
(51)
so heisst das (stochastische) Intervall (Un , Vn ) ein Konfidenzintervall für ϑ0 zum
Konfidenzniveau γ oder ein γ-Konfidenzintervall für ϑ0 .
Bemerkungen:
• Andere Bezeichnungen für das Konfidenzintervall sind Vertrauensintervall
oder Vertrauensbereich.
• Gemäss (51) enthält ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ
den wahren Parameterwert ϑ0 mit einer Wahrscheinlichkeit von mindestens γ. Das Konfidenzniveau γ ∈ (0, 1) können wir beliebig vorgeben und
damit die gewünschte statistische Sicherheit selbst festlegen.
2
STATISTIK
78
• An Stelle des Konfidenzniveaus γ kann man auch das Irrtumsniveau α ∈
(0, 1) vorgeben. Zwischen diesen beiden Zahlen besteht die simple Beziehung γ = 1 − α. Wenn (Un , Vn ) ein γ-Konfidenzintervall für ϑ0 ist, so gilt
mit (51) und mit der Gegenwahrscheinlichkeit (MAE3, Satz 7, 1.):
“P (ϑ0 6∈ (Un , Vn ))” = 1 − “P (ϑ0 ∈ (Un , Vn ))” ≤ 1 − γ = α,
d. h. die Wahrscheinlichkeit dafür, dass das Konfidenzintervall (Un , Vn )
den wahren Parameterwert ϑ0 nicht enthält, ist höchstens gleich α.
In der Regel wählt man daher ein kleines Irrtumsniveau α und entsprechend ein grosses Konfidenzniveau γ. Häufig verwendete Werte für das
Irrtumsniveau sind: α ∈ {0.01, 0.05, 0.10} und entsprechend für das Konfidenzniveau: γ ∈ {0.99, 0.95, 0.90}.
• Für eine gegebene Stichprobe x ∈ Rn vom Umfang n ∈ N erhalten wir
mit u := gnu (x) und v := gno (x) das Schätzintervall (u, v) ⊆ R. Die Frage,
ob ein gegebenes Intervall (u, v) den wahren Parameterwert ϑ0 enthält,
ist nicht mehr vom Zufall abhängig, und wir können daher keine Wahrscheinlichkeit dafür angeben. Wir wissen aber, dass wenn wir N ∈ N
solcher Stichproben hätten und für jede dieser Stichproben das Schätzintervall berechneten, dann würden mindestens γN dieser Schätzintervalle
den wahren Parameterwert enthalten und höchstens αN Schätzintervalle
nicht.
Die Frage ist jetzt natürlich, wie die Funktionen gnu , gno zu wählen sind, um ein
Konfidenzintervall für einen bestimmten Parameter zu erhalten. In der folgenden
Tabelle geben wir einige dieser Funktionen für häufig verwendete Intervallschätzer an:
Verteilung
der Xi (iid)
Konfidenzintervall für
2
N (µ, σ )
(σ 2 bekannt)
N (µ, σ 2 )
(σ 2 unbekannt)
µ
µ
gnu (x)
σ
x − cα √
n
s
x − cα √
n
s
2
N (µ, σ )
beliebig
(V [Xi ] =: σ 2
bekannt)
beliebig
(V [Xi ]
unbekannt)
σ
s
n−1
c1,α
gno (x)
σ
x + cα √
n
s
x + cα √
n
s
s
n−1
c2,α
E[Xi ]
σ
x − cα √
n
σ
x + cα √
n
E[Xi ]
s
x − cα √
n
s
x + cα √
n
cα
c1,α
c2,α
α
2 )-Quantil
(1 −
der
N (0, 1)-Verteilung
(1 − α2 )-Quantil der
tn−1 -Verteilung
α
(1 − α2 )2Quantil
Quantil
der χ2n−1 - der χ2n−1 Verteilung Verteilung
(1 − α2 )-Quantil der
N (0, 1)-Verteilung
n gross! (Satz 10)
(1 − α2 )-Quantil der
tn−1 -Verteilung
n gross! (Satz 10)
2
STATISTIK
79
In dieser Tabelle bezeichnen x das arithmetische Mittel und s die korrigierte
Stichprobenvarianz.
Wenn das Irrtumsniveau α vergrössert wird (also eine grössere statistische
Unsicherheit akzeptiert wird), so werden die Werte für cα kleiner und damit
das Konfidenzintervall kürzer. Das Intervall wird ebenfalls kürzer, wenn der
Stichprobenumfang n vergrössert wird.
Beispiel: Gegeben sei die folgende Stichprobe vom Umfang n = 10:
i
xi
1
4.15
2
3
9.34 −7.04
4
5.45
5
6
3.28 −3.23
7
0.27
8
3.37
9
16.3
10
13.1
Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ, σ 2 ), mit Parametern µ ∈ R, σ 2 > 0, deren wahre Werte beide
unbekannt sind. Wir schätzen diese Parameterwerte mit dem arithmetischen
Mittel und mit der korrigierten Stichprobenvarianz:
n
µ̂ = x =
1X
xi ' 4.50,
n i=1
n
σ̂ 2 = s2 =
1 X
2
(xi − x) ' 50.1.
n − 1 i=1
Wir wollen jetzt 95 %-Konfidenzintervalle (Konfidenzniveau γ = 0.95, Irrtumsniveau α = 0.05) für µ und σ berechnen. Dazu verwenden wir die obige Tabelle.
Zur Bestimmung des 95 %-Konfidenzintervalls für µ benötigen wir das 0.975Quantil der t9 -Verteilung. Die Quantile der t-Verteilung sind tabelliert (z. B. in
der Formelsammlung von Papula, S. 514), und wir erhalten c0.05 ' 2.26. Damit
ist das Schätzintervall für µ für diese Stichprobe gegeben durch
s
s
x − c0.05 √ , x + c0.05 √
' (−0.567, 9.56) .
n
n
Zur Bestimmung des 95 %-Konfidenzintervalls für σ benötigen wir das 0.975Quantil und das 0.025-Quantil der χ29 -Verteilung. Auch die Quantile der χ2 Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 512),
und wir erhalten c1,0.05 ' 19.02 und c2,0.05 ' 2.70. Damit ist das Schätzintervall
für σ für diese Stichprobe gegeben durch
s
s
!
n−1
n−1
s
,s
' (4.87, 12.9) .
c1,α
c2,α
Tatsächlich wurde die obige Stichprobe erzeugt als (gerundete) Zufallszahlen
aus einer N (2, 16)-Verteilung. Das Schätzintervall für µ enthält also den wahren Parameterwert µ = 2, aber das Schätzintervall für σ enthält den wahren
Parameterwert σ = 4 nicht.
Betrachten wir 100 Stichproben vom Umfang n = 10 aus einer N (2, 16)Verteilung, so erhalten wir für jede Stichprobe andere Schätzintervalle für µ
und σ. Wir erwarten, dass mindestens 95 der 100 Schätzintervalle den wahren
Parameterwert enthalten, und dies ist auch tatsächlich der Fall:
2
STATISTIK
80
97 Intervalle enthalten
µ =2
100
98 Intervalle enthalten
90
90
80
80
70
70
60
60
50
50
40
40
30
30
20
20
10
10
-5
0
5
95 % - Schaetzintervalle fuer
σ=4
100
2
4
6
8
10
95 % - Schaetzintervalle fuer
µ
σ
Für die Herleitung von Intervallschätzern arbeitet man mit Verteilungen von
transformierten Zufallsvariablen. Wir wollen dies an drei Beispielen illustrieren.
Beispiele:
1. Für die Stichprobenvariablen gelte Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n (iid),
mit Parametern µ ∈ R, σ > 0, wobei der Wert von σ bekannt ist, aber der
Wert von µ nicht. Wir beginnen mit dem folgenden Punktschätzer (!) für
den Erwartungswert E[Xi ] = µ:
n
Tn := gn ◦ X,
gn (x) := x =
1X
xi
n i=1
für n ∈ N. Nach Kap. 1.3 gelten
Xi
n
n
⇒
∼ N
Tn =
µ σ2
n , n2
n
X Xi
1X
Xi =
,
n i=1
n
i=1
, i = 1, 2, . . . , n, und
2
STATISTIK
81
nach Kap. 1.6.3:
Tn =
n
X
Xi
i=1
n
∼N
n
n
X
µ X σ2
,
n i=1 n2
i=1
!
σ2
= N µ,
.
n
−µ
∼ N (0, 1) ist standardnorDie standardisierte Zufallsvariable Zn := Tσ/n√
n
malverteilt, also erfüllt ihre (kumulative) Verteilungsfunktion: FZn ≡ Φ.
Für ein gegebenes
Irrtumsniveau α ∈ (0, 1) definieren wir nun cα :=
Φ−1 1 − α2 ((1− α2 )-Quantil der Standardnormalverteilung). Es gilt dann
“P (−cα < Zn < cα )”
Φ(cα ) − Φ(−cα ) = Φ(cα ) − (1 − Φ(cα ))
α
−1=2−α−1
= 2Φ(cα ) − 1 = 2 1 −
2
= 1 − α,
=
wobei wir die Punktsymmetrie des Graphen der Funktion Φ verwendet
haben: Φ(−x) = 1 − Φ(x). Mit der Definition von Zn gilt dann auch
Tn − µ
√ < cα ”
1 − α = “P (−cα < Zn < cα )” = “P −cα <
σ/ n
σ
σ
= “P Tn − cα √ < µ < Tn + cα √ ”.
n
n
Wir definieren die reellen Zufallsvariablen
σ
Un := Tn − cα √ ,
n
σ
Vn := Tn + cα √ ,
n
dann ist [Un , Vn ] ein (1−α)-Konfidenzintervall für µ. Die Funktionen gnu , gno
sind also gegeben durch
σ
gnu (x) = x − cα √ ,
n
σ
gno (x) = x + cα √ ,
n
wie in der ersten Zeile der Tabelle angegeben.
2. Wir betrachten dasselbe statistische Modell wie in Beispiel 1, aber diesmal
sei auch die Varianz σ 2 unbekannt. Wir wollen wieder ein Konfidenzintervall für µ bestimmen. Wir betrachten eine ähnliche Zufallsvariable wie in
Beispiel 1:
Tn − µ
Zn := p
,
Sn2 /n
n
Sn2 :=
1 X
2
(Xi − Tn ) ,
n − 1 i=1
d. h. wir schätzen die unbekannte Varianz mit der (korrigierten) Stichprobenvarianz. Die Zufallsvariable Zn ist nun nicht standardnormal- sondern
tn−1 -verteilt (ohne Beweis). Für ein gegebenes Irrtumsniveau α ∈ (0, 1)
2
STATISTIK
82
definieren wir cα := QZn 1 −
Es gilt dann
“P (−cα < Zn < cα )”
=
α
2
( 1−
α
2
-Quantil der tn−1 -Verteilung).
FZn (cα ) − FZn (−cα ) = · · · = 1 − α,
wobei wir die Punktsymmetrie des Graphen der (kumulativen) Verteilungsfunktion der tn−1 -Verteilung verwendet haben. Mit der Definition
von Zn gilt dann auch
!
Tn − µ
< cα ”
1 − α = “P (−cα < Zn < cα )” = “P −cα < p
Sn2 /n
Sn
Sn
= “P Tn − cα √ < µ < Tn + cα √ ”.
n
n
Wir definieren die reellen Zufallsvariablen
Sn
Un := Tn − cα √ ,
n
Sn
Vn := Tn + cα √ ,
n
dann ist [Un , Vn ] ein (1−α)-Konfidenzintervall für µ. Die Funktionen gnu , gno
sind also gegeben durch
s
gnu (x) = x − cα √ ,
n
s
gno (x) = x + cα √ ,
n
wie in der zweiten Zeile der Tabelle angegeben.
3. Die Verteilung der Xi sei jetzt beliebig, mit unbekanntem Erwartungswert E[Xi ] aber mit bekannter Varianz V [Xi ] =: σ 2 . Wir betrachten die
standardisierte Zufallsvariable
Zn :=
Tn − E[Xi ]
√
,
σ/ n
E[Zn ] = 0, V [Zn ] = 1.
Die Zufallsvariable Zn ist i. A. nicht normalverteilt, aber nach dem zentralen Grenzwertsatz (Satz 10) gilt: lim FZn (z) = Φ(z), z ∈ R. Für einen
n→∞
genügend grossen Stichprobenumfang n (eine sog. umfangreiche Stichprobe) nähern wir daher die Werte der (kumulativen) Verteilungsfunktion
von Zn mit jenen der (kumulativen) Verteilungsfunktion der Standardnormalverteilung an: FZn (z) ' Φ(z), z ∈ R. Mit dieser Approximation
sind wir wieder in derselben Situation wie in Beispiel 1, und wir erhalten
das Konfidenzintervall auf Zeile 4 der Tabelle.
2.3.3
Parameterschätzung in MATLAB
In MATLAB können Sie für einige Verteilungen die Funktionen ...fit verwenden, um die Parameter der Verteilung aus einer Stichprobe zu schätzen (sowohl
Punkt- als auch Intervallschätzer). Die folgenden Befehle benötigen jeweils mehrere Ausgabeargumente (Dokumentation lesen!):
2
STATISTIK
2.3.4
83
Verteilung
Parameterschätzung
B(n, p)
N B(r, p)
P(λ)
U(a, b)
Exp(λ)
N (µ, σ 2 )
binofit(x,n)
nbinfit(x)
poissfit(x)
unifit(x)
expfit(x)
normfit(x)
geschätzte(r)
Parameter
p
r, p
λ
a, b
1/λ
µ, σ
bekannter
Parameter
n
–
–
–
–
–
Statistische Tests
In einem statistischen Test wollen wir aufgrund von Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese
treffen.
Parametrische Tests Auf einem Wahrscheinlichkeitsraum (Ω, Σ, P ) betrachten wir Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R (iid), n ∈ N. Genau
wie im Kapitel über die Parameterschätzung wird eine Stichprobe x ∈ Rn
aufgefasst als eine Realisierung der n-dimensionalen reellen Zufallsvariablen
>
X = (X1 , X2 , . . . , Xn ) . Es sei nun ein parametrisches statistisches Modell
gegeben, d. h. die (kumulative) Verteilungsfunktion der Stichprobenvariablen
Xi sei gegeben durch
“P (Xi ≤ x)” = F (x; ϑ),
x ∈ R,
i = 1, 2, . . . , n,
mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ, dessen wahrer Wert ϑ0 unbekannt ist. Wir zerlegen jetzt den Parameterraum Θ in zwei
disjunkte Teilmengen:
Θ = Θ0 ∪ Θ1 ,
Θ0 ∩ Θ1 = ∅.
(52)
Die beiden im Test verwendeten Hypothesen sind nun gegeben durch
H0 :
ϑ 0 ∈ Θ0
(Nullhypothese),
H1 :
ϑ 0 ∈ Θ1
(Alternativhypothese).
Wegen (52) ist genau eine dieser beiden Hypothesen richtig. Beachten Sie, dass
es nicht vom Zufall abhängig ist, welche der beiden Hypothesen richtig ist – es
ist nur nicht bekannt!
Ein parametrischer statistischer Test soll nun entscheiden, ob aufgrund einer
vorliegenden Stichprobe x ∈ Rn ein hinreichender Anlass besteht, die Nullhypothese beizubehalten/zu verwerfen und entsprechend die Alternativhypothese
abzulehnen/anzunehmen. Wie in der folgenden Tabelle dargestellt sind zwei verschiedene Arten von Fehlentscheidungen möglich:
2
STATISTIK
84
H0 richtig
H1 falsch
H0 falsch
H1 richtig
H0 beibehalten
H1 abgelehnt
H0 verworfen
H1 angenommen
X
Fehler 1. Art
Fehler 2. Art
X
In der Regel ist die Nullhypothese in einem Test so gewählt, dass man a priori
einer Verwerfung skeptisch gegenüber steht. Man wird daher die Nullhypothese
nur dann verwerfen, wenn die Daten klar gegen sie sprechen.
Beispiele:
1. Es wurde ein neues Medikament entwickelt, das einen besseren Behandlungserfolg verspricht als ein seit Jahren etabliertes Medikament. Weil das
etablierte Medikament in vielen Ländern bei Apotheken, Spitälern usw.
gelagert ist, werden die Zulassungsbehörden nicht leichtfertig empfehlen,
alle alten Bestände zu vernichten und nur noch das neue Medikament zu
verwenden. Die Nullhypothese für einen Test wäre also: “das neue Medikament wirkt nicht besser als das alte”.
2. Eine Person behauptet, hellseherische Fähigkeiten zu haben (zum Beispiel:
das Ergebnis eines Münzwurfes vorhersagen zu können). Weil vermutlich
die allermeisten Menschen keine solche Fähigkeit haben, wird man diese
Behauptung nicht leichtfertig glauben wollen. Die Nullhypothese für einen
Test wäre also: “die Person hat keine hellseherischen Fähigkeiten”.
Die (bedingte) Wahrscheinlichkeit dafür, einen Fehler 1. Art zu begehen (d. h. die
Nullhypothese zu verwerfen, obwohl sie richtig ist; Irrtumswahrscheinlichkeit),
soll also klein sein:
“P (Fehler 1. Art)”
= “P (H0 verworfen | H0 richtig)”
= “P (H1 angenommen | H1 falsch)” ≤ α,
für ein gewähltes Signifikanzniveau α ∈ (0, 1). Wegen der Gegenwahrscheinlichkeit gilt dann
“P (H0 beibehalten | H0 richtig)”
=
1 − “P (H0 verworfen | H0 richtig)”
=
1 − “P (Fehler 1. Art)” ≥ 1 − α,
und wir bezeichnen die Zahl 1−α ∈ (0, 1) als Spezifität des Tests. Die (bedingte)
Wahrscheinlichkeit dafür, einen Fehler 2. Art zu begehen (d. h. die Nullhypothese beizubehalten, obwohl sie falsch ist), lässt sich in der Regel nicht so leicht
kontrollieren. Dies hat damit zu tun, dass der wahre Parameterwert ϑ0 unbekannt ist. Wir definieren die Zahl
β
:= “P (Fehler 2. Art)” = “P (H0 beibehalten | H0 falsch)”
=
“P (H1 abgelehnt | H1 richtig)”
und bezeichnen 1 − β als die Teststärke oder Macht des Tests, oder auch als die
Sensitivität des Tests:
2
STATISTIK
H0 richtig
H1 falsch
H0 falsch
H1 richtig
85
H0 beibehalten
H1 abgelehnt
richtige Entscheidung
Spezifität ≥ 1 − α
Fehler 2. Art
Wahrscheinlichkeit β
H0 verworfen
H1 angenommen
Fehler 1. Art
Irrtumswahrscheinlichkeit ≤ α
richtige Entscheidung
Macht/Sensitivität 1 − β
Beispiel: Ein völlig konservativer Test behält die Nullhypothese für jede beliebige Stichprobe bei und hat daher die Spezifität 1. Für diesen Test ist aber die
Sensitivität 0, denn er behält die Nullhypothese eben auch dann bei, wenn sie
falsch ist (d. h. die (bedingte) Wahrscheinlichkeit dafür, einen Fehler 2. Art zu
begehen, ist 1). Dies deutet an, dass in der Praxis ein Kompromiss zwischen
Spezifität und Sensitivität gefunden werden muss: Je nachdem, wie gravierend
ein Fehler 2. Art ist, muss man die Spezifität verkleinern (das Signifikanzniveau
α vergrössern), um die Macht/Sensitivität 1 − β des Tests zu vergrössern.
Zur Konstruktion eines parametrischen statistischen Tests gehen wir zunächst ganz ähnlich vor wie bei der Parameterschätzung: Wir definieren eine
sog. Teststatistik (Stichprobenfunktion)
Tn := gn ◦ X : Ω → R,
Tn (ω) := gn (X(ω)),
ω ∈ Ω,
wobei gn : Rn → R eine Funktion ist, so dass T eine reelle Zufallsvariable ist:
gn
X
Ω −→ Rn −→ R. Der Prüfwert aufgrund der gegebenen Stichprobe x ∈ Rn ist
dann gegeben durch t̂ := gn (x) ∈ R. Dieser Prüfwert ist eine Realisierung der
Zufallsvariablen (Teststatistik) Tn und damit zufällig!
Die Entscheidung eines Tests fällt jetzt aufgrund des Prüfwertes t̂ ∈ R:
liegt dieser im sog. kritischen Bereich Kα ⊆ R, so wird die Nullhypothese
verworfen (und die Alternativhypothese angenommen); liegt der Prüfwert jedoch ausserhalb des kritischen Bereichs, so wird die Nullhypothese beibehalten (die Alternativhypothese abgelehnt). Dies formulieren wir als eine Funktion
ϕn,α : Rn → {0, 1},
1, t̂ = gn (x) ∈ Kα (⇒ H0 verworfen, H1 angenommen)
ϕn,α (x) :=
,
0, sonst
(⇒ H0 beibehalten, H1 abgelehnt)
(53)
mit der die Entscheidung des Tests aufgrund einer Stichprobe x ∈ Rn beschrieben wird. Weil die Stichprobe zufällig ist, ist auch die Testentscheidung zufällig.
Die Festlegung des kritischen Bereichs Kα für den Prüfwert geschieht anhand
der Verteilung der Teststatistik Tn unter der Nullhypothese, sowie in Abhängigkeit des Signifikanzniveaus α ∈ (0, 1). Dies illustrieren wir gleich an einem Beispiel, aber zuerst listen wir hier die Vorgehensweise bei einem parametrischen
Test auf:
1. Formuliere die Nullhypothese H0 und die Alternativhypothese H1
2. Wähle eine geeignete Teststatistik Tn (bzw. eine Funktion gn )
3. Wähle ein Signifikanzniveau (höchste noch akzeptable Irrtumswahrscheinlichkeit) α ∈ (0, 1)
2
STATISTIK
86
4. Berechne den kritischen Bereich Kα ⊆ R für den Prüfwert anhand der
Verteilung von Tn unter der Nullhypothese sowie in Abhängigkeit des Signifikanzniveaus α. Dabei soll für die Irrtumswahrscheinlichkeit gelten:
“P (H0 verworfen | H0 richtig)” ≤ α
⇔
“Pϑ (Tn ∈ Kα )” ≤ α ∀ ϑ ∈ Θ0 ,
wobei “Pϑ (Tn ∈ Kα )” die Wahrscheinlichkeit dafür bezeichnet, dass der
Wert der Teststatistik Tn im kritischen Bereich für das Signifikanzniveau
α, Kα , liegt, wenn ϑ der Wert des Parameters ist.
5. Berechne den Prüfwert t̂ = gn (x) ∈ R aufgrund der vorliegenden Stichprobe x ∈ Rn
6. Treffe die Testentscheidung:
• falls t̂ ∈ Kα : H0 verworfen, H1 angenommen
• falls t̂ 6∈ Kα : H0 beibehalten, H1 abgelehnt
Bemerkung: Wenn die Nullhypothese bei einem Signifikanzniveau α beibehalten
wird, dann bedeutet dies nicht, dass die Nullhypothese mit einer Wahrscheinlichkeit ≥ 1 − α richtig ist! Dies ist eine häufige Fehlinterpretation. Sie ergibt
jedoch keinen Sinn, weil die Richtigkeit der Nullhypothese nicht zufällig ist (also
können wir ihr auch keine Wahrscheinlichkeit zuordnen). Wir können lediglich
sagen, dass aufgrund der vorliegenden Daten kein hinreichender Anlass besteht,
beim gewählten Signifikanzniveau die Nullhypothese zu verwerfen.
Beispiel: Wir betrachten die folgende Stichprobe vom Umfang n = 10:
i
xi
1
3.18
2
3
5.77 −2.42
-2
0
4
3.82
5
6
2.74 −0.52
2
4
7
1.23
8
2.79
6
9
9.26
10
7.64
8
x
Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ0 , σ 2 ), i = 1, 2, . . . , n (iid), wobei der Erwartungswert µ0 ∈ Θ :=
R wie auch die Varianz σ 2 > 0 unbekannt sind. Wir wollen testen, ob sich die
gegebene Stichprobe mit der Hypothese µ0 = 2 =: µ∗ vereinbaren lässt. Dies
führt auf den Einstichproben-t-Test. Wir gehen gemäss der obigen Liste vor:
1. Wir formulieren die Hypothesen
Nullhypothese H0 :
Alternativhypothese H1 :
µ0 ∈ Θ0 := {µ∗ }
⇔
µ0 ∈ Θ1 := R \ {µ∗ }
µ0 = µ∗ ,
⇔
µ0 6= µ∗ .
Weil die Menge Θ0 nur ein einziges Element enthält, nennt man diese
Nullhypothese eine Punkthypothese.
STATISTIK
87
2. Wir verwenden die Funktion
n
n
x − µ∗
1X
1 X
2
gn (x) := p
, x :=
xi , s2 :=
(xi − x) ,
n i=1
n − 1 i=1
s2 /n
x ∈ Rn .
(54)
Unter der Nullhypothese (d. h. wenn die Nullhypothese richtig ist) ist die
entsprechende Teststatistik Tn = gn ◦ X (Student-)t-verteilt mit n − 1
Freiheitsgraden: Tn ∼ tn−1 (Kap. 2.3.2, Bsp. 2).
3. Wir wählen das übliche Signifikanzniveau α = 0.05.
4. Für die gegebene Stichprobe x ∈ Rn erhalten wir einen Prüfwert t =
gn (x) ∈ R. Wir wollen die Nullhypothese genau dann verwerfen, wenn der
erhaltene Prüfwert für eine tn−1 -Verteilung “extrem” ist. Daher definieren
wir den kritischen Bereich Kα := {t ∈ R | |t| ≥ cα } ⊆ R, wobei cα ∈ R
das (1 − α2 )-Quantil der tn−1 -Verteilung bezeichnet. Es gilt dann für die
Irrtumswahrscheinlichkeit: “P (H0 verworfen | H0 richtig)” =
“Pµ∗ (Tn ∈ Kα )”
= “Pµ∗ (|Tn | ≥ cα )” = “Pµ∗ (Tn ≤ −cα ∨ Tn ≥ cα )”
= “Pµ∗ (Tn ≤ −cα )” + “Pµ∗ (Tn ≥ cα )”
= FTn (−cα ) + 1 − FTn (cα )
1 − FTn (cα ) + 1 − FTn (cα ) = 2 (1 − FTn (cα ))
α
α = 2 = α,
= 2 1− 1−
2
2
wobei wir die Symmetrie der (kumulativen) Verteilungsfunktion der tVerteilung verwendet haben. Der Test hat also die Spezifität 1 − α. Für
α = 0.05 (Spezifität 0.95) erhalten wir c0.05 ' 2.26 (0.975-Quantil). Weil
die Nullhypothese verworfen wird, wenn der Prüfwert “zu klein” ist aber
auch, wenn er “zu gross” ist, spricht man von einem zweiseitigen Test.
=
5. Für die gegebene Stichprobe x ∈ Rn erhalten wir den Prüfwert t̂ =
gn (x) ' 1.20. Wir zeichnen diesen Wert zusammen mit der Wahrscheinlichkeitsdichtefunktion der t9 -Verteilung sowie mit ihren 0.025- und 0.975Quantilen in der folgenden Grafik:
0.4
0.3
Wahrscheinlichkeitsdichtefunktion der t
f(x)
2
9
-Verteilung
Pruefwert fuer die gegebene Stichprobe
0.025- und 0.975-Quantile der t
-Verteilung
9
0.2
0.1
0
-5
0
x
5
2
STATISTIK
88
6. Es gilt |t̂| < c0.05 und damit t̂ 6∈ K0.05 , also wird beim Signifikanzniveau α = 0.05 die Nullhypothese beibehalten. Es besteht aufgrund der
gegebenen Daten kein hinreichender Anlass dafür, sie bei diesem Signifikanzniveau zu verwerfen.
Bemerkungen:
• Für den Einstichproben-t-Test mit Signifikanzniveau α ∈ (0, 1) und für
eine Stichprobe x ∈ Rn gilt
H0 beibehalten ⇔ t̂ 6∈ Kα
⇔ −cα < t̂ < cα
x − µ∗
< cα
⇔ −cα < p
s2 /n
s
s
.
⇔ µ∗ ∈ x − cα √ , x + cα √
n
n
Rechts steht das (1 − α)-Schätzintervall für den unbekannten Erwartungswert µ0 bei unbekannter Varianz (Kap. 2.3.2).
Es gilt also: Für eine gegebene Stichprobe x ∈ Rn wird die Nullhypothese
µ0 = µ∗ beim Signifikanzniveau α genau dann beibehalten, wenn das (1 −
α)-Schätzintervall für den unbekannten Erwartungswert (bei unbekannter
Varianz) den vermuteten Erwartungswert µ∗ enthält.
Dank dieser Dualität können aus Konfidenzintervallen für einen Parameter
statistische Tests für entsprechende Punkthypothesen gewonnen werden.
• Wenn die Stichprobenvariablen nicht normalverteilt sind, so kann für umfangreiche Stichproben (Faustregel: n > 30) weiterhin der Einstichprobent-Test für den vermuteten Erwartungswert verwendet werden (zentraler
Grenzwertsatz, Satz 10). Dieser ist dann kein exakter Test mehr, weil die
Teststatistik nur noch näherungsweise tn−1 -verteilt ist.
• In MATLAB können Sie den Einstichproben-t-Test mit dem Befehl h =
ttest(x,m,’Alpha’,alpha) ausführen, wobei x die Stichprobe, m den vermuteten Erwartungswert und alpha das gewünschte Signifikanzniveau bezeichnet (ohne weitere Angabe wird α = 0.05 verwendet). Die Ausgabe
h ist die Testentscheidung: h = 1 bedeutet, dass die Nullhypothese beim
Signifikanzniveau α verworfen wird, wohingegen h = 0 bedeutet, dass
sie bei diesem Signifikanzniveau beibehalten wird. Der MATLAB-Befehl
ttest verfügt über weitere optionale Ausgabeargumente.
Ein weiterer wichtiger Parametertest ist der Zweistichproben-t-Test (MATLABBefehl ttest2), den wir am folgenden Beispiel erläutern.
Beispiel: Gegeben seien zwei Stichproben vom Umfang n = 10 bzw. m = 8:
i
xi
yi
1
3.33
8.27
2
−1.31
4.08
3
6.38
5.84
4
5
6
7
5.56 1.83 3.45 4.56
3.34 6.10 8.90 8.43
8
9
3.77 4.39
11.58 −
10
2.77
−
2
STATISTIK
89
y
x
0
2
4
6
8
10
12
Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien unabhängig
und normalverteilt: Xi ∼ N (µX , σ 2 ), i = 1, 2, . . . , n (iid), Yi ∼ N (µY , σ 2 ), i =
1, 2, . . . , m, wobei X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym gegenseitig unabhängig sind.
Die Erwartungswerte µX , µY ∈ R sind unbekannt, ebenso die Varianzen σ 2 > 0.
Die beiden Varianzen müssen jedoch gleich sein! Wir wollen testen, ob sich die
gegebenen Stichproben mit der Hypothese µX = µY vereinbaren lassen.
1. Wir formulieren die Hypothesen
Nullhypothese H0 :
µX = µY
⇔ µX − µY ∈ Θ0 := {0},
Alternativhypothese H1 :
µX 6= µY
⇔ µX − µY ∈ Θ1 := R \ {0}.
2. Wir verwenden die Funktion
r
nm x − y
gm,n (x, y) :=
,
n+m s
s2 :=
(n − 1)s2x + (m − 1)s2y
,
n+m−2
(55)
für x ∈ Rn , y ∈ Rm , mit den Stichprobenmittelwerten x, y und mit den
korrigierten Stichprobenvarianzen s2x , s2y (Kap. 2.3.1). Die entsprechende
Teststatistik Tm,n = gm,n ◦ (X, Y ) ist unter der Nullhypothese t-verteilt
mit n + m − 2 Freiheitsgraden: Tm,n ∼ tn+m−2 .
3. Wir wählen das übliche Signifikanzniveau α = 0.05.
4. Für die gegebenen Stichproben x ∈ Rn , y ∈ Rm erhalten wir einen Prüfwert t̂ = gm,n (x, y) ∈ R. Wieder wollen wir die Nullhypothese genau dann
verwerfen, wenn der erhaltene Prüfwert für eine tn+m−2 -Verteilung “extrem” ist. Daher definieren wir den kritischen Bereich Kα := {t ∈ R | |t| ≥
cα } ⊆ R, wobei cα das (1 − α2 )-Quantil der tn+m−2 -Verteilung bezeichnet.
Dieser Test hat wieder die Spezifität 1 − α. Für α = 0.05 und n = 10,
m = 8 erhalten wir c0.05 ' 2.12 (0.975-Quantil der t16 -Verteilung).
5. Für die gegebenen Stichproben x ∈ Rn , y ∈ Rm erhalten wir den Prüfwert t̂ = gm,n (x, y) ' −3.14. Wir zeichnen diesen Wert zusammen mit
der Wahrscheinlichkeitsdichtefunktion der t16 -Verteilung sowie mit ihren
0.025- und 0.975-Quantilen in der folgenden Grafik:
2
STATISTIK
90
0.4
f(t)
0.3
Wahrscheinlichkeitsdichtefunktion der t
16
-Verteilung
Pruefwert fuer die gegebenen Stichproben
0.025- und 0.975-Quantile der t
-Verteilung
16
0.2
0.005- und 0.995-Quantile der t
16
-Verteilung
0.1
0
-5
0
5
t
6. Es gilt |t̂| > c0.05 und damit t̂ ∈ K0.05 , also wird beim Signifikanzniveau
α = 0.05 die Nullhypothese verworfen. Man kann nachprüfen, dass für
diese Stichprobe die Nullhypothese sogar beim Signifikanzniveau α = 0.01
verworfen wird (c0.01 ' 2.92). Wir sagen, die Nullhypothese µX = µY
wird für diese Stichproben signifikant bzw. hochsignifikant verworfen.
Bemerkungen:
• Im Fall bekannter und gleicher Varianzen σ 2 kann man den ZweistichprobenGauss-Test (2-sample z-test) verwenden, bei dem die Teststatistik normalverteilt ist.
2
, σY2 muss der Welch• Im Fall unbekannter und ungleicher Varianzen σX
Test (B. L. Welch, 1911–1989) verwendet werden, bei dem die Teststatistik
näherungsweise t-verteilt ist mit einer modifzierten Anzahl an Freiheitsgraden.
• Mit dem zentralen Grenzwertsatz (Satz 10) kann für umfangreiche Stichproben (Faustregel m + n ≥ 50) der Zweistichproben-t-Test auch für nicht
normalverteilte Stichprobenvariablen Xi , Yi mit unbekannten Erwartungswerten µX , µY und unbekannten aber gleichen Varianzen σ 2 verwendet
werden.
91
Teil II
Funktionen von mehreren Variablen
In MAE3, Kap. 4, hatten wir bereits eine Einführung in die Differenzialrechnung für Funktionen von mehreren Variablen gegeben. Diese Theorie soll hier
fortgesetzt werden, und es soll auch die mehrdimensionale Integration behandelt werden (für die Sie in den Kapiteln zur Wahrscheinlichkeitsrechnung bereits
Beispiele gesehen haben).
3
Niveaumengen, partielle Ableitungen
Wir betrachten vektorwertige Funktionen von mehreren reellen Variablen:
f : D → W,
D ⊆ Rn , W ⊆ R m ,
m, n ∈ N,
>
mit Komponenten fi : D → R, i = 1, 2, . . . , m: f = (f1 , f2 , . . . , fm ) . Der
Graph und das Bild der Funktion f sind gegeben durch
Gf
im(f )
= {(x, f (x)) | x ∈ D} ⊆ Rn+m ,
= {f (x) | x ∈ D} ⊆ Rm .
Der Graph einer Funktion f lässt sich für n + m > 3 nicht mehr gut grafisch
darstellen; in diesem Fall zeichnet man, sofern m ≤ 3 gilt, oft nur das Bild der
Funktion f (s. Beispiele in MAE3, Kap. 4).
Im Fall m = 1 (skalare Felder) bieten Niveaumengen der Funktion f eine
weitere Möglichkeit zur Darstellung des Graphen Gf ⊆ Rn+1 .
Definition 20 (Niveaumenge) Sei n ∈ Rn , D ⊆ Rn eine offene Menge, f :
D → R eine Funktion, und sei c ∈ R. Die Niveaumenge der Funktion f zum
Niveau c ist definiert als das Urbild der einelementigen Menge {c} ⊆ R unter
f:
Nf (c) := f −1 ({c}) = {x ∈ D | f (x) = c} ⊆ D ⊆ Rn .
(56)
Bemerkungen:
• Die englische Bezeichnung für Niveaumengen ist level sets.
• Die Niveaumengen einer Funktion f : D → R, D ⊆ Rn , nennt man im
Fall n = 2 Niveaulinien, im Fall n = 3 Niveauflächen. Wir treffen sie an
z. B. als Höhenlinien auf einer Landkarte, als Isobaren (Linien gleichen
Druckes) auf einer Wetterkarte usw.
• Die Niveaumenge einer Funktion f zum Niveau c, Nf (c), ist auch die
Lösungsmenge der Gleichung f (x) = c. Insbesondere ist Nf (0) die Nullstellenmenge der Funktion f . Für c 6∈ im(f ) gilt Nf (c) = ∅.
3
NIVEAUMENGEN, PARTIELLE ABLEITUNGEN
92
• Für nichtlineare Funktionen f können Niveaumengen oft nur näherungsweise bestimmt werden (z. B. numerisch mit dem Newton-Verfahren, s. Vorlesung MNEU). In der folgenden Grafik zeichnen wir einige Niveaumengen
der Funktion f : R2 → R, f (x, y) := (1 − x)2 + (y − x2 )2 − 10, (x, y) ∈ R2
(MATLAB-Befehl contour):
8
6
0
6
2
0 -2
-4
-6
4
4
2
-6
-4
-2
6
108
-2
-4
2
810
-8
2
4
y
2
-8
2
0
4
108
4 6
6
6
-2
10
8
10
48
-6 - 0 2
4 -2
10
0
-2
4
2
6
8
-4
-3
-2
-1
0
-6 -4
-2
4
108
6
-8
-6
0
0
1
2
3
4
x
• Die Bezeichnung offene Menge erfordert eine weitere Definition:
Definition 21 (offene Teilmenge des Rn ) Sei Ω ⊆ Rn eine Menge. Die
Menge Ω heisst offen, falls
∀x ∈ Ω
∃ε > 0 :
Bε (x) = {y ∈ Rn | ky − xk < ε} ⊆ Ω.
Die offenen Kugeln Br (x) wurden bereits in MAE3, Def. 9, definiert. In
einer offenen Teilmenge Ω ⊆ Rn kann man um jeden Punkt x ∈ Ω eine
offene Kugel legen, die noch vollständig in Ω enthalten ist.
Falls die Funktion f an der Stelle x0 ∈ D (total) differenzierbar ist, so ist jede
Komponente fi partiell differenzierbar an der Stelle x0 (nach jeder Variablen
xj , j = 1, 2, . . . , n), und die Einträge der Jacobi-Matrix der Funktion f an der
Stelle x0 sind gegeben durch
∂fi
(x0 ), i = 1, 2, . . . , m, j = 1, 2, . . . , n
Df (x0 ) ij =
∂xj
(MAE3, Satz 4), also



Df (x0 ) = 


∂f1
∂x1 (x0 )
∂f2
∂x1 (x0 )
..
.
∂fm
∂x1 (x0 )
∂f1
∂x2 (x0 )
∂f2
∂x2 (x0 )
···
···
..
.
∂fm
∂x2 (x0 ) · · ·
∂f1
∂xn (x0 )
∂f2
∂xn (x0 )
..
.
∂fm
∂xn (x0 )



 ∈ Rm×n .


3
NIVEAUMENGEN, PARTIELLE ABLEITUNGEN
93
Die Verallgemeinerung des 1. Taylorpolynoms der Funktion f mit Entwicklungsstelle x0 ist dann gegeben durch die lineare Abbildung T 1 f : Rn → Rm ,
(T 1 f ) (x; x0 ) = f (x0 ) + Df (x0 ) (x − x0 ) ∈ Rm ,
x ∈ Rn .
Der Graph von T 1 f ,
GT 1 f = {(x, (T 1 f ) (x)) | x ∈ Rn } ⊆ Rm+n ,
ist die Tangentialebene an den Graphen von f im Punkt (x0 , f (x0 )) ∈ Rm+n .
Beispiele:
1. n = 1, m = 1, D = R, f : R → R, f (x) := x2 e−2x , x0 = 21 . Die JacobiMatrix der Funktion f an der Stelle x0 ist eine (1 × 1)-Matrix:
1
' 0.184.
2e
(Df ) (x0 ) = f 0 (x0 ) = 2x0 e−2x0 (1 − x0 ) =
Das 1. Taylorpolynom der Funktion f mit Entwicklungsstelle x0 ist gegeben durch die lineare Abbildung T1 f : R → R,
T1 f (x; x0 )
= f (x0 ) + f 0 (x0 )(x − x0 )
= x20 e−2x0 + 2x0 e−2x0 (1 − x0 )(x − x0 )
x
= x0 e−2x0 2(1 − x0 )x + 2x20 − x0 = .
2e
0.4
y = f(x)
y = T 1 f(x;x 0 )
0.35
0.3
(x 0 ,f(x 0 ))
0.25
y
0.2
0.15
0.1
0.05
0
-0.05
-0.1
-0.5
0
0.5
1
1.5
x
2. n = 2, m = 1, D = R, f : R2 → R, f (x) := (3 − x1 )2 − 2(x1 − x22 )2 ,
>
>
x = (x1 , x2 )> ∈ R, x0 = (x0,1 , x0,2 ) := 0, − 21 . Wir erhalten
f (x0 ) = (3 − x0,1 )2 − 2(x0,1 − x20,2 )2 =
71
.
8
4
PARTIELLE ABLEITUNGEN HÖHERER ORDNUNG
94
Wir berechnen die partiellen Ableitungen
∂f
(x0 )
∂x1
∂f
(x0 )
∂x2
=
4x20,2 − 2x0,1 − 6 = −5,
=
−8x30,2 + 8x0,1 x0,2 = 1.
Die Jacobi-Matrix der Funktion f an der Stelle x0 ist eine (1 × 2)-Matrix:
∂f
∂f
(x0 ) ∂x
(x0 ) = −5 1 .
Df (x0 ) = ∂x
1
2
Das 1. Taylorpolynom der Funktion f mit Entwicklungsstelle x0 ist also
gegeben durch die lineare Abbildung T1 f : R2 → R,
T1 f (x; x0 )
4
= f (x0 ) + Df (x0 ) (x − x0 )
71
x1 − 0 + −5 1
=
x2 − − 12
8
71
1
75
=
− 5 (x1 − 0) + x2 +
− 5x1 + x2 .
=
8
2
8
Partielle Ableitungen höherer Ordnung
Ist D ⊆ Rn eine offene Menge und f : D → Rm differenzierbar (also differen∂fi
zierbar an jeder Stelle x0 ∈ D), so sind die partiellen Ableitungen ∂x
:D→R
j
reellwertige Funktionen von n reellen Variablen und damit Df : D → Rm×n
eine matrixwertige Funktion von n reellen Variablen. Wenn die partiellen Ab∂fi
leitungen ∂x
(total) differenzierbar sind an einer Stelle x0 ∈ D, so existieren
j
die zweiten partiellen Ableitungen
∂ ∂fi
∂ 2 fi
(x0 ) :=
(x0 ), i = 1, 2, . . . , m, j, k = 1, 2, . . . , n.
∂xk ∂xj
∂xk ∂xj
5
DIFFERENZIALOPERATOREN
95
Nach dem Satz von Schwarz (H. A. Schwarz, 1843–1921) spielt die Reihenfolge
der partiellen Ableitungen keine Rolle, d. h. es gilt
∂ 2 fi
∂ 2 fi
(x0 ) =
(x0 ),
∂xk ∂xj
∂xj ∂xk
i = 1, 2, . . . , m, j, k = 1, 2, . . . , n.
Im Falle von k = j kürzen wir ab:
∂ 2 fi
∂ 2 fi
,
≡
∂xj ∂xj
∂x2j
j = 1, 2, . . . , n.
Die Werte aller zweiten partiellen Ableitungen können wieder in einer Matrix
zusammengefasst werden, allerdings ist dies dann eine (m × n × n)-Matrix!
Im Fall m = 1 erhält man die (n × n)-Hesse-Matrix (nach O. Hesse, 1811–
1874)
D 2 f (x0 )
ij
= Hf (x0 ) ij =
∂2f
(x0 ),
∂xi ∂xj
i, j = 1, 2, . . . , n,
also




D f (x0 ) = Hf (x0 ) = 


2
∂2f
(x0 )
∂x21
∂2f
∂x2 ∂x1 (x0 )
..
.
∂2f
∂xn ∂x1 (x0 )
∂2f
∂x1 ∂x2 (x0 )
∂2f
(x0 )
∂x22
···
..
.
···
..
.
∂2f
∂xn ∂x2 (x0 )
···
∂2f
∂x1 ∂xn (x0 )
∂2f
∂x2 ∂xn (x0 )
..
.
∂2f
∂x2 (x0 )




 ∈ Rn×n .


n
(57)
Aus dem Satz von Schwarz folgt, dass D 2 f (x0 ) = Hf (x0 ) eine symmetrische
Matrix ist: Hf (x0 )> = Hf (x0 ).
Die Verallgemeinerung des 2. Taylorpolynoms der Funktion f mit Entwicklungsstelle x0 ist gegeben durch die Funktion T2 f : Rn → R,
1
T2 f (x; x0 ) = f (x0 )+Df (x0 )(x−x0 )+ (x−x0 )> D 2 f (x0 )(x−x0 ),
2
5
x ∈ Rn .
Differenzialoperatoren
Ein Differenzialoperator weist einer Funktion eine Funktion zu und enthält die
Ableitung nach einer oder mehreren Variablen.
Differenzialoperatoren erster Ordnung Für eine differenzierbare Funktion f : D → R, D ⊆ R, ist die Abbildung
d
df
: f 7→
= f0
dx
dx
5
DIFFERENZIALOPERATOREN
96
ein Differenzialoperator erster Ordnung. Er weist der differenzierbaren Funktion
f ihre Ableitungsfunktion f 0 : D → R zu. Genauso ist für eine differenzierbare
Funktion f : D → R, D ⊆ Rn , die Abbildung
∂
∂f
: f 7→
∂x1
∂x1
ein (partieller) Differenzialoperator erster Ordnung, der einer differenzierbaren
Funktion f die erste partielle Ableitung nach x1 zuweist. Natürlich ist dann auch
die Abbildung D : f 7→ Df ein Differenzialoperator erster Ordnung, der einer
differenzierbaren Funktion f : D → Rm , D ⊆ Rn , die matrixwertige Funktion
(Tensorfeld) Df : x 7→ Df (x) zuweist, deren Wert an der Stelle x ∈ Rn gerade
die Jacobi-Matrix der Funktion f an der Stelle x ist.
Bemerkungen: In der Kontinuumsmechanik wird auch das Symbol ∇ für den
Differenzialoperator D verwendet (z. B. im linearisierten Verzerrungstensor);
∇u bezeichnet dann die Jacobi-Matrix des Vektorfeldes u : D → Rn , D ⊆ Rn .
Beliebige Linearkombinationen der ersten partiellen Ableitungen von f sind
ebenfalls partielle Differenzialoperatoren erster Ordnung. Dazu gehören
• der Gradient einer differenzierbaren Funktion f : D → R, D ⊆ Rn (skalares Feld):
grad : f 7→ grad f oder ∇ : f 7→ ∇f.
Dabei ist die Funktion (!) grad f ≡ ∇f : D → Rn (Vektorfeld) definiert
als
 ∂f 


grad f ≡ ∇f := 


∂x1
∂f
∂x2
..
.
∂f
∂xn


.


(58)
• die Richtungsableitung einer differenzierbaren Funktion f : D → R, D ⊆
Rn (skalares Feld) in Richtung des Vektors v ∈ Rn :
∂
∂f
: f 7→
∂v
∂v
Dabei ist die Funktion (!)
durch
∂f
∂v
oder v · ∇ : f 7→ (v · ∇) f.
≡ (v · ∇) f : D → R (skalares Feld) definiert
∂f
∂f
∂f
∂f
≡ (v · ∇) f := v · ∇f = v1
+ v2
+ · · · + vn
.
∂v
∂x1
∂x2
∂xn
(59)
• die Divergenz einer differenzierbaren Funktion f : D → Rn , D ⊆ Rn
(Vektorfeld):
div : f 7→ div f ≡ ∇ · f .
5
DIFFERENZIALOPERATOREN
97
Dabei ist die Funktion (!) div f ≡ ∇ · f : D → R (skalares Feld) definiert
als

 ∂  
f1
∂x1
 ∂   f2 
∂f1
∂f2
∂fn

 ∂x2  
+
+ ··· +
=  .  ·  .  . (60)
div f ≡ ∇ · f :=
∂x1
∂x2
∂xn
 ..   .. 
∂
∂xn
fn
Bemerkung: ein Vektorfeld f , dessen Divergenz überall verschwindet, div f ≡
0, heisst quellenfrei oder divergenzfrei.
• die Rotation einer differenzierbaren Funktion f : D → R3 , D ⊆ R3 (Vektorfeld):
rot : f 7→ rot f ≡ ∇ × f .
Dabei ist die Funktion (!) rot f ≡ ∇ × f : D → R3 (Vektorfeld) definiert
als


 ∂  

∂f2
∂f3
−
f1
∂x
∂x
3 
∂x1
 ∂f 2
∂f3 
1
 ∂  ×  f2  .
(61)
rot f = ∇ × f := 
∂x2
 ∂x3 − ∂x1  =
∂
∂f2
∂f1
f
3
∂x3
∂x1 − ∂x2
Bemerkungen:
– Die englische Bezeichnung für die Rotation eines Vektorfeldes ist curl.
– Ein Vektorfeld f , dessen Rotation überall verschwindet, rot f ≡ 0,
heisst wirbelfrei oder konservativ.
Differenzialoperatoren zweiter Ordnung
tion f : D → R, D ⊆ R, ist die Abbildung
Für eine differenzierbare Funk-
d2
d2 f
:
f
→
7
= f 00
dx2
dx2
ein Differenzialoperator zweiter Ordnung. Er weist der zweimal differenzierbaren
Funktion f ihre zweite Ableitungsfunktion f 00 : D → R zu. Genauso ist für eine
zweimal differenzierbare Funktion f : D → R, D ⊆ Rn , die Abbildung
∂2
∂2f
: f 7→
∂x1 ∂x2
∂x1 ∂x2
ein (partieller) Differenzialoperator zweiter Ordnung, der einer zweimal differenzierbaren Funktion f die zweite partielle Ableitung nach x1 und x2 zuweist.
Natürlich ist dann auch die Abbildung D 2 : f 7→ D 2 f ein partieller Differenzialoperator zweiter Ordnung, der einer zweimal differenzierbaren Funktion
f : D → R, D ⊆ Rn , die matrixwertige Funktion D 2 f : x 7→ D 2 f (x) zuweist,
deren Wert an der Stelle x ∈ Rn gerade die Hesse-Matrix der Funktion f an
der Stelle x ist. Beliebige Linearkombinationen der ersten und zweiten partiellen Ableitungen von f sind ebenfalls partielle Differenzialoperatoren zweiter
Ordnung. Dazu gehören
5
DIFFERENZIALOPERATOREN
98
• der Laplace-Operator (P.-S. Laplace, 1749–1827) einer differenzierbaren
Funktion f : D → R, D ⊆ Rn (skalares Feld):
∆ : f 7→ ∆f
oder ∇2 : f 7→ ∇2 f.
Dabei ist die Funktion (!) ∆f ≡ ∇2 f : D → R (skalares Feld) definiert als
∆f ≡ ∇2 f := div (grad f ) ≡ ∇ · (∇f ) =
∂2f
∂2f
∂2f
+
+ ··· +
. (62)
2
2
∂x1
∂x2
∂x2n
• der vektorielle Laplace-Operator einer differenzierbaren Funktion f : D →
R3 , D ⊆ R3 (Vektorfeld):
∆ : f 7→ ∆f
oder ∇2 : f 7→ ∇2 f .
Dabei ist die Funktion (!) ∆f : D → R3 (Vektorfeld) definiert als
≡ ∇2 f := grad (div f ) − rot (rot f ) = ∇ (∇ · f ) − ∇ × (∇ × f )


∆f1
=  ∆f2  .
(63)
∆f3
∆f
Zusammenfassung Wir betonen noch einmal, dass die Ausdrücke ∇f, divf
usw. aller oben eingeführten Differenzialoperatoren wieder Funktionen sind. In
der folgenden Tabelle geben wir eine Übersicht über diese Differenzialoperatoren:
Operator
grad, ∇
∂
∂v ,
v·∇
div, ∇·
rot, ∇×
D, ∇
∆
∆
D2
Operand
skalares Feld
f : Rn → R
skalares Feld
f : Rn → R
Vektorfeld
f : Rn → Rn
Vektorfeld
f : R3 → R3
f : Rn → Rm
skalares Feld
f : Rn → R
Vektorfeld
f : R3 → R3
skalares Feld
f : Rn → R
Ausdruck
Vektorfeld
grad f, ∇f : Rn → Rn
skalares Feld
∂f
,
(v
· ∇) f : Rn → R
∂v
skalares Feld
div f , ∇ · f : Rn → R
Vektorfeld
rot f , ∇ × f : R3 → R3
Tensorfeld
Df , ∇f : Rn → Rm×n
skalares Feld
∆f : Rn → R
Vektorfeld
∆f : R3 → R3
Tensorfeld
D 2 f : Rn → Rn×n
Definition
(58)
(59)
(60)
(61)
MAE3,
Satz 4
(62)
(63)
(57)
6
6
ABLEITUNGSREGELN
99
Ableitungsregeln
Die Ableitungsregeln aus MAE1 (Satz 15) lassen sich auf mehrere Dimensionen
verallgemeinern
Satz 11 (Ableitungsregeln)
1. Faktorregel 1: Sei c ∈ R. Sei f : D → Rm (D ⊆ Rn eine offene Menge)
differenzierbar an der Stelle x0 ∈ D. Dann ist die Funktion h : D → Rm ,
h(x) := cf (x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der
Funktion h an der Stelle x0 ist gegeben durch
Dh(x0 ) = cDf (x0 ) ∈ Rm×n .
2. Faktorregel 2: Sei A ∈ R`×m eine Matrix. Sei f : D → Rm (D ⊆ Rn
eine offene Menge) differenzierbar an der Stelle x0 ∈ D. Dann ist die
Funktion h : D → R` , h(x) := Af (x), differenzierbar an der Stelle x0 ,
und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch
Dh(x0 ) = ADf (x0 ) ∈ R`×n .
3. Summenregel: Seien f : Df → Rm und g : Dg → Rm (Df , Dg ⊆ Rn
offene Mengen) differenzierbar an der Stelle x0 ∈ Df ∩ Dg . Dann ist die
Funktion h : Dh → Rm (Dh := Df ∩ Dg ⊆ Rn ), h(x) := f (x) + g(x),
differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an
der Stelle x0 ist gegeben durch
Dh(x0 ) = Df (x0 ) + Dg(x0 ) ∈ Rm×n .
4. Produktregel 1: Seien f : Df → R und g : Dg → Rm (Df , Dg ⊆ Rn
offene Mengen) differenzierbar an der Stelle x0 ∈ Df ∩ Dg . Dann ist die
Funktion h : Dh → Rm (Dh := Df ∩ Dg ∈ Rn ), h(x) := f (x)g(x),
differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an
der Stelle x0 ist gegeben durch
Dh(x0 ) = g(x0 )∇f (x0 )> + f (x0 )Dg(x0 ) ∈ Rm×n .
5. Produktregel 2: Seien A : DA → R`×m und f : Df → Rm (DA , Df ⊆
Rn offene Mengen) differenzierbar an der Stelle x0 ∈ DA ∩ Df . Dann ist
die Funktion h : Dh → R` (Dh := DA ∩ Df ⊆ Rn ), h(x) := A(x)f (x),
differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an
der Stelle x0 ist gegeben durch Dh(x0 ) ∈ R`×n mit Einträgen
(Dh(x0 ))ij =
m
X
∂Aik
k=1
∂xj
für i = 1, . . . , `, j = 1, . . . , n.
(x0 )fk (x0 ) + A(x0 )Df (x0 ) ij ,
7
KURVEN ENTLANG VON FLÄCHEN
100
6. Kettenregel: Sei g : D → Rn (D ⊆ R` eine offene Menge) differenzierbar
an der Stelle x0 ∈ D, und sei f : Df → Rm (Df ⊆ Rn eine offene Menge
mit g(x0 ) ∈ Df ) differenzierbar an der Stelle g(x0 ). Dann ist die Funktion
h : D → Rm , h(x) := (f ◦ g) (x) = f (g(x)), differenzierbar an der Stelle
x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben
durch
Dh(x0 ) = Df (g(x0 )) Dg(x0 ) ∈ Rm×` .
7. Umkehrregel: Sei f : D → Rn (D ⊆ Rn eine offene Menge) eine Funktin
on und f −1 : im(f
f −1 (f (x)) = x ∀ x ∈ D
) → R ihre Umkehrfunktion:
−1
n
sowie f f (y) = y ∀ y ∈ im(f ) ⊆ R . Sei y 0 ∈ im(f ). Die Funktion f
sei differenzierbar an der Stelle f −1 (y 0 ) ∈ D und Df f −1 (y 0 ) ∈ Rn×n
sei eine invertierbare Matrix (MLAE, Def. 5.5.7). Dann ist die Umkehrfunktion f −1 differenzierbar an der Stelle y 0 , und die Jacobi-Matrix der
Funktion f −1 an der Stelle y 0 ist gegeben durch
−1
Df −1 (y 0 ) = Df f −1 (y 0 )
∈ Rn×n .
Bemerkungen:
• Die Faktorregeln 1 und 2 sind Spezialfälle der Produktregeln 1 und 2: Man
erhält die Faktorregeln aus den Produktregeln, indem man dort die Funktionen f bzw. A als konstant annimmt (dann verschwinden alle partiellen
Ableitungen dieser Funktionen).
• Spezialfälle der Produktregeln führen auf wichtige Identitäten für die im
letzten Kapitel eingeführten Differenzialoperatoren.
• Ein wichtiger Spezialfall der Kettenregel (die totale Ableitung) tritt bei
der Betrachtung von Kurven auf Flächen im Raum auf.
• Die Umkehrregel erhält man aus der Kettenregel mit g := f −1 (dazu muss
natürlich ` = m = n gelten).
7
Kurven entlang von Flächen
Sei [a, b] ⊆ R, a < b, ein Intervall, und sei γ : [a, b] → Rn , t 7→ γ(t) eine auf
(a, b) zweimal differenzierbare Funktion (in den Illustrationen ist immer n = 2).
Das Bild der Funktion γ,
Γ := im(γ) = {γ(t) | t ∈ [a, b]} ⊆ Rn ,
ist eine parametrische Kurve im Rn (“der Weg auf der Landkarte”). Sei ausserdem f : D → R, D ⊆ Rn eine offene Menge, ein zweimal differenzierbares
skalares Feld, x 7→ f (x). Der Graph von f ,
Gf = {(x, f (x)) | x ∈ D} ⊆ Rn+1 ,
ist eine n-dimensionale Fläche im Rn+1 (“die Landschaft”). Es gelte Γ ⊆ D.
7
KURVEN ENTLANG VON FLÄCHEN
101
Wir definieren die Hintereinanderausführung h : [a, b] → R, h(t) := f (γ(t)). Der
Funktionswert h(t0 ) gibt die “Höhe” zu einem Zeitpunkt t0 ∈ [a, b] an, d. h. der
Graph von h,
Gh = {(t, h(t)) | t ∈ [a, b]} ⊆ R2 ,
ist das “Höhenprofil” des durch die Kurve γ beschriebenen Weges entlang der
Fläche Gf . Die Menge
{(γ(t), h(t)) | t ∈ [a, b]} ⊆ Rn+1
ist hingegen eine parametrische Kurve im Rn+1 (“der Weg in der Landschaft”).
Die quadratische Approximation von γ in der Nähe eines Punktes t0 ∈ (a, b)
7
KURVEN ENTLANG VON FLÄCHEN
102
liefert
1
1
γ(t) ' γ(t0 ) + γ̇(t0 )(t − t0 ) + γ̈(t0 )(t − t0 )2 = γ 0 + v 0 (t − t0 ) + a0 (t − t0 )2
2
2
(2. Taylorpolynom an der Entwicklungsstelle t0 , MAE1, Satz 19), wobei γ 0 :=
γ(t0 ) ∈ Rn , v 0 := γ̇(t0 ) ∈ Rn und a0 := γ̈(t0 ) ∈ Rn die Positions-, Geschwindigkeits- und Beschleunigungsvektoren zum Zeitpunkt t0 (auf der Karte!) bezeichnen. Gemäss MAE1, Def. 35, gilt
v 0 = γ̇(t0 ) = lim
t→t0
γ(t) − γ(t0 )
∈ Rn ,
t − t0
also ist v 0 ein Tangentialvektor an die Kurve Γ im Punkt γ 0 .
Für die reellwertige Funktion einer reellen Variablen h bestimmen wir nun
ebenfalls das 2. Taylorpolynom an der Entwicklungsstelle t0 :
1
h(t) ' h(t0 ) + ḣ(t0 )(t − t0 ) + ḧ(t0 )(t − t0 )2 .
2
Zur Berechnung der ersten beiden Ableitungen von h an der Stelle t0 benötigen
wir die Kettenregel (Satz 11). Damit erhalten wir
ḣ(t0 )
ḧ(t0 )
∂f
(γ ) ∈ R,
∂v 0 0
2
= v>
0 D f (γ 0 )v 0 + ∇f (γ 0 ) · a0 ∈ R.
= ∇f (γ 0 ) · v 0 =
(64)
(65)
Da die Funktion γ beliebig war, erhalten wir durch spezielle Wahlen von γ
Erkenntnisse über die Eigenschaften des Gradienten ∇f :
• Sei n = 2, c ∈ im(f ), und γ beschreibe eine Kurve Γ ⊆ R2 , die genau
der Niveaulinie Nf (c) folgt: f (γ(t)) = c, t ∈ [a, b]. Dann gilt auch h(t) =
f (γ(t)) = c, t ∈ [a, b] und damit ḣ(t) = 0, t ∈ (a, b). Sei nun t0 ∈ (a, b).
Der Punkt γ 0 = γ(t0 ) ∈ Rn ist die Position auf der Kurve Γ zum Zeitpunkt
t0 und v 0 = γ̇(t0 ) ∈ Rn der Geschwindigkeitsvektor am Punkt γ 0 . Dieser
steht tangential zur Kurve Γ und damit auch tangential zur Niveaulinie
Nf (c) im Punkt γ 0 . Wegen ḣ(t0 ) = 0 gilt nun mit (64): ∇f (γ 0 ) · v 0 = 0,
und daraus folgt, dass der Gradient der Funktion f im Punkt γ 0 senkrecht
auf dem Vektor v 0 steht. Also steht ∇f (γ 0 ) senkrecht auf der Niveaulinie
Nf (c).
-8
-12
-1
6
-2
0
-4
16
0
-0.5
-1
-5
16
12
8
x2
8
12
8
0
04
4
1
0.5
-4
12
8
4
0
-3
-2
-1
0
x1
1
2
3
4
5
7
KURVEN ENTLANG VON FLÄCHEN
103
• Sei n ∈ N beliebig, γ 0 , v 0 ∈ Rn , t0 ∈ [a, b] und γ(t) := γ 0 + (t − t0 )v 0 .
Die Funktion γ beschreibt die Bahnkurve Γ ⊆ Rn einer gleichförmigen
Bewegung (eine Gerade im Rn ), die zum Zeitpunkt t0 durch den Punkt γ 0
geht und an dieser Stelle den Geschwindigkeitsvektor v 0 hat: γ(t0 ) = γ 0 ,
γ̇(t0 ) = v 0 . Die Änderung der Höhe an dieser Stelle ist gerade gegeben
durch die Richtungsableitung der Funktion f in Richtung v 0 im Punkt
γ0:
∂f
(γ ) = ∇f (γ 0 ) · v 0 = k∇f (γ 0 )kkv 0 k cos(ϑ),
ḣ(t0 ) =
∂v 0 0
wobei ϑ ∈ [0, π] (cos(ϑ) ∈ [−1, 1]) den Öffnungswinkel zwischen den Vektoren ∇f (γ 0 ) und v 0 bezeichnet (MLAE, Def. 1.7.7). Also ist die Änderung der Höhe (d. h. der Funktionswerte von f ) maximal in Richtung des
Gradienten, also für v 0 = λ∇f (γ 0 ), λ ∈ R.
1
8
8
1
(t)
y=h
2
(t)
y=h
3
(t)
γ0
y
16
0
y=h
10
Nf
12
x2
15
12
0.5
4
0
-4
-8
-12
-16
-20
20
0
4
γ1
5
γ2
16
0
γ3
12
-0.5
-20
-16
-12
-8
-4
0
4
-5
0 4
8
-1
-5
-10
0
x1
5
-2
-1
0
1
2
t
Lokale Extrema einer Funktion f : D → R, D ⊆ Rn Wir betrachten
wieder parametrisierte Geraden im Rn , d. h. Funktionen γ(t) = γ 0 + (t − t0 )v 0 ,
t ∈ [a, b], für gegebene t0 ∈ [a, b] und γ 0 , v 0 ∈ Rn , mit im(γ) ⊆ D. Wie vorher
ist der Graph der Funktion h : [a, b] → R, h(t) := f (γ(t)), Gh ⊆ R2 , das
Höhenprofil des Weges entlang des Graphen Gf ⊆ Rn+1 . Falls die Funktion f
an der Stelle γ 0 ein lokales Extremum (Maximum oder Minimum) besitzt, so
besitzt auch die Funktion h an der Stelle t0 ein lokales Extremum, und zwar
in jeder beliebigen Richtung v 0 ∈ Rn ! Aus MAE1, Satz 20, wissen wir, dass
dann gelten muss: ḣ(t0 ) = 0 und ḧ(t0 ) 6= 0. Mit (64), (65) erhalten wir die
notwendigen und hinreichenden Bedingungen
∂f
(γ ) = 0 ∀ v 0 ∈ Rn ,
∂v 0 0
2
ḧ(t0 ) = v >
6
0, ∀ v 0 ∈ Rn .
0 D f (γ 0 )v 0 =
ḣ(t0 ) = ∇f (γ 0 ) · v 0 =
7
KURVEN ENTLANG VON FLÄCHEN
104
Satz 12 (Bedingungen für ein lokales Extremum)
1. (notwendige Bedingung) Die Funktion f : D → R, D ⊆ Rn besitze an der
Stelle x0 ∈ D ein lokales Extremum (Minimum oder Maximum), und f
sei an der Stelle x0 ∈ D differenzierbar. Dann gilt ∇f (x0 ) = 0.
2. (hinreichende Bedingung) Die Funktion f : D → R, D ⊆ Rn , sei an
der Stelle x0 ∈ D zweimal differenzierbar. Falls ∇f (x0 ) = 0 und falls
die Hesse-Matrix D 2 f (x0 ) ∈ Rn×n definit ist (d. h. ihre Eigenwerte sind
entweder alle positiv oder alle negativ), dann hat f an der Stelle x0 ein
lokales Extremum. Dabei handelt es sich um ein
• lokales Minimum, falls D 2 f (x0 ) positiv definit ist (alle Eigenwerte
positiv),
• lokales Maximum, falls D 2 f (x0 ) negativ definit ist (alle Eigenwerte
negativ).
Bemerkungen:
• Die Nullstellen des Gradienten ∇f : D → Rn (die sog. kritischen Punkte)
sind also Kandidaten für Extremstellen von f .
• Ist in einem kritischen Punkt (!) x0 ∈ D die Hesse-Matrix D 2 f (x0 ) indefinit (sowohl positive als auch negative Eigenwerte), so hat f an der Stelle
x0 einen Sattelpunkt.
• Im Fall n = 1 entspricht der Satz 12 dem Satz 20 aus MAE1. Der Satz 12
ist also eine Verallgemeinerung auf n ≥ 1 Dimensionen.
Beispiel: Wir wollen die kritischen Punkte der Funktion
f (x1 , x2 ) := (3 − x1 )2 − 2(x1 − x22 )2 ,
(x1 , x2 ) ∈ R2 ,
finden und charakterisieren. Dazu berechnen wir den Gradienten und die HesseMatrix von f :
! ∂f
−2x1 + 4x22 − 6
∂x1 (x1 , x2 )
∇f (x1 , x2 ) =
=
,
∂f
8(x1 − x22 )x2
∂x2 (x1 , x2 )
! ∂2f
∂2f
(x
,
x
)
(x
,
x
)
2
1
2
1
2
−2
8x2
∂x
∂x
∂x1
2
1
2
=
,
D f (x1 , x2 ) =
∂2f
∂2f
8x2 8(x1 − 3x22 )
(x1 , x2 )
∂x2 ∂x1 (x1 , x2 )
∂x2
2
für (x1 , x2 ) ∈ R2 . Die kritischen Punkte sind die Nullstellen des Gradienten von
f:
3
−3
√
√3
p1 =
, p2 =
, p3 =
.
0
− 3
3
7
KURVEN ENTLANG VON FLÄCHEN
Die Hesse-Matrizen und ihre Eigenwerte
−2
0
D 2 f (p1 ) =
0 −24
√ −2
−8 3
√
D 2 f (p2 ) =
−8 3 −48
√ −2
8 3
√
D 2 f (p3 ) =
8 3 −48
105
an diesen Stellen sind gegeben durch
⇒ λ1 = −24, λ2 = −2,
⇒ λ1 ' −51.9, λ2 ' 1.85,
⇒ λ1 ' −51.9, λ2 ' 1.85.
Nach Satz 12 hat die Funktion f an der Stelle p1 ein lokales Maximum und an
den Stellen p2 , p3 jeweils einen Sattelpunkt.
8
8
BEISPIELE FÜR PARTIELLE DIFFERENZIALGLEICHUNGEN
106
Beispiele für partielle Differenzialgleichungen
Ähnlich wie eine gewöhnliche Differenzialgleichung (MAE3, Def. 15) ist eine partielle Differenzialgleichung (pDgl) eine mathematische Gleichung für eine unbekannte Funktion, in der auch partielle Ableitungen dieser Funktion vorkommen.
Dazu muss die gesuchte Funktion von mehr als einer Variablen abhängen. PDgln
treten in vielen mathematischen Modellen auf – wir geben hier einige Beispiele:
• lineare pDgl 1. Ordnung:
– lineare Transportgleichung:
∂u
∂t
+ b · ∇u = 0
• lineare pDgln 2. Ordnung:
– Wellengleichung:
∂2u
∂t2
= ∆u
– Wärmeleitungsgleichung, Diffusionsgleichung:
∂u
∂t
= ∆u
– Laplace-Gleichung: ∆u = 0
∂2u
∂t2
– allgemeine Wellengleichung:
+ b · ∇u − div (A∇u) = 0
• lineare pDgln höherer Ordnung:
– Airy-Gleichung (G. B. Airy, 1801–1892):
– Balkengleichung:
2
∂ u
∂t2
+
4
∂ u
∂x4
∂u
∂t
+
∂3u
∂x3
=0
=0
• nichtlineare Gleichungen:
– Minimalflächengleichung: div
– skalare Erhaltungsgleichung:
√
∂u
∂t
∇u
1+|∇u|2
=0
+ div (F (u)) = 0
– Konvektions-Diffusionsgleichung: ∂u
∂t + div (bu − A∇u) = f , wobei
b, A, f Funktionen von u sein können.
• lineare Systeme (die unbekannte Funktion u ist vektorwertig):
– lineare Elastizitätsgleichung:
∂2u
∂t2
− µ∆u − (λ + µ)∇(div u) = 0
– Maxwell-Gleichungen (J. C. Maxwell, 1831–1879):
rot B
div B
rot E
= ∂E
∂t ,
= 0,
div E
= − ∂B
∂t ,
= 0.
• nichtlineare Systeme:
– Reaktions-Diffusions-System:
∂u
∂t
− ∆u = f (u)
– Navier-Stokes Gleichungen (C. L. M. H. Navier, 1785–1836; G. G. Stokes, 1819–1903) für inkompressible Fluide:
∂u
+ (u · ∇)u − ∆u
∂t
div u
= −∇p,
=
0.
9
MEHRDIMENSIONALE INTEGRATION
107
– Halbleiter-Gleichungen (W. van Roosbroeck, 1950):
div (ε∇ψ) = q(n − p − N ),
∂n
+ div (nµn ∇ψ − Dn ∇n) = Un (ψ, n, p),
∂t
∂p
+ div (−pµp ∇ψ − Dp ∇p) = Up (ψ, n, p),
∂t
9
Mehrdimensionale Integration
In der Wahrscheinlichkeitstheorie hatten wir bereits Integrale von Funktionen
f : D → R, D ⊆ Rn , über Quader (a, b) ⊆ Rn berechnet:
Zb1 Zb2
Z
···
f (x) dx =
(a,b)
Zbn
a1 a2
f (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 ,
(66)
an
wobei a = (a1 , a2 , . . . , an )> , b = (b1 , b2 , . . . , bn )> mit a < b. Dabei sind auch
ai = −∞ und bj = ∞ zugelassen, was auf uneigentliche Integrale führt. Der
Ausdruck auf der rechten Seite von (66) kann “von innen nach aussen” durch nfache eindimensionale Integration berechnet werden, die wir in MAE2 behandelt
haben. Der bereits einmal erwähnte Satz von Fubini (G. Fubini, 1879–1943)
besagt, dass für stetige Integranden f die Reihenfolge der eindimensionalen
Integrationen keine Rolle spielt.
Für Integrale über kompliziertere Gebiete Ω ⊆ Rn können wir eine Gebietszerlegung verwenden: falls Ω = Ω1 ∪ Ω2 , dann gilt
Z
Z
Z
Z
f (x) dx = f (x) dx + f (x) dx −
f (x) dx,
Ω
Ω1
Ω1 ∩Ω2
Ω2
bzw. allgemeiner für nichtüberlappende Zerlegungen Ω =
N
[
Ωj , Ωi ∩ Ωk = ∅,
j=1
i 6= k:
Z
f (x) dx =
Ω
N Z
X
f (x) dx.
j=1Ω
j
Damit lassen sich z. B. Integrale über Vereinigungen von nichtüberlappenden
Quadern leicht berechnen, so lange die Seitenflächen der Quader senkrecht zu
einer Koordinatenachse stehen.
Transformationssatz Ist dies nicht der Fall, so verwendet man den Transformationssatz (Verallgemeinerung der Integration durch Substitution; MAE2,
Kap. 1.7):
9
MEHRDIMENSIONALE INTEGRATION
108
Satz 13 (Transformationssatz) Sei f : D → R, D ⊆ Rn , ein skalares Feld und
sei Φ : Ω → Rn , Ω ⊆ Rn , mit Φ(Ω) ⊆ D, ein Diffeomorphismus (d. h. umkehrbar und sowohl Φ als auch Φ−1 sind stetig differenzierbar). Das Integral von f
über Φ(Ω) ist dann gegeben durch
Z
Z
f (x) dx = f (Φ(y)) |det (DΦ(y))| dy,
(67)
Ω
Φ(Ω)
falls das Integral auf der rechten Seite existiert.
Bemerkung: die Determinante der Jacobi-Matrix DΦ auf der rechten Seite von
(67) wird als Jacobi-Determinante bezeichnet.
Beispiel: Wir wollen die Funktion f (x1 , x2 ) := (3 − x1 )2 − 2(x1 − x22 )2 über den
Kreisringsektor Φ(Ω) ⊆ R2 integrieren, wobei
hπ πi
−2 + y1 cos(y2 )
Ω := [1, 3] ×
,
, Φ(y1 , y2 ) :=
.
−1 + y1 sin(y2 )
6 3
Wir berechnen zuerst die Jacobi-Matrix der Koordinatentransformation Φ:
! ∂Φ1
∂Φ1
(y
,
y
)
(y
,
y
)
cos(y2 ) −y1 sin(y2 )
1
2
1
2
∂y1
∂y2
DΦ(y1 , y2 ) =
=
,
∂Φ2
∂Φ2
sin(y2 ) y1 cos(y2 )
∂y (y1 , y2 )
∂y (y1 , y2 )
1
2
mit Jacobi-Determinante
DΦ(y1 , y2 ) = y1 cos2 (y2 ) + y1 sin2 (y2 ) = y1 .
f(x 1 ,x 2 )
2
-1-82
-16
-4
f( Φ 1 (y 1 ,y 2 ), Φ 2 (y 1 ,y 2 ))|det(D Φ(y 1 ,y 2 ))|
0
-4
1.5
04
8
1216
20
-206
1.5 -1
4
2
20
4
y
12
20
0.5
0
0
8
0
0.5
12
1
8
-1
-2
16
1.5
2
y
-1
0
x
1
2
12
12
8
-0.5
16
x
1
12
0.5
16
2
8
12
8
1
2.5
3
3.5
1
1
Nach dem Transformationssatz gilt nun
Z
Z
f (x) dx =
f (Φ(y)) |det (DΦ(y))| dy
Φ(Ω)
Ω
Z3 Zπ/3
=
f (−2 + y1 cos(y2 ), −1 + y1 sin(y2 )) |y1 | dy2 dy1
1 π/6
9
MEHRDIMENSIONALE INTEGRATION
Z3
=
109

Zπ/3
Zπ/3

 4
cos(y2 ) sin2 (y2 ) dy2 − 2y15
sin4 (y2 ) dy2  dy1 +
4y1

1
π/6
Z3
+

Zπ/3
Zπ/3

 4
cos2 (y2 ) dy2  dy1 +
sin3 (y2 ) dy2 − y13
8y1
1
Z3
−
+
π/6
π/6

 3
8y1
1
Z3
π/6


Zπ/3

cos(y2 ) sin(y2 ) dy2 + 20y13
sin2 (y2 ) dy2  dy1 +
Zπ/3
π/6
π/6


Zπ/3
Zπ/3
 2

cos(y2 ) dy2 + 24y12
sin(y2 ) dy2 + 7y1  dy1
2y1
1
π/6
π/6
√
!
√
√
7π
3 − 2π 5 21 3 − 23 4 7π + 8 3
2
=
y1 +
y1 −
y1 + 13
3 − 1 y1 +
y1 dy1
16
6
4
6
1
√
5793 3 91π 1691
=
−
−
' 20.5.
20
2
5
R
Bemerkung: (f ≡ 1) Das Integral 1 dx =: vol(Ω) ist das Volumen von Ω ⊆ Rn .
Z3
Ω
Abgesehen vom (räumlichen) Integral eines skalaren Feldes f : D → Rn ,
D ⊆ Rn , über ein Gebiet Ω ⊆ Rn , gibt es auch noch das Kurvenintegral und
das Oberflächenintegral. Diese beiden Arten von Integralen benötigen zur Auswertung eine Parametrisierung des Integrationsbereichs.
Kurvenintegral (Wegintegral)
Definition 22 (Kurvenintegral) Sei γ : [a, b] → Rn differenzierbar auf (a, b),
und sei Γ := γ([a, b]) ⊆ Rn das Bild des Intervalls [a, b] unter γ (eine parametrische Kurve).
1. Sei f : D → R, D ⊆ Rn , ein stetiges skalares Feld, wobei Γ ⊆ D. Das
Kurvenintegral der Funktion f entlang des Weges Γ ist definiert als
Zb
Z
f (γ(t)) kγ̇(t)k dt.
f ds :=
Γ
(68)
a
2. Sei f : D → Rn , D ⊆ Rn , ein stetiges Vektorfeld, wobei Γ ⊆ D. Das
Kurvenintegral der Funktion f entlang des Weges Γ ist definiert als
Zb
Z
f · ds :=
Γ
f (γ(t)) · γ̇(t) dt.
a
(69)
9
MEHRDIMENSIONALE INTEGRATION
110
Bemerkungen:
• Durch die Funktion γ̇ wird eine Orientierung der Kurve Γ definiert.
• Ist die Kurve
Γ geschlossen (γ(a) = γ(b)), so verwendet man auch das
H
Symbol für das Wegintegral.
R
• (f ≡ 1) Das Integral 1 ds ist die Länge der Kurve Γ ⊆ Rn .
Γ
Oberflächenintegral
Definition 23 (Oberflächenintegral) Sei ϕ : U → R, U ⊆ Rn−1 , ein stetig
differenzierbares skalares Feld, dann ist
Σ := Gϕ = {(x, ϕ(x)) ∈ Rn | x ∈ U } ⊆ Rn
eine (n − 1)-dimensionale Fläche im Rn .
1. Sei f : D → R, D ⊆ Rn , ein stetiges skalares Feld, wobei Σ ⊆ D. Das
(skalare) Oberflächenintegral der Funktion f über Σ ist definiert als
Z
Z
p
(70)
f dσ := f (x, ϕ(x)) 1 + k∇ϕ(x)k2 dx.
Σ
U
2. Sei f : D → Rn , D ⊆ Rn , ein stetiges Vektorfeld, wobei Σ ⊆ D. Das
(vektorielle) Oberflächenintegral der Funktion f über Σ ist definiert als
Z
Z
p
f · dσ := f (x, ϕ(x)) · n (x, ϕ(x)) 1 + k∇ϕ(x)k2 dx,
(71)
Σ
U
wobei n ein Normaleneinheitsfeld auf Σ bezeichnet.
Bemerkungen:
• Auf der rechten Seite stehen jeweils Integrale über die Teilmenge U des
(flachen!) Rn−1 .
• Die beiden möglichen Normaleneinheitsfelder sind gegeben durch n : Σ →
Rn ,
±1
−∇ϕ(x)
n± (x, ϕ(x)) := p
∈ Rn , x ∈ U.
1
1 + k∇ϕ(x)k2
Die Vektoren n± (x, ϕ(x)) haben (Euklidische) Länge 1 und stehen im
Punkt (x, ϕ(x)) ∈ Σ senkrecht auf der Tangentialebene an die Fläche Σ
in diesem Punkt; sie heissen deshalb Normaleneinheitsvektoren der Fläche
Σ im Punkt (x, ϕ(x)) ∈ Σ. Durch die Wahl des Vorzeichens wird die
Orientierung der Fläche Σ festgelegt.
LITERATUR
• Das Integral
111
R
f · dσ heisst der Fluss des Vektorfeldes f durch die Fläche
Σ
Σ. Beachten Sie, dass das Vorzeichen des Flusses von der Orientierung der
Fläche abhängt.
H
• Ist die Fläche geschlossen, so verwendet man auch das Symbol für das
Oberflächenintegral.
R
• (f ≡ 1) Das Integral 1 dσ ist der Flächeninhalt von Σ ⊆ Rn .
Σ
Integralsätze von Gauss und Stokes Die Integralsätze von Gauss (auch
bekannt als Divergenzsatz; J. L. Lagrange, 1762; C. F. Gauss, 1813; G. Green,
1825; M. Ostrogradski, 1831) und Kelvin-Stokes (W. Thomson (Lord Kelvin),
1824–1907; G. Stokes, 1819–1903) vereinfachen manchmal die Berechnung von
Oberflächen- und Kurvenintegralen.
Satz 14 (Gaussscher Integralsatz) Sei Ω ⊆ Rn eine kompakte Menge mit stückweise glattem Rand Σ = ∂Ω. Der Rand sei orientiert durch ein äusseres Normaleneinheitsfeld n : Σ → Rn (d. h. die Normaleneinheitsvektoren auf Σ zeigen
“nach aussen”, also weg von Ω). Sei f : D → Rn , D ⊆ Rn , ein stetig differenzierbares Vektorfeld, wobei Ω ⊆ D. Dann gilt
Z
I
div f (x) dx = f · dσ.
(72)
Ω
Σ
Bemerkung: Wegen dieses Satzes wird div f auch als Quellendichte des Vektorfeldes f interpretiert.
Satz 15 (klassischer Integralsatz von Stokes) Sei Γ ⊆ R3 ein differenzierbarer,
geschlossener Weg, und sei Σ ⊆ R3 eine zweidimensionale Fläche, deren Rand
Γ ist. Sei f : D → R3 , D ⊆ R3 , ein stetig differenzierbares Vektorfeld, wobei
Σ ⊆ D. Dann gilt
Z
I
(rot f ) · dσ = f · ds.
(73)
Σ
Γ
Bemerkung: Wegen dieses Satzes wird rot f auch als Wirbeldichte des Vektorfelds f interpretiert.
Literatur
[1] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik;
Vieweg
[2] L. Papula: Mathematik für Ingenieure und Naturwissenschaftler (3 Bände);
Vieweg & Teubner
[3] M. Sachs: Wahrscheinlichkeitsrechnung und Statistik; Hanser
[4] W. A. Stahel: Statistische Datenanalyse; Vieweg
Herunterladen