Statistik für Ingenieure

Statistik für Ingenieure
Vorlesung von
Univ.Prof.Dr. Kurt Marti
UniBw München
LATEX-Satz: Elisabeth Lößl
Neubiberg/München, Januar 2000
Überarbeitete Fassungen: Januar 2002, Januar 2004
.................................
[email protected]
http://www.stoch.net
2
Inhaltsverzeichnis
1 Ereignisse und Wahrscheinlichkeiten
1.1 Zufallsvariablen und Ereignisse . . . . . . . . . . . . . . . . .
1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten
1.1.2 Elementare Definition von Wahrscheinlichkeiten . . . .
1.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen . . . . . . . .
1.3.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . .
1.3.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . .
1.4 Masszahlen von Verteilungen . . . . . . . . . . . . . . . . . . .
1.4.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Momente von X bzw. PX . . . . . . . . . . . . . . . .
1.4.4 Schiefe einer Verteilung . . . . . . . . . . . . . . . . . .
1.5 Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . .
1.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . .
1.5.2 Dichtefunktion . . . . . . . . . . . . . . . . . . . . . .
1.5.3 Erwartungswert, Momente von Y = ϕ(X) . . . . . . .
1.6 Mehrdimensionale Zufallsgrössen . . . . . . . . . . . . . . . .
1.6.1 Verteilungstypen . . . . . . . . . . . . . . . . . . . . .
1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen . . . . . .
1.6.3 Funktionen mehrdimensionaler Zufallsgrössen . . . . .
1.7 Regression (der Grundgesamtheit) . . . . . . . . . . . . . . . .
1.7.1 Regression einer Stichprobe von (X, Y) . . . . . . . . .
1.8 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Mediane . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Quantile (der Ordnung α) . . . . . . . . . . . . . . . .
2 Statistische Methoden
2.1 Praktische Berechnung von Wahrscheinlichkeiten . .
2.1.1 Klassische Definition der Wahrscheinlichkeit
2.2 Approximation von Wahrscheinlichkeiten . . . . . .
2.2.1 Stichproben . . . . . . . . . . . . . . . . . .
2.2.2 Relative Häufigkeiten . . . . . . . . . . . . .
2.3 Approximative Bestimmung der Verteilung . . . . .
2.3.1 Empirische Verteilungsfunktion . . . . . . .
2.3.2 Empirische Momente . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
10
16
17
19
19
21
28
28
28
29
31
35
36
37
39
41
43
46
47
52
54
54
54
55
.
.
.
.
.
.
.
.
57
57
57
58
58
58
61
61
62
3
Inhaltsverzeichnis
2.4
2.5
2.6
2.7
2.8
2.9
2.10
Index
4
2.3.3 Schätzung von µ = EX durch x . . . . . . . . . . . . . . . . . . . . . .
2.3.4 Abschätzung der Abweichung zwischen X und µ . . . . . . . . . . . . .
Konfidenzintervalle (Vertrauensintervalle) . . . . . . . . . . . . . . . . . . . . .
2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer Normalverteilung mit bekannter Varianz . . . . . . . . . . . . . . . . . . .
2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2 . . . . . . . . . . . . .
Vertrauensintervalle/Erwartungswert . . . . . . . . . . . . . . . . . . . . . . .
Vertrauensintervalle für Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konfidenzintervalle bei beliebigen Verteilungen . . . . . . . . . . . . . . . . . .
Testen (Prüfen) von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . .
Parameter-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10.1 Gütekriterien für Schätzfunktionen . . . . . . . . . . . . . . . . . . . .
2.10.2 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10.3 Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . .
63
65
67
69
72
73
75
76
78
79
84
85
87
90
92
1 Ereignisse und Wahrscheinlichkeiten
1.1 Zufallsvariablen (zufällige oder stochastische Größen)
und Ereignisse
Die Stochastik, also die Wahrscheinlichkeitstheorie und Statistik, befasst sich mit Gesetzmäßigkeiten und Methoden zur Beschreibung, Untersuchung und Beeinflussung zufälliger Ereignisse
und Prozesse.
Grundlegend dazu sind Experimente E mit zufälligem Ausgang, die (prinzipiell) beliebig oft
wiederholbar seien:
E1 , E2 , . . . , Ej , . . .
bezeichnet also eine Folge von Wiederholungen (räumlich oder zeitlich) ein- und desselben
Experiments E.
Der Ausgang, das Ergebnis oder das Resultat eines Experiments E lässt sich eigentlich
immer beschreiben durch eine oder mehrere reellwertige Größen X, Y, Z, . . . ; zu Beginn dieses Kapitels nehmen wir an, dass zur Beschreibung des Ausgangs des Experiments E eine
reellwertige Größe X ausreicht.
In vielen praktischen Situationen stellt man nun Folgendes fest:
A) die möglichen Werte x von X liegen in einem bestimmten, gegebenen Bereich Ω der
reellen Zahlen ;
R
B) der einzelne Wert X = x, den die Größe X bei einer bestimmten Durchführung des
Experiments E annimmt (zeigt, aufweist, etc.), ist ungewiss, lässt sich also nicht mit
Bestimmtheit (Sicherheit) vorhersagen oder ausrechnen, da dies von unkontrollierbaren,
zufälligen Einflüssen abhängt;
C) angeben lässt sich hingegen die Wahrscheinlichkeit
P (I) = PX (I) = P (X ∈ I),
(1.1a)
d.h. eine Masszahl 0 ≤ PX (I) ≤ 1 für den Grad der Sicherheit mit dem X irgendeinen
Wert x in einem gegebenen Intervall I ⊂ annimmt.
R
Definition 1.1.1 (vorläufige Definition) Treffen die obigen Eigenschaften (A), (B) und (C)
zu, so heißt X eine Zufallsvariable oder stochastische Variable.
Die Abbildung
PX : I → PX (I) = P (X ∈ I), I ⊂
R, I Intervall
(1.1b)
heißt die (Wahrscheinlichkeits-) Verteilung der Zufallsvariablen X (vorläufige Definition der Verteilung).
Beispiele
5
1 Ereignisse und Wahrscheinlichkeiten
Experiment E
- Werfen eines Würfels
- Werfen einer Münze
- Messen physikalischer, chemischer Größen
- Radioaktiver Zerfall
- Qualitätskontrolle von Autoreifen
- Abgaskontrolle
- Erhebung medizinischer Daten
(mehrere Merkmale)
Zufallsvariable X, Y, Z, . . .
X = Augenzahl, Ω = {1, 2, 3, 4, 5, 6}
Y = 1, wenn Kopf, Y = 0, wenn Zahl, Ω = {0, 1}
Z = Messwert der betr. physikalischen,
chemischen Größe, Ω Intervall
N = Anzahl der untersuchten Teilchen, die pro
Zeiteinheit ausgesendet werden, Ω =
T = Laufzeit eines Reifens einer bestimmten
Sorte, Ω = [0, +∞)
p = CO-Konzentration im Abgas eines bestimmten
Ölbrenners (Marke, Typ gegeben), Ω = [0, 1]
N
X1 , X2 , . . . , Xr : Alter, Geschlecht, Gewicht, Blutdruck, etc. eines Mitgliedes einer bestimmten Bevölkerungsgruppe in einem bestimmten Zeitpunkt.
Im Folgenden bezeichne
I : a < x < b, a ≤ x < b, a < x ≤ b, a ≤ x ≤ b
ein beliebiges endliches oder unendliches Intervall, also auch a = −∞ oder b = +∞.
Wir betrachten dann das Ereignis
[X ∈ I], d.h. [a < X < b] oder [a ≤ X ≤ b], . . . ,
(1.1c)
dass die zufällige Größe X irgendeinen Wert x im Intervall I annimmt. Während man nicht
mit Sicherheit vorhersagen kann, welchen Wert X annehmen wird, verlangt man also nach
Definition 1.1.1, dass die Wahrscheinlichkeit
P (X ∈ I) oder P (a < X < b), P (a ≤ X < b), . . . ,
(1.1d)
dass X irgendeinen Wert in I annimmt, definiert ist, wobei 0 ≤ P (X ∈ I) ≤ 1.
Spezialfälle:
a) I = [a, b], b = a ⇒ P (X ∈ I) = P (X = a) = Wahrscheinlichkeit, dass X den Wert a
annimmt
b) I = (−∞, b] ⇒ P (X ∈ I) = P (X ≤ b) = Wahrscheinlichkeit, dass X einen Wert x
annimmt, der nicht größer als b ist.
c) I = (−∞, +∞) ⇒ P (X ∈ I) = P (−∞ < X < +∞) = Wahrscheinlichkeit, dass X
irgend eine reelle Zahl x annimmt. Da X nach Voraussetzung nur reelle Zahl annehmen
kann, ist [−∞ < X +∞] ein sicheres Ereignis. Man setzt deshalb P (−∞ < X < +∞) :=
1.
d) I = (a, b), a = b ⇒ P (X ∈ I) = P (a < X < a). Da a < X < a ein unmögliches Ereignis
ist, setzt man P (a < X < a) := 0.
Axiome über die Verteilung PX : I → P (X ∈ I) von X
Man verlangt nun, dass die Verteilung PX von X folgende Eigenschaften haben soll:
6
1.1 Zufallsvariablen und Ereignisse
A1) 0 ≤ P (X ∈ I) ≤ 1 für alle Intervalle I ⊂
R
A2) P (X ∈ Ω) = P (sicheres Ereignis) := 1
P (X ∈ ∅) = P (unmögliches Ereignis) := 0
A3) Sind I1 , I2 zwei disjunkte Intervalle und I ein Intervall, so das I := I1 ∪ I2 , dann gilt das
Additionsgesetz
P (X ∈ I) = P (X ∈ I1 ∪ I2 ) = P (X ∈ I1 ) + P (X ∈ I2 ).
Folgerung aus den Axiomen (A1) - (A3)
i) Wegen Ω ⊂
R ist [X ∈ R] ebenfalls ein sicheres Ereignis. Also gilt P (X ∈ R) = 1.
ii) Sei c eine beliebige Zahl. Dann
S gilt
= (−∞, +∞) = (−∞, c] (c, +∞) disjunkte Vereinigung von
R
R.
Aus (A2), (A3) folgt
1 = P (X ∈
R) = P (X ≤ c) + P (X > c)
(1.2)
und damit
P (X > c) = 1 − P (X ≤ c).
iii) Sei I1 ⊂ I2 . Dann gilt das Monotoniegesetz
P (X ∈ I1 ) ≤ P (X ∈ I2 )
(1.3)
Beweis: Sei z.B. a < c < d < b und
I1 = [c, d], I2 = (a, b].
S
S
Dann ist I2 = (a, d] (d, b], (a, d] = (a, c) I1 . Daraus folgt
P (X ∈ I2 ) = P (X ∈ (a, d]) + P (X ∈ (d, b])
(wegen (A3))
= P (X ∈ (a, c)) +P (X ∈ I1 ) + P (X ∈ (d, b]) (wegen (A3))
{z
}
|
{z
}
|
≥0
≥0
und damit
P (X ∈ I2 ) ≥ P (X ∈ I1 ).
Ausdehnung der Verteilung PX : I → P (X ∈ I) auf allgemeinere Zahlenmengen B
bzw. Ereignisse [X ∈ B]
7
1 Ereignisse und Wahrscheinlichkeiten
Beispiel 1.1.1 Gegeben sei B = {x : |x| > c}. Gesucht ist also die Wahrscheinlichkeit
P (|X| > c).
B ist kein Intervall, aber
B = I1
[
I2 , I1 = (−∞, c), I2 = (c, +∞),
ist eine Vereinigung disjunkter Intervalle. Man definiert daher
P (X ∈ B) := P (X ∈ I1 ) + P (X ∈ I2 ).
Wegen (A2), (A3) folgt hier noch:
P (X ∈ B) = P (|X| > c) = 1 − P (|X| ≤ c).
(1.4)
Allgemeiner Fall:
Definition 1.1.2 B sei die Vereinigung B =
N
[
Ij von endlich (N < +∞) oder höchstens
j=1
abzählbar unendlich (N = ∞) vielen disjunkten Intervallen Ij . Man definiert dann P (X ∈
N
X
B) :=
P (X ∈ Ij ).
j=1
Damit die Definition 1.1.2 konsistent ist, benötigt man noch ein weiteres Axiom:
A4) Für jede beliebige Folge I1 , I2 , . . . , Ij , . . . disjunkter Intervalle Ij , j ≥ 1, ist
∞
X
P (X ∈ Ij )
j=1
eine konvergente Reihe und stellt die Wahrscheinlichkeit dar, dass X einen Wert x in
∞
[
Ij annimmt.
j=1
8
1.1 Zufallsvariablen und Ereignisse
Beispiel 1.1.2 X sei die beim Wurf eines homogenen Würfels erzielte Zahl n. Die Ereignisse
[X = n], n = 1, 2, . . . , 6, heißen hier auch Elementarereignisse. Für sie gilt
1
P (X = n) = , n = 1, 2, . . . , 6.
6
Daraus folgt z.B.
1
1
P (1 < X < 2) = 0, P (1 ≤ X < 2) = , P (1 ≤ X ≤ 2) =
6
3
5
1
P (1 ≤ X < 6) =
, P (X = gerade) = P (X = ungerade) =
6
2
5
1
1
3
<X<
=
, P (X < 2.4) = .
P
2
2
6
3
Komplementäre Ereignisse:
Sei B eine endliche oder abzählbar unendliche Vereinigung disjunkter Intervalle. Das Komplement von B
R
B := \B = {x : x ∈
/ B} ist wieder eine endliche oder abzählbar unendliche
Vereinigung disjunkter Intervalle.
Somit ist auch P (X ∈ B) definiert!
Beispiel 1.1.3
B = {x : |x| > c} ⇒ B = {x : |x| ≤ c}.
Für eine Zufallsvariable X heißen die Ereignisse
[X ∈ B] und [X ∈ B]
komplementäre Ereignisse.
Eigenschaften von PX : B → P (X ∈ B)
Aus den Axiomen (A1)-(A4) ergibt sich nun das folgende grundlegende Resultat:
Satz 1.1.1 Seien B, B1 , B2 beliebige Vereinigungen von höchstens abzählbar unendlich vielen
disjunkten Intervallen. Dann gilt
a)
0 ≤ P (X ∈ B) ≤ 1
(1.5a)
B1 ⊂ B2 ⇒ P (X ∈ B1 ) ≤ P (X ∈ B2 )
(1.5b)
P (X ∈ B) = 1 − P (X ∈ B)
(1.5c)
b)
c)
d)
P (X ∈ B1
[
B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ), wenn B1
\
B2 = ∅
(1.5d)
9
1 Ereignisse und Wahrscheinlichkeiten
e)
P (X ∈ B1 ∪ B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ) − P (X ∈ B1 ∩ B2 )
(1.5e)
f) Sei Bn ⊂ Bn+1 bzw. Bn ⊃ Bn+1 eine Folge geschachtelter Mengen, so dass jedes Bn
Vereinigung höchstens abzählbar unendlich vieler disjunkter Intervalle ist. Dann gilt
lim P (X ∈ Bn ) = P (X ∈
n→∞
bzw.
lim P (X ∈ Bn ) = P (X ∈
n→∞
∞
[
Bn )
(1.6a)
Bn )
(1.6b)
n=1
∞
\
n=1
Bemerkung 1.1.1 Mittels (A1)-(A4) kann die gesamte Wahrscheinlichkeitstheorie und Statistik axiomatisch begründet werden.
Bemerkung 1.1.2 Für eine gegebene Zufallsvariable X wird das Ereignis [X ∈ B] auch kurz
mit B bezeichnet, und anstelle von P (X ∈ B) schreibt man auch kurz P (B).
1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten
R
Neben Ereignissen [X ∈ B], die mit Hilfe von Zufallsvariablen X und Teilmengen B ⊂
beschrieben werden, betrachtet man auch allgemeinere und zunächst oft nur verbal definierte
Ereignisse
A, B, A1 , A2 , . . .
und ihre Wahrscheinlichkeiten
P (A), P (B), P (A1 ), P (A2 ), . . . .
Typische Beispiele sind:
- Wahrscheinlichkeit der Wetterentwicklung (Regen, Sonne, Schnee, etc.) am nächsten Tag
bzw. in den nächsten Tagen;
- Wahrscheinlichkeit des Erfolgs (Verbesserung des momentanen Zustandes, Heilung) einer
bestimmten medizinischen Behandlung;
- Wahrscheinlichkeit des Ausgangs einer Wahl bzw. einer Abstimmung über eine bestimmte Vorlage.
Im Folgenden wird nun die Wahrscheinlichkeitsfunktion P = P (A) näher untersucht.
A) Operationen mit Ereignissen
Für allgemeine Ereignisse A, B definiert man folgende Operationen:
10
1.1 Zufallsvariablen und Ereignisse
Definition 1.1.3 Seien A, B Ereignisse, die in einer bestimmten Ungewissheitssituation
auftreten können. Ferner bezeichne ∅ das unmögliche und Ω das sichere Ereignis. Dann
setzt man
A ∪ B (oder A + B) Ereignis, dass A oder B auftritt
A ∩ B (oder AB)
Ereignis, dass A und B gleichzeitig auftreten
Ā (oder Ac )
komplementäres Ereignis zu A, also das Ereignis,
das eintritt, wenn A nicht eintritt
A\B (oder AB̄)
Ereignis, dass A, nicht aber B auftritt
B\A (oder B Ā)
Ereignis, dass B, nicht aber A auftritt.
Ferner bedeutet
B ⊃ A (oder A ⊂ B)
Ereignis A impliziert Ereignis B, d.h., immer
wenn A auftritt, tritt auch B auf.
Beispiel 1.1.4 Würfelexperiment
A = [Augenzahl durch 3 teilbar]
B = [Augenzahl ungerade]
C = [Augenzahl = 5]
Hier ist
C⊂B
A∩B =
[Augenzahl = 3]
A ∪ B = D̄, D = [Augenzahl ist Potenz von 2 (Exp. ≥ 1)]
B̄ =
[Augenzahl gerade]
B\A =
[Augenzahl ist 1 oder 5]
B) Wahrscheinlichkeit von Ereignissen
Das Eintreten eines bestimmten Ereignisses, z.B. A = [am nächsten Tag ist sonniges
Wetter] kann man i.a. nicht mit Bestimmtheit (Sicherheit) voraussagen. Man versucht
daher wenigstens die “Wahrscheinlichkeit”
A −→ P (A) ∈ [0, 1]
des Ereignisses anzugeben, d.h. ein Maß, einen Grad P (A) für die Erwartung des Eintretens von A.
Ganz analog zur Wahrscheinlichkeitsfunktion I −→ P (X ∈ I) auf Intervallen I bzw. auf
Vereinigungen endlich oder abzählbar unendlich vieler Intervalle, siehe Definition 1.1.2,
verlangt man, dass die Wahrscheinlichkeit P (A) von Ereignissen A folgende Eigenschaften (“Axiome”) hat:
Definition 1.1.4 (Wahrscheinlichkeitsaxiome) Sei A die Menge der Ereignisse A
einer bestimmten Ungewissheitssituation, eines bestimmten Experiments mit ungewissem Ausgang, etc.. Von der Wahrscheinlichkeit P (A), A ∈ A, des Eintreffens eines
Ereignisses A ∈ A verlangt man dann folgende Eigenschaften (“Axiome”):
A1) 0 ≤ P (A) ≤ 1 für alle A ∈ A
11
1 Ereignisse und Wahrscheinlichkeiten
A2) P (Ω) = P (sicheres Ereignis) = 1
P (∅) = P (unmögliches Ereignis) = 0
A3) Additionstheorem: Sind Ai ∈ A, i = 1, 2, . . . , n, paarweise unvereinbare oder disjunkte Ereignisse, d.h. Ai ∩ Aj = ∅ für i 6= j (für i 6= j können also Ai und Aj nicht
beide gleichzeitig eintreten), so gilt P (A1 ∪ A2 ∪ . . . An ) (=Wahrscheinlichkeit, dass
irgendeines der Ereignisse A1 , . . . , An eintritt)
=
n
X
P (Ak )
k=1
A4) Erweitertes Additionstheorem: Ist A1 , A2 , . . . Ai , . . . eine Folge paarweise disjunkter
Ereignisse, gilt also Ai ∩ Aj = ∅, i 6= j, so ist
P(
∞
[
Ai )
(= Wahrscheinlichkeit, dass irgendeines der
i=1
Ereignisse A1 , A2 , . . . eintritt)
∞
X
=
P (Ai ).
i=1
Bemerkung 1.1.3 Das erweiterte Additionstheorem A4) ist äquivalent mit dem folgenden Axiom:
A4’) Stetigkeitsaxiom: Sei (Ai ) eine Folge von Ereignissen, so dass
i) A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ An+1 ⊃ . . .
(das Ereignis An+1 impliziert also das vorangehende Ereignis An )
∞
T
ii)
Ai = ∅ (sämtliche Ereignisse Ai , 0 = 1, 2, . . ., können nicht gleichzeitig eini=1
treten).
Dann ist P (Ai ) ↓ 0 für n → ∞.
Eine analoge Eigenschaft wurde offensichtlich auch in (1.6b) verlangt!
C) Bedingte Wahrscheinlichkeiten
Verfügt man in einer Ungewissheitssituation, bei einem Experiment mit ungewissem
Ausgang über zusätzliche Informationen, so sollte dies auch die Wahrscheinlichkeit des
Eintreffens eines bestimmten Ereignisses beeinflussen. Dies führt zur folgenden Definition
der bedingten Wahrscheinlichkeit:
Definition 1.1.5 (Bedingte Wahrscheinlichkeit.) Es sei bekannt, dass ein bestimmtes Ereignis A eingetreten ist. Die bedingte Wahrscheinlichkeit P (B|A) irgendeines anderen Ereignisses B ∈ A ist dann definiert durch
P (B|A) :=
P (A ∩ B)
P (B ∩ A)
=
.
P (A)
P (A)
(1.7)
P (B|A) ist also der %–Satz der “Wahrscheinlichkeitsmasse” von A, die auch in B liegt.
12
1.1 Zufallsvariablen und Ereignisse
Beispiele
a) P (B|A) = 1 für B = A.
b) Gilt A ⊂ B, wird also das Ereignis B von A impliziert, so ist B ∩ A = A und damit
P (B|A) =
P (A)
P (B ∩ A)
=
= 1.
P (A)
P (A)
c) Ist B ∩ A = ∅, sind also A und B disjunkte Ereignisse, so gilt
P (B|A) =
P (B ∩ A)
P (∅)
=
= 0.
P (A)
P (A)
Das Eintreffen von A besagt (impliziert) also, dass B nicht eingetreten ist.
d) Würfelexperiment. Man betrachte folgende Ereignisse beim Werfen eines homogenen Würfels:
A1 = [gerade Augenzahl], A2 = [ungerade Augenzahl], B = [Augenzahl =2].
Dann gilt:
1
1
, P (A1 ) = P (A2 ) = und
6
2
1
1
P (B ∩ A1 )
P (Augenzahl = 2)
6
= 1 =
P (B|A1 ) =
=
1
P (A1 )
3
2
2
0
P (Augenzahl = 2 und Augenzahl ungerade)
= 1 = 0.
P (B|A2 ) =
1
P (B) =
2
2
Für eine weitere Eigenschaft bedingter Wahrscheinlichkeiten benötigen wir folgende allgemeine Eigenschaft von Wahrscheinlichkeiten.
Lemma 1.1.1 Ist A ⊂ B, d.h. impliziert A das Ereignis B, so gilt P (A) ≤ P (B).
Beweis. Folgt sofort aus den Axiomen (A1)–(A4); siehe auch (1.3).
2
Betrachtet man nun die Definition 1.1.5, so stellt man fest, dass B ∩ A ⊂ A und A ∩ B ⊂
B. Mit der Formel (1.7) ergibt sich dann sofort
P (A)
P (B ∩ A)
≤
= 1,
P (A)
P (A)
P (A ∩ B)
P (B)
P (A|B) =
≤
= 1.
P (B)
P (B)
P (B|A) =
Im Zusammenhang mit der bedingten Wahrscheinlichkeit P (B|A), P (A|B) von Ereignissen A, B steht der sehr wichtige Begriff der Unabhängigkeit von A, B.
D) Unabhängigkeit von Ereignissen
Wir betrachten zuerst zwei beliebige Ereignisse A, B:
13
1 Ereignisse und Wahrscheinlichkeiten
Definition 1.1.6 Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls
P (B|A) = P (B) oder P (A|B) = P (A),
(1.8)
d.h. die Kenntnis des Eintreffens des einen Ereignisses ändert nichts an der Wahrscheinlichkeit des Eintreffens des anderen Ereignisses.
Mit der Definition (1.7) der bedingten Wahrscheinlichkeit lässt sich die Unabhängigkeit
zweier Ereignisse auch so definieren:
Definition 1.1.6’ Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A) · P (B).
(1.9a)
Analog wird dann die (stochastische) Unabhängigkeit von n Ereignissen A1 , . . . , An definiert:
Definition 1.1.7 Die Ereignisse A1 , A2 , . . . , An heißen (stochastisch) unabhängig,
falls
P (A1 ∩ A2 ∩ . . . ∩ An ) =
n
Y
P (Ai )
(1.9b)
i=1
Beispiele
a) Würfelexperimente mit einem homogenen Würfel
Es sei A = [gerade Augenzahl], B = [ungerade Augenzahl].
1
Offensichtlich gilt P (A) = P (B) = und P (A ∩ B) = P (∅) = 0 und damit
2
P (A ∩ B) = 0 <
1
1 1
= · = P (A) · P (B).
4
2 2
Die beiden Ereignisse A und B sind also nicht unabhängig. Tatsächlich, es gilt
B = Ā, d.h. B tritt genau dann ein, wenn A nicht eintritt.
b) Würfelexperiment mit zwei homogenen Würfeln W1 , W2
Wir setzen
Ai = [W1 –Augenzahl = i], i = 1, . . . 6,
Bj = [ W2 –Augenzahl = j], j = 1, . . . , 6.
Erfolgt das Werfen der beiden Würfel W1 , W2 völlig getrennt, so sind für jedes
i, j = 1, . . . , 6 Ai und Bj stochastisch unabhängige Ereignisse.
Damit muss gelten:
P (W1 –Augenzahl = i und W2 –Augenzahl = j)
= P (Ai ∩ Bj ) = P (Ai ) · P (Bj ) =
für alle i, j = 1, . . . , 6.
14
1 1
1
· =
6 6
36
1.1 Zufallsvariablen und Ereignisse
E) Schließen (Inferenz) mit Wahrscheinlichkeit
Es sei bekannt, dass ein bestimmtes Ereignis A0 eingetreten ist, z.B. der Befund A0 der
Inspektion eines technischen Gerätes oder einer medizinischen Untersuchung.
Die bedingte Wahrscheinlichkeit
PA0 (B) :=
P (B ∩ A0 )
P (A0 )
(1.7’)
ist dann wieder eine Wahrscheinlichkeitsfunktion
B → PA0 (B), B ∈ A,
die alle Axiome (A1)–(A4) erfüllt. Wegen PA0 (A0 ) = 1 spielt dabei das eingetretene
Ereignis A0 die Rolle eines sicheren Ereignisses.
Somit kann man PA0 (B) auch wie folgt interpretieren:
P (B ∩ A0 )
gibt die
P (A0 )
Wahrscheinlichkeit an mit der man vom Eintreten oder von der
Beobachtung des Ereignisses A0 auf das Eintreten eines anderen
(z.B. nicht direkt beobachtbaren) Ereignisses B schließen kann.
Die bedingte Wahrscheinlichkeit PA0 (B) =
Beispiel
a) Technische Inspektion mit Befund A0
P (B ∩ A0 )
PA0 (B) =
= Wahrscheinlichkeit, dass (im Inneren
P (A0 )
des Gerätes) ein Defekt B vorliegt.
b) Medizinische Untersuchung mit Befund A0
P (B ∩ A0 )
PA0 (B) =
= Wahrscheinlichkeit, dass eine Krankheit
P (A0 )
B vorliegt.
Bemerkung 1.1.4 Expertensysteme
Bedingte Wahrscheinlichkeiten spielen auch eine zentrale Rolle bei den sog. “Expertensystemen”. Das sind Programmsysteme, die das Expertenwissen bestimmter Bereiche aus Medizin,
Technik, etc., enthalten und z.B. für Diagnosezwecke zur Verfügung stellen. Bekannte Beispiele
sind medizinische Expertensysteme zur Diagnose und Therapie bestimmter Krankheiten oder
technische Expertensysteme zur Diagnose und Reparatur von Schäden/Defekten technischer
Geräte oder Prozesse. Mit Hilfe bedingter Wahrscheinlichkeiten wird dann eine sog. “Inferenzmaschine” aufgebaut. Diese stellt das Expertenwissen (z.T. auch kontrovers!) in Form
von Wahrscheinlichkeitsrelationen zwischen bestimmten Aussagen bereit:
15
1 Ereignisse und Wahrscheinlichkeiten
Aussage A (Prämisse), z.B. Krankheitssymptome, Untersuchungsergebnis
Aussage B (Schluss), z.B. Diagnose
Liegt also der Befund A vor, dann trifft die Diagnose, der Schluss mit der Wahrscheinlichkeit
PA (B) zu. Man nimmt dann an, dass die Diagnose B ∗ am ehesten zutrifft, die die höchste
Wahrscheinlichkeit hat:
PA (B ∗ ) = max PA (B).
B∈A
1.1.2 Elementare Definition von Wahrscheinlichkeiten
A) Relative Häufigkeit
Ein Experiment E, bei dem ein Ereignis A eintreten kann oder nicht, werde n mal hintereinander ausgeführt. Die natürliche Zahl
mn = mn (A)
(1.10a)
bezeichne dann die Anzahl der Versuche oder Fälle, in denen das Ereignis A eingetreten ist.
Es sei dann
mn (A)
(1.10b)
hn = hn (A) :=
n
die relative Häufigkeit des Ereignisses A in den n Versuchen. Da man in der Praxis häufig
eine Stabilisierung der Werte der relativen Häufigkeit hn mit wachsender Versuchsanzahl n
beobachtet, definiert man in diesem Fall die Wahrscheinlichkeit P (A) von A wie folgt:
Definition 1.1.8 Statistische Definition der Wahrscheinlichkeit
P (A) := lim hn (A),
n→∞
(1.10c)
falls dieser Grenzwert in einem gewissen wahrscheinlichkeitstheoretischen Sinne existiert.
B) Gleichwahrscheinliche Elementarereignisse
Hier setzt man voraus, dass sich die Ereignisse A ∈ A in eine endliche Anzahl gleichwahrscheinlicher und sich gegenseitig ausschließender sogenannter Elementarereignisse
E1 , E2 , . . . , Ek , . . . , Er zerlegen lassen. Das Ereignis
A = Ek1 ∪ Ek2 ∪ · · · ∪ Eks
(1.11a)
tritt also genau dann ein, wenn eines der ”für A günstigen” Elementarereignisse Ekj , j =
1, 2, . . . , s, eintritt. Dies führt zu folgender Definition:
16
1.2 Verteilungsfunktion
Definition 1.1.9
a) Für jedes Elementarereignis Ek , k = 1, . . . , r, setzt man
1
P (Ek ) := , k = 1, 2, . . . , r.
r
(1.11b)
b) Für ein Ereignis A gemäss (1.11a) definiert man
P (A) :=
Anzahl der für A günstigen Fälle
s
=
.
r
Anzahl der möglichen Fälle
(1.11c)
C) Subjektive Wahrscheinlichkeiten (personal probability)
Einige nicht technische Problemstellungen lassen sich mit Hilfe wahrscheinlichkeitstheoretischer Methoden behandeln, wenn man die Wahrscheinlichkeit eines Ereignisses A aus dem Bereich wirtschaftswissenschaftlicher, sozialwissenschaftlicher Vorgänge und Prozesse, etc., wie
folgt definiert:
P (A) := Grad der Überzeugung einer Person
(1.12)
(einer Personengruppe), dass das Ereignis
A eintreten wird.
Bemerkung 1.1.5 Auch in diesem Fall verlangt man, dass die Funktion A → P (A), A ∈ A,
die Axiome (A1)–(A4) gemäss Definition 1.1.4 erfüllt.
1.2 Verteilungsfunktion
Die Verteilungsfunktion dient zur einfacheren Beschreibung der Verteilung PX : B → P (X ∈
B) einer Zufallsvariablen X mit Hilfe einer Funktion F von in das Intervall [0, 1].
R
Definition 1.2.1 Die Funktion
F (x) := P (X ≤ x), x ∈
R
(1.13)
heißt die Verteilungsfunktion von X. Man schreibt auch F = FX . Eine andere Möglichkeit
ist die Definition Fe(x) := P (X < x), die hier aber nicht verwendet wird.
Erste Eigenschaften der Verteilungsfunktion zeigt der folgende Satz:
Satz 1.2.1
a) 0 ≤ F (x) ≤ 1 für alle x ∈
R;
b) x < y ⇒ F (x) ≤ F (y), F ist also monoton wachsend;
c) lim F (x) = 0, lim F (x) = 1;
x→−∞
x→+∞
d) F ist stetig von rechts, d.h. F (x) = xlim
F (xn ) für jedes x ∈
→x
n
N, und xn → x, x → ∞.
xn >x
dass xn > x, n ∈
Beweis:
(a) folgt aus (A1).
R und jede Folge (xn), so
(b) x < y ⇒ (−∞, x] ⊂ (−∞, y] ⇒ F (x) ≤ F (y) gemäss (1.5a-e).
17
1 Ereignisse und Wahrscheinlichkeiten
(c) Sei (xn ) eine beliebige, streng monoton fallende Folge, so dass xn ↓ −∞ für n → ∞.
Wir betrachten dann die Intervallfolge In := (−∞, xn ], n = 1, 2, . . . . Es ist In+1 ⊂ In
∞
\
und
In = ∅. Aus Satz 1.1.1f folgt lim F (xn ) = lim P (X ≤ xn ) = lim P (X ∈ In ) =
n=1
P (X ∈
n→∞
∞
\
n→∞
n→∞
In ) = P (X ∈ ∅) = 0. Analog beweist man, dass lim F (x) = 1.
x→+∞
n=1
(d) Sei xn ↓ x, d.h. xn ≥ x für alle n = 1, 2, . . . , und xn → x, n → ∞.
Setze In := (−∞, xn ], n = 1, 2, . . . , I := (−∞, x]. Daraus folgt
In+1 ⊂ In und I ⊂ In , I =
∞
\
In ,
n=1
also wieder mit Satz 1.1.1f
P (X ≤ x) = P (X ∈ I) = P
X∈
∞
\
!
In
n=1
= lim P (X ∈ In ) = lim P (X ≤ xn )
n→∞
n→∞
und damit
F (x) = lim F (xn ).
n→∞
Weitere Eigenschaften der Verteilungsfunktion
Satz 1.2.2
i) P (X > x) = 1 − F (x);
ii) P (a < X ≤ b) = F (b) − F (a).
Beweis:
i) Aus Satz 1.1.1c folgt P (X > x) = 1 − P (X ≤ x) = 1 − F (x).
S
ii) Wegen der disjunkten Vereinigung (−∞, b] = (−∞, a] (a, b]
ergibt sich nach Satz (1.5d)
P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)
und damit
P (a < X ≤ b) = P (X ≤ b) − (X ≤ a) = F (b) − F (a).
18
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Bemerkung 1.2.1
i) Die Axiome (A1)-(A4) sind äquivalent zu den Eigenschaften (a)-(d)
von Satz 1.2.1.
ii) Ist F eine Funktion mit den Eigenschaften (a)-(d) von Satz 1.2.1, dann gibt es eine
Zufallsvariable X, so dass F die Verteilungsfunktion von X ist.
Beispiel 1.2.1
A) Stetige Verteilungen
B) Diskrete Verteilungen
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
1.3.1 Diskrete Verteilungen
Ganz analog zu einer diskreten Massenverteilung in der Mechanik mit Massenpunkten m1 , m2 , . . .
definiert man diskrete Wahrscheinlichkeitsverteilungen:
Definition 1.3.1 Die Zufallsvariable X hat eine diskrete Verteilung PX , wenn X nur
endlich oder abzählbar unendlich viele verschiedene Werte
x01 , x02 , . . . , x0r bzw. x01 , x02 , . . . , x0j , . . .
19
1 Ereignisse und Wahrscheinlichkeiten
annehmen kann, d.h. Ω = {x01 , . . . , x0r }, bzw. Ω = {x01 , x02 , . . . , x0j , . . . }.
Es sei dann
pj := P (X = x0j ), j = 1, . . . , r bzw. j = 1, 2, . . .
die Wahrscheinlichkeit, dass X den Wert x0j annimmt. Somit gilt
0 ≤ pj ≤ 1, j = 1, . . . , r bzw. j = 1, 2, . . .
∞
r
X
X
pj = 1
pj = P X ∈ {x01 , . . . , x0r } = 1 bzw.
{z
}
|
j=1
j=1
sicheres Ereignis
Beispiel 1.3.1
a) X = Augenzahl beim Werfen eines homogenen Würfels
Hier ist
x0j = j, j = 1, . . . , 6
1
pj = , j = 1, . . . , 6
6
b) X = Augensumme beim Wurf zweier homogener Würfel
x0j =
2,
3,
4,
5,
6,
7,
8,
9, 10, 11, 12
2
3
4
5
6
5
4
3
2
1
1
,
,
,
,
,
,
,
,
,
,
pj =
36 36 36 36 36 36 36 36 36 36 36
Bemerkung 1.3.1 Die Ereignisse [X = x0j ] sind wie folgt darstellbar:
[
[X = x0j ] =
{Würfel 1 zeigt Augenzahl a1 und Würfel 2 zeigt Augenzahl a2 }.
a1 +a2 =x0j
Eine diskrete Verteilung von X kann offensichtlich durch das Schema
0 0
x1 x2 · · · x0j · · · x0r
PX =
mit r ∈ oder r = ∞
p1 p2 · · · pj · · · pr
N
20
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
beschrieben werden.
Die Verteilungsfunktion einer diskreten Verteilung:
Gemäss Definition 1.2.1 ist
X
F (x) := P (X ≤ x) =
pj ,
(1.14a)
j:x0j ≤x
also kurz
F (x) =
X
pj .
(1.14b)
x0j ≤x
Offensichtlich gilt der folgende
Satz 1.3.1 F (x) ist eine Treppenfunktion.
Speziell gilt hier
i) x < inf x0j ⇒ F (x) = 0
j
ii) x ≥ sup x0j ⇒ F (x) = 1
j
iii) An jeder Stelle x = x0j erfolgt ein Sprung der Größe pj .
1.3.2 Stetige Verteilungen
Wiederum analog zu einer stetigen Massenverteilung in der Mechanik mit einer Massendichte
ρ = ρ(x) längs einer Geraden definiert man stetige Wahrscheinlichkeitsverteilungen:
Definition 1.3.2 Die Zufallsvariable X hat eine stetige Verteilung PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) von X in Integralform
Zx
F (x) =
f (t) dt
(1.15)
−∞
21
1 Ereignisse und Wahrscheinlichkeiten
dargestellt werden kann. Dabei ist die sogenannte Wahrscheinlichkeitsdichte f = f (t) der
Verteilung PX von X (oder kurz von X) eine nichtnegative, integrierbare, beschränkte und bis
auf höchstens endlich viele Punkte stetige Funktion.
Charakteristische Eigenschaften einer Wahrscheinlichkeitsdichte f = f (t) sind demnach:
a)
f (t) ≥ 0 für alle t ∈
R;
(1.16a)
b)
f ist stetig mit Ausnahme höchstens endlich vieler Stellen;
(1.16b)
Z+∞
f (t)dt = 1.
(1.16c)
c)
−∞
Beweis:
(a) folgt aus Definition 1.3.2.
Zb
(b) garantiert die Existenz des Riemann-Integrals
f (t)dt für beliebige Intervalle [a, b], a <
a
b.
Z+∞
Zx
(c)
f (t)dt = lim
f (t)dt = lim F (x) = 1 nach Satz 1.2.1.
−∞
x→+∞
−∞
x→+∞
Bemerkung 1.3.2 Während in der Mechanik die Gesamtmasse einen gewissen positiven Wert
m0 > 0 hat, ist der Maximalwert der Wahrscheinlichkeit, also die “Gesamt–Wahrscheinlichkeitsmasse”,
immer gleich 1.
Eigenschaften stetiger Verteilungen:
Satz 1.3.2 X habe eine stetige Verteilung. Dann gilt
22
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
a) F ist stetig (also stetig von rechts und von links);
b) P (X = x0 ) = 0 für alle x0 ∈
R;
c)
P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
Zb
= P (a ≤ X ≤ b) = F (b) − F (a) =
f (t)dt;
(1.17)
a
d)
F 0 (x) =
d
F (x) = f (x),
dx
(1.18)
wenn x eine Stetigkeitsstelle der Dichtefunktion f ist.
Bemerkung 1.3.3 Auch bei einer kontinuierlichen Massenverteilung in der Mechanik hat ein
einzelner Punkt die Masse Null.
Beweis:
23
1 Ereignisse und Wahrscheinlichkeiten
a)
Zx0
Zx
x0 < x : 0 ≤ F (x) − F (x0 ) =
f (t)dt −
−∞
Zx
f (t)dt
−∞
f (t)dt ≤
=
x0
Zx0
x < x0 : 0 ≤ F (x0 ) − F (x) =
max
f (t) (x − x0 ), |x − x0 | < δ;
max
f (t) |x − x0 |, |x − x0 | < δ
x0 ≤t≤x0 +δ
f (t)dt ≤
x0 −δ≤t≤x0
x
Daraus ergibt sich die Stetigkeit von f im Punkt x0 .
b) Für a < b mit beliebigem, festem b gilt 0 ≤ P (X = b) ≤ P (a < X ≤ b) = F (b) − F (a)
und damit
0 ≤ P (X = b) ≤ lim F (b) − F (a) = F (b) − F (b) = 0, also P (X = b) = 0.
a→b
a<b
Folglich ist P (X = x0 ) = 0 für alle x0 ∈
R.
c) Nach der vorherigen Aussage gilt für a ≤ b
P (a ≤ X ≤ b) = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b).
Weiter ist F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b) und
Zb
F (b) =
Zb
Za
f (t)dt +
f (t)dt =
−∞
−∞
|
Zb
a
{z
F (a)
f (t)dt, a ≤ b.
f (t)dt = F (a) +
a
}
Somit gilt
Zb
f (t)dt = F (b) − F (a) = P (a < X ≤ b), a ≤ b.
a
d) Folgt aus der Integraldarstellung (1.15) von F (x).
Zur Berechnung der Dichte f mit Hilfe der Verteilung(sfunktion)
Näherungsweise gilt an einer Stetigkeitsstelle x von f
x+∆x
Z
f (t)dt ∼
= f (x) · ∆x,
∆P = P (x < X < x + ∆x) =
(1.19a)
x
für ein kleines ∆x > 0. Daraus folgt
1
1 f (x) ∼
P (x < X < x + ∆x) =
F (x + ∆x) − F (x)
=
∆x
∆x
(f (x) selbst ist keine Wahrscheinlichkeit!).
24
(1.19b)
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Durch Grenzübergang ∆x ↓ 0 folgt wieder
1 1
P (x < X < x + ∆x) = lim
F (x + ∆x) − F (x) = F 0 (x),
f (x) = lim
∆x↓0 ∆x
∆x↓0 ∆x
(1.19c)
falls x eine Stetigkeitsstelle von F ist.
Bemerkung 1.3.4 Neben den diskreten und stetigen Verteilungen gibt es noch einen dritten
Verteilungstyp, die sog. singulären Verteilungen, die aber für die vorliegende Untersuchung
keine große Bedeutung haben. Die allgemeinste Verteilung ergibt sich sodann als Mischung der
drei Grundtypen.
Beispiel 1.3.2 Modelle für Zufallsmechanismen
Die Eigenschaften dieser Verteilungen werden in Kapitel II behandelt.
A) Diskrete Verteilungen
(a) Binomial- oder Bernoulliverteilung
x0k
= k, k = 0, 1, . . . , n
(1.20a)
pk := P (X = x0k ) = P (X = k) =
n
k
pk q n−k , k = 0, 1, . . . , n,
(1.20b)
n!
n
, wobei q = 1 − p und 0 ≤ p ≤ 1 ein beliebiger, fester Wert
mit
:=
k
k!(n − k)!
im Intervall [0, 1] ist. Nach dem Binomischen Lehrsatz ist
n
n
1 = 1 = (p + q) =
n X
n
k=0
k
pk q n−k .
(b) Poissonverteilung
x0k = k, k = 0, 1, 2, . . . (X hat unendlich viele mögliche Werte)
(1.21a)
−λ k
pk = P (X = k) :=
e
λ
, k = 0, 1, . . . ;
k!
(1.21b)
dabei ist λ > 0 eine beliebige positive Zahl. Nach der Definition der Exponentialreihe
∞
X
gilt
pk = 1.
k=0
B) Stetige Verteilungen
(c) Gleichverteilung
1
wenn a ≤ x ≤ b
b−a
f (x) :=
wobei a < b beliebig gegebene Werte sind.
0,
sonst
(1.22)
25
1 Ereignisse und Wahrscheinlichkeiten
Bemerkung 1.3.5 X nimmt außerhalb I0 = [a, b] f.s. keine Werte an: P (X ∈ I0 ) = 1.
(d) Exponentialverteilung (einseitige)
−αx
αe , wenn x ≥ 0
f (x) :=
wobei α > 0 eine positive Konstante ist. (1.23)
0,
sonst
Bemerkung 1.3.6 P (X ≥ 0) = 1
(e) Normalverteilung
f (x) := √
1 x−µ 2
1
e− 2 ( σ ) , x ∈
2πσ
R,
mit Parametern µ ∈
R, σ > 0
(1.24)
Bemerkung 1.3.7 P (X ∈ I) > 0 für beliebige Intervalle I 6= [a, a] oder (a, a).
(f) Cauchy-Verteilung:
γ
, x ∈
f (x) := π γ 2 + (x − a)2
R,
mit Parametern a ∈
R, γ > 0
Praktische Anwendungen
a) Binomialverteilung
Beispiel:
X = Anzahl der Treffer x = 0, 1, 2, . . . , 20 bei n = 20 voneinander unabhängigen
Schüssen mit gleicher Trefferwahrscheinlichkeit p;
allgemein:
X = Anzahl des Eintretens eines bestimmten Ereignisses A in n voneinander
unabhängigen Versuchen mit gleicher Wahrscheinlichkeit p, dass A
eintritt (Bernoullisches Versuchsschema).
b) Poissonverteilung
Beispiel:
X = Anzahl der Telefonanrufe, die in einem bestimmten Zeitintervall in einer
Zentrale eintreffen;
X = Anzahl der α-Teilchen, die von einer radioaktiven Substanz in einem
bestimmten Zeitintervall emittiert werden.
c) Gleichverteilung im Intervall [a, b]
Beispiel:
X = Zufällige Größe von der nur bekannt ist, dass sie im Intervall [a, b] variiert.
Sonst stehen keine Informationen über X zur Verfügung.
26
(1.25)
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Grundlegende Eigenschaften der Gleichverteilung:
a) Für ein Intervall I1 = [u1 , v1 ], mit v1 ≤ a gilt
Zv1
P (X ∈ I1 ) = P (u1 ≤ X ≤ u2 ) =
f (t)dt = 0,
u1
da f (t) = 0, t < a.
b) Für ein Intervall I2 = [u2 , v2 ] mit b ≤ u2 gilt auch
P (X ∈ I2 ) = 0.
c) Für ein Intervall I3 = [u3 , v3 ] mit a ≤ u3 < v3 ≤ b ist
Zv3
P (X ∈ I3 ) = P (u3 ≤ X ≤ v3 ) =
dt
v3 − u3
=
.
b−a
b−a
u3
d) Exponentialverteilung
X = zufällige Zeitdauer eines Telefongespräches;
X = zufällige Zeit bis zum ersten Ausfall eines Bauteiles.
e) Normalverteilung
X = Beobachtungs- oder Messfehler;
X = Abweichung der tatsächlichen Abmessung (z.B. Durchmesser) eines Werkstückes,
von der vorgeschriebenen Soll-Abmessung.
c) Cauchy-Verteilung
Anwendungen in der Wirtschafts- und Finanzmathematik. Für |x| → +∞ konvergiert
die Dichtefunktion der Cauchy-Verteilung weniger schnell gegen Null als die Dichte der
Normalverteilung. Die Cauchy-Verteilung hat also ”dickere Schwänze” als die Normalverteilung!
27
1 Ereignisse und Wahrscheinlichkeiten
1.4 Masszahlen von Verteilungen
Sei X eine Zufallsvariable mit Verteilung PX , wobei X eine diskrete Verteilung
0 0
0 0
x1 x2 · · · x0j · · ·
x1 x2 · · · x0r
PX =
oder PX =
p1 p2 · · · pr
p1 p2 · · · pj · · ·
bzw. eine stetige Verteilung PX mit der Dichte f (x) habe.
1.4.1 Erwartungswert
Definition 1.4.1 Unter dem Erwartungswert von X oder von PX versteht man die Zahl
P∞
 Pr
0
0
X ist diskret verteilt
 j=1 pj xj bzw.
j=1 pj xj ,
+∞
R
(1.26)
EX = µ :=
xf (x) dx,
X ist stetig verteilt.

−∞
Der Erwartungswert von X ist also eine eine Art ”Zentrum” oder ”Schwerpunkt” der Verteilung PX . Die entsprechende Größe in der Mechanik ist der Schwerpunkt eines Körpers.
1
2
3
4
5
6
Beispiel 1.4.1
a) homogener Würfel mit PX =
1/6 1/6 1/6 1/6 1/6 1/6
In diesem Fall ist
1
1
1
1
1
1
1
· 1 + · 2 + · 3 + · 4 + · 5 + · 6 = · 21 = 3.5.
6
6
6
6
6
6
6
1
, a≤x≤b
b−a
b) Rechtecksverteilung mit f (x) =
0,
sonst.
µ=
Hier gilt
Z+∞
Zb
Zb
µ =
xf (x) dx = xf (x) dx =
−∞
a
x
1
x 2 b 1 b 2 − a2
dx =
·
| =
b−a
b−a 2 a 2 b−a
a
a+b
=
.
2
Z+∞
c) Die Cauchy Verteilung hat keinen Erwartungswert im Sinne von Definition 1.4.1:
xf (x) dx
−∞
existiert nicht.
1.4.2 Varianz
Definition 1.4.2 Unter der Varianz von X oder von PX versteht man die Zahl
 r
∞
X
X

0
2


(x
−
µ)
p
bzw.
(x0j − µ)2 pj bei diskreter Verteilung
j

j

 j=1
j=1
V (X) = σ 2 :=
Z+∞



(x − µ)2 f (x) dx bei stetiger Verteilung.



−∞
28
(1.27)
1.4 Masszahlen von Verteilungen
p
σ = V (X) heißt dann die Standardabweichung von X (standard deviation).
σ 2 = V (X) ist ein Mass für die Streuung von X um den Mittelwert µ: Mittlere quadratische
Abweichung der Werte x von X vom Erwartungswert µ.
Lemma 1.4.1
a) Stets gilt σ 2 ≥ 0.
b) Die Gleichung σ 2 = 0 gilt genau dann, falls die Zufallsvariable X fast sicher (f.s.), d.h.
mit Wahrscheinlichkeit 1, konstant ist.
0 1
Beispiel 1.4.2
a) Münzwurf: PX =
1
1
2
2
Hier gilt µ = 12 0 + 12 1 = 12
2
2
σ 2 = √0 − 12 12 + 1 − 12 21 = 12 · 41 + 14 = 14 ,
σ = σ 2 = 12 (= µ, was ein Spezialfall ist!).
(
b) Rechtecksverteilung f (x) =
1
, a≤x≤b
b−a
0
, sonst.
In diesem Fall ist
µ
σ2
a+b
,
2
2
2
Z+∞
Zb (b − a)2
dx
a+b
a+b
=
,
=
f (x) dx =
x−
x−
2
2
b−a
12
=
−∞
also
a
|b − a|
σ= √ .
2 3
Bemerkung 1.4.1 Für σ 2 = 0, also b = a, ist die Verteilung auf einen Punkt konzentriert! Dies ist dann aber keine eigentliche Rechtecksverteilung mehr, sondern eine
spezielle diskrete Verteilung (Einpunktverteilung).
1.4.3 Momente von X bzw. PX
Definition 1.4.3 Unter dem k-ten Moment mk , k = 0, 1, 2, . . . , von X oder von PX versteht
man die Zahl
 r
X



(x0j )k pj bei diskreter Verteilung (r ∈ oder r = ∞)


 j=1
(1.28)
mk :=
Z+∞


k

x f (x) dx bei stetiger Verteilung.



N
−∞
Speziell ist
m0 = 1 f ür k = 0
m1 = EX = µ (Erwartungswert) f ür k = 1.
29
1 Ereignisse und Wahrscheinlichkeiten
Für k = 2 ergibt sich die folgende Darstellung der Varianz V (X) mit Hilfe von Momenten:
a) X sei stetig verteilt. Dann gilt
σ
2
Z+∞
Z+∞
2
= V (X) =
(x − µ) f (x) dx =
(x2 − 2xµ + µ2 )f (x) dx
−∞
−∞
Z+∞
Z+∞
Z+∞
2
2
xf (x) dx +µ
=
x f (x) dx −2µ
f (x) dx = m2 − 2µ2 + µ2
−∞
−∞
|
{z
=m2
2
}
−∞
|
{z
=µ
}
|
{z
=1
}
= m2 − µ = m2 − m21 .
b) Hat X eine diskrete Verteilung, so gilt dieselbe Formel für σ 2 wie im obigen Fall.
Somit hat man folgende Darstellung der Varianz:
Satz 1.4.1 Für die Varianz einer Zufallsvariablen X gilt die Formel
σ 2 = V (X) = m2 − m21

!2
r
r

X
X



(x0j )2 pj −
x0j pj
bei diskreter Verteilung (r ∈


 j=1
j=1
 +∞
2
=
Z
Z+∞




x2 f (x) dx −  xf (x) dx bei stetiger Verteilung



(1.29)
N oder r = ∞)
−∞
−∞
Beispiel 1.4.3 Rechtecksverteilung
b+a
m1 = EX =
2
Z+∞
Zb
1 x3 b
1
dx
1
m2 =
x2 f (x) dx = x2
=
|a =
· (b3 − a3 )
b−a
b−a 3
b−a 3
−∞
0
1 2
(b + ab + a2 )
3
1 2
m21 =
(b + 2ab + a2 )
4
1
σ 2 = m2 − m21 =
4b2 + 4ab + 4a2 − 3b2 − 6ab − 3a2
12
1
(b − a)2
.
= (b2 − 2ab + a2 ) =
12
12
(siehe Beispiel 1.4.1, 1.4.2)
Ferner gilt für das k–te Moment:
=
mk
Z+∞
Zb
dx
1 bk+1 − ak+1
k
=
x f (x)dx = xk
=
b−a
k+1
b−a
−∞
a
1
=
(bk + abk−1 + . . . + ak−1 b + ak ).
k+1
30
1.4 Masszahlen von Verteilungen
1.4.4 Schiefe einer Verteilung
Definition 1.4.4 Unter der Schiefe einer Verteilung PX versteht man die Zahl

r

1 X 0


(xj − µ)3 pj
diskrete Verteilung mit r ∈ oder r = ∞


 σ 3 j=1
γ :=
Z+∞

1


(x − µ)3 f (x) dx stetige Verteilung


 σ3
N
(1.30)
−∞
Bei stetiger Verteilung gilt
 +∞

Z
Z+∞
Z+∞
Z+∞
1 
γ =
x3 f (x) dx − 3µ
x2 f (x) dx + 3µ2
xf (x) dx − µ3
f (x) dx
3
σ
−∞
−∞
−∞
−∞
1
=
(m3 − 3m1 m2 + 3m31 − m31 )
3
σ
1
=
(m3 − 3m1 m2 + 2m31 ),
3
σ
und für eine diskrete Verteilung ergibt sich dieselbe Darstellung:
Satz 1.4.2 Für die Schiefe γ gilt die Formel
1
γ = 3 (m3 − 3m1 m2 + 2m31 ).
σ
Die Schiefe ist ein Mass für die Asymmetrie einer Verteilung bezüglich µ = EX.
(1.31)
Wir untersuchen dies für stetige Verteilungen.
Definition 1.4.5 Die Zufallsvariable X habe eine stetige Verteilung mit der Dichte f = f (x).
Die Verteilung PX heißt symmetrisch, falls eine Konstante c existiert, so dass
f (c + t) = f (c − t) für alle t ∈
R.
Eigenschaften symmetrischer Verteilung
a) Bedeutung der Konstanten c
Unter Annahme, dass der Erwartungswert von X existiert, gilt mit der Variablentransformation
x = c + t, dx = dt
die Darstellung
Z+∞
Z+∞
µ = EX =
x f (x)dx =
(c + t)f (c + t)dt
−∞
−∞
Z+∞
= c
−∞
Z+∞
f (c + t)dt +
t f (c + t)dt
−∞
Z+∞
Z0
Z+∞
= c
f (x)dx +
t f (c + t)dt +
t f (c + t)dt.
−∞
−∞
0
31
1 Ereignisse und Wahrscheinlichkeiten
Z+∞
Wegen
f (x)dx = 1 und mit der Substitution t = −s folgt dann
−∞
Z0
µ = c+
Z+∞
(−s)f (c − s)(−ds) +
t f (c + t)dt
+∞
0
Z+∞
Z+∞
= c−
s f (c − s)dx +
t f (c + t)dt
0
0
Z+∞ = c+
t −f (c − t) + f (c + t) dt = c,
|
{z
}
0
=0
also µ = EX = c.
b) Berechnung der Schiefe γ
Mit genau denselben Substitutionen wie in a) zeigt man, dass
Z+∞
Z+∞
3
(x − µ) f (x)dx =
(x − c)3 f (x)dx
−∞
−∞
Z+∞
=
t3 f (c + t)dt = 0.
−∞
Mit (1.31) gilt dann γ = 0.
Damit hat man folgendes Ergebnis:
Satz 1.4.3 Die Zufallsvariable X habe eine symmetrische stetige Verteilung. Dann gilt EX =
c und γ = 0, falls das dritte Moment existiert.
32
1.4 Masszahlen von Verteilungen
Momenterzeugende und charakteristische Funktion
Oft lassen sich Momente mk einfacher mit Hilfe einer geeigneten Hilfsfunktion berechnen.
Definition 1.4.6 Unter der momenterzeugenden Funktion G versteht man die LaplaceTransformation von PX (bzw. von X), d.h. die Funktion
 r
X 0



etxj pj ,
X diskret verteilt (r ∈ oder r = ∞)


 j=1
G = G(t) :=
(1.32)
Z+∞



etx f (x) dx, X stetig verteilt



N
−∞
für t ∈
R, so dass die Reihe (für r = ∞) bzw. das Integral konvergiert.
Definition 1.4.7 Unter der charakteristischen Funktion ϕ versteht man die
√ FourierTransformation von PX (bzw. von X), d.h. die komplexwertige Funktion (i := −1)
 r
r
r
X
X
X

itx0j
0


e pj =
pj cos txj + i
pj sin tx0j ,
diskreteV erteilung


 j=1
j=1
j=1
ϕ = ϕ(t) =
Z+∞
Z+∞
Z+∞


itx

e f (x) dx =
f (x) cos tx dx + i
f (x) sin tx dx, stetigeV erteilung



−∞
für alle t ∈
−∞
−∞
R, so dass die Reihen (für r = ∞) bzw. die Integrale konvergieren.
(1.33)
Satz 1.4.4 Für alle k = 0, 1, 2, . . . gilt
mk = G(k) (0)
1
mk = k ϕ(k) (0),
i
sofern t = 0 im Innern des Definitionsbereichs von G bzw. ϕ liegt.
Beweis. Durch wiederholte Differentiation von (1.32) bzw. (1.33) folgt:
(1.34a)
(1.34b)
a)
 r
X

0


(x0j )k etxj pj ,
PX diskret


 j=1
G(k) (t) =
Z+∞



xk etx f (x) dx, PX stetig,



−∞
also
G(k) (0) = mk , k = 0, 1, . . . (nach Def. (1.4.3) von mk ).
b)
 r
X

0


PX diskret
(ix0j )k eitxj pj ,


 j=1
ϕ(k) (t) =
Z+∞



(ix)k eitx f (x) dx, PX stetig,



−∞
33
1 Ereignisse und Wahrscheinlichkeiten
und damit
ϕ(k) (0) = ik mk (nach Def. (1.4.3) von mk ).
Bemerkung 1.4.2 Im obigen Beweis wird natürlich vorausgesetztz, dass Differentiation und
Reihensummation bwz. Integration vertauscht werden dürfen.
Vorteil: Berechnung der Momente durch Differentiation der Funktion G(t) bzw. ϕ(t), die oft
einfacher zu berechnen ist, falls G bzw. ϕ verfügbar ist.
Speziell ist also
1
EX = µ = G0 (0) = ϕ0 (0).
i
Beispiel 1.4.4 Exponentialverteilung
−αx
αe
,x ≥ 0
f (x) =
mit α > 0
0
, sonst
a) Laplace-Transformation (Momenterzeugende Funktion)
Z+∞
Z+∞
Z+∞
tx
tx
−αx
G(t) =
e f (x) dx =
e αe
dx = α
e(t−α)x dx
−∞
−∞
0
1 (t−α)x +∞
α
α
= α·
e
|0 = −
=
, wenn t < α.
t−α
t−α
α−t
Daraus folgt
G(0) = m0 = 1,
α
G0 (t) =
(α − t)2
2α
G00 (t) =
(α − t)3
6α
G000 (t) =
(α − t)4
da 0 < α
α
1
=
2
α
α
⇒ m1 = EX = G0 (0) =
2α
2
= 2
3
α
α
6
⇒ m3 = 3 .
α
⇒ m2 =
Dies ergibt
2
1
2
1
σ = m2 −
= 2−
= 2,
α
α
α
γ = 2 (unsymmetrische Verteilung).
2
m21
b) Charakteristische Funktion der Exponentialverteilung (Fourier-Transformation)
Z+∞
Z+∞
Z+∞
ϕ(t) =
eitx f (x) dx = α
eitx−αx dx = α
ex(it−α) dx
−∞
0
Z+∞
0
|0
e−αx (cos tx + i sin tx) dx = α
= α
2
=
34
0
Z+∞
Z+∞
e−αx cos tx dx +α i
e−αx sin tx dx
α
αt
α
+ 2
i= 2
(α + it).
2
2
+t
α +t
α + t2
α2
{z
}
|0
{z
}
1.5 Funktionen von Zufallsvariablen
Dies ergibt
(α2 + t2 )α − αt · 2t
−α2 2t
+
i
(α2 + t2 )2
(α2 + t2 )2
α3
i
ϕ0 (0) = 0 + i 4 =
α
α
1
1 0
ϕ (0) = .
m1 =
i
α
ϕ0 (t) =
1.5 Funktionen von Zufallsvariablen
Oft ist eine Zufallsvariable Y nicht direkt durch ihre Verteilungsfunktion FY = FY (y) definiert,
sondern indirekt als Funktion
Y := ϕ(X)
(1.35)
einer anderen Zufallsvariablen X, deren Verteilungsfunktion FX = FX (x) man kennt. Das
Problem ist dann die Bestimmung der Verteilungsfunktion FY (allgemein der Verteilung PY )
aus den gegebenen Informationen über die Verteilungsfunktion FX (Verteilung PX ) von X
und der Funktion y = ϕ(x).
Beispiel 1.5.1
a) Skalentransformation: y = ax + b mit Konstanten a 6= 0, b ∈
R
Zu bestimmen ist in diesem Fall die Verteilung von Y = aX + b aus der Verteilung von
X und mit den beiden Konstanten a, b. Diese Aufgabe wird später komplett gelöst.
b) Ohmsches Gesetz: I =
U
R
b1) Spannung U stochastisch variabel, Widerstand R = R0 fest. Zu bestimmen ist die
U
Verteilung der stochastisch schwankenden Stromstärke I =
aus R0 und der
R0
Verteilung von U .
35
1 Ereignisse und Wahrscheinlichkeiten
b2) Spannung U = U0 fest, Widerstand R stochastisch variabel (Materialgrösse). GeU0
aus der festen Spannung U0 und
sucht ist hier ebenfalls die Verteilung von I =
R
der Verteilung von R.
c) Dynamische Systeme
Der Zustand z = z(t) des Systems zur Zeit t ≥ t0 ist gegeben durch die DGL (bzw. das
DGL–System)
ż(t) = f t, z(t), a , z(t0 ) = z0 , t0 ≤ t ≤ tf ,
mit dem Anfangszustand z0 . Dabei ist a ein Modellparameter bzw. Vektor von Modellparametern (“dynamische Parameter”). Unsichere bzw. stochastisch variable Grössen sind
hier oft der
- stochastisch variable Anfangszustand z0 und der
- stochastisch variabler Modellparametervektor a.
Gesucht ist dann die Verteilung des stochastisch variablen Endzustands
zf = zf (t0 , tf , z0 , a).
Graphisch kann man diese Fälle durch das folgende Input–Output–System darstellen:
Für eine gegebene Funktion y = ϕ(x) gilt dann


input X

 output Y
ist eine
ist eine
=⇒


Zufallsvariable
Zufallsvariable
1.5.1 Verteilungsfunktion
Im Folgenden bezeichnen F (x) = FX (x) bzw. G(y) = FY (y) die Verteilungsfunktion von X
bzw. Y .
Nach Definition 1.2.1 gilt
G(y) = P (Y ≤ y) = P ϕ(X) ≤ y .
(1.36)
Fall 1: ϕ streng monoton wachsend: In diesem Falle gilt
ϕ(X) ≤ y ⇔ X ≤ ϕ−1 (y)
36
(ϕ−1 inverse Funktion von ϕ),
1.5 Funktionen von Zufallsvariablen
also
−1
G(y) = P X ≤ ϕ (y) = F ϕ (y) .
−1
(1.37)
Beispiel 1.5.2 Lineare Transformation von X (streng monoton wachsend)
Ergibt sich Y = aX + b durch eine lineare Transformation aus X, so folgt
ϕ(x) = ax + b, a > 0
y−b
,
ϕ−1 (y) =
a
also
G(y) = F
y−b
a
.
(1.38)
Fall 2: ϕ streng monoton fallend: Hier ist ϕ−1 streng monoton fallend, also
ϕ(X) ≤ y ⇔ X ≥ ϕ−1 (y),
und damit
G(y) = P ϕ(X) ≤ y
−1
= P X ≥ ϕ (y) = 1 − P X < ϕ (y)
= 1 − F ϕ−1 (y) + P X = ϕ−1 (y) .
−1
Für eine stetig verteilte Zufallsvariable X folgt dann nach Satz 1.3.2
−1
G(y) = 1 − FX ϕ (y)
(1.39)
Beispiel 1.5.3 Lineare Transformation von X (streng monoton fallend)
Im Fall
ϕ(x) = ax + b, a < 0,
ergibt sich wegen ϕ−1 (y) =
y−b
a
G(y) = 1 − F
y−b
a
+P
y−b
X=
a
.
(1.40a)
Für eine stetige Verteilung PX hat man
G(y) = 1 − F
y−b
a
(1.40b)
1.5.2 Dichtefunktion
Die Zufallsvariable X habe eine stetige Verteilung PX mit Dichte f (x) = fX (x). Dann lässt
sich die Dichte g = g(y) von Y nach Satz 1.3.2 darstellen durch
g(y) =
d
G(y),
dy
37
1 Ereignisse und Wahrscheinlichkeiten
sofern G differenzierbar ist.
Fall 1: ϕ streng monoton wachsend und differenzierbar: Hier ergibt sich
1
d −1
, wobei ϕ0 > 0,
ϕ (y) = dy
ϕ0 ϕ−1 (y)
und
g(y) =
d
d d
G(y) = F ϕ−1 (y) = f ϕ−1 (y) · ϕ−1 (y).
dy
dy
dy
Somit gilt
−1
f ϕ (y)
f ϕ (y)
= g(y) = 0 −1
ϕ0 ϕ−1 (y)
ϕ ϕ (y) −1
(1.41)
Beispiel 1.5.4
ϕ(y) = ax + b, a > 0, also ϕ0 = a.
Aus (1.41) folgt
1
y−b
.
g(y) = · f
a
a
Fall 2: ϕ streng monoton fallend und differenzierbar:
1
d −1
, ϕ0 < 0. Nach (1.39) gilt
ϕ (y) = Hier ist
dy
ϕ0 ϕ−1 (y)
(1.42)
d
d −1
−1
g(y) =
1 − F ϕ (y) = −f ϕ (y)
ϕ−1 (y)
dy
dy
−1
−1
f ϕ (y)
f ϕ (y)
= .
g(y) = − 0 −1
ϕ0 ϕ−1 (y)
ϕ ϕ (y) (1.43)
Beispiel 1.5.5
ϕ(y) = ax + b, a < 0.
Aus (1.43) ergibt sich
1
g(y) =
·f
|a|
Zusammenfassend hat man folgendes Ergebnis:
y−b
a
(1.44)
Satz 1.5.1
a) Sei ϕ streng monoton und differenzierbar. Hat X eine stetige Verteilung, so
ist auch Y stetig verteilt, und die Dichte fY von Y lässt sich darstellen durch
−1
fX ϕ (y)
.
(1.45a)
fY (y) = 0
−1
ϕ ϕ (y) b) Im Fall ϕ = ax + b, a 6= 0, gilt
1
fY (y) =
fX
|a|
38
y−b
a
.
(1.45b)
1.5 Funktionen von Zufallsvariablen
1.5.3 Erwartungswert, Momente von Y = ϕ(X)
a) Erwartungswert von Y = ϕ(X) (mit ϕ :
R → R)
Der Erwartungswert EY von Y = ϕ(X) lässt sich wie folgt bestimmen:
Satz 1.5.2
 r
0
X

x1 · · · x0r
0


ϕ(xj )pj ,
wenn PX =


p1 · · · pr
 j=1
EY = Eϕ(X) =
Z+∞



ϕ(x)fX (x) dx, wenn PX eine Dichte fX hat.



(1.46a)
(1.46b)
−∞
Beweis: i) Hat X eine diskrete Verteilung
0 0
x1 x2 · · · x0r
PX =
,
p1 p2
pr
so folgt für Y = ϕ(X) die diskrete Verteilung
ϕ(x01 ) ϕ(x02 ) · · · ϕ(x0r )
.
PY =
p1
p2
pr
Bemerkung 1.5.1 Falls zwei X-Realisierungen x0j 6= x0k dasselbe Bild ϕ(x0j ) = ϕ(x0k )
haben, addieren sich einfach die zugehörigen Wahrscheinlichkeiten pj und pk .
Nach Definition 1.4.1 folgt dann EY =
r
X
ϕ(x0j )pj .
j=1
ii) Hat X eine stetige Verteilung mit Dichte f (x), so lässt sich X durch eine Folge (Xn )
diskret verteilter Zufallsvariablen approximieren. Es gilt dann
EY = Eϕ(X) = lim Eϕ(Xn ) = lim
n→∞
n→∞
rn
X
j=1
ϕ(x0nj ) f (x0nj )∆xnj
|
{z
pnj
}
Z+∞
=
ϕ(x) f (x) dx.
−∞
Beispiel 1.5.6 Lineare Transformation
Z+∞
Im Fall ϕ(x) = ax+b, also für Y = aX +b, gilt EY = E(aX +b) =
(ax+b)f (x) dx =
−∞
Z+∞
Z+∞
f (x) dx.
a
xf (x) dx +b
−∞
−∞
|
{z
=EX
}
|
{z
=1
}
Da dies auch für diskrete Verteilungen gilt, ergibt sich folgende Regel:
Satz 1.5.3
E(aX + b) = aEX + b f ür alle a, b ∈
R
(1.47)
39
1 Ereignisse und Wahrscheinlichkeiten
Beispiel 1.5.7 Darstellung der Momente
Setzt man ϕ(x) = xk , k = 0, 1, . . . , so ist Y = X k und damit nach Satz 1.5.2 und mit
Definition 1.4.3

 r
X


0 k



(xj ) pj
diskrete Verteilung 





 j=1
k
+∞
= mk (X) (k-tes Moment von X).
EX =
Z




k

x fX (x) dx stetige Verteilung 






−∞
(1.48)
Es gilt also die folgende Darstellung für Momente:
Satz 1.5.4 Das k-te Moment von X ist gegeben durch mk (X) = EX k . Speziell gilt
m1 = EX, m2 = EX 2 .
Korollar 1.5.1 Für die Varianz gilt die Darstellung
V (X) = m2 − m21 = EX 2 − (EX)2
= E(X − EX)2 .
(1.49)
Beweis: Es ist nur noch die letzte Gleichung zu zeigen. Nach Definition 1.4.2 und Satz
1.5.2 gilt V (X) = E(X − EX)2 = Eϕ(X) mit ϕ(x) = (x − µ)2 .
b) Momente von Y = ϕ(X)
Nach Satz 1.5.4 gilt mit X → Y
k
mk (Y ) = EY k = E ϕ(X) = Eϕk (X).
(1.50)
Beispiel 1.5.8 Lineare Transformation (Fortsetzung von Beispiel 1.5.6)
Setzt man
ϕ(x) = ax + b,
so ist Y = ϕ(X) = aX + b. Für k = 2 folgt
ϕ2 (x) = (ax + b)2 = a2 x2 + 2abx + b2 ,
und für das zweite Moment von Y gilt
2
m2 (Y ) = Eϕ2 (X) = E ϕ(X)
= E(aX + b)2 .
Für eine stetig verteilte Zufallsvariable X ergibt sich dann mit Satz 1.5.2
Z+∞
Z+∞
2
2
m2 (Y ) = E(aX + b) =
(ax + b) f (x) dx =
(a2 x2 + 2abx + b2 )f (x) dx
−∞
= a
=
2
Z+∞
2
x f (x) dx + 2ab
Z+∞
xf (x) dx + b
f (x) dx
−∞
−∞
2
a m2 (X) +2ab m1 (X) +b2
| {z }
EX 2
40
−∞
Z+∞
| {z }
EX
2
−∞
2
2
= a EX + 2abEX + b2 .
1.6 Mehrdimensionale Zufallsgrössen
Nach Korollar 1.5.1 folgt dann mit X → Y
V (Y ) = m2 (Y ) − m1 (Y )2 = a2 EX 2 + 2abEX + b2 − (aEX + b)2
= a2 EX 2 − a2 (EX)
= a2 EX 2 − (EX)2 = a2 V (X),
und dieselbe Formel erhält man auch für ein diskret verteiltes X. Zusammenfassend hat
man folgendes Ergebnis:
Satz 1.5.5 Für lineare Transformationen Y = aX + b gilt
E(aX + b) = aEX + b
für alle a, b ∈
V (aX + b) = a2 V (X)
V (−X)
= V (X).
R
In analoger Weise lassen sich folgende Formeln herleiten:
i) E (aϕ(X) + bh(X)) = aEϕ(X) + bEh(X) (Linearität des Erwartungswertes)
P
P
ii) E si=0 ai X i = si=0 ai EX i
Bemerkung 1.5.2 Hat X diskrete Verteilung, so ist auch Y = ϕ(X) wieder eine Zufallsvariable mit diskreter Verteilung. Hat X eine stetige Verteilung, so ist Y = ϕ(X) nicht notwendigerweise wieder stetig verteilt.
Gegenbeispiel: Ist ϕ eine Treppenfunktion, so hat Y = ϕ(X) eine diskrete Verteilung.
1.6 Mehrdimensionale Zufallsgrössen
Zur mathematischen Beschreibung von Beobachtungen (Ereignissen) reicht oft nur eine Variable X nicht aus. Man benötigt dazu zwei und mehr Größen X, Y, Z, . . . , U oder X1 , X2 , . . . , Xm :
Beispiel 1.6.1
a) Bevölkerungsstatistik

X = Gewicht 
einer Person, die zufällig aus einer bestimmten
Y = Größe
 Bevölkerungsgruppe herausgenommen wurde;
Z = Blutdruck
b) Eigenschaften einer Werkstoffprobe

X1 = Kohlenstoffgehalt 
X2 = Zugfestigkeit
einer Stahlprobe;

X3 = Härte
c) Augenzahlen X1 , . . . , Xm bei einem Würfelexperiment mit m homogenen Würfeln;
d) Koordinaten (X, Y ) eines Treffers auf einer Zielscheibe.
Dies führt zum Begriff der zwei- und mehrdimensionalen Zufallsvariablen:
41
1 Ereignisse und Wahrscheinlichkeiten
Definition 1.6.1 Beobachtet man bei einem Zufallsexperiment E gleichzeitig n reelle Zufallsvariablen X1 , X2 , . . . , Xn , so heißt
X = (X1 , X2 , . . . , Xn )T
ein n-dimensionaler Zufallsvektor, auch n-dimensionale Zufallsgröße oder -variable. Die Verteilung PX eines n-dimensionalen Zufallsvektors X ist genau dann definiert, wenn für beliebige
endliche oder unendliche Intervalle I1 , I2 , . . . , In in die Wahrscheinlichkeit
R
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In )
des Ereignisses A = [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] bekannt ist.
Beispiel 1.6.2 P (X1 ∈ I1 , X2 ∈ I2 ) = Wahrscheinlichkeit, dass X in das Rechteck I = I1 × I2
fällt.
Definition 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn heißen (stochastisch) unabhängig,
wenn die Ereignisse [X1 ∈ I1 ], [X2 ∈ I2 ], . . . , [Xn ∈ In ] (stochastisch) unabhängig sind, d.h.,
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) = P (X1 ∈ I1 ) · P (X2 ∈ I2 ) · · · · · P (Xn ∈ In )
n
Y
=
P (Xj ∈ Ij ) für beliebige Intervalle I1 , I2 , . . . , In in .
(1.51)
R
j=1
Die Verteilungsfunktion n-dimensionaler Zufallsvektoren X
Definition 1.6.3 Die Verteilungsfunktion F = F (x), x ∈
Rn, von X ist definiert durch
F (x) = F (x1 , x2 , . . . , xn )
= P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), x ∈
= P (X ≤ x)
42
R
(1.52)
n
1.6 Mehrdimensionale Zufallsgrössen
Bemerkung 1.6.1 Die Ungleichung X ≤ x für Vektoren ist komponentenweise definiert.
In Erweiterung von Satz 1.2.1 für reellwertige Zufallsvariablen X hat die Verteilungsfunktion
F = F (x) eines Zufallsvektors X folgende Eigenschaften:
Satz 1.6.1
a) 0 ≤ F (x) ≤ 1 für alle x ∈
Rn
b) F (x) → 1, wenn xk → +∞ für alle k = 1, 2, . . . , n
c) F (x) −→ 0, wenn xk → −∞ für mindestens ein k = 1, 2, . . . , n
d) F (x) ist in Bezug auf jede Variable xk rechtsseitig stetig
e) F (x1 , +∞, . . . , +∞) :=
lim
xk →+∞
k=2,3,...,n
F (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 ) =: F1 (x1 )
Analoge Formeln gelten für X2 , . . . , Xn :
F (+∞, x2 , +∞, . . . , +∞) = P (X2 ≤ x2 ) = F2 (x2 )
..
.
F (+∞, +∞, · · · + ∞, xn ) = P (Xn ≤ xn ) = Fn (xn ),
wobei Fk = Fk (xk ) die Verteilungsfunktion der Zufallsvariablen Xk , k = 1, 2, . . . , n, bezeichnet.
Bemerkung 1.6.2 Die Verteilung PXk der Komponenten Xk von X ergibt sich somit aus der
Verteilung PX von X = (X1 , . . . , Xk , . . . , Xn ) :
PX −→ PXk , k = 1, 2, . . . , n.
Definition 1.6.4 Die Verteilungen PX1 , PX2 , . . . PXn der Komponenten X1 , X2 , . . . , Xn des Zufallsvektors X = (X1 , X2 , . . . , Xn )T heißen die Randverteilungen der Verteilung PX von X.
Mit Hilfe der Verteilungsfunktionen F = F (x) und Fk = Fk (xk ), k = 1, . . . , n lässt sich die
Unabhängigkeit von X1 , . . . , Xn wie folgt charakterisieren:
Satz 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig,
wenn
n
Y
(1.53)
F (X1 , X2 , . . . , XN ) =
Fk (xk ) für alle x ∈ n .
R
k=1
1.6.1 Verteilungstypen
Definition 1.6.5 Diskrete Verteilungen. Der Zufallsvektor X hat eine diskrete Verteilung PX , wenn nur endlich oder abzählbar unendlich viele Vektoren x01 , x02 , . . . , x0r und Wahrscheinlichkeiten p1 , p2 , . . . , pr existieren, so dass
pj > 0, j = 1, 2, . . . , r
N
(r ∈ oder r = ∞)
r
X
pj = 1
(1.54a)
(1.54b)
j=1
und
P (X = x0j ) = P (X1 = x0j1 , X2 = x0j2 , . . . , Xn = x0jn ) = pj , j = 1, 2, . . . , r.
(1.54c)
43
1 Ereignisse und Wahrscheinlichkeiten
Die Verteilungsfunktion eines Zufallsvektors X mit diskreter Verteilung PX hat die Form
F (x) = F (x1 , x2 , . . . , xn ) =
X
pj
(1.55)
x0j ≤x
Nach Bemerkung 1.6.1 ist die Vektorungleichung x0j ≤ x, durch x0jk ≤ xk , k = 1, 2, . . . , n,
definiert.
Definition 1.6.6 Stetige Verteilungen. Die Zufallsvariable X hat eine stetige Verteilung
PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) in der Form
eines Bereichsintegrals (im n )
Z
Z
(1.56a)
F (x1 , x2 , . . . , xn ) = · · · f (t)db
R
t≤x
dargestellt werden kann, wobei f = f (x) die (Wahrscheinlichkeits-)Dichte von PX (von
X) ist. Es gilt
R
f = f (t) ≥ 0 für alle t ∈ n
Z
Z
Z+∞ Z+∞
···
f (t) db = · · · f (x)db = 1.
−∞
Rn
−∞
Es gilt natürlich
f (x1 , . . . , xn ) =
∂n
F (x1 , x2 , . . . , xn ).
∂x1 ∂x2 . . . ∂xn
(1.56b)
Bemerkung 1.6.3 Die Verteilungsfunktion F lässt sich auch darstellen durch das Mehrfachintegral
Zx1
Zxn
···
F (x1 , x2 , . . . , xn ) =
−∞
f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn .
(1.56a’)
−∞
Satz 1.6.3 Hat X eine stetige Verteilung, so haben alle Komponenten X1 , X2 , . . . , Xn von X
ebenfalls eine stetige Verteilung.
Beweis: Nach Satz 1.6.1e gilt für X1
F1 (x1 ) = P (X1 ≤ x1 ) = F (x1 , +∞, . . . , +∞)
Zx1 Z+∞ Z+∞
=
...
f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn .
−∞ −∞
Zx1
=
−∞
44
−∞
 +∞ +∞

Z

Z
dt1
...
f (t1 , t2 , . . . , tn ) dt2 . . . dtn .


−∞
−∞
1.6 Mehrdimensionale Zufallsgrössen
Somit ist X1 stetig verteilt und hat die (Rand-)Dichte
Z+∞ Z+∞
f1 (x1 ) =
...
f (x1 , t2 , . . . , tn ) dt2 . . . dtn .
−∞
(1.57)
−∞
Analog zeigt man die Behauptung für X2 , . . . , Xn .
Unabhängigkeit bei stetiger Verteilung:
Satz 1.6.4 X habe eine stetige Verteilung PX mit der Dichte f = f (x) und f1 (x1 ), . . . , fn (xn )
seien die Dichten der Komponenten X1 , . . . , Xn von X. Dann sind die Zufallsvariablen X1 , . . . , Xn
genau dann unabhängig, wenn
f (x1 , x2 , . . . , xn ) =
n
Y
fk (xk ) für alle (x1 , . . . , xn )0 ∈
Rn .
(1.58)
k=1
Beweis: Der Beweis folgt aus der Darstellung F (x) =
n
Y
Fj (xj ) für die Verteilungsfunktion
j=1
bei unabhängigen Zufallsvariablen X1 , . . . , Xn .
R
Beispiel 1.6.3 Gleichverteilung im 2
Bei beliebigen Schüssen oder Würfen auf eine Zielscheibe B0 lässt sich die Wahrscheinlichkeit
P (X ∈ B) eines Treffers X = (X, Y ) in einem bestimmten Teilbereich B der Scheibe B0 wie
folgt approximativ darstellen:
P (X ∈ B) =
Fläche von B
m(B)
=
.
Fläche von B0
m(B0 )
Gibt es außerhalb von B0 keine Treffer, so hat dann X folgende Wahrscheinlichkeitsdichte:
1
, falls x ∈ B0
m(B0 )
f (x) =
0,
falls x 6∈ B0 .
45
1 Ereignisse und Wahrscheinlichkeiten
Im Fall einer rechteckigen Scheibe B0 mit
B0 = {x ∈
R2 : a 1 ≤ x 1 ≤ a 2 , b 1 ≤ x 2 ≤ b 2 }
gilt
1
,
m(B0 )
x ∈ B0
f (x1 , x2 ) =
=
0,
sonst
= f1 (x1 ) · f (x2 ).
Dabei ist
1
,
(a2 −a1 )(b2 −b1 )
0,
x ∈ B0
sonst


1
, a 1 ≤ x 1 ≤ a2
f1 (x1 ) =
a2 − a1

0,
sonst
die W –Dichte von X1 und


1
, b 1 ≤ x 2 ≤ b2
f2 (x2 ) =
b2 − b1

0,
sonst
die W –Dichte von X2 . In diesem Fall sind die Komponenten X1 , X2 von X stochastisch unabhängig.
Beispiel 1.6.4 n-dimensionale Normalverteilung N (m, Q)
Die n-dimensionale Normalverteilung N (m, Q) hat die Dichte
1
1
T −1
exp − (x − m) Q (x − m) , x ∈
f = f (x) =
(2π)n/2 (det Q)1/2
2
wobei m ∈
Rn ,
(1.59)
Rn ein fester n-Vektor und Q eine positiv definite, symmetrische n × n Matrix ist.
T
Bemerkung 1.6.4 Ein normalverteilter Zufallsvektor X
 = (X1 , . . . , Xn ) hat genau dann
σ12


0


2


σ2


unabhängige Komponenten X1 , X2 , . . . , Xn , wenn Q = 
 eine Diagonal.
.


.




0
2
σn
2
matrix mit positiven Diagonalelementen σk , k = 1, . . . , n, ist. Jede Komponente Xk von X hat
dann eine Normalverteilung N (mk , σk2 ) mit Erwartungswert mk und Varianz σk2 , k = 1, . . . , n.
1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen
Definition 1.6.7 Erwartungswert.
Unter dem Erwartungswert µ = EX des n-dimensionale Zufallsvektors X versteht man den
n-Vektor
µ = (µ1 , µ2 , . . . , µn )T = (EX1 , EX2 , . . . , EXn )T := EX
(1.60)
der Erwartungswerte EXk der Komponenten Xk von X.
46
1.6 Mehrdimensionale Zufallsgrössen
Beispiel 1.6.5 Hat X eine N (m, Q)-Normalverteilung, so gilt
µ = EX = m.
Sei X = (X1 , X2 , . . . , Xn )T eine n-dimensionale Zufallsgröße. Dann sind natürlich auch die
Produkte
(Xi − EXi )(Xj − EXj ), i, j = 1, . . . , n
wieder (reelle) Zufallsvariablen.
Definition 1.6.8 cov(Xi , Xj ) := E(Xi − EXi )(Xj − EXj ) heißt die Kovarianz der Zufallsvariablen Xi , Xj .
Spezialfall: Ist i = j, so gilt nach Korollar 1.5.1
cov(Xi , Xi ) = E(Xi − EXi )(Xi − EXi ) = E(Xi − EXi )2
= V (Xi ) (Varianz von Xi ).
Definition 1.6.9 Die Matrix aller Kovarianzen/Varianzen

V (X1 )
cov(X1 , X2 ) · · · cov(X1 , Xn )
 cov(X2 , X1 )
V (X2 )
· · · cov(X2 , Xn )

Λ = cov(Xi , Xj )
=
..
..
..

i,j=1,...,n
.
.
.
cov(Xn , X1 ) cov(Xn , X2 ) · · ·
V (Xn )
(1.61)





(1.62)
heißt die Kovarianzmatrix von X
Bemerkung 1.6.5 Wegen cov (Xi , Xj ) = cov(Xj , Xi ) ist Λ symmetrisch. Ferner ist Λ positiv
(semi–)definit.
Beispiel 1.6.6 Hat X eine n-dimensionale Normalverteilung N (m, Q), dann ist Λ = Q.
Somit ist die n-dimensionale Normalverteilung eindeutig bestimmt durch Mittelwert µ und
Kovarianzmatrix Λ, also N (m, Q) = N (µ, Λ).
1.6.3 Funktionen mehrdimensionaler Zufallsgrössen
Wie aus den Definitionen 1.6.7 und 1.6.8 ersichtlich ist, werden Erwartungswert und Kovarianzen von X durch Erwartungswerte EY gewisser Funktionen Y = ϕ(X) definiert. So ist
z.B.
EXk = Eϕi (X) mit ϕk (x) := xk , k = 1, . . . , n,
cov(Xi , Xj ) = Eϕij (X) mit ϕij (x) := (xi − EXi )(xj − EXj ), i, j = 1, . . . , n.
Analoges gilt auch für andere Masszahlen von X.
Funktionen Y = ϕ(X) von vektorwertigen Zufallsvariablen treten aber auch in sehr viel anderen Anwendungen auf, siehe z.B. die bereits in Abschnitt 1.5 erwähnten Beispiele: Ohmsches
Gesetz, dynamische Systeme mit stochastisch variablen Inputgrößen. Man hat also oft die
folgende Situation:
47
1 Ereignisse und Wahrscheinlichkeiten
Damit ist dann
Y = ϕ(X) = ϕ(X1 , X2 , . . . , Xn )
eine reellwertige Zufallsvariable.
Beispiel 1.6.7 Messung einer physikalischen Größe X, z.B. Elastizitätsmodul X = E einer
Materialprobe in einem Zugversuch.
Führt man n Versuche hintereinander oder parallel durch, so beschreibt die Zufallsvariable
Xk die stochastisch variablen Messergebnisse von X = E mit
möglichen Werten Xk = xk beim k–ten Versuch, k = 1, . . . , n.
Der Zufallsvektor
X := (X1 , . . . , Xn )T
beschreibt dann die Gesamtheit der n stochastisch variablen Messergebnisse bei den n Messungen mit den möglichen Werten X = x = (x1 , . . . , xn )T .
Wählt man nun z.B. die Funktion
n
1X
xk ,
y = ϕ(x) = ϕ(x1 , . . . , xn ) :=
n k=1
so beschreibt die Zufallsvariable
Y := ϕ(X) =
1
(X1 + X2 + . . . + Xn )
n
die bei je n Messungen des Elastizitätsmoduls E auftretenden Mittelwerte
n
y=
1X
xk .
n k=1
Dieser Wert wird auch mit x bezeichnet, also
n
1X
xk .
x :=
n k=1
48
1.6 Mehrdimensionale Zufallsgrössen
Erwartungswert von Funktionen mehrdimensionaler Zufallsvariablen
Sei X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor und ϕ = ϕ(x) = ϕ(x1 , x2 , . . . , xn )
eine reellwertige Funktion von x = (x1 , x2 , . . . , xn )T .
Der Erwartungswert EY der Zufallsvariablen
Y := ϕ(X) = ϕ(X1 , X2 , . . . , Xn )
(1.63a)
lässt sich wie folgt berechnen:
Satz 1.6.5
 Pr
0
X hat eine diskrete Verteilung

j=1 ϕ(xj )pj ,


+∞
+∞

R
R

ϕ(x1 , . . . , xn )f (x1 , . . . , xn ) dx1 dx2 . . . dxn ,
···
EY = Eϕ(X1 , X2 , . . . , Xn ) = −∞
−∞



X hat eine stetige Verteilung


mit der Dichte f (x)
Beweis: Wie Satz 1.5.2.
Das Bisherige lässt sich ohne Weiteres auf vektorwertige Funktionen von Zufallsvektoren übertragen: Der Zufallsvektor Y sei als Vektorfunktion von X wie folgt definiert:




ϕ1 (X)
Y1
 ϕ2 (X) 
 Y2 




Y =  ..  := 
(1.63b)

..

 . 

.
Yn
ϕm (X)
mit gegebenen Funktionen
yL = ϕk (x), k = 1, . . . , n.
Den Erwartungswert EY definiert man dann wieder komponentenweise durch
EY := (EY1 , EY2 , . . . , EYm )T ,
wobei die Erwartungswerte EYi = Eϕi (X), i = 1, . . . , m, mit Satz 1.6.5 berechnet werden
können.
1.6.3.1 Erwartungswerte spezieller Funktionen von X
Ist X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor, so benötigt man sehr oft Eigenschaften der Zufallsvariablen
S=
s
X
Xk = X1 , X2 + · · · + Xn ,
T =
k=1
Satz 1.6.6
n
Y
Xk = X1 · X2 · · · · · Xn .
(1.64)
k=1
a) Für beliebige Zufallsvariablen Xk , k = 1, . . . , n, gilt
E
n
X
k=1
Xk =
n
X
EXk ,
(1.65a)
k=1
49
1 Ereignisse und Wahrscheinlichkeiten
b) Sind X1 , X2 , . . . , Xn unabhängige Zufallsvariable, dann gilt
!
n
n
n
n
Y
Y
X
X
E
Xk =
EXk und V
Xk =
V (Xk ).
k=1
k=1
k=1
(1.65b)
k=1
Beweis:
a) E
n
X
Xk =
k=1
n
X
EXk
k=1
Setzt man zum Beweis dieser Gleichung ϕ(x) = x1 + x2 + · · · + xn , so folgt für stetig
verteilte Zufallsvariablen (für diskrete Verteilungen geht alles analog):
E
n
X
!
Z+∞ Z+∞ X
n
Xk = Eϕ(X1 , . . . , XN ) =
···
xk f (x) dx,
k=1
−∞
k=1
−∞
+∞
=
n Z
X
Z+∞
···
xk f (x) dx
k=1 −∞
=
n
X
−∞
Z+∞
Z+∞ Z+∞
Y
dxk xk
···
f (x1 , . . . , xk−1 , xk , xk+1 , . . . xn )
dxj
k=1 −∞
−∞
|
j6=k
−∞
fk (xk )= Dichte
{z
von PXk (gemäss Satz 1.6.3)
}
+∞
=
n Z
X
Z+∞
n
X
EXk .
···
xk fk (xk ) dxk =
k=1 −∞
k=1
−∞
b) Seien X1 , . . . , Xn unabhängige, stetig verteilte Zufallsvariablen. Nach Satz 1.6.4 besteht
dann zwischen der Dichte f (x) von X und den Dichten fk (xk ), k = 1, . . . , n, folgende
Beziehung:
f (x) = f1 (x1 ) · fx (x2 ) · · · · · fn (xn ).
b1) Zum Beweis von E
n
Y
Xk =
k=1
n
Y
EXk setzen wir ϕ(x1 , . . . , xn ) =
k=1
n
Y
xk .
k=1
Es gilt dann
E
n
Y
k=1
XK
!
! n
Z+∞ Z+∞ Y
Z+∞ Z+∞ Y
n
n
Y
=
xk f (x) dx =
···
xK
fk (xk ) dx
···
−∞
−∞
k=1
−∞
−∞
k=1
k=1
+∞
Z+∞ Z+∞Y
n
n Z
n
Y
Y
=
···
xk fk (xk ) dxk =
xk fk (xk ) dxk =
EXk .
−∞
−∞ k=1
k=1−∞
b2) Zu zeigen ist die Gleichung: V (X1 + · · · + Xn ) =
n
X
k=1
50
k=1
V (Xk )
1.6 Mehrdimensionale Zufallsgrössen
Nach Korollar 1.5.1 gilt zunächst fürs beliebige Zufallsvariablen X1 , . . . , Xn :
V
n
X
!
Xk
n
X
= E
k=1
Xk − E
k=1
=
n
X
n
X
!2
Xk
=E
k=1
n
X
!2
(Xk − EXk )
=
k=1
n
X
E (Xk − EXk )(Xl − EXl ) =
cov(Xk , Xl ),
k,l=1
k,l=1
siehe Definition1.6.8. Wir halten also zunächst folgendes Zwischenergebnis fest:
Satz 1.6.7 Für beliebige Zufallsvariablen X1 , X2 , . . . , Xn gilt:
V
n
X
k=1
!
Xk
=
n
X
cov(Xk , Xl ) =
k,l=1
n
X
V (Xk ) + 2
k=1
X
cov (Xk , Xl ).
(1.66a)
k<l
Nach Satz 1.6.6a, b1 und Satz 1.5.5 gilt
cov(Xk , Xj ) = E(Xk − EXk )(Xj − EXj )
= E (Xk Xj − Xk EXj − Xj EXk + (EXk )(EXj ))
= EXk Xj − E(Xk EXj ) − E(Xj EXk ) + (EXk )(EXj )
= EXk Xj − (EXk )(EXj ).
(1.66b)
Der Rest des Beweises von Satz 1.6.6b ergibt sich jetzt wie folgt:
Sind X1 , X2 , . . . , Xn nun unabhängige Zufallsvariablen, so gilt nach Satz 1.6.6,(b1) die Gleichung EXk Ej = EXk EXj für alle k 6= j. Daraus folgt jetzt cov(Xk , Xl ) = 0 für k 6= l,
also
!
n
n
X
X
V
Xk =
V (Xk ).
k=1
k=1
Bemerkung 1.6.6 Sind X1 , X2 unabhängig, so gilt EX1 X2 = EX1 EX2 .
Wegen cov (X1 , X2 ) = EX1 · X2 − EX1 · EX2 hat man die Beziehung
EX1 · X2 = EX1 · EX2 ⇔ cov(X1 , X2 ) = 0.
(1.67a)
Sind X1 , X2 stochastisch unabhängig, so gilt also cov (X1 , X2 ) = 0. Man definiert daher:
Definition 1.6.10 X1 , X2 heißen unkorreliert, wenn cov (X1 , X2 ) = 0, also
EX1 · X2 = EX1 · EX2 .
(1.67b)
Bemerkung 1.6.7 Unabhängige Zufallsvariablen X1 , X2 sind stets unkorreliert, die Umkehrung gilt i.a. aber nicht.
51
1 Ereignisse und Wahrscheinlichkeiten
1.7 Regression (der Grundgesamtheit)
Bei der Regression geht es um die Untersuchung der Beziehung zwischen verschiedenen Zufallsvariablen. Im Folgenden betrachten wir zwei Zufallsvariablen X und Y .
Beispiel 1.7.1
a) X = Größe des Vaters, Y = Größe des Sohnes
b) X = Blutdruck, Y = Herzgewicht
c) X = Eisengehalt eines Erzes, Y = Dichte des Erzes
Trägt man nun eine gewisse Anzahl n von Realisierungen xykk , k = 1, . . . , n, von
kartesischen Koordinatensystem auf, so ergibt sich oft folgendes Bild:
X
Y
in einem
Dieser Befund führt nun sofern zur Vermutung, dass zwischen X und Y eine lineare Beziehung
bestehen muss, die von einer gewissen stochastischen Störung ε überlagert wird:
Y = aX + b + ε.
Für die einzelnen Realisierungen
xk
yk
(1.68a)
, k = 1, . . . , n, gilt entsprechend:
yk = axk + b + εk , k = 1, . . . , n.
(1.68b)
Dabei sind a, b unbekannte, feste Koeffizienten, und ε ist eine stochastische Störgröße mit nicht
beobachtbaren Realisierungen εk , k = 1, 2, . . . , n.
Bestimmung der Regressionsgeraden
Das Problem ist nun die Bestimmung der unbekannten Koeffizienten a, b, d.h., die Bestimmung
der sogenannten Regressionsgeraden
y = ax + b.
(1.69)
Nach der sehr häufig verwendeten Methode der kleinsten Quadrate (Least Square Method
(LSQ)) betrachtet man dazu (Fall der Regression der Grundgesamtheit) den erwarteten quadratischen Fehler:
Q := Eε2 = E(Y − aX − b)2 = Q(a, b).
(1.70)
52
1.7 Regression (der Grundgesamtheit)
Die unbekannten Koeffizienten a, b werden dann bestimmt durch Minimierung von Q =
Q(a, b), also durch die Lösung des konvexen, quadratischen Optimierungsproblems
min Q(a, b).
a,b∈
R
(1.71)
Nun ist nach (1.70) und früheren Definitionen/Eigenschaften
2
2
2
Q(a, b) = E Y + (aX) + b − 2aXY − 2Y b + 2abX
= EY 2 + a2 EX 2 + b2 − 2aEXY − 2bEY + 2abEX.
Die notwendigen und hinreichenden Bedingungen für die optimalen Koeffizienten a∗ , b∗ lauten
dann:
∂Q
= 2aEX 2 + 2bEX − 2EXY
∂a
∂Q
0 =
= 2aEX + 2b − 2EY.
∂b
0 =
(1.72a)
(1.72b)
Somit hat man für a∗ , b∗ das LGS
aEX 2 + bEX = EXY
aEX + b = EY.
Mit der Cramerschen Regel ergibt sich jetzt
EXY EX EY
1
EXY − EX · EY
cov(X, Y )
=
=
a∗ =
2
2
EX − (EX)
V (X)
V (X)
und
EX 2 EXY
EX EY
b∗ =
V (X)
=
EX 2 · EY − EX · EXY
.
V (X)
(1.73a)
(1.73b)
(1.74a)
(1.74b)
Setzt man EX 2 = V (X) + (EX)2 in (1.74b) ein, so gilt auch
V (X) + (EX)2 · EY − EX · EXY
EX
b∗ =
= EY −
(EXY − EX · EY )
V (X)
V (X)
cov(X, Y )
= EY − EX
= EY − a∗ EX.
(1.75)
V (X)
Somit hat man die Regressionsgerade
y = a∗ x + b∗ = a∗ x + EY − EXa∗
cov(X, Y )
= EY + a∗ (x − EX) = EY +
(x − EX).
V (X)
(1.76)
53
1 Ereignisse und Wahrscheinlichkeiten
1.7.1 Regression einer Stichprobe von (X, Y)
Stützt man sich bei der Bestimmung der Regressionsgeraden y = ax+b nur auf eine Stichprobe
von (X, Y ), d.h. auf eine gewisse Anzahl n von Realisierungen oder Beobachtungen
(x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn )
von (X, Y ), so wird zur Bestimmung von a, b der erwartete quadratische Fehler Q = Q(a, b)
einfach ersetzt durch den mittleren quadratischen Fehler
n
1X
(yk − axk − b)2 .
Qn (a, b) :=
n i=1
(1.70’)
Die Bestimmung von a∗ = a∗n und b∗ = b∗n verläuft dann wie vorher.
1.8 Quantile
1.8.1 Mediane
Mediane oder Zentralwerte einer reellwertigen Zufallsvariablen X sind wie folgt definiert:
Definition 1.8.1 Ein Median oder Zentralwert an einer Zufallsvariablen X ist eine Masszahl m von PX , die die folgende Ungleichung erfüllt:
lim F (x) ≤
x→m
x<m
1
≤ F (m).
2
(1.77a)
Im Falle stetiger Verteilungen ist ein Median m eine Lösung der Gleichung
1
F (m) = ,
2
wobei F = FX die Verteilungsfunktion von X ist.
Beispiel 1.8.1 Ist X eine N (µ, σ 2 )–Verteilung, dann gilt m = µ = EX.
54
(1.77b)
1.8 Quantile
1.8.2 Quantile (der Ordnung α)
Die sogenannten α–Quantile werden analog zu (1.77a) definiert:
Definition 1.8.2 Sei α ein gegebener, fester Wert mit 0 < α < 1. Ein α–Quantil xα ist eine
Masszahl von PX , die folgende Ungleichung erfüllt:
lim F (x) ≤ α ≤ F (xα ).
x→xα
x<xα
(1.78a)
Im Falle stetiger Verteilungen erfüllt ein α–Quantil xα die Gleichung
F (xα ) = α,
(1.78b)
wobei F = FX die Verteilungsfunktion von X ist.
55
1 Ereignisse und Wahrscheinlichkeiten
56
2 Statistische Methoden
2.1 Praktische Berechnung von Wahrscheinlichkeiten
2.1.1 Klassische Definition der Wahrscheinlichkeit
Experimentelle Situation:
Viele praktische Ungewissheitssituationen kann man mit Hilfe von Experimenten E folgender Art beschreiben: Es gibt eine endliche Anzahl n gleichmöglicher (gleichwahrscheinlicher)
sogenannter Elementarereignisse (E.E.)
E1 , E2 , . . . , Ej , . . . , En ,
die sich gegenseitig ausschließen, so dass gilt: Zu jedem anderen Ereignis E, das im Experiment E vorkommen kann, gibt es eine Menge
{Ej : j ∈ JE },
JE ⊂ {1, 2, . . . , n},
von Elementarereignissen, so dass E genau dann eintritt, wenn eines der Elementarereignisse
Ej , j ∈ JE , eintritt. Man schreibt dann auch
X
[
E=
Ej oder E =
Ej
(2.1a)
j∈JE
j∈JE
Die Ereignisse Ej , j ∈ JE , heißen dann die für E günstigen Elementarereignisse.
Für irgend ein Ereignis sei
m(E) := |JE | = Anzahl der Elemente von JE
= Anzahl der für E günstigen Elementarereignisse.
(2.1b)
Nach Voraussetzung ist n die Gesamtzahl der Elementarereignisse, d.h. die Anzahl der möglichen Elementarereignisse.
Dies führt nun zu folgender
Definition 2.1.1 Klassische Definition der Wahrscheinlichkeit, Definition nach Laplace
m(E)
oder
P (E) (= Wahrscheinlichkeit von E):=
n
P (E) =
Anzahl der für E günstigen Elementarereignisse
Anzahl der günstigen Fälle
=
.
Anzahl der möglichen Elementarereignisse
Anzahl der möglichen Fälle
(2.1c)
Bemerkung 2.1.1 P (Ej ) =
nisse).
1
n
für jedes j = 1, . . . , n (gleichwahrscheinliche Elementarereig-
57
2 Statistische Methoden
Beispiel 2.1.1 Seien X, Y die Augenzahlen beim Würfeln mit 2 homogenen Würfeln. Elementarereignisse: Ej = (xj , yj ), 1 ≤ xj , yj ≤ 6, also n = 36. Für das Ereignis E = [X = gerade,
Y = gerade ] hat man die folgenden
”günstigen Fälle”: (2,2), (2,4), (2,6),(4,2), (4,4), (4,6), (6,2), (6,4), (6,6).
Somit ist m(E) = 9 und damit nach Definition 2.1.1
9
1
m(E)
=
= .
P (E) =
n
36
4
2.2 Approximation von Wahrscheinlichkeiten durch relative
Häufigkeiten
2.2.1 Stichproben
Sei E ein Experiment und X eine Zufallsvariable, die die möglichen Resultate (inkl. Wahrscheinlichkeiten) des Experiments E beschreibt.
Das Experiment E werde nun n mal hintereinander ausgeführt, wobei die einzelnen Versuche
voneinander unabhängig seien.
Es ergibt sich somit folgendes Versuchsprotokoll:
1 2 3 ··· k ··· n
Versuchs-Nr. k
Resultat = Realisation xk x1 x2 x3 · · · xk · · · xn
von X im k-ten Versuch
Definition 2.2.1 Die n unabhängigen Realisationen x1 , x2 , . . . , xn von X im Experiment E
heißen eine Stichprobe x = (x1 , x2 , . . . , xn ) von X mit dem Stichprobenumfang n.
Bemerkung 2.2.1 Eine Stichprobe x = (x1 , . . . , xn ) kann ebenfalls aufgefasst werden als eine
Realisation des Zufallsvektors
X = X (n) = (X1 , X2 , . . . , Xn ),
(2.2)
wobei X1 , X2 , . . . , Xn unabhängige Zufallsvariablen sind, so dass
PX1 = PX2 = · · · = PXn = PX .
Xj beschreibt dann die möglichen Resultate und Wahrscheinlichkeiten des Experiments Ej ,
wobei E1 , . . . , En unabhängige Wiederholungen desselben Experiments E sind.
2.2.2 Relative Häufigkeiten
Gegeben sei eine Stichprobe x = (x1 , x2 , . . . , xn ) von X. Ferner sei E ein Ereignis, z.B. E =
[X ∈ B] mit einer Teilmenge B ⊂ .
R
58
2.2 Approximation von Wahrscheinlichkeiten
59
Abbildung 2.1: Erzeugung von Stichproben
2 Statistische Methoden
Definition 2.2.2 Unter der relativen Häufigkeit hn (E) eines Ereignisses E in n Versuchen
versteht man
hn (E) =
1
· Anzahl der Versuche, in denen E eingetreten ist.
n
(2.3a)
Speziell ist
1
· Anzahl der Stichprobenwerte xj , die in B liegen
n
n
1X
=
1B (xj ),
n j=1
hn (X ∈ B) =
wobei
1B (x) =
0, x 6∈ B
Indikatorfunktion von B
1, x ∈ B
(2.3b)
(2.3c)
die sogenannte Indikatorfunktion von B ist.
Abbildung 2.2: Indikatorfunktion
Experimenteller Befund:
Für ”große” Stichprobenumfänge n ist die relative Häufigkeit hn (E) von E oft nahezu konstant:
Stabilität der relativen Häufigkeit von E für große n.
Dies führt zu folgender Wahrscheinlichkeitsdefinition:
Definition 2.2.3 Statistische Definition der Wahrscheinlichkeit
P (E) ≈ hn (E) für genügend großes n oder P (E) = ”lim” hn (E),
n→∞
wobei der Grenzwert ” lim ” in einem gewissen wahrscheinlichkeitstheoretischen Sinn definiert
n→∞
wird.
Anwendung:
Approximative Bestimmung von Wahrscheinlichkeitsverteilungen
60
2.3 Approximative Bestimmung der Verteilung

a) X hat eine diskrete Verteilung PX

x01 , . . . , x0r

.. 
=  ...
. 
p1 , . . . , pr
In diesem Fall gilt xj ∈ {x01 , . . . , x0r } für beliebige j ∈
pk = P (X = x0k ) ≈ hn (X = x0k ) =
N und somit
1
· Anzahl der Stichprobenwerte xj mit xj = x0k .
n
(2.4a)
b) PX hat eine stetige Verteilung mit der Dichte f (x)
Nach (1.19a-c) gilt
f (x) ≈
1
1
P (x < X ≤ x + ∆x) ≈
hn (x < X ≤ x + ∆x)
(2.4b)
∆x
∆x
1 1
=
· · Anzahl der Werte xj ,
∆x n
die ins Intervall (x, x + ∆x] fallen.
2.3 Approximative Bestimmung der Verteilung
Gegeben sei eine beliebige Zufallsvariable X. Oft ist eine Stichprobe x = (x1 , . . . , xn ) von X
die einzige Information über die Verteilung PX von X.
2.3.1 Empirische Verteilungsfunktion
Approximiert man in der Verteilungsfunktion F (x) einer Zufallsvariablen X, siehe Definition
1.2.1, die Wahrscheinlichkeiten durch relative Häufigkeiten
n
1X
1(−∞,x] (xj ),
F (x) := P (X ≤ x) ≈ hn (X ≤ x) =
n j=1
so erhält man die empirische Verteilungsfunktion von X:
Definition 2.3.1 Empirische Verteilungsfunktion Fn (x)
n
1X
Fn (x) := hn (X ≤ x) =
1(−∞,x] (xj ).
n j=1
(2.5)
Es gilt:
a) 0 ≤ Fn (x) ≤ 1
b) Fn ist eine Treppenfunktion
c) x < y ⇒ Fn (x) ≤ Fn (y)
d) Fn ist stetig von rechts
e) x < min1≤j≤n xj ⇒ Fn (x) = 0, x ≥ max1≤j≤n xj ⇒ Fn (x) = 1.
61
2 Statistische Methoden
2.3.2 Empirische Momente
Sei x = (x1 , . . . , xn ) eine Stichprobe einer Zufallsvariablen X.
a) X hat eine diskrete Verteilung
PX =
x01 x02 · · · x0r
p1 p2 · · · pr
.
Es gilt also xj ∈ {x01 , . . . , x0r }, j = 1, 2, . . . , n. Nach Definition 1.4.3 und mit (2.4a) folgt
mk =
r
X
(x0s )k ps
≈
s=1
r
X
(x0s )k hn (X
=
x0s )
s=1
1
=
n
=
r
X
s=1
r
X


X

s=1
xkj 
xj =x0s
1
(x0s )k · Anzahl xj mit xj = x0s
| {z } n |
{z
}
n
1X
=
(xj )k .
n j=1
b) X hat eine stetige Verteilung mit Dichte f (x)
Mit Definition 1.4.3 und (2.4b) ergibt sich in diesem Fall
Z+∞
T
T
X
X
(x∗t )k P (x∗t < X ≤ x∗t+1 )
(x∗t )k f (x∗t )∆x ∼
mk =
xk f (x) dx ≈
=
| {z }
t=1
t=1
−∞
T
X
≈
(x∗t )k hn (x∗t < X ≤ x∗t + ∆x).
t=1
Dabei sind x∗t , t = 1, . . . , T + 1, äquidistante Punkte mit x∗t+1 − x∗t = ∆x. Daraus folgt
mk ≈
T
X
k
x∗t ·
t=1
1
· Anzahl xj mit x∗t < xj ≤ x∗t + ∆
n
T
=
1 X ∗k
(x · Anzahl xj mit x∗t < xj ≤ x∗t + ∆)
{z
}
n t=1 | t
≈
T
X
1X
xk
n t=1 x∗ <x ≤x∗ +∆ j
j
t
=
1
n
n
X
t
xkj .
j=1
Als Näherungswert für das k-te Moment mk ergibt sich somit in beiden Fällen
n
1X k
x =: k − tes empirisches Moment
mk ≈
n j=1 j
= arithmetisches Mittel von xk1 , . . . , xkn .
62
(2.6a)
2.3 Approximative Bestimmung der Verteilung
Speziell ist
n
µ = m1
1X
xj = Mittelwert der Stichprobe
≈ x :=
n j=1
(2.6b)
n
m2
1X 2
x.
≈
n j=1 j
(2.6c)
Eine Folgerung:
Näherungswert für die Varianz σ 2 = E(X − EX)2 = m2 − m21
1. Möglichkeit
Ersetzt man m1 , m2 durch die empirischen Momente
n
1X 2
m1 ≈ x, m2 ∼
x,
=
n j=1 j
so ergibt sich
n
n
1X 2
1X
σ ≈
xj − (x)2 =
(xj − x)2 .
n j=1
n j=1
2
(2.7)
Diese Näherungsformel weist gewisse Nachteile auf, die später ersichtlich werden. Sie wird
deshalb meistens ersetzt durch die nächste Näherungsformel.
2. Möglichkeit
n
σ 2 ≈ s2 :=
1 X
(xj − x)2 =: Varianz der Stichprobe.
n − 1 j=1
Die Standardabweichung der Stichprobe ist dann definiert durch
v
u
n
u 1 X
s := t
(xj − x)2 .
n − 1 j=1
(2.8a)
(2.8b)
Im Folgenden untersuchen wir nun die Genauigkeit der oben definierten Näherungswerte für
Momente.
2.3.3 Schätzung von µ = EX durch x
Gegeben sei im Folgenden eine Stichprobe x = (x1 , x2 , . . . , xn ) einer Zufallsvariablen X mit
µ = EX. Nach Bemerkung 2.2.1, siehe auch Figur 2.2.1, ist dann x = (x1 , . . . , xn ) auch eine
Realisation von X = (X1 , X2 , . . . , Xn ), wobei X1 , . . . , Xn unabhängige Zufallsvariable mit
PXj = PX , j = 1, . . . , n, (also identisch verteilte Zufallsvariable) sind. Als sog. Schätzfunktion
für den Erwartungswert µ = EX von X hat man dann gemäss (2.6b) das arithmetische Mittel
n
1X
x = x(x1 , . . . , xn ) :=
xj .
n j=1
(2.9)
Offensichtlich gilt:
63
2 Statistische Methoden
Der Schätzwert x =
fallsvariablen
1
n
Pn
j=1
xj ist eine Realisation des Schätzers, d.h. der Zun
1X
X :=
Xj .
n j=1
(2.10)
P
Zu untersuchen ist somit die Zufallsvariable X = n1 nj=1 Xj , denn PX beschreibt die Verteilung der Schätzwerte x von µ. Insbesondere ist der Erwartungswert EX und die Varianz
σ 2 (X) des Schätzers X zu bestimmen.
Nach den Sätzen 1.5.3 und 1.6.6 gelten für beliebige Zufallsvariable U, V und a, b ∈
die
Gleichungen
R
a) E(aU + b) = aEU + b
b) E(U + V ) = EU + EV
c) EU · V = EU · EV , falls U, V unabhängig sind.
Bemerkung 2.3.1 Mittels vollständiger Induktion lassen sich diese Formeln ohne weiteres
ausdehnen auf beliebig viele Zufallsvariablen U1 , U2 , . . . , Un .
Im Folgenden berechnen wir nun Erwartungswert und Varianz von X:
a) Der Erwartungswert von X
n
1X
Nach dem Vorangehenden erhält man für den Schätzer X =
Xj folgende Bezien j=1
hungen
n
n
n
1X
1X
1 X
Xj =
EX = E
Xj = E
EXj .
n j=1
n j=1
n j=1
Wegen PXj = PX für alle j = 1, . . . , n, hat man EXj = EX = µ, j = 1, . . . , n, also
folgendes Ergebnis:
Satz 2.3.1 a Erwartungswert von X
EX = µ = EX,
(2.11)
d.h. im Mittel trifft der Schätzer X den richtigen Wert µ. Man sagt deshalb auch,
n
X
X oder die Schätzfunktion x = n1
xj sei erwartungstreu.
j=1
b) Die Varianz von X
Mit Korollar 1.5.1 und der obigen Gleichung (2.11) gilt
2
2
σ 2 (X) = E(X − EX)2 = EX − (EX)2 = EX − µ2 .
64
2.3 Approximative Bestimmung der Verteilung
Nun ist
n
2
X =
1X
Xj
n j=1
!2
n
1 X
= 2
Xi Xj ,
n i,j=1
also folgt mit Satz 1.5.3, Satz 1.6.6 und der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn
EX
2
=
1
n2
n
X
n
n
1 X
1 X
2
EXi Xj = 2
EXj + 2
E(Xi Xj )
n j=1
n i,j=1
i,j=1
i6=j
=
1
n2
n
X
n
1 X
EXj2 + 2
EXi EXj .
n
i,j=1
j=1
i6=j
Wegen PXj = PX , j = 1, . . . , n, gilt EXj2 = EX 2 , EXj = EX = µ, j = 1, . . . , n.
Somit ist
(n2 − n) 2
1
(n − 1) 2
1
2
EX = 2 nEX 2 +
µ = EX 2 +
µ,
2
n
n
n
n
also
2
µ2 − µ2 = n1 EX 2 − n1 µ2
σ 2 (X) = EX − µ2 = n1 EX 2 + n−1
n
= n1 (EX 2 − (EX)2 ) = n1 σ 2 (X).
Satz 2.3.1b Varianz von X
σ 2 (X) =
1 2
σ (X).
n
(2.12)
Bemerkung 2.3.2 Nach (2.12) gilt σ 2 (X) → 0, n → ∞. Je größer also der Stichprobenumfang n ist, umso näher liegen die Schätzwerte x, d.h. die Realisationen x von X
beim richtigen Wert µ.
2.3.4 Abschätzung der Abweichung zwischen X und µ
Ein entscheidendes Hilfsmittel zur Untersuchung der Abweichung X −µ zwischen dem Schätzer
X und dem Erwartungswert µ ist die Ungleichung von Tscheby-scheff:
Satz 2.3.2 Sei U eine beliebige Zufallsvariable mit endlichem 2. Moment und c ∈
beliebige Zahl. Dann gilt für jedes > 0 die Tschebyscheffsche Ungleichung
P (|U − c| ≥ ) ≤
1
E(U − c)2
2
R eine
(2.13a)
Im Spezialfall c = EU folgt dann
P (|U − EU | ≥ ) ≤
σ 2 (U )
.
2
(2.13b)
65
2 Statistische Methoden
Korollar 2.3.1 Unter den Voraussetzungen von Satz 2.3.2 gilt auch
1
E(U − c)2
2
σ 2 (U )
.
P (|U − EU | < ) = 1 − P (|U − EU | ≥ ) ≥ 1 −
2
P (|U − c| < ) = 1 − P (|U − c| ≥ )
≥1−
(2.13c)
(2.13d)
Beweis von Satz 2.3.2: Hat die Zufallsvariable U eine Dichte fU , so findet man
2
E(U − c)
Z+∞
=
(u − c)2 fU (u) du =
−∞
Z
≥
Z
2
Z
(u − c)2 fU (u) du
(u − c) fU (u) du +
|u−c|≥
|u−c|<
2 fU (u) du = 2 P (|U − c| ≥ ).
|u−c|≥
Ganz analog zeigt man diese Ungleichung für diskret verteilte Zufallsvariablen U .
Anwendung auf U = X =
1
n
n
X
Xj
j=1
Aus Satz 2.3.2 und mit Satz 2.3.1a,b folgt mit σX := σ(X) :
P (|X − µ| ≥ ) ≤
2
1 σX
σ 2 (X)
=
,
2
n 2
also
P (|X − µ| < ) ≥ 1 −
(2.14)
2
1 σX
.
n 2
(2.15)
Korollar 2.3.2 Für den Schätzer X von µ gilt
lim P (|X − µ| < ) = 1 für jedes > 0.
n→∞
Wenn also n genügend groß ist, dann liegt µ mit großer Wahrscheinlichkeit W ()
im Intervall (X − , X + ). Man sagt dann auch, X sei ein konsistenter Schätzer für µ
oder x sei eine konsistente Schätzfunktion für µ.
Beispiel 2.3.1 Schärfe der Tschebyscheffschen Ungleichung
Gegeben sei eine Zufallsvariable X mit der diskreten Verteilung PX =
a > 0 ein gegebener Parameter ist.
66
−a 0 a
1
8
3
4
1
8
, wobei
2.4 Konfidenzintervalle (Vertrauensintervalle)
Daraus folgt
2
EX = 0, σX
=
a2
a
, σX = .
4
2
Wählt man := 43 a, so folgt in diesem Fall
P
3
1
|X| ≥ a = P (X = −a) + P (X = +a) = = 0, 25.
4
4
Aus (2.13b) folgt
P
3
|X| ≥ a
4
σ2
a2
≤ X
·
=
2
4
4
3a
2
=
4
= 0, 444 . . . ,
9
also eine eher schlechte obere Schranke für die untersuchte Wahrscheinlichkeit. Die Schranken
in (2.13a,b) können also sehr unscharf sein.
2.4 Konfidenzintervalle (Vertrauensintervalle)
Gegeben ist hier eine Zufallsvariable X mit unbekanntem Erwartungswert µ = EX und
bekannter Varianz σ 2 = σ 2 (X).
Zur Untersuchung der Abweichung zwischen dem Mittelwert x einer Stichprobe x der Zufallsvariablen X und ihrem Erwartungswert µ = EX stellen wir x gemäss (2.10) als Realisation
n
X
1
der Zufallsvariablen X = n
Xj dar. Dabei sind X1 , . . . , Xn unabhängige Zufallsvariablen,
j=1
die dieselbe Verteilung wie X haben, also PXj = PX , j = 1, . . . , n, siehe Bemerkung 2.2.1 und
Figur 2.2.1.
Nach Formel (2.15) gilt dann
1 σx2
.
P |X − µ| < = W ≥ 1 −
n 2
Sei nun
x ein Stichprobenmittel, d.h. eine Realisierung von X.
Die obige Ungleichung besagt dann, dass die Ungleichung
|x − µ| < oder|µ − x| < also
x−<µ<x+
(2.16)
67
2 Statistische Methoden
mit Wahrscheinlichkeit W , also in W · 100% der Fälle gilt, wobei
W ≥1−
Für irgendeine Realisierung x =
1
n
n
X
1 σx2
.
n 2
(2.17)
xj von X erhalten wir demnach folgende Aussage:
j=1
σ2
Mit Wahrscheinlichkeit W ≥ 1 − n1 X2
liegt der unbekannte Erwartungswert µ im sogenannten
Konfidenzintervall (x − , x + )
mit Radius .
(2.18)
Mittels Konfidenzintervallen lassen sich nun verschiedene Fragen beantworten:
Frage 1: Gegeben seien a) eine sogenannte Konfidenzzahl γ, 0 < γ ≤ 1, z.B. γ = 0.95
oder γ = 0.99, und b) ein Radius > 0. Wie groß muss dann der Umfang n einer Stichprobe
x1 , x2 , . . . , xn sein, damit µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall x − < µ <
x + liegt?
Antwort: Gemäss (2.17) hat man hier die Bedingung:
W ≥1−
1 σ2
1 σ2
≥
γ,
also
1
−
γ
≥
n 2
n 2
Daraus folgt für den Stichprobenumfang n sofort die Bedingung
n ≥ n0 :=
Beispiel 2.4.1 Wählt man γ := 0.99, =
n0 =
σ2
.
(1 − γ)2
(2.19)
1
, so ist 1 − γ = 0.01, 2 = (0.1)2 = 0.01 und damit
10
2
2
σX
σX
2
=
= 104 σX
.
(1 − γ)2
(0.01)2
Die Anzahl n der Stichproben kann also sehr hoch sein, was sehr hohe Kosten verursachen
kann, wenn z.B. die Proben bei der Untersuchung zerstört werden.
Frage 2: Gegeben seien a) eine Konfidenzzahl γ, 0 < γ ≤ 1, und b) eine Stichprobe
x1 , x2 , . . . , xn . Wie groß muss der Radius > 0 sein, so dass µ mit Wahrscheinlichkeit W ≥ γ
im Konfidenzintervall (2.18) liegt.
Antwort: Nach (2.17) lässt sich die Forderung W ≥ γ wieder garantieren durch
2
1 σX
≥ γ.
W ≥1−
n 2
Daraus ergibt sich für den Radius die Bedingung
≥ 0 mit 0 := √
68
σX
√ .
1−γ n
(2.20)
2.4 Konfidenzintervalle (Vertrauensintervalle)
Beispiel 2.4.2 Wählt man n = 400, γ = 0.99, so ist
0 = √
√
n = 20, 1 − γ = 0.01 und damit
σX
σX
σX
√ =
=
.
0.1 · 20
2
1−γ n
Bemerkung 2.4.1 Die Schranken in (2.19, 2.20) sind in vielen Fällen zu hoch, siehe Beispiel
2.3.1.
2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer
Normalverteilung mit bekannter Varianz
2
Im Folgenden sei X normalverteilt mit unbekanntem Mittelwert µ und bekannter Varianz σX
.
Mit X1 , . . . , Xn bezeichnen wir wieder unabhängige Zufallsvariablen mit derselben Verteilung
PXj = PX wie X. Für die durch (2.10) definierte Zufallsvariable X gilt dann der folgende Satz:
2
=
Satz 2.4.1 X ist (wieder) normalverteilt mit Erwartungswert µ und Varianz V (X) = σX
2
σX
.
n
Bemerkung 2.4.2 Nach Satz 2.3.1 gilt stets EX = µ, V (X) =
2
σX
.
n
Daraus folgt zunächst:
P (|X − µ| < ) = P (µ − < X < µ + )
= P (X < µ + ) − P (X ≤ µ − )
= FX (µ + ) − FX (µ − ),
(2.21)
wobei FX die Verteilungsfunktion von X ist.
Satz 2.4.2 Sei Φ die Verteilungsfunktion der N (0, 1)-Normalverteilung. Ist X eine normalverteilte Zufallsvariable mit EX = µ und V (X) = σ 2 , dann gilt für die Verteilungsfunktion F
von X die Darstellung
x−µ
für alle x ∈ .
(2.22)
F (x) = Φ
σ
R
Wichtige Eigenschaften der Funktion Φ sind:
a)
1
Φ(x) = √
2π
Zx
1 2
e− 2 x dx
(2.23a)
−∞
b)
Φ(0) =
1
2
(2.23b)
c)
Φ(−x) = 1 − Φ(x)
(2.23c)
69
2 Statistische Methoden
d) Φ ist streng monoton wachsend, 0 < Φ(x) < 1 für alle x ∈
R.
Das Integral in (2.23a) muss numerisch ausgewertet werden, die Werte von Φ(x) müssen also
Tabellen entnommen werden. Weitere Darstellungen von Φ(x) erhält man durch Reihenentwicklung. So gilt z.B.
1 − 1 x2 1
2
− S1 , x > 0,
Φ(x) = 1 − √ e
(2.24)
x
2π
wobei 0 < S1 <
Daraus folgt
1
x3
für x > 0.
1 1 − 1 x2
Φ(x) > 1 − √
e 2 für x > 0
2π x
1 1 − 1 x2
e 2 für große x > 0.
Φ(x) ≈ 1 − √
2π x
Nach diesen Vorbereitungen folgt nun aus (2.21) und (2.23c)
µ+−µ
µ−−µ
−Φ
P (|X − µ| < ) = FX (µ + ) − FX (µ − ) = Φ
σX
σ
X
−
= Φ
−Φ
=Φ
− 1−Φ
σ
σX
σX
σX
X − 1.
(2.25)
= 2Φ
σX
Gegeben sei nun eine Realisation x von X, also der Mittelwert x =
1
n
n
X
xj einer Stichprobe
j=1
x1 , . . . , xn von X.
Wegen (2.25) gilt dann: Mit Wahrscheinlichkeit
W = 2Φ
−1
σX
70
(2.26)
2.4 Konfidenzintervalle (Vertrauensintervalle)
liegt der unbekannte Erwartungswert µ = EX im
Konfidenzintervall (x − , x + ).
(2.27)
Die obigen Fragen 1 und 2 lassen sich nun exakt beantworten:
Problem 1: Gegeben seien a) Konfidenzzahl γ, b) Radius > 0. Gesucht ist dann der
Stichprobenumfang n einer Stichprobe x1 , . . . , xn , so dass µ mit Wahrscheinlichkeit W ≥ γ im
Konfidenzintervall (2.27) liegt.
Lösung: Mit ( 2.26) hat man in diesem Fall die Bedingung
− 1 ≥ γ.
W = 2Φ
σX
Daraus folgt
Φ
σX
1
≥ (1 + γ)
2
oder
1
−1
≥Φ
1+γ
=: c ( Definition von c).
(2.28)
σX
2
1
Es gilt auch Φ(c) = (1 + γ). Wegen (2.12) ist nun σX = √σn . Damit liefert aber (2.28) die
2
Ungleichung
√
· n
≥ c.
σ
Für den Stichprobenumfang n hat man somit die exakte Bedingung
n ≥ n0 :=
c2 σ 2
.
2
(2.29)
Bemerkung 2.4.3 Ohne Verwendung der Information, dass X normalverteilt
2 ist, hat man
σ2
2
−1 1
nach (2.19) für n die Bedingung n ≥ n0 := (1−γ)2 , d.h. c = Φ
(1 + γ)
wird ersetzt
2
1
durch 1−γ .
Beispiel 2.4.3 Sei γ = 0.95, = 12 , σ = 2 Aus Gleichung (2.29) folgt unter Verwendung von
Tabellen für Φ−1
c2 4
= 16 c2
(1/2)2
1
−1
c = Φ
(1 + 0.95) = Φ−1 (0.975) = 1.960
2
n ≥ 16 · (1.96)2 ∼
= 61.
n ≥
Aus Ungleichung (2.19), d.h. mit der Tschebyscheffschen Ungleichung, folgt:
n≥
4
16
=
= 320 ≈ 5 · 61.
2
(1 − 0.95)(1/2)
0.05
Bemerkung 2.4.4 Durch Verwendung der Information über die Verteilung ergibt sich somit
eine ganz erhebliche Reduktion des Stichprobenumfangs n.
71
2 Statistische Methoden
Problem 2: Gegeben seien a) Konfidenzzahl γ, b) Stichprobe x1 , . . . , xn
Gesucht: Radius , so dass µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall (2.27) liegt.
Lösung: Aus Gleichung (2.26) folgt:
− 1 ≥ γ.
W = 2Φ
σX
Damit ist
√
n
1
−1
≥ c := Φ
(1 + γ) ,
σ
2
also
c
≥ 0 := σX √ .
n
(2.30)
Bemerkung 2.4.5 Ohne die Information, dass X normalverteilt ist, gilt nach (2.20)
c
1
.
≥ 0 := σX √ mit c := √
n
1−γ
Beispiel 2.4.4 Im Fall γ = 0.95 ist
1
1
=√
≈4
1−
0.05
γ
1
c (gemäß (2.30), Normalverteilung) = Φ−1
(1 + γ)
2
= Φ−1 (0.975) ∼
= 1.09 ≈ 2.
c (gemäß (2.20), Tschebyscheff )
=√
Somit folgt
σx
0 (Tschebyscheff ) ∼
= 4· √
n
σ
x
0 (Normalverteilung) ∼
= 2· √ .
n
2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2
Ersetze σ 2 durch die Schätzung s2 =
1
n−1
n
X
(xj − x)2 .
j=1
Aus (2.29) bzw. (2.30) folgt dann
n≥
s·c
c 2 s2
bzw. ≈ √ .
2
n
Dies sind aber i.a. keine guten Näherungen, denn c = Φ−1
ebenfalls ersetzt werden!
(2.31)
1
(1
2
+ γ) muss in diesem Fall
Bemerkung 2.4.6 Offensichtlich ist s2 eine Realisierung von S 2 =
1
n−1
n
X
j=1
diese Zufallsvariable gilt der folgende
72
(Xj − X)2 . Für
2.5 Vertrauensintervalle/Erwartungswert
Satz 2.4.3 S 2 ist ein erwartungstreuer Schätzer für σ 2 , d.h. ES 2 = σ 2 .
Beweis: Es gilt, siehe Abschnitt 2.3.3,
n
ES
2
1
1 X
= E
(Xj − X)2 =
n − 1 j=1
n−1
1
=
n−1
n
X
E
n
X
Xj2
j=1
− 2EX
n
X
!
Xj + nEX
2
j=1
!
2
EXj2 − 2nEX + nEX
2
j=1
1
1
n − 1 2
1
2
2
2
2
=
(nEX − nEX ) =
nEX − n EX +
µ
n−1
n−1
n
n
1
=
(n − 1)EX 2 − (n − 1)µ2 = EX 2 − µ2 = σ 2 .
n−1
Der Faktor
1
ist also erforderlich, damit S 2 erwartungstreu ist!
n−1
2.5 Vertrauensintervalle für den Erwartungswert µ = EX
einer normalverteilten Zufallsvariablen X mit
2
unbekannter Varianz σX
Im Folgenden sei X eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert
µ = EX und unbekannter Varianz σx2 = V (X). Ferner sei x das Stichprobenmittel einer
Stichprobe x = (x1 , . . . , xn )T von X. Schliesslich bezeichne
n
s2 :=
1 X
(xj − x)2
n − 1 j=1
die empirische Varianz der Stichprobe x. Nach Bemerkung 2.4.4 und Satz 2.4.3 ist s2 eine
Realisierung des erwartungstreuen Varianzschätzers
n
S 2 :=
1 X
(Xj − X)2 .
n − 1 j=1
Für eine gegeben Konfidenzzahl γ, 0 < γ < 1, lässt sich (nach Formel (2.31)) der Radius 0
des gesuchten Konfidenzintervalls
x − 0 < µ < x + 0
approximieren durch
s · c̃
0 ∼
= √ mit einer noch zu bestimmenden Konstanten c̃ = c̃(γ).
n
Im Folgenden untersuchen wir daher die Eigenschaften des Intervalls
sc̃
sc̃
x− √ <µ<x+ √
n
n
(2.32)
73
2 Statistische Methoden
mit einer noch zu bestimmenden Konstanten c̃.
Da x bzw. s eine Realisierung der Zufallsvariablen X bzw. S ist, betrachten wir die folgende
Wahrscheinlichkeit:
Sc̃
Sc̃
W =P X−√ <µ<X+√
.
n
n
Es gilt auch
W =
=
=
=
Sc̃
Sc̃
P −√ < µ − X < √
n
n
Sc̃
Sc̃
P −√ < X − µ < √
n
n
√ X −µ
< c̃
P −c̃ < n
S
P (−c̃ < T < c̃)
mit der Zufallsvariablen
T :=
(2.33)
√ X −µ
.
n
S
(2.34)
Definition 2.5.1 Die Verteilung PT von T heißt (Student-)t-Verteilung mit n − 1 Freiheitsgraden (n ist der Stichprobenumfang).
Die Verteilungsfunktion FT = FT (t) ist tabelliert, und T, FT haben folgende Eigenschaften:
Satz 2.5.1
a) ET = 0
b) T hat eine symmetrische, stetige Verteilung
c) Analog zu Φ = Φ(t) gilt
R.
(2.35)
W = P (−c̃ < T < c̃) = FT (c̃) − FT (−c̃)
= FT (c̃) − 1 − FT (c̃ = 2FT (c̃) − 1.
(2.36)
FT (−c̃) = 1 − FT (c̃) für jedes c̃ ∈
Aus (2.33), (2.34) und (2.35) folgt dann mit Satz 2.5.1
Zur Bestimmung der noch unbekannten Konstanten c̃ = c̃(r) im Radius des Konfidenzintervalls
(2.32) stellen wir nun die Qualitätsforderung
W = γ.
(2.37a)
Aus (2.36),(2.37a) folgt dann
2FT (c̃) − 1 = γ
und damit analog zu (2.28)
c̃ :=
FT−1
1
(1 + γ) .
2
Aus dem Obigen ergibt sich nun das folgende Resultat:
74
(2.37b)
2.6 Vertrauensintervalle für Varianz
Satz 2.5.2 X sei eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert µ und
2
unbekannter Varianz σX
. Gegeben sei eine Stichprobe x mit Stichprobenumfang n sowie eine
Konfidenzzahl γ. Mit Wahrscheinlichkeit W = γ liegt dann der unbekannte Erwartungswert µ
im Konfidenzintervall
sc̃
sc̃
(2.38)
x− √ <µ<x+ √ .
n
n
Dabei ist s die empirische Standardabweichung von x und die Konstante c̃ = c̃(γ) ist durch
(2.37b) gegeben.
Bemerkung 2.5.1 Das Konfidenzintervall (2.38) hat dieselbe Gestalt wie das Konfidenzin2
tervall für den Erwartungswert µ einer Normalverteilung mit bekannter Varianz σX
, siehe
(2.27) – (2.29).
2.6 Vertrauensintervalle für die Varianz einer
Normalverteilung
Zur Herleitung eines Konfidenzintervalls für die unbekannte Varianz einer Normalverteilung
N (µ, σ 2 ) betrachten wir eine Stichprobe x1 , x2 , . . . , xn einer N (µ, σ 2 )-verteilten Zufallsvariablen. Die Stichprobenwerte xj , j = 1, . . . , n, lassen sich wiederum interpretieren als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . , Xn mit derselben Verteilung PXj = PX , 1 ≤
j ≤ n, wie X.
Schätzwert für σ 2 : Aus Abschnitt 2.2 folgt:
n
1 X
(xj − x)2 .
σ ≈ s :=
n − 1 j=1
2
2
Da s2 also eine Realisation von
n
1 X
S =
(Xj − X)2
n − 1 j=1
2
ist, muss die Zufallsvariable S 2 genauer untersucht werden. Für
n
S2
1 X
Y := (n − 1) 2 = 2
(Xj − X)2
σ
σ j=1
(2.39)
hat man das folgende Ergebnis:
Satz 2.6.1 Y hat eine sogenannte Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden.
Definition 2.6.1 Chi-Quadrat-Verteilung: Die Chi-Quadrat-Verteilung mit m Freiheitsgraden hat die Wahrscheinlichkeitsdichte
gm (x) =
1
2m/2 Γ
m
2
x
m−2
2
x
e− 2 , x > 0
(m = Anzahl der Freiheitsgrade).
75
2 Statistische Methoden
Bestimmung eines Konfidenzintervalls für σ 2
Sei F die Verteilungsfunktion der Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden.
Aus Satz 2.6.1 folgt
P (Y ≤ c) = F (c).
Für eine gegebene Konfidenzzahlγ, 0 < γ ≤ 1, bestimme man dann Zahlen c1 , c2 so, dass
P (Y ≤ c1 ) = F (c1 ) = 12 (1 − γ)
⇒ c1 < c 2 .
P (Y ≤ c2 ) = F (c2 ) = 12 (1 + γ)
Daraus folgt
P (c1 ≤ Y ≤ c2 ) = P (Y ≤ c2 ) −P (Y ≤ c1 )
= 21 (1 + γ)
− 12 (1 − γ) = γ.
2
Für Y = (n − 1) Sσ2 ergibt sich dann
P
2
Wegen c1 ≤ (n − 1) Sσ2 ≤ c2 oder
P
S2
c1 ≤ (n − 1) 2 ≤ c2
σ
n−1 2
S
c2
≤ σ2 ≤
n−1 2
S
c1
= γ.
hat man
n−1 2
n−1 2
S ≤ σ2 ≤
S
c2
c1
= γ.
Für eine Realisation s2 von S 2 folgt nun der
Satz 2.6.2 Konfidenzintervall für σ 2 zur Konfidenzzahl γ. Mit Wahrscheinlichkeit W =
γ gilt
n−1 2
n−1 2
s ≤ σ2 ≤
s.
(2.40)
c2
c1
Bemerkung 2.6.1 Der Erwartungswert µ wird nicht benötigt!
2.7 Vertrauensintervalle für unbekannte
Wahrscheinlichkeiten einzelner Ereignisse E
Wir betrachten ein Ereignis E, das bei einem Experiment E eintreten kann oder nicht. Ferner
bezeichne p = P (E) die unbekannte Wahrscheinlichkeit von E.
Aus Abschnitt 2.2 folgt: p ≈ hn (E), wobei hn (E) die relative Häufigkeit von E in n unabhängigen Versuchen E1 , E2 , . . . , En ist.
Zur Bestimmung eines Vertrauensintervalls p1 ≤ p ≤ p2 zur Konfidenzzahl γ benötigen wir
folgende Zufallsvariable X:
Definition 2.7.1 X bezeichne die Anzahl des Eintreffens von E in den n Versuchen, also
X ∈ {0, 1, 2, . . . , n}.
Die Wahrscheinlichkeitsverteilung von X lässt sich wie folgt angeben:
76
2.7 Vertrauensintervalle
Satz 2.7.1 X hat eine Binomialverteilung, d.h.
n k
P (X = k) =
p (1 − p)n−k , k = 0, 1, 2, . . . , n.
k
Es gilt EX = np, V (X) = np(1 − p).
Bemerkung 2.7.1
k = 0 (E tritt nie ein) :
P (X = 0) = (1 − p)n
k = n (E tritt immer ein) : P (X = n) = pn .
Für große n gilt:
X − np
hat näherungsweise eine NormalverSatz 2.7.2 Die Zufallsvariable Z = Zn := p
np(1 − p)
teilung mit Mittelwert 0 und Varianz 1.
Da Zn näherungsweise eine N (0, 1)-normalverteilte Zufallsvariable ist, so gilt demnach approximativ P (−c ≤ Zn ≤ c) ≈ P (−c ≤ Z0 ≤ c) = Φ(c) − Φ(−c) = 2Φ(c) − 1, wobei Z0 eine
N (0, 1)-verteilte Zufallsvariable ist.
Bestimmt man für eine gegebene Wahrscheinlichkeit γ > 0 somit ein c, so dass
1
−1
2Φ(c) − 1 = γ, d.h. c = Φ
(1 + γ) ,
2
so gilt näherungsweise
P (−c ≤ Z ≤ c) ≈ γ,
also auch
P
X − np
−c ≤ p
≤c
np(1 − p)
!
≈ γ.
(2.41)
Sei nun X = k die Anzahl des Eintreffens von E in n Versuchen; k ist also eine Realisierung
von X. Aus Gleichung (2.41) folgt jetzt: Mit Wahrscheinlichkeit W ≈ γ gilt
k − np
−c ≤ p
np(1 − p)
≤ +c für eine Realisierung k von X.
Daraus folgt
k − np ≤c⇔
p
np(1 − p) k − np
p
np(1 − p)
!2
≤ c2
und damit
(k − np)2
n2 (h − p)2
≤ c2
≤ c2 .
⇐⇒
z
}|
{
np(1 − p)
np(1 − p)
k
h = hn (E) =
n
Für p hat man somit die quadratische Bedingung (h − p)2 ≤ n1 c2 p(1 − p), die zwei Schranken
p1 , p2 für p festlegt. Die Bedingung für p = p1 , p2 ergibt sich aus folgender ”Vertrauensellipse”:
77
2 Statistische Methoden
Satz 2.7.3 Die Vertrauensgrenzen p1 , p2 für p und somit das Vertrauensintervall
p1 ≤ p ≤ p2 zur Konf idenzzahl γ
(2.42a)
sind bestimmt als Lösungen der quadratischen Gleichung
1
(2.42b)
(h − p)2 = c2 p(1 − p).
n
Näherungsweise Bestimmung von p1 , p2 :
Sind n, k, n − k große Zahlen, wobei k die Anzahl der Beobachtungen von E in n Versuchen
bezeichnet, so erhält man näherungsweise
r
k
c2
h(1 − h).
(2.42c)
p1 ≈ h − a, p2 ≈ h + a mit h := und a :=
n
n
2.8 Konfidenzintervalle für den Erwartungswert µ bei
beliebigen Verteilungen
Zur Entwicklung von Näherungsmethoden bei großem Stichprobenumfang n benötigen wir
den Zentralen Grenzwertsatz:
Satz 2.8.1 (Zentraler Grenzwertsatz) X1 , X2 , . . . , Xn seien unabhängige Zufallsvariablen, die
alle genau dieselbe Verteilungsfunktion, also auch denselben Mittelwert µ und dieselbe Varianz
σ 2 besitzen. Dann ist die Zufallsvariable
n
X
Zn :=
78
j=1
Xj − nµ
√
σ n
2.9 Testen (Prüfen) von Hypothesen
asymptotisch normalverteilt mit Mittelwert 0 und der Varianz 1, d.h.
lim P (Zn ≤ z) = lim FZn (z) = Φ(z) f ür alle z ∈
n→∞
n→∞
R.
Für großes n gilt somit Zn ≈ N (0, 1). Wegen
n
1X
σ
X=
Xj = µ + √ Zn
n j=1
n
folgt
PX ≈ N µ,
σ2
n
für große n.
(2.43)
Approximative Konfidenzintervalle für den Erwartungswert µ ergeben sich dann wie in Abschnitt 2.4 und 2.5.
Da die Stichprobenmittel x̄ Realisierungen des Schätzers X̄ sind, erhält man folgende approximative Konfidenzintervalle:
a) Bekannte Varianz σ 2 . Nach Abschnitt 2.4.1 und mit (2.43) hat man für den Erwartungswert µ näherungsweise das Konfidenzintervall (x − , x + ) mit = σ √cn , c =
Φ−1 1+γ
, γ = Konfidenzzahl.
2
Gute Näherung erhält man auf diese Weise für n ≥ 30
b) Unbekannte Varianz σ 2 . Nach Abschnitt 2.5 und mit (2.43) findet man hier
das
sc
−1 1
√
(1 + γ) , γ =
approximative Konfidenzintervall (x − , x + ) mit = n , c = F
2
Konfidenzzahl, F = Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden.
Gute Näherungen ergeben sich hier für n ≥ 100.
2.9 Testen (Prüfen) von Hypothesen
Zu untersuchen ist eine normalverteilte Zufallsvariable X mit unbekanntem Erwartungswert EX = µ und bekannter Varianz σ 2 .
Ferner bezeichne µ0 einen gegebenen maximalen bzw. minimalen Wert bzw. einen gegebenen
Sollwert für µ = EX. Man hat zu prüfen oder zu testen, ob die folgende Beziehung erfüllt
ist:
(2.44)
EX ≤ µ0 bzw. EX ≥ µ0 bzw. EX = µ0 .
| {z }
| {z }
| {z }
a)
b)
c)
Beispiel 2.9.1
a) In einem Lebensmittel soll der Giftstoffanteil, z.B. der Konservierungsmittelanteil, Q (= Zufallsvariable) im Mittel unterhalb einem maximalen Giftstoffanteil
µ0 liegen.
b) Bei der Garnproduktion soll die Reissfestigkeit F (= Zufallsvariable) im Mittel oberhalb
der minimalen Reissfestigkeit µ0 liegen.
c) Bei der Produktion von Wellen soll der Durchmesser D (= Zufallsvariable) im Mittel
mit dem verlangten Durchmesser µ0 übereinstimmen.
Prüfung der Qualitätsforderung(2.44): Der sogenannten Nullhypothese H0 wird die Alternative H1 gegenübergestellt:
79
2 Statistische Methoden
NULLHYPOTHESE H0 (erwünscht)
a) µ ≤ µ0
b) µ ≥ µ0
c) µ = µ0
ALTERNATIVE H1 (unerwünscht)
a) µ > µ0
b) µ < µ0
c) µ 6= µ0
Beispiel 2.9.1 - Fortsetzung
Fall (a)
H0 : µ = EQ ≤ µ0 (erwünscht)
H1 : µ = EQ > µ0 (unerwünscht)
Die Alternative H1 beschreibt also den unerwünschten Fall, dass der mittlere Giftstoffanteil
µ = EQ zu groß ist.
Fall (b)
H0 : µ = EF ≥ µ0
H1 : µ = EF < µ0
(erwünscht)
(unerwünscht)
Die Alternative H1 beschreibt also den unerwünschten Fall, dass die mittlere Reissfestigkeit
µ = EF zu klein ist.
Fall (c)
H0 : µ = ED = µ0
H1 : µ 6= µ0
(erwünscht)
(unerwünscht)
Die Alternative H1 beschreibt hier den unerwünschten Fall, dass der mittlere Durchmesser
µ = ED nach unten oder nach oben vom verlangten Sollwert µ0 abweicht.
Gegeben sei nun eine Stichprobe x1 , . . . , xn der Zufallsvariablen X mit einer Normalverteilung
PX = N (µ, σ 2 ) mit unbekanntem µ = EX und bekanntem σ 2 .
Gesucht ist ein Verfahren zum Testen (Prüfen) der Nullhypothese H0 gegen die unerwünschte
Alternative H1 .
Nach (2.6b) ist das Stichprobenmittel x eine Schätzung für den Erwartungswert µ von X:
µ≈x=
1
(x1 + · · · + xn ) (Realisierung von X).
n
Im Folgenden betrachten wir nun den Fall (a):
H0 : µ ≤ µ0 , Qualitätsanforderung erfüllt
H1 : µ > µ0 , Qualitätsanforderung verletzt.
Die anderen beiden Fälle werden ganz analog behandelt.

 H0 verwerfen und H1 annehmen?
bzw.
Problem: Wann soll man

H0 akzeptieren und H1 verwerfen?
Wegen µ = EX ≈ x liegt es nahe, die Hypothese H0 dann zu verwerfen und die Alternative
H1 anzunehmen, wenn x deutlich rechts von µ0 liegt.“
”
80
2.9 Testen (Prüfen) von Hypothesen
Dazu benötigt man einen Wert, eine Schwelle c ∈
dungsregel:
R zur Formulierung folgender Entschei-
Verwerfe H0 (und akzeptiere H1 ), wenn x > c(> µ0 )
Akzeptiere H0 (und verwerfe H1 ), wenn x ≤ c.
(2.45)
Bestimmung der Schwelle c
Bei der Verwerfung bzw. Annahme der Hypothese H0 treten zwei charakteristische Fehler
auf:
Fehler 1. Art: H0 wird verworfen, obwohl H0 zutrifft (d.h. µ ≤ µ0 )
Definition 2.9.1 Es sei p1 die maximale Wahrscheinlichkeit eines Fehlers 1. Art, also p1 :=
max P (H0 wird verworfen, d.h. x̄ > c, obwohl H0 zutrifft, d.h. µ ≤ µ0 ).
Nach (2.45) ist
p1 = max P (X > c)|EX=µ = 1 − min P (X ≤ c)|EX=µ
(2.46)
µ≤µ0
µ≤µ0
Für eine gegebene sog. Signifikanzzahl α, z.B. α = 0.05, α = 0.01, bestimmt man dann die
Schwelle c in (2.45), so dass
p1 = α
(kleiner Fehler 1. Art).
(2.47)
Mit Gleichung (2.46) folgt die Bedingung
1 − min P (X ≤ c)|EX=µ = α
µ≤µ0
oder
min P (X ≤ c)|EX=µ = 1 − α.
µ≤µ0
(2.48)
81
2 Statistische Methoden
Gemäss Satz 2.4.1 hat X eine N
σ2
µ,
-Normalverteilung. Somit lässt sich die Gleichung
n
(2.48) wie folgt darstellen:
1 − α = min Φ
µ≤µ0
da Φ streng monoton wachsend ist.
Daraus folgt
c − µ0
√σ
n
also
c−µ
√σ
n
!
=Φ
c − µ0
!
√σ
n
,
= Φ−1 (1 − α),
σ
c = µ0 + √ Φ−1 (1 − α).
n
(2.49)
Satz 2.9.1 Im Test H0: µ ≤ µ0 gegen H1: µ > µ0 zur Signifikanzzahl α bestimme man c gemäss
(2.49). Damit kann ein Fehler 1. Art höchstens mit der Wahrscheinlichkeit p1 = α eintreten.
Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist (d.h. µ > µ0 )
Definition 2.9.2 Es sei p2 die Wahrscheinlichkeit eines Fehlers 2. Art, also p2 = P (H0 wird
akzeptiert, d.h., x̄ ≤ c, obwohl H0 falsch ist, d.h. µ > µ0 ).
Nach (2.45) gilt
p2 (µ) = P (X ≤ c)|EX=µ , wobei µ > µ0 .
σ2
Mit Satz 2.4.1 gilt X ist N µ,
− verteilt
n
!
c−µ
p2 (µ) = Φ
für µ > µ0 .
σ
√
(2.50a)
(2.50b)
n
Offensichtlich sollte auch der Fehler 2. Art p2 = p2 (µ) klein sein. Da c aber bereits
fixiert ist durch die Wahl der Signifikanzzahl α, lässt sich p2 (µ) nur noch über den Stichprobenumfang n beeinflussen.
Beispiel 2.9.2 Wir betrachten eine normalverteilte Zufallsvariable X mit Varianz σ 2 = 9.
Für die Signifikanzzahl α = 0.05 gilt dann 1 − α = 0.95 und damit (siehe Tabellenwerke)
Φ−1 (1 − α) = 1.645.
82
2.9 Testen (Prüfen) von Hypothesen
Wir wählen dann
µ0 = 24.
Nach ( 2.49) ist
3
3
1.645 = 24.5 für n = 100.
c = 24 + √ 1.645 = 25.56 für n = 10 bzw. c = 24 + √
10
100
Für die maximale Wahrscheinlichkeit p1 eines Fehlers 1. Art gilt demnach p1 = α = 0.05, und
für die Wahrscheinlichkeit p2 = p2 (µ) eines Fehlers 2. Art folgt
25.56 − µ
√
, µ > 24, für n = 10
p2 (µ) = Φ
0.9
24.5 − µ
p2 (µ) = Φ
, µ > 24, für n = 100.
0.3
Bemerkung 2.9.1 Die Funktion
β(µ) := 1 − p2 (µ), µ > µ0 ,
(2.51)
heißt Macht des Tests. β(µ) ist die Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden.
83
2 Statistische Methoden
2.10 Parameter-Schätzung
Problem: Die Verteilung PX einer Zufallsvariablen X hängt meistens von gewissen reellen
Parametern
θ1 , θ2 , · · · , θr , r ≥ 1,
ab, die unbekannt sind. Sei
θ = (θ1 , θ2 , . . . , θr )T .
Für eine gegebene Stichprobe x = (x1 , x2 , . . . , xn ) von X ist dann eine Schätzung θ̂ = g(x),
der unbekannten Parameter gesucht, d.h.
θ̂1 = g1 (x1 , x2 , . . . , xn )
θ̂2 = g2 (x1 , x2 , . . . , xn )
..
.
(2.52)
θ̂r = gr (x1 , x2 , . . . , xn ).
Definition 2.10.1 Die Funktion x −→ θ̂ = g(x) heißt Schätzfunktion für den Parametervektor θ. Statt θ̂ = g(x) schreibt man auch kurz θ̂ = θ̂(x).
Beispiel 2.10.1
1) Für eine N (µ, σ 2 )-normalverteilte Zufallsvariable X ist
θ1 = µ(∈
R), θ2 = σ2(> 0),
ferner ist die Dichte f (x) von X gegeben durch
1
1
2
exp − 2 (x − µ) , x ∈
f (x) = f (x|µ, σ ) =
(2πσ 2 )1/2
2σ
2
R.
2) Die Dichte einer 1-seitigen Exponentialverteilung ist definiert durch
α exp(−αx) , x ≥ 0
f (x) = f (x|α) =
0
, sonst,
(2.53a)
(2.53b)
also
θ1 = α(> 0).
3) Eine γ-Verteilung hat die Dichte
(
f (x) = f (x|α, β) =
exp − βx
,x > 0
0
, sonst
1
xα−1
β α Γ(α)
(2.53c)
mit den Parametern
θ1 = α > 0, θ2 = β > 0.
4) Die Wahrscheinlichkeitsfunktion (nicht Dichte) einer einfachen Binomialverteilung ist
gegeben durch
1 − p ,k = 0
f (k|p) =
(2.53d)
p
,k = 1
mit dem Parameter
θ1 = p, 0 ≤ p ≤ 1.
84
2.10 Parameter-Schätzung
5) Für eine Poisson-Verteilung gilt
pk = P (X = k) = f (k|λ), k = 0, 1, 2, . . . ,
e−λ λk
f (k|λ) =
, k = 0, 1, 2, . . .
k!
(2.53e)
mit dem Parameter
θ1 = λ > 0.
6) Allgemeine Binomialverteilung. Hier ist
pk = P (X = k) = f (k|p), k = 0, 1, . . . , m,
m k
f (k|p) =
p (1 − p)m−k , k = 0, 1, . . . , m
k
(2.53f)
mit dem Parameter
θ1 = p, 0 ≤ p ≤ 1.
2.10.1 Gütekriterien für Schätzfunktionen
Gegeben sei eine Zufallsvariable X mit den unbekannten Parametern θ = (θ1 , . . . , θr )T . Zur
Schätzung von θ betrachten wir eine
- Stichprobe
sowie eine
- Schätzfunktion
x = (x1 , . . . , xn )T von X. Nach Abschnitt 2.2.1 ist
x eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , XN ), wobei
X1 , X2 , . . . , XN unabhängige und wie X verteilte Zufallsvariable sind,
θ̂ = g(x) für θ
Die Schätzwerte θ̂ werden erzeugt durch die Zufallsvariable G = g(X).
Eigenschaften von Schätzfunktionen
a) Erwartungstreue
Definition 2.10.2 Die Schätzfunktion θ̂ = g(x) für θ heißt erwartungstreu, wenn
Eg(X) = E θ̂(X) = Eg1 (X), Eg2 (X), . . . , Eg r (X) = θ.
(2.54)
85
2 Statistische Methoden
Beispiel 2.10.2 Normalverteilung N (µ, σ 2 ), also θ1 = µ, θ2 = σ 2
Wählt man
n
θ̂1
1X
= g1 (x) := x =
xk
n k=1
θ̂2
1 X
= g2 (x) := s =
(xk − x)2 ,
n − 1 k=1
(2.55a)
n
2
(2.55b)
so folgt mit Satz 2.3.1a und Satz 2.4.3, dass θ̂ = g(x) = (x, s2 ) eine erwartungstreue
Schätzungsfunktion für θ = (µ, σ 2 ) ist.
b) Konsistenz von Schätzfunktionen
Definition 2.10.3 Eine Schätzfunktion θ̂ = g(x) für θ heißt konsistent, wenn
lim P |gj (X) − θj | < = 1 für beliebiges > 0,
n→∞
(2.58)
d.h. θ̂j (X) → θj , n → ∞ für jedes j = 1, 2, . . . , r.
Beispiel 2.10.3 Sei θ1 = µ = EX der zu schätzende Parameter einer Zufallsvariablen
X mit endlicher Varianz σ 2 , z.B. der Erwartungswert µ = EX einer normalverteilten
Zufallsvariablen X mit Varianz σ 2 .
Aus Korollar 2.3.2 folgt:
lim P (|X − µ| < ) = 1 für alle > 0.
n→∞
Mit Satz 2.3.1a folgt daraus
Satz 2.10.1 µ̂ = g(x) = x ist eine konsistente und erwartungstreue Schätzungsfunktion
für den Erwartungswert µ einer Zufallsvariablen X mit endlicher Varianz.
c) Effizienz einer Schätzfunktion
Definition 2.10.4 Eine erwartungstreue Schätzfunktion θ̂ = h(x) für θ heißt effizient,
wenn für alle j = 1, 2, . . . , r gilt
2
Var gj (X) = E (gj (X) − θj )2 ≥ E hj (X) − θj = Var hj (X)
(2.59)
für alle anderen erwartungstreuen Schätzer θ̂ = g(x) für θ. Eine effiziente Schätzfunktion
hat, also eine minimale mittlere quadratische Abweichung von θ.
86
2.10 Parameter-Schätzung
2.10.2 Die Momentenmethode
Gesucht: Schätzfunktion θ̂ = g(x) für die unbekannten Parameter θ1 , θ2 , . . . , θr einer Zufallsvariablen X.
Gegeben: Stichprobe x = (x1 , . . . , xn ) von X, wobei x wieder als eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , Xn ) gemäss Abschnitt 2.2.1, Formel (2.2), betrachtet werden
kann.
Zur Definition einer Schätzfunktion θ̂ = g(x) für θ verfährt man hier wie folgt:
a) Man betrachtet zunächst die Momente m1 , m2 , . . . , mr von X.
Aus Satz 1.5.4 folgt:
 +∞
Z




xj f (x|θ) dx, X hat eine Dichte f (x|θ)





−∞


ρ
 X
j
(x◦i )j f (xi |θ), X ist diskret verteilt mit der
mj = EX =


i=1



Wahrscheinlichkeitsfunktion




f (x◦i |θ) = P (X = x◦i ), i = 1, 2, . . . , ρ



(aus oder ρ = ∞).
N
Man beachte, dass die Dichte f (x|θ) bzw. die W-Funktion f (xi |θ) vom Parametervektor
θ abhängt, siehe (2.55a-f).
Somit ergibt sich folgendes Gleichungssystem
m1 = EX = m1 (θ1 , θ2 , . . . , θr )
m2 = EX 2 = m2 (θ1 , θ2 , . . . , θr )
..
..
..
.
.
.
mr = EX r = mr (θ1 , θ2 , . . . , θr )





(2.60)




Offensichtlich lässt sich nun (2.60) bei gegebenen Momenten m1 , m2 , . . . , mr von X interpretieren als ein Gleichungssystem mit r Gleichungen für die r unbekannten Momente
θ1 , θ2 , . . . , θr .
b) Die Auflösung von (2.60) nach θ ergibt
θ = T (m1 , m2 , . . . , mr ).
(2.61)
c) Schätzfunktion für θ: Eine Schätzfunktion für θ erhält man sofort, indem nun die Momente m1 , m2 , . . . , mr durch Schätzwerte m̂1 , m̂2 , . . . , m̂r ersetzt werden:
θ̂ = T (m̂1 , m̂2 , . . . , m̂r ).
(2.62)
d) Schätzwerte für die Momente mk , k = 1, . . . , r
Nach (2.6a) ist das j-te empirische Moment m̂j für eine Stichprobe
(x1 , . . . , xk , . . . , xn ) von X definiert durch
n
1X
m̂j = m̂j (x) =
(xk )j , j = 1, 2, . . . , r.
n k=1
(2.63)
87
2 Statistische Methoden
Für diese Momentenschätzer hat man den folgenden
Satz 2.10.2 Haben die Zufallsvariablen X i , i = 1, . . . , r, eine endliche Varianz, dann sind
m̂i (x), i = 1, 2, . . . , r, erwartungstreue und konsistente Schätzungsfunktionen für die Momente
mi , i = 1, 2, . . . , r.
Folgerung für die Schätzfunktion θ̂: Nach (2.62) ist
θ̂ = g(x) = T (m̂1 , m̂2 , . . . , m̂r )
= T m̂1 (x), m̂r (x), . . . , m̂r (x)
P
P
P
= T n1 nk=1 xk , n1 nk=1 x2k , . . . , n1 nk=1 xrk
(2.64)
Zur Untersuchung dieser Schätzfunktion benötigt man folgendes Hilfsmittel:
Satz 2.10.3 Das Gesetz der großen Zahlen. Sei Z1 , Z2 , . . . eine Folge unabhängiger und
identisch verteilter Zufallsvariablen. Ist dann a = EZi der Erwartungswert dieser Zufallsvariablen, dann gilt
n
1X
Zk = a mit Wahrscheinlichkeit 1.
(2.65)
lim
n→∞ n
k=1
Folgerung aus Satz 2.10.3:
Sei X1 , X2 , . . . , Xk , . . . eine Folge von unabhängigen Zufallsvariablen, die dieselbe Verteilung
wie X haben.
Für jedes i = 1, 2, . . . , r ist dann
X1i , X2i , X3i , . . . , Xni , . . .
wieder eine Folge unabhängiger und identisch verteilter Zufallsvariablen, wobei
EXki = EX i = mi (i-tes Moment von X), i = 1, 2, . . . , r.
Setzt man deshalb für ein festes i, 1 ≤ i ≤ r,
Zk := Xki ,
so folgt aus Satz 2.10.3
n
1X i
Xk −→ EX i = mi , n → ∞ mit Wahrscheinlichkeit = 1.
n k=1
Damit gilt der folgende
P
P
Satz 2.10.4 Konsistenz der Schätzfunktion θ̂ = T n1 nk=1 xk , . . . , n1 rk=1 xrk . Die Funktion
θ = T (m1 , . . . , mr ) sei stetig. Dann gilt mit Wahrscheinlichkeit 1
!
n
n
n
1X
1X 2
1X r
−→ θ für n → ∞.
θ̂ = T
Xk ,
X ,...,
X
n k=1
n k=1 k
n k=1 k
Beispiel 2.10.4 X sei N (µ, σ 2 )-verteilt.
Gesucht: θ = (µ, σ 2 )
88
2.10 Parameter-Schätzung
Die Momentengleichung (2.60) lautet dann
m1 = m1 (µ, σ 2 ) = EX = µ
m2 = m2 (µ, σ 2 ) = EX 2 = σ 2 + µ2 .
Die Auflösung nach µ, σ 2 liefert µ = m1 und σ 2 = m2 − µ2 = m2 − m21 .
Für die Funktion T in (2.61) erhält man somit
m1
,
T (m1 , m2 ) =
m2 − m21
wobei T offensichtlich stetig ist. Nach (2.62) hat man dann für θ = (µ, σ 2 ) die Schätzfunktion


n
X
1
xk

 n


m̂1
k=1


θ̂ = T (m̂1 , m̂2 ) =
=
n
 X

m̂2 − (m̂1 )2
2
2 
 1
x
−
(
m̂
)
1
k
n
k=1


= 

x
1
n
n
X

2 
(xk − x)
k=1
n
1X
mit x = m̂1 =
xk
n k=1
(2.66)
Eigenschaften der Schätzfunktion (2.66)
a) Da T stetig, folgt nach Satz 2.10.4, dass θ̂ = T (m̂1 , m̂2 ) eine konsistente Schätzfunktion
für θ ist.
b) EX = µ
n
X
n−1 2
(Xk − X)2 =
σ 6= σ 2 (siehe Satz 2.4.3)
E n1
n
k=1
Die Schätzfunktion ist also nur asymptotisch erwartungstreu, d.h. für n → ∞.
Beispiel 2.10.5 X hat eine γ-Verteilung mit Parametern θ = (α, β), α, β > 0
Momente von X:
m1 = EX = α · β
m2 = EX 2 = α(α + 1)β 2
Auflösung nach α, β:
α=
β=
m21
m2 −m21
m2 −m21
m21
θ = T (m1 , m2 ) =
)
m21
m2 −m21
m2 −m21
m21
!
Da T stetig ist, folgt wieder die Konsistenz der Schätzfunktion, Erwartungstreue ist aber auch
hier nicht gegeben.
89
2 Statistische Methoden
2.10.3 Die Maximum-Likelihood-Methode
Sei X eine Zufallsvariable, deren Verteilung PX von Parametern θ1 , θ2 , . . . , θr abhängt. Im
folgenden besitze X eine stetige Verteilung mit der Dichtefunktion f (x|θ1 , θ2 , . . . , θr ).
Definition 2.10.5 Die Likelihood-Funktion
Ist x1 , x2 , . . . , xn eine Stichprobe von X, dann heißt
l(θ1 , θ2 , . . . , θr ) =
n
Y
f (xk |θ1 , θ2 , . . . , θr ) = l(θ|x)
(2.67)
k=1
die Likelihood-Funktion.
Definition 2.10.6 Maximum-Likelihood-Schätzfunktion. Ist θ̂ = θ̂(x) eine Maximalstelle von l(θ|x), gilt also
(2.68)
l(θ̂|x) ≥ l(θ|x) für alle Parameter θ,
so heißt θ̂ = θ̂(x) eine Maximum-Likelihood-Schätzfunktion.
Für eine gegebene Stichprobe x von X ist also das Maximierungsproblem
max l(θ|x),
θ
(2.69a)
zu lösen, das äquivalent ist mit dem Optimierungsproblem
max ln l(θ|x).
θ
(2.69b)
Definition 2.10.7 θ −→ ln l(θ|x) heißt log-Likelihood-Funktion.
Notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂
d.h.
∇θ l(θ|x) = 0,
(2.70a)
∂
l(θ|x) = 0, j = 1, 2, . . . , r.
∂θj
(2.70b)
Äquivalent dazu ist die notwendige Bedingung
d.h.
∇θ ln l(θ|x) = 0,
(2.71a)
∂
ln l(θ|x) = 0, j = 1, 2, . . . , r
∂θj
(2.71b)
Beispiel 2.10.6 X sei N (µ, σ 2 )-verteilt. X hat also die W-Dichte
2 !
1
1
x
−
µ
f (x|µ, σ 2 ) = √
exp −
.
2
σ
2πσ 2
90
2.10 Parameter-Schätzung
Somit ist
l(θ|x) =
n
Y
−n
2
f (xk |µ, σ 2 ) = (2πσ 2 )
k=1
n
1 X
exp − 2
(xk − µ)2
2σ k=1
!
,
(2.72a)
und für die log-likelihood-Funktion gilt
n
1 X
n
2
(xk − µ)2 .
ln l(θ|x) = − ln 2πσ − 2
2
2σ k=1
(2.72b)
Als notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂ = (µ̂, σˆ2 ) erhält man in
diesem Fall
n
X
∂
1
0 = ∂µ ln l(θ|x) = σˆ2
(xk − µ̂)
k=1
0=
∂
∂σ 2
ln l(θ|x) = − n2 σ1ˆ2 +
1 1
2 σˆ4
n
X
(xk − µ̂)2 .
k=1
Daraus folgt für den Maximum Likelihood-Schätzer für θ = (µ, σ 2 ) sofort die Darstellung
µ̂
=
1
n
n
X
xk = x
k=1
σˆ2 =
1
n
n
X
(2.73)
2
(xk − x)
k=1
Offensichtlich gilt der folgende
Satz 2.10.5 Der Maximum-Likelihood-Schätzer ist asymptotisch erwartungstreu.
91
2 Statistische Methoden
92
Index
Additionsgesetz, 7
Additionstheorem, 12
Alternative, 79
asymptotisch verteilt, 79
Axiome, 11
Bedingte Wahrscheinlichkeit, 12
Bernoulliverteilung, 25
Binomialverteilung, 25
Cauchy-Verteilung, 26
charakteristische Funktion, 33
Chi-Quadrat Verteilung, 75
Dichte, 37, 38
Dichtefunktion, 23
diskrete Verteilung, 19, 43
Dynamische Systeme, 36
Gleichverteilung, 25
gleichwahrscheinlich, 16
Häufigkeit
relative, 16
homogen, 9
Indikatorfunktion, 60
Inferenz, 15
Inferenzmaschine, 15
Komplement, 9
Konfidenzintervall, 68
Konfidenzzahl, 68
konsistent, 86
konsistenter Schätzer, 66
Kovarianz, 47
Kovarianzmatrix, 47
effizient, 86
Einpunktverteilung, 29
Elementarereignis, 57
empirische Verteilungsfunktion, 61
empirisches Moment, 62
Ereignis, 6, 10
komplementär, 9
sicheres, 7, 12
unmögliches, 7, 12
erwartungstreu, 64, 85
Erwartungswert, 28, 39, 49
Experiment, 5
Expertensysteme, 15
Exponentialverteilung, 26
Laplace, 57
Likelihood-Funktion, 90
Fehler 1. Art, 81
Fehler 2. Art, 82
Poissonverteilung, 25
Gesetz der großen Zahlen, 88
Macht des Tests, 83
Maximierungsproblem, 90
Maximum-Likelihood-Schätzfunktion, 90
Median, 54
Moment, 29, 40
empirisches, 62
momenterzeugende Funktion, 33
Monotoniegesetz, 7
Normalverteilung, 26, 69
Nullhypothese, 79
Qualitätsforderung, 74
Quantil, 55
93
Index
Randdichte, 45
Randverteilung, 43
Realisation des Schätzers, 64
Rechtecksverteilung, 28
Regressionsgerade, 52
relative Häufigkeit, 16
Schätzfunktion, 63, 84
Schiefe einer Verteilung, 31
Schließen mit Wahrscheinlichkeit, 15
Signifikanzzahl, 81
singuläre Verteilung, 25
Skalentransformation, 35
standard deviation, 29
Standardabweichung, 29, 63
stetige Verteilung, 19, 21, 44
Stetigkeitsaxiom, 12
Stichprobe, 58
stochastisch unabhängig, 14, 42, 43
stochastische Variable, 5
Streuung, 29
Student-Verteilung, 74
Treppenfunktion, 21
Tschebyscheffsche Ungleichung, 65
unabhängig, 14, 42, 43
unkorreliert, 51
Varianz, 28, 30, 40
Versuchsprotokoll, 58
Verteilung
Chi-Quadrat, 75
diskrete, 19, 43
singuläre, 25
stetige, 21, 44
Student-, 74
symmetrisch, 31
Verteilungsfunktion, 17, 44
empirische, 61
Vertrauensellipse, 77
Würfelexperiment, 11, 13
Wahrscheinlichkeit
bedingte, 12
subjektive, 17
Wahrscheinlichkeitsaxiome, 11
Wahrscheinlichkeitsdichte, 22, 44
94
Wahrscheinlichkeitsverteilung, 5
Zentraler Grenzwertsatz, 78
Zentralwert, 54
Zufallsgröße, 42
Zufallsvariable, 5
Zufallsvektor, 42, 58