Statistik für Ingenieure

Werbung
Statistik für Ingenieure
Vorlesung von
Univ.Prof.Dr. Kurt Marti
UniBw München
LATEX-Satz: Elisabeth Lößl
Neubiberg/München, Januar 2000
Überarbeitete Fassungen: Januar 2002, Januar 2004
.................................
[email protected]
http://www.stoch.net
2
Inhaltsverzeichnis
1 Ereignisse und Wahrscheinlichkeiten
1.1 Zufallsvariablen und Ereignisse . . . . . . . . . . . . . . . . .
1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten
1.1.2 Elementare Definition von Wahrscheinlichkeiten . . . .
1.2 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen . . . . . . . .
1.3.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . .
1.3.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . .
1.4 Masszahlen von Verteilungen . . . . . . . . . . . . . . . . . . .
1.4.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . .
1.4.2 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4.3 Momente von X bzw. PX . . . . . . . . . . . . . . . .
1.4.4 Schiefe einer Verteilung . . . . . . . . . . . . . . . . . .
1.5 Funktionen von Zufallsvariablen . . . . . . . . . . . . . . . . .
1.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . . .
1.5.2 Dichtefunktion . . . . . . . . . . . . . . . . . . . . . .
1.5.3 Erwartungswert, Momente von Y = ϕ(X) . . . . . . .
1.6 Mehrdimensionale Zufallsgrössen . . . . . . . . . . . . . . . .
1.6.1 Verteilungstypen . . . . . . . . . . . . . . . . . . . . .
1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen . . . . . .
1.6.3 Funktionen mehrdimensionaler Zufallsgrössen . . . . .
1.7 Regression (der Grundgesamtheit) . . . . . . . . . . . . . . . .
1.7.1 Regression einer Stichprobe von (X, Y) . . . . . . . . .
1.8 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Mediane . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Quantile (der Ordnung α) . . . . . . . . . . . . . . . .
2 Statistische Methoden
2.1 Praktische Berechnung von Wahrscheinlichkeiten . .
2.1.1 Klassische Definition der Wahrscheinlichkeit
2.2 Approximation von Wahrscheinlichkeiten . . . . . .
2.2.1 Stichproben . . . . . . . . . . . . . . . . . .
2.2.2 Relative Häufigkeiten . . . . . . . . . . . . .
2.3 Approximative Bestimmung der Verteilung . . . . .
2.3.1 Empirische Verteilungsfunktion . . . . . . .
2.3.2 Empirische Momente . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
10
16
17
19
19
21
28
28
28
29
31
35
36
37
39
41
43
46
47
52
54
54
54
55
.
.
.
.
.
.
.
.
57
57
57
58
58
58
61
61
62
3
Inhaltsverzeichnis
2.4
2.5
2.6
2.7
2.8
2.9
2.10
Index
4
2.3.3 Schätzung von µ = EX durch x . . . . . . . . . . . . . . . . . . . . . .
2.3.4 Abschätzung der Abweichung zwischen X und µ . . . . . . . . . . . . .
Konfidenzintervalle (Vertrauensintervalle) . . . . . . . . . . . . . . . . . . . . .
2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer Normalverteilung mit bekannter Varianz . . . . . . . . . . . . . . . . . . .
2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2 . . . . . . . . . . . . .
Vertrauensintervalle/Erwartungswert . . . . . . . . . . . . . . . . . . . . . . .
Vertrauensintervalle für Varianz . . . . . . . . . . . . . . . . . . . . . . . . . .
Vertrauensintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Konfidenzintervalle bei beliebigen Verteilungen . . . . . . . . . . . . . . . . . .
Testen (Prüfen) von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . .
Parameter-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10.1 Gütekriterien für Schätzfunktionen . . . . . . . . . . . . . . . . . . . .
2.10.2 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10.3 Die Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . .
63
65
67
69
72
73
75
76
78
79
84
85
87
90
92
1 Ereignisse und Wahrscheinlichkeiten
1.1 Zufallsvariablen (zufällige oder stochastische Größen)
und Ereignisse
Die Stochastik, also die Wahrscheinlichkeitstheorie und Statistik, befasst sich mit Gesetzmäßigkeiten und Methoden zur Beschreibung, Untersuchung und Beeinflussung zufälliger Ereignisse
und Prozesse.
Grundlegend dazu sind Experimente E mit zufälligem Ausgang, die (prinzipiell) beliebig oft
wiederholbar seien:
E1 , E2 , . . . , Ej , . . .
bezeichnet also eine Folge von Wiederholungen (räumlich oder zeitlich) ein- und desselben
Experiments E.
Der Ausgang, das Ergebnis oder das Resultat eines Experiments E lässt sich eigentlich
immer beschreiben durch eine oder mehrere reellwertige Größen X, Y, Z, . . . ; zu Beginn dieses Kapitels nehmen wir an, dass zur Beschreibung des Ausgangs des Experiments E eine
reellwertige Größe X ausreicht.
In vielen praktischen Situationen stellt man nun Folgendes fest:
A) die möglichen Werte x von X liegen in einem bestimmten, gegebenen Bereich Ω der
reellen Zahlen ;
R
B) der einzelne Wert X = x, den die Größe X bei einer bestimmten Durchführung des
Experiments E annimmt (zeigt, aufweist, etc.), ist ungewiss, lässt sich also nicht mit
Bestimmtheit (Sicherheit) vorhersagen oder ausrechnen, da dies von unkontrollierbaren,
zufälligen Einflüssen abhängt;
C) angeben lässt sich hingegen die Wahrscheinlichkeit
P (I) = PX (I) = P (X ∈ I),
(1.1a)
d.h. eine Masszahl 0 ≤ PX (I) ≤ 1 für den Grad der Sicherheit mit dem X irgendeinen
Wert x in einem gegebenen Intervall I ⊂ annimmt.
R
Definition 1.1.1 (vorläufige Definition) Treffen die obigen Eigenschaften (A), (B) und (C)
zu, so heißt X eine Zufallsvariable oder stochastische Variable.
Die Abbildung
PX : I → PX (I) = P (X ∈ I), I ⊂
R, I Intervall
(1.1b)
heißt die (Wahrscheinlichkeits-) Verteilung der Zufallsvariablen X (vorläufige Definition der Verteilung).
Beispiele
5
1 Ereignisse und Wahrscheinlichkeiten
Experiment E
- Werfen eines Würfels
- Werfen einer Münze
- Messen physikalischer, chemischer Größen
- Radioaktiver Zerfall
- Qualitätskontrolle von Autoreifen
- Abgaskontrolle
- Erhebung medizinischer Daten
(mehrere Merkmale)
Zufallsvariable X, Y, Z, . . .
X = Augenzahl, Ω = {1, 2, 3, 4, 5, 6}
Y = 1, wenn Kopf, Y = 0, wenn Zahl, Ω = {0, 1}
Z = Messwert der betr. physikalischen,
chemischen Größe, Ω Intervall
N = Anzahl der untersuchten Teilchen, die pro
Zeiteinheit ausgesendet werden, Ω =
T = Laufzeit eines Reifens einer bestimmten
Sorte, Ω = [0, +∞)
p = CO-Konzentration im Abgas eines bestimmten
Ölbrenners (Marke, Typ gegeben), Ω = [0, 1]
N
X1 , X2 , . . . , Xr : Alter, Geschlecht, Gewicht, Blutdruck, etc. eines Mitgliedes einer bestimmten Bevölkerungsgruppe in einem bestimmten Zeitpunkt.
Im Folgenden bezeichne
I : a < x < b, a ≤ x < b, a < x ≤ b, a ≤ x ≤ b
ein beliebiges endliches oder unendliches Intervall, also auch a = −∞ oder b = +∞.
Wir betrachten dann das Ereignis
[X ∈ I], d.h. [a < X < b] oder [a ≤ X ≤ b], . . . ,
(1.1c)
dass die zufällige Größe X irgendeinen Wert x im Intervall I annimmt. Während man nicht
mit Sicherheit vorhersagen kann, welchen Wert X annehmen wird, verlangt man also nach
Definition 1.1.1, dass die Wahrscheinlichkeit
P (X ∈ I) oder P (a < X < b), P (a ≤ X < b), . . . ,
(1.1d)
dass X irgendeinen Wert in I annimmt, definiert ist, wobei 0 ≤ P (X ∈ I) ≤ 1.
Spezialfälle:
a) I = [a, b], b = a ⇒ P (X ∈ I) = P (X = a) = Wahrscheinlichkeit, dass X den Wert a
annimmt
b) I = (−∞, b] ⇒ P (X ∈ I) = P (X ≤ b) = Wahrscheinlichkeit, dass X einen Wert x
annimmt, der nicht größer als b ist.
c) I = (−∞, +∞) ⇒ P (X ∈ I) = P (−∞ < X < +∞) = Wahrscheinlichkeit, dass X
irgend eine reelle Zahl x annimmt. Da X nach Voraussetzung nur reelle Zahl annehmen
kann, ist [−∞ < X +∞] ein sicheres Ereignis. Man setzt deshalb P (−∞ < X < +∞) :=
1.
d) I = (a, b), a = b ⇒ P (X ∈ I) = P (a < X < a). Da a < X < a ein unmögliches Ereignis
ist, setzt man P (a < X < a) := 0.
Axiome über die Verteilung PX : I → P (X ∈ I) von X
Man verlangt nun, dass die Verteilung PX von X folgende Eigenschaften haben soll:
6
1.1 Zufallsvariablen und Ereignisse
A1) 0 ≤ P (X ∈ I) ≤ 1 für alle Intervalle I ⊂
R
A2) P (X ∈ Ω) = P (sicheres Ereignis) := 1
P (X ∈ ∅) = P (unmögliches Ereignis) := 0
A3) Sind I1 , I2 zwei disjunkte Intervalle und I ein Intervall, so das I := I1 ∪ I2 , dann gilt das
Additionsgesetz
P (X ∈ I) = P (X ∈ I1 ∪ I2 ) = P (X ∈ I1 ) + P (X ∈ I2 ).
Folgerung aus den Axiomen (A1) - (A3)
i) Wegen Ω ⊂
R ist [X ∈ R] ebenfalls ein sicheres Ereignis. Also gilt P (X ∈ R) = 1.
ii) Sei c eine beliebige Zahl. Dann
S gilt
= (−∞, +∞) = (−∞, c] (c, +∞) disjunkte Vereinigung von
R
R.
Aus (A2), (A3) folgt
1 = P (X ∈
R) = P (X ≤ c) + P (X > c)
(1.2)
und damit
P (X > c) = 1 − P (X ≤ c).
iii) Sei I1 ⊂ I2 . Dann gilt das Monotoniegesetz
P (X ∈ I1 ) ≤ P (X ∈ I2 )
(1.3)
Beweis: Sei z.B. a < c < d < b und
I1 = [c, d], I2 = (a, b].
S
S
Dann ist I2 = (a, d] (d, b], (a, d] = (a, c) I1 . Daraus folgt
P (X ∈ I2 ) = P (X ∈ (a, d]) + P (X ∈ (d, b])
(wegen (A3))
= P (X ∈ (a, c)) +P (X ∈ I1 ) + P (X ∈ (d, b]) (wegen (A3))
{z
}
|
{z
}
|
≥0
≥0
und damit
P (X ∈ I2 ) ≥ P (X ∈ I1 ).
Ausdehnung der Verteilung PX : I → P (X ∈ I) auf allgemeinere Zahlenmengen B
bzw. Ereignisse [X ∈ B]
7
1 Ereignisse und Wahrscheinlichkeiten
Beispiel 1.1.1 Gegeben sei B = {x : |x| > c}. Gesucht ist also die Wahrscheinlichkeit
P (|X| > c).
B ist kein Intervall, aber
B = I1
[
I2 , I1 = (−∞, c), I2 = (c, +∞),
ist eine Vereinigung disjunkter Intervalle. Man definiert daher
P (X ∈ B) := P (X ∈ I1 ) + P (X ∈ I2 ).
Wegen (A2), (A3) folgt hier noch:
P (X ∈ B) = P (|X| > c) = 1 − P (|X| ≤ c).
(1.4)
Allgemeiner Fall:
Definition 1.1.2 B sei die Vereinigung B =
N
[
Ij von endlich (N < +∞) oder höchstens
j=1
abzählbar unendlich (N = ∞) vielen disjunkten Intervallen Ij . Man definiert dann P (X ∈
N
X
B) :=
P (X ∈ Ij ).
j=1
Damit die Definition 1.1.2 konsistent ist, benötigt man noch ein weiteres Axiom:
A4) Für jede beliebige Folge I1 , I2 , . . . , Ij , . . . disjunkter Intervalle Ij , j ≥ 1, ist
∞
X
P (X ∈ Ij )
j=1
eine konvergente Reihe und stellt die Wahrscheinlichkeit dar, dass X einen Wert x in
∞
[
Ij annimmt.
j=1
8
1.1 Zufallsvariablen und Ereignisse
Beispiel 1.1.2 X sei die beim Wurf eines homogenen Würfels erzielte Zahl n. Die Ereignisse
[X = n], n = 1, 2, . . . , 6, heißen hier auch Elementarereignisse. Für sie gilt
1
P (X = n) = , n = 1, 2, . . . , 6.
6
Daraus folgt z.B.
1
1
P (1 < X < 2) = 0, P (1 ≤ X < 2) = , P (1 ≤ X ≤ 2) =
6
3
5
1
P (1 ≤ X < 6) =
, P (X = gerade) = P (X = ungerade) =
6
2
5
1
1
3
<X<
=
, P (X < 2.4) = .
P
2
2
6
3
Komplementäre Ereignisse:
Sei B eine endliche oder abzählbar unendliche Vereinigung disjunkter Intervalle. Das Komplement von B
R
B := \B = {x : x ∈
/ B} ist wieder eine endliche oder abzählbar unendliche
Vereinigung disjunkter Intervalle.
Somit ist auch P (X ∈ B) definiert!
Beispiel 1.1.3
B = {x : |x| > c} ⇒ B = {x : |x| ≤ c}.
Für eine Zufallsvariable X heißen die Ereignisse
[X ∈ B] und [X ∈ B]
komplementäre Ereignisse.
Eigenschaften von PX : B → P (X ∈ B)
Aus den Axiomen (A1)-(A4) ergibt sich nun das folgende grundlegende Resultat:
Satz 1.1.1 Seien B, B1 , B2 beliebige Vereinigungen von höchstens abzählbar unendlich vielen
disjunkten Intervallen. Dann gilt
a)
0 ≤ P (X ∈ B) ≤ 1
(1.5a)
B1 ⊂ B2 ⇒ P (X ∈ B1 ) ≤ P (X ∈ B2 )
(1.5b)
P (X ∈ B) = 1 − P (X ∈ B)
(1.5c)
b)
c)
d)
P (X ∈ B1
[
B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ), wenn B1
\
B2 = ∅
(1.5d)
9
1 Ereignisse und Wahrscheinlichkeiten
e)
P (X ∈ B1 ∪ B2 ) = P (X ∈ B1 ) + P (X ∈ B2 ) − P (X ∈ B1 ∩ B2 )
(1.5e)
f) Sei Bn ⊂ Bn+1 bzw. Bn ⊃ Bn+1 eine Folge geschachtelter Mengen, so dass jedes Bn
Vereinigung höchstens abzählbar unendlich vieler disjunkter Intervalle ist. Dann gilt
lim P (X ∈ Bn ) = P (X ∈
n→∞
bzw.
lim P (X ∈ Bn ) = P (X ∈
n→∞
∞
[
Bn )
(1.6a)
Bn )
(1.6b)
n=1
∞
\
n=1
Bemerkung 1.1.1 Mittels (A1)-(A4) kann die gesamte Wahrscheinlichkeitstheorie und Statistik axiomatisch begründet werden.
Bemerkung 1.1.2 Für eine gegebene Zufallsvariable X wird das Ereignis [X ∈ B] auch kurz
mit B bezeichnet, und anstelle von P (X ∈ B) schreibt man auch kurz P (B).
1.1.1 Ereignisse (allgemeiner Art) und Wahrscheinlichkeiten
R
Neben Ereignissen [X ∈ B], die mit Hilfe von Zufallsvariablen X und Teilmengen B ⊂
beschrieben werden, betrachtet man auch allgemeinere und zunächst oft nur verbal definierte
Ereignisse
A, B, A1 , A2 , . . .
und ihre Wahrscheinlichkeiten
P (A), P (B), P (A1 ), P (A2 ), . . . .
Typische Beispiele sind:
- Wahrscheinlichkeit der Wetterentwicklung (Regen, Sonne, Schnee, etc.) am nächsten Tag
bzw. in den nächsten Tagen;
- Wahrscheinlichkeit des Erfolgs (Verbesserung des momentanen Zustandes, Heilung) einer
bestimmten medizinischen Behandlung;
- Wahrscheinlichkeit des Ausgangs einer Wahl bzw. einer Abstimmung über eine bestimmte Vorlage.
Im Folgenden wird nun die Wahrscheinlichkeitsfunktion P = P (A) näher untersucht.
A) Operationen mit Ereignissen
Für allgemeine Ereignisse A, B definiert man folgende Operationen:
10
1.1 Zufallsvariablen und Ereignisse
Definition 1.1.3 Seien A, B Ereignisse, die in einer bestimmten Ungewissheitssituation
auftreten können. Ferner bezeichne ∅ das unmögliche und Ω das sichere Ereignis. Dann
setzt man
A ∪ B (oder A + B) Ereignis, dass A oder B auftritt
A ∩ B (oder AB)
Ereignis, dass A und B gleichzeitig auftreten
Ā (oder Ac )
komplementäres Ereignis zu A, also das Ereignis,
das eintritt, wenn A nicht eintritt
A\B (oder AB̄)
Ereignis, dass A, nicht aber B auftritt
B\A (oder B Ā)
Ereignis, dass B, nicht aber A auftritt.
Ferner bedeutet
B ⊃ A (oder A ⊂ B)
Ereignis A impliziert Ereignis B, d.h., immer
wenn A auftritt, tritt auch B auf.
Beispiel 1.1.4 Würfelexperiment
A = [Augenzahl durch 3 teilbar]
B = [Augenzahl ungerade]
C = [Augenzahl = 5]
Hier ist
C⊂B
A∩B =
[Augenzahl = 3]
A ∪ B = D̄, D = [Augenzahl ist Potenz von 2 (Exp. ≥ 1)]
B̄ =
[Augenzahl gerade]
B\A =
[Augenzahl ist 1 oder 5]
B) Wahrscheinlichkeit von Ereignissen
Das Eintreten eines bestimmten Ereignisses, z.B. A = [am nächsten Tag ist sonniges
Wetter] kann man i.a. nicht mit Bestimmtheit (Sicherheit) voraussagen. Man versucht
daher wenigstens die “Wahrscheinlichkeit”
A −→ P (A) ∈ [0, 1]
des Ereignisses anzugeben, d.h. ein Maß, einen Grad P (A) für die Erwartung des Eintretens von A.
Ganz analog zur Wahrscheinlichkeitsfunktion I −→ P (X ∈ I) auf Intervallen I bzw. auf
Vereinigungen endlich oder abzählbar unendlich vieler Intervalle, siehe Definition 1.1.2,
verlangt man, dass die Wahrscheinlichkeit P (A) von Ereignissen A folgende Eigenschaften (“Axiome”) hat:
Definition 1.1.4 (Wahrscheinlichkeitsaxiome) Sei A die Menge der Ereignisse A
einer bestimmten Ungewissheitssituation, eines bestimmten Experiments mit ungewissem Ausgang, etc.. Von der Wahrscheinlichkeit P (A), A ∈ A, des Eintreffens eines
Ereignisses A ∈ A verlangt man dann folgende Eigenschaften (“Axiome”):
A1) 0 ≤ P (A) ≤ 1 für alle A ∈ A
11
1 Ereignisse und Wahrscheinlichkeiten
A2) P (Ω) = P (sicheres Ereignis) = 1
P (∅) = P (unmögliches Ereignis) = 0
A3) Additionstheorem: Sind Ai ∈ A, i = 1, 2, . . . , n, paarweise unvereinbare oder disjunkte Ereignisse, d.h. Ai ∩ Aj = ∅ für i 6= j (für i 6= j können also Ai und Aj nicht
beide gleichzeitig eintreten), so gilt P (A1 ∪ A2 ∪ . . . An ) (=Wahrscheinlichkeit, dass
irgendeines der Ereignisse A1 , . . . , An eintritt)
=
n
X
P (Ak )
k=1
A4) Erweitertes Additionstheorem: Ist A1 , A2 , . . . Ai , . . . eine Folge paarweise disjunkter
Ereignisse, gilt also Ai ∩ Aj = ∅, i 6= j, so ist
P(
∞
[
Ai )
(= Wahrscheinlichkeit, dass irgendeines der
i=1
Ereignisse A1 , A2 , . . . eintritt)
∞
X
=
P (Ai ).
i=1
Bemerkung 1.1.3 Das erweiterte Additionstheorem A4) ist äquivalent mit dem folgenden Axiom:
A4’) Stetigkeitsaxiom: Sei (Ai ) eine Folge von Ereignissen, so dass
i) A1 ⊃ A2 ⊃ . . . ⊃ An ⊃ An+1 ⊃ . . .
(das Ereignis An+1 impliziert also das vorangehende Ereignis An )
∞
T
ii)
Ai = ∅ (sämtliche Ereignisse Ai , 0 = 1, 2, . . ., können nicht gleichzeitig eini=1
treten).
Dann ist P (Ai ) ↓ 0 für n → ∞.
Eine analoge Eigenschaft wurde offensichtlich auch in (1.6b) verlangt!
C) Bedingte Wahrscheinlichkeiten
Verfügt man in einer Ungewissheitssituation, bei einem Experiment mit ungewissem
Ausgang über zusätzliche Informationen, so sollte dies auch die Wahrscheinlichkeit des
Eintreffens eines bestimmten Ereignisses beeinflussen. Dies führt zur folgenden Definition
der bedingten Wahrscheinlichkeit:
Definition 1.1.5 (Bedingte Wahrscheinlichkeit.) Es sei bekannt, dass ein bestimmtes Ereignis A eingetreten ist. Die bedingte Wahrscheinlichkeit P (B|A) irgendeines anderen Ereignisses B ∈ A ist dann definiert durch
P (B|A) :=
P (A ∩ B)
P (B ∩ A)
=
.
P (A)
P (A)
(1.7)
P (B|A) ist also der %–Satz der “Wahrscheinlichkeitsmasse” von A, die auch in B liegt.
12
1.1 Zufallsvariablen und Ereignisse
Beispiele
a) P (B|A) = 1 für B = A.
b) Gilt A ⊂ B, wird also das Ereignis B von A impliziert, so ist B ∩ A = A und damit
P (B|A) =
P (A)
P (B ∩ A)
=
= 1.
P (A)
P (A)
c) Ist B ∩ A = ∅, sind also A und B disjunkte Ereignisse, so gilt
P (B|A) =
P (B ∩ A)
P (∅)
=
= 0.
P (A)
P (A)
Das Eintreffen von A besagt (impliziert) also, dass B nicht eingetreten ist.
d) Würfelexperiment. Man betrachte folgende Ereignisse beim Werfen eines homogenen Würfels:
A1 = [gerade Augenzahl], A2 = [ungerade Augenzahl], B = [Augenzahl =2].
Dann gilt:
1
1
, P (A1 ) = P (A2 ) = und
6
2
1
1
P (B ∩ A1 )
P (Augenzahl = 2)
6
= 1 =
P (B|A1 ) =
=
1
P (A1 )
3
2
2
0
P (Augenzahl = 2 und Augenzahl ungerade)
= 1 = 0.
P (B|A2 ) =
1
P (B) =
2
2
Für eine weitere Eigenschaft bedingter Wahrscheinlichkeiten benötigen wir folgende allgemeine Eigenschaft von Wahrscheinlichkeiten.
Lemma 1.1.1 Ist A ⊂ B, d.h. impliziert A das Ereignis B, so gilt P (A) ≤ P (B).
Beweis. Folgt sofort aus den Axiomen (A1)–(A4); siehe auch (1.3).
2
Betrachtet man nun die Definition 1.1.5, so stellt man fest, dass B ∩ A ⊂ A und A ∩ B ⊂
B. Mit der Formel (1.7) ergibt sich dann sofort
P (A)
P (B ∩ A)
≤
= 1,
P (A)
P (A)
P (A ∩ B)
P (B)
P (A|B) =
≤
= 1.
P (B)
P (B)
P (B|A) =
Im Zusammenhang mit der bedingten Wahrscheinlichkeit P (B|A), P (A|B) von Ereignissen A, B steht der sehr wichtige Begriff der Unabhängigkeit von A, B.
D) Unabhängigkeit von Ereignissen
Wir betrachten zuerst zwei beliebige Ereignisse A, B:
13
1 Ereignisse und Wahrscheinlichkeiten
Definition 1.1.6 Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls
P (B|A) = P (B) oder P (A|B) = P (A),
(1.8)
d.h. die Kenntnis des Eintreffens des einen Ereignisses ändert nichts an der Wahrscheinlichkeit des Eintreffens des anderen Ereignisses.
Mit der Definition (1.7) der bedingten Wahrscheinlichkeit lässt sich die Unabhängigkeit
zweier Ereignisse auch so definieren:
Definition 1.1.6’ Zwei Ereignisse A, B ∈ A heißen (stochastisch) unabhängig, falls
P (A ∩ B) = P (A) · P (B).
(1.9a)
Analog wird dann die (stochastische) Unabhängigkeit von n Ereignissen A1 , . . . , An definiert:
Definition 1.1.7 Die Ereignisse A1 , A2 , . . . , An heißen (stochastisch) unabhängig,
falls
P (A1 ∩ A2 ∩ . . . ∩ An ) =
n
Y
P (Ai )
(1.9b)
i=1
Beispiele
a) Würfelexperimente mit einem homogenen Würfel
Es sei A = [gerade Augenzahl], B = [ungerade Augenzahl].
1
Offensichtlich gilt P (A) = P (B) = und P (A ∩ B) = P (∅) = 0 und damit
2
P (A ∩ B) = 0 <
1
1 1
= · = P (A) · P (B).
4
2 2
Die beiden Ereignisse A und B sind also nicht unabhängig. Tatsächlich, es gilt
B = Ā, d.h. B tritt genau dann ein, wenn A nicht eintritt.
b) Würfelexperiment mit zwei homogenen Würfeln W1 , W2
Wir setzen
Ai = [W1 –Augenzahl = i], i = 1, . . . 6,
Bj = [ W2 –Augenzahl = j], j = 1, . . . , 6.
Erfolgt das Werfen der beiden Würfel W1 , W2 völlig getrennt, so sind für jedes
i, j = 1, . . . , 6 Ai und Bj stochastisch unabhängige Ereignisse.
Damit muss gelten:
P (W1 –Augenzahl = i und W2 –Augenzahl = j)
= P (Ai ∩ Bj ) = P (Ai ) · P (Bj ) =
für alle i, j = 1, . . . , 6.
14
1 1
1
· =
6 6
36
1.1 Zufallsvariablen und Ereignisse
E) Schließen (Inferenz) mit Wahrscheinlichkeit
Es sei bekannt, dass ein bestimmtes Ereignis A0 eingetreten ist, z.B. der Befund A0 der
Inspektion eines technischen Gerätes oder einer medizinischen Untersuchung.
Die bedingte Wahrscheinlichkeit
PA0 (B) :=
P (B ∩ A0 )
P (A0 )
(1.7’)
ist dann wieder eine Wahrscheinlichkeitsfunktion
B → PA0 (B), B ∈ A,
die alle Axiome (A1)–(A4) erfüllt. Wegen PA0 (A0 ) = 1 spielt dabei das eingetretene
Ereignis A0 die Rolle eines sicheren Ereignisses.
Somit kann man PA0 (B) auch wie folgt interpretieren:
P (B ∩ A0 )
gibt die
P (A0 )
Wahrscheinlichkeit an mit der man vom Eintreten oder von der
Beobachtung des Ereignisses A0 auf das Eintreten eines anderen
(z.B. nicht direkt beobachtbaren) Ereignisses B schließen kann.
Die bedingte Wahrscheinlichkeit PA0 (B) =
Beispiel
a) Technische Inspektion mit Befund A0
P (B ∩ A0 )
PA0 (B) =
= Wahrscheinlichkeit, dass (im Inneren
P (A0 )
des Gerätes) ein Defekt B vorliegt.
b) Medizinische Untersuchung mit Befund A0
P (B ∩ A0 )
PA0 (B) =
= Wahrscheinlichkeit, dass eine Krankheit
P (A0 )
B vorliegt.
Bemerkung 1.1.4 Expertensysteme
Bedingte Wahrscheinlichkeiten spielen auch eine zentrale Rolle bei den sog. “Expertensystemen”. Das sind Programmsysteme, die das Expertenwissen bestimmter Bereiche aus Medizin,
Technik, etc., enthalten und z.B. für Diagnosezwecke zur Verfügung stellen. Bekannte Beispiele
sind medizinische Expertensysteme zur Diagnose und Therapie bestimmter Krankheiten oder
technische Expertensysteme zur Diagnose und Reparatur von Schäden/Defekten technischer
Geräte oder Prozesse. Mit Hilfe bedingter Wahrscheinlichkeiten wird dann eine sog. “Inferenzmaschine” aufgebaut. Diese stellt das Expertenwissen (z.T. auch kontrovers!) in Form
von Wahrscheinlichkeitsrelationen zwischen bestimmten Aussagen bereit:
15
1 Ereignisse und Wahrscheinlichkeiten
Aussage A (Prämisse), z.B. Krankheitssymptome, Untersuchungsergebnis
Aussage B (Schluss), z.B. Diagnose
Liegt also der Befund A vor, dann trifft die Diagnose, der Schluss mit der Wahrscheinlichkeit
PA (B) zu. Man nimmt dann an, dass die Diagnose B ∗ am ehesten zutrifft, die die höchste
Wahrscheinlichkeit hat:
PA (B ∗ ) = max PA (B).
B∈A
1.1.2 Elementare Definition von Wahrscheinlichkeiten
A) Relative Häufigkeit
Ein Experiment E, bei dem ein Ereignis A eintreten kann oder nicht, werde n mal hintereinander ausgeführt. Die natürliche Zahl
mn = mn (A)
(1.10a)
bezeichne dann die Anzahl der Versuche oder Fälle, in denen das Ereignis A eingetreten ist.
Es sei dann
mn (A)
(1.10b)
hn = hn (A) :=
n
die relative Häufigkeit des Ereignisses A in den n Versuchen. Da man in der Praxis häufig
eine Stabilisierung der Werte der relativen Häufigkeit hn mit wachsender Versuchsanzahl n
beobachtet, definiert man in diesem Fall die Wahrscheinlichkeit P (A) von A wie folgt:
Definition 1.1.8 Statistische Definition der Wahrscheinlichkeit
P (A) := lim hn (A),
n→∞
(1.10c)
falls dieser Grenzwert in einem gewissen wahrscheinlichkeitstheoretischen Sinne existiert.
B) Gleichwahrscheinliche Elementarereignisse
Hier setzt man voraus, dass sich die Ereignisse A ∈ A in eine endliche Anzahl gleichwahrscheinlicher und sich gegenseitig ausschließender sogenannter Elementarereignisse
E1 , E2 , . . . , Ek , . . . , Er zerlegen lassen. Das Ereignis
A = Ek1 ∪ Ek2 ∪ · · · ∪ Eks
(1.11a)
tritt also genau dann ein, wenn eines der ”für A günstigen” Elementarereignisse Ekj , j =
1, 2, . . . , s, eintritt. Dies führt zu folgender Definition:
16
1.2 Verteilungsfunktion
Definition 1.1.9
a) Für jedes Elementarereignis Ek , k = 1, . . . , r, setzt man
1
P (Ek ) := , k = 1, 2, . . . , r.
r
(1.11b)
b) Für ein Ereignis A gemäss (1.11a) definiert man
P (A) :=
Anzahl der für A günstigen Fälle
s
=
.
r
Anzahl der möglichen Fälle
(1.11c)
C) Subjektive Wahrscheinlichkeiten (personal probability)
Einige nicht technische Problemstellungen lassen sich mit Hilfe wahrscheinlichkeitstheoretischer Methoden behandeln, wenn man die Wahrscheinlichkeit eines Ereignisses A aus dem Bereich wirtschaftswissenschaftlicher, sozialwissenschaftlicher Vorgänge und Prozesse, etc., wie
folgt definiert:
P (A) := Grad der Überzeugung einer Person
(1.12)
(einer Personengruppe), dass das Ereignis
A eintreten wird.
Bemerkung 1.1.5 Auch in diesem Fall verlangt man, dass die Funktion A → P (A), A ∈ A,
die Axiome (A1)–(A4) gemäss Definition 1.1.4 erfüllt.
1.2 Verteilungsfunktion
Die Verteilungsfunktion dient zur einfacheren Beschreibung der Verteilung PX : B → P (X ∈
B) einer Zufallsvariablen X mit Hilfe einer Funktion F von in das Intervall [0, 1].
R
Definition 1.2.1 Die Funktion
F (x) := P (X ≤ x), x ∈
R
(1.13)
heißt die Verteilungsfunktion von X. Man schreibt auch F = FX . Eine andere Möglichkeit
ist die Definition Fe(x) := P (X < x), die hier aber nicht verwendet wird.
Erste Eigenschaften der Verteilungsfunktion zeigt der folgende Satz:
Satz 1.2.1
a) 0 ≤ F (x) ≤ 1 für alle x ∈
R;
b) x < y ⇒ F (x) ≤ F (y), F ist also monoton wachsend;
c) lim F (x) = 0, lim F (x) = 1;
x→−∞
x→+∞
d) F ist stetig von rechts, d.h. F (x) = xlim
F (xn ) für jedes x ∈
→x
n
N, und xn → x, x → ∞.
xn >x
dass xn > x, n ∈
Beweis:
(a) folgt aus (A1).
R und jede Folge (xn), so
(b) x < y ⇒ (−∞, x] ⊂ (−∞, y] ⇒ F (x) ≤ F (y) gemäss (1.5a-e).
17
1 Ereignisse und Wahrscheinlichkeiten
(c) Sei (xn ) eine beliebige, streng monoton fallende Folge, so dass xn ↓ −∞ für n → ∞.
Wir betrachten dann die Intervallfolge In := (−∞, xn ], n = 1, 2, . . . . Es ist In+1 ⊂ In
∞
\
und
In = ∅. Aus Satz 1.1.1f folgt lim F (xn ) = lim P (X ≤ xn ) = lim P (X ∈ In ) =
n=1
P (X ∈
n→∞
∞
\
n→∞
n→∞
In ) = P (X ∈ ∅) = 0. Analog beweist man, dass lim F (x) = 1.
x→+∞
n=1
(d) Sei xn ↓ x, d.h. xn ≥ x für alle n = 1, 2, . . . , und xn → x, n → ∞.
Setze In := (−∞, xn ], n = 1, 2, . . . , I := (−∞, x]. Daraus folgt
In+1 ⊂ In und I ⊂ In , I =
∞
\
In ,
n=1
also wieder mit Satz 1.1.1f
P (X ≤ x) = P (X ∈ I) = P
X∈
∞
\
!
In
n=1
= lim P (X ∈ In ) = lim P (X ≤ xn )
n→∞
n→∞
und damit
F (x) = lim F (xn ).
n→∞
Weitere Eigenschaften der Verteilungsfunktion
Satz 1.2.2
i) P (X > x) = 1 − F (x);
ii) P (a < X ≤ b) = F (b) − F (a).
Beweis:
i) Aus Satz 1.1.1c folgt P (X > x) = 1 − P (X ≤ x) = 1 − F (x).
S
ii) Wegen der disjunkten Vereinigung (−∞, b] = (−∞, a] (a, b]
ergibt sich nach Satz (1.5d)
P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b)
und damit
P (a < X ≤ b) = P (X ≤ b) − (X ≤ a) = F (b) − F (a).
18
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Bemerkung 1.2.1
i) Die Axiome (A1)-(A4) sind äquivalent zu den Eigenschaften (a)-(d)
von Satz 1.2.1.
ii) Ist F eine Funktion mit den Eigenschaften (a)-(d) von Satz 1.2.1, dann gibt es eine
Zufallsvariable X, so dass F die Verteilungsfunktion von X ist.
Beispiel 1.2.1
A) Stetige Verteilungen
B) Diskrete Verteilungen
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
1.3.1 Diskrete Verteilungen
Ganz analog zu einer diskreten Massenverteilung in der Mechanik mit Massenpunkten m1 , m2 , . . .
definiert man diskrete Wahrscheinlichkeitsverteilungen:
Definition 1.3.1 Die Zufallsvariable X hat eine diskrete Verteilung PX , wenn X nur
endlich oder abzählbar unendlich viele verschiedene Werte
x01 , x02 , . . . , x0r bzw. x01 , x02 , . . . , x0j , . . .
19
1 Ereignisse und Wahrscheinlichkeiten
annehmen kann, d.h. Ω = {x01 , . . . , x0r }, bzw. Ω = {x01 , x02 , . . . , x0j , . . . }.
Es sei dann
pj := P (X = x0j ), j = 1, . . . , r bzw. j = 1, 2, . . .
die Wahrscheinlichkeit, dass X den Wert x0j annimmt. Somit gilt
0 ≤ pj ≤ 1, j = 1, . . . , r bzw. j = 1, 2, . . .
∞
r
X
X
pj = 1
pj = P X ∈ {x01 , . . . , x0r } = 1 bzw.
{z
}
|
j=1
j=1
sicheres Ereignis
Beispiel 1.3.1
a) X = Augenzahl beim Werfen eines homogenen Würfels
Hier ist
x0j = j, j = 1, . . . , 6
1
pj = , j = 1, . . . , 6
6
b) X = Augensumme beim Wurf zweier homogener Würfel
x0j =
2,
3,
4,
5,
6,
7,
8,
9, 10, 11, 12
2
3
4
5
6
5
4
3
2
1
1
,
,
,
,
,
,
,
,
,
,
pj =
36 36 36 36 36 36 36 36 36 36 36
Bemerkung 1.3.1 Die Ereignisse [X = x0j ] sind wie folgt darstellbar:
[
[X = x0j ] =
{Würfel 1 zeigt Augenzahl a1 und Würfel 2 zeigt Augenzahl a2 }.
a1 +a2 =x0j
Eine diskrete Verteilung von X kann offensichtlich durch das Schema
0 0
x1 x2 · · · x0j · · · x0r
PX =
mit r ∈ oder r = ∞
p1 p2 · · · pj · · · pr
N
20
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
beschrieben werden.
Die Verteilungsfunktion einer diskreten Verteilung:
Gemäss Definition 1.2.1 ist
X
F (x) := P (X ≤ x) =
pj ,
(1.14a)
j:x0j ≤x
also kurz
F (x) =
X
pj .
(1.14b)
x0j ≤x
Offensichtlich gilt der folgende
Satz 1.3.1 F (x) ist eine Treppenfunktion.
Speziell gilt hier
i) x < inf x0j ⇒ F (x) = 0
j
ii) x ≥ sup x0j ⇒ F (x) = 1
j
iii) An jeder Stelle x = x0j erfolgt ein Sprung der Größe pj .
1.3.2 Stetige Verteilungen
Wiederum analog zu einer stetigen Massenverteilung in der Mechanik mit einer Massendichte
ρ = ρ(x) längs einer Geraden definiert man stetige Wahrscheinlichkeitsverteilungen:
Definition 1.3.2 Die Zufallsvariable X hat eine stetige Verteilung PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) von X in Integralform
Zx
F (x) =
f (t) dt
(1.15)
−∞
21
1 Ereignisse und Wahrscheinlichkeiten
dargestellt werden kann. Dabei ist die sogenannte Wahrscheinlichkeitsdichte f = f (t) der
Verteilung PX von X (oder kurz von X) eine nichtnegative, integrierbare, beschränkte und bis
auf höchstens endlich viele Punkte stetige Funktion.
Charakteristische Eigenschaften einer Wahrscheinlichkeitsdichte f = f (t) sind demnach:
a)
f (t) ≥ 0 für alle t ∈
R;
(1.16a)
b)
f ist stetig mit Ausnahme höchstens endlich vieler Stellen;
(1.16b)
Z+∞
f (t)dt = 1.
(1.16c)
c)
−∞
Beweis:
(a) folgt aus Definition 1.3.2.
Zb
(b) garantiert die Existenz des Riemann-Integrals
f (t)dt für beliebige Intervalle [a, b], a <
a
b.
Z+∞
Zx
(c)
f (t)dt = lim
f (t)dt = lim F (x) = 1 nach Satz 1.2.1.
−∞
x→+∞
−∞
x→+∞
Bemerkung 1.3.2 Während in der Mechanik die Gesamtmasse einen gewissen positiven Wert
m0 > 0 hat, ist der Maximalwert der Wahrscheinlichkeit, also die “Gesamt–Wahrscheinlichkeitsmasse”,
immer gleich 1.
Eigenschaften stetiger Verteilungen:
Satz 1.3.2 X habe eine stetige Verteilung. Dann gilt
22
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
a) F ist stetig (also stetig von rechts und von links);
b) P (X = x0 ) = 0 für alle x0 ∈
R;
c)
P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b)
Zb
= P (a ≤ X ≤ b) = F (b) − F (a) =
f (t)dt;
(1.17)
a
d)
F 0 (x) =
d
F (x) = f (x),
dx
(1.18)
wenn x eine Stetigkeitsstelle der Dichtefunktion f ist.
Bemerkung 1.3.3 Auch bei einer kontinuierlichen Massenverteilung in der Mechanik hat ein
einzelner Punkt die Masse Null.
Beweis:
23
1 Ereignisse und Wahrscheinlichkeiten
a)
Zx0
Zx
x0 < x : 0 ≤ F (x) − F (x0 ) =
f (t)dt −
−∞
Zx
f (t)dt
−∞
f (t)dt ≤
=
x0
Zx0
x < x0 : 0 ≤ F (x0 ) − F (x) =
max
f (t) (x − x0 ), |x − x0 | < δ;
max
f (t) |x − x0 |, |x − x0 | < δ
x0 ≤t≤x0 +δ
f (t)dt ≤
x0 −δ≤t≤x0
x
Daraus ergibt sich die Stetigkeit von f im Punkt x0 .
b) Für a < b mit beliebigem, festem b gilt 0 ≤ P (X = b) ≤ P (a < X ≤ b) = F (b) − F (a)
und damit
0 ≤ P (X = b) ≤ lim F (b) − F (a) = F (b) − F (b) = 0, also P (X = b) = 0.
a→b
a<b
Folglich ist P (X = x0 ) = 0 für alle x0 ∈
R.
c) Nach der vorherigen Aussage gilt für a ≤ b
P (a ≤ X ≤ b) = P (a < X < b) = P (a ≤ X < b) = P (a < X ≤ b).
Weiter ist F (b) = P (X ≤ b) = P (X ≤ a) + P (a < X ≤ b) = F (a) + P (a < X ≤ b) und
Zb
F (b) =
Zb
Za
f (t)dt +
f (t)dt =
−∞
−∞
|
Zb
a
{z
F (a)
f (t)dt, a ≤ b.
f (t)dt = F (a) +
a
}
Somit gilt
Zb
f (t)dt = F (b) − F (a) = P (a < X ≤ b), a ≤ b.
a
d) Folgt aus der Integraldarstellung (1.15) von F (x).
Zur Berechnung der Dichte f mit Hilfe der Verteilung(sfunktion)
Näherungsweise gilt an einer Stetigkeitsstelle x von f
x+∆x
Z
f (t)dt ∼
= f (x) · ∆x,
∆P = P (x < X < x + ∆x) =
(1.19a)
x
für ein kleines ∆x > 0. Daraus folgt
1
1 f (x) ∼
P (x < X < x + ∆x) =
F (x + ∆x) − F (x)
=
∆x
∆x
(f (x) selbst ist keine Wahrscheinlichkeit!).
24
(1.19b)
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Durch Grenzübergang ∆x ↓ 0 folgt wieder
1 1
P (x < X < x + ∆x) = lim
F (x + ∆x) − F (x) = F 0 (x),
f (x) = lim
∆x↓0 ∆x
∆x↓0 ∆x
(1.19c)
falls x eine Stetigkeitsstelle von F ist.
Bemerkung 1.3.4 Neben den diskreten und stetigen Verteilungen gibt es noch einen dritten
Verteilungstyp, die sog. singulären Verteilungen, die aber für die vorliegende Untersuchung
keine große Bedeutung haben. Die allgemeinste Verteilung ergibt sich sodann als Mischung der
drei Grundtypen.
Beispiel 1.3.2 Modelle für Zufallsmechanismen
Die Eigenschaften dieser Verteilungen werden in Kapitel II behandelt.
A) Diskrete Verteilungen
(a) Binomial- oder Bernoulliverteilung
x0k
= k, k = 0, 1, . . . , n
(1.20a)
pk := P (X = x0k ) = P (X = k) =
n
k
pk q n−k , k = 0, 1, . . . , n,
(1.20b)
n!
n
, wobei q = 1 − p und 0 ≤ p ≤ 1 ein beliebiger, fester Wert
mit
:=
k
k!(n − k)!
im Intervall [0, 1] ist. Nach dem Binomischen Lehrsatz ist
n
n
1 = 1 = (p + q) =
n X
n
k=0
k
pk q n−k .
(b) Poissonverteilung
x0k = k, k = 0, 1, 2, . . . (X hat unendlich viele mögliche Werte)
(1.21a)
−λ k
pk = P (X = k) :=
e
λ
, k = 0, 1, . . . ;
k!
(1.21b)
dabei ist λ > 0 eine beliebige positive Zahl. Nach der Definition der Exponentialreihe
∞
X
gilt
pk = 1.
k=0
B) Stetige Verteilungen
(c) Gleichverteilung
1
wenn a ≤ x ≤ b
b−a
f (x) :=
wobei a < b beliebig gegebene Werte sind.
0,
sonst
(1.22)
25
1 Ereignisse und Wahrscheinlichkeiten
Bemerkung 1.3.5 X nimmt außerhalb I0 = [a, b] f.s. keine Werte an: P (X ∈ I0 ) = 1.
(d) Exponentialverteilung (einseitige)
−αx
αe , wenn x ≥ 0
f (x) :=
wobei α > 0 eine positive Konstante ist. (1.23)
0,
sonst
Bemerkung 1.3.6 P (X ≥ 0) = 1
(e) Normalverteilung
f (x) := √
1 x−µ 2
1
e− 2 ( σ ) , x ∈
2πσ
R,
mit Parametern µ ∈
R, σ > 0
(1.24)
Bemerkung 1.3.7 P (X ∈ I) > 0 für beliebige Intervalle I 6= [a, a] oder (a, a).
(f) Cauchy-Verteilung:
γ
, x ∈
f (x) := π γ 2 + (x − a)2
R,
mit Parametern a ∈
R, γ > 0
Praktische Anwendungen
a) Binomialverteilung
Beispiel:
X = Anzahl der Treffer x = 0, 1, 2, . . . , 20 bei n = 20 voneinander unabhängigen
Schüssen mit gleicher Trefferwahrscheinlichkeit p;
allgemein:
X = Anzahl des Eintretens eines bestimmten Ereignisses A in n voneinander
unabhängigen Versuchen mit gleicher Wahrscheinlichkeit p, dass A
eintritt (Bernoullisches Versuchsschema).
b) Poissonverteilung
Beispiel:
X = Anzahl der Telefonanrufe, die in einem bestimmten Zeitintervall in einer
Zentrale eintreffen;
X = Anzahl der α-Teilchen, die von einer radioaktiven Substanz in einem
bestimmten Zeitintervall emittiert werden.
c) Gleichverteilung im Intervall [a, b]
Beispiel:
X = Zufällige Größe von der nur bekannt ist, dass sie im Intervall [a, b] variiert.
Sonst stehen keine Informationen über X zur Verfügung.
26
(1.25)
1.3 Elementare (Wahrscheinlichkeits-) Verteilungen
Grundlegende Eigenschaften der Gleichverteilung:
a) Für ein Intervall I1 = [u1 , v1 ], mit v1 ≤ a gilt
Zv1
P (X ∈ I1 ) = P (u1 ≤ X ≤ u2 ) =
f (t)dt = 0,
u1
da f (t) = 0, t < a.
b) Für ein Intervall I2 = [u2 , v2 ] mit b ≤ u2 gilt auch
P (X ∈ I2 ) = 0.
c) Für ein Intervall I3 = [u3 , v3 ] mit a ≤ u3 < v3 ≤ b ist
Zv3
P (X ∈ I3 ) = P (u3 ≤ X ≤ v3 ) =
dt
v3 − u3
=
.
b−a
b−a
u3
d) Exponentialverteilung
X = zufällige Zeitdauer eines Telefongespräches;
X = zufällige Zeit bis zum ersten Ausfall eines Bauteiles.
e) Normalverteilung
X = Beobachtungs- oder Messfehler;
X = Abweichung der tatsächlichen Abmessung (z.B. Durchmesser) eines Werkstückes,
von der vorgeschriebenen Soll-Abmessung.
c) Cauchy-Verteilung
Anwendungen in der Wirtschafts- und Finanzmathematik. Für |x| → +∞ konvergiert
die Dichtefunktion der Cauchy-Verteilung weniger schnell gegen Null als die Dichte der
Normalverteilung. Die Cauchy-Verteilung hat also ”dickere Schwänze” als die Normalverteilung!
27
1 Ereignisse und Wahrscheinlichkeiten
1.4 Masszahlen von Verteilungen
Sei X eine Zufallsvariable mit Verteilung PX , wobei X eine diskrete Verteilung
0 0
0 0
x1 x2 · · · x0j · · ·
x1 x2 · · · x0r
PX =
oder PX =
p1 p2 · · · pr
p1 p2 · · · pj · · ·
bzw. eine stetige Verteilung PX mit der Dichte f (x) habe.
1.4.1 Erwartungswert
Definition 1.4.1 Unter dem Erwartungswert von X oder von PX versteht man die Zahl
P∞
 Pr
0
0
X ist diskret verteilt
 j=1 pj xj bzw.
j=1 pj xj ,
+∞
R
(1.26)
EX = µ :=
xf (x) dx,
X ist stetig verteilt.

−∞
Der Erwartungswert von X ist also eine eine Art ”Zentrum” oder ”Schwerpunkt” der Verteilung PX . Die entsprechende Größe in der Mechanik ist der Schwerpunkt eines Körpers.
1
2
3
4
5
6
Beispiel 1.4.1
a) homogener Würfel mit PX =
1/6 1/6 1/6 1/6 1/6 1/6
In diesem Fall ist
1
1
1
1
1
1
1
· 1 + · 2 + · 3 + · 4 + · 5 + · 6 = · 21 = 3.5.
6
6
6
6
6
6
6
1
, a≤x≤b
b−a
b) Rechtecksverteilung mit f (x) =
0,
sonst.
µ=
Hier gilt
Z+∞
Zb
Zb
µ =
xf (x) dx = xf (x) dx =
−∞
a
x
1
x 2 b 1 b 2 − a2
dx =
·
| =
b−a
b−a 2 a 2 b−a
a
a+b
=
.
2
Z+∞
c) Die Cauchy Verteilung hat keinen Erwartungswert im Sinne von Definition 1.4.1:
xf (x) dx
−∞
existiert nicht.
1.4.2 Varianz
Definition 1.4.2 Unter der Varianz von X oder von PX versteht man die Zahl
 r
∞
X
X

0
2


(x
−
µ)
p
bzw.
(x0j − µ)2 pj bei diskreter Verteilung
j

j

 j=1
j=1
V (X) = σ 2 :=
Z+∞



(x − µ)2 f (x) dx bei stetiger Verteilung.



−∞
28
(1.27)
1.4 Masszahlen von Verteilungen
p
σ = V (X) heißt dann die Standardabweichung von X (standard deviation).
σ 2 = V (X) ist ein Mass für die Streuung von X um den Mittelwert µ: Mittlere quadratische
Abweichung der Werte x von X vom Erwartungswert µ.
Lemma 1.4.1
a) Stets gilt σ 2 ≥ 0.
b) Die Gleichung σ 2 = 0 gilt genau dann, falls die Zufallsvariable X fast sicher (f.s.), d.h.
mit Wahrscheinlichkeit 1, konstant ist.
0 1
Beispiel 1.4.2
a) Münzwurf: PX =
1
1
2
2
Hier gilt µ = 12 0 + 12 1 = 12
2
2
σ 2 = √0 − 12 12 + 1 − 12 21 = 12 · 41 + 14 = 14 ,
σ = σ 2 = 12 (= µ, was ein Spezialfall ist!).
(
b) Rechtecksverteilung f (x) =
1
, a≤x≤b
b−a
0
, sonst.
In diesem Fall ist
µ
σ2
a+b
,
2
2
2
Z+∞
Zb (b − a)2
dx
a+b
a+b
=
,
=
f (x) dx =
x−
x−
2
2
b−a
12
=
−∞
also
a
|b − a|
σ= √ .
2 3
Bemerkung 1.4.1 Für σ 2 = 0, also b = a, ist die Verteilung auf einen Punkt konzentriert! Dies ist dann aber keine eigentliche Rechtecksverteilung mehr, sondern eine
spezielle diskrete Verteilung (Einpunktverteilung).
1.4.3 Momente von X bzw. PX
Definition 1.4.3 Unter dem k-ten Moment mk , k = 0, 1, 2, . . . , von X oder von PX versteht
man die Zahl
 r
X



(x0j )k pj bei diskreter Verteilung (r ∈ oder r = ∞)


 j=1
(1.28)
mk :=
Z+∞


k

x f (x) dx bei stetiger Verteilung.



N
−∞
Speziell ist
m0 = 1 f ür k = 0
m1 = EX = µ (Erwartungswert) f ür k = 1.
29
1 Ereignisse und Wahrscheinlichkeiten
Für k = 2 ergibt sich die folgende Darstellung der Varianz V (X) mit Hilfe von Momenten:
a) X sei stetig verteilt. Dann gilt
σ
2
Z+∞
Z+∞
2
= V (X) =
(x − µ) f (x) dx =
(x2 − 2xµ + µ2 )f (x) dx
−∞
−∞
Z+∞
Z+∞
Z+∞
2
2
xf (x) dx +µ
=
x f (x) dx −2µ
f (x) dx = m2 − 2µ2 + µ2
−∞
−∞
|
{z
=m2
2
}
−∞
|
{z
=µ
}
|
{z
=1
}
= m2 − µ = m2 − m21 .
b) Hat X eine diskrete Verteilung, so gilt dieselbe Formel für σ 2 wie im obigen Fall.
Somit hat man folgende Darstellung der Varianz:
Satz 1.4.1 Für die Varianz einer Zufallsvariablen X gilt die Formel
σ 2 = V (X) = m2 − m21

!2
r
r

X
X



(x0j )2 pj −
x0j pj
bei diskreter Verteilung (r ∈


 j=1
j=1
 +∞
2
=
Z
Z+∞




x2 f (x) dx −  xf (x) dx bei stetiger Verteilung



(1.29)
N oder r = ∞)
−∞
−∞
Beispiel 1.4.3 Rechtecksverteilung
b+a
m1 = EX =
2
Z+∞
Zb
1 x3 b
1
dx
1
m2 =
x2 f (x) dx = x2
=
|a =
· (b3 − a3 )
b−a
b−a 3
b−a 3
−∞
0
1 2
(b + ab + a2 )
3
1 2
m21 =
(b + 2ab + a2 )
4
1
σ 2 = m2 − m21 =
4b2 + 4ab + 4a2 − 3b2 − 6ab − 3a2
12
1
(b − a)2
.
= (b2 − 2ab + a2 ) =
12
12
(siehe Beispiel 1.4.1, 1.4.2)
Ferner gilt für das k–te Moment:
=
mk
Z+∞
Zb
dx
1 bk+1 − ak+1
k
=
x f (x)dx = xk
=
b−a
k+1
b−a
−∞
a
1
=
(bk + abk−1 + . . . + ak−1 b + ak ).
k+1
30
1.4 Masszahlen von Verteilungen
1.4.4 Schiefe einer Verteilung
Definition 1.4.4 Unter der Schiefe einer Verteilung PX versteht man die Zahl

r

1 X 0


(xj − µ)3 pj
diskrete Verteilung mit r ∈ oder r = ∞


 σ 3 j=1
γ :=
Z+∞

1


(x − µ)3 f (x) dx stetige Verteilung


 σ3
N
(1.30)
−∞
Bei stetiger Verteilung gilt
 +∞

Z
Z+∞
Z+∞
Z+∞
1 
γ =
x3 f (x) dx − 3µ
x2 f (x) dx + 3µ2
xf (x) dx − µ3
f (x) dx
3
σ
−∞
−∞
−∞
−∞
1
=
(m3 − 3m1 m2 + 3m31 − m31 )
3
σ
1
=
(m3 − 3m1 m2 + 2m31 ),
3
σ
und für eine diskrete Verteilung ergibt sich dieselbe Darstellung:
Satz 1.4.2 Für die Schiefe γ gilt die Formel
1
γ = 3 (m3 − 3m1 m2 + 2m31 ).
σ
Die Schiefe ist ein Mass für die Asymmetrie einer Verteilung bezüglich µ = EX.
(1.31)
Wir untersuchen dies für stetige Verteilungen.
Definition 1.4.5 Die Zufallsvariable X habe eine stetige Verteilung mit der Dichte f = f (x).
Die Verteilung PX heißt symmetrisch, falls eine Konstante c existiert, so dass
f (c + t) = f (c − t) für alle t ∈
R.
Eigenschaften symmetrischer Verteilung
a) Bedeutung der Konstanten c
Unter Annahme, dass der Erwartungswert von X existiert, gilt mit der Variablentransformation
x = c + t, dx = dt
die Darstellung
Z+∞
Z+∞
µ = EX =
x f (x)dx =
(c + t)f (c + t)dt
−∞
−∞
Z+∞
= c
−∞
Z+∞
f (c + t)dt +
t f (c + t)dt
−∞
Z+∞
Z0
Z+∞
= c
f (x)dx +
t f (c + t)dt +
t f (c + t)dt.
−∞
−∞
0
31
1 Ereignisse und Wahrscheinlichkeiten
Z+∞
Wegen
f (x)dx = 1 und mit der Substitution t = −s folgt dann
−∞
Z0
µ = c+
Z+∞
(−s)f (c − s)(−ds) +
t f (c + t)dt
+∞
0
Z+∞
Z+∞
= c−
s f (c − s)dx +
t f (c + t)dt
0
0
Z+∞ = c+
t −f (c − t) + f (c + t) dt = c,
|
{z
}
0
=0
also µ = EX = c.
b) Berechnung der Schiefe γ
Mit genau denselben Substitutionen wie in a) zeigt man, dass
Z+∞
Z+∞
3
(x − µ) f (x)dx =
(x − c)3 f (x)dx
−∞
−∞
Z+∞
=
t3 f (c + t)dt = 0.
−∞
Mit (1.31) gilt dann γ = 0.
Damit hat man folgendes Ergebnis:
Satz 1.4.3 Die Zufallsvariable X habe eine symmetrische stetige Verteilung. Dann gilt EX =
c und γ = 0, falls das dritte Moment existiert.
32
1.4 Masszahlen von Verteilungen
Momenterzeugende und charakteristische Funktion
Oft lassen sich Momente mk einfacher mit Hilfe einer geeigneten Hilfsfunktion berechnen.
Definition 1.4.6 Unter der momenterzeugenden Funktion G versteht man die LaplaceTransformation von PX (bzw. von X), d.h. die Funktion
 r
X 0



etxj pj ,
X diskret verteilt (r ∈ oder r = ∞)


 j=1
G = G(t) :=
(1.32)
Z+∞



etx f (x) dx, X stetig verteilt



N
−∞
für t ∈
R, so dass die Reihe (für r = ∞) bzw. das Integral konvergiert.
Definition 1.4.7 Unter der charakteristischen Funktion ϕ versteht man die
√ FourierTransformation von PX (bzw. von X), d.h. die komplexwertige Funktion (i := −1)
 r
r
r
X
X
X

itx0j
0


e pj =
pj cos txj + i
pj sin tx0j ,
diskreteV erteilung


 j=1
j=1
j=1
ϕ = ϕ(t) =
Z+∞
Z+∞
Z+∞


itx

e f (x) dx =
f (x) cos tx dx + i
f (x) sin tx dx, stetigeV erteilung



−∞
für alle t ∈
−∞
−∞
R, so dass die Reihen (für r = ∞) bzw. die Integrale konvergieren.
(1.33)
Satz 1.4.4 Für alle k = 0, 1, 2, . . . gilt
mk = G(k) (0)
1
mk = k ϕ(k) (0),
i
sofern t = 0 im Innern des Definitionsbereichs von G bzw. ϕ liegt.
Beweis. Durch wiederholte Differentiation von (1.32) bzw. (1.33) folgt:
(1.34a)
(1.34b)
a)
 r
X

0


(x0j )k etxj pj ,
PX diskret


 j=1
G(k) (t) =
Z+∞



xk etx f (x) dx, PX stetig,



−∞
also
G(k) (0) = mk , k = 0, 1, . . . (nach Def. (1.4.3) von mk ).
b)
 r
X

0


PX diskret
(ix0j )k eitxj pj ,


 j=1
ϕ(k) (t) =
Z+∞



(ix)k eitx f (x) dx, PX stetig,



−∞
33
1 Ereignisse und Wahrscheinlichkeiten
und damit
ϕ(k) (0) = ik mk (nach Def. (1.4.3) von mk ).
Bemerkung 1.4.2 Im obigen Beweis wird natürlich vorausgesetztz, dass Differentiation und
Reihensummation bwz. Integration vertauscht werden dürfen.
Vorteil: Berechnung der Momente durch Differentiation der Funktion G(t) bzw. ϕ(t), die oft
einfacher zu berechnen ist, falls G bzw. ϕ verfügbar ist.
Speziell ist also
1
EX = µ = G0 (0) = ϕ0 (0).
i
Beispiel 1.4.4 Exponentialverteilung
−αx
αe
,x ≥ 0
f (x) =
mit α > 0
0
, sonst
a) Laplace-Transformation (Momenterzeugende Funktion)
Z+∞
Z+∞
Z+∞
tx
tx
−αx
G(t) =
e f (x) dx =
e αe
dx = α
e(t−α)x dx
−∞
−∞
0
1 (t−α)x +∞
α
α
= α·
e
|0 = −
=
, wenn t < α.
t−α
t−α
α−t
Daraus folgt
G(0) = m0 = 1,
α
G0 (t) =
(α − t)2
2α
G00 (t) =
(α − t)3
6α
G000 (t) =
(α − t)4
da 0 < α
α
1
=
2
α
α
⇒ m1 = EX = G0 (0) =
2α
2
= 2
3
α
α
6
⇒ m3 = 3 .
α
⇒ m2 =
Dies ergibt
2
1
2
1
σ = m2 −
= 2−
= 2,
α
α
α
γ = 2 (unsymmetrische Verteilung).
2
m21
b) Charakteristische Funktion der Exponentialverteilung (Fourier-Transformation)
Z+∞
Z+∞
Z+∞
ϕ(t) =
eitx f (x) dx = α
eitx−αx dx = α
ex(it−α) dx
−∞
0
Z+∞
0
|0
e−αx (cos tx + i sin tx) dx = α
= α
2
=
34
0
Z+∞
Z+∞
e−αx cos tx dx +α i
e−αx sin tx dx
α
αt
α
+ 2
i= 2
(α + it).
2
2
+t
α +t
α + t2
α2
{z
}
|0
{z
}
1.5 Funktionen von Zufallsvariablen
Dies ergibt
(α2 + t2 )α − αt · 2t
−α2 2t
+
i
(α2 + t2 )2
(α2 + t2 )2
α3
i
ϕ0 (0) = 0 + i 4 =
α
α
1
1 0
ϕ (0) = .
m1 =
i
α
ϕ0 (t) =
1.5 Funktionen von Zufallsvariablen
Oft ist eine Zufallsvariable Y nicht direkt durch ihre Verteilungsfunktion FY = FY (y) definiert,
sondern indirekt als Funktion
Y := ϕ(X)
(1.35)
einer anderen Zufallsvariablen X, deren Verteilungsfunktion FX = FX (x) man kennt. Das
Problem ist dann die Bestimmung der Verteilungsfunktion FY (allgemein der Verteilung PY )
aus den gegebenen Informationen über die Verteilungsfunktion FX (Verteilung PX ) von X
und der Funktion y = ϕ(x).
Beispiel 1.5.1
a) Skalentransformation: y = ax + b mit Konstanten a 6= 0, b ∈
R
Zu bestimmen ist in diesem Fall die Verteilung von Y = aX + b aus der Verteilung von
X und mit den beiden Konstanten a, b. Diese Aufgabe wird später komplett gelöst.
b) Ohmsches Gesetz: I =
U
R
b1) Spannung U stochastisch variabel, Widerstand R = R0 fest. Zu bestimmen ist die
U
Verteilung der stochastisch schwankenden Stromstärke I =
aus R0 und der
R0
Verteilung von U .
35
1 Ereignisse und Wahrscheinlichkeiten
b2) Spannung U = U0 fest, Widerstand R stochastisch variabel (Materialgrösse). GeU0
aus der festen Spannung U0 und
sucht ist hier ebenfalls die Verteilung von I =
R
der Verteilung von R.
c) Dynamische Systeme
Der Zustand z = z(t) des Systems zur Zeit t ≥ t0 ist gegeben durch die DGL (bzw. das
DGL–System)
ż(t) = f t, z(t), a , z(t0 ) = z0 , t0 ≤ t ≤ tf ,
mit dem Anfangszustand z0 . Dabei ist a ein Modellparameter bzw. Vektor von Modellparametern (“dynamische Parameter”). Unsichere bzw. stochastisch variable Grössen sind
hier oft der
- stochastisch variable Anfangszustand z0 und der
- stochastisch variabler Modellparametervektor a.
Gesucht ist dann die Verteilung des stochastisch variablen Endzustands
zf = zf (t0 , tf , z0 , a).
Graphisch kann man diese Fälle durch das folgende Input–Output–System darstellen:
Für eine gegebene Funktion y = ϕ(x) gilt dann


input X

 output Y
ist eine
ist eine
=⇒


Zufallsvariable
Zufallsvariable
1.5.1 Verteilungsfunktion
Im Folgenden bezeichnen F (x) = FX (x) bzw. G(y) = FY (y) die Verteilungsfunktion von X
bzw. Y .
Nach Definition 1.2.1 gilt
G(y) = P (Y ≤ y) = P ϕ(X) ≤ y .
(1.36)
Fall 1: ϕ streng monoton wachsend: In diesem Falle gilt
ϕ(X) ≤ y ⇔ X ≤ ϕ−1 (y)
36
(ϕ−1 inverse Funktion von ϕ),
1.5 Funktionen von Zufallsvariablen
also
−1
G(y) = P X ≤ ϕ (y) = F ϕ (y) .
−1
(1.37)
Beispiel 1.5.2 Lineare Transformation von X (streng monoton wachsend)
Ergibt sich Y = aX + b durch eine lineare Transformation aus X, so folgt
ϕ(x) = ax + b, a > 0
y−b
,
ϕ−1 (y) =
a
also
G(y) = F
y−b
a
.
(1.38)
Fall 2: ϕ streng monoton fallend: Hier ist ϕ−1 streng monoton fallend, also
ϕ(X) ≤ y ⇔ X ≥ ϕ−1 (y),
und damit
G(y) = P ϕ(X) ≤ y
−1
= P X ≥ ϕ (y) = 1 − P X < ϕ (y)
= 1 − F ϕ−1 (y) + P X = ϕ−1 (y) .
−1
Für eine stetig verteilte Zufallsvariable X folgt dann nach Satz 1.3.2
−1
G(y) = 1 − FX ϕ (y)
(1.39)
Beispiel 1.5.3 Lineare Transformation von X (streng monoton fallend)
Im Fall
ϕ(x) = ax + b, a < 0,
ergibt sich wegen ϕ−1 (y) =
y−b
a
G(y) = 1 − F
y−b
a
+P
y−b
X=
a
.
(1.40a)
Für eine stetige Verteilung PX hat man
G(y) = 1 − F
y−b
a
(1.40b)
1.5.2 Dichtefunktion
Die Zufallsvariable X habe eine stetige Verteilung PX mit Dichte f (x) = fX (x). Dann lässt
sich die Dichte g = g(y) von Y nach Satz 1.3.2 darstellen durch
g(y) =
d
G(y),
dy
37
1 Ereignisse und Wahrscheinlichkeiten
sofern G differenzierbar ist.
Fall 1: ϕ streng monoton wachsend und differenzierbar: Hier ergibt sich
1
d −1
, wobei ϕ0 > 0,
ϕ (y) = dy
ϕ0 ϕ−1 (y)
und
g(y) =
d
d d
G(y) = F ϕ−1 (y) = f ϕ−1 (y) · ϕ−1 (y).
dy
dy
dy
Somit gilt
−1
f ϕ (y)
f ϕ (y)
= g(y) = 0 −1
ϕ0 ϕ−1 (y)
ϕ ϕ (y) −1
(1.41)
Beispiel 1.5.4
ϕ(y) = ax + b, a > 0, also ϕ0 = a.
Aus (1.41) folgt
1
y−b
.
g(y) = · f
a
a
Fall 2: ϕ streng monoton fallend und differenzierbar:
1
d −1
, ϕ0 < 0. Nach (1.39) gilt
ϕ (y) = Hier ist
dy
ϕ0 ϕ−1 (y)
(1.42)
d
d −1
−1
g(y) =
1 − F ϕ (y) = −f ϕ (y)
ϕ−1 (y)
dy
dy
−1
−1
f ϕ (y)
f ϕ (y)
= .
g(y) = − 0 −1
ϕ0 ϕ−1 (y)
ϕ ϕ (y) (1.43)
Beispiel 1.5.5
ϕ(y) = ax + b, a < 0.
Aus (1.43) ergibt sich
1
g(y) =
·f
|a|
Zusammenfassend hat man folgendes Ergebnis:
y−b
a
(1.44)
Satz 1.5.1
a) Sei ϕ streng monoton und differenzierbar. Hat X eine stetige Verteilung, so
ist auch Y stetig verteilt, und die Dichte fY von Y lässt sich darstellen durch
−1
fX ϕ (y)
.
(1.45a)
fY (y) = 0
−1
ϕ ϕ (y) b) Im Fall ϕ = ax + b, a 6= 0, gilt
1
fY (y) =
fX
|a|
38
y−b
a
.
(1.45b)
1.5 Funktionen von Zufallsvariablen
1.5.3 Erwartungswert, Momente von Y = ϕ(X)
a) Erwartungswert von Y = ϕ(X) (mit ϕ :
R → R)
Der Erwartungswert EY von Y = ϕ(X) lässt sich wie folgt bestimmen:
Satz 1.5.2
 r
0
X

x1 · · · x0r
0


ϕ(xj )pj ,
wenn PX =


p1 · · · pr
 j=1
EY = Eϕ(X) =
Z+∞



ϕ(x)fX (x) dx, wenn PX eine Dichte fX hat.



(1.46a)
(1.46b)
−∞
Beweis: i) Hat X eine diskrete Verteilung
0 0
x1 x2 · · · x0r
PX =
,
p1 p2
pr
so folgt für Y = ϕ(X) die diskrete Verteilung
ϕ(x01 ) ϕ(x02 ) · · · ϕ(x0r )
.
PY =
p1
p2
pr
Bemerkung 1.5.1 Falls zwei X-Realisierungen x0j 6= x0k dasselbe Bild ϕ(x0j ) = ϕ(x0k )
haben, addieren sich einfach die zugehörigen Wahrscheinlichkeiten pj und pk .
Nach Definition 1.4.1 folgt dann EY =
r
X
ϕ(x0j )pj .
j=1
ii) Hat X eine stetige Verteilung mit Dichte f (x), so lässt sich X durch eine Folge (Xn )
diskret verteilter Zufallsvariablen approximieren. Es gilt dann
EY = Eϕ(X) = lim Eϕ(Xn ) = lim
n→∞
n→∞
rn
X
j=1
ϕ(x0nj ) f (x0nj )∆xnj
|
{z
pnj
}
Z+∞
=
ϕ(x) f (x) dx.
−∞
Beispiel 1.5.6 Lineare Transformation
Z+∞
Im Fall ϕ(x) = ax+b, also für Y = aX +b, gilt EY = E(aX +b) =
(ax+b)f (x) dx =
−∞
Z+∞
Z+∞
f (x) dx.
a
xf (x) dx +b
−∞
−∞
|
{z
=EX
}
|
{z
=1
}
Da dies auch für diskrete Verteilungen gilt, ergibt sich folgende Regel:
Satz 1.5.3
E(aX + b) = aEX + b f ür alle a, b ∈
R
(1.47)
39
1 Ereignisse und Wahrscheinlichkeiten
Beispiel 1.5.7 Darstellung der Momente
Setzt man ϕ(x) = xk , k = 0, 1, . . . , so ist Y = X k und damit nach Satz 1.5.2 und mit
Definition 1.4.3

 r
X


0 k



(xj ) pj
diskrete Verteilung 





 j=1
k
+∞
= mk (X) (k-tes Moment von X).
EX =
Z




k

x fX (x) dx stetige Verteilung 






−∞
(1.48)
Es gilt also die folgende Darstellung für Momente:
Satz 1.5.4 Das k-te Moment von X ist gegeben durch mk (X) = EX k . Speziell gilt
m1 = EX, m2 = EX 2 .
Korollar 1.5.1 Für die Varianz gilt die Darstellung
V (X) = m2 − m21 = EX 2 − (EX)2
= E(X − EX)2 .
(1.49)
Beweis: Es ist nur noch die letzte Gleichung zu zeigen. Nach Definition 1.4.2 und Satz
1.5.2 gilt V (X) = E(X − EX)2 = Eϕ(X) mit ϕ(x) = (x − µ)2 .
b) Momente von Y = ϕ(X)
Nach Satz 1.5.4 gilt mit X → Y
k
mk (Y ) = EY k = E ϕ(X) = Eϕk (X).
(1.50)
Beispiel 1.5.8 Lineare Transformation (Fortsetzung von Beispiel 1.5.6)
Setzt man
ϕ(x) = ax + b,
so ist Y = ϕ(X) = aX + b. Für k = 2 folgt
ϕ2 (x) = (ax + b)2 = a2 x2 + 2abx + b2 ,
und für das zweite Moment von Y gilt
2
m2 (Y ) = Eϕ2 (X) = E ϕ(X)
= E(aX + b)2 .
Für eine stetig verteilte Zufallsvariable X ergibt sich dann mit Satz 1.5.2
Z+∞
Z+∞
2
2
m2 (Y ) = E(aX + b) =
(ax + b) f (x) dx =
(a2 x2 + 2abx + b2 )f (x) dx
−∞
= a
=
2
Z+∞
2
x f (x) dx + 2ab
Z+∞
xf (x) dx + b
f (x) dx
−∞
−∞
2
a m2 (X) +2ab m1 (X) +b2
| {z }
EX 2
40
−∞
Z+∞
| {z }
EX
2
−∞
2
2
= a EX + 2abEX + b2 .
1.6 Mehrdimensionale Zufallsgrössen
Nach Korollar 1.5.1 folgt dann mit X → Y
V (Y ) = m2 (Y ) − m1 (Y )2 = a2 EX 2 + 2abEX + b2 − (aEX + b)2
= a2 EX 2 − a2 (EX)
= a2 EX 2 − (EX)2 = a2 V (X),
und dieselbe Formel erhält man auch für ein diskret verteiltes X. Zusammenfassend hat
man folgendes Ergebnis:
Satz 1.5.5 Für lineare Transformationen Y = aX + b gilt
E(aX + b) = aEX + b
für alle a, b ∈
V (aX + b) = a2 V (X)
V (−X)
= V (X).
R
In analoger Weise lassen sich folgende Formeln herleiten:
i) E (aϕ(X) + bh(X)) = aEϕ(X) + bEh(X) (Linearität des Erwartungswertes)
P
P
ii) E si=0 ai X i = si=0 ai EX i
Bemerkung 1.5.2 Hat X diskrete Verteilung, so ist auch Y = ϕ(X) wieder eine Zufallsvariable mit diskreter Verteilung. Hat X eine stetige Verteilung, so ist Y = ϕ(X) nicht notwendigerweise wieder stetig verteilt.
Gegenbeispiel: Ist ϕ eine Treppenfunktion, so hat Y = ϕ(X) eine diskrete Verteilung.
1.6 Mehrdimensionale Zufallsgrössen
Zur mathematischen Beschreibung von Beobachtungen (Ereignissen) reicht oft nur eine Variable X nicht aus. Man benötigt dazu zwei und mehr Größen X, Y, Z, . . . , U oder X1 , X2 , . . . , Xm :
Beispiel 1.6.1
a) Bevölkerungsstatistik

X = Gewicht 
einer Person, die zufällig aus einer bestimmten
Y = Größe
 Bevölkerungsgruppe herausgenommen wurde;
Z = Blutdruck
b) Eigenschaften einer Werkstoffprobe

X1 = Kohlenstoffgehalt 
X2 = Zugfestigkeit
einer Stahlprobe;

X3 = Härte
c) Augenzahlen X1 , . . . , Xm bei einem Würfelexperiment mit m homogenen Würfeln;
d) Koordinaten (X, Y ) eines Treffers auf einer Zielscheibe.
Dies führt zum Begriff der zwei- und mehrdimensionalen Zufallsvariablen:
41
1 Ereignisse und Wahrscheinlichkeiten
Definition 1.6.1 Beobachtet man bei einem Zufallsexperiment E gleichzeitig n reelle Zufallsvariablen X1 , X2 , . . . , Xn , so heißt
X = (X1 , X2 , . . . , Xn )T
ein n-dimensionaler Zufallsvektor, auch n-dimensionale Zufallsgröße oder -variable. Die Verteilung PX eines n-dimensionalen Zufallsvektors X ist genau dann definiert, wenn für beliebige
endliche oder unendliche Intervalle I1 , I2 , . . . , In in die Wahrscheinlichkeit
R
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In )
des Ereignisses A = [X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ] bekannt ist.
Beispiel 1.6.2 P (X1 ∈ I1 , X2 ∈ I2 ) = Wahrscheinlichkeit, dass X in das Rechteck I = I1 × I2
fällt.
Definition 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn heißen (stochastisch) unabhängig,
wenn die Ereignisse [X1 ∈ I1 ], [X2 ∈ I2 ], . . . , [Xn ∈ In ] (stochastisch) unabhängig sind, d.h.,
P (X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) = P (X1 ∈ I1 ) · P (X2 ∈ I2 ) · · · · · P (Xn ∈ In )
n
Y
=
P (Xj ∈ Ij ) für beliebige Intervalle I1 , I2 , . . . , In in .
(1.51)
R
j=1
Die Verteilungsfunktion n-dimensionaler Zufallsvektoren X
Definition 1.6.3 Die Verteilungsfunktion F = F (x), x ∈
Rn, von X ist definiert durch
F (x) = F (x1 , x2 , . . . , xn )
= P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ), x ∈
= P (X ≤ x)
42
R
(1.52)
n
1.6 Mehrdimensionale Zufallsgrössen
Bemerkung 1.6.1 Die Ungleichung X ≤ x für Vektoren ist komponentenweise definiert.
In Erweiterung von Satz 1.2.1 für reellwertige Zufallsvariablen X hat die Verteilungsfunktion
F = F (x) eines Zufallsvektors X folgende Eigenschaften:
Satz 1.6.1
a) 0 ≤ F (x) ≤ 1 für alle x ∈
Rn
b) F (x) → 1, wenn xk → +∞ für alle k = 1, 2, . . . , n
c) F (x) −→ 0, wenn xk → −∞ für mindestens ein k = 1, 2, . . . , n
d) F (x) ist in Bezug auf jede Variable xk rechtsseitig stetig
e) F (x1 , +∞, . . . , +∞) :=
lim
xk →+∞
k=2,3,...,n
F (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 ) =: F1 (x1 )
Analoge Formeln gelten für X2 , . . . , Xn :
F (+∞, x2 , +∞, . . . , +∞) = P (X2 ≤ x2 ) = F2 (x2 )
..
.
F (+∞, +∞, · · · + ∞, xn ) = P (Xn ≤ xn ) = Fn (xn ),
wobei Fk = Fk (xk ) die Verteilungsfunktion der Zufallsvariablen Xk , k = 1, 2, . . . , n, bezeichnet.
Bemerkung 1.6.2 Die Verteilung PXk der Komponenten Xk von X ergibt sich somit aus der
Verteilung PX von X = (X1 , . . . , Xk , . . . , Xn ) :
PX −→ PXk , k = 1, 2, . . . , n.
Definition 1.6.4 Die Verteilungen PX1 , PX2 , . . . PXn der Komponenten X1 , X2 , . . . , Xn des Zufallsvektors X = (X1 , X2 , . . . , Xn )T heißen die Randverteilungen der Verteilung PX von X.
Mit Hilfe der Verteilungsfunktionen F = F (x) und Fk = Fk (xk ), k = 1, . . . , n lässt sich die
Unabhängigkeit von X1 , . . . , Xn wie folgt charakterisieren:
Satz 1.6.2 Die Zufallsvariablen X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig,
wenn
n
Y
(1.53)
F (X1 , X2 , . . . , XN ) =
Fk (xk ) für alle x ∈ n .
R
k=1
1.6.1 Verteilungstypen
Definition 1.6.5 Diskrete Verteilungen. Der Zufallsvektor X hat eine diskrete Verteilung PX , wenn nur endlich oder abzählbar unendlich viele Vektoren x01 , x02 , . . . , x0r und Wahrscheinlichkeiten p1 , p2 , . . . , pr existieren, so dass
pj > 0, j = 1, 2, . . . , r
N
(r ∈ oder r = ∞)
r
X
pj = 1
(1.54a)
(1.54b)
j=1
und
P (X = x0j ) = P (X1 = x0j1 , X2 = x0j2 , . . . , Xn = x0jn ) = pj , j = 1, 2, . . . , r.
(1.54c)
43
1 Ereignisse und Wahrscheinlichkeiten
Die Verteilungsfunktion eines Zufallsvektors X mit diskreter Verteilung PX hat die Form
F (x) = F (x1 , x2 , . . . , xn ) =
X
pj
(1.55)
x0j ≤x
Nach Bemerkung 1.6.1 ist die Vektorungleichung x0j ≤ x, durch x0jk ≤ xk , k = 1, 2, . . . , n,
definiert.
Definition 1.6.6 Stetige Verteilungen. Die Zufallsvariable X hat eine stetige Verteilung
PX , wenn die Verteilungsfunktion F (x) = P (X ≤ x) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) in der Form
eines Bereichsintegrals (im n )
Z
Z
(1.56a)
F (x1 , x2 , . . . , xn ) = · · · f (t)db
R
t≤x
dargestellt werden kann, wobei f = f (x) die (Wahrscheinlichkeits-)Dichte von PX (von
X) ist. Es gilt
R
f = f (t) ≥ 0 für alle t ∈ n
Z
Z
Z+∞ Z+∞
···
f (t) db = · · · f (x)db = 1.
−∞
Rn
−∞
Es gilt natürlich
f (x1 , . . . , xn ) =
∂n
F (x1 , x2 , . . . , xn ).
∂x1 ∂x2 . . . ∂xn
(1.56b)
Bemerkung 1.6.3 Die Verteilungsfunktion F lässt sich auch darstellen durch das Mehrfachintegral
Zx1
Zxn
···
F (x1 , x2 , . . . , xn ) =
−∞
f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn .
(1.56a’)
−∞
Satz 1.6.3 Hat X eine stetige Verteilung, so haben alle Komponenten X1 , X2 , . . . , Xn von X
ebenfalls eine stetige Verteilung.
Beweis: Nach Satz 1.6.1e gilt für X1
F1 (x1 ) = P (X1 ≤ x1 ) = F (x1 , +∞, . . . , +∞)
Zx1 Z+∞ Z+∞
=
...
f (t1 , t2 , . . . , tn ) dt1 dt2 . . . dtn .
−∞ −∞
Zx1
=
−∞
44
−∞
 +∞ +∞

Z

Z
dt1
...
f (t1 , t2 , . . . , tn ) dt2 . . . dtn .


−∞
−∞
1.6 Mehrdimensionale Zufallsgrössen
Somit ist X1 stetig verteilt und hat die (Rand-)Dichte
Z+∞ Z+∞
f1 (x1 ) =
...
f (x1 , t2 , . . . , tn ) dt2 . . . dtn .
−∞
(1.57)
−∞
Analog zeigt man die Behauptung für X2 , . . . , Xn .
Unabhängigkeit bei stetiger Verteilung:
Satz 1.6.4 X habe eine stetige Verteilung PX mit der Dichte f = f (x) und f1 (x1 ), . . . , fn (xn )
seien die Dichten der Komponenten X1 , . . . , Xn von X. Dann sind die Zufallsvariablen X1 , . . . , Xn
genau dann unabhängig, wenn
f (x1 , x2 , . . . , xn ) =
n
Y
fk (xk ) für alle (x1 , . . . , xn )0 ∈
Rn .
(1.58)
k=1
Beweis: Der Beweis folgt aus der Darstellung F (x) =
n
Y
Fj (xj ) für die Verteilungsfunktion
j=1
bei unabhängigen Zufallsvariablen X1 , . . . , Xn .
R
Beispiel 1.6.3 Gleichverteilung im 2
Bei beliebigen Schüssen oder Würfen auf eine Zielscheibe B0 lässt sich die Wahrscheinlichkeit
P (X ∈ B) eines Treffers X = (X, Y ) in einem bestimmten Teilbereich B der Scheibe B0 wie
folgt approximativ darstellen:
P (X ∈ B) =
Fläche von B
m(B)
=
.
Fläche von B0
m(B0 )
Gibt es außerhalb von B0 keine Treffer, so hat dann X folgende Wahrscheinlichkeitsdichte:
1
, falls x ∈ B0
m(B0 )
f (x) =
0,
falls x 6∈ B0 .
45
1 Ereignisse und Wahrscheinlichkeiten
Im Fall einer rechteckigen Scheibe B0 mit
B0 = {x ∈
R2 : a 1 ≤ x 1 ≤ a 2 , b 1 ≤ x 2 ≤ b 2 }
gilt
1
,
m(B0 )
x ∈ B0
f (x1 , x2 ) =
=
0,
sonst
= f1 (x1 ) · f (x2 ).
Dabei ist
1
,
(a2 −a1 )(b2 −b1 )
0,
x ∈ B0
sonst


1
, a 1 ≤ x 1 ≤ a2
f1 (x1 ) =
a2 − a1

0,
sonst
die W –Dichte von X1 und


1
, b 1 ≤ x 2 ≤ b2
f2 (x2 ) =
b2 − b1

0,
sonst
die W –Dichte von X2 . In diesem Fall sind die Komponenten X1 , X2 von X stochastisch unabhängig.
Beispiel 1.6.4 n-dimensionale Normalverteilung N (m, Q)
Die n-dimensionale Normalverteilung N (m, Q) hat die Dichte
1
1
T −1
exp − (x − m) Q (x − m) , x ∈
f = f (x) =
(2π)n/2 (det Q)1/2
2
wobei m ∈
Rn ,
(1.59)
Rn ein fester n-Vektor und Q eine positiv definite, symmetrische n × n Matrix ist.
T
Bemerkung 1.6.4 Ein normalverteilter Zufallsvektor X
 = (X1 , . . . , Xn ) hat genau dann
σ12


0


2


σ2


unabhängige Komponenten X1 , X2 , . . . , Xn , wenn Q = 
 eine Diagonal.
.


.




0
2
σn
2
matrix mit positiven Diagonalelementen σk , k = 1, . . . , n, ist. Jede Komponente Xk von X hat
dann eine Normalverteilung N (mk , σk2 ) mit Erwartungswert mk und Varianz σk2 , k = 1, . . . , n.
1.6.2 Masszahlen mehrdimensionaler Zufallsgrößen
Definition 1.6.7 Erwartungswert.
Unter dem Erwartungswert µ = EX des n-dimensionale Zufallsvektors X versteht man den
n-Vektor
µ = (µ1 , µ2 , . . . , µn )T = (EX1 , EX2 , . . . , EXn )T := EX
(1.60)
der Erwartungswerte EXk der Komponenten Xk von X.
46
1.6 Mehrdimensionale Zufallsgrössen
Beispiel 1.6.5 Hat X eine N (m, Q)-Normalverteilung, so gilt
µ = EX = m.
Sei X = (X1 , X2 , . . . , Xn )T eine n-dimensionale Zufallsgröße. Dann sind natürlich auch die
Produkte
(Xi − EXi )(Xj − EXj ), i, j = 1, . . . , n
wieder (reelle) Zufallsvariablen.
Definition 1.6.8 cov(Xi , Xj ) := E(Xi − EXi )(Xj − EXj ) heißt die Kovarianz der Zufallsvariablen Xi , Xj .
Spezialfall: Ist i = j, so gilt nach Korollar 1.5.1
cov(Xi , Xi ) = E(Xi − EXi )(Xi − EXi ) = E(Xi − EXi )2
= V (Xi ) (Varianz von Xi ).
Definition 1.6.9 Die Matrix aller Kovarianzen/Varianzen

V (X1 )
cov(X1 , X2 ) · · · cov(X1 , Xn )
 cov(X2 , X1 )
V (X2 )
· · · cov(X2 , Xn )

Λ = cov(Xi , Xj )
=
..
..
..

i,j=1,...,n
.
.
.
cov(Xn , X1 ) cov(Xn , X2 ) · · ·
V (Xn )
(1.61)





(1.62)
heißt die Kovarianzmatrix von X
Bemerkung 1.6.5 Wegen cov (Xi , Xj ) = cov(Xj , Xi ) ist Λ symmetrisch. Ferner ist Λ positiv
(semi–)definit.
Beispiel 1.6.6 Hat X eine n-dimensionale Normalverteilung N (m, Q), dann ist Λ = Q.
Somit ist die n-dimensionale Normalverteilung eindeutig bestimmt durch Mittelwert µ und
Kovarianzmatrix Λ, also N (m, Q) = N (µ, Λ).
1.6.3 Funktionen mehrdimensionaler Zufallsgrössen
Wie aus den Definitionen 1.6.7 und 1.6.8 ersichtlich ist, werden Erwartungswert und Kovarianzen von X durch Erwartungswerte EY gewisser Funktionen Y = ϕ(X) definiert. So ist
z.B.
EXk = Eϕi (X) mit ϕk (x) := xk , k = 1, . . . , n,
cov(Xi , Xj ) = Eϕij (X) mit ϕij (x) := (xi − EXi )(xj − EXj ), i, j = 1, . . . , n.
Analoges gilt auch für andere Masszahlen von X.
Funktionen Y = ϕ(X) von vektorwertigen Zufallsvariablen treten aber auch in sehr viel anderen Anwendungen auf, siehe z.B. die bereits in Abschnitt 1.5 erwähnten Beispiele: Ohmsches
Gesetz, dynamische Systeme mit stochastisch variablen Inputgrößen. Man hat also oft die
folgende Situation:
47
1 Ereignisse und Wahrscheinlichkeiten
Damit ist dann
Y = ϕ(X) = ϕ(X1 , X2 , . . . , Xn )
eine reellwertige Zufallsvariable.
Beispiel 1.6.7 Messung einer physikalischen Größe X, z.B. Elastizitätsmodul X = E einer
Materialprobe in einem Zugversuch.
Führt man n Versuche hintereinander oder parallel durch, so beschreibt die Zufallsvariable
Xk die stochastisch variablen Messergebnisse von X = E mit
möglichen Werten Xk = xk beim k–ten Versuch, k = 1, . . . , n.
Der Zufallsvektor
X := (X1 , . . . , Xn )T
beschreibt dann die Gesamtheit der n stochastisch variablen Messergebnisse bei den n Messungen mit den möglichen Werten X = x = (x1 , . . . , xn )T .
Wählt man nun z.B. die Funktion
n
1X
xk ,
y = ϕ(x) = ϕ(x1 , . . . , xn ) :=
n k=1
so beschreibt die Zufallsvariable
Y := ϕ(X) =
1
(X1 + X2 + . . . + Xn )
n
die bei je n Messungen des Elastizitätsmoduls E auftretenden Mittelwerte
n
y=
1X
xk .
n k=1
Dieser Wert wird auch mit x bezeichnet, also
n
1X
xk .
x :=
n k=1
48
1.6 Mehrdimensionale Zufallsgrössen
Erwartungswert von Funktionen mehrdimensionaler Zufallsvariablen
Sei X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor und ϕ = ϕ(x) = ϕ(x1 , x2 , . . . , xn )
eine reellwertige Funktion von x = (x1 , x2 , . . . , xn )T .
Der Erwartungswert EY der Zufallsvariablen
Y := ϕ(X) = ϕ(X1 , X2 , . . . , Xn )
(1.63a)
lässt sich wie folgt berechnen:
Satz 1.6.5
 Pr
0
X hat eine diskrete Verteilung

j=1 ϕ(xj )pj ,


+∞
+∞

R
R

ϕ(x1 , . . . , xn )f (x1 , . . . , xn ) dx1 dx2 . . . dxn ,
···
EY = Eϕ(X1 , X2 , . . . , Xn ) = −∞
−∞



X hat eine stetige Verteilung


mit der Dichte f (x)
Beweis: Wie Satz 1.5.2.
Das Bisherige lässt sich ohne Weiteres auf vektorwertige Funktionen von Zufallsvektoren übertragen: Der Zufallsvektor Y sei als Vektorfunktion von X wie folgt definiert:




ϕ1 (X)
Y1
 ϕ2 (X) 
 Y2 




Y =  ..  := 
(1.63b)

..

 . 

.
Yn
ϕm (X)
mit gegebenen Funktionen
yL = ϕk (x), k = 1, . . . , n.
Den Erwartungswert EY definiert man dann wieder komponentenweise durch
EY := (EY1 , EY2 , . . . , EYm )T ,
wobei die Erwartungswerte EYi = Eϕi (X), i = 1, . . . , m, mit Satz 1.6.5 berechnet werden
können.
1.6.3.1 Erwartungswerte spezieller Funktionen von X
Ist X = (X1 , X2 , . . . , Xn )T ein n-dimensionaler Zufallsvektor, so benötigt man sehr oft Eigenschaften der Zufallsvariablen
S=
s
X
Xk = X1 , X2 + · · · + Xn ,
T =
k=1
Satz 1.6.6
n
Y
Xk = X1 · X2 · · · · · Xn .
(1.64)
k=1
a) Für beliebige Zufallsvariablen Xk , k = 1, . . . , n, gilt
E
n
X
k=1
Xk =
n
X
EXk ,
(1.65a)
k=1
49
1 Ereignisse und Wahrscheinlichkeiten
b) Sind X1 , X2 , . . . , Xn unabhängige Zufallsvariable, dann gilt
!
n
n
n
n
Y
Y
X
X
E
Xk =
EXk und V
Xk =
V (Xk ).
k=1
k=1
k=1
(1.65b)
k=1
Beweis:
a) E
n
X
Xk =
k=1
n
X
EXk
k=1
Setzt man zum Beweis dieser Gleichung ϕ(x) = x1 + x2 + · · · + xn , so folgt für stetig
verteilte Zufallsvariablen (für diskrete Verteilungen geht alles analog):
E
n
X
!
Z+∞ Z+∞ X
n
Xk = Eϕ(X1 , . . . , XN ) =
···
xk f (x) dx,
k=1
−∞
k=1
−∞
+∞
=
n Z
X
Z+∞
···
xk f (x) dx
k=1 −∞
=
n
X
−∞
Z+∞
Z+∞ Z+∞
Y
dxk xk
···
f (x1 , . . . , xk−1 , xk , xk+1 , . . . xn )
dxj
k=1 −∞
−∞
|
j6=k
−∞
fk (xk )= Dichte
{z
von PXk (gemäss Satz 1.6.3)
}
+∞
=
n Z
X
Z+∞
n
X
EXk .
···
xk fk (xk ) dxk =
k=1 −∞
k=1
−∞
b) Seien X1 , . . . , Xn unabhängige, stetig verteilte Zufallsvariablen. Nach Satz 1.6.4 besteht
dann zwischen der Dichte f (x) von X und den Dichten fk (xk ), k = 1, . . . , n, folgende
Beziehung:
f (x) = f1 (x1 ) · fx (x2 ) · · · · · fn (xn ).
b1) Zum Beweis von E
n
Y
Xk =
k=1
n
Y
EXk setzen wir ϕ(x1 , . . . , xn ) =
k=1
n
Y
xk .
k=1
Es gilt dann
E
n
Y
k=1
XK
!
! n
Z+∞ Z+∞ Y
Z+∞ Z+∞ Y
n
n
Y
=
xk f (x) dx =
···
xK
fk (xk ) dx
···
−∞
−∞
k=1
−∞
−∞
k=1
k=1
+∞
Z+∞ Z+∞Y
n
n Z
n
Y
Y
=
···
xk fk (xk ) dxk =
xk fk (xk ) dxk =
EXk .
−∞
−∞ k=1
k=1−∞
b2) Zu zeigen ist die Gleichung: V (X1 + · · · + Xn ) =
n
X
k=1
50
k=1
V (Xk )
1.6 Mehrdimensionale Zufallsgrössen
Nach Korollar 1.5.1 gilt zunächst fürs beliebige Zufallsvariablen X1 , . . . , Xn :
V
n
X
!
Xk
n
X
= E
k=1
Xk − E
k=1
=
n
X
n
X
!2
Xk
=E
k=1
n
X
!2
(Xk − EXk )
=
k=1
n
X
E (Xk − EXk )(Xl − EXl ) =
cov(Xk , Xl ),
k,l=1
k,l=1
siehe Definition1.6.8. Wir halten also zunächst folgendes Zwischenergebnis fest:
Satz 1.6.7 Für beliebige Zufallsvariablen X1 , X2 , . . . , Xn gilt:
V
n
X
k=1
!
Xk
=
n
X
cov(Xk , Xl ) =
k,l=1
n
X
V (Xk ) + 2
k=1
X
cov (Xk , Xl ).
(1.66a)
k<l
Nach Satz 1.6.6a, b1 und Satz 1.5.5 gilt
cov(Xk , Xj ) = E(Xk − EXk )(Xj − EXj )
= E (Xk Xj − Xk EXj − Xj EXk + (EXk )(EXj ))
= EXk Xj − E(Xk EXj ) − E(Xj EXk ) + (EXk )(EXj )
= EXk Xj − (EXk )(EXj ).
(1.66b)
Der Rest des Beweises von Satz 1.6.6b ergibt sich jetzt wie folgt:
Sind X1 , X2 , . . . , Xn nun unabhängige Zufallsvariablen, so gilt nach Satz 1.6.6,(b1) die Gleichung EXk Ej = EXk EXj für alle k 6= j. Daraus folgt jetzt cov(Xk , Xl ) = 0 für k 6= l,
also
!
n
n
X
X
V
Xk =
V (Xk ).
k=1
k=1
Bemerkung 1.6.6 Sind X1 , X2 unabhängig, so gilt EX1 X2 = EX1 EX2 .
Wegen cov (X1 , X2 ) = EX1 · X2 − EX1 · EX2 hat man die Beziehung
EX1 · X2 = EX1 · EX2 ⇔ cov(X1 , X2 ) = 0.
(1.67a)
Sind X1 , X2 stochastisch unabhängig, so gilt also cov (X1 , X2 ) = 0. Man definiert daher:
Definition 1.6.10 X1 , X2 heißen unkorreliert, wenn cov (X1 , X2 ) = 0, also
EX1 · X2 = EX1 · EX2 .
(1.67b)
Bemerkung 1.6.7 Unabhängige Zufallsvariablen X1 , X2 sind stets unkorreliert, die Umkehrung gilt i.a. aber nicht.
51
1 Ereignisse und Wahrscheinlichkeiten
1.7 Regression (der Grundgesamtheit)
Bei der Regression geht es um die Untersuchung der Beziehung zwischen verschiedenen Zufallsvariablen. Im Folgenden betrachten wir zwei Zufallsvariablen X und Y .
Beispiel 1.7.1
a) X = Größe des Vaters, Y = Größe des Sohnes
b) X = Blutdruck, Y = Herzgewicht
c) X = Eisengehalt eines Erzes, Y = Dichte des Erzes
Trägt man nun eine gewisse Anzahl n von Realisierungen xykk , k = 1, . . . , n, von
kartesischen Koordinatensystem auf, so ergibt sich oft folgendes Bild:
X
Y
in einem
Dieser Befund führt nun sofern zur Vermutung, dass zwischen X und Y eine lineare Beziehung
bestehen muss, die von einer gewissen stochastischen Störung ε überlagert wird:
Y = aX + b + ε.
Für die einzelnen Realisierungen
xk
yk
(1.68a)
, k = 1, . . . , n, gilt entsprechend:
yk = axk + b + εk , k = 1, . . . , n.
(1.68b)
Dabei sind a, b unbekannte, feste Koeffizienten, und ε ist eine stochastische Störgröße mit nicht
beobachtbaren Realisierungen εk , k = 1, 2, . . . , n.
Bestimmung der Regressionsgeraden
Das Problem ist nun die Bestimmung der unbekannten Koeffizienten a, b, d.h., die Bestimmung
der sogenannten Regressionsgeraden
y = ax + b.
(1.69)
Nach der sehr häufig verwendeten Methode der kleinsten Quadrate (Least Square Method
(LSQ)) betrachtet man dazu (Fall der Regression der Grundgesamtheit) den erwarteten quadratischen Fehler:
Q := Eε2 = E(Y − aX − b)2 = Q(a, b).
(1.70)
52
1.7 Regression (der Grundgesamtheit)
Die unbekannten Koeffizienten a, b werden dann bestimmt durch Minimierung von Q =
Q(a, b), also durch die Lösung des konvexen, quadratischen Optimierungsproblems
min Q(a, b).
a,b∈
R
(1.71)
Nun ist nach (1.70) und früheren Definitionen/Eigenschaften
2
2
2
Q(a, b) = E Y + (aX) + b − 2aXY − 2Y b + 2abX
= EY 2 + a2 EX 2 + b2 − 2aEXY − 2bEY + 2abEX.
Die notwendigen und hinreichenden Bedingungen für die optimalen Koeffizienten a∗ , b∗ lauten
dann:
∂Q
= 2aEX 2 + 2bEX − 2EXY
∂a
∂Q
0 =
= 2aEX + 2b − 2EY.
∂b
0 =
(1.72a)
(1.72b)
Somit hat man für a∗ , b∗ das LGS
aEX 2 + bEX = EXY
aEX + b = EY.
Mit der Cramerschen Regel ergibt sich jetzt
EXY EX EY
1
EXY − EX · EY
cov(X, Y )
=
=
a∗ =
2
2
EX − (EX)
V (X)
V (X)
und
EX 2 EXY
EX EY
b∗ =
V (X)
=
EX 2 · EY − EX · EXY
.
V (X)
(1.73a)
(1.73b)
(1.74a)
(1.74b)
Setzt man EX 2 = V (X) + (EX)2 in (1.74b) ein, so gilt auch
V (X) + (EX)2 · EY − EX · EXY
EX
b∗ =
= EY −
(EXY − EX · EY )
V (X)
V (X)
cov(X, Y )
= EY − EX
= EY − a∗ EX.
(1.75)
V (X)
Somit hat man die Regressionsgerade
y = a∗ x + b∗ = a∗ x + EY − EXa∗
cov(X, Y )
= EY + a∗ (x − EX) = EY +
(x − EX).
V (X)
(1.76)
53
1 Ereignisse und Wahrscheinlichkeiten
1.7.1 Regression einer Stichprobe von (X, Y)
Stützt man sich bei der Bestimmung der Regressionsgeraden y = ax+b nur auf eine Stichprobe
von (X, Y ), d.h. auf eine gewisse Anzahl n von Realisierungen oder Beobachtungen
(x1 , y1 ), (x2 , y2 ), . . . , (xi , yi ), . . . , (xn , yn )
von (X, Y ), so wird zur Bestimmung von a, b der erwartete quadratische Fehler Q = Q(a, b)
einfach ersetzt durch den mittleren quadratischen Fehler
n
1X
(yk − axk − b)2 .
Qn (a, b) :=
n i=1
(1.70’)
Die Bestimmung von a∗ = a∗n und b∗ = b∗n verläuft dann wie vorher.
1.8 Quantile
1.8.1 Mediane
Mediane oder Zentralwerte einer reellwertigen Zufallsvariablen X sind wie folgt definiert:
Definition 1.8.1 Ein Median oder Zentralwert an einer Zufallsvariablen X ist eine Masszahl m von PX , die die folgende Ungleichung erfüllt:
lim F (x) ≤
x→m
x<m
1
≤ F (m).
2
(1.77a)
Im Falle stetiger Verteilungen ist ein Median m eine Lösung der Gleichung
1
F (m) = ,
2
wobei F = FX die Verteilungsfunktion von X ist.
Beispiel 1.8.1 Ist X eine N (µ, σ 2 )–Verteilung, dann gilt m = µ = EX.
54
(1.77b)
1.8 Quantile
1.8.2 Quantile (der Ordnung α)
Die sogenannten α–Quantile werden analog zu (1.77a) definiert:
Definition 1.8.2 Sei α ein gegebener, fester Wert mit 0 < α < 1. Ein α–Quantil xα ist eine
Masszahl von PX , die folgende Ungleichung erfüllt:
lim F (x) ≤ α ≤ F (xα ).
x→xα
x<xα
(1.78a)
Im Falle stetiger Verteilungen erfüllt ein α–Quantil xα die Gleichung
F (xα ) = α,
(1.78b)
wobei F = FX die Verteilungsfunktion von X ist.
55
1 Ereignisse und Wahrscheinlichkeiten
56
2 Statistische Methoden
2.1 Praktische Berechnung von Wahrscheinlichkeiten
2.1.1 Klassische Definition der Wahrscheinlichkeit
Experimentelle Situation:
Viele praktische Ungewissheitssituationen kann man mit Hilfe von Experimenten E folgender Art beschreiben: Es gibt eine endliche Anzahl n gleichmöglicher (gleichwahrscheinlicher)
sogenannter Elementarereignisse (E.E.)
E1 , E2 , . . . , Ej , . . . , En ,
die sich gegenseitig ausschließen, so dass gilt: Zu jedem anderen Ereignis E, das im Experiment E vorkommen kann, gibt es eine Menge
{Ej : j ∈ JE },
JE ⊂ {1, 2, . . . , n},
von Elementarereignissen, so dass E genau dann eintritt, wenn eines der Elementarereignisse
Ej , j ∈ JE , eintritt. Man schreibt dann auch
X
[
E=
Ej oder E =
Ej
(2.1a)
j∈JE
j∈JE
Die Ereignisse Ej , j ∈ JE , heißen dann die für E günstigen Elementarereignisse.
Für irgend ein Ereignis sei
m(E) := |JE | = Anzahl der Elemente von JE
= Anzahl der für E günstigen Elementarereignisse.
(2.1b)
Nach Voraussetzung ist n die Gesamtzahl der Elementarereignisse, d.h. die Anzahl der möglichen Elementarereignisse.
Dies führt nun zu folgender
Definition 2.1.1 Klassische Definition der Wahrscheinlichkeit, Definition nach Laplace
m(E)
oder
P (E) (= Wahrscheinlichkeit von E):=
n
P (E) =
Anzahl der für E günstigen Elementarereignisse
Anzahl der günstigen Fälle
=
.
Anzahl der möglichen Elementarereignisse
Anzahl der möglichen Fälle
(2.1c)
Bemerkung 2.1.1 P (Ej ) =
nisse).
1
n
für jedes j = 1, . . . , n (gleichwahrscheinliche Elementarereig-
57
2 Statistische Methoden
Beispiel 2.1.1 Seien X, Y die Augenzahlen beim Würfeln mit 2 homogenen Würfeln. Elementarereignisse: Ej = (xj , yj ), 1 ≤ xj , yj ≤ 6, also n = 36. Für das Ereignis E = [X = gerade,
Y = gerade ] hat man die folgenden
”günstigen Fälle”: (2,2), (2,4), (2,6),(4,2), (4,4), (4,6), (6,2), (6,4), (6,6).
Somit ist m(E) = 9 und damit nach Definition 2.1.1
9
1
m(E)
=
= .
P (E) =
n
36
4
2.2 Approximation von Wahrscheinlichkeiten durch relative
Häufigkeiten
2.2.1 Stichproben
Sei E ein Experiment und X eine Zufallsvariable, die die möglichen Resultate (inkl. Wahrscheinlichkeiten) des Experiments E beschreibt.
Das Experiment E werde nun n mal hintereinander ausgeführt, wobei die einzelnen Versuche
voneinander unabhängig seien.
Es ergibt sich somit folgendes Versuchsprotokoll:
1 2 3 ··· k ··· n
Versuchs-Nr. k
Resultat = Realisation xk x1 x2 x3 · · · xk · · · xn
von X im k-ten Versuch
Definition 2.2.1 Die n unabhängigen Realisationen x1 , x2 , . . . , xn von X im Experiment E
heißen eine Stichprobe x = (x1 , x2 , . . . , xn ) von X mit dem Stichprobenumfang n.
Bemerkung 2.2.1 Eine Stichprobe x = (x1 , . . . , xn ) kann ebenfalls aufgefasst werden als eine
Realisation des Zufallsvektors
X = X (n) = (X1 , X2 , . . . , Xn ),
(2.2)
wobei X1 , X2 , . . . , Xn unabhängige Zufallsvariablen sind, so dass
PX1 = PX2 = · · · = PXn = PX .
Xj beschreibt dann die möglichen Resultate und Wahrscheinlichkeiten des Experiments Ej ,
wobei E1 , . . . , En unabhängige Wiederholungen desselben Experiments E sind.
2.2.2 Relative Häufigkeiten
Gegeben sei eine Stichprobe x = (x1 , x2 , . . . , xn ) von X. Ferner sei E ein Ereignis, z.B. E =
[X ∈ B] mit einer Teilmenge B ⊂ .
R
58
2.2 Approximation von Wahrscheinlichkeiten
59
Abbildung 2.1: Erzeugung von Stichproben
2 Statistische Methoden
Definition 2.2.2 Unter der relativen Häufigkeit hn (E) eines Ereignisses E in n Versuchen
versteht man
hn (E) =
1
· Anzahl der Versuche, in denen E eingetreten ist.
n
(2.3a)
Speziell ist
1
· Anzahl der Stichprobenwerte xj , die in B liegen
n
n
1X
=
1B (xj ),
n j=1
hn (X ∈ B) =
wobei
1B (x) =
0, x 6∈ B
Indikatorfunktion von B
1, x ∈ B
(2.3b)
(2.3c)
die sogenannte Indikatorfunktion von B ist.
Abbildung 2.2: Indikatorfunktion
Experimenteller Befund:
Für ”große” Stichprobenumfänge n ist die relative Häufigkeit hn (E) von E oft nahezu konstant:
Stabilität der relativen Häufigkeit von E für große n.
Dies führt zu folgender Wahrscheinlichkeitsdefinition:
Definition 2.2.3 Statistische Definition der Wahrscheinlichkeit
P (E) ≈ hn (E) für genügend großes n oder P (E) = ”lim” hn (E),
n→∞
wobei der Grenzwert ” lim ” in einem gewissen wahrscheinlichkeitstheoretischen Sinn definiert
n→∞
wird.
Anwendung:
Approximative Bestimmung von Wahrscheinlichkeitsverteilungen
60
2.3 Approximative Bestimmung der Verteilung

a) X hat eine diskrete Verteilung PX

x01 , . . . , x0r

.. 
=  ...
. 
p1 , . . . , pr
In diesem Fall gilt xj ∈ {x01 , . . . , x0r } für beliebige j ∈
pk = P (X = x0k ) ≈ hn (X = x0k ) =
N und somit
1
· Anzahl der Stichprobenwerte xj mit xj = x0k .
n
(2.4a)
b) PX hat eine stetige Verteilung mit der Dichte f (x)
Nach (1.19a-c) gilt
f (x) ≈
1
1
P (x < X ≤ x + ∆x) ≈
hn (x < X ≤ x + ∆x)
(2.4b)
∆x
∆x
1 1
=
· · Anzahl der Werte xj ,
∆x n
die ins Intervall (x, x + ∆x] fallen.
2.3 Approximative Bestimmung der Verteilung
Gegeben sei eine beliebige Zufallsvariable X. Oft ist eine Stichprobe x = (x1 , . . . , xn ) von X
die einzige Information über die Verteilung PX von X.
2.3.1 Empirische Verteilungsfunktion
Approximiert man in der Verteilungsfunktion F (x) einer Zufallsvariablen X, siehe Definition
1.2.1, die Wahrscheinlichkeiten durch relative Häufigkeiten
n
1X
1(−∞,x] (xj ),
F (x) := P (X ≤ x) ≈ hn (X ≤ x) =
n j=1
so erhält man die empirische Verteilungsfunktion von X:
Definition 2.3.1 Empirische Verteilungsfunktion Fn (x)
n
1X
Fn (x) := hn (X ≤ x) =
1(−∞,x] (xj ).
n j=1
(2.5)
Es gilt:
a) 0 ≤ Fn (x) ≤ 1
b) Fn ist eine Treppenfunktion
c) x < y ⇒ Fn (x) ≤ Fn (y)
d) Fn ist stetig von rechts
e) x < min1≤j≤n xj ⇒ Fn (x) = 0, x ≥ max1≤j≤n xj ⇒ Fn (x) = 1.
61
2 Statistische Methoden
2.3.2 Empirische Momente
Sei x = (x1 , . . . , xn ) eine Stichprobe einer Zufallsvariablen X.
a) X hat eine diskrete Verteilung
PX =
x01 x02 · · · x0r
p1 p2 · · · pr
.
Es gilt also xj ∈ {x01 , . . . , x0r }, j = 1, 2, . . . , n. Nach Definition 1.4.3 und mit (2.4a) folgt
mk =
r
X
(x0s )k ps
≈
s=1
r
X
(x0s )k hn (X
=
x0s )
s=1
1
=
n
=
r
X
s=1
r
X


X

s=1
xkj 
xj =x0s
1
(x0s )k · Anzahl xj mit xj = x0s
| {z } n |
{z
}
n
1X
=
(xj )k .
n j=1
b) X hat eine stetige Verteilung mit Dichte f (x)
Mit Definition 1.4.3 und (2.4b) ergibt sich in diesem Fall
Z+∞
T
T
X
X
(x∗t )k P (x∗t < X ≤ x∗t+1 )
(x∗t )k f (x∗t )∆x ∼
mk =
xk f (x) dx ≈
=
| {z }
t=1
t=1
−∞
T
X
≈
(x∗t )k hn (x∗t < X ≤ x∗t + ∆x).
t=1
Dabei sind x∗t , t = 1, . . . , T + 1, äquidistante Punkte mit x∗t+1 − x∗t = ∆x. Daraus folgt
mk ≈
T
X
k
x∗t ·
t=1
1
· Anzahl xj mit x∗t < xj ≤ x∗t + ∆
n
T
=
1 X ∗k
(x · Anzahl xj mit x∗t < xj ≤ x∗t + ∆)
{z
}
n t=1 | t
≈
T
X
1X
xk
n t=1 x∗ <x ≤x∗ +∆ j
j
t
=
1
n
n
X
t
xkj .
j=1
Als Näherungswert für das k-te Moment mk ergibt sich somit in beiden Fällen
n
1X k
x =: k − tes empirisches Moment
mk ≈
n j=1 j
= arithmetisches Mittel von xk1 , . . . , xkn .
62
(2.6a)
2.3 Approximative Bestimmung der Verteilung
Speziell ist
n
µ = m1
1X
xj = Mittelwert der Stichprobe
≈ x :=
n j=1
(2.6b)
n
m2
1X 2
x.
≈
n j=1 j
(2.6c)
Eine Folgerung:
Näherungswert für die Varianz σ 2 = E(X − EX)2 = m2 − m21
1. Möglichkeit
Ersetzt man m1 , m2 durch die empirischen Momente
n
1X 2
m1 ≈ x, m2 ∼
x,
=
n j=1 j
so ergibt sich
n
n
1X 2
1X
σ ≈
xj − (x)2 =
(xj − x)2 .
n j=1
n j=1
2
(2.7)
Diese Näherungsformel weist gewisse Nachteile auf, die später ersichtlich werden. Sie wird
deshalb meistens ersetzt durch die nächste Näherungsformel.
2. Möglichkeit
n
σ 2 ≈ s2 :=
1 X
(xj − x)2 =: Varianz der Stichprobe.
n − 1 j=1
Die Standardabweichung der Stichprobe ist dann definiert durch
v
u
n
u 1 X
s := t
(xj − x)2 .
n − 1 j=1
(2.8a)
(2.8b)
Im Folgenden untersuchen wir nun die Genauigkeit der oben definierten Näherungswerte für
Momente.
2.3.3 Schätzung von µ = EX durch x
Gegeben sei im Folgenden eine Stichprobe x = (x1 , x2 , . . . , xn ) einer Zufallsvariablen X mit
µ = EX. Nach Bemerkung 2.2.1, siehe auch Figur 2.2.1, ist dann x = (x1 , . . . , xn ) auch eine
Realisation von X = (X1 , X2 , . . . , Xn ), wobei X1 , . . . , Xn unabhängige Zufallsvariable mit
PXj = PX , j = 1, . . . , n, (also identisch verteilte Zufallsvariable) sind. Als sog. Schätzfunktion
für den Erwartungswert µ = EX von X hat man dann gemäss (2.6b) das arithmetische Mittel
n
1X
x = x(x1 , . . . , xn ) :=
xj .
n j=1
(2.9)
Offensichtlich gilt:
63
2 Statistische Methoden
Der Schätzwert x =
fallsvariablen
1
n
Pn
j=1
xj ist eine Realisation des Schätzers, d.h. der Zun
1X
X :=
Xj .
n j=1
(2.10)
P
Zu untersuchen ist somit die Zufallsvariable X = n1 nj=1 Xj , denn PX beschreibt die Verteilung der Schätzwerte x von µ. Insbesondere ist der Erwartungswert EX und die Varianz
σ 2 (X) des Schätzers X zu bestimmen.
Nach den Sätzen 1.5.3 und 1.6.6 gelten für beliebige Zufallsvariable U, V und a, b ∈
die
Gleichungen
R
a) E(aU + b) = aEU + b
b) E(U + V ) = EU + EV
c) EU · V = EU · EV , falls U, V unabhängig sind.
Bemerkung 2.3.1 Mittels vollständiger Induktion lassen sich diese Formeln ohne weiteres
ausdehnen auf beliebig viele Zufallsvariablen U1 , U2 , . . . , Un .
Im Folgenden berechnen wir nun Erwartungswert und Varianz von X:
a) Der Erwartungswert von X
n
1X
Nach dem Vorangehenden erhält man für den Schätzer X =
Xj folgende Bezien j=1
hungen
n
n
n
1X
1X
1 X
Xj =
EX = E
Xj = E
EXj .
n j=1
n j=1
n j=1
Wegen PXj = PX für alle j = 1, . . . , n, hat man EXj = EX = µ, j = 1, . . . , n, also
folgendes Ergebnis:
Satz 2.3.1 a Erwartungswert von X
EX = µ = EX,
(2.11)
d.h. im Mittel trifft der Schätzer X den richtigen Wert µ. Man sagt deshalb auch,
n
X
X oder die Schätzfunktion x = n1
xj sei erwartungstreu.
j=1
b) Die Varianz von X
Mit Korollar 1.5.1 und der obigen Gleichung (2.11) gilt
2
2
σ 2 (X) = E(X − EX)2 = EX − (EX)2 = EX − µ2 .
64
2.3 Approximative Bestimmung der Verteilung
Nun ist
n
2
X =
1X
Xj
n j=1
!2
n
1 X
= 2
Xi Xj ,
n i,j=1
also folgt mit Satz 1.5.3, Satz 1.6.6 und der Unabhängigkeit der Zufallsvariablen X1 , X2 , . . . , Xn
EX
2
=
1
n2
n
X
n
n
1 X
1 X
2
EXi Xj = 2
EXj + 2
E(Xi Xj )
n j=1
n i,j=1
i,j=1
i6=j
=
1
n2
n
X
n
1 X
EXj2 + 2
EXi EXj .
n
i,j=1
j=1
i6=j
Wegen PXj = PX , j = 1, . . . , n, gilt EXj2 = EX 2 , EXj = EX = µ, j = 1, . . . , n.
Somit ist
(n2 − n) 2
1
(n − 1) 2
1
2
EX = 2 nEX 2 +
µ = EX 2 +
µ,
2
n
n
n
n
also
2
µ2 − µ2 = n1 EX 2 − n1 µ2
σ 2 (X) = EX − µ2 = n1 EX 2 + n−1
n
= n1 (EX 2 − (EX)2 ) = n1 σ 2 (X).
Satz 2.3.1b Varianz von X
σ 2 (X) =
1 2
σ (X).
n
(2.12)
Bemerkung 2.3.2 Nach (2.12) gilt σ 2 (X) → 0, n → ∞. Je größer also der Stichprobenumfang n ist, umso näher liegen die Schätzwerte x, d.h. die Realisationen x von X
beim richtigen Wert µ.
2.3.4 Abschätzung der Abweichung zwischen X und µ
Ein entscheidendes Hilfsmittel zur Untersuchung der Abweichung X −µ zwischen dem Schätzer
X und dem Erwartungswert µ ist die Ungleichung von Tscheby-scheff:
Satz 2.3.2 Sei U eine beliebige Zufallsvariable mit endlichem 2. Moment und c ∈
beliebige Zahl. Dann gilt für jedes > 0 die Tschebyscheffsche Ungleichung
P (|U − c| ≥ ) ≤
1
E(U − c)2
2
R eine
(2.13a)
Im Spezialfall c = EU folgt dann
P (|U − EU | ≥ ) ≤
σ 2 (U )
.
2
(2.13b)
65
2 Statistische Methoden
Korollar 2.3.1 Unter den Voraussetzungen von Satz 2.3.2 gilt auch
1
E(U − c)2
2
σ 2 (U )
.
P (|U − EU | < ) = 1 − P (|U − EU | ≥ ) ≥ 1 −
2
P (|U − c| < ) = 1 − P (|U − c| ≥ )
≥1−
(2.13c)
(2.13d)
Beweis von Satz 2.3.2: Hat die Zufallsvariable U eine Dichte fU , so findet man
2
E(U − c)
Z+∞
=
(u − c)2 fU (u) du =
−∞
Z
≥
Z
2
Z
(u − c)2 fU (u) du
(u − c) fU (u) du +
|u−c|≥
|u−c|<
2 fU (u) du = 2 P (|U − c| ≥ ).
|u−c|≥
Ganz analog zeigt man diese Ungleichung für diskret verteilte Zufallsvariablen U .
Anwendung auf U = X =
1
n
n
X
Xj
j=1
Aus Satz 2.3.2 und mit Satz 2.3.1a,b folgt mit σX := σ(X) :
P (|X − µ| ≥ ) ≤
2
1 σX
σ 2 (X)
=
,
2
n 2
also
P (|X − µ| < ) ≥ 1 −
(2.14)
2
1 σX
.
n 2
(2.15)
Korollar 2.3.2 Für den Schätzer X von µ gilt
lim P (|X − µ| < ) = 1 für jedes > 0.
n→∞
Wenn also n genügend groß ist, dann liegt µ mit großer Wahrscheinlichkeit W ()
im Intervall (X − , X + ). Man sagt dann auch, X sei ein konsistenter Schätzer für µ
oder x sei eine konsistente Schätzfunktion für µ.
Beispiel 2.3.1 Schärfe der Tschebyscheffschen Ungleichung
Gegeben sei eine Zufallsvariable X mit der diskreten Verteilung PX =
a > 0 ein gegebener Parameter ist.
66
−a 0 a
1
8
3
4
1
8
, wobei
2.4 Konfidenzintervalle (Vertrauensintervalle)
Daraus folgt
2
EX = 0, σX
=
a2
a
, σX = .
4
2
Wählt man := 43 a, so folgt in diesem Fall
P
3
1
|X| ≥ a = P (X = −a) + P (X = +a) = = 0, 25.
4
4
Aus (2.13b) folgt
P
3
|X| ≥ a
4
σ2
a2
≤ X
·
=
2
4
4
3a
2
=
4
= 0, 444 . . . ,
9
also eine eher schlechte obere Schranke für die untersuchte Wahrscheinlichkeit. Die Schranken
in (2.13a,b) können also sehr unscharf sein.
2.4 Konfidenzintervalle (Vertrauensintervalle)
Gegeben ist hier eine Zufallsvariable X mit unbekanntem Erwartungswert µ = EX und
bekannter Varianz σ 2 = σ 2 (X).
Zur Untersuchung der Abweichung zwischen dem Mittelwert x einer Stichprobe x der Zufallsvariablen X und ihrem Erwartungswert µ = EX stellen wir x gemäss (2.10) als Realisation
n
X
1
der Zufallsvariablen X = n
Xj dar. Dabei sind X1 , . . . , Xn unabhängige Zufallsvariablen,
j=1
die dieselbe Verteilung wie X haben, also PXj = PX , j = 1, . . . , n, siehe Bemerkung 2.2.1 und
Figur 2.2.1.
Nach Formel (2.15) gilt dann
1 σx2
.
P |X − µ| < = W ≥ 1 −
n 2
Sei nun
x ein Stichprobenmittel, d.h. eine Realisierung von X.
Die obige Ungleichung besagt dann, dass die Ungleichung
|x − µ| < oder|µ − x| < also
x−<µ<x+
(2.16)
67
2 Statistische Methoden
mit Wahrscheinlichkeit W , also in W · 100% der Fälle gilt, wobei
W ≥1−
Für irgendeine Realisierung x =
1
n
n
X
1 σx2
.
n 2
(2.17)
xj von X erhalten wir demnach folgende Aussage:
j=1
σ2
Mit Wahrscheinlichkeit W ≥ 1 − n1 X2
liegt der unbekannte Erwartungswert µ im sogenannten
Konfidenzintervall (x − , x + )
mit Radius .
(2.18)
Mittels Konfidenzintervallen lassen sich nun verschiedene Fragen beantworten:
Frage 1: Gegeben seien a) eine sogenannte Konfidenzzahl γ, 0 < γ ≤ 1, z.B. γ = 0.95
oder γ = 0.99, und b) ein Radius > 0. Wie groß muss dann der Umfang n einer Stichprobe
x1 , x2 , . . . , xn sein, damit µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall x − < µ <
x + liegt?
Antwort: Gemäss (2.17) hat man hier die Bedingung:
W ≥1−
1 σ2
1 σ2
≥
γ,
also
1
−
γ
≥
n 2
n 2
Daraus folgt für den Stichprobenumfang n sofort die Bedingung
n ≥ n0 :=
Beispiel 2.4.1 Wählt man γ := 0.99, =
n0 =
σ2
.
(1 − γ)2
(2.19)
1
, so ist 1 − γ = 0.01, 2 = (0.1)2 = 0.01 und damit
10
2
2
σX
σX
2
=
= 104 σX
.
(1 − γ)2
(0.01)2
Die Anzahl n der Stichproben kann also sehr hoch sein, was sehr hohe Kosten verursachen
kann, wenn z.B. die Proben bei der Untersuchung zerstört werden.
Frage 2: Gegeben seien a) eine Konfidenzzahl γ, 0 < γ ≤ 1, und b) eine Stichprobe
x1 , x2 , . . . , xn . Wie groß muss der Radius > 0 sein, so dass µ mit Wahrscheinlichkeit W ≥ γ
im Konfidenzintervall (2.18) liegt.
Antwort: Nach (2.17) lässt sich die Forderung W ≥ γ wieder garantieren durch
2
1 σX
≥ γ.
W ≥1−
n 2
Daraus ergibt sich für den Radius die Bedingung
≥ 0 mit 0 := √
68
σX
√ .
1−γ n
(2.20)
2.4 Konfidenzintervalle (Vertrauensintervalle)
Beispiel 2.4.2 Wählt man n = 400, γ = 0.99, so ist
0 = √
√
n = 20, 1 − γ = 0.01 und damit
σX
σX
σX
√ =
=
.
0.1 · 20
2
1−γ n
Bemerkung 2.4.1 Die Schranken in (2.19, 2.20) sind in vielen Fällen zu hoch, siehe Beispiel
2.3.1.
2.4.1 Konfidenzintervalle für den unbekannten Erwartungswert µ einer
Normalverteilung mit bekannter Varianz
2
Im Folgenden sei X normalverteilt mit unbekanntem Mittelwert µ und bekannter Varianz σX
.
Mit X1 , . . . , Xn bezeichnen wir wieder unabhängige Zufallsvariablen mit derselben Verteilung
PXj = PX wie X. Für die durch (2.10) definierte Zufallsvariable X gilt dann der folgende Satz:
2
=
Satz 2.4.1 X ist (wieder) normalverteilt mit Erwartungswert µ und Varianz V (X) = σX
2
σX
.
n
Bemerkung 2.4.2 Nach Satz 2.3.1 gilt stets EX = µ, V (X) =
2
σX
.
n
Daraus folgt zunächst:
P (|X − µ| < ) = P (µ − < X < µ + )
= P (X < µ + ) − P (X ≤ µ − )
= FX (µ + ) − FX (µ − ),
(2.21)
wobei FX die Verteilungsfunktion von X ist.
Satz 2.4.2 Sei Φ die Verteilungsfunktion der N (0, 1)-Normalverteilung. Ist X eine normalverteilte Zufallsvariable mit EX = µ und V (X) = σ 2 , dann gilt für die Verteilungsfunktion F
von X die Darstellung
x−µ
für alle x ∈ .
(2.22)
F (x) = Φ
σ
R
Wichtige Eigenschaften der Funktion Φ sind:
a)
1
Φ(x) = √
2π
Zx
1 2
e− 2 x dx
(2.23a)
−∞
b)
Φ(0) =
1
2
(2.23b)
c)
Φ(−x) = 1 − Φ(x)
(2.23c)
69
2 Statistische Methoden
d) Φ ist streng monoton wachsend, 0 < Φ(x) < 1 für alle x ∈
R.
Das Integral in (2.23a) muss numerisch ausgewertet werden, die Werte von Φ(x) müssen also
Tabellen entnommen werden. Weitere Darstellungen von Φ(x) erhält man durch Reihenentwicklung. So gilt z.B.
1 − 1 x2 1
2
− S1 , x > 0,
Φ(x) = 1 − √ e
(2.24)
x
2π
wobei 0 < S1 <
Daraus folgt
1
x3
für x > 0.
1 1 − 1 x2
Φ(x) > 1 − √
e 2 für x > 0
2π x
1 1 − 1 x2
e 2 für große x > 0.
Φ(x) ≈ 1 − √
2π x
Nach diesen Vorbereitungen folgt nun aus (2.21) und (2.23c)
µ+−µ
µ−−µ
−Φ
P (|X − µ| < ) = FX (µ + ) − FX (µ − ) = Φ
σX
σ
X
−
= Φ
−Φ
=Φ
− 1−Φ
σ
σX
σX
σX
X − 1.
(2.25)
= 2Φ
σX
Gegeben sei nun eine Realisation x von X, also der Mittelwert x =
1
n
n
X
xj einer Stichprobe
j=1
x1 , . . . , xn von X.
Wegen (2.25) gilt dann: Mit Wahrscheinlichkeit
W = 2Φ
−1
σX
70
(2.26)
2.4 Konfidenzintervalle (Vertrauensintervalle)
liegt der unbekannte Erwartungswert µ = EX im
Konfidenzintervall (x − , x + ).
(2.27)
Die obigen Fragen 1 und 2 lassen sich nun exakt beantworten:
Problem 1: Gegeben seien a) Konfidenzzahl γ, b) Radius > 0. Gesucht ist dann der
Stichprobenumfang n einer Stichprobe x1 , . . . , xn , so dass µ mit Wahrscheinlichkeit W ≥ γ im
Konfidenzintervall (2.27) liegt.
Lösung: Mit ( 2.26) hat man in diesem Fall die Bedingung
− 1 ≥ γ.
W = 2Φ
σX
Daraus folgt
Φ
σX
1
≥ (1 + γ)
2
oder
1
−1
≥Φ
1+γ
=: c ( Definition von c).
(2.28)
σX
2
1
Es gilt auch Φ(c) = (1 + γ). Wegen (2.12) ist nun σX = √σn . Damit liefert aber (2.28) die
2
Ungleichung
√
· n
≥ c.
σ
Für den Stichprobenumfang n hat man somit die exakte Bedingung
n ≥ n0 :=
c2 σ 2
.
2
(2.29)
Bemerkung 2.4.3 Ohne Verwendung der Information, dass X normalverteilt
2 ist, hat man
σ2
2
−1 1
nach (2.19) für n die Bedingung n ≥ n0 := (1−γ)2 , d.h. c = Φ
(1 + γ)
wird ersetzt
2
1
durch 1−γ .
Beispiel 2.4.3 Sei γ = 0.95, = 12 , σ = 2 Aus Gleichung (2.29) folgt unter Verwendung von
Tabellen für Φ−1
c2 4
= 16 c2
(1/2)2
1
−1
c = Φ
(1 + 0.95) = Φ−1 (0.975) = 1.960
2
n ≥ 16 · (1.96)2 ∼
= 61.
n ≥
Aus Ungleichung (2.19), d.h. mit der Tschebyscheffschen Ungleichung, folgt:
n≥
4
16
=
= 320 ≈ 5 · 61.
2
(1 − 0.95)(1/2)
0.05
Bemerkung 2.4.4 Durch Verwendung der Information über die Verteilung ergibt sich somit
eine ganz erhebliche Reduktion des Stichprobenumfangs n.
71
2 Statistische Methoden
Problem 2: Gegeben seien a) Konfidenzzahl γ, b) Stichprobe x1 , . . . , xn
Gesucht: Radius , so dass µ mit Wahrscheinlichkeit W ≥ γ im Konfidenzintervall (2.27) liegt.
Lösung: Aus Gleichung (2.26) folgt:
− 1 ≥ γ.
W = 2Φ
σX
Damit ist
√
n
1
−1
≥ c := Φ
(1 + γ) ,
σ
2
also
c
≥ 0 := σX √ .
n
(2.30)
Bemerkung 2.4.5 Ohne die Information, dass X normalverteilt ist, gilt nach (2.20)
c
1
.
≥ 0 := σX √ mit c := √
n
1−γ
Beispiel 2.4.4 Im Fall γ = 0.95 ist
1
1
=√
≈4
1−
0.05
γ
1
c (gemäß (2.30), Normalverteilung) = Φ−1
(1 + γ)
2
= Φ−1 (0.975) ∼
= 1.09 ≈ 2.
c (gemäß (2.20), Tschebyscheff )
=√
Somit folgt
σx
0 (Tschebyscheff ) ∼
= 4· √
n
σ
x
0 (Normalverteilung) ∼
= 2· √ .
n
2.4.2 Mögliches Vorgehen bei unbekannter Varianz σ 2
Ersetze σ 2 durch die Schätzung s2 =
1
n−1
n
X
(xj − x)2 .
j=1
Aus (2.29) bzw. (2.30) folgt dann
n≥
s·c
c 2 s2
bzw. ≈ √ .
2
n
Dies sind aber i.a. keine guten Näherungen, denn c = Φ−1
ebenfalls ersetzt werden!
(2.31)
1
(1
2
+ γ) muss in diesem Fall
Bemerkung 2.4.6 Offensichtlich ist s2 eine Realisierung von S 2 =
1
n−1
n
X
j=1
diese Zufallsvariable gilt der folgende
72
(Xj − X)2 . Für
2.5 Vertrauensintervalle/Erwartungswert
Satz 2.4.3 S 2 ist ein erwartungstreuer Schätzer für σ 2 , d.h. ES 2 = σ 2 .
Beweis: Es gilt, siehe Abschnitt 2.3.3,
n
ES
2
1
1 X
= E
(Xj − X)2 =
n − 1 j=1
n−1
1
=
n−1
n
X
E
n
X
Xj2
j=1
− 2EX
n
X
!
Xj + nEX
2
j=1
!
2
EXj2 − 2nEX + nEX
2
j=1
1
1
n − 1 2
1
2
2
2
2
=
(nEX − nEX ) =
nEX − n EX +
µ
n−1
n−1
n
n
1
=
(n − 1)EX 2 − (n − 1)µ2 = EX 2 − µ2 = σ 2 .
n−1
Der Faktor
1
ist also erforderlich, damit S 2 erwartungstreu ist!
n−1
2.5 Vertrauensintervalle für den Erwartungswert µ = EX
einer normalverteilten Zufallsvariablen X mit
2
unbekannter Varianz σX
Im Folgenden sei X eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert
µ = EX und unbekannter Varianz σx2 = V (X). Ferner sei x das Stichprobenmittel einer
Stichprobe x = (x1 , . . . , xn )T von X. Schliesslich bezeichne
n
s2 :=
1 X
(xj − x)2
n − 1 j=1
die empirische Varianz der Stichprobe x. Nach Bemerkung 2.4.4 und Satz 2.4.3 ist s2 eine
Realisierung des erwartungstreuen Varianzschätzers
n
S 2 :=
1 X
(Xj − X)2 .
n − 1 j=1
Für eine gegeben Konfidenzzahl γ, 0 < γ < 1, lässt sich (nach Formel (2.31)) der Radius 0
des gesuchten Konfidenzintervalls
x − 0 < µ < x + 0
approximieren durch
s · c̃
0 ∼
= √ mit einer noch zu bestimmenden Konstanten c̃ = c̃(γ).
n
Im Folgenden untersuchen wir daher die Eigenschaften des Intervalls
sc̃
sc̃
x− √ <µ<x+ √
n
n
(2.32)
73
2 Statistische Methoden
mit einer noch zu bestimmenden Konstanten c̃.
Da x bzw. s eine Realisierung der Zufallsvariablen X bzw. S ist, betrachten wir die folgende
Wahrscheinlichkeit:
Sc̃
Sc̃
W =P X−√ <µ<X+√
.
n
n
Es gilt auch
W =
=
=
=
Sc̃
Sc̃
P −√ < µ − X < √
n
n
Sc̃
Sc̃
P −√ < X − µ < √
n
n
√ X −µ
< c̃
P −c̃ < n
S
P (−c̃ < T < c̃)
mit der Zufallsvariablen
T :=
(2.33)
√ X −µ
.
n
S
(2.34)
Definition 2.5.1 Die Verteilung PT von T heißt (Student-)t-Verteilung mit n − 1 Freiheitsgraden (n ist der Stichprobenumfang).
Die Verteilungsfunktion FT = FT (t) ist tabelliert, und T, FT haben folgende Eigenschaften:
Satz 2.5.1
a) ET = 0
b) T hat eine symmetrische, stetige Verteilung
c) Analog zu Φ = Φ(t) gilt
R.
(2.35)
W = P (−c̃ < T < c̃) = FT (c̃) − FT (−c̃)
= FT (c̃) − 1 − FT (c̃ = 2FT (c̃) − 1.
(2.36)
FT (−c̃) = 1 − FT (c̃) für jedes c̃ ∈
Aus (2.33), (2.34) und (2.35) folgt dann mit Satz 2.5.1
Zur Bestimmung der noch unbekannten Konstanten c̃ = c̃(r) im Radius des Konfidenzintervalls
(2.32) stellen wir nun die Qualitätsforderung
W = γ.
(2.37a)
Aus (2.36),(2.37a) folgt dann
2FT (c̃) − 1 = γ
und damit analog zu (2.28)
c̃ :=
FT−1
1
(1 + γ) .
2
Aus dem Obigen ergibt sich nun das folgende Resultat:
74
(2.37b)
2.6 Vertrauensintervalle für Varianz
Satz 2.5.2 X sei eine normalverteilte Zufallsvariable mit unbekanntem Erwartungswert µ und
2
unbekannter Varianz σX
. Gegeben sei eine Stichprobe x mit Stichprobenumfang n sowie eine
Konfidenzzahl γ. Mit Wahrscheinlichkeit W = γ liegt dann der unbekannte Erwartungswert µ
im Konfidenzintervall
sc̃
sc̃
(2.38)
x− √ <µ<x+ √ .
n
n
Dabei ist s die empirische Standardabweichung von x und die Konstante c̃ = c̃(γ) ist durch
(2.37b) gegeben.
Bemerkung 2.5.1 Das Konfidenzintervall (2.38) hat dieselbe Gestalt wie das Konfidenzin2
tervall für den Erwartungswert µ einer Normalverteilung mit bekannter Varianz σX
, siehe
(2.27) – (2.29).
2.6 Vertrauensintervalle für die Varianz einer
Normalverteilung
Zur Herleitung eines Konfidenzintervalls für die unbekannte Varianz einer Normalverteilung
N (µ, σ 2 ) betrachten wir eine Stichprobe x1 , x2 , . . . , xn einer N (µ, σ 2 )-verteilten Zufallsvariablen. Die Stichprobenwerte xj , j = 1, . . . , n, lassen sich wiederum interpretieren als Realisierungen unabhängiger Zufallsvariablen X1 , X2 , . . . , Xn mit derselben Verteilung PXj = PX , 1 ≤
j ≤ n, wie X.
Schätzwert für σ 2 : Aus Abschnitt 2.2 folgt:
n
1 X
(xj − x)2 .
σ ≈ s :=
n − 1 j=1
2
2
Da s2 also eine Realisation von
n
1 X
S =
(Xj − X)2
n − 1 j=1
2
ist, muss die Zufallsvariable S 2 genauer untersucht werden. Für
n
S2
1 X
Y := (n − 1) 2 = 2
(Xj − X)2
σ
σ j=1
(2.39)
hat man das folgende Ergebnis:
Satz 2.6.1 Y hat eine sogenannte Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden.
Definition 2.6.1 Chi-Quadrat-Verteilung: Die Chi-Quadrat-Verteilung mit m Freiheitsgraden hat die Wahrscheinlichkeitsdichte
gm (x) =
1
2m/2 Γ
m
2
x
m−2
2
x
e− 2 , x > 0
(m = Anzahl der Freiheitsgrade).
75
2 Statistische Methoden
Bestimmung eines Konfidenzintervalls für σ 2
Sei F die Verteilungsfunktion der Chi-Quadrat-Verteilung mit n − 1 Freiheitsgraden.
Aus Satz 2.6.1 folgt
P (Y ≤ c) = F (c).
Für eine gegebene Konfidenzzahlγ, 0 < γ ≤ 1, bestimme man dann Zahlen c1 , c2 so, dass
P (Y ≤ c1 ) = F (c1 ) = 12 (1 − γ)
⇒ c1 < c 2 .
P (Y ≤ c2 ) = F (c2 ) = 12 (1 + γ)
Daraus folgt
P (c1 ≤ Y ≤ c2 ) = P (Y ≤ c2 ) −P (Y ≤ c1 )
= 21 (1 + γ)
− 12 (1 − γ) = γ.
2
Für Y = (n − 1) Sσ2 ergibt sich dann
P
2
Wegen c1 ≤ (n − 1) Sσ2 ≤ c2 oder
P
S2
c1 ≤ (n − 1) 2 ≤ c2
σ
n−1 2
S
c2
≤ σ2 ≤
n−1 2
S
c1
= γ.
hat man
n−1 2
n−1 2
S ≤ σ2 ≤
S
c2
c1
= γ.
Für eine Realisation s2 von S 2 folgt nun der
Satz 2.6.2 Konfidenzintervall für σ 2 zur Konfidenzzahl γ. Mit Wahrscheinlichkeit W =
γ gilt
n−1 2
n−1 2
s ≤ σ2 ≤
s.
(2.40)
c2
c1
Bemerkung 2.6.1 Der Erwartungswert µ wird nicht benötigt!
2.7 Vertrauensintervalle für unbekannte
Wahrscheinlichkeiten einzelner Ereignisse E
Wir betrachten ein Ereignis E, das bei einem Experiment E eintreten kann oder nicht. Ferner
bezeichne p = P (E) die unbekannte Wahrscheinlichkeit von E.
Aus Abschnitt 2.2 folgt: p ≈ hn (E), wobei hn (E) die relative Häufigkeit von E in n unabhängigen Versuchen E1 , E2 , . . . , En ist.
Zur Bestimmung eines Vertrauensintervalls p1 ≤ p ≤ p2 zur Konfidenzzahl γ benötigen wir
folgende Zufallsvariable X:
Definition 2.7.1 X bezeichne die Anzahl des Eintreffens von E in den n Versuchen, also
X ∈ {0, 1, 2, . . . , n}.
Die Wahrscheinlichkeitsverteilung von X lässt sich wie folgt angeben:
76
2.7 Vertrauensintervalle
Satz 2.7.1 X hat eine Binomialverteilung, d.h.
n k
P (X = k) =
p (1 − p)n−k , k = 0, 1, 2, . . . , n.
k
Es gilt EX = np, V (X) = np(1 − p).
Bemerkung 2.7.1
k = 0 (E tritt nie ein) :
P (X = 0) = (1 − p)n
k = n (E tritt immer ein) : P (X = n) = pn .
Für große n gilt:
X − np
hat näherungsweise eine NormalverSatz 2.7.2 Die Zufallsvariable Z = Zn := p
np(1 − p)
teilung mit Mittelwert 0 und Varianz 1.
Da Zn näherungsweise eine N (0, 1)-normalverteilte Zufallsvariable ist, so gilt demnach approximativ P (−c ≤ Zn ≤ c) ≈ P (−c ≤ Z0 ≤ c) = Φ(c) − Φ(−c) = 2Φ(c) − 1, wobei Z0 eine
N (0, 1)-verteilte Zufallsvariable ist.
Bestimmt man für eine gegebene Wahrscheinlichkeit γ > 0 somit ein c, so dass
1
−1
2Φ(c) − 1 = γ, d.h. c = Φ
(1 + γ) ,
2
so gilt näherungsweise
P (−c ≤ Z ≤ c) ≈ γ,
also auch
P
X − np
−c ≤ p
≤c
np(1 − p)
!
≈ γ.
(2.41)
Sei nun X = k die Anzahl des Eintreffens von E in n Versuchen; k ist also eine Realisierung
von X. Aus Gleichung (2.41) folgt jetzt: Mit Wahrscheinlichkeit W ≈ γ gilt
k − np
−c ≤ p
np(1 − p)
≤ +c für eine Realisierung k von X.
Daraus folgt
k − np ≤c⇔
p
np(1 − p) k − np
p
np(1 − p)
!2
≤ c2
und damit
(k − np)2
n2 (h − p)2
≤ c2
≤ c2 .
⇐⇒
z
}|
{
np(1 − p)
np(1 − p)
k
h = hn (E) =
n
Für p hat man somit die quadratische Bedingung (h − p)2 ≤ n1 c2 p(1 − p), die zwei Schranken
p1 , p2 für p festlegt. Die Bedingung für p = p1 , p2 ergibt sich aus folgender ”Vertrauensellipse”:
77
2 Statistische Methoden
Satz 2.7.3 Die Vertrauensgrenzen p1 , p2 für p und somit das Vertrauensintervall
p1 ≤ p ≤ p2 zur Konf idenzzahl γ
(2.42a)
sind bestimmt als Lösungen der quadratischen Gleichung
1
(2.42b)
(h − p)2 = c2 p(1 − p).
n
Näherungsweise Bestimmung von p1 , p2 :
Sind n, k, n − k große Zahlen, wobei k die Anzahl der Beobachtungen von E in n Versuchen
bezeichnet, so erhält man näherungsweise
r
k
c2
h(1 − h).
(2.42c)
p1 ≈ h − a, p2 ≈ h + a mit h := und a :=
n
n
2.8 Konfidenzintervalle für den Erwartungswert µ bei
beliebigen Verteilungen
Zur Entwicklung von Näherungsmethoden bei großem Stichprobenumfang n benötigen wir
den Zentralen Grenzwertsatz:
Satz 2.8.1 (Zentraler Grenzwertsatz) X1 , X2 , . . . , Xn seien unabhängige Zufallsvariablen, die
alle genau dieselbe Verteilungsfunktion, also auch denselben Mittelwert µ und dieselbe Varianz
σ 2 besitzen. Dann ist die Zufallsvariable
n
X
Zn :=
78
j=1
Xj − nµ
√
σ n
2.9 Testen (Prüfen) von Hypothesen
asymptotisch normalverteilt mit Mittelwert 0 und der Varianz 1, d.h.
lim P (Zn ≤ z) = lim FZn (z) = Φ(z) f ür alle z ∈
n→∞
n→∞
R.
Für großes n gilt somit Zn ≈ N (0, 1). Wegen
n
1X
σ
X=
Xj = µ + √ Zn
n j=1
n
folgt
PX ≈ N µ,
σ2
n
für große n.
(2.43)
Approximative Konfidenzintervalle für den Erwartungswert µ ergeben sich dann wie in Abschnitt 2.4 und 2.5.
Da die Stichprobenmittel x̄ Realisierungen des Schätzers X̄ sind, erhält man folgende approximative Konfidenzintervalle:
a) Bekannte Varianz σ 2 . Nach Abschnitt 2.4.1 und mit (2.43) hat man für den Erwartungswert µ näherungsweise das Konfidenzintervall (x − , x + ) mit = σ √cn , c =
Φ−1 1+γ
, γ = Konfidenzzahl.
2
Gute Näherung erhält man auf diese Weise für n ≥ 30
b) Unbekannte Varianz σ 2 . Nach Abschnitt 2.5 und mit (2.43) findet man hier
das
sc
−1 1
√
(1 + γ) , γ =
approximative Konfidenzintervall (x − , x + ) mit = n , c = F
2
Konfidenzzahl, F = Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden.
Gute Näherungen ergeben sich hier für n ≥ 100.
2.9 Testen (Prüfen) von Hypothesen
Zu untersuchen ist eine normalverteilte Zufallsvariable X mit unbekanntem Erwartungswert EX = µ und bekannter Varianz σ 2 .
Ferner bezeichne µ0 einen gegebenen maximalen bzw. minimalen Wert bzw. einen gegebenen
Sollwert für µ = EX. Man hat zu prüfen oder zu testen, ob die folgende Beziehung erfüllt
ist:
(2.44)
EX ≤ µ0 bzw. EX ≥ µ0 bzw. EX = µ0 .
| {z }
| {z }
| {z }
a)
b)
c)
Beispiel 2.9.1
a) In einem Lebensmittel soll der Giftstoffanteil, z.B. der Konservierungsmittelanteil, Q (= Zufallsvariable) im Mittel unterhalb einem maximalen Giftstoffanteil
µ0 liegen.
b) Bei der Garnproduktion soll die Reissfestigkeit F (= Zufallsvariable) im Mittel oberhalb
der minimalen Reissfestigkeit µ0 liegen.
c) Bei der Produktion von Wellen soll der Durchmesser D (= Zufallsvariable) im Mittel
mit dem verlangten Durchmesser µ0 übereinstimmen.
Prüfung der Qualitätsforderung(2.44): Der sogenannten Nullhypothese H0 wird die Alternative H1 gegenübergestellt:
79
2 Statistische Methoden
NULLHYPOTHESE H0 (erwünscht)
a) µ ≤ µ0
b) µ ≥ µ0
c) µ = µ0
ALTERNATIVE H1 (unerwünscht)
a) µ > µ0
b) µ < µ0
c) µ 6= µ0
Beispiel 2.9.1 - Fortsetzung
Fall (a)
H0 : µ = EQ ≤ µ0 (erwünscht)
H1 : µ = EQ > µ0 (unerwünscht)
Die Alternative H1 beschreibt also den unerwünschten Fall, dass der mittlere Giftstoffanteil
µ = EQ zu groß ist.
Fall (b)
H0 : µ = EF ≥ µ0
H1 : µ = EF < µ0
(erwünscht)
(unerwünscht)
Die Alternative H1 beschreibt also den unerwünschten Fall, dass die mittlere Reissfestigkeit
µ = EF zu klein ist.
Fall (c)
H0 : µ = ED = µ0
H1 : µ 6= µ0
(erwünscht)
(unerwünscht)
Die Alternative H1 beschreibt hier den unerwünschten Fall, dass der mittlere Durchmesser
µ = ED nach unten oder nach oben vom verlangten Sollwert µ0 abweicht.
Gegeben sei nun eine Stichprobe x1 , . . . , xn der Zufallsvariablen X mit einer Normalverteilung
PX = N (µ, σ 2 ) mit unbekanntem µ = EX und bekanntem σ 2 .
Gesucht ist ein Verfahren zum Testen (Prüfen) der Nullhypothese H0 gegen die unerwünschte
Alternative H1 .
Nach (2.6b) ist das Stichprobenmittel x eine Schätzung für den Erwartungswert µ von X:
µ≈x=
1
(x1 + · · · + xn ) (Realisierung von X).
n
Im Folgenden betrachten wir nun den Fall (a):
H0 : µ ≤ µ0 , Qualitätsanforderung erfüllt
H1 : µ > µ0 , Qualitätsanforderung verletzt.
Die anderen beiden Fälle werden ganz analog behandelt.

 H0 verwerfen und H1 annehmen?
bzw.
Problem: Wann soll man

H0 akzeptieren und H1 verwerfen?
Wegen µ = EX ≈ x liegt es nahe, die Hypothese H0 dann zu verwerfen und die Alternative
H1 anzunehmen, wenn x deutlich rechts von µ0 liegt.“
”
80
2.9 Testen (Prüfen) von Hypothesen
Dazu benötigt man einen Wert, eine Schwelle c ∈
dungsregel:
R zur Formulierung folgender Entschei-
Verwerfe H0 (und akzeptiere H1 ), wenn x > c(> µ0 )
Akzeptiere H0 (und verwerfe H1 ), wenn x ≤ c.
(2.45)
Bestimmung der Schwelle c
Bei der Verwerfung bzw. Annahme der Hypothese H0 treten zwei charakteristische Fehler
auf:
Fehler 1. Art: H0 wird verworfen, obwohl H0 zutrifft (d.h. µ ≤ µ0 )
Definition 2.9.1 Es sei p1 die maximale Wahrscheinlichkeit eines Fehlers 1. Art, also p1 :=
max P (H0 wird verworfen, d.h. x̄ > c, obwohl H0 zutrifft, d.h. µ ≤ µ0 ).
Nach (2.45) ist
p1 = max P (X > c)|EX=µ = 1 − min P (X ≤ c)|EX=µ
(2.46)
µ≤µ0
µ≤µ0
Für eine gegebene sog. Signifikanzzahl α, z.B. α = 0.05, α = 0.01, bestimmt man dann die
Schwelle c in (2.45), so dass
p1 = α
(kleiner Fehler 1. Art).
(2.47)
Mit Gleichung (2.46) folgt die Bedingung
1 − min P (X ≤ c)|EX=µ = α
µ≤µ0
oder
min P (X ≤ c)|EX=µ = 1 − α.
µ≤µ0
(2.48)
81
2 Statistische Methoden
Gemäss Satz 2.4.1 hat X eine N
σ2
µ,
-Normalverteilung. Somit lässt sich die Gleichung
n
(2.48) wie folgt darstellen:
1 − α = min Φ
µ≤µ0
da Φ streng monoton wachsend ist.
Daraus folgt
c − µ0
√σ
n
also
c−µ
√σ
n
!
=Φ
c − µ0
!
√σ
n
,
= Φ−1 (1 − α),
σ
c = µ0 + √ Φ−1 (1 − α).
n
(2.49)
Satz 2.9.1 Im Test H0: µ ≤ µ0 gegen H1: µ > µ0 zur Signifikanzzahl α bestimme man c gemäss
(2.49). Damit kann ein Fehler 1. Art höchstens mit der Wahrscheinlichkeit p1 = α eintreten.
Fehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist (d.h. µ > µ0 )
Definition 2.9.2 Es sei p2 die Wahrscheinlichkeit eines Fehlers 2. Art, also p2 = P (H0 wird
akzeptiert, d.h., x̄ ≤ c, obwohl H0 falsch ist, d.h. µ > µ0 ).
Nach (2.45) gilt
p2 (µ) = P (X ≤ c)|EX=µ , wobei µ > µ0 .
σ2
Mit Satz 2.4.1 gilt X ist N µ,
− verteilt
n
!
c−µ
p2 (µ) = Φ
für µ > µ0 .
σ
√
(2.50a)
(2.50b)
n
Offensichtlich sollte auch der Fehler 2. Art p2 = p2 (µ) klein sein. Da c aber bereits
fixiert ist durch die Wahl der Signifikanzzahl α, lässt sich p2 (µ) nur noch über den Stichprobenumfang n beeinflussen.
Beispiel 2.9.2 Wir betrachten eine normalverteilte Zufallsvariable X mit Varianz σ 2 = 9.
Für die Signifikanzzahl α = 0.05 gilt dann 1 − α = 0.95 und damit (siehe Tabellenwerke)
Φ−1 (1 − α) = 1.645.
82
2.9 Testen (Prüfen) von Hypothesen
Wir wählen dann
µ0 = 24.
Nach ( 2.49) ist
3
3
1.645 = 24.5 für n = 100.
c = 24 + √ 1.645 = 25.56 für n = 10 bzw. c = 24 + √
10
100
Für die maximale Wahrscheinlichkeit p1 eines Fehlers 1. Art gilt demnach p1 = α = 0.05, und
für die Wahrscheinlichkeit p2 = p2 (µ) eines Fehlers 2. Art folgt
25.56 − µ
√
, µ > 24, für n = 10
p2 (µ) = Φ
0.9
24.5 − µ
p2 (µ) = Φ
, µ > 24, für n = 100.
0.3
Bemerkung 2.9.1 Die Funktion
β(µ) := 1 − p2 (µ), µ > µ0 ,
(2.51)
heißt Macht des Tests. β(µ) ist die Wahrscheinlichkeit, einen Fehler 2. Art zu vermeiden.
83
2 Statistische Methoden
2.10 Parameter-Schätzung
Problem: Die Verteilung PX einer Zufallsvariablen X hängt meistens von gewissen reellen
Parametern
θ1 , θ2 , · · · , θr , r ≥ 1,
ab, die unbekannt sind. Sei
θ = (θ1 , θ2 , . . . , θr )T .
Für eine gegebene Stichprobe x = (x1 , x2 , . . . , xn ) von X ist dann eine Schätzung θ̂ = g(x),
der unbekannten Parameter gesucht, d.h.
θ̂1 = g1 (x1 , x2 , . . . , xn )
θ̂2 = g2 (x1 , x2 , . . . , xn )
..
.
(2.52)
θ̂r = gr (x1 , x2 , . . . , xn ).
Definition 2.10.1 Die Funktion x −→ θ̂ = g(x) heißt Schätzfunktion für den Parametervektor θ. Statt θ̂ = g(x) schreibt man auch kurz θ̂ = θ̂(x).
Beispiel 2.10.1
1) Für eine N (µ, σ 2 )-normalverteilte Zufallsvariable X ist
θ1 = µ(∈
R), θ2 = σ2(> 0),
ferner ist die Dichte f (x) von X gegeben durch
1
1
2
exp − 2 (x − µ) , x ∈
f (x) = f (x|µ, σ ) =
(2πσ 2 )1/2
2σ
2
R.
2) Die Dichte einer 1-seitigen Exponentialverteilung ist definiert durch
α exp(−αx) , x ≥ 0
f (x) = f (x|α) =
0
, sonst,
(2.53a)
(2.53b)
also
θ1 = α(> 0).
3) Eine γ-Verteilung hat die Dichte
(
f (x) = f (x|α, β) =
exp − βx
,x > 0
0
, sonst
1
xα−1
β α Γ(α)
(2.53c)
mit den Parametern
θ1 = α > 0, θ2 = β > 0.
4) Die Wahrscheinlichkeitsfunktion (nicht Dichte) einer einfachen Binomialverteilung ist
gegeben durch
1 − p ,k = 0
f (k|p) =
(2.53d)
p
,k = 1
mit dem Parameter
θ1 = p, 0 ≤ p ≤ 1.
84
2.10 Parameter-Schätzung
5) Für eine Poisson-Verteilung gilt
pk = P (X = k) = f (k|λ), k = 0, 1, 2, . . . ,
e−λ λk
f (k|λ) =
, k = 0, 1, 2, . . .
k!
(2.53e)
mit dem Parameter
θ1 = λ > 0.
6) Allgemeine Binomialverteilung. Hier ist
pk = P (X = k) = f (k|p), k = 0, 1, . . . , m,
m k
f (k|p) =
p (1 − p)m−k , k = 0, 1, . . . , m
k
(2.53f)
mit dem Parameter
θ1 = p, 0 ≤ p ≤ 1.
2.10.1 Gütekriterien für Schätzfunktionen
Gegeben sei eine Zufallsvariable X mit den unbekannten Parametern θ = (θ1 , . . . , θr )T . Zur
Schätzung von θ betrachten wir eine
- Stichprobe
sowie eine
- Schätzfunktion
x = (x1 , . . . , xn )T von X. Nach Abschnitt 2.2.1 ist
x eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , XN ), wobei
X1 , X2 , . . . , XN unabhängige und wie X verteilte Zufallsvariable sind,
θ̂ = g(x) für θ
Die Schätzwerte θ̂ werden erzeugt durch die Zufallsvariable G = g(X).
Eigenschaften von Schätzfunktionen
a) Erwartungstreue
Definition 2.10.2 Die Schätzfunktion θ̂ = g(x) für θ heißt erwartungstreu, wenn
Eg(X) = E θ̂(X) = Eg1 (X), Eg2 (X), . . . , Eg r (X) = θ.
(2.54)
85
2 Statistische Methoden
Beispiel 2.10.2 Normalverteilung N (µ, σ 2 ), also θ1 = µ, θ2 = σ 2
Wählt man
n
θ̂1
1X
= g1 (x) := x =
xk
n k=1
θ̂2
1 X
= g2 (x) := s =
(xk − x)2 ,
n − 1 k=1
(2.55a)
n
2
(2.55b)
so folgt mit Satz 2.3.1a und Satz 2.4.3, dass θ̂ = g(x) = (x, s2 ) eine erwartungstreue
Schätzungsfunktion für θ = (µ, σ 2 ) ist.
b) Konsistenz von Schätzfunktionen
Definition 2.10.3 Eine Schätzfunktion θ̂ = g(x) für θ heißt konsistent, wenn
lim P |gj (X) − θj | < = 1 für beliebiges > 0,
n→∞
(2.58)
d.h. θ̂j (X) → θj , n → ∞ für jedes j = 1, 2, . . . , r.
Beispiel 2.10.3 Sei θ1 = µ = EX der zu schätzende Parameter einer Zufallsvariablen
X mit endlicher Varianz σ 2 , z.B. der Erwartungswert µ = EX einer normalverteilten
Zufallsvariablen X mit Varianz σ 2 .
Aus Korollar 2.3.2 folgt:
lim P (|X − µ| < ) = 1 für alle > 0.
n→∞
Mit Satz 2.3.1a folgt daraus
Satz 2.10.1 µ̂ = g(x) = x ist eine konsistente und erwartungstreue Schätzungsfunktion
für den Erwartungswert µ einer Zufallsvariablen X mit endlicher Varianz.
c) Effizienz einer Schätzfunktion
Definition 2.10.4 Eine erwartungstreue Schätzfunktion θ̂ = h(x) für θ heißt effizient,
wenn für alle j = 1, 2, . . . , r gilt
2
Var gj (X) = E (gj (X) − θj )2 ≥ E hj (X) − θj = Var hj (X)
(2.59)
für alle anderen erwartungstreuen Schätzer θ̂ = g(x) für θ. Eine effiziente Schätzfunktion
hat, also eine minimale mittlere quadratische Abweichung von θ.
86
2.10 Parameter-Schätzung
2.10.2 Die Momentenmethode
Gesucht: Schätzfunktion θ̂ = g(x) für die unbekannten Parameter θ1 , θ2 , . . . , θr einer Zufallsvariablen X.
Gegeben: Stichprobe x = (x1 , . . . , xn ) von X, wobei x wieder als eine Realisierung des Zufallsvektors X = (X1 , X2 , . . . , Xn ) gemäss Abschnitt 2.2.1, Formel (2.2), betrachtet werden
kann.
Zur Definition einer Schätzfunktion θ̂ = g(x) für θ verfährt man hier wie folgt:
a) Man betrachtet zunächst die Momente m1 , m2 , . . . , mr von X.
Aus Satz 1.5.4 folgt:
 +∞
Z




xj f (x|θ) dx, X hat eine Dichte f (x|θ)





−∞


ρ
 X
j
(x◦i )j f (xi |θ), X ist diskret verteilt mit der
mj = EX =


i=1



Wahrscheinlichkeitsfunktion




f (x◦i |θ) = P (X = x◦i ), i = 1, 2, . . . , ρ



(aus oder ρ = ∞).
N
Man beachte, dass die Dichte f (x|θ) bzw. die W-Funktion f (xi |θ) vom Parametervektor
θ abhängt, siehe (2.55a-f).
Somit ergibt sich folgendes Gleichungssystem
m1 = EX = m1 (θ1 , θ2 , . . . , θr )
m2 = EX 2 = m2 (θ1 , θ2 , . . . , θr )
..
..
..
.
.
.
mr = EX r = mr (θ1 , θ2 , . . . , θr )





(2.60)




Offensichtlich lässt sich nun (2.60) bei gegebenen Momenten m1 , m2 , . . . , mr von X interpretieren als ein Gleichungssystem mit r Gleichungen für die r unbekannten Momente
θ1 , θ2 , . . . , θr .
b) Die Auflösung von (2.60) nach θ ergibt
θ = T (m1 , m2 , . . . , mr ).
(2.61)
c) Schätzfunktion für θ: Eine Schätzfunktion für θ erhält man sofort, indem nun die Momente m1 , m2 , . . . , mr durch Schätzwerte m̂1 , m̂2 , . . . , m̂r ersetzt werden:
θ̂ = T (m̂1 , m̂2 , . . . , m̂r ).
(2.62)
d) Schätzwerte für die Momente mk , k = 1, . . . , r
Nach (2.6a) ist das j-te empirische Moment m̂j für eine Stichprobe
(x1 , . . . , xk , . . . , xn ) von X definiert durch
n
1X
m̂j = m̂j (x) =
(xk )j , j = 1, 2, . . . , r.
n k=1
(2.63)
87
2 Statistische Methoden
Für diese Momentenschätzer hat man den folgenden
Satz 2.10.2 Haben die Zufallsvariablen X i , i = 1, . . . , r, eine endliche Varianz, dann sind
m̂i (x), i = 1, 2, . . . , r, erwartungstreue und konsistente Schätzungsfunktionen für die Momente
mi , i = 1, 2, . . . , r.
Folgerung für die Schätzfunktion θ̂: Nach (2.62) ist
θ̂ = g(x) = T (m̂1 , m̂2 , . . . , m̂r )
= T m̂1 (x), m̂r (x), . . . , m̂r (x)
P
P
P
= T n1 nk=1 xk , n1 nk=1 x2k , . . . , n1 nk=1 xrk
(2.64)
Zur Untersuchung dieser Schätzfunktion benötigt man folgendes Hilfsmittel:
Satz 2.10.3 Das Gesetz der großen Zahlen. Sei Z1 , Z2 , . . . eine Folge unabhängiger und
identisch verteilter Zufallsvariablen. Ist dann a = EZi der Erwartungswert dieser Zufallsvariablen, dann gilt
n
1X
Zk = a mit Wahrscheinlichkeit 1.
(2.65)
lim
n→∞ n
k=1
Folgerung aus Satz 2.10.3:
Sei X1 , X2 , . . . , Xk , . . . eine Folge von unabhängigen Zufallsvariablen, die dieselbe Verteilung
wie X haben.
Für jedes i = 1, 2, . . . , r ist dann
X1i , X2i , X3i , . . . , Xni , . . .
wieder eine Folge unabhängiger und identisch verteilter Zufallsvariablen, wobei
EXki = EX i = mi (i-tes Moment von X), i = 1, 2, . . . , r.
Setzt man deshalb für ein festes i, 1 ≤ i ≤ r,
Zk := Xki ,
so folgt aus Satz 2.10.3
n
1X i
Xk −→ EX i = mi , n → ∞ mit Wahrscheinlichkeit = 1.
n k=1
Damit gilt der folgende
P
P
Satz 2.10.4 Konsistenz der Schätzfunktion θ̂ = T n1 nk=1 xk , . . . , n1 rk=1 xrk . Die Funktion
θ = T (m1 , . . . , mr ) sei stetig. Dann gilt mit Wahrscheinlichkeit 1
!
n
n
n
1X
1X 2
1X r
−→ θ für n → ∞.
θ̂ = T
Xk ,
X ,...,
X
n k=1
n k=1 k
n k=1 k
Beispiel 2.10.4 X sei N (µ, σ 2 )-verteilt.
Gesucht: θ = (µ, σ 2 )
88
2.10 Parameter-Schätzung
Die Momentengleichung (2.60) lautet dann
m1 = m1 (µ, σ 2 ) = EX = µ
m2 = m2 (µ, σ 2 ) = EX 2 = σ 2 + µ2 .
Die Auflösung nach µ, σ 2 liefert µ = m1 und σ 2 = m2 − µ2 = m2 − m21 .
Für die Funktion T in (2.61) erhält man somit
m1
,
T (m1 , m2 ) =
m2 − m21
wobei T offensichtlich stetig ist. Nach (2.62) hat man dann für θ = (µ, σ 2 ) die Schätzfunktion


n
X
1
xk

 n


m̂1
k=1


θ̂ = T (m̂1 , m̂2 ) =
=
n
 X

m̂2 − (m̂1 )2
2
2 
 1
x
−
(
m̂
)
1
k
n
k=1


= 

x
1
n
n
X

2 
(xk − x)
k=1
n
1X
mit x = m̂1 =
xk
n k=1
(2.66)
Eigenschaften der Schätzfunktion (2.66)
a) Da T stetig, folgt nach Satz 2.10.4, dass θ̂ = T (m̂1 , m̂2 ) eine konsistente Schätzfunktion
für θ ist.
b) EX = µ
n
X
n−1 2
(Xk − X)2 =
σ 6= σ 2 (siehe Satz 2.4.3)
E n1
n
k=1
Die Schätzfunktion ist also nur asymptotisch erwartungstreu, d.h. für n → ∞.
Beispiel 2.10.5 X hat eine γ-Verteilung mit Parametern θ = (α, β), α, β > 0
Momente von X:
m1 = EX = α · β
m2 = EX 2 = α(α + 1)β 2
Auflösung nach α, β:
α=
β=
m21
m2 −m21
m2 −m21
m21
θ = T (m1 , m2 ) =
)
m21
m2 −m21
m2 −m21
m21
!
Da T stetig ist, folgt wieder die Konsistenz der Schätzfunktion, Erwartungstreue ist aber auch
hier nicht gegeben.
89
2 Statistische Methoden
2.10.3 Die Maximum-Likelihood-Methode
Sei X eine Zufallsvariable, deren Verteilung PX von Parametern θ1 , θ2 , . . . , θr abhängt. Im
folgenden besitze X eine stetige Verteilung mit der Dichtefunktion f (x|θ1 , θ2 , . . . , θr ).
Definition 2.10.5 Die Likelihood-Funktion
Ist x1 , x2 , . . . , xn eine Stichprobe von X, dann heißt
l(θ1 , θ2 , . . . , θr ) =
n
Y
f (xk |θ1 , θ2 , . . . , θr ) = l(θ|x)
(2.67)
k=1
die Likelihood-Funktion.
Definition 2.10.6 Maximum-Likelihood-Schätzfunktion. Ist θ̂ = θ̂(x) eine Maximalstelle von l(θ|x), gilt also
(2.68)
l(θ̂|x) ≥ l(θ|x) für alle Parameter θ,
so heißt θ̂ = θ̂(x) eine Maximum-Likelihood-Schätzfunktion.
Für eine gegebene Stichprobe x von X ist also das Maximierungsproblem
max l(θ|x),
θ
(2.69a)
zu lösen, das äquivalent ist mit dem Optimierungsproblem
max ln l(θ|x).
θ
(2.69b)
Definition 2.10.7 θ −→ ln l(θ|x) heißt log-Likelihood-Funktion.
Notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂
d.h.
∇θ l(θ|x) = 0,
(2.70a)
∂
l(θ|x) = 0, j = 1, 2, . . . , r.
∂θj
(2.70b)
Äquivalent dazu ist die notwendige Bedingung
d.h.
∇θ ln l(θ|x) = 0,
(2.71a)
∂
ln l(θ|x) = 0, j = 1, 2, . . . , r
∂θj
(2.71b)
Beispiel 2.10.6 X sei N (µ, σ 2 )-verteilt. X hat also die W-Dichte
2 !
1
1
x
−
µ
f (x|µ, σ 2 ) = √
exp −
.
2
σ
2πσ 2
90
2.10 Parameter-Schätzung
Somit ist
l(θ|x) =
n
Y
−n
2
f (xk |µ, σ 2 ) = (2πσ 2 )
k=1
n
1 X
exp − 2
(xk − µ)2
2σ k=1
!
,
(2.72a)
und für die log-likelihood-Funktion gilt
n
1 X
n
2
(xk − µ)2 .
ln l(θ|x) = − ln 2πσ − 2
2
2σ k=1
(2.72b)
Als notwendige Bedingung für den Maximum-Likelihood-Schätzer θ̂ = (µ̂, σˆ2 ) erhält man in
diesem Fall
n
X
∂
1
0 = ∂µ ln l(θ|x) = σˆ2
(xk − µ̂)
k=1
0=
∂
∂σ 2
ln l(θ|x) = − n2 σ1ˆ2 +
1 1
2 σˆ4
n
X
(xk − µ̂)2 .
k=1
Daraus folgt für den Maximum Likelihood-Schätzer für θ = (µ, σ 2 ) sofort die Darstellung
µ̂
=
1
n
n
X
xk = x
k=1
σˆ2 =
1
n
n
X
(2.73)
2
(xk − x)
k=1
Offensichtlich gilt der folgende
Satz 2.10.5 Der Maximum-Likelihood-Schätzer ist asymptotisch erwartungstreu.
91
2 Statistische Methoden
92
Index
Additionsgesetz, 7
Additionstheorem, 12
Alternative, 79
asymptotisch verteilt, 79
Axiome, 11
Bedingte Wahrscheinlichkeit, 12
Bernoulliverteilung, 25
Binomialverteilung, 25
Cauchy-Verteilung, 26
charakteristische Funktion, 33
Chi-Quadrat Verteilung, 75
Dichte, 37, 38
Dichtefunktion, 23
diskrete Verteilung, 19, 43
Dynamische Systeme, 36
Gleichverteilung, 25
gleichwahrscheinlich, 16
Häufigkeit
relative, 16
homogen, 9
Indikatorfunktion, 60
Inferenz, 15
Inferenzmaschine, 15
Komplement, 9
Konfidenzintervall, 68
Konfidenzzahl, 68
konsistent, 86
konsistenter Schätzer, 66
Kovarianz, 47
Kovarianzmatrix, 47
effizient, 86
Einpunktverteilung, 29
Elementarereignis, 57
empirische Verteilungsfunktion, 61
empirisches Moment, 62
Ereignis, 6, 10
komplementär, 9
sicheres, 7, 12
unmögliches, 7, 12
erwartungstreu, 64, 85
Erwartungswert, 28, 39, 49
Experiment, 5
Expertensysteme, 15
Exponentialverteilung, 26
Laplace, 57
Likelihood-Funktion, 90
Fehler 1. Art, 81
Fehler 2. Art, 82
Poissonverteilung, 25
Gesetz der großen Zahlen, 88
Macht des Tests, 83
Maximierungsproblem, 90
Maximum-Likelihood-Schätzfunktion, 90
Median, 54
Moment, 29, 40
empirisches, 62
momenterzeugende Funktion, 33
Monotoniegesetz, 7
Normalverteilung, 26, 69
Nullhypothese, 79
Qualitätsforderung, 74
Quantil, 55
93
Index
Randdichte, 45
Randverteilung, 43
Realisation des Schätzers, 64
Rechtecksverteilung, 28
Regressionsgerade, 52
relative Häufigkeit, 16
Schätzfunktion, 63, 84
Schiefe einer Verteilung, 31
Schließen mit Wahrscheinlichkeit, 15
Signifikanzzahl, 81
singuläre Verteilung, 25
Skalentransformation, 35
standard deviation, 29
Standardabweichung, 29, 63
stetige Verteilung, 19, 21, 44
Stetigkeitsaxiom, 12
Stichprobe, 58
stochastisch unabhängig, 14, 42, 43
stochastische Variable, 5
Streuung, 29
Student-Verteilung, 74
Treppenfunktion, 21
Tschebyscheffsche Ungleichung, 65
unabhängig, 14, 42, 43
unkorreliert, 51
Varianz, 28, 30, 40
Versuchsprotokoll, 58
Verteilung
Chi-Quadrat, 75
diskrete, 19, 43
singuläre, 25
stetige, 21, 44
Student-, 74
symmetrisch, 31
Verteilungsfunktion, 17, 44
empirische, 61
Vertrauensellipse, 77
Würfelexperiment, 11, 13
Wahrscheinlichkeit
bedingte, 12
subjektive, 17
Wahrscheinlichkeitsaxiome, 11
Wahrscheinlichkeitsdichte, 22, 44
94
Wahrscheinlichkeitsverteilung, 5
Zentraler Grenzwertsatz, 78
Zentralwert, 54
Zufallsgröße, 42
Zufallsvariable, 5
Zufallsvektor, 42, 58
Herunterladen