Stochastik II

Werbung
Stochastik II
Skript zur Vorlesung
Wolfgang Näther
Dietrich Stoyan
Helge Bahmann
Tobias Schlemmer
Gunter Döge
April 2005
INHALTSVERZEICHNIS
i
Inhaltsverzeichnis
1 Nachträge zu den Grundlagen der Stochastik
3
1.1
Eigenschaften der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Darstellung der hypergeometrischen Verteilung als Bildmaß . . . . . . . . . . . . .
6
2 Zufallsgrößen und Verteilungen - maßtheoretisch
2.1
Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Erwartungswerte - maßtheoretisch
3.1
3.2
7
7
9
Allgemeines und Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.2
Berechnung von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . .
9
Einige Ungleichungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
4 Quantile und Zufallszahlen-Erzeugung
13
5 Unabhängigkeit und Produktmaße
17
5.1
Unabhängigkeit von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
5.2
Unabhängige oder Produkt-Experimente . . . . . . . . . . . . . . . . . . . . . . . .
17
6 Zufällige Vektoren, unabhängige Zufallsgrößen
6.1
19
Zufällige Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
6.1.1
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
6.1.2
Diskrete und absolutstetige Zufallsvektoren . . . . . . . . . . . . . . . . . .
20
6.2
Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
6.3
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
6.4
Erwartungswert, Kovarianz, Korrelation . . . . . . . . . . . . . . . . . . . . . . . .
24
6.5
Beispiele für Verteilungen zufälliger Vektoren . . . . . . . . . . . . . . . . . . . . .
26
6.5.1
Gleichverteilung auf G ∈ R . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
6.5.2
n-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
26
6.5.3
Gibbs-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
6.5.4
Bayes-a-posteriori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
28
d
ii
INHALTSVERZEICHNIS
7 Bedingte Verteilungen, bedingte Erwartung
29
7.1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
7.2
Bedingte Größen bezüglich B ∈ A mit P (B) > 0 . . . . . . . . . . . . . . . . . . .
30
7.3
Verteilung von X unter der Bedingung Y = y . . . . . . . . . . . . . . . . . . . . .
31
7.4
Allgemeiner Begriff der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . .
32
8 Funktionen von Zufallsvektoren, Faltung
8.1
Funktionen von zufälligen Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 Prüfverteilungen der Statistik
9.1
37
37
41
2
χ -Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . .
2
41
9.2
Verteilung von S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
9.3
t-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
9.4
F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
10 Charakteristische Funktionen
45
10.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
10.2 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
10.3 Umkehr- und Eindeutigkeitssatz
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
10.4 Die charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . .
48
10.5 Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
11 Gesetze der großen Zahlen
51
11.1 Konvergenzarten der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
11.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
11.2.1 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
52
11.2.2 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . .
53
12 Zentrale Grenzwertsätze
57
12.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
12.2 Grenzwertsatz von Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
12.3 Grenzwertsatz für Folgen von iid-Zufallsgrößen . . . . . . . . . . . . . . . . . . . .
59
12.4 Grenzwertsatz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
13 Eigenschaften von Schätzern
67
13.1 Ungleichung von Rao-Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
13.2 Suffiziente Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
14 Signifikanztests
73
14.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
14.2 Beispiel: Mittelwert-Tests im Fall der Normalverteilung . . . . . . . . . . . . . . .
74
14.2.1 Bekannte Varianz – Gauß-Test . . . . . . . . . . . . . . . . . . . . . . . . .
74
INHALTSVERZEICHNIS
1
14.2.2 Unbekannte Varianz – Student-Test, t-Test . . . . . . . . . . . . . . . . . .
76
14.2.3 Vergleich zweier Mittelwerte – Welch-Test . . . . . . . . . . . . . . . . . . .
77
14.3 Ausgewählte weitere Tests im Fall der Normalverteilung . . . . . . . . . . . . . . .
77
14.3.1 Varianztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
14.3.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
2
14.4 χ -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15 Regressionsanalyse
78
79
15.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
15.2 Methode der kleinsten Quadrate für Modell I . . . . . . . . . . . . . . . . . . . . .
80
15.3 Nicht parametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
16 Konfidenz-Intervalle
83
Literaturverzeichnis
87
Index
87
2
INHALTSVERZEICHNIS
3
Kapitel 1
Nachträge zu den Grundlagen der
Stochastik
In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf der Grundlage der
Maßtheorie erläutert werden.
1.1
Eigenschaften der Wahrscheinlichkeit
Um ein Zufallsexperiment quantitativ zu beschreiben, werden den Ereignissen A ∈ A
Häufigkeiten“ ihres möglichen Auftretens, die sog. Wahrscheinlichkeiten, zugeordnet. Die Wahr”
scheinlichkeit1 dafür, dass A eintritt (kurz: Wahrscheinlichkeit von A), wird mit P (A) bezeichnet.
Definition 1.1 Axiomatische Definition von Kolmogorow Der Maßraum [Ω, A, P ] ist
der sogenannte Wahrscheinlichkeitsraum. Dabei ist P ein normiertes Maß, das sogenannte
Wahrscheinlichkeits-Maß, auch Wahrscheinlichkeits-Verteilung genannt.
Damit genügt P : A → [0, 1] den folgenden Eigenschaften (jeweils für beliebige A, B ∈ A):
P (A) ≥ 0
P (Ω) = 1
A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)
S
P
A1 , A2 , . . . ∈ A paarweise unvereinbar ⇒ P ( i Ai ) = i P (Ai )
(σ-Additivität/Volladditivität)
Aus der Maßtheorie ergeben sich die folgenden Eigenschaften (für A, B, Bn ∈ A):
Bn ↓ B ⇒ P (Bn ) ↓ P (B) Stetigkeit
P (∅) = 0
c
P (A ) = 1 − P (A)
A ⊂ B ⇒ P (A) ≤ P (B) (Monotonie)
Ferner gilt die Einschluss-Ausschluss-Formel (Poincaré-Formel):
!
n
n
[
X
X
P (Ai1 ∩ . . . ∩ Aik )
P
Ai =
(−1)k−1
i=1
1 lat.
k=1
probābilitās, -ātis“; engl. probability“
”
”
1≤i1 <...<ik ≤n
(1.1)
4
KAPITEL 1. NACHTRÄGE ZU DEN GRUNDLAGEN DER STOCHASTIK
Für n = 3 lautet diese Formel zum Beispiel:
P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (A ∩ C) + P (A ∩ B ∩ C)
und für n = 2:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Bemerkung: Das Rechnen mit Komplementen ist eine häufig angewendete Methode, zum Beispiel
bei
P ( mindestens ein . . .“) = 1 − P ( kein . . .“).
”
”
Obwohl das unmögliche Ereignis die Wahrscheinlichkeit 0 hat, ist nicht jedes Ereignis, das die
Wahrscheinlichkeit 0 hat, das unmögliche Ereignis. Dementsprechend heißen Ereignisse A mit
• A 6= ∅, P (A) = 0 fast unmöglich“
”
• A 6= Ω, P (A) = 1 fast sicher“
”
Weiterhin gilt für beliebige Ereignisse A1 , A2 , . . . die Boolesche Ungleichung (vergleiche Maßtheorie):
!
∞
∞
[
X
P
(Ai ) ≤
P (Ai )
(1.2)
i=1
i=1
Satz 1.1 (1. Borel-Cantelli-Lemma) Sei {Ai } eine beliebige Folge von Ereignissen. Wenn
∞
X
P (Ai ) < ∞
i=1
ist, so gilt
P
lim sup Ai
= 0.
i→∞
Beweis: Es gilt
lim sup Ai =
i→∞
∞ [
∞
\
An ⊂
k=1 n=k
∞
[
An , (k beliebig).
n=k
Damit lässt sich für beliebig kleines ε zeigen, dass es ein k0 gibt, so dass für alle k > k0 gilt:
P
lim sup Ai
i→∞
≤P
∞
[
!
An
≤
n=k
∞
X
P (An ) < ε
n=k
Satz 1.2 (2. Borel-Cantelli-Lemma) Die Ereignisse A1 , . . . , An seien paarweise unabhängig
∞
P
mit
P (An ) = ∞. Dann gilt:
n=1
P (lim sup An ) = 1
n→∞
1.1. EIGENSCHAFTEN DER WAHRSCHEINLICHKEIT
Beweis.
2
5
Für vollständig unabhängige An gilt:
P(
N
\
Ack ) =
k=n
N
Y
(1 − P (Ak )) ≤ exp −
k=n
N
X
!
P (Ak )
k=n
Letzterer Term strebt gegen Null, wenn N gegen Unendlich geht. (Die Abschätzung nutzte die
Beziehung:
(1 − x) ≤ e−x .)
Für alle n ist daher P (
∞
T
k=n
Ack ) = 0, und nach der Booleschen Ungleichung und den de-Morganschen
Formeln folgt:
0=P
∞ \
∞
[
∞ [
∞
\
!
Ack
= P
n=1 k=n
!c !
Ak
n=1 k=n
= P
c
(lim sup An )
n→∞
Demzufolge ist
P (lim sup An ) = 1.
n→∞
Diese Sätze sind sogenannte Null-Eins-Gesetze“. Diese Gesetze enthalten Aussagen über Wahr”
scheinlichkeiten, die unter bestimmten Bedingungen nur die Werte 0 oder 1 annehmen können.
Eine Anwendung ergibt sich, wenn An das Ereignis beschreibt, dass bei der n-ten Lotto-Ziehung
ein Sechser erzielt wird. Die Voraussetzungen von Satz 1.2 sind offenbar erfüllt. Schließlich sind die
einzelnen An unabhängig und die Wahrscheinlichkeiten P (An ) liegen konstant bei P (A1 ), welche
größer als 0 ist. Der Satz besagt nun folgendes: Wenn die Menschheit unendlich lange Lotto spielen
würde, käme es unendlich oft vor, dass ein Sechser auftritt.
Wahrscheinlichkeits-Begriff
Es gab in der Entwicklung der Wahrscheinlichkeitstheorie noch andere Versuche, die Wahrscheinlichkeit zu definieren:
Bernoulli definierte 1713 die Wahrscheinlichkeit als Grad der Gewissheit, welcher sich zur Ge”
wissheit wie der Teil zum Ganzen verhält“. Ähnlich bezeichnete Laplace 1812 damit das Verhältnis
der Anzahl der für A günstigen Fälle zu der Anzahl der möglichen Fälle. Dies entspricht der
sogenannten frequentistischen Auffassung, die von einer naturgesetzartigen Konvergenz der
Häufigkeiten ausgeht.
von Mises versuchte 1919, die Wahrscheinlichkeit folgendermaßen zu definieren: Wenn in einer
Folge von gleichartigen Beobachtungen bei jeder regellosen Auswahl unendlich vieler Ereignisse die Wahrscheinlichkeit P (A) = lim h(A)
stets das gleiche Ergebnis liefert, so ist dieses die
n→∞ n
Wahrscheinlichkeit.
Kolmogorow führte 1933 die obige axiomatische Definition der Wahrscheinlichkeit ein:
Der Vollständigkeit halber soll hier noch die subjektive Wahrscheinlichkeit angeführt werden.
Diese begegnet uns z. B., wenn beim Wetterbericht das Niederschlags-Risiko bekanntgegeben wird.
Es handelt sich dabei oft um Zahlenwerte, die der Meteorologe vom Dienst festlegt.
2 vergleiche
[6], Seite 74. Dort steht auch der Beweis für den allgemeinen Fall.
6
KAPITEL 1. NACHTRÄGE ZU DEN GRUNDLAGEN DER STOCHASTIK
1.2
Darstellung der hypergeometrischen Verteilung als
Bildmaß
Das Lottomodell
N . . . Anzahl möglicher Zahlen
M . . . Anzahl der Gewinnzahlen
n . . . Anzahl der getippten Zahlen
(siehe Elementare Stochastik“, Kapitel B) kann durch ein diskretes Wahrscheinlichkeits-Maß auf
”
Ω0 = {max{0, n − N + M }, max{0, n − N + M } + 1, . . . , min{n, M }} beschrieben werden, die
sogenannte hypergeometrische Verteilung. Der Raum (Ω0 , A0 = P(Ω0 ), P(N,M,n) ) mit
P(N,M,n) ({k})
=
M
k
N −M
n−k
N
n
(1.3)
ist ein Wahrscheinlichkeitsraum und eine Vergröberung
des Ausgangswahrscheinlichkeitsraumes
(Ω, A = P(Ω), P ), wobei Ω die Menge der N
möglichen
Tipps
und P die diskrete Gleichverteilung
n
N −M auf A ist. Es gibt M
Elemente
von
Ω,
die
auf
dasselbe
Element
von Ω0 (nämlich k) führen.
k
n−k
Sei der Tipp z.B. die Menge {1, 2, . . . , n}. Dann kann eine diesen Tipp charakterisierende Abbildung S : Ω → Ω0 folgendermaßen definiert werden:
S(ω) = |ω ∩ {1, . . . , n}|, ω ∈ Ω.
ω ist dann ein n-tupel verschiedener Zahlen aus 1,. . . ,N. Da Potenzmengen σ-Algebren sind, ist in
diesem Falle auch die Messbarkeit gegeben. Das dadurch induzierte Bildmaß ist durch PS ({k}) :=
P (S −1 ({k})) definiert. Dies lässt sich noch etwas umformen:
P (S −1 ({k})) = P ({ω : |ω ∩ {1, 2, . . . , n}| = k} = P(N,M,n) ({k}).
7
Kapitel 2
Zufallsgrößen und Verteilungen maßtheoretisch
In diesem Kapitel soll nun der Zusammenhang zwischen der Wahrscheinlichkeitstheorie und der
Maßtheorie vertieft werden. Reelle Funktionen werden mit Zufallsgrößen und Abbildungen mit
Zufallsvariablen identifiziert (diese sind ja beide messbar). Speziell wird aus der Funktion f ein X
und aus dem Wert f (x) wird die Realisierung X(ω) = x.
2.1
Zufallsgrößen
Oft ist es sinnvoll, das Zufallsgeschehen von (Ω, A, P ) auf einen leichter beschreibbaren Raum
(Ω0 , A0 ) zu transformieren (z.B. Ω0 = Rd ). Wenn zum Beispiel ωk ein Elementarereignis ist, in dem
sich k Unfälle an einem Tag ereignen, dann ist X(ωk ) = k eine sinnvolle Transformation.
Ein weiteres Beispiel: Würfeln mit zwei Würfeln, wobei die Augensumme betrachtet wird. Ω ist
dann Ω = {1, . . . , 6}×{1, . . . , 6}. Für den Bildraum ist Ω0 = R1 sinnvoll. Zu dem Elementarereignis
ω = (ω1 , ω2 ) bietet sich das Bildelementarereignis ω 0 = ω1 + ω2 an.
Allgemein muss gesichert sein, dass
{X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 } = X −1 (A0 ) ∈ A,
(2.1)
damit {X ∈ A0 } ein Ereignis und P (X ∈ A0 ) definiert sind. X muss also eine (A, A0 )-messbare
Abbildung sein.
Definition 2.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum.
Die Abbildung X : Ω → Ω0 heißt Zufallsvariable (zufällige Variable), wenn sie (A, A0 )-messbar ist.
Durch
PX (A0 ) = P (X −1 (A0 )),
A0 ∈ A0
(2.2)
wird durch X auf (Ω0 , A0 ) ein Wahrscheinlichkeitsmaß PX induziert. (Ω0 , A0 , PX ) ist der BildWahrscheinlichkeitsraum bezüglich X. PX heißt dann Verteilungs-Gesetz der Zufallsvariablen X.
Wir interessieren uns im Folgenden speziell für folgende Zufallsvariablen:
Ω0 = R1 , A0 = R1 = σ-Algebra der Borelmengen des R1 ; dann heißt die Zufallsvariable Zufallsgröße.
Ω0 = Rd , A0 = Rd = σ-Algebra der Borelmengen des Rd ; dann heißt die zufällige Variable zufälliger
Vektor bzw. Zufallsvektor.
8
KAPITEL 2. ZUFALLSGRÖSSEN UND VERTEILUNGEN - MASSTHEORETISCH
Weitere wichtige Zufallsvariablen hängen mit zufälligen Funktionen, stochastischen Prozessen und
zufälligen Mengen zusammen.
Speziell: Zufallsgrößen
X
(Ω, A, P ) −→ (R1 , R1 , PX )
PX ist Wahrscheinlichkeitsmaß auf (R1 , R1 ), {(−∞; x) : x ∈ R} ist ein Erzeugendensystem für
R1 , das heißt durch PX ((−∞; x)) für alle x ist PX bereits eindeutig bestimmt (siehe Maßtheorie).
Daher:
Definition 2.2 Es sei X eine Zufallsgröße auf (Ω, R, P ). Dann heißt die für alle reellen x definierte Funktion
= PX ((−∞; x)) = P ({ω ∈ Ω : X(ω) < x}) = P (X < x)
FX (x)
Verteilungsfunktion
1
(2.3)
der Zufallsgröße X.
Bemerkung. Neben diskreten und absolut stetigen Verteilungen existieren auch singulär stetige
Verteilungen. Eine Verteilung Ps heißt singulär stetig, wenn ihre Verteilungsfunktion stetig ist und
eine Lebesgue-Nullmenge N mit Ps (N ) = 1 existiert.
Es gilt der Zerlegungssatz von Lebesgue:
Für jede Verteilungsfunktion F existieren eindeutig bestimmte Verteilungsfunktionen Fa (absolut
stetig), Fs (singulär stetig), Fd (diskret) und nichtnegative Zahlen αa , αs , αd mit
F
= αa Fa + αs Fs + αd Fd ,
(2.4)
wobei αa + αs + αd = 1.
1 In vielen Büchern findet sich ≤“ statt <“. Dann wird also mit den halboffenen Intervallen (−∞, x] gearbeitet.
”
”
Dann ist die Verteilungsfunktion nicht mehr links-, sondern rechtsseitig stetig. Damit kann es vor allem bei Beweisen
zu gewissen Unterschieden kommen, obwohl sich die Theorie vom Ergebnis her kaum unterscheidet.
9
Kapitel 3
Erwartungswerte - maßtheoretisch
3.1
3.1.1
Allgemeines und Formeln
Definition
Hier soll nun die Identifikation
desR Maßes µ mit
R
R der Wahrscheinlichkeit P forciert werden. Es
werden die Integrale f (ω) µ(dω), f dµ und f (x) dx, sowie die Bezeichnungen EX, E(X) und
EP (X) eingeführt.
Definition
R 3.1 Es sei X eine Zufallsgröße auf (Ω, A, P ), X sei integrierbar bezüglich P (das
bedeutet |X(ω)| P (dω) < ∞). Dann heißt
Ω
Z
EX =
X(ω) P (dω)
(3.1)
Ω
Erwartungswert von X (Erwartungswert zur Verteilung PX ).
Wenn X ≥ 0 ist, so ist die Existenz immer gegeben, aber unter Umständen ist EX = ∞.
3.1.2
Berechnung von Erwartungswerten
Die Berechnung von Erwartungswerten basiert auf dem Transformationssatz der Maßtheorie. Dabei werden g mit X und g(µ) mit PX identifiziert. Demnach gilt:
Z
EX =
R1
+∞
Z
x PX (dx) =
x dFX (x)
(Riemann-Stieltjes).
(3.2)
−∞
Im diskreten Fall ergibt sich daraus für P (X = ak ) = pk :
X
EX =
ak pk
(3.3)
(k)
und im absolutstetigen Fall:
+∞
Z
EX =
xfX (x) dx.
(3.4)
−∞
EX kann als Massenschwerpunkt oder Mittelwert gedeutet werden. Hier nun noch zwei Spezialfälle:
10
KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH
• Es sei X = 1A mit A ∈ A. Dann ist
EX = E1A = P (A),
denn es gilt:
Z
Z
1A (ω) P (dω) =
P (dω).
(3.5)
A
Eine alternative Begründung geht von der Formel EX =
P
ak pk aus und ergibt ebenfalls
EX = 0 · p0 + 1 · p1 = 0 · P (Ac ) + 1 · P (A) = P (A).
• Für die Exponential-Verteilung lautet die Dichte-Funktion:
fX (x) = 1[0,∞) λe−λx .
Für den Erwartungswert ergibt sich also:
Z∞
EX
=
xfX (x) dx
−∞
Z∞
xλe−λx dx =
=
1
λ
0
Bemerkung. Die Integration ist eine lineare Operation, daher gilt für beliebige reelle Zahlen α
und β
E(αX + βY ) = αEX + βEY,
(3.6)
sofern die Erwartungswerte EX und EY der beiden Zufallsgrößen X und Y existieren.
Anwendung Um den Erwartungswert einer Binomialverteilung auszurechnen, ist es ungeschickt,
zu versuchen, ihn nach (3.3) direkt zu berechnen.
Viel einfacher ist es hingegen, die Zufallsvariable entsprechend
X=
n
X
Xi ,
Xi = 1Ai
i=1
zu zerlegen, wobei Ai das Ereignis eines Erfolges im i-ten Versuch beschreibt. Die Xi sind dann
diskret mit a1 = 0, a2 = 1, p1 = 1 − p und p2 = p. Damit ist der Erwartungswert EXi = p. Daraus
folgt für den Gesamt-Erwartungswert
EX = np.
(3.7)
Wenn X ≥ 0, kann man den Erwartungswert mitunter elegant durch Integration über die Verteilungsfunktion F (x) ermitteln:
Z∞
EX = (1 − F (x)) dx.
(3.8)
0
Damit kann man zum Beispiel noch einmal den Erwartungswert der Exponentialverteilung berechnen. Dichte- und Verteilungsfunktion sahen ja folgendermaßen aus:
F (x)
f (x)
= 1 − e−λx ,
= λe−λx ,
x≥0
x ≥ 0.
3.2. EINIGE UNGLEICHUNGEN
11
Es ergibt sich
Z∞
=
(1 − F (x)) dx
EX
0
Z∞
=
e−λx dx
0
∞
1 −λx
1
=
− e
=
λ
λ
0
Hier noch eine Bezeichnungsweise:
Z
E(X; A) =
X(ω) P (dω)
A
ist der auf das Ereignis A eingeschränkte Erwartungswert von X. Oft werden die speziellen Erwartungswerte E(X; X 6= Y ) und E(X; X > 0) benötigt. Es ist offensichtlich, dass gilt:
E(X; A) = E(X1A ).
Es handelt sich hier nicht um einen bedingten Erwartungswert, wie er in 7.4 betrachtet wird.
Beispiel. Bei einem Würfelwurf beschreibe X die Augenzahl. A sei das Ereignis, dass die Augenzahl größer als 3 ist. Dann beschreibt E(X; A) den Mittelwert von Null oder der Augenzahl,
”
sofern diese größer als 3 ist.“ Es ergibt sich rechnerisch:
E(X; A) =
6
X
ak pk = 4 ·
k=4
3.2
1
1
1
+ 5 · + 6 · = 2.5
6
6
6
Einige Ungleichungen
Satz 3.1 Es sei X eine Zufallsgröße und g eine auf [0, ∞) definierte nicht negative monoton
wachsende Funktion mit E(g(|X|)) < ∞. Dann gilt für jede positive Zahl z:
P (|X| ≥ z) ≤
Eg(|X|)
g(z)
(3.9)
Beweis. Es gilt für alle ω
g(|X(ω)|) ≥ g(|X(ω)|) 1 (|X(ω)| ≥ z) ≥ g(z) 1 (|X(ω)| ≥ z) ,
also
Eg(|X|) ≥ E (g(|X|); {|X| ≥ z}) ≥ g(z)P (|X| ≥ z).
Speziell für g(x) = xk , k > 0, ergibt sich die Markowsche Ungleichung
P (|X| ≥ z) ≤
E|X|k
zk
(3.10)
und für X := X − EX und k = 2 die Tschebyschewsche Ungleichung:
P (|X − EX| ≥ z) ≤
var X
z2
(3.11)
12
KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH
Satz 3.2 (Jensensche Ungleichung) g sei konvex und E|X| < ∞. Dann gilt
g(EX) ≤ E(g(X))
(3.12)
Beweis. Wegen der Konvexität existiert ein reelles a, so dass für alle x gilt:
g(x) ≥ g(EX) + a(x − EX)
(Wenn g differenzierbar ist, dann ist a = g 0 (EX).) Für x = X(ω) ergibt sich
g(X(ω)) ≥ g(EX) + a(X(ω) − EX)
für alle ω.
Damit ist dann
Eg(X) ≥ g(EX) + a(EX − EX) = g(EX)
An dieser Stelle sei noch auf die wichtigen Ungleichungen der Funktionalanalysis von Hölder,
Ljapunow und Minkowski verwiesen. Die Cauchy-Schwarzsche Ungleichung gilt natürlich auch
hier. Unter der Voraussetzung, dass EX 2 < ∞ und EY 2 < ∞ und damit auch E|XY | < ∞ sind,
gilt:
(E(XY ))2 ≤ EX 2 EY 2 .
(3.13)
Gleichheit gilt genau dann, wenn X und Y linear abhängig sind, also reelle Zahlen a und b
existieren, so dass P (aX + bY = 0) = 1 ist.
13
Kapitel 4
Quantile, Quantilfunktionen und
Zufallszahlen-Erzeugung
Definition 4.1 Es seien X eine Zufallsgröße auf (Ω, B, P ) mit der Verteilungsfunktion FX , p ∈
(0, 1) sowie
Q−
p
=
sup{x ∈ R : FX (x) < p}
(4.1)
Q+
p
=
sup{x ∈ R : FX (x) ≤ p}.
(4.2)
+
Jeder Wert Qp ∈ [Q−
p , Qp ] heißt p-Quantil der Verteilung FX .
+
Für fast alle p ist Q−
p = Qp , d.h., es existiert zu p genau ein Quantilwert Qp . Ist die Verteilungs+
funktion FX jedoch in einem Intervall konstant mit Funktionswert p, so ist Q−
p < Qp . Das tritt
vor allem bei diskreten Verteilungen auf, aber auch bei stetigen Verteilungen, wenn die Wahrscheinlichkeitsmasse auf mehrere nicht zusammenhängende Intervalle konzentriert ist.
Es gilt:
Qp ist p-Quantil ⇔ FX (Qp ) ≤ p ≤ FX (Qp + 0)
(4.3)
Interpretation: links“ von Qp liegen (maximal) 100% · p der Wahrscheinlichkeitsmasse“, rechts“
”
”
”
davon (maximal) 100% · (1 − p). Im Gegensatz zu EX und var X existieren Quantile immer.
In dem Spezialfall, dass FX absolutstetig mit der Dichte fX ist, ist Qp Lösung der Gleichung
ZQp
FX (Qp ) =
fX (x) dx = p
(4.4)
−∞
Besonders wichtig sind die Quantile für sehr kleine bzw. sehr große p sowie die Werte
• p = 14 , p = 43 , die sogenannten Quartile
• p = 12 , der Median
Im allgemeinen sind Median und Erwartungswert einer Verteilung verschieden (wie man beispielsweise an der Exponentialverteilung sieht), für symmetrische Verteilungen (FX (EX + a) =
+
1 − FX (EX − a)) stimmen beide überein, falls der Median eindeutig im Sinne von Q−
0.5 = Q0.5 ist.
14
KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG
F −1 6
6
F
6
1,0
5
0,8
4
0,6
3
0,4
0,2
2
0,0 0
1
2
1
0
0,0 0,2 0,4 0,6 0,8 1,0
3
4
5
6
Abbildung 4.1: Beispiel einer Verteilungsfunktion (links) sowie der zugehörigen Quantilfunktion
(rechts)
Satz 4.1 Sei X eine Zufallsgröße mit E|X| < ∞. Dann gilt
E|X − Q 21 | = inf E|X − a|,
a∈R
Falls X absolutstetig ist, so gilt die Formel
Q 21 = arg min E|X − a|,
(4.5)
(a)
d.h., der Median minimiert den mittleren (erwarteten) Absolutfehler.1
Ebenfalls von Bedeutung (aber kein Quantil) sind Modalwerte: Dies sind die Werte der Zufallsgröße, an denen die Dichte (bei einer absolutstetigen) bzw. Wahrscheinlichkeit (bei einer diskreten
Zufallsgröße) ein lokales Maximum hat. Gibt es nur einen Modalwert, so heißt die Verteilung
unimodal.
Die Inverse der Verteilungsfunktion wird auch als Quantilfunktion bezeichnet:
F −1 (x) = sup{t : FX (t) ≤ x}
(4.6)
Die Existenz dieser Funktion ist aufgrund der Monotonie von FX immer gegeben. Falls FX streng
monoton ist, so handelt es sich hierbei um die Umkehrfunktion. Man setzt
−1
FX
(0) = sup{t : FX (t) = 0}
−1
FX (1) = inf{t : FX (t) = 1}
Beispiel. In Abbildung 4.1 sind eine Verteilungs-Funktion und die zugehörige Quantil-Funktion
dargestellt. Als Auswahl seien hier folgende beiden Werte angegeben:
F −1 (0.1) = sup{t : FX (t) ≤ 0.1} = 1.5
F −1 (0.5) = sup{t : FX (t) ≤ 0.5} = 2.5
Satz 4.2
1. Für alle x und t gilt: F −1 (x) < t ⇔ x < F (t).
2. F −1 ist wachsend und rechtsseitig stetig
3. Wenn F stetig ist, dann gilt F (F −1 (x)) = x für alle x aus dem Intervall (0, 1).
1 Zum
Vergleich: Der Erwartungswert minimiert den mittleren quadratischen Fehler:
var X = E(X − EX)2 = inf E(X − a)2
a∈R
15
Quantil-Transformation
Die Quantil-Transformation bildet eine wichtige Grundlage der Monte-Carlo-Methode.
Satz 4.3 Es sei F eine Verteilungsfunktion und U sei auf [0, 1] gleichmäßig verteilt. Dann hat
X = F −1 (U ) die Verteilungsfunktion F.
Beweis. F −1 ist monoton, also Borel-messbar. Also ist X eine Zufallsgröße. Wegen Satz 4.2 (1.)
gilt:
P (X < x) = P (F −1 (U ) < x) = P (U < F (x)) = F (x)
Inversionsmethode
Aus Pseudo-Zufallszahlen u werden nach dem Prinzip X = F −1 (U ) Pseudo-Zufallszahlen mit der
Verteilungsfunktion F erzeugt.
Wir betrachten hier die Inversionsmethode im diskreten Fall. Es seien P (X = ai ) = pi für i = 1, . . .
k
P
pj . Eine naive Lösung ist folgende:
und qk =
j=1
Falls u < q1 → a1
q1 ≤ u < q2 → a2
..
.
Eine eventuell cleverere Lösung ist nun, die pi so zu sortieren (hier dann mit p∗i bezeichnet), dass
p∗1 > p∗2 > . . . gilt. Dann sieht die Lösung folgendermaßen aus:
Falls u < q1∗ → a∗1
q1∗ ≤ u < q2∗ → a∗2
..
.
Verwerfungsmethode
Die Verwerfungsmethode von J. v. Neuman geht davon aus, dass die Zufallsgröße X eine Dichtefunktion f mit f (x) ≤ M und f (x) = 0 für x < a und x > b besitzt. Man erzeuge Zufallszahlen
ux und uy aus dem Intervall [0, 1]. Dann berechne man einen Punkt T = (a + ux (b − a), M uy ) =
(xT , yT ). Falls T unter der Kurve (x, f (x)) liegt, setze man x = xT und erhält somit eine Zufallszahl zur Dichte f (x). Falls T nicht unter der Kurve liegt, starte man neu.
Begründen lässt sich dieses Verfahren mittels geometrischer Wahrscheinlichkeiten:
P (X < z)
= P (XT < z | YT < f (XT )) =
1
M (b−a)
=
Rz
f (x) dx
a
1
M (b−a)
P (XT < z, YT < f (XT ))
P (YT < f (XT ))
Zz
=
f (x) dx = F (z)
a
16
KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG
Bemerkungen:
• Diese Methode funktioniert auch in hochdimensionalen Fällen mit einer Dichtefunktion wie
f (x1 , . . . , xn ).
• Eine Vorsiebung kann die Effektivität erhöhen.
17
Kapitel 5
Unabhängigkeit und Produktmaße
5.1
Unabhängigkeit von σ-Algebren
Definition 5.1 Eine Familie {Ei }i∈I von Ereignis-Systemen Ei ⊂ A heißt (vollständig) unabhängig, wenn für alle k und i1 , . . . , ik ∈ I und jede mögliche Wahl von Ereignissen Aim ∈ Eim
(m = 1, . . . , k) die Gleichheit
k
k
\
Y
P(
Aim ) =
P (Aim )
(5.1)
m=1
m=1
besteht.
Falls die Ei die Einermengen {Ai } symbolisieren, so handelt es sich um unabhängige Ereignisse.
Sind die Ei speziell σ-Algebren Ai , so werden die Ai ⊂ A als unabhängige σ-Algebren bezeichnet. Wenn die Ei durchschnittsstabil sind und die Beziehung Ai = σ(Ei ) gilt, so folgt aus der
Unabhängigkeit der Ei auch die Unabhängigkeit der Ai , vgl. [6].
5.2
Unabhängige oder Produkt-Experimente
Es seien (Ωk , Ak , Pk ) Wahrscheinlichkeitsräume für zufällige Experimente, k = 1, . . . , n. Der Wahrscheinlichkeitsraum, auch Produktraum, für das Produkt-Experiment, die stochastisch unabhängige
Hintereinanderausführung dieser Einzel-Experimente, ist dann gegeben durch:
(
n
Y
Ων ,
ν=1
n
O
ν=1
Aν ,
n
O
Pν ) = (Ω, A, P )
ν=1
mit
Ω :=
A :=
n
Y
ν=1
n
O
Ω1 × . . . × Ωn
Ων
=
Aν
= σ({A1 × . . . × An : Ak ∈ Ak })
ν=1
P ist dann das (eindeutig bestimmte) Produktmaß auf der Produkt-σ-Algebra A mit
P (A1 × . . . × An ) = P1 (A1 ) · . . . · Pn (An ),
Ai ∈ Ai .
18
KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMASSE
Ãi = Ω1 × . . . × Ai × . . . × Ωn bezeichnet das Ereignis, dass im i-ten Experiment das Ereignis Ai
eintritt. Es gilt:
P (Ãi ) = Pi (Ai )
P (Ãi ∩ Ãj ) = P (Ω1 × . . . × Ai × . . . × . . . Aj × . . . × Ωn )
= Pi (Ai ) · Pj (Aj )
= P (Ãi ) · P (Ãj )
usw. D.h., die Ãi sind vollständig unabhängig.
Bernoulli-Schema
Ein praktisch wichtiges Beispiel für ein Produktexperiment ist die n-fache, stochastisch unabhängige Hintereinanderausführung von ein und demselben Bernoulli-Experiment, welches durch
den Wahrscheinlichkeitsraum (Ω, A, P ) mit A = {∅, Ω, A, A} charakterisiert wird, P (A) = p. Dabei
bedeute A einen Erfolg und A einen Nicht-Erfolg im k-ten Versuch.
Das einzelne (Teil-)Experiment werde durch den Wahrscheinlichkeitsraum (Ω, A0 , P0 ) mit A0 =
{∅, Ω, A, Ac } charakterisiert und es sei P0 (A) = p. Dabei bedeute z.B. A einen Erfolg und Ac einen
Nicht-Erfolg. Dann ist P0 (Ac ) = 1 − p. Weil die (Teil-)Experimente alle gleich sind, gilt:
Ω1 = . . . = Ωn
A1 = . . . = An
P1 = . . . = Pn
= Ω0
= A0
= P0
Für das Produkt-Experiment gilt dann:
Ω
=
A =
P
=
n
Y
Ωi
i=1
n
O
i=1
n
O
Ai
Pi
i=1
ω
=
(ω1 , . . . , ωn )
Es sei Ai das Ereignis, dass im i-ten Versuch ein Erfolg eintritt. Dann sind Ai und Aj (i 6= j)
stochastisch unabhängig.
P (Ai ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 = P0 (A) = p
P (Ai ∩ Aj ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 · P0 (A) · 1 . . . · 1 = P0 (A)2 = p2
19
Kapitel 6
Zufällige Vektoren, unabhängige
Zufallsgrößen
6.1
Zufällige Vektoren
6.1.1
Grundbegriffe
Ein zufälliger Vektor ist eine zufällige Variable (Borel-messbare Abbildung) X : Ω → Rd , X =
(X1 , . . . , Xd )T , d.h.
X
(Ω, A, P ) −→ (Rd , Rd , PX )
mit PX (B) = P (X ∈ B), B ∈ Rd . Beispielsweise könnte X1 die Größe, X2 das Gewicht und X3
den Bauchumfang eines Menschen beschreiben.
Ebenso wie Zufallsgrößen können auch Zufallsvektoren durch Verteilungsfunktionen charakterisiert werden:
Definition 6.1 Die durch
FX (x1 , . . . , xd ) = P (X1 < x1 , . . . , Xd < xd )
(6.1)
gegebene Funktion FX : Rd → [0, 1] heißt Verteilungsfunktion des Zufallsvektors X bzw. gemeinsame Verteilungsfunktion der Komponenten von X (joint distribution function).
Diese Verteilungsfunktion hat folgende Eigenschaften:
1. FX ist monoton steigend in jeder Variablen
2.
3.
lim
xk →−∞
FX (x1 , . . . , xk , . . . , xd ) = 0
lim FX (x1 , . . . , xd ) = 1
x1 →∞
x2 →∞
..
.
xd →∞
4. FX ist in jedem Argument linksseitig stetig
20
KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN
5. FX wächst“ auf jedem d-dimensionalen Quader, d.h.
”
FX (x1 + h1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd )
− (FX (x1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd ))
− (FX (x1 + h1 , x2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd ))
..
.
− (FX (x1 + h1 , x2 + h2 , . . . , xd ) − FX (x1 , x2 , . . . , xd )) ≥ 0
(6.2)
Bemerkung: Es gibt Funktionen, die 1. bis 4. erfüllen, jedoch 5. verletzen, z.B. im zweidimensionalen Fall
1 x1 + x2 > 0
F (x1 , x2 ) =
0 sonst
PX ist eindeutig durch FX bestimmt. So gilt zum Beispiel:
P (a ≤ X1 ≤ b, c ≤ X2 ≤ d)
= PX (Rechteck)
= F (b, d) − F (a, d) − F (b, c) + F (a, c).
Der Zerlegungssatz von Lebesgue (2.4) hat auch im d-Dimensionalen Gültigkeit, auch Vektorfunktionen lassen sich daher in einen absolut-stetigen, einen singulär-stetigen und einen diskreten
Anteil aufteilen. Wir beschränken uns jedoch auf
1. rein absolut-stetige Verteilungsfunktionen (d.h. PX νd ), charakterisiert durch die RadonNikodym-Dichte
fX (x1 , . . . , xd )
2. rein diskrete Verteilungsfunktionen, charakterisiert durch
P (X1 = x1 , . . . , Xd = xd )
an diskreten Stellen (x1 , . . . , xd )
6.1.2
Diskrete und absolutstetige Zufallsvektoren
Bei einem diskreten Zufallsvektor existiert eine abzählbare Teilmenge C ⊂ Rd mit P (X ∈ C) = 1
und P (X = x) > 0 für alle x ∈ C. Dies ist genau dann der Fall, wenn alle Komponenten diskret
sind.
Wenden wir uns nun den absolutstetigen Zufallsvektoren zu. Es sei PX νd . Dann existiert eine
gemeinsame Dichte fX (x1 , . . . , xn ). Für die Verteilungsfunktion gilt dann:
Zxd
Zx1
FX (x1 , . . . , xd ) =
...
−∞
fX (t1 , . . . , td ) dt1 . . . dtd
−∞
Beachte: Auch wenn X1 , . . . , Xd absolutstetig sind, folgt nicht, dass X absolutstetig ist.
6.2. RANDVERTEILUNGEN
6.2
21
Randverteilungen
Die Verteilungsfunktion Fi der Komponente Xi kann aus FX erhalten werden. Sie wird RandVerteilungsfunktion genannt.
Satz 6.1 Sei X ein zufälliger Vektor. Dann gilt für jedes i und x:
FXi (xi ) = x lim
F (x1 , . . . , xi , . . . , xd )
→∞ X
(6.3)
j
j6=i
Beweis. Es gilt im Fall (xj ) → ∞ für alle j 6= i:
{X1 < x1 , . . . , Xi < xi , . . . , Xd < xd } ↑ {Xi < xi }
Wegen der Stetigkeit von P (Satz 4.1 aus der Maßtheorie) folgt (6.3).
Es ist z. B.
FX1 (x1 )
= PX ((−∞, x1 ) × Rd−1 ) = P (X1 < x1 )
= x lim
F (x1 , x2 , . . . , xd )
→∞ X
2
x3 →∞
..
.
xd →∞
die Randverteilung bezüglich X1 ; die Zufallsgrößen X2 , . . . , Xd werden in ihr nicht beachtet.
Allgemein heißt
FXi1 ,...,Xik (xi1 , . . . , xik )
=
lim
i∈{i
/ 1 ,...,ik }:
xi →∞
FX (x1 , x2 , . . . , xd )
(6.4)
(k-dimensionale) Randverteilung bezüglich (Xi1 , . . . , Xik )T . Speziell ergibt sich im zweidimensionalen Fall:
FX1 (x1 ) = F(X1 ,X2 ) (x1 , ∞)
FX2 (x2 ) = F(X1 ,X2 ) (∞, x2 )
Im absolut-stetigen Fall PX νd existieren Randverteilungsdichten:
Z
fXi1 ,...,Xik (xi1 , . . . , xik ) =
fX (x1 , . . . , xd ) νd−k (dx0 ),
(6.5)
(6.6)
Rd−k
wobei sich die Integration über die nicht erfassten Komponenten erstreckt. Soll die Randverteilung
einer Komponente berechnet werden, sieht die Formel wie folgt aus:
Z∞
fXi (x) =
Z∞
...
−∞
fX (t1 , . . . , ti−1 , x, ti+1 , . . . , td ) dt1 . . . dti−1 dti+1 . . . dtd
−∞
Im zweidimensionalen Fall ergibt sich
Z∞
fX1 (x1 )
=
f(X1 ,X2 ) (x1 , x2 ) dx2
−∞
Z∞
fX2 (x2 )
=
f(X1 ,X2 ) (x1 , x2 ) dx1
−∞
(6.7)
22
KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN
Im diskreten Fall ist
P (Xi1 = xi1 , . . . , Xik = xik )
X
=
P (X1 = x1 , . . . , Xd = xd ),
(6.8)
xj1 ,...,xjd−k
wobei hier über die (d − k) fehlenden Komponenten summiert wird, d.h.,
{i1 , . . . , ik } ∪ {j1 , . . . , jd−k } = {1, . . . , d},
{i1 , . . . , ik } ∩ {j1 , . . . , jd−k } = ∅.
Beispiele
1. Wir betrachten die Gleichverteilung auf einem zusammenhängenden Gebiet G ⊂ Rd ; diese
ist eine absolutstetige Verteilung mit über G konstanter Dichte
fX (x1 , . . . , xd ) =
1
1G (x1 , . . . , xd )
νd (G)
Für die zweidimensionale Gleichverteilung auf [a, b] × [c, d] gilt
fX1 ,X2 (x1 , x2 )
=
fX1 (x1 )
=
fX2 (x2 )
=
1
1[a,b]×[c,d] (x1 , x2 )
(b − a)(d − c)
1
1[a,b] (x1 )
b−a
1
1[c,d] (x2 )
d−c
2. Wir betrachten eine diskrete Verteilung im R2 mit endlich vielen Werten (x1i , x2j ), i =
1, . . . , q, j = 1, . . . , r. Die Wahrscheinlichkeiten
P (X1 = x1i , X2 = x2j ) =: pij
bilden eine q × r-Matrix
P
=
(6.9)
(pij )
Die Randverteilungen ergeben sich als Zeilen- beziehungsweise Spaltensummen der Matrix:
X
P (X1 = x1i ) =
pij = pi· ,
(6.10)
j
P (X2 = x2j )
=
X
pij = p·j .
(6.11)
i
6.3
Unabhängigkeit
Definition 6.2 Es sei (Xi )i=1,2,... eine Folge von Zufallsgrößen auf (Ωi , Ai , Pi ); die (Xi ) heißen
total stochastisch unabhängig, wenn für jedes k der zufällige Vektor X = (Xi1 , . . . , Xik ) durch
den Produkt-Wahrscheinlichkeitsraum
Rk , Rk ,
k
O
PXij
j=1
beschrieben wird (% Abschnitt 5.2).
Insbesondere gilt also
PX =
k
O
PXij
(6.12)
j=1
für jede Auswahl X = (Xi1 , . . . , Xik ). Sind alle Verteilungen PXi überdies gleich, so heißen die Xi ,
i = 1, 2, . . . unabhängig und identisch verteilt (auch iid: independent and identically distributed“).
”
6.3. UNABHÄNGIGKEIT
23
Aus (6.12) und der Erzeugereigenschaft der (−∞, xi ) folgt:
Genau dann gilt für jede Auswahl X = (Xi1 , . . . , Xik )
FX (x1 , . . . , xk ) =
k
Y
FXij (xj ),
(6.13)
j=1
wenn (Xi ) eine total stochastisch unabhängige Familie ist. Speziell ist also bei zufälligen Vektoren
mit unabhängigen Komponenten die Verteilungsfunktion das Produkt der Randverteilungsfunktionen der einzelnen Komponenten. Im absolut-stetigen Fall folgt aus der Unabhängigkeit:
fX (x1 , . . . , xd ) =
d
Y
fXi (xi )
(6.14)
i=1
Ein Beispiel für eine solche absolutstetige Verteilung ist die zweidimensionale Gleichverteilung auf
[a, b] × [c, d] (siehe obiges Beispiel).
Bei diskreten zufälligen Vektoren ist die Unabhängigkeit äquivalent zu:
P (X1 = x1 , . . . , Xd = xd ) =
d
Y
P (Xi = xi )
(6.15)
i=1
Bei diskreten Verteilungen im R2 lässt sich (6.15) auch ausdrücken als:
pij = pi· · p·j
(6.16)
Für den Erwartungswert des Produkts zweier unabhängiger Zufallsgrößen gilt
E(XY ) = EX · EY
(6.17)
wegen
Z∞ Z∞
Z
E(XY )
=
X(ω)Y (ω) P (dω) =
Z∞ Z∞
=
xy dF (x, y)
−∞ −∞
Z∞
x dF (x) ·
xy dF (x) dF (y) =
−∞ −∞
Z∞
−∞
y dF (y)
−∞
Speziell: Wenn X und A unabhängig sind (d. h., σ(X) und R{∅, A, Ac , Ω} sind unabhängig), so sind
X und 1A unabhängig und es gilt für E(X; A) = EX1A = X(ω) P (dω)
A
E(X; A) = E(X1A ) = EX E1A = EX P (A).
Beispiel.
X sei die Augenzahl beim zweiten Wurf. A sei das Ereignis, dass die Augenzahl beim ersten Wurf
gerade war. Dann beträgt E(X; A) = 3.5 · 0.5.
24
6.4
KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN
Erwartungswert, Kovarianz, Korrelation
Definition 6.3 Es sei X ein d-dimensionaler zufälliger Vektor auf (Ω, A, P ). Der Erwartungswert EX (falls er existiert) ist gleich dem Vektor der Erwartungswerte der Komponenten von X,
d.h.,
EX = (EX1 , . . . , EXd )T
(6.18)
Bemerkung: EX ist bereits durch die Randverteilungen FXi , i = 1, . . . , d, bestimmt:
Z
EXi =
Z
xi dFX (x1 , . . . , xi , . . . , xd ) =
xi dFXi (xi )
(6.19)
R1
Rd
Wenn Xi und Xj unabhängig sind, dann gilt nach (6.17)
EXi Xj
= EXi · EXj
(6.20)
Definition 6.4 Es sei X ein d-dimensionaler zufälliger Vektor auf (Ω, A, P ). Die Größe
E ((Xi − EXi )(Xj − EXj )) = EXi Xj − EXi · EXj = cov(Xi , Xj )
(6.21)
heißt (sofern sie existiert) Kovarianz von Xi und Xj . Die normierte Größe
cov(Xi , Xj )
var Xi · var Xj
%(Xi , Xj ) = p
(6.22)
heißt Korrelationskoeffizient zwischen Xi und Xj .
Als Spezialfall ergibt sich: cov(Xi , Xi ) = var Xi , %(Xi , Xi ) = 1.
Als allgemeine Formel für die Varianz der Summe von Zufallsgrößen ergibt sich nunmehr
var (Xi ± Xj ) = var Xi + var Xj ± 2cov(Xi , Xj ),
(6.23)
und für unkorrelierte Xi und Xj gilt
var (Xi ± Xj ) = var Xi + var Xj
(6.24)
Beweis von (6.23).
var (Xi ± Xj )
= E((Xi − EXi ) ± (Xj − EXj ))2
= E((Xi − EXi )2 + (Xj − EXj )2 ± 2(Xi − EXi )(Xj − EXj ))
= var Xi + var Xj ± 2cov(Xi , Xj ).
Für den d-dimensionalen Vektor X ist
(cov(Xi , Xj ))d×d = ΣX
(6.25)
(%(Xi , Xj ))d×d = RX
(6.26)
sogenannte Kovarianzmatrix und
sogenannte Korrelationsmatrix . ΣX und RX sind symmetrisch und positiv semidefinit.
6.4. ERWARTUNGSWERT, KOVARIANZ, KORRELATION
25
Nachweis: Es sei z der Spaltenvektor aus den Xi − EXi . Dann ist ΣX = E(zz T ). Für einen
beliebigen d-Vektor t gilt
tT ΣX t
= tT E(zz T )t = E(tT (zz T )t) = E((tT z)(z T t)) = E((tT z)2 )

!2 
d
X
= E
(ti (Xi − EXi ))  ≥ 0.
i=1
Hilbertraum der Zufallsgrößen 2. Ordnung. Zufallsgrößen, deren ersten beide Momente existieren,
heißen Zufallsgrößen 2. Ordnung. Wenn Xi und Xj zwei Zufallsgrößen zweiter Ordnung sind, dann
ist durch
hXi , Xj i = EXi Xj
(6.27)
ein Skalarprodukt definiert. So entsteht ein Hilbertraum mit dem in (6.27) definierten Skalarprodukt. Es gilt die Cauchy-Schwarzsche Ungleichung:
|EXi Xj |2 ≤ |EXi2 | · |EXj2 |
(6.28)
Wegen
Z
hXi , Xj i =
Xi (ω)Xj (ω) P (dω)
(6.29)
Ω
wird der Raum auch als L2 (Ω, A, P ) bezeichnet.
Interpretation des Korrelationskoeffizienten: %(Xi , Xj ) misst den Grad der linearen Abhängigkeit
zwischen Xi und Xj : Ist % > 0, dann besteht die Tendenz, dass bei großen Werten von Xi auch
Xj groß ist, ist % < 0, dann treten bei großen Xi tendenziell kleine Xj auf.
Eigenschaften des Korrelationskoeffizienten:
1. |%(Xi , Xj )| ≤ 1
2. Sind Xi und Xj unabhängig, dann ist %(Xi , Xj ) = 0 (Xi und Xj sind unkorreliert)
3. Gilt Xk0 = ak Xk + bk für k = i und j, so folgt %(Xi0 , Xj0 ) = %(Xi , Xj ).
f.s.
4. |%(Xi , Xj )| = 1 ⇔ Xi = aXj + b
Beweise.
1. folgt sofort aus der Schwarzschen Ungleichung
2. folgt aus (6.20) und (6.21)
3. Einfaches Ausrechnen
4. ⇐“: ergibt sich unmittelbar durch Einsetzen
”
X −EXj
√i −EXi , X 0 := √j
⇒“: Es sei %(Xi , Xj ) = +1, Xi0 := X
; es ist also EXi0 = EXj0 = 0,
j
var Xi
var Xj
”
var Xi0 = var Xj0 = 1. Es folgt:
var (Xi0 − Xj0 )
f.s.
= 1 + 1 − 2cov(Xi0 , Xj0 ) = 2(1 − EXi0 Xj0 )
= 2(1 − %(Xi , Xj )) = 0
f.s.
Daraus folgt, dass Xi0 − Xj0 = 0, also Xi = aXj + b
Als Folgerung aus (6.23) ergibt sich: Xi , Xj sind unkorreliert genau dann, wenn var (Xi + Xj ) =
var Xi + var Xj .
Sind die Komponenten des Vektors X alle unkorreliert, dann ist ΣX eine Diagonal- und RX eine
Einheitsmatrix.
26
6.5
6.5.1
KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN
Beispiele für Verteilungen zufälliger Vektoren
Gleichverteilung auf G ∈ Rd
Die Dichtefunktion hat die Form:
fX (x) =
1G (x)
,
νd (G)
x ∈ Rd
Speziell für G = [0, 1]d ergibt sich die Dichtefunktion
1, x ∈ [0, 1]d
fX (x) =
.
0, sonst
d
Es gilt dann Xi = U mit U = glm[0, 1]. Die Xi sind hier iid.
6.5.2
n-dimensionale Normalverteilung
Vorerst ein paar Worte zur n-dimensionalen Standard-Normalverteilung. Dort sind die Komponenten Zi des Zufallsvektors Z unabhängig und N(0, 1)-verteilt. Für die Dichte-Funktion gilt
)
(
n
1X 2
1
z
(6.30)
f (z1 , . . . , zn ) = ϕ(z1 ) · . . . · ϕ(zn ) = √ n exp −
2 i=1 i
2π
wobei die zi beliebige reelle Zahlen sind.
Doch nun zur allgemeinen mehrdimensionalen Normalverteilung. Eine reguläre mehrdimensionale
Normalverteilung ist eine absolutstetige Verteilung mit der Dichtefunktion
1
1
exp − (x − µ)T Σ−1 (x − µ)
(6.31)
fX (xi , . . . , xn ) = p
2
(2π)n det Σ
wobei µ = (µ1 , . . . , µn )T , x = (x1 , . . . , xn )T und Σ eine positiv definite (n × n)-Matrix. Mit
X = AZ + µ, wobei Z n-dimensional standard-normalverteilt ist und A eine n × n-Matrix mit
det A 6= 0 sowie Σ = AAT erhält man (6.31) aus (6.30). Symbolisch wird dies ausgedrückt durch:
X ∼ N(µ, Σ)
(6.32)
Die Höhenlinien“ der Dichte sind Ellipsen, deren Hauptachsen durch die Eigenwerte und Eigen”
vektoren von Σ, der Kovarianzmatrix, bestimmt sind.
Es gilt:
EX = µ
(6.33)
Sind die Komponenten von X unkorreliert, so ist Σ eine Diagonalmatrix mit den Werten σ12 , . . . σn2
in der Hauptdiagonalen, wobei σk2 = var Xk . Die Dichte lässt sich in diesem Fall auch darstellen
als:
2 !
n 1
1 X xi − µi
fX (x) = s
exp −
2 i=1
σi
n
Q
(2π)n
σi2
i=1
n
Y
1
1
p
=
exp −
2
2
2πσi
i=1
xi − µi
σi
2 !
=
n
Y
i=1
fXi (xi )
6.5. BEISPIELE FÜR VERTEILUNGEN ZUFÄLLIGER VEKTOREN
27
Aus (6.14) ergibt sich, dass die Komponenten unabhängig sind.
Ist also X ∼ N(µ, Σ), so gilt:
⇐⇒
Komponenten unabhängig
Komponenten unkorreliert
(6.34)
Die Randverteilungen einer mehrdimensionalen Normalverteilung sind wieder Normalverteilungen:
X ∼ N(µ, Σ)
⇒
Xi ∼ N(µi , σi2 )
Setzt sich der normalverteilte Vektor X aus zwei Vektoren zusammen, d.h.,
X1
Σ11 Σ21
µ1
X=
, Σ=
, µ=
,
X2
Σ21 Σ22
µ2
dann ist auch X1 normalverteilt:
X1 ∼ N(µ1 , Σ11 )
(6.35)
Lineare Transformationen von normalverteilten Zufallsgrößen liefern wieder normalverteilte Zufallsgrößen. Zu jeder positiv definiten symmetrischen Matrix Σ existiert eine absolutstetige Normalverteilung N(µ, Σ). Ist Σ symmetrisch und positiv semidefinit, aber nicht positiv definit, dann
existiert zwar ein Zufallsvektor X mit normalverteilten Komponenten Xi und Kovarianzmatrix Σ,
die Verteilung von X ist aber nicht absolutstetig bezüglich νn , der sogenannte irreguläre Fall. Dieser Fall tritt genau dann auf, wenn lineare Abhängigkeiten zwischen den Komponenten X1 ,. . . ,Xn
bestehen.
Für den Spezialfall einer zweidimensionalen Normalverteilung ergibt sich
fX (x1 , x2 )
=
(
2
x1 − µ1
1
1
p
exp −
2(1 − %)2
σ1
2πσ1 σ2 1 − %2
2 !)
x2 − µ2
x1 − µ1 x2 − µ2
+
−2%
,
σ1
σ2
σ2
(6.36)
wobei % = %(X1 , X2 ) und
Σ=
σ12
%σ1 σ2
%σ1 σ2
σ22
.
Will man im zweidimensionalen Fall normalverteilte Zufallsvektoren erzeugen, so kann man den
log-tri-Algorithmus verwenden. Dafür verwendet man zwei gleichverteilte Zufallszahlen u1 und u2
aus dem Intervall [0, 1] und σ1 , σ2 und µ1 , µ2 und % wie oben. Die gesuchten Komponenten x1 und
x2 können dann wie folgt berechnet werden:
p
p
x1 = µ1 + σ1 −2 ln u1 ( 1 − %2 cos(2πu2 ) + % sin(2πu2 ))
p
x2 = µ2 + σ2 −2 ln u1 sin(2πu2 )
28
6.5.3
KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN
Gibbs-Verteilung
Die Gibbs-Verteilung hat die Dichte-Funktion
f (x1 , . . . , xn ) = exp{−U (x1 , . . . , xn )}C
mit (x1 , . . . , xn ) ∈ B ⊂ Rn . U hat die Form
U (x1 , . . . , xn ) =
X
Θ(|xi − xj |),
i<j
wobei Θ eine Paarpotential-Funktion ist. Beispielsweise könnte
∞ t<h
Θ(t) =
0 t≥h
sein. Das ist ein Modell für zufällig verteilte Punkte in B mit dem minimalen Zwischenpunktabstand h.
Es ergibt sich hierbei das Problem, dass C meist nicht formelmäßig bestimmbar ist, weswegen
Simulationen herangezogen werden.
6.5.4
Bayes-a-posteriori-Verteilung
Laut Bayesscher Formel gilt:
P (A | Bi )P (Bi )
P (Bi | A) = P
P (A | Bj )P (Bj )
(j)
Die absolutstetige Version dazu lautet dann:
f (x | A) = R
P (A | x)f (x)
= P (A | x)f (x)C
P (A | y)f (y) dy
Wieder tritt das Problem der Bestimmung von C auf.
29
Kapitel 7
Bedingte Verteilungen, bedingte
Erwartung
7.1
Einführung
Bevor wir uns diesem Thema zuwenden, hier zwei einführende Beispiele:
1. (X, Y ) bezeichne den Zufallsvektor (Größe, Gewicht) eines zufällig ausgewählten Menschen.
Da es sich um absolutstetige Zufallsgrößen handelt, ist P (X = x) = 0. Oft interessieren wir
uns für bedingte Wahrscheinlichkeiten wie P (Y < y | X = x) oder z. B. für eine Gewichtstabelle am Wägeautomaten E(Y | X = x). Die bisherigen Formeln helfen uns nicht viel, da
hier nach der Formel der einfachen bedingten Wahrscheinlichkeit durch Null geteilt wird.
2. Bei einem Würfel ist Ω = {1, . . . , 6}, die σ-Algebra A ist die Potenzmenge P(Ω). Für die
Zufallsgröße X gelte X(ω) = ω. Nun werden die beiden Seiten mit den Werten 1 und
6 zugeklebt und rot angemalt. Damit werden die Beobachtungen vergröbert. Zu diesem
Versuch gehört nur noch eine kleinere σ-Algebra C. Diese enthält zwar {1, 6} als Element,
aber nicht {1} und {6}. Genauer gesagt gilt C = σ({2}, {3}, {4}, {5}, {1, 6}).
Was wird nun aus X? X ist ja nun nicht mehr bezüglich C messbar, denn das Urbild von
1 existiert ja nicht mehr. Es wird also eine vernünftige“ Zufallsgröße Augenzahl“ für das
”
”
vereinfachte Experiment gesucht. Wir führen also ein:
E(X | C)(ω) = X(ω),
für ω = 2, 3, 4, 5
E(X | C)(ω) = const.,
für ω = 1, 6
1+6
=
= 3.5.
2
Würden wir nun alle Seiten zukleben, dann ergäbe sich die σ-Algebra C0 = {∅, Ω}. Dann
würden wir verwenden:
E(X | C0 )(ω) = const. = 3.5
Daraus sieht man, dass einer Vergröberung der σ-Algebra eine Vergröberung von X entspricht, bei der sich die Varianz bei gleichbleibendem Erwartungswert verringert.
30
7.2
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Bedingte Größen bezüglich B ∈ A mit P (B) > 0
Ausgangspunkt ist die in Kapitel 4 definierte bedingte Wahrscheinlichkeit
P (A | B) =
P (A ∩ B)
P (B)
PB (·) = P (· | B) ist dann ein Wahrscheinlichkeitsmaß.
Wir betrachten nun die Transformation von dem Wahrscheinlichkeitsraum (Ω, A, P ) in den Raum
(Ω, A, PB ). Sei B ∈ A mit P (B) > 0 ein Ereignis, X : Ω → R1 eine Zufallsgröße, PX | B das
Bildmaß von PB bei X. Dann ist
PB (dω) =
P (dω)
1B (ω),
P (B)
und die bedingte Verteilung ist definiert durch:
PX | B (A) = P (X ∈ A | B) =
P ({X(ω) ∈ A} ∩ B)
P (B)
(7.1)
Für die zugehörige bedingte Verteilungsfunktion gilt dann:
FX | B (x) = P (X < x | B)
(7.2)
Falls PX | B absolutstetig ist, gilt
Z
1
fX (t) dt =
P (B)
FX | B (x) =
Zx
1
fX (t)1X(B) (t) dt,
P (B)
−∞
(−∞,x)∩X(B)
also ist durch
fX | B (x) =
1
fX (x)1X(B) (x)
P (B)
(7.3)
die bedingte Dichte gegeben.
Beispiel.(Zweiseitige Stutzung)
Sei B = X −1 ([a, b]) = {ω ∈ Ω : a ≤ X(ω) ≤ b}. Dann sind X(B) = [a, b] und P (B) = FX (b) −
FX (a). Die bedingte Dichte
fX (x)1[a,b] (x)
(7.4)
fX | B (x) =
FX (b) − FX (a)
heißt dann die Dichte der bei a und b gestutzten Verteilung von X.
Bedingter Erwartungswert E(X | B) unter der Hypothese B:
R
R
X(ω)1B (ω) P (dω)
X(ω) P (dω)
Z
E(X; B)
E(X | B) =
X(ω) PB (dω) = Ω
(7.5)
=B
=
P (B)
P (B)
P (B)
Ω
oder:
Z∞
E(X | B)
=
x dFX | B (x)
−∞
=
1
P (B)
Z
X(B)

X
1


xi (P (X = xi )


 P (B) x ∈X(B)
iZ
x dFX (x) =
1

xfX (x) dx



P
(B)

X(B)
(7.6)
7.3. VERTEILUNG VON X UNTER DER BEDINGUNG Y = Y
31
Bei der zweiseitigen Stutzung ergibt sich:
Rb
E(X | a ≤ X ≤ b) =
7.3
xfX (x) dx
a
F (b) − F (a)
Verteilung von X unter der Bedingung Y = y
Zunächst wird der diskrete Fall betrachtet. X nehme die Werte x1 , x2 , . . . und Y die Werte
y1 , y2 , . . . an, P (Y = yi ) = pi > 0. Dann ist
P (X = xi , Y = yj )
= pij ,
i, j = 1, 2, . . .
die gemeinsame Verteilung von (X, Y ) (siehe (6.9)). Dann ist
P (X = xi | Y = yj ) = pi|j =
pij
p·j
(7.7)
die Verteilung von X unter der Bedingung Y = yj , entsprechend
pij
P (Y = yj | X = xi ) = pj|i =
pi·
die Verteilung von Y unter der Bedingung X = xi .
Es ergeben sich die bedingten Erwartungswerte
E(X | Y = yj )
=
P
E(Y | X = xi )
=
P
1 X
xi pij
p·j i
1 X
yj pij
=
pi· j
i xi pi|j =
j
yj pj|i
(7.8)
Betrachten wir nun den Fall, dass (X, Y ) absolutstetig mit der gemeinsamen Dichte f(X,Y ) ist.
Wir suchen nun nach der bedingten Dichtefunktion fX | Y =y . Es gilt:
Rx y+h
R
P (X < x | y ≤ Y ≤ y + h) =
−∞
f(X,Y ) (s, t) dt ds
y
y+h
R
fY (t) dt
y
Dann ist, falls fY (y) > 0
FX | Y =y (x)
=
=
lim P (X < x | y ≤ Y ≤ y + h)
h→0
Rx
f(X,Y ) (s, y) ds
−∞
(7.9)
fY (y)
die Verteilungsfunktion von X unter der Bedingung Y = y; die zugehörige Dichtefunktion ist dann
gegeben durch:
f(X,Y ) (x, y)
(7.10)
fX | Y =y (x) =
fY (y)
Entsprechend ergeben sich FY
sich:
| X=x
und fY
| X=x .
Als bedingter Erwartungswert mX (y) ergibt
R∞
Z∞
mX (y) = E(X | Y = y)
=
xfX | Y =y (x) dx =
−∞
xf(X,Y ) (x, y) dx
−∞
fY (y)
(7.11)
32
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
mX wird auch Regressionsfunktion 1. Art von X bezüglich Y genannt. Entsprechend E(Y | X = x).
Beispiel. Sei (X, Y ) normalverteilt (siehe (6.36)) mit
2
σX
%σX σY
Σ=
.
%σX σY
σY2
Dann ist
(
σY
(x − µX )]2
1 [y − µY − % σX
exp −
fY | X=x (y) = q
2
(1 − %2 )σY2
2π(1 − %2 )%2y
1
)
,
(7.12)
Y
die Dichte der bedingten Verteilung ist also die Dichte der Verteilung N(µY + % σσX
(x − µX ), (1 −
2 2
% )σY ). Für den bedingten Erwartungswert ergibt sich:
σY
E(Y | X = x) = µY + %
(x − µX )
(7.13)
σX
Die Regressionsfunktion von Y bezüglich X ist also eine Gerade, was ein Charakteristikum der
Normalverteilung ist. Die Gerade ist steigend, falls % > 0 bzw. fallend, falls % < 0.
7.4
Allgemeiner Begriff der bedingten Erwartung
Der Erwartungswert ist wichtiger als die Wahrscheinlichkeit.“
”
Denn es gilt:
P (A)
P (A | Y = y)
= E1A
= E(1A | Y = y) =
X
1A (j)pj|i =
(j)
X
pj|i
j∈A
Offensichtlich ist E(X | Y = y) eine Funktion von y. Das führt zu der Einführung der Zufallsgröße
E(X | Y )(ω)
= E(X | Y = y)
für alle ω mit Y (ω) = y. Mit der Messbarkeit von E(X | Y ) bzgl. σ(Y ) hängt die Bezeichnung
E(X | σ(Y )) zusammen. Im Trivialfall ist E(X | X = x) = x und E(X | X) = X.
Beispiel.
Sei X die Augenzahl eines Würfels. Y beschreibe folgendes Ereignis:
g, gerade
Y =
u, ungerade
Klassisch ermittelt sich der bedingte Erwartungswert auf die folgende Weise:
X
E(X | Y = g) =
jpj|g
j=1
=
2p2|g + 4p4|g + 6p6|g
1
= (2 + 4 + 6) · = 4
3
Analog berechnet sich auch E(X | Y = u) = 3. Dem entspricht die Zufallsgröße:
3, ω ∈ {1, 3, 5}, d.h., wenn Y = u
E(X | Y )(ω) =
4, ω ∈ {2, 4, 6}, d.h., wenn Y = g
Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgröße mit E|X| < ∞ (%
Maßtheorie), C ⊂ A sei Unter-σ-Algebra von A. Nun wird eine zu C passende Vergröberung der
Zufallsgröße X gesucht.
Diese Zufallsgröße E(X | C) heißt bedingte Erwartung und hat zwei wichtige Eigenschaften:
7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG
33
1. E(X | C) ist messbar bezüglich C. ( Vergröberung“)
”
2. Für alle C aus C gilt
E(X; C) = E(E(X | C); C).
( beide Größen sind im Mittel gleich“)
”
Für das Würfelbeispiel gilt C = σ({1, 3, 5}, {2, 4, 6}). Für C = {1, 3, 5} gilt
E(X; C)
=
1·
1
1
1
+ 3 · + 5 · = 1.5,
6
6
6
also ist E(X | C)(ω) = 3 für ω = 1, 3 und 5.
Beispiel. (Vergröberte Exponentialverteilung)
Es sei X ∼ Exp(λ), dann ist der Median x0.5 = lnλ2 . Für die mit beliebigen a 6= b gemäß
a X(ω) ≤ x0.5
Y (ω) =
b sonst
definierte Zufallsgröße Y gilt dann P (Y = a) = P (Y = b) = 21 . Die von Y erzeugte σ-Alebra ist
C = {∅, A, AC , Ω} mit A = {ω : X(ω) < x0.5 }.
E(X | Y ) = E(X | C) ist auf A bzw. AC jeweils konstant, wie auch Y . Aber wie lauten die entsprechenden Werte cA bzw. cAC ?
Z
E(X; A)
=
x0.5
x0.5
Z
Z
X(ω) P (dω) =
x dF (x) =
xλe−λx dx
0
A
0
x0.5
1
e−λx
=
1 − e−λx0.5 (1 + λx0.5 )
= λ 2 · (−λx − 1) λ
λ
0
1
1 − ln 2
0.1534
1
1
− ln 2
1−e
(1 + ln 2) =
=
=
1 − (1 + ln 2) =
λ
λ
2
2λ
λ
Durch E(E(X | C); A) = P (A) · cA erhält man cA =
1.6932
dann auch cAC =
.
λ
Kontrolle mittels (7.6):
0.3068
1
, mit P (A) · cA + P (AC ) · cAC = EX =
λ
λ
E(X | Y = a) = E(X | X < x0.5 ) = 2 ·
x0.5
Z
λe−λx dx = cA
0
Satz 7.1 Es sei X eine nichtnegative bzw. integrierbare Zufallsgröße auf (Ω, A, P ). C sei eine
beliebige Teil-σ-Algebra von A. Dann existiert bis auf fast sichere Gleichheit eine C-messbare
Zufallsgröße XC mit
E(X; C) = E(XC ; C),
C∈C
(7.14)
bzw.
Z
Z
X(ω) P (dω) =
C
XC (ω) P (dω)
C
XC ist fast sicher nichtnegativ bzw. integrierbar und wird bedingte Erwartung von X bezüglich C
genannt:
XC = E(X | C)
34
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Beweis für X ≥ 0. Es wird der Satz von Radon-Nikodym verwendet, der besagt, dass für ein
σ-finites Maß µ und ein Maß ν mit ν µ eine Dichtefunktion f existiert mit
Z
ν(C) = f (ω) µ(dω), C ∈ C
C
Wenn wir das jetzt auf unser Problem beziehen, sei PC die Einschränkung von P auf C. Ferner sei
Z
Q(C) = X(ω) P (dω) = E(X; C).
C
Um die Analogie zum obigen Formalismus herzustellen, identifizieren wir ν mit Q und µ mit PC .
Die σ-Finitheit ist gegeben, da P ein Wahrscheinlichkeitsmaß ist. Natürlich ist Q PC , da aus
PC (C) = P (C) = 0
Z
X(ω) P (dω) = 0
C
folgt. Also existiert eine C-messbare nichtnegative Funktion XC mit
Z
Z
Z
X(ω) P (dω) = Q(C) = XC (ω) PC (dω) = XC (ω) P (dω),
C
C
C
da XC C-messbar ist. XC ist P -fast-eindeutig:
Wenn X̄C eine andere Zufallsgröße wäre, die der Bedingung ebenfalls genügt, so muss gelten:
PC (XC = X̄C ) = 1,
und weil {XC = X̄C } ∈ C folgt P (XC = X̄C ) = 1.
Die Fortsetzung des Beweises findet sich in [6] auf den Seiten 118 ff.
Bemerkungen
1. E(X | C) ist nur P -fast-sicher bestimmt.
2. Die Berechnung von E(X | C) ist oft schwierig. ( Differenzieren ist nicht immer leichter als
”
Integrieren.“)
3. X → E(X | C) ist eine Glättung oder Mittelung (siehe Beispiele).
4. Zwei Extremfälle:
• E(X | A) = X fast sicher.
• C = {∅, Ω} ⇒ E(X | C) = EX fast sicher.
Fakten
• Es gilt die Formel des totalen Erwartungswertes:
E(E(X | C)) = EX.
(7.15)
(In (7.14) setzen wir C = Ω.)
• Ist Z C-messbar, so gilt E(ZX | C) = ZE(X | C).
• Es gilt E(|E(X | C)|p ) ≤ E|X|p für p ≥ 1. Damit gilt auch:
var (E(X | C)) ≤ var X
(7.16)
7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG
35
• Wir betrachten nun L2(Ω,A,P ) , also Zufallsgrößen mit EX 2 < ∞ (% Maßtheorie Abschnitt
11.2). Hier gilt: Alle X, die messbar bezüglich C sind, bilden einen linearen Teilraum von
L2 .
• Im Spezialfall C = σ(Y ) schreibt man E(X | C) = E(X | Y )
• Es gilt E(X | X) = X fast sicher.
• Es gilt
E(X | Y ) = f (Y ).
(7.17)
Daraus ergibt sich ein Rezept zur Berechnung von E(X | Y ): Berechne
f (y) = E(X | Y = y)
mittels elementarer Stochastik. Setze dann E(X | Y ) = f (Y ).
Wenn z. B. E(X + Y | Y ) für unabhängige X und Y gesucht ist, dann ergibt sich:
E(X + Y | Y = y)
= E(X | Y = y) + E(Y | Y = y) = EX + y = f (y)
Also E(X + Y | Y ) = EX + Y .
Bei stochastischen Prozessen (z. B. Martingalen) beschreibt
C = σ(X1 , . . . , Xn )
die kleinste σ-Algebra, bezüglich der X1 , . . . , Xn messbar sind. Interpretiert werden kann das auch
wie folgt:
E(Xn+1 | X1 , . . . , Xn ) ist gesucht, wobei die X1 , . . . , Xn die Vergangenheit“ darstellen.
”
Bemerkungen
• Wenn X und Y diskret sind, dann hat die Zufallsgröße E(X | Y ) gerade die bedingten Erwartungswerte E(X | Y = y) aus (7.8) als mögliche Realisierungen.
Der Erwartungswert des bedingten Erwartungswertes E(X | Y ) ist nach (7.15) gleich EX:
X
E(E(X | Y )) =
E(X | Y = yj )p·j = EX
j
• Wenn X und Y absolutstetig sind, dann sind die E(X | Y = y) aus (7.11) die möglichen
Werte der Zufallsgröße E(X | Y ). Aus (7.15) folgt wiederum:
Z∞
E(E(X | Y )) =
E(X | Y = y)fY (y) dy = EX
−∞
• Sei A ∈ A und X(ω) = 1A (ω). Dann schreibt man
E(X | C)(ω) = P (A | C)(ω)
(7.18)
und mit (7.14) ergibt sich für alle B ∈ C
Z
P (A ∩ B) =
P (A | C)(ω) P (dω)
(7.19)
B
Speziell für B = Ω ergibt sich
Z
P (A) =
P (A | C)(ω) P (dω),
Ω
die Formel der totalen Wahrscheinlichkeit.
(7.20)
36
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Sei Bi (i = 1, . . . , n) eine Folge von paarweise disjunkten Teilmengen aus Ω mit P (Bi ) > 0 und
C = σ(B1 , . . . , Bn ) die von den Bi erzeugte σ-Algebra. Aus der C-Messbarkeit von E(X | C) folgt,
dass E(X | C) konstant auf den Bi ist, spezieller:
E(X | C)(ω) = E(X | Bi )
für ω ∈ Bi
Dies ergibt sich aus
E(X | C)(ω)
Z
=
X(ω) P (dω)
Bi
1
= E(X | Bi )
P (Bi )
(7.21)
37
Kapitel 8
Funktionen von Zufallsvektoren,
Faltung
8.1
Funktionen von zufälligen Vektoren
Es sei X ein zufälliger Vektor auf (Ω, A, P ), g : Rd → Rd sei Borel-messbar, dann ist Y = g(X)
ein zufälliger Vektor auf demselben Wahrscheinlichkeitsraum mit
PY (B) = PX (g −1 (B))
(8.1)
für alle Borelmengen B. Es sei nun X absolutstetig mit der Dichte fX , g sei eineindeutig, g −1 = h
sei die Umkehrabbildung, d.h.
X = h(Y ) = (h1 (Y ), . . . , hd (Y )).
Dann gilt:
Z
P (X ∈ A)
=
fX (x1 , . . . , xd ) dx1 . . . dxd
A
Z
=
fX (h(y))|J| dy1 . . . dyd
g(A)
= P (Y ∈ g(A)).
(8.2)
Es gilt also
fY (y) = |J|fX (h(y))
(8.3)
Hierbei ist
J = det
∂hi (y)
∂yj
!
i,j=1,...,d
die sogenannte Jacobische Funktionaldeterminante.
Beispiel. Seien X1 , X2 unabhängig und gleichverteilt auf [0, 1]. Dann sind Y1 und Y2 mit
Y1
Y2
unabhängig N(0, 1) verteilt.
√
= √−2 ln X1 sin 2πX2
=
−2 ln X1 cos 2πX2
(8.4)
38
KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG
Anwendung von (8.3) auf X = (X1 , X2 )T mit der Dichte fX (x1 , x2 ) liefert:
fX1 +X2 (z)
fX1 −X2 (z)
fX1 X2 (z)
fX1 /X2 (z)
=
=
=
=
R∞
−∞
R∞
−∞
R∞
−∞
R∞
fX1 ,X2 (x, z − x) dx
falls X1 ,X2
=
unabhängig
fX1 ,X2 (x, x − z) dx
=
1
z
|x| fX1 ,X2 (x, x ) dx
=
|x|fX1 ,X2 (xz, x) dx
=
R∞
−∞
R∞
−∞
R∞
−∞
R∞
−∞
fX1 (x)fX2 (z − x) dx
fX1 (x)fX2 (x − z) dx
(8.5)
z
1
|x| fX1 (x)fX2 ( x ) dx
|x|fX1 (xz)fX2 (x) dx
−∞
Beweis. Es werden nur die Aussagen über die Addition und das Produkt von Zufallsgrößen bewiesen.
1. Addition. Sei
g(x1 , x2 ) =
Y1 = g1 (X1 , X2 ) = X1
Y2 = g2 (X1 , X2 ) = X1 + X2
x1
x1 + x2
X1 = h1 (Y1 , Y2 ) = Y1
X2 = h2 (Y1 , Y2 ) = Y2 − Y1
Es ergibt sich die Jacobi-Determinante
1
J = −1
0 =1
1 Damit folgt
= fX1 ,X2 (y1 , y2 − y1 )
Z
fY2 (z) =
fX1 ,X2 (x, z − x) dx
fY1 ,Y2 (y1 , y2 )
2. Produkt. Sei
g(x1 , x2 ) =
Y1 = g1 (X1 , X2 ) = X1
Y2 = g2 (X1 , X2 ) = X1 X2
Es ergibt sich die Jacobi-Determinante
1
J = y2
− y2
1
x1
x1 x2
X1 = h1 (Y1 , Y2 ) = Y1
Y2
X2 = h2 (Y1 , Y2 ) =
Y1
0
1
y1
= 1
y1
Damit folgt
1
y2
fY1 ,Y2 (y1 , y2 ) =
fX ,X y1 ,
|y1 | 1 2
y1
Z
z
1
fY2 (z) =
fX ,X x,
dx
|x| 1 2
x
8.1. FUNKTIONEN VON ZUFÄLLIGEN VEKTOREN
Verteilung
Normal
Bernoulli
Binomial
Poisson
Exponential
Gamma
Gleichmäßig
Parameter
µ1 , σ12 , µ2 , σ22
p
n1 , p, n2 , p
λ1 , λ2
λ, λ
p1 , λ, p2 , λ
[0, 1], [0, 1]
Summenverteilung
Normal
Binomial
Binomial
Poisson
Gamma
Gamma
Dreieck
39
Parameter
µ1 + µ2 , σ12 + σ22
2, p
n1 + n 2 , p
λ 1 + λ2
2, λ
p 1 + p2 , λ
[0, 2]
Tabelle 8.1: Verteilungen von Summen unabhängiger Zufallsgrößen
Die Operation
Z∞
fX1 (x)fX2 (z − x) dx
fX1 ∗ fX2 = fX1 +X2 =
(8.6)
−∞
wird als Faltung bezeichnet.
Beispiele. Tabelle 8.1 zeigt einige Verteilungen von Summen unabhängiger Zufallsgrößen.
Der Beweis dieser Aussagen ergibt sich mit Hilfe des Faltungsintegrals (8.6) bzw. dem diskreten
Analogon
X
P (X1 + X2 = k) =
P (X1 = i)P (X2 = k − i)
(8.7)
i
bzw. leichter mit charakteristischen Funktionen (siehe nächstes Kapitel).
Normalverteilung, Poissonverteilung und Binomialverteilung heißen auf Grund der Gleichungen in
Tabelle 8.1 faltungsstabil.
Die Formeln (8.5) lassen sich auch direkt erhalten, z.B.
Z
FX1 +X2 (y) = P (X1 + X2 < y) =
fX1 ,X2 (x1 , x2 ) dx1 dx2
x1 +x2 <y
oder heuristisch
Z∞
P (X1 + X2 < y)
P (X2 < y − x)
=
−∞
fX1 (x) dx
| {z }
P (X1 ∈(x,x+dx))
Z∞
FX2 (y − x)fX1 (x) dx,
=
−∞
was auf
Z∞
fX1 +X2 (y)
fX1 (x)fX2 (y − x) dx
=
−∞
und
fX1 +X2
= fX1 ∗ fX2
führt.
Speziell für die allgemeine zweidimensionale Normalverteilung von (X1 , X2 ) ergibt sich:
X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 + 2σ1 σ2 %).
Ein wichtiges Problem der Statistik ist die Entfaltung“. Dabei sind für Y = X1 + X2 die Daten
”
von Y und die Verteilung von X1 bekannt, und X2 ist gesucht. Das ist ein typisches inverses
Problem.
40
KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG
41
Kapitel 9
Prüfverteilungen der Statistik: χ2,
t und F
Wir betrachten hier eine mathematische Stichprobe vom Umfang n (vgl. S.67) aus einer N(µ, σ 2 )Grundgesamtheit. Der Stichprobenmittelwert und die Stichprobenstreuung sind definiert als
n
X̄ =
1X
Xi
n i=1
n
und S 2 =
1 X
(Xi − X̄)2 .
n − 1 i=1
Es gilt
σ2
X̄ ∼ N µ,
.
n
9.1
χ2 -Verteilung mit n Freiheitsgraden
Es seien die Zufallsgrößen Xi ∼ N(0, 1) stochastisch unabhängig. Dann ist die positive Zufallsgröße
X 2 = X12 + . . . + Xn2 ∼ χ2n
χ2 -verteilt mit n Freiheitsgraden. Um die Dichtefunktion fX 2 (x) zu erhalten, betrachten wir zuerst
den Fall n = 1:
√
√
√
√
P (X12 < x) = P (− x < X1 < x) = FX1 ( x) − FX1 (− x)
Also gilt für die Dichtefunktion
√
√
1
fX12 (x) = √ (fX1 ( x) + fX1 (− x)),
2 x
woraus folgt:
1
x
x− 2
fX12 (x) = √ e− 2 1[0,∞) (x).
2π
Das ist die Dichte der Γ-Verteilung mit p = 21 und λ = 12 . Nach dem Additionstheorem für
diese Verteilung ist X 2 ebenfalls Γ-verteilt, mit den Parametern p = n2 und λ = 12 . Für die
Dichtefunktion gilt dann:
fX 2 (x) = fχ2n (x) =
n
x
1
x 2 −1 e− 2 1[0,∞) (x)
n
2 2 Γ( n2 )
(9.1)
42
KAPITEL 9. PRÜFVERTEILUNGEN DER STATISTIK
Die zugehörige Verteilung heißt χ2 -Verteilung mit n Freiheitsgraden.
Falls nun Xi = N(0, σ 2 ) verteilt ist, hat Xi2 eine Γ-Verteilung mit p =
lässt sich ableiten, dass
n
X
Y =
Xi2 = X 2
1
2
und λ =
1
2σ 2 .
Daraus
i=1
Γ-verteilt mit den Parametern p =
n
2
und λ =
1
2σ 2
ist.
Satz 9.1 Genau dann, wenn Xi ∼ N(µ, σ 2 ) ist, sind X̄ und S 2 unabhängig.
Zum Beweis sei auf [13] verwiesen.
9.2
Verteilung von S 2
Es gilt
n−1 2
S ∼ χ2n−1
σ2
(9.2)
wegen
(n − 1)S 2 =
n
X
(Xi − X̄)2 .
i=1
Es handelt sich um die Summe aus n Zufallsgrößen, wobei die Bindung
nX̄ =
n
X
Xi
i=1
besteht. Daher spricht man von n − 1 Freiheitsgraden. Es gilt weiterhin:
ES 2
var S 2
= σ2
=
2
σ4
n−1
Diese Tatsachen lassen sich auf die allgemein (d. h. ohne Normalverteilungs-Annahme) gültigen
Aussagen
ES 2
var S 2
zurückführen.
9.3
=
var X1
1
n−3
4
2
=
E(X1 − EX1 ) −
(var X1 )
n
n−1
1
t-Verteilung mit n Freiheitsgraden
Wenn zwei Zufallsgrößen X ∼ N(0, 1) und Y ∼ χ2n unabhängig sind, dann gilt:
X
q ∼ tn
Y
n
Die zugehörige Verteilung wird Studentsche t-Verteilung mit n Freiheitsgraden genannt. Als wichtige Anwendung gilt:
X̄ − µ
∼ tn−1 .
(9.3)
T = S
√
1 Zum
Beweis siehe [8], Seite 177.
n
9.4. F -VERTEILUNG
43
Diese Verteilung wurde von Gosset, der unter dem Pseudonym Student“ veröffentlichte, 1908
”
publiziert. Die Dichtefunktion von tn ist
n+1
− n+1
Γ
2
x2
2
fn (x) = n √
1+
.
n
Γ
πn
2
Die t-Verteilung nähert sich für große n der Normalverteilung an. Deswegen kann man für n ≥ 30
die Quantile tn,α und zα miteinander identifizieren (Regel 30 = ∞“).
”
9.4
F -Verteilung
Definition:
Es seien X ∼ χ2n1 , Y ∼ χ2n2 sowie X und Y stochastisch unabhängig. Dann heißt die Verteilung
der Zufallsgröße
X
n2 X
n1
=
Y
n
1 Y
n
2
F -Verteilung mit (n1 , n2 ) Freiheitsgraden (R.A. Fisher 1912).
Wenn S12 und S22 die Stichproben-Streuungen zweier unabhängiger Stichproben aus N(µ, σ 2 ) mit
den Umfängen n1 und n2 sind, dann ist der Quotient
S12
∼ Fn1 −1,n2 −1
S22
F -verteilt (Fishersche F -Verteilung mit (n1 , n2 ) Freiheitsgraden). Für weitere Informationen und
Tabellen sei auf entsprechende Literatur verwiesen.
44
KAPITEL 9. PRÜFVERTEILUNGEN DER STATISTIK
45
Kapitel 10
Charakteristische Funktionen
10.1
Definition
Charakteristische Funktionen sind ein wichtiges Hilfsmittel der Stochastik. Sie vereinfachen viele
Darstellungen und Beweise: Faltung, Momentenberechnung, Beweis von Grenzwertsätzen. Erstmals eingeführt wurden sie von Lagrange, und sie gehen zurück auf Laplace und Fourier (LaplaceTransformation, Fourier-Transformation). Die charakteristische Funktion der Zufallsgröße X wird
eingeführt als Erwartungswert der Zufallsgröße eitX . Zunächst werden daher komplexwertige Zufallsgrößen eingeführt.
Z = X + iY ist eine komplexwertige Zufallsgröße auf (Ω, A, P ) genau dann, wenn X und Y reelle
Zufallsgrößen auf (Ω, A, P ) sind. Der Erwartungswert wird erklärt durch EZ = EX + iEY , die
Varianz durch var Z = E|Z − EZ|2 . Zwei Zufallsgrößen Z1 = X1 + iY1 und Z2 = X2 + iY2 heißen
unabhängig genau dann wenn (X1 , Y1 )T und (X2 , Y2 )T unabhängig sind. Dann gilt z.B.:
EZ1 Z2 = EZ1 · EZ2
(10.1)
Häufig wird die bekannte Euler-Relation verwendet:
eitX = cos tX + i sin tX
(10.2)
Definition 10.1
ϕX (t)
= EeitX ,
−∞ < t < ∞
Z
=
eitX(ω) P (dω)
(10.3)
Ω
Z
=
itx
e
Z∞
PX (dx) =
eitx dFX (x)
(∗)
−∞
R1
 ∞
 R eitx f (x) dx
(∗∗)
X
=
P itxk
 −∞
P (X = xk )
ke
(10.4)
heißt charakteristische Funktion der Zufallsgröße X (bzw. der Verteilungsfunktion FX ). (∗) heißt
auch Fourier-Stieltjes-Transformierte von FX , (∗∗) heißt auch Fourier-Transformierte von fX .
Wegen |ϕX (t)| ≤ E|eitX | = 1 bzw.
R∞
|eitx | dFX (x) =
−∞
Zufallsgröße X eine charakteristische Funktion.
R∞
−∞
1 dFX (x) = 1 < ∞ existiert zu jeder
46
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
In Tabelle 10.1 sind die charakteristischen Funktionen einiger wichtiger Verteilungen zusammengestellt.
Verteilung
Konstant
Bernoulli
Binomial
Parameter
c
p
n, p
Geometrisch
p
Negativ binomial
charakteristische Funktion
eitc
1 − p + peit
(1 − p + peit )n
peit
it
1 − (1 it− p)e m
pe
1 − (1 − p)eit
it
eλ(e −1)
m, p
Poisson
λ
t2
e− 2
Standard normal
2 t2
µ, σ 2
Normal
Exponential
eµit−σ 2
λ
λ − itα
λ
λ − it
sin at
at
λ
Gamma
α, λ
gleichmäßig [−a, a]
a
Tabelle 10.1: Charakteristische Funktionen wichtiger Verteilungen
10.2
Elementare Eigenschaften
Eigenschaften der charakteristischen Funktion:
ϕX (0) = 1, |ϕ(x)| ≤ 1,
ϕX (−t) = ϕX (t)
(10.5)
Beweis:
Z∞
ϕX (0)
=
1 dFX (x) = 1
−∞
Z∞
|ϕX (t)|
≤
itx
|e
Z∞
| dFX (x) =
−∞
ϕX (−t)
i(−t)X
= Ee
1 dFX (x) = 1
−∞
−itX
= Ee
= Eeitx = ϕX (t)
Satz 10.1 ϕX ist gleichmäßig stetig auf R1 .
Beweis: Es gilt für beliebiges h:
|ϕX (t + h) − ϕ(t)| = E eitX eihX − 1 



≤ E eitX eihX − 1 = E eihX − 1 .
| {z }
=1
Aus h → 0 folgt E|eihX − 1| → 0 nach dem Lebesgue-Satz über die majorisierte Konvergenz mit
P -integrierbarem |eihX |, wobei für alle ω eihX(ω) gegen 1 konvergiert. Die Majorante ist 2.
10.3. UMKEHR- UND EINDEUTIGKEITSSATZ
47
Bei der linearen Transformation Y = aX + b verhält sich die charakteristische Funktion folgendermaßen
ϕaX+b (t) = Eeit(aX+b) = eitb ϕX (at)
(10.6)
Sei X ∼ N(0, 1) und Y = σX + µ. Dann ergibt sich
itµ
ϕN(µ,σ2 ) = ϕY (t) = e
σ 2 t2
ϕX (σt) = exp itµ −
2
(10.7)
Satz 10.2 (Faltungssatz) Es seien X1 und X2 unabhängig. Dann gilt für Z = X1 + X2 :
ϕZ (t) = ϕX1 (t)ϕX2 (t)
(10.8)
Beweis:
ϕX1 +X2 (t)
= Eeit(X1 +X2 ) = EeitX1 eitX2
= EeitX1 EeitX2 = ϕX1 (t)ϕX2 (t)
Die charakteristische Funktion der Summe zweier Zufallsgrößen ist also das Produkt der charakteristischen Funktionen der Zufallsgrößen. Sind beispielsweise X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ),
dann gilt:
σ 2 t2
σ 2 t2
ϕX1 +X2 = exp itµ1 − 1
· exp itµ2 − 2
2
2
2
2 2
(σ + σ2 )t
= exp it(µ1 + µ2 ) − 1
2
Auf Grund des Eindeutigkeitssatzes (% später) folgt
X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 )
10.3
Umkehr- und Eindeutigkeitssatz
Es gelten folgende Umkehrformeln“:
”
Satz 10.3 An Stetigkeitsstellen a und b von FX (a < b) gilt:
1
FX (b) − FX (a) =
2π
Z∞
e−ita − e−itb
ϕX (t) dt
it
(10.9)
−∞
Im absolutstetigen Fall ergibt sich die Umkehrformel der Fourier-Transformation:
1
fX (x) =
2π
Z∞
ϕX (t)e−itx dt
(10.10)
−∞
d
Satz 10.4 (Eindeutigkeitssatz) Wenn ϕX (t) = ϕY (t) für alle t gilt, dann folgt X = Y .
Jede Verteilungsfunktion FX ist eindeutig durch die charakteristische Funktion ϕX bestimmt. Zu
einem Beweis des Satzes siehe z. B. Gnedenko, Renyi.
48
10.4
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
Die charakteristische Funktion und Momente
Die Momente einer Verteilung können leicht aus ϕX berechnet werden.
Satz 10.5 Falls EX n existiert, dann ist ϕX n-mal stetig differenzierbar und es gilt:
(k)
(−i)k ϕX (0) = EX k ,
k = 1, 2, . . . , n
(10.11)
Beweis. Der Beweis wird nur für den Fall k = 1 geführt. Es gilt:
ϕ0X (t)
ϕX (t + h) − ϕX (t)
h
1
i(t+h)X
= lim E(e
− eitX )
h→0 h
=
lim
h→0
Nun konvergiert Zh = h1 (ei(t+h)X − eitX ) gegen Z = iXeitX , wenn h gegen 0 geht. Wegen
|eity − eitz | ≤ |y − z| · |t|
folgt
|Zh | =
|h| · |X|
1 i(t+h)X
|e
− eitX | ≤
= |X|.
|h|
|h|
Also wird Zh durch |X| dominiert und gehört damit zum L1 . Nach dem Lebesgue-Satz über die
majorisierte Konvergenz gilt
lim EZh = E( lim Zh ) = E(iXeitX ),
h→0
h→0
woraus die Behauptung folgt.
Speziell gilt EX = −iϕ0X (0) und EX 2 = −ϕ00X (0).
Beispielsweise ergibt sich für X ∼ N(0, 1):
t2
ϕX (t)
= e− 2
ϕ0X (t)
= −te− 2
ϕ00X (t)
=
t2
t2
(t2 − 1)e− 2
Daraus folgt EX = 0, EX 2 = 1 und var X = 1.
Falls EX n existiert, dann kann ϕX in eine Taylor-Reihe der Ordnung n entwickelt werden, d.h.
ϕX (t) = 1 +
n
X
1
(it)k EX k + o(tn )
k!
(10.12)
k=1
(k)
Wenn ϕX (0) existiert, so existiert auch EX k für gerade k.
10.5
Stetigkeitssatz
d
Eine Folge von Zufallsgrößen Xn konvergiert in Verteilung gegen X (Xn −
→ X) genau dann, wenn
lim FXn (x) = FX (x)
n→∞
für alle Stetigkeitspunkte x von F gilt. Äquivalent dazu ist
lim Ef (Xn ) = Ef (X)
n→∞
für alle stetigen und beschränkten Funktionen f . Hierbei ist Ef (X) =
R
f (x) dFX (x).
10.5. STETIGKEITSSATZ
49
Satz 10.6 Es gilt
d
Xn −
→X
⇐⇒
lim ϕXn (t) = ϕX (t) für alle t.
n→∞
Beweis: =⇒“: Da cos(tx) und sin(tx) stetig und beschränkt sind, konvergiert
”
ϕXn (t) = E(cos(tXn )) + iE(sin(tXn ))
gegen
E(cos(tX)) + iE(sin(tX)).
⇐=“: Es genügt zu zeigen, dass für alle a und b mit a < b, die Stetigkeitspunkte aller FXn und
”
von FX sind, gilt:
FXn (b) − FXn (a) → FX (b) − FX (a)
Es gilt
FX (b) − FX (a)
1
= lim
T →∞ 2π
ZT
e−ita − e−itb
ϕX (t) dt
it
−T
1
= lim
T →∞ 2π
ZT
e−ita − e−itb
( lim ϕXn (t)) dt
n→∞
it
−T
ZT
1
= lim lim
n→∞ T →∞ 2π
e−ita − e−itb
(ϕXn (t)) dt
it
−T
=
lim (FXn (b) − FXn (b))
n→∞
nach dem Satz von der majorisierten Konvergenz.
Satz 10.7 Stetigkeitssatz (Lévy, Cramér). Fn (x) → F (x) für n → ∞ an jeder Stetigkeitsstelle
von F gilt genau dann, wenn ϕn (t) → ϕ(t) für n → ∞ gleichmäßig auf jedem endlichen Intervall
konvergiert.
Anwendungsbeispiel: Poissonscher Grenzwertsatz. Es sei Xn binomialverteilt mit den Parametern n und pn . Wenn n groß wird und pn gegen Null strebt, strebe npn gegen einen Wert λ
mit 0 < λ < ∞. Es gilt EXn = npn . Es sei weiterhin X Poisson-verteilt mit dem Parameter λ
d
und damit mit dem Erwartungswert λ. Es gilt Xn −
→ X, was übrigens heißt, dass die Einzelwahrscheinlichkeiten P (Xn = i) gegen P (X = i) konvergieren.
Beweis. Es gilt
ϕXn (t)
ϕX (t)
=
(1 − pn + pn eit )n
= eλ(e
und
1 − pn + pn eit
n
it
−1)
∼
1−
strebt gegen
eλ(e
Nach Satz 10.6 folgt nun die Behauptung.
it
−1)
λ λ it
+ e
n n
n
50
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
Bemerkungen:
• X sei diskrete Zufallsgröße. Dann gilt
ϕX (t) =
X
eitk P (X = k).
(10.13)
k
ϕX hängt nur über eit von t ab, ist damit periodisch mit der Periode 2π; die Kenntnis von
ϕX auf [−π, π] genügt, damit die zugehörige Zufallsgröße eindeutig bestimmt ist, es gilt:
Zπ
pk = P (X = k) =
eitk ϕX (t) dt
−π
Man erhält also den k-ten Koeffizienten der Fourier-Reihe von ϕX .
• Substituiert man z = eit in (10.13), erhält man:
X
GX (z) :=
pk z k ,
(10.14)
k
die erzeugende Funktion von X; es gilt ϕX (t) = GX (eit ).
• Die charakteristische Funktion für zufällige Vektoren X = (X1 , . . . , Xd )T wird analog definiert:
Pd
T
(10.15)
ϕX (t1 , . . . , td ) = EeiX t = E ei j=1 Xj tj
Dabei ist t = (t1 , . . . , tn )T Wenn X unabhängige Komponenten hat, so gilt:
ϕX (t1 , . . . , td ) =
d
Y
ϕXj (tj )
(10.16)
j=1
• Noch allgemeiner ist das charakteristische Funktional für eine zufällige Funktion X(u):
R
ϕX (t) = E ei t(u)X(u) du .
51
Kapitel 11
Gesetze der großen Zahlen
11.1
Konvergenzarten der Stochastik
Es sei (Xn )n∈N eine Folge von Zufallsgrößen.
• Verteilungskonvergenz
d
Symbolisch: Xn −
→X
Die Folge (Xn ) heißt verteilungskonvergent gegen X, falls für jede Stetigkeitsstelle x von FX
gilt
lim FXn (x) = FX (x)
(11.1)
n→∞
Bemerkung: Verteilungskonvergenz ist zur sogenannten schwachen Konvergenz Xn → X
äquivalent, d.h., für alle beschränkten und stetigen f gilt:
lim Ef (Xn ) = Ef (X)
n→∞
(11.2)
• Konvergenz in Wahrscheinlichkeit (stochastische Konvergenz)
P
Symbolisch: Xn −
→X
Die Folge (Xn ) heißt stochastisch konvergent gegen X, wenn für jedes positive ε gilt
lim P (|Xn − X| ≥ ε) = 0
n→∞
(11.3)
(entspricht der Maßkonvergenz)
• Konvergenz mit Wahrscheinlichkeit 1 (fast sichere Konvergenz)
P −f.s.
Symbolisch: Xn −−−−→ X
Die Folge (Xn ) heißt gegen X fast sicher konvergent, wenn
P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1
n→∞
(11.4)
(vgl. Maßtheorie: Konvergenz P -fast überall)
• Konvergenz im p-ten Mittel
Lp
Symbolisch: Xn −−→ X
lim E|Xn − X|p = 0,
n→∞
p≥1
(11.5)
Speziell für p = 2 spricht man von der Konvergenz im quadratischen Mittel und für p = 1
von der L1 -Konvergenz.
52
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN
Im Rahmen der Maßtheorie wurden die meisten der folgenden Beziehungen zwischen den verschiedenen Konvergenzarten (% Abbildung 11.1) nachgewiesen.
L2
Xn → X
L1
Xn → X
-
P -f.s.
HH
H
Xn → X
HH
P
j X →
H
X
*
n
6
-
d
Xn → X
X=c
Abbildung 11.1: Beziehungen zwischen den Konvergenzarten
11.2
Gesetze der großen Zahlen
11.2.1
Schwache Gesetze der großen Zahlen
Die Erfahrung lehrt, dass die relative Häufigkeit eines Ereignisses bei einer großen Anzahl von
Versuchen gegen die Wahrscheinlichkeit strebt; das arithmetische Mittel von (unabhängigen) Zufallsgrößen mit gleichem Erwartungswert strebt gegen den Erwartungswert. Die Gesetze der großen
Zahlen sind Sätze über die Konvergenz von arithmetischen Mitteln gegen Konstanten. Speziell:
n
Xn =
1
1X
Xi = Sn → EX
n i=1
n
(11.6)
Schwache Gesetze der großen Zahlen hängen mit der stochastischen Konvergenz zusammen,
während starke Gesetze der großen Zahlen zur fast sicheren Konvergenz gehören.
Satz 11.1 Es sei X1 , X2 , . . . eine Folge von unabhängigen Zufallsgrößen auf (Ω, A, P ) mit
EXi = µ
var Xi ≤ M < ∞
und
(11.7)
P
Dann gilt X n −
→ µ.
Zwei Beweise:
1. Es gilt:
EX n
var X n
= µ
=
P (|X n − µ| ≥ ε) ≤
n
1 X
M
var Xi ≤
2
n i=1
n
var X n
M n→∞
≤ 2 −−−−→ 0
2
ε
ε n
d
P
2. Allgemein gilt: Aus Xn −
→ c folgt Xn −
→ c. Das ergibt sich folgendermaßen.
P (|Xn − c| > ε)
= P (Xn < c − ε) + P (Xn > c + ε)
≤ FXn (c − ε) + (1 − FXn (c + ε))
11.2. GESETZE DER GROSSEN ZAHLEN
53
d
Die rechte Seite strebt wegen Xn −
→ c gegen
Fc (c − ε) + (1 − Fc (c + ε)) = 0 + (1 − 1) = 0.
Es genügt also zum Beweis des Gesetzes der großen Zahlen, die Konvergenz der charakteristischen Funktion ϕX̄n (t) → eitµ zu zeigen:
ϕX n (t)
n
t
t
= ϕS n
= ϕX
n
n
n
itµ
1
=
1+
−→ eitµ .
+o
n
n
Beispiel. Unabhängige Wiederholung eines Bernoulli-Experiments; sei
1, falls Erfolg im i-ten Versuch
Xi =
0, falls Misserfolg im i-ten Versuch
Es gilt P (Xi = 1) = p, EXi = p, var Xi = p(1 − p) ≤
anwendbar und es folgt:
n
1X
n→∞
Xi −−−−→ p.
P
n
1
4,
damit ist der eben bewiesene Satz
(11.8)
k=1
(Bernoullisches Gesetz der großen Zahlen)
11.2.2
Starkes Gesetz der großen Zahlen
P −f.s.
Unser Ziel ist es nun, X n −−−−→ µ unter den gleichen Voraussetzungen (11.7) zu beweisen.
Satz 11.2 (Starkes Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige Zufallsgrößen auf
P −f.s.
(Ω, A, P ) mit EXi ≡ µ und var Xi ≤ M < ∞. Dann gilt Xn −−−−→ µ.
Beweis. Sei Zn = Xn − µ =
1
n
n
P
P −f.s.
P −f.s.
(Xi − µ). Dann ist Xn −−−−→ µ ⇔ Zn −−−−→ 0
i=1
P −f.s.
1. Es wird zunächst gezeigt, dass Zn2 −−−−→ 0. Sei An := {|Zn2 | ≥ ε}; dann gilt:
2
var Zn2
n
1 X
n2
M
= 4
var Xi ≤ M 4 = 2
n i=1
n
n
(11.9)
Mittels Tschebyschews Ungleichung folgt:
P (An ) ≤
∞
X
var Zn2
M
≤ 2 2
2
ε
n ε
P (An ) < ∞
n=1
Für A∗ = lim sup Ai folgt aus dem Lemma von Borel-Cantelli (Satz 1.1) P (A∗ ) = 0; sei
speziell
1
A∗k := {ω : Zn2 (ω) ≥
für unendlich viele n}
k
54
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN
S
T
Es folgt: P (A∗k ) = 0 damit auch P ( k A∗k ) = 0; mit E := k (A∗k )c folgt P (E) = 1, d.h. E
enthält fast alle“ Elemente von Ω. Für fast jedes ω ∈ E und zu jedem k ∈ N gibt es nur
”
endlich viele n mit
1
|Zn2 | ≥
(11.10)
k
d.h. für P -fast falle ω ∈ Ω gilt: lim Zn2 = 0.
n→∞
2. Für m ∈ N sei n = n(m) die natürliche Zahle mit n(m)2 ≤ m ≤ (n(m) + 1)2 ; Zm wird nun
mit Zn2 verglichen. Sei
k
X
Sk :=
(Xi − µ)
i=1
Dann gilt:
var (Sm − Sn2 ) =
m
X
var Xi ≤ M (m − n2 )
i=n2 +1
und Tschebyschews Ungleichung liefert
P (|Sm − Sn2 | ≥ εn2 ) ≤
M (m − n2 )
ε 2 n4
Summiert man nun über m auf, ergibt sich:
∞
X
m=1
2
P
1
|Sm − Sn2 (m) | ≥ ε
n2 (m)
≤
∞ (n+1) −1
M X X m − n2
ε2 n=1
n4
2
=
∞
M X 1
(1 + 2 + . . . + 2n)
ε2 n=1 n4
=
∞
M X 2n(2n + 1)
<∞
ε2 n=1
2n4
m=n
Nach dem Lemma von Borel-Cantelli gilt für fast alle ω und hinreichend große m:
1
|Sm − Sn2 (m) | < ε
n2 (m)
Es folgt daraus zeilenweise:
Zn2 (m) =
1
n2 (m)
Sn2 (m)
<
ε
|Sm |
= |Zm | < 2ε
m
Zm → 0
Die Gesetze der großen Zahlen sind spezielle Ergodensätze“. Solche Sätze zeigen, dass unter
”
gewissen Bedingungen gilt
n
Xn =
1X
Xi
n i=1
Zeitmittel“
”
n→∞
Z
−−−−→
X(ω) P (dω)
Ω
Raummittel“
”
Fasst man die Xi als zeitliche Abfolge von Zufallsgrößen auf, deren Werte das Verhalten einer
Größe an einem Ort im Raum Rd beschreibt, so bedeutet diese Beziehung, dass das Zeitmittel“
”
11.2. GESETZE DER GROSSEN ZAHLEN
55
gegen das Raummittel“ konvergiert. Interessant ist dies insbesondere im Fall von stochastisch
”
abhängigen X1 , X2 , . . . . Dass diese Konvergenz keineswegs immer gilt, zeigt folgendes
Beispiel. Sei
X1 =
1
p=
−1 p =
Xi = X1
1
2
1
2
i = 2, 3, . . .
Offenbar ist EXi = 0, aber
n
1X
Xi =
n i=1
1
−1
falls X1 = 1
falls X1 = −1
= X1 ,
d.h.,
lim X n = X1 6= EXi
n→∞
Es müssen also Voraussetzungen an die Stärke der Abhängigkeit der Variablen gemacht werden,
damit ein starkes Gesetz der großen Zahlen gilt.
56
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN
57
Kapitel 12
Zentrale Grenzwertsätze
In diesem Kapitel betrachten wir die Konvergenz der Verteilung normierter Summen gegen N(0, 1).
12.1
Vorbetrachtungen
Es sei X1 , X2 , . . . eine total unabhängige Folge von Bernoulli-Zufallsgrößen mit
1 mit Wkt. p
Xi =
0 mit Wkt. 1 − p
Dann kann für großes n die Verteilung von
n
X
Xk ∼ Bin(n, p)
(12.1)
k=1
durch eine Normalverteilung mit µ = np und σ 2 = np(1 − p) approximiert werden.
Sei allgemeiner X1 , X2 , . . . eine beliebige Folge total unabhängiger Zufallsgrößen mit EXi = µi
und var Xi = σi2 . Gegen welche Verteilung konvergiert
n
1 X Xi − µi
= Sn (α)
nα i=1
σi
?
(12.2)
P −f.s.
Für α = 1 ergibt sich aus dem vorherigen Abschnitt, dass Sn (1) −−−−→ 0 (starkes Gesetz der
großen Zahlen). Im Fall α = 0 ist var Sn (0) = n, es liegt also keine Konvergenz vor, die Verteilung
verbreitert“ sich immer stärker. Im Fall α = 12 ergibt sich unter gewissen Bedingungen eine
”
Konvergenz gegen eine Normalverteilung:
1 d
Sn
−
→ N(0, 1)
(12.3)
2
Sn 21 heißt auch asymptotisch normalverteilt. Die zentralen Grenzwertsätze behandeln Bedingungen für diese Konvergenz.
12.2
Grenzwertsatz von Moivre-Laplace
Der Grenzwertsatz von Moivre-Laplace sichert die Konvergenz binomialverteilter Zufallsgrößen
gegen eine N(0, 1)-Verteilung.
58
KAPITEL 12. ZENTRALE GRENZWERTSÄTZE
Satz 12.1 Sei Yn binomialverteilt mit den Parametern (p, n). Dann gilt:
Yn − np d
Zn = p
−
→ Z,
np(1 − p)
Z ∼ N(0, 1),
(12.4)
d. h.
lim P
n→∞
!
Yn − np
p
< x = Φ(x).
np(1 − p)
(12.5)
Der Beweis wird später in allgemeinerem Zusammenhang nachgeholt werden.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Binomialverteilung
-4
-3
-2
-1
0
1
2
3
4
Abbildung 12.1: Verteilungsfunktionen der Zn für binomialverteilte Yn mit p =
sowie der Standardnormalverteilung
Bemerkung. Da Yn =
n
P
1
3
und n = 5, 20, 100
Xi mit iid-Bernoulli-Variablen Xi ist, hat der Grenzwertsatz von
i=1
Moivre-Laplace tatsächlich die Form wie in (12.3).
12.3. GRENZWERTSATZ FÜR FOLGEN VON IID-ZUFALLSGRÖSSEN
59
Der Zentrale Grenzwertsatz kann dazu benutzt werden, um eine Binomialverteilung anzunähern.
Für große n gilt:
Bin(n, p) ≈ N(np, np(1 − p))
(12.6)
12.3
Grenzwertsatz für Folgen von iid-Zufallsgrößen
Nachdem wir nun eine brauchbare Näherung für die Binomialverteilung bei großen n haben,
möchten wir das nun etwas verallgemeinern und i.i.d. Zufallsgrößen mit endlicher Streuung betrachten.
Satz 12.2 Sei X1 , X2 , . . . eine Folge von iid-Zufallsgrößen mit EXi = µ und var Xi = σ 2 < ∞.
Dann gilt
n
P
Xi − nµ
n
X
1
1
Xi − µ
d
i=1
√
Sn
=√
=
−−−−→ Z ∼ N(0, 1)
(12.7)
n→∞
2
σ
n i=1
σ n
oder
lim P
n→∞
Sn
1
< x = Φ(x)
2
(12.8)
Beweis. Ohne Beschränkung der Allgemeinheit sei µ = 0 (andernfalls setze man Xi0 = Xi − µ).
Aus dem Faltungssatz
(siehe (10.6) und (10.9)) ergibt sich für die charakteristische Funktion von
Sn := Sn 12 :
n
t
√
ϕSn (t) = ϕX
σ n
Entwicklung von ϕX in eine Taylorreihe unter Berücksichtigung von µ = 0 liefert:
ϕX (t) = 1 −
Damit ergibt sich:
Wegen lim 1 +
n→∞
x n
n
t2 σ 2
+ o(t2 )
2
2 n
t2
t
ϕSn (t) = 1 −
+o
2n
n
= ex ergibt sich:
t2
lim ϕSn (t) = e− 2
n→∞
Aus dem Stetigkeitssatz und dem Eindeutigkeitssatz für charakteristische Funktionen folgt
Sn ∼ N(0, 1).
Die unabhängige Wiederholung ein und desselben Experiments führt in der Summe der Messwerte
zu einer normalverteilten Zufallsgröße, d.h.
n
X
d
Xi ≈ N(nµ, nσ 2 )
(12.9)
i=1
Man spricht dann von einer asymptotisch normalverteilten“ Zufallsgröße. Es gilt dann
”
!
n
X
x − nµ
√
P
Xi < x ≈ Φ
.
nσ
i=1
Oft ist diese Näherung schon für kleine n brauchbar. Dies ist natürlich von der Verteilung von X1
abhängig.
60
KAPITEL 12. ZENTRALE GRENZWERTSÄTZE
Die Gleichverteilung auf dem Intervall [0, 1] der Zufallsgrößen Xi ist hier ein wichtiger Spezialfall.
Dort gilt z.B. n = 12 als eine ausreichend große Anzahl. Man geht dann näherungsweise von
folgendem Zusammenhang aus:
S12
= X1 + . . . + X12 ∼ N(µ, σ 2 )
mit EX1 = 0.5, ES12
mit µ = 6 und σ 2 = 1,
1
, var S12 = 1 folgt
= 6, var X1 =
12
S12 − 6 ∼ N(0, 1)
Das wird ausgenutzt zur Erzeugung von normalverteilten Zufallszahlen.
12.4
Grenzwertsatz von Lindeberg-Feller
Die Bedingung, dass die Zufallsgrößen der betrachteten Folge identisch verteilt sein müssen, wird
nun fallengelassen, lediglich Unabhängigkeit wird auch weiterhin gefordert. Die behandelte Frage ist wiederum die, wann die additive Überlagerung vieler kleiner zufälliger (Fehler-)Einflüsse
näherungsweise auf eine Normalverteilung führt.
Satz 12.3 (Lindeberg, 1922) Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsgrößen mit EXi = µi
n
P
und var Xi < ∞, sowie Zn :=
Xi . Sei
i=1
σn2
=
n
X
var Xi = var Zn
(12.10)
i=1
und es gelte für alle ε > 0 die Lindeberg-Bedingung, d.h.
n
1 X
E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0,
2
n→∞ σn
i=1
lim
(12.11)
bzw. anders ausgedrückt
n
1 X
2
n→∞ σn
i=1
Z
lim
(x − µi )2 dFXi (x) = 0.
(12.12)
|x−µi |>εσn
Dann gilt gleichmäßig in x:
lim P
n→∞
!
n
1 X
(Xi − µi ) < x = Φ(x)
σn i=1
(12.13)
Beispiele.
1. Wir betrachten gleichmäßig beschränkte Verteilungen, d.h., P (|Xi − µi | ≤ c) = 1 mit
σn2 → ∞. Wir wählen zu positivem ε ein n0 so, dass ε · σn > c für alle n > n0 wird.
Dann ist E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0 für alle i.
2. Wenn die Zufallsgrößen iid. mit EX1 = 0 und var X1 = σ 2 sind, dann lässt sich mit dem
Lebesgueschen Satz von der majorisierten Konvergenz zeigen, dass
n
√
1
1 X
E(Xi2 ; {|Xi | > εσn }) = 2 E(X12 ; {|X1 | > ε nσ}) → 0.
2
σn i=1
σ
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER
61
Man beachte dazu
Z
EX12
=
X12 (ω) µ(dω)
Z
E(X12 ; An )
√
wobei An = {ω : |X1 (ω)| > ε nσ}
=
fn (ω) µ(dω)
mit µ = P
mit fn = X12 1An
Die Folge der An strebt gegen die leere Menge. Damit ergibt sich:
fn (ω) → f (ω) ≡ 0,
woraus folgt
Z
f (ω) µ(dω) = 0.
Bevor wir zum Beweis dieses Grenzwertsatzes kommen, sind noch einige Vorbetrachtungen
nützlich:
n
P
• Auf Grund der Unabhängigkeit ist σn2 = var
Xi .
i=1
• (12.12) wird Lindeberg-Bedingung genannt.
• Interpretation der Lindeberg-Bedingung: Sei
|Xi − µi |
Ai =
>ε
σn
Dann gilt:
Z
dFXi (x) ≤
P (Ai ) =
|x−µi |>σn ε
1
ε2 σn2
Z
(x − µi )2 dFXi (x)
|x−µi |>σn ε
Damit erhält man:
P
≤
n
X
i=1
|Xi − µi |
sup
>ε
σn
1≤i≤n
P (Ai ) ≤
n
1 X
ε2 σn2 i=1
=P
n
[
!
Ai
i=1
Z
n→∞
(x − µi )2 dFXi (x) −−−−→ 0
|x−µi |>εσn
Aus (12.12) folgt also
lim P
n→∞
|Xi − µi |
sup
> ε = 0,
σn
1≤i≤n
(12.14)
d.h., die Summanden in der relevanten Summe
1 X
|Xi − µi |
σn
werden gleichmäßig klein (konvergieren gleichmäßig stark gegen Null).
• Analog kann aus (12.12) gefolgert werden:
√
lim sup
n→∞ 1≤i≤n
d.h., alle Standardabweichungen
n
P
Xi gleichmäßig klein.
i=1
√
var Xi
= 0,
σn
(12.15)
var Xi sind im Vergleich zur Standardabweichung von
62
KAPITEL 12. ZENTRALE GRENZWERTSÄTZE
• (12.15) ist hinreichend für (12.14) (Tschebyschewsche Ungleichung)
• (12.12) ist unter gewissen Bedingungen nicht nur hinreichend sondern auch notwendig, genauer: aus (12.13) und (12.15) folgt (12.12). Der Beweis wurde von Feller 1933 erbracht,
daher heißt (12.15) Feller-Bedingung.
• Für die Lindeberg-Bedingung (12.12) ist die sogenannte Ljapunow-Bedingung hinreichend.
lim
n→∞
n
1 X
σnβ i=1
E|Xi − µi |β = 0 für ein β > 2
(12.16)
Beweis.
n
1 X
σn2 i=1
Z
n
X
Z
(x − µi )2 dFXi (x)
|x−µi |>εσn
≤
≤
1
σn2
i=1
1
εβ−2
|x − µi |β
dFXi (x)
(εσn )β−2
|x−µi |>εσn
n
1 X
σnβ
!
β
E|Xi − µi |
n→∞
−−−−→ 0
i=1
• Eine Fehlerabschätzung für die Annäherung an die Normalverteilung liefert der folgende
Satz:
Satz 12.4 (Berry- Esseen 1941) Seien X1 , X2 , . . . iid-Zufallsgrößen mit EXi = µ, var Xi =
σ 2 und γ = E|Xi − µ|3 < ∞. Für die Verteilungsfunktion
1 X
(Xi − µ) < x
Fn (x) = P √
nσ
gilt dann
sup |Fn (x) − Φ(x)| ≤ 0.5
x
γ
√ .
σ3 n
Bemerkung: Die Konstante 0.5 stammt von Bentkus (1988); im ursprünglichen Beweis (1941)
betrug sie 7.59.
Beispiel. Die Wahrscheinlichkeit für das Eintreten eines Ereignisses soll durch die relative
Häufigkeit hn = nk des Eintretens bei n-facher unabhängiger Wiederholung des Experiments
geschätzt werden (Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p). hn ist Realisierung von
n
P
Hn = n1
Xi , wobei Xi Erfolg (1) oder Misserfolg (0) im i-ten Experiment beschreibt, d.h.,
i=1
P (Xi = 1) = p und P (Xi = 0) = 1 − p. Wie groß ist die Wahrscheinlichkeit einer Abweichung um
mehr als 0.05 gegenüber dem tatsächlichen Wert, d. h. wie groß ist P (|Hn − p| ≥ 0.05)?
1. Abschätzung durch Ungleichung von Tschebyschew:
p(1 − p)
n
p(1 − p)
1
P (|Hn − p| > 0.05) ≤
≤
n(0.05)2
4n(0.05)2
1 n = 100
=
0.1 n = 1000
EHn = p
var Hn =
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER
63
2. Abschätzung durch Approximation mit Normalverteilung (Grenzwertsatz von Moivreas
Laplace): Hn ∼ N(p, p(1−p)
)
n
!
|Hn − p| √
0.05 √
P (|Hn − p| > 0.05) = P p
n> p
n
p(1 − p)
p(1 − p)
!
√
0.05 √
≤ P |Zn | ≥ p
n = P (|Zn | > 0.1 n)
1/4
√
0.3174 n = 100
= 2(1 − Φ(0.1 n)) =
0.0016 n = 1000
3. Güte der Approximation durch eine Normalverteilung:
Die Folge X1 , X2 , . . . erfüllt die Voraussetzungen des Satzes von Berry-Esseen. Es gilt
γ
σ3
= E|Xi − p|3 = (1 − p)3 p + p3 (1 − p) = p(1 − p)(p2 + (1 − p)2 )
= (var Xi )3/2 = (p(1 − p))3/2
also
(1 − p)2 + p2
sup |Fn (x) − Φ(x)| ≤ 0.5 p
x
np(1 − p)
und speziell für p = 0.5:
sup |Fn (x) − Φ(x)|
0.5
√ =
n
≤
x
0.05 n = 100
0.016 n = 1000
Tabelle 12.1 stellt die gewonnenen Ergebnisse noch einmal den tatsächlichen Werten gegenüber.
n
100
1000
P (|Hn − 12 | > 0.05)
0.2713
0.0014
Tschebyschew
1,0
0.1
Moivre-Laplace
0.3173
0.0016
Tabelle 12.1: Exakte Werte für P (|Hn − p|) und dessen Abschätzungen im Fall p = 0.5
Wir wenden uns nun dem Beweis des Satzes von Lindeberg zu:
Beweis. Es sei ηk = Xk − µk (Eηk = 0),
n
n
X
1 X
ηk
ηk =
σn
σn
ξn =
k=1
k=1
Zu zeigen ist nun lim P (ξn < x) = Φ(x). Wir benutzen charakteristische Funktionen und zeigen
n→∞
n 2o
lim ϕξn (t) = exp − t2 ; die Behauptung folgt dann aus Stetigkeits- und Eindeutigkeitssatz. Es
n→∞
gilt:
ϕ ηk (t)
σn
=
ϕηk
t
σn
Z
=
=
eitx/σn dFηk (x)
−∞
itx/σn
e
|x|>εσn
= I1 + I2
Z∞
Z
dFηk (x) +
|x|≤εσn
eitx/σn dFηk (x)
64
KAPITEL 12. ZENTRALE GRENZWERTSÄTZE
mit ε > 0 beliebig.
Einschub: Es gilt eia =
m−1
P
ν=0
(ia)ν
ν!
am Υm
m!
+
mit |Υm | ≤ 1. Speziell ergibt sich mit m = 2:
itx
x2 t2
+ Υ2 2
σn
2σn
(12.17)
x3 t3
itx x2 t2
+ Υ3 3
−
2
σn
2σn
6σn
(12.18)
eitx/σn = 1 +
und mit m = 3:
eitx/σn = 1 +
Mit (12.17) ergibt sich für I1 :
Z
I1 =
dFηk (x) +
(1)
t2
2
2σn
R
(1)
x dFηk (x) + Rk
|x|>εσn
|x|>εσn
mit |Rk | ≤
Z
it
σn
x2 dFηk (x). Für I2 ergibt sich mit (12.18):
|x|>εσn
Z
I2
=
dFηk (x) +
|x|≤εσn
2
−
(2)
mit |Rk | ≤
|t|3
3
6σn
R
t
2σn2
|x|3 dFηk (x) ≤
|x|≤εσn
Damit können wir schreiben:
t
ϕηk
σn
Z
it
σn
x dFηk (x)
|x|≤εσn
Z
(2)
x2 dFηk (x) + Rk
|x|≤εσn
ε|t|3
2 var Xk .
6σn
= I1 + I2 =

t2
1 + 0 − 2 var Xk
2σn

2
t
 (1)
(2)
+ R k + R k + 2
2σn
Z

x2 dFηk (x)
|x|>εσn
Wir setzen nun
ak
bk
t2
var Xk
2σn2
t2
(1)
(2)
:= Rk + Rk + 2
2σn
:= 1 + 0 −
Z
x2 dFηk (x)
|x|>εσn
Nach dem Faltungssatz ergibt sich:
ϕξn =
n
Y
ϕηk
k=1
t
σn
Wir setzen
∆1
∆2
:=
:=
n
Y
ϕηk
k=1
n Y
k=1
t
σn
−
n Y
k=1
t2
1 − 2 var Xk
2σn
t2
1 − 2 var Xk
2σn
−
n
Y
k=1
2
t
− 2σ
2 var Xk
e
n
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER
und erhalten
65
t2 ϕξn (t) − e− 2 ≤ |∆1 | + |∆2 |
Einschub: Es gilt:
n
Y
(ak + bk ) −
k=1
n
Y
ak =
n
X
j=1
k=1
Y
bj
ak
k<j
Y
(aj + bj )
(12.19)
j<k
Mit Hilfe von (12.19) erhalten wir nun:
∆1
|bk |
=
≤
n
X
Y
t
t2
var
X
ϕ
k
ηk
2
2σ
σ
n
n
j=1
j<k
k<j
Z
t2
ε|t|3
var
X
+
x2 dFηk (x)
k
6σn2
σn2
bj
Y
1−
⇒
|∆1 | ≤
n
X
|bj |
j=1
|x|>εσn
|∆1 |
≤
n
2 X
ε|t|3
t
+ 2
6
σn
≤ ε
Z
(x − µj )2 dFXj (x)
j=1
|x−µj |>εσn
|t|3
+ t2
6
für n ≥ n0 = n0 (ε) wegen (12.12)
Auf Grund der Ungleichung
−
e
t2 var Xk
2
2σn
≤
t2 var Xk
1−
2σn2
1
2
+
t2 var Xk
2σn2
2 !
erhalten wir wiederum mit (12.19) und (12.15) für n ≥ n00 = n00 (ε):
|∆2 |
≤
n
X
1 t4 (var Xk )2
k=1
2
− t2
Damit folgt lim ϕηk (t) = e
n→∞
8
σn4
≤
n
X
1
k=1
8
t4
1
var Xk 2
ε = t4 ε 2
σn2
8
.
Bemerkungen.
• Der zentrale Grenzwertsatz ist im allgemeinen nicht geeignet zur Abschätzung der Wahrscheinlichkeiten seltener Ereignisse, insbesondere der Wahrscheinlichkeiten großer Abweichungen von µ (large deviation, P (Zn > x)), auch wenn z. B.
d
Zn −
→ N(0, 1),
d. h., wenn
|P (Zn ≥ x) − (1 − Φ(x))| = |P (Zn < x) − Φ(x)|
klein wird (z. B. im Sinne von Berry-Esseen), kann der relative Fehler der Approximation
sehr groß sein (ist beispielsweise P (Zn ≥ x) = 0.01 und 1 − Φ(x) = 0.0001, so beträgt der
relative Fehler 100).
• In der Theorie der großen Abweichungen wird daher eine Funktion Q(n, x) gesucht, für die
lim
n→∞
x→∞
P (Zn ≥ x)
=1
Q(n, x)
(12.20)
(Dies ist z. B. in der Versicherungsmathematik bei der sogenannten Risikotheorie (Abschätzung der Wahrscheinlichkeit großer Schäden) wichtig).
66
KAPITEL 12. ZENTRALE GRENZWERTSÄTZE
• Es sind mehrere Verallgemeinerungen der Grenzwertsätze denkbar:
– Verteilung einer zufälligen Anzahl von Summanden:
N
X
Xi
i=1
wobei N und Xi Zufallsgrößen bezeichnen (z.B. Schadenssummen pro Jahr).
– Aufgabe der Unabhängigkeit der Xi ; dies wird in Grenzwertsätzen über stochastische
Prozesse betrachtet
– Aufgabe der Summenstruktur; z.B. ist die Konvergenz von
min(X1 , . . . , Xn ) − an
bn
(entsprechend für max) von Interesse (sogenannte Extremwertverteilung; z.B. ist die
Weibull-Verteilung eine solche Extremwertverteilung).
Ein weiterer bekannter Grenzwertsatz ist der Satz vom iterierten Logarithmus:
Satz 12.5 (ohne Beweis)
Die Folge der Zufallsgrößen Xi sei iid. mit EX1 = 0 und 0 < σ 2 = var X1 < ∞. Dann gilt:
n
P
Xi
i=1
lim sup p
=1
n→∞
2σ 2 n log(log(n))
d.h., bei iid-Zufallsgrößen Xi wird
P
Xi von der Ordnung
fast sicher,
p
n log(log n) groß.
(12.21)
67
Kapitel 13
Eigenschaften von Schätzern
Modell der klassischen mathematischen Statistik (Wiederholung)
In der klassischen mathematischen Statistik betrachten wir Zufallsgrößen X1 , . . . , Xn , die und
abhängig und identisch verteilt sind. Dabei ist X1 = X, wobei X der Prototyp der Grundgesamtheit ist. Der Vektor X = (X1 , . . . , Xn )T wird als mathematische Stichprobe bezeichnet, deren
Realisierung x = (x1 , . . . , xn ) konkrete Stichprobe heißt. Dabei wird mit n der Stichproben-Umfang
bezeichnet.
Die Aufgabe der klassischen mathematischen Statistik ist es nun, anhand von gegebenen konkreten Stichproben die Verteilung PX zu erforschen. Üblicherweise formuliert man aufgrund von
Vorwissen oder einer Explorativen Datenanalyse eine Annahme. Auf dieser Annahme bauen dann
weitere Untersuchungen auf.
Unter sogenannten Verteilungsannahmen versteht man Annahmen der Form: Die gesuchte Ver”
teilung gehört zu einer Menge P (PX ∈ P).“ Wichtig sind parametrische Aufgaben. Bei diesen gilt
für die Menge P:
P = {P : P = Pϑ , ϑ ∈ Θ}
13.1
Ungleichung von Rao-Cramér
Im allgemeinen ist es erstrebenswert, bei erwartungstreuen Schätzern die Schätz-Varianz
E(ϑ̂ − ϑ)2 = E(ϑ̂ − Eϑ̂)2 möglichst klein zu halten. Unter gewissen Umständen kann man hierfür
eine untere Schranke angeben. Falls diese erreicht wird, spricht man von einem effektiven Schätzer.
Da viele Indizes die Übersicht erschweren, treffen wir an dieser Stelle folgende Konvention: ϑ sei
reell und ϑ̂ ein Schätzer für ϑ, wobei der Erwartungswert von ϑ̂ endlich ist. Wir schreiben dann
ϑ̂(X) bzw. ϑ̂(x) und meinen dabei ϑ̂ = T (X).
Es gilt:
Z
Eϑ̂ =
ϑ̂(x)L(x, ϑ) dx = ϑ + b(ϑ)
(13.1)
Mn
Dabei bezeichnet b(ϑ) den Bias, den systematischen Fehler. Für den absolutstetigen Fall ergibt
sich speziell
Z
n
Y
Eϑ̂ =
ϑ̂(x)
f (xi , ϑ) d x1 . . . dxn
i=1
Mn
und im diskreten Fall
Eϑ̂ =
X
ϑ̂(x)
n
Y
i=1
P ({xi }, ϑ)
68
KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN
Es werden nun die folgenden Voraussetzungen gemacht:
1. Der Support supp L(x, ϑ) = {x ∈ M n : L(x, ϑ) > 0} ist von ϑ unabhängig. Dies ist beispielsweise für die Gleichverteilung glm[0, ϑ] nicht erfüllt.
2. L soll nach ϑ differenzierbar sein und
3. die Integration bezüglich x muss mit der Differentiation bezüglich ϑ (in Ausdrücken wie
(13.1)) vertauschbar sein.
Satz 13.1 (Informations-Ungleichung von Rao-Cramér bei reellwertigem Parameter ϑ)
Unter den obigen Voraussetzungen gilt
(1 + b0 (ϑ))2
,
nI(ϑ)
var ϑ̂ ≥
(13.2)
wobei
I(ϑ) = var
∂ ln f (X1 , ϑ)
∂ϑ
im stetigen Fall beziehungsweise
I(ϑ) = var
∂ ln P ({X1 }, ϑ)
∂ϑ
im diskreten Fall ist, allgemein
I(ϑ) =
1
var
n
∂
ln L(X, ϑ) .
∂ϑ
I(ϑ) wird als Fisher-Information bezeichnet. Die rechte Seite von (13.2) heißt Rao-CramérSchranke. Bei r Parametern wird aus der Fisher-Information die Fishersche Informationsmatrix.
Beweis.
1. Differentiation von 13.1 nach ϑ liefert
Z
0
1 + b (ϑ) =
ϑ̂(x)L0 (x, ϑ) dx.
Mn
Hierbei ist u0 =
∂
∂ϑ u.
Aus l = ln L folgt l0 =
1 + b0 (ϑ) =
Z
L0
L
und damit L0 = l0 L. Somit ergibt sich
ϑ̂(x)l0 (x, ϑ)L(x, ϑ) dx = E ϑ̂ · l0 .
Mn
2. Aus 1 =
R
L(x, ϑ) dx folgt durch Differentation beider Seiten
Z
0=
l0 (x, ϑ)L(x, ϑ) dx = El0 .
Speziell für n = 1 ergibt sich
0=E
∂ ln f (X1 , ϑ)
∂ϑ
= El10 .
13.1. UNGLEICHUNG VON RAO-CRAMÉR
69
3. Für die eigentliche Rechnung ergibt sich nun:
1 + b0 (ϑ)
= E(ϑ̂ · l0 ) − El0 · Eϑ̂ = E((ϑ̂ − Eϑ̂)l0 ),
da El0 = 0 ist. Nach der Schwarzschen Ungleichung gilt:
2
(1 + b0 (ϑ))2
2
≤ E(ϑ̂ − Eϑ̂)2 · El0 = var ϑ̂ · El0 .
P
Da die Zufallsgrößen Xi unabhängig identisch verteilt sind und l0 = li0 gilt, folgt
i
2
El0 = var l0 = n · var l10 = nI(ϑ)
und die Behauptung.
Bemerkung. Bei Erwartungstreue erhält der Zähler in (13.2) den Wert 1.
Beispiel. Wir betrachten die Poisson-Verteilung, wo bekanntlich λ̂ = X̄ erwartungstreu ist. Für
die Varianz gilt dann var X̄ = n1 var X1 , und daraus ergibt sich
var λ̂ = var X̄ =
1
λ
var X1 = .
n
n
Um nun die Fisher-Information zu berechnen, gehen wir folgendermaßen vor. Zuerst berechnen
wir l(X1 , λ):
X1
λ
−λ
e
l(X1 , λ) = ln
X1 !
= X1 ln λ − (λ + ln(X1 !))
Differentiation ergibt dann
∂l(X1 , λ)
X1
=
− 1.
∂λ
λ
Damit ergibt sich bei der Varianz-Berechnung
l10 =
var l10
=
var
X1
1
λ
1
= 2 var X1 = 2 = .
λ
λ
λ
λ
Also beträgt die Fisher-Information I(λ) = λ1 . Es folgt für die rechte Seite von (13.2)
var ϑ̂ =
1
λ
= ,
n
n λ1
demnach ist X̄ effektiv.
Definition 13.1 Ein erwartungstreuer Schätzer, der das durch (13.2) gegebene Minimum erreicht, heißt effektiv (effizient, wirksam).
Nun wollen wir uns der Frage widmen, warum das so schön klappt (und wann in der Schwarzschen
Ungleichung das Gleichheitszeichen gilt). Die Bedingung dafür ist eine bestimmte Struktur der
Verteilung.
Wir befassen uns mit der Exponentialfamilie (Pϑ )ϑ∈Θ mit absolutstetigen Pϑ . Die zugehörige
Likelihoodfunktion hat die Struktur
L(x, ϑ) = 1D (x) exp{A(ϑ)η̂(x) + B(ϑ) + C(x)}.
(13.3)
D bezeichnet hierbei eine Borel-Menge des Rn . A, B, C sind messbare Funktionen, die in die Menge
der reellen Zahlen abbilden. Schließlich gilt noch η̂ = η̂(x), η̂ ist der Schätzer für einen Parameter
η(ϑ), wobei im Augenblick noch nicht klar ist, wie η von unserem Modellparameter ϑ abhängt.
70
KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN
Wann gilt in (13.2) das Gleichheitszeichen?
Im obigen Beweis wurde die Schwarzsche Ungleichung E(U V )2 ≤ EU 2 EV 2 für die Zufallsgrößen
U = l0 und V = η̂ − Eη̂ benutzt. Gleichheit gilt nur im Fall U = aV , wobei a eine reelle Konstante
ist.
Es gilt
l0 (x, ϑ) = A0 (ϑ)η̂(x) + B 0 (ϑ),
x ∈ D.
Demnach muss
0 = El0 (X, ϑ) = A0 (ϑ)Eη̂(X) + B 0 (ϑ) = A0 (ϑ)Eη̂ + B 0 (ϑ)
gelten, woraus folgt
B 0 (ϑ)
Eη̂
= −Eη̂ · A0 (ϑ),
B 0 (ϑ)
.
= − 0
A (ϑ)
und damit
Daraus kann man nun auf
l0 (x, ϑ) = A0 (ϑ)(η̂(x) − Eη̂),
x∈D
schließen. Mit a = A0 (ϑ) gilt dann tatsächlich U = aV ,
0
(ϑ)
Also ist η̂ für den Parameter η = − B
A0 (ϑ) erwartungstreu und effektiv. Was nützt das nun?
Wir müssen jetzt die Formel (13.3) nehmen, die Dichtefunktion in eine passende Form bringen
0
(ϑ)
und versuchen, η̂ zu verstehen und hoffen, dass − B
A0 (ϑ) anständig aussieht.
Beispiel.
Für die Exponentialverteilung ist die Dichtefunktion
f (x, λ) = λe−λx 1[0,∞) (x)
bekannt. Damit ergibt sich für die Likelihood-Funktion
(
n
L(x, λ) = 1[0,∞)n (x)λ exp −λ
n
X
)
xi
i=1
und damit
(
L(x, λ) = 1[0,∞)n (x) exp −λ
n
X
)
xi + n ln λ
i=1
Damit gehört die Exponentialverteilung zur Exponential-Familie. Wir setzen also A(λ) = −λ,
n
0
P
(λ)
n
B(λ) = n ln λ und η̂ =
xi und erhalten B 0 (λ) = nλ und A0 (λ) = −1. Damit ist Eη̂ = − B
A0 (λ) = λ .
i=1
Also ist
n
P
i=1
für
Xi erwartungstreu und effizient für nλ . Entsprechend ist X̄ erwartungstreu und effizient
1
λ.
13.2
Suffiziente Schätzer
Beispiel 1. Gesucht wird mit Hilfe der Statistik die Einzelwahrscheinlichkeit p im BernoulliSchema. Dazu nehmen wir eine Stichprobe (x1 , . . . , xn ) = x (Folge von 0“ und 1“ der einzelnen
”
”
xi , wobei 0“ einen Misserfolg und 1“ einen Erfolg bezeichnet). Wenn nur p zu schätzen ist,
”
”
genügt es anscheinend, nur
n
X
T (x) =
xi
i=1
13.2. SUFFIZIENTE SCHÄTZER
71
zu kennen. Es gilt ja dann:
p̂ =
T (x)
n
T (x) ∼ Bin(n, p).
Also ist viel weniger Information als das gesamte x erforderlich.
1
Beispiel 2. Ein Physiker will λ der Exponentialverteilung schätzen. Er findet den Schätzer
n
λ̂ = P
n
Xi
i=1
nicht gut, weil so viel Information verschenkt wird. Deswegen hat er ein Histogramm ermittelt
und eine Exponentialfunktion angepasst. Ist das sinnvoll?
Wann sind nun solche Datenreduzierungen zulässig und sinnvoll? Mit dieser Frage beschäftigt sich
die Theorie der suffizienten/erschöpfenden Statistiken.
Definition 13.2 T (X) heißt suffizient (erschöpfend) für ϑ, wenn PX (·|T = t; ϑ) unabhängig von
ϑ ist.
Beispiel. Im Bernoulli-Schema sei T (X) = k die Anzahl der Erfolge. Wenn k bekannt ist, wie hoch
sind dann die Wahrscheinlichkeiten
für die verschiedenen Realisierungen von X = (X1 , . . . , Xn )?
Es gibt dann nk mögliche Fälle, 2 die allesamt die gleiche Wahrscheinlichkeit haben. Damit ergibt
−1
sich die Wahrscheinlichkeit von nk
für jedes (x1 , . . . , xn ). Diese ist offenbar unabhängig von p.
Also ist T (X) suffizient.
Für den absolutstetigen Fall mit reellem ϑ stellt eine Likelihood-Funktion der Form
L(x, ϑ) = q(ϑ, T (x))r(x)
ein hinreichendes Kriterium für die Suffizienz dar.
Im Falle der Exponential-Verteilung mit der Likelihood-Funktion
(
)
n
X
n
L(x, λ) = 1[0,∞)n (x)λ exp −λ
xi
i=1
n
n
P
P
n
sind zum Beispiel r = 1[0,∞) (x) und q = λ exp −λ
xi , wobei T (x) =
xi ist.
i=1
i=1
Die Verbesserung von Schätzern durch Bedingen mit suffizienten Schätzern nennt man salopp
Rao-Blackwellisieren. Es sei ϑ̂ ein erwartungstreuer Schätzer für ϑ und T (X) sei suffizient. Dann
kann man mittels der Formel
ϑ̂T (X) = E(ϑ̂(X) | T (X))
(13.4)
einen neuen Schätzer ϑ̂T konstruieren. Er ist wegen
E(E(X | Y )) = EX
(13.5)
ebenfalls erwartungstreu, nach (7.16) ist die Streuung kleiner (oder gleich) als die von ϑ̂, und ϑ̂T
ist wie T (X) suffizient.
1 Natürlich gilt dies nicht für alle Aufgaben. Wollte man zum Beispiel prüfen, ob das Bernoulli-Schema wirklich
passend ist, so wäre es nötig, wirklich x zu kennen.
2 Diese lassen sich kombinatorisch herleiten, indem die n Positionen von 1 bis n durchnumeriert werden. Jeder
mögliche Fall beschreibt dann eine Auswahl von genau k dieser Positionen aus den n möglichen ohne Wiederholung.
Dafür gibt es bekanntlich n
Möglichkeiten.
k
72
KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN
Beispiel. Sei X auf dem Intervall [0, ϑ] gleichverteilt und ein geeigneter Schätzer für ϑ gesucht. Es seien weiterhin ϑ̂(1) = max Xi der M-L-Schätzer und ϑ̂(2) = 2X̄ der erwartungstreue
i
Momentenmethoden-Schätzer für ϑ. ϑ̂(1) ist suffizient für ϑ, denn die Likelihood-Funktion
L(X, ϑ) =
1
1[Xmax ,∞) (ϑ)
ϑn
hängt nur von Xmax ab. Dann ergibt
E(2X̄|Xmax ) =
n+1
Xmax = ϑ̂T = ϑ̂(3)
n
einen suffizienten Schätzer, der offensichtlich besser als ϑ̂(1) ist.
Um die wahre“ Gestalt von E(2X̄|Xmax ) zu erforschen, wird die in Kapitel 11 skizzierte Methode
”
angewendet. Dazu wird die Funktion f (x) = E(X̄|Xmax = x) berechnet. Es gilt
f (x) =
1
n−1x
n+1
x+
=
x.
n
n 2
2n
Daraus folgt
E(X̄|Xmax ) =
n+1
Xmax ,
2n
woraus unser oben genanntes Ergebnis E(2X̄|Xmax ) =
Satz 13.2 (Rao-Blackwell)
treu. Dann ist der Schätzer
n+1
n Xmax
folgt.
Es sei T (X) suffizient für den Parameter ϑ und ϑ̂ sei erwartungsϑ̂T = E(ϑ̂(X)|T (X))
ebenfalls erwartungstreu und suffizient und hat höchstens die Varianz von ϑ̂,
var ϑ̂T ≤ var ϑ̂.
Beweis. Die Erwartungstreue resultiert aus der Formel 13.5, die Suffizienz aus (7.17) mit
E(X|Y ) = f (Y ) und die Varianzungleichung aus (7.16).
73
Kapitel 14
Signifikanztests
14.1
Einführung
Die Signifikanztests werden manchmal als eine der 20 großen Erfindungen des 20. Jahrhunderts
bezeichnet. Ein Test ist allgemein ein Verfahren zur Überprüfung einer Hypothese. Als statistische
Hypothesen werden oft die folgenden verwendet:
1. EX > µ0 (z. B. Festigkeit eines Werkstoffes)
2. p < p0 (z. B. Ausschussquote hinreichend klein).
3. Die Verteilungsfunktion einer Zufallsgröße ist die Normalverteilungsfunktion mit den Parametern (µ, σ 2 ).
4. Zwei Stichproben stammen aus der gleichen Grundgesamtheit (z. B. Erzproben aus zwei
Lagerstätten).
Das Ziel ist nun eine solche Hypothese anzunehmen oder abzulehnen, ausgehend von einer Stichprobe. Das Ergebnis ist vom Zufall abhängig. 1
Die Nullhypothese H0 spielt eine zentrale Rolle im Test, manchmal nur vergleichend, oftmals aber
auch direkt. Sie legt die Verteilung eindeutig fest; wenn H0 erfüllt ist, kann die Verteilung einer
Testgröße“ bestimmt werden. Oft macht sie nur die Aussage nichts los“ oder kein Effekt“.
”
”
”
Alternativ dazu gibt es die sogenannte Alternativhypothese H1 (manchmal auch HA ). Sie wird
akzeptiert, wenn H0 abgelehnt wird, wenn H0 als zu unwahrscheinlich erscheint. Dann spricht
man von signifikanten“ oder statistisch gesicherten“ Abweichungen von H0 . Oft ist die Alterna”
”
tivhypothese die Arbeitshypothese“, die man eigentlich beweisen will.
”
Entscheidungsregeln können mittels einer Zufallsgröße τ formuliert werden:
1, wenn H0 abgelehnt
τ (ω) =
0, wenn H0 nicht abgelehnt werden kann
Diese Zufallsgröße hat die Eigenschaft:
τ (ω) = 1
⇐⇒
ω liegt im kritischen Bereich.
Bei den Tests gibt es zwei wichtige Fehler:
1 Über die Richtigkeit oder Falschheit der Hypothese kann keine Aussage gemacht werden, weil die statistischen
Untersuchungen auf Zufall und Wahrscheinlichkeiten beruhen und nicht auf Sicherheiten.
74
KAPITEL 14. SIGNIFIKANZTESTS
1. H0 ist richtig, aber wir lehnen H0 ab. Dieser Fehler wird als Fehler erster Art bezeichnet.
2. H0 wird nicht abgelehnt, obwohl sie falsch ist. Das ist dann der Fehler zweiter Art.
Bei den sogenannten Signifikanz-Tests ist die Wahrscheinlichkeit des Fehlers erster Art vorgegeben.
Diese soll kleiner oder (idealerweise) gleich einer Zahl α sein, die dann Irrtums-Wahrscheinlichkeit
2
bzw. Signifikanzniveau 3 genannt wird.
Die Tests kann man grob in zwei Klassen einteilen:
Parameter-Test: Es werden Parameter betrachtet. So kann die Nullhypothese die Form
H0 : µ = µ0 o. ä. haben.
nichtparametrischer Test:
z.B. Anpassungs-Test: Es werden Verteilungsfunktionen betrachtet. So kann die Nullhypothese die Form H0 : F = F0 haben. (Englisch: goodness-of-fit test“).
”
Ein weiterer nichtparametrischer Test ist z.B. der Test auf stochastische Unabhängigkeit
zweier Merkmale.
14.2
Beispiel: Mittelwert-Tests im Fall der Normalverteilung
14.2.1
Bekannte Varianz – Gauß-Test
Die Nullhypothese lautet
H0 : µ = µ0 ,
2
und es wird angenommen, dass σ bekannt ist. µ könnte beispielsweise die Füllmenge von Bierflaschen angeben. Als Alternativ-Hypothese stehen die folgenden drei zur Verfügung:
• Die zweiseitige Alternative H1 : µ 6= µ0 ist z. B. für den Messtechniker, der eine möglichst
hohe Genauigkeit beim Bierabfüllen erreichen will, interessant. Wenn er das Abfüllgerät
eingestellt hat, hofft er auf eine Annahme von H0 .
• Die einseitige Alternative H1 : µ > µ0 ist z. B. für einen Alkoholgegner interessant, der
befürchtet, dass die Leute durch (unbewusst) höheren Bierkonsum abhängig werden. Er
hofft auf die Ablehnung von H1 .
• Die einseitige Alternative H1 : µ < µ0 ist z. B. für einen Säufer interessant, der möglichst
viel trinken möchte und deshalb sicherstellen möchte, dass die Flasche auch mindestens die
theoretische Füllmenge enthält. Auch er hofft auf die Ablehnung von H1 .
Die beiden einseitigen Alternativen H1 : µ > µ0 bzw. H1 : µ < µ0 passen“ eigentlich besser zu
”
den Nullhypothesen H0 : µ ≤ µ0 bzw. H1 : µ ≥ µ0 , und häufig wird die Testproblematik dann
auch so behandelt.
Wenn nun H0 richtig ist, dann gilt für die unabhängig identisch verteilten X1 , . . . , Xn
X1 , . . . , Xn ∼ N(µ0 , σ 2 )
2
und für den Mittelwert X̄ ∼ N(µ0 , σn ). Die Idee ist nun, H0 abzulehnen, wenn x̄ zu weit von
µ0 entfernt ist, also x̄ µ0 oder x̄ µ0 ist. Zur weiteren Rechnung führen wir die kanonische
Variable ω = x̄ ein. Wenn wir H1 : µ > µ0 betrachten, dann erhalten wir für die Zufallsgröße τ :
1 x̄ > x1−α
τ (x̄) =
0 sonst
2 Beachte:
Hier wird nur der Fehler erster Art betrachtet.
wird auch 1 − α als Signifikanz-Niveau bezeichnet
3 Manchmal
14.2. BEISPIEL: MITTELWERT-TESTS IM FALL DER NORMALVERTEILUNG
75
mit geeignetem x1−α . Unser Ziel ist, dass der Fehler 1.Art die Wahrscheinlichkeit α hat, d.h., dass
gilt
Pµ0 X̄ > x1−α = α.
Das richtige x1−α finden wir gemäß
P (X̄ > x1−α ) = α
=1−Φ
x1−α − µ0
!
√σ
n
unter Ausnutzung der Normalverteilungsannahme. Es gilt
x1−α − µ0
√σ
n
= z1−α ,
also x1−α = µ0 + z1−α √σn .
Der kleinste Wert von α, bei dem für ein gegebenes x̄ H0 abgelehnt wird, ist der sogenannte
p-Wert. Im hier betrachteten Fall berechnet er sich folgendermaßen:
!
x̄ − µ0
p = Pµ0 (X̄ > x̄) = 1 − Φ
.
σ
√
n
Die Gütefunktion (Macht, Power) ist die Wahrscheinlichkeit in Abhängigkeit von µ dafür, dass H0
abgelehnt wird. Sie hat folgende Form:
σ
g(µ) = Pµ X̄ > µ0 + z1−α √
n
!
σ
µ0 + z1−α √n − µ
= 1−Φ
= 1 − Φ(z1−α − c)
σ
√
mit c :=
µ − µ0 √
n
σ
n
Nichtzentralitätsparameter“
”
.
g ist also monoton wachsend in µ. Damit lässt sich nun auch die maximale Wahrscheinlichkeit
angeben, dass H0 fälschlicherweise abgelehnt wird. Sie liegt hier bei:
sup g(µ) = g(µ0 ),
µ≤µ0
was plausibel erscheint. Bemerkenswert ist vielleicht noch
lim g(µ) = 1.
µ→∞
Wir wollen nun x̄ festhalten und den Einfluss von α und n auf das Testergebnis untersuchen.
Wir beginnen mit α. H1 wird angenommen, wenn x̄ > µ0 + z1−α √σn gilt. Nun fällt aber z1−α bei
steigendem α. Damit würde dann H1 öfter“ angenommen. Also ist ein großes α H0 -unfreundlich.
”
Hieraus ergeben sich Möglichkeiten, Betrügereien in der Statistik durchzuführen. So kann man
α sehr klein wählen, wenn man H0 annehmen möchte, und sehr groß, wenn man H1 annehmen
möchte. Übliche Werte für α sind von 0.05 bis 0.01, wobei in der Medizin oft auch mit 0.005
gerechnet wird. Äußerst unüblich sind dagegen Werte wie 0.10 oder 0.001.
Kommen wir nun zum Einfluss von n. Für steigendes n fällt µ + z1−α √σn . Damit werden auch
relativ kleine Änderungen von x̄ ernst genommen.
Der Fehler zweiter Art wird mit β bezeichnet. Bei uns wird α vorgegeben, während i.a. β berechnet
werden muss. Kleine β sind oft nur durch große n zu erreichen. Berechnet wird der Fehler zweiter
Art nach der Formel
β(µ) = 1 − g(µ).
76
KAPITEL 14. SIGNIFIKANZTESTS
H0 richtig
H0 falsch
H0 nicht abgelehnt
richtige Entscheidung
1−α
falsche Entscheidung
β
H0 abgelehnt
falsche Entscheidung
α
richtige Entscheidung
1−β
Tabelle 14.1: mögliche Entscheidungen und Fehler beim Signifikanztest
1 − g(µ) wird als Operations-Charakteristik (OC) bezeichnet. Die vier möglichen Entscheidungen
und Fehler sind in Tabelle 14.1 systematisiert.
Beispiel. Eine Lebensdauer-Untersuchung wird angesetzt, um zu ermitteln, ob die Lebensdauer
eines Bauteils größer als 100 Tage ist. Bei dieser Untersuchung sind n = 10, σ = 20 und α = 0.05
festgesetzt. Als Nullhypothese wurde H0 : µ = 100 genommen. Die Alternativhypothese lautet
dann H1 : µ > 100. Damit ergibt sich µ0 = 100. In der Stichprobe möge sich eine durchschnittliche
Lebensdauer von x̄ = 112 ergeben. Die Rechnung ergibt:
20
σ
x1−α = µ0 + z1−α √ = 100 + 1.645 · √ = 110.4,
n
10
d.h. x̄ > x1−α .
Demnach wird H0 abgelehnt und H1 angenommen. Der p-Wert beträgt in diesem Falle 0.0289.
Das bedeutet, dass bei einem α von 0.01 H0 angenommen würde. Das Ergebnis könnte man etwa
so formulieren:
Die Messungen (Versuche) haben ergeben, dass die mittlere Lebensdauer signifikant
”
(mit großer Sicherheit) über 100 Tagen liegt.“
Für die Gütefunktion gilt in diesem Fall:
g(µ) = 1 − Φ
100 +
32.9
√
n
20
√
n
−µ
!
Damit ergibt sich für n = 10 und eine wahre mittlere Lebensdauer von 110 Tagen der Wert
g(110) = 0.48. Das ist allerdings ein klägliches Ergebnis: Wenn tatsächlich µ = 110 ist, wird H1
nur in 48% der Fälle angenommen. Erst bei n = 43 gibt es diesbezüglich ein einigermaßen sicheres
Ergebnis: Es gilt dann g(110) = 0.95.
x̄ − µ0
Hier noch einmal die Testregeln für den Gauß-Test:
Testgröße T =
σ

 µ ≤ µ0
µ ≥ µ0
H0 :

µ = µ0
14.2.2


 µ > µ0 : Lehne H0 ab, wenn T
H1 :
µ < µ0 : Lehne H0 ab, wenn T

 µ 6= µ : Lehne H ab, wenn T
0
0
sog. kritische Bereiche
z
}|
{
> z1−α
.
< −z1−α = zα .
< −z1− α2 ∨ T > z1− α2 .
Unbekannte Varianz – Student-Test, t-Test
Für die Nullhypothese sei wieder H0 : µ = µ0 . Auch die Alternativhypothesen mögen die gleichen
Fälle annehmen, wie im vorigen Abschnitt. Entsprechend Formel (9.3) gilt:
T =
X̄ − µ
√S
n
∼ tn−1
14.3. AUSGEWÄHLTE WEITERE TESTS IM FALL DER NORMALVERTEILUNG
77
Die drei Testregeln haben dann die folgende Form: 4


 µ ≤ µ0
 µ > µ0 : Lehne H0 ab, wenn T > tn−1,1−α .
µ < µ0 : Lehne H0 ab, wenn T < −tn−1,1−α .
µ
≥
µ
H0 :
H1 :
0


µ 6= µ0 : Lehne H0 ab, wenn |T | > tn−1,1− α2 .
µ = µ0
Die Annahme hierbei ist, dass es sich um eine Normalverteilung handelt (bzw. dass X̄ asymptotisch
normalverteilt ist. Dieser Test ist relativ robust gegenüber Abweichungen von der Normalverteilung.) Ab n = 30 kann übrigens statt tn−1,1−α näherungsweise z1−α genommen werden.
14.2.3
Vergleich zweier Mittelwerte – Welch-Test
Als Nullhypothese wird hier H0 : µX = µY betrachtet, wobei
Xi
Yi
2
∼ N(µX , σX
)
∼ N(µY , σY2 )
Bei Verwendung von Stichprobenumfängen nX und nY und unbekannten und verschiedenen Va2
rianzen σX
und σY2 gibt es von Welch gefundene Näherungsformeln für H1 : µX 6= µY :
T =q
X̄ − Ȳ
2
SX
nX
+
∼ tm
2
SY
nY
mit
m = int
2
S
X
nX
S2
Y
nY
2
2
SY
SX
nX + nY
2 2
nX +1
+
−2
nY +1
Für große nX und nY gilt m ≈ nX + nY .
14.3
Ausgewählte weitere Tests im Fall der Normalverteilung
14.3.1
Varianztest
Bei einer Normalverteilung sei die Nullhypothese H0 : σ 2 = σ02 zu testen. Man benutzt die Testgröße
(n − 1)S 2
T =
∼ χ2n−1 ,
σ02
vgl. (9.2). Hier gibt es die folgenden Testregeln:
 2
 σ ≤ σ02
σ 2 ≥ σ02
H0 :
 2
σ = σ02
 2
2
 σ > σ0 :
2
σ < σ2 :
H1 :
 σ 2 6= σ02 :
0
Lehne H0 ab, wenn T > χ2n−1,1−α .
Lehne H0 ab, wenn T < χ2n−1,α .
Lehne H0 ab, wenn T < χ2n−1, α oder T > χn−1,1− α2 .
Hilfreich zum Verständnis ist hierzu [10], Seiten 120/121.
4 Siehe
auch Tabellen [10], Seite 117
2
78
14.3.2
KAPITEL 14. SIGNIFIKANZTESTS
Korrelation
Die Zufallsgrößen X und Y mögen eine zweidimensionale Normalverteilung haben. Wenn nun
%XY = 0 ist, dann sind beide unabhängig. Als Schätzer für %XY verwenden wir %̂XY , für dessen
Realisierung in der Literatur oft das Symbol rXY verwendet wird. Der empirische Korrelationskoeffizient rXY wird berechnet durch
Pn
(xi − x̄)(yi − ȳ)
.
rXY = pPn i=1
Pn
2
2
(x
i=1 (yi − ȳ)
i=1 i − x̄)
Hierbei ist zu beachten, dass die Werte xi und yi für jedes i zusammengehören. Als Testgröße wird
√
rXY n − 2
T = p
∼ tn−2
2
1 − rXY
benutzt. Alternativhypothese ist H1 : %XY 6= 0. Als Testregel gilt hier: Lehne H0 ab, wenn
|T | > tn−2,1− α2 .
Auch hier wird von unehrlichen Statistikern oft getrickst. Ein genügend großes α oder ein großes
n führen zur Ablehnung von H0 .
14.4
χ2 -Anpassungstest
Mit Hilfe des χ2 -Anpassungstests können Verteilungsannahmen getestet werden. Hier gilt bei
großem n für die Stichprobenfunktion
T =
k
X
(hi − npi )2
i=1
npi
∼ χ2k−r−1 .
Dabei werden die Einzelergebnisse in k Klassen eingeteilt (z. B. die Intervalle [ai−1 , ai ), wobei
meist a0 = 0, gegebenenfalls auch a0 = −∞, und ak = ∞ ist). Dann sind hi die Häufigkeiten in
den einzelnen Klassen. n ist – wie immer – die Anzahl der Werte. Für die pi gilt hier
pi = P (ai−1 ≤ X < ai ) = F0 (ai ) − F0 (ai−1 ).
Für große n ergibt sich näherungsweise eine χ2 -Verteilung. Dabei gibt r die Anzahl der Parameter an, die nach der M-L-Methode aus der Stichprobe geschätzt werden (z. B. r = 2 bei einer
Normalverteilung). Die Nullhypothese H0 wird abgelehnt, wenn T > χ2k−r−1,1−α ist.
79
Kapitel 15
Regressionsanalyse
15.1
Einführung
Bei der Regressions-Analyse soll eine Punktwolke, ein sogenannter Scatter-Plot, auf einen funktionalen Zusammenhang hin untersucht werden. Dazu werden in der Regel zwei Modelle verwendet:
Modell I. Beim Modell I wird als Zusammenhang die Formel
Y (x) = g(x) + ε(x)
angenommen. Dabei ist g eine unbekannte deterministische Funktion. ε(x) ist der zufällige Fehler
bei der Beobachtung. Hier soll Eε(x) = 0 gelten, es soll also kein systematischer Fehler vorliegen.
Ferner sei var ε(x) = σ 2 und die Fehler für verschiedene x seien i.i.d. Der Parameter x ist einstellbar, wird also vorgegeben. Die Stichprobe y1 , . . . , yn besteht aus den Realisierungen Y (xi ) an den
Beobachtungsstellen x1 , . . . , xn .
Nun gibt es abhängig von der Aufgabe zwei Wege, wie das Problem gelöst werden kann: Der
parametrische und der nichtparametrische Weg. Wir werden uns zunächst dem parametrischen
Weg widmen. Dabei wird ein Ansatz g(x, ϑ) (z. B. g(x) = a + bx mit ϑ = (a, b)) gemacht. Der
lineare Ansatz hat die Form
g(x, ϑ) = ϑ1 f1 (x) + . . . + ϑr fr (x),
mit bekannten fi . Die ϑi können dann mit Hilfe der Approximations-Theorie oder Ausgleichsrechnung ermittelt werden.
Modell II. Hier liegt ein Zufallsvektor (X, Y ) vor, dem ein Zusammenhang der Form Y = g(X)+ε
angepasst wird. Die Daten sind analog zum Modell I gegeben. Der Unterschied liegt aber darin,
dass sowohl X als auch Y zufällig sind, d.h., jetzt lautet die Stichprobe (x1 , y1 ), . . . , (xn , yn ).
Beispiele.
1. Größe (X) und Gewicht (Y ) des Menschen.
2. Größe des Vaters (X) und des Sohnes (Y ).
Woher kommt übrigens der Name Regression“? Große Väter haben nicht immer so große Söhne
”
und kleine Väter nicht immer so kleine, wie schon Galton bei statistischen Untersuchungen feststellte. Dementsprechend ergibt sich eine Kurve wie in Abbildung 15.1 zu sehen. Dieses Zurückgehen
”
zum Durchschnitt“ hängt mit der Vorsilbe Re“ zusammen.
”
!
Die optimale Lösung von E(Y − g(X))2 = min (messbares g) ist natürlich mit g(X) = E(Y | X)
gegeben, häufig aber schwer zu berechnen. Daher wird oft eine aufgezwungene Lösung verwendet,
80
KAPITEL 15. REGRESSIONSANALYSE
Y
ideale Gerade
6
beobachtete Kurve
X
Abbildung 15.1: Regressions-Kurve
die durch einen Ansatz bestimmt ist. Beispielsweise führt der lineare Ansatz zu dem Optimierungsproblem
E((Y − a − bX)2 ) → min!
Die Formeln zur Bestimmung von a und b unterscheiden sich nicht von denen im Modell I.
15.2
Methode der kleinsten Quadrate für Modell I
Im allgemeinen ist die Wahl der Messpunkte frei. Zur optimalen Wahl der xi kann man die Theorie
der Versuchsplanung befragen.
Zur Berechnung der Näherung gibt es nun verschiedene Möglichkeiten: Zum einen gibt es die
Tschebyschew-Approximation
ϑ̂ = arg min sup |g(xi , ϑ) − yi |
ϑ
i=1,...,n
sowie die L1 -Approximation
ϑ̂ = arg min
ϑ
n
X
|g(xi , ϑ) − yi |.
i=1
Zum anderen gibt es die Methode der kleinsten Quadrate von Gauß und Legendre, die von Legendre
1805 publiziert worden ist und der L2 -Approximation entspricht. 1
ϑ̂ = arg min
ϑ
n
X
(g(xi , ϑ) − yi )2 .
i=1
Im linearen Fall hat man damit keine größeren Probleme. Aber im nichtlinearen Fall nutzt man
häufig eine der beiden Alternativen:
1. Numerische Verfahren. Hier ist die beliebteste Methode in der Statistik die MarquardtProzedur.
2. Transformationsmethode
Beispiel. Die Funktion y = ae−bx kann man durch Logarithmieren auf eine lineare Form bringen:
ln y
zi
1 Gauß
= ln a − bx
= A + Bxi
behauptete damals, schon lange so gerechnet zu haben.
15.2. METHODE DER KLEINSTEN QUADRATE FÜR MODELL I
81
Die daraus ermittelten Werte  und B̂ kann man nun folgendermaßen zurücktransformieren: Für
â gilt â = e und aus B̂ wird b̂ = −B̂.
Doch wenden wir uns jetzt dem linearen Fall zu. Wir betrachten also den Zusammenhang
Y = a + bx + ε(x),
(15.1)
Y = ϑ1 f1 (x) + . . . + ϑr fr (x) + ε(x) = f (x)T ϑ + ε(x).
(15.2)
oder allgemeiner
Wir fassen nun alle unsere Werte y1 ,. . . ,yn der Stichprobe zusammen. Dann sind y = (y1 , . . . , yn )T ,
ε = (ε1 , . . . , εn )T , F = (f (x1 ), . . . , f (xn ))T und ϑ = (ϑ1 , . . . , ϑr )T . Es ergibt sich die folgende
Formel:
y = Fϑ + ε
n
X
(f (xi )T ϑ − yi )2 = (F ϑ − y)T (F ϑ − y) = h(ϑ) = kF ϑ − yk2
i=1
Die Ableitung bezüglich ϑ ergibt dann
gradϑ h(ϑ) = 2F T (F ϑ − y)
Für das optimale ϑ̂ muss nun gelten:
gradϑ h(ϑ̂) = 2F T F ϑ̂ − 2F T y = 0.
Damit ergibt sich das Normalgleichungssystem
F T F ϑ̂ = F T y.
(15.3)
Wenn nun F T F regulär, also invertierbar ist, dann erhält man nach Auflösung von (15.3) den
MKQ-Schätzer
ϑ̂ = (F T F )−1 F T y
(15.4)
Speziell für Y = a + bx ergibt sich:
â = Ȳ − b̂x̄
n
P
xi Yi − nx̄Ȳ
b̂ = i=1
.
n
P
2
2
xi − nx̄
i=1
Die MKQ-Schätzung hat für reguläre F T F die folgenden Eigenschaften:
1. ϑ̂ ist erwartungstreu. Wegen Y = F ϑ + ε gilt:
Eϑ̂ =
=
(F T F )−1 F T EY
(F T F )−1 F T F ϑ = ϑ.
2. Satz 15.1 (Gauß-Markow-Theorem)
ϑ̂ ist der beste lineare erwartungstreue Schätzer (BLUE) für ϑ. Das bedeutet: Für jeden
anderen linearen erwartungstreuen Schätzer ϑ̃ = CY gilt: covϑ̃ − covϑ̂ ist eine positiv
semidefinite r × r-Matrix.
82
KAPITEL 15. REGRESSIONSANALYSE
3. Bei i.i.d. normalverteilten Beobachtungen, das heißt, wenn Y ∼ N(g(x, ϑ), σ 2 ) oder ε(x) ∼
N(0, σ 2 ), ist der MKQ-Schätzer zugleich auch M-L-Schätzer. Es ist ja
)
(
n
n
Y
1 X
2
L(y, ϑ) =
(g(xi , ϑ) − yi ) · (const)n
f (yi ; ϑ) = exp − 2
2σ
i=1
i=1
wegen
1
2
f (yi ; ϑ) = exp − 2 (g(xi , ϑ) − yi ) · (const).
2σ
Damit wird L(y, ϑ) maximal, wenn
n
P
(g(xi , ϑ) − yi )2 minimal wird.
i=1
Die Überprüfung des Modelles wird im allgemeinen mittels der Residuen durchgeführt, die wie
folgt definiert sind.
ε̂i = Yi − f (xi )T ϑ̂
(15.5)
Die Datenanalyse dieser Residuen erfolgt oft durch einfache Visualisierung. Falls sehr extreme
Residuen auftauchen, muss das Modell geprüft werden.
15.3
Nicht parametrische Regression
Ein wichtiges Beispiel der nicht parametrischen Regression ist der Nadaraya-Watson-Schätzer.
R∞
Hierzu brauchen wir wieder eine Kernfunktion Kh (x) mit
Kh (x) dx = 1. Wichtige Kerne sind
−∞
der Rechteck-Kern
Kh (x) =
1
1[−h,h] (x)
2h
und der Epanechnikow-Kern
Kh (x) =
3
4h
1−
x2
h2
1[−h,h] (x).
Der Schätzer hat dann die Form
n
P
ĝ(x) =
Kh (x − xi )yi
i=1
n
P
.
Kh (x − xi )
i=1
Er nimmt den Wert 0 an, wenn der Zähler den Wert 0 hat. Probleme gibt es dabei am Rand und
bei der Wahl von h. Große h führen zu einer glatten Funktion.
83
Kapitel 16
Konfidenz-Intervalle
Punktschätzungen liefern nur Punkte auf der Zahlengeraden. In vielen Fällen ist aber P (ϑ̂ = ϑ) =
0, auch wenn ϑ̂ erwartungstreu ist. So ist zum Beispiel bei der Normalverteilung X1 ∼ N(µ, σ 2 )
2
mit µ̂ = X̄ ∼ N(µ, σn ), und es ist P (X̄ = µ) = 0. Die neue Idee (Neyman, 1935) ist nun, anstelle
eines Punktes ein Intervall, einen Bereich oder sonst eine Menge zu betrachten. Dazu betrachten
wir Stichprobenfunktionen
I : M n → J,
wobei J die Menge aller abgeschlossenen Intervalle in R ist.
Ein etwas absonderliches, aber sicherlich anschauliches Beispiel ist eine Fliege an der Wand. Dabei
kommt der Versuch, auf die Fliege zu schießen, einem Punktschätzer gleich. Die Verwendung einer
Menge entspricht dann dem Einsatz einer Fliegenklatsche. Sie trifft zwar auch nicht besser, aber
sie erwischt doch mehr von der Wand. Damit ist die Wahrscheinlichkeit, die Fliege zu treffen,
trotzdem höher, ohne dass aber der genaue Ort der Fliege erhalten wird.
Das Ziel ist nun, ϑ mit möglichst großer Wahrscheinlichkeit zu überdecken, aber möglichst schmale
Intervalle zu verwenden.
Definition 16.1 Eine Bereichsschätzung I heißt Konfidenzschätzung (-intervall, VertrauensIntervall) zum Niveau (1 − α), wenn für alle ϑ ∈ Θ
Pϑ (ϑ ∈ I) ≥ (1 − α)
(16.1)
gilt.
Beliebte Werte für 1 − α sind 0.95 und 0.99.
Beispiele.
1. Hier betrachten wir Konfidenzintervalle für µ bei der Normalverteilung N(µ, σ 2 ) mit bekannter Varianz σ 2 . Es gilt
σ2
X̄ ∼ N(µ, )
n
Also folgt nun
!
X̄ − µ
Pµ −z1− α2 ≤
≤ z1− α2 = 1 − α.
σ
√
n
Das lässt sich umformen als
σ
σ
Pµ X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √
= 1 − α.
n
n
(16.2)
84
KAPITEL 16. KONFIDENZ-INTERVALLE
Daraus ergibt sich nun für das Intervall:
σ
σ
α
α
I(µ) = X̄ − z1− 2 √ , X̄ + z1− 2 √
n
n
2. Betrachten wir nun das Gleiche für unbekannte Varianz. Für die Verteilungsfunktion gilt
nun
X̄ − µ
∼ tn−1 .
S
√
n
Also gilt
Pµ
−tn−1,1− α2 ≤
X̄ − µ
√S
n
!
≤ tn−1,1− α2
= 1 − α,
woraus folgt
Pµ X̄ − t
n−1,1− α
2
S
S
√ ≤ µ ≤ X̄ + tn−1,1− α2 √
n
n
=1−α
(16.3)
Die hier betrachteten Intervalle sind zweiseitige Intervalle. Man kann aber auch einseitige Intervalle
betrachten (z. B. [X̄ − tn−1,1−α √Sn , ∞)). Zu weiteren Intervallen sei hier auf die Tabellenbücher
verwiesen.
Hinweis. ϑ ist deterministisch und I(X) zufällig. Es ist
Pϑ (ϑ ∈ I(X)) ≥ 1 − α.
Also ist ϑ mit einer Wahrscheinlichkeit, die größer als 1−α ist, im Intervall. Das ist solange richtig,
wie I(X) zufällig ist. Aus einer konkreten Statistik wird jedoch eine deterministische Realisierung
von I(X) ermittelt. Dann liegt ϑ liegt entweder im Intervall oder nicht. Es ist dann nur bekannt,
dass ein Rezept genommen wurde, das oft“, nämlich mit Wahrscheinlichkeit 1 − α, erfolgreich ist.
”
Die Lage von ϑ im Intervall ist ein anderes Problem.
Eine wichtige Anwendung der Konfidenzintervalle ist die Suche nach dem notwendigen
Stichproben-Umfang n. Für seine Wahl gibt es als grobe Faustregel das folgende Rezept:
• n ≥ 10 bei Parameterschätzungen,
• n ≥ 6 bei H0 : µ = µ0 und
• n ≥ 50 bei Verteilungsfunktionsschätzungen.
Die Idee, die bei der Anwendung eines Konfidenzintervalls zugrunde liegt, sagt: Gib α und die
zulässige Breite 2b des Intervalls vor und berechne den notwendigen Stichprobenumfang n. Wollte
man z.B. µ schätzen, dann gibt es die Formel
S
b = tn−1,1− α2 √ .
n
n muss man hier iterativ bestimmen. b ist in der Praxis oft schwer angebbar, während α natürlich
einfacher zu wählen ist.
Das Problem, welches sich hier ergibt, ist, dass S näherungsweise bekannt sein muss. Dies kann
man durch eine Pilotuntersuchung lösen.
Was war nun der Grund, dass bei der Konstruktion der obigen Intervalle alles so schön klappte?
X̄−µ
√ ) verwendet, die folgende Eigenschaften hatte:
Wir hatten eine Pivot-Größe (z.B. t = σ/
n
1. Die Verteilung ist unabhängig von den unbekannten Parametern.
85
2. Die Ungleichung u ≤ t ≤ o lässt sich leicht in eine Ungleichung der Form µu ≤ µ ≤ µo
umformen.
Im Fall einer Nicht-Normalverteilung gibt es unter anderem folgende Auswege:
1. NV-Asymptotik. Ein Beispiel für die Normalverteilungs-Asymptotik ist die Suche nach einem
Intervall für p bei einer Bernoulli-Verteilung. 1 Hier wird eine asymptotische Pivot-Größe
betrachtet. Dabei macht man sich den Sachverhalt
S − np
d
p n
−−−−→ N(0, 1)
n→∞
np(1 − p)
zunutze. Dabei ist Sn =
n
P
Xi = k die Anzahl der Erfolge. Mit Hilfe von p̂ =
i=1
√
p̂ − p
p
p(1 − p)
k
n
ergibt sich
n −→ N(0, 1).
<
Aus der Bedingung P (p1 ≤ p ≤ p2 ) ≈ 1 − α ergeben sich nun die Lösungen
s
2
2
z1−
z1−
α
α
α
z
1−
2
2
∓ √ 2 p̂(1 − p̂) +
p̂ +
2n
4n
n
.
p1,2 =
2
z1−
α
2
1+
n
2. Man kann auch die Bootstrap-Methode verwenden, die 1982 von Efron eingeführt wurde.
Wir betrachten sie hier für µ = EX und X ∼ F mit unbekanntem F . Dabei gehen wir von
der Größe
X̄ − µ
T =
s
√
n
aus. Um noch brauchbare Ergebnisse zu erzielen, müssen wir uns nun am eigenen Stiefelriemen aus dem Sumpf ziehen.2 Wir ersetzen dazu F durch F̂n und kennzeichnen alle
zugehörigen Größen mit ∗. Dabei erhalten wir so die Formeln
µ∗ = X̄,
und
t∗ =
X̄ ∗ − X̄
S∗
√
n
.
Die Quantile von t∗ bezeichnen wir mit tB und tB . Für diese Werte gelten dann die Formeln
P ∗ (t∗ ≤ tB ) = α2 und P ∗ (t∗ ≥ tB ) = α2 . Sie lassen sich entweder numerisch berechnen oder
müssen er“-simuliert werden.
”
Die Simulation läuft dabei folgendermaßen ab: Aus den Stichprobendaten x1 , . . . , xn werden
neue Stichproben (zufällig, mit Zurücklegen) vom Umfang m (häufig: m = n) gebildet und
jeweils t∗ ermittelt. Als Faustregel gelten ca. 1000 Simulationen. Aus den empirischen Quantilen t1 , t2 , . . . , t999 , t1000 werden dann Schätzwerte für tB und tB gebildet. Beispielsweise
nimmt man für α = 0.05 die Werte t25 und t976 .
Das hierbei erhaltene Vertrauensintervall
S
S
X̄ − √ tB , X̄ − √ tB
n
n
ist dann oft besser als die NV-Asymptotik.
1 Vergleiche
dazu auch [13].
Eigentlich ziehen wir uns ja am eigenen Zopf aus dem Sumpf, aber die englischsprachige Gesellschaft verwendet
dazu den Bootstrap, also den Stiefelriemen.
2
86
KAPITEL 16. KONFIDENZ-INTERVALLE
LITERATURVERZEICHNIS
87
Literaturverzeichnis
[]
Klassiker
[1] Feller, W., An Introduction to Probability Theory and its Application, J. Wiley & Sons (Vol
I 1950, Vol II 1966)
[2] Fisz, M., Wahrscheinlichkeitsrechnung und mathematische Statistik, Deutscher Verlag der
Wissenschaften (11.Auflage 1988)
[3] Gnedenko, B.W., Lehrbuch der Wahrscheinlichkeitsrechnung, Akademie Verlag Berlin (Neuauflage 1994; russisch 1954)
[4] Kolmogorow, A.N., Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer-Verlag (1933,
Neuauflage 1973)
[5] Renyi, A., Wahrscheinlichkeitstheorie, Deutscher Verlag der Wissenschaften (6.Auflage 1979)
[]
Neuere Bücher
[6] Bauer, H., Wahrscheinlichkeitstheorie, Walter de Gruyter (4. Auflage 1991) 2, 5.1, 7.4
[7] Beichelt, F., Stochastik für Ingenieure, Teubner (1995)
[8] Beyer, O., H. Hackel und V. Pieper, Wahrscheinlichkeitsrechnung und mathematische Statistik, Teubner (8.Auflage 1999) 1
[9] Georgii, H.-O., Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik, Walter
de Gruyter (2002)
[10] Göhler, W. und B. Ralle, Formelsammlung Höhere Mathematik, Harry Deutsch (14.Auflage
1999) 14.3.1, 4
[11] Karr, A., Probability, Springer-Verlag (1993)
[12] Krengel, U., Einführung in Wahrscheinlichkeitstheorie und Statistik, Vieweg Verlag Braunschweig (3.Auflage 1991)
[13] Krickeberg, K. und H. Ziezold, Stochastische Methoden, Springer-Verlag (4.Auflage 1995) 9.1,
1
[14] Sachs, L., Angewandte Statistik. Anwendung statistischer Methoden, Springer-Verlag
(10.Auflage 2002)
[15] Storm, R., Wahrscheinlichkeitsrechnung, Mathematische Statistik und Statistische Qualitätskontrolle, Fachbuchverlag Leipzig (11.Auflage 2001)
[16] Stoyan, D., Stochastik für Ingenieure und Naturwissenschaftler, Akademie Verlag Berlin
(1993)
[17] Viertl, R., Einführung in die Stochastik, Springer-Verlag Wien (1997)
88
INDEX
Index
σ-Additivität, 3
p-Wert, 75
Kovarianz, 24
-matrix, 24
Abweichung
signifikante, 73
Alternative
einseitige, 74
zweiseitige, 74
Maßraum, 3
Maß
normiertes, 3
Wahrscheinlichkeits-, 6, 7
Bernoulli-Schema, 18
Dichte
gemeinsame, 20
Erwartungswert, 9
Experiment
Bernoulli-, 18
Produkt-, 17
unabhängiges, 17
Fehler
bei statistischen Tests, 73
erster Art, 74
zweiter Art, 74, 75
frequentistische Auffassung, 5
Funktion
charakteristische, 45
Güte-, 75
Verteilungs-, 8, 19
Gesetz
Null-Eins-Gesetz, 5
Verteilungs-, 7
Hypothese
Null-, 73
statistische, 73
Intervall
Konfidenz-, 83
Inversionsmethode, 15
Korrelation
-smatrix, 24
Korrelationskoeffizient, 24
empirischer, 78
Quantil, 13
-Funktion, 13
-Transformation, 15
Schätzer
effektiver, 67
Stichprobe
konkrete, 67
mathematische, 67
Test, 73
Anpassungs-, 74
Parameter-, 74
Signifikanz-, 73, 74
Unabhängigkeit, 22
Ungleichung
Boolesche, 4
Jensensche, 12
Markowsche, 11
Tschebyschewsche, 11
Vektor
zufälliger, 19
Zufalls-, 19
Verteilung
hypergeometrische, 6
Verwerfungsmethode, 15
Volladditivität, 3
Wahrscheinlichkeit, 3
Irrtums-, 74
subjektive, 5
WahrscheinlichkeitsMaß, 3
Verteilung, 3
Wahrscheinlichkeitsraum, 3
Bild-, 7
INDEX
Zufallsgröße, 7
Unabhängigkeit von ˜n, 22
Zufallsvariable, 7
Zufallsvektor, 19
Zufallszahlen-Erzeugung, 13
89
Herunterladen