Stochastik I Inhaltsv erzeichnis

c 2002 Stefan Meyer
°
[email protected]
Version 0.13 vom 17. Juli 2002
Die aktuellste Version des Skripts gibt’s auf der Lehrämtler-Homepage www.trepsilon.de.
Wer Tipp- oder sonstige Fehler findet, von denen es sicherlich einige im Skript gibt, kann mir diese gerne
mitteilen.
Dieses Skript bezieht sich auf die Vorlesung Stochastik I“, die PD Dr. Eva Herrmann im Wintersemester
”
2001/2002 an der Universität Bayreuth hielt. Das Dokument wurde in LATEX gesetzt, und die Bilder mit
METAPOST erzeugt.
Stochastik I
PD Dr. Eva Herrmann
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
6
12
14
Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen . . . . . . . . . . . . . .
Grenzwertsätze zur Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . .
Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen
Einführung in die Integrationstheorie . . . . . . . . . . . . . . . . . . . . . . . . .
Transformationsformeln und Stichprobentheorie . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
23
27
32
40
Null-Eins-Gesetze . . . . . . . . . .
Gesetze der großen Zahlen . . . . .
Die empirische Verteilungsfunktion
Verteilungskonvergenz und zentraler
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Grenzwertsatz
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
53
57
57
65
66
67
Wichtige diskrete Zufallsgrößen . . . . . . . . .
Wichtige stetige Zufallsgrößen . . . . . . . . . .
Übersicht und Implikationen der Konvergenzen
Nützliches aus den Übungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
70
70
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.1.
A.2.
A.3.
A.4.
Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.1. Einfache Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Testen zusammengesetzter Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Ergänzende Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.
3.2.
3.3.
3.4.
3. Allgemeine Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.
2.2.
2.3.
2.4.
2.5.
2. Endliche Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Heuristische Wahrscheinlichkeitsbegriffe . .
Maßräume . . . . . . . . . . . . . . . . . .
Elementare bedingte Wahrscheinlichkeiten
Stochastische Unabhängigkeit . . . . . . .
4
1. Grundlegendes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.
1.2.
1.3.
1.4.
3
0. Einführung in die Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inhaltsverzeichnis
2
0. Einführung in die Stochastik
Gesetzmäßigkeiten des Zufalls“ sind der Gegenstand der Wahrscheinlichkeitstheorie, die bestimmten
”
Ergebnissen“ Gewichtungen, nämlich Wahrscheinlichkeiten“, zuordnet. Daher orientiert man sich an
”
”
dem Verhalten von relativen Häufigkeiten“, subjektiven Wahrscheinlichkeiten“ und an Regeln für Wahr”
”
scheinlichkeiten bei Glücksspielen, die sich aus Symmetrieeigenschaften bestimmen.
In einem konkreten Anwendungsfall bleibt die Entscheidung nicht kontrollierbar, man kann jedoch Vertrauen in die Entscheidung haben, wenn das Verfahren optimal“ ist.
”
Ob dann ein echter“, reiner“ Zufall oder nur eine undurchschaubare Ursache-Wirkungsbeziehung vor”
”
liegt, ist nicht wichtig, solange die angenommenen Gesetzmäßigkeiten ein gutes (in der Regel idealisiertes)
Modell bilden.
In der mathematischen Statistik wird deshalb ein bestimmtes Vorgehen angewendet: Man setzt voraus, daß der Zufall bestimmen Gesetzmäßigkeiten folgt und bewertet nicht eine einzelne Entscheidung,
sondern das Entscheidungsverfahren an sich. Anhand der angenommenen Gesetzmäßigkeiten kann man
verschiedene Verfahren vergleichen, sie bewerten und optimieren.
Gesucht sind Entscheidungen, qualitative Aussagen zu zufälligen“ Datensätzen. Es liegt in der Natur
”
des Zufalls“, daß man dabei in einem Anwendungsfall immer auch eine falsche Entscheidung treffen
”
kann.
Ausgangspunkt der Statistik sind konkrete Anwendungsprobleme, die Erhebung und Auswertung von
Datensätzen. Neben der rein deskriptiven Beschreibung von Datensätzen (z.B. Notenspiegel einer Klausur, Durchschnittsnote) stellen sich schnell Fragestellungen: War ein Jahrgang besser oder läßt sich ein
etwas besserer Durchschnitt durch zufällige Schwankungen erklären? Bietet ein neues Medikament mit
Nebenwirkungen die gleichen Heilungschancen? Was ist ein fairer Preis für ein Wertpapier? Wieviele
Wahlzettel muß ich für eine gute Prognose des Wahlergebnisses auswerten?
Die Stochastik setzt sich aus der Statistik und der Wahrscheinlichkeitstheorie zusammen.
0. Einführung in die Stochastik
3
4
3
6
=
1
2
1 Pierre
Laplace (1749-1827)
b) Ω habe n Elemente, dann gibt es n! = n · (n − 1) · . . . · 1 Möglichkeiten, alle Elemente anzuordnen.
Beispiel: Es gibt 8! verschiedene Möglichkeiten, 8 Personen auf 8 verschiedene Plätze anzuordnen.
a) Ergebnismenge Ω = Ω1 × . . . × Ωk , Ωi mit ni Elementen (i = 1, . . . , k). Dann besitzt Ω insgesamt
n = n1 · . . . · nk Elemente.
Beispiel: Kartenspiel mit 32 Karten, es wird 10mal eine Karte gezogen (mit Zurücklegen). Dann
gibt es 3210 Möglichkeiten, Karten auszuwählen, wenn die Reihenfolge der Züge mitberücksichtigt
wird.
1.1.4. Einige Grundregeln der Kombinatorik
Anzahl der günstigen“
P (A) = ”
Anzahl der möglichen“
”
Allgemein: Es gibt n verschiedene und aus Symmetriegründen gleichwahrscheinliche Ergebnisse, wobei
ein Ereignis A von diesen n Ergebnissen genau k ∈ {0, . . . , n} enthält. Dann gilt: P (A) = nk . In Worten:
c) Roulette
37 Ergebnisse: 0, . . . , 36
1
P ({i}) = 37
für i = 0, . . . , 36
b) Würfel werfen
6 Ergebnisse: 1, 2, 3, 4, 5 oder 6
P ({1}) = . . . = P ({6}) = 16 und auch P ({1, 2, 3}) =
a) Münze werfen
2 Ergebnisse: Zahl oder Kopf
P ({Kopf}) = P ({Zahl}) = 12
Beispiele:
Bei Glücksspielen und ähnlichen Problemen kann man aus Symmetriegründen Wahrscheinlichkeiten zuordnen.
1.1.3. Laplace-Wahrscheinlichkeit1
Auch ohne konkrete Meßreihe kann man eine Vorstellung davon besitzen, mit welchen relativen Häufigkeiten man bei einem Experiment rechnen würde.
1.1.2. Subjektive Wahrscheinlichkeit
Beispiel: n = 5, Meßreihe: 2.1, 4.8, 5.1, 6.3, 3.8
A: Ereignis, daß eine Zahl kleiner als 4 auftritt, A = (−∞, 4). Die relative Häufigkeit von A ist hn (A) =
2
5.
Ein Zufallsexperiment wird n-mal durchgeführt (n ≥ 1), und wir erhalten eine Meßreihe von Ergeb”
nissen“ x1 , . . . , xn . Unter einem Ereignis verstehen wir zunächst einen konkreten Zahlenwert oder
eine Menge von Zahlenwerten (möglichen Ergebnissen), also eine Eigenschaft zu diesen Zahlenwerten.
Dann zählen wir, wieviele der Meßwerte mit diesem bestimmten Zahlenwert übereinstimmen bzw. die
Eigenschaft erfüllen, sagen wir k-mal (0 ≤ k ≤ n). Die relative Häufigkeit des Ereignisses ist hn = nk .
1.1.1. Relative Häufigkeit
1.1. Heuristische Wahrscheinlichkeitsbegriffe
1. Grundlegendes
1. Grundlegendes
1. Grundlegendes
ki
günstige im i-ten Zug“
= ”
mögliche im i-ten Zug“
ni
”
i=1
K
Y
p(Ai ) =
k1 · . . . · k K
.
n1 · . . . · n K
also p(B1 ∩ . . . ∩ Bk ) =
i=1
k
Y
i=1
p(Bi ).
p(A) =
k
Y
a) Es muß immer genau überlegt werden, welche Ergebnisse gleich wahrscheinlich sind.
Beispiel: Würfeln mit 2 nicht unterscheidbaren Würfeln. Es gibt 21 verschiedene Ergebnisse, aber
1
die Wahrscheinlichkeit für A = {(1, 1)} ist dennoch 36
, wie bei unterscheidbaren Würfeln.
=:Bi
p(Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωk ),
|
{z
}
Allgemein: Ω = Ω1 ×. . .×Ωk mit k endlichen Mengen Ω1 , . . . , Ωk . Sei A ⊂ Ω mit A = A1 ×. . .×Ak ,
Ai ⊂ Ωi . Dann folgt:
p(A) =
auf. Die Wahrscheinlichkeit, daß alle Ereignisse eintreffen (A), ergibt sich aus
p(Ai ) =
c) Es gilt auch eine Produktregel für Laplace-Wahrscheinlichkeiten.
Beispiel: Ein Glücksspiel bestehe aus K Spielzügen: Jedesmal tritt ein Ereignis Ai mit
b) p(A) = p(A1 ) + p(A2 ), falls A = A1 ∪ A2 und A1 ∩ A2 = ∅.
a) 0 ≤ p(A) ≤ 1.
Bei Laplace-Wahrscheinlichkeiten (relativen Häufigkeiten, empirischen Wahrscheinlichkeiten) gilt für ein
Ereignis:
d) Ω habe n Elemente, dann gibt es
µ
¶
n!
n
=
verschiedene Möglichkeiten, k Elemente aus
k
(n − k)! · k!
n auszuwählen. (Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge)
Beispiel: In einer Tüte sind M rote und N − M andersfarbige Gummibärchen. Man zieht ohne
Reinzusehen n-mal (0 ≤ n ≤ N ). Wie groß ist die Wahrscheinlichkeit, daß man
dabei
genau k
µ
¶
N
(0 ≤ k ≤ M, n) rote Gummibärchen zieht? Laplace-Annahme: Es gibt genau
gleichwahrn
µ
¶µ
¶
M
N −M
scheinliche Möglichkeiten, n Bärchen zu ziehen und
Möglichkeiten, daß k rote
k
n−k
Gummibärchen dabei sind. Insgesamt gilt:
µ
¶µ
¶
M
N −M
k
n−k
µ
¶
.
p=
N
n
n!
c) Ω habe n Elemente, dann gibt es n · (n − 1) · . . . · (n − k + 1) = (n−k)!
verschiedene Möglichkeiten,
eine Anordnung von k verschiedenen Elementen zu finden (0 ≤ k ≤ n).
n!
viele Möglichkeiten, k Studenten auf n Plätze zu verteilen.
Beispiel: Es gibt (n−k)!
1.1.5. Probleme bei Laplace-Wahrscheinlichkeiten
5
6
⇒
A1 ∪ A2 ∈ A.
A ∈ A,
⇒
A1 , A 2 ∈ A
⇒
(A1 ∪ A2 ) = A1 ∩ A2 ∈ A.
b) Für eine Algebra A folgt auch die Abgeschlossenheit gegenüber endlichen Schnitten:
a) Aus Eigenschaft c) der Definition folgt die Abgeschlossenheit von A bezüglich endlicher Vereinigungen.
Bemerkung 1:
c) A1 , A2 ∈ A
a) Ω ∈ A,
b) A ∈ A
Definition 1 (Mengenalgebra): Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A
heißt (Mengen-)Algebra auf Ω, falls
i∈I
d) 2Ω ist abgeschlossen gegenüber beliebigen
Vereinigungen: Sei I eine beliebige Indexmenge und
[
Ai ∈ 2Ω . (Manchmal ist jedoch 2Ω zu komplex.)
Ai ∈ 2Ω für alle i ∈ I, dann folgt:
b) ∅ ∈ 2Ω und Ω ∈ 2Ω , d.h. beide extremen“ Teilmengen sind in der Potenzmenge enthalten.
”
c) Aus A ∈ 2Ω folgt A = Ω \ A ∈ 2Ω , d.h. die Potenzmenge ist abgeschlossen gegenüber Komplementbildung.
a) Für endliche Mengen Ω mit k Elementen hat 2Ω genau 2k viele Elemente.
Beispiel: Potenzmenge 2Ω , die Menge aller Teilmengen von Ω. Eigenschaften der Potenzmenge:
Sei Ω eine beliebige Menge. Wenn Ω die Ergebnismenge eines Zufallsexperiments beschreibt, werden wir
nun überlegen, welche Teilmengen von Ω Wahrscheinlichkeiten“ zugeordnet werden sollen.
”
1.2.1. σ-Algebren
1.2. Maßräume
• Man verbindet die Wahrscheinlichkeitstheorie mit der Maßtheorie.
• Es wird keine allgemeine Additivität vorausgesetzt.
• Die Wahrscheinlichkeiten werden nicht für alle Teilmengen definiert.
Um diese Probleme zu lösen, verwendet man folgende Lösungsstrategien:
c) Es lassen sich nicht immer allen Teilmengen Wahrscheinlichkeiten zuordnen.
Beispiel: p([b − a]) = b − a für 0 ≤ a ≤ b ≤ 1. Dann gibt es für einige E ⊂ [0, 1] keine
widerspruchsfreie“ Definitionen von p(E) mehr (Beweis später).
”
b) Übertragung auf stetige“ Situationen ist problematisch.
”
Beispiel: Beim Glücksrad (r = 1 m) ist die Wahrscheinlichkeit, daß der Zeiger in einem Kreissegment anhält:
Bogenlänge des Segments
p(Segment) =
.
2π
Im Grenzfall gilt für jede Halbsehne p(x) = 0, aber für ein Segment mit Bogenlänge > 0 gilt:
p(A) > 0.
1. Grundlegendes
7
⇒
⇒
A ∈ A,
n∈N
[
An ∈ A.
Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A heißt
0
\
A ist σ−Algebra
auf Ω, die E umfaßt
A.
Dann ist σ(E) eine σ-Algebra, E ⊂ σ(E). σ(E) ist eindeutig bestimmt.
σ(E) :=
Beweis: Mit 2Ω existiert eine σ-Algebra, die E umfaßt. Sei nun
Satz 1: Seien Ω eine Menge und E ein System von Teilmengen von Ω. Dann gibt es eine kleinste E
umfassende σ-Algebra σ(E) auf Ω, die von E erzeugte σ-Algebra (E ist Erzeugendensystem von σ(E)).
eine σ-Algebra auf Ω.
c) Seien Ω und Ω0 Mengen und A0 eine σ-Algebra auf Ω0 , sowie T : Ω → Ω0 eine Abbildung von Ω nach
Ω0 . Dann ist
T −1 (A0 ) := {T −1 (A0 ) | A0 ∈ A}
eine σ-Algebra auf Ω0 (gilt auch für Ω0 ∈
/ A). A0 heißt Spur von A auf Ω0 .
A0 := Ω0 ∩ A := {Ω0 ∩ A | A ∈ A}
b) Sei A eine σ-Algebra auf Ω und Ω ⊂ Ω. Dann ist
a) 2Ω ist die größte σ-Algebra auf Ω, A = {Ω, ∅} die kleinste.
Beispiele für σ-Algebren:
a) Es ist ∅ ∈ A und Ω ∈ A.
b) A ∈ A ⇒ A ∈ A.
c) Additivität: Seien A1 , A2 ∈ A. Sind A1 und A2 endlich, folgt: A1 ∪ A2 ∈ A. Ist A1 unendlich,
dann ist A1 endlich und ebenso A1 ∪ A2 = A1 ∩ A2 ⊂ A1 ∈ A, also ist A eine Algebra. Ist Ω
endlich, so ist A = 2Ω auch eine σ-Algebra. Ist Ω unendlich, so existiert eine Folge
S (ωn )n∈N ⊂ Ω
von verschiedenen Elementen. Also ist {ωn } ∈ A für alle n ∈ N und somit A = n∈N {ω2n } ∈
/ A,
S
da weder A noch A ⊃ n∈N {ω2n−1 } endlich ist. Somit ist A keine σ-Algebra.
Beweis:
Bemerkung 2: Ist Ω eine Menge, so kann es sein, daß ein Mengensystem A eine Algebra, aber keine
σ-Algebra auf Ω ist. Sei zum Beispiel A = {A ⊂ Ω | A oder A ist endlich}. Für A gilt: A ist eine Algebra.
A ist genau dann eine σ-Algebra, wenn Ω endlich ist.
d) ω ∈ Ω Ergebnisse oder Elementarereignisse.
c) A ∈ A Ereignisse und
b) Ω Ergebnismenge,
a) (Ω, A) einen meßbaren Raum,
Bezeichnungen: Ist A eine σ-Algebra auf Ω, so nennen wir
c) {An }n∈N ⊂ A
b) A ∈ A
a) Ω ∈ A,
Definition 2 (σ-Algebra):
σ-Algebra auf Ω, falls gilt:
1. Grundlegendes
i = 1, . . . , d
ª
8
i=1
4 Paul
n∈N
Borel (1871-1956)
Kolmogoroff (1903-1987)
Dirac (1902-1984)
3 Andrey
2 Emile
n∈N
xn ∈A
c) Abzählbarer Wahrscheinlichkeitsraum
Sei Ω = {xn }n∈N eine abzählbare Menge mit xn 6= xm für n 6= m, A = 2Ω , und sei {pn }n∈N eine
∞
X
reelle Folge mit 0 ≤ pn ≤ 1 für n ∈ N und
pn = 1. Dann ist P mit P ({xn }) = pn für n ∈ N und
n=1
X
X
pn =
pn Ixn (A) ein Wahrscheinlichkeitsmaß auf (Ω, A).
P (A) =
als Einpunktmaß oder Diracmaß 4 bezeichnet. Übrigens gilt Iω (A) = IA (ω), wenn IA : Ω → {0, 1}
die Indikatorfunktion von A bezeichnet (,→ Übung).
b) Sei Ω eine beliebige nicht-leere Menge und A eine σ-Algebra auf Ω. Für ω ∈ Ω wird Iω mit
½
1 falls ω ∈ A
Iω (A) =
0 sonst
a) Laplace-Wahrscheinlichkeiten
Sei Ω = {1, . . . , k} und A = 2Ω . Dann ist P mit P ({i}) = k1 für i = 1, . . . , k und P (A) = #A
k für
alle A ∈ A. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A). Zum Beispiel ein Münzwurf: Ω = {1, 2},
1
1
A = {∅, {1}, {2}, {1, 2}} mit den Wahrscheinlichkeiten P (∅) = 0, P ({1}) = 2 , P ({2}) = 2 und
P ({1, 2}) = 1. Das Maß µ mit µ(A) = #A nennt man Zählmaß.
Beispiele:
Diese Eigenschaften eines Wahrscheinlichkeitsraums werden auch als Kolmogoroffsche Axiome 3 bezeichnet.
Ist µ ein Maß auf (Ω, A), so heißt (Ω, A, µ) Maßraum. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A), falls
P ein Maß auf (Ω, A) mit P (Ω) = 1 ist. Dann heißt (Ω, A, P ) ein Wahrscheinlichkeitsraum.
i=1
b) µ(∅) = 0 und
Ã∞ !
∞
[
X
c) µ
Ai =
µ(Ai ) für alle Folgen {An }n∈N paarweise disjunkter Mengen aus A (σ-Additivität).
a) µ(A) ≥ 0 für alle A ∈ A,
Definition: Es sei (Ω, A) ein meßbarer Raum. Ein Maß auf (Ω, A) ist eine Abbildung µ : A → R ∪ {∞}
mit den Eigenschaften
1.2.2. Wahrscheinlichkeitsmaße
Beweis: Siehe Bauer, Seite 33/34.
Bemerkung 3: Es seien Od , Cd , Kd die Systeme aller offenen, abgeschlossenen bzw. kompakten
Teilmengen von Rd . Dann ist Bd = σ(Od ) = σ(Cd ) = σ(Kd ).
die Menge aller halboffenen Quader von Rd . Dann heißt Bd = σ(I d ) Borelsche σ-Algebra auf Rd .
Beispiel (Borelsche2 σ-Algebra): Es sei
¯
©
I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ < ai ≤ bi < ∞,
1. Grundlegendes
⇒
⇒
µ
Ã
i=1
n
[
Ai
!
=
i=1
n
X
µ(Ai ).
µ(B \ A) = µ(B) − µ(A).
µ(A) ≤ µ(B).
⇒
1. Grundlegendes
n→∞
Ã
i=1
n
[
≤
=µ
!
!
n∈N
[
An
Ã
i=1
Ai
!
=
µ(An ).
Ã∞
[
n∈N
X
i=1
∞
X
µ(Ai ) =
i=1
n
X
µ(Ai ).
n=1
n=1
n=1
n=1
b) (siehe c))
c) B = A ∪ (B \ A). Dann folgt: µ(B) = µ(A ∪ (B \ A)) = µ(A) + µ(B \ A) ≥ µ(A). Falls µ(A) < ∞,
so gilt: µ(B) − µ(A) = µ(B \ A).
d) Der erste Teil folgt aus c). Setze B = Ω, dann folgt p(B) = 1 und damit der zweite Teil.
e) (,→ Übung)
!
Ã
∞
∞
[
[
[
Ai für n > 1 und sei B1 = A1 . Dann folgt:
An =
Bn . Da die Bn
f) Setze Bn = An \
n=1
n=1
i<n
!
Ã∞
!
Ã∞
∞
∞
[
[
X
X
paarweise disjunkt sind, folgt: µ
An = µ
Bn =
µ(Bn ) ≤
µ(An ).
a) Setze Am = ∅ für m > n, so folgt: µ
Beweis:
Sei {An }n∈N eine beliebige Folge, so gilt: µ
f) Sub-σ-Additivität
n∈N
e) Ist {An }Ãn∈N ⊂ A! eine aufsteigende Folge von Mengen aus A, d.h. An ⊂ An+1 für alle n ∈ N, so
[
An = lim µ(An ).
folgt: µ
i) p(B \ A) = p(B) − p(A).
ii) 0 ≤ p(A) ≤ 1.
iii) p(A) = 1 − p(A).
d) Falls µ = p ein Wahrscheinlichkeitsmaß auf (Ω, A) ist, dann folgt aus A, B ∈ A, A ⊂ B:
c) A, B ∈ A, A ⊂ B, µ(A) < ∞
b) Isotonie: A, B ∈ A, A ⊂ B
A1 , . . . , An ∈ A paarweise disjunkt
a) Endliche Additivität
Satz 2: Sei (Ω, A, µ) ein Maßraum. Dann gilt:
n=1
Beweis: Siehe Bauer, Maß- und Integrationstheorie, Satz 5.6.
Dann existiert ein eindeutiges Maß µ
e auf (Ω, σ(A)) mit µ
e(A) = µ(A) für alle A ∈ A.
n=1
b) µ sei σ-additiv, d.h. für Folgen {An }n∈N ⊂ A, die paarweise disjunkt sind, und für
!
Ã∞
∞
[
X
An =
µ(An ).
µ
a) µ(A) ≥ 0 für alle A ∈ A.
n∈N
[
An ⊂ A gilt:
Satz 3: Sei Ω ein Ergebnisraum (oder Ereignisraum) und A eine Algebra auf Ω. Außerdem sei µ : A →
R ∪ {∞} eine Mengenfunktion auf A mit folgenden Eigenschaften:
In diesem Abschnitt wird gezeigt, daß sich ein Wahrscheinlichkeitsmaß bereits durch Festlegung von
Wahrscheinlichkeiten auf einzelnen, überschaubaren Mengensystemen auf den gesamten Raum (Ω, Bd )
eindeutig festlegen läßt.
1.2.3. Festlegung eines Wahrscheinlichkeitsmaßes auf dem Maßraum R d , Ld
9
i=1
k
[
Ai
!
=
i=1
µ(Ai ).
i=1
k
X
n=1
∞
[
µ(Ai ).6
An auch A1 ⊂ A2 ⊂ . . . ⊂ A und A ∈ Bd0 gilt, so
i=1
n
X
n→∞
i=1
n
X
i=1
µ(Ai ). Somit läßt sich Satz 3 anwenden.
i=1
d
Y
(bi − ai )
7 Henri
6 Diese
5 Folgt
bereits, wenn es für alle A ∈ I d erfüllt ist.
Bedingung ist bereits erfüllt, wenn sie für disjunkte Mengen A1 , . . . , An ∈ I d gilt.
Lebesgue (1875-1941)
Das Lebesque-Maß liefert eine natürliche Beschreibung des Flächeninhaltes“ auf Bd . Auf I d und Bd0 ist
”
es offensichtlich translationsinvariant. Diese Eigenschaft läßt sich auch für Bd nachweisen.
für −∞ < ai ≤ bi ≤ ∞ (i = 1, . . . , n) heißt d-dimensionales Lebesgue-Maß.
λd ([a1 , b1 ) × . . . , ×[ad , bd )) =
Definition (Lebesgue-Maß7 ): Das eindeutig bestimmte Maß λd auf (Rd , Bd ) mit
n→∞
n ∈ N. Dann gilt nach c): µ(A) = lim µ(Bn ) = lim
b)
Beweis: Bd0 ist eine Algebra. Falls auch die σ-Additivität erfüllt ist, läßt sich Satz 3 anwenden. Wir
n
[
zeigen also die σ-Additivität: {An }n∈N ⊂ Bd0 sind paarweise disjunkt und Bn =
Ai ∈ Bd0 für alle
e(A) für alle A ∈ Bd0 .
Dann existiert ein eindeutig bestimmtes Maß µ
e auf (Rd , Bd ) mit µ(A) = µ
n→∞
folgt: lim µ(An ) = µ(A).
c) Falls für eine Folge {An }n∈N ∈ Bd0 mit A =
b) Für disjunkte Teilmengen A1 , . . . , An ∈ Bd0 gilt: µ(A1 ∪ . . . ∪ An ) =
a) µ(A) ≥ 0 für alle A ∈ Bd0 .5
Satz 5: Sei µ eine Mengenfunktion auf Bd0 mit folgenden Eigenschaften:
a) Rd = (−∞, ∞) × . . . × (−∞, ∞) ∈ Bd0 .
b) A ∈ Bd0 ⇒ A ∈ Bd0 .
Sn
c) A1 , . . . , An ∈ Bd0 , dann folgt k=1 Ai ∈ Bd0 sofort, da man jede Vereinigung von Quadern als
Vereinigung von disjunkten Quadern schreiben kann, und jede endliche Vereinigung von endlichen
Vereinigungen wieder eine endliche Vereinigung ist.
Beweis:
Lemma 4: Bd0 ist eine Algebra auf Rd .
fortsetzt: µ
Ã
festgelegt wird. Zunächst ist klar, wie sich die Mengenfunktion (additiv) auf
( k
)
[
Bd0 =
Ai | Ai ∈ I d , A1 , . . . , An paarweise disjunkt für k ∈ N
10
Nun betrachten wir die Fortsetzung einer Mengenfunktion zu einem Maß auf (R d , Bd ), wenn sie zunächst
nur auf
¯
©
ª
I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ ≤ ai ≤ bi ≤ ∞, i = 1, . . . , d
Bemerkung: σ-Additivität einer solchen Mengenfunktion folgt nicht aus endlicher Additivität.
1. Grundlegendes
11
8
Friedrich Gauß (1777-1855)
e
f (x) = √
2πσ 2
1
− 12
(
x−µ
σ
)
2
Abbildung 1: Exponentialverteilung (Verteilungsfunktion)
b) Normal- oder Gaußverteilung
Für die Gaußsche Glockenkurve f : R → R mit
8 Carl
für t ≥ 0.
Es gilt dann auch: P ([t0 , t1 ]) = F (t1 ) − F (t0 ) = e−λt0 − e−λt1 für 0 ≤ t0 ≤ t1 .
P ([0, t]) = P ((−∞, t]) = 1 − e−λt = F (t)
a) Exponentialverteilung
Die Lebensdauer eines technischen Bauteils, zum Beispiel einer Glühbirne, kann oft gut durch eine
Exponentialverteilung beschrieben werden:
Beispiele:
Die genauen Eigenschaften, die eine Verteilungsfunktion besitzt, werden wir später charakterisieren.
b) P ([a, b)) = P ((−∞, b)) − P ((−∞, a)) für alle a, b ∈ R mit a ≤ b.
a→b
a<b
a) P ((−∞, b)) = lim F (a) = F (b−),
Nach Satz 4 kann eine Verteilung durch Angabe der Wahrscheinlichkeiten auf I 1 eindeutig festgelegt werden, sogar durch Angabe einer Funktion F : R → [0, 1] mit F (x) = P ((−∞, x]), einer Verteilungsfunktion
des Wahrscheinlichkeitsmaßes P auf (R, B). Es gilt:
Definition 5: Gegeben sei der meßbare Raum (R, B). Ein Wahrscheinlichkeitsmaß auf (R, B) bezeichnen wir auch als (Wahrscheinlichkeits)-Verteilung.
für alle r1 , r2 ∈ Q mit |r1 | < 1 und |r2 | < 1, gilt λ(E + r1 ) = 0 und damit λ(S) = 0. Aber:
1 = λ([0, 1]) ≤ λ(S) = 0, was offensichtlich ein Widerspruch ist.
r∈Q
|r|<1
a) S ⊂ [−1, 2].
b) [0, 1] ⊂ S, da jedes x ∈ [0, 1] für ein r ∈ Q mit |r| ≤ 1 in E + r enthalten ist.
X
λ(E + r) ≤ λ([−1, 2]) = 3. Da λ(E + r1 ) = λ(E + r2 )
Wegen der σ-Additivität folgt: λ(S) =
r∈Q
|r|<1
Beweis: Wir definieren auf R eine Äquivalenzrelation x ∼ y ⇐⇒ x − y ∈ Q. Sei E ein Repräsentantensystem mit E ⊂ [0, 1]. Gelte nun λ(E) = λ(E[+ r) für alle r ∈ R. Dann folgt für die abzählbare
Vereinigung paarweise disjunkter Mengen S :=
E + r:
Bemerkung 4: Das Lebesgue-Maß λ = λd kann nicht so auf 2R fortgesetzt werden, daß die Translationsinvarianz erhalten bleibt: λ(E + r) = λ(E) ist also nicht für alle E ⊂ R, r ∈ R möglich.
1. Grundlegendes
a
Abbildung 2: Normalverteilung (Dichtefunktion)
P (A ∩ B)
P (A)
n
n+m
und
ε→0
λ(t) = lim
1
P ([t, t + ε] | [t, ∞)),
ε
c) Gegeben sei eine Verteilung auf (R, B) zur Lebensdauer eines technischen Bauteils. Unter der
Ausfallrate λ(t) zu einem Zeitpunkt t ≥ 0 versteht man
n
b) Entsprechendes gilt für die relativen Häufigkeiten. Sei n die Gesamtzahl der Schulkinder, n1 die
Anzahl der achtjährigen Mädchen und m1 die Anzahl der achtjährigen Mädchen, die kleiner als
m1
1
1.20 m sind. Für die relative Häufigkeit gilt dann: hn = nn1 = m
n1 .
rote Kugel“ und B: Nummer 1“ die beiden Ereignisse. Dann gilt: P (A) =
”
”
1
1
P (A ∩ B) = n+m
, also insgesamt: P (B | A) = P P(A∩B)
(A) = n .
a) Seien A:
Beispiele:
die bedingte Wahrscheinlichkeit von B gegeben A.
P (B | A) =
Definition 6: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, seien A, B ∈ A und P (A) > 0. Dann heißt
Jeweils ist eigentlich ein komplexeres Modell gegeben, wir suchen aber nach Wahrscheinlichkeiten in
einem eingeschränkten Modell, das durch eine zusätzliche Bedingung (rote Kugel, achtjährige Mädchen)
beschrieben wird.
b) Angenommen, wir suchen nach der Wahrscheinlichkeit, daß achtjährige Mädchen kleiner als 1.20 m
sind, so können wir als Näherungswert Meßwerte von Schulärzten analysieren und unter ihnen die
relative Häufigkeit, daß die Größe kleiner als 1.20 m ist, auszählen.
a) Gegeben sei eine Urne mit n ≥ 1 roten Kugeln und m ≥ 0 weißen Kugeln, die jeweils von 1 bis n
bzw. m durchnumeriert sind. Angenommen, eine rote Kugel wird gezogen. Wie groß ist dann die
Wahrscheinlichkeit, daß sie die Nummer 1 hat?
Zur Lösung: Betrachten wir als günstiges Ergebnis, die rote 1 zu ziehen, als mögliche Ergebnisse,
die n roten Kugeln zu ziehen, so gilt: p = n1 .
Beispiele:
1.3. Elementare bedingte Wahrscheinlichkeiten
Solche Verteilungen eignen sich oft gut (zumindest näherungsweise) zur Beschreibung der Verteilung von
Größen-, Längen- oder Gewichtsmessungen.
teilung bezeichnet.
12
für alle x ∈ R mit einem mittleren Wert“ µ ∈ R und einer Skalierung σ > 0 wird eine WahrscheinZ b
”
f (t) dt bestimmt und als Normal- oder Gaußverlichkeitsverteilung auf (R, B) mit P ([a, b]) =
1. Grundlegendes
13
e−λt − e−λ(t+ε)
= lim
ε→0 ε(1 − (1 − e−λt ))
1 − e−λε
= lim
ε→0
ε
= f 0 (0)
= λ
=
=
P ([t, t + ε] | [t, ∞))
lim
ε→0
ε
P ([t, t + ε])
lim
ε→0 εP ([t, ∞))
n∈N
9 Thomas
Bayes (1702-1761)
P (Ak | B)
(∗) da B ∩ An paarweise disjunkt sind
b) Es gilt:
=
=
(∗)
=
a)
=
P (B | An ) · P (An ).
P (B ∩ An )
n∈N
n∈N
P (Ak ∩ B)
P (B)
P (B | Ak ) · P (Ak )
X
P (B | An ) · P (An )
n∈N
X
n∈N
X
Beweis:
a) Für alle A, B ∈ A gilt: P (A ∩ B) = P (B | A) · P (A) = P (A | B) · P (B), also folgt:
!
Ã
[
(B ∩ An )
P (B) = P
P (Ak ) · P (B | Ak )
.
P (Ak | B) = X
P (An ) · P (B | An )
b) Außerdem folgt die Formel von Bayes 9 :
n∈N
a) Es gilt der Satz von der totalen Wahrscheinlichkeit:
X
P (B | An ) · P (An ).
P (B) =
P (B) > 0. Dann folgt:
n∈N
Satz [
5: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und {An }n∈N ∈ A mit Ai ∩ Aj = ∅ für i 6= j. Sei
Ω=
An eine Zerlegung von Ω (bzw. eine meßbare, abzählbare Partition von Ω) und sei B ∈ A mit
Oft ist auch die Beziehung P (A ∩ B) = P (A | B) · P (B) = P (B | A) · P (A), falls P (A) 6= 0 6= P (B),
interessant. Für P (B) = 0 (bzw. P (A) = 0) würde natürlich auch P (A ∩ B) = 0 folgen, deshalb setzen
wir P (A | B) = 0, falls P (B) = 0.
für f : R → R mit f (t) = −e−λt und f 0 (t) = λe−λt . Hier ist die Ausfallrate für alle t ≥ 0 gleich und
entspricht dem Parameter λ der Exponentialverteilung.
λ(t)
Für eine Exponentialverteilung folgt:
also die bedingte Wahrscheinlichkeit, mit der in der nächsten Zeit mit einem Ausfall gerechnet
werden muß (pro Zeiteinheit, Zeitintervall → 0), gegeben, daß das Bauteil zum Zeitpunkt t noch
intakt war. Analog definiert man die Begriffe Geburtsrate oder Sterberate einer Population.
1. Grundlegendes
14
=
=
IV
P (Bn | B1 ∩ . . . ∩ Bn−1 ) · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ) · P (B1 ).
P (B1 | B1 ∩ . . . ∩ Bn−1 ) · P (B1 ∩ . . . ∩ Bn−1 )
=
=
=
=
3
2 ·
2
.
3
1
3
0·
1
3
1
3
i=0
1 · 13
+ 12 · 13 + 1 ·
1
3
P (G | K2 ) · P (K2 )
2
X
P (G | Ki ) · P (Ki )
1
4
1
2
c) A = {1, 2}, B = {1, 3}
({1})
=
⇒ P (B | A) = PP({1,2})
1
4
1
2
b) A = {1, 2, 3}, B = {1, 2, 4}
({1,2})
⇒ P (B | A) = PP({1,2,3})
=
a) A = {1, 2}, B = {1}
({1})
=
⇒ P (B | A) = PP({1,2})
1
2
1
2
=
=
1
2
3
4
=
<
1
4
3
4
= P (B)
= P (B)
= P (B)
2
3
>
Beispiel: Ω = {1, 2, 3, 4}, A = 2Ω und P ({i}) = 14 . Sind zwei Ereignisse A, B ∈ A gegeben, so kann A
das Eintreten von B begünstigen, benachteiligen oder gar nicht beeinflussen.
Für beliebige Ereignisse B1 , . . . , Bk gilt das nicht.
gilt, falls zum Beispiel B1 , . . . , Bk Ereignisse von verschiedenen (sich nicht beeinflussenden) Spielzügen
sind. Somit gilt P (B1 ∩B2 ) = P (B1 | B2 )·P (B2 ) als auch P (B1 ∩B2 ) = P (B1 )·P (B2 ), also: P (B1 | B2 ) =
P (B1 ).
P (B1 ∩ . . . ∩ Bk ) = P (B1 ) · . . . · P (Bk )
Bereits in der Diskussion zur Laplace-Wahrscheinlichkeit haben wir erkannt, daß
1.4. Stochastische Unabhängigkeit
Die gesuchte Wahrscheinlichkeit beträgt damit zwei Drittel und ist größer als 50%.
P (K2 | G)
Ki bezeichne die Auswahl der Kommode mit i Goldmünzen (i = 0, 1, 2), G sei das Ereignis ein Fach
”
enthält eine Goldmünze“. Dann gilt:
Beispiel zur Formel von Bayes: Gegeben seien drei Kommoden mit jeweils zwei Schubladen. Eine
Kommode hat in jedem Fach eine Goldmünze, eine in genau einem Fach, die letzte in keinem. Eine
Kommode wird zufällig ausgewählt und ein Fach geöffnet: Es enthält eine Goldmünze. Wie groß ist die
Wahrscheinlichkeit, daß das andere Fach auch eine Goldmünze enthält?
P (B1 ∩ . . . ∩ Bn )
Beweis: mit vollständiger Induktion
n = 2: P (B1 ∩ B2 ) = P (B1 ) · P (B2 | B1 )
Gilt nun P (B1 ∩ . . . ∩ Bn−1 ) = P (B1 ) · . . . · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ), so folgt auch:
P (B1 ∩ . . . ∩ Bn ) = P (B1 ) · P (B2 | B1 ) · . . . · P (Bn | B1 ∩ . . . ∩ Bn−1 )
Satz 6 (Multiplikationssatz):
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B 1 , . . . , Bn ∈ A
beliebige Mengen aus A. Dann gilt:
1. Grundlegendes
15
P (A) · P (B)
P (A ∩ B)
=
= P (B).
P (A)
P (A)
i=1
P (Ak ) =
µ
n
k
¶
½
i=1
i=1
Pn
pωi (1 − p)1−ωi =
=
p
i=1
Pn
ωi
i=1
falls ωi = 0
falls ωi = 1
(1 − p)n−
1−p
p
ωi
P ({(ω1 , . . . , ωn })
n
Y
pωi (1 − p)1−ωi
=
=
,
pk (1 − p)n−k
für 0 ≤ k ≤ n, n ≥ 1.
µ
n
k
¶
verschiedene ω ∈ Ω
i∈I0
Bemerkung 6: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , . . . , An ∈ A. Dann gilt: Die
Ereignisse A1 , . . . , An sind genau dann stochastisch unabhängig im Sinne von Definition 7, wenn die
Mengensysteme {A1 }, . . . , {An } stochastisch unabhängig im Sinne von Definition 8 sind.
i∈I0
Definition 8: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Ai }i∈I eine Familie von Mengensystemen, wobei I eine beliebige Indexmenge ist und Ai ⊂ A für alle i ∈ I gilt. Dann heißen die
Mengensysteme {Ai }i∈I (stochastisch) unabhängig, falls für jedes I0 ⊂ I und für alle Ai ∈ Ai (i ∈ I0 )
gilt:
!
Ã
Y
\
Ai =
P (Ai ).
P
k=
ωi ist die Anzahl, wie oft das Ergebnis für ω ∈ Ω eintritt. Es gibt
i=1
)
(
n
n
X
X
¯
mit k =
ωi , also folgt für Ak ∈ 2Ω , Ak = ω ∈ Ω ¯ k =
ωi :
n
X
denn es gilt:
P ({w})
Ω = {0, 1} × . . . × {0, 1}, A = 2Ω
1: gewünschtes Ereignis eingetreten“, 0: gewünschtes Ereignis nicht eingetreten“
”
”
Sei p die Wahrscheinlichkeit, daß bei einer einzelnen Beobachtung das Ergebnis auftritt (zum Beispiel
1
p = 4 beim Multiple-Choice-Test), dann gilt:
Beispiel: Wir beobachten n-mal, ob ein bestimmtes Ereignis – unabhängig voneinander – auftritt und
zählen insbesondere, wieviele der n Wiederholungen dieses Ergebnis zeigen. Zum Beispiel: Wir werfen
n-mal eine Münze und zählen, wie oft die Würfe Zahl“ zeigen; wir zählen, wieviele von n zufällig aus”
gewählten Familien ein niedrigeres Pro-Kopf-Nettoeinkommen als 2000 DM haben oder zählen, wieviele
von n Aufgaben eines Multiple-Choice-Tests (immer vier Antworten, von denen genau eine richtig ist)
richtig angekreuzt wurden, wenn nur geraten wird.
b) Sind zumindest immer zwei Ereignisse Ai1 , Ai2 von (A1 , . . . , An ) unabhängig (für alle 1 ≤ i1 < i2 ≤
n), so heißen A1 , . . . , An paarweise unabhängig. Aus der paarweisen Unabhängigkeit folgt aber
noch nicht die (vollständige) Unabhängigkeit (,→ Übung).
P (B | A) =
a) Ist P (A) > 0, so folgt aus der Unabhängigkeit von A und B auch:
Bemerkung 5:
Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann heißen endlich viele Ereignisse A 1 , . . . ,
An ∈ A (stochastisch) unabhängig, falls P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) für alle 1 ≤ k ≤ n,
1 ≤ i1 < . . . < ik ≤ n gilt.
1. Grundlegendes
16
{i|ωi ∈A}
i=1
n
Y
pωi (1 − p)1−ωi = p
i=1
Pn
ωi
(1 − p)n−
i=1
Pn
ωi
=
=
P (E1 ) · P (E2 ).
P (A1 ×Ω2 )
P (Ω1 ×A2 )
P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 )
{z
} |
{z
}
|
= P (A1 × A2 )
= P1 (A1 ) · P2 (A2 )
und
Mit Hilfe von Zufallsvariablen lassen sich Teilprobleme oder Teilaspekte eines komplexen Wahrscheinlichkeitsraumes effizient betrachten.
Definition 3: Ist (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum, so heißt jede Funktion X : Ω → R
eine Zufallsvariable auf (Ω, A, P ).
2.1. Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen
P (E1 ∩ E2 )
Beweis: Seien E1 ∈ ξ1 und E2 ∈ ξ2 , so folgt:
stochastisch unabhängig.
ξ1 = {A1 × Ω2 | A1 ∈ A1 }
ξ2 = {Ω1 × A2 | A2 ∈ A2 }
Satz 1: Ist (Ω, A, P ) ein Produktraum von zwei endlichen Wahrscheinlichkeitsräumen (Ω1 , A1 , P1 ) und
(Ω2 , A2 , P2 ), so sind die Mengensysteme
sowie Ωi = {0, 1}, pi ({0}) = 1 − p und pi ({1}) = p für alle i = 1, . . . , n.
P ({ω}) =
Beispiel: Das (letzte) Beispiel aus Abschnitt 1.4. (wir betrachten bei n Wiederholungen, ob ein
bestimmtes Ergebnis eintritt) paßt zu einem n-fachen Produktraum: Ω = {0, 1} n , A = 2Ω mit
x∈A1 y∈A2
für A ∈ Ω und insbesondere für A = A1 × A2 :
X X
P (A1 × A2 ) =
P1 ({x})P2 ({y}) = P1 (A1 ) · P2 (A2 ).
x∈Ω1 y∈Ω2
Definition 2: Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei endliche Wahrscheinlichkeitsräume. Ein Produktwahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Ω1 × Ω2 , A = 2Ω , P = P1 ⊗ P2 ist definiert durch
X X
P1 ({x})P2 ({y})I{(x,y)} (A)
P (A) =
i=1
Viele bisher betrachteten Beispiele waren endliche Wahrscheinlichkeitsräume. Für Ω = {ω1 , . . . , ωn } läßt
n
X
X
sich P durch P ({ωi }) = pi für i = 1, . . . , n mit P (A) =
pi · Iωi (A) =
pi charakterisieren.
Definition 1: Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt endlicher Wahrscheinlichkeitsraum, falls Ω
nur endlich viele Elemente besitzt und A = 2Ω gilt.
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
17
n
i=1
Pn
Pn
Ã∞
[
i=1
Bi
!
=
=
=
Ã(
i=1
n
i=1
Pn
ωi
Bi
¶
ωi
pk (1 − p)n−k
und X = X(ω) =
!
)!
i=1
n
X
ωi . Dann gilt:
{i|ωi ∈Ω,
S(ωi )=k}
b) Da die Bildmenge von der Scorefunktion S in der Regel deutlich kleiner als Ω ist, werden auch hier
Werte zusammengefaßt:
X
pi .
P S ({k}) = P (S = k) =
für 0 ≤ k ≤ n. Diese Verteilung von X heißt Binomialverteilung und die Zufallsvariable X binomialverteilt. Oder kürzer: X ist B(n, p)-verteilt oder X ∼ B(n, p).
n
k
i=1
Pn
µ
(1 − p)n−
P X ({k}) = P (X = k) =
a) ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p
P X (Bi ).
i=1
i=1
∞
[
{ω ∈ Ω | X(ω) ∈ Bi }
ω ∈ Ω | X(ω) ∈
Ã∞
[
∞
X
P
P
Beispiele: Nochmals zu den Beispielen von oben:
PX
a) P X (B) ≥ 0 für alle B ∈ B.
b) P X (∅) = P ({ω ∈ Ω | X(ω) ∈ ∅}) = P (∅) = 0.
c) σ-Additivität. Seien {Bn }n∈N ⊂ B disjunkte Borelmengen, so gilt:
Beweis:
Bemerkung 1: P X ist ein Wahrscheinlichkeitsmaß auf (R, B).
Eine solche Verteilung läßt sich auch auf (R, 2R ) definieren.
für alle B ∈ B die Verteilung von X (unter P).
P X (B) := P (X ∈ B) := P ({ω ∈ Ω | X(ω) ∈ B})
Definition 4: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann
heißt das Wahrscheinlichkeitsmaß (bzw. die Verteilung) P X auf (R, B) mit P X : B → [0, 1] und
c) Sei (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum. Dann ist auch die Indikatorfunktion I A für
A ∈ A eine Zufallsvariable auf (Ω, A, P ).
b) Wird ein Fragebogen ausgewertet, so kann das zugrundeliegende Zufallsexperiment über einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) beschrieben werden. Dabei gibt Ω die verschiedenen Antwortmöglichkeiten an, P ist ein geeignetes Wahrscheinlichkeitsmaß. Zur Vereinfachung wird aber
nur ein geeigneter Score S : Ω → R betrachtet, welcher eine Zufallsvariable ist.
eine Zufallsvariable.
a) Noch einmal: ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p i=1 ωi (1 − p)n− i=1 ωi und 0 ≤ p ≤ 1. Hier
n
X
ωi , wie oft ein bestimmtes Ereignis auftritt. X ist
interessiert oft nur die Anzahl X = X(ω) =
Beispiele:
2. Endliche Wahrscheinlichkeitsräume
=
=
P ({ω ∈ Ω | IA (ω) = 0})
P ({ω ∈ Ω | IA (ω) = 1})
=
=
P (A)
P (A).
=
1 − P (A),
18
1
0.395
2
0.296
3
0.099
i=1
i=1
Beispiel: E(X 2 ) = 12 · 0.1 + 22 · 0.2 + 32 · 0.3 + 42 · 0.2 + 52 · 0.2 = 11.8.
ω∈Ω
Dann gilt: E(X) = 1 · 0.1 + 2 · 0.2 + 3 · 0.3 + 4 · 0.2 + 5 · 0.2 = 3.2.
b) Mit dem Erwartungswert von X kann auch der Erwartungswert von Transformationen g(X) berechnet werden, da hier eine neue Zufallsvariable Y auf (Ω, A, P ) mit Y (ω) = g(X(ω)) zugrunde liegt.
Es gilt dann:
k
X
X
E(g(X)) =
g(X(ω))P ({ω}) =
g(xi )P X ({xi }).
a) Der Erwartungswert charakterisiert einen mittleren“ Wert, den Schwerpunkt“ der Verteilung.
”
”
Beispiel:
i
1
2
3
4
5
xi
1
2
3
4
5
P (xi ) 0.1 0.2 0.3 0.2 0.2
Bemerkung 3:
ω∈Ω
4
0.012
Definition 5: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann
heißt
k
X
X
E(X) =
X(ω)P ({ω}) =
xi P X ({xi })
Erwartungswert von X.
0
0.198
Abbildung 3: B(4, 13 )-Verteilung
k
P(X=k)
Beispielsweise die B(4, 13 )-Verteilung:
Bemerkung 2: Da die Verteilung P X einer Zufallsvariablen X auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) nur durch endlich viele Elementarereignisse beschrieben wird, kann sie häufig durch
ein Stabdiagramm übersichtlich dargestellt werden.
IA ist also B(1, P (A))-verteilt.
P IA ({0})
P IA ({1})
c) Für die Indikatorvariable gilt:
2. Endliche Wahrscheinlichkeitsräume
19
⇒
a ≤ E(X) ≤ b.
für alle α, β, γ ∈ R.
Ã
αE(X) + βE(Y ) + γ.
X(ω)P ({ω})
=
ω∈Ω
X
α
!
ω∈Ω
X
Y (ω)P ({ω})
!
+γ
ω∈Ω
X
P ({ω})
besitzt {ω ∈ Ω | X(ω) = xi } als Elementarereignisse für i = 1, . . . , k.
j=1
P (Xij ∈ Bij )
Satz 3:
Sei (Ω, A, P ) = (Ω1 , A1 , P1 ) × (Ω2 , A2 , P2 ) das Produkt zweier endlicher Wahrscheinlichkeitsräume. Sind X und Y Zufallsvariablen auf Ω, so daß X(ω1 , ω2 ) = ξ(ω1 ) und Y (ω1 , ω2 ) = η(ω2 )
für alle (ω1 , ω2 ) ∈ Ω, dann sind X und Y stochastisch unabhängig.
Der folgende Satz zeigt u.a. die stochastische Unabhängigkeit von Zufallsvariablen, die auf verschiedenen
Spielzügen bei Glücksspielen beruhen.
für alle Bi1 , . . . , Bik ∈ B, 1 ≤ i1 < . . . < ik ≤ n mit 2 ≤ k ≤ n.
P ({Xi1 ∈ Bi1 } ∩ . . . ∩ {Xik ∈ Bik }) =
k
Y
Die stochastische Unabhängigkeit entspricht somit der Eigenschaft
Definition 7: Seien X1 , . . . , Xn Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ),
so heißen X1 , . . . , Xn (stochastisch) unabhängig, wenn die von ihnen erzeugten σ-Algebren AX1 , . . . ,
AXn stochastisch unabhängig sind.
A
X
Definition 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ), so
heißt AX := X −1 (A) die von X erzeugte σ-Algebra auf Ω. (vgl. Beispiel von Satz 1.1.)
E(X) = E(Z1 + . . . + Zn ) = E(Z1 ) + . . . + E(Zn ) = n · p.
Bemerkung 4: Da eine B(n, p)-verteilte Zufallsvariable X genauso verteilt ist wie die Summe von n
B(1, p)-verteilten Zufallsvariablen Z1 , . . . , Zn , gilt:
Allgemein gilt für eine B(1, p)-verteilte Zufallsvariable X: E(X) = p.
+β
Ã
(αX(ω) + βY (ω) + γ)P ({ω})
ω∈Ω
=
=
X
xi P (X = xi ) ∈ [a, b], falls x1 , . . . , xk ∈ [a, b].
E(αX + βY + γ)
i=1
k
X
für alle A ∈ A.
c) E(IA ) = 0 · P (A) + 1 · P (A) = P (A).
b)
a) E(X) =
Beweis:
c) E(IA ) = P (A)
b) E(αX + βY + γ) = αE(X) + βE(Y ) + γ
a) a ≤ X ≤ b
Satz 2 (Eigenschaften von Erwartungswerten): Seien X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
2. Endliche Wahrscheinlichkeitsräume
=
=
(∗)
=
=
=
1
3
1
6
1
2
1
4
1
8
3
8
3
4
1
12
1
24
1
8
1
4
0
1
3
0
1
6
1
2
1
2
1
1
3
1
6
1
2
1
2
1
Hier gilt analog: P (X = 0, Y = 1) = 0 6= P (X = 0) · P (Y = 1) und außerdem Y = (3 − X) 2 .
0
0
0
0
j=9
P (X = i)
1
3
1
6
1
2
1
3
j=4
P (Y = j)
i=2
1
6
i=1
0
i=0
0
P (X = i, Y = j)
j=1
Hier gilt zum Beispiel: P (X = 0, Y = 2) = 0 6= 16 = P (X = 0) · P (Y = 2), also sind X und Y
abhängig. Es gilt sogar Y = 2 · (3 − X) und X = 3 − 12 Y . Jeder Wert von X bestimmt sich hier
eindeutig aus dem von Y und umgekehrt.
j=6
P (X = i)
1
3
1
6
1
2
0
1
6
1
3
0
P (Y = j)
i=2
j=4
i=1
0
i=0
0
P (X = i, Y = j)
j=2
1
P (Y = j)
i=1
i=0
Hier sind X und Y unabhängig.
j=6
P (X = i)
j=4
P (X = i, Y = j)
j=2
P (X ∈ B) · P (Y ∈ C).
P (ξ −1 (B) × Ω2 ) · P (Ω1 × η −1 (C))
P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B} ∩ {(ω1 , ω2 ) | η(ω2 ) ∈ C})
P ({ξ −1 (B) × Ω2 } ∩ {Ω1 × η −1 (C)})
P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B, η(ω2 ) ∈ C})
20
das absolute k-te Moment von X,
das zentrale k-te Moment von X.
i=1
i
i
p
Var(X)
a) Die Standardabweichung gibt einen mittleren“ Abstand von µ an, allerdings werden durch Qua”
drieren und Wurzelziehen die größeren Abstände etwas stärker berücksichtigt:
p
E((X − E(X))2 )
σ(X) =
v
u k
uX
= t (x − µ)2 P (X = x ).
Bemerkung 5:
Das zweite zentrale Moment von X heißt Varianz von X: Var(X) = E((X − E(X))2 ). σ(X) =
heißt auch Standardabweichung von X.
E(|X|k )
E((X − µ)k )
Definition 8: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) mit
µ = E(X). Dann heißt für k ∈ N
c)
b)
a)
Beispiele:
(∗): Eigenschaft des Produktmaßes
P (X ∈ B, Y ∈ C)
Beweis: Seien B, C ∈ B. Dann folgt:
2. Endliche Wahrscheinlichkeitsräume
21
E((αX + β − E(αX + β))2 )
α2 Var(X).
=
= E((α(X − E(X)) + β − β)2 )
= α2 E((X − E(X))2 )
=
1
3
+4·
1
3
+
4
6
+
9
2
=
11
2
1
1
13
6 +6· 2 = 3
1
1
3 +1·4· 6 +0
·6·
1
2
= 2 6= E(X) · E(Y )
= E((X − E(X)) · (Y − E(Y )))
= E(X · Y ) − E(X) · E(Y )
Var(X) · Var(Y )
29
9
29
29
36
53
4
%(X, Y ) ≈ −0.9948
Var(Y ) =
Var(X) =
c) Cov(X, Y ) = − 13
4
36 · 9
−
%(X, Y ) = √ 291829 = −1
Var(Y ) =
a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0 und %(X, Y ) = 0.
29
b) Cov(X, Y ) = 2 − 56 · 13
3 = − 18
¡ ¢2
Var(X) = E(X 2 ) − (E(X))2 = 02 · 12 + 12 · 16 + 22 · 13 − 56 = 29
36
Beispiele (Fortsetzung):
als Korrelation von X und Y bezeichnet.
%(X, Y ) = p
Cov(X, Y )
definiert. Falls außerdem Var(X) · Var(Y ) 6= 0 gilt, wird
Cov(X, Y )
Definition 9: Sind X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ).
Dann ist die Kovarianz von X und Y durch
E(X · Y ) = 2 · 1 · 13 + 1 · 4 · 14 = 43 6= E(X) · E(Y )
d) Ein Beispiel mit E(X · Y ) = E(X) · E(Y ), obwohl X und Y abhängig sind, befindet sich auf
Übungsblatt 5 (Aufgabe 5).
E(Y ) =
E(X · Y ) = 2 · 2 ·
c) E(X) = 56
E(Y ) = 2 ·
a) Da die Zufallsvariablen unabhängig sind, folgt: E(X · Y ) = E(X) · E(Y ).
b) E(X) = 0 · 12 + 1 · 16 + 2 · 13 = 56
Beispiele (Fortsetzung):
Beweis: ,→ Übung.
Satz 4: Es seien X und Y stochastisch unabhängige Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: E(X · Y ) = E(X) · E(Y ).
ii) σ(αX + β) = |α| σ(X).
2
Var(αX + β)
b) Sei Var(X) = σ 2 ∈ [0, ∞). Dann gilt für alle α, β ∈ R:
i) Var(αX + β) = α2 Var(X).
Beweis:
2. Endliche Wahrscheinlichkeitsräume
22
∈ R.
11 Hermann
10 Augustin
=
=
=
p
Cov(αX + β, γY + δ)
Var(αX + β)Var(γY + δ)
αCov(X, γY + δ)
= p
α2 Var(X)γ 2 Var(Y )
αγCov(X, Y )
p
=
αγ Var(X)Var(Y )
= ±%(X, Y ).
=
E((α(X − E(X)) + β(Y − E(Y ))) · (Z − E(Z)))
α · Cov(X, Z) + β · Cov(Y, Z).
E((αX + βY + γ − E(αX + βY + γ)) · (Z − E(Z)))
%(αX + β, γY + δ)
Louis Cauchy (1789-1857)
Schwarz (1843-1921)
f) Es gilt:
E(Y )
= E((X − E(X))2 + 2(X − E(X))(Y − E(Y )) + (Y − E(Y ))2 )
= Var(X) + 2Cov(X, Y ) + Var(Y ).
= E((X + Y − E(X + Y ))2 )
= E(((X − E(X)) + (Y − E(Y )))2 )
Cov(αX + βY + γ, Z)
e) Es gilt für α, β, γ ∈ R:
Var(X + Y )
c) Cov(X, X) = E((X − E(X))2 ) = Var(X).
d) Es gilt:
E(X·Y )
E(Y 2 )
=
E(Y 2 ) · E(X 2 ) − (E(X · Y ))2
p
E(X·Y )
zu ii) (E(X · Y ))2 = E(Y 2 ) · E(X 2 ), falls E(Y 2 )X = √
Y . Also X = αY mit α =
2
a) Klar. Gegenbeispiel: Übungsblatt 5, Aufgabe 5.
b) Zunächst Nachweis der Cauchy10 -Schwarz11 -Ungleichung für Erwartungswerte:
i) (E(X · Y ))2 ≤ E(X 2 ) · E(Y 2 ),
ii) (E(X · Y ))2 = E(X 2 ) · E(Y 2 ) genau dann, wenn X = αY oder Y = αX für ein α ∈ R.
zu i) Sei E(Y 2 ) = 0. Dann folgt: P (Y = 0) = 1 und damit (E(X · Y ))2 = 0 = E(X 2 ) · E(Y 2 ).
Sei also E(Y 2 ) > 0. Dann gilt:
Ã
!2 
p
E(X · Y )
2

E(Y ) · X − p
·Y 
0 ≤ E
E(Y 2 )
µ
¶
(E(X · Y ))2
= E(E(Y 2 ) · X 2 ) − 2E(E(X · Y ) · X · Y ) + E
·Y2
2
E(Y )
(E(X · Y ))2
2
2
= E(Y ) · E(X ) − 2E(X · Y ) · E(X · Y ) +
· E(Y 2 )
E(Y 2 )
Beweis:
f) |%(αX + β, γY + δ)| = |%(X, Y )| für alle α, β, γ, δ ∈ R mit α · γ 6= 0.
e) Cov(αX + βY + γ, Z) = α · Cov(X, Z) + β · Cov(Y, Z) für alle α, β, γ ∈ R.
d) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
c) Cov(X, X) = Var(X).
b) |%(X, Y )| ≤ 1 und |%(X, Y )| = 1 genau dann, wenn Y = αX + β oder X = αY + β für geeignete α,
β ∈ R.
a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0, aber nicht umgekehrt.
Satz 5: Seien X, Y und Z Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
1
E((X − E(X))2 ).
ε2
n Xn
¡1
¢
=
≤
=
=
≤
Satz 6
=
Folgende Ungleichung gilt dann für alle ε > 0:
lim
n→∞
Var(Sn )
ε2
1
p(1
− p)
lim n
n→∞
ε2
0.
lim P (|Sn − p| ≥ ε)
n→∞
1
n p(1−p).
= n · (p − p2 )
= n · p · (1 − p).
1
n2 Var(Xn )
0
Var(Y1 + . . . + Yn )
= n · Var(Y1 )
= n · E(E(Y12 ) − (E(Y1 ))2 )
=
13
max
= 0.
13 James
Tschebyscheff (1821-1894)
Stirling (1692-1770)
12 Pafnuty
√
¡ ¢n
a) Wir verwenden die Stirlingsche Formel : n! = 2πn ne e%(n) mit
Beweis:
lim
√ |rn (kn )|
n→∞ |kn −µn |≤αn n
1
12n+1
< %(n) <
1
12n .
Nun
mit µn = n · p = E(Xn ), σn2 = np(1 − p) = Var(Xn ) (Glockenkurve der Normal- oder Gauß-Verteilung),
1
wobei für eine Folge {αn } mit αn · n− 6 → 0, αn > 0, gilt:
1 kn −µn 2
1
P (Xn = kn ) = p
· e− 2 ( σn ) · (1 + rn (kn ))
2πσn2
Satz 8: Sei {Xn }n∈N eine Folge von B(n, p)-verteilten Zufallsvariablen mit 0 < p < 1. Dann gilt:
Also: Var(Sn ) = Var
Var(Xn )
Beweis: Es gelte E(Xn ) = n · p und damit E(Sn ) = p. Xn ist verteilt wie die Summe von n
unabhängigen B(1, p)-verteilten Zufallsvariablen Y1 , . . . , Yn . Damit gilt:
n→∞
Satz 7 (Schwaches Gesetz der großen Zahlen): Sei {Xn } mit Xn ∼ B(n, p) eine Folge von
Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt für Sn = n1 Xn und
alle ε > 0:
lim P (|Sn − p| ≥ ε) = 0.
P (|X − E(X)| ≥ ε) ≤
Satz 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt
für jedes ε > 0 die Tschebyscheffsche Ungleichung 12 :
Ist X B(n, p)-verteilt, so entspricht X der Anzahl, wie oft bei n Wiederholungen ein Ereignis eingetreten
ist. Sn = n1 X entspricht der relativen Häufigkeit für das Eintreten des Ereignisses. Eine Beobachtung entspricht der relativen Häufigkeit für eine Meßreihe. Wir erwarten, daß Sn für n → ∞ gegen p
konvergiert“.
”
2.2. Grenzwertsätze zur Binomialverteilung
23
=
g 000 (t)
=
=
g 00 (p)
1
(1−t)2
t2 −(1−t)2
2
t (1−t)2
− t12 +
+
1
1−t
1
t(1−t)
1
p(1−p)
1
t
= ln t + t 1t − ln p − ln(1 − t) − 1−t
1−t + ln(1 − p)
= ln t − ln p − ln(1 − t) + ln(1 − p)
= 0
= t ln t − t ln p + (1 − t) ln(1 − t) − (1 − t) ln(1 − p)
= 0
=
=
=
g 00 (t)
g 0 (p)
g 0 (t)
g(p)
1−
1−
=
1−
=
=
=
s
− 12
µ
kn
n
p
·
n−kn
n
1−p
·e
1
2
µ
np(1−p)
1
n |kn
− np| ≤
√
αn n
n
=
αn
√
,
n
1
1
2p(1−p)
2
e−n
6
( knn −p)
3
e
.
24
g 000 (ξkn ) %(n)−%(kn )−%(n−kn )
) e%(n)−%(kn )−%(n−kn )
αn
n
− (1 − p)| = | knn − p| ≤ √
= α n n− 6 n− 3 ,
ii) | n−k
n
n
√
1
1
iii) kn ≥ np − αn n = n(p − αn n− 6 n− 3 ) und
√
1
1
iv) n − kn ≥ n − (np + αn n) = n(1 − p − αn n− 6 n− 3 ).
i) | knn − p| ≤
kn
n
( knn −p)
e−ng(
e−n
¶2
¶2
np(1−p)
√kn −np
¶2
√kn −np
µ
np(1−p)
√kn −np
2πnp(1 − p) 12
·e
n
2πn knn n−k
n
·e
P (Xn = kn )
1
2πnp(1−p)
s
1
(t − p)3 000
(t − p)2
·
+
· g (ξt )
2
p(1 − p)
6
2
3
(t − p)
(t − p)
+
· g 000 (ξt ).
2p(1 − p)
6
= 0 + (t − p) · 0 +
Betrachte folgende vier Ungleichungen:
rn (kn )
c) Aus a) und b) folgt:
g(t)
g 000 ist also für jedes δ > 0 auf (δ, 1 − δ) beschränkt. Somit gilt für die Taylorentwicklung:
=⇒
=⇒
=⇒
b) Wir führen eine Taylorentwicklung von g um den Punkt t0 = p durch:
µ³ ´ ³
´1−t ¶
t
t
1−t
g(t) = ln
p
1−p
P (Xn = kn )
n!
pkn (1 − p)n−kn
kn !(n − kn )!
√
¡ ¢kn ¡ n ¢n−kn %(n)
2πn ne
e
e
= √
pkn (1 − p)n−kn
p
¡ ¢kn ¡ n−k ¢n−kn
n
2πkn 2π(n − kn ) ken
e%(kn ) e%(n−kn )
e
"µ ¶ kn µ
#n
n
¶ n−k
n
1
np n n(1 − p)
= q
e%(n)−%(kn )−%(n−kn )
kn
n − kn
n
2πn knn n−k
n
|
{z
}
k
−ng ( n )
n
e
µ
¶
¡ ¢t ³ 1−p ´1−t
mit g(t) = − ln pt
.
1−t
√
√
folgt für µn − αn n ≤ kn ≤ µn + αn n:
2. Endliche Wahrscheinlichkeitsräume
→
0
2. Endliche Wahrscheinlichkeitsräume
14
=
=
k+ 12
p
!
1 k−µn 2
1
p
e− 2 ( σn ) (1 + rn (k)).
2πσn2
k− 12
1 k−µn 2
1
e− 2 ( σn ) dt (1 + rn (k))
2πσn2
"Z
#
k+ 12
1 t−µn 2
1
p
e− 2 ( σn ) dt (1 + rn (k))
2πσn2
k− 12
³
´


Z k+ 12 −(t − k) ξt −µn 1
σn
σn − 1 ( ξt −µn )2

2
σ
n
p
+
e
dt (1 + rn (k))
2πσn2
k− 12
ÃZ
k=An
Bn
X
≤ µn + bσn − µn + aσn + 1
p
np(1 − p)(b − a) + 1.
=
15 Wir
de Moivre (1667-1754)
2 )-Verteilung:
approximieren die Verteilungsfunktion von Xn durch die Verteilungsfunktion einer N (µ, σn
µ
¶
An − µ n
Xn − µ n
Bn − µn
≤
≤
P (An ≤ Xn ≤ Bn ) = P
σn
σn
σn
¶
µ
¶
µ
An − 0.5 − µn
Bn + 0.5 − µn
−Φ
≈ Φ
σn
σn
für An , Bn ∈ Z.
Bn − A n + 1
mit ξt ∈ [k − 12 , k + 12 ] für t ∈ [k − 12 , k + 12 ] und
1 k−µn 2
1
p
e− 2 ( σn ) (1 + rn (k))
2πσn2
Dabei gilt:
=
wobei An die kleinste ganze Zahl ist, die größer oder gleich µn + aσn ist, und Bn die größte ganze
Zahl, die kleiner oder gleich µn + bσn ist.
1
Sei√{αn } eine Folge mit αn > 0 und αn n− 6 → 0. Gelte weiterhin An , Bn ∈ {kn ∈ Z | |kn − µn | ≤
αn n}, so können wir Satz 8 anwenden:
µ
¶
Xn − µ n
P a≤
≤b
= P (An ≤ Xn ≤ Bn )
σn
Satz 9 (Grenzwertsatz von de Moivre und Laplace): Sei {Xn }n∈N eine Folge von B(n, p)verteilten Zufallsvariablen mit 0 < p < 1. Dann folgt für a, b ∈ R, a < b, mit µn = np und σn =
p
np(1 − p):
µ
¶
Xn − µ n
lim P a ≤
≤ b = Φ(b) − Φ(a),
n→∞
σn
Z x
1 2
1
√ e− 2 t dt für x ∈ R die Verteilungsfunktion einer N (0, 1)-Verteilung angibt.15
wobei Φ(x) =
2π
−∞
Beweis:
¶
µ
Xn − µ n
≤b
= P (µn + aσn ≤ Xn ≤ µn + bσn )
P a≤
σn
= P (An ≤ Xn ≤ Bn ),
Daraus folgt die Behauptung.
(gleichmäßig).
→0
Die rechte Seite von i) und ii) konvergiert gleichmäßig gegen 0, die von iii) und iv) gleichmäßig
gegen ∞. Außerdem gilt:
¯
¯ ¡
¢3
kn
¯
³
´¯
´¯
−p
1 3 − 3 ¯¯ 000 ³
¯
¯
¯
ξ kn ¯
· g 000 ξ kn ¯ ≤
nαn n 2 ¯g
¯−n n
n
n
¯
¯
6
6
´3 ¯ ³
´¯
1
1³
¯
¯
αn n− 6 ¯g 000 ξ kn ¯
=
n
6 | {z }
14 Abraham
25
k=An
Bn Z
X
k− 12
k+ 12
p
1 t−µn 2
1
e− 2 ( σn ) dt
2πσn2
=
≤
1
Z
−∞
∞
1 t−µn 2
1
p
e− 2 ( σn ) dt
2πσn2
√
ξt −µn 1
σn
σn
2
2πσn
−(t−k)
:
2
µ
a≤
=
=
=
=
p
Bn + 1 −µn
2
σn
An − 12
Bn − 12
k− 12
p
1 t−µn 2
1
e− 2 ( σn ) dt + Rn
2πσn2
1 t−µn 2
1
e− 2 ( σn ) dt + Rn
2πσn2
k+ 12
An − 1 −µn
2
σn
1 2
1
√ e− 2 s ds + Rn
2π
µ
¶
µ
¶
Bn + 12 − µn
An − 12 − µn
Φ
−Φ
+ Rn .
σn
σn
Z
Z
k=An
Bn Z
X
k=0
16 Siméon
Denis Poisson (1781-1840)
Die bisherigen Grenzwertaussagen untersuchten die Konvergenz der Verteilungsfunktion bzw. von einzelnen Wahrscheinlichkeiten, nicht aber eine punktweise oder gleichmäßige Konvergenz der Zufallsvariablen
Hinweis: Ist p nahe an 0 oder 1, so läßt sich die Binomialverteilung besser durch eine Poisson- statt
einer Normalverteilung approximieren.
k=0
Satz 10: Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ B(1, pi ) für i = 1, . . . , n. Dann
folgt für λ = p1 + . . . + pn :
¯
∞ ¯
n
k¯
X
X
¯
¯P (X1 + . . . + Xn = k) − e−λ λ ¯ ≤ 2
p2k .
¯
¯
k!
k
Bn + 12 − µn
An − 12 − µn
= b, lim
= a gilt, folgt die Behauptung.
n→∞
σn
σn
¶
k+ 12
26
Definition 10: Eine Verteilung auf (R, B) mit P ({k}) = e−λ λk! für alle k ∈ Z, k ≥ 0 und ein λ > 0
heißt Poisson16 -Verteilung.
n→∞
Xn − µ n
≤b
σn
Da Φ stetig ist und lim
P
t−µn
σn :
0.
n→∞
=
1
ÃZ
lim αn n− 2
n→∞
Bn
X
¯
¯!
¯ ξt − µ n ¯
¯
¯
¯ σ 3 ¯ (1 + rn (k))
n→∞
k− 12
n
k=An
¡
¢
√
lim (σn (b − a) + 1)αn nσn−3
lim
=
≤
≤
Also ergibt sich mit einer Nullfolge Rn und der Substitution s =
k=An
¯
¯ B Z
n
¯
¯X
k+ 12
1 ξt −µn 2
¯
¯
Γe− 2 ( σn ) dt · (1 + rn (k))¯
lim ¯
n→∞ ¯
¯
k− 1
gegen 0. Außerdem folgt mit Γ :=
gilt, und die Summanden jeweils nicht negativ sind, konvergiert
!
!
ÃZ
ÃZ
Bn
Bn
k+ 12
k+ 12
X
X
1 t−µn 2
1 t−µn 2
1
1
p
p
e− 2 ( σn ) dt (1 + rn (k)) −
e− 2 ( σn ) dt
2πσn2
2πσn2
k− 12
k− 12
k=An
k=An
Da
2. Endliche Wahrscheinlichkeitsräume
P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ).
A∞ = σ({A1 × . . . × An × Ωn+1 × . . . | n ∈ N, Ai ∈ Ωi })
Beweis: Auf den Beweis verzichten wir hier, da wir diesen Satz später allgemeiner beweisen werden.
Satz 11 (Starkes Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen): Sei
{Xn } eine Folge unabhängiger B(1, p)-verteilter Zufallsvariablen. Dann gilt für die B(n, p)-verteilten
Zufallsvariablen Yn = X1 + . . . + Xn die folgende starke Konvergenz:
µ
¶
Yn
= p = 1.
P∞ lim
n→∞ n
Dies liefert eine σ-additive Mengenfunktion P∞ auf der durch {A1 × . . . × An × Ωn+1 × . . .} definierten
Algebra, so daß der Maßfortsetzungssatz 1.3. ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P ∞ auf
(Ω∞ , A∞ ) ergibt.
und
Wir definieren also:
P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ).
mit Ai ∈ Ai ∈ 2Ω für jedes n ∈ N und
A1 × . . . × An × Ωn+1 × . . . ∈ A∞
Gegeben seien endliche
Q∞ Wahrscheinlichkeitsräume (Ωn , An , Pn ) mit n ∈ N. Für einen Produktraum
wählen wir Ω∞ = n=1 Ωn als Ergebnis- bzw. Ereignisräume, d.h. Elemente von Ω∞ sind Folgen
{ωn }n∈N mit ωn ∈ Ωn . Zur Definition eines Produktmaßes und A∞ sollte mindestens gelten:
selber. Um hierüber Aussagen zu erhalten, benötigen wir ein Wahrscheinlichkeitsmaß für Folgen von
Zufallsvariablen.
2. Endliche Wahrscheinlichkeitsräume
⇒
⇒
X −1 (B) ∈ Bd
X −1 (B) ∈ Bd
28
⇒“:
”
⇐“:
”
n∈N
n∈N
n∈N
klar, da (−∞, t] ∈ B für t ∈ R.
Dies folgt direkt aus B = σ({(−∞, t] | t ∈ R}). Sei nämlich E = {B ∈ B | X −1 (B) ∈
A}, so folgt (−∞, t] ∈ E für alle t ∈ R. Außerdem ist E eine σ-Algebra. Also folgt
E = B.
a) Alle offenen Mengen sind in E enthalten:
Sei O ∈ R eine offene Menge, dann folgt aus der Stetigkeit von X, daß X −1 (O) auch offen in Rd
ist, d.h. X −1 (O) ∈ Bd . Also gilt: O ∈ E.
Beweis: Wir betrachten das Mengensystem E = {B ∈ B | X −1 (B) ∈ Bd }, welches System der lieben
”
Mengen“ genannt wird, und zeigen, daß E alle Borelmengen umfaßt.
Bemerkung: Für einen Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Rd und A = Bd ist jede stetige
Funktion X : Rd → R eine Zufallsvariable.
b) Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = [0, 1] und A = {∅, [0, 12 ], ( 12 , 1], Ω}. Eine
Abbildung X : [0, 1] → R mit X(ω) = ω ist keine Zufallsvariable auf ([0, 1], A, P ), da X −1 ([0, 14 ]) =
[0, 14 ] ∈
/ A, obwohl [0, 14 ] ∈ B erfüllt ist.
a) Eine Zufallsvariable X auf einem endlichen Wahrscheinlichkeitsraum ist eine Zufallsvariable im Sinne
von Definition 11, da offensichtlich X −1 (B) ⊂ Ω und X −1 (B) ∈ 2Ω für alle B ∈ B gilt.
t→∞
a)
i) Sei t < s. Dann gilt: F (t) = P ((−∞, t]) ≤ P ((−∞, s]) = F (s).
Beweis:
b) Ist umgekehrt F : R → [0, 1] eine Funktion mit den Eigenschaften i), ii) und iii), so gibt es genau
ein Wahrscheinlichkeitsmaß P auf (R, B) mit der Verteilungsfunktion F .
t→−∞
i) F ist monoton und nicht fallend.
ii) F ist rechtsseitig stetig.
iii) lim F (t) = 0 und lim F (t) = 1.
a) Dann hat die Verteilungsfunktion F von P folgende Eigenschaften:
Satz 13: Gegeben sei eine Verteilung P auf (R, B).
c) Die Verteilungsfunktion F : R → R des Bildmaßes P X , d.h. F (t) = P X ((−∞, t]) = P (X ≤ t) für
t ∈ R, heißt auch Verteilungsfunktion von X.
Beispiele:
b) σ(X) = AX := {X −1 (B) | B ∈ B} ⊂ A heißt die von X erzeugte σ-Algebra auf Ω.
a) Das Bildmaß P X auf (R, B) mit P X (B) = P (X −1 (B)) für alle B ∈ B heißt Verteilung von X.
Definition 12: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
b) ,→ Übung.
a)
Beweis:
n∈N
lim inf Xn und lim sup Zufallsvariablen auf (Ω, A, P ).
b) Sind {Xn }n∈N mit Xn : Ω → R eine Folge von Zufallsvariablen, so sind auch sup Xn , inf Xn ,
a) X : Ω → R ist genau dann eine Zufallsvariable, wenn X −1 ((−∞, t]) ∈ A für alle t ∈ R.
Satz 12: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt:
Hinweis zur Beweistechnik: Um zu zeigen, daß eine Eigenschaft für alle Elemente einer σ-Algebra
erfüllt ist, reicht es zu zeigen, daß die Eigenschaft für ein Erzeugendensystem erfüllt ist, und daß das
Mengensystem, das die Eigenschaft erfüllt, eine σ-Algebra ist.
S
Also: B ∈ E für alle n∈N An ∈ B.
c) B ist die kleinste, alle offenen Mengen von R umfassende σ-Algebra. E umfaßt laut Teil a) alle
offenen Mengen, und ist nach b) eine σ-Algebra. Also gilt: E ⊃ B bzw. E = B. X ist also eine
Zufallsvariable.
X −1 (B) ∈ Bd
X −1 (B) = X −1 (B) ∈ Bd
i) ∅ ∈ E, da X −1 (∅) = ∅ ∈ Bd gilt.
ii) Sei B ∈ E. Dann gilt:
b) E ist eine σ-Algebra:
2. Endliche Wahrscheinlichkeitsräume
Definition 11: Eine Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist eine Funktion
X : Ω → R, so daß X −1 (B) ∈ A für alle B ∈ B gilt. Diese Eigenschaft einer Funktion Ω nach R bezeichnet
man als Borel-meßbar bzw. A-B-meßbar.
Für die allgemeine Definition von Zufallsvariablen spielt der meßbare Raum (R, B) mit der Borelschen
σ-Algebra B eine wichtige Rolle. B kann durch die Menge der halboffenen Intervalle I 1 , aber auch durch
die Menge aller offenen Mengen oder durch die Menge der abgeschlossenen Mengen von R erzeugt werden.
Insbesondere enthält B auch alle einpunktigen Mengen {x}, x ∈ R, und alle abzählbaren Mengen (zum
Beispiel N, Z und Q) sind in B enthalten.
2.3. Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen
27
29
n→∞
=
=
Satz 1.2
=
=
lim P ((−∞, tn ])
n→∞
lim F (tn ).
n→∞
n∈N
P ((−∞, t])
Ã
!
\
P
(−∞, tn ]
n→∞
n∈N
t→−∞
n→∞
lim F (t) = P (∅) = 0. Analog folgt lim F (t) = P (R) = 1 für eine monoton
(−∞, tn ] = ∅.
n∈N
pn = 1 gilt.
n∈N
X
pn Ixn für eine Folge {xn } ⊂ R und
2πσ 2
b) Eine stetige Zufallsvariable mit Dichte f : R → [0, ∞) mit
½
λe−λx für x ≥ 0
f (x) =
0
sonst
x ∈ R (etwa Meßfehler X einer Waage).
Normalverteilungen eignen sich häufig zur Beschreibung von Meßgrößen, wenn eine homogene Population zugrunde liegt.
a) Eine Zufallsvariable mit der normalverteilten Verteilung P X und den Parametern µ und σ 2 heißt
1 x−µ 2
N (µ, σ 2 )-verteilt, ist stetig und besitzt als Dichte f : R → [0, ∞) mit f (x) = √ 1 e− 2 ( σ ) für
Beispiele für stetige Zufallsvariablen:
c) Eine Zufallsvariable X auf (Ω, A, P ), deren Verteilung poissonverteilt ist, heißt poissonverteilt und
ist diskret. Beispiel: Die Anzahl der Lackflecken auf der Karosserie eines frisch lackierten Autos oder
die Anzahl von seltenen Ereignissen, wie etwa die Anzahl Erkrankungen an einer seltenen Krankheit.
b) Zufallsvariablen, deren Verteilungen sich aus Laplacewahrscheinlichkeiten bestimmen, sind diskret,
etwa die Summe der Augenzahlen von drei Würfeln.
a) Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen sind diskret mit xn ∈ {X(ω) | ω ∈ Ω}, also
etwa binomialverteilte Zufallsvariablen, zum Beispiel die Anzahl der Studentinnen und Studenten,
die eine Klausur bestehen (bei Unabhängigkeitsannahme).
Beispiele für diskrete Zufallsvariablen:
läßt. Die Funktion f wird dann als Dichte zu P bezeichnet. Eine Zufallsvariable X heißt (absolut)
stetig, wenn die Verteilung von X (absolut) stetig ist.
−∞
b) Eine Verteilung P auf (R, B) heißt (absolut) stetig, wenn sich die Verteilungsfunktion F zu P in der
Z t
f (s) ds für alle t ∈ R mit einer nicht-negativen Funktion f : R → [0, ∞) schreiben
Form F (t) =
pn ∈ [0, 1] für n ∈ N mit
X
a) Eine Verteilung P auf (R, B) heißt diskret, falls P =
Definition 13:
wachsende Folge.
b) Da durch die Verteilungsfunktion eine σ-additive Mengenfunktion auf der Algebra I 1 der halboffenen Intervalle bestimmt wird, läßt sich mit dem Maßfortsetzungssatz 1.3 die Behauptung
zeigen.
Also folgt:
\
iii) Analog folgt mit Satz 1.2 für eine monoton fallende Folge {tn } mit lim tn = −∞:
F (t)
ii) Sei {tn } eine Folge mit lim tn = t und tn > tn+1 > t für alle n ∈ N und ein t ∈ R. Dann gilt:
2. Endliche Wahrscheinlichkeitsräume
½
1 − e−λx
0
für x ≥ 0
.
sonst
30
{n | xn >0}
X
Z
pn xn < ∞ oder
X
pn |xn | < ∞.
pn xn ∈ R ∪ {−∞, ∞},
X
n∈N
{n | xn <0}
E(X) =
−∞
|x|f (x) dx < ∞ oder
0
∞
xf (x) dx < ∞.
−∞
⇒
E(X) ≥ 0.
als Korrelation von X und Y .
%(X, Y ) = p
Var(X) · Var(Y )
Cov(X, Y )
e) Gilt außerdem 0 < Var(X) < ∞ und 0 < Var(Y ) < ∞, so bezeichnen wir
d) Cov(X, Y ) = E((X − E(X)) · (Y − E(Y ))) als Kovarianz von X und Y .
c) Var(X) = E((X − E(X))2 ) als Varianz von X und
b) E((X − E(X))k ) für k ≥ 1 als k-tes zentrales Moment von X,
a) E(|X|k ) für k ≥ 1 als k-tes absolutes Moment von X,
Definition 15: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wenn
die folgenden Erwartungswerte existieren, bezeichnen wir
Beweis: a), b) und c) folgen direkt aus der Definition.
c) E(IA ) = P (A) für alle A ∈ A.
b) Falls E(X) und E(Y ) endlich sind, folgt für α, β, γ ∈ R: E(αX + βY + γ) = αE(X) + βE(Y ) + γ.
a) X ≥ 0
Bemerkung: Sind X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
Analog zu Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen gibt der Erwartungswert die Mitte“
”
bzw. den Schwerpunkt“ der Verteilung an.
”
falls
0
b) Ist X stetig und die Dichte f gegeben, so definieren wir den Erwartungswert von X über
Z ∞
E(X) =
xf (x) dx ∈ R ∪ {−∞, ∞},
Z
falls entweder
n∈N
Definition 14: X sei eine diskrete oder stetige Zufallsvariable auf einem Wahrscheinlichkeitsraum.
X
a) Ist X diskret mit P X =
pn Ixn , so definieren wir den Erwartungswert von X über
für a, b ∈ R mit a < b heißt gleichverteilt auf [a, b].
Die Wartezeit an einer Bushaltestelle bei unbekanntem Fahrplan ist gleichverteilt in [0, 20], wenn
der Bus eigentlich alle 20 Minuten kommt.
c) Eine stetige Zufallsvariable X mit Dichte f : R → [0, ∞) mit
½ 1
für x ∈ [a, b]
b−a
f (x) =
0
sonst
Die Exponentialverteilung eignet sich beispielsweise für die Lebensdauer eines Gerätes oder für die
Ankunftszwischenzeiten bei Warteschlangen (konstante Ausfallrate, konstante Ankunftsrate).
F (x) =
heißt exponentialverteilt, und es gilt:
2. Endliche Wahrscheinlichkeitsräume
31
}i∈I
=
=
{σ(Xi )}i∈I
{{Xi−1 (B) | B ∈ B}}i∈I
P (Xi ∈ Bi
i∈I0
∀ i ∈ I0 ) =
i∈I0
Y
i∈I0
P (Xi ∈ Bi ).
i=1
P (Xi = xiji )
−∞
i=1
n
Y
F (ti )
B
i=1
n
Y
=
=
=
·... ·
xn jn ∈Bn
X
xn jn ∈Bn
X

{Xn = xnjn }
¡
¢
¡
¢
P X1 = x1j1 · . . . · P Xn = xnjn
xn jn ∈B1
[
P (Xi ∈ Bi ), insbesondere
¡
¢
P (X1 = x1j1 ) ∩ . . . ∩ (Xn = xnjn )
P (X1 ∈ B1 ) · . . . · P (Xn ∈ Bn ).
x1j1 ∈B1
X
·... ·
x1j1 ∈B1
x1j1 ∈B1
X
für Bi = {xiji } gilt. Für die Rückrichtung gilt:



[
P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P 
{X1 = x1j1 } ∩ . . . ∩ 
a) Die Hinrichtung ist offensichtlich, da P (X1 ∈ B1 , . . . , Xn ∈ Bn ) =
Beweis:
mengen B.
für alle t1 , . . . , tn ∈ R.
Z
Z
ii) wenn P (X1 ∈ B1 , . . . , Xn ∈ Bn ) =
···
f1 (x1 ) · · · fn (xn ) dxn · · · dx1 für B1 , . . . , Bn ∈ B.
B1
Bn
Z
iii) wenn P ((X1 , . . . , Xn ) ∈ B) =
f1 (x1 ) · · · fn (xn ) d(x1 , . . . , xn ) für alle n-dimensionalen Borel-
F (t1 , . . . , tn ) =
−∞
für alle j1 ∈ I1 , . . . , jn ∈ In .
b) Sind X1 , . . . , Xn alle stetig mit Dichten f1 , . . . , fn , so sind X1 , . . . , Xn stochastisch unabhängig
genau dann,
Z t1
Z tn
i) wenn P (X1 ≤ t1 , . . . , Xn ≤ tn ) =
···
f1 (x1 ) · · · fn (xn ) dxn · · · dx1 bzw.
P (X1 = x1j1 , . . . , Xn = xnjn ) =
n
Y
a) Sind X1 , . . . , Xn alle diskret mit Werten (x1j1 )j1 ∈I1 , . . . , (xnjn )jn ∈In , so sind X1 , . . . , Xn stochastisch unabhängig genau dann, wenn
Satz 14: X1 , . . . , Xn seien Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
bzw.
der erzeugten σ-Algebren stochastisch unabhängig ist, d.h. falls für alle endlichen I0 ⊂ I und für alle
Bi ∈ B (i ∈ I0 ) gilt:
!
Ã
Y
\
Xi−1 (Bi ) =
P (Xi−1 (Bi ))
P
{A
Xi
Definition 16: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Xi }i∈I eine Familie von Zufallsvariablen auf (Ω, A, P ). Dann heißen {Xi }i∈I (stochastisch) unabhängig, falls die Familie
Beweis: Diese Eigenschaft folgt analog zum Nachweis für endliche Wahrscheinlichkeitsräume.
Var(αX + βY + γ) = α2 Var(X) + β 2 Var(Y ) + 2αβCov(X, Y ).
Bemerkung: Sind X und Y Zufallsvariablen auf (Ω, A, P ) mit endlichem Erwartungswert und Varianz,
so folgt für alle α, β, γ ∈ R:
2. Endliche Wahrscheinlichkeitsräume
32
i=1
i=1
n
X
E
E
Z
S dµ =
i=1
n
X
αi µ(E ∩ Ai )
αi IAi und E ∈ A sei
n→∞
Ω
=:S1
=:S2
{S | 0 ≤ S ≤ f, S einfach} ⊂ {S | 0 ≤ S ≤ g, S einfach} .
{z
} |
{z
}
|
Beweis: b) bis e) gelten offensichtlich für einfache Funktionen, somit auch allgemein. Wir zeigen
folglich nur a). Es gilt:
E
Satz 16: Seien f und g Borel-meßbare Funktion von Ω nach R. Dann folgt für Ereignisse A, B, E ∈ A:
Z
Z
f dµ ≤
g dµ.
a) 0 ≤ f ≤ g ⇒ 0 ≤
E
E
Z
Z
b) A ⊂ B, f ≥ 0 ⇒
f dµ ≤
f dµ.
A
B
Z
Z
αf dµ = α
f dµ.
c) f ≥ 0, α ∈ [0, ∞) ⇒
E
E
Z
d) f (ω) = 0 für alle ω ∈ Ω. ⇒
f dµ = 0.
E
Z
Z
e) f ≥ 0 ⇒
f dµ =
f · IE dµ.
das µ-Integral von f über E.
E
b) Sei f : Ω → [0, ∞) meßbar. Dann ist für E ∈ A
½Z
¾
Z
¯
f dµ = sup
S dµ ¯ 0 ≤ S ≤ f, S einfache Funktion
das µ-Integral von S über E.
a) Für eine einfache Funktion S =
Definition 18:
Beweis: ,→ Übungsaufgabe 2 auf Blatt 7.
Satz 15: Sei f : Ω → [0, ∞) eine Borel-meßbare Funktion. Dann gibt es eine Folge von einfachen
Funktionen {Sn }n∈N mit 0 ≤ S1 ≤ S2 ≤ . . . ≤ f und lim Sn (x) = f (x) für alle x ∈ R.
eine einfache Funktion auf Ω (vgl. Blatt 7, Aufgabe 2).
Definition 17: Seien α1 , . . . , αn ∈ [0, ∞) und A1 , . . . , An ∈ A mit αi 6= αj und Ai ∩ Aj = ∅ für i 6= j.
Dann heißt S : Ω → R mit
n
X
α i I Ai
S=
Sei im folgenden (Ω, A, µ) ein Maßraum.
2.4. Einführung in die Integrationstheorie
b) Es gilt offensichtlich: iii) ⇒ ii) ⇒ i). Gilt jedoch i), so folgt nach dem Maßfortsetzungssatz Satz
1.3, daß ein Maß durch die Werte auf (−∞, t1 ] × . . . × (−∞, tn ], und somit I n , eindeutig festgelegt
wird, und es folgt iii).
2. Endliche Wahrscheinlichkeitsräume
f.
Ω
E
Z
Z
f dµ
=
≤
=
sup
Z
E
S dµ
Ω
E
Ω
sup
S dµ
E
Z
g dµ.
S∈ S2
S∈S1
Z
2. Endliche Wahrscheinlichkeitsräume
α i I Ai , t =
j=1
m
X
Ai =
j=1
m
[
Ω
(s + t) dµ
=
=
=
=
=
=
i) %(E) ≥ 0 für alle E ∈ A.
ii)
Z
Z
Ω

B
Z
=
=
=
t dµ.
j=1
0.
i=1
j=1
m
X
i=1
n
X
ÃÃ
i=1
n
[
Ai
µ(Ai ∩ Bj )
βj µ
αi µ(∅ ∩ Ai )
s dµ
n
X
∅
βj µ(Bj )
Z
βj
B j  +

j=1
m
X
∩ Bj
!
f (x) dx für eine stetige Wahrscheinlichkeitsverteilung P mit Dichte
%(∅)
Ω
Z
αi µ(Ai ) +
m
X
j=1
m
[
µ(Ai ∩ Bj ) +
αi µ  Ai ∩ 

j=1
m
X
s dµ +
i=1
n
X
i=1
n
X
i=1
αi
i=1 j=1
n
X
(αi + βj )IAi ∩Bj dµ
(αi + βj )µ(Ai ∩ Bj )
Ω i=1 j=1
n X
m
X
Z X
m
n X
!
Bj = Ω. Dann ist
{Ai ∩ Bj | i = 1, . . . , n, j = 1, . . . , m}
i=1
n
[
s dµ für alle E ∈ A und einer einfachen Funktion s ist ein
βj IBj und gelte o.B.d.A.
b) ist die Übertragung der Darstellung P (B) =
b)
i=1
n
X
E
eine Zerlegung von Ω mit paarweise disjunkten Mengen. Es gilt:
a) Sei s =
Beweis:
Maß auf (Ω, A).17
b) Die Abbildung % : A → R mit %(E) =
a) Seien s und t einfache Funktionen. Dann folgt:
Z
Z
Z
(s + t) dµ =
s dµ +
t dµ.
Satz 17:
Daraus folgt:
17 Teil
33
=
=
σ−Additivität von µ
i=1
k∈N
X
k∈N
αi µ(Ai ∩ Ek )
E
%(Ek ).
k∈N i=1
n
XX
34
αi IAi gilt:
Z
R
s dλ =
i=1
n
X
αi λ(Ai ).
Ω
Ω
Ω
Ω
n→∞
Ω
0 ≤ αs(ω) ≤ f (ω) = 0
n∈N
einfache Funktion mit 0 ≤ s ≤ f und sei α ∈ [0, 1). Definiere En := {ω ∈ Ω | fn (ω) ≥ αs(ω)}.
Dann ist E1 ⊂ E2 eine aufsteigende Folge von Ereignissen aus A. Für ω ∈ Ω mit f (ω) > 0 folgt:
αs(ω) ≤ αf (ω) < f (ω) und somit auch αs(ω) ≤ fn (ω) für n ≥ N (ω).
[
Daraus folgt: ω ∈ En für n ≥ N (ω) und ω ∈
En . Für ω ∈ Ω mit f (ω) = 0 folgt
Ω
Beweis: f = sup fn ist meßbar nach Satz 12 bzw. Übungsblatt 7, Aufgabe 2.
n∈N
Z
Z
Z
Aus fn ≤ fn+1 folgt:
fn dµ ≤
fn+1 dµ und somit lim
fn dµ ≤ ∞. Sei nun s eine beliebige
n→∞
Ω
Satz 18 (Satz von der monotonen Konvergenz): Es sei {fn } eine Folge (Borel-)meßbarer Funktionen fn : Ω → [0, ∞] mit 0 ≤ f1 (ω) ≤ f2 (ω) ≤ . . . ≤ ∞ und f (ω) := lim fn (ω) für alle ω ∈ Ω. Dann
n→∞
Z
Z
gilt: f ist meßbar und lim
fn dµ =
f dµ.
Ω
Folgerung: Für meßbare Funktionen f und g mit f , g : Ω → [0, ∞) folgt für α, β ∈ [0, ∞):
Z
Z
Z
(αf + βg) dµ = α
f dµ + β
g dµ.
e) Gilt eine Eigenschaft (zum Beispiel, daß zwei Funktionen gleich sind) für alle ω ∈ Ω außer ω ∈ A,
wobei A eine µ-Nullmenge ist, dann sagt man, daß diese Eigenschaft µ-fast-sicher oder µ-fast-überall
gilt.
d) Sei µ ein beliebiges Maß auf (Ω, A). Jede Menge A mit µ(A) = 0 heißt µ-Nullmenge. Beim
Lebesgue-Maß sind alle abzählbaren Mengen Nullmengen.
c) Für stetige Funktionen f sind Lebesgue- und Riemann-Integral identisch.
Dies gilt insbesondere, wenn s eine Treppenfunktion ist, zum Beispiel die Untersummen von Riemann-Integralen.
i=1
n
X
a) Sei λ das Lebesgue-Maß auf (R, B) gemäß Definition 1.4. Für Intervalle oder endliche Vereinigungen
von Intervallen entspricht λ den Intervallängen.
Z
b) Das Lebesgue-Integral berechnet sich mittels der Formel
f dλ. Für einfache Funktionen s =
Bemerkungen:
% ist also ein Maß auf (Ω, A).
k∈N
iii) Sei {Ek } eine Folge paarweise disjunkter Mengen aus A. Dann gilt:
Ã
Ã
Ã
!
!!
n
[
X
[
Ek
αi µ A i ∩
Ek
%
=
2. Endliche Wahrscheinlichkeitsräume
lim
lim
=⇒
Z
Ω
Ω
Ω
fn dµ
fn dµ
≥
≥
≥
=
Ω
fn dµ
Z
Ω
Ω
Ω
f dµ
s dµ
lim α%(En )
Z
n→∞
α%(Ω)
Z
≥
=
=
=
≥
≥
=
En
n→∞
Ω
Ω
lim
α
Z
fn dµ
s dµ
fn dµ
Ek
Z
Ω
!
fn dµ.
s dµ
α%(En ).
Z
α
s dµ,
Z
En
k∈N
S
α
Z
Z
n∈N
[
En = Ω.
n Z
X
mit 0 ≤ s ≤ f,
für alle einfachen Funktionen s
für alle α ∈ [0, 1),
En . Somit:
n=1
Ω
fn dµ
=
=
Ω
=
Ω
Ω
n∈N
fn
dµ.
fk dµ
fk dµ
k=1
!
Ω k=1
Z X
n
k=1
n Z
X
dµ =
Z ÃX
n→∞
lim
n→∞
fk
lim
k=1
Z ÃX
n
Satz 18
fk meßbar und
∞ Z
X
k=1
n
X
n∈N
Ω
fk dµ, also:
Ω
k≥n
n→∞
Ω
Ω n→∞
Joseph Louis Fatou (1878-1929)
n→∞
n→∞
Setze gn = inf fk für n ∈ N. Dann gilt: lim inf fn = lim gn . Daraus folgt: gn ≤ fn und
n→∞
0 ≤ g1 ≤ g2 ≤ . . . Folgende beide Aussagen ergeben sich daraus:
Z
Z
a)
gn dµ ≤
fn dµ,
Ω
Ω
Z
Z
gn dµ =
lim inf fn dµ.
b) lim
Beweis:
Ω n→∞
Satz 19 (Lemma von Fatou18 ): Für alle n ∈ N seien fn : Ω → [0, ∞] Borel-meßbar. Dann gilt:
Z
Z
lim inf fn dµ ≤ lim inf
fn dµ.
Beweis: Mit fn sind auch
n∈N
Borel-meßbaren Funktionen fn : Ω → [0, ∞] für n ∈ N und sei
Folgerung: Sei {fn } Zeine Folge von
X
XZ
f=
fn . Dann gilt:
f dµ =
fn dµ.
n→∞
n→∞
fn dµ
=⇒
n→∞
Ω
lim
=⇒
Z
Z
n→∞
n∈N
[
2. Endliche Wahrscheinlichkeitsräume
s dµ für alle E ∈ A (% ist ein Maß). Es gilt:
lim α%(En )
E
=⇒
Betrachte %(E) =
Z
und 0 = fn (ω). Also ist ω ∈ En für n ∈ N und ω ∈
18 Pierre
35
Ω
Z
Ω n→∞
lim inf fn dµ
≤
=
n→∞
Z
lim inf
n→∞
lim
Z
Ω
Ω
fn dµ.
gn dµ
n∈N
36
n=1
∞
X
½Z
Z
Ω
Ω
n=1
n=1
∞
X
Ω
Z
Ω
sf dµ.
Z
E
IEn f dµ
ϕ(En ).
∞ Z
X
s dϕ =
Ω
n=1
f dµ
f dµ =
f · IE dµ
Ω
!
Z ÃX
∞
IEn f dµ
ZE
Z
IE dϕ = ϕ(E) =
=
=
=
=
=
Z
Ω
¾
f IE dµ. Also folgt auch
und
Ω
g dµ
=
≥
=
n→∞
lim
Ω
Z
Ω
sn dϕ
=
=
Ω
Z
lim
sn f dµ
n→∞ Ω
Z
gf dµ,
¯
s dϕ ¯ 0 ≤ s ≤ g, s einfache Funktion
ZΩ
sn dϕ
lim
n→∞ Ω
Z
g dµ
sup
n→∞
Somit folgt mit dem Satz über monotone Konvergenz: Für eine aufsteigende Folge von einfachen
Funktionen {sn } mit s1 ≤ s2 ≤ . . . und lim sn (ω) = g(ω) für alle ω ∈ Ω gilt:
Z
für eine einfache Funktion s:
b) Sei g = IE für ein E ∈ A. Dann folgt:
Z
ϕ(E)
IEn · f . Aufgrund der Folgerungen zu Satz 18 erhalten wir:
Damit ist ϕ ein Maß auf (Ω, A).
gilt: IE · f =
Beweis:
a) i) ϕ(E) ≥ 0 ist klar, da f ≥ 0 für alle E ∈ A.
ii) ϕ(∅) = 0 ist ebenfalls klar, da die Bedingung für einfache Funktionen gilt und damit auch für
das Supremum.
[
iii) σ-Additivität. Sei {En } eine Folge paarweise disjunkter Mengen in A mit E =
En . Dann
Satz 20: Seien f , g : R → [0, ∞] Borel-meßbare Funktionen. Dann gilt:
Z
a) ϕ(E) =
f dµ mit E ∈ A ist ein Maß auf (Ω, A),
E
Z
Z
b)
g dϕ =
gf dµ mit ϕ aus a).
Ω
Insgesamt:
2. Endliche Wahrscheinlichkeitsräume
37
Ω
=
=
Z
Z
R
gf dλ.
g dP
X
E
E
E
E
f − dµ < ∞ für ein E ∈ A. Sei außerdem
E
1
Ω
Ω
Beweis:
Ω
Ω
Ω
¯Z
¯
¯
¯
¯ f dµ¯
¯
¯
=
=
≤
=
Ω
¯Z
¯
Z
¯
¯
¯ f + dµ −
f − dµ¯¯
¯
Ω
Ω
Z
Z
f + dµ +
f − dµ
Ω
ZΩ
(f + + f − ) dµ
ZΩ
|f | dµ.
¯Z
¯ Z
¯
¯
|f | dµ.
Satz 22: Sei f ∈ L1 (µ). Dann folgt: ¯¯ f dµ¯¯ ≤
Beweis: ,→ Übung.
Ω
a) αf + βg ∈ L1 (µ).
Z
Z
Z
b)
(αf + βg) dµ = α
f dµ + β
g dµ.
Satz 21 (Rechenregeln): Seien f , g ∈ L1 (µ) und α, β ∈ R, dann gilt:
Ω
½
¾
Z
¯
L (µ) := f : Ω → R ¯ f Borel-meßbar und
|f | dµ < ∞
f + dµ < ∞ oder
Z
die Menge der µ-integrierbaren Funktionen.
falls
Z
und f − (ω) := f + − f . Dann definieren wir das µ-Integral von f über E mit
Z
Z
Z
f dµ :=
f + dµ −
f − dµ,
Definition 19: Sei f : Ω → R eine Borel-meßbare Funktion. Weiterhin sei
½
f (ω) falls f (ω) ≥ 0
f + (ω) :=
0
sonst
E(g(X))
c) Also folgt für den Erwartungswert einer Funktion g:
für A ∈ B.
b) Für eine stetige Zufallsvariable mit der Lebesgue-Dichte f gilt für das Bildmaß: P X (A) =
schreiben wir dϕ = f dµ.
Ω
Z
A
f dλ
Bemerkungen zu Satz 20:
Z
Z
a) Gilt
g dϕ =
gf dµ für alle meßbaren Funktion g ≥ 0 für Maße ϕ und µ auf (Ω, A), dann
da sn f monoton gegen f wächst.
2. Endliche Wahrscheinlichkeitsräume
38
Ω
Ω
Z
Ω
n→∞
Ω
Ω
n=1
µ
i=1
n
Y
µi (Ai ) für alle A1 ∈ Ai , i = 1, . . . , n.
= Ω1 × . . . × Ω n ,
= σ{A1 × . . . × An | Ai ∈ Ai , i = 1, . . . , n}
=: A1 ⊗ . . . ⊗ An ,
=: µ1 ⊗ . . . ⊗ µn
das Maß auf (Ω, A) mit µ(A1 × . . . × An ) =
und
Ω
A
Definition 21: Seien (Ω1 , A1 , µ1 ), . . . , (Ωn , An , µn ) Maßräume mit σ-endlichen Maßen µ1 , . . . , µn .
Dann definieren wir den Produktraum (Ω, A, µ) über
n=1
c) Das Zählmaß µ mit µ(A) = #A ist ein σ-endliches Maß auf (N, 2N ), aber nicht auf (R, B). Die
Variante des Zählmaßes µ
e mit µ
e(A) = #(A ∩ Z) ist auch auf (R, B) σ-endlich, wähle wieder An =
∞
[
An = R.
[−n, n] und µ
e(An ) = 2n + 1 < ∞ mit
n=1
a) Alle endlichen Maße µ mit µ(Ω) < ∞ sind σ-endlich.
b) Das Lebesgue-Maß λd auf (Rd , Bd ) ist σ-endlich. Wähle etwa An = [−n, n] × . . . × [−n, n] ⊂ Rd ,
∞
[
An = R d .
An ∈ Bd , λd (An ) = (2n)d und
Beispiele:
Folge {An }n∈N
Ω
Ein Maß µ auf einem meßbaren Raum (Ω, A) heißt σ-endlich, falls eine aufsteigende
∞
[
⊂ A mit µ(An ) < ∞ für alle n ∈ N, A1 ⊂ A2 ⊂ . . . und
An = Ωn existiert.
Definition 20:
n→∞
Also gilt: 0 ≤ − lim sup
¯Z
¯
¯
¯
|fn − f | dµ ≤ 0, da ¯¯ 2g dµ¯¯ < ∞.
a) Die Meßbarkeit von f wurde bereits bewiesen. Da |fn (ω)| ≤ g(ω) gilt: folgt: |f (ω)| ≤ g(ω). Also:
f ∈ L1 (µ).
b) Da |fn − f | ≤ |fn | + |f | ≤ 2g, folgt: 2g − |fn − f | ≥ 0.
c) Es gilt:
Z
Z
2g dµ
=
lim inf (2g − |fn − f |) dµ
Ω
Ω n→∞
Z
Fatou
≤
lim inf (2g − |fn − f |) dµ
n→∞
Ω
Z
Z
=
2g dµ + lim inf
−|fn − f | dµ
n→∞
ZΩ
ZΩ
2g dµ − lim sup
|fn − f | dµ.
=
Beweis:
n→∞
a) f ∈ L1 (µ).
Z
|fn − f | dµ = 0.
b) lim
n→∞ Ω
Z
Z
fn dµ =
f dµ.
c) lim
Satz 23 (Satz von der majorisierten Konvergenz): Es sei {fn } eine Folge meßbarer Funktionen
auf (Ω, A) und f (ω) = lim fn (ω) für ω ∈ Ω. Weiterhin existiere ein g ∈ L1 (µ) mit |fn (ω)| ≤ g(ω) für
n→∞
alle n ∈ N, ω ∈ Ω. Dann folgt:
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
Z
Ω1 ×Ω2
f d(µ1 ⊗ µ2 )
Ω2
=:
=

0
 Z
g1 (ω1 ) =

Z
Z
Ω1
Ω1
Ω2
sonst
/ L (µ2 )
falls fω1 ∈
1
g1 dµ1
·Z
¸
f (ω1 , ω2 )µ2 (dω2 ) µ1 (dω1 ).
fω1 dµ2
Ω
Ω
R
R
20 Das
Fubini (1879-1943)
heißt: µ
e(B) = #(B ∩ I) für alle B ∈ B.
=
x∈I
X
x∈I
g(x)P (X = x).
c) Ist X diskret und I eine abzählbare Menge aus B mit P (X ∈ I) = 1, so wird zu dem Zählmaß µ
e zu
e-Dichte
I auf (R, B)20 durch die Funktion f : R → [0, ∞) mit f (x) = P (X = x) für alle x ∈ R eine µ
von X angegeben.
Für den Erwartungswert von g(X) gilt dann beispielsweise:
Z
g(x)f (x)e
µ (dx)
E(g(X)) =
R
X
=
g(x)f (x)
b) Ist X stetig mit Borel-meßbarer Dichtefunktion f , dann ist f auch eine Lebesgue-Dichte von X.
a) Da P X selber ein σ-endliches Maß ist, besitzt P X insbesondere die Dichtefunktion f : R → R mit
f (x) = 1 für alle x ∈ R bzgl. P X = µ.
Bemerkungen:
als Erwartungswert von g(X) für eine Borel-meßbare Funktion g : R → R.
R
als (allgemeinen) Erwartungswert von X und
Z
Z
g(x)P X (dx) =
g(x)f (x)µ (dx)
E(g(X)) =
R
Definition 22: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und besitze
die Verteilung P X mit der µ-Dichte f : R → [0, ∞) bzgl. eines σ-endlichen Maßes µ auf (R, B). Dann
bezeichnen wir
Z
Z
E(X) =
xP X (dx) =
xf (x)µ (dx)
eine Integrationsvariable.
Bemerkung: Für eine Borel-meßbare Funktion f : Ω → R auf (Ω, A, µ) charakterisieren wir durch die
Schreibweise
Z
Z
f (ω)µ (dω) :=
f dµ
Beweis: Siehe Bauer, Maß- und Integrationstheorie, Kapitel 23.
definiert, so folgt:
b) Sei g1 : Ω1 → R mit
d.h. µ1 -fast-alle fω1 sind µ2 -integrierbar.
µ1 (ω1 ∈ Ω1 | fω1 ∈
/ L1 (µ2 )) = 0,
a) Die Funktionen fω1 für ein ω1 ∈ Ω1 mit fω1 : Ω2 → R und fω1 (ω2 ) = f (ω1 , ω2 ) erfüllen
Satz 24 (Satz von Fubini19 ): Seien (Ω1 , A1 , µ1 ) und (Ω2 , A2 , µ2 ) zwei Maßräume mit σ-endlichen
Maßen µ1 und µ2 . Weiterhin sei f ∈ L1 (µ1 ⊗ µ2 ). Dann gilt:
19 Guido
39
40
n∈N
i=1
n
[
Bi
!
= 1, und ist f eineindeutig,
=
i=1
f −1 (B)∩Bi
i=1
n
X
gX (z) dz.
≤P (X∈B0 )=0
n Z
X
P (X ∈ f −1 (B) ∩ B0 ) +
{z
}
|
=
P (X ∈ f −1 (B) ∩ Bi )
¯
µ −1 ¶¯
¯
∂f (y) ¯¯
gX (f −1 (y)) · ¯¯det
¯ dy.
∂y
B
f −1 (B)
P (X ∈ f −1 (B))
=
Z
= P (f (X) ∈ B)
= P (X ∈ f −1 (B))
Z
=
gX (z) dz
=
Bi , so folgt:
P (Y ∈ B)
P (Y ∈ B)
b) Setze B0 = Rd \
Beweis:
a)
i=1
n
[
für fi := f |Bi diffenzierbar sind, so besitzt das Bildmaß von Y die Dichte
¯
µ −1 ¶¯
n
X
¯
∂fi (z) ¯¯
gY (z) =
gX (fi−1 (z)) · ¯¯det
¯.
∂z
i=1
X∈
Die Komponenten von Y sind dabei stetige Zufallsvariablen.
wobei die Funktionen
fi−1
b) Existieren disjunkte Mengen B1 , . . . , Bn ∈ Bd mit P
wobei die Komponenten von Y stetige Zufallsvariablen sind.
Ã
a) Ist f eineindeutig und f −1 differenzierbar, so besitzt das Bildmaß von Y die Dichte
¯
µ −1 ¶¯
¯
∂f (z) ¯¯
gY (z) = gX (f −1 (z)) · ¯¯det
¯,
∂z
Satz 26 (Transformationssatz für Dichten): Seien X1 , . . . , Xd stetige Zufallsvariablen auf (Ω, A, P ).
Weiterhin besitze das Bildmaß der Abbildung X : Ω → Rd eine Dichte gX : Rd → R. X = (X1 , . . . , Xd )
ist dabei eine d-dimensionale Zufallsvariable. Sei Y = f (X) mit einer (R d , Bd )-(Rd , Bd )-meßbaren Abbildung f .
Aus a) und b) folgt die Behauptung.
n∈N
Beweis: Den Beweis führen wir mit der Methode der lieben Mengen (siehe auch Seite 27). Sei
E = {B ∈ B | Z −1 (B) ∈ A} ein Teilsystem von B.
a) B sei eine offene Teilmenge von R. Da ψ stetig ist, ist ψ −1 (B) eine offene Menge im R2 und somit
Element von B2 . Insgesamt ist Z −1 (B) ∈ A. Also liegen alle offenen Mengen in E.
b) Zu zeigen: E ist eine σ-Algebra.
i) Z −1 (∅) = ∅ ∈ A. Also ist ∅ ∈ E.
−1
ii) Z −1 (B)
Ã = Z !(B) ∈ A. Also: B ∈ E, falls B ∈ E.
[
[
Bn =
Z −1 (Bn ) ∈ A für eine Folge disjunkter Mengen Bn aus E.
iii) Z −1
Satz 25: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und sei ψ : R 2 →
R eine stetige Funktion. Dann ist Z = ψ(X, Y ) wiederum eine Zufallsvariable.
2.5. Transformationsformeln und Stichprobentheorie
d) Für allgemeine Zufallsvariablen werden Momente und Varianz wie in Definition 15 definiert.
2. Endliche Wahrscheinlichkeitsräume
41
σf (µ + σy)
1 µ+σy−µ 2
σ
√
e− 2 ( σ )
2πσ 2
1 2
1
= √ e− 2 y .
2π
=
=
X−µ
σ
(d.h. E(Y ) = 0, Var(Y ) = 1):
R
c) Es gilt E(X · Y ) = E(X) · E(Y ), falls E(X) und E(Y ) endlich sind.
b) Sind X und Y stetig mit den Dichten fX und fY , so folgt für die Dichte fZ von Z = X · Y :
Z
³z ´
1
fX (s)fY
ds
fZ (z) =
|s|
s
R\{0}
Z
³
´
z
1
=
fX
fY (s) ds
s
R\{0} |s|
a) Sind sowohl X als auch Y diskrete Zufallsvariablen mit P (X ∈ {xn | n ∈ N}) = P (Y ∈ {xn | n ∈ N})
für eine Folge {xn }n∈N ⊂ R, so folgt für die Verteilung von Z = X · Y :
µ
¶
 X
Z


P (X = xn )P Y =
falls z 6= 0


xn
n∈N
xn 6=0
P (Z = z) =


P (X = 0) + P (Y = 0, X 6= 0)


falls z = 0
= 1 − P (X 6= 0, Y 6= 0)
Satz 28: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Bemerkung: Die Aussage von Satz 27 läßt sich auf mehrdimensionale Zufallsvariablen X = (X1 , . . . ,
Xd ) und Y = (Y1 , . . . , Yd ) übertragen.
Beweis: ,→ Übung.
c) Sind X und Y stetig mit Dichten fX und fY , so folgt für die Dichten Z = X + Y :
Z
fZ (z) =
fX (x)fY (z − x) dx.
x∈Z
b) Sind X und Y diskret auf der Menge der ganzen Zahlen, so folgt:
X
P X ({x})P Y ({z − x}).
P X ∗ P Y ({z}) =
R
a) Dann gilt für die Verteilung von Z = X + Y , die sogenannte Faltung, von P X und P Y :
Z
P X (B − y)P Y (dy).
P Z := P X ∗ P Y :=
Satz 27: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P )
mit den Verteilungen P X und P Y .
Also: Y ∼ N (0, 1).
g(y)
Ist insbesondere X ∼ N (µ, σ 2 ) mit σ > 0, so folgt für die Y =
Bemerkung: Sei X eine stetige Zufallsvariable und Y = aX + b mit a 6= 0. Falls X die Dichte f
besitzt, folgt für die Dichte von Y :
µ
¶
y−b
1
g(y) = f
für y ∈ R.
·
a
a
2. Endliche Wahrscheinlichkeitsräume
42
= P (X · Y ≤ z, X ∈ R)
= P (U ≤ z, V ∈ R)
Z z Z ∞¯ ¯
³ ´
¯1¯
¯ ¯ fX u fY (v) dv du.
=
¯v¯
v
−∞ −∞
R
R
E(X) · E(Y ).
R\{0}
−∞
−∞
Daraus folgt für alle z ∈ R:
µ
¶
µ
¶
X
X
P
≤z
= P
≤ z, X ∈ R
Y
Y
= P (U ≤ z, V ∈ R)
Z z Z ∞
|v|fX (u · v)fY (v) dv du.
=
³
´
Beweis: Setze ψ : R2 → R2 mit ψ(x, y) = xy , y und ψ −1 (u, v) = (u · v, v). Dann folgt mit der
Dichtetransformationsformel:
¯
¯
µ
¶¯
µ
¶¯
¯
¯
¯
∂
v 0 ¯¯
¯det
ψ −1 (u, v) ¯¯ = ¯¯det
¯
u 1 ¯
∂(u, v)
= |v|.
für alle z ∈ R.
Satz 29: Seien X und Y unabhängige, stetige Zufallsvariablen mit den Dichten fX und fY auf einem
Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist Z = X
Y eine stetige Zufallsvariable mit der Dichte
Z
fZ (z) =
|s|fX (z · s)fY (s) ds
Folgerung: Für allgemeine unabhängige Zufallsvariablen X und Y mit endlichen Varianzen, die von 0
verschieden sind, gilt: Cov(X, Y ) = 0 und %(X, Y ) = 0.
=
Fubini
c) Sei µ ein σ-endliches Maß und X habe eine µ-Dichte fX und Y die µ-Dichte fY . Dann folgt mit
der Übertragung von Satz 14 auf allgemeine Integrale:
Z Z
xyfX (x)fY (y) µ(dy) µ(dx)
E(X · Y )
=
P (X · Y ≤ z)
Daraus folgt für alle z ∈ R:
a) Klar.
b) Wir nutzen die Dichtetransformationsformel
für die Abbildung ψ : R2 → R2 mit ψ(x, y) = (x·y, y)
¡
¢
für (x, y) ∈ R2 und ψ −1 (u, v) = uv , v . Dann gilt:
¯
¯
µ 1
¶¯
¶¯
µ
¯
¯
¯
∂
0 ¯¯
v
¯det
ψ −1 (u, v) ¯¯ = ¯¯det
u
¯
− v2 1 ¯
∂(u, v)
1
=
.
|v|
Beweis:
2. Endliche Wahrscheinlichkeitsräume
43
e
y
−y x−1
dy für x ≥ 0.
0
n
22
y
n
1
y 2 −1 e− 2
Γ( n
2)
für y ≤ 0
für y > 0
(n − 1)s̃2
1
= 2
σ2
σ
i=1
n
X
∼
χ2n−1
gezeigt.
(Xi − X)2 ∼ χ2n−1 .
Vorlesung Stochastik II wird die Beziehung
(n−1)s̃2
σ2
a) Der Beweis läßt sich mit vollständiger Induktion und Satz 27 führen (,→ Übung).
¶2
n µ
³
´
X
2
Xi − µ
∼ χ2n mit Xiσ−µ ∼ N (0, 1) wegen der Standardisierung. In der
b) Es gilt: ns
σ2 =
σ
i=1
Beweis:
und
n
ns2
1 X
= 2
(Xi − µ)2 ∼ χ2n
σ2
σ i=1
b) Sei X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so folgt
0
∞
fY (y) =
Dann besitzt Y die Dichte
(
Z
χ2n .
mit Γ(x) =
a) Sei Y ∼
Satz 30:
heitsgraden oder χ2n -Verteilung.
i=1
Definition 23: χ2 -Verteilung: Sei X1 , . . . , Xn eine Stichprobe unabhängiger und identisch N (0, 1)n
X
Xi2 (zentrale) χ2 -Verteilung mit n Freiverteilter Zufallsvariablen. Dann heißt die Verteilung von
Typische Verteilungsfamilien von Stichprobenkennwerten werden nun vorgestellt.
Im statistischen Modell werden X und s2 als Zufallsvariablen und damit als Stichprobenkennwerte interpretiert. Die (Verfahrens-)Eigenschaften von X und s2 werden als Eigenschaft der Stichprobenkennwerteverteilungen untersucht.
entspricht der Varianz Var(X) = E((X − E(X))2 ) der empirischen Verteilung.
Das arithmetische Mittel entspricht dem Erwartungswert der empirischen Verteilung der Meßwerte. Die
empirische Varianz
n
1X
s2 =
(Xi − X)2
n i=1
Die empirische Verteilung der Meßwerte kann durch Kennwerte charakterisiert werden, zum Beispiel
durch das arithmetische Mittel
100
1 X
X=
Xi .
100 i=1
Einschub: Gegeben sei beispielsweise eine Meßreihe zu 100 Preisen eines Rohstoffes, also unabhängige
Messungen zu einer homogenen Verteilung. Im statistischen Modell interpretiert man diese Meßreihe als
eine Beobachtung von einer Stichprobe X1 , . . . , X100 von unabhängigen, identisch verteilten Zufallsvariablen mit Xi ∼ X ∼ N (µ, σ 2 ).
2. Endliche Wahrscheinlichkeitsräume
44
i=1
Xi2
für x ∈ R.
¢ µ
¡
¶ n+1
2
Γ n+1
x2
¡ n ¢ 2√
1+
n
Γ 2
nπ
21 William
gilt:
n
fY (y) =
Xi2 gilt:
2
³ n ´−1
e−
Z
0
∞
2
∞
I=2
0
∞
2
µ
z2
2
+n
. Also folgt:
n
2
e− 2 y y n−1 I(0,∞) (y).
¶ n+1
2
s ds und u =
e−u
´ 12
+n)s2 n
Z
n
u
n−1
2
1 2
2 (z
1
du.
z2 + n
+ n)s2 . Damit ist
³ n ´−1 n 2
1 2 2
n
n
1
√ e− 2 z s |s|n 2 2− 2 Γ
e− 2 s sn−1 ds.
2
2π
2
z 2 +n u
1
0
e− 2 (z
³
Z
n
:
du
ds
= (z 2 + n)s,
S. Gosset (1876-1937), Angestellter der Guinness-Brauerei, publizierte unter dem Pseudonym Student“.
”
du = (z 2 + n)s ds und s =
Definiere nun I := 2
fT (z) = 2
Aus Satz 29 folgt dann:
n
f√ 1 Y (y) = n 2 2− 2 +1 Γ
³ n ´−1
1
nY
n
(ny) 2 −1 I(0,∞) (y).
q
ny
2
y
n
1
¡ ¢ e− 2 y 2 −1 I(0,∞) (y),
n
2 2 Γ n2
f n1 Y (y) = n2− 2 +1 Γ
1
nY
i=1
n
X
Nach der Transformationsformel lautet die Dichte von
und für die Dichte von
für die Dichte von Y =
1 2
1
fX (x) = √ e− 2 x ,
2π
X −µ
X −µ
q
=q
∼ tn−1 .
Pn
1
1 2
2
i=1 (Xi − X)
n(n−1)
n s̃
a) Für die Dichte von X0 gilt:
Beweis:
und
X −µ
q
∼ N (0, 1)
1 2
nσ
b) Ist X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so ist
fT (x) =
a) Ist T eine tn -verteilte Zufallsvariable, so besitzt T die Dichte
Satz 31:
eine t-Verteilung, Studentsche Verteilung mit n Freiheitsgraden oder auch t n -Verteilung.
n
X0
T = q P
n
1
Definition 24: t-Verteilung, Studentsche21 Verteilung: Sei X0 , X1 , . . . , Xn eine Stichprobe
unabhängiger, identisch N (0, 1)-verteilter Zufallsvariablen, so heißt die Verteilung von
2. Endliche Wahrscheinlichkeitsräume
45
fT (z)
=
=
=
n+1
2
2
n+1
2
+ n)
2
(z 2 + n)
(z 2
n+1
2
n+1
2
Γ
Z
0
n+1
.
n+1
2 −1
¶
e−u u
n+1
2
∞
µ
du
n+1
2
¶
e−u ux−1 du für x > 0 folgt:
µ
0
∞
³ n ´−1
n
n
2 2
1
√ n 2 2− 2 Γ
n+1 Γ
2
2π
(z 2 + n) 2
¡ n+1 ¢
n
n2Γ 2
√
¡ ¢ n+1
1
2 n+1
2π2− 2 Γ n2 n 2 (1 + zn ) 2
¡ n+1 ¢
Γ 2
.
¡ ¢
√
2 n+1
nπΓ n2 (1 + zn ) 2
=
=
Z
n s̃
1
m
i=n+1
Xi2
Xi2
i=1
n+m
X
n
X
a) Sei Z ∼ Fn,m , so besitzt Z die Dichte
¡
¢
n
Γ m+n
n
m
z 2 −1
fZ (z) = ¡ n ¢ 2 ¡ m ¢ n 2 m 2
m+n I(0,∞) (z).
Γ 2 Γ 2
(m + nz) 2
Satz 31:
(zentrale) F -Verteilung mit n und m Freiheitsgraden oder kurz Fn,m -Verteilung.
F =
1
n
Definition 25: Sei X1 , . . . , Xn+m mit n, m ≥ 1 eine Stichprobe unabhängiger N (0, 1)-verteilter
Zufallsvariablen. Dann heißt die Verteilung von
nσ
X−µ
X−µ
∼ N (0, 1). Die Beziehung √
∼ tn−1 wird in Stochastik II bewiesen.
Also gilt: √
1 2
1 2
b) Es ist X ∼ N (µ, n1 σ 2 ), da die Summe von normalverteilten Zufallsvariablen wieder normalverteilt
ist und auch die Multiplikation mit n1 wieder zu einer Normalverteilung führt. Also:
µ
¶
1
(X1 + . . . + Xn )
E(X)
=
E
n
1
=
(E(X1 ) + . . . + E(Xn ))
n
1
nµ
=
n
=
µ.
µ
¶
1
(X1 + . . . + Xn )
=
Var
Var(X)
n
1
unabh.
=
(Var(X1 ) + . . . + Var(Xn ))
n2
1
nσ 2
=
n2
1 2
σ .
=
n
Also folgt:
I
Mit Verwendung der Gamma-Funktion Γ(x) =
2. Endliche Wahrscheinlichkeitsräume
46
1
n−1
1
m−1
i=1
(Yi − Y )2
(Xi − X)2
i=1
n
X
m
X
∼ Fm−1,n−1 .
a) Der Beweis sei dem Leser zur Übung überlassen.
b) Nach Satz 30 ist (m − 1)s2X ∼ χ2m−1 und (n − 1)s2Y ∼ χ2n−1 . Außerdem sind sie unabhängig,
woraus die Behauptung folgt.
Beweis:
s2
F = X
=
s2Y
b) Ist X1 , . . . , Xm eine Stichprobe unabhängiger N (µ1 , σ12 )-verteilter Zufallsvariablen sowie Y1 , . . . ,
Yn eine davon unabhängige Stichprobe unabhängiger N (µ2 , σ22 )-verteilter Zufallsvariablen, so ist
2. Endliche Wahrscheinlichkeitsräume
3. Allgemeine Grenzwertsätze
=
:=
n→∞
n=1
∞
X
n=1
∞
X
n→∞
n≥k
An 

k=1 n≥k
P (An ) = 0, folgt die Behauptung.
[
k=1 n≥k
∞
\
≤
n≥k


An 

P (An ).
[
k=1 n≥k
n≥k
X
≤ P

22 Francesco
Paolo Cantelli (1875-1966)
lim lim
lim lim
lim lim e
0.
≤
=
=
k→∞ N →∞
k→∞ N →∞
k→∞ N →∞
e−P (An )
(1 − P (An ))
P (An )

An 
n=k
P
− N
n=k P (An )
N
Y
n=k
N
Y
n=k
=
k→∞ N →∞
\
k≤n≤N

N
Y
lim lim
k→∞ N →∞
n≥k
An 
lim lim P 
lim P 
k→∞
\
=
=
(∗∗)
=
(∗)
b) Wir verwenden die Abschätzung 1 − t ≤ e−t für alle t ≥ 0 und beweisen die Behauptung über das
Gegenereignis:




∞ [
∞ \
\
[



= P
An
An 
1−P
k→∞
Da lim
X
P

P (An ) = ∞ und unabhängigen Ereignissen {An } folgt: P (lim sup An ) = 1.
n→∞
P (An ) < ∞ folgt P (lim sup An ) = 0.
a) Es gilt:
Beweis:
b) Für
a) Aus
Lemma 1 (Borel-Cantelli22 ): Sei {An }n∈N eine Folge von Ereignissen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
n→∞
An
{ω | ω ∈ An für unendliche viele n}.
k=1 n≥k
Insbesondere gilt: Ilim sup An = lim sup IAn .
n→∞
lim sup An
∞ [
\
Zunächst betrachten wir eine Folge {An }n∈N von Ereignissen eines meßbaren Raumes (Ω, A). Sei
3.1. Null-Eins-Gesetze
3. Allgemeine Grenzwertsätze
47
48
⇒
B \ A ∈ D.
\
⇒
n=1
∞
[
An ∈ D.
{D ⊂ 2Ω | D Dynkin-System und E ⊂ D}
23 Eugene
Ã
(B \ A) ∩
Borisovich Dynkin (geb. 1924)
Also: B \ A ∈ %i0 .
P
Ã
i∈I1
\
Ai
!!
=
=
=
=
a) Ei0 ∈ %i0 nach Voraussetzung.
b) Zu zeigen: %i0 ist ein Dynkin-System.
i) Ω ∈ %i0 ist klar.
ii) Seien A, B ∈ %i0 mit A ⊂ B. Dann folgt:
Zu zeigen ist also λ(Ei0 ) ⊂ %i0 .
B∩
Y
i∈I1
i∈I1
Y
!!
−P
Ã
i∈I1
P (Ai ) · P (B \ A).
i∈I1
\
Ai
P (Ai )
Ã
Y
A∩
P (Ai ) · (P (B) − P (A))
i∈I1
Ai
P (Ai ) − P (A) ·
i∈I1
\
Y
Ã
P (B) ·
Ã
%i0 := {A ∈ A | {A} und Ei für i ∈ I1 stochastisch unabhängig}.
!!
Beweis: Es reicht nachzuweisen, daß λ(Ei0 ) und Ei für i ∈ I1 mit i0 ∈ I \ I1 stochastisch unabhängig
sind (I1 endlich). Wir verwenden wieder das Beweisprinzip der lieben Mengen. Sei
Lemma 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ei ⊂ A stochastisch unabhängige Mengensysteme (i ∈ I). Dann sind auch λ(Ei ) für i ∈ I stochastisch unabhängig.
das von E erzeugte Dynkin-System.
λ(E) =
b) Sei Ω eine Menge und E ⊂ 2Ω . Dann ist
iii) An ∈ D für n ∈ N und An paarweise disjunkt.
i) Ω ∈ D.
ii) A, B ∈ D, A ⊂ B
a) Sei Ω eine Menge und D ⊂ 2Ω ein System von Teilmengen. D heißt Dynkin-System, falls
Definition 1 (Dynkin23 -Systeme):
Im folgenden wollen wir Mengensysteme von unabhängigen Ereignissen betrachten: E1 , E2 ∈ A unabhängig. Dann folgt nicht, daß σ(E1 ) und σ(E2 ) unabhängig sind. Deshalb betrachten wir Erweiterungen von E1 und E2 , die die Unabhängigkeitseigenschaft erhalten.
Beispiel:
Angenommen,
¢ wir betrachten (Ω∞ , A∞ , P∞ ) als abzählbaren Produktraum von (Ωi , Ai , Pi ) =
¡
{1, . . . , 6}, 2{1,...,6} , Pi mit Pi ({k}) = 16 für k ∈ {1, . . . , 6}, wir würfeln quasi unendlich oft. Das Ereignis,
unendlich oft eine 6 zu würfeln, hat die Wahrscheinlichkeit 1, das Ereignis, nur endlich oft eine 1 zu
würfeln, dagegen die Wahrscheinlichkeit 0.
(∗) wegen der Stetigkeit von unten
(∗∗) wegen der Stetigkeit von oben
3. Allgemeine Grenzwertsätze
i=1
Bi ∈ % i0 .
i=1
Bi
!
∩
Insgesamt ergibt sich: λ(ξi0 ) ⊂ %i0 .
Also:
∞
[
P
ÃÃ ∞
[
Ã
i∈I1
\
Ai
!!
=
=
=
=
P
i=1
Bi
j∈I1
Aj 
j∈I1


A j 
P (Aj ).
P (Bi )
Y
i=1
!
P (Aj )
∞
X
P (Bi ) · P 
\
j∈I1
\


P B i ∩ 

Ã∞
[
j∈I1
Y
i=1
∞
X
i=1
∞
X
iii) Seien (Bn )n∈N disjunkte Mengen aus %i0 . Dann gilt:
3. Allgemeine Grenzwertsätze
MD = {A ⊂ Ω | A ∩ D ∈ λ(E)}
ME = {A ⊂ Ω | A ∩ E ∈ λ(E)}
∈
=
λ(E).
∈λ(E)
∈λ(E)
(B ∩ D) \ (A ∩ D)
| {z } | {z }
n∈N
[
An ∈ MD .
∈
n∈N
λ(E).
∈λ(E)
für
für
für
für
alle
alle
alle
alle
E ∈ E,
A ∈ λ(E),
D ∈ λ(E),
D ∈ λ(E).
Mengensystem M heißt durchschnittsstabil, wenn für je zwei Mengen aus M auch ihr Durchschnitt zu M gehört.
Somit ist auch λ(E) durchschnittsstabil.
λ(E) ⊂ ME
=⇒ A ∩ E ∈ λ(E)
=⇒ E ⊂ MD
=⇒ λ(E) ⊂ MD
Folglich ist E ⊂ ME für alle E ∈ E, da E durchschnittsstabil ist. Es ergibt sich:
Also:
n∈N
Also: B \ A ∈ MD .
c) Seien (An )n∈N ⊂ MD disjunkte Mengen. Dann gilt:
!
Ã
[
[
An ∩ D =
(An ∩ D)
| {z }
(B \ A) ∩ D
a) Ω ∩ D = D ∈ λ(E), also: Ω ∈ MD .
b) Seien A, B ∈ MD mit A ⊂ B. Dann folgt:
für ein D ∈ λ(E). Zunächst einmal sind MD und damit auch ME Dynkinsysteme, denn:
für ein E ∈ E und
Beweis: Sei
Lemma 3: Sei E ein durchschnittsstabiles24 Mengensystem zu (Ω, A, P ). Dann ist λ(E) ebenfalls
durchschnittsstabil.
24 Ein
49
50
An
λ(E).
∈
=
Bn
λ(E).
n=1
∞
[
Ai \ (A1 ∩ . . . ∩ Ai−1 )
Ai ∩ A1 ∩ . . . ∩ Ai−1
n=1
∞
[
∈
=
=
m≥n
D = {D ∈ A | P (A ∩ D) = P (A) · P (D)}
e n . Da A
en
e durchschnittsstabil ist: Seien E, F ∈ A,
e so existiert ein n0 mit E, F ∈ A
Zeige nun, daß A
0
0
e n ⊂ A,
e d.h. A
e ist durchschnittsstabil.
durchschnittsstabil ist, folgt E ∩ F ∈ A
0
n=1
die Menge der von A unabhängigen Ereignisse. Es gilt nun A∞ ⊂ D, denn:
e n unabhängig von σ(An+1 ∪An+2 ∪. . .). Da A ∈ σ(An+1 ∪An+2 ∪. . .)
e n = σ(A1 ∪. . .∪An ), so ist A
Sei A
∞
[
e n ⊂ D für alle n ∈ N und A
e=
e n ⊂ D.
gilt, folgt A
A
Beweis: Seien A ∈ A∞ und
Satz 6 (Null-Eins-Gesetz von Kolmogoroff ): Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei
(An )n∈N eine Folge von unabhängigen σ-Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A ∈ A∞ :
P (A) ∈ {0, 1}.
Wir werden A∞ insbesondere für die von einer Folge von Zufallsvariablen Xn auf (Ω, A, P ) erzeugten
σ-Algebren An (n ∈ N) betrachten.
die σ-Algebra der terminalen Ereignisse zur Folge (An )n∈N .
n∈N
Definition 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei (An )n∈N eine Folge von σ-Algebren
auf Ω mit An ⊂ A. Dann heißt


\
[
A∞ :=
σ
Am 
(Aj )j∈J stochastisch unabhängig.
e j das System aller Mengen Ei ∩ . . . ∩ Ei mit Ei ∈ Ei und {i1 , . . . , ik } ∈ Ij . Nun ist
Beweis: Sei E
1
n
k
³k´
e j durchschnittsstabil, stochastisch unabhängig und es gilt: Aj = σ E
e j . Also folgt die Behauptung.
E
Satz 5: Sei (Ei )i∈I eine Familie von stochastisch unabhängigen und durchschnittsstabilen Mengensystemen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ). Sei (Ij )j∈J eine Zerlegung von I in disjunkte Mengen
³S
´
Ij und sei Aj = σ
i∈Ij Ei die von allen Ei erzeugte σ-Algebra (mit i ∈ Ij ), so ist auch die Familie
Beweis: Die Behauptung folgt sofort aus Lemma 2 und Lemma 4.
Satz 4: Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum sowie Ei ⊂ A durchschnittsstabile und stochastisch
unabhängige Mengensysteme für i ∈ I. Dann sind σ(Ei ) für i ∈ I stochastisch unabhängig.
für i ≥ 2. Dann folgt:
Bi
a) ∅ ∈ λ(E), da Ω ∈ λ(E) und somit ∅ = Ω \ Ω ∈ λ(E).
b) A ∈ λ(E) ⇒ A = Ω \ A ∈ λ(E).
c) Sei An ∈ λ(E) für alle n ∈ N. Definiere B1 = A1 und
Beweis: Nach Lemma 3 folgt bereits, daß λ(E) durchschnittsstabil ist. Nun weisen wir noch die
σ-Algebra-Eigenschaften nach:
Lemma 4: Sei Ω eine Menge und E ⊂ 2Ω . Ist E durchschnittsstabil, so gilt: λ(E) = σ(E).
3. Allgemeine Grenzwertsätze
m≥n
[
P (A)
= P (A ∩ A)
= P (A) · P (A)
=
∈
[P (A)]2
{0, 1},

³ ´
³ ´
e für alle n ∈ N, folgt A∞ ⊂ σ A
e ⊂ D. Für A ∈ D gilt aber
Am  ⊂ σ A
3. Allgemeine Grenzwertsätze
n→∞
n=1
∞
[
Fn erzeugt mit Fn = σ(Π1 , . . . , Πn ). Nun kann A ∈ B∞
= n + 1,
= 1,
τn (2) = n + 2,
τn (n + 2) = 2,
...,
...,
τn (n)
τn (2n)
=
=
Jimmie Savage (1917-1971)
{ω | X(ω) ∈ Cn } = {ω | (X1 (ω), . . . , Xn (ω)) ∈ Bn }.
Da Cn ∈ σ(Π1 , . . . , Πn ), so existiert ein Bn ∈ Bn mit
τn (1)
τn (n + 1)
b) Sei nun τn die endliche Permutation von N mit τn (k) = k für k > 2n und
n→∞
2n
n.
sowie
durch C ∈ A0 , mit P X (A M C) beliebig klein, approximiert werden. Wegen F1 ⊂ . . . ⊂ Fn ⊂
Fn+1 ⊂ . . . gibt es eine Folge Cn ∈ Fn mit lim P X (A M Cn ) = 0.
auf Rn wird von der Algebra A0 =
B∞ = σ(Π1 , . . . , Πn , n ∈ N)
a) Sei Πn : RN → R die n-te kanonische Projektion, d.h. Πn (x) = xn für x = (xn )n∈N . Die σ-Algebra
Beweis:
Satz 7 (Null-Eins-Gesetz von Hewitt-Savage25 ): Es sei X = (Xn )n∈N eine Folge unabhängig
identisch verteilter Zufallsvariablen auf (Ω, A, P ). Dann gilt für jede bzgl. X permutierbare Menge
A ∈ B∞ :
P (X ∈ A) = P X (A) ∈ {0, 1}.
tierbar.
n→∞
Beispiel: Die Funktionen X → lim sup(X1 + . . . + Xn ) oder X → lim inf (X1 + . . . + Xn ) sind permu-
{ω | τ X(ω) ∈ A} = {ω | X(ω) ∈ A}.
für alle ω ∈ Ω und alle endlichen Permutationen τ von N. Analog heißt eine Menge A ∈ B ∞ permutierbar,
wenn IA permutierbar ist, d.h. wenn gilt:
g(τ X(ω)) = g(X(ω))
Definition 3: Sei X = (Xn )n∈N eine Folge von Zufallsvariablen auf (Ω, A, P ), d.h. X ist eine meßbare
Funktion bzgl. (RN , B∞ ). Eine meßbare Funktion g : RN → R heißt (endlich) permutierbar , wenn
Im folgenden betrachten wir eine Folge X = (Xn )n∈N von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Außerdem betrachten wir Umordnungen (τ X) = (Xτ (n) )n∈N der Folge von Zufallsvariablen, wobei τ : N → N eine endliche Permutation von N ist, d.h. τ ist eine Bijektion und es existiert
ein n0 ∈ N mit τ (n) = n für alle n ≥ n0 .
da nur Ereignisse mit Wahrscheinlichkeit 0 oder 1 zu sich selber unabhängig sind.

Da aber σ 
25 Leonard
51
= P (X ∈ Mn ).
= P ((Xn+1 , . . . , X2n ) ∈ Bn )
= P (τn X ∈ Cn )
= P ((X1 , . . . , Xn ) ∈ Bn )
52
=
=
[P X (Cn )]2 .
P X (Cn ) · P X (Mn )
P X (A ∩ Cn ) = P X (A ∩ Mn ),
{τn X ∈ A ∩ Cn } = {X ∈ A ∩ Mn }.
lim [P X (Cn )]2
[P (A)]2 .
=
=
n→∞
X
lim P X (Cn ∩ Mn )
=
n→∞
0.
P X (A M Cn ) + P X (A M Mn )
2P X (A M Cn )
n→∞
n→∞
n→∞
n→∞
Somit folgt γ = X1 + γ P -fast-sicher und damit γ = ±∞, da X1 6= 0. Analoges folgt für lim sup Sn .
n→∞
lim inf Sn = γ = lim inf (X2 + . . . + Xn+1 ).
Beweis: Nach der vorhergehenden Folgerung gilt lim inf Sn = γ ∈ R. Also folgt aus der Annahme
n→∞
identisch verteilter Zufallsvariablen:
n→∞
c) lim inf Sn = −∞ und lim sup Sn = ∞.
n→∞
b) lim Sn = −∞ oder
n→∞
a) lim Sn = ∞,
Satz 8: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen auf (Ω, A, P ) mit
P (Xn = 0) < 1 für alle n ∈ N, so gilt für Sn = X1 + . . . + Xn entweder
n→∞
Beispiel: Zu einer Folge X = (Xn )n∈N unabhängiger und identisch verteilter Zufallsvariablen auf
(Ω, A, P ) gilt: lim sup(X1 + . . . + Xn ) und lim inf (X1 + . . . + Xn ) sind P -fast-sicher konstant.
Beweis: Für jede Zahl γ ∈ R = R ∪ {−∞} ∪ {∞} ist die Menge A = {g ≤ γ} bzgl. X permutierbar.
Also folgt: P X (g ≤ γ) = P X (A) ∈ {0, 1}.
P X (A)
=
n→∞
≤
=
Folgerung: Sei X = (Xn )n∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen auf (Ω, A, P ).
Ist g : RN → R eine B∞ -B-meßbare Funktion, welche bzgl. der Folge X permutierbar ist, so ist die
Zufallsvariable g P X -fast-sicher konstant, d.h. g ◦ X ist P -fast-sicher konstant.
d) Also folgt aus a), b) und c):
P X (A M (Cn ∩ Mn ))
da X und τn X gleich verteilt sind. Da A M (Cn ∩ Mn ) ⊂ (A M Cn ) ∪ (A M Mn ), erhalten wir
Außerdem gilt
c) Nun gilt {τn X ∈ Cn } = {X ∈ Mn } nach Definition von Mn und {τn X ∈ A} = {X ∈ A}, da A
permutierbar ist. Also folgt:
P X (Cn ∩ Mn )
Wegen Cn ∈ σ(Π1 , . . . , Πn ) und Mn ∈ σ(Πk , k ≥ n + 1) sind Cn und Mn bzgl. P X unabhängig,
d.h.:
P (X ∈ Cn )
Sei nun Mn = {X ∈ RN | τn X ∈ Cn }. Da die Xn unabhängig und identisch verteilt sind, gilt:
3. Allgemeine Grenzwertsätze
26
3. Allgemeine Grenzwertsätze
f (X(ω))−
=
≤
max{0, −f (X(ω))}
max{0, −f (E(X)) − df (E(X) + 0)(X(ω) − E(X))}.
X
i=1
(∗)
ergibt sich:
erhalten wir
1
n
n
n
i=1 yi
yiαi ≤
qQ
i=1
n
Y
≤
n
αi yi .
1X
yi
n i=1
i=1
n
X
(∗∗)
27 Eine
Ludwig Jensen (1859-1925)
Funktion heißt konvex , wenn für alle x, y ∈ R und α ∈ (0, 1) gilt: f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y).
26 Johan
für alle y1 , . . . , yn > 0. Diese Ungleichung wird auch als Ungleichung zwischen geometrischem und
arithmetischem Mittel bezeichnet.
Für αi =
Mit yi = e
xi
≤ E(e ). Für eine Zufallsvariable X auf einem endlichen
Folgerung: Es gilt insbesondere e
Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = {ω1 , . . . , ωn }, αi = P (ωi ) und xi = X(ωi ) für i = 1, . . . , n
gilt:
n
X
Pn
α i ex i .
eE(X) = e i=1 αi xi ≤
E(X)
E(f (X)) ≥ f (E(X)).
E(f (X)) ≥ f (E(X)) + df (E(X) + 0)(E(X − E(X))).
Da aber E(X − E(X)) = 0, gilt:
und somit:
f (X(ω)) − f (E(X)) − df (E(X) + 0)(X(ω) − E(X)) ≥ 0,
Somit gilt: E(f (X(ω))− ) < ∞. Aus (∗) folgt dann:
Daraus folgt:
f (X(ω)) ≥ f (E(X)) + df (E(X) + 0)(X(ω) − E(X)).
für alle x, y ∈ R. Folglich gilt für alle ω ∈ Ω:
f (y) ≥ f (x) + (df (x + 0))(y − x)
Beweis: Als konvexe Funktion auf R ist f stetig und somit meßbar. Y ist also eine Zufallsvariable.
Weiterhin besitzt f in allen Punkten eine rechtsseitige Ableitung df (x + 0) und es gilt
Satz 9 (Jensensche Ungleichung ): Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit |E(X)| < ∞. Sei f : R → R eine konvexe Funktion27 . Dann ist Y = f (X) eine Zufallsvariable mit E(f (X)) < ∞ und es gilt f (E(X)) ≤ E(f (X)).
3.2. Gesetze der großen Zahlen
53
54
1
1
E(|X · Y |) ≤ (E(|X|p )) p · (E(|Y |q )) q .
1
1
E
Ã
1
p
|X|
1
(E(|Y |q ))
|Y |
(E(|X|p )) p
·
·
1
q
1
!
=
≤
1.
1
1
·1+ ·1
p
q
¶ p1 µ
¶ q1
|X|p
|Y |q
·
p
q
E(|X|)
E(|Y |)
µ
¶
µ
¶
1
|X|p
|Y |q
1
+
.
p E(|X|p )
q E(|Y |q )
µ
(E(|Y |q )) q
|Y |
≤
(∗∗)
=
+
1
q
1
q
)
≤
¢1
1 ¡
(E(|X|p )) p E((X + Y )(p−1)q ) q ,
¢1
1 ¡
p p
(p−1)q q
(E(|Y | )) E((X + Y )
) .
= p1 , folgt Teil b).
(E(|X + Y |p ))
1− q1
´
³
1
1
≤ (E(|X|p )) p + (E(|Y |p )) p .
´
³
1
1
1
E(|X + Y |p ) ≤ (E (|X + Y |p )) q · (E(|X|p )) p + (E(|Y |p )) p .
30 Dies
1
ε2
i=1
Var(Xi ).
falls g(ε) 6= 0.30
Hölder (1859-1937)
Minkowski (1864-1909)
ist die Tschebyscheffsche Ungleichung für g mit g(x) = x2 und X0 = Y − E(Y ).
29 Hermann
28 Otto
i=1
n
X
1
ε2 E(|X0 |).
1
g(ε) E(g(|X0 |)),
b) P (|X0 | ≥ ε) ≤
¯
Ã¯ n
!
¯X ¯
¯
¯
c) P ¯
Xi ¯ ≥ ε ≤
¯
¯
a) P (|X0 | ≥ ε) ≤
Satz 11: Seien X0 , X1 , . . . , Xn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und
g : [0, ∞) → [0, ∞) eine streng monoton wachsende Funktion. Es gelte außerdem E(X i ) = 0 für i =
1, . . . , n, d.h. die Zufallsvariablen sind zentriert, und E(Xi · Xj ) = 0 für i, j = 1, . . . , n, i 6= j, d.h. X1 ,
. . . , Xn sind unkorreliert. Dann folgt für alle ε > 0:
Da 1 −
E(Y (X + Y )
≤
= 1, folgt pq = p + q und damit auch (p − 1)q = p. Also gilt:
Somit folgt:
Da
1
p
p−1
E(X(X + Y )p−1 )
Daraus folgt die Behauptung.
b) Sei ohne Beschränkung der Allgemeinheit X, Y > 0, E((X+Y )p ) > 0 und E(|X|p )+E(|Y |p ) < ∞.
Weiter gilt (X + Y )p = X(X + Y )p−1 + Y (X + Y )p−1 . Mit der Hölder-Ungleichung folgt:
Also folgt:
(E(|X|p ))
|X|
a) Ohne Beschränkung der Allgemeinheit sei 0 < E(|X|p ) < ∞ und 0 < E(|Y |p ) < ∞. Dann folgt:
Beweis:
1
(E(|X + Y |p )) p ≤ (E(|X|p )) p + (E(|Y |p )) p .
b) Die Minkowski-Ungleichung:
Im Fall p = q = 2 nennt man die Hölder-Ungleichung auch Cauchy-Schwarz-Ungleichung.
a) Die Hölder-Ungleichung:
Satz 10 (Ungleichungen von Hölder28 , Cauchy-Schwarz und Minkowski29 ): Seien X und Y
zwei Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und p, q ∈ (1, ∞) mit p1 + 1q = 1.
Dann gelten folgende Ungleichungen:
3. Allgemeine Grenzwertsätze
55
ω|
Z
g(|X0 |)
≥1
g(ε)≥1
o
i=1
=
=
=
≤
1
g(|X0 |) dP
g(ε) Ω
1
E(g(|X0 |)).
g(ε)
n
g(|X0 |)
≥1}
g(ε)
n
ω|
n
1 X
Var(Xi ).
2
ε i=1
n
1 X
E(Xi2 )
2
ε i=1
n
n
1 XX
E(Xi · Xj )
2
ε i=1 j=1

!2 
g(|X0 |)
<1
g(ε)
n
1  X
E
Xi
ε2
i=1
Ã
Z
1 dP
g(|X0 |)
dP +
g(ε)
{ω|X0 (ω)≥ε}={ω|
¯
!
Ã¯ n
¯X ¯
¯
¯
Xi ¯ ≥ ε
P ¯
¯
¯
=
=
≤
Z
P (g(|X0 |) ≥ g(ε))
¶
µ
g(|X0 |)
≥1
= P
g(ε)
Z
=
=
o
g(|X0 |)
dP
g(ε)
n
1 X
P
Xi → 0.
an i=1
Satz 13 (Schwaches Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum (Ω, A, P ) mit E(Xn ) = 0, E(Xn2 ) < ∞ und E(Xn · Xm ) = 0 für n, m ∈ N
n
1 X
E(Xi2 ) = 0 erhalten wir:
mit n 6= m. Für jede Folge (an )n∈N von reellen Zahlen mit lim 2
n→∞ an
i=1
Beweis: ,→ Übung.
Lemma 12: Seien (Xn )n∈N und X Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so
P
folgt aus Xn → X f.s. auch Xn → X, aber nicht umgekehrt.
b) Wir sagen, (Xn )n∈N konvergiert P -fast-sicher oder konvergiert stark gegen X (Xn → X f.s.), falls
P ({ω | Xn (ω) → X(ω), n → ∞}) = 1.
a) Wir sagen, (Xn )n∈N konvergiert P -stochastisch oder konvergiert schwach gegen X (X n → X), falls
P (|Xn − X| > ε) → 0 (n → ∞) für alle ε > 0 gilt.
P
Definition 4: Sei (Xn )n∈N eine Folge von Zufallsvariablen und X eine Zufallsvariable auf (Ω, A, P ).
c)
P (|X0 | ≥ ε)
b) Wir unterscheiden zwischen ω mit X0 (ω) ≥ ε und ω mit X0 (ω) < ε:
a) Ist ein Spezialfall von b).
Beweis:
3. Allgemeine Grenzwertsätze
→
=
≤
0.
(n → ∞)
n
1 X
E(Xi2 )
ε2 a2n i=1
µ ¶
n
Xi
1 X
Var
ε2 i=1
an
n
n
1X
P
Yi → E(Y1 ).
n i=1
1
n
i=1
n
X
f.s.
(Xi − E(Xi )) → 0.
i=1
(n)
i=1
kn
1 X
f.s.
X + → E(Xi+ ).
kn i=1 i
iv) Ersetze nun Yi durch Xi+ , weise also nach:
kn
1 X
f.s.
Yi → E(Xi+ ).
kn i=1
iii) Ersetze nun E(Yi ) durch E(Xi+ ), weise also nach:
ii) Für α > 1 sei kn = [αn ] ∈ N und Yi = Xi+ · I(Xi+ < n) gekappte“ Zufallsvariablen. Nach
”
einiger Rechnung erhält man:
¯
¯
kn
¯ 1 X
¯
¯
¯ f.s.
(Yi − E(Yi ))¯ → 0.
¯
¯ kn
¯
i=1
Beweis:
a) ,→ Übung.
b) Siehe Bauer, Maß- und Integrationstheorie, für die ausführliche Fassung des Beweises. Hier eine
Beweisskizze:
n
n
X
X
f.s.
f.s.
i) Es reicht zu zeigen, daß n1
Xi+ → E(X1+ ) und n1
Xi− → E(X1+ ).
Dann folgt:
a) Var(Xn ) ≤ m < ∞ für alle n ∈ N erfüllen oder
b) integrierbar und identisch verteilt sind.
Satz 14 (Starkes Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von paarweisen unabhängigen
Zufallsvariablen, die entweder
Außerdem folgt sofort das Bernoullische schwache Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen (siehe Seite 23).
1X
P
(Yi − E(Yi )) → 0
n i=1
⇐⇒
n
1 X
1
Var(Yi ) = lim Var(Y1 ) = 0
2
n→∞ n
n i=1
die Voraussetzungen erfüllt sind, gilt:
lim
n→∞
Da für Xn = Yn − E(Y1 ), n ∈ N, an = n wegen
i=1
¯
Ã¯
!
n
¯
¯ 1 X
¯
¯
Xi ¯ ≥ ε
¯
¯
¯ an
56
Insbesondere folgt für eine Folge unabhängiger und identisch verteilter Zufallsvariablen (Yn )n∈N mit
Var(Yn ) < ∞:
n
1X
P
Yn =
Yi → E(Y1 ).
n i=1
P
Beweis: Sei ε > 0, so folgt:
3. Allgemeine Grenzwertsätze
3. Allgemeine Grenzwertsätze
1
#{i ∈ {1, . . . , n} | Xi ≤ t} =: Fn (t).
n
t∈R
sup |Fn (t) − F (t)| → 0.
f.s.
n
1X
f.s.
I(−∞,t] (Xi ) → F (t),
n i=1
=
=

≤ t
≤ F (t)
< tjk +1,k
≤ F (tjk +1,k − 0).
j,k∈N

und
Aj,k ∩ Bj,k  = 1. Sei nun ω ∈
j,k∈N
EP0 (f (X0 ))
für alle stetigen und beschränkten reellen Funktionen f : R → R gilt.
EPn (f (Xn ))
Wahrscheinlichkeitsraum (Ω0 , A0 , P0 ). Wir sagen, (Xn ) konvergiert in Verteilung gegen X0 (Xn → X0 ),
falls
Z
Z
f (Xn (ω)) dPn (ω) =
f (X0 (ω)) dP0 (ω)
lim
n→∞ Ω
Ω
| n
{z
} | 0
{z
}
für Wahrscheinlichkeitsräume (Ωn , An , Pn ), n ∈ N. Sei außerdem X0 eine Zufallsvariable auf einem
Xn : (Ωn , An , Pn ) → (R, B)
Definition 5 (Verteilungskonvergenz): Sei (Xn )n∈N eine Folge von Zufallsvariablen
3.4. Verteilungskonvergenz und zentraler Grenzwertsatz
d
Aj,k ∩Bj,k
Aus Fn (ω, tjk ,k ) → F (tjk ,k ) und Fn (ω, tjk +1,k − 0) → F (tjk +1,k − 0) folgt Fn (t) → F (t).
tjk ,k
F (tjk ,k )
und t ∈ R. Dann existieren k und jk mit
\
{ω | Fn (tj,k ) → F (tj,k )},
{ω | Fn (tj,k − 0) → F (tj,k − 0)}.
Dann folgt mit a): P (Aj,k ∩Bj,k ) = 1 und P 
Aj,k
Bj,k
b) Gleichmäßige Konvergenz.
Seien tj,k = inf{t ∈ R | F (t) ≥ kj } und
1
f.s.
Fn (t − 0) = I(−∞,t) (Xi ) → F (t − 0).
n
¡
¢
da E I(−∞,t] (Xi ) = F (t) ist. Damit gilt:
Fn (t) =
\
Für die Folge (Xn )n∈N unabhängiger und identisch verteilter Zufalls-
a) Punktweise Konvergenz.
Nach dem starken Gesetz der großen Zahlen gilt für alle t ∈ R
Beweis:
Satz 15 (Glivenko-Cantelli):
variablen gilt:
Fn ist (für jedes ω ∈ Ω) eine Treppenfunktion. Fn (t) ist für jedes t ∈ R eine Zufallsvariable.
F (t) = P (X ≤ t) ≈
In diesem Abschnitt betrachten wir eine Folge (Xn )n∈N von unabhängigen und identisch wie X verteilten
Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Als Approximation der Verteilungsfunktion von X kann die empirische Verteilungsfunktion Fn der Stichprobe X1 , . . . , Xn betrachtet werden:
3.3. Die empirische Verteilungsfunktion
57
58
d
≤
I1
=
=
=
{ω | |X0 | > Mε },
{ω | |X0 | ≤ Mε , |Xn − X0 | ≤ ε0 },
{ω | |X0 | ≤ Mε , |Xn − X0 | > ε0 }.
I3
Ωn
31 Wir
n→∞
schreiben auch kurz: f ∈ C (r) (R).
n→∞
Analog folgt: lim inf Fn (t) ≥ F0 (t) − ε. Insgesamt gilt dann: lim Fn (t) = F0 (t).
F0 (t + δ)
F0 (t) + ε.
=
≤
a) ⇒ b)“: Klar, da alle Funktionen f ∈ C (r) (R) auch stetig und beschränkt sind.
”
b) ⇒ c)“: Sei t ein Stetigkeitspunkt von F0 und ε > 0. Dann existiert ein δ > 0, so daß |F0 (t) −
”
F0 (s)| ≤ ε für alle |t − s| ≤ δ. Seien nun f und f aus C (r) (R) mit f (s) = f (s) = 1 für s < t − δ
und f (s) = f (s) = 0 für s > t + δ. Weiterhin gelte f (t) = 0 und f (t) = 1. f und f sind monoton
fallend. Es folgt:
Z
lim sup Fn (t) = lim sup I(−∞,t] (x) dFn (x)
n→∞
n→∞
Z
≤ lim sup f (x) dFn (x)
n→∞
Z
=
f (x) dF0 (x)
Z
≤
I(−∞,t+δ] (x) dF0 (x)
Beweis:
c) Fn (t) → F0 (t) für alle Stetigkeitspunkte t von F0 .
bis r-te Ableitung auf R gleichmäßig stetig und beschränkt sind31 für r ∈ N.
n→∞
a) Xn → X0 .
Z
Z
f (Xn ) dPn = f (X0 ) dP0 für alle r-mal differenzierbaren Funktionen f : R → R, deren 0-te
b) lim
d
Satz 17: Sei (Xn )n∈N∪{0} eine Folge von Zufallsvariablen mit Xn : (Ωn , An , Pn ) → (R, B), wobei
(Ωn , An , Pn ) Wahrscheinlichkeitsräume für n ∈ N ∪ {0} sind. Dann sind äquivalent:
Ω0
DieZUmkehrung ist im
Z Allgemeinen falsch. Sei zum BeispielPX n = −X0 ∼ N (0, 1) für
d
f (Xn ) dPn =
f (X0 ) dP0 und Xn → X0 , aber Xn 6→ X0 .
n ∈ N. Dann folgt:
Bemerkung:
≤ 2kf k∞ ε + ε + 2kf k∞ ε
= ε(4kf k∞ + 1).
2kf k∞ P (|X0 | > Mε ) + εP (|X0 | ≤ Mε , |Xn − X0 | ≤ ε0 )
+2kf k∞ P (|Xn − X0 | > ε0 )
I2
Es folgt dann mit einem genügend großen n, so daß P (|Xn − X0 | > ε0 ) ≤ ε gilt:
¯Z
¯Z
¯
¯ ¯Z
¯ ¯Z
¯
¯
¯
¯
¯ ¯
¯ ¯
¯
¯ g(ω) dP (ω)¯ ≤ ¯
g(ω) dP (ω)¯¯ + ¯¯
g(ω) dP (ω)¯¯ + ¯¯
g(ω) dP (ω)¯¯
¯
¯
¯
Ω
I1
I2
I3
Beweis: Sei ε > 0 beliebig. Dann existiert ein Mε < ∞ mit P (|X0 | ≤ Mε ) ≥ 1 − ε. Sei nun f
eine beliebige stetige und beschränkte Funktion. Dann ist f auf [−2Mε , 2Mε ] gleichmäßig stetig, d.h.
es existiert ein δ > 0 mit |f (x) − f (y)| ≤ ε für x ∈ [−2Mε , 2Mε ] und |x − y| ≤ δ. Definiere nun
g(ω) = f (Xn (ω)) − f (X0 (ω)), ε0 = min(Mε , δ) und
Xn → X0 , so gilt auch Xn → X0 .
P
Satz 16: Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
3. Allgemeine Grenzwertsätze
59
≤
→
≤
c), n→∞
2kf k∞ · [F0 (−M ) + 1 − F0 (M )]
4kf k∞ ε.
Sj
(kf k∞ + ε) 
j=1
m
X
|Fn (tj ) − F0 (tj ) − Fn (tj−1 ) + F0 (tj−1 )|
n→∞
n→∞
d
Somit gilt: Xn → δ{x0 } .
n→∞
f ür x < x0 ,
f ür x > x0 .
lim Fn (x) = 1
n→∞
n→∞
lim Fn (x) = 0
b) Es gelte Xn → δ{x0 } mit einer reellen Zahlenfolge {xn }n∈N , wobei δ das Einpunktmaß bezeichnet,
und lim xn = x0 ∈ R. Dann folgt:
gilt: Xn → X0 .
d
a) Seien Xn ∼ N (µn , σn2 ), X0 ∼ N (µ0 , σ02 ), σn2 > 0, σ02 > 0, lim µn = µ0 und lim σn2 = σ02 . Dann
Beispiele: Nun einige Beispiele für in Verteilung konvergente Folgen von Zufallsvariablen (Xn )n∈N .
n→∞
≤
c)
≤

(kf k∞ + ε)ε.
Z
Z
f (Xn ) dPn = f (X0 ) dP0 .
Insgesamt ergibt sich: lim
j=1
m
X
Für hinreichend große n folgt:
¯
¯
Sj ≤ (|f (tn )| + ε) · ¯[Fn (tj ) − Fn (tj−1 )] − [F0 (tj ) − F0 (tj−1 )]¯.

kf k∞ · [Fn (−M ) + 1 − Fn (M ) + F0 (−M ) + 1 − F0 (M )]
Nun eine Abschätzung für Sj :
Γ
Zunächst gilt:
Γ
Es gilt dann:
¯Z
¯ Z
Z
Z
m
X
¯
¯
¯ f (Xn ) dPn − f (X0 ) dP0 ¯ ≤
|f (Xn )| dPn +
|f (X0 )| dP0 +
Sj .
¯
¯
{|X |≥M }
{|X0 |≥M }
| n
{z
} j=1
für alle i = 1, . . . , m. Definiere
¯Z
¯
Z
¯
¯
¯
¯
f (Xn ) dPn −
f (X0 ) dP0 ¯
Sj := ¯
¯ {tj−1 ≤Xn ≤tj }
¯
{tj−1 <X0 <tj }
c) ⇒ a)“: Sei f : R → R eine beschränkte und stetige Funktion. Da F0 monoton ist, hat F0 höchstens
”
abzählbar viele Unstetigkeitsstellen UF0 . Wähle wieder zu ε > 0 ein M < ∞ mit −M, M ∈
/ U F0 ,
F0 (−M ) ≤ ε und F0 (M ) ≥ 1 − ε. Auf dem kompakten Intervall [−M, M ] ist f gleichmäßig stetig.
Wähle t0 , . . . , tm ∈ R \ UF0 mit −M = t0 < t1 < . . . < tm = M und
¯
sup{|f (x) − f (y)| ¯ x, y ∈ [ti−1 , ti ]} ≤ ε
3. Allgemeine Grenzwertsätze
60
=
Ωn
Ωn
kn
Sn d
1 X
Xn,j =
→ N (0, 1).
sn j=1
sn
∃δ > 0 :
kn
1 X
s2+δ
n
j=1
max
2
σn,j
→ 0.
s2n
b)
33 William
kn Z
1 X
X 2 dPn
s2n j=1 {|Xn,j |>εsn } n,j
Lyapunov (1857-1918)
Feller (1906-1970)
32 Aleksandr
a) Es gilt:
Beweis:
→
=
≤
kn
X
0.
E(|Xn,j |2+δ )
(n → ∞)
εδ s2+δ
n
j=1
1
¶δ
kn Z µ
|Xn,j |
1 X
2
Xn,j
dPn
s2n j=1
εsn
Es gilt also: Lyapunov-Bedingung =⇒ Lindeberg-Bedingung =⇒ Feller-Bedingung.
a)
Die Feller-Bedingung sagt aus, daß einzelne Summanden durch das Standardisieren an Bedeutung
verlieren.
1≤j≤kn
∞
(n → ∞)
<
EPn (|Xn,j |2+δ ) → 0
b) Die Lindeberg-Bedingung impliziert die Feller33 -Bedingung
impliziert die Lindeberg-Bedingung.
a) Die Lyapunov32 -Bedingung
Bemerkung:
Beweis: Der Beweis erfolgt nach der nächsten Bemerkung.
für alle ε > 0 erfüllt, so folgt:
Ist nur die Lindeberg-Bedingung
n Z
1 X
X 2 (ω) dPn (ω) → 0
s2n j=1 {ω | |Xn,j (ω)|>εsn } n,j
j=1
kn
X
2
σn,j
> 0.
2
Xn,j
(ω) dPn (ω)
Xn,j gelte auch
=
Z
s2n = VarPn (Sn ) =
j=1
kn
X
2
E(Xn,j
)
für alle j = 1, . . . , kn , n ∈ N. Für Sn =
2
σn,j
Satz 18:
Gegeben sei ein Dreiecksschema“ von Zufallsvariablen Xn,1 , . . . , Xn,kn : (Ωn , An , Pn ) →
”
(R, B) mit kn ∈ N. Xn,1 , . . . , Xn,kn sind stochastisch unabhängig für jedes n ∈ N. Gilt außerdem
Z
E(Xn,j ) =
Xn,j (ω) dPn (ω) = 0,
Nun die allgemeine Grenzwertaussage zu Satz 2.9. von de Moivre und Laplace (siehe auch Seite 25).
3. Allgemeine Grenzwertsätze
61
2
σn,j
s2n
Sn
sn
d
ε2 .
→ 0 nach Lindeberg
→ N (0, 1) bzw. für alle f ∈ C (3) (R) gilt:
Z µ ¶
Z
Sn
dPn → f dN (0, 1).
f
sn
≤
≤
=
h∈Q
=
¯
¯ 2
¯
¯h
sup ¯¯ (f 00 (x + ϑh) − f 00 (x))¯¯
x∈R 2
h 00
f (x + ϑh),
2
2
j=1
kn
X
j=1
kn
X
j=1
ηn,j
ηn,j ∼ N (0, 1). Um Unabhängig-
kn
X
j=1
Qnn,j
η
=
2
N (0, σn,j
).
Mit Hilfe der kanonischen Projektionen ξn,1 , . . . , ξn,kn und ηn,1 , . . . , ηn,kn (alle unabhängig) erhalten
wir dann für j = 1, . . . , kn :
ξ
X
Qnn,j = Pn n,j ,
j=1
geeigneten¢
keitsaussagen treffen zu können, müssen Xn,j und ηn,j für j = 1, . . . , kn auf einem
¡
Wahrscheinlichkeitsraum definiert sein. Dazu betrachten wir den Produktraum R2kn , B2kn , Qn
mit


 
kn
kn
O
O
2
PnXn,j  ⊗ 
N (0, σn,j
) .
Qn = 
1
s2n
Xn,j mit der Summe von normalverteilten Zufallsvariablen
≤
2
mit ηn,j ∼ N (0, σn,j
). Wir verwenden die Tatsache, daß
b) Wir vergleichen jetzt Sn =
½
K · min{h2 , h3 },
¯¾
1
1 ¯¯
¯
wobei K = max sup |f 00 (x) − f 00 (y)|, sup ¯f (3) (x)¯ < ∞. Nun folgt:
x,y∈R 2
x∈R 2
¯
¯
¯
¯
¯f (x + h1 ) − f (x + h2 ) − (h1 − h2 )f 0 (x) − 1 (h21 − h22 )f 00 (x)¯ ≤ g(h1 ) + g(h2 ).
¯
¯
2
g(h)
wobei ϑ = ϑ(x, h) ∈ (0, 1). Es folgt dann:
f (x + h) = f (x) + hf 0 (x) +
Mit dem Satz von Taylor folgt:
h∈R
sup |g(h)| = sup |g(h)|.
Dann ist g stetig, beschränkt und meßbar. Es gilt:
≤ε sn
1
max
|Xn,j |2 dPn
1≤j≤kn s2
n
Z
kn Z
1 X
1
|Xn,j |2 dPn + 2 max
|Xn,j |2 dPn
2
sn j=1 {|Xn,j |>εsn }
sn 1≤j≤kn {|Xn,j |≤εsn }
|
{z
}
|
{z
}
2 2
Z
Sei also f ∈ C (3) (R). Definiere g : R → R durch
¯
¯
¯
¯
h2
g(h) := sup ¯¯f (x + h) − f (x) − hf 0 (x) − f 00 (x)¯¯ .
2
x∈R
a) Zu zeigen:
Beweis zu Satz 18:
1≤j≤kn
max
b) Es gilt:
3. Allgemeine Grenzwertsätze
j=1
kn
X
S0
i<j
X
ξn,i +
i>j
X
j=1
Pk n
ηn,j
= N (0, 1).
h³
Das heißt:
≤
=
θn,j
sn
´i
=
0.
0
und
j=1
j=1
¯ · µ
¶
µ
¶
¯
¯E f θn,j + ξn,j − f θn,j + ηn,j
¯
sn
sn
µ
¶
µ
¶#¯¯
2
2
− ηn,j
θn,j
1 ξn,j
ξn,j − ηn,j 0 θn,j
¯
00
f
f
−
−
¯
¯
sn
sn
2
s2n
sn
µ µ
¶¶
µ µ
¶¶
ξn,j
ηn,j
E g
+E g
.
sn
sn
· f 00
³
¯ X
¯ µ µ ¶¶ Z
µ µ
µ µ
¶¶ X
¶¶
kn
kn
¯
¯
ξn,j
ηn,j
¯E f S n
E g
E g
− f dN (0, 1)¯¯ ≤
+
.
¯
sn
sn
sn
Also folgt aus a):
¯ · µ
¶
µ
¶¸¯
¯
¯
¯E f θn,j + ξn,j − f θn,j + ηn,j ¯
¯
¯
sn
sn
2
2
ξn,j
−ηn,j
2sn
´
d) Da θn,j , ξn,j und ηn,j stochastisch unabhängig sind, folgt:
´
³
´i
h³
ξn,j −ηn,j
θ
· f 0 sn,j
=
E
sn
n
≤
=
¯
¯
¯X
· µ
¶
µ
¶¸¯
¯ kn
¯
1
1
¯
E f
(θn,j + ξn,j ) − f
(θn,j + ηn,j ) ¯¯
¯
s
s
n
n
¯ j=1
¯
¶
µ
¶¸¯
kn ¯ · µ
X
¯
¯
1
1
¯E f
(θn,j + ξn,j ) − f
(θn,j + ηn,j ) ¯¯ .
¯
s
s
n
n
j=1
ηn,i für j = 1, . . . , kn folgt somit:
E
62
¶
µ
¶¸
· µ
1
1
(ξn,1 + . . . + ξn,kn ) − f
(ηn,1 + . . . + ηn,kn )
E f
sn
sn
· µ
¶
1
= E f
(ξn,1 + . . . + ξn,kn )
sn
µ
¶¸
1
−f
(ξn,1 + . . . + ξn,kn −1 + ηn,kn )
sn
· µ
¶
1
+E f
(ξn,1 + . . . + ξn,kn −1 + ηn,kn )
sn
¶¸
µ
1
(ξn,1 + . . . + ηn,kn −1 + ηn,kn )
−f
sn
+...
· µ
¶
1
+E f
(ξn,1 + ηn,2 + . . . + ηn,kn )
sn
µ
¶¸
1
−f
(ηn,1 + . . . + ηn,kn ) .
sn
=
¯
¯ µ µ 0 ¶¶ Z
¯
¯
¯
¯E f Sn
−
f
dN
(0,
1)
¯
¯
sn
Mit θn,j :=
1
ξn,j gilt dann Qnn = PnSn und Qnsn
c) Wir vergleichen nun:
µ µ 0 ¶¶ Z
Sn
− f dN (0, 1)
E f
sn
Mit Sn0 =
3. Allgemeine Grenzwertsätze
σ2
n,j
s2
n
3. Allgemeine Grenzwertsätze
≤
≤
¶
0
µ µ
¶¶
ηn,j
E g
→0
s
n
j=1
kn
X
K0
≤
n
=1
n
2
σn,j
σn,j X
max
.
2
j=1,...,kn sn
s
|
{z
} j=1 n
| {z }
→ 0 nach Feller
j=1
sn
¶3
kn µ
X
σn,j
(n → ∞).
K0
k
µ µ
¶¶
ηn,j
E g
sn
j=1
Ã¯
¯ !
kn
X
¯ ηn,j ¯3
¯
K
E ¯¯
sn ¯
j=1
kn
X
≤
≤
≤
Pierre Lévy (1886-1971)
Beweis: ,→ Übung.
1 X
d
√
(Xj − µ) → N (0, 1).
σ n j=1
Satz von Lindeberg-Lévy34 : Es seien (Xn )n∈N : (Ω, A, P ) → (R, B) unabhängig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ und Var(Xi ) = σ 2 ∈ (0, ∞) für alle i ∈ N. Dann folgt:
Es ergibt sich diese Folgerung:
Somit gilt:
f) Es gilt:
→ 0 nach Lindeberg
kn Z
1 X
ξ 2 dQn .
s2n j=1 {|ξn,j |>εsn } n,j
|
{z
}
ξn,j
sn
Kε + K
j=1
g
µ
µ µ
¶¶
kn
X
ξn,j
E g
Somit ergibt sich: lim
= 0.
n→∞
sn
j=1
0
kn
X
Summierung über j = 1, . . . , kn ergibt:
e) Sei nun ε > 0. Da g(h) ≤ K · min{h2 , h3 }, gilt:
µ µ
¶¶
ξn,j
0 ≤ E g
sn
¶
¶
µ
µ
Z
Z
ξn,j
ξn,j
dQn +
dQn
g
g
=
sn
sn
{|ξn,j |≤εsn }
{|ξn,j |>εsn }
¯
¯3
Z
Z
2
¯ ξn,j ¯
ξn,j
¯ dQn +
≤
K ¯¯
K 2 dQn
sn ¯
sn
{|ξn,j |≤εsn }
{|ξn,j |>εsn }
Z
Z
2
ξn,j
K
≤ Kε
dQn + 2
ξ 2 dQn .
2
sn {|ξn,j |>εsn } n,j
{|ξn,j |≤εsn } sn
|
{z
}
34 Paul
63
64
(Nullhypothese)
(Alternativhypothese)
ϕ : Ω → {[0, 1], B ∩ [0, 1]}
θ ∈ Θ0
θ ∈ Θ1
oder
⇐⇒
¢
¡
P |Tn−1 | > tn−1;1− α2 = α.
Diesen Test nennt man auch t-Test.
Wähle nun einen nicht-randomisierten Test ϕ mit
½
1 falls |T | > tn−1;1− α2
.
ϕ=
0 sonst
¡
¢
α
P Tn−1 ≤ tn−1;1− α2 = 1 −
2
n Sn
theorie, daß T ∼ tn−1 , falls θ = θ0 . Die Dichte von T nähert sich mit wachsendem n immer mehr
der Gaußschen Glockenkurve an.
Gegen H0 spricht, daß |T | besonders groß ist. Sei tn−1;1− α2 das 1 − α2 -Quantil, d.h. es gilt:
X−θ0
mit Θ0 = {θ0 } und Θ1 = R \ {θ0 }. Sei α = 5% und T = √
. Wir wissen aus der Stichproben1 2
b) Gegeben sei eine Stichprobe X1 , . . . , Xn unabhängig und identisch N (θ, σ 2 )-verteilter Zufallsvariablen und die Hypothese
gegen
H1 : θ 6= θ0
H0 : θ = θ 0
a) Kolmogoroff-Smirnov-Test. Siehe Übungsblatt 13, Aufgabe 2b).
Beispiele:
d) Ein Test, dessen α-Fehler für alle θ ∈ Θ0 höchstens gleich α ∈ [0, 1] ist, heißt Signifikanz-Test zum
(Signifikanz-)Niveau α oder kurz α-Test. In der Regel wird α = 0.05 verwendet.
c) Eθ (ϕ) für θ ∈ Θ0 heißt α-Fehler oder Fehler 1. Art. 1 − Eθ (ϕ) für θ ∈ Θ1 heißt β-Fehler oder
Fehler 2. Art.
b) Ein Test mit ϕ(ω) ∈ {0, 1} für alle ω ∈ Ω heißt nicht-randomisiert, ansonsten heißt er randomisiert.
heißt ein (statistischer) Test. Dabei gibt ϕ(ω) die Wahrscheinlichkeit dafür an, daß H0 abgelehnt
(oder verworfen) wird.
a) Jede meßbare Funktion
Definition 1:
zutrifft.
H0 :
H1 :
Sei nun Θ = Θ0 + Θ1 mit Θ0 , Θ1 6= ∅ und Θ0 ∩ Θ1 = ∅. Wir suchen Entscheidungsverfahren, ob für das
Wahrscheinlichkeitsmaß zu einer Realisierung
Im folgenden betrachten wir einen meßbaren Raum (Ω, A) und eine Familie von Wahrscheinlichkeitsmaßen
{Pθ | θ ∈ Θ} mit Θ 6= ∅ auf (Ω, A). In der Regel ist Ω = Rn , A = Bn und Pθ die Verteilung einer Stichprobe unabhängiger und identisch verteilter Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω0 , A0 , Pθ0 ) mit Pθ0 = {Pθ | θ ∈ Θ}.
4. Testen statistischer Hypothesen
4. Testen statistischer Hypothesen
4. Testen statistischer Hypothesen
H0 : P = P 0
gegen
H 1 : P = P1 ,
ϕ∗ (ω) =
½
H 1 : P = P1 ,
1 f1 (ω) > C · f0 (ω)
.
0 f1 (ω) < C · f0 (ω)
gegen
ϕ∗ dP0 .

 1
γα

0
=
=
=
0
0
(θ0 e−θ x1 ) · . . . · (θ 0 e−θ xn )
(θe−θx1 ) · . . . · (θe−θxn )
µ 0 ¶n
0
θ
e−θ (x1 +...+xn )+θ(x1 +...xn )
θ
µ 0 ¶n
0
θ
e−(θ −θ)(x1 +...+xn ) .
θ
gegen
H1 : θ > θ0
∗
ϕ dP0 = α für den NP-Test
falls f1 (ω) > Cα · f0 (ω)
falls f1 (ω) = Cα · f0 (ω) .
falls f1 (ω) < Cα · f0 (ω)
Z
H0 : θ ≤ θ 0
H1 : θ > θ0
zum Signifikanzniveau α0 = Eθ0 (ϕα ).
H0 : θ ≤ θ 0
gegen
H1 : θ > θ 0
b) Für alle θ 0 ∈ Θ ist ϕα ein gleichmäßig bester Test für die Hypothesen
mit geeigneten Cα ∈ R, γα ∈ [0, 1], die durch Eθ0 (ϕα ) = α bestimmt sind.
falls t(x) > Cα
falls t(x) = Cα
falls t(x) < Cα
gegen
existiert ein gleichmäßig bester Test ϕα mit

 1
γα
ϕα (x) =

0
a) Zum Testen von
Satz 2: Sei Θ ⊂ R und die Zufallsvariable X (bzw. X = (X1 , . . . , Xn )) habe eine µ-Dichte fθ für ein
θ ∈ Θ. Die Familie von Verteilungen {Pθ | θ ∈ Θ} habe einen monotonen LQ in t. Sei α ∈ (0, 1). Dann
gilt:
H0 : θ ≤ θ 0
(größerer β-Fehler),
zu den Hypothesen
Eine Verallgemeinerung des NP-Testes für zusammengesetzte Hypothesen, falls ein monotoner LikelihoodQuotient existiert, ist gegeben durch

falls t(x) > Cα
 1
γα falls t(x) = Cα
ϕ(x) =

0
falls t(x) < Cα
Es existiert also ein monotoner Likelihood-Quotient in t mit t(x1 , . . . , xn ) = −(x1 + . . . + xn ).
fθ 0
fθ
Beispiel: Seien X1 , . . . , Xn unabhängig Exp(θ)-verteilt. Dann gilt für die Dichten des auf [0, ∞)
eingeschränkten Lebesguemaßes:
für geeignete Cα ∈ R, γα ∈ [0, 1].
Beweis: Der Beweis wird später in Abschnitt 4.3. nachgeholt.
ϕ∗ (ω) =
66
Definition 3: Sei {Pθ | θ ∈ Θ} mit Θ ⊂ R eine Familie von Verteilungen für eine Zufallsvariable X
(evtl. X = (X1 , . . . , Xn )) und sei µ ein σ-endliches Maß auf (R, B) (bzw. (Rn , Bn )). Seien fθ : R → R
(bzw. fθ : Rn → R) µ-Dichten von Pθ für alle θ ∈ Θ. Dann existiert ein monotoner Likelihood-Quotient
LQ in t : R → R (bzw. t : Rn → R), wenn für alle θ, θ 0 ∈ Θ mit θ 0 > 0 der Dichtequotient ffθθ0 eine in t
monoton nicht fallende Funktion ist.
4.2. Testen zusammengesetzter Hypothesen
4. Testen statistischer Hypothesen
(kleinerer α-Fehler)
Zu jedem α ∈ [0, 1] existiert ein Cα ∈ [0, ∞] und γα ∈ [0, 1], so daß
b) Existenz
d.h. ϕ∗ ist bester α∗ -Test mit α∗ =
Z
a) Optimalität
Ist ϕ∗ ein NP-Test, so gilt für jeden Test ϕ mit
Z
Z
ϕ∗ dP0
ϕ dP0 ≤
Z
Z
auch
ϕ dP1 ≤
ϕ∗ dP1
Satz 1 (Neyman-Pearson-Lemma): Unter den angegebenen Voraussetzungen gilt:
falls es ein C ∈ [0, ∞] gibt mit
H0 : P = P 0
b) Ein Test ϕ∗ heißt Neyman-Pearson-Test (NP-Test) für das Problem
falls gilt:
Z
i)
ϕ
b P0 (dω) ≤ α,
½Z
¾
Z
¯Z
¯
ϕ P1 (dω) ¯
ϕ P0 (dω) ≤ α .
ii)
ϕ
b P1 (dω) = sup
a) Ein Test ϕ
b heißt bester α-Test für das Problem
Definition 2:
Wir betrachten den Fall Θ0 = {0} und Θ1 = {1} für eine Familie {P0 , P1 } von Wahrscheinlichkeitsmaßen.
Seien f0 und f1 µ-Dichten bzgl. eines σ-endlichen Maßes auf (Ω, A).
4.1. Einfache Hypothesen
65
35 g
Z
ϕ dP1 ≤
Z
Z
Z
+
{x | f1 (x)<Cf0 (x)}
{x | f1 (x)=Cf0 (x)}
∗
ϕ∗ (x) =
≥0
½
0
1
∗
<f1
ϕ∗ dP0 folgt:
=f1
Z
≤0
>f1
(ϕ − ϕ) Cf0 dµ
| {z } |{z}
∗
(ϕ − ϕ) Cf0 dµ
|{z}
(ϕ − ϕ)f1 dµ
Z
ϕ∗ dP1 − ϕ dP1 .
Z
Z
ϕ dP0
¶
ϕ dP0 ≤
(ϕ∗ − ϕ) Cf0 dµ
| {z } |{z}
(ϕ∗ − ϕ)Cf0 dµ
ϕ∗ dP0 −
{x | f1 (x)>Cf0 (x)}
+
Z
C
Z
ϕ∗ dP1 , was zu zeigen war.
=
≤
=
=
≤
Z
Z
Z
ϕ∗ dP0 . Dann gilt:
(ϕ∗ − ϕ) dP1
≥
=
≥0
entspricht dem α-Fehler des NP-Tests mit C und γ = 1.
{x | f1 ≥0}
Offensichtlich ist g monoton fallend und linksstetig mit
Z
g(∞) =
f0 dµ
Z{x | f0 =0}
g(0) =
f0 dµ
{x | f1 (x)≥Cf (x)}
{x | f0 >0}
0,
1.
=
=
f0 dµ.35
(ϕ∗ − ϕ) f1 (x) dµ +
{x | f0 =0} | {z }
0.
Z
b) Existenz
Sei α ∈ [0, 1]. Betrachte g : [0, ∞) ∪ {∞} → R mit
Z
g(C) =
Z
= 0 µ−fast−überall
(ϕ∗ − ϕ)
| {z }
f1 (x) dµ
4. Testen statistischer Hypothesen
falls f0 > 0 (Cf0 > f1 )
.
falls f0 = 0
Z
Z
Z
Daraus folgt
ϕ∗ dP0 = ϕ∗ f0 dµ = 0 und somit
ϕ dP0 = 0. Es gilt also:
2. Fall: Sei nun C = ∞, also
Somit gilt
Z
0
µZ
Z
ϕ dP1 .
∗
ϕ dP0 ≤
ϕ dP1 ≥ 1 −
Z
1. Fall: Die Konstante C von ϕ∗ erfüllt 0 ≤ C < ∞. Aus
1−
Z
Sei ϕ∗ ein NP-Test und ϕ ein beliebiger Test mit
a) Optimalität
Beweis von Satz 1:
4.3. Ergänzende Beweise
67
E(ϕ∗ )
γα =
{x | f1 =Cf0 }
=
=
=
=
(
{x | f1 >Cα f0 }
ϕ∗ dP0 +
Z
{x | f1 =Cα f0 }
=g(Cα )−g(Cα +0)
g(Cα + 0) + α − g(Cα + 0)
α.
Z
ϕα dP0
dP0 + γ0
Z
{t=Cα }
dα fθ0 (x)
dα fθ0 (x)
≤
≥
fθ0 (x)
fθ0 (x)
für t(x) > Cα ,
für t(x) < Cα .
Eθ0 (ϕ) ≤ Eθ0 (ϕα ).
b) Dies folgt analog zu a) aus der NP-Eigenschaft.
und es folgt: Eθ0 (ϕ) ≤ Eθ0 (ϕα ).
Die Existenz von dα folgt aus der Monotonie der Dichtequotienten, also ist ϕα auch ein NP-Test
für
gegen
H1 : θ = θ 0 ,
H0 : θ = θ0
Sei dα ∈ [0, ∞) ∪ {∞} mit
dP0
Pθ0 (t > Cα ) + α − Pθ0 (t > Cα )
α.
=
=
{t>Cα }
Z
=
Optimalität: Sei θ 0 > θ0 und ϕ ein beliebiger α-Test, so ist zu zeigen:
dann folgt:
0
68
Dies ist möglich, da Pθ0 (t(x) > C) als Funktion von C monoton fallend ist, mit den Grenzwerten
1 und 0 für C → ±∞. Setze nun
(
0
falls Pθ0 (t(x) = Cα ) = 0
,
γα =
α−Pθ0 (t(x)>Cα )
sonst
Pθ
Cα = inf{C | Pθ0 (t(x) > C) ≤ α}.
Existenz: Das Verfahren ist analog zum Beweis von Satz 1, Abschnitt b). Setze hier
ϕ∗ dP
falls g(Cα ) = g(Cα + 0)
.
sonst
g(Cα + 0) + γα P (f1 = Cα f0 )
{z
}
|
Z
α−g(Cα +0)
g(Cα )−g(Cα +0)
0
a) Wir zeigen die Existenz und die Optimalität.
Beweis von Satz 2:
Es folgt:
Definiere
Setze Cα = sup{C | g(C) > α}. Dann gilt: g(Cα − 0) ≥ α und g(Cα + 0) ≤ α. Es folgt:
Z
dP0 = g(Cα ) − g(Cα + 0).
4. Testen statistischer Hypothesen
Anhang
Z
P (X = k) = (1 − p)pk−1
−∞
fX (x) dx
fX (t) =
fX (t) =
fX (t) =
fX (t) =
fX (t) =
Normalverteilung
Cauchy-Verteilung
χ2n -Verteilung
tn -Verteilung
Fn,m -Verteilung
1
t−µ
σ
)
n
1+
n
m+n
2
t 2 −1
(m+nt)
´ n+1
2
m
t2
n
n2m 2
³
m
Γ( n
2 )Γ( 2 )
Γ( m+n
2 )
Γ( n+1
2 )
√
Γ( n
2 ) nπ
n
t
1
t 2 −1 e− 2
n
2 2 Γ( n
2)
1
π(1+t2 )
√ 1
e− 2 (
2πσ 2
I(0,∞) (t)
FX (t) = 1 − e−λt
fX (t) = λe−λt
Exponentialverteilung
2
Verteilungsfunktion
t−a
FX (t) = b−a
Dichtefunktion
1
fX (t) = b−a
Bezeichnung
gleichmäßig stetige Verteilung
darstellen läßt. Die Funktion fX (x) bezeichnen wir als Dichtefunktion von X.
FX (t) =
t
Bekanntlich nennt man eine Zufallsgröße X stetig, wenn es eine integrierbare Funktion fX (x) ≥ 0 (−∞ <
x < ∞) derart gibt, daß sich die Verteilungsfunktion FX (t) = P (X ≤ t) für alle reellen t in der Form
A.2. Wichtige stetige Zufallsgrößen
Geometrische Verteilung
Hypergeometrische Verteilung


Poissonverteilung
λk −λ
e
k!


M  N − M

k
n−k


P (X = k) =
N 

n
P (X = k) =
Binomialverteilung
Bezeichnung
Einzelwahrscheinlichkeiten
µ
¶
n
P (X = k) =
pk (1 − p)n−k
k
{i | xi ≤t}
als Einzelwahrscheinlichkeiten der Zufallsgröße X. Durch Vorgabe der Einzelwahrscheinlichkeiten ist die
Verteilungsfunktion einer diskreten Zufallsgröße eindeutig bestimmt:
X
FX (t) = P (X ≤ t) =
P (X = xi ).
pi = P (X = xi )
Ist X eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . , so bezeichnen wir
A.1. Wichtige diskrete Zufallsgrößen
Anhang
69
X n → X0
d
L
Xn → X
p
P
Xn → X
Xn → X f.s.
n→∞
lim EPn (f (Xn )) = EP0 (f (X0 ))
E(|Xn − X|p ) → 0
P (|Xn − X| > ε) → 0 ∀ ε > 0
P ({ω | Xn (ω) → X(ω), n → ∞}) = 1
70
i=1
1≤i<j≤n
1≤i<j<k≤n
E(|X − E(X)|)
ε
∀ ε > 0.
B
f dµ für alle B ∈ B gilt. Ist zusätzlich
Wahrscheinlichkeitsdichte bezüglich µ.
%(B) =
Ω
f dµ = 1, so ist % eine Verteilung und f eine
• Blatt 9, Aufgabe 3
Sei (Ω, A, µ) ein Maßraum mit einem σ-endlichen Maß µ. Eine meßbare Funktion f : (Ω, A) → (R, B)
heißt µ-Dichte
eines Maßes % auf (R, B), falls f (ω)
Z ≥ 0 für alle ω ∈ A ∈ A mit µ(A) = 0 und
Z
• Blatt 8, Aufgabe 4
Sei X eine reellwertige Zufallsvariable mit Verteilungsfunktion F . Die Pseudoinverse F −1 : (0, 1) →
R sei erklärt durch
F −1 (u) := inf{x ∈ R | F (x) ≥ u} mit 0 < u < 1.
• Blatt 7, Aufgabe 1
Eine Abbildung X : Ω1 → Ω2 (Ωi jeweils mit einer σ-Algebra Ai versehen) heißt meßbar, falls
X −1 (A2 ) ∈ A1 für alle A2 ∈ A2 . Wir schreiben dann verkürzt: X : (Ω1 , A1 ) → (Ω2 , A2 ).
• Blatt 6, Aufgabe 1
Seien Zufallsvariablen Xn ∼ Bin(n, pn ) gegeben (n ∈ N) mit lim npn = λ ∈ [0, ∞). Dann gilt der
n→∞
Poissonscher Grenzwertsatz :
k
λ
lim P (Xn = k) = e−λ .
n→∞
k!
P (|X − E(X)| ≥ ε) ≤
• Blatt 5, Aufgabe 2
Sei X eine reellwertige Zufallsvariable, so gilt die Markov-Ungleichung:
i=1
• Blatt 3, Aufgabe 2
Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, und sind A1 , . . . , An ∈ A, so gilt die Siebformel von
Sylvester-Poincaré:
Ã n
!
n
[
X
X
X
P
=
Ai
P (Ai ) −
P (Ai ∩ Aj ) +
P (Ai ∩ Aj ∩ Ak ) − + . . .
• Blatt 3, Aufgabe 1
Sei (Ω, A) ein meßbarer Raum. Ein Maß P auf (Ω, A) heißt vollständig, falls jede Teilmenge B einer
Menge A in A mit P (A) = 0 bereits in A liegt.
A.4. Nützliches aus den Übungen
®¶
Konvergenz in Verteilung
Satz 16
Konvergenz in Lp
fast-sichere Konvergenz
VVV
i
VVVV V
iiii
i
i
V VV
i
i
VVVV
iiii Tschebyscheff
i
Lemma 12
VVV &.
i
i
px
stochastische Konvergenz
Zwischen den einzelnen Konvergenzen gelten folgende Implikationen:
Konvergenz in Verteilung
Konvergenz in Lp
Stochastische (schwache) Konvergenz
Fast-sichere (starke) Konvergenz
A.3. Übersicht und Implikationen der Konvergenzen
Anhang
Literaturverzeichnis
[9] Pfanzagl, J. Elementare Wahrscheinlichkeitsrechnung, W. de Gruyter, 1988.
[8] Krickeberg, K. und Ziezold, H. Stochastische Methoden, Springer Hochschultext, 1988.
[7] Krengel, U. Einführung in die Wahrscheinlichkeitsrechnung und Statistik, Vieweg Studium, Aufbaukurs
Mathematik, 1988.
[6] Chung, K. L. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse, Springer Hochschultext, 1985.
[5] Brémaud, P. An Introduction to Probabilistic Modeling, Springer, 1988.
[4] Breiman, L. Probability, Addison-Wesley, 1968.
[3] Behnen, K. und Neuhaus, G. Grundkurs Stochastik, Teubner, 1995.
[2] Bauer, H. Wahrscheinlichkeitstheorie, W. de Gruyter, 1991.
[1] Bauer, H. Maß- und Integrationstheorie, W. de Gruyter, 1990.
Literaturverzeichnis
71
1
2
3
Exponentialverteilung (Verteilungsfunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normalverteilung (Dichtefunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B(4, 13 )-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Abbildungsverzeichnis
Abbildungsverzeichnis
11
12
18
72
Häufigkeit
relative, 4
Hypothese
Gaußsche Glockenkurve, 11
Grenzwertsatz
Poissonscher, 70
von de Moivre und Laplace, 25
Faltung, 41
Fehler
1. Art, 64
2. Art, 64
Feller-Bedingung, 60
einfache Funktion, 32
Elementarereignis, 7
Ereignis, 7
terminales, 50
Ergebnis, 7
Ergebnismenge, 7
Erwartungswert, 18
allgemeiner, 39
Cauchy-Schwarz-Ungleichung, 22
Erzeugendensystem, 7
Dichte, 29
Transformationssatz, 40
durchschnittsstabil, 49
Dynkin-System, 48
Cauchy-Schwarz-Ungleichung, 22
Bayes
Formel von, 13
β-Fehler, 64
Abbildung
meßbare, 70
Algebra, 6
Borelsche σ-, 8
erzeugte σ-, 19
Mengen-, 6
σ-, 7
σ- der terminalen Ereignisse, 50
α-Fehler, 64
α-Test, 64
bester, 65
Alternativhypothese, 64
Ausfallrate, 12
Index
73
Neyman-Pearson-Lemma, 65
Neyman-Pearson-Test, 65
nicht-randomiserter Test, 64
Niveau, 64
Null-Eins-Gesetz, 50
von Hewitt-Savage, 51
Markov-Ungleichung, 70
Maß, 8
Dirac-, 8
Einpunkt-, 8
Lebesgue-, 10
µ-Dichte, 70
σ-endlich, 38
vollständig, 70
Maßraum, 8
meßbar
Borel-, 27
meßbarer Raum, 7
Mittel
arithmetisches, 43
Moment
absolutes k-tes, 20, 30
zentrales k-tes, 20, 30
monotoner Likelihood-Quotient, 66
µ-Dichte, 70
µ-fast-sicher, 34
µ-fast-überall, 34
Multiplikationssatz, 14
Laplace-Wahrscheinlichkeiten, 8
Lemma von Fatou, 35
Lindeberg-Bedingung, 60
Lyapunov-Bedingung, 60
Kennwerte, 43
Kolmogoroff-Smirnov-Test, 64
Kolmogoroffsche Axiome, 8
konvex, 53
Korrelation, 21, 30
Kovarianz, 21, 30
Jensensche Ungleichung, 53
Indikatorfunktion, 8
Integral
µ-, 32, 37
Alternativ-, 64
Null-, 64
Index
Varianz, 20, 30
empirische, 43
Verteilung, 11
(absolut) stetige, 29
Binomial-, 17
unabhängig
paarweise, 15
stochastisch, 15, 19, 31
Ungleichung
Cauchy-Schwarz-, 22, 54
Hölder-, 54
Jensensche, 53
Markov-, 70
Minkowski-, 54
Tschebyscheffsche, 23
zwischen geometrischem und arithmetischem
Mittel, 53
t-Test, 64
Test, 64
α-, 64
Kolmogoroff-Smirnov-, 64
Neyman-Pearson, 65
nicht-randomisierter, 64
randomisierter, 64
Signifikanz-, 64
t-, 64
Transformationssatz für Dichten, 40
Tschebyscheffsche Ungleichung, 23
Satz von der majorisierten Konvergenz, 38
Satz von Fubini, 39
Schwaches Gesetz der großen Zahlen, 55
für binomialverteilte Zufallsvariablen, 23
Score, 17
Siebformel von Sylvester-Poincaré, 70
σ-Additivität, 8
Signifikanz-Niveau, 64
Signifikanz-Test, 64
Spur, 7
Standardabweichung, 20
Standardisierung, 41
Starkes Gesetz der großen Zahlen, 56
für binomialverteilte Zufallsvariablen, 27
Stirlingsche Formel, 23
System der lieben Mengen“, 27
”
randomisierter Test, 64
Permutation
endliche, 51
permutierbar, 51
Poissonscher Grenzwertsatz, 70
Produktraum, 38
Pseudoinverse, 70
Nullhypothese, 64
Nullmenge, 34
Index
Zählmaß, 8
Zufallsvariable, 16, 27
(absolut) stetige, 29
konvergiert P -fast-sicher, 55
konvergiert P -stochastisch, 55
konvergiert schwach, 55
konvergiert stark, 55
Wahrscheinlichkeit
bedingte, 12
Laplace-, 4
subjektive, 4
totale, 13
Wahrscheinlichkeitsmaß, 8
Wahrscheinlichkeitsraum, 8
abzählbarer, 8
endlicher, 16
Produkt-, 16
Wahrscheinlichkeitsverteilung, 11
χ2 -, 43
diskrete, 29
einer Zufallsvariablen, 17, 28
Exponential-, 11
F-, 45
Gauß, 11
Normal-, 11
Poisson-, 26
Studentsche, 44
t-, 44
Verteilungsfunktion, 11
empirische, 57
Pseudoinverse einer, 70
Verteilungskonvergenz, 57
74