Stochastik I Inhaltsv erzeichnis

Werbung
c 2002 Stefan Meyer
°
[email protected]
Version 0.13 vom 17. Juli 2002
Die aktuellste Version des Skripts gibt’s auf der Lehrämtler-Homepage www.trepsilon.de.
Wer Tipp- oder sonstige Fehler findet, von denen es sicherlich einige im Skript gibt, kann mir diese gerne
mitteilen.
Dieses Skript bezieht sich auf die Vorlesung Stochastik I“, die PD Dr. Eva Herrmann im Wintersemester
”
2001/2002 an der Universität Bayreuth hielt. Das Dokument wurde in LATEX gesetzt, und die Bilder mit
METAPOST erzeugt.
Stochastik I
PD Dr. Eva Herrmann
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
6
12
14
Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen . . . . . . . . . . . . . .
Grenzwertsätze zur Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . .
Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen
Einführung in die Integrationstheorie . . . . . . . . . . . . . . . . . . . . . . . . .
Transformationsformeln und Stichprobentheorie . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
23
27
32
40
Null-Eins-Gesetze . . . . . . . . . .
Gesetze der großen Zahlen . . . . .
Die empirische Verteilungsfunktion
Verteilungskonvergenz und zentraler
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Grenzwertsatz
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
53
57
57
65
66
67
Wichtige diskrete Zufallsgrößen . . . . . . . . .
Wichtige stetige Zufallsgrößen . . . . . . . . . .
Übersicht und Implikationen der Konvergenzen
Nützliches aus den Übungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
70
70
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Abbildungsverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.1.
A.2.
A.3.
A.4.
Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.1. Einfache Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2. Testen zusammengesetzter Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Ergänzende Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4. Testen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.
3.2.
3.3.
3.4.
3. Allgemeine Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1.
2.2.
2.3.
2.4.
2.5.
2. Endliche Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Heuristische Wahrscheinlichkeitsbegriffe . .
Maßräume . . . . . . . . . . . . . . . . . .
Elementare bedingte Wahrscheinlichkeiten
Stochastische Unabhängigkeit . . . . . . .
4
1. Grundlegendes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.
1.2.
1.3.
1.4.
3
0. Einführung in die Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inhaltsverzeichnis
2
0. Einführung in die Stochastik
Gesetzmäßigkeiten des Zufalls“ sind der Gegenstand der Wahrscheinlichkeitstheorie, die bestimmten
”
Ergebnissen“ Gewichtungen, nämlich Wahrscheinlichkeiten“, zuordnet. Daher orientiert man sich an
”
”
dem Verhalten von relativen Häufigkeiten“, subjektiven Wahrscheinlichkeiten“ und an Regeln für Wahr”
”
scheinlichkeiten bei Glücksspielen, die sich aus Symmetrieeigenschaften bestimmen.
In einem konkreten Anwendungsfall bleibt die Entscheidung nicht kontrollierbar, man kann jedoch Vertrauen in die Entscheidung haben, wenn das Verfahren optimal“ ist.
”
Ob dann ein echter“, reiner“ Zufall oder nur eine undurchschaubare Ursache-Wirkungsbeziehung vor”
”
liegt, ist nicht wichtig, solange die angenommenen Gesetzmäßigkeiten ein gutes (in der Regel idealisiertes)
Modell bilden.
In der mathematischen Statistik wird deshalb ein bestimmtes Vorgehen angewendet: Man setzt voraus, daß der Zufall bestimmen Gesetzmäßigkeiten folgt und bewertet nicht eine einzelne Entscheidung,
sondern das Entscheidungsverfahren an sich. Anhand der angenommenen Gesetzmäßigkeiten kann man
verschiedene Verfahren vergleichen, sie bewerten und optimieren.
Gesucht sind Entscheidungen, qualitative Aussagen zu zufälligen“ Datensätzen. Es liegt in der Natur
”
des Zufalls“, daß man dabei in einem Anwendungsfall immer auch eine falsche Entscheidung treffen
”
kann.
Ausgangspunkt der Statistik sind konkrete Anwendungsprobleme, die Erhebung und Auswertung von
Datensätzen. Neben der rein deskriptiven Beschreibung von Datensätzen (z.B. Notenspiegel einer Klausur, Durchschnittsnote) stellen sich schnell Fragestellungen: War ein Jahrgang besser oder läßt sich ein
etwas besserer Durchschnitt durch zufällige Schwankungen erklären? Bietet ein neues Medikament mit
Nebenwirkungen die gleichen Heilungschancen? Was ist ein fairer Preis für ein Wertpapier? Wieviele
Wahlzettel muß ich für eine gute Prognose des Wahlergebnisses auswerten?
Die Stochastik setzt sich aus der Statistik und der Wahrscheinlichkeitstheorie zusammen.
0. Einführung in die Stochastik
3
4
3
6
=
1
2
1 Pierre
Laplace (1749-1827)
b) Ω habe n Elemente, dann gibt es n! = n · (n − 1) · . . . · 1 Möglichkeiten, alle Elemente anzuordnen.
Beispiel: Es gibt 8! verschiedene Möglichkeiten, 8 Personen auf 8 verschiedene Plätze anzuordnen.
a) Ergebnismenge Ω = Ω1 × . . . × Ωk , Ωi mit ni Elementen (i = 1, . . . , k). Dann besitzt Ω insgesamt
n = n1 · . . . · nk Elemente.
Beispiel: Kartenspiel mit 32 Karten, es wird 10mal eine Karte gezogen (mit Zurücklegen). Dann
gibt es 3210 Möglichkeiten, Karten auszuwählen, wenn die Reihenfolge der Züge mitberücksichtigt
wird.
1.1.4. Einige Grundregeln der Kombinatorik
Anzahl der günstigen“
P (A) = ”
Anzahl der möglichen“
”
Allgemein: Es gibt n verschiedene und aus Symmetriegründen gleichwahrscheinliche Ergebnisse, wobei
ein Ereignis A von diesen n Ergebnissen genau k ∈ {0, . . . , n} enthält. Dann gilt: P (A) = nk . In Worten:
c) Roulette
37 Ergebnisse: 0, . . . , 36
1
P ({i}) = 37
für i = 0, . . . , 36
b) Würfel werfen
6 Ergebnisse: 1, 2, 3, 4, 5 oder 6
P ({1}) = . . . = P ({6}) = 16 und auch P ({1, 2, 3}) =
a) Münze werfen
2 Ergebnisse: Zahl oder Kopf
P ({Kopf}) = P ({Zahl}) = 12
Beispiele:
Bei Glücksspielen und ähnlichen Problemen kann man aus Symmetriegründen Wahrscheinlichkeiten zuordnen.
1.1.3. Laplace-Wahrscheinlichkeit1
Auch ohne konkrete Meßreihe kann man eine Vorstellung davon besitzen, mit welchen relativen Häufigkeiten man bei einem Experiment rechnen würde.
1.1.2. Subjektive Wahrscheinlichkeit
Beispiel: n = 5, Meßreihe: 2.1, 4.8, 5.1, 6.3, 3.8
A: Ereignis, daß eine Zahl kleiner als 4 auftritt, A = (−∞, 4). Die relative Häufigkeit von A ist hn (A) =
2
5.
Ein Zufallsexperiment wird n-mal durchgeführt (n ≥ 1), und wir erhalten eine Meßreihe von Ergeb”
nissen“ x1 , . . . , xn . Unter einem Ereignis verstehen wir zunächst einen konkreten Zahlenwert oder
eine Menge von Zahlenwerten (möglichen Ergebnissen), also eine Eigenschaft zu diesen Zahlenwerten.
Dann zählen wir, wieviele der Meßwerte mit diesem bestimmten Zahlenwert übereinstimmen bzw. die
Eigenschaft erfüllen, sagen wir k-mal (0 ≤ k ≤ n). Die relative Häufigkeit des Ereignisses ist hn = nk .
1.1.1. Relative Häufigkeit
1.1. Heuristische Wahrscheinlichkeitsbegriffe
1. Grundlegendes
1. Grundlegendes
1. Grundlegendes
ki
günstige im i-ten Zug“
= ”
mögliche im i-ten Zug“
ni
”
i=1
K
Y
p(Ai ) =
k1 · . . . · k K
.
n1 · . . . · n K
also p(B1 ∩ . . . ∩ Bk ) =
i=1
k
Y
i=1
p(Bi ).
p(A) =
k
Y
a) Es muß immer genau überlegt werden, welche Ergebnisse gleich wahrscheinlich sind.
Beispiel: Würfeln mit 2 nicht unterscheidbaren Würfeln. Es gibt 21 verschiedene Ergebnisse, aber
1
die Wahrscheinlichkeit für A = {(1, 1)} ist dennoch 36
, wie bei unterscheidbaren Würfeln.
=:Bi
p(Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωk ),
|
{z
}
Allgemein: Ω = Ω1 ×. . .×Ωk mit k endlichen Mengen Ω1 , . . . , Ωk . Sei A ⊂ Ω mit A = A1 ×. . .×Ak ,
Ai ⊂ Ωi . Dann folgt:
p(A) =
auf. Die Wahrscheinlichkeit, daß alle Ereignisse eintreffen (A), ergibt sich aus
p(Ai ) =
c) Es gilt auch eine Produktregel für Laplace-Wahrscheinlichkeiten.
Beispiel: Ein Glücksspiel bestehe aus K Spielzügen: Jedesmal tritt ein Ereignis Ai mit
b) p(A) = p(A1 ) + p(A2 ), falls A = A1 ∪ A2 und A1 ∩ A2 = ∅.
a) 0 ≤ p(A) ≤ 1.
Bei Laplace-Wahrscheinlichkeiten (relativen Häufigkeiten, empirischen Wahrscheinlichkeiten) gilt für ein
Ereignis:
d) Ω habe n Elemente, dann gibt es
µ
¶
n!
n
=
verschiedene Möglichkeiten, k Elemente aus
k
(n − k)! · k!
n auszuwählen. (Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge)
Beispiel: In einer Tüte sind M rote und N − M andersfarbige Gummibärchen. Man zieht ohne
Reinzusehen n-mal (0 ≤ n ≤ N ). Wie groß ist die Wahrscheinlichkeit, daß man
dabei
genau k
µ
¶
N
(0 ≤ k ≤ M, n) rote Gummibärchen zieht? Laplace-Annahme: Es gibt genau
gleichwahrn
µ
¶µ
¶
M
N −M
scheinliche Möglichkeiten, n Bärchen zu ziehen und
Möglichkeiten, daß k rote
k
n−k
Gummibärchen dabei sind. Insgesamt gilt:
µ
¶µ
¶
M
N −M
k
n−k
µ
¶
.
p=
N
n
n!
c) Ω habe n Elemente, dann gibt es n · (n − 1) · . . . · (n − k + 1) = (n−k)!
verschiedene Möglichkeiten,
eine Anordnung von k verschiedenen Elementen zu finden (0 ≤ k ≤ n).
n!
viele Möglichkeiten, k Studenten auf n Plätze zu verteilen.
Beispiel: Es gibt (n−k)!
1.1.5. Probleme bei Laplace-Wahrscheinlichkeiten
5
6
⇒
A1 ∪ A2 ∈ A.
A ∈ A,
⇒
A1 , A 2 ∈ A
⇒
(A1 ∪ A2 ) = A1 ∩ A2 ∈ A.
b) Für eine Algebra A folgt auch die Abgeschlossenheit gegenüber endlichen Schnitten:
a) Aus Eigenschaft c) der Definition folgt die Abgeschlossenheit von A bezüglich endlicher Vereinigungen.
Bemerkung 1:
c) A1 , A2 ∈ A
a) Ω ∈ A,
b) A ∈ A
Definition 1 (Mengenalgebra): Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A
heißt (Mengen-)Algebra auf Ω, falls
i∈I
d) 2Ω ist abgeschlossen gegenüber beliebigen
Vereinigungen: Sei I eine beliebige Indexmenge und
[
Ai ∈ 2Ω . (Manchmal ist jedoch 2Ω zu komplex.)
Ai ∈ 2Ω für alle i ∈ I, dann folgt:
b) ∅ ∈ 2Ω und Ω ∈ 2Ω , d.h. beide extremen“ Teilmengen sind in der Potenzmenge enthalten.
”
c) Aus A ∈ 2Ω folgt A = Ω \ A ∈ 2Ω , d.h. die Potenzmenge ist abgeschlossen gegenüber Komplementbildung.
a) Für endliche Mengen Ω mit k Elementen hat 2Ω genau 2k viele Elemente.
Beispiel: Potenzmenge 2Ω , die Menge aller Teilmengen von Ω. Eigenschaften der Potenzmenge:
Sei Ω eine beliebige Menge. Wenn Ω die Ergebnismenge eines Zufallsexperiments beschreibt, werden wir
nun überlegen, welche Teilmengen von Ω Wahrscheinlichkeiten“ zugeordnet werden sollen.
”
1.2.1. σ-Algebren
1.2. Maßräume
• Man verbindet die Wahrscheinlichkeitstheorie mit der Maßtheorie.
• Es wird keine allgemeine Additivität vorausgesetzt.
• Die Wahrscheinlichkeiten werden nicht für alle Teilmengen definiert.
Um diese Probleme zu lösen, verwendet man folgende Lösungsstrategien:
c) Es lassen sich nicht immer allen Teilmengen Wahrscheinlichkeiten zuordnen.
Beispiel: p([b − a]) = b − a für 0 ≤ a ≤ b ≤ 1. Dann gibt es für einige E ⊂ [0, 1] keine
widerspruchsfreie“ Definitionen von p(E) mehr (Beweis später).
”
b) Übertragung auf stetige“ Situationen ist problematisch.
”
Beispiel: Beim Glücksrad (r = 1 m) ist die Wahrscheinlichkeit, daß der Zeiger in einem Kreissegment anhält:
Bogenlänge des Segments
p(Segment) =
.
2π
Im Grenzfall gilt für jede Halbsehne p(x) = 0, aber für ein Segment mit Bogenlänge > 0 gilt:
p(A) > 0.
1. Grundlegendes
7
⇒
⇒
A ∈ A,
n∈N
[
An ∈ A.
Sei Ω eine Menge, A ⊂ 2Ω ein System von Teilmengen von Ω. A heißt
0
\
A ist σ−Algebra
auf Ω, die E umfaßt
A.
Dann ist σ(E) eine σ-Algebra, E ⊂ σ(E). σ(E) ist eindeutig bestimmt.
σ(E) :=
Beweis: Mit 2Ω existiert eine σ-Algebra, die E umfaßt. Sei nun
Satz 1: Seien Ω eine Menge und E ein System von Teilmengen von Ω. Dann gibt es eine kleinste E
umfassende σ-Algebra σ(E) auf Ω, die von E erzeugte σ-Algebra (E ist Erzeugendensystem von σ(E)).
eine σ-Algebra auf Ω.
c) Seien Ω und Ω0 Mengen und A0 eine σ-Algebra auf Ω0 , sowie T : Ω → Ω0 eine Abbildung von Ω nach
Ω0 . Dann ist
T −1 (A0 ) := {T −1 (A0 ) | A0 ∈ A}
eine σ-Algebra auf Ω0 (gilt auch für Ω0 ∈
/ A). A0 heißt Spur von A auf Ω0 .
A0 := Ω0 ∩ A := {Ω0 ∩ A | A ∈ A}
b) Sei A eine σ-Algebra auf Ω und Ω ⊂ Ω. Dann ist
a) 2Ω ist die größte σ-Algebra auf Ω, A = {Ω, ∅} die kleinste.
Beispiele für σ-Algebren:
a) Es ist ∅ ∈ A und Ω ∈ A.
b) A ∈ A ⇒ A ∈ A.
c) Additivität: Seien A1 , A2 ∈ A. Sind A1 und A2 endlich, folgt: A1 ∪ A2 ∈ A. Ist A1 unendlich,
dann ist A1 endlich und ebenso A1 ∪ A2 = A1 ∩ A2 ⊂ A1 ∈ A, also ist A eine Algebra. Ist Ω
endlich, so ist A = 2Ω auch eine σ-Algebra. Ist Ω unendlich, so existiert eine Folge
S (ωn )n∈N ⊂ Ω
von verschiedenen Elementen. Also ist {ωn } ∈ A für alle n ∈ N und somit A = n∈N {ω2n } ∈
/ A,
S
da weder A noch A ⊃ n∈N {ω2n−1 } endlich ist. Somit ist A keine σ-Algebra.
Beweis:
Bemerkung 2: Ist Ω eine Menge, so kann es sein, daß ein Mengensystem A eine Algebra, aber keine
σ-Algebra auf Ω ist. Sei zum Beispiel A = {A ⊂ Ω | A oder A ist endlich}. Für A gilt: A ist eine Algebra.
A ist genau dann eine σ-Algebra, wenn Ω endlich ist.
d) ω ∈ Ω Ergebnisse oder Elementarereignisse.
c) A ∈ A Ereignisse und
b) Ω Ergebnismenge,
a) (Ω, A) einen meßbaren Raum,
Bezeichnungen: Ist A eine σ-Algebra auf Ω, so nennen wir
c) {An }n∈N ⊂ A
b) A ∈ A
a) Ω ∈ A,
Definition 2 (σ-Algebra):
σ-Algebra auf Ω, falls gilt:
1. Grundlegendes
i = 1, . . . , d
ª
8
i=1
4 Paul
n∈N
Borel (1871-1956)
Kolmogoroff (1903-1987)
Dirac (1902-1984)
3 Andrey
2 Emile
n∈N
xn ∈A
c) Abzählbarer Wahrscheinlichkeitsraum
Sei Ω = {xn }n∈N eine abzählbare Menge mit xn 6= xm für n 6= m, A = 2Ω , und sei {pn }n∈N eine
∞
X
reelle Folge mit 0 ≤ pn ≤ 1 für n ∈ N und
pn = 1. Dann ist P mit P ({xn }) = pn für n ∈ N und
n=1
X
X
pn =
pn Ixn (A) ein Wahrscheinlichkeitsmaß auf (Ω, A).
P (A) =
als Einpunktmaß oder Diracmaß 4 bezeichnet. Übrigens gilt Iω (A) = IA (ω), wenn IA : Ω → {0, 1}
die Indikatorfunktion von A bezeichnet (,→ Übung).
b) Sei Ω eine beliebige nicht-leere Menge und A eine σ-Algebra auf Ω. Für ω ∈ Ω wird Iω mit
½
1 falls ω ∈ A
Iω (A) =
0 sonst
a) Laplace-Wahrscheinlichkeiten
Sei Ω = {1, . . . , k} und A = 2Ω . Dann ist P mit P ({i}) = k1 für i = 1, . . . , k und P (A) = #A
k für
alle A ∈ A. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A). Zum Beispiel ein Münzwurf: Ω = {1, 2},
1
1
A = {∅, {1}, {2}, {1, 2}} mit den Wahrscheinlichkeiten P (∅) = 0, P ({1}) = 2 , P ({2}) = 2 und
P ({1, 2}) = 1. Das Maß µ mit µ(A) = #A nennt man Zählmaß.
Beispiele:
Diese Eigenschaften eines Wahrscheinlichkeitsraums werden auch als Kolmogoroffsche Axiome 3 bezeichnet.
Ist µ ein Maß auf (Ω, A), so heißt (Ω, A, µ) Maßraum. P ist ein Wahrscheinlichkeitsmaß auf (Ω, A), falls
P ein Maß auf (Ω, A) mit P (Ω) = 1 ist. Dann heißt (Ω, A, P ) ein Wahrscheinlichkeitsraum.
i=1
b) µ(∅) = 0 und
̰ !
∞
[
X
c) µ
Ai =
µ(Ai ) für alle Folgen {An }n∈N paarweise disjunkter Mengen aus A (σ-Additivität).
a) µ(A) ≥ 0 für alle A ∈ A,
Definition: Es sei (Ω, A) ein meßbarer Raum. Ein Maß auf (Ω, A) ist eine Abbildung µ : A → R ∪ {∞}
mit den Eigenschaften
1.2.2. Wahrscheinlichkeitsmaße
Beweis: Siehe Bauer, Seite 33/34.
Bemerkung 3: Es seien Od , Cd , Kd die Systeme aller offenen, abgeschlossenen bzw. kompakten
Teilmengen von Rd . Dann ist Bd = σ(Od ) = σ(Cd ) = σ(Kd ).
die Menge aller halboffenen Quader von Rd . Dann heißt Bd = σ(I d ) Borelsche σ-Algebra auf Rd .
Beispiel (Borelsche2 σ-Algebra): Es sei
¯
©
I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ < ai ≤ bi < ∞,
1. Grundlegendes
⇒
⇒
µ
Ã
i=1
n
[
Ai
!
=
i=1
n
X
µ(Ai ).
µ(B \ A) = µ(B) − µ(A).
µ(A) ≤ µ(B).
⇒
1. Grundlegendes
n→∞
Ã
i=1
n
[
≤
=µ
!
!
n∈N
[
An
Ã
i=1
Ai
!
=
µ(An ).
̰
[
n∈N
X
i=1
∞
X
µ(Ai ) =
i=1
n
X
µ(Ai ).
n=1
n=1
n=1
n=1
b) (siehe c))
c) B = A ∪ (B \ A). Dann folgt: µ(B) = µ(A ∪ (B \ A)) = µ(A) + µ(B \ A) ≥ µ(A). Falls µ(A) < ∞,
so gilt: µ(B) − µ(A) = µ(B \ A).
d) Der erste Teil folgt aus c). Setze B = Ω, dann folgt p(B) = 1 und damit der zweite Teil.
e) (,→ Übung)
!
Ã
∞
∞
[
[
[
Ai für n > 1 und sei B1 = A1 . Dann folgt:
An =
Bn . Da die Bn
f) Setze Bn = An \
n=1
n=1
i<n
!
̰
!
̰
∞
∞
[
[
X
X
paarweise disjunkt sind, folgt: µ
An = µ
Bn =
µ(Bn ) ≤
µ(An ).
a) Setze Am = ∅ für m > n, so folgt: µ
Beweis:
Sei {An }n∈N eine beliebige Folge, so gilt: µ
f) Sub-σ-Additivität
n∈N
e) Ist {An }Ãn∈N ⊂ A! eine aufsteigende Folge von Mengen aus A, d.h. An ⊂ An+1 für alle n ∈ N, so
[
An = lim µ(An ).
folgt: µ
i) p(B \ A) = p(B) − p(A).
ii) 0 ≤ p(A) ≤ 1.
iii) p(A) = 1 − p(A).
d) Falls µ = p ein Wahrscheinlichkeitsmaß auf (Ω, A) ist, dann folgt aus A, B ∈ A, A ⊂ B:
c) A, B ∈ A, A ⊂ B, µ(A) < ∞
b) Isotonie: A, B ∈ A, A ⊂ B
A1 , . . . , An ∈ A paarweise disjunkt
a) Endliche Additivität
Satz 2: Sei (Ω, A, µ) ein Maßraum. Dann gilt:
n=1
Beweis: Siehe Bauer, Maß- und Integrationstheorie, Satz 5.6.
Dann existiert ein eindeutiges Maß µ
e auf (Ω, σ(A)) mit µ
e(A) = µ(A) für alle A ∈ A.
n=1
b) µ sei σ-additiv, d.h. für Folgen {An }n∈N ⊂ A, die paarweise disjunkt sind, und für
!
̰
∞
[
X
An =
µ(An ).
µ
a) µ(A) ≥ 0 für alle A ∈ A.
n∈N
[
An ⊂ A gilt:
Satz 3: Sei Ω ein Ergebnisraum (oder Ereignisraum) und A eine Algebra auf Ω. Außerdem sei µ : A →
R ∪ {∞} eine Mengenfunktion auf A mit folgenden Eigenschaften:
In diesem Abschnitt wird gezeigt, daß sich ein Wahrscheinlichkeitsmaß bereits durch Festlegung von
Wahrscheinlichkeiten auf einzelnen, überschaubaren Mengensystemen auf den gesamten Raum (Ω, Bd )
eindeutig festlegen läßt.
1.2.3. Festlegung eines Wahrscheinlichkeitsmaßes auf dem Maßraum R d , Ld
9
i=1
k
[
Ai
!
=
i=1
µ(Ai ).
i=1
k
X
n=1
∞
[
µ(Ai ).6
An auch A1 ⊂ A2 ⊂ . . . ⊂ A und A ∈ Bd0 gilt, so
i=1
n
X
n→∞
i=1
n
X
i=1
µ(Ai ). Somit läßt sich Satz 3 anwenden.
i=1
d
Y
(bi − ai )
7 Henri
6 Diese
5 Folgt
bereits, wenn es für alle A ∈ I d erfüllt ist.
Bedingung ist bereits erfüllt, wenn sie für disjunkte Mengen A1 , . . . , An ∈ I d gilt.
Lebesgue (1875-1941)
Das Lebesque-Maß liefert eine natürliche Beschreibung des Flächeninhaltes“ auf Bd . Auf I d und Bd0 ist
”
es offensichtlich translationsinvariant. Diese Eigenschaft läßt sich auch für Bd nachweisen.
für −∞ < ai ≤ bi ≤ ∞ (i = 1, . . . , n) heißt d-dimensionales Lebesgue-Maß.
λd ([a1 , b1 ) × . . . , ×[ad , bd )) =
Definition (Lebesgue-Maß7 ): Das eindeutig bestimmte Maß λd auf (Rd , Bd ) mit
n→∞
n ∈ N. Dann gilt nach c): µ(A) = lim µ(Bn ) = lim
b)
Beweis: Bd0 ist eine Algebra. Falls auch die σ-Additivität erfüllt ist, läßt sich Satz 3 anwenden. Wir
n
[
zeigen also die σ-Additivität: {An }n∈N ⊂ Bd0 sind paarweise disjunkt und Bn =
Ai ∈ Bd0 für alle
e(A) für alle A ∈ Bd0 .
Dann existiert ein eindeutig bestimmtes Maß µ
e auf (Rd , Bd ) mit µ(A) = µ
n→∞
folgt: lim µ(An ) = µ(A).
c) Falls für eine Folge {An }n∈N ∈ Bd0 mit A =
b) Für disjunkte Teilmengen A1 , . . . , An ∈ Bd0 gilt: µ(A1 ∪ . . . ∪ An ) =
a) µ(A) ≥ 0 für alle A ∈ Bd0 .5
Satz 5: Sei µ eine Mengenfunktion auf Bd0 mit folgenden Eigenschaften:
a) Rd = (−∞, ∞) × . . . × (−∞, ∞) ∈ Bd0 .
b) A ∈ Bd0 ⇒ A ∈ Bd0 .
Sn
c) A1 , . . . , An ∈ Bd0 , dann folgt k=1 Ai ∈ Bd0 sofort, da man jede Vereinigung von Quadern als
Vereinigung von disjunkten Quadern schreiben kann, und jede endliche Vereinigung von endlichen
Vereinigungen wieder eine endliche Vereinigung ist.
Beweis:
Lemma 4: Bd0 ist eine Algebra auf Rd .
fortsetzt: µ
Ã
festgelegt wird. Zunächst ist klar, wie sich die Mengenfunktion (additiv) auf
( k
)
[
Bd0 =
Ai | Ai ∈ I d , A1 , . . . , An paarweise disjunkt für k ∈ N
10
Nun betrachten wir die Fortsetzung einer Mengenfunktion zu einem Maß auf (R d , Bd ), wenn sie zunächst
nur auf
¯
©
ª
I d := [a1 , b1 ) × . . . × [ad , bd ) ¯ − ∞ ≤ ai ≤ bi ≤ ∞, i = 1, . . . , d
Bemerkung: σ-Additivität einer solchen Mengenfunktion folgt nicht aus endlicher Additivität.
1. Grundlegendes
11
8
Friedrich Gauß (1777-1855)
e
f (x) = √
2πσ 2
1
− 12
(
x−µ
σ
)
2
Abbildung 1: Exponentialverteilung (Verteilungsfunktion)
b) Normal- oder Gaußverteilung
Für die Gaußsche Glockenkurve f : R → R mit
8 Carl
für t ≥ 0.
Es gilt dann auch: P ([t0 , t1 ]) = F (t1 ) − F (t0 ) = e−λt0 − e−λt1 für 0 ≤ t0 ≤ t1 .
P ([0, t]) = P ((−∞, t]) = 1 − e−λt = F (t)
a) Exponentialverteilung
Die Lebensdauer eines technischen Bauteils, zum Beispiel einer Glühbirne, kann oft gut durch eine
Exponentialverteilung beschrieben werden:
Beispiele:
Die genauen Eigenschaften, die eine Verteilungsfunktion besitzt, werden wir später charakterisieren.
b) P ([a, b)) = P ((−∞, b)) − P ((−∞, a)) für alle a, b ∈ R mit a ≤ b.
a→b
a<b
a) P ((−∞, b)) = lim F (a) = F (b−),
Nach Satz 4 kann eine Verteilung durch Angabe der Wahrscheinlichkeiten auf I 1 eindeutig festgelegt werden, sogar durch Angabe einer Funktion F : R → [0, 1] mit F (x) = P ((−∞, x]), einer Verteilungsfunktion
des Wahrscheinlichkeitsmaßes P auf (R, B). Es gilt:
Definition 5: Gegeben sei der meßbare Raum (R, B). Ein Wahrscheinlichkeitsmaß auf (R, B) bezeichnen wir auch als (Wahrscheinlichkeits)-Verteilung.
für alle r1 , r2 ∈ Q mit |r1 | < 1 und |r2 | < 1, gilt λ(E + r1 ) = 0 und damit λ(S) = 0. Aber:
1 = λ([0, 1]) ≤ λ(S) = 0, was offensichtlich ein Widerspruch ist.
r∈Q
|r|<1
a) S ⊂ [−1, 2].
b) [0, 1] ⊂ S, da jedes x ∈ [0, 1] für ein r ∈ Q mit |r| ≤ 1 in E + r enthalten ist.
X
λ(E + r) ≤ λ([−1, 2]) = 3. Da λ(E + r1 ) = λ(E + r2 )
Wegen der σ-Additivität folgt: λ(S) =
r∈Q
|r|<1
Beweis: Wir definieren auf R eine Äquivalenzrelation x ∼ y ⇐⇒ x − y ∈ Q. Sei E ein Repräsentantensystem mit E ⊂ [0, 1]. Gelte nun λ(E) = λ(E[+ r) für alle r ∈ R. Dann folgt für die abzählbare
Vereinigung paarweise disjunkter Mengen S :=
E + r:
Bemerkung 4: Das Lebesgue-Maß λ = λd kann nicht so auf 2R fortgesetzt werden, daß die Translationsinvarianz erhalten bleibt: λ(E + r) = λ(E) ist also nicht für alle E ⊂ R, r ∈ R möglich.
1. Grundlegendes
a
Abbildung 2: Normalverteilung (Dichtefunktion)
P (A ∩ B)
P (A)
n
n+m
und
ε→0
λ(t) = lim
1
P ([t, t + ε] | [t, ∞)),
ε
c) Gegeben sei eine Verteilung auf (R, B) zur Lebensdauer eines technischen Bauteils. Unter der
Ausfallrate λ(t) zu einem Zeitpunkt t ≥ 0 versteht man
n
b) Entsprechendes gilt für die relativen Häufigkeiten. Sei n die Gesamtzahl der Schulkinder, n1 die
Anzahl der achtjährigen Mädchen und m1 die Anzahl der achtjährigen Mädchen, die kleiner als
m1
1
1.20 m sind. Für die relative Häufigkeit gilt dann: hn = nn1 = m
n1 .
rote Kugel“ und B: Nummer 1“ die beiden Ereignisse. Dann gilt: P (A) =
”
”
1
1
P (A ∩ B) = n+m
, also insgesamt: P (B | A) = P P(A∩B)
(A) = n .
a) Seien A:
Beispiele:
die bedingte Wahrscheinlichkeit von B gegeben A.
P (B | A) =
Definition 6: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, seien A, B ∈ A und P (A) > 0. Dann heißt
Jeweils ist eigentlich ein komplexeres Modell gegeben, wir suchen aber nach Wahrscheinlichkeiten in
einem eingeschränkten Modell, das durch eine zusätzliche Bedingung (rote Kugel, achtjährige Mädchen)
beschrieben wird.
b) Angenommen, wir suchen nach der Wahrscheinlichkeit, daß achtjährige Mädchen kleiner als 1.20 m
sind, so können wir als Näherungswert Meßwerte von Schulärzten analysieren und unter ihnen die
relative Häufigkeit, daß die Größe kleiner als 1.20 m ist, auszählen.
a) Gegeben sei eine Urne mit n ≥ 1 roten Kugeln und m ≥ 0 weißen Kugeln, die jeweils von 1 bis n
bzw. m durchnumeriert sind. Angenommen, eine rote Kugel wird gezogen. Wie groß ist dann die
Wahrscheinlichkeit, daß sie die Nummer 1 hat?
Zur Lösung: Betrachten wir als günstiges Ergebnis, die rote 1 zu ziehen, als mögliche Ergebnisse,
die n roten Kugeln zu ziehen, so gilt: p = n1 .
Beispiele:
1.3. Elementare bedingte Wahrscheinlichkeiten
Solche Verteilungen eignen sich oft gut (zumindest näherungsweise) zur Beschreibung der Verteilung von
Größen-, Längen- oder Gewichtsmessungen.
teilung bezeichnet.
12
für alle x ∈ R mit einem mittleren Wert“ µ ∈ R und einer Skalierung σ > 0 wird eine WahrscheinZ b
”
f (t) dt bestimmt und als Normal- oder Gaußverlichkeitsverteilung auf (R, B) mit P ([a, b]) =
1. Grundlegendes
13
e−λt − e−λ(t+ε)
= lim
ε→0 ε(1 − (1 − e−λt ))
1 − e−λε
= lim
ε→0
ε
= f 0 (0)
= λ
=
=
P ([t, t + ε] | [t, ∞))
lim
ε→0
ε
P ([t, t + ε])
lim
ε→0 εP ([t, ∞))
n∈N
9 Thomas
Bayes (1702-1761)
P (Ak | B)
(∗) da B ∩ An paarweise disjunkt sind
b) Es gilt:
=
=
(∗)
=
a)
=
P (B | An ) · P (An ).
P (B ∩ An )
n∈N
n∈N
P (Ak ∩ B)
P (B)
P (B | Ak ) · P (Ak )
X
P (B | An ) · P (An )
n∈N
X
n∈N
X
Beweis:
a) Für alle A, B ∈ A gilt: P (A ∩ B) = P (B | A) · P (A) = P (A | B) · P (B), also folgt:
!
Ã
[
(B ∩ An )
P (B) = P
P (Ak ) · P (B | Ak )
.
P (Ak | B) = X
P (An ) · P (B | An )
b) Außerdem folgt die Formel von Bayes 9 :
n∈N
a) Es gilt der Satz von der totalen Wahrscheinlichkeit:
X
P (B | An ) · P (An ).
P (B) =
P (B) > 0. Dann folgt:
n∈N
Satz [
5: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und {An }n∈N ∈ A mit Ai ∩ Aj = ∅ für i 6= j. Sei
Ω=
An eine Zerlegung von Ω (bzw. eine meßbare, abzählbare Partition von Ω) und sei B ∈ A mit
Oft ist auch die Beziehung P (A ∩ B) = P (A | B) · P (B) = P (B | A) · P (A), falls P (A) 6= 0 6= P (B),
interessant. Für P (B) = 0 (bzw. P (A) = 0) würde natürlich auch P (A ∩ B) = 0 folgen, deshalb setzen
wir P (A | B) = 0, falls P (B) = 0.
für f : R → R mit f (t) = −e−λt und f 0 (t) = λe−λt . Hier ist die Ausfallrate für alle t ≥ 0 gleich und
entspricht dem Parameter λ der Exponentialverteilung.
λ(t)
Für eine Exponentialverteilung folgt:
also die bedingte Wahrscheinlichkeit, mit der in der nächsten Zeit mit einem Ausfall gerechnet
werden muß (pro Zeiteinheit, Zeitintervall → 0), gegeben, daß das Bauteil zum Zeitpunkt t noch
intakt war. Analog definiert man die Begriffe Geburtsrate oder Sterberate einer Population.
1. Grundlegendes
14
=
=
IV
P (Bn | B1 ∩ . . . ∩ Bn−1 ) · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ) · P (B1 ).
P (B1 | B1 ∩ . . . ∩ Bn−1 ) · P (B1 ∩ . . . ∩ Bn−1 )
=
=
=
=
3
2 ·
2
.
3
1
3
0·
1
3
1
3
i=0
1 · 13
+ 12 · 13 + 1 ·
1
3
P (G | K2 ) · P (K2 )
2
X
P (G | Ki ) · P (Ki )
1
4
1
2
c) A = {1, 2}, B = {1, 3}
({1})
=
⇒ P (B | A) = PP({1,2})
1
4
1
2
b) A = {1, 2, 3}, B = {1, 2, 4}
({1,2})
⇒ P (B | A) = PP({1,2,3})
=
a) A = {1, 2}, B = {1}
({1})
=
⇒ P (B | A) = PP({1,2})
1
2
1
2
=
=
1
2
3
4
=
<
1
4
3
4
= P (B)
= P (B)
= P (B)
2
3
>
Beispiel: Ω = {1, 2, 3, 4}, A = 2Ω und P ({i}) = 14 . Sind zwei Ereignisse A, B ∈ A gegeben, so kann A
das Eintreten von B begünstigen, benachteiligen oder gar nicht beeinflussen.
Für beliebige Ereignisse B1 , . . . , Bk gilt das nicht.
gilt, falls zum Beispiel B1 , . . . , Bk Ereignisse von verschiedenen (sich nicht beeinflussenden) Spielzügen
sind. Somit gilt P (B1 ∩B2 ) = P (B1 | B2 )·P (B2 ) als auch P (B1 ∩B2 ) = P (B1 )·P (B2 ), also: P (B1 | B2 ) =
P (B1 ).
P (B1 ∩ . . . ∩ Bk ) = P (B1 ) · . . . · P (Bk )
Bereits in der Diskussion zur Laplace-Wahrscheinlichkeit haben wir erkannt, daß
1.4. Stochastische Unabhängigkeit
Die gesuchte Wahrscheinlichkeit beträgt damit zwei Drittel und ist größer als 50%.
P (K2 | G)
Ki bezeichne die Auswahl der Kommode mit i Goldmünzen (i = 0, 1, 2), G sei das Ereignis ein Fach
”
enthält eine Goldmünze“. Dann gilt:
Beispiel zur Formel von Bayes: Gegeben seien drei Kommoden mit jeweils zwei Schubladen. Eine
Kommode hat in jedem Fach eine Goldmünze, eine in genau einem Fach, die letzte in keinem. Eine
Kommode wird zufällig ausgewählt und ein Fach geöffnet: Es enthält eine Goldmünze. Wie groß ist die
Wahrscheinlichkeit, daß das andere Fach auch eine Goldmünze enthält?
P (B1 ∩ . . . ∩ Bn )
Beweis: mit vollständiger Induktion
n = 2: P (B1 ∩ B2 ) = P (B1 ) · P (B2 | B1 )
Gilt nun P (B1 ∩ . . . ∩ Bn−1 ) = P (B1 ) · . . . · P (Bn−1 | B1 ∩ . . . ∩ Bn−2 ), so folgt auch:
P (B1 ∩ . . . ∩ Bn ) = P (B1 ) · P (B2 | B1 ) · . . . · P (Bn | B1 ∩ . . . ∩ Bn−1 )
Satz 6 (Multiplikationssatz):
Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und B 1 , . . . , Bn ∈ A
beliebige Mengen aus A. Dann gilt:
1. Grundlegendes
15
P (A) · P (B)
P (A ∩ B)
=
= P (B).
P (A)
P (A)
i=1
P (Ak ) =
µ
n
k
¶
½
i=1
i=1
Pn
pωi (1 − p)1−ωi =
=
p
i=1
Pn
ωi
i=1
falls ωi = 0
falls ωi = 1
(1 − p)n−
1−p
p
ωi
P ({(ω1 , . . . , ωn })
n
Y
pωi (1 − p)1−ωi
=
=
,
pk (1 − p)n−k
für 0 ≤ k ≤ n, n ≥ 1.
µ
n
k
¶
verschiedene ω ∈ Ω
i∈I0
Bemerkung 6: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und A1 , . . . , An ∈ A. Dann gilt: Die
Ereignisse A1 , . . . , An sind genau dann stochastisch unabhängig im Sinne von Definition 7, wenn die
Mengensysteme {A1 }, . . . , {An } stochastisch unabhängig im Sinne von Definition 8 sind.
i∈I0
Definition 8: Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Ai }i∈I eine Familie von Mengensystemen, wobei I eine beliebige Indexmenge ist und Ai ⊂ A für alle i ∈ I gilt. Dann heißen die
Mengensysteme {Ai }i∈I (stochastisch) unabhängig, falls für jedes I0 ⊂ I und für alle Ai ∈ Ai (i ∈ I0 )
gilt:
!
Ã
Y
\
Ai =
P (Ai ).
P
k=
ωi ist die Anzahl, wie oft das Ergebnis für ω ∈ Ω eintritt. Es gibt
i=1
)
(
n
n
X
X
¯
mit k =
ωi , also folgt für Ak ∈ 2Ω , Ak = ω ∈ Ω ¯ k =
ωi :
n
X
denn es gilt:
P ({w})
Ω = {0, 1} × . . . × {0, 1}, A = 2Ω
1: gewünschtes Ereignis eingetreten“, 0: gewünschtes Ereignis nicht eingetreten“
”
”
Sei p die Wahrscheinlichkeit, daß bei einer einzelnen Beobachtung das Ergebnis auftritt (zum Beispiel
1
p = 4 beim Multiple-Choice-Test), dann gilt:
Beispiel: Wir beobachten n-mal, ob ein bestimmtes Ereignis – unabhängig voneinander – auftritt und
zählen insbesondere, wieviele der n Wiederholungen dieses Ergebnis zeigen. Zum Beispiel: Wir werfen
n-mal eine Münze und zählen, wie oft die Würfe Zahl“ zeigen; wir zählen, wieviele von n zufällig aus”
gewählten Familien ein niedrigeres Pro-Kopf-Nettoeinkommen als 2000 DM haben oder zählen, wieviele
von n Aufgaben eines Multiple-Choice-Tests (immer vier Antworten, von denen genau eine richtig ist)
richtig angekreuzt wurden, wenn nur geraten wird.
b) Sind zumindest immer zwei Ereignisse Ai1 , Ai2 von (A1 , . . . , An ) unabhängig (für alle 1 ≤ i1 < i2 ≤
n), so heißen A1 , . . . , An paarweise unabhängig. Aus der paarweisen Unabhängigkeit folgt aber
noch nicht die (vollständige) Unabhängigkeit (,→ Übung).
P (B | A) =
a) Ist P (A) > 0, so folgt aus der Unabhängigkeit von A und B auch:
Bemerkung 5:
Definition: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann heißen endlich viele Ereignisse A 1 , . . . ,
An ∈ A (stochastisch) unabhängig, falls P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) für alle 1 ≤ k ≤ n,
1 ≤ i1 < . . . < ik ≤ n gilt.
1. Grundlegendes
16
{i|ωi ∈A}
i=1
n
Y
pωi (1 − p)1−ωi = p
i=1
Pn
ωi
(1 − p)n−
i=1
Pn
ωi
=
=
P (E1 ) · P (E2 ).
P (A1 ×Ω2 )
P (Ω1 ×A2 )
P1 (A1 ) · P2 (Ω2 ) · P1 (Ω1 ) · P2 (A2 )
{z
} |
{z
}
|
= P (A1 × A2 )
= P1 (A1 ) · P2 (A2 )
und
Mit Hilfe von Zufallsvariablen lassen sich Teilprobleme oder Teilaspekte eines komplexen Wahrscheinlichkeitsraumes effizient betrachten.
Definition 3: Ist (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum, so heißt jede Funktion X : Ω → R
eine Zufallsvariable auf (Ω, A, P ).
2.1. Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen
P (E1 ∩ E2 )
Beweis: Seien E1 ∈ ξ1 und E2 ∈ ξ2 , so folgt:
stochastisch unabhängig.
ξ1 = {A1 × Ω2 | A1 ∈ A1 }
ξ2 = {Ω1 × A2 | A2 ∈ A2 }
Satz 1: Ist (Ω, A, P ) ein Produktraum von zwei endlichen Wahrscheinlichkeitsräumen (Ω1 , A1 , P1 ) und
(Ω2 , A2 , P2 ), so sind die Mengensysteme
sowie Ωi = {0, 1}, pi ({0}) = 1 − p und pi ({1}) = p für alle i = 1, . . . , n.
P ({ω}) =
Beispiel: Das (letzte) Beispiel aus Abschnitt 1.4. (wir betrachten bei n Wiederholungen, ob ein
bestimmtes Ergebnis eintritt) paßt zu einem n-fachen Produktraum: Ω = {0, 1} n , A = 2Ω mit
x∈A1 y∈A2
für A ∈ Ω und insbesondere für A = A1 × A2 :
X X
P (A1 × A2 ) =
P1 ({x})P2 ({y}) = P1 (A1 ) · P2 (A2 ).
x∈Ω1 y∈Ω2
Definition 2: Seien (Ω1 , A1 , P1 ) und (Ω2 , A2 , P2 ) zwei endliche Wahrscheinlichkeitsräume. Ein Produktwahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Ω1 × Ω2 , A = 2Ω , P = P1 ⊗ P2 ist definiert durch
X X
P1 ({x})P2 ({y})I{(x,y)} (A)
P (A) =
i=1
Viele bisher betrachteten Beispiele waren endliche Wahrscheinlichkeitsräume. Für Ω = {ω1 , . . . , ωn } läßt
n
X
X
sich P durch P ({ωi }) = pi für i = 1, . . . , n mit P (A) =
pi · Iωi (A) =
pi charakterisieren.
Definition 1: Ein Wahrscheinlichkeitsraum (Ω, A, P ) heißt endlicher Wahrscheinlichkeitsraum, falls Ω
nur endlich viele Elemente besitzt und A = 2Ω gilt.
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
17
n
i=1
Pn
Pn
̰
[
i=1
Bi
!
=
=
=
Ã(
i=1
n
i=1
Pn
ωi
Bi
¶
ωi
pk (1 − p)n−k
und X = X(ω) =
!
)!
i=1
n
X
ωi . Dann gilt:
{i|ωi ∈Ω,
S(ωi )=k}
b) Da die Bildmenge von der Scorefunktion S in der Regel deutlich kleiner als Ω ist, werden auch hier
Werte zusammengefaßt:
X
pi .
P S ({k}) = P (S = k) =
für 0 ≤ k ≤ n. Diese Verteilung von X heißt Binomialverteilung und die Zufallsvariable X binomialverteilt. Oder kürzer: X ist B(n, p)-verteilt oder X ∼ B(n, p).
n
k
i=1
Pn
µ
(1 − p)n−
P X ({k}) = P (X = k) =
a) ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p
P X (Bi ).
i=1
i=1
∞
[
{ω ∈ Ω | X(ω) ∈ Bi }
ω ∈ Ω | X(ω) ∈
̰
[
∞
X
P
P
Beispiele: Nochmals zu den Beispielen von oben:
PX
a) P X (B) ≥ 0 für alle B ∈ B.
b) P X (∅) = P ({ω ∈ Ω | X(ω) ∈ ∅}) = P (∅) = 0.
c) σ-Additivität. Seien {Bn }n∈N ⊂ B disjunkte Borelmengen, so gilt:
Beweis:
Bemerkung 1: P X ist ein Wahrscheinlichkeitsmaß auf (R, B).
Eine solche Verteilung läßt sich auch auf (R, 2R ) definieren.
für alle B ∈ B die Verteilung von X (unter P).
P X (B) := P (X ∈ B) := P ({ω ∈ Ω | X(ω) ∈ B})
Definition 4: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann
heißt das Wahrscheinlichkeitsmaß (bzw. die Verteilung) P X auf (R, B) mit P X : B → [0, 1] und
c) Sei (Ω, A, P ) ein endlicher Wahrscheinlichkeitsraum. Dann ist auch die Indikatorfunktion I A für
A ∈ A eine Zufallsvariable auf (Ω, A, P ).
b) Wird ein Fragebogen ausgewertet, so kann das zugrundeliegende Zufallsexperiment über einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) beschrieben werden. Dabei gibt Ω die verschiedenen Antwortmöglichkeiten an, P ist ein geeignetes Wahrscheinlichkeitsmaß. Zur Vereinfachung wird aber
nur ein geeigneter Score S : Ω → R betrachtet, welcher eine Zufallsvariable ist.
eine Zufallsvariable.
a) Noch einmal: ({0, 1}n , 2{0,1} , P ) mit P ({ω}) = p i=1 ωi (1 − p)n− i=1 ωi und 0 ≤ p ≤ 1. Hier
n
X
ωi , wie oft ein bestimmtes Ereignis auftritt. X ist
interessiert oft nur die Anzahl X = X(ω) =
Beispiele:
2. Endliche Wahrscheinlichkeitsräume
=
=
P ({ω ∈ Ω | IA (ω) = 0})
P ({ω ∈ Ω | IA (ω) = 1})
=
=
P (A)
P (A).
=
1 − P (A),
18
1
0.395
2
0.296
3
0.099
i=1
i=1
Beispiel: E(X 2 ) = 12 · 0.1 + 22 · 0.2 + 32 · 0.3 + 42 · 0.2 + 52 · 0.2 = 11.8.
ω∈Ω
Dann gilt: E(X) = 1 · 0.1 + 2 · 0.2 + 3 · 0.3 + 4 · 0.2 + 5 · 0.2 = 3.2.
b) Mit dem Erwartungswert von X kann auch der Erwartungswert von Transformationen g(X) berechnet werden, da hier eine neue Zufallsvariable Y auf (Ω, A, P ) mit Y (ω) = g(X(ω)) zugrunde liegt.
Es gilt dann:
k
X
X
E(g(X)) =
g(X(ω))P ({ω}) =
g(xi )P X ({xi }).
a) Der Erwartungswert charakterisiert einen mittleren“ Wert, den Schwerpunkt“ der Verteilung.
”
”
Beispiel:
i
1
2
3
4
5
xi
1
2
3
4
5
P (xi ) 0.1 0.2 0.3 0.2 0.2
Bemerkung 3:
ω∈Ω
4
0.012
Definition 5: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann
heißt
k
X
X
E(X) =
X(ω)P ({ω}) =
xi P X ({xi })
Erwartungswert von X.
0
0.198
Abbildung 3: B(4, 13 )-Verteilung
k
P(X=k)
Beispielsweise die B(4, 13 )-Verteilung:
Bemerkung 2: Da die Verteilung P X einer Zufallsvariablen X auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) nur durch endlich viele Elementarereignisse beschrieben wird, kann sie häufig durch
ein Stabdiagramm übersichtlich dargestellt werden.
IA ist also B(1, P (A))-verteilt.
P IA ({0})
P IA ({1})
c) Für die Indikatorvariable gilt:
2. Endliche Wahrscheinlichkeitsräume
19
⇒
a ≤ E(X) ≤ b.
für alle α, β, γ ∈ R.
Ã
αE(X) + βE(Y ) + γ.
X(ω)P ({ω})
=
ω∈Ω
X
α
!
ω∈Ω
X
Y (ω)P ({ω})
!
+γ
ω∈Ω
X
P ({ω})
besitzt {ω ∈ Ω | X(ω) = xi } als Elementarereignisse für i = 1, . . . , k.
j=1
P (Xij ∈ Bij )
Satz 3:
Sei (Ω, A, P ) = (Ω1 , A1 , P1 ) × (Ω2 , A2 , P2 ) das Produkt zweier endlicher Wahrscheinlichkeitsräume. Sind X und Y Zufallsvariablen auf Ω, so daß X(ω1 , ω2 ) = ξ(ω1 ) und Y (ω1 , ω2 ) = η(ω2 )
für alle (ω1 , ω2 ) ∈ Ω, dann sind X und Y stochastisch unabhängig.
Der folgende Satz zeigt u.a. die stochastische Unabhängigkeit von Zufallsvariablen, die auf verschiedenen
Spielzügen bei Glücksspielen beruhen.
für alle Bi1 , . . . , Bik ∈ B, 1 ≤ i1 < . . . < ik ≤ n mit 2 ≤ k ≤ n.
P ({Xi1 ∈ Bi1 } ∩ . . . ∩ {Xik ∈ Bik }) =
k
Y
Die stochastische Unabhängigkeit entspricht somit der Eigenschaft
Definition 7: Seien X1 , . . . , Xn Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ),
so heißen X1 , . . . , Xn (stochastisch) unabhängig, wenn die von ihnen erzeugten σ-Algebren AX1 , . . . ,
AXn stochastisch unabhängig sind.
A
X
Definition 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ), so
heißt AX := X −1 (A) die von X erzeugte σ-Algebra auf Ω. (vgl. Beispiel von Satz 1.1.)
E(X) = E(Z1 + . . . + Zn ) = E(Z1 ) + . . . + E(Zn ) = n · p.
Bemerkung 4: Da eine B(n, p)-verteilte Zufallsvariable X genauso verteilt ist wie die Summe von n
B(1, p)-verteilten Zufallsvariablen Z1 , . . . , Zn , gilt:
Allgemein gilt für eine B(1, p)-verteilte Zufallsvariable X: E(X) = p.
+β
Ã
(αX(ω) + βY (ω) + γ)P ({ω})
ω∈Ω
=
=
X
xi P (X = xi ) ∈ [a, b], falls x1 , . . . , xk ∈ [a, b].
E(αX + βY + γ)
i=1
k
X
für alle A ∈ A.
c) E(IA ) = 0 · P (A) + 1 · P (A) = P (A).
b)
a) E(X) =
Beweis:
c) E(IA ) = P (A)
b) E(αX + βY + γ) = αE(X) + βE(Y ) + γ
a) a ≤ X ≤ b
Satz 2 (Eigenschaften von Erwartungswerten): Seien X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
2. Endliche Wahrscheinlichkeitsräume
=
=
(∗)
=
=
=
1
3
1
6
1
2
1
4
1
8
3
8
3
4
1
12
1
24
1
8
1
4
0
1
3
0
1
6
1
2
1
2
1
1
3
1
6
1
2
1
2
1
Hier gilt analog: P (X = 0, Y = 1) = 0 6= P (X = 0) · P (Y = 1) und außerdem Y = (3 − X) 2 .
0
0
0
0
j=9
P (X = i)
1
3
1
6
1
2
1
3
j=4
P (Y = j)
i=2
1
6
i=1
0
i=0
0
P (X = i, Y = j)
j=1
Hier gilt zum Beispiel: P (X = 0, Y = 2) = 0 6= 16 = P (X = 0) · P (Y = 2), also sind X und Y
abhängig. Es gilt sogar Y = 2 · (3 − X) und X = 3 − 12 Y . Jeder Wert von X bestimmt sich hier
eindeutig aus dem von Y und umgekehrt.
j=6
P (X = i)
1
3
1
6
1
2
0
1
6
1
3
0
P (Y = j)
i=2
j=4
i=1
0
i=0
0
P (X = i, Y = j)
j=2
1
P (Y = j)
i=1
i=0
Hier sind X und Y unabhängig.
j=6
P (X = i)
j=4
P (X = i, Y = j)
j=2
P (X ∈ B) · P (Y ∈ C).
P (ξ −1 (B) × Ω2 ) · P (Ω1 × η −1 (C))
P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B} ∩ {(ω1 , ω2 ) | η(ω2 ) ∈ C})
P ({ξ −1 (B) × Ω2 } ∩ {Ω1 × η −1 (C)})
P ({(ω1 , ω2 ) | ξ(ω1 ) ∈ B, η(ω2 ) ∈ C})
20
das absolute k-te Moment von X,
das zentrale k-te Moment von X.
i=1
i
i
p
Var(X)
a) Die Standardabweichung gibt einen mittleren“ Abstand von µ an, allerdings werden durch Qua”
drieren und Wurzelziehen die größeren Abstände etwas stärker berücksichtigt:
p
E((X − E(X))2 )
σ(X) =
v
u k
uX
= t (x − µ)2 P (X = x ).
Bemerkung 5:
Das zweite zentrale Moment von X heißt Varianz von X: Var(X) = E((X − E(X))2 ). σ(X) =
heißt auch Standardabweichung von X.
E(|X|k )
E((X − µ)k )
Definition 8: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ) mit
µ = E(X). Dann heißt für k ∈ N
c)
b)
a)
Beispiele:
(∗): Eigenschaft des Produktmaßes
P (X ∈ B, Y ∈ C)
Beweis: Seien B, C ∈ B. Dann folgt:
2. Endliche Wahrscheinlichkeitsräume
21
E((αX + β − E(αX + β))2 )
α2 Var(X).
=
= E((α(X − E(X)) + β − β)2 )
= α2 E((X − E(X))2 )
=
1
3
+4·
1
3
+
4
6
+
9
2
=
11
2
1
1
13
6 +6· 2 = 3
1
1
3 +1·4· 6 +0
·6·
1
2
= 2 6= E(X) · E(Y )
= E((X − E(X)) · (Y − E(Y )))
= E(X · Y ) − E(X) · E(Y )
Var(X) · Var(Y )
29
9
29
29
36
53
4
%(X, Y ) ≈ −0.9948
Var(Y ) =
Var(X) =
c) Cov(X, Y ) = − 13
4
36 · 9
−
%(X, Y ) = √ 291829 = −1
Var(Y ) =
a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0 und %(X, Y ) = 0.
29
b) Cov(X, Y ) = 2 − 56 · 13
3 = − 18
¡ ¢2
Var(X) = E(X 2 ) − (E(X))2 = 02 · 12 + 12 · 16 + 22 · 13 − 56 = 29
36
Beispiele (Fortsetzung):
als Korrelation von X und Y bezeichnet.
%(X, Y ) = p
Cov(X, Y )
definiert. Falls außerdem Var(X) · Var(Y ) 6= 0 gilt, wird
Cov(X, Y )
Definition 9: Sind X und Y Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ).
Dann ist die Kovarianz von X und Y durch
E(X · Y ) = 2 · 1 · 13 + 1 · 4 · 14 = 43 6= E(X) · E(Y )
d) Ein Beispiel mit E(X · Y ) = E(X) · E(Y ), obwohl X und Y abhängig sind, befindet sich auf
Übungsblatt 5 (Aufgabe 5).
E(Y ) =
E(X · Y ) = 2 · 2 ·
c) E(X) = 56
E(Y ) = 2 ·
a) Da die Zufallsvariablen unabhängig sind, folgt: E(X · Y ) = E(X) · E(Y ).
b) E(X) = 0 · 12 + 1 · 16 + 2 · 13 = 56
Beispiele (Fortsetzung):
Beweis: ,→ Übung.
Satz 4: Es seien X und Y stochastisch unabhängige Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt: E(X · Y ) = E(X) · E(Y ).
ii) σ(αX + β) = |α| σ(X).
2
Var(αX + β)
b) Sei Var(X) = σ 2 ∈ [0, ∞). Dann gilt für alle α, β ∈ R:
i) Var(αX + β) = α2 Var(X).
Beweis:
2. Endliche Wahrscheinlichkeitsräume
22
∈ R.
11 Hermann
10 Augustin
=
=
=
p
Cov(αX + β, γY + δ)
Var(αX + β)Var(γY + δ)
αCov(X, γY + δ)
= p
α2 Var(X)γ 2 Var(Y )
αγCov(X, Y )
p
=
αγ Var(X)Var(Y )
= ±%(X, Y ).
=
E((α(X − E(X)) + β(Y − E(Y ))) · (Z − E(Z)))
α · Cov(X, Z) + β · Cov(Y, Z).
E((αX + βY + γ − E(αX + βY + γ)) · (Z − E(Z)))
%(αX + β, γY + δ)
Louis Cauchy (1789-1857)
Schwarz (1843-1921)
f) Es gilt:
E(Y )
= E((X − E(X))2 + 2(X − E(X))(Y − E(Y )) + (Y − E(Y ))2 )
= Var(X) + 2Cov(X, Y ) + Var(Y ).
= E((X + Y − E(X + Y ))2 )
= E(((X − E(X)) + (Y − E(Y )))2 )
Cov(αX + βY + γ, Z)
e) Es gilt für α, β, γ ∈ R:
Var(X + Y )
c) Cov(X, X) = E((X − E(X))2 ) = Var(X).
d) Es gilt:
E(X·Y )
E(Y 2 )
=
E(Y 2 ) · E(X 2 ) − (E(X · Y ))2
p
E(X·Y )
zu ii) (E(X · Y ))2 = E(Y 2 ) · E(X 2 ), falls E(Y 2 )X = √
Y . Also X = αY mit α =
2
a) Klar. Gegenbeispiel: Übungsblatt 5, Aufgabe 5.
b) Zunächst Nachweis der Cauchy10 -Schwarz11 -Ungleichung für Erwartungswerte:
i) (E(X · Y ))2 ≤ E(X 2 ) · E(Y 2 ),
ii) (E(X · Y ))2 = E(X 2 ) · E(Y 2 ) genau dann, wenn X = αY oder Y = αX für ein α ∈ R.
zu i) Sei E(Y 2 ) = 0. Dann folgt: P (Y = 0) = 1 und damit (E(X · Y ))2 = 0 = E(X 2 ) · E(Y 2 ).
Sei also E(Y 2 ) > 0. Dann gilt:
Ã
!2 
p
E(X · Y )
2

E(Y ) · X − p
·Y 
0 ≤ E
E(Y 2 )
µ
¶
(E(X · Y ))2
= E(E(Y 2 ) · X 2 ) − 2E(E(X · Y ) · X · Y ) + E
·Y2
2
E(Y )
(E(X · Y ))2
2
2
= E(Y ) · E(X ) − 2E(X · Y ) · E(X · Y ) +
· E(Y 2 )
E(Y 2 )
Beweis:
f) |%(αX + β, γY + δ)| = |%(X, Y )| für alle α, β, γ, δ ∈ R mit α · γ 6= 0.
e) Cov(αX + βY + γ, Z) = α · Cov(X, Z) + β · Cov(Y, Z) für alle α, β, γ ∈ R.
d) Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X, Y ).
c) Cov(X, X) = Var(X).
b) |%(X, Y )| ≤ 1 und |%(X, Y )| = 1 genau dann, wenn Y = αX + β oder X = αY + β für geeignete α,
β ∈ R.
a) Sind X und Y unabhängig, so folgt: Cov(X, Y ) = 0, aber nicht umgekehrt.
Satz 5: Seien X, Y und Z Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
1
E((X − E(X))2 ).
ε2
n Xn
¡1
¢
=
≤
=
=
≤
Satz 6
=
Folgende Ungleichung gilt dann für alle ε > 0:
lim
n→∞
Var(Sn )
ε2
1
p(1
− p)
lim n
n→∞
ε2
0.
lim P (|Sn − p| ≥ ε)
n→∞
1
n p(1−p).
= n · (p − p2 )
= n · p · (1 − p).
1
n2 Var(Xn )
0
Var(Y1 + . . . + Yn )
= n · Var(Y1 )
= n · E(E(Y12 ) − (E(Y1 ))2 )
=
13
max
= 0.
13 James
Tschebyscheff (1821-1894)
Stirling (1692-1770)
12 Pafnuty
√
¡ ¢n
a) Wir verwenden die Stirlingsche Formel : n! = 2πn ne e%(n) mit
Beweis:
lim
√ |rn (kn )|
n→∞ |kn −µn |≤αn n
1
12n+1
< %(n) <
1
12n .
Nun
mit µn = n · p = E(Xn ), σn2 = np(1 − p) = Var(Xn ) (Glockenkurve der Normal- oder Gauß-Verteilung),
1
wobei für eine Folge {αn } mit αn · n− 6 → 0, αn > 0, gilt:
1 kn −µn 2
1
P (Xn = kn ) = p
· e− 2 ( σn ) · (1 + rn (kn ))
2πσn2
Satz 8: Sei {Xn }n∈N eine Folge von B(n, p)-verteilten Zufallsvariablen mit 0 < p < 1. Dann gilt:
Also: Var(Sn ) = Var
Var(Xn )
Beweis: Es gelte E(Xn ) = n · p und damit E(Sn ) = p. Xn ist verteilt wie die Summe von n
unabhängigen B(1, p)-verteilten Zufallsvariablen Y1 , . . . , Yn . Damit gilt:
n→∞
Satz 7 (Schwaches Gesetz der großen Zahlen): Sei {Xn } mit Xn ∼ B(n, p) eine Folge von
Zufallsvariablen auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt für Sn = n1 Xn und
alle ε > 0:
lim P (|Sn − p| ≥ ε) = 0.
P (|X − E(X)| ≥ ε) ≤
Satz 6: Sei X eine Zufallsvariable auf einem endlichen Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt
für jedes ε > 0 die Tschebyscheffsche Ungleichung 12 :
Ist X B(n, p)-verteilt, so entspricht X der Anzahl, wie oft bei n Wiederholungen ein Ereignis eingetreten
ist. Sn = n1 X entspricht der relativen Häufigkeit für das Eintreten des Ereignisses. Eine Beobachtung entspricht der relativen Häufigkeit für eine Meßreihe. Wir erwarten, daß Sn für n → ∞ gegen p
konvergiert“.
”
2.2. Grenzwertsätze zur Binomialverteilung
23
=
g 000 (t)
=
=
g 00 (p)
1
(1−t)2
t2 −(1−t)2
2
t (1−t)2
− t12 +
+
1
1−t
1
t(1−t)
1
p(1−p)
1
t
= ln t + t 1t − ln p − ln(1 − t) − 1−t
1−t + ln(1 − p)
= ln t − ln p − ln(1 − t) + ln(1 − p)
= 0
= t ln t − t ln p + (1 − t) ln(1 − t) − (1 − t) ln(1 − p)
= 0
=
=
=
g 00 (t)
g 0 (p)
g 0 (t)
g(p)
1−
1−
=
1−
=
=
=
s
− 12
µ
kn
n
p
·
n−kn
n
1−p
·e
1
2
µ
np(1−p)
1
n |kn
− np| ≤
√
αn n
n
=
αn
√
,
n
1
1
2p(1−p)
2
e−n
6
( knn −p)
3
e
.
24
g 000 (ξkn ) %(n)−%(kn )−%(n−kn )
) e%(n)−%(kn )−%(n−kn )
αn
n
− (1 − p)| = | knn − p| ≤ √
= α n n− 6 n− 3 ,
ii) | n−k
n
n
√
1
1
iii) kn ≥ np − αn n = n(p − αn n− 6 n− 3 ) und
√
1
1
iv) n − kn ≥ n − (np + αn n) = n(1 − p − αn n− 6 n− 3 ).
i) | knn − p| ≤
kn
n
( knn −p)
e−ng(
e−n
¶2
¶2
np(1−p)
√kn −np
¶2
√kn −np
µ
np(1−p)
√kn −np
2πnp(1 − p) 12
·e
n
2πn knn n−k
n
·e
P (Xn = kn )
1
2πnp(1−p)
s
1
(t − p)3 000
(t − p)2
·
+
· g (ξt )
2
p(1 − p)
6
2
3
(t − p)
(t − p)
+
· g 000 (ξt ).
2p(1 − p)
6
= 0 + (t − p) · 0 +
Betrachte folgende vier Ungleichungen:
rn (kn )
c) Aus a) und b) folgt:
g(t)
g 000 ist also für jedes δ > 0 auf (δ, 1 − δ) beschränkt. Somit gilt für die Taylorentwicklung:
=⇒
=⇒
=⇒
b) Wir führen eine Taylorentwicklung von g um den Punkt t0 = p durch:
µ³ ´ ³
´1−t ¶
t
t
1−t
g(t) = ln
p
1−p
P (Xn = kn )
n!
pkn (1 − p)n−kn
kn !(n − kn )!
√
¡ ¢kn ¡ n ¢n−kn %(n)
2πn ne
e
e
= √
pkn (1 − p)n−kn
p
¡ ¢kn ¡ n−k ¢n−kn
n
2πkn 2π(n − kn ) ken
e%(kn ) e%(n−kn )
e
"µ ¶ kn µ
#n
n
¶ n−k
n
1
np n n(1 − p)
= q
e%(n)−%(kn )−%(n−kn )
kn
n − kn
n
2πn knn n−k
n
|
{z
}
k
−ng ( n )
n
e
µ
¶
¡ ¢t ³ 1−p ´1−t
mit g(t) = − ln pt
.
1−t
√
√
folgt für µn − αn n ≤ kn ≤ µn + αn n:
2. Endliche Wahrscheinlichkeitsräume
→
0
2. Endliche Wahrscheinlichkeitsräume
14
=
=
k+ 12
p
!
1 k−µn 2
1
p
e− 2 ( σn ) (1 + rn (k)).
2πσn2
k− 12
1 k−µn 2
1
e− 2 ( σn ) dt (1 + rn (k))
2πσn2
"Z
#
k+ 12
1 t−µn 2
1
p
e− 2 ( σn ) dt (1 + rn (k))
2πσn2
k− 12
³
´


Z k+ 12 −(t − k) ξt −µn 1
σn
σn − 1 ( ξt −µn )2

2
σ
n
p
+
e
dt (1 + rn (k))
2πσn2
k− 12
ÃZ
k=An
Bn
X
≤ µn + bσn − µn + aσn + 1
p
np(1 − p)(b − a) + 1.
=
15 Wir
de Moivre (1667-1754)
2 )-Verteilung:
approximieren die Verteilungsfunktion von Xn durch die Verteilungsfunktion einer N (µ, σn
µ
¶
An − µ n
Xn − µ n
Bn − µn
≤
≤
P (An ≤ Xn ≤ Bn ) = P
σn
σn
σn
¶
µ
¶
µ
An − 0.5 − µn
Bn + 0.5 − µn
−Φ
≈ Φ
σn
σn
für An , Bn ∈ Z.
Bn − A n + 1
mit ξt ∈ [k − 12 , k + 12 ] für t ∈ [k − 12 , k + 12 ] und
1 k−µn 2
1
p
e− 2 ( σn ) (1 + rn (k))
2πσn2
Dabei gilt:
=
wobei An die kleinste ganze Zahl ist, die größer oder gleich µn + aσn ist, und Bn die größte ganze
Zahl, die kleiner oder gleich µn + bσn ist.
1
Sei√{αn } eine Folge mit αn > 0 und αn n− 6 → 0. Gelte weiterhin An , Bn ∈ {kn ∈ Z | |kn − µn | ≤
αn n}, so können wir Satz 8 anwenden:
µ
¶
Xn − µ n
P a≤
≤b
= P (An ≤ Xn ≤ Bn )
σn
Satz 9 (Grenzwertsatz von de Moivre und Laplace): Sei {Xn }n∈N eine Folge von B(n, p)verteilten Zufallsvariablen mit 0 < p < 1. Dann folgt für a, b ∈ R, a < b, mit µn = np und σn =
p
np(1 − p):
µ
¶
Xn − µ n
lim P a ≤
≤ b = Φ(b) − Φ(a),
n→∞
σn
Z x
1 2
1
√ e− 2 t dt für x ∈ R die Verteilungsfunktion einer N (0, 1)-Verteilung angibt.15
wobei Φ(x) =
2π
−∞
Beweis:
¶
µ
Xn − µ n
≤b
= P (µn + aσn ≤ Xn ≤ µn + bσn )
P a≤
σn
= P (An ≤ Xn ≤ Bn ),
Daraus folgt die Behauptung.
(gleichmäßig).
→0
Die rechte Seite von i) und ii) konvergiert gleichmäßig gegen 0, die von iii) und iv) gleichmäßig
gegen ∞. Außerdem gilt:
¯
¯ ¡
¢3
kn
¯
³
´¯
´¯
−p
1 3 − 3 ¯¯ 000 ³
¯
¯
¯
ξ kn ¯
· g 000 ξ kn ¯ ≤
nαn n 2 ¯g
¯−n n
n
n
¯
¯
6
6
´3 ¯ ³
´¯
1
1³
¯
¯
αn n− 6 ¯g 000 ξ kn ¯
=
n
6 | {z }
14 Abraham
25
k=An
Bn Z
X
k− 12
k+ 12
p
1 t−µn 2
1
e− 2 ( σn ) dt
2πσn2
=
≤
1
Z
−∞
∞
1 t−µn 2
1
p
e− 2 ( σn ) dt
2πσn2
√
ξt −µn 1
σn
σn
2
2πσn
−(t−k)
:
2
µ
a≤
=
=
=
=
p
Bn + 1 −µn
2
σn
An − 12
Bn − 12
k− 12
p
1 t−µn 2
1
e− 2 ( σn ) dt + Rn
2πσn2
1 t−µn 2
1
e− 2 ( σn ) dt + Rn
2πσn2
k+ 12
An − 1 −µn
2
σn
1 2
1
√ e− 2 s ds + Rn
2π
µ
¶
µ
¶
Bn + 12 − µn
An − 12 − µn
Φ
−Φ
+ Rn .
σn
σn
Z
Z
k=An
Bn Z
X
k=0
16 Siméon
Denis Poisson (1781-1840)
Die bisherigen Grenzwertaussagen untersuchten die Konvergenz der Verteilungsfunktion bzw. von einzelnen Wahrscheinlichkeiten, nicht aber eine punktweise oder gleichmäßige Konvergenz der Zufallsvariablen
Hinweis: Ist p nahe an 0 oder 1, so läßt sich die Binomialverteilung besser durch eine Poisson- statt
einer Normalverteilung approximieren.
k=0
Satz 10: Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ B(1, pi ) für i = 1, . . . , n. Dann
folgt für λ = p1 + . . . + pn :
¯
∞ ¯
n
k¯
X
X
¯
¯P (X1 + . . . + Xn = k) − e−λ λ ¯ ≤ 2
p2k .
¯
¯
k!
k
Bn + 12 − µn
An − 12 − µn
= b, lim
= a gilt, folgt die Behauptung.
n→∞
σn
σn
¶
k+ 12
26
Definition 10: Eine Verteilung auf (R, B) mit P ({k}) = e−λ λk! für alle k ∈ Z, k ≥ 0 und ein λ > 0
heißt Poisson16 -Verteilung.
n→∞
Xn − µ n
≤b
σn
Da Φ stetig ist und lim
P
t−µn
σn :
0.
n→∞
=
1
ÃZ
lim αn n− 2
n→∞
Bn
X
¯
¯!
¯ ξt − µ n ¯
¯
¯
¯ σ 3 ¯ (1 + rn (k))
n→∞
k− 12
n
k=An
¡
¢
√
lim (σn (b − a) + 1)αn nσn−3
lim
=
≤
≤
Also ergibt sich mit einer Nullfolge Rn und der Substitution s =
k=An
¯
¯ B Z
n
¯
¯X
k+ 12
1 ξt −µn 2
¯
¯
Γe− 2 ( σn ) dt · (1 + rn (k))¯
lim ¯
n→∞ ¯
¯
k− 1
gegen 0. Außerdem folgt mit Γ :=
gilt, und die Summanden jeweils nicht negativ sind, konvergiert
!
!
ÃZ
ÃZ
Bn
Bn
k+ 12
k+ 12
X
X
1 t−µn 2
1 t−µn 2
1
1
p
p
e− 2 ( σn ) dt (1 + rn (k)) −
e− 2 ( σn ) dt
2πσn2
2πσn2
k− 12
k− 12
k=An
k=An
Da
2. Endliche Wahrscheinlichkeitsräume
P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ).
A∞ = σ({A1 × . . . × An × Ωn+1 × . . . | n ∈ N, Ai ∈ Ωi })
Beweis: Auf den Beweis verzichten wir hier, da wir diesen Satz später allgemeiner beweisen werden.
Satz 11 (Starkes Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen): Sei
{Xn } eine Folge unabhängiger B(1, p)-verteilter Zufallsvariablen. Dann gilt für die B(n, p)-verteilten
Zufallsvariablen Yn = X1 + . . . + Xn die folgende starke Konvergenz:
µ
¶
Yn
= p = 1.
P∞ lim
n→∞ n
Dies liefert eine σ-additive Mengenfunktion P∞ auf der durch {A1 × . . . × An × Ωn+1 × . . .} definierten
Algebra, so daß der Maßfortsetzungssatz 1.3. ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P ∞ auf
(Ω∞ , A∞ ) ergibt.
und
Wir definieren also:
P∞ (A1 × . . . × An × Ωn+1 × . . .) = P1 (A1 ) · . . . · Pn (An ).
mit Ai ∈ Ai ∈ 2Ω für jedes n ∈ N und
A1 × . . . × An × Ωn+1 × . . . ∈ A∞
Gegeben seien endliche
Q∞ Wahrscheinlichkeitsräume (Ωn , An , Pn ) mit n ∈ N. Für einen Produktraum
wählen wir Ω∞ = n=1 Ωn als Ergebnis- bzw. Ereignisräume, d.h. Elemente von Ω∞ sind Folgen
{ωn }n∈N mit ωn ∈ Ωn . Zur Definition eines Produktmaßes und A∞ sollte mindestens gelten:
selber. Um hierüber Aussagen zu erhalten, benötigen wir ein Wahrscheinlichkeitsmaß für Folgen von
Zufallsvariablen.
2. Endliche Wahrscheinlichkeitsräume
⇒
⇒
X −1 (B) ∈ Bd
X −1 (B) ∈ Bd
28
⇒“:
”
⇐“:
”
n∈N
n∈N
n∈N
klar, da (−∞, t] ∈ B für t ∈ R.
Dies folgt direkt aus B = σ({(−∞, t] | t ∈ R}). Sei nämlich E = {B ∈ B | X −1 (B) ∈
A}, so folgt (−∞, t] ∈ E für alle t ∈ R. Außerdem ist E eine σ-Algebra. Also folgt
E = B.
a) Alle offenen Mengen sind in E enthalten:
Sei O ∈ R eine offene Menge, dann folgt aus der Stetigkeit von X, daß X −1 (O) auch offen in Rd
ist, d.h. X −1 (O) ∈ Bd . Also gilt: O ∈ E.
Beweis: Wir betrachten das Mengensystem E = {B ∈ B | X −1 (B) ∈ Bd }, welches System der lieben
”
Mengen“ genannt wird, und zeigen, daß E alle Borelmengen umfaßt.
Bemerkung: Für einen Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = Rd und A = Bd ist jede stetige
Funktion X : Rd → R eine Zufallsvariable.
b) Gegeben sei ein Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = [0, 1] und A = {∅, [0, 12 ], ( 12 , 1], Ω}. Eine
Abbildung X : [0, 1] → R mit X(ω) = ω ist keine Zufallsvariable auf ([0, 1], A, P ), da X −1 ([0, 14 ]) =
[0, 14 ] ∈
/ A, obwohl [0, 14 ] ∈ B erfüllt ist.
a) Eine Zufallsvariable X auf einem endlichen Wahrscheinlichkeitsraum ist eine Zufallsvariable im Sinne
von Definition 11, da offensichtlich X −1 (B) ⊂ Ω und X −1 (B) ∈ 2Ω für alle B ∈ B gilt.
t→∞
a)
i) Sei t < s. Dann gilt: F (t) = P ((−∞, t]) ≤ P ((−∞, s]) = F (s).
Beweis:
b) Ist umgekehrt F : R → [0, 1] eine Funktion mit den Eigenschaften i), ii) und iii), so gibt es genau
ein Wahrscheinlichkeitsmaß P auf (R, B) mit der Verteilungsfunktion F .
t→−∞
i) F ist monoton und nicht fallend.
ii) F ist rechtsseitig stetig.
iii) lim F (t) = 0 und lim F (t) = 1.
a) Dann hat die Verteilungsfunktion F von P folgende Eigenschaften:
Satz 13: Gegeben sei eine Verteilung P auf (R, B).
c) Die Verteilungsfunktion F : R → R des Bildmaßes P X , d.h. F (t) = P X ((−∞, t]) = P (X ≤ t) für
t ∈ R, heißt auch Verteilungsfunktion von X.
Beispiele:
b) σ(X) = AX := {X −1 (B) | B ∈ B} ⊂ A heißt die von X erzeugte σ-Algebra auf Ω.
a) Das Bildmaß P X auf (R, B) mit P X (B) = P (X −1 (B)) für alle B ∈ B heißt Verteilung von X.
Definition 12: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
b) ,→ Übung.
a)
Beweis:
n∈N
lim inf Xn und lim sup Zufallsvariablen auf (Ω, A, P ).
b) Sind {Xn }n∈N mit Xn : Ω → R eine Folge von Zufallsvariablen, so sind auch sup Xn , inf Xn ,
a) X : Ω → R ist genau dann eine Zufallsvariable, wenn X −1 ((−∞, t]) ∈ A für alle t ∈ R.
Satz 12: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Dann gilt:
Hinweis zur Beweistechnik: Um zu zeigen, daß eine Eigenschaft für alle Elemente einer σ-Algebra
erfüllt ist, reicht es zu zeigen, daß die Eigenschaft für ein Erzeugendensystem erfüllt ist, und daß das
Mengensystem, das die Eigenschaft erfüllt, eine σ-Algebra ist.
S
Also: B ∈ E für alle n∈N An ∈ B.
c) B ist die kleinste, alle offenen Mengen von R umfassende σ-Algebra. E umfaßt laut Teil a) alle
offenen Mengen, und ist nach b) eine σ-Algebra. Also gilt: E ⊃ B bzw. E = B. X ist also eine
Zufallsvariable.
X −1 (B) ∈ Bd
X −1 (B) = X −1 (B) ∈ Bd
i) ∅ ∈ E, da X −1 (∅) = ∅ ∈ Bd gilt.
ii) Sei B ∈ E. Dann gilt:
b) E ist eine σ-Algebra:
2. Endliche Wahrscheinlichkeitsräume
Definition 11: Eine Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist eine Funktion
X : Ω → R, so daß X −1 (B) ∈ A für alle B ∈ B gilt. Diese Eigenschaft einer Funktion Ω nach R bezeichnet
man als Borel-meßbar bzw. A-B-meßbar.
Für die allgemeine Definition von Zufallsvariablen spielt der meßbare Raum (R, B) mit der Borelschen
σ-Algebra B eine wichtige Rolle. B kann durch die Menge der halboffenen Intervalle I 1 , aber auch durch
die Menge aller offenen Mengen oder durch die Menge der abgeschlossenen Mengen von R erzeugt werden.
Insbesondere enthält B auch alle einpunktigen Mengen {x}, x ∈ R, und alle abzählbaren Mengen (zum
Beispiel N, Z und Q) sind in B enthalten.
2.3. Zufallsvariablen und ihre Verteilungen auf allgemeinen Wahrscheinlichkeitsräumen
27
29
n→∞
=
=
Satz 1.2
=
=
lim P ((−∞, tn ])
n→∞
lim F (tn ).
n→∞
n∈N
P ((−∞, t])
Ã
!
\
P
(−∞, tn ]
n→∞
n∈N
t→−∞
n→∞
lim F (t) = P (∅) = 0. Analog folgt lim F (t) = P (R) = 1 für eine monoton
(−∞, tn ] = ∅.
n∈N
pn = 1 gilt.
n∈N
X
pn Ixn für eine Folge {xn } ⊂ R und
2πσ 2
b) Eine stetige Zufallsvariable mit Dichte f : R → [0, ∞) mit
½
λe−λx für x ≥ 0
f (x) =
0
sonst
x ∈ R (etwa Meßfehler X einer Waage).
Normalverteilungen eignen sich häufig zur Beschreibung von Meßgrößen, wenn eine homogene Population zugrunde liegt.
a) Eine Zufallsvariable mit der normalverteilten Verteilung P X und den Parametern µ und σ 2 heißt
1 x−µ 2
N (µ, σ 2 )-verteilt, ist stetig und besitzt als Dichte f : R → [0, ∞) mit f (x) = √ 1 e− 2 ( σ ) für
Beispiele für stetige Zufallsvariablen:
c) Eine Zufallsvariable X auf (Ω, A, P ), deren Verteilung poissonverteilt ist, heißt poissonverteilt und
ist diskret. Beispiel: Die Anzahl der Lackflecken auf der Karosserie eines frisch lackierten Autos oder
die Anzahl von seltenen Ereignissen, wie etwa die Anzahl Erkrankungen an einer seltenen Krankheit.
b) Zufallsvariablen, deren Verteilungen sich aus Laplacewahrscheinlichkeiten bestimmen, sind diskret,
etwa die Summe der Augenzahlen von drei Würfeln.
a) Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen sind diskret mit xn ∈ {X(ω) | ω ∈ Ω}, also
etwa binomialverteilte Zufallsvariablen, zum Beispiel die Anzahl der Studentinnen und Studenten,
die eine Klausur bestehen (bei Unabhängigkeitsannahme).
Beispiele für diskrete Zufallsvariablen:
läßt. Die Funktion f wird dann als Dichte zu P bezeichnet. Eine Zufallsvariable X heißt (absolut)
stetig, wenn die Verteilung von X (absolut) stetig ist.
−∞
b) Eine Verteilung P auf (R, B) heißt (absolut) stetig, wenn sich die Verteilungsfunktion F zu P in der
Z t
f (s) ds für alle t ∈ R mit einer nicht-negativen Funktion f : R → [0, ∞) schreiben
Form F (t) =
pn ∈ [0, 1] für n ∈ N mit
X
a) Eine Verteilung P auf (R, B) heißt diskret, falls P =
Definition 13:
wachsende Folge.
b) Da durch die Verteilungsfunktion eine σ-additive Mengenfunktion auf der Algebra I 1 der halboffenen Intervalle bestimmt wird, läßt sich mit dem Maßfortsetzungssatz 1.3 die Behauptung
zeigen.
Also folgt:
\
iii) Analog folgt mit Satz 1.2 für eine monoton fallende Folge {tn } mit lim tn = −∞:
F (t)
ii) Sei {tn } eine Folge mit lim tn = t und tn > tn+1 > t für alle n ∈ N und ein t ∈ R. Dann gilt:
2. Endliche Wahrscheinlichkeitsräume
½
1 − e−λx
0
für x ≥ 0
.
sonst
30
{n | xn >0}
X
Z
pn xn < ∞ oder
X
pn |xn | < ∞.
pn xn ∈ R ∪ {−∞, ∞},
X
n∈N
{n | xn <0}
E(X) =
−∞
|x|f (x) dx < ∞ oder
0
∞
xf (x) dx < ∞.
−∞
⇒
E(X) ≥ 0.
als Korrelation von X und Y .
%(X, Y ) = p
Var(X) · Var(Y )
Cov(X, Y )
e) Gilt außerdem 0 < Var(X) < ∞ und 0 < Var(Y ) < ∞, so bezeichnen wir
d) Cov(X, Y ) = E((X − E(X)) · (Y − E(Y ))) als Kovarianz von X und Y .
c) Var(X) = E((X − E(X))2 ) als Varianz von X und
b) E((X − E(X))k ) für k ≥ 1 als k-tes zentrales Moment von X,
a) E(|X|k ) für k ≥ 1 als k-tes absolutes Moment von X,
Definition 15: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Wenn
die folgenden Erwartungswerte existieren, bezeichnen wir
Beweis: a), b) und c) folgen direkt aus der Definition.
c) E(IA ) = P (A) für alle A ∈ A.
b) Falls E(X) und E(Y ) endlich sind, folgt für α, β, γ ∈ R: E(αX + βY + γ) = αE(X) + βE(Y ) + γ.
a) X ≥ 0
Bemerkung: Sind X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
Analog zu Zufallsvariablen auf endlichen Wahrscheinlichkeitsräumen gibt der Erwartungswert die Mitte“
”
bzw. den Schwerpunkt“ der Verteilung an.
”
falls
0
b) Ist X stetig und die Dichte f gegeben, so definieren wir den Erwartungswert von X über
Z ∞
E(X) =
xf (x) dx ∈ R ∪ {−∞, ∞},
Z
falls entweder
n∈N
Definition 14: X sei eine diskrete oder stetige Zufallsvariable auf einem Wahrscheinlichkeitsraum.
X
a) Ist X diskret mit P X =
pn Ixn , so definieren wir den Erwartungswert von X über
für a, b ∈ R mit a < b heißt gleichverteilt auf [a, b].
Die Wartezeit an einer Bushaltestelle bei unbekanntem Fahrplan ist gleichverteilt in [0, 20], wenn
der Bus eigentlich alle 20 Minuten kommt.
c) Eine stetige Zufallsvariable X mit Dichte f : R → [0, ∞) mit
½ 1
für x ∈ [a, b]
b−a
f (x) =
0
sonst
Die Exponentialverteilung eignet sich beispielsweise für die Lebensdauer eines Gerätes oder für die
Ankunftszwischenzeiten bei Warteschlangen (konstante Ausfallrate, konstante Ankunftsrate).
F (x) =
heißt exponentialverteilt, und es gilt:
2. Endliche Wahrscheinlichkeitsräume
31
}i∈I
=
=
{σ(Xi )}i∈I
{{Xi−1 (B) | B ∈ B}}i∈I
P (Xi ∈ Bi
i∈I0
∀ i ∈ I0 ) =
i∈I0
Y
i∈I0
P (Xi ∈ Bi ).
i=1
P (Xi = xiji )
−∞
i=1
n
Y
F (ti )
B
i=1
n
Y
=
=
=
·... ·
xn jn ∈Bn
X
xn jn ∈Bn
X

{Xn = xnjn }
¡
¢
¡
¢
P X1 = x1j1 · . . . · P Xn = xnjn
xn jn ∈B1
[
P (Xi ∈ Bi ), insbesondere
¡
¢
P (X1 = x1j1 ) ∩ . . . ∩ (Xn = xnjn )
P (X1 ∈ B1 ) · . . . · P (Xn ∈ Bn ).
x1j1 ∈B1
X
·... ·
x1j1 ∈B1
x1j1 ∈B1
X
für Bi = {xiji } gilt. Für die Rückrichtung gilt:



[
P (X1 ∈ B1 , . . . , Xn ∈ Bn ) = P 
{X1 = x1j1 } ∩ . . . ∩ 
a) Die Hinrichtung ist offensichtlich, da P (X1 ∈ B1 , . . . , Xn ∈ Bn ) =
Beweis:
mengen B.
für alle t1 , . . . , tn ∈ R.
Z
Z
ii) wenn P (X1 ∈ B1 , . . . , Xn ∈ Bn ) =
···
f1 (x1 ) · · · fn (xn ) dxn · · · dx1 für B1 , . . . , Bn ∈ B.
B1
Bn
Z
iii) wenn P ((X1 , . . . , Xn ) ∈ B) =
f1 (x1 ) · · · fn (xn ) d(x1 , . . . , xn ) für alle n-dimensionalen Borel-
F (t1 , . . . , tn ) =
−∞
für alle j1 ∈ I1 , . . . , jn ∈ In .
b) Sind X1 , . . . , Xn alle stetig mit Dichten f1 , . . . , fn , so sind X1 , . . . , Xn stochastisch unabhängig
genau dann,
Z t1
Z tn
i) wenn P (X1 ≤ t1 , . . . , Xn ≤ tn ) =
···
f1 (x1 ) · · · fn (xn ) dxn · · · dx1 bzw.
P (X1 = x1j1 , . . . , Xn = xnjn ) =
n
Y
a) Sind X1 , . . . , Xn alle diskret mit Werten (x1j1 )j1 ∈I1 , . . . , (xnjn )jn ∈In , so sind X1 , . . . , Xn stochastisch unabhängig genau dann, wenn
Satz 14: X1 , . . . , Xn seien Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
bzw.
der erzeugten σ-Algebren stochastisch unabhängig ist, d.h. falls für alle endlichen I0 ⊂ I und für alle
Bi ∈ B (i ∈ I0 ) gilt:
!
Ã
Y
\
Xi−1 (Bi ) =
P (Xi−1 (Bi ))
P
{A
Xi
Definition 16: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei {Xi }i∈I eine Familie von Zufallsvariablen auf (Ω, A, P ). Dann heißen {Xi }i∈I (stochastisch) unabhängig, falls die Familie
Beweis: Diese Eigenschaft folgt analog zum Nachweis für endliche Wahrscheinlichkeitsräume.
Var(αX + βY + γ) = α2 Var(X) + β 2 Var(Y ) + 2αβCov(X, Y ).
Bemerkung: Sind X und Y Zufallsvariablen auf (Ω, A, P ) mit endlichem Erwartungswert und Varianz,
so folgt für alle α, β, γ ∈ R:
2. Endliche Wahrscheinlichkeitsräume
32
i=1
i=1
n
X
E
E
Z
S dµ =
i=1
n
X
αi µ(E ∩ Ai )
αi IAi und E ∈ A sei
n→∞
Ω
=:S1
=:S2
{S | 0 ≤ S ≤ f, S einfach} ⊂ {S | 0 ≤ S ≤ g, S einfach} .
{z
} |
{z
}
|
Beweis: b) bis e) gelten offensichtlich für einfache Funktionen, somit auch allgemein. Wir zeigen
folglich nur a). Es gilt:
E
Satz 16: Seien f und g Borel-meßbare Funktion von Ω nach R. Dann folgt für Ereignisse A, B, E ∈ A:
Z
Z
f dµ ≤
g dµ.
a) 0 ≤ f ≤ g ⇒ 0 ≤
E
E
Z
Z
b) A ⊂ B, f ≥ 0 ⇒
f dµ ≤
f dµ.
A
B
Z
Z
αf dµ = α
f dµ.
c) f ≥ 0, α ∈ [0, ∞) ⇒
E
E
Z
d) f (ω) = 0 für alle ω ∈ Ω. ⇒
f dµ = 0.
E
Z
Z
e) f ≥ 0 ⇒
f dµ =
f · IE dµ.
das µ-Integral von f über E.
E
b) Sei f : Ω → [0, ∞) meßbar. Dann ist für E ∈ A
½Z
¾
Z
¯
f dµ = sup
S dµ ¯ 0 ≤ S ≤ f, S einfache Funktion
das µ-Integral von S über E.
a) Für eine einfache Funktion S =
Definition 18:
Beweis: ,→ Übungsaufgabe 2 auf Blatt 7.
Satz 15: Sei f : Ω → [0, ∞) eine Borel-meßbare Funktion. Dann gibt es eine Folge von einfachen
Funktionen {Sn }n∈N mit 0 ≤ S1 ≤ S2 ≤ . . . ≤ f und lim Sn (x) = f (x) für alle x ∈ R.
eine einfache Funktion auf Ω (vgl. Blatt 7, Aufgabe 2).
Definition 17: Seien α1 , . . . , αn ∈ [0, ∞) und A1 , . . . , An ∈ A mit αi 6= αj und Ai ∩ Aj = ∅ für i 6= j.
Dann heißt S : Ω → R mit
n
X
α i I Ai
S=
Sei im folgenden (Ω, A, µ) ein Maßraum.
2.4. Einführung in die Integrationstheorie
b) Es gilt offensichtlich: iii) ⇒ ii) ⇒ i). Gilt jedoch i), so folgt nach dem Maßfortsetzungssatz Satz
1.3, daß ein Maß durch die Werte auf (−∞, t1 ] × . . . × (−∞, tn ], und somit I n , eindeutig festgelegt
wird, und es folgt iii).
2. Endliche Wahrscheinlichkeitsräume
f.
Ω
E
Z
Z
f dµ
=
≤
=
sup
Z
E
S dµ
Ω
E
Ω
sup
S dµ
E
Z
g dµ.
S∈ S2
S∈S1
Z
2. Endliche Wahrscheinlichkeitsräume
α i I Ai , t =
j=1
m
X
Ai =
j=1
m
[
Ω
(s + t) dµ
=
=
=
=
=
=
i) %(E) ≥ 0 für alle E ∈ A.
ii)
Z
Z
Ω

B
Z
=
=
=
t dµ.
j=1
0.
i=1
j=1
m
X
i=1
n
X
ÃÃ
i=1
n
[
Ai
µ(Ai ∩ Bj )
βj µ
αi µ(∅ ∩ Ai )
s dµ
n
X
∅
βj µ(Bj )
Z
βj
B j  +

j=1
m
X
∩ Bj
!
f (x) dx für eine stetige Wahrscheinlichkeitsverteilung P mit Dichte
%(∅)
Ω
Z
αi µ(Ai ) +
m
X
j=1
m
[
µ(Ai ∩ Bj ) +
αi µ  Ai ∩ 

j=1
m
X
s dµ +
i=1
n
X
i=1
n
X
i=1
αi
i=1 j=1
n
X
(αi + βj )IAi ∩Bj dµ
(αi + βj )µ(Ai ∩ Bj )
Ω i=1 j=1
n X
m
X
Z X
m
n X
!
Bj = Ω. Dann ist
{Ai ∩ Bj | i = 1, . . . , n, j = 1, . . . , m}
i=1
n
[
s dµ für alle E ∈ A und einer einfachen Funktion s ist ein
βj IBj und gelte o.B.d.A.
b) ist die Übertragung der Darstellung P (B) =
b)
i=1
n
X
E
eine Zerlegung von Ω mit paarweise disjunkten Mengen. Es gilt:
a) Sei s =
Beweis:
Maß auf (Ω, A).17
b) Die Abbildung % : A → R mit %(E) =
a) Seien s und t einfache Funktionen. Dann folgt:
Z
Z
Z
(s + t) dµ =
s dµ +
t dµ.
Satz 17:
Daraus folgt:
17 Teil
33
=
=
σ−Additivität von µ
i=1
k∈N
X
k∈N
αi µ(Ai ∩ Ek )
E
%(Ek ).
k∈N i=1
n
XX
34
αi IAi gilt:
Z
R
s dλ =
i=1
n
X
αi λ(Ai ).
Ω
Ω
Ω
Ω
n→∞
Ω
0 ≤ αs(ω) ≤ f (ω) = 0
n∈N
einfache Funktion mit 0 ≤ s ≤ f und sei α ∈ [0, 1). Definiere En := {ω ∈ Ω | fn (ω) ≥ αs(ω)}.
Dann ist E1 ⊂ E2 eine aufsteigende Folge von Ereignissen aus A. Für ω ∈ Ω mit f (ω) > 0 folgt:
αs(ω) ≤ αf (ω) < f (ω) und somit auch αs(ω) ≤ fn (ω) für n ≥ N (ω).
[
Daraus folgt: ω ∈ En für n ≥ N (ω) und ω ∈
En . Für ω ∈ Ω mit f (ω) = 0 folgt
Ω
Beweis: f = sup fn ist meßbar nach Satz 12 bzw. Übungsblatt 7, Aufgabe 2.
n∈N
Z
Z
Z
Aus fn ≤ fn+1 folgt:
fn dµ ≤
fn+1 dµ und somit lim
fn dµ ≤ ∞. Sei nun s eine beliebige
n→∞
Ω
Satz 18 (Satz von der monotonen Konvergenz): Es sei {fn } eine Folge (Borel-)meßbarer Funktionen fn : Ω → [0, ∞] mit 0 ≤ f1 (ω) ≤ f2 (ω) ≤ . . . ≤ ∞ und f (ω) := lim fn (ω) für alle ω ∈ Ω. Dann
n→∞
Z
Z
gilt: f ist meßbar und lim
fn dµ =
f dµ.
Ω
Folgerung: Für meßbare Funktionen f und g mit f , g : Ω → [0, ∞) folgt für α, β ∈ [0, ∞):
Z
Z
Z
(αf + βg) dµ = α
f dµ + β
g dµ.
e) Gilt eine Eigenschaft (zum Beispiel, daß zwei Funktionen gleich sind) für alle ω ∈ Ω außer ω ∈ A,
wobei A eine µ-Nullmenge ist, dann sagt man, daß diese Eigenschaft µ-fast-sicher oder µ-fast-überall
gilt.
d) Sei µ ein beliebiges Maß auf (Ω, A). Jede Menge A mit µ(A) = 0 heißt µ-Nullmenge. Beim
Lebesgue-Maß sind alle abzählbaren Mengen Nullmengen.
c) Für stetige Funktionen f sind Lebesgue- und Riemann-Integral identisch.
Dies gilt insbesondere, wenn s eine Treppenfunktion ist, zum Beispiel die Untersummen von Riemann-Integralen.
i=1
n
X
a) Sei λ das Lebesgue-Maß auf (R, B) gemäß Definition 1.4. Für Intervalle oder endliche Vereinigungen
von Intervallen entspricht λ den Intervallängen.
Z
b) Das Lebesgue-Integral berechnet sich mittels der Formel
f dλ. Für einfache Funktionen s =
Bemerkungen:
% ist also ein Maß auf (Ω, A).
k∈N
iii) Sei {Ek } eine Folge paarweise disjunkter Mengen aus A. Dann gilt:
Ã
Ã
Ã
!
!!
n
[
X
[
Ek
αi µ A i ∩
Ek
%
=
2. Endliche Wahrscheinlichkeitsräume
lim
lim
=⇒
Z
Ω
Ω
Ω
fn dµ
fn dµ
≥
≥
≥
=
Ω
fn dµ
Z
Ω
Ω
Ω
f dµ
s dµ
lim α%(En )
Z
n→∞
α%(Ω)
Z
≥
=
=
=
≥
≥
=
En
n→∞
Ω
Ω
lim
α
Z
fn dµ
s dµ
fn dµ
Ek
Z
Ω
!
fn dµ.
s dµ
α%(En ).
Z
α
s dµ,
Z
En
k∈N
S
α
Z
Z
n∈N
[
En = Ω.
n Z
X
mit 0 ≤ s ≤ f,
für alle einfachen Funktionen s
für alle α ∈ [0, 1),
En . Somit:
n=1
Ω
fn dµ
=
=
Ω
=
Ω
Ω
n∈N
fn
dµ.
fk dµ
fk dµ
k=1
!
Ω k=1
Z X
n
k=1
n Z
X
dµ =
Z ÃX
n→∞
lim
n→∞
fk
lim
k=1
Z ÃX
n
Satz 18
fk meßbar und
∞ Z
X
k=1
n
X
n∈N
Ω
fk dµ, also:
Ω
k≥n
n→∞
Ω
Ω n→∞
Joseph Louis Fatou (1878-1929)
n→∞
n→∞
Setze gn = inf fk für n ∈ N. Dann gilt: lim inf fn = lim gn . Daraus folgt: gn ≤ fn und
n→∞
0 ≤ g1 ≤ g2 ≤ . . . Folgende beide Aussagen ergeben sich daraus:
Z
Z
a)
gn dµ ≤
fn dµ,
Ω
Ω
Z
Z
gn dµ =
lim inf fn dµ.
b) lim
Beweis:
Ω n→∞
Satz 19 (Lemma von Fatou18 ): Für alle n ∈ N seien fn : Ω → [0, ∞] Borel-meßbar. Dann gilt:
Z
Z
lim inf fn dµ ≤ lim inf
fn dµ.
Beweis: Mit fn sind auch
n∈N
Borel-meßbaren Funktionen fn : Ω → [0, ∞] für n ∈ N und sei
Folgerung: Sei {fn } Zeine Folge von
X
XZ
f=
fn . Dann gilt:
f dµ =
fn dµ.
n→∞
n→∞
fn dµ
=⇒
n→∞
Ω
lim
=⇒
Z
Z
n→∞
n∈N
[
2. Endliche Wahrscheinlichkeitsräume
s dµ für alle E ∈ A (% ist ein Maß). Es gilt:
lim α%(En )
E
=⇒
Betrachte %(E) =
Z
und 0 = fn (ω). Also ist ω ∈ En für n ∈ N und ω ∈
18 Pierre
35
Ω
Z
Ω n→∞
lim inf fn dµ
≤
=
n→∞
Z
lim inf
n→∞
lim
Z
Ω
Ω
fn dµ.
gn dµ
n∈N
36
n=1
∞
X
½Z
Z
Ω
Ω
n=1
n=1
∞
X
Ω
Z
Ω
sf dµ.
Z
E
IEn f dµ
ϕ(En ).
∞ Z
X
s dϕ =
Ω
n=1
f dµ
f dµ =
f · IE dµ
Ω
!
Z ÃX
∞
IEn f dµ
ZE
Z
IE dϕ = ϕ(E) =
=
=
=
=
=
Z
Ω
¾
f IE dµ. Also folgt auch
und
Ω
g dµ
=
≥
=
n→∞
lim
Ω
Z
Ω
sn dϕ
=
=
Ω
Z
lim
sn f dµ
n→∞ Ω
Z
gf dµ,
¯
s dϕ ¯ 0 ≤ s ≤ g, s einfache Funktion
ZΩ
sn dϕ
lim
n→∞ Ω
Z
g dµ
sup
n→∞
Somit folgt mit dem Satz über monotone Konvergenz: Für eine aufsteigende Folge von einfachen
Funktionen {sn } mit s1 ≤ s2 ≤ . . . und lim sn (ω) = g(ω) für alle ω ∈ Ω gilt:
Z
für eine einfache Funktion s:
b) Sei g = IE für ein E ∈ A. Dann folgt:
Z
ϕ(E)
IEn · f . Aufgrund der Folgerungen zu Satz 18 erhalten wir:
Damit ist ϕ ein Maß auf (Ω, A).
gilt: IE · f =
Beweis:
a) i) ϕ(E) ≥ 0 ist klar, da f ≥ 0 für alle E ∈ A.
ii) ϕ(∅) = 0 ist ebenfalls klar, da die Bedingung für einfache Funktionen gilt und damit auch für
das Supremum.
[
iii) σ-Additivität. Sei {En } eine Folge paarweise disjunkter Mengen in A mit E =
En . Dann
Satz 20: Seien f , g : R → [0, ∞] Borel-meßbare Funktionen. Dann gilt:
Z
a) ϕ(E) =
f dµ mit E ∈ A ist ein Maß auf (Ω, A),
E
Z
Z
b)
g dϕ =
gf dµ mit ϕ aus a).
Ω
Insgesamt:
2. Endliche Wahrscheinlichkeitsräume
37
Ω
=
=
Z
Z
R
gf dλ.
g dP
X
E
E
E
E
f − dµ < ∞ für ein E ∈ A. Sei außerdem
E
1
Ω
Ω
Beweis:
Ω
Ω
Ω
¯Z
¯
¯
¯
¯ f dµ¯
¯
¯
=
=
≤
=
Ω
¯Z
¯
Z
¯
¯
¯ f + dµ −
f − dµ¯¯
¯
Ω
Ω
Z
Z
f + dµ +
f − dµ
Ω
ZΩ
(f + + f − ) dµ
ZΩ
|f | dµ.
¯Z
¯ Z
¯
¯
|f | dµ.
Satz 22: Sei f ∈ L1 (µ). Dann folgt: ¯¯ f dµ¯¯ ≤
Beweis: ,→ Übung.
Ω
a) αf + βg ∈ L1 (µ).
Z
Z
Z
b)
(αf + βg) dµ = α
f dµ + β
g dµ.
Satz 21 (Rechenregeln): Seien f , g ∈ L1 (µ) und α, β ∈ R, dann gilt:
Ω
½
¾
Z
¯
L (µ) := f : Ω → R ¯ f Borel-meßbar und
|f | dµ < ∞
f + dµ < ∞ oder
Z
die Menge der µ-integrierbaren Funktionen.
falls
Z
und f − (ω) := f + − f . Dann definieren wir das µ-Integral von f über E mit
Z
Z
Z
f dµ :=
f + dµ −
f − dµ,
Definition 19: Sei f : Ω → R eine Borel-meßbare Funktion. Weiterhin sei
½
f (ω) falls f (ω) ≥ 0
f + (ω) :=
0
sonst
E(g(X))
c) Also folgt für den Erwartungswert einer Funktion g:
für A ∈ B.
b) Für eine stetige Zufallsvariable mit der Lebesgue-Dichte f gilt für das Bildmaß: P X (A) =
schreiben wir dϕ = f dµ.
Ω
Z
A
f dλ
Bemerkungen zu Satz 20:
Z
Z
a) Gilt
g dϕ =
gf dµ für alle meßbaren Funktion g ≥ 0 für Maße ϕ und µ auf (Ω, A), dann
da sn f monoton gegen f wächst.
2. Endliche Wahrscheinlichkeitsräume
38
Ω
Ω
Z
Ω
n→∞
Ω
Ω
n=1
µ
i=1
n
Y
µi (Ai ) für alle A1 ∈ Ai , i = 1, . . . , n.
= Ω1 × . . . × Ω n ,
= σ{A1 × . . . × An | Ai ∈ Ai , i = 1, . . . , n}
=: A1 ⊗ . . . ⊗ An ,
=: µ1 ⊗ . . . ⊗ µn
das Maß auf (Ω, A) mit µ(A1 × . . . × An ) =
und
Ω
A
Definition 21: Seien (Ω1 , A1 , µ1 ), . . . , (Ωn , An , µn ) Maßräume mit σ-endlichen Maßen µ1 , . . . , µn .
Dann definieren wir den Produktraum (Ω, A, µ) über
n=1
c) Das Zählmaß µ mit µ(A) = #A ist ein σ-endliches Maß auf (N, 2N ), aber nicht auf (R, B). Die
Variante des Zählmaßes µ
e mit µ
e(A) = #(A ∩ Z) ist auch auf (R, B) σ-endlich, wähle wieder An =
∞
[
An = R.
[−n, n] und µ
e(An ) = 2n + 1 < ∞ mit
n=1
a) Alle endlichen Maße µ mit µ(Ω) < ∞ sind σ-endlich.
b) Das Lebesgue-Maß λd auf (Rd , Bd ) ist σ-endlich. Wähle etwa An = [−n, n] × . . . × [−n, n] ⊂ Rd ,
∞
[
An = R d .
An ∈ Bd , λd (An ) = (2n)d und
Beispiele:
Folge {An }n∈N
Ω
Ein Maß µ auf einem meßbaren Raum (Ω, A) heißt σ-endlich, falls eine aufsteigende
∞
[
⊂ A mit µ(An ) < ∞ für alle n ∈ N, A1 ⊂ A2 ⊂ . . . und
An = Ωn existiert.
Definition 20:
n→∞
Also gilt: 0 ≤ − lim sup
¯Z
¯
¯
¯
|fn − f | dµ ≤ 0, da ¯¯ 2g dµ¯¯ < ∞.
a) Die Meßbarkeit von f wurde bereits bewiesen. Da |fn (ω)| ≤ g(ω) gilt: folgt: |f (ω)| ≤ g(ω). Also:
f ∈ L1 (µ).
b) Da |fn − f | ≤ |fn | + |f | ≤ 2g, folgt: 2g − |fn − f | ≥ 0.
c) Es gilt:
Z
Z
2g dµ
=
lim inf (2g − |fn − f |) dµ
Ω
Ω n→∞
Z
Fatou
≤
lim inf (2g − |fn − f |) dµ
n→∞
Ω
Z
Z
=
2g dµ + lim inf
−|fn − f | dµ
n→∞
ZΩ
ZΩ
2g dµ − lim sup
|fn − f | dµ.
=
Beweis:
n→∞
a) f ∈ L1 (µ).
Z
|fn − f | dµ = 0.
b) lim
n→∞ Ω
Z
Z
fn dµ =
f dµ.
c) lim
Satz 23 (Satz von der majorisierten Konvergenz): Es sei {fn } eine Folge meßbarer Funktionen
auf (Ω, A) und f (ω) = lim fn (ω) für ω ∈ Ω. Weiterhin existiere ein g ∈ L1 (µ) mit |fn (ω)| ≤ g(ω) für
n→∞
alle n ∈ N, ω ∈ Ω. Dann folgt:
2. Endliche Wahrscheinlichkeitsräume
2. Endliche Wahrscheinlichkeitsräume
Z
Ω1 ×Ω2
f d(µ1 ⊗ µ2 )
Ω2
=:
=

0
 Z
g1 (ω1 ) =

Z
Z
Ω1
Ω1
Ω2
sonst
/ L (µ2 )
falls fω1 ∈
1
g1 dµ1
·Z
¸
f (ω1 , ω2 )µ2 (dω2 ) µ1 (dω1 ).
fω1 dµ2
Ω
Ω
R
R
20 Das
Fubini (1879-1943)
heißt: µ
e(B) = #(B ∩ I) für alle B ∈ B.
=
x∈I
X
x∈I
g(x)P (X = x).
c) Ist X diskret und I eine abzählbare Menge aus B mit P (X ∈ I) = 1, so wird zu dem Zählmaß µ
e zu
e-Dichte
I auf (R, B)20 durch die Funktion f : R → [0, ∞) mit f (x) = P (X = x) für alle x ∈ R eine µ
von X angegeben.
Für den Erwartungswert von g(X) gilt dann beispielsweise:
Z
g(x)f (x)e
µ (dx)
E(g(X)) =
R
X
=
g(x)f (x)
b) Ist X stetig mit Borel-meßbarer Dichtefunktion f , dann ist f auch eine Lebesgue-Dichte von X.
a) Da P X selber ein σ-endliches Maß ist, besitzt P X insbesondere die Dichtefunktion f : R → R mit
f (x) = 1 für alle x ∈ R bzgl. P X = µ.
Bemerkungen:
als Erwartungswert von g(X) für eine Borel-meßbare Funktion g : R → R.
R
als (allgemeinen) Erwartungswert von X und
Z
Z
g(x)P X (dx) =
g(x)f (x)µ (dx)
E(g(X)) =
R
Definition 22: Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und besitze
die Verteilung P X mit der µ-Dichte f : R → [0, ∞) bzgl. eines σ-endlichen Maßes µ auf (R, B). Dann
bezeichnen wir
Z
Z
E(X) =
xP X (dx) =
xf (x)µ (dx)
eine Integrationsvariable.
Bemerkung: Für eine Borel-meßbare Funktion f : Ω → R auf (Ω, A, µ) charakterisieren wir durch die
Schreibweise
Z
Z
f (ω)µ (dω) :=
f dµ
Beweis: Siehe Bauer, Maß- und Integrationstheorie, Kapitel 23.
definiert, so folgt:
b) Sei g1 : Ω1 → R mit
d.h. µ1 -fast-alle fω1 sind µ2 -integrierbar.
µ1 (ω1 ∈ Ω1 | fω1 ∈
/ L1 (µ2 )) = 0,
a) Die Funktionen fω1 für ein ω1 ∈ Ω1 mit fω1 : Ω2 → R und fω1 (ω2 ) = f (ω1 , ω2 ) erfüllen
Satz 24 (Satz von Fubini19 ): Seien (Ω1 , A1 , µ1 ) und (Ω2 , A2 , µ2 ) zwei Maßräume mit σ-endlichen
Maßen µ1 und µ2 . Weiterhin sei f ∈ L1 (µ1 ⊗ µ2 ). Dann gilt:
19 Guido
39
40
n∈N
i=1
n
[
Bi
!
= 1, und ist f eineindeutig,
=
i=1
f −1 (B)∩Bi
i=1
n
X
gX (z) dz.
≤P (X∈B0 )=0
n Z
X
P (X ∈ f −1 (B) ∩ B0 ) +
{z
}
|
=
P (X ∈ f −1 (B) ∩ Bi )
¯
µ −1 ¶¯
¯
∂f (y) ¯¯
gX (f −1 (y)) · ¯¯det
¯ dy.
∂y
B
f −1 (B)
P (X ∈ f −1 (B))
=
Z
= P (f (X) ∈ B)
= P (X ∈ f −1 (B))
Z
=
gX (z) dz
=
Bi , so folgt:
P (Y ∈ B)
P (Y ∈ B)
b) Setze B0 = Rd \
Beweis:
a)
i=1
n
[
für fi := f |Bi diffenzierbar sind, so besitzt das Bildmaß von Y die Dichte
¯
µ −1 ¶¯
n
X
¯
∂fi (z) ¯¯
gY (z) =
gX (fi−1 (z)) · ¯¯det
¯.
∂z
i=1
X∈
Die Komponenten von Y sind dabei stetige Zufallsvariablen.
wobei die Funktionen
fi−1
b) Existieren disjunkte Mengen B1 , . . . , Bn ∈ Bd mit P
wobei die Komponenten von Y stetige Zufallsvariablen sind.
Ã
a) Ist f eineindeutig und f −1 differenzierbar, so besitzt das Bildmaß von Y die Dichte
¯
µ −1 ¶¯
¯
∂f (z) ¯¯
gY (z) = gX (f −1 (z)) · ¯¯det
¯,
∂z
Satz 26 (Transformationssatz für Dichten): Seien X1 , . . . , Xd stetige Zufallsvariablen auf (Ω, A, P ).
Weiterhin besitze das Bildmaß der Abbildung X : Ω → Rd eine Dichte gX : Rd → R. X = (X1 , . . . , Xd )
ist dabei eine d-dimensionale Zufallsvariable. Sei Y = f (X) mit einer (R d , Bd )-(Rd , Bd )-meßbaren Abbildung f .
Aus a) und b) folgt die Behauptung.
n∈N
Beweis: Den Beweis führen wir mit der Methode der lieben Mengen (siehe auch Seite 27). Sei
E = {B ∈ B | Z −1 (B) ∈ A} ein Teilsystem von B.
a) B sei eine offene Teilmenge von R. Da ψ stetig ist, ist ψ −1 (B) eine offene Menge im R2 und somit
Element von B2 . Insgesamt ist Z −1 (B) ∈ A. Also liegen alle offenen Mengen in E.
b) Zu zeigen: E ist eine σ-Algebra.
i) Z −1 (∅) = ∅ ∈ A. Also ist ∅ ∈ E.
−1
ii) Z −1 (B)
à = Z !(B) ∈ A. Also: B ∈ E, falls B ∈ E.
[
[
Bn =
Z −1 (Bn ) ∈ A für eine Folge disjunkter Mengen Bn aus E.
iii) Z −1
Satz 25: Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und sei ψ : R 2 →
R eine stetige Funktion. Dann ist Z = ψ(X, Y ) wiederum eine Zufallsvariable.
2.5. Transformationsformeln und Stichprobentheorie
d) Für allgemeine Zufallsvariablen werden Momente und Varianz wie in Definition 15 definiert.
2. Endliche Wahrscheinlichkeitsräume
41
σf (µ + σy)
1 µ+σy−µ 2
σ
√
e− 2 ( σ )
2πσ 2
1 2
1
= √ e− 2 y .
2π
=
=
X−µ
σ
(d.h. E(Y ) = 0, Var(Y ) = 1):
R
c) Es gilt E(X · Y ) = E(X) · E(Y ), falls E(X) und E(Y ) endlich sind.
b) Sind X und Y stetig mit den Dichten fX und fY , so folgt für die Dichte fZ von Z = X · Y :
Z
³z ´
1
fX (s)fY
ds
fZ (z) =
|s|
s
R\{0}
Z
³
´
z
1
=
fX
fY (s) ds
s
R\{0} |s|
a) Sind sowohl X als auch Y diskrete Zufallsvariablen mit P (X ∈ {xn | n ∈ N}) = P (Y ∈ {xn | n ∈ N})
für eine Folge {xn }n∈N ⊂ R, so folgt für die Verteilung von Z = X · Y :
µ
¶
 X
Z


P (X = xn )P Y =
falls z 6= 0


xn
n∈N
xn 6=0
P (Z = z) =


P (X = 0) + P (Y = 0, X 6= 0)


falls z = 0
= 1 − P (X 6= 0, Y 6= 0)
Satz 28: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ).
Bemerkung: Die Aussage von Satz 27 läßt sich auf mehrdimensionale Zufallsvariablen X = (X1 , . . . ,
Xd ) und Y = (Y1 , . . . , Yd ) übertragen.
Beweis: ,→ Übung.
c) Sind X und Y stetig mit Dichten fX und fY , so folgt für die Dichten Z = X + Y :
Z
fZ (z) =
fX (x)fY (z − x) dx.
x∈Z
b) Sind X und Y diskret auf der Menge der ganzen Zahlen, so folgt:
X
P X ({x})P Y ({z − x}).
P X ∗ P Y ({z}) =
R
a) Dann gilt für die Verteilung von Z = X + Y , die sogenannte Faltung, von P X und P Y :
Z
P X (B − y)P Y (dy).
P Z := P X ∗ P Y :=
Satz 27: Seien X und Y unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P )
mit den Verteilungen P X und P Y .
Also: Y ∼ N (0, 1).
g(y)
Ist insbesondere X ∼ N (µ, σ 2 ) mit σ > 0, so folgt für die Y =
Bemerkung: Sei X eine stetige Zufallsvariable und Y = aX + b mit a 6= 0. Falls X die Dichte f
besitzt, folgt für die Dichte von Y :
µ
¶
y−b
1
g(y) = f
für y ∈ R.
·
a
a
2. Endliche Wahrscheinlichkeitsräume
42
= P (X · Y ≤ z, X ∈ R)
= P (U ≤ z, V ∈ R)
Z z Z ∞¯ ¯
³ ´
¯1¯
¯ ¯ fX u fY (v) dv du.
=
¯v¯
v
−∞ −∞
R
R
E(X) · E(Y ).
R\{0}
−∞
−∞
Daraus folgt für alle z ∈ R:
µ
¶
µ
¶
X
X
P
≤z
= P
≤ z, X ∈ R
Y
Y
= P (U ≤ z, V ∈ R)
Z z Z ∞
|v|fX (u · v)fY (v) dv du.
=
³
´
Beweis: Setze ψ : R2 → R2 mit ψ(x, y) = xy , y und ψ −1 (u, v) = (u · v, v). Dann folgt mit der
Dichtetransformationsformel:
¯
¯
µ
¶¯
µ
¶¯
¯
¯
¯
∂
v 0 ¯¯
¯det
ψ −1 (u, v) ¯¯ = ¯¯det
¯
u 1 ¯
∂(u, v)
= |v|.
für alle z ∈ R.
Satz 29: Seien X und Y unabhängige, stetige Zufallsvariablen mit den Dichten fX und fY auf einem
Wahrscheinlichkeitsraum (Ω, A, P ). Dann ist Z = X
Y eine stetige Zufallsvariable mit der Dichte
Z
fZ (z) =
|s|fX (z · s)fY (s) ds
Folgerung: Für allgemeine unabhängige Zufallsvariablen X und Y mit endlichen Varianzen, die von 0
verschieden sind, gilt: Cov(X, Y ) = 0 und %(X, Y ) = 0.
=
Fubini
c) Sei µ ein σ-endliches Maß und X habe eine µ-Dichte fX und Y die µ-Dichte fY . Dann folgt mit
der Übertragung von Satz 14 auf allgemeine Integrale:
Z Z
xyfX (x)fY (y) µ(dy) µ(dx)
E(X · Y )
=
P (X · Y ≤ z)
Daraus folgt für alle z ∈ R:
a) Klar.
b) Wir nutzen die Dichtetransformationsformel
für die Abbildung ψ : R2 → R2 mit ψ(x, y) = (x·y, y)
¡
¢
für (x, y) ∈ R2 und ψ −1 (u, v) = uv , v . Dann gilt:
¯
¯
µ 1
¶¯
¶¯
µ
¯
¯
¯
∂
0 ¯¯
v
¯det
ψ −1 (u, v) ¯¯ = ¯¯det
u
¯
− v2 1 ¯
∂(u, v)
1
=
.
|v|
Beweis:
2. Endliche Wahrscheinlichkeitsräume
43
e
y
−y x−1
dy für x ≥ 0.
0
n
22
y
n
1
y 2 −1 e− 2
Γ( n
2)
für y ≤ 0
für y > 0
(n − 1)s̃2
1
= 2
σ2
σ
i=1
n
X
∼
χ2n−1
gezeigt.
(Xi − X)2 ∼ χ2n−1 .
Vorlesung Stochastik II wird die Beziehung
(n−1)s̃2
σ2
a) Der Beweis läßt sich mit vollständiger Induktion und Satz 27 führen (,→ Übung).
¶2
n µ
³
´
X
2
Xi − µ
∼ χ2n mit Xiσ−µ ∼ N (0, 1) wegen der Standardisierung. In der
b) Es gilt: ns
σ2 =
σ
i=1
Beweis:
und
n
ns2
1 X
= 2
(Xi − µ)2 ∼ χ2n
σ2
σ i=1
b) Sei X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so folgt
0
∞
fY (y) =
Dann besitzt Y die Dichte
(
Z
χ2n .
mit Γ(x) =
a) Sei Y ∼
Satz 30:
heitsgraden oder χ2n -Verteilung.
i=1
Definition 23: χ2 -Verteilung: Sei X1 , . . . , Xn eine Stichprobe unabhängiger und identisch N (0, 1)n
X
Xi2 (zentrale) χ2 -Verteilung mit n Freiverteilter Zufallsvariablen. Dann heißt die Verteilung von
Typische Verteilungsfamilien von Stichprobenkennwerten werden nun vorgestellt.
Im statistischen Modell werden X und s2 als Zufallsvariablen und damit als Stichprobenkennwerte interpretiert. Die (Verfahrens-)Eigenschaften von X und s2 werden als Eigenschaft der Stichprobenkennwerteverteilungen untersucht.
entspricht der Varianz Var(X) = E((X − E(X))2 ) der empirischen Verteilung.
Das arithmetische Mittel entspricht dem Erwartungswert der empirischen Verteilung der Meßwerte. Die
empirische Varianz
n
1X
s2 =
(Xi − X)2
n i=1
Die empirische Verteilung der Meßwerte kann durch Kennwerte charakterisiert werden, zum Beispiel
durch das arithmetische Mittel
100
1 X
X=
Xi .
100 i=1
Einschub: Gegeben sei beispielsweise eine Meßreihe zu 100 Preisen eines Rohstoffes, also unabhängige
Messungen zu einer homogenen Verteilung. Im statistischen Modell interpretiert man diese Meßreihe als
eine Beobachtung von einer Stichprobe X1 , . . . , X100 von unabhängigen, identisch verteilten Zufallsvariablen mit Xi ∼ X ∼ N (µ, σ 2 ).
2. Endliche Wahrscheinlichkeitsräume
44
i=1
Xi2
für x ∈ R.
¢ µ
¡
¶ n+1
2
Γ n+1
x2
¡ n ¢ 2√
1+
n
Γ 2
nπ
21 William
gilt:
n
fY (y) =
Xi2 gilt:
2
³ n ´−1
e−
Z
0
∞
2
∞
I=2
0
∞
2
µ
z2
2
+n
. Also folgt:
n
2
e− 2 y y n−1 I(0,∞) (y).
¶ n+1
2
s ds und u =
e−u
´ 12
+n)s2 n
Z
n
u
n−1
2
1 2
2 (z
1
du.
z2 + n
+ n)s2 . Damit ist
³ n ´−1 n 2
1 2 2
n
n
1
√ e− 2 z s |s|n 2 2− 2 Γ
e− 2 s sn−1 ds.
2
2π
2
z 2 +n u
1
0
e− 2 (z
³
Z
n
:
du
ds
= (z 2 + n)s,
S. Gosset (1876-1937), Angestellter der Guinness-Brauerei, publizierte unter dem Pseudonym Student“.
”
du = (z 2 + n)s ds und s =
Definiere nun I := 2
fT (z) = 2
Aus Satz 29 folgt dann:
n
f√ 1 Y (y) = n 2 2− 2 +1 Γ
³ n ´−1
1
nY
n
(ny) 2 −1 I(0,∞) (y).
q
ny
2
y
n
1
¡ ¢ e− 2 y 2 −1 I(0,∞) (y),
n
2 2 Γ n2
f n1 Y (y) = n2− 2 +1 Γ
1
nY
i=1
n
X
Nach der Transformationsformel lautet die Dichte von
und für die Dichte von
für die Dichte von Y =
1 2
1
fX (x) = √ e− 2 x ,
2π
X −µ
X −µ
q
=q
∼ tn−1 .
Pn
1
1 2
2
i=1 (Xi − X)
n(n−1)
n s̃
a) Für die Dichte von X0 gilt:
Beweis:
und
X −µ
q
∼ N (0, 1)
1 2
nσ
b) Ist X1 , . . . , Xn eine Stichprobe unabhängiger N (µ, σ 2 )-verteilter Zufallsvariablen, so ist
fT (x) =
a) Ist T eine tn -verteilte Zufallsvariable, so besitzt T die Dichte
Satz 31:
eine t-Verteilung, Studentsche Verteilung mit n Freiheitsgraden oder auch t n -Verteilung.
n
X0
T = q P
n
1
Definition 24: t-Verteilung, Studentsche21 Verteilung: Sei X0 , X1 , . . . , Xn eine Stichprobe
unabhängiger, identisch N (0, 1)-verteilter Zufallsvariablen, so heißt die Verteilung von
2. Endliche Wahrscheinlichkeitsräume
45
fT (z)
=
=
=
n+1
2
2
n+1
2
+ n)
2
(z 2 + n)
(z 2
n+1
2
n+1
2
Γ
Z
0
n+1
.
n+1
2 −1
¶
e−u u
n+1
2
∞
µ
du
n+1
2
¶
e−u ux−1 du für x > 0 folgt:
µ
0
∞
³ n ´−1
n
n
2 2
1
√ n 2 2− 2 Γ
n+1 Γ
2
2π
(z 2 + n) 2
¡ n+1 ¢
n
n2Γ 2
√
¡ ¢ n+1
1
2 n+1
2π2− 2 Γ n2 n 2 (1 + zn ) 2
¡ n+1 ¢
Γ 2
.
¡ ¢
√
2 n+1
nπΓ n2 (1 + zn ) 2
=
=
Z
n s̃
1
m
i=n+1
Xi2
Xi2
i=1
n+m
X
n
X
a) Sei Z ∼ Fn,m , so besitzt Z die Dichte
¡
¢
n
Γ m+n
n
m
z 2 −1
fZ (z) = ¡ n ¢ 2 ¡ m ¢ n 2 m 2
m+n I(0,∞) (z).
Γ 2 Γ 2
(m + nz) 2
Satz 31:
(zentrale) F -Verteilung mit n und m Freiheitsgraden oder kurz Fn,m -Verteilung.
F =
1
n
Definition 25: Sei X1 , . . . , Xn+m mit n, m ≥ 1 eine Stichprobe unabhängiger N (0, 1)-verteilter
Zufallsvariablen. Dann heißt die Verteilung von
nσ
X−µ
X−µ
∼ N (0, 1). Die Beziehung √
∼ tn−1 wird in Stochastik II bewiesen.
Also gilt: √
1 2
1 2
b) Es ist X ∼ N (µ, n1 σ 2 ), da die Summe von normalverteilten Zufallsvariablen wieder normalverteilt
ist und auch die Multiplikation mit n1 wieder zu einer Normalverteilung führt. Also:
µ
¶
1
(X1 + . . . + Xn )
E(X)
=
E
n
1
=
(E(X1 ) + . . . + E(Xn ))
n
1
nµ
=
n
=
µ.
µ
¶
1
(X1 + . . . + Xn )
=
Var
Var(X)
n
1
unabh.
=
(Var(X1 ) + . . . + Var(Xn ))
n2
1
nσ 2
=
n2
1 2
σ .
=
n
Also folgt:
I
Mit Verwendung der Gamma-Funktion Γ(x) =
2. Endliche Wahrscheinlichkeitsräume
46
1
n−1
1
m−1
i=1
(Yi − Y )2
(Xi − X)2
i=1
n
X
m
X
∼ Fm−1,n−1 .
a) Der Beweis sei dem Leser zur Übung überlassen.
b) Nach Satz 30 ist (m − 1)s2X ∼ χ2m−1 und (n − 1)s2Y ∼ χ2n−1 . Außerdem sind sie unabhängig,
woraus die Behauptung folgt.
Beweis:
s2
F = X
=
s2Y
b) Ist X1 , . . . , Xm eine Stichprobe unabhängiger N (µ1 , σ12 )-verteilter Zufallsvariablen sowie Y1 , . . . ,
Yn eine davon unabhängige Stichprobe unabhängiger N (µ2 , σ22 )-verteilter Zufallsvariablen, so ist
2. Endliche Wahrscheinlichkeitsräume
3. Allgemeine Grenzwertsätze
=
:=
n→∞
n=1
∞
X
n=1
∞
X
n→∞
n≥k
An 

k=1 n≥k
P (An ) = 0, folgt die Behauptung.
[
k=1 n≥k
∞
\
≤
n≥k


An 

P (An ).
[
k=1 n≥k
n≥k
X
≤ P

22 Francesco
Paolo Cantelli (1875-1966)
lim lim
lim lim
lim lim e
0.
≤
=
=
k→∞ N →∞
k→∞ N →∞
k→∞ N →∞
e−P (An )
(1 − P (An ))
P (An )

An 
n=k
P
− N
n=k P (An )
N
Y
n=k
N
Y
n=k
=
k→∞ N →∞
\
k≤n≤N

N
Y
lim lim
k→∞ N →∞
n≥k
An 
lim lim P 
lim P 
k→∞
\
=
=
(∗∗)
=
(∗)
b) Wir verwenden die Abschätzung 1 − t ≤ e−t für alle t ≥ 0 und beweisen die Behauptung über das
Gegenereignis:




∞ [
∞ \
\
[



= P
An
An 
1−P
k→∞
Da lim
X
P

P (An ) = ∞ und unabhängigen Ereignissen {An } folgt: P (lim sup An ) = 1.
n→∞
P (An ) < ∞ folgt P (lim sup An ) = 0.
a) Es gilt:
Beweis:
b) Für
a) Aus
Lemma 1 (Borel-Cantelli22 ): Sei {An }n∈N eine Folge von Ereignissen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Dann gilt:
n→∞
An
{ω | ω ∈ An für unendliche viele n}.
k=1 n≥k
Insbesondere gilt: Ilim sup An = lim sup IAn .
n→∞
lim sup An
∞ [
\
Zunächst betrachten wir eine Folge {An }n∈N von Ereignissen eines meßbaren Raumes (Ω, A). Sei
3.1. Null-Eins-Gesetze
3. Allgemeine Grenzwertsätze
47
48
⇒
B \ A ∈ D.
\
⇒
n=1
∞
[
An ∈ D.
{D ⊂ 2Ω | D Dynkin-System und E ⊂ D}
23 Eugene
Ã
(B \ A) ∩
Borisovich Dynkin (geb. 1924)
Also: B \ A ∈ %i0 .
P
Ã
i∈I1
\
Ai
!!
=
=
=
=
a) Ei0 ∈ %i0 nach Voraussetzung.
b) Zu zeigen: %i0 ist ein Dynkin-System.
i) Ω ∈ %i0 ist klar.
ii) Seien A, B ∈ %i0 mit A ⊂ B. Dann folgt:
Zu zeigen ist also λ(Ei0 ) ⊂ %i0 .
B∩
Y
i∈I1
i∈I1
Y
!!
−P
Ã
i∈I1
P (Ai ) · P (B \ A).
i∈I1
\
Ai
P (Ai )
Ã
Y
A∩
P (Ai ) · (P (B) − P (A))
i∈I1
Ai
P (Ai ) − P (A) ·
i∈I1
\
Y
Ã
P (B) ·
Ã
%i0 := {A ∈ A | {A} und Ei für i ∈ I1 stochastisch unabhängig}.
!!
Beweis: Es reicht nachzuweisen, daß λ(Ei0 ) und Ei für i ∈ I1 mit i0 ∈ I \ I1 stochastisch unabhängig
sind (I1 endlich). Wir verwenden wieder das Beweisprinzip der lieben Mengen. Sei
Lemma 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und Ei ⊂ A stochastisch unabhängige Mengensysteme (i ∈ I). Dann sind auch λ(Ei ) für i ∈ I stochastisch unabhängig.
das von E erzeugte Dynkin-System.
λ(E) =
b) Sei Ω eine Menge und E ⊂ 2Ω . Dann ist
iii) An ∈ D für n ∈ N und An paarweise disjunkt.
i) Ω ∈ D.
ii) A, B ∈ D, A ⊂ B
a) Sei Ω eine Menge und D ⊂ 2Ω ein System von Teilmengen. D heißt Dynkin-System, falls
Definition 1 (Dynkin23 -Systeme):
Im folgenden wollen wir Mengensysteme von unabhängigen Ereignissen betrachten: E1 , E2 ∈ A unabhängig. Dann folgt nicht, daß σ(E1 ) und σ(E2 ) unabhängig sind. Deshalb betrachten wir Erweiterungen von E1 und E2 , die die Unabhängigkeitseigenschaft erhalten.
Beispiel:
Angenommen,
¢ wir betrachten (Ω∞ , A∞ , P∞ ) als abzählbaren Produktraum von (Ωi , Ai , Pi ) =
¡
{1, . . . , 6}, 2{1,...,6} , Pi mit Pi ({k}) = 16 für k ∈ {1, . . . , 6}, wir würfeln quasi unendlich oft. Das Ereignis,
unendlich oft eine 6 zu würfeln, hat die Wahrscheinlichkeit 1, das Ereignis, nur endlich oft eine 1 zu
würfeln, dagegen die Wahrscheinlichkeit 0.
(∗) wegen der Stetigkeit von unten
(∗∗) wegen der Stetigkeit von oben
3. Allgemeine Grenzwertsätze
i=1
Bi ∈ % i0 .
i=1
Bi
!
∩
Insgesamt ergibt sich: λ(ξi0 ) ⊂ %i0 .
Also:
∞
[
P
ÃÃ ∞
[
Ã
i∈I1
\
Ai
!!
=
=
=
=
P
i=1
Bi
j∈I1
Aj 
j∈I1


A j 
P (Aj ).
P (Bi )
Y
i=1
!
P (Aj )
∞
X
P (Bi ) · P 
\
j∈I1
\


P B i ∩ 

̰
[
j∈I1
Y
i=1
∞
X
i=1
∞
X
iii) Seien (Bn )n∈N disjunkte Mengen aus %i0 . Dann gilt:
3. Allgemeine Grenzwertsätze
MD = {A ⊂ Ω | A ∩ D ∈ λ(E)}
ME = {A ⊂ Ω | A ∩ E ∈ λ(E)}
∈
=
λ(E).
∈λ(E)
∈λ(E)
(B ∩ D) \ (A ∩ D)
| {z } | {z }
n∈N
[
An ∈ MD .
∈
n∈N
λ(E).
∈λ(E)
für
für
für
für
alle
alle
alle
alle
E ∈ E,
A ∈ λ(E),
D ∈ λ(E),
D ∈ λ(E).
Mengensystem M heißt durchschnittsstabil, wenn für je zwei Mengen aus M auch ihr Durchschnitt zu M gehört.
Somit ist auch λ(E) durchschnittsstabil.
λ(E) ⊂ ME
=⇒ A ∩ E ∈ λ(E)
=⇒ E ⊂ MD
=⇒ λ(E) ⊂ MD
Folglich ist E ⊂ ME für alle E ∈ E, da E durchschnittsstabil ist. Es ergibt sich:
Also:
n∈N
Also: B \ A ∈ MD .
c) Seien (An )n∈N ⊂ MD disjunkte Mengen. Dann gilt:
!
Ã
[
[
An ∩ D =
(An ∩ D)
| {z }
(B \ A) ∩ D
a) Ω ∩ D = D ∈ λ(E), also: Ω ∈ MD .
b) Seien A, B ∈ MD mit A ⊂ B. Dann folgt:
für ein D ∈ λ(E). Zunächst einmal sind MD und damit auch ME Dynkinsysteme, denn:
für ein E ∈ E und
Beweis: Sei
Lemma 3: Sei E ein durchschnittsstabiles24 Mengensystem zu (Ω, A, P ). Dann ist λ(E) ebenfalls
durchschnittsstabil.
24 Ein
49
50
An
λ(E).
∈
=
Bn
λ(E).
n=1
∞
[
Ai \ (A1 ∩ . . . ∩ Ai−1 )
Ai ∩ A1 ∩ . . . ∩ Ai−1
n=1
∞
[
∈
=
=
m≥n
D = {D ∈ A | P (A ∩ D) = P (A) · P (D)}
e n . Da A
en
e durchschnittsstabil ist: Seien E, F ∈ A,
e so existiert ein n0 mit E, F ∈ A
Zeige nun, daß A
0
0
e n ⊂ A,
e d.h. A
e ist durchschnittsstabil.
durchschnittsstabil ist, folgt E ∩ F ∈ A
0
n=1
die Menge der von A unabhängigen Ereignisse. Es gilt nun A∞ ⊂ D, denn:
e n unabhängig von σ(An+1 ∪An+2 ∪. . .). Da A ∈ σ(An+1 ∪An+2 ∪. . .)
e n = σ(A1 ∪. . .∪An ), so ist A
Sei A
∞
[
e n ⊂ D für alle n ∈ N und A
e=
e n ⊂ D.
gilt, folgt A
A
Beweis: Seien A ∈ A∞ und
Satz 6 (Null-Eins-Gesetz von Kolmogoroff ): Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei
(An )n∈N eine Folge von unabhängigen σ-Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A ∈ A∞ :
P (A) ∈ {0, 1}.
Wir werden A∞ insbesondere für die von einer Folge von Zufallsvariablen Xn auf (Ω, A, P ) erzeugten
σ-Algebren An (n ∈ N) betrachten.
die σ-Algebra der terminalen Ereignisse zur Folge (An )n∈N .
n∈N
Definition 2: Sei (Ω, A, P ) ein Wahrscheinlichkeitsraum und sei (An )n∈N eine Folge von σ-Algebren
auf Ω mit An ⊂ A. Dann heißt


\
[
A∞ :=
σ
Am 
(Aj )j∈J stochastisch unabhängig.
e j das System aller Mengen Ei ∩ . . . ∩ Ei mit Ei ∈ Ei und {i1 , . . . , ik } ∈ Ij . Nun ist
Beweis: Sei E
1
n
k
³k´
e j durchschnittsstabil, stochastisch unabhängig und es gilt: Aj = σ E
e j . Also folgt die Behauptung.
E
Satz 5: Sei (Ei )i∈I eine Familie von stochastisch unabhängigen und durchschnittsstabilen Mengensystemen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ). Sei (Ij )j∈J eine Zerlegung von I in disjunkte Mengen
³S
´
Ij und sei Aj = σ
i∈Ij Ei die von allen Ei erzeugte σ-Algebra (mit i ∈ Ij ), so ist auch die Familie
Beweis: Die Behauptung folgt sofort aus Lemma 2 und Lemma 4.
Satz 4: Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum sowie Ei ⊂ A durchschnittsstabile und stochastisch
unabhängige Mengensysteme für i ∈ I. Dann sind σ(Ei ) für i ∈ I stochastisch unabhängig.
für i ≥ 2. Dann folgt:
Bi
a) ∅ ∈ λ(E), da Ω ∈ λ(E) und somit ∅ = Ω \ Ω ∈ λ(E).
b) A ∈ λ(E) ⇒ A = Ω \ A ∈ λ(E).
c) Sei An ∈ λ(E) für alle n ∈ N. Definiere B1 = A1 und
Beweis: Nach Lemma 3 folgt bereits, daß λ(E) durchschnittsstabil ist. Nun weisen wir noch die
σ-Algebra-Eigenschaften nach:
Lemma 4: Sei Ω eine Menge und E ⊂ 2Ω . Ist E durchschnittsstabil, so gilt: λ(E) = σ(E).
3. Allgemeine Grenzwertsätze
m≥n
[
P (A)
= P (A ∩ A)
= P (A) · P (A)
=
∈
[P (A)]2
{0, 1},

³ ´
³ ´
e für alle n ∈ N, folgt A∞ ⊂ σ A
e ⊂ D. Für A ∈ D gilt aber
Am  ⊂ σ A
3. Allgemeine Grenzwertsätze
n→∞
n=1
∞
[
Fn erzeugt mit Fn = σ(Π1 , . . . , Πn ). Nun kann A ∈ B∞
= n + 1,
= 1,
τn (2) = n + 2,
τn (n + 2) = 2,
...,
...,
τn (n)
τn (2n)
=
=
Jimmie Savage (1917-1971)
{ω | X(ω) ∈ Cn } = {ω | (X1 (ω), . . . , Xn (ω)) ∈ Bn }.
Da Cn ∈ σ(Π1 , . . . , Πn ), so existiert ein Bn ∈ Bn mit
τn (1)
τn (n + 1)
b) Sei nun τn die endliche Permutation von N mit τn (k) = k für k > 2n und
n→∞
2n
n.
sowie
durch C ∈ A0 , mit P X (A M C) beliebig klein, approximiert werden. Wegen F1 ⊂ . . . ⊂ Fn ⊂
Fn+1 ⊂ . . . gibt es eine Folge Cn ∈ Fn mit lim P X (A M Cn ) = 0.
auf Rn wird von der Algebra A0 =
B∞ = σ(Π1 , . . . , Πn , n ∈ N)
a) Sei Πn : RN → R die n-te kanonische Projektion, d.h. Πn (x) = xn für x = (xn )n∈N . Die σ-Algebra
Beweis:
Satz 7 (Null-Eins-Gesetz von Hewitt-Savage25 ): Es sei X = (Xn )n∈N eine Folge unabhängig
identisch verteilter Zufallsvariablen auf (Ω, A, P ). Dann gilt für jede bzgl. X permutierbare Menge
A ∈ B∞ :
P (X ∈ A) = P X (A) ∈ {0, 1}.
tierbar.
n→∞
Beispiel: Die Funktionen X → lim sup(X1 + . . . + Xn ) oder X → lim inf (X1 + . . . + Xn ) sind permu-
{ω | τ X(ω) ∈ A} = {ω | X(ω) ∈ A}.
für alle ω ∈ Ω und alle endlichen Permutationen τ von N. Analog heißt eine Menge A ∈ B ∞ permutierbar,
wenn IA permutierbar ist, d.h. wenn gilt:
g(τ X(ω)) = g(X(ω))
Definition 3: Sei X = (Xn )n∈N eine Folge von Zufallsvariablen auf (Ω, A, P ), d.h. X ist eine meßbare
Funktion bzgl. (RN , B∞ ). Eine meßbare Funktion g : RN → R heißt (endlich) permutierbar , wenn
Im folgenden betrachten wir eine Folge X = (Xn )n∈N von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Außerdem betrachten wir Umordnungen (τ X) = (Xτ (n) )n∈N der Folge von Zufallsvariablen, wobei τ : N → N eine endliche Permutation von N ist, d.h. τ ist eine Bijektion und es existiert
ein n0 ∈ N mit τ (n) = n für alle n ≥ n0 .
da nur Ereignisse mit Wahrscheinlichkeit 0 oder 1 zu sich selber unabhängig sind.

Da aber σ 
25 Leonard
51
= P (X ∈ Mn ).
= P ((Xn+1 , . . . , X2n ) ∈ Bn )
= P (τn X ∈ Cn )
= P ((X1 , . . . , Xn ) ∈ Bn )
52
=
=
[P X (Cn )]2 .
P X (Cn ) · P X (Mn )
P X (A ∩ Cn ) = P X (A ∩ Mn ),
{τn X ∈ A ∩ Cn } = {X ∈ A ∩ Mn }.
lim [P X (Cn )]2
[P (A)]2 .
=
=
n→∞
X
lim P X (Cn ∩ Mn )
=
n→∞
0.
P X (A M Cn ) + P X (A M Mn )
2P X (A M Cn )
n→∞
n→∞
n→∞
n→∞
Somit folgt γ = X1 + γ P -fast-sicher und damit γ = ±∞, da X1 6= 0. Analoges folgt für lim sup Sn .
n→∞
lim inf Sn = γ = lim inf (X2 + . . . + Xn+1 ).
Beweis: Nach der vorhergehenden Folgerung gilt lim inf Sn = γ ∈ R. Also folgt aus der Annahme
n→∞
identisch verteilter Zufallsvariablen:
n→∞
c) lim inf Sn = −∞ und lim sup Sn = ∞.
n→∞
b) lim Sn = −∞ oder
n→∞
a) lim Sn = ∞,
Satz 8: Sei (Xn )n∈N eine Folge unabhängiger und identisch verteilter Zufallsvariablen auf (Ω, A, P ) mit
P (Xn = 0) < 1 für alle n ∈ N, so gilt für Sn = X1 + . . . + Xn entweder
n→∞
Beispiel: Zu einer Folge X = (Xn )n∈N unabhängiger und identisch verteilter Zufallsvariablen auf
(Ω, A, P ) gilt: lim sup(X1 + . . . + Xn ) und lim inf (X1 + . . . + Xn ) sind P -fast-sicher konstant.
Beweis: Für jede Zahl γ ∈ R = R ∪ {−∞} ∪ {∞} ist die Menge A = {g ≤ γ} bzgl. X permutierbar.
Also folgt: P X (g ≤ γ) = P X (A) ∈ {0, 1}.
P X (A)
=
n→∞
≤
=
Folgerung: Sei X = (Xn )n∈N eine Folge unabhängiger identisch verteilter Zufallsvariablen auf (Ω, A, P ).
Ist g : RN → R eine B∞ -B-meßbare Funktion, welche bzgl. der Folge X permutierbar ist, so ist die
Zufallsvariable g P X -fast-sicher konstant, d.h. g ◦ X ist P -fast-sicher konstant.
d) Also folgt aus a), b) und c):
P X (A M (Cn ∩ Mn ))
da X und τn X gleich verteilt sind. Da A M (Cn ∩ Mn ) ⊂ (A M Cn ) ∪ (A M Mn ), erhalten wir
Außerdem gilt
c) Nun gilt {τn X ∈ Cn } = {X ∈ Mn } nach Definition von Mn und {τn X ∈ A} = {X ∈ A}, da A
permutierbar ist. Also folgt:
P X (Cn ∩ Mn )
Wegen Cn ∈ σ(Π1 , . . . , Πn ) und Mn ∈ σ(Πk , k ≥ n + 1) sind Cn und Mn bzgl. P X unabhängig,
d.h.:
P (X ∈ Cn )
Sei nun Mn = {X ∈ RN | τn X ∈ Cn }. Da die Xn unabhängig und identisch verteilt sind, gilt:
3. Allgemeine Grenzwertsätze
26
3. Allgemeine Grenzwertsätze
f (X(ω))−
=
≤
max{0, −f (X(ω))}
max{0, −f (E(X)) − df (E(X) + 0)(X(ω) − E(X))}.
X
i=1
(∗)
ergibt sich:
erhalten wir
1
n
n
n
i=1 yi
yiαi ≤
qQ
i=1
n
Y
≤
n
αi yi .
1X
yi
n i=1
i=1
n
X
(∗∗)
27 Eine
Ludwig Jensen (1859-1925)
Funktion heißt konvex , wenn für alle x, y ∈ R und α ∈ (0, 1) gilt: f (αx + (1 − α)y) ≤ αf (x) + (1 − α)f (y).
26 Johan
für alle y1 , . . . , yn > 0. Diese Ungleichung wird auch als Ungleichung zwischen geometrischem und
arithmetischem Mittel bezeichnet.
Für αi =
Mit yi = e
xi
≤ E(e ). Für eine Zufallsvariable X auf einem endlichen
Folgerung: Es gilt insbesondere e
Wahrscheinlichkeitsraum (Ω, A, P ) mit Ω = {ω1 , . . . , ωn }, αi = P (ωi ) und xi = X(ωi ) für i = 1, . . . , n
gilt:
n
X
Pn
α i ex i .
eE(X) = e i=1 αi xi ≤
E(X)
E(f (X)) ≥ f (E(X)).
E(f (X)) ≥ f (E(X)) + df (E(X) + 0)(E(X − E(X))).
Da aber E(X − E(X)) = 0, gilt:
und somit:
f (X(ω)) − f (E(X)) − df (E(X) + 0)(X(ω) − E(X)) ≥ 0,
Somit gilt: E(f (X(ω))− ) < ∞. Aus (∗) folgt dann:
Daraus folgt:
f (X(ω)) ≥ f (E(X)) + df (E(X) + 0)(X(ω) − E(X)).
für alle x, y ∈ R. Folglich gilt für alle ω ∈ Ω:
f (y) ≥ f (x) + (df (x + 0))(y − x)
Beweis: Als konvexe Funktion auf R ist f stetig und somit meßbar. Y ist also eine Zufallsvariable.
Weiterhin besitzt f in allen Punkten eine rechtsseitige Ableitung df (x + 0) und es gilt
Satz 9 (Jensensche Ungleichung ): Sei X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit |E(X)| < ∞. Sei f : R → R eine konvexe Funktion27 . Dann ist Y = f (X) eine Zufallsvariable mit E(f (X)) < ∞ und es gilt f (E(X)) ≤ E(f (X)).
3.2. Gesetze der großen Zahlen
53
54
1
1
E(|X · Y |) ≤ (E(|X|p )) p · (E(|Y |q )) q .
1
1
E
Ã
1
p
|X|
1
(E(|Y |q ))
|Y |
(E(|X|p )) p
·
·
1
q
1
!
=
≤
1.
1
1
·1+ ·1
p
q
¶ p1 µ
¶ q1
|X|p
|Y |q
·
p
q
E(|X|)
E(|Y |)
µ
¶
µ
¶
1
|X|p
|Y |q
1
+
.
p E(|X|p )
q E(|Y |q )
µ
(E(|Y |q )) q
|Y |
≤
(∗∗)
=
+
1
q
1
q
)
≤
¢1
1 ¡
(E(|X|p )) p E((X + Y )(p−1)q ) q ,
¢1
1 ¡
p p
(p−1)q q
(E(|Y | )) E((X + Y )
) .
= p1 , folgt Teil b).
(E(|X + Y |p ))
1− q1
´
³
1
1
≤ (E(|X|p )) p + (E(|Y |p )) p .
´
³
1
1
1
E(|X + Y |p ) ≤ (E (|X + Y |p )) q · (E(|X|p )) p + (E(|Y |p )) p .
30 Dies
1
ε2
i=1
Var(Xi ).
falls g(ε) 6= 0.30
Hölder (1859-1937)
Minkowski (1864-1909)
ist die Tschebyscheffsche Ungleichung für g mit g(x) = x2 und X0 = Y − E(Y ).
29 Hermann
28 Otto
i=1
n
X
1
ε2 E(|X0 |).
1
g(ε) E(g(|X0 |)),
b) P (|X0 | ≥ ε) ≤
¯
ï n
!
¯X ¯
¯
¯
c) P ¯
Xi ¯ ≥ ε ≤
¯
¯
a) P (|X0 | ≥ ε) ≤
Satz 11: Seien X0 , X1 , . . . , Xn Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und
g : [0, ∞) → [0, ∞) eine streng monoton wachsende Funktion. Es gelte außerdem E(X i ) = 0 für i =
1, . . . , n, d.h. die Zufallsvariablen sind zentriert, und E(Xi · Xj ) = 0 für i, j = 1, . . . , n, i 6= j, d.h. X1 ,
. . . , Xn sind unkorreliert. Dann folgt für alle ε > 0:
Da 1 −
E(Y (X + Y )
≤
= 1, folgt pq = p + q und damit auch (p − 1)q = p. Also gilt:
Somit folgt:
Da
1
p
p−1
E(X(X + Y )p−1 )
Daraus folgt die Behauptung.
b) Sei ohne Beschränkung der Allgemeinheit X, Y > 0, E((X+Y )p ) > 0 und E(|X|p )+E(|Y |p ) < ∞.
Weiter gilt (X + Y )p = X(X + Y )p−1 + Y (X + Y )p−1 . Mit der Hölder-Ungleichung folgt:
Also folgt:
(E(|X|p ))
|X|
a) Ohne Beschränkung der Allgemeinheit sei 0 < E(|X|p ) < ∞ und 0 < E(|Y |p ) < ∞. Dann folgt:
Beweis:
1
(E(|X + Y |p )) p ≤ (E(|X|p )) p + (E(|Y |p )) p .
b) Die Minkowski-Ungleichung:
Im Fall p = q = 2 nennt man die Hölder-Ungleichung auch Cauchy-Schwarz-Ungleichung.
a) Die Hölder-Ungleichung:
Satz 10 (Ungleichungen von Hölder28 , Cauchy-Schwarz und Minkowski29 ): Seien X und Y
zwei Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) und p, q ∈ (1, ∞) mit p1 + 1q = 1.
Dann gelten folgende Ungleichungen:
3. Allgemeine Grenzwertsätze
55
ω|
Z
g(|X0 |)
≥1
g(ε)≥1
o
i=1
=
=
=
≤
1
g(|X0 |) dP
g(ε) Ω
1
E(g(|X0 |)).
g(ε)
n
g(|X0 |)
≥1}
g(ε)
n
ω|
n
1 X
Var(Xi ).
2
ε i=1
n
1 X
E(Xi2 )
2
ε i=1
n
n
1 XX
E(Xi · Xj )
2
ε i=1 j=1

!2 
g(|X0 |)
<1
g(ε)
n
1  X
E
Xi
ε2
i=1
Ã
Z
1 dP
g(|X0 |)
dP +
g(ε)
{ω|X0 (ω)≥ε}={ω|
¯
!
ï n
¯X ¯
¯
¯
Xi ¯ ≥ ε
P ¯
¯
¯
=
=
≤
Z
P (g(|X0 |) ≥ g(ε))
¶
µ
g(|X0 |)
≥1
= P
g(ε)
Z
=
=
o
g(|X0 |)
dP
g(ε)
n
1 X
P
Xi → 0.
an i=1
Satz 13 (Schwaches Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von Zufallsvariablen auf
einem Wahrscheinlichkeitsraum (Ω, A, P ) mit E(Xn ) = 0, E(Xn2 ) < ∞ und E(Xn · Xm ) = 0 für n, m ∈ N
n
1 X
E(Xi2 ) = 0 erhalten wir:
mit n 6= m. Für jede Folge (an )n∈N von reellen Zahlen mit lim 2
n→∞ an
i=1
Beweis: ,→ Übung.
Lemma 12: Seien (Xn )n∈N und X Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ), so
P
folgt aus Xn → X f.s. auch Xn → X, aber nicht umgekehrt.
b) Wir sagen, (Xn )n∈N konvergiert P -fast-sicher oder konvergiert stark gegen X (Xn → X f.s.), falls
P ({ω | Xn (ω) → X(ω), n → ∞}) = 1.
a) Wir sagen, (Xn )n∈N konvergiert P -stochastisch oder konvergiert schwach gegen X (X n → X), falls
P (|Xn − X| > ε) → 0 (n → ∞) für alle ε > 0 gilt.
P
Definition 4: Sei (Xn )n∈N eine Folge von Zufallsvariablen und X eine Zufallsvariable auf (Ω, A, P ).
c)
P (|X0 | ≥ ε)
b) Wir unterscheiden zwischen ω mit X0 (ω) ≥ ε und ω mit X0 (ω) < ε:
a) Ist ein Spezialfall von b).
Beweis:
3. Allgemeine Grenzwertsätze
→
=
≤
0.
(n → ∞)
n
1 X
E(Xi2 )
ε2 a2n i=1
µ ¶
n
Xi
1 X
Var
ε2 i=1
an
n
n
1X
P
Yi → E(Y1 ).
n i=1
1
n
i=1
n
X
f.s.
(Xi − E(Xi )) → 0.
i=1
(n)
i=1
kn
1 X
f.s.
X + → E(Xi+ ).
kn i=1 i
iv) Ersetze nun Yi durch Xi+ , weise also nach:
kn
1 X
f.s.
Yi → E(Xi+ ).
kn i=1
iii) Ersetze nun E(Yi ) durch E(Xi+ ), weise also nach:
ii) Für α > 1 sei kn = [αn ] ∈ N und Yi = Xi+ · I(Xi+ < n) gekappte“ Zufallsvariablen. Nach
”
einiger Rechnung erhält man:
¯
¯
kn
¯ 1 X
¯
¯
¯ f.s.
(Yi − E(Yi ))¯ → 0.
¯
¯ kn
¯
i=1
Beweis:
a) ,→ Übung.
b) Siehe Bauer, Maß- und Integrationstheorie, für die ausführliche Fassung des Beweises. Hier eine
Beweisskizze:
n
n
X
X
f.s.
f.s.
i) Es reicht zu zeigen, daß n1
Xi+ → E(X1+ ) und n1
Xi− → E(X1+ ).
Dann folgt:
a) Var(Xn ) ≤ m < ∞ für alle n ∈ N erfüllen oder
b) integrierbar und identisch verteilt sind.
Satz 14 (Starkes Gesetz der großen Zahlen): Sei (Xn )n∈N eine Folge von paarweisen unabhängigen
Zufallsvariablen, die entweder
Außerdem folgt sofort das Bernoullische schwache Gesetz der großen Zahlen für binomialverteilte Zufallsvariablen (siehe Seite 23).
1X
P
(Yi − E(Yi )) → 0
n i=1
⇐⇒
n
1 X
1
Var(Yi ) = lim Var(Y1 ) = 0
2
n→∞ n
n i=1
die Voraussetzungen erfüllt sind, gilt:
lim
n→∞
Da für Xn = Yn − E(Y1 ), n ∈ N, an = n wegen
i=1
¯
ï
!
n
¯
¯ 1 X
¯
¯
Xi ¯ ≥ ε
¯
¯
¯ an
56
Insbesondere folgt für eine Folge unabhängiger und identisch verteilter Zufallsvariablen (Yn )n∈N mit
Var(Yn ) < ∞:
n
1X
P
Yn =
Yi → E(Y1 ).
n i=1
P
Beweis: Sei ε > 0, so folgt:
3. Allgemeine Grenzwertsätze
3. Allgemeine Grenzwertsätze
1
#{i ∈ {1, . . . , n} | Xi ≤ t} =: Fn (t).
n
t∈R
sup |Fn (t) − F (t)| → 0.
f.s.
n
1X
f.s.
I(−∞,t] (Xi ) → F (t),
n i=1
=
=

≤ t
≤ F (t)
< tjk +1,k
≤ F (tjk +1,k − 0).
j,k∈N

und
Aj,k ∩ Bj,k  = 1. Sei nun ω ∈
j,k∈N
EP0 (f (X0 ))
für alle stetigen und beschränkten reellen Funktionen f : R → R gilt.
EPn (f (Xn ))
Wahrscheinlichkeitsraum (Ω0 , A0 , P0 ). Wir sagen, (Xn ) konvergiert in Verteilung gegen X0 (Xn → X0 ),
falls
Z
Z
f (Xn (ω)) dPn (ω) =
f (X0 (ω)) dP0 (ω)
lim
n→∞ Ω
Ω
| n
{z
} | 0
{z
}
für Wahrscheinlichkeitsräume (Ωn , An , Pn ), n ∈ N. Sei außerdem X0 eine Zufallsvariable auf einem
Xn : (Ωn , An , Pn ) → (R, B)
Definition 5 (Verteilungskonvergenz): Sei (Xn )n∈N eine Folge von Zufallsvariablen
3.4. Verteilungskonvergenz und zentraler Grenzwertsatz
d
Aj,k ∩Bj,k
Aus Fn (ω, tjk ,k ) → F (tjk ,k ) und Fn (ω, tjk +1,k − 0) → F (tjk +1,k − 0) folgt Fn (t) → F (t).
tjk ,k
F (tjk ,k )
und t ∈ R. Dann existieren k und jk mit
\
{ω | Fn (tj,k ) → F (tj,k )},
{ω | Fn (tj,k − 0) → F (tj,k − 0)}.
Dann folgt mit a): P (Aj,k ∩Bj,k ) = 1 und P 
Aj,k
Bj,k
b) Gleichmäßige Konvergenz.
Seien tj,k = inf{t ∈ R | F (t) ≥ kj } und
1
f.s.
Fn (t − 0) = I(−∞,t) (Xi ) → F (t − 0).
n
¡
¢
da E I(−∞,t] (Xi ) = F (t) ist. Damit gilt:
Fn (t) =
\
Für die Folge (Xn )n∈N unabhängiger und identisch verteilter Zufalls-
a) Punktweise Konvergenz.
Nach dem starken Gesetz der großen Zahlen gilt für alle t ∈ R
Beweis:
Satz 15 (Glivenko-Cantelli):
variablen gilt:
Fn ist (für jedes ω ∈ Ω) eine Treppenfunktion. Fn (t) ist für jedes t ∈ R eine Zufallsvariable.
F (t) = P (X ≤ t) ≈
In diesem Abschnitt betrachten wir eine Folge (Xn )n∈N von unabhängigen und identisch wie X verteilten
Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ). Als Approximation der Verteilungsfunktion von X kann die empirische Verteilungsfunktion Fn der Stichprobe X1 , . . . , Xn betrachtet werden:
3.3. Die empirische Verteilungsfunktion
57
58
d
≤
I1
=
=
=
{ω | |X0 | > Mε },
{ω | |X0 | ≤ Mε , |Xn − X0 | ≤ ε0 },
{ω | |X0 | ≤ Mε , |Xn − X0 | > ε0 }.
I3
Ωn
31 Wir
n→∞
schreiben auch kurz: f ∈ C (r) (R).
n→∞
Analog folgt: lim inf Fn (t) ≥ F0 (t) − ε. Insgesamt gilt dann: lim Fn (t) = F0 (t).
F0 (t + δ)
F0 (t) + ε.
=
≤
a) ⇒ b)“: Klar, da alle Funktionen f ∈ C (r) (R) auch stetig und beschränkt sind.
”
b) ⇒ c)“: Sei t ein Stetigkeitspunkt von F0 und ε > 0. Dann existiert ein δ > 0, so daß |F0 (t) −
”
F0 (s)| ≤ ε für alle |t − s| ≤ δ. Seien nun f und f aus C (r) (R) mit f (s) = f (s) = 1 für s < t − δ
und f (s) = f (s) = 0 für s > t + δ. Weiterhin gelte f (t) = 0 und f (t) = 1. f und f sind monoton
fallend. Es folgt:
Z
lim sup Fn (t) = lim sup I(−∞,t] (x) dFn (x)
n→∞
n→∞
Z
≤ lim sup f (x) dFn (x)
n→∞
Z
=
f (x) dF0 (x)
Z
≤
I(−∞,t+δ] (x) dF0 (x)
Beweis:
c) Fn (t) → F0 (t) für alle Stetigkeitspunkte t von F0 .
bis r-te Ableitung auf R gleichmäßig stetig und beschränkt sind31 für r ∈ N.
n→∞
a) Xn → X0 .
Z
Z
f (Xn ) dPn = f (X0 ) dP0 für alle r-mal differenzierbaren Funktionen f : R → R, deren 0-te
b) lim
d
Satz 17: Sei (Xn )n∈N∪{0} eine Folge von Zufallsvariablen mit Xn : (Ωn , An , Pn ) → (R, B), wobei
(Ωn , An , Pn ) Wahrscheinlichkeitsräume für n ∈ N ∪ {0} sind. Dann sind äquivalent:
Ω0
DieZUmkehrung ist im
Z Allgemeinen falsch. Sei zum BeispielPX n = −X0 ∼ N (0, 1) für
d
f (Xn ) dPn =
f (X0 ) dP0 und Xn → X0 , aber Xn 6→ X0 .
n ∈ N. Dann folgt:
Bemerkung:
≤ 2kf k∞ ε + ε + 2kf k∞ ε
= ε(4kf k∞ + 1).
2kf k∞ P (|X0 | > Mε ) + εP (|X0 | ≤ Mε , |Xn − X0 | ≤ ε0 )
+2kf k∞ P (|Xn − X0 | > ε0 )
I2
Es folgt dann mit einem genügend großen n, so daß P (|Xn − X0 | > ε0 ) ≤ ε gilt:
¯Z
¯Z
¯
¯ ¯Z
¯ ¯Z
¯
¯
¯
¯
¯ ¯
¯ ¯
¯
¯ g(ω) dP (ω)¯ ≤ ¯
g(ω) dP (ω)¯¯ + ¯¯
g(ω) dP (ω)¯¯ + ¯¯
g(ω) dP (ω)¯¯
¯
¯
¯
Ω
I1
I2
I3
Beweis: Sei ε > 0 beliebig. Dann existiert ein Mε < ∞ mit P (|X0 | ≤ Mε ) ≥ 1 − ε. Sei nun f
eine beliebige stetige und beschränkte Funktion. Dann ist f auf [−2Mε , 2Mε ] gleichmäßig stetig, d.h.
es existiert ein δ > 0 mit |f (x) − f (y)| ≤ ε für x ∈ [−2Mε , 2Mε ] und |x − y| ≤ δ. Definiere nun
g(ω) = f (Xn (ω)) − f (X0 (ω)), ε0 = min(Mε , δ) und
Xn → X0 , so gilt auch Xn → X0 .
P
Satz 16: Sei (Xn )n∈N eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
3. Allgemeine Grenzwertsätze
59
≤
→
≤
c), n→∞
2kf k∞ · [F0 (−M ) + 1 − F0 (M )]
4kf k∞ ε.
Sj
(kf k∞ + ε) 
j=1
m
X
|Fn (tj ) − F0 (tj ) − Fn (tj−1 ) + F0 (tj−1 )|
n→∞
n→∞
d
Somit gilt: Xn → δ{x0 } .
n→∞
f ür x < x0 ,
f ür x > x0 .
lim Fn (x) = 1
n→∞
n→∞
lim Fn (x) = 0
b) Es gelte Xn → δ{x0 } mit einer reellen Zahlenfolge {xn }n∈N , wobei δ das Einpunktmaß bezeichnet,
und lim xn = x0 ∈ R. Dann folgt:
gilt: Xn → X0 .
d
a) Seien Xn ∼ N (µn , σn2 ), X0 ∼ N (µ0 , σ02 ), σn2 > 0, σ02 > 0, lim µn = µ0 und lim σn2 = σ02 . Dann
Beispiele: Nun einige Beispiele für in Verteilung konvergente Folgen von Zufallsvariablen (Xn )n∈N .
n→∞
≤
c)
≤

(kf k∞ + ε)ε.
Z
Z
f (Xn ) dPn = f (X0 ) dP0 .
Insgesamt ergibt sich: lim
j=1
m
X
Für hinreichend große n folgt:
¯
¯
Sj ≤ (|f (tn )| + ε) · ¯[Fn (tj ) − Fn (tj−1 )] − [F0 (tj ) − F0 (tj−1 )]¯.

kf k∞ · [Fn (−M ) + 1 − Fn (M ) + F0 (−M ) + 1 − F0 (M )]
Nun eine Abschätzung für Sj :
Γ
Zunächst gilt:
Γ
Es gilt dann:
¯Z
¯ Z
Z
Z
m
X
¯
¯
¯ f (Xn ) dPn − f (X0 ) dP0 ¯ ≤
|f (Xn )| dPn +
|f (X0 )| dP0 +
Sj .
¯
¯
{|X |≥M }
{|X0 |≥M }
| n
{z
} j=1
für alle i = 1, . . . , m. Definiere
¯Z
¯
Z
¯
¯
¯
¯
f (Xn ) dPn −
f (X0 ) dP0 ¯
Sj := ¯
¯ {tj−1 ≤Xn ≤tj }
¯
{tj−1 <X0 <tj }
c) ⇒ a)“: Sei f : R → R eine beschränkte und stetige Funktion. Da F0 monoton ist, hat F0 höchstens
”
abzählbar viele Unstetigkeitsstellen UF0 . Wähle wieder zu ε > 0 ein M < ∞ mit −M, M ∈
/ U F0 ,
F0 (−M ) ≤ ε und F0 (M ) ≥ 1 − ε. Auf dem kompakten Intervall [−M, M ] ist f gleichmäßig stetig.
Wähle t0 , . . . , tm ∈ R \ UF0 mit −M = t0 < t1 < . . . < tm = M und
¯
sup{|f (x) − f (y)| ¯ x, y ∈ [ti−1 , ti ]} ≤ ε
3. Allgemeine Grenzwertsätze
60
=
Ωn
Ωn
kn
Sn d
1 X
Xn,j =
→ N (0, 1).
sn j=1
sn
∃δ > 0 :
kn
1 X
s2+δ
n
j=1
max
2
σn,j
→ 0.
s2n
b)
33 William
kn Z
1 X
X 2 dPn
s2n j=1 {|Xn,j |>εsn } n,j
Lyapunov (1857-1918)
Feller (1906-1970)
32 Aleksandr
a) Es gilt:
Beweis:
→
=
≤
kn
X
0.
E(|Xn,j |2+δ )
(n → ∞)
εδ s2+δ
n
j=1
1
¶δ
kn Z µ
|Xn,j |
1 X
2
Xn,j
dPn
s2n j=1
εsn
Es gilt also: Lyapunov-Bedingung =⇒ Lindeberg-Bedingung =⇒ Feller-Bedingung.
a)
Die Feller-Bedingung sagt aus, daß einzelne Summanden durch das Standardisieren an Bedeutung
verlieren.
1≤j≤kn
∞
(n → ∞)
<
EPn (|Xn,j |2+δ ) → 0
b) Die Lindeberg-Bedingung impliziert die Feller33 -Bedingung
impliziert die Lindeberg-Bedingung.
a) Die Lyapunov32 -Bedingung
Bemerkung:
Beweis: Der Beweis erfolgt nach der nächsten Bemerkung.
für alle ε > 0 erfüllt, so folgt:
Ist nur die Lindeberg-Bedingung
n Z
1 X
X 2 (ω) dPn (ω) → 0
s2n j=1 {ω | |Xn,j (ω)|>εsn } n,j
j=1
kn
X
2
σn,j
> 0.
2
Xn,j
(ω) dPn (ω)
Xn,j gelte auch
=
Z
s2n = VarPn (Sn ) =
j=1
kn
X
2
E(Xn,j
)
für alle j = 1, . . . , kn , n ∈ N. Für Sn =
2
σn,j
Satz 18:
Gegeben sei ein Dreiecksschema“ von Zufallsvariablen Xn,1 , . . . , Xn,kn : (Ωn , An , Pn ) →
”
(R, B) mit kn ∈ N. Xn,1 , . . . , Xn,kn sind stochastisch unabhängig für jedes n ∈ N. Gilt außerdem
Z
E(Xn,j ) =
Xn,j (ω) dPn (ω) = 0,
Nun die allgemeine Grenzwertaussage zu Satz 2.9. von de Moivre und Laplace (siehe auch Seite 25).
3. Allgemeine Grenzwertsätze
61
2
σn,j
s2n
Sn
sn
d
ε2 .
→ 0 nach Lindeberg
→ N (0, 1) bzw. für alle f ∈ C (3) (R) gilt:
Z µ ¶
Z
Sn
dPn → f dN (0, 1).
f
sn
≤
≤
=
h∈Q
=
¯
¯ 2
¯
¯h
sup ¯¯ (f 00 (x + ϑh) − f 00 (x))¯¯
x∈R 2
h 00
f (x + ϑh),
2
2
j=1
kn
X
j=1
kn
X
j=1
ηn,j
ηn,j ∼ N (0, 1). Um Unabhängig-
kn
X
j=1
Qnn,j
η
=
2
N (0, σn,j
).
Mit Hilfe der kanonischen Projektionen ξn,1 , . . . , ξn,kn und ηn,1 , . . . , ηn,kn (alle unabhängig) erhalten
wir dann für j = 1, . . . , kn :
ξ
X
Qnn,j = Pn n,j ,
j=1
geeigneten¢
keitsaussagen treffen zu können, müssen Xn,j und ηn,j für j = 1, . . . , kn auf einem
¡
Wahrscheinlichkeitsraum definiert sein. Dazu betrachten wir den Produktraum R2kn , B2kn , Qn
mit


 
kn
kn
O
O
2
PnXn,j  ⊗ 
N (0, σn,j
) .
Qn = 
1
s2n
Xn,j mit der Summe von normalverteilten Zufallsvariablen
≤
2
mit ηn,j ∼ N (0, σn,j
). Wir verwenden die Tatsache, daß
b) Wir vergleichen jetzt Sn =
½
K · min{h2 , h3 },
¯¾
1
1 ¯¯
¯
wobei K = max sup |f 00 (x) − f 00 (y)|, sup ¯f (3) (x)¯ < ∞. Nun folgt:
x,y∈R 2
x∈R 2
¯
¯
¯
¯
¯f (x + h1 ) − f (x + h2 ) − (h1 − h2 )f 0 (x) − 1 (h21 − h22 )f 00 (x)¯ ≤ g(h1 ) + g(h2 ).
¯
¯
2
g(h)
wobei ϑ = ϑ(x, h) ∈ (0, 1). Es folgt dann:
f (x + h) = f (x) + hf 0 (x) +
Mit dem Satz von Taylor folgt:
h∈R
sup |g(h)| = sup |g(h)|.
Dann ist g stetig, beschränkt und meßbar. Es gilt:
≤ε sn
1
max
|Xn,j |2 dPn
1≤j≤kn s2
n
Z
kn Z
1 X
1
|Xn,j |2 dPn + 2 max
|Xn,j |2 dPn
2
sn j=1 {|Xn,j |>εsn }
sn 1≤j≤kn {|Xn,j |≤εsn }
|
{z
}
|
{z
}
2 2
Z
Sei also f ∈ C (3) (R). Definiere g : R → R durch
¯
¯
¯
¯
h2
g(h) := sup ¯¯f (x + h) − f (x) − hf 0 (x) − f 00 (x)¯¯ .
2
x∈R
a) Zu zeigen:
Beweis zu Satz 18:
1≤j≤kn
max
b) Es gilt:
3. Allgemeine Grenzwertsätze
j=1
kn
X
S0
i<j
X
ξn,i +
i>j
X
j=1
Pk n
ηn,j
= N (0, 1).
h³
Das heißt:
≤
=
θn,j
sn
´i
=
0.
0
und
j=1
j=1
¯ · µ
¶
µ
¶
¯
¯E f θn,j + ξn,j − f θn,j + ηn,j
¯
sn
sn
µ
¶
µ
¶#¯¯
2
2
− ηn,j
θn,j
1 ξn,j
ξn,j − ηn,j 0 θn,j
¯
00
f
f
−
−
¯
¯
sn
sn
2
s2n
sn
µ µ
¶¶
µ µ
¶¶
ξn,j
ηn,j
E g
+E g
.
sn
sn
· f 00
³
¯ X
¯ µ µ ¶¶ Z
µ µ
µ µ
¶¶ X
¶¶
kn
kn
¯
¯
ξn,j
ηn,j
¯E f S n
E g
E g
− f dN (0, 1)¯¯ ≤
+
.
¯
sn
sn
sn
Also folgt aus a):
¯ · µ
¶
µ
¶¸¯
¯
¯
¯E f θn,j + ξn,j − f θn,j + ηn,j ¯
¯
¯
sn
sn
2
2
ξn,j
−ηn,j
2sn
´
d) Da θn,j , ξn,j und ηn,j stochastisch unabhängig sind, folgt:
´
³
´i
h³
ξn,j −ηn,j
θ
· f 0 sn,j
=
E
sn
n
≤
=
¯
¯
¯X
· µ
¶
µ
¶¸¯
¯ kn
¯
1
1
¯
E f
(θn,j + ξn,j ) − f
(θn,j + ηn,j ) ¯¯
¯
s
s
n
n
¯ j=1
¯
¶
µ
¶¸¯
kn ¯ · µ
X
¯
¯
1
1
¯E f
(θn,j + ξn,j ) − f
(θn,j + ηn,j ) ¯¯ .
¯
s
s
n
n
j=1
ηn,i für j = 1, . . . , kn folgt somit:
E
62
¶
µ
¶¸
· µ
1
1
(ξn,1 + . . . + ξn,kn ) − f
(ηn,1 + . . . + ηn,kn )
E f
sn
sn
· µ
¶
1
= E f
(ξn,1 + . . . + ξn,kn )
sn
µ
¶¸
1
−f
(ξn,1 + . . . + ξn,kn −1 + ηn,kn )
sn
· µ
¶
1
+E f
(ξn,1 + . . . + ξn,kn −1 + ηn,kn )
sn
¶¸
µ
1
(ξn,1 + . . . + ηn,kn −1 + ηn,kn )
−f
sn
+...
· µ
¶
1
+E f
(ξn,1 + ηn,2 + . . . + ηn,kn )
sn
µ
¶¸
1
−f
(ηn,1 + . . . + ηn,kn ) .
sn
=
¯
¯ µ µ 0 ¶¶ Z
¯
¯
¯
¯E f Sn
−
f
dN
(0,
1)
¯
¯
sn
Mit θn,j :=
1
ξn,j gilt dann Qnn = PnSn und Qnsn
c) Wir vergleichen nun:
µ µ 0 ¶¶ Z
Sn
− f dN (0, 1)
E f
sn
Mit Sn0 =
3. Allgemeine Grenzwertsätze
σ2
n,j
s2
n
3. Allgemeine Grenzwertsätze
≤
≤
¶
0
µ µ
¶¶
ηn,j
E g
→0
s
n
j=1
kn
X
K0
≤
n
=1
n
2
σn,j
σn,j X
max
.
2
j=1,...,kn sn
s
|
{z
} j=1 n
| {z }
→ 0 nach Feller
j=1
sn
¶3
kn µ
X
σn,j
(n → ∞).
K0
k
µ µ
¶¶
ηn,j
E g
sn
j=1
ï
¯ !
kn
X
¯ ηn,j ¯3
¯
K
E ¯¯
sn ¯
j=1
kn
X
≤
≤
≤
Pierre Lévy (1886-1971)
Beweis: ,→ Übung.
1 X
d
√
(Xj − µ) → N (0, 1).
σ n j=1
Satz von Lindeberg-Lévy34 : Es seien (Xn )n∈N : (Ω, A, P ) → (R, B) unabhängig und identisch verteilte Zufallsvariablen mit E(Xi ) = µ und Var(Xi ) = σ 2 ∈ (0, ∞) für alle i ∈ N. Dann folgt:
Es ergibt sich diese Folgerung:
Somit gilt:
f) Es gilt:
→ 0 nach Lindeberg
kn Z
1 X
ξ 2 dQn .
s2n j=1 {|ξn,j |>εsn } n,j
|
{z
}
ξn,j
sn
Kε + K
j=1
g
µ
µ µ
¶¶
kn
X
ξn,j
E g
Somit ergibt sich: lim
= 0.
n→∞
sn
j=1
0
kn
X
Summierung über j = 1, . . . , kn ergibt:
e) Sei nun ε > 0. Da g(h) ≤ K · min{h2 , h3 }, gilt:
µ µ
¶¶
ξn,j
0 ≤ E g
sn
¶
¶
µ
µ
Z
Z
ξn,j
ξn,j
dQn +
dQn
g
g
=
sn
sn
{|ξn,j |≤εsn }
{|ξn,j |>εsn }
¯
¯3
Z
Z
2
¯ ξn,j ¯
ξn,j
¯ dQn +
≤
K ¯¯
K 2 dQn
sn ¯
sn
{|ξn,j |≤εsn }
{|ξn,j |>εsn }
Z
Z
2
ξn,j
K
≤ Kε
dQn + 2
ξ 2 dQn .
2
sn {|ξn,j |>εsn } n,j
{|ξn,j |≤εsn } sn
|
{z
}
34 Paul
63
64
(Nullhypothese)
(Alternativhypothese)
ϕ : Ω → {[0, 1], B ∩ [0, 1]}
θ ∈ Θ0
θ ∈ Θ1
oder
⇐⇒
¢
¡
P |Tn−1 | > tn−1;1− α2 = α.
Diesen Test nennt man auch t-Test.
Wähle nun einen nicht-randomisierten Test ϕ mit
½
1 falls |T | > tn−1;1− α2
.
ϕ=
0 sonst
¡
¢
α
P Tn−1 ≤ tn−1;1− α2 = 1 −
2
n Sn
theorie, daß T ∼ tn−1 , falls θ = θ0 . Die Dichte von T nähert sich mit wachsendem n immer mehr
der Gaußschen Glockenkurve an.
Gegen H0 spricht, daß |T | besonders groß ist. Sei tn−1;1− α2 das 1 − α2 -Quantil, d.h. es gilt:
X−θ0
mit Θ0 = {θ0 } und Θ1 = R \ {θ0 }. Sei α = 5% und T = √
. Wir wissen aus der Stichproben1 2
b) Gegeben sei eine Stichprobe X1 , . . . , Xn unabhängig und identisch N (θ, σ 2 )-verteilter Zufallsvariablen und die Hypothese
gegen
H1 : θ 6= θ0
H0 : θ = θ 0
a) Kolmogoroff-Smirnov-Test. Siehe Übungsblatt 13, Aufgabe 2b).
Beispiele:
d) Ein Test, dessen α-Fehler für alle θ ∈ Θ0 höchstens gleich α ∈ [0, 1] ist, heißt Signifikanz-Test zum
(Signifikanz-)Niveau α oder kurz α-Test. In der Regel wird α = 0.05 verwendet.
c) Eθ (ϕ) für θ ∈ Θ0 heißt α-Fehler oder Fehler 1. Art. 1 − Eθ (ϕ) für θ ∈ Θ1 heißt β-Fehler oder
Fehler 2. Art.
b) Ein Test mit ϕ(ω) ∈ {0, 1} für alle ω ∈ Ω heißt nicht-randomisiert, ansonsten heißt er randomisiert.
heißt ein (statistischer) Test. Dabei gibt ϕ(ω) die Wahrscheinlichkeit dafür an, daß H0 abgelehnt
(oder verworfen) wird.
a) Jede meßbare Funktion
Definition 1:
zutrifft.
H0 :
H1 :
Sei nun Θ = Θ0 + Θ1 mit Θ0 , Θ1 6= ∅ und Θ0 ∩ Θ1 = ∅. Wir suchen Entscheidungsverfahren, ob für das
Wahrscheinlichkeitsmaß zu einer Realisierung
Im folgenden betrachten wir einen meßbaren Raum (Ω, A) und eine Familie von Wahrscheinlichkeitsmaßen
{Pθ | θ ∈ Θ} mit Θ 6= ∅ auf (Ω, A). In der Regel ist Ω = Rn , A = Bn und Pθ die Verteilung einer Stichprobe unabhängiger und identisch verteilter Zufallsvariablen X1 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω0 , A0 , Pθ0 ) mit Pθ0 = {Pθ | θ ∈ Θ}.
4. Testen statistischer Hypothesen
4. Testen statistischer Hypothesen
4. Testen statistischer Hypothesen
H0 : P = P 0
gegen
H 1 : P = P1 ,
ϕ∗ (ω) =
½
H 1 : P = P1 ,
1 f1 (ω) > C · f0 (ω)
.
0 f1 (ω) < C · f0 (ω)
gegen
ϕ∗ dP0 .

 1
γα

0
=
=
=
0
0
(θ0 e−θ x1 ) · . . . · (θ 0 e−θ xn )
(θe−θx1 ) · . . . · (θe−θxn )
µ 0 ¶n
0
θ
e−θ (x1 +...+xn )+θ(x1 +...xn )
θ
µ 0 ¶n
0
θ
e−(θ −θ)(x1 +...+xn ) .
θ
gegen
H1 : θ > θ0
∗
ϕ dP0 = α für den NP-Test
falls f1 (ω) > Cα · f0 (ω)
falls f1 (ω) = Cα · f0 (ω) .
falls f1 (ω) < Cα · f0 (ω)
Z
H0 : θ ≤ θ 0
H1 : θ > θ0
zum Signifikanzniveau α0 = Eθ0 (ϕα ).
H0 : θ ≤ θ 0
gegen
H1 : θ > θ 0
b) Für alle θ 0 ∈ Θ ist ϕα ein gleichmäßig bester Test für die Hypothesen
mit geeigneten Cα ∈ R, γα ∈ [0, 1], die durch Eθ0 (ϕα ) = α bestimmt sind.
falls t(x) > Cα
falls t(x) = Cα
falls t(x) < Cα
gegen
existiert ein gleichmäßig bester Test ϕα mit

 1
γα
ϕα (x) =

0
a) Zum Testen von
Satz 2: Sei Θ ⊂ R und die Zufallsvariable X (bzw. X = (X1 , . . . , Xn )) habe eine µ-Dichte fθ für ein
θ ∈ Θ. Die Familie von Verteilungen {Pθ | θ ∈ Θ} habe einen monotonen LQ in t. Sei α ∈ (0, 1). Dann
gilt:
H0 : θ ≤ θ 0
(größerer β-Fehler),
zu den Hypothesen
Eine Verallgemeinerung des NP-Testes für zusammengesetzte Hypothesen, falls ein monotoner LikelihoodQuotient existiert, ist gegeben durch

falls t(x) > Cα
 1
γα falls t(x) = Cα
ϕ(x) =

0
falls t(x) < Cα
Es existiert also ein monotoner Likelihood-Quotient in t mit t(x1 , . . . , xn ) = −(x1 + . . . + xn ).
fθ 0
fθ
Beispiel: Seien X1 , . . . , Xn unabhängig Exp(θ)-verteilt. Dann gilt für die Dichten des auf [0, ∞)
eingeschränkten Lebesguemaßes:
für geeignete Cα ∈ R, γα ∈ [0, 1].
Beweis: Der Beweis wird später in Abschnitt 4.3. nachgeholt.
ϕ∗ (ω) =
66
Definition 3: Sei {Pθ | θ ∈ Θ} mit Θ ⊂ R eine Familie von Verteilungen für eine Zufallsvariable X
(evtl. X = (X1 , . . . , Xn )) und sei µ ein σ-endliches Maß auf (R, B) (bzw. (Rn , Bn )). Seien fθ : R → R
(bzw. fθ : Rn → R) µ-Dichten von Pθ für alle θ ∈ Θ. Dann existiert ein monotoner Likelihood-Quotient
LQ in t : R → R (bzw. t : Rn → R), wenn für alle θ, θ 0 ∈ Θ mit θ 0 > 0 der Dichtequotient ffθθ0 eine in t
monoton nicht fallende Funktion ist.
4.2. Testen zusammengesetzter Hypothesen
4. Testen statistischer Hypothesen
(kleinerer α-Fehler)
Zu jedem α ∈ [0, 1] existiert ein Cα ∈ [0, ∞] und γα ∈ [0, 1], so daß
b) Existenz
d.h. ϕ∗ ist bester α∗ -Test mit α∗ =
Z
a) Optimalität
Ist ϕ∗ ein NP-Test, so gilt für jeden Test ϕ mit
Z
Z
ϕ∗ dP0
ϕ dP0 ≤
Z
Z
auch
ϕ dP1 ≤
ϕ∗ dP1
Satz 1 (Neyman-Pearson-Lemma): Unter den angegebenen Voraussetzungen gilt:
falls es ein C ∈ [0, ∞] gibt mit
H0 : P = P 0
b) Ein Test ϕ∗ heißt Neyman-Pearson-Test (NP-Test) für das Problem
falls gilt:
Z
i)
ϕ
b P0 (dω) ≤ α,
½Z
¾
Z
¯Z
¯
ϕ P1 (dω) ¯
ϕ P0 (dω) ≤ α .
ii)
ϕ
b P1 (dω) = sup
a) Ein Test ϕ
b heißt bester α-Test für das Problem
Definition 2:
Wir betrachten den Fall Θ0 = {0} und Θ1 = {1} für eine Familie {P0 , P1 } von Wahrscheinlichkeitsmaßen.
Seien f0 und f1 µ-Dichten bzgl. eines σ-endlichen Maßes auf (Ω, A).
4.1. Einfache Hypothesen
65
35 g
Z
ϕ dP1 ≤
Z
Z
Z
+
{x | f1 (x)<Cf0 (x)}
{x | f1 (x)=Cf0 (x)}
∗
ϕ∗ (x) =
≥0
½
0
1
∗
<f1
ϕ∗ dP0 folgt:
=f1
Z
≤0
>f1
(ϕ − ϕ) Cf0 dµ
| {z } |{z}
∗
(ϕ − ϕ) Cf0 dµ
|{z}
(ϕ − ϕ)f1 dµ
Z
ϕ∗ dP1 − ϕ dP1 .
Z
Z
ϕ dP0
¶
ϕ dP0 ≤
(ϕ∗ − ϕ) Cf0 dµ
| {z } |{z}
(ϕ∗ − ϕ)Cf0 dµ
ϕ∗ dP0 −
{x | f1 (x)>Cf0 (x)}
+
Z
C
Z
ϕ∗ dP1 , was zu zeigen war.
=
≤
=
=
≤
Z
Z
Z
ϕ∗ dP0 . Dann gilt:
(ϕ∗ − ϕ) dP1
≥
=
≥0
entspricht dem α-Fehler des NP-Tests mit C und γ = 1.
{x | f1 ≥0}
Offensichtlich ist g monoton fallend und linksstetig mit
Z
g(∞) =
f0 dµ
Z{x | f0 =0}
g(0) =
f0 dµ
{x | f1 (x)≥Cf (x)}
{x | f0 >0}
0,
1.
=
=
f0 dµ.35
(ϕ∗ − ϕ) f1 (x) dµ +
{x | f0 =0} | {z }
0.
Z
b) Existenz
Sei α ∈ [0, 1]. Betrachte g : [0, ∞) ∪ {∞} → R mit
Z
g(C) =
Z
= 0 µ−fast−überall
(ϕ∗ − ϕ)
| {z }
f1 (x) dµ
4. Testen statistischer Hypothesen
falls f0 > 0 (Cf0 > f1 )
.
falls f0 = 0
Z
Z
Z
Daraus folgt
ϕ∗ dP0 = ϕ∗ f0 dµ = 0 und somit
ϕ dP0 = 0. Es gilt also:
2. Fall: Sei nun C = ∞, also
Somit gilt
Z
0
µZ
Z
ϕ dP1 .
∗
ϕ dP0 ≤
ϕ dP1 ≥ 1 −
Z
1. Fall: Die Konstante C von ϕ∗ erfüllt 0 ≤ C < ∞. Aus
1−
Z
Sei ϕ∗ ein NP-Test und ϕ ein beliebiger Test mit
a) Optimalität
Beweis von Satz 1:
4.3. Ergänzende Beweise
67
E(ϕ∗ )
γα =
{x | f1 =Cf0 }
=
=
=
=
(
{x | f1 >Cα f0 }
ϕ∗ dP0 +
Z
{x | f1 =Cα f0 }
=g(Cα )−g(Cα +0)
g(Cα + 0) + α − g(Cα + 0)
α.
Z
ϕα dP0
dP0 + γ0
Z
{t=Cα }
dα fθ0 (x)
dα fθ0 (x)
≤
≥
fθ0 (x)
fθ0 (x)
für t(x) > Cα ,
für t(x) < Cα .
Eθ0 (ϕ) ≤ Eθ0 (ϕα ).
b) Dies folgt analog zu a) aus der NP-Eigenschaft.
und es folgt: Eθ0 (ϕ) ≤ Eθ0 (ϕα ).
Die Existenz von dα folgt aus der Monotonie der Dichtequotienten, also ist ϕα auch ein NP-Test
für
gegen
H1 : θ = θ 0 ,
H0 : θ = θ0
Sei dα ∈ [0, ∞) ∪ {∞} mit
dP0
Pθ0 (t > Cα ) + α − Pθ0 (t > Cα )
α.
=
=
{t>Cα }
Z
=
Optimalität: Sei θ 0 > θ0 und ϕ ein beliebiger α-Test, so ist zu zeigen:
dann folgt:
0
68
Dies ist möglich, da Pθ0 (t(x) > C) als Funktion von C monoton fallend ist, mit den Grenzwerten
1 und 0 für C → ±∞. Setze nun
(
0
falls Pθ0 (t(x) = Cα ) = 0
,
γα =
α−Pθ0 (t(x)>Cα )
sonst
Pθ
Cα = inf{C | Pθ0 (t(x) > C) ≤ α}.
Existenz: Das Verfahren ist analog zum Beweis von Satz 1, Abschnitt b). Setze hier
ϕ∗ dP
falls g(Cα ) = g(Cα + 0)
.
sonst
g(Cα + 0) + γα P (f1 = Cα f0 )
{z
}
|
Z
α−g(Cα +0)
g(Cα )−g(Cα +0)
0
a) Wir zeigen die Existenz und die Optimalität.
Beweis von Satz 2:
Es folgt:
Definiere
Setze Cα = sup{C | g(C) > α}. Dann gilt: g(Cα − 0) ≥ α und g(Cα + 0) ≤ α. Es folgt:
Z
dP0 = g(Cα ) − g(Cα + 0).
4. Testen statistischer Hypothesen
Anhang
Z
P (X = k) = (1 − p)pk−1
−∞
fX (x) dx
fX (t) =
fX (t) =
fX (t) =
fX (t) =
fX (t) =
Normalverteilung
Cauchy-Verteilung
χ2n -Verteilung
tn -Verteilung
Fn,m -Verteilung
1
t−µ
σ
)
n
1+
n
m+n
2
t 2 −1
(m+nt)
´ n+1
2
m
t2
n
n2m 2
³
m
Γ( n
2 )Γ( 2 )
Γ( m+n
2 )
Γ( n+1
2 )
√
Γ( n
2 ) nπ
n
t
1
t 2 −1 e− 2
n
2 2 Γ( n
2)
1
π(1+t2 )
√ 1
e− 2 (
2πσ 2
I(0,∞) (t)
FX (t) = 1 − e−λt
fX (t) = λe−λt
Exponentialverteilung
2
Verteilungsfunktion
t−a
FX (t) = b−a
Dichtefunktion
1
fX (t) = b−a
Bezeichnung
gleichmäßig stetige Verteilung
darstellen läßt. Die Funktion fX (x) bezeichnen wir als Dichtefunktion von X.
FX (t) =
t
Bekanntlich nennt man eine Zufallsgröße X stetig, wenn es eine integrierbare Funktion fX (x) ≥ 0 (−∞ <
x < ∞) derart gibt, daß sich die Verteilungsfunktion FX (t) = P (X ≤ t) für alle reellen t in der Form
A.2. Wichtige stetige Zufallsgrößen
Geometrische Verteilung
Hypergeometrische Verteilung


Poissonverteilung
λk −λ
e
k!


M  N − M

k
n−k


P (X = k) =
N 

n
P (X = k) =
Binomialverteilung
Bezeichnung
Einzelwahrscheinlichkeiten
µ
¶
n
P (X = k) =
pk (1 − p)n−k
k
{i | xi ≤t}
als Einzelwahrscheinlichkeiten der Zufallsgröße X. Durch Vorgabe der Einzelwahrscheinlichkeiten ist die
Verteilungsfunktion einer diskreten Zufallsgröße eindeutig bestimmt:
X
FX (t) = P (X ≤ t) =
P (X = xi ).
pi = P (X = xi )
Ist X eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . , so bezeichnen wir
A.1. Wichtige diskrete Zufallsgrößen
Anhang
69
X n → X0
d
L
Xn → X
p
P
Xn → X
Xn → X f.s.
n→∞
lim EPn (f (Xn )) = EP0 (f (X0 ))
E(|Xn − X|p ) → 0
P (|Xn − X| > ε) → 0 ∀ ε > 0
P ({ω | Xn (ω) → X(ω), n → ∞}) = 1
70
i=1
1≤i<j≤n
1≤i<j<k≤n
E(|X − E(X)|)
ε
∀ ε > 0.
B
f dµ für alle B ∈ B gilt. Ist zusätzlich
Wahrscheinlichkeitsdichte bezüglich µ.
%(B) =
Ω
f dµ = 1, so ist % eine Verteilung und f eine
• Blatt 9, Aufgabe 3
Sei (Ω, A, µ) ein Maßraum mit einem σ-endlichen Maß µ. Eine meßbare Funktion f : (Ω, A) → (R, B)
heißt µ-Dichte
eines Maßes % auf (R, B), falls f (ω)
Z ≥ 0 für alle ω ∈ A ∈ A mit µ(A) = 0 und
Z
• Blatt 8, Aufgabe 4
Sei X eine reellwertige Zufallsvariable mit Verteilungsfunktion F . Die Pseudoinverse F −1 : (0, 1) →
R sei erklärt durch
F −1 (u) := inf{x ∈ R | F (x) ≥ u} mit 0 < u < 1.
• Blatt 7, Aufgabe 1
Eine Abbildung X : Ω1 → Ω2 (Ωi jeweils mit einer σ-Algebra Ai versehen) heißt meßbar, falls
X −1 (A2 ) ∈ A1 für alle A2 ∈ A2 . Wir schreiben dann verkürzt: X : (Ω1 , A1 ) → (Ω2 , A2 ).
• Blatt 6, Aufgabe 1
Seien Zufallsvariablen Xn ∼ Bin(n, pn ) gegeben (n ∈ N) mit lim npn = λ ∈ [0, ∞). Dann gilt der
n→∞
Poissonscher Grenzwertsatz :
k
λ
lim P (Xn = k) = e−λ .
n→∞
k!
P (|X − E(X)| ≥ ε) ≤
• Blatt 5, Aufgabe 2
Sei X eine reellwertige Zufallsvariable, so gilt die Markov-Ungleichung:
i=1
• Blatt 3, Aufgabe 2
Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum, und sind A1 , . . . , An ∈ A, so gilt die Siebformel von
Sylvester-Poincaré:
à n
!
n
[
X
X
X
P
=
Ai
P (Ai ) −
P (Ai ∩ Aj ) +
P (Ai ∩ Aj ∩ Ak ) − + . . .
• Blatt 3, Aufgabe 1
Sei (Ω, A) ein meßbarer Raum. Ein Maß P auf (Ω, A) heißt vollständig, falls jede Teilmenge B einer
Menge A in A mit P (A) = 0 bereits in A liegt.
A.4. Nützliches aus den Übungen
®¶
Konvergenz in Verteilung
Satz 16
Konvergenz in Lp
fast-sichere Konvergenz
VVV
i
VVVV V
iiii
i
i
V VV
i
i
VVVV
iiii Tschebyscheff
i
Lemma 12
VVV &.
i
i
px
stochastische Konvergenz
Zwischen den einzelnen Konvergenzen gelten folgende Implikationen:
Konvergenz in Verteilung
Konvergenz in Lp
Stochastische (schwache) Konvergenz
Fast-sichere (starke) Konvergenz
A.3. Übersicht und Implikationen der Konvergenzen
Anhang
Literaturverzeichnis
[9] Pfanzagl, J. Elementare Wahrscheinlichkeitsrechnung, W. de Gruyter, 1988.
[8] Krickeberg, K. und Ziezold, H. Stochastische Methoden, Springer Hochschultext, 1988.
[7] Krengel, U. Einführung in die Wahrscheinlichkeitsrechnung und Statistik, Vieweg Studium, Aufbaukurs
Mathematik, 1988.
[6] Chung, K. L. Elementare Wahrscheinlichkeitstheorie und stochastische Prozesse, Springer Hochschultext, 1985.
[5] Brémaud, P. An Introduction to Probabilistic Modeling, Springer, 1988.
[4] Breiman, L. Probability, Addison-Wesley, 1968.
[3] Behnen, K. und Neuhaus, G. Grundkurs Stochastik, Teubner, 1995.
[2] Bauer, H. Wahrscheinlichkeitstheorie, W. de Gruyter, 1991.
[1] Bauer, H. Maß- und Integrationstheorie, W. de Gruyter, 1990.
Literaturverzeichnis
71
1
2
3
Exponentialverteilung (Verteilungsfunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Normalverteilung (Dichtefunktion) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B(4, 13 )-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Abbildungsverzeichnis
Abbildungsverzeichnis
11
12
18
72
Häufigkeit
relative, 4
Hypothese
Gaußsche Glockenkurve, 11
Grenzwertsatz
Poissonscher, 70
von de Moivre und Laplace, 25
Faltung, 41
Fehler
1. Art, 64
2. Art, 64
Feller-Bedingung, 60
einfache Funktion, 32
Elementarereignis, 7
Ereignis, 7
terminales, 50
Ergebnis, 7
Ergebnismenge, 7
Erwartungswert, 18
allgemeiner, 39
Cauchy-Schwarz-Ungleichung, 22
Erzeugendensystem, 7
Dichte, 29
Transformationssatz, 40
durchschnittsstabil, 49
Dynkin-System, 48
Cauchy-Schwarz-Ungleichung, 22
Bayes
Formel von, 13
β-Fehler, 64
Abbildung
meßbare, 70
Algebra, 6
Borelsche σ-, 8
erzeugte σ-, 19
Mengen-, 6
σ-, 7
σ- der terminalen Ereignisse, 50
α-Fehler, 64
α-Test, 64
bester, 65
Alternativhypothese, 64
Ausfallrate, 12
Index
73
Neyman-Pearson-Lemma, 65
Neyman-Pearson-Test, 65
nicht-randomiserter Test, 64
Niveau, 64
Null-Eins-Gesetz, 50
von Hewitt-Savage, 51
Markov-Ungleichung, 70
Maß, 8
Dirac-, 8
Einpunkt-, 8
Lebesgue-, 10
µ-Dichte, 70
σ-endlich, 38
vollständig, 70
Maßraum, 8
meßbar
Borel-, 27
meßbarer Raum, 7
Mittel
arithmetisches, 43
Moment
absolutes k-tes, 20, 30
zentrales k-tes, 20, 30
monotoner Likelihood-Quotient, 66
µ-Dichte, 70
µ-fast-sicher, 34
µ-fast-überall, 34
Multiplikationssatz, 14
Laplace-Wahrscheinlichkeiten, 8
Lemma von Fatou, 35
Lindeberg-Bedingung, 60
Lyapunov-Bedingung, 60
Kennwerte, 43
Kolmogoroff-Smirnov-Test, 64
Kolmogoroffsche Axiome, 8
konvex, 53
Korrelation, 21, 30
Kovarianz, 21, 30
Jensensche Ungleichung, 53
Indikatorfunktion, 8
Integral
µ-, 32, 37
Alternativ-, 64
Null-, 64
Index
Varianz, 20, 30
empirische, 43
Verteilung, 11
(absolut) stetige, 29
Binomial-, 17
unabhängig
paarweise, 15
stochastisch, 15, 19, 31
Ungleichung
Cauchy-Schwarz-, 22, 54
Hölder-, 54
Jensensche, 53
Markov-, 70
Minkowski-, 54
Tschebyscheffsche, 23
zwischen geometrischem und arithmetischem
Mittel, 53
t-Test, 64
Test, 64
α-, 64
Kolmogoroff-Smirnov-, 64
Neyman-Pearson, 65
nicht-randomisierter, 64
randomisierter, 64
Signifikanz-, 64
t-, 64
Transformationssatz für Dichten, 40
Tschebyscheffsche Ungleichung, 23
Satz von der majorisierten Konvergenz, 38
Satz von Fubini, 39
Schwaches Gesetz der großen Zahlen, 55
für binomialverteilte Zufallsvariablen, 23
Score, 17
Siebformel von Sylvester-Poincaré, 70
σ-Additivität, 8
Signifikanz-Niveau, 64
Signifikanz-Test, 64
Spur, 7
Standardabweichung, 20
Standardisierung, 41
Starkes Gesetz der großen Zahlen, 56
für binomialverteilte Zufallsvariablen, 27
Stirlingsche Formel, 23
System der lieben Mengen“, 27
”
randomisierter Test, 64
Permutation
endliche, 51
permutierbar, 51
Poissonscher Grenzwertsatz, 70
Produktraum, 38
Pseudoinverse, 70
Nullhypothese, 64
Nullmenge, 34
Index
Zählmaß, 8
Zufallsvariable, 16, 27
(absolut) stetige, 29
konvergiert P -fast-sicher, 55
konvergiert P -stochastisch, 55
konvergiert schwach, 55
konvergiert stark, 55
Wahrscheinlichkeit
bedingte, 12
Laplace-, 4
subjektive, 4
totale, 13
Wahrscheinlichkeitsmaß, 8
Wahrscheinlichkeitsraum, 8
abzählbarer, 8
endlicher, 16
Produkt-, 16
Wahrscheinlichkeitsverteilung, 11
χ2 -, 43
diskrete, 29
einer Zufallsvariablen, 17, 28
Exponential-, 11
F-, 45
Gauß, 11
Normal-, 11
Poisson-, 26
Studentsche, 44
t-, 44
Verteilungsfunktion, 11
empirische, 57
Pseudoinverse einer, 70
Verteilungskonvergenz, 57
74
Herunterladen