Wahrscheinlichkeit und mathematische Statistik

Wahrscheinlichkeit
und mathematische Statistik
Inoffizielles Skript
zur Vorlesung von Prof. Grecksch, SS 2009
geschrieben von Henning Seidler
Inhaltsverzeichnis
1 Zufällige Ereignisse
2
2 Wahrscheinlichkeitsraum, Anwendung
6
3 Zufallsgrößen, zufällige Vektoren
12
4 Charakteristische Funktionen
30
5 Gesetze der Großen Zahlen und Anwendungen in der Statistik
32
5.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Zum zentralen Grenzwertsatz
38
7 Maximum-Likelihood-Schätzungen
39
8 Zu Signifikanztesten
41
8.1 Gütefunktion eines Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.2 Konfidenzintervalle/Konfidenzschätzungen . . . . . . . . . . . . . . . . . . . . . . . 43
Einführung: vielfältige Erscheinungen in Wirtschaft (z.B. Ausfälle v. Maschinen, Aktien,...), atomarer Zerfall, Wachstumsprozesse, Verhalten v. Epidemien
Mathematische Modellierung
(i) komplizierter praktischer Sachverhalt
(ii) Erstellung eines mathematischen Modells (evtl. aus Zusammensetzung bisheriger Modelle)
(iii) Rückkopplung zur Praxis, Durchführung von Experimenten mit dem Modell
(iv) Interpretation des Ergebnis der Experimente, erneute Rückkopplung
Aufgabe der Statistik: Methoden bereit stellen, um Verteilungen zu erfassen, Schlussfolgerungen
von endlichen Stichproben ausgehend
1
1
Zufällige Ereignisse
Definition 1.1. Ein zufälliger Versuch ist ein Vorgang (in einem sehr allgemeinen Sinne), der
unter gleichen äußeren Bedingungen beliebig oft wiederholbar ist und dessen Ergebnis im Rahmen
verschiedener Möglichkeiten ungewiss ist.
Ein Ergebnis eines ZV heißt (zufälliges) Ereignis.
Das Ereignis, das bei jeder/keiner Versuchsdurchführung eintritt heißt sicheres/unmögliches Ereignis. Bez. Ω/∅
Folgerung: Sei A ein Ereignis. Dann ist A ⊆ Ω ⇒ Ereigniss als Mengen.
Die Elemente von Ω heißen Elementarereignisse.
Beispiel 1.2
1. idealer Würfel, Ω = {1, 2, 3, 4, 5, 6}, Ereignis z.B. A = {2, 4, 6}
2. Münze, Ω = {Zahl, Wappen}
3. Kartenspiele, Unfallstatistiken, Niederschlagsmessung, Ausbreitung von Epidemien, Umfragen
Bemerkung 1.3. In der Formulierung im Rahmen verschiedener Möglichkeiten“ soll nicht nur
”
der Fall endlich vieler Elementarereignisse enthalten sein, sondern auch unendlich vieler“ EE.
”
(abzählbar und überabzählbar)
Beispiel 1.4
1. Häufig in der Messtechnik: Toleranzbereiche (zulässige Abweichungen von einem
Sollwert), → Intervall [x0 − δ, x0 + δ] → unendlich viele EE.
2. Menge aller möglichen Kursentwicklungen einer Aktie im Zeitintervall [0, T ],
Ω = {ω : [0, T ] → R+ } - Menge von Funktionen
z.B. A = {ω ∈ Ω : ∃h, t > 0 : ω(t) > ω(t + h)} - der Kurs fällt zu irgendeinem
Zeitpunkt
3. Kurven der Brown’schen Molekularbewegung
4. Anzahl der bis zu einem Zeitpunkt t eingetroffenen Nachrichten
Beispiel 1.5
zwei Würfe eines Würfels: Dann sind die EE geordnete Paare, z.B. A: Summe ≥ 10,
A = {(5, 5), (5, 6), (6, 5), (6, 6)}
das konkrete Aufschreiben wird mühsam, insbesondere bei häufigen Durchführungen
Bemerkung 1.6. Einführung von Operationen mit Ereignissen, die ihre Entsprechung in der
Mengenlehre haben. Seien A, B ∈ Ω (Bilder fehlen noch)
Ω
A⊆Ω
A = Ω\A
A∩B
A⊆B
sicheres Ereignis
A ist Ereignis
A ist nicht eingetreten/Komplementärereignis
sowohl A als auch B ist eingetreten
A zieht B nach sich
dazu noch A ∪ B, A\B, A4B
2
Weiterhin:
n
S
Ai = A1 ∪ A2 ∪ ... ∪ An ,
∞
S
i=1
i=1
Ai = A1 ∪ A2 ∪ ... = {ω : ∃i : ω ∈ Ai }
(mindestens eines der Ereignisse Ai tritt ein.)
n
∞
T
T
Ai = A1 ∩ A2 ∩ ... ∩ An ,
Ai = A1 ∩ A2 ∩ ... = {ω : ∀i : ω ∈ Ai }
i=1
i=1
(alle Ereignisse Ai treten ein.)
Beispiel 1.7
Würfelexperiment (1mal): Betrachte A = {2} ∪ {4} = {2, 4}, B{3} ∩ {3, 5} = {3},
C = {3} = {1, 2, 4, 5, 6}
Beispiel 1.8
Ein technisches System bestehe aus 3 Teilsystemen, die in einem betrachteten Zeitraum
zufällig ausfallen können (oder auch nicht)
1. Kodierung: 0: steht für Ausfall, 1 steht für Nicht-Ausfall/intakt;
Ω = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}
2. A: Genau zwei Teilsysteme fallen aus, B: Teilsystem 1 fällt aus
A = {(0, 0, 1), (0, 1, 0), (1, 0, 0)}, B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1)},
A ∩ B = {(0, 0, 1), (0, 1, 0)} - System 1 fällt aus und genau ein Weiteres.
A ∪ B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0)}, A\B = {((1, 0, 0)},
A = Ω\A = {(0, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}
3. Man beschreibe (Ü.i.S = Übungsaufgabe im Selbststudium) C: kein Teilsystem
fällt aus, D: Höchstens ein Teilsystem fällt aus, E: Mindestens ein Teilsystem fällt
aus
weiterhin: A ∩ E, E\B, B ∩ C, B ∩ D in Mengen und in Worten
4. (Ü.i.s) Welche der Ereignisse sind paarweise unvereinbar (disjunkt)
Beispiel 1.9
1. Der zufällige Versuch bestehe im Verteilen und Ausfüllen eines Fragebogens mit
4 alternativen (unabhängigen) Entscheidungsfragen.
Ak : Ereignis, dass Frage k mit ”ja”beantwortet wird. (k = 1, 2, 3, 4)
A: Jede Frage wird mit ”ja”beantwortet, A = A1 ∩ A2 ∩ A3 ∩ A4
B: Es wird keine der Fragen mit ”ja”beantwortet, B = A1 ∩ A2 ∩ A3 ∩ A4 !!
4
T
S
Ak ∩
Ai
C: Es wird genau eine Frage mit ”nein”beantwortet. C =
k=1
i6=k
D: Mindestens eine Frage mit ”ja”beantwortet, D = A1 ∪ A2 ∪ A3 ∪ A4
E: Es werden genau zwei Fragen mit
! ”ja”beantwortet.
4
S
S
E=
Ak ∩ A i ∩
Aj
i,k=1,i6=k
j6=i,k
2. *Bildchen*
Ai : Element i fällt aus, C: System fällt aus (am Ausgang kommt nichts an),
0-Ausfall, 1-intakt, Ω = {(a1 , a2 , a3 , a4 , a5 ) : ai ∈ {0, 1}, i = 1, ..., 5}
C = A1 ∪ ((A2 ∪ A3 ) ∩ A4 ) ∪ A5
3
Doch wichtiger ist eine Maßzahl für die Häufigkeit des Eintreffen des Ereignisses. Hierbei stellt sich die Frage, wie sich die Wahrscheinlichkeit von verküpften
Ereignissen verhält. Zudem benötigt man eigentlich die Wahrscheinlichkeiten der
Teilereignisse. Diese sind aber oftmals nur näherungsweise bekannt.
Definition 1.10. Sei (An )n∈N eine Folge von Ereignissen (aus Ω).
∞ ∞
S
T
1. lim inf An :=
Ai Dies ist das Ereignis, das darin besteht, dass alle Ereignisse einn→∞
n=1
i=n
treten, ausgenommen einer endlichen Anzahl von Ereignissen Ai .
Es gibt ein n ∈ N, sodass alle Ai für i ≥ n erfüllt sind.
!
!
!
∞
∞
∞
\
\
\
lim inf An =
Ai ∪
Ai ∪ ... ∪
Ai ∪ ...
n→∞
∞
T
2. lim sup An =
n→∞
∞
S
n=1
i=1
i=2
i=n
Ai
i=n
3. Eine Folge von Ereignissen (An )n∈N heißt monoton wachsend, wenn ∀n : An ⊆ An+1 und
monoton fallen, wenn ∀n : An+1 ⊆ An (streng monoton im Fall ⊂)
1. Eine Folge von Ereignissen (An )n∈N , An ⊂ Ω erfüllt die Regeln von de Morgan
Satz 1.11.
a)
∞
S
An =
i=1
b)
∞
T
∞
T
An
i=1
An =
i=1
∞
S
An
i=1
Bemerkung: Dies gilt auch für beliebige Familien.
2. Es gilt stets lim inf An ⊆ lim sup An
n→∞
n→∞
∞
S
3. Wenn (An ) monoton wachsend, dann lim inf = lim sup An =
n→∞
An
n=1
∞
T
4. Wenn (An ) monoton fällt, dann lim inf An = lim sup An =
An
!
n=1
∞
∞
∞
[
[
[
Beweis.
1. (a)
ω∈
/
An ⇔ ω ∈ Ω\
An ⇔ ω ∈
An ⇔ ∀n : ω ∈
/ An
n=1
n=1
n=1
⇔ ∀n : ω ∈ Ω\An ⇔ ∀n : ω ∈ An ⇔ ω ∈
∞
\
n=1
(b)
∞
[

An = 
n=1
Wegen
∞
T
An ⊆
n=nω
∞
S
∀m : ω ∈
n=m
∞
S
(a)
An
=
n=1
2. Es gilt ω ∈ lim inf An ⇒ ∃nω : ω ∈
n→∞
∞
[
!
∞
T
n=1
An für alle m gilt also:
n=m
∞ S
∞
T
m=1 n=m
!
An
=
∞
\
n=1
An ⇒ ∀n ≥ nω : ω ∈ An
n=nω
An ⇒ ω ∈
∞
\
An = lim sup An
n→∞
4
An
An
3. für eine monoton wachsende Folge von Ereignissen gilt:
∞
S
lim inf An =
n→∞
An . Nach Def. ist lim sup An ⊆
n→∞
n=1
Ak = An für alle n Daraus folgt
k=
An . Nach (2) folgt nun Gleichheit. Und
n=1
∞
S
wegen dieser Beziehung gilt auch lim inf An =
n→∞
∞
S
∞
T
An .
n=1
4. analog zu (3)
Definition 1.12. Eine Menge F von Ereignissen aus Ω 6= ∅ heißt Ereignisfeld (σ-Algebra), wenn:
1. F 6= ∅
2. A ∈ F ⇒ Ω\A ∈ F
∞
S
3. (An )n∈N ⊂ F ⇒
An ∈ F
n=1
Sprechweise: das Paar (Ω, F) wird bezeichnet als ”messbarer Raum”.
Beispiel 1.13
1. Die Potenzmenge einer Menge Ω ist ein Ereignisfeld.
2. Zu allen betrachteten Beispielen mit endlicher Menge Ω ist die Potenzmenge das
zugehörige Ereignisfeld.
3. Für unendliche Ω ist im Allgemeinen die Potenzmenge zu groß“ (im Sinne von
”
sie ist ungeeignet“).
”
4. Seien (Ω, F), (Ω∗ , F∗ ) messbare Räume. T : Ω → Ω∗ eine Funktion. Dann ist
FT = {T −1 (A∗ ) : A∗ ∈ F∗ } (Menge aller Urbilder) ein Ereignisfeld in Ω, denn
T −1 (A∗ ) = {ω : T (ω) ∈ A∗ }, A∗ ∈ F∗ . Nun ist
Ω\T −1 (|{z}
A∗ ) = {ω : T (ω) ∈
/ A∗ } = {ω : T (ω) ∈ Ω∗ \A∗ } = T −1 (Ω∗ \A∗ )} ∈ F∗
| {z }
∗
∈F
∈F∗
Also ist Ω\T −1 (A∗ ) ∈ F∗ . Somit ist die zweite Eigenschaft erfüllt.
Sei (An )n∈N ⊆ FT ⇒ Ai = T −1 (A∗i ). Somit ist
∞
[
An =
n=1
∞
[
T −1 (A∗n ) = {ω ∈ Ω : ∃n : ω ∈ T −1 (A∗n )}
n=1
∞
[
(
= {ω ∈ Ω : ∃n : T (ω) ∈ A∗n } =
∞
[
(
=
ω ∈ Ω : ω ∈ T −1
ω ∈ Ω : T (ω) ∈
∞
[
!)
A∗n
= T −1
n=1
Damit ist die dritte Bedingung erfüllt.
Folgerung 1.14. Sei F ein Ereignisfeld. Dann gilt
5
A∗n
n=1
!
A∗n
∈ FT
n=1
|
)
{z
=:A∗ ∈F∗
}
1. ∅, Ω ∈ F
2. A, B ∈ F ⇒ A ∩ B, A\B, A4B ∈ F
3. (An )n∈N ⊆ F ⇒
∞
T
n=1
Beweis.
An , lim inf An , lim sup An ∈ F
n→∞
n→∞
1. Nach Axiom (1) gibt es ein A ∈ F. Somit ist ∅ = A\A ∈ F und Ω = Ω\∅ ∈ F
2. A ∩ B = Ω\((Ω\A) ∪ (Ω\B))
Rest ist Ü.i.S.
Lemma 1.15. F0 sei eine Menge von Ereignissen (aus Ω). Dann existiert in der Potenzmenge
von Ω (Bez. P(Ω) ein kleinstes Ereignisfeld (Bez. σ{F0 }) d.h σ{F0 } ist das Ereignisfeld, das F0
enthält und für jedes andere Ereignisfeld S, das ebenfalls F0 enthält, gilt σ{F0 } ⊆ S.
T
Beweis. Betrachte σ{F0 } := {S : F0 ⊂ S, S ist Ereignisfeld} ⊇ F0 6= ∅ ist ein Ereignisfeld, da es
ein Schnitt von Ereignisfeldern ist.
Wegen dieser Definition ist auch F0 ∈ σ{F0 } und σ{F0 } ist minimal.
Beispiel 1.16
1. Betrachte < a1 , b1 >, ..., < an , bn >⊂ R seien Intervalle. F0 : System aller endlichen
Vereinigungen von Intervallen. Dann ist σ{F0 } = B1 (σ-Algebra der Borelmengen
aus R1 ). B1 wird erzeugt von {] − ∞, c] : c ∈ R} und vielen anderen.
2. Entsprechend Bn im n-dimensionalen. B1 , Bn sind also Ereignisfelder (σ-Algebren).
Es fehlt: Wie kann die Ungewissheit“ in 1.1 beschrieben“ werden?⇒ Wahrscheinlichkeit von Er”
”
eignissen
Kapitel 2
(R2 , B1 ) ist ein Beipsiel für einen messbaren Raum (insbes. für ein Ereignisfeld), ebenso (Rn , Bn )
Wie gelangt man von (Ω, F) in (R1 , B1 ), sodass der Rahmen von Ereignissen aus F nicht verlassen
wird?
Wie wird dabei die Wahrscheinlichkeit auf (Ω, F) in eine Wahrscheinlichkeit auf (R1 , B1 ) transformiert?
Kapitel 3
Bemerkung 1.17. Sei (Ω, F)) ein messbarer Raum,
(
1 :ω∈A
A ∈ F, 1A (ω) =
0 : sonst
Seien A, B ∈ F. Dann ist 1A∩B (ω) = 1A (ω) · 1B (ω) und 1A∪B (ω) = max{1A (ω), 1b (ω)},
1A (ω) = 1Ω (ω) − 1A (ω), 1A\B (ω) = 1A∩B (ω) = 1A (ω)(1Ω (ω) − 1B (ω)) = 1A (ω) − 1A∩B (ω)
2
Wahrscheinlichkeitsraum, Anwendung
Definition 2.1. Sei (Ω, F) ein messbarer Raum. Eine Abbildung P : F → R heißt Wahrscheinlichkeit, wenn folgende Bedingungen erfüllt sind:
1. P (Ω) = 1
2. ∀A ∈ F : P (A) ≥ 0
6
3. Für jede Folge (An )n∈N ⊂ F von
Ereignissen
mit der Eigenschaft ∀i 6= j : Ai ∩ Aj = ∅ (Ai
∞
∞
S
P
sind paarweise disjunkt) gilt P
An =
P (An ) (1932: Kolmogorow)
n=1
n=1
Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum.
Bemerkung: (Ω, F, P ) sei vollständig, d.h. F enthält auch alle Nullereignisse (= {A : P (A) = 0}}).
Satz 2.2. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F. Dann gelten
1. P (A) = 1 − P (A), 0 ≤ P (A) ≤ 1
2. P (∅) = 0
3. P (A\B) = P (A) − P (A ∩ B), insbesondere B ⊆ A ⇒ P (A\B) = P (A) − P (B)
4. Wenn A ⊆ B, dann P (A) ≤ P (B) ( Monotonie“)
”
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
2.1(3)
Beweis.
1. A ∩ A = ∅, A ∪ A = Ω ⇒ P (Ω) = P (A ∪ A) = P (A) + P (A) ⇒ P (A) = 1 − P (A)
Ferner A ∈ F ⇒ P (A) ≥ 0 und 0 ≤ P (A) = 1 − P (A) ⇒ 0 ≤ P (A) ≤ 1
2. Anwendung von (1) mit A = Ω ⇒ A = ∅ ⇒ P (∅) = 1 − P (Ω) = 1 − 1 = 0
2.1(3)
3. A = (A ∩ B) ∪ (A\B), (A ∩ B) ∩ (A\B) = ∅ ⇒ P (A) = P (A ∩ B) + P (A\B)
⇒ P (A\B) = P (A) − P (A ∩ B)
Für B ⊂ A ist A ∩ B = B. Rest trivial
(3)
4. A ⊆ B ⇒ A ∩ B = A, B\A ∈ F ⇒ 0 ≤ P (B\A) = P (B) − P (A) ⇒ P (A) ≤ P (B)
5. Wegen A ∪ (A ∩ B) = A ∪ B und A ∩ (A ∩ B) = ∅ folgt mit 2.1(3)
P (A ∪ B) = P (A) + P (A ∩ B) = P (A) + P (B\A) = P (A) + P (B) − P (A ∩ B)
Satz 2.3. Sei (Ω, F, P ) Wahrscheinlichkeitsraum, (An )n∈N ⊂ F. Dann
n
n
n
S
P
P
1. P
Ai =
P (Ai ) −
P (Ai ∩ Aj ) + ... + (−1)n−1 P (A1 ∩ A2 ∩ ... ∩ An )
i=1
2. P
∞
S
n=1
i=1
Ai
≤
∞
P
i,j=1;i<j
P (Ai )
n=1
Satz 2.4. ( Stetigkeitseigenschaften von P“)
”
∞
S
1. Sei (An )n∈N ⊂ F monoton wachsend. Dann lim P (An ) = P
n→∞
2. Sei (An )n∈N ⊂ F monoton fallend. Dann lim P (An ) = P
n→∞
3. Sei (An )n∈N ⊂ F, A =
n=1
AN , dann lim P
n→∞
i=1
7
∞
T
n=1
n
S
An
n=1
∞
S
Ai
= P (A)
An
4. Sei (An )n∈N ⊂ F, A =
∞
T
An , dann lim P
n→∞
n=1
Beweis.
n
T
Ai
= P (A)
i=1
1. Setze B1 := A1 , B2 = A2 \A1 , ..., Bn := An \An−1 , ... Dann A :=
∞
S
n=1
An =
∞
S
Bn .
n=1
Die
der Definition
paarweise disjunkt. Also ist
i sind
B
nach ∞
∞
∞
S
S
P
P
An = P
Bn =
P (Bn ) = P (A1 ) + P (A2 \A1 ) + ...
n=1
n=1
n=1
= P (A1 ) + P (A2 ) − P (A1 ) + ... + P (An ) − P (An−1 + ... = lim P (An )
n→∞
(2) entsprechend, (3) auf (1) zurückführen, (4) auf (2) zurück führen
Beispiel 2.5
(Klassische Definition der Wahrscheinlichkeit, Laplace, 1759-1820)
Sei Ω = {ω1 , ..., ωn }, P (ω1 ) = P (ω2 ) = ... = P (ωn ) = n1 . F ist hierbei:
Anzahl der ωi mit ωi ∈ A
n
heißt klassische Wahrscheinlichkeit von A (Anzahl der für A günstigen Versuchsausgänge).
Die klassische Definition erfüllt 2.1: P (Ω) = nn = 1, Quotient nichtnegativer Werte ist
nichtnegativ, also P (A) ≥ 0. Seien A1 , A2 ∈ F, A1 ∩ A2 = ∅. A1 werde durch n1 EE
beschrieben, A2 durch n2 EE. P (A1 ) = nn1 , P (A2 ) = nn2 . A1 ∪ A2 wird durch n1 + n2
2
= P (A1 ) + P (A2 ). Nach Induktion ist die
EE beschrieben. Also ist P (A1 ∪ A2 ) = n1 +n
n
Erweiterung auf jede endliche Anzahl möglich.
F = P(Ω),
A∈F
P (A) =
Beispiel 2.6
1. Werfen eines idealen Würfels, Ω = {1, 2, 3, 4, 5, 6}, ωi = i, P (ωi ) = 61 . A: Es fällt
eine ungerade Augenzahl. P (A) = P ({1, 3, 5}) = 36 = 12 , Für A = {1, 2} ist
P (A) = 62 = 31
2. Das zufällige Experiment sei dreimaliges Werfen einer Münze, bei Beachtung der
Reihenfolge.
Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} enthält 23 = 8 EE. Diese treten
mit gleichem Wert 81 auf. A: Wie groß ist die Wahrscheinlichkeit, dass bei einem
Wurf Wappen“ genau zweimal vorkommt?
”
P (A) = P ({wwz, wzw, zww}) = 38
Definition 2.7. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, B ∈ F, mit P (B) > 0, A ∈ F.
P (A|B) := P P(A∩B)
heißt bedingte Wahrscheinlichkeit.
(B)
Folgerung 2.8. Sei (Ω, F, P ), B ∈ F, P (B) > 0. Dann ist für festes B auch (Ω, F, P (·|B)) ein
Wahrscheinlichkeitsraum.
Beweis. Es bleibt zu beweisen, P (·|B) besitzt die Eigenschaften der Def. 2.1.
2.7 P (B)
Nach Konstruktion ist ∀A ∈ F : P (A|B) > 0. P (Ω|B) = P P(Ω∩B)
= P (B) = 1.
(B)
Sei A1 , ..., An , ... ∈ F, Ai ∩ Aj = ∅ (i 6= j). Dann
∞
∞
S
S
!
(An ∩ B
P
An ∩ B
P
∞
[
2.7
n=1
n=1
P
An |B =
=
P
(B)
P (B)
n=1
(Ai ∩B)∩(Aj ∩B)=∅
=
∞
X
P (An ∩ B)
n=1
8
P (B)
=
∞
X
n=1
P (An |B)
Folgerung 2.9. (Multiplikationsregel) Sei (Ω, F, P ), A1 , ..., An ∈ F mit P (A1 ∩ ... ∩ An ) > 0 Dann
gilt
P (A1 ∩ ... ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · ... · P (An |A1 ∩ ... ∩ An−1 )
Beweis.
P (A1 ∩ ... ∩ An )
P (A1 ∩ A2 )
· ... ·
P (A1 )
P (A1 ∩ ... ∩ An−1 )
= P (A1 ∩ ... ∩ An )
2.7
P (A1 ) · ... · P (An |A1 ∩ ... ∩ An−1 ) = P (A1 ) ·
Alle Nenner snd von Null verschieden nach Voraussetzung. Jeder Zähler kürzt sich mit dem Nenner
des nächsten Faktors weg.
Beispiel 2.10
2.7 ist sinnvoll. Man habe eine Urne mit 100 gleich großen Kugeln in den Farben schwarz
und weiß und zweierlei Masse 10g und 500g.
weiß schwarz
10g
10
30
500g 45
15
Aus der Urne wird zufällig eine Kugel entnommen (klass. Wahrscheinlichkeit).
A: gezogene Kugel ist weiß. B gezogene Kugel besitzt die Masse 500g.
55
Hat man beim Herausnehmen der Kugel aus der Urne noch ehe die Farbe
P (A) = 100
festgestellt wird zweifelsfrei bemerkt, dass die Kugel schwer ist, so erwartet man jetzt
mit dieser Zusatzinformation (also des Eintretens von B) eine weiße Kugel mit der
= 0.75 Diese Wahrscheinlichket ergibt sich aus 2.1. Ferner ist
Wahrscheinlichkeit 45
60
P (A∩B)
P (B)
=
45
100
:
60
100
=
45
60
2.7
= 0.75 = P (A|B)
und P (B|A) = P P(A∩B)
unterscheiden sich hinMan beachte, dass P (A|B) = P P(A∩B)
(B)
(A)
45
sichtlich des Inhalts: P (B|A) = 55 die Wahrscheinlichkeit, dass eine weiße Kugel schwer
ist.
Satz 2.11. (Formel der totalen Wahrscheinlichkeit) Sei Ω = A1 ∪ ... ∪ An , Ai ∩ Aj = ∅ für
n
P
i 6= j, P (A1 ), ..., P (An ) > 0, B ∈ F Dann ist P (B) =
P (Ai )P (B|Ai )
i=1
Beweis. B =
n
S
i=1
(B ∩ Ai )) =
n
P
2.7
P (B ∩ Ai ) =
i=1
Bemerkung: 2.11 gilt auch für Ω =
n
P
P (Ai )P (B|Ai )
i=1
∞
S
An , Ai ∩ Aj = ∅ für i 6= j
n=1
Beispiel:
Urne 1: 3 weiße, 2 schwarze Kugeln; Urne 2: 1 weiße, 4 schwarze Kugeln;
Mit Wahrscheinlichkeit 12 wird eine Urne ausgewählt und dann willkürlich eine Kugel
gezogen. Wie groß ist die Wkt., dass eine weiße Kugel gezogen wird?
A1 Auswahl von Urne 1, A2 : Urne 2, P (A1 ) = P (A2 ) = 21 , A1 ∩ A2 = ∅,
P (A1 ) + P (A2 ) = 1, P (B|A1 ) = 35 , P (B|A2 ) = 15 . Die Formel für die totale Wkt liefert
nun: P (B) = P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) = 0.4.
Solche Sachverhalten treten beispielsweise in der Qualitätskontrolle auf.
9
SatzS2.12. (Formel von Bayes) Seien A1 , ..., An ∈ F, B ∈ F, P (B) > 0, Ai ∩ Aj (i 6= j),
Ω = Ai , P (Ai ) > 0 (i = 1, ..., n). Dann ist
P (Aj )P (B|Aj )
P (Aj |B) = P
n
P (Ai )P (B|Ai )
für j = 1, ..., n
i=1
Beweis.
P (Aj |B) =
P (Aj ∩ B) 2.11 P (Aj )P (B|Aj )
= P
n
P (B)
P (Ai )P (B|Ai )
i=1
S
Bemerkung: Sei Ω = Ai . Die Wkt P (Ai ) nennt man Priori-Wahrscheinlichkeiten. (Wkt. ohne
Nebenbedingungen).
Eine Vermutung/Hypothese B (Hinweise auf Ai ). Die P (Ai |B) nennt man Posteriori-Wkt.
Definition 2.13. (Unabhängigkeit von Ereignissen)
1. A, B ∈ F heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B).
2. Eine Folge (An ))n∈N von Ereignissen heißt Folge unabhängigen Ereignissen (unabhängig in
der Gesamtheit), wenn für alle endlichen Mengen {i1 , ..., in } ⊂ {1, 2, ...} gilt
P (Ai1 ∩ ... ∩ Ain ) = P (Ai1 ) · ... · P (Ain )
3. Eine Folge (An ))n∈N von Ereignissen heißt Folge von paarweisen unabhängigen Ereignissen,
wenn: ∀i 6= j : P (Ai ) · P (Aj ) = P (Ai )P (Aj )
4. (2) und (3) entsprechend für A1 , ..., An (endlich viele Ereignisse)
(B)
= P (A)·P
= P (A) Das heißt, das
Bemerkung 2.14.
1. Aus 2.13.1 folgt : P (A|B) = P P(A∩B)
(B)
P (B)
Entreten von B hat keinen Einfluss auf die Wkt des Eintreffens von A. Es gilt auch die
Umkehrung P (A|B) = P (A) ⇒ P (A ∩ B) = P (A) · P (B).
2. Bsp. Würfel: gefühlmäßig“ sind die Ereignisse Fallen einer 2“ und Fallen einer geraden
”
”
”
Augenzahl“ nicht unabhängig. Die Rechnung belegt:
P (A) · P (B) = 16 · 21 6= 16 = P ({2}) = P (A ∩ B)
3. Aus (2) in 2.13 folgt (3) in 2.13. Die Umkehrung gilt i.A. nicht.
Bsp.: 2maliger Münzwurf, Ω = {ww, wz, zw, zz}, A1 : beim ersten Wurf w“, A1 = {ww, wz},
”
A2 : Beim 2. Wurf w“, A2 = {ww, zw}, A3 : beide Würfe sind gleich, A3 = {ww, zz}
”
P (A1 ∩ A2 ) = P ({ww}) = 14 = 21 · 21 = P (A1 ) · P (A2 ) ⇒ A1 , A2 unabh.,analog A2 , A3 und
A1 , A3 jeweils unabhängig. Also sind A1 , A2 , A3 paarweise unabhängig.
Aber es ist P (A1 ∩A2 ∩A3 ) = P ({ww}) = 41 6= 18 = P (A1 )·P (A2 )·P (A3 ), Also sind A1 , A2 , A3
nicht in der Gesamtheit unabhängig.
4. In 2.13.2 steht ein System von Gleichungen. Nun: A1 , ..., An .
Aus P (A1 ∩ ... ∩ An ) = P (A1 ) · ... · P (An ) folgt i.A. nicht 2.13.2.
3-maliger Wurf einer Münze: Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} Wkt 81 .
A := {www, wwz, wzw, zww}, B := {www, wwz, wzw, wzz}, C := {www, zww, wzz, zzz}
Dann ist P (A) = P (B) = P (C) = 12 . P (A ∩ B ∩ C) = P ({www}) = 18 = P (A) · P (B) · P (C)
aber P (A ∩ B) = P ({www, wwz, wzw}) = 83 6= P (A) · P (B)
10
5. Man darf nicht unabhängig und disjunkt vermischen!
Satz 2.15. (Ω, F, P ), A, B ∈ F Dann sind folgende Aussagen äquivalent.
1. A, B unabhängig
2. A, B unabhängig
3. A, B unabhängig
4. A, B unabhängig
Beweis. (1) ⇔ (2) : P (B) − P (A)P (B) = (1 − P (A))P (B) = P (A) · P (B) = P (A ∩ B)
= P (A\B) = P (B) − P (A ∩ B). Also P (A) · P (B) = P (A ∩ B)
Rest folgt aus (1) und Symmetrie der Unabhängigkeit.
Lemma 2.16. (Borel-Cantelli)
1. Sei (An ) eine Folge von Ereignissen mit
∞
P
P (An ) < ∞ Dann ist P
n=1
2. Sei (An ) eine Folge unabhängigen Ereignissen mit
∞
P
lim An = 0.
n→∞
P (An ) = ∞. Dann P
n=1
∞
S
1. lim An ⊆
Ai für alle n ⇒ P lim A1 ≤ P
n→∞
i=n
n→∞ ⇒ P lim An = 0
Beweis.
∞
S
Ai
≤
i=n
∞
P
lim An = 1.
n→∞
n→∞
P (Ai ) −→ 0 ∀n
i=n
n→∞
2. Weil Ai unabhängig ⇒ Ai unabhängig.
!
!
∞
∞
[
[
Ai = 1 − P
P
Ai = 1 − P
i=n
∞
\
i=n
!
Ai
= 1 − lim P
m→∞
i=n
m
\
!
Ai
i=n
∞
∞
Y
Y
= 1 − lim P (A1 · ... · P (Am ) = 1 −
P (Ai ) = 1 − (1 − P (Ai ))
m→∞
i=n
i=n
kurzer Ausflug in Analysis: Taylorentwiklcung von e−x liefert:
∞
P
∞
∞
Y
Y
−
P (Ai )
−P (Ai )
0≤
(1 − P (Ai ) ≤
e
= e i=n
i=n
i=n
∞
∞
P
Q
Nun n fest. Nach Vorr. folgt
P (Ai ) = +∞. Also ist
(1 − P (Ai )) = 0 für jedes n. Also
i=n
∞ ∞ ∞ i=n
∞ S
S
T S
ist P
Ai für jedes n. P (lim sup An ) = P
An = lim P
Ai = 1
i=n
n→∞
n=1 i=n
n→∞
i=n
Definition 2.17. Gegeben sei ein zufälliger Versuch mit den Ausgängen A und A. Tritt bei nk
k
unabhängigen Versuchswiederholungen mk mal das Ereignis A ein, so heißt hnk (A) := m
relative
nk
Häufigkeit.
Bemerkung 2.18. hnk (A) hängt von konkretem Versuchsablaufstatt. Im Unterschied
zu P (A)
keine feste Zahl bei Vorgabe von A. Aber für n1 < n2 < ... gilt P lim hnk (A) = P (A) = 1, d.h.
k→∞
hnk (A) ist eine Näherung für P (A). (vgl. Kapitel 4,
11
statistische Definition der Wkt.)
3
Zufallsgrößen, zufällige Vektoren
Definition 3.1.
1. Eine Funktion X : Ω → R heißt eine (reelle) Zufallsgröße (zufällige Variable,...) falls ∀A ∈ B1 : X −1 (A) = {ω : X(ω) ∈ A} ∈ F
2. Seien X, Y Zufallsgrößen (Zgrn.). Dann heißt X + iY komplexe Zgr.
~ := (X1 , ..., Xn )T (n-dimensionaler) zufälliger Vek3. Sind X1 , ..., Xn reelle Zgr., dann heißt X
n
n
−1
tor. (X : Ω → R , ∀B ∈ B : X (B) ∈ F)
Bemerkung: Sei X : Ω → R Nach 1.13(3) wissen wir, dass {X −1 (A) : A ∈ B1 } eine σ-Algebra in
Ω erzeugt (also ein Ereignisfeld). In 3.1 fordern wir, dass dieses in F liegt, also: Der Rahmen des
Ereignisfeldes F wird nicht verlassen.
Beispiel 3.2
(
1 :ω∈A
Sei A ⊂ Ω, 1A (ω) =
ist Zgr. (zweipunkteverteilte Zgr.) wenn A ∈ F, denn:
0 :ω∈
/A
Sei X(ω) := 1A (ω), B ∈ B
Fall 1: B ∈ B mit 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F
Fall 2: B ∈ B mit 0 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F
Fall 3: B ∈ B mit 0, 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = Ω ∈ F
Fall 4: B ∈ B mit 0, 1 ∈
/ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = ∅ ∈ F
Also 1A erzeugt in F das Ereignisfeld {∅, A, A, Ω}
Beispiel 3.3
X heißt diskrete Zgr., wenn Ω =
∞
S
Ai , Ai ∩ Aj = ∅ (i 6= j), Ai ∈ F, P (Ai ) > 0
i=1
(i = 1, 2, ...), x1 , x2 , ... ∈ R und X(ω) =
∞
P
1Ai (ω)xi
i=1
Bemerkung 3.4.
1. oBdA x1 < x2 < ...
2. Sei B ∈ B beliebig. Zur Berechnung von P {ω : X(ω) ∈ B} ist die Kenntnis von pi := P (Ai )
erforderlich (i = 1, 2, ...)
S
P
P
−1
P {ω : X(ω) ∈ B} = P (X (B)) = P
Ai =
P (Ai ) =
pi .
i:xi ∈B
i:xi ∈B
i:xi ∈B
T
3. Damit können wir auch sagen: Eine diskrete
P Zgr. X ist beschrieben, wenn X = (x1 , x2 , ...)
mit pi = P {ω : X(ω) = xi } (i = 1, 2, ...),
pi = 1
i
Beispiel 3.5
Eine diskrete Zgr. X heißt binomialverteilte
Zgr., wenn X = k (0, 1, ..., n) mit n ∈ N
n k
n−k
gegeben und P {X = k} = k p (1 − p) , p ∈ (0, 1), k = 0, 1, ..., n
X ist diskrete Zgr., denn X = (0, 1, ..., n)T , P {X = k} ≥ 0,
n
n
P
P
n k
P {X = k} =
p (1 − p)n−k = (1 + (1 − p))n = 1
k
k=0
k=0
Interpretation: Zufallsexperiment mit den Ausgängen 1 und 0, wobei P (1) = p,
P (0) = 1 − p. Das Experiment werde n-mal unabhängig durchgeführt. X gebe an,
12
wieviel Mal die 1 eintritt.
Sei Ω = {(ω1 , ..., ωn ) : ωi ∈ {0, 1}, i = 1, ..., n}. Sei k ∈ {0, 1, ..., n}, k-mal sei 1
eingetreten. Folglich 0 ist n−k-mal eingetreten.
z.B. n = 7, k = 5. ω = (1, 1, 1, 0, 0, 1, 1).
7
5
2
Dann ist P (ω) = p (1 − p) , aber es gibt 5 mögliche Anordnungen der Einsen. Das
liefert dann die Formel.
Beispiel 3.6
k
X heißt Poissonverteilte Zgr, wenn X = (1, 2, ...)T und P {X = k} = λk! e−λ , wobei λ > 0
ein gegebener Parameter ist, k = 0, 1, 2, .... Das ist eine Zgr., denn: P {X = k} ≥ 0 und
∞
X
P {X = k} =
k=0
∞
X
λk
k=0
k!
−λ
e
−λ
=e
·
∞
X
λk
k=0
k!
= e−λ eλ = 1
Oft: λ
λt, t > 0 Zeit“, teilweise auch allgemeiner λ
λ(t)
”
z.B.: bei Versicherungen als Anzahl der Schäden, die bis zum Zeitpunkt t eingetreten
sind;
Bemerkung: 3.5 und 3.6 enthalten Parameter: (n, p), λ. um Wkt. entsprechend den Modellen 3.5, 3.6
zu ermitteln, müssen also diese Parameter bekannt sein. Bei 3.5: p wird mittels relativer Häufigkeit
angenähert, wenn p unbekannt.
λ kann als Intensität interpretiert werden. Kommt zum Begriff des Erwartungswerts.
Satz 3.7. Die folgenden Aussagen sind äquivalent.
1. X ist Zgr.
2. ∀x ∈ R : X −1 ((−∞, x)) ∈ F
3. ∀x ∈ R : X −1 ((−∞, x]) ∈ F
4. ∀x ∈ R : X −1 ((x, ∞)) ∈ F
5. ∀x ∈ R : X −1 ([x, ∞)) ∈ F
Beweis. (1) ⇒ (2): (−∞, x) = {y ∈ R : y < x} ∈ B
∞
T
(2) ⇒ (3): (−∞, x] =
−∞, x + n1 ⊇ (−∞, x],
n=1
∞
T
1
1
−1
−1
−1
X
−∞, x +
) ∈ F ∀n ⇒ X ((−∞, x]) =
X
−∞, x +
∈F
n
n
n=1
{z
}
{z
}
|
|
∈B
∈F
(3) ⇒ (4), (4) ⇒ (5) Ü.i.S.
(5) ⇒ (1): M := {A ⊆ R1 : X −1 (A) ∈ F} ist Ereignisfeld (über R1 ). G = {[x, ∞) : x ∈ R1 }
ist ein Teilsystem in M. Weiterhin wissen wir aus dem ersten Kapitel, dass σ(G) = B1 , G ⊆ M,
(M, σ(G) sind Ereignisfelder und da G ⊆ M, ist σ(G) ⊆ M) Daher für alle B ∈ σ(G) = B1 durch
B ∈ M und somit X −1 (B) ∈ F.
Bemerkung 3.8. 3.7 gilt sinngemäß auch für n-dimensionale zufällige Vektoren, wenn man z.B.
(−∞, x] durch (−∞, x1 ] × ... × (−∞, xn ], x1 , ..., xn ∈ R ersetzt.
13
Satz 3.9. Sei Y : Rn → R1 mit Y −1 (B) ∈ Bn für alle B ∈ B1 , X sei
n-dimensionaler zufälliger Vektor. Dann ist Y ◦ X := Y (X(ω)), ω ∈ Ω eine Zgr.
Beweis. Sei B ∈ B. Nach Voraussetzung ist Y −1 (B) ∈ Bn . X ist nach Voraussetzung ein
n-dimensionaler zufälliger Vektor ⇒ {ω : X(ω) ∈ Y −1 (B)} ∈ F. Folglich
(Y ◦ X)−1 (B) = {ω : Y (X(ω)) ∈ B} ∈ F. Das heißt, die Zusammensetzung definiert eine Zgr.
Mit diesem Satz kann man beweisen:
Folgerung 3.10. Seien X, Z Zgr. Dann
1. a ∈ R1 ⇒ a · X ist Zgr.
2. |X| ist Zgr.
3. X + Z ist Zgr.
4. X − Z ist Zgr.
5. X · Z ist Zgr.
6.
X
Z
ist Zgr. wenn für alle ω ∈ Ω gilt Z(ω) 6= 0.
7. min{X, Z}, max{X, Z} ist Zgr.
Satz 3.11. Seien X, Y Zgr. Dann:
{ω : X(ω) > Y (ω)} ∈ F, {ω : X(ω) ≥ Y (ω)} ∈ F, {ω : X(ω) = Y (ω)} ∈ F
T
Beweis. {ω : X(ω) > Y (ω)} =
({ω : X(ω) > r} ∩ {ω : r > Y (ω)}) ∈ F
|
{z
}
{z
}
r∈Q |
∈F
∈F
Da der abzählbare Durchschnitt von Ereignissen wieder ein Ereignis ist.
{ω : X(ω) ≥ Y (ω)} = Ω\{ω : Y (ω) < X(ω)} ∈ F
|
{z
}
∈F
{ω : X(ω) = Y (ω)} = {ω : X(ω) ≥ Y (ω)}\{ω : x(ω) > Y (ω)} ∈ F
|
|
{z
}
{z
}
∈F
∈F
Satz 3.12. Sei (Xn )n=1,2,... eine Folge von Zgr. Dann sind sup Xn , inf Xn , lim sup Xn , lim inf Xn
n
n
n→∞
n→∞
Zufallsgrößen.
∞
S
{ω : Xn (ω) > x} ∈ F
Beweis. Sei x ∈ R beliebig. Dann {ω : sup Xn (ω) > x} =
{z
}
n
n=1 |
|
{z
}
∈F
∃n:Xn >x
inf Xn = − sup(−Xn ) Somit folgt die Behauptung mit dem ersten Teil.
n
n
lim sup Xn = inf sup Xk ist ebenfalls Zgr.
n→∞
n≥1
k≥n
Satz 3.13. Sei X eine Zgr. Dann definiert
PX : B → R1 mit ∀B ∈ B : PX (B) := P (ω : X(ω) ∈ B} = P (X −1 (B)) eine Wahrscheinlichkeit
auf (R1 , B1 ) und PX heißt die durch X induzierte Wahrscheinlichkeit auf (R1 , B1 ).
X
Das bedeutet, der Wahrscheinlichkeitsraum wird transformiert. (Ω, F, P ) → (R, B1 , PX )
14
Beweis. Nachweis der Kolmogorov-Axiome.
(1) PX (B) ≥ 0 ist erfüllt, (2) PX (R) = {ω : X(ω) ∈ R} = 1
(3): Sei (Bn ) ∈ B mit Bi ∩ Bj = ∅(i 6= j). Dann ist
!
(
)
∞
∞
[
[
P
Bn = P ω : X(ω) ∈
Bn = P {ω : ∃n : X(ω) ∈ Bn }
n=1
n=1
=P
∞
[
!
X
−1
(Bn )
=
n=1
∞
X
P (X
−1
(Bn )) =
n=1
∞
X
PX (Bn )
n=1
Beispiel 3.14
Sei X eine diskrete Zgr. (3.4) Dann gilt für B ∈ B : PX (B) =
P
pi =
i:xi ∈B
P
P (Ai ).
i:xi ∈B
Also: Im Falle einer diskreten Zgr. ist Px durch xi , pi (i = 1, 2, ...) festgelegt.
Definition 3.15. Die Funktion FX : R → [0, 1] definiert durch
FX (x) := P {ω : X(ω) ≤ x} =: P (X(ω) ≤ x), (x ∈ R beliebig) heißt Verteilungsfunktion von X.
Beispiel 3.16
Sei X eine diskrete Zgr. mit den Werten x1 , x2 , ... und den zugehörigen Werten p1 , p2 , ...
Dann ist
3.14; B=(−∞,x] X
FX (x) = P {ω : X(ω) ≤ x}
=
pi
i:xi ≤x
Beispiel 3.17
(
1 :p
Sei X =
. Was ist FX (·)?
0 :1−p
P {ω : X(ω) < 0} = 0, FX (0) = P {ω : X(ω) ≤ 0} = P {ω : X(ω) = 0} = 1 − p = FX (x)
für alle x ∈ [0, 1).
FX (1) = P {ω : X(ω) ≤ 1} = P {ω : X(ω) ∈ {0, 1}} = 1 = FX (y) für alle y ≥ 1.
FX hat zwei Sprungstellen bei 0 und 1. Sie ist nicht stetig, aber rechtsstetig.
Definition 3.18. Eine Zgr. X heißt stetig, wenn eine Funktion fX : R → [0, ∞) existiert mit
R∞
Rx
fX (x)dx = 1 und FX (x) =
fX (t)dt. f heißt Dichtefunktion.
−∞
−∞
Bermerkung: Für A ∈ B wird durch PX (A) =
R
fX (t)dt eine Wahrscheinlichkeit auf (R, B) defi-
A
niert.
Wenn A = (−∞, x], dann:
PX (A)
X stetig
Zx
3.13
fX (t)dt = P {ω : X(ω) ≤ x} = P {ω : X(ω) ∈ A} = PX (A)
=
−∞
Sei nun A = (x, ∞). Dann
Z∞
PX (A) =
fX (t)dt =
x
Z∞
Z
fX (t)dt = PX (R)−PX ((−∞, x]) =
fX (t)dt−
−∞
R\(−∞,x]
15
Zx
−∞
fX (t)dt = 1−FX (x)
Sei nun fX stetig. A = [a, b], PX (A) =
PX (A) =
R
n
S
fX (t)dt =
Ai
n R
P
Rb
fX (t)dt, A =
n
S
Ai , (Ai ∩ Aj = ∅, i 6= j),
i=1
a
fX (t)dt
i=1 Ai
i=1
Speziell für Ai = [ai , bi ):
n Rbi
P
fX (t)dt =
i=1 ai
n
P
PX (Ai ) Fortsetzung auf B möglich.
i=1
Für A ∈ B schreibt man
Z
PX (A) =
A
 P

pi
: X diskret

i:xi ∈A
dFX (x) = R

 fX (t)dt : X stetig
A
(
(x, pi ), i = 1, 2, ... : diskr. Zgr
X
Also P → PX ⇔ FX →
fX
: stetige Zgr.
Beispiel 3.19
Eine Zgr. X heißt
( exponentialverteilt mit Parameter λ > 0, wenn X stetig ist mit der
λe−λx : x > 0
Dichte f (x) =
.
0
:x≤0
R∞
R∞
f ist Dichtefunktion, denn f (x) ≥ 0,
f (t)dt = λe−λx dt = 1.
−∞
0
(
−λx
1−e
:x>0
Es ist F (x) =
0
:x≤0
Anwendungen: Lebensdauerverteilungen (Wahrscheinlichkeit, dass ein Gegenstand eine gewisse Zeit funktioniert), Verweilzeiten in Zuständen (z.B. Zeiten zwischen dem
Eintreffen zweier Kunden im Supermarkt),
Diese Werte sind jedoch nur ermittelbar, wenn λ bekannt ist, (analog zu Binomialverteilung, Poisson, etc.)
Beispiel 3.20
X heißt über [a, b] gleichmäßig verteilt, wenn X stetig ist und
 f einer Rechteckverteilung
(

:x<a
0
1
:
x
∈
[a,
b]
x−a
b−a
Dann ist F (x) = b−a : a ≤ x ≤ b
genügt, also f (x) =

0
: sonst

1
:x>b

(

0 : x < 0
1 : x ∈ [0, 1]
, F (x) = x : x ∈ [0, 1]
speziell: a = 0, b = 1: f (x)

0 : sonst

1 :x>1
Ü.i.S.: Sei X über [a, b] gleichmäßig verteilt. Dann ist Y := X−a
über [0, 1] gleichmäßig
b−a
verteilt.
Satz 3.21. Ist X eine stetige Zgr. mit eineindeutiger Verteilungsfunktion F . Dann ist Y := F (X)
über [0, 1] gleichmäßig verteilt.
16
Beweis. Sei y ∈ [0, 1] beliebig.
FY (y) = P {ω : Y (ω) ≤ y} = P {ω : F (X(ω)) ≤ y}
F injektiv
=
P {ω : X(ω) ≤ F −1 (y)} = F (F −1 (y)) = y
FY (y) = 0 für y < 0 und aufgrund der Monotonie gilt FY (y) = 1 für y > 1. Also ist FY gleichmäßig
verteilt auf [0, 1]
Bemerkung 3.22.
1. Sind die Voraussetzungen von 3.21 erfüllt, so folgt aus diesem Satz, dass
X aus einer über [0, 1] gleichmäßig verteilten Zgr. transformiert/erzeugt/gewonnen werden
kann: X = F −1 (Y ).
2. Sei X exponentialverteilt (F auf [0, ∞) konzentriert und dort eineindeutig) Aus 3.21 folgt
Y = 1 − e−λX ist auf [0, 1] gleichmäßig verteilt ⇔ 1 − Y = e−λX ⇔ ln(1 − Y ) = −λX
⇔ X = − λ1 ln(1 − Y )
3. (1) ist besonders bei der Modellierung (Simulation) von Zgr. von Bedeutung. Als nach F verteilte (Pseudo-)Zufallszahlen bezeichnet man n-Tuppel (x1 , ..., xn ), die Realisierungen von n
(in der Gesamtheit) unabhängigen Zgr. X1 , ..., Xn , die alle die Verteilungsfunktion F besitzen.
(Im Sinne eines Signifikanztestes.) x1 , ..., xn werden im Allgemeinen über (deterministische)
Algorithmen erzeugt.
Gefahr: Zyklenbildung, regelmäßige Wiederholung der Werte
4. Sei


x1 : p1


X =  ...

xn : pn
FX (x) =
X
pi
xi ≤x
Zerlegung des Intervalls [0, 1]. I0 := (0, p0 ], ..., Ik := (p0 + ... + pk−1 , p0 + ... + pk ] Wir erzeugen
gleichverteilte Zufallszahlen α. αk ⇒ ∃ik : α ∈ Iik . Dann sind i1 , i2 , ... Realisierungen der
Zgr. X.
Beispiel 3.23
Eine stetige Zgr. X heißt normalverteilt mit den Parametern µ und σ 2
(Bez. X ∈ N(µ, σ 2 )), wenn ihre Dichte durch
φ(x; µ, σ 2 ) := √
1
2πσ 2
· e−
(x−µ)2
2σ 2
,x ∈ R
gegeben ist. Bei bekannten µ ∈ R, σ 2 > 0 ist also die Dichte bestimmbar. Die Verteilungssfunktion ist also durch
2
Φ(x; µ, σ ) := √
1
2πσ 2
Zx
e−
(x−µ)2
2σ 2
−∞
gegeben. Für µ = 0, σ 2 = 1. bestimmen wir für die Dichte bzw. die Verteilungsfunktion
Rx −t2
φ(x), Φ(x). Aus Analysis ist bekannt, dass
e dt nicht geschlossen integrierbar, aber
−∞
17
R∞
Φ(x, µ, σ 2 )dx = 1, o.B.d.A. µ = 0, σ 2 = 1.
−∞

Z∞

2

2
− t2
e
Z∞
dt = 
−∞

2
− x2
e
−∞
Z2π Z∞
=
φ=0 r=0
Z∞
dx 
−∞

2
− y2
e
Z∞ Z∞
dy  =
x2
y2
e− 2 − 2 dxdy
−∞ −∞
2 ∞
2
r
− r2
e rdrdφ = 2π − exp −
= 2π
1
r=0
Beispiel 3.24
Sei log zu irgendeiner Basis. Eine stetige Zgr. X heißt logarithmisch-normalverteilt mit
den Parametern µ, σ 2 , wenn gilt:
(
Φ(log x, µ, σ 2 ) : x > 0
FX (x) =
0:x≤x
X ist stetige Zgr., sodass log X ∈ N (µ, σ 2 ), x > 0. Für die Dichte gilt
0
log x
Z
(log
t−µ)
(log x−µ)2 log e
1
1
−
−
0
2
2


2σ
2σ
dt = √
e
e
fX (x) = FX (x) = √
x
2πσ 2
2πσ 2

0
Dichten sind asymmetrisch; spezielle Bedeutung: log = ln.
Anwendung: Lebensdauer, Konzentrationsrechnung in der Chemie
Beispiel 3.25
Eine stetige Zgr X heißt Weibull-verteilt mit den Parametern µ > 0, δ > 0, x0 ∈ R,
wenn

: x ≤ x0
0
δ fX (x) = δ x−x0 δ−1
0
µ
exp − x−x
: x > x0
µ
µ
µ-Maßstabsparameter, δ-Formparameter, x0 -Lageparameter. Also ist

0
: x ≤ x0
δ
FX (x) =
0
1 − exp − x−x
x > x0
µ
Spezialfall: x0 = 0, µ = 1 Reduzierte Weibull-Verteilung“
”
0
Substitutionsregel: Wenn X weibullverteilt mit den Parametern δ, µ, x0 ⇔ Y := X−x
µ
genügt eben einer reduzierten Weibull-Vert.
δ = 1, x0 = 0 ⇒ Exponentialverteilung mit Parameter µ1
Durch die drei eingehenden Parameter wesentlich vielseitiger: Lebensdauer, Zuverlässigkeiten,
Alterungen
Weibull-Vert. ist Beispiel einer Extremwerverteilung. Lebensdauer einer Serienschaltung, T = min{T1 , ..., Tn } unabh. exp. verteilt ⇒ T weibullverteilt.
18
Wenn wir unsere Beispiele betrachten, dann können wir bestimmte Eigenschaften von Verteilungsfunktionen für diskrete und stetige Zgr. feststellen. Diese Eigenschaften gelten auch allgemein.
Satz 3.27. Seien a, b ∈ R, a < b, FX Verteilungsfunktion einer Zgr. X.
1. P (a < X ≤ b) = F (b) − F (a)
2. P (X = b) = F (b) − lim F (b − ε)
ε→0
3. P (X < b) =
Beweis.
lim F (b − ε).
ε→0, ε>0
1. P (a < X ≤ b) = P ({X ≤ b}\{X ≤ a}) = P ({X ≤ b})−P ({X ≤ a}) = F (b)−F (a)
2. Sei (xn ) ⊂ R mit xn % b, also xn ≤ xn+1 , lim xn = b. Setze An := {xn < x ≤ b}. Dann ist
n→∞
∞
T
An ⊆ An+1 ∀n. Daraus folgt lim P (An ) = P
An = P (X = b) = F (b) − lim F (b − ε).
n→∞
ε→0
n=1
3. P (X < b) = P (X ≤ b) − P (X = b) = lim F (b − ε)
ε→0
Satz 3.28. Sei FX Verteilungsfunktion einer Zgr. X. Dann gilt
1. F ist monoton wachsend.
2. lim F (x) = 0
x→−∞
3. lim F (x) = 1
x→∞
4. F ist rechtsseitig stetig, d.h. F (x + 0) = F (x), wobei F (x + 0) = lim F (y) = F (x)
y&x
5. Die Menge der Unstetigkeitsstellen von F ist höchstens abzählbar.
Beweis.
1. Betrachte zu x1 < x2 : {ω : X(ω) ≤ x1 } ⊆ {ω : X(ω) ≤ x2 }. Wegen Monotonie des
Wahrscheinlichkeitsmaßes P gilt P ({ω : X(ω) ≤ x1 }) ≤ P ({ω : X(ω) ≤ x2 }),
d.h. F (x1 ) ≤ F (x2 ).
2. Sei xn > xn+1 , lim xn = −∞, An := {ω : X(ω) ≤ xn }
n→∞
∞
T
Dann folgt An+1 ⊆ An ∀n ⇒ lim P (An ) = P
An = P (∅) = 0
n→∞
n=1
Aber P (An ) = F (xn ) und somit lim F (xn ) = 0 für alle solche Folgen.
n→∞
3. Sei yn < yn+1 , lim yn = ∞, Bn := {ω : yn < X(ω)} ⇒ Bn+1 ⊆ Bn
n→∞
∞
T
Also ist ⇒ lim P (Bn ) = P
Bn = P (∅) = 0.
n→∞
n=1
Aber es ist P (Bn ) = 1 − P ({ω : X(ω) ≤ yn }) = 1 − FX (yn ) ⇒ lim FX (yn ) = 1 für alle
n→∞
solchen Folgen. Also ist lim FX (x) = 1.
x→∞
4. Sei xn > xn+1 , lim xn = x, x ∈ R beliebig., An := {ω : x < X(ω) ≤ xn }, An+1 ⊆ An
n→∞
∞
T
Daraus folgt lim P (An ) = P
An = P (∅) = 0. Also ist P (An ) = F (x) − F (xn )
n→∞
n=1
und somit lim F (xn ) = F (x) für alle solchen Folgen. Also lim F (y) = F (x).
n→∞
y&x
19
5. Wenn x eine Unstetigkeitsstelle von FX ist, dann gibt es an der Stelle x einen Sprung mit
der Sprunghöhe P {X = x} = F (x) − F (x − 0): Sei jetzt N eine natürliche Zahl. Für
F (y) ∈ [ N1 , 1] kann F höchstens N viele Sprünge haben, denn wenn x1 , ..., xN +1 Unstetigkeitspunkte P {X = xi } ∈ [ N1 , 1], i = 1, ..., N + 1 und somit
N +1
N +1
S
P
P
{X = xi } =
P {X = xi } ≥ NN+1 > 1, was ein Widerspruch zur Definition von X
i=1
ist. Aber
∞
S
n=1
i=1
∞
S
[ N1 , 1] = (0, 1] ⇒ [0, 1] = {0} ∪
[ N1 , 1]
n=1
Teilintervalle [ N1 , 1] höchstens
Daraus folgt, dass in jedem der
endlich viele Unstetigkeitsstellen liegen. In [0, 1] sind es also höchstens abzählbar unendlich viele Sprünge.
Satz 3.29. Sei G : R → [0, 1], die die Eigenschaften (1) bis (4) aus 3.28 besitzt. Dann gibt es ein
(Ω, F, P ) und eine Zufallsgröße X mit FX = G. ( Eine Zufallsgröße ist vollständig charakterisiert
”
über ihre Verteilungsfunktion.“)
Beweis. Ω = [0, 1], F = B1[0,1] , P :Lebesgue-Maß λ auf [0, 1]. (d.h. Die Wahrscheinlichkeit, die durch
Fortsetzung
 entsteht, wenn λ([a, b]) = b − a für [a, b] ⊂ [0, 1] ist.)
−1

inf{G ({y})} : y ∈ G(R), y 6= 0
H(y) := sup{G−1 ({y})} : 0 = y ∈ G(R)


xy
:y∈
/ G(R)
H ist monoton wachsend (nicht unbedingt streng), aber nicht stetig.
xy ist eindeutig bestimmt, denn y ∈ (F (xy − 0), F (xy + 0)]. Wir definieren Zufallsgröße X : Ω → R
| {z }
=F (xy )
durch X(ω) = H(ω). Dies ist auch wirklich eine Zgr. nach Konstruktion. Dann ist
FX (x) = P {ω : X(ω) ≤ x} = P (ω : H(ω) ≤ x} = λ{y ∈ [0, 1] : 0 ≤ y ≤ G(x)} = G(x).
Bemerkung 3.30. Die betrachteten Beispiele für Zgrn. enthalten oft Parameter (i.A. unbekannt).
Kann man diese Parameter interpretieren, so dass auf dieser Basis Schätzungen“ (Näherungen)
”
der Parameter möglich sind?
Antwort: ja, dies ist mögich und soll nun im Folgenden geschehen.
R∞ r
Definition 3.31.
1. Sei X eine Zgr. mit
|x| dF (x) < ∞ (für ein r > 0). Dann heißt
−∞
E(X r ) =
R∞
xr dF (x) r-tes Moment von X. (vgl. Bemerkung zu 3.18)
−∞
2. Die Voraussetzung in (1) sei für r = 1 erfüllt. Dann heißt E(X) Erwartungswert von X.
3. Sei X eine Zgr., sodass (1) mit r = 2 erfüllt ist. Dann heißt D2 (X) = E(X 2 ) − E(X)2
Streuung/Varianz/Dispersion von X.
Bemerkung: Man betrachtet eigentlich nur r ∈ N.
Folgerung 3.32.
1. diskrete Zgr X heißt 3.31(1): Es gelte
∞
P
|xj |r pj < ∞.
j=1
Dann ist E(X r ) =
∞
P
xrj pj .
j=1
2. Für stetige Zgr X heißt 3.31(2): Es gelte
R∞
|x|r f (x)dx < ∞ Dann ist E(X r ) =
−∞
20
R∞
−∞
xr f (x)dx.
3. Insbesondere E(X) =
∞
P


 xj pj
j=1
R∞



: X diskret
xf (x)dx
: X stetig
−∞
4. Sei X(ω) ≡ x ∈ R. Dann ist P {ω : X(ω) = x} = 1. Dann folgt aus (3):
E(X) = x · P (Ω) = x.
1. Sei g : R → R mit ∀B ∈ B : g −1 (B) ∈ B. Dann ist g(X) auch eine Zgr.
R∞
|g(x)|dF (x) < ∞, dann
(siehe 3.9). Man führt nun ein: Erwartungswert g(X). Wenn
Bemerkung 3.33.
−∞
R∞
E(g(X)) =
g(x)dF (x).
−∞
∞
P
E(g(X)) =



g(xj )pj
: X diskret



g(x)f (x)dx
: X stetig
j=1
R∞
−∞
2. Das r-te Moment ergibt sich also aus (1), wenn g(x) := xr , r ∈ N.
3. Mittels einer allgemeinen Substitutionsregel kann man zeigen, E(X) =
R
XdP =
Ω
R∞
xdF (x).
−∞
1. Veranschaulichung von (3) für X = (x1 , ..., xn )T mit den Wahrschein∞
S
lichkeiten p1 , ..., pn . X(ω) = xi : ω ∈ Ai , Ai ∈ F, Ai ∩ Aj = ∅ (i 6= j), Ai = Ω. Dann ist
Bemerkung 3.34.
∞
3.32(1) P
n
P
i=1
n
P
xi P {ω : X(ω) = xi } =
xi P (Ai ).
i=1
Speziell: Ω = [0, 1), Ai = i−1
, i , i = 1, ..., n. P (Ai ) = F (xi ) − F (xi − 0).
n n
E(X) =
xi pi =
i=1
i=1 2. Wenn f (x) stetig für alle x, dann:
(totales Differential). Also: E(X) =
d
F (x)
dx
R
=
d
dx
xf (x)dx =
R
Rx
formal
f (t)dt = f (x) ⇒ dF (x) = f (x)dx
R−∞
xdF (x)
R
Beispiel 3.35
Sei X binomialverteilt. Daraus folgt E(xr ), r ∈ N existieren.
n
X
n
X
(n − 1)!
n k
n−k
E(X) =
k·
p (1 − p)
= np ·
pk−1 (1 − p)(n−1)−(k−1)
k
(k
−
1)!((n
−
1)
−
(k
−
1))!
k=1
k=1
n−1
X n−1
= np
pk−1 (1 − p)(n−1)−(k−1) = np(p + (1 − p))n−1 = np
k
−
1
k=0
Ü.i.S.: D2 (X) = np(1 − p).
Beispiel 3.36
Sei X Poissonverteilt. Dann ist
∞
X
∞
∞
X
X
λk −λ
λk−1
λk
−λ
−λ
E(X) =
k · e = λe
= λe
= λe−λ eλ = λ
k!
(k
−
1)!
k!
k=0
k=1
k=0
21
Ü.i.S.: D2 (X) = λ.
Interpretation: λ
λt, t > 0 mittlere Anzahl der bis t auf einem Parkplatz ankom”
menden Autos.“ Also: λ entspricht einer Intensität.
Beispiel 3.37
Eine diskrete Zgr. X heißt geometrisch verteilt mit einem Parameter p ∈ (0, 1), wenn:
P (X = k) = p(1 − p)k , k = 0, 1, 2, .... (Prüfung, dass dies eine Zgr. ist, Interpretation
, D2 (X) = 1−p
Ü.i.S.), E(X) = 1−p
p
p2
Beispiel 3.38
Sei X exponential verteilte Zgr. Dann ist E(X) =
R∞
−∞
xλe−λx dx = ... = λ1 .
Beispiel 3.39
1. X ∈ N (µ, σ 2 ) ⇒ E(X) = µ, D2 (X) = σ 2 .
Allerdings muss hier erst noch nachgewiesen werden, dass das Integral über den
Betrag existiert. Hierfür genügt aber die Betrachtung von N (0, 1), da man jede
Normalverteilung darauf transformieren kann. Diese ist nun symmetrisch, sodass
man lediglich x > 0 betrachten muss. Ü.i.S.
σ2
2
2
2. X sei log.-normalverteilte Zgr. Dann ist E(X) = eµ− 2 , D2 (X) = e2µ+σ eσ − 1 .
Beispiel 3.40
X sei Weibull-verteilt. Dann ist
1
2
1
2
2
2
+ 1 , D (X) = µ Γ
+1 −Γ
+1
E(X) = x0 + µΓ
δ
δ
δ
Lemma 3.42. Sei X eine Zgr. mit D2 (X) < ∞. Dann gilt D2 (X) = E((X − E(X))2 ).
Beweis.
E((X − E(X))2 ) = E(X 2 − 2X(E(X)) + (E(X))2 ) = E(X 2 ) − 2(E(X))2 + (E(X))2
= E(X 2 ) − (E(X))2 = D2 (X)
Zufällige Vektoren
~ = (X1 , ..., Xn ), X1 , ..., Xn Zgrn.
Sei X
Definition 3.43. Die durch FX~ (x1 , ..., xn ) = P {ω : (X1 (ω =, ..., Xn (ω)) ≤ (x1 , ..., xn )}
= P {ω : X1 (ω) ≤ x1 , ..., Xn (ω) ≤ xn }, ((x1 , ..., xn )T ∈ Rn ) definierte Funktion FX~ : Rn → [0, 1]
~
heißt Verteilungsfunktion des zufälligen Vektors X
Satz 3.44.
2.
lim
1. Sei i ∈ {1, ..., n}. Dann ist lim FX~ (x1 , ..., xi , ..., xn ) = 0
x1 →∞,...,xn →∞
xi →−∞
FX~ (x1 , ..., xn ) = 1
22
3. FX~ ist in jeder Variablen monoton wachsend.
4. FX~ ist in jeder Variablen rechtsseitig stetig.
(1)
(2)
(n)
5. Sei n ≥ 2. Für beliebige xi ∈ R, hi > 0 gilt ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) ≥ 0,
(j)
wobei ∆hj FX~ (x1 , ..., xn ) := FX~ (x1 , ..., xj + hj , ..., xn ) − FX~ (x1 , ..., xj , ..., xn )
(1)
(2)
(n)
Dann ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) = P {(X1 , ..., Xn ) ∈ [x1 , x1 + h1 ) × ... × [xn .xn + hn )}
6. Sei G : Rn → [0, 1] und G besitzt die Eigenschaften (1) bis (5). Dann gibt es (Ω, F, P ) und
~ : Ω → Rn mit F ~ = G (X
~ vollständig charakterisiert durch F ~ .)
X
X
X
Beweis. Bemerkung: Betrachte (5) für n = 2
FX~ (x1 + h1 , x2 + h2 ) − FX~ (x1 + h1 , x2 ) − FX~ (x1 , x2 + h2 ) − FX~ (x1 , x2 )
= P {ω : X ∈ [x1 , x1 + h1 ) × [x2 , x2 + h2 )} ≥ 0, folgt aus der Additivität von Maßen, da die
Wahrscheinlichkeit nur ein besonderes Maß
nist. (hier auch
gut graphisch zu veranschaulichen)
T
lim FX~ (x1 , ..., xn ) = P
{Xi ≤ xi } = P {Xi ≤ xi } = FXi (xi ). (VerteilungsBemerkung:
∀k6=i:xk →∞
i=1
~ FX heißt i-te Randbedingung von X.
~
funktion der i-ten Komponente von X.)
i
~ zuf. Vektor. Die Komponenten von X
~ heißen unabhängig, wenn
Definition 3.45. Sei X
FX~ (x1 , ..., xn ) = FX1 (x1 ) · ... · FXn (xn ).
Beispiel 3.46
~ = (x1 , ..., xn ) zuf. Vektor mit unabhängigen Komponenten und
Sei X
FXi = F (i = 1, ..., n). Welche Verteilung besitzt die Zufallsgröße Y = max{X1 , ..., Xn }?
FY (y) = {P {max{X1 , ..., Xn } ≤ y} = P {X1 ≤ y, ..., Xn ≤ y}
n
n
Y
Y
= P {(X1 , ..., Xn ) ≤ (y, ..., y)} =
P {Xi ≤ y} =
FXi (y) = (F (y))n
i=1
i=1
Z := min{X1 , ..., Xn }.
FZ (z) = P (Z ≤ z) = P {min{X1 , ..., Xn } ≤ z} = 1 − P {min{X1 , ..., Xn } > z}
n
Y
= 1 − P {X1 > z, ..., Xn > z} = 1 −
P {Xi > z}
i=1
n
Y
= 1 − (1 − FXi (z)) = 1 − (1 − F (z))n
i=1
Nun n = 2, X1 , X2 unabhängige exponential verteilte Zgr. mit Parameter λ.
(
(
0
:y<0
0
:y<0
Fmax(X1 ,X2 ) (y) =
Fmin(X1 ,X2 ) (y) =
λy 2
−2λy
(1 − e ) = y ≥ 0
1−e
=y≥0
Beispiel 3.47
~ = (X1 , X2 ) heißt diskreter zufälliger Vektor mit den Werten (xi , yj ) ∈ R2 ,
X
(i = 1, 2, ..., j = 1, 2, ...) wenn pij = PP
{(X1 , X2 ) = (xP
i , yj )} gegeben wird. Dann gilt
FX~ (x, y) = P {(X1 , X2 ) ≤ (x, y)} =
pij . Es ist
pij = 1.
xi ≤x,yj ≤y
23
i,j
Beispiel 3.48
Fertigung eines Stellring, Dicke X1 , Bohrung X2 . Xi = 0 ⇔ liegt im Toleranzbereich,
~ = (X1 , X2 ) die Werte (0, 0), (0, 1), (1, 0), (1, 1) an.
sonst Xi = 1. Also nimmt X
Aus praktischen Erfahrungen weiß man, dass 5% aller Stellringe Ausschuss sind. Davon
entfallen 1% auf falsche Bohrung und Dicke, 3% auf nur falsche Bohrung und 1% auf
nur falsche Dicke.
p00 = P {X1 = 0, X2 = 0} = 0.95, p01 = 0.03, p10 = 0.01, p11 = 0.01.
P {X1 = 0} =
p01 = 0.98. p· 0 = 0.96, p1 · = 0.02, p· 1 = 0.04.
Pp0 · = p00 +P
Allg. pxi · = pij , p·yj = pij .
j
i
Beispiel 3.49
~ heißt stetiger n-dimensionaler zuf. Vektor, wenn es ein f : Rn → [0, ∞) gibt mit
X
R
Rx1
Rxn
...
f (s1 , ..., sn )dsn ...ds1
f (x1 , ..., x) dx = 1 und FX~ (x1 , ..., xn ) =
Rn
−∞
−∞
Aus 3.45 folgt
~ stetig, dann besitzt X
~ unabhängige Komponenten genau dann, wenn
Folgerung 3.50. Ist X
f (x1 , ..., xn ) = fX1 (x1 ) · ... · fXn (xn )
Beispiel 3.51
Rx1 Rx2
n=2
FX1 (x1 ) = lim F(X1 ,X2 ) (x1 , x2 ) = lim
x2 →∞
fX1 (x1 ) =
dFX1 (x1 )
dxx1
x2 →∞ −∞ −∞
=
R∞
f (s1 , s2 )ds2 ds1 =
Rx1
−∞
R∞
f (s1 , s2 )ds2 ds1 ,
−∞
f (x1 , s2 )ds2 , fX2 (x2 ) = ...
−∞
Wenn E(X1 ), E(X2 ) existieren:
E(X1 )
EW stetig
Z∞
=
Z∞
x1 fX1 (x1 )dx1 =
−∞

Z∞
x1 
−∞

Z∞ Z∞
f (x1 , s2 )ds2  dx1 =
−∞
x1 f (x1 , x2 )dx2 dx1
−∞ −∞
Wenn E(X12 ), E(X22 ) existieren, dann
Z∞ Z∞
E(X1 X2 ) =
x1 x2 f (x1 , x2 )dx2 dx1
−∞ −∞
Lemma 3.52. Sind X1 , X2 unabhängige Zgr. mit existierenden Streuungen D2 (X1 ), D2 (X2 ), dann
D2 (X1 + X2 ) = D2 (X1 ) + D2 (X2 ).
Beweis. D2 (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2
= E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ))2 − (E(X2 ))2 − 2E(X1 )E(X2 ) = D2 (X1 ) + D2 (X2 ), da
R∞ R∞
R∞
R∞
E(X1 X2 ) =
x1 x2 f (x1 , x2 )dx2 dx1 = fX1 (x1 ) · fX2 (x2 ) =
x1 fX1 (x1 )dx1 ·
x2 fX2 (x2 )dx2
−∞ −∞
−∞
= E(X1 )E(X2 ) aufgrund der Unabhängigkeit.
24
−∞
Definition 3.53. Seien X1 , X2 Zgr. mit D2 (X1 ), D2 (X2 ) < ∞. Dann heißt
cov(X1 , X2 ) := E[(X1 − E(X1 ))(X2 − E(X2 ))] Kovarianz von X1 , X2 . Der Ausdruck
1 ,X2 )
~ = (X1 , ..., Xn )T ein
ρX1 ,X2 := √ 2cov(X√
heißt Korrelationskoeffizient von X1 , X2 . Ist X
2
D (X1 )
D (X2 )
2
zufälliger Vektor mit D (Xi ) < ∞(i = 1, ..., n), dann heißt R := (ρij )i,j=1,...,n mit ρij := ρXi Xj
Korrelationsmatrix. Entsprechend sei die Kovarianzmatrix definiert. Wie man aus der Definition
erkennt, ist die Matrix symmetrisch. Ferner ist ρii = 1, (i = 1, ..., n).
~ = (X1 , X2 ) ein zufälliger Vektor mit diskreten Zgr X1 , X2 , die die
Bemerkung 3.54.
1. Ist X
(1)
(K)
(1)
(L)
Werte x1 , ..., x1 bzw. x2 , ..., x2 annehmen und bezeichnen
(i)
(j)
pij = P {(X1 , X2 ) = (x1 , x2 )} die Wahrscheinlichkeiten für die Werte des zufälligen Vektors, so gilt
K X
L X
(i)
(j)
cov(X1 , X2 ) =
x1 − E(X1 ) x2 − E(X2 ) · pij
i=1 j=1
~ = (X1 , X2 ) ein stetiger zufälliger Vektor, mit der Dichte f (x1 , x2 ), dann gilt
2. Ist X
Z∞ Z∞
(x1 − E(X1 )) (x2 − E(X2 )) f (x1 , x2 )dx1 dx2
cov(X1 , X2 ) =
−∞ −∞
3.53
Bemerkung 3.55. cov(X1 , X2 ) = E(X1 · X2 ) − 2(E(X1 ))(E(X2 )) + (E(X1 ))(E(X2 ))
= E(X1 · X2 ) − (E(X1 ))(E(X2 )) Für alle Zgr X mit E(X 2 ) < ∞ gilt: Diese bilden eine linearen
Raum/ Vektorraum L2 . (Eigentlich die Äquivalenzklassen von Funktionen, die mit X fast überall
überein stimmen.) Durch hX1 , X2 i := E(X1 X2 ) wird auf L2 ein Skalarprodukt definiert, d.h. es
gilt hX + Y, Zi = hX, Zi + hY, Zi, haX, Y i =
∈ R), hX, Y i = hY, Xi. Mit jedem Skalarp ahX, Y i(a p
produkt wird eine Norm definiert: kXk := hX, Xi = E(X 2 ). Für jedes Skalarprodukt gilt die
Schwarz’sche Ungleichung |hX, Y i| ≤ kXk · kY k. Es gilt =“⇔ ∃α, β 6= 0 : kαX + βY k2 = 0, d.h.
”
X und Y sind linear abhängig. Wenden wir p
die Schwarz’sche Ungleichung
auf X := X1 − E(X1 ),
p
2·
E(X
−
E(X
))
E(X
−
E(X2 ))2
Y p
:= X2 − E(X
)
an,
so
gilt
cov(X
,
X
)
≤
1
1
2
1
2
p 2
= D2 (X1 ) D2 (X2 ) und damit ist |ρX1 X2 | ≤ 1.
Satz 3.56. (Eigenschaften des Korrelationskoeffizienten)
Seien X1 , X2 Zgr mit D2 (X1 ), D2 (X2 ) < ∞. Dann
1. |ρ12 | ≤ 1
2. X1 , X2 unabhängig ⇒ ρ12 = 0 (Umkehrung gilt i.A. nicht.)
3. |ρ12 | = 1 ⇔ ∃a, b ∈ R : P {ω : X2 (ω) = a · X1 (ω) + b} = 1
Beweis.
1. eben gezeigt
2. siehe 3.55:
unabhängig
cov(X1 , X2 ) = E(X1 X2 ) − E(X1 ) · E(X2 )
=
E(X1 ) · E(X2 ) − E(X1 ) · E(X2 ) = 0.
3. 3.55: in Schw. Ug. steht =“⇔ α(X1 − E(X1 )) + β(X2 − E(X2 )) = 0 mit Wkt. 1. Stellt man
”
dies um, erhält man
α
α
X2 (ω) = − X1 (ω) + E(X1 ) + E(X2 )
β
β
|{z}
|
{z
}
:=a
=:b
25
Beispiel 3.57
Nun noch das Gegenbeispiel zur Umkehrung von (2):


1
:
2/5
−1 : 2/5






−1 : 2/5
1
: 2/5
Ω = {ω1 , ω2 , ω3 , ω4 }, X1 :=
, X2 :=


2
: 1/10
2
: 1/10






−2 : 1/10
−2 : 1/10
Dann ist E(X1 ) = E(X2 ) = 0 und
1
1
+ 4 · 10
= 0.
cov(X1 , X2 ) = E(X1 X2 ) = (−1) · 25 + (−1) · 52 + 4 · 10
Aber es ist P {X1 = 1, X2 = −1} = P {{X1 = 1} ∩ {X2 = −1}} = P {ω1 } =
4
= P {X1 = 1} · P {X2 = −1}
6= 25
2
5
Beispiel 3.58
~ = (X1 , X2 ) heißt zweidimensionaler normalverteilter Vektor, wenn X
~ stetig und für
X
die Dichte f gilt:
1
−
1
2(1−ρ2 )
(x −µ )(x −µ )
(x −µ )2
(x1 −µ1 )2
+ 2 2 2 −2ρ 1 σ1 σ 2 2
σ−12
σ2
1 2
f (x1 , x2 ) = p
e
4π 2 σ12 σ22 (1 − ρ2 )
p
wobei µi = E(Xi ), σi = D2 (Xi ), (i = 1, 2), ρ = ρX1 X2
Bemerkung 3.58.
,
(x1 , x2 ∈ R)
1. Ang. ρ = 0 (also cov(X1 , X2 ) = 0) Aus 3.58 folgt
f (x1 , x2 ) = p
1
2πσ12
−
e
(x1 −µ1 )2
2
2σ1
·p
1
−
2πσ22
e
(x2 −µ2 )2
2
2σ2
= fX1 (x1 ) · fX2 (x2 )
was genau die Dichten zweier normalverteilter Zgr. sind.
Also sind X1 , X2 unabhängig.
2. Ü.i.S. Man schreibe den obigen Exponenten (ohne das erste -“) als
”
a11 a12
x 1 − µ1
= x 1 − µ1 x 2 − µ 2
a21 a22
x 2 − µ2
~ = (X1 , X2 ) ⇒ f ~ = 1 exp − 1 (x2 + x2 ) . Substituiere
3. Seien X1 , X2 unabh. N (0, 1)-Zgr. X
1
2
X
2π
2
nun X1 = R cos Φ, X2 = R sin Φ wobei R, Φ Zgr. sind. Es ist R2 = X12 + X22 .
q
2
2
FR (t) = P {R ≤ t} = P
X1 + X2 ≤ t = P {X12 + X22 ≤ t2 }
Z
=
Z2π Z t
t2
1
1 2
1 − 1 r2
exp − (x1 + x22 ) dx1 dx2 =
e 2 rdrdϕ = 1 − e− 1 (t ≥ 0)
2π
2
2π
0
Kt
0
R2
Φ ist über [0, 2π) gleichmäßig
verteilt. 3.21 ⇒ FR (R) = 1 − e− 2 =: Z ist über [0, 1] glm.
p
verteilte Zgr. R = −2 ln(1 − z). 3.22 ⇒ R ist Zgr. p
mit V-Fkt. FR und Z ist über [0, 1]
glm. verteilt. Erzeugung einer Zufallszahl z1 ⇒ R1 := −2 ln(1 − z1 ) ist eine Realisierung
für R. Erzeugung einer weitere Zufallszahl z2 ⇒ Φ1 = 2πz2 ist eine Realisierung von Φ.
⇒ (R1 cos Φ1 , R1 sin Φ1 ) ist Realisierung für X1 , X2 .
26
Satz 3.59. Seien X, Y unabh. Zgr. mit den Dichten fX , fY . Dann besitzt Z := X + Y die Dichte
R∞
fX (z − y)fY (y)dy =: (fX ∗ fY )(z).
fZ (z) =
−∞
Beweis. B : {(x, y) : x + y ≤ z}.
Z Z
Z Z
FZ (z) = P {X + Y ≤ Z} =
B
B
X,Y unabh.
Z∞ Zz−y
Z Z
=
f(X,Y ) (x, y)dxdy
dF(X,Y ) (x, y) =
fX (x)fY (y)dxdy =
Z∞
−∞ −∞
B
−∞
Z∞
fY (y)fX (z − y)dy = (fX ∗ fY )(z) da fZ (z) =
=
fY (y)F (z − y)dy
fX (x)fY (y)dxdy =
dFZ (z)
dz
−∞
Satz 3.60. Seien X, Y unabh. diskrete Zgr. mit den Werten 0, 1, .... Dann ist
X
P {X + Y } =
P {Y = i} · P {X = k − i}
i
Beweis. Ü.i.S.
Beispiel 3.61
Seien X, Y unabh. Poissonverteilte Zgr mit den Parametern λ1 , λ2 > 0. X + Y ist
Poisonverteilt mit den Parametern λ1 + λ2 , denn
3.60
P {X + Y = k} =
k
X
i
−λ2 λ2
e
i=0
= e−(λ1 +λ2 )
i!
−λ1
·e
k X
k!
λk−i
k i k−i
1
−(λ1 +λ2 ) 1
·
=e
λλ
(k − i)! k!
k! i=0 i 2 1
(λ1 + λ2 )k
k!
Bemerkung:
Seien X, Y unabh. X ∈ N (µ1 , σ12 ), Y ∈ N (µ2 , σ22 ). Dann kann mittels 3.59 gezeigt
werden, dass X + Y normalverteilt mit dem Erwartungswert µ1 + µ2 und der Streuung
σ12 + σ22 ist.
Bedingte Verteilungen
Definition 3.62.
1. Sei X eine Zgr. B ∈ F, P (B) > 0. Dann heißt FX (x|B) := P {X ≤ x|B}
bedingte Verteilungsfunktion.
2. Wenn X, Y diskrete Zgr. und P {Y = y} > 0. Dann ist die bedingte Verteilungsfunktion von
X (bei gegebenem Ereignis {Y = y}) durch
FX|Y (x|y) := P {X ≤ x|Y = y} =
27
P {{X ≤ x} ∩ {Y = y}}
P {Y = y}
3. Wenn X und Y stetige Zgr. mit fY (y) > 0, dann ist die bedingte Verteilungsfunktion von X
(bei gegebenem Ereignis {Y = y}) definiert durch
1
FX|Y (x|y) =
fY (y)
Zx
f(X,Y ) (u, y)du
−∞
Lemma 3.63. Die bed. V-Fkt. von X erfüllt die Beziehung
FX|Y (x|y) =
F(X,Y ) (x, y + b) − F(X,Y ) (x, y − a)
a&0,b&0 F(X,Y ) (∞, y + b) − F(X,Y ) (∞, y − a)
lim
Beweis.
R(a, b) =
P {X ≤ x, Y ≤ y + b} − P {X ≤ x, Y ≤ y − a} 3.27 P {X ≤ x, y − a < Y < y + b}
=
P {Y ≤ y + b} − P {Y ≤ y − a}
P {y − a < Y < y + b}
Der weitere Beweis für den Fall X, Y stetig:
1
a+b
lim R(a, b) =
a&0,b&0
lim
Rx y+b
R
f(X,Y ) (u, v)dvdu
−∞ y−a
a&0,b&0
1
a+b
y+b
R
fY (u)du
1
=
·
fY (y)
Zx
f (u, y)du = FX|Y (x|y)
−∞
y−a
Folgerung: Sei f(X,Y ) stetig. Für FX|Y (x|y) existiert für jedes y eine Dichte
fX|Y (x|y) und fX|Y (x|y) = fY1(y) f(X,Y ) (x, y), (fY (y) > 0).
Definition 3.64. Sei X eine Zgr, B ∈ F mit P (B) > 0. Sei FX (·|B) die bedingte V-Funktion.
Rx
Wenn eine Funktion fX (·|B) : R → [0, ∞) mit FX (x|B) =
fX (t|B)dt, so heißt fX (·|B) bedingte
−∞
Dichte. Wenn X, Y stetige Zgr., dann ist die bedigte Dichte von X bei gegebenem y mit Y (ω) = y
f
) (x,y)
und fY (y) > 0 durch fX|Y (x|y) = (X,Y
definiert.
fY (y)
Satz 3.65. (Eigenschaften)
Rx
1. FX|Y (x|y) =
fX|Y (u, y)du
−∞
2. FX (x) =
R∞
fY (y) · FX|Y (x|y)dy
−∞
3. Bayessche Formel für bedingte Dichten:
fX|Y (x|y) = R∞
−∞
Beweis.
1. klar
28
fY |X (y|x)fX (x)
fY |X (y|u)fX (u)du
2. f(X,Y ) (x, y) = fX|Y (x|y)fY (y) (◦) bzw. f(X,Y ) (x, y) = FY |X (y|x)fX (x) (◦◦)
Z∞
Randdichten: fX (x) =
(◦)
f(X,Y ) (x, v)dv =
−∞
Z∞
fY (y) =
f(X,Y ) (u, y)du =
fX (u)du =
−∞
F ubini
Z∞
=

3.
(◦)
fX|Y (x|y) =
fY |X (y|u)fX (u)du
(∗∗)
(◦)

Zx
f(X,Y ) (u, v)dvdu =
−∞ −∞
Zx
fY (v) 
−∞
(∗)
−∞
Zx Z∞
Zx
fX|Y (x|v)fY (v)dv
−∞
Z∞
−∞
⇒ FX (x) =
Z∞
fX|Y (u|v)fY (u)dv  du
−∞
Z∞
fX|Y (u|v)du dv =
−∞


−∞

Z∞
fY (v)FX|Y (x|v)dv
−∞
f(X,Y ) (x, y) (◦◦) fY |X (y|x)fX (x) (∗∗)
fY |X (y|x)fX (x)
=
= R∞
fY (y)
fY (y)
fY |X (y|u)fX (u)du
−∞
Bedingter Erwartungswert
Definition 3.66. Sei B ∈ F, P (B) > 0
1. Sei X diskrete Zgr. mit den Werten x1 , x2 , .... E(X|B) =
P
Erwartungswert wenn
|xi |P {X = xi |B} < ∞.
P
xi · P {X = xi |B} heißt bedingter
i
i
R∞
2. Sei X stetige Zgr. E(X|B) :=
xfX (x|B)dx heißt bedingter Erwartungswert, wenn
−∞
R∞
|x|fX (x|B)dx < ∞.
−∞
3. (1) und (2) zusammengefasst: E(X|B) =
R∞
xdfX (X|B) falls
−∞
Lemma 3.67. Sei Ω =
∞
S
R∞
|x|dFX (X|B)
−∞
Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist E(X) =
i=1
P
P (Bi ) · E(X|Bi ), sofern
i
die bedingten Erwartungswerte existieren.
Beweis.
FX (x) = P {X ≤ x} =
X
P {{X ≤ x} ∩ Bi } =
i
Z∞
⇒ E(X) =
xdFX (x) =
−∞
X
P (Bi )FX (x|Bi )
i
X
i
Z∞
P (Bi )
−∞
29
xdFX (x|Bi ) =
X
i
P (Bi )E(X|Bi )
Lemma 3.68. Sei B ∈ F, P (B) > 0, B =
∞
S
Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist
i=1
E(X|B) =
X
1
·
P (Bi )E(X|Bi )
P (B) i
Beweis. 3.67 ⇒ E(X) =PP (B)·E(X|B)+P (B)E(X|B) Bilden eine Zerlegung von Ω : B1 , ..., Bn , ..., B.
Nach 3.67 ist E(X) =
P (Bi )E(X|Bi ) + P (B)E(X|B). Subtraktion beider Gleichungen liefert
i
die Behauptung.
4
Charakteristische Funktionen
Definition 4.1. Sei X Zgr. über (Ω, F, P ). Dann heißt für t ∈ R
P
itxk

Z∞
 e P {X = xk }
k
ψ(t) = E eitX =
eitx dFX (x) = R∞

 eitx fX (x)dx
−∞
: X diskret
: X stetig
−∞
charakteristische Funktion der Zgr. X (der Verteilung FX ).
Bemerkung 4.2.
1. Die Definition ist sinnvoll, denn
P

Z∞
Z∞
 1 · P {X = xk } = 1
itx k
e dFX (x) =
1dFX (x) = R∞

| {z }
 1 · fX (x)dx = 1
−∞
=1
−∞
=1<∞
−∞
2. ψ(0) = 1, |ψ(t)| ≤ 1 für jedes t ∈ R.
3. Für a, b ∈ R ist ψaX+b (t) = eitb ψ(at)
4. Wenn X absolutes Moment der Ordnung n besitzt (E(|X|n ) < ∞), dann
dk
ψ(t)|t=0 = ik E(X k )(k = 1, ..., n) (Anwendung d. Vertauschung von Diff. und Reihe bzw.
dtk
Diff. und Integration)
5. ψ : R → C ist glm. stetig (Ü.i.S.)
itY it(X+Y )
itX
6. Wenn X, Y unabhängig,
dann
ψ
=
ψ
·
ψ
.
(ψ
(t)
=
E
e
=
E
e
e
X+Y
X
Y
X+Y
= E eitX E eitY = ψX (t)ψY (t)), Faltung wird in normale Multiplikation übergeführt.
7. ψ ist positiv definit, d.h.:
∀N ∈ N, t1 , ..., tN ∈ R, z1 , ..., zN ∈ C(nicht alle Null) :
N
P
ψ(tj − tk )zj zk > 0
j,k=1
8. Ist ψ : R → C und gelten für ψ die Eigenschaften (2),(5) und (7). Dann gibt es (Ω, F, P )
und eine Zgr. X mit ψX = ψ.
Satz 4.3. (Inversionsformel)
1. Sei ψ char. Fkt einer Zgr. X, a, b ∈ R, a < b. Dann gilt
1
1
1
P {X = a} + P {a < X < b} + P {X = b} =
2
2
2π
Z∞
−∞
30
e−ita − eitb
ψ(t)dt
it
2. Wenn a, b Stetigkeitspunkte von F sind, dann F (b) − F (a) =
1
2π
R∞
−∞
e−ita −eitb
ψ(t)dt
it
4.1,4.3
3. Die Verteilungsfunktion ist eindeutig bestimmt. Also F ↔ ψ (o.B.)
R∞
|ψ(t)|dt < ∞, so gibt es eine Dichtefunktion f mit fX (x) =
Lemma 4.4. Wenn
−∞
1
2π
R∞
e−itx ψ(t)dt
−∞
Satz 4.5. (Konvergenzsatz) Sei (Fn ) eine Folge von Verteilungsfunktionen, (ψn ) die Folge der
zugehörigen char. Funktionen. Dann gilt (Fn (x))n∈N konvergiert in allen Stetigkeitspunkten gegen
eine Verteilungsfunktion F ⇔ ψn konvergiert punktweise gegen eine Funktion ψ, die stetig in 0 ist
und ψ ist charakteristische Funktion von F . (o.B.)
Beispiel 4.6
Sei X Poissonverteilt mit λ > 0 Nach 4.1 ist dann
ψ(t) =
∞
X
itk
e
k=0
∞
X
(λeit )k
λk −λ
it
it
−λ
= e−λ eλe = eλ(e −1)
· e =e
k!
k!
k=0
Sind X, Y unabhängige Zgr., dann ist auch X + Y Poissonverteilt mit λX + λY . (aus
Kapitel 3)
Ü.i.S.: 4.2(6), 4.3(3), dieses Resultat hier nochmal bestätigen
Beispiel 4.7
Sei X ∼ N (µ, σ 2 ). o.B.d.A. µ = 0, σ = 1. Dann ist
1
ψ(t) = √
2π
Z∞
2
− x2
eitx e
−∞
1
dx = √
2π
∞
1 X (it)k
√
=
2π k=0 k!
Z∞ X
∞
1
(itx)k − x2
e 2 dx = √
k!
2π
−∞ k=0
Z∞
Z∞ X
∞
−∞ k=0
(it)k k − x2
x · e 2 dx
k!
x2
xk · e− 2 dx
−∞
8
>
<0
{z
|
}
: k ungerade
= ... = 1 · 3 · ... · (2k − 1) : k gerade
k
∞
∞
∞
X
X
X
2
(it)2k
(it)2k
1 −t2
− t2
=
1 · 3 · ... · (2k − 1) =
=
=
e
(2k)!
2k · k! k=0 k!
2
k=0
k=0
=
>
:E(X 2 k)
Nun ist X ∼ N (µ, σ 2 ) ⇔ Z :=
X−µ
∼ N (0, 1).
σ
2 2
− σ 2t
itµ
Somit ist ψX (t) = eitµ ψ(σt) = e
·e
Also X = σZ + µ.
.
Beispiel 4.8
Seien X, Y unabhängig, X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ). Nach 4.8 ist ψX (t) = eitµ1 ·
e−
2 t2
σ2
2
, ψY (t) = eitµ2 · e−
2 t2
σ2
2
. Nach 4.2(6) ist
ψX+Y (t) = ψX (t) · ψY (t) = eit(µ1 +µ2 ) e−
2 +σ 2 )t2
(σ1
2
w
⇒ ist charakteristische Funktion zu einer Zgr. Z ∼ N (µ1 + µ2 , σ12 + σ22 ), und aufgrund
der Eindeutigkeit aus 4.3(3) ist diese Verteilung die einzige.
Also X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ).
31
5
5.1
Gesetze der Großen Zahlen und Anwendungen in der
Statistik
Ungleichungen
Satz 5.1. (Hajek-Renyi) Seien X1 , X2 , ... paarweise unabhängige Zgr. mit ∀n : |E(Xn )| < ∞,
i
P
γ1 ≥ γ2 ≥ ... ≥ γn > 0. Setze Si :=
(Xj − E(Xj )). Dann gilt für m = 1, ..., n und jedes ε > 0:
j=1
P
sup γi |Si | ≥ ε
≤
m≤i≤n
m
n
X
1 2 X 2
γ
D
(X
)
+
γj2 D2 (Xj )
j
ε2 m j=1
j=m+1
o.B.
Aus 5.1 folgen eine Reihe von wichtigen Spezialfällen:
Folgerung 5.2.
1. n = m = 1 = γ1 : P {|X − E(X)| ≥ ε} ≤ ε12 D2 (X)
(Ungleichung von Tschebyschew)
(
)
P
n
i
P
D2 (Xj ).
2. m = 1, γ1 = ... = γn = 1: P sup (Xj − E(Xj )) ≥ ε ≤ ε12
1≤i≤n j=1
j=1
(Ungleichung von Kolmogorov)
Wir wollen 5.2(1) ohne Kenntnis von 5.1 beweisen. Man wendet an
Lemma 5.3. Sei X Zgr. mit |E(X)| < ∞. Dann gilt ∀ε > 0 : P {|X| ≥ ε} ≤ 1ε |E(X)|
(Ungleichung von Markov)
Beweis.
Z
Z
|X|dP =
E|X| =
Ω
Z
Z
|X|dP +
ω:|X(ω)|≥ε
|X|dP ≥
ω:|X(ω)|<ε
|X|dP
ω:|X(ω)|≥ε
Z
≥
εdP = ε · P {|X| ≥ ε}
ω:|X(ω)|≥ε
Beweis. von 5.2(1): Anwendung von 5.3 auf die Zgr. |X − E(X)|2 :
5.3
P {|X − E(X)| ≥ ε} = P {|X − E(X)|2 ≥ ε2 } ≥
Definition 5.4. Eine Folge (Xn ) von Zgr. mit E|Xn | <
Großen Zahlen, wenn
(
n
1X
lim
(Xk − E(Xk )) = 0 bzw. ∀ε > 0 : lim P ω
n→∞ n
n→∞
k=1
1 2
1
2
E(X
−
E(X
)
=
D (X)
)
ε2
ε2
∞ genügt dem Schwachen Gesetz der
)
n
1 X
:
(Xk (ω) − E(Xk )) > ε = 0
n
k=1
1
2
2
2 (D (X1 ) + ... + D (Xn ))
n→∞ n
Satz 5.5. Sei (Xn ) eine Folge von Zgr. mit lim
Folge (Xn ) dem Schwachen Gesetz der Großen Zahlen.
32
= 0. Dann genügt die
P
Beweis. X n := n1 ni=1 Xi . Nach 5.2(1) ist
( n
)
1 X
1
P (Xk − E(Xk )) ≥ ε = P {|X n − E(X n )| ≥ ε} ≤ 2 D2 (X n )
n
ε
k=1
=
1
ε2 n 2
· E [(X1 − E(X1 )) + ... + (Xn − E(Xn ))]2 =
1
ε2 n 2
n→∞
(D2 (X1 ) + ... + D2 (Xn )) → 0
1. Wenn D2 (Xn ) ≤ L, (n = 1, 2, ...), so gilt das SGdGZ.
Folgerung 5.6.
2. Ist FXn = F, (n = 1, 2, ...) (also Verteilungsfkt. bei allen gleich) und D2 (X) < ∞, so gilt das
SGdGZ.
(
1 :p
3. Die Vor. in (2) ist erfüllt, wenn Xn =
für p ∈ (0, 1). Also gilt das SGdGZ.
0 :1−p
Bemerkung 5.7. zu 5.6(2): Aus FXn = F (Sei X die Zgr. zu F ) folgt E(Xn ) = E(X) und
n
n
n
P
P
P
n→∞
n→∞
1
(Xk − E(Xk )) = n1
Xk − E(X) −→ 0 in Wahrscheinlichkeit, also n1
Xk −→ E(X) in
n
k=1
k=1
k=1
Wkt.
n
P
Im Sinne der Konvention Wahrscheinlichkeit ist für große n n1
Xk eine Näherung für E(X).
k=1
(
1 : A tritt ein
zu 5.6(3): E(Xn ) = E(X) = 1 · p + 0 · (1 − p) = p; Xn =
.
0 : A tritt nicht ein
n
n
P
P
Xk : zählt das Eintreten von A bei n Versuchen. Also n1
Xk = Hn (A) ist Näherung für p.
k=1
k=1
Lässt sich die Konvergenzaussage verschärfen?
Definition 5.8. Eine Folge (Xn ) von Zgrn. mit E|Xn | < ∞ genügt dem (starken) Gesetz der
großen Zahlen, wenn:
)
(
n
1X
P ω : lim
(Xk (ω) − E(Xk )) = 0 = 1 Konvergenz mit Wert 1
n→∞ n
k=1
Bemerkung:
Aus 5.8 folgt 5.4. Die Umkehrung gilt im Allgemeinen nicht. Wir geben folgende Variante eines starken Gesetzes der Großen Zahlen an.
∞
P
D2 (Xn )
< ∞. Dann gilt das starke GdGZ.
Satz 5.11. Sei (Xn ) eine Folge unabhängiger Zgr.,
n2
n=1
Beweis. Yn :=
1
n
n
P
k=1
(Xk − E(Xk )), σk2 := D2 (Xk ). Anwendung von 5.1 für γk = k1 .
P
sup |Yk | ≥ ε
m≤k≤n
1
≤ 2
ε
m
n
X
σj2
1 X 2
σ
+
m2 j=1 j j=m+1 j 2
!
Halte in linker Menge m fest und schicke n → ∞.
m→∞
{ω : sup |Yk ω| ≥ ε} ergibt {ω : sup |Yk (ω)| ≥ ε} −→ ∅
m≤k≤n
k≥m
∀ε > 0 : ∃m0 (ε, ω) : ∀k ≥ m0 : |Yk (ω)| < ε für P -fast alle ω, d.h. Die Konvergenz gilt mit
k→∞
Wahrscheinlichkeit 1, d.h. Yk −→ 0 mit Wahrscheinlichkeit 1.
33
Bemerkung 5.12. Aus den Voraussetzungen von 5.6 folgt, dass unter den Bedingungen von 5.6
n
P
Xk ist unter 5.6(2) eine Näherung für E(X) mit
auch das starke GdGZ gilt. Insbesondere n1
k=1
Wahrscheinlichkeit 1 für große n.
Definition 5.13. Sei X : (Ω, F, P ) → R eine Zgr. Ein n-dimensionaler zufälliger Vektor
~ = (X1 , ..., Xn ) heißt (mathematische) Stichprobe (aus der Gesamtheit (R, L, FX )), falls
X
1. FX = FXi , (i = 1, ..., n)
2. X1 , ..., Xn sind unabhängig (in der Gesamtheit)
Eine Realisierung (X1 (ω), ..., Xn (ω)) heißt (konkrete) Stichprobe. (n-Mal wird X beobachtet)
Mittels einer Stichprobe kann FX geschätzt (angenähert) werden. (Beachte: X vollständig durch
”
”
FX charakterisiert.) Aber in der Regel FX unbekannt.
Definition 5.14. Sei (X1 , ..., Xn ) eine Stichprobe (vom Umfang n), dann heißt
Wn (x) := n1 · |{Xi : Xi ≤ x}|, ((zufällige) Anzahl der Xi mit Xi ≤ x) empirische Verteilungsfunktion.
Bemerkung 5.15.
1. Beim Arbeiten mit konkkreten Stichproben ist es oft zweckmäßig, die
Werte so anzuordnen, dass x1 ≤ ... ≤ xn gilt. (geordnete Stichprobe)
2. Für festes x ∈ R ist Wn (x) eine Zgr.
3. Für festes ω ∈ Ω, also eine konkrete Stichprobe, ist Wn (x) eine monoton wachsende rechtsseitig stetige Sprungfunktion, denn: Sei (x1 , ..., xn ) eine geordnete Stichprobe. Dann ist


0 : x < x1
Wn (x) = m
: xm ≤ x < xm+1 (m = 1, ..., n − 1)
n


1 : x ≥ xn
Satz 5.16. (Satz von Gliwenko, Hauptsatz der Statistik)
1. E(Wn (x)) = FX (x)
n→∞
2. D2 (Wn (x)) = E(Wn (x) − FX (x))2 = n1 FX (x)(1 − FX (x)) −→ 0
3. lim Wn (x) = FX (x) mit Wahrscheinlichkeit 1 für jedes x ∈ R
n→∞
n→∞
4. Es gilt sogar: P sup |Wn (x) − FX (x)| −→ 0 = 1. D.h. Wn (x) strebt gegen FX (x) mit Wkt.
x∈R
1 gleichmäßig bzgl. x.
1. (X1 , ..., Xn ) Stichprobe,
x ∈ R fest. P {Xi ≤ x} = FXi (x) = FX (x) =: p,
(
n
P
1 : Xi ≤ x : p
(i = 1, ..., n). Yi (x) :=
. Damit: Zuf. Anzahl der Xi mit Xi ≤ x ist
Yi .
0 : sonst
:1−p
i=
n
P
E(Yi ) = n1 · np = p = FX (x).
Dies ist binomialverteilt mit (n, p). Damit E(Wn (x)) = n1
Beweis.
i=1
2. D2 (Wn (x))
Bin.Zgr 1
= n2
· np(1 − p) = n1 FX (x)(1 − FX (x))
34
n
P
3. Wn (x) =
n→∞
Yi −→ p = FX (x) mit Wkt. 1, wegen starkem GdGZ.
i=1
4. o.B. (würde etwa eineinhalb Vorlesungen benötigen)
Bemerkung 5.17. 5.16(1): Wn (x) schätzt im Mittel FX (x).
5.16(2): Die Genauigkeit der Schätzung Wn (x) für FX (x) (im quadr. Mittel) verhält sich wie n1 .
5.16(3): Mit Wkt. 1 liefern Stichproben und das damit ermittelte En (x) Näherungen für FX (x).
Bemerkung 5.18. Sei (X1 , ..., Xn ) eine Stichprobe. Wenn der Verteilungstyp bekannt ist, dann
enthält die Verteilungsfunktion oft unbekannte Parameter. z.B.
E(X)
Näherung
Verfahren Parameter
P
i = 1n Xi
Poissonverteilung
λ
E(X) = λ
λ ≈ n1
−1
P
Exponentialverteilung
λ
E(X) = λ1 λ ≈ n1 Pi = 1n Xi
µ, σ 2
E(X) = µ
µ ≈ n1
Normalverteilung
i = 1n Xi
P
1
XP
i = 1n Xi ist eine Stichprobenfunktion. Wenn E|X|k < ∞, dann
n := n
1
i = 1n (Xi )k ≈ E(X k ) (im Mittel)
k-tes empirisches Moment.
n
Beispiel 5.19
(X1 , ..., Xn ) Stichprobe, D2 (X) < ∞. Setze Sn2 :=
1
n−1
n
P
(Xi − X n )2 heißt empirische
i=1
Streuung und ist ein weiteres Beispiel einer Stichprobenfunktion. Dabei ist
E(Sn2 ) = D2 (X). Im Mittel schätzt Sn2 die Streuung. Insbesondere σ 2 der Normalverteilung. (Ü.i.S.)
n
P
Was ergibt sich für Sn02 := n1 (Xi − X n )2 ? (Es ist E(Sn02 ) 6= D2 (X), aber wenigstens
lim E(Sn02 ) = D2 (X))
i=1
n→∞
Beispiel 5.20
Stichprobe vom Umfang n = 50 Messungen; +: Abweichung nach oben, -: Abweichung
nach unten;
0.46 0.47 2.46 -0.32 -0.07
0.06 -2.52 -0.53 -0.19 0.54
1.49 -0.35 -0.63 0.70 0.93
1.02 -0.47 1.28 3.56 0.57
1.39 -0.56 0.05 0.32 2.95
0.30 -0.29 1.30 0.24 -0.96
-1.56 0.19 -1.19 0.02 0.53
1.38 0.79 -0.96 -0.85 -1.87
-1.58 0.19 1.19 -0.50 -0.27
1.97 -0.26 0.41 0.44 -0.04
- kritische Durchsicht der Stichprobe auf mögliche Ausreißer, Rückfrage zum Ursprung
der Daten, je nach Antwort gebenenfalls Prüfung mittels Ausreißer-Tests anwenden
(insbesondere wichtig bei kleinen“ Stichproben), wenn nötig, den Wert entfernen
”
- Zweckmäßig: Werte der Größe nach ordnen, unübersichtliche Verhältnisse“, daher:
”
Klasseneinteilung ( Zusammenfassung von Stichprobenwerten“), so dass die Verhältnisse
”
überschaubarer werden, aber auch so, dass die Zufälligkeit erhalten bleibt
35
√
Empfehlungen für Klassenanzahl k: k ≤ 5 lg n, k = n, ...;
- hier: k = 8, xmin = −2.52, xmax = 3.56, Spanweite R = Xmax − xmin = 6.08, Klassenbreite d := Rk = 0.76.
[
) Absolute Klassenhäuf. rel. Klassenhäuf. Summenhäuf.
−∞ -1.76 III
3
0.06
0.06
-1.76 -1.00 II
2
0.04
0.10
-1.00 -0.24 IIIIIIIIIIIII
13
0.26
0.36
-0.24 0.52 IIIIIIIIIIIII
13
0.26
0.62
0.52 1.28 IIIIIIIIII
10
0.20
0.82
1.28 2.04 IIIIII
6
0.12
0.94
2.04 2.80 I
1
0.02
0.96
2.80
∞ II
2
0.04
1.00
Formulierung einer Vermutung zum Verteilungstyp anhand graphischer Darstellungen.
Normalverteilung, aber stets Rückfrage, ob das Modell sinnvoll ist
50
k
P
P
1
xi , bei Klasseneinteilung Schätzung durch X̃n = n1
yi hi
Schätzung von µ: X n = 50
i=1
i=1
(yi : Klassenmitte der i-ten Klasse)
Weitere Untermauerung der Vermutung Normalverteilung durch Signifikanztests (s.
später)
Beispiel 5.21
Weitere Stichprobenfunktionen: Sei X1 , ..., Xn mathematische Stichprobe,
1. m̂k =
1
n
1
n
n
P
xki emp. Moment der Ordnung k. E|X|k < ∞ ⇒ E(m̂k ) = E(X k ).
i=1
n
P
(Xi − X n )k : empir. zentriertes Moment der Ordnung k
i=1

X n+1
: n ungerade
b c
3. Median: 1 2
 X n +X n
: n gerade
2
b c+1
b c
2. µ̂k =
2
2
4. Seien (X1 , ..., Xn ), (Y1 , ..., Yn ) Stichproben aus Grundgesamtheiten X und Y .
n
P
ρ̂X,Y =
s
(Xi −X)(Yi −Y )
i=1
n
P
i=1
(Xi −X)2
n
P
heißt emp. Korrelationskoeffizienr.
(Yi −Y )2
i=1
Es gilt E(ρ̂X,Y ) = ρX,Y
5. Rangkorrelationskoeffizient von Spearman: Bsp: Lehrer für Ma/Phy wollen für die
Festlegung von Noten für die Mitarbeit feststellen, ob ein Zusammenhang zwischen
bei den mündlichen Leistungen von 10 Schülern in den beiden Fächern besteht.
Jeder Lehrer ordnet die Schüler der Leistung nach in dem der beste die Rangzahl
1, usw., der Schlechteste die Rangzahl 10 erhält.
SchülerNr.
1 2 3 4 5 6 7 8
9 10
Rangzahlen Ri (Ma) 4 2 3 7 5 6 1 9 10 8
Rangzahlen Ri0 (Phy) 3 4 5 8 2 7 1 10 9
6
6
n
P
(Ri −Ri0 )2
Nun ist der Rangkoeffizient sp := 1 − (n−1)n(n+1) , hier sp = 0.84. Da dies näher
an 1 liegt, ist daraus zu schließen, dass die Leistungen in den beiden Fächern stark
korrelieren.
i=1
36
Gesetze der großen Zahlen sind wichtig in der Simulation.
Beispiel 5.22
Mittels Überlegungen aus der Stochastik soll eine Näherung für
R1
g(x)dx ermittelt wer-
0
den, wobei g ∈ C([0, 1], [0, 1]).
Diese Methode ist bedeutend für:
Rb1
...
Rbn
g(x1 , ..., xn )dxn ...dx1 , falls
an
a1
”
g kompliziert“
oder n groß“ oder Integrationsbereich kompliziert“ bzw. ganz Rn .
”
”
1. Aufgabenstellung a =
R1
g(x)dx, näherungsweise
0
2. Zuordnung
( eines stochastischen Modells: Sei X eine über [0, 1] glm. vert. Zgr.,d.h.
R1
R1
R1
1 : x ∈ [0, 1]
f (x) =
. E(g(X)) = g(x) · f (x)dx = g(x)dx, d.h. g(x)dx
0 : sonst
0
0
0
kann als Erwartungwert der Zgr. g(X) interpretiert werden. Seien X1 , ..., Xn über
[0, 1] glm. vert. unabhängige Zgr. Dann sind die Voraussetzungen von 5.11 erfüllt,
n
P
d.h. lim n1
g(Xk ) = E(g(X)) (mit Wkt. 1)
n→∞
k=1
3. Durchführung von Experimenten mit dem Modell aus 2: Ermittlung von gleichmäßig
n
P
verteilten ZZ x1 , ..., xn . Ermittlung von g(x1 ), ..., g(xn ) und n1
g(xk )
k=1
4. Rücktransformation: Wegen 5.11 ist
1
n
n
P
g(xk ) eine Näherung von
k=1
R1
g(x)dx.
0
Wir betrachten noch eine Aussage zur Fehlerabschätzung“. Es soll E(X) unter den
”
Voraussetzungen vo 5.11 durch X n angenähert werden. n soll
so gewählt werden, dass,
dass mit einer vorgegebenen
X n − E(X) ≤ d. X n ist Zgr. Also: Es
Genauigkeit gilt:
liegen Ereignisse vor {ω : X n (ω) − E(X) ≤ d}.
!
P {ω : X n (ω) − E(X) ≤ d} ≥ 1 − α (*) (α > 0 klein) Wir suchen zu gegebenem d
”
und α einen Stichprobenumfang, sodass (*) erfüllt ist. (sogen. optimaler Stichproben”
umfang“)
Beispiel 5.23
Stichproben (X1 , ..., Xn ), X ∈ N (µ, σ 2 ), σ 2 bekannt, µ unbekannt.
2
Xi ∈ N (µ, σ ) ⇒
n
X
2
Xk ∈ N (nµ, nσ ) ⇒ X n ∈ N
k=1
σ2
µ,
n
⇒ 1 − α ≤ P {X n − E(X) ≤ d} = P {−d ≤ X n − E(X) ≤ d}
d√
X n − E(X) √
d√
d√
d√
d√
=P −
n≤
n≤
n =Φ
n −Φ −
n = 2Φ
n −1
σ
σ
σ
σ
σ
σ
i
h
α
d√
⇒1− =Φ
n ⇒ n∗ = z1− α σ2 + 1 mit zy = Φ−1 (x) (Umkehrfunktion)
2 d2
2
σ
37
6
Zum zentralen Grenzwertsatz
Wir sagen, eine 
Folge von Zgr. genügt
 dem zentralen Grenzwertsatz (ZGW), wenn gilt:


P

n
Xk −E(Xk )
s
∀x ∈ R : lim P
≤ x = Φ(x)
n
n→∞


k=1 P D2 Xk

k=1
Satz 6.1. Wir betrachten die folgende Variante: Sei (Xn ) eine Folge unabh. Zgr. mit
n
P
Xk −E(X)
1
2
√
√
FXn = FX ∀n, D Xk < ∞. Dann gilt: lim P
≤ x = Φ(x)
n
2
n→∞
Beweis. Sn :=
n
P
k=1
"
k=1
D (X)
Sn −nE(X)
Xk . Wir ermitteln die charakteristische Funktion ψn von √
.
2
Sn − nE(X)
⇒ ψ(t) = E exp it · p
nD2 (X)
n·D (X)
!#
=
n
Y
"
E exp
k=1
it(Xk − µ)
p
nD2 (X)
!#
=
ψ
t
!!n
p
nD2 (X)
(Anwendung der Taylorformel, Entwicklung bis zum quadratischen Term), wobei ψ die char. Fkt.
von Xk − µ (zugehörige Vert.: FX ).
2 n 2 n
t
t2
t
(it)2 D2 (X)
+o
= 1−
+o
ψn (t) = 1 +
2
2nD (X)
n
2n
n
2 n
n−1
n
n
n−k
X n
t2
t2
t
t2
n→∞ − t2
+ o
+
−→ e 2
o
= 1−
k
n
n
2n
n
k=1
(
1 :p
Folgerung 6.2. Die Voraussetzungen von 6.1 seien erfüllt und speziell: Xk =
,
0 :1−p
(p ∈ (0, 1)). Dann gilt

 n
P




X
−
np
k


k=1
p
≤ x = Φ(x)
lim P
n→∞





 np(1 − p)
Bemerkung 6.3. Mittels 6.2kann die Verteilungsfunktion
binomialverteilter Zgr. approximiert

n
P
n
 Xk −np
 n→∞ P
x−np
x−np
k=1
werden: P
Xk ≤ x = P √
≤√
≈ Φ √
np(1−p) 
np(1−p)
 np(1−p)
k=1
Beispiel 6.4
Ein Meinungsforschungsinstitut möchte den (unbekannten) Anteil p von Wählern einer Partei ermitteln. Wir wissen, dass p durch die relative Häufigkeit geschätzt wird
(Gesetz der großen Zahlen).
Dann kann die relative Häufigkeit geschätzt werden mit
(
n
P
1 : Partei gewählt“ : p
”
p̃n := n1
Xk , Xk =
. Es soll die Anzahl der Befragten so
0 : nicht gewählt : 1 − p
k=1
bestimmt werden, dass: P {|p̃n − p| ≤ 0.02} ≥ 0.95 gilt.
n
n
P
P
Xk − np Xk − np n
X
k=1
≤ p0.02 · n
≤ 0.02 ⇔ |p̃n −p| ≤ 0.02 ⇔ k=1
Xk − np ≤ 0.02·n ⇔ p
n
np(1 − p)
np(1 − p) k=1
38
2
Aber p ist unbekannt, also Versuch einer Abschätzung: p(1 − p) = 41 − p − 12 ≤ 14 .
Also

 n

 n
P
P








Xk − np Xk − np  !



0.02
·
n
0.02
·
n
k=1
k=1
p
p
q
≥ 0.95
P p
≤
≥
P
≤
np(1 − p) 


1 
np(1
−
p)
np(1
−
p)




n
·



4 

 n
P




Xk − np

√
√
√ 
k=1
≤ 0.04 n ≈ 2Φ(0.04 n)−1 ≥ 0.95 ⇒ 1.96 = 0.04 n ⇒ n ≈ 2401 → 2500
P p





 np(1 − p) Es sollten also etwa 2500 Wähler befragt werden.
7
Maximum-Likelihood-Schätzungen
X n , Sn2 sind Schätzungen für E(X), D2 (X) für Stichproben (X1 , ..., Xn ).
Definition 7.1. Sei (Fγ )γ∈Γ eine Familie von Verteilungsfunktionen. Von einer Zgr. sei bekannt:
∃γ 0 ∈ Γ : FX = Fγ 0 . (Verteilungsfunktion bis auf Parameter bekannt). Sei G eine σ-Algebra
von Teilmengen aus Γ (Γ ∈ G). Sei γ̂0 : Rn → Γ, mit γ̂0 := Tn (X1 , ..., Xn ) für eine Stichprobe
(X1 , ..., Xn ). Dann heißt γ̂0 Schätzung (Punktschätzung) für γ0 , wenn ∀B ∈ G : Tn−1 (B) ∈ Bn .
Definition 7.2.
1. γ̂0 heißt erwartungstreue Schätzung für γ, wenn E(γ̂0 ) = γ0
2
(X n , Sn sind erwartungstreu)
2. Falls lim E [Tn (X1 , ..., Xn )] = γ0 , so heißt die Punktschätzung asymptotisch erwartungstreu.
n→∞
lim Tn (X1 , ..., Xn ) = γ0 mit Wkt. 1
stark konsistent n→∞
.
3. Falls gilt, dann heißt die Schätzung schwach konsistent
lim Tn (X1 , ..., Xn ) = γ0 in Wkt. 1 n→∞
4. Seien γˆ1 , γˆ2 Punktschätzungen für γ0 . γˆ1 heißt besser als γˆ2 für γ0 , falls für bel. ε > 0 gilt
P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε}.
Beispiel 7.3
Sei γˆ1 ∈ N (γ0 , σ12 ), γˆ2 ∈ N (γ0 , σ22 ). γˆ1 besser als γˆ2 ⇔ σ12 ≤ σ22 , denn: sei ε > 0 beliebig.
Dann ist
|γ̂i − γ0 |
ε
ε
P {|γ̂i − γ0 | ≤ ε} = P
≤
= 2Φ
−1
σi
σi
σi
ε
Nun gilt γˆ1 besser als γˆ2 ⇔ P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε} ⇔ Φ σ1 ≥ Φ σε2
⇔
ε
σ1
≥
ε
σ2
⇔ σ22 ≥ σ12
Definition 7.4. Sei unser Modell wie in 7.1, (X1 , ..., Xn ) sei Stichprobe zu X. Fallunterscheidung
(γ)
(γ)
1. X diskret mit den Werten a1 , a2 , ... und P {X = ak } = pk = pak . (Einzelwahrscheinlichkeiten hängen von einem unbekannten Parameter γ ∈ Γ ab.)
(γ)
(γ)
Setze L(X1 , ..., Xn ; γ) := PX1 · ... · PXn heißt Likelihoodfunktion.
39
2. Sei X stetig. (Dichtefunktion hängt von einem unbekannten Parameter γ ∈ Γ ab: f (γ) (x))
L(X1 , ..., Xn ; γ) := f (γ) (X1 ) · ... · f (γ) (Xn )
3. Sei (x1 , ..., xn ) eine konkrete Stichprobe. Dann heißt L(x1 , ..., xn , γ) konkrete Likelihoodfkt.
4. l(x : 1, ..., xn ; γ) = ln L(x1 , ..., xn ; γ) heißt logarithmierte Likelihoodfkt.
5. Eine Schätzung γ̂0 = Tn (X1 , ..., Xn ) heißt Maximum-Likelihoodschätzung für γ, falls:
L(X1 , ..., Xn ; γ̂0 ) = max{L(X1 , ..., Xn ; γ) : γ ∈ Γ}
Bemerkung 7.5. X sei diskret, (x1 , ..., xn ) konkrete Stichprobe für (X1 , ..., Xn ). Das ergibt
!
(γ)
(γ)
L(x1 , ..., xn ; γ) = px1 · ... · pxn = P {X1 = x1 } · ... · P {Xn = xn } = P {(X1 , ..., Xn ) = (x1 , ..., xn )} =
max Gesucht ist γ 0 ∈ Γ, so dass die Wkt., dass X1 = x1 , ..., Xn = xn gilt, maximal wird.
γ∈Γ
Beispiel 7.6
Sei X binomialverteilt mit (γ, m), γ = p ∈ (0, 1) =: Γ, m gegeben. Eine zu X gehörige
n
X
Q
m
Stichprobe (X1 , ..., Xn ). X ist diskrete Zgr. ⇒ L(X1 , ..., Xn ; γ) =
γ i (1−γ)m−Xi .
Xi
n
ni=1
P
P
P
m
Übergang zu l(X1 , ..., X; γ) =
ln Xi +
Xi ln γ +
(m − Xi ) ln(1 − γ).
i=1
i=1
i=1
Versuch:
1
d
l(X1 , ..., Xn ; γ) =
dγ
γ
n
X
!
Xi
i=1
1
−
1−γ
mn −
n
X
!
Xi
i=1
n
1 X
Xn
·
Xi =
= 0 ⇒ γ̂ =
nm i=1
m
!
2
d l
Wegen 0 ≤ Xi ≤ m folgt γ̂ ∈ (0, 1). Ferner ist dγ
2 < 0 ⇒ γ̂ ist Max.-Lik.-Schätzung.
Ist es erwwartungstreu? E(γ̂) = E Xmn = m1 · E(X) = m1 · mγ = γ.
Beispiel 7.7
(X1 , ..., Xn ) sei Stichprobe aus einer exponentialverteilten Grundgesamtheit x mit
n
P
γ(= λ) > 0. fγ (x) = γe−γx χR+ (x). Setze S :=
Xi .
L(X1 , ..., Xn ; γ) =
n
Q
i=1
!
γe−γXi = γ n e−γS ⇒ l(X1 , ..., Xn ; γ) = n ln γ − γS = max.
γ>0
i=1
dl
n
n
1
!
>0
= − S = 0 ⇒ γ̂ = =
dγ
γ
S
Xn
d2 l
n
=
−
<0
dγ 2
γ2
Also ist γ̂ Max.-Lih.-Schätzung.
Max.-Lih.-Schätungen besitzen bemerkenswerte Eigenschaften.
Satz 7.8. Sei X stetige Zgr. mit Dichte fγ (X), γ ∈ [a, b] ⊂ R mit
k
∂ fγ (x) ∂ k ln fγ (x)
(k = 1, 2, 3), ∀γ ∈ [a, b]∀x,
∃
∂γ k ≤ Gk (x),
∂γ k
(Ableitungen existieren und haben Majoranten) wobei G1 , G2 über R integrierbar und
R
R h ∂ ln fγ (x) i2
sup G3 (x)fγ (x)dx < ∞, I(γ) :=
fγ (x)dx < ∞ und positiv
∂γ
γ∈Γ R
R
(als Information interpretierbar)
Sei (X1 , ..., Xn ) eine Stichprobe zu X, Die Likelihoodgleichung
und γ̂ ist Max.-Lih.-Schätzung mit folgenden Eigenschaften:
40
∂L(X1 ,...,Xn ;γ)
∂γ
= 0 besitzt eine Lösung
1. γ̂ ist asymptotisch erwartungstreu (im Allg. nicht erwartungstreu)
2. γ̂ ist schwach konsistent
√
3. I(γ) n(γ̂ − γ) ∈ N (0, 1) für n → ∞.
(Anwendung für Teste bei nicht normalverteiltem X)
Ü.i.S.: Max.-Lih.-Schätzung für µ, σ 2 falls X ∈ N (µ, σ 2 )
n
P
(Γ = R × (0, ∞)) ⇒ µ̂ = X n , σ 2 = n1 (xi − X n )2
i=1
Ü.i.S.: Max.-Lih.-Schätzung für λ bei Poisson-Verteilung
Bemerkung:
Für praktisch relevante Probleme sind die Gleichungen für die Max.-Lih.-Schätzungen
nicht mehr geschlossen lösbar. In solchen Fällen muss man auf numerische Verfahren
(zumeist Newton) zurück greifen.
8
Zu Signifikanztesten
Definition 8.1. Sei X Zgr. mit Verteilungsfunktion Fγ , γ ∈ Γ. γ 0 sei der wahre Parameter:
FX = Fγ 0 , γ 0 ∈ Γ, ∅ 6= Γ0 ( Γ. Werte γ ∈ Γ0 heißen Nullhypothese H0 , γ ∈ Γ\Γ0 heißen
Alternativhypothese H1 . Insbesondere Γ0 = {γ 0 }: Vermutung für einen konkreten Wert für γ
Beispiel 8.2
Γ0 = {γ : γ ≥ γ0 , Γ0 = {γ : γ < γ0 }. Meist aber einelementiger Fall.
Definition 8.3. Ein (nicht radomisierter) Test ist eine Funktion, ϕ : G ⊂ Rn → {0, 1} mit: Sei
(x1 , ..., xn ) konkrete
( Stichprobe einer Grundgesamtheit X. Dann definieren wir
0 : (x1 , ..., xn ∈ Rn \G
.
ϕ(x1 , ..., xn ) =
1 : (x1 , ..., xn ) ∈ G
Interpretation ϕ = 1: Annahme von H0 /Ablehnung von H1 .
Definition 8.4. Ist Tn eine Stichprobenfunktion und wird G durch
{(x1 , ..., xn ) : Tn (x1 , ..., xn ) ∈ K} beschrieben, so heißt K kritischer Bereich.
Im Folgenden sei 8.4 vorausgesetzt.
Also: Entscheidung basiert auf einer Stichprobe, d.h. basiert auf einer Verteilung, da die Stichprobenfkt. eine Zgr. ist. Es sind 2 Fehlentscheidungen möglich:
Fehler 1. Art: Ablehnung von H0 , obwohl H0 richtig ist; Fehler 2. Art: Annahme von H0 , obwohl
H0 falsch ist.
Beide Fehlerwahrscheinlichkeiten lassen sich nicht gleichzeitig minimieren. Daher spezielle Tests:
Signifikanzteste
Sei α ∈ (0, 1) gegeben (üblich: α = 0.05 bzw 0.01 oder 0.001). Dann soll gelten P {Fehler 1. Art} ≤
α. (α - Irrtumswahrscheinlichkeit, Sinifikanzniveau,...).
Bemerkung 8.5. Es ist keine Aussage über den Fehler 2. Art möglich. (Oft: Wkt für Fehler 2. Art
minimal zu halten). Es gibt einen Zusammenhang zwischen α und n. Mitunter ist es möglich, zu
vorgegebenen α einen Stichprobenumfang n∗ (notwendiger Spichprobenumfagn) so zu bestimmen,
dass für die Wahrhsceinlichkeit des Fehlers 2. Art eine gewünschte Wahrscheinlichkeit mindestens
einegehalten wird, wenn man eine einzuhaltende Genauigkeit für den Parameter vorgibt.
Sequentielle Teste/Folgeteste: unsere Entscheidung basiert auf Stichprobe, bei nächster Stichprobe
evtl andere Entscheidung. Wir suchen nun nach Regeln, damit nächste Stichprobe sicherer wird.
41
Beispiel 8.6
Leitbeispiel: bezieht sich auf Teste für normalverteilte Grundgesamtheiten. Sei X ∈
N (µ, σ 2 ), σ 2 sei bekannt (σ 2 = 4). Gegeben Stichprobe (X1 , ..., Xn ), hier: konkrete Stichprobe vom Umfang n = 20: 10,11,13,11,12,13,14,10,9,10,10,11,12,14,14,10,11,10,16,9
1. Formulierung einer Hypothese H0 (Nullhypothese) und einer alternativen Hypothese
hier
H1 , hier: H0 : µ = µ0 = 11, Alternative H1 : µ 6= µ0 , (hier: µ 6= 11)
2. Angabe einer Testgröße, d.h. Angabe einer Stichprobenfunktion T , deren Verteilung
unter Zugrundelegung von H0 (mindestens asymptotisch) bekannt ist. Hier: Eine Stich√
probenfkt. T := Z = X nσ−µ0 · n ∈ N (0, 1)
Für eine konkrete Stichprobe wird einer Realisierung von T ermittelt. Hier: z = X nσ−µ0 ·
√
√
n = 11.5−11
20 ≈ 1.118
2
3. Angabe des kritischen Bereiches K, d.h. Ein möglichst großer Teil des Wertebereiches von T mit P {T ∈ K|H0 } ≤ α mit α ∈ (0, 1) gegeben ( möglichst groß“ ganz
”
intuitiv, λ1 (K) maximal). Es gibt verschiedene Wahlmöglichkeiten von K, z.B.
Hier: H0 : µ = µ0 , Es gibt also Unterschreitungen und Überschreitungen des Sollwertes. Somit ist eine sogenannte zweiseitige Fragestellung sinnvoll. Suche also z α2 , sodass
P {X > z α2 } ≤ α2 . Wegen der Symmetrie ist dann K = z : |z| > z α2
Ist ein Unterschreiten der Nullhypothese ausgeschlossen (durch äußere Umstände oder
durch eine Nullhyothese µ ≤ µ0 ) dann ist es sinnvoll eine rechtsseitige Fragestellung
durchzuführen, also K = {z : z ≥ zα }. Bzw. wenn ein Überschreiten ausgeschlossen
ist, (H0 : µ = µ0 , H1 : µ < µ0 ), so ergibt sich eine linksseitige Fragestellung mit
K = {z : z ≤ −zα }.
zβ
β
0.10
1.282
0.05
1.655
0.025 1.96
0.01
2.326
0.005 2.576
0.001 3.090
4. Entscheidungsfindung: Gilt für die Realisierung von T aus Schritt 2 die Beziehung
t∈
/ K, so ist nicht gegen H0 einzuwenden. Für t ∈ K wird H0 zugunsten von H1 abgelehnt.
Hier: 1.118 ∈
/ K bei α = 0.05 ⇒ nichts gegen µ = 11 einzuwenden.
Kann man Bereiche angeben von Werten, die nicht abgelehnt werden können? Ja, indem man die
gegebenen Sachen umstellt. Das führt zum Begriff der Konfidenzintervalle.
8.1
Gütefunktion eines Tests
Beispiel 8.7
2-seitiger Test, H0 : E(X) = µ0 , H1 : E(X) 6= µ0 , wenn X ∈ N (µ, σ 2 ), σ 2 bekannt.
0
Setze nun δ := µ−µ
( genormte Abweichung“), Q = α2 , α ∈ (0, 1) sei ein gegebenes
σ
”
42
Signifikanzniveau.
X n − µ0 √
X n − µ0 √
:= P
n ≥ zq = 1 − P
n ≤ zq
σ
σ
Xn √
µ0 √
= 1 − P −zq ≤
n−
n ≤ zq
σ
σ
µ√
Xn √
µ0 √
µ0 √
µ√
µ0 √
n−
n≤
n−
n ≤ zq +
n−
n
= 1 − P −zq +
σ
σ
σ
σ
σ
σ
√
√
√
√ Xn − µ√
= 1 − P −zq − δ n ≤
n ≤ zq − δ n = 1 − Φ(zq − δ n) − Φ(−zq − δ n ]
σ
√
√
= 1 − Φ(zq − δ n) + Φ(−zq − δ n) =: g1 (δ)
Die Gütefunktion g1 gängt ggf. von u und von δ ab.
µ = µ0 :⇒ δ = 0 ⇒ g(µ0 ) = 1 − Φ(zq ) + Φ(−zq ) = 2(1 − Φ(zq )) = α
| {z }
=1− α
2
Die Gütefunktion liefert also eine Majorante für den fehelr 1. Art.
Wkt Fehler 2. Art: β(µ) = 1 − g(µ) für µ 6= µ0 , Konkret: α = 0.01, n = 5, n = 20
|δ| n = 5 n = 20
0
0.010 0.010
0.5 0.073 0.367
1
0.367 0.971
1.5 0.782 1.000
2
0.971 1.000
2.5 0.999 1.000
3
1.000 1.000
Für großes δ und somit für größer werdenden ersten Fehler wird der Fehler 2. Artkleiner. Die Wahrscheinlichkeiten sind also gegenläufig.
Gesucht ist nun ein Mindestumfang für eine Stichprobe (2-seitige Fragetsellung), damit
der Fehler 2. Art kleiner wird als eine vorgegebene Schranke β0 . Dabei erhält man
!
z α2 − z β0 2
2
n≥
δ
8.2
Konfidenzintervalle/Konfidenzschätzungen
Eine Konfidenzschätzung (Bereichsschätzung) ist eine zufällige Menge (stichprobenabhängig)
im Parameterraum, die mit Wahrscheinlichkeit 1 − α den wahren Parameter überdeckt.
P {ω : G(ω) 3 µ0 } ≥ 1 − α, α ∈ (0, 1) Oft sind die Mengen G(ω) Intervalle mit
zufälligen Grenzen. Dann spricht man von Vertrauenintevallen.
Beispiel 8.8
Gesucht ist ein Konfidenzntervall für den Erwartungswert einer normalverteilten Grundgesamtheit bei bekannter Streuung (zweiseitig)
Überlegung: Gibt es einen entsprechenden Test?
43
√
ja, siehe 8.6.(2): T = X nσ−µ0 n ∈ N (0, 1)
8.6.(3): P {T ∈ K} = α ⇔ P {T ∈
/ K} = 1 − α ⇔ P {|T | ≤ z α2 } = 1 − α ⇔
n
o
zα σ
zα σ
P X n − √2n ≤ µ0 ≤ X n + √2n
zα σ
zα σ
Also ist das Vertrauensintervall X n − √2n , X n + √2n Hier spiegelt sich
auch wieder, dass wachsender Stichprobenumfang eine größere Genauigkeit
liefert.
Das Vertrauensintervall gibt die Menge von Erwartungswerten an, die nicht
abgelehnt werden können.
Bemerkung 8.9. Prüfen von µ, wenn X ∈ N (µ, σ 2 ),σ 2 unbekannt. Dann betrachtet
man folgende Testgröße:
√
n −µ0
T := X√
n ist t-Verteilung mit n − 1 Freiheitsgraden. Diese ist vertafelt. Statt
2
Sn
z α2 haben wir t α2 ,1−n . Der Stichprobenumfang geht also mit ein. Will man dies lösen,
so erhält man Fixpunktgleichungen, die nicht geschlossen lösbar sind, aber es lassen
Näherungen/Schranken berechnen.
Prüfen von σ 2 einer normalverteilten Zgr. bei unbekanntem Erwartungswert:
2
n
ist χ2 -verteilt mit n − 1 Freiheitsgraden, (σ0 -Hypothese), Liegt wieder
T := (n−1)S
σ02
vertafelt vor.
44

Wahrscheinlichkeit und mathematische Statistik

Produkte

Unterstützung

Wahrscheinlichkeit und mathematische Statistik

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können