Wahrscheinlichkeit und mathematische Statistik

Werbung
Wahrscheinlichkeit
und mathematische Statistik
Inoffizielles Skript
zur Vorlesung von Prof. Grecksch, SS 2009
geschrieben von Henning Seidler
Inhaltsverzeichnis
1 Zufällige Ereignisse
2
2 Wahrscheinlichkeitsraum, Anwendung
6
3 Zufallsgrößen, zufällige Vektoren
12
4 Charakteristische Funktionen
30
5 Gesetze der Großen Zahlen und Anwendungen in der Statistik
32
5.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Zum zentralen Grenzwertsatz
38
7 Maximum-Likelihood-Schätzungen
39
8 Zu Signifikanztesten
41
8.1 Gütefunktion eines Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
8.2 Konfidenzintervalle/Konfidenzschätzungen . . . . . . . . . . . . . . . . . . . . . . . 43
Einführung: vielfältige Erscheinungen in Wirtschaft (z.B. Ausfälle v. Maschinen, Aktien,...), atomarer Zerfall, Wachstumsprozesse, Verhalten v. Epidemien
Mathematische Modellierung
(i) komplizierter praktischer Sachverhalt
(ii) Erstellung eines mathematischen Modells (evtl. aus Zusammensetzung bisheriger Modelle)
(iii) Rückkopplung zur Praxis, Durchführung von Experimenten mit dem Modell
(iv) Interpretation des Ergebnis der Experimente, erneute Rückkopplung
Aufgabe der Statistik: Methoden bereit stellen, um Verteilungen zu erfassen, Schlussfolgerungen
von endlichen Stichproben ausgehend
1
1
Zufällige Ereignisse
Definition 1.1. Ein zufälliger Versuch ist ein Vorgang (in einem sehr allgemeinen Sinne), der
unter gleichen äußeren Bedingungen beliebig oft wiederholbar ist und dessen Ergebnis im Rahmen
verschiedener Möglichkeiten ungewiss ist.
Ein Ergebnis eines ZV heißt (zufälliges) Ereignis.
Das Ereignis, das bei jeder/keiner Versuchsdurchführung eintritt heißt sicheres/unmögliches Ereignis. Bez. Ω/∅
Folgerung: Sei A ein Ereignis. Dann ist A ⊆ Ω ⇒ Ereigniss als Mengen.
Die Elemente von Ω heißen Elementarereignisse.
Beispiel 1.2
1. idealer Würfel, Ω = {1, 2, 3, 4, 5, 6}, Ereignis z.B. A = {2, 4, 6}
2. Münze, Ω = {Zahl, Wappen}
3. Kartenspiele, Unfallstatistiken, Niederschlagsmessung, Ausbreitung von Epidemien, Umfragen
Bemerkung 1.3. In der Formulierung im Rahmen verschiedener Möglichkeiten“ soll nicht nur
”
der Fall endlich vieler Elementarereignisse enthalten sein, sondern auch unendlich vieler“ EE.
”
(abzählbar und überabzählbar)
Beispiel 1.4
1. Häufig in der Messtechnik: Toleranzbereiche (zulässige Abweichungen von einem
Sollwert), → Intervall [x0 − δ, x0 + δ] → unendlich viele EE.
2. Menge aller möglichen Kursentwicklungen einer Aktie im Zeitintervall [0, T ],
Ω = {ω : [0, T ] → R+ } - Menge von Funktionen
z.B. A = {ω ∈ Ω : ∃h, t > 0 : ω(t) > ω(t + h)} - der Kurs fällt zu irgendeinem
Zeitpunkt
3. Kurven der Brown’schen Molekularbewegung
4. Anzahl der bis zu einem Zeitpunkt t eingetroffenen Nachrichten
Beispiel 1.5
zwei Würfe eines Würfels: Dann sind die EE geordnete Paare, z.B. A: Summe ≥ 10,
A = {(5, 5), (5, 6), (6, 5), (6, 6)}
das konkrete Aufschreiben wird mühsam, insbesondere bei häufigen Durchführungen
Bemerkung 1.6. Einführung von Operationen mit Ereignissen, die ihre Entsprechung in der
Mengenlehre haben. Seien A, B ∈ Ω (Bilder fehlen noch)
Ω
A⊆Ω
A = Ω\A
A∩B
A⊆B
sicheres Ereignis
A ist Ereignis
A ist nicht eingetreten/Komplementärereignis
sowohl A als auch B ist eingetreten
A zieht B nach sich
dazu noch A ∪ B, A\B, A4B
2
Weiterhin:
n
S
Ai = A1 ∪ A2 ∪ ... ∪ An ,
∞
S
i=1
i=1
Ai = A1 ∪ A2 ∪ ... = {ω : ∃i : ω ∈ Ai }
(mindestens eines der Ereignisse Ai tritt ein.)
n
∞
T
T
Ai = A1 ∩ A2 ∩ ... ∩ An ,
Ai = A1 ∩ A2 ∩ ... = {ω : ∀i : ω ∈ Ai }
i=1
i=1
(alle Ereignisse Ai treten ein.)
Beispiel 1.7
Würfelexperiment (1mal): Betrachte A = {2} ∪ {4} = {2, 4}, B{3} ∩ {3, 5} = {3},
C = {3} = {1, 2, 4, 5, 6}
Beispiel 1.8
Ein technisches System bestehe aus 3 Teilsystemen, die in einem betrachteten Zeitraum
zufällig ausfallen können (oder auch nicht)
1. Kodierung: 0: steht für Ausfall, 1 steht für Nicht-Ausfall/intakt;
Ω = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}
2. A: Genau zwei Teilsysteme fallen aus, B: Teilsystem 1 fällt aus
A = {(0, 0, 1), (0, 1, 0), (1, 0, 0)}, B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1)},
A ∩ B = {(0, 0, 1), (0, 1, 0)} - System 1 fällt aus und genau ein Weiteres.
A ∪ B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0)}, A\B = {((1, 0, 0)},
A = Ω\A = {(0, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}
3. Man beschreibe (Ü.i.S = Übungsaufgabe im Selbststudium) C: kein Teilsystem
fällt aus, D: Höchstens ein Teilsystem fällt aus, E: Mindestens ein Teilsystem fällt
aus
weiterhin: A ∩ E, E\B, B ∩ C, B ∩ D in Mengen und in Worten
4. (Ü.i.s) Welche der Ereignisse sind paarweise unvereinbar (disjunkt)
Beispiel 1.9
1. Der zufällige Versuch bestehe im Verteilen und Ausfüllen eines Fragebogens mit
4 alternativen (unabhängigen) Entscheidungsfragen.
Ak : Ereignis, dass Frage k mit ”ja”beantwortet wird. (k = 1, 2, 3, 4)
A: Jede Frage wird mit ”ja”beantwortet, A = A1 ∩ A2 ∩ A3 ∩ A4
B: Es wird keine der Fragen mit ”ja”beantwortet, B = A1 ∩ A2 ∩ A3 ∩ A4 !!
4
T
S
Ak ∩
Ai
C: Es wird genau eine Frage mit ”nein”beantwortet. C =
k=1
i6=k
D: Mindestens eine Frage mit ”ja”beantwortet, D = A1 ∪ A2 ∪ A3 ∪ A4
E: Es werden genau zwei Fragen mit
! ”ja”beantwortet.
4
S
S
E=
Ak ∩ A i ∩
Aj
i,k=1,i6=k
j6=i,k
2. *Bildchen*
Ai : Element i fällt aus, C: System fällt aus (am Ausgang kommt nichts an),
0-Ausfall, 1-intakt, Ω = {(a1 , a2 , a3 , a4 , a5 ) : ai ∈ {0, 1}, i = 1, ..., 5}
C = A1 ∪ ((A2 ∪ A3 ) ∩ A4 ) ∪ A5
3
Doch wichtiger ist eine Maßzahl für die Häufigkeit des Eintreffen des Ereignisses. Hierbei stellt sich die Frage, wie sich die Wahrscheinlichkeit von verküpften
Ereignissen verhält. Zudem benötigt man eigentlich die Wahrscheinlichkeiten der
Teilereignisse. Diese sind aber oftmals nur näherungsweise bekannt.
Definition 1.10. Sei (An )n∈N eine Folge von Ereignissen (aus Ω).
∞ ∞
S
T
1. lim inf An :=
Ai Dies ist das Ereignis, das darin besteht, dass alle Ereignisse einn→∞
n=1
i=n
treten, ausgenommen einer endlichen Anzahl von Ereignissen Ai .
Es gibt ein n ∈ N, sodass alle Ai für i ≥ n erfüllt sind.
!
!
!
∞
∞
∞
\
\
\
lim inf An =
Ai ∪
Ai ∪ ... ∪
Ai ∪ ...
n→∞
∞
T
2. lim sup An =
n→∞
∞
S
n=1
i=1
i=2
i=n
Ai
i=n
3. Eine Folge von Ereignissen (An )n∈N heißt monoton wachsend, wenn ∀n : An ⊆ An+1 und
monoton fallen, wenn ∀n : An+1 ⊆ An (streng monoton im Fall ⊂)
1. Eine Folge von Ereignissen (An )n∈N , An ⊂ Ω erfüllt die Regeln von de Morgan
Satz 1.11.
a)
∞
S
An =
i=1
b)
∞
T
∞
T
An
i=1
An =
i=1
∞
S
An
i=1
Bemerkung: Dies gilt auch für beliebige Familien.
2. Es gilt stets lim inf An ⊆ lim sup An
n→∞
n→∞
∞
S
3. Wenn (An ) monoton wachsend, dann lim inf = lim sup An =
n→∞
An
n=1
∞
T
4. Wenn (An ) monoton fällt, dann lim inf An = lim sup An =
An
!
n=1
∞
∞
∞
[
[
[
Beweis.
1. (a)
ω∈
/
An ⇔ ω ∈ Ω\
An ⇔ ω ∈
An ⇔ ∀n : ω ∈
/ An
n=1
n=1
n=1
⇔ ∀n : ω ∈ Ω\An ⇔ ∀n : ω ∈ An ⇔ ω ∈
∞
\
n=1
(b)
∞
[

An = 
n=1
Wegen
∞
T
An ⊆
n=nω
∞
S
∀m : ω ∈
n=m
∞
S
(a)
An
=
n=1
2. Es gilt ω ∈ lim inf An ⇒ ∃nω : ω ∈
n→∞
∞
[
!
∞
T
n=1
An für alle m gilt also:
n=m
∞ S
∞
T
m=1 n=m
!
An
=
∞
\
n=1
An ⇒ ∀n ≥ nω : ω ∈ An
n=nω
An ⇒ ω ∈
∞
\
An = lim sup An
n→∞
4
An
An
3. für eine monoton wachsende Folge von Ereignissen gilt:
∞
S
lim inf An =
n→∞
An . Nach Def. ist lim sup An ⊆
n→∞
n=1
Ak = An für alle n Daraus folgt
k=
An . Nach (2) folgt nun Gleichheit. Und
n=1
∞
S
wegen dieser Beziehung gilt auch lim inf An =
n→∞
∞
S
∞
T
An .
n=1
4. analog zu (3)
Definition 1.12. Eine Menge F von Ereignissen aus Ω 6= ∅ heißt Ereignisfeld (σ-Algebra), wenn:
1. F 6= ∅
2. A ∈ F ⇒ Ω\A ∈ F
∞
S
3. (An )n∈N ⊂ F ⇒
An ∈ F
n=1
Sprechweise: das Paar (Ω, F) wird bezeichnet als ”messbarer Raum”.
Beispiel 1.13
1. Die Potenzmenge einer Menge Ω ist ein Ereignisfeld.
2. Zu allen betrachteten Beispielen mit endlicher Menge Ω ist die Potenzmenge das
zugehörige Ereignisfeld.
3. Für unendliche Ω ist im Allgemeinen die Potenzmenge zu groß“ (im Sinne von
”
sie ist ungeeignet“).
”
4. Seien (Ω, F), (Ω∗ , F∗ ) messbare Räume. T : Ω → Ω∗ eine Funktion. Dann ist
FT = {T −1 (A∗ ) : A∗ ∈ F∗ } (Menge aller Urbilder) ein Ereignisfeld in Ω, denn
T −1 (A∗ ) = {ω : T (ω) ∈ A∗ }, A∗ ∈ F∗ . Nun ist
Ω\T −1 (|{z}
A∗ ) = {ω : T (ω) ∈
/ A∗ } = {ω : T (ω) ∈ Ω∗ \A∗ } = T −1 (Ω∗ \A∗ )} ∈ F∗
| {z }
∗
∈F
∈F∗
Also ist Ω\T −1 (A∗ ) ∈ F∗ . Somit ist die zweite Eigenschaft erfüllt.
Sei (An )n∈N ⊆ FT ⇒ Ai = T −1 (A∗i ). Somit ist
∞
[
An =
n=1
∞
[
T −1 (A∗n ) = {ω ∈ Ω : ∃n : ω ∈ T −1 (A∗n )}
n=1
∞
[
(
= {ω ∈ Ω : ∃n : T (ω) ∈ A∗n } =
∞
[
(
=
ω ∈ Ω : ω ∈ T −1
ω ∈ Ω : T (ω) ∈
∞
[
!)
A∗n
= T −1
n=1
Damit ist die dritte Bedingung erfüllt.
Folgerung 1.14. Sei F ein Ereignisfeld. Dann gilt
5
A∗n
n=1
!
A∗n
∈ FT
n=1
|
)
{z
=:A∗ ∈F∗
}
1. ∅, Ω ∈ F
2. A, B ∈ F ⇒ A ∩ B, A\B, A4B ∈ F
3. (An )n∈N ⊆ F ⇒
∞
T
n=1
Beweis.
An , lim inf An , lim sup An ∈ F
n→∞
n→∞
1. Nach Axiom (1) gibt es ein A ∈ F. Somit ist ∅ = A\A ∈ F und Ω = Ω\∅ ∈ F
2. A ∩ B = Ω\((Ω\A) ∪ (Ω\B))
Rest ist Ü.i.S.
Lemma 1.15. F0 sei eine Menge von Ereignissen (aus Ω). Dann existiert in der Potenzmenge
von Ω (Bez. P(Ω) ein kleinstes Ereignisfeld (Bez. σ{F0 }) d.h σ{F0 } ist das Ereignisfeld, das F0
enthält und für jedes andere Ereignisfeld S, das ebenfalls F0 enthält, gilt σ{F0 } ⊆ S.
T
Beweis. Betrachte σ{F0 } := {S : F0 ⊂ S, S ist Ereignisfeld} ⊇ F0 6= ∅ ist ein Ereignisfeld, da es
ein Schnitt von Ereignisfeldern ist.
Wegen dieser Definition ist auch F0 ∈ σ{F0 } und σ{F0 } ist minimal.
Beispiel 1.16
1. Betrachte < a1 , b1 >, ..., < an , bn >⊂ R seien Intervalle. F0 : System aller endlichen
Vereinigungen von Intervallen. Dann ist σ{F0 } = B1 (σ-Algebra der Borelmengen
aus R1 ). B1 wird erzeugt von {] − ∞, c] : c ∈ R} und vielen anderen.
2. Entsprechend Bn im n-dimensionalen. B1 , Bn sind also Ereignisfelder (σ-Algebren).
Es fehlt: Wie kann die Ungewissheit“ in 1.1 beschrieben“ werden?⇒ Wahrscheinlichkeit von Er”
”
eignissen
Kapitel 2
(R2 , B1 ) ist ein Beipsiel für einen messbaren Raum (insbes. für ein Ereignisfeld), ebenso (Rn , Bn )
Wie gelangt man von (Ω, F) in (R1 , B1 ), sodass der Rahmen von Ereignissen aus F nicht verlassen
wird?
Wie wird dabei die Wahrscheinlichkeit auf (Ω, F) in eine Wahrscheinlichkeit auf (R1 , B1 ) transformiert?
Kapitel 3
Bemerkung 1.17. Sei (Ω, F)) ein messbarer Raum,
(
1 :ω∈A
A ∈ F, 1A (ω) =
0 : sonst
Seien A, B ∈ F. Dann ist 1A∩B (ω) = 1A (ω) · 1B (ω) und 1A∪B (ω) = max{1A (ω), 1b (ω)},
1A (ω) = 1Ω (ω) − 1A (ω), 1A\B (ω) = 1A∩B (ω) = 1A (ω)(1Ω (ω) − 1B (ω)) = 1A (ω) − 1A∩B (ω)
2
Wahrscheinlichkeitsraum, Anwendung
Definition 2.1. Sei (Ω, F) ein messbarer Raum. Eine Abbildung P : F → R heißt Wahrscheinlichkeit, wenn folgende Bedingungen erfüllt sind:
1. P (Ω) = 1
2. ∀A ∈ F : P (A) ≥ 0
6
3. Für jede Folge (An )n∈N ⊂ F von
Ereignissen
mit der Eigenschaft ∀i 6= j : Ai ∩ Aj = ∅ (Ai
∞
∞
S
P
sind paarweise disjunkt) gilt P
An =
P (An ) (1932: Kolmogorow)
n=1
n=1
Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum.
Bemerkung: (Ω, F, P ) sei vollständig, d.h. F enthält auch alle Nullereignisse (= {A : P (A) = 0}}).
Satz 2.2. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F. Dann gelten
1. P (A) = 1 − P (A), 0 ≤ P (A) ≤ 1
2. P (∅) = 0
3. P (A\B) = P (A) − P (A ∩ B), insbesondere B ⊆ A ⇒ P (A\B) = P (A) − P (B)
4. Wenn A ⊆ B, dann P (A) ≤ P (B) ( Monotonie“)
”
5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
2.1(3)
Beweis.
1. A ∩ A = ∅, A ∪ A = Ω ⇒ P (Ω) = P (A ∪ A) = P (A) + P (A) ⇒ P (A) = 1 − P (A)
Ferner A ∈ F ⇒ P (A) ≥ 0 und 0 ≤ P (A) = 1 − P (A) ⇒ 0 ≤ P (A) ≤ 1
2. Anwendung von (1) mit A = Ω ⇒ A = ∅ ⇒ P (∅) = 1 − P (Ω) = 1 − 1 = 0
2.1(3)
3. A = (A ∩ B) ∪ (A\B), (A ∩ B) ∩ (A\B) = ∅ ⇒ P (A) = P (A ∩ B) + P (A\B)
⇒ P (A\B) = P (A) − P (A ∩ B)
Für B ⊂ A ist A ∩ B = B. Rest trivial
(3)
4. A ⊆ B ⇒ A ∩ B = A, B\A ∈ F ⇒ 0 ≤ P (B\A) = P (B) − P (A) ⇒ P (A) ≤ P (B)
5. Wegen A ∪ (A ∩ B) = A ∪ B und A ∩ (A ∩ B) = ∅ folgt mit 2.1(3)
P (A ∪ B) = P (A) + P (A ∩ B) = P (A) + P (B\A) = P (A) + P (B) − P (A ∩ B)
Satz 2.3. Sei (Ω, F, P ) Wahrscheinlichkeitsraum, (An )n∈N ⊂ F. Dann
n
n
n
S
P
P
1. P
Ai =
P (Ai ) −
P (Ai ∩ Aj ) + ... + (−1)n−1 P (A1 ∩ A2 ∩ ... ∩ An )
i=1
2. P
∞
S
n=1
i=1
Ai
≤
∞
P
i,j=1;i<j
P (Ai )
n=1
Satz 2.4. ( Stetigkeitseigenschaften von P“)
”
∞
S
1. Sei (An )n∈N ⊂ F monoton wachsend. Dann lim P (An ) = P
n→∞
2. Sei (An )n∈N ⊂ F monoton fallend. Dann lim P (An ) = P
n→∞
3. Sei (An )n∈N ⊂ F, A =
n=1
AN , dann lim P
n→∞
i=1
7
∞
T
n=1
n
S
An
n=1
∞
S
Ai
= P (A)
An
4. Sei (An )n∈N ⊂ F, A =
∞
T
An , dann lim P
n→∞
n=1
Beweis.
n
T
Ai
= P (A)
i=1
1. Setze B1 := A1 , B2 = A2 \A1 , ..., Bn := An \An−1 , ... Dann A :=
∞
S
n=1
An =
∞
S
Bn .
n=1
Die
der Definition
paarweise disjunkt. Also ist
i sind
B
nach ∞
∞
∞
S
S
P
P
An = P
Bn =
P (Bn ) = P (A1 ) + P (A2 \A1 ) + ...
n=1
n=1
n=1
= P (A1 ) + P (A2 ) − P (A1 ) + ... + P (An ) − P (An−1 + ... = lim P (An )
n→∞
(2) entsprechend, (3) auf (1) zurückführen, (4) auf (2) zurück führen
Beispiel 2.5
(Klassische Definition der Wahrscheinlichkeit, Laplace, 1759-1820)
Sei Ω = {ω1 , ..., ωn }, P (ω1 ) = P (ω2 ) = ... = P (ωn ) = n1 . F ist hierbei:
Anzahl der ωi mit ωi ∈ A
n
heißt klassische Wahrscheinlichkeit von A (Anzahl der für A günstigen Versuchsausgänge).
Die klassische Definition erfüllt 2.1: P (Ω) = nn = 1, Quotient nichtnegativer Werte ist
nichtnegativ, also P (A) ≥ 0. Seien A1 , A2 ∈ F, A1 ∩ A2 = ∅. A1 werde durch n1 EE
beschrieben, A2 durch n2 EE. P (A1 ) = nn1 , P (A2 ) = nn2 . A1 ∪ A2 wird durch n1 + n2
2
= P (A1 ) + P (A2 ). Nach Induktion ist die
EE beschrieben. Also ist P (A1 ∪ A2 ) = n1 +n
n
Erweiterung auf jede endliche Anzahl möglich.
F = P(Ω),
A∈F
P (A) =
Beispiel 2.6
1. Werfen eines idealen Würfels, Ω = {1, 2, 3, 4, 5, 6}, ωi = i, P (ωi ) = 61 . A: Es fällt
eine ungerade Augenzahl. P (A) = P ({1, 3, 5}) = 36 = 12 , Für A = {1, 2} ist
P (A) = 62 = 31
2. Das zufällige Experiment sei dreimaliges Werfen einer Münze, bei Beachtung der
Reihenfolge.
Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} enthält 23 = 8 EE. Diese treten
mit gleichem Wert 81 auf. A: Wie groß ist die Wahrscheinlichkeit, dass bei einem
Wurf Wappen“ genau zweimal vorkommt?
”
P (A) = P ({wwz, wzw, zww}) = 38
Definition 2.7. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, B ∈ F, mit P (B) > 0, A ∈ F.
P (A|B) := P P(A∩B)
heißt bedingte Wahrscheinlichkeit.
(B)
Folgerung 2.8. Sei (Ω, F, P ), B ∈ F, P (B) > 0. Dann ist für festes B auch (Ω, F, P (·|B)) ein
Wahrscheinlichkeitsraum.
Beweis. Es bleibt zu beweisen, P (·|B) besitzt die Eigenschaften der Def. 2.1.
2.7 P (B)
Nach Konstruktion ist ∀A ∈ F : P (A|B) > 0. P (Ω|B) = P P(Ω∩B)
= P (B) = 1.
(B)
Sei A1 , ..., An , ... ∈ F, Ai ∩ Aj = ∅ (i 6= j). Dann
∞
∞
S
S
!
(An ∩ B
P
An ∩ B
P
∞
[
2.7
n=1
n=1
P
An |B =
=
P
(B)
P (B)
n=1
(Ai ∩B)∩(Aj ∩B)=∅
=
∞
X
P (An ∩ B)
n=1
8
P (B)
=
∞
X
n=1
P (An |B)
Folgerung 2.9. (Multiplikationsregel) Sei (Ω, F, P ), A1 , ..., An ∈ F mit P (A1 ∩ ... ∩ An ) > 0 Dann
gilt
P (A1 ∩ ... ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · ... · P (An |A1 ∩ ... ∩ An−1 )
Beweis.
P (A1 ∩ ... ∩ An )
P (A1 ∩ A2 )
· ... ·
P (A1 )
P (A1 ∩ ... ∩ An−1 )
= P (A1 ∩ ... ∩ An )
2.7
P (A1 ) · ... · P (An |A1 ∩ ... ∩ An−1 ) = P (A1 ) ·
Alle Nenner snd von Null verschieden nach Voraussetzung. Jeder Zähler kürzt sich mit dem Nenner
des nächsten Faktors weg.
Beispiel 2.10
2.7 ist sinnvoll. Man habe eine Urne mit 100 gleich großen Kugeln in den Farben schwarz
und weiß und zweierlei Masse 10g und 500g.
weiß schwarz
10g
10
30
500g 45
15
Aus der Urne wird zufällig eine Kugel entnommen (klass. Wahrscheinlichkeit).
A: gezogene Kugel ist weiß. B gezogene Kugel besitzt die Masse 500g.
55
Hat man beim Herausnehmen der Kugel aus der Urne noch ehe die Farbe
P (A) = 100
festgestellt wird zweifelsfrei bemerkt, dass die Kugel schwer ist, so erwartet man jetzt
mit dieser Zusatzinformation (also des Eintretens von B) eine weiße Kugel mit der
= 0.75 Diese Wahrscheinlichket ergibt sich aus 2.1. Ferner ist
Wahrscheinlichkeit 45
60
P (A∩B)
P (B)
=
45
100
:
60
100
=
45
60
2.7
= 0.75 = P (A|B)
und P (B|A) = P P(A∩B)
unterscheiden sich hinMan beachte, dass P (A|B) = P P(A∩B)
(B)
(A)
45
sichtlich des Inhalts: P (B|A) = 55 die Wahrscheinlichkeit, dass eine weiße Kugel schwer
ist.
Satz 2.11. (Formel der totalen Wahrscheinlichkeit) Sei Ω = A1 ∪ ... ∪ An , Ai ∩ Aj = ∅ für
n
P
i 6= j, P (A1 ), ..., P (An ) > 0, B ∈ F Dann ist P (B) =
P (Ai )P (B|Ai )
i=1
Beweis. B =
n
S
i=1
(B ∩ Ai )) =
n
P
2.7
P (B ∩ Ai ) =
i=1
Bemerkung: 2.11 gilt auch für Ω =
n
P
P (Ai )P (B|Ai )
i=1
∞
S
An , Ai ∩ Aj = ∅ für i 6= j
n=1
Beispiel:
Urne 1: 3 weiße, 2 schwarze Kugeln; Urne 2: 1 weiße, 4 schwarze Kugeln;
Mit Wahrscheinlichkeit 12 wird eine Urne ausgewählt und dann willkürlich eine Kugel
gezogen. Wie groß ist die Wkt., dass eine weiße Kugel gezogen wird?
A1 Auswahl von Urne 1, A2 : Urne 2, P (A1 ) = P (A2 ) = 21 , A1 ∩ A2 = ∅,
P (A1 ) + P (A2 ) = 1, P (B|A1 ) = 35 , P (B|A2 ) = 15 . Die Formel für die totale Wkt liefert
nun: P (B) = P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) = 0.4.
Solche Sachverhalten treten beispielsweise in der Qualitätskontrolle auf.
9
SatzS2.12. (Formel von Bayes) Seien A1 , ..., An ∈ F, B ∈ F, P (B) > 0, Ai ∩ Aj (i 6= j),
Ω = Ai , P (Ai ) > 0 (i = 1, ..., n). Dann ist
P (Aj )P (B|Aj )
P (Aj |B) = P
n
P (Ai )P (B|Ai )
für j = 1, ..., n
i=1
Beweis.
P (Aj |B) =
P (Aj ∩ B) 2.11 P (Aj )P (B|Aj )
= P
n
P (B)
P (Ai )P (B|Ai )
i=1
S
Bemerkung: Sei Ω = Ai . Die Wkt P (Ai ) nennt man Priori-Wahrscheinlichkeiten. (Wkt. ohne
Nebenbedingungen).
Eine Vermutung/Hypothese B (Hinweise auf Ai ). Die P (Ai |B) nennt man Posteriori-Wkt.
Definition 2.13. (Unabhängigkeit von Ereignissen)
1. A, B ∈ F heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B).
2. Eine Folge (An ))n∈N von Ereignissen heißt Folge unabhängigen Ereignissen (unabhängig in
der Gesamtheit), wenn für alle endlichen Mengen {i1 , ..., in } ⊂ {1, 2, ...} gilt
P (Ai1 ∩ ... ∩ Ain ) = P (Ai1 ) · ... · P (Ain )
3. Eine Folge (An ))n∈N von Ereignissen heißt Folge von paarweisen unabhängigen Ereignissen,
wenn: ∀i 6= j : P (Ai ) · P (Aj ) = P (Ai )P (Aj )
4. (2) und (3) entsprechend für A1 , ..., An (endlich viele Ereignisse)
(B)
= P (A)·P
= P (A) Das heißt, das
Bemerkung 2.14.
1. Aus 2.13.1 folgt : P (A|B) = P P(A∩B)
(B)
P (B)
Entreten von B hat keinen Einfluss auf die Wkt des Eintreffens von A. Es gilt auch die
Umkehrung P (A|B) = P (A) ⇒ P (A ∩ B) = P (A) · P (B).
2. Bsp. Würfel: gefühlmäßig“ sind die Ereignisse Fallen einer 2“ und Fallen einer geraden
”
”
”
Augenzahl“ nicht unabhängig. Die Rechnung belegt:
P (A) · P (B) = 16 · 21 6= 16 = P ({2}) = P (A ∩ B)
3. Aus (2) in 2.13 folgt (3) in 2.13. Die Umkehrung gilt i.A. nicht.
Bsp.: 2maliger Münzwurf, Ω = {ww, wz, zw, zz}, A1 : beim ersten Wurf w“, A1 = {ww, wz},
”
A2 : Beim 2. Wurf w“, A2 = {ww, zw}, A3 : beide Würfe sind gleich, A3 = {ww, zz}
”
P (A1 ∩ A2 ) = P ({ww}) = 14 = 21 · 21 = P (A1 ) · P (A2 ) ⇒ A1 , A2 unabh.,analog A2 , A3 und
A1 , A3 jeweils unabhängig. Also sind A1 , A2 , A3 paarweise unabhängig.
Aber es ist P (A1 ∩A2 ∩A3 ) = P ({ww}) = 41 6= 18 = P (A1 )·P (A2 )·P (A3 ), Also sind A1 , A2 , A3
nicht in der Gesamtheit unabhängig.
4. In 2.13.2 steht ein System von Gleichungen. Nun: A1 , ..., An .
Aus P (A1 ∩ ... ∩ An ) = P (A1 ) · ... · P (An ) folgt i.A. nicht 2.13.2.
3-maliger Wurf einer Münze: Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} Wkt 81 .
A := {www, wwz, wzw, zww}, B := {www, wwz, wzw, wzz}, C := {www, zww, wzz, zzz}
Dann ist P (A) = P (B) = P (C) = 12 . P (A ∩ B ∩ C) = P ({www}) = 18 = P (A) · P (B) · P (C)
aber P (A ∩ B) = P ({www, wwz, wzw}) = 83 6= P (A) · P (B)
10
5. Man darf nicht unabhängig und disjunkt vermischen!
Satz 2.15. (Ω, F, P ), A, B ∈ F Dann sind folgende Aussagen äquivalent.
1. A, B unabhängig
2. A, B unabhängig
3. A, B unabhängig
4. A, B unabhängig
Beweis. (1) ⇔ (2) : P (B) − P (A)P (B) = (1 − P (A))P (B) = P (A) · P (B) = P (A ∩ B)
= P (A\B) = P (B) − P (A ∩ B). Also P (A) · P (B) = P (A ∩ B)
Rest folgt aus (1) und Symmetrie der Unabhängigkeit.
Lemma 2.16. (Borel-Cantelli)
1. Sei (An ) eine Folge von Ereignissen mit
∞
P
P (An ) < ∞ Dann ist P
n=1
2. Sei (An ) eine Folge unabhängigen Ereignissen mit
∞
P
lim An = 0.
n→∞
P (An ) = ∞. Dann P
n=1
∞
S
1. lim An ⊆
Ai für alle n ⇒ P lim A1 ≤ P
n→∞
i=n
n→∞ ⇒ P lim An = 0
Beweis.
∞
S
Ai
≤
i=n
∞
P
lim An = 1.
n→∞
n→∞
P (Ai ) −→ 0 ∀n
i=n
n→∞
2. Weil Ai unabhängig ⇒ Ai unabhängig.
!
!
∞
∞
[
[
Ai = 1 − P
P
Ai = 1 − P
i=n
∞
\
i=n
!
Ai
= 1 − lim P
m→∞
i=n
m
\
!
Ai
i=n
∞
∞
Y
Y
= 1 − lim P (A1 · ... · P (Am ) = 1 −
P (Ai ) = 1 − (1 − P (Ai ))
m→∞
i=n
i=n
kurzer Ausflug in Analysis: Taylorentwiklcung von e−x liefert:
∞
P
∞
∞
Y
Y
−
P (Ai )
−P (Ai )
0≤
(1 − P (Ai ) ≤
e
= e i=n
i=n
i=n
∞
∞
P
Q
Nun n fest. Nach Vorr. folgt
P (Ai ) = +∞. Also ist
(1 − P (Ai )) = 0 für jedes n. Also
i=n
∞ ∞ ∞ i=n
∞ S
S
T S
ist P
Ai für jedes n. P (lim sup An ) = P
An = lim P
Ai = 1
i=n
n→∞
n=1 i=n
n→∞
i=n
Definition 2.17. Gegeben sei ein zufälliger Versuch mit den Ausgängen A und A. Tritt bei nk
k
unabhängigen Versuchswiederholungen mk mal das Ereignis A ein, so heißt hnk (A) := m
relative
nk
Häufigkeit.
Bemerkung 2.18. hnk (A) hängt von konkretem Versuchsablaufstatt. Im Unterschied
zu P (A)
keine feste Zahl bei Vorgabe von A. Aber für n1 < n2 < ... gilt P lim hnk (A) = P (A) = 1, d.h.
k→∞
hnk (A) ist eine Näherung für P (A). (vgl. Kapitel 4,
11
statistische Definition der Wkt.)
3
Zufallsgrößen, zufällige Vektoren
Definition 3.1.
1. Eine Funktion X : Ω → R heißt eine (reelle) Zufallsgröße (zufällige Variable,...) falls ∀A ∈ B1 : X −1 (A) = {ω : X(ω) ∈ A} ∈ F
2. Seien X, Y Zufallsgrößen (Zgrn.). Dann heißt X + iY komplexe Zgr.
~ := (X1 , ..., Xn )T (n-dimensionaler) zufälliger Vek3. Sind X1 , ..., Xn reelle Zgr., dann heißt X
n
n
−1
tor. (X : Ω → R , ∀B ∈ B : X (B) ∈ F)
Bemerkung: Sei X : Ω → R Nach 1.13(3) wissen wir, dass {X −1 (A) : A ∈ B1 } eine σ-Algebra in
Ω erzeugt (also ein Ereignisfeld). In 3.1 fordern wir, dass dieses in F liegt, also: Der Rahmen des
Ereignisfeldes F wird nicht verlassen.
Beispiel 3.2
(
1 :ω∈A
Sei A ⊂ Ω, 1A (ω) =
ist Zgr. (zweipunkteverteilte Zgr.) wenn A ∈ F, denn:
0 :ω∈
/A
Sei X(ω) := 1A (ω), B ∈ B
Fall 1: B ∈ B mit 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F
Fall 2: B ∈ B mit 0 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F
Fall 3: B ∈ B mit 0, 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = Ω ∈ F
Fall 4: B ∈ B mit 0, 1 ∈
/ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = ∅ ∈ F
Also 1A erzeugt in F das Ereignisfeld {∅, A, A, Ω}
Beispiel 3.3
X heißt diskrete Zgr., wenn Ω =
∞
S
Ai , Ai ∩ Aj = ∅ (i 6= j), Ai ∈ F, P (Ai ) > 0
i=1
(i = 1, 2, ...), x1 , x2 , ... ∈ R und X(ω) =
∞
P
1Ai (ω)xi
i=1
Bemerkung 3.4.
1. oBdA x1 < x2 < ...
2. Sei B ∈ B beliebig. Zur Berechnung von P {ω : X(ω) ∈ B} ist die Kenntnis von pi := P (Ai )
erforderlich (i = 1, 2, ...)
S
P
P
−1
P {ω : X(ω) ∈ B} = P (X (B)) = P
Ai =
P (Ai ) =
pi .
i:xi ∈B
i:xi ∈B
i:xi ∈B
T
3. Damit können wir auch sagen: Eine diskrete
P Zgr. X ist beschrieben, wenn X = (x1 , x2 , ...)
mit pi = P {ω : X(ω) = xi } (i = 1, 2, ...),
pi = 1
i
Beispiel 3.5
Eine diskrete Zgr. X heißt binomialverteilte
Zgr., wenn X = k (0, 1, ..., n) mit n ∈ N
n k
n−k
gegeben und P {X = k} = k p (1 − p) , p ∈ (0, 1), k = 0, 1, ..., n
X ist diskrete Zgr., denn X = (0, 1, ..., n)T , P {X = k} ≥ 0,
n
n
P
P
n k
P {X = k} =
p (1 − p)n−k = (1 + (1 − p))n = 1
k
k=0
k=0
Interpretation: Zufallsexperiment mit den Ausgängen 1 und 0, wobei P (1) = p,
P (0) = 1 − p. Das Experiment werde n-mal unabhängig durchgeführt. X gebe an,
12
wieviel Mal die 1 eintritt.
Sei Ω = {(ω1 , ..., ωn ) : ωi ∈ {0, 1}, i = 1, ..., n}. Sei k ∈ {0, 1, ..., n}, k-mal sei 1
eingetreten. Folglich 0 ist n−k-mal eingetreten.
z.B. n = 7, k = 5. ω = (1, 1, 1, 0, 0, 1, 1).
7
5
2
Dann ist P (ω) = p (1 − p) , aber es gibt 5 mögliche Anordnungen der Einsen. Das
liefert dann die Formel.
Beispiel 3.6
k
X heißt Poissonverteilte Zgr, wenn X = (1, 2, ...)T und P {X = k} = λk! e−λ , wobei λ > 0
ein gegebener Parameter ist, k = 0, 1, 2, .... Das ist eine Zgr., denn: P {X = k} ≥ 0 und
∞
X
P {X = k} =
k=0
∞
X
λk
k=0
k!
−λ
e
−λ
=e
·
∞
X
λk
k=0
k!
= e−λ eλ = 1
Oft: λ
λt, t > 0 Zeit“, teilweise auch allgemeiner λ
λ(t)
”
z.B.: bei Versicherungen als Anzahl der Schäden, die bis zum Zeitpunkt t eingetreten
sind;
Bemerkung: 3.5 und 3.6 enthalten Parameter: (n, p), λ. um Wkt. entsprechend den Modellen 3.5, 3.6
zu ermitteln, müssen also diese Parameter bekannt sein. Bei 3.5: p wird mittels relativer Häufigkeit
angenähert, wenn p unbekannt.
λ kann als Intensität interpretiert werden. Kommt zum Begriff des Erwartungswerts.
Satz 3.7. Die folgenden Aussagen sind äquivalent.
1. X ist Zgr.
2. ∀x ∈ R : X −1 ((−∞, x)) ∈ F
3. ∀x ∈ R : X −1 ((−∞, x]) ∈ F
4. ∀x ∈ R : X −1 ((x, ∞)) ∈ F
5. ∀x ∈ R : X −1 ([x, ∞)) ∈ F
Beweis. (1) ⇒ (2): (−∞, x) = {y ∈ R : y < x} ∈ B
∞
T
(2) ⇒ (3): (−∞, x] =
−∞, x + n1 ⊇ (−∞, x],
n=1
∞
T
1
1
−1
−1
−1
X
−∞, x +
) ∈ F ∀n ⇒ X ((−∞, x]) =
X
−∞, x +
∈F
n
n
n=1
{z
}
{z
}
|
|
∈B
∈F
(3) ⇒ (4), (4) ⇒ (5) Ü.i.S.
(5) ⇒ (1): M := {A ⊆ R1 : X −1 (A) ∈ F} ist Ereignisfeld (über R1 ). G = {[x, ∞) : x ∈ R1 }
ist ein Teilsystem in M. Weiterhin wissen wir aus dem ersten Kapitel, dass σ(G) = B1 , G ⊆ M,
(M, σ(G) sind Ereignisfelder und da G ⊆ M, ist σ(G) ⊆ M) Daher für alle B ∈ σ(G) = B1 durch
B ∈ M und somit X −1 (B) ∈ F.
Bemerkung 3.8. 3.7 gilt sinngemäß auch für n-dimensionale zufällige Vektoren, wenn man z.B.
(−∞, x] durch (−∞, x1 ] × ... × (−∞, xn ], x1 , ..., xn ∈ R ersetzt.
13
Satz 3.9. Sei Y : Rn → R1 mit Y −1 (B) ∈ Bn für alle B ∈ B1 , X sei
n-dimensionaler zufälliger Vektor. Dann ist Y ◦ X := Y (X(ω)), ω ∈ Ω eine Zgr.
Beweis. Sei B ∈ B. Nach Voraussetzung ist Y −1 (B) ∈ Bn . X ist nach Voraussetzung ein
n-dimensionaler zufälliger Vektor ⇒ {ω : X(ω) ∈ Y −1 (B)} ∈ F. Folglich
(Y ◦ X)−1 (B) = {ω : Y (X(ω)) ∈ B} ∈ F. Das heißt, die Zusammensetzung definiert eine Zgr.
Mit diesem Satz kann man beweisen:
Folgerung 3.10. Seien X, Z Zgr. Dann
1. a ∈ R1 ⇒ a · X ist Zgr.
2. |X| ist Zgr.
3. X + Z ist Zgr.
4. X − Z ist Zgr.
5. X · Z ist Zgr.
6.
X
Z
ist Zgr. wenn für alle ω ∈ Ω gilt Z(ω) 6= 0.
7. min{X, Z}, max{X, Z} ist Zgr.
Satz 3.11. Seien X, Y Zgr. Dann:
{ω : X(ω) > Y (ω)} ∈ F, {ω : X(ω) ≥ Y (ω)} ∈ F, {ω : X(ω) = Y (ω)} ∈ F
T
Beweis. {ω : X(ω) > Y (ω)} =
({ω : X(ω) > r} ∩ {ω : r > Y (ω)}) ∈ F
|
{z
}
{z
}
r∈Q |
∈F
∈F
Da der abzählbare Durchschnitt von Ereignissen wieder ein Ereignis ist.
{ω : X(ω) ≥ Y (ω)} = Ω\{ω : Y (ω) < X(ω)} ∈ F
|
{z
}
∈F
{ω : X(ω) = Y (ω)} = {ω : X(ω) ≥ Y (ω)}\{ω : x(ω) > Y (ω)} ∈ F
|
|
{z
}
{z
}
∈F
∈F
Satz 3.12. Sei (Xn )n=1,2,... eine Folge von Zgr. Dann sind sup Xn , inf Xn , lim sup Xn , lim inf Xn
n
n
n→∞
n→∞
Zufallsgrößen.
∞
S
{ω : Xn (ω) > x} ∈ F
Beweis. Sei x ∈ R beliebig. Dann {ω : sup Xn (ω) > x} =
{z
}
n
n=1 |
|
{z
}
∈F
∃n:Xn >x
inf Xn = − sup(−Xn ) Somit folgt die Behauptung mit dem ersten Teil.
n
n
lim sup Xn = inf sup Xk ist ebenfalls Zgr.
n→∞
n≥1
k≥n
Satz 3.13. Sei X eine Zgr. Dann definiert
PX : B → R1 mit ∀B ∈ B : PX (B) := P (ω : X(ω) ∈ B} = P (X −1 (B)) eine Wahrscheinlichkeit
auf (R1 , B1 ) und PX heißt die durch X induzierte Wahrscheinlichkeit auf (R1 , B1 ).
X
Das bedeutet, der Wahrscheinlichkeitsraum wird transformiert. (Ω, F, P ) → (R, B1 , PX )
14
Beweis. Nachweis der Kolmogorov-Axiome.
(1) PX (B) ≥ 0 ist erfüllt, (2) PX (R) = {ω : X(ω) ∈ R} = 1
(3): Sei (Bn ) ∈ B mit Bi ∩ Bj = ∅(i 6= j). Dann ist
!
(
)
∞
∞
[
[
P
Bn = P ω : X(ω) ∈
Bn = P {ω : ∃n : X(ω) ∈ Bn }
n=1
n=1
=P
∞
[
!
X
−1
(Bn )
=
n=1
∞
X
P (X
−1
(Bn )) =
n=1
∞
X
PX (Bn )
n=1
Beispiel 3.14
Sei X eine diskrete Zgr. (3.4) Dann gilt für B ∈ B : PX (B) =
P
pi =
i:xi ∈B
P
P (Ai ).
i:xi ∈B
Also: Im Falle einer diskreten Zgr. ist Px durch xi , pi (i = 1, 2, ...) festgelegt.
Definition 3.15. Die Funktion FX : R → [0, 1] definiert durch
FX (x) := P {ω : X(ω) ≤ x} =: P (X(ω) ≤ x), (x ∈ R beliebig) heißt Verteilungsfunktion von X.
Beispiel 3.16
Sei X eine diskrete Zgr. mit den Werten x1 , x2 , ... und den zugehörigen Werten p1 , p2 , ...
Dann ist
3.14; B=(−∞,x] X
FX (x) = P {ω : X(ω) ≤ x}
=
pi
i:xi ≤x
Beispiel 3.17
(
1 :p
Sei X =
. Was ist FX (·)?
0 :1−p
P {ω : X(ω) < 0} = 0, FX (0) = P {ω : X(ω) ≤ 0} = P {ω : X(ω) = 0} = 1 − p = FX (x)
für alle x ∈ [0, 1).
FX (1) = P {ω : X(ω) ≤ 1} = P {ω : X(ω) ∈ {0, 1}} = 1 = FX (y) für alle y ≥ 1.
FX hat zwei Sprungstellen bei 0 und 1. Sie ist nicht stetig, aber rechtsstetig.
Definition 3.18. Eine Zgr. X heißt stetig, wenn eine Funktion fX : R → [0, ∞) existiert mit
R∞
Rx
fX (x)dx = 1 und FX (x) =
fX (t)dt. f heißt Dichtefunktion.
−∞
−∞
Bermerkung: Für A ∈ B wird durch PX (A) =
R
fX (t)dt eine Wahrscheinlichkeit auf (R, B) defi-
A
niert.
Wenn A = (−∞, x], dann:
PX (A)
X stetig
Zx
3.13
fX (t)dt = P {ω : X(ω) ≤ x} = P {ω : X(ω) ∈ A} = PX (A)
=
−∞
Sei nun A = (x, ∞). Dann
Z∞
PX (A) =
fX (t)dt =
x
Z∞
Z
fX (t)dt = PX (R)−PX ((−∞, x]) =
fX (t)dt−
−∞
R\(−∞,x]
15
Zx
−∞
fX (t)dt = 1−FX (x)
Sei nun fX stetig. A = [a, b], PX (A) =
PX (A) =
R
n
S
fX (t)dt =
Ai
n R
P
Rb
fX (t)dt, A =
n
S
Ai , (Ai ∩ Aj = ∅, i 6= j),
i=1
a
fX (t)dt
i=1 Ai
i=1
Speziell für Ai = [ai , bi ):
n Rbi
P
fX (t)dt =
i=1 ai
n
P
PX (Ai ) Fortsetzung auf B möglich.
i=1
Für A ∈ B schreibt man
Z
PX (A) =
A
 P

pi
: X diskret

i:xi ∈A
dFX (x) = R

 fX (t)dt : X stetig
A
(
(x, pi ), i = 1, 2, ... : diskr. Zgr
X
Also P → PX ⇔ FX →
fX
: stetige Zgr.
Beispiel 3.19
Eine Zgr. X heißt
( exponentialverteilt mit Parameter λ > 0, wenn X stetig ist mit der
λe−λx : x > 0
Dichte f (x) =
.
0
:x≤0
R∞
R∞
f ist Dichtefunktion, denn f (x) ≥ 0,
f (t)dt = λe−λx dt = 1.
−∞
0
(
−λx
1−e
:x>0
Es ist F (x) =
0
:x≤0
Anwendungen: Lebensdauerverteilungen (Wahrscheinlichkeit, dass ein Gegenstand eine gewisse Zeit funktioniert), Verweilzeiten in Zuständen (z.B. Zeiten zwischen dem
Eintreffen zweier Kunden im Supermarkt),
Diese Werte sind jedoch nur ermittelbar, wenn λ bekannt ist, (analog zu Binomialverteilung, Poisson, etc.)
Beispiel 3.20
X heißt über [a, b] gleichmäßig verteilt, wenn X stetig ist und
 f einer Rechteckverteilung
(

:x<a
0
1
:
x
∈
[a,
b]
x−a
b−a
Dann ist F (x) = b−a : a ≤ x ≤ b
genügt, also f (x) =

0
: sonst

1
:x>b

(

0 : x < 0
1 : x ∈ [0, 1]
, F (x) = x : x ∈ [0, 1]
speziell: a = 0, b = 1: f (x)

0 : sonst

1 :x>1
Ü.i.S.: Sei X über [a, b] gleichmäßig verteilt. Dann ist Y := X−a
über [0, 1] gleichmäßig
b−a
verteilt.
Satz 3.21. Ist X eine stetige Zgr. mit eineindeutiger Verteilungsfunktion F . Dann ist Y := F (X)
über [0, 1] gleichmäßig verteilt.
16
Beweis. Sei y ∈ [0, 1] beliebig.
FY (y) = P {ω : Y (ω) ≤ y} = P {ω : F (X(ω)) ≤ y}
F injektiv
=
P {ω : X(ω) ≤ F −1 (y)} = F (F −1 (y)) = y
FY (y) = 0 für y < 0 und aufgrund der Monotonie gilt FY (y) = 1 für y > 1. Also ist FY gleichmäßig
verteilt auf [0, 1]
Bemerkung 3.22.
1. Sind die Voraussetzungen von 3.21 erfüllt, so folgt aus diesem Satz, dass
X aus einer über [0, 1] gleichmäßig verteilten Zgr. transformiert/erzeugt/gewonnen werden
kann: X = F −1 (Y ).
2. Sei X exponentialverteilt (F auf [0, ∞) konzentriert und dort eineindeutig) Aus 3.21 folgt
Y = 1 − e−λX ist auf [0, 1] gleichmäßig verteilt ⇔ 1 − Y = e−λX ⇔ ln(1 − Y ) = −λX
⇔ X = − λ1 ln(1 − Y )
3. (1) ist besonders bei der Modellierung (Simulation) von Zgr. von Bedeutung. Als nach F verteilte (Pseudo-)Zufallszahlen bezeichnet man n-Tuppel (x1 , ..., xn ), die Realisierungen von n
(in der Gesamtheit) unabhängigen Zgr. X1 , ..., Xn , die alle die Verteilungsfunktion F besitzen.
(Im Sinne eines Signifikanztestes.) x1 , ..., xn werden im Allgemeinen über (deterministische)
Algorithmen erzeugt.
Gefahr: Zyklenbildung, regelmäßige Wiederholung der Werte
4. Sei


x1 : p1


X =  ...

xn : pn
FX (x) =
X
pi
xi ≤x
Zerlegung des Intervalls [0, 1]. I0 := (0, p0 ], ..., Ik := (p0 + ... + pk−1 , p0 + ... + pk ] Wir erzeugen
gleichverteilte Zufallszahlen α. αk ⇒ ∃ik : α ∈ Iik . Dann sind i1 , i2 , ... Realisierungen der
Zgr. X.
Beispiel 3.23
Eine stetige Zgr. X heißt normalverteilt mit den Parametern µ und σ 2
(Bez. X ∈ N(µ, σ 2 )), wenn ihre Dichte durch
φ(x; µ, σ 2 ) := √
1
2πσ 2
· e−
(x−µ)2
2σ 2
,x ∈ R
gegeben ist. Bei bekannten µ ∈ R, σ 2 > 0 ist also die Dichte bestimmbar. Die Verteilungssfunktion ist also durch
2
Φ(x; µ, σ ) := √
1
2πσ 2
Zx
e−
(x−µ)2
2σ 2
−∞
gegeben. Für µ = 0, σ 2 = 1. bestimmen wir für die Dichte bzw. die Verteilungsfunktion
Rx −t2
φ(x), Φ(x). Aus Analysis ist bekannt, dass
e dt nicht geschlossen integrierbar, aber
−∞
17
R∞
Φ(x, µ, σ 2 )dx = 1, o.B.d.A. µ = 0, σ 2 = 1.
−∞

Z∞

2

2
− t2
e
Z∞
dt = 
−∞

2
− x2
e
−∞
Z2π Z∞
=
φ=0 r=0
Z∞
dx 
−∞

2
− y2
e
Z∞ Z∞
dy  =
x2
y2
e− 2 − 2 dxdy
−∞ −∞
2 ∞
2
r
− r2
e rdrdφ = 2π − exp −
= 2π
1
r=0
Beispiel 3.24
Sei log zu irgendeiner Basis. Eine stetige Zgr. X heißt logarithmisch-normalverteilt mit
den Parametern µ, σ 2 , wenn gilt:
(
Φ(log x, µ, σ 2 ) : x > 0
FX (x) =
0:x≤x
X ist stetige Zgr., sodass log X ∈ N (µ, σ 2 ), x > 0. Für die Dichte gilt
0
log x
Z
(log
t−µ)
(log x−µ)2 log e
1
1
−
−
0
2
2


2σ
2σ
dt = √
e
e
fX (x) = FX (x) = √
x
2πσ 2
2πσ 2

0
Dichten sind asymmetrisch; spezielle Bedeutung: log = ln.
Anwendung: Lebensdauer, Konzentrationsrechnung in der Chemie
Beispiel 3.25
Eine stetige Zgr X heißt Weibull-verteilt mit den Parametern µ > 0, δ > 0, x0 ∈ R,
wenn

: x ≤ x0
0
δ fX (x) = δ x−x0 δ−1
0
µ
exp − x−x
: x > x0
µ
µ
µ-Maßstabsparameter, δ-Formparameter, x0 -Lageparameter. Also ist

0
: x ≤ x0
δ
FX (x) =
0
1 − exp − x−x
x > x0
µ
Spezialfall: x0 = 0, µ = 1 Reduzierte Weibull-Verteilung“
”
0
Substitutionsregel: Wenn X weibullverteilt mit den Parametern δ, µ, x0 ⇔ Y := X−x
µ
genügt eben einer reduzierten Weibull-Vert.
δ = 1, x0 = 0 ⇒ Exponentialverteilung mit Parameter µ1
Durch die drei eingehenden Parameter wesentlich vielseitiger: Lebensdauer, Zuverlässigkeiten,
Alterungen
Weibull-Vert. ist Beispiel einer Extremwerverteilung. Lebensdauer einer Serienschaltung, T = min{T1 , ..., Tn } unabh. exp. verteilt ⇒ T weibullverteilt.
18
Wenn wir unsere Beispiele betrachten, dann können wir bestimmte Eigenschaften von Verteilungsfunktionen für diskrete und stetige Zgr. feststellen. Diese Eigenschaften gelten auch allgemein.
Satz 3.27. Seien a, b ∈ R, a < b, FX Verteilungsfunktion einer Zgr. X.
1. P (a < X ≤ b) = F (b) − F (a)
2. P (X = b) = F (b) − lim F (b − ε)
ε→0
3. P (X < b) =
Beweis.
lim F (b − ε).
ε→0, ε>0
1. P (a < X ≤ b) = P ({X ≤ b}\{X ≤ a}) = P ({X ≤ b})−P ({X ≤ a}) = F (b)−F (a)
2. Sei (xn ) ⊂ R mit xn % b, also xn ≤ xn+1 , lim xn = b. Setze An := {xn < x ≤ b}. Dann ist
n→∞
∞
T
An ⊆ An+1 ∀n. Daraus folgt lim P (An ) = P
An = P (X = b) = F (b) − lim F (b − ε).
n→∞
ε→0
n=1
3. P (X < b) = P (X ≤ b) − P (X = b) = lim F (b − ε)
ε→0
Satz 3.28. Sei FX Verteilungsfunktion einer Zgr. X. Dann gilt
1. F ist monoton wachsend.
2. lim F (x) = 0
x→−∞
3. lim F (x) = 1
x→∞
4. F ist rechtsseitig stetig, d.h. F (x + 0) = F (x), wobei F (x + 0) = lim F (y) = F (x)
y&x
5. Die Menge der Unstetigkeitsstellen von F ist höchstens abzählbar.
Beweis.
1. Betrachte zu x1 < x2 : {ω : X(ω) ≤ x1 } ⊆ {ω : X(ω) ≤ x2 }. Wegen Monotonie des
Wahrscheinlichkeitsmaßes P gilt P ({ω : X(ω) ≤ x1 }) ≤ P ({ω : X(ω) ≤ x2 }),
d.h. F (x1 ) ≤ F (x2 ).
2. Sei xn > xn+1 , lim xn = −∞, An := {ω : X(ω) ≤ xn }
n→∞
∞
T
Dann folgt An+1 ⊆ An ∀n ⇒ lim P (An ) = P
An = P (∅) = 0
n→∞
n=1
Aber P (An ) = F (xn ) und somit lim F (xn ) = 0 für alle solche Folgen.
n→∞
3. Sei yn < yn+1 , lim yn = ∞, Bn := {ω : yn < X(ω)} ⇒ Bn+1 ⊆ Bn
n→∞
∞
T
Also ist ⇒ lim P (Bn ) = P
Bn = P (∅) = 0.
n→∞
n=1
Aber es ist P (Bn ) = 1 − P ({ω : X(ω) ≤ yn }) = 1 − FX (yn ) ⇒ lim FX (yn ) = 1 für alle
n→∞
solchen Folgen. Also ist lim FX (x) = 1.
x→∞
4. Sei xn > xn+1 , lim xn = x, x ∈ R beliebig., An := {ω : x < X(ω) ≤ xn }, An+1 ⊆ An
n→∞
∞
T
Daraus folgt lim P (An ) = P
An = P (∅) = 0. Also ist P (An ) = F (x) − F (xn )
n→∞
n=1
und somit lim F (xn ) = F (x) für alle solchen Folgen. Also lim F (y) = F (x).
n→∞
y&x
19
5. Wenn x eine Unstetigkeitsstelle von FX ist, dann gibt es an der Stelle x einen Sprung mit
der Sprunghöhe P {X = x} = F (x) − F (x − 0): Sei jetzt N eine natürliche Zahl. Für
F (y) ∈ [ N1 , 1] kann F höchstens N viele Sprünge haben, denn wenn x1 , ..., xN +1 Unstetigkeitspunkte P {X = xi } ∈ [ N1 , 1], i = 1, ..., N + 1 und somit
N +1
N +1
S
P
P
{X = xi } =
P {X = xi } ≥ NN+1 > 1, was ein Widerspruch zur Definition von X
i=1
ist. Aber
∞
S
n=1
i=1
∞
S
[ N1 , 1] = (0, 1] ⇒ [0, 1] = {0} ∪
[ N1 , 1]
n=1
Teilintervalle [ N1 , 1] höchstens
Daraus folgt, dass in jedem der
endlich viele Unstetigkeitsstellen liegen. In [0, 1] sind es also höchstens abzählbar unendlich viele Sprünge.
Satz 3.29. Sei G : R → [0, 1], die die Eigenschaften (1) bis (4) aus 3.28 besitzt. Dann gibt es ein
(Ω, F, P ) und eine Zufallsgröße X mit FX = G. ( Eine Zufallsgröße ist vollständig charakterisiert
”
über ihre Verteilungsfunktion.“)
Beweis. Ω = [0, 1], F = B1[0,1] , P :Lebesgue-Maß λ auf [0, 1]. (d.h. Die Wahrscheinlichkeit, die durch
Fortsetzung
 entsteht, wenn λ([a, b]) = b − a für [a, b] ⊂ [0, 1] ist.)
−1

inf{G ({y})} : y ∈ G(R), y 6= 0
H(y) := sup{G−1 ({y})} : 0 = y ∈ G(R)


xy
:y∈
/ G(R)
H ist monoton wachsend (nicht unbedingt streng), aber nicht stetig.
xy ist eindeutig bestimmt, denn y ∈ (F (xy − 0), F (xy + 0)]. Wir definieren Zufallsgröße X : Ω → R
| {z }
=F (xy )
durch X(ω) = H(ω). Dies ist auch wirklich eine Zgr. nach Konstruktion. Dann ist
FX (x) = P {ω : X(ω) ≤ x} = P (ω : H(ω) ≤ x} = λ{y ∈ [0, 1] : 0 ≤ y ≤ G(x)} = G(x).
Bemerkung 3.30. Die betrachteten Beispiele für Zgrn. enthalten oft Parameter (i.A. unbekannt).
Kann man diese Parameter interpretieren, so dass auf dieser Basis Schätzungen“ (Näherungen)
”
der Parameter möglich sind?
Antwort: ja, dies ist mögich und soll nun im Folgenden geschehen.
R∞ r
Definition 3.31.
1. Sei X eine Zgr. mit
|x| dF (x) < ∞ (für ein r > 0). Dann heißt
−∞
E(X r ) =
R∞
xr dF (x) r-tes Moment von X. (vgl. Bemerkung zu 3.18)
−∞
2. Die Voraussetzung in (1) sei für r = 1 erfüllt. Dann heißt E(X) Erwartungswert von X.
3. Sei X eine Zgr., sodass (1) mit r = 2 erfüllt ist. Dann heißt D2 (X) = E(X 2 ) − E(X)2
Streuung/Varianz/Dispersion von X.
Bemerkung: Man betrachtet eigentlich nur r ∈ N.
Folgerung 3.32.
1. diskrete Zgr X heißt 3.31(1): Es gelte
∞
P
|xj |r pj < ∞.
j=1
Dann ist E(X r ) =
∞
P
xrj pj .
j=1
2. Für stetige Zgr X heißt 3.31(2): Es gelte
R∞
|x|r f (x)dx < ∞ Dann ist E(X r ) =
−∞
20
R∞
−∞
xr f (x)dx.
3. Insbesondere E(X) =
∞
P


 xj pj
j=1
R∞



: X diskret
xf (x)dx
: X stetig
−∞
4. Sei X(ω) ≡ x ∈ R. Dann ist P {ω : X(ω) = x} = 1. Dann folgt aus (3):
E(X) = x · P (Ω) = x.
1. Sei g : R → R mit ∀B ∈ B : g −1 (B) ∈ B. Dann ist g(X) auch eine Zgr.
R∞
|g(x)|dF (x) < ∞, dann
(siehe 3.9). Man führt nun ein: Erwartungswert g(X). Wenn
Bemerkung 3.33.
−∞
R∞
E(g(X)) =
g(x)dF (x).
−∞
∞
P
E(g(X)) =



g(xj )pj
: X diskret



g(x)f (x)dx
: X stetig
j=1
R∞
−∞
2. Das r-te Moment ergibt sich also aus (1), wenn g(x) := xr , r ∈ N.
3. Mittels einer allgemeinen Substitutionsregel kann man zeigen, E(X) =
R
XdP =
Ω
R∞
xdF (x).
−∞
1. Veranschaulichung von (3) für X = (x1 , ..., xn )T mit den Wahrschein∞
S
lichkeiten p1 , ..., pn . X(ω) = xi : ω ∈ Ai , Ai ∈ F, Ai ∩ Aj = ∅ (i 6= j), Ai = Ω. Dann ist
Bemerkung 3.34.
∞
3.32(1) P
n
P
i=1
n
P
xi P {ω : X(ω) = xi } =
xi P (Ai ).
i=1
Speziell: Ω = [0, 1), Ai = i−1
, i , i = 1, ..., n. P (Ai ) = F (xi ) − F (xi − 0).
n n
E(X) =
xi pi =
i=1
i=1 2. Wenn f (x) stetig für alle x, dann:
(totales Differential). Also: E(X) =
d
F (x)
dx
R
=
d
dx
xf (x)dx =
R
Rx
formal
f (t)dt = f (x) ⇒ dF (x) = f (x)dx
R−∞
xdF (x)
R
Beispiel 3.35
Sei X binomialverteilt. Daraus folgt E(xr ), r ∈ N existieren.
n
X
n
X
(n − 1)!
n k
n−k
E(X) =
k·
p (1 − p)
= np ·
pk−1 (1 − p)(n−1)−(k−1)
k
(k
−
1)!((n
−
1)
−
(k
−
1))!
k=1
k=1
n−1
X n−1
= np
pk−1 (1 − p)(n−1)−(k−1) = np(p + (1 − p))n−1 = np
k
−
1
k=0
Ü.i.S.: D2 (X) = np(1 − p).
Beispiel 3.36
Sei X Poissonverteilt. Dann ist
∞
X
∞
∞
X
X
λk −λ
λk−1
λk
−λ
−λ
E(X) =
k · e = λe
= λe
= λe−λ eλ = λ
k!
(k
−
1)!
k!
k=0
k=1
k=0
21
Ü.i.S.: D2 (X) = λ.
Interpretation: λ
λt, t > 0 mittlere Anzahl der bis t auf einem Parkplatz ankom”
menden Autos.“ Also: λ entspricht einer Intensität.
Beispiel 3.37
Eine diskrete Zgr. X heißt geometrisch verteilt mit einem Parameter p ∈ (0, 1), wenn:
P (X = k) = p(1 − p)k , k = 0, 1, 2, .... (Prüfung, dass dies eine Zgr. ist, Interpretation
, D2 (X) = 1−p
Ü.i.S.), E(X) = 1−p
p
p2
Beispiel 3.38
Sei X exponential verteilte Zgr. Dann ist E(X) =
R∞
−∞
xλe−λx dx = ... = λ1 .
Beispiel 3.39
1. X ∈ N (µ, σ 2 ) ⇒ E(X) = µ, D2 (X) = σ 2 .
Allerdings muss hier erst noch nachgewiesen werden, dass das Integral über den
Betrag existiert. Hierfür genügt aber die Betrachtung von N (0, 1), da man jede
Normalverteilung darauf transformieren kann. Diese ist nun symmetrisch, sodass
man lediglich x > 0 betrachten muss. Ü.i.S.
σ2
2
2
2. X sei log.-normalverteilte Zgr. Dann ist E(X) = eµ− 2 , D2 (X) = e2µ+σ eσ − 1 .
Beispiel 3.40
X sei Weibull-verteilt. Dann ist
1
2
1
2
2
2
+ 1 , D (X) = µ Γ
+1 −Γ
+1
E(X) = x0 + µΓ
δ
δ
δ
Lemma 3.42. Sei X eine Zgr. mit D2 (X) < ∞. Dann gilt D2 (X) = E((X − E(X))2 ).
Beweis.
E((X − E(X))2 ) = E(X 2 − 2X(E(X)) + (E(X))2 ) = E(X 2 ) − 2(E(X))2 + (E(X))2
= E(X 2 ) − (E(X))2 = D2 (X)
Zufällige Vektoren
~ = (X1 , ..., Xn ), X1 , ..., Xn Zgrn.
Sei X
Definition 3.43. Die durch FX~ (x1 , ..., xn ) = P {ω : (X1 (ω =, ..., Xn (ω)) ≤ (x1 , ..., xn )}
= P {ω : X1 (ω) ≤ x1 , ..., Xn (ω) ≤ xn }, ((x1 , ..., xn )T ∈ Rn ) definierte Funktion FX~ : Rn → [0, 1]
~
heißt Verteilungsfunktion des zufälligen Vektors X
Satz 3.44.
2.
lim
1. Sei i ∈ {1, ..., n}. Dann ist lim FX~ (x1 , ..., xi , ..., xn ) = 0
x1 →∞,...,xn →∞
xi →−∞
FX~ (x1 , ..., xn ) = 1
22
3. FX~ ist in jeder Variablen monoton wachsend.
4. FX~ ist in jeder Variablen rechtsseitig stetig.
(1)
(2)
(n)
5. Sei n ≥ 2. Für beliebige xi ∈ R, hi > 0 gilt ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) ≥ 0,
(j)
wobei ∆hj FX~ (x1 , ..., xn ) := FX~ (x1 , ..., xj + hj , ..., xn ) − FX~ (x1 , ..., xj , ..., xn )
(1)
(2)
(n)
Dann ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) = P {(X1 , ..., Xn ) ∈ [x1 , x1 + h1 ) × ... × [xn .xn + hn )}
6. Sei G : Rn → [0, 1] und G besitzt die Eigenschaften (1) bis (5). Dann gibt es (Ω, F, P ) und
~ : Ω → Rn mit F ~ = G (X
~ vollständig charakterisiert durch F ~ .)
X
X
X
Beweis. Bemerkung: Betrachte (5) für n = 2
FX~ (x1 + h1 , x2 + h2 ) − FX~ (x1 + h1 , x2 ) − FX~ (x1 , x2 + h2 ) − FX~ (x1 , x2 )
= P {ω : X ∈ [x1 , x1 + h1 ) × [x2 , x2 + h2 )} ≥ 0, folgt aus der Additivität von Maßen, da die
Wahrscheinlichkeit nur ein besonderes Maß
nist. (hier auch
gut graphisch zu veranschaulichen)
T
lim FX~ (x1 , ..., xn ) = P
{Xi ≤ xi } = P {Xi ≤ xi } = FXi (xi ). (VerteilungsBemerkung:
∀k6=i:xk →∞
i=1
~ FX heißt i-te Randbedingung von X.
~
funktion der i-ten Komponente von X.)
i
~ zuf. Vektor. Die Komponenten von X
~ heißen unabhängig, wenn
Definition 3.45. Sei X
FX~ (x1 , ..., xn ) = FX1 (x1 ) · ... · FXn (xn ).
Beispiel 3.46
~ = (x1 , ..., xn ) zuf. Vektor mit unabhängigen Komponenten und
Sei X
FXi = F (i = 1, ..., n). Welche Verteilung besitzt die Zufallsgröße Y = max{X1 , ..., Xn }?
FY (y) = {P {max{X1 , ..., Xn } ≤ y} = P {X1 ≤ y, ..., Xn ≤ y}
n
n
Y
Y
= P {(X1 , ..., Xn ) ≤ (y, ..., y)} =
P {Xi ≤ y} =
FXi (y) = (F (y))n
i=1
i=1
Z := min{X1 , ..., Xn }.
FZ (z) = P (Z ≤ z) = P {min{X1 , ..., Xn } ≤ z} = 1 − P {min{X1 , ..., Xn } > z}
n
Y
= 1 − P {X1 > z, ..., Xn > z} = 1 −
P {Xi > z}
i=1
n
Y
= 1 − (1 − FXi (z)) = 1 − (1 − F (z))n
i=1
Nun n = 2, X1 , X2 unabhängige exponential verteilte Zgr. mit Parameter λ.
(
(
0
:y<0
0
:y<0
Fmax(X1 ,X2 ) (y) =
Fmin(X1 ,X2 ) (y) =
λy 2
−2λy
(1 − e ) = y ≥ 0
1−e
=y≥0
Beispiel 3.47
~ = (X1 , X2 ) heißt diskreter zufälliger Vektor mit den Werten (xi , yj ) ∈ R2 ,
X
(i = 1, 2, ..., j = 1, 2, ...) wenn pij = PP
{(X1 , X2 ) = (xP
i , yj )} gegeben wird. Dann gilt
FX~ (x, y) = P {(X1 , X2 ) ≤ (x, y)} =
pij . Es ist
pij = 1.
xi ≤x,yj ≤y
23
i,j
Beispiel 3.48
Fertigung eines Stellring, Dicke X1 , Bohrung X2 . Xi = 0 ⇔ liegt im Toleranzbereich,
~ = (X1 , X2 ) die Werte (0, 0), (0, 1), (1, 0), (1, 1) an.
sonst Xi = 1. Also nimmt X
Aus praktischen Erfahrungen weiß man, dass 5% aller Stellringe Ausschuss sind. Davon
entfallen 1% auf falsche Bohrung und Dicke, 3% auf nur falsche Bohrung und 1% auf
nur falsche Dicke.
p00 = P {X1 = 0, X2 = 0} = 0.95, p01 = 0.03, p10 = 0.01, p11 = 0.01.
P {X1 = 0} =
p01 = 0.98. p· 0 = 0.96, p1 · = 0.02, p· 1 = 0.04.
Pp0 · = p00 +P
Allg. pxi · = pij , p·yj = pij .
j
i
Beispiel 3.49
~ heißt stetiger n-dimensionaler zuf. Vektor, wenn es ein f : Rn → [0, ∞) gibt mit
X
R
Rx1
Rxn
...
f (s1 , ..., sn )dsn ...ds1
f (x1 , ..., x) dx = 1 und FX~ (x1 , ..., xn ) =
Rn
−∞
−∞
Aus 3.45 folgt
~ stetig, dann besitzt X
~ unabhängige Komponenten genau dann, wenn
Folgerung 3.50. Ist X
f (x1 , ..., xn ) = fX1 (x1 ) · ... · fXn (xn )
Beispiel 3.51
Rx1 Rx2
n=2
FX1 (x1 ) = lim F(X1 ,X2 ) (x1 , x2 ) = lim
x2 →∞
fX1 (x1 ) =
dFX1 (x1 )
dxx1
x2 →∞ −∞ −∞
=
R∞
f (s1 , s2 )ds2 ds1 =
Rx1
−∞
R∞
f (s1 , s2 )ds2 ds1 ,
−∞
f (x1 , s2 )ds2 , fX2 (x2 ) = ...
−∞
Wenn E(X1 ), E(X2 ) existieren:
E(X1 )
EW stetig
Z∞
=
Z∞
x1 fX1 (x1 )dx1 =
−∞

Z∞
x1 
−∞

Z∞ Z∞
f (x1 , s2 )ds2  dx1 =
−∞
x1 f (x1 , x2 )dx2 dx1
−∞ −∞
Wenn E(X12 ), E(X22 ) existieren, dann
Z∞ Z∞
E(X1 X2 ) =
x1 x2 f (x1 , x2 )dx2 dx1
−∞ −∞
Lemma 3.52. Sind X1 , X2 unabhängige Zgr. mit existierenden Streuungen D2 (X1 ), D2 (X2 ), dann
D2 (X1 + X2 ) = D2 (X1 ) + D2 (X2 ).
Beweis. D2 (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2
= E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ))2 − (E(X2 ))2 − 2E(X1 )E(X2 ) = D2 (X1 ) + D2 (X2 ), da
R∞ R∞
R∞
R∞
E(X1 X2 ) =
x1 x2 f (x1 , x2 )dx2 dx1 = fX1 (x1 ) · fX2 (x2 ) =
x1 fX1 (x1 )dx1 ·
x2 fX2 (x2 )dx2
−∞ −∞
−∞
= E(X1 )E(X2 ) aufgrund der Unabhängigkeit.
24
−∞
Definition 3.53. Seien X1 , X2 Zgr. mit D2 (X1 ), D2 (X2 ) < ∞. Dann heißt
cov(X1 , X2 ) := E[(X1 − E(X1 ))(X2 − E(X2 ))] Kovarianz von X1 , X2 . Der Ausdruck
1 ,X2 )
~ = (X1 , ..., Xn )T ein
ρX1 ,X2 := √ 2cov(X√
heißt Korrelationskoeffizient von X1 , X2 . Ist X
2
D (X1 )
D (X2 )
2
zufälliger Vektor mit D (Xi ) < ∞(i = 1, ..., n), dann heißt R := (ρij )i,j=1,...,n mit ρij := ρXi Xj
Korrelationsmatrix. Entsprechend sei die Kovarianzmatrix definiert. Wie man aus der Definition
erkennt, ist die Matrix symmetrisch. Ferner ist ρii = 1, (i = 1, ..., n).
~ = (X1 , X2 ) ein zufälliger Vektor mit diskreten Zgr X1 , X2 , die die
Bemerkung 3.54.
1. Ist X
(1)
(K)
(1)
(L)
Werte x1 , ..., x1 bzw. x2 , ..., x2 annehmen und bezeichnen
(i)
(j)
pij = P {(X1 , X2 ) = (x1 , x2 )} die Wahrscheinlichkeiten für die Werte des zufälligen Vektors, so gilt
K X
L X
(i)
(j)
cov(X1 , X2 ) =
x1 − E(X1 ) x2 − E(X2 ) · pij
i=1 j=1
~ = (X1 , X2 ) ein stetiger zufälliger Vektor, mit der Dichte f (x1 , x2 ), dann gilt
2. Ist X
Z∞ Z∞
(x1 − E(X1 )) (x2 − E(X2 )) f (x1 , x2 )dx1 dx2
cov(X1 , X2 ) =
−∞ −∞
3.53
Bemerkung 3.55. cov(X1 , X2 ) = E(X1 · X2 ) − 2(E(X1 ))(E(X2 )) + (E(X1 ))(E(X2 ))
= E(X1 · X2 ) − (E(X1 ))(E(X2 )) Für alle Zgr X mit E(X 2 ) < ∞ gilt: Diese bilden eine linearen
Raum/ Vektorraum L2 . (Eigentlich die Äquivalenzklassen von Funktionen, die mit X fast überall
überein stimmen.) Durch hX1 , X2 i := E(X1 X2 ) wird auf L2 ein Skalarprodukt definiert, d.h. es
gilt hX + Y, Zi = hX, Zi + hY, Zi, haX, Y i =
∈ R), hX, Y i = hY, Xi. Mit jedem Skalarp ahX, Y i(a p
produkt wird eine Norm definiert: kXk := hX, Xi = E(X 2 ). Für jedes Skalarprodukt gilt die
Schwarz’sche Ungleichung |hX, Y i| ≤ kXk · kY k. Es gilt =“⇔ ∃α, β 6= 0 : kαX + βY k2 = 0, d.h.
”
X und Y sind linear abhängig. Wenden wir p
die Schwarz’sche Ungleichung
auf X := X1 − E(X1 ),
p
2·
E(X
−
E(X
))
E(X
−
E(X2 ))2
Y p
:= X2 − E(X
)
an,
so
gilt
cov(X
,
X
)
≤
1
1
2
1
2
p 2
= D2 (X1 ) D2 (X2 ) und damit ist |ρX1 X2 | ≤ 1.
Satz 3.56. (Eigenschaften des Korrelationskoeffizienten)
Seien X1 , X2 Zgr mit D2 (X1 ), D2 (X2 ) < ∞. Dann
1. |ρ12 | ≤ 1
2. X1 , X2 unabhängig ⇒ ρ12 = 0 (Umkehrung gilt i.A. nicht.)
3. |ρ12 | = 1 ⇔ ∃a, b ∈ R : P {ω : X2 (ω) = a · X1 (ω) + b} = 1
Beweis.
1. eben gezeigt
2. siehe 3.55:
unabhängig
cov(X1 , X2 ) = E(X1 X2 ) − E(X1 ) · E(X2 )
=
E(X1 ) · E(X2 ) − E(X1 ) · E(X2 ) = 0.
3. 3.55: in Schw. Ug. steht =“⇔ α(X1 − E(X1 )) + β(X2 − E(X2 )) = 0 mit Wkt. 1. Stellt man
”
dies um, erhält man
α
α
X2 (ω) = − X1 (ω) + E(X1 ) + E(X2 )
β
β
|{z}
|
{z
}
:=a
=:b
25
Beispiel 3.57
Nun noch das Gegenbeispiel zur Umkehrung von (2):


1
:
2/5
−1 : 2/5






−1 : 2/5
1
: 2/5
Ω = {ω1 , ω2 , ω3 , ω4 }, X1 :=
, X2 :=


2
: 1/10
2
: 1/10






−2 : 1/10
−2 : 1/10
Dann ist E(X1 ) = E(X2 ) = 0 und
1
1
+ 4 · 10
= 0.
cov(X1 , X2 ) = E(X1 X2 ) = (−1) · 25 + (−1) · 52 + 4 · 10
Aber es ist P {X1 = 1, X2 = −1} = P {{X1 = 1} ∩ {X2 = −1}} = P {ω1 } =
4
= P {X1 = 1} · P {X2 = −1}
6= 25
2
5
Beispiel 3.58
~ = (X1 , X2 ) heißt zweidimensionaler normalverteilter Vektor, wenn X
~ stetig und für
X
die Dichte f gilt:
1
−
1
2(1−ρ2 )
(x −µ )(x −µ )
(x −µ )2
(x1 −µ1 )2
+ 2 2 2 −2ρ 1 σ1 σ 2 2
σ−12
σ2
1 2
f (x1 , x2 ) = p
e
4π 2 σ12 σ22 (1 − ρ2 )
p
wobei µi = E(Xi ), σi = D2 (Xi ), (i = 1, 2), ρ = ρX1 X2
Bemerkung 3.58.
,
(x1 , x2 ∈ R)
1. Ang. ρ = 0 (also cov(X1 , X2 ) = 0) Aus 3.58 folgt
f (x1 , x2 ) = p
1
2πσ12
−
e
(x1 −µ1 )2
2
2σ1
·p
1
−
2πσ22
e
(x2 −µ2 )2
2
2σ2
= fX1 (x1 ) · fX2 (x2 )
was genau die Dichten zweier normalverteilter Zgr. sind.
Also sind X1 , X2 unabhängig.
2. Ü.i.S. Man schreibe den obigen Exponenten (ohne das erste -“) als
”
a11 a12
x 1 − µ1
= x 1 − µ1 x 2 − µ 2
a21 a22
x 2 − µ2
~ = (X1 , X2 ) ⇒ f ~ = 1 exp − 1 (x2 + x2 ) . Substituiere
3. Seien X1 , X2 unabh. N (0, 1)-Zgr. X
1
2
X
2π
2
nun X1 = R cos Φ, X2 = R sin Φ wobei R, Φ Zgr. sind. Es ist R2 = X12 + X22 .
q
2
2
FR (t) = P {R ≤ t} = P
X1 + X2 ≤ t = P {X12 + X22 ≤ t2 }
Z
=
Z2π Z t
t2
1
1 2
1 − 1 r2
exp − (x1 + x22 ) dx1 dx2 =
e 2 rdrdϕ = 1 − e− 1 (t ≥ 0)
2π
2
2π
0
Kt
0
R2
Φ ist über [0, 2π) gleichmäßig
verteilt. 3.21 ⇒ FR (R) = 1 − e− 2 =: Z ist über [0, 1] glm.
p
verteilte Zgr. R = −2 ln(1 − z). 3.22 ⇒ R ist Zgr. p
mit V-Fkt. FR und Z ist über [0, 1]
glm. verteilt. Erzeugung einer Zufallszahl z1 ⇒ R1 := −2 ln(1 − z1 ) ist eine Realisierung
für R. Erzeugung einer weitere Zufallszahl z2 ⇒ Φ1 = 2πz2 ist eine Realisierung von Φ.
⇒ (R1 cos Φ1 , R1 sin Φ1 ) ist Realisierung für X1 , X2 .
26
Satz 3.59. Seien X, Y unabh. Zgr. mit den Dichten fX , fY . Dann besitzt Z := X + Y die Dichte
R∞
fX (z − y)fY (y)dy =: (fX ∗ fY )(z).
fZ (z) =
−∞
Beweis. B : {(x, y) : x + y ≤ z}.
Z Z
Z Z
FZ (z) = P {X + Y ≤ Z} =
B
B
X,Y unabh.
Z∞ Zz−y
Z Z
=
f(X,Y ) (x, y)dxdy
dF(X,Y ) (x, y) =
fX (x)fY (y)dxdy =
Z∞
−∞ −∞
B
−∞
Z∞
fY (y)fX (z − y)dy = (fX ∗ fY )(z) da fZ (z) =
=
fY (y)F (z − y)dy
fX (x)fY (y)dxdy =
dFZ (z)
dz
−∞
Satz 3.60. Seien X, Y unabh. diskrete Zgr. mit den Werten 0, 1, .... Dann ist
X
P {X + Y } =
P {Y = i} · P {X = k − i}
i
Beweis. Ü.i.S.
Beispiel 3.61
Seien X, Y unabh. Poissonverteilte Zgr mit den Parametern λ1 , λ2 > 0. X + Y ist
Poisonverteilt mit den Parametern λ1 + λ2 , denn
3.60
P {X + Y = k} =
k
X
i
−λ2 λ2
e
i=0
= e−(λ1 +λ2 )
i!
−λ1
·e
k X
k!
λk−i
k i k−i
1
−(λ1 +λ2 ) 1
·
=e
λλ
(k − i)! k!
k! i=0 i 2 1
(λ1 + λ2 )k
k!
Bemerkung:
Seien X, Y unabh. X ∈ N (µ1 , σ12 ), Y ∈ N (µ2 , σ22 ). Dann kann mittels 3.59 gezeigt
werden, dass X + Y normalverteilt mit dem Erwartungswert µ1 + µ2 und der Streuung
σ12 + σ22 ist.
Bedingte Verteilungen
Definition 3.62.
1. Sei X eine Zgr. B ∈ F, P (B) > 0. Dann heißt FX (x|B) := P {X ≤ x|B}
bedingte Verteilungsfunktion.
2. Wenn X, Y diskrete Zgr. und P {Y = y} > 0. Dann ist die bedingte Verteilungsfunktion von
X (bei gegebenem Ereignis {Y = y}) durch
FX|Y (x|y) := P {X ≤ x|Y = y} =
27
P {{X ≤ x} ∩ {Y = y}}
P {Y = y}
3. Wenn X und Y stetige Zgr. mit fY (y) > 0, dann ist die bedingte Verteilungsfunktion von X
(bei gegebenem Ereignis {Y = y}) definiert durch
1
FX|Y (x|y) =
fY (y)
Zx
f(X,Y ) (u, y)du
−∞
Lemma 3.63. Die bed. V-Fkt. von X erfüllt die Beziehung
FX|Y (x|y) =
F(X,Y ) (x, y + b) − F(X,Y ) (x, y − a)
a&0,b&0 F(X,Y ) (∞, y + b) − F(X,Y ) (∞, y − a)
lim
Beweis.
R(a, b) =
P {X ≤ x, Y ≤ y + b} − P {X ≤ x, Y ≤ y − a} 3.27 P {X ≤ x, y − a < Y < y + b}
=
P {Y ≤ y + b} − P {Y ≤ y − a}
P {y − a < Y < y + b}
Der weitere Beweis für den Fall X, Y stetig:
1
a+b
lim R(a, b) =
a&0,b&0
lim
Rx y+b
R
f(X,Y ) (u, v)dvdu
−∞ y−a
a&0,b&0
1
a+b
y+b
R
fY (u)du
1
=
·
fY (y)
Zx
f (u, y)du = FX|Y (x|y)
−∞
y−a
Folgerung: Sei f(X,Y ) stetig. Für FX|Y (x|y) existiert für jedes y eine Dichte
fX|Y (x|y) und fX|Y (x|y) = fY1(y) f(X,Y ) (x, y), (fY (y) > 0).
Definition 3.64. Sei X eine Zgr, B ∈ F mit P (B) > 0. Sei FX (·|B) die bedingte V-Funktion.
Rx
Wenn eine Funktion fX (·|B) : R → [0, ∞) mit FX (x|B) =
fX (t|B)dt, so heißt fX (·|B) bedingte
−∞
Dichte. Wenn X, Y stetige Zgr., dann ist die bedigte Dichte von X bei gegebenem y mit Y (ω) = y
f
) (x,y)
und fY (y) > 0 durch fX|Y (x|y) = (X,Y
definiert.
fY (y)
Satz 3.65. (Eigenschaften)
Rx
1. FX|Y (x|y) =
fX|Y (u, y)du
−∞
2. FX (x) =
R∞
fY (y) · FX|Y (x|y)dy
−∞
3. Bayessche Formel für bedingte Dichten:
fX|Y (x|y) = R∞
−∞
Beweis.
1. klar
28
fY |X (y|x)fX (x)
fY |X (y|u)fX (u)du
2. f(X,Y ) (x, y) = fX|Y (x|y)fY (y) (◦) bzw. f(X,Y ) (x, y) = FY |X (y|x)fX (x) (◦◦)
Z∞
Randdichten: fX (x) =
(◦)
f(X,Y ) (x, v)dv =
−∞
Z∞
fY (y) =
f(X,Y ) (u, y)du =
fX (u)du =
−∞
F ubini
Z∞
=

3.
(◦)
fX|Y (x|y) =
fY |X (y|u)fX (u)du
(∗∗)
(◦)

Zx
f(X,Y ) (u, v)dvdu =
−∞ −∞
Zx
fY (v) 
−∞
(∗)
−∞
Zx Z∞
Zx
fX|Y (x|v)fY (v)dv
−∞
Z∞
−∞
⇒ FX (x) =
Z∞
fX|Y (u|v)fY (u)dv  du
−∞
Z∞
fX|Y (u|v)du dv =
−∞


−∞

Z∞
fY (v)FX|Y (x|v)dv
−∞
f(X,Y ) (x, y) (◦◦) fY |X (y|x)fX (x) (∗∗)
fY |X (y|x)fX (x)
=
= R∞
fY (y)
fY (y)
fY |X (y|u)fX (u)du
−∞
Bedingter Erwartungswert
Definition 3.66. Sei B ∈ F, P (B) > 0
1. Sei X diskrete Zgr. mit den Werten x1 , x2 , .... E(X|B) =
P
Erwartungswert wenn
|xi |P {X = xi |B} < ∞.
P
xi · P {X = xi |B} heißt bedingter
i
i
R∞
2. Sei X stetige Zgr. E(X|B) :=
xfX (x|B)dx heißt bedingter Erwartungswert, wenn
−∞
R∞
|x|fX (x|B)dx < ∞.
−∞
3. (1) und (2) zusammengefasst: E(X|B) =
R∞
xdfX (X|B) falls
−∞
Lemma 3.67. Sei Ω =
∞
S
R∞
|x|dFX (X|B)
−∞
Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist E(X) =
i=1
P
P (Bi ) · E(X|Bi ), sofern
i
die bedingten Erwartungswerte existieren.
Beweis.
FX (x) = P {X ≤ x} =
X
P {{X ≤ x} ∩ Bi } =
i
Z∞
⇒ E(X) =
xdFX (x) =
−∞
X
P (Bi )FX (x|Bi )
i
X
i
Z∞
P (Bi )
−∞
29
xdFX (x|Bi ) =
X
i
P (Bi )E(X|Bi )
Lemma 3.68. Sei B ∈ F, P (B) > 0, B =
∞
S
Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist
i=1
E(X|B) =
X
1
·
P (Bi )E(X|Bi )
P (B) i
Beweis. 3.67 ⇒ E(X) =PP (B)·E(X|B)+P (B)E(X|B) Bilden eine Zerlegung von Ω : B1 , ..., Bn , ..., B.
Nach 3.67 ist E(X) =
P (Bi )E(X|Bi ) + P (B)E(X|B). Subtraktion beider Gleichungen liefert
i
die Behauptung.
4
Charakteristische Funktionen
Definition 4.1. Sei X Zgr. über (Ω, F, P ). Dann heißt für t ∈ R
P
itxk

Z∞
 e P {X = xk }
k
ψ(t) = E eitX =
eitx dFX (x) = R∞

 eitx fX (x)dx
−∞
: X diskret
: X stetig
−∞
charakteristische Funktion der Zgr. X (der Verteilung FX ).
Bemerkung 4.2.
1. Die Definition ist sinnvoll, denn
P

Z∞
Z∞
 1 · P {X = xk } = 1
itx k
e dFX (x) =
1dFX (x) = R∞

| {z }
 1 · fX (x)dx = 1
−∞
=1
−∞
=1<∞
−∞
2. ψ(0) = 1, |ψ(t)| ≤ 1 für jedes t ∈ R.
3. Für a, b ∈ R ist ψaX+b (t) = eitb ψ(at)
4. Wenn X absolutes Moment der Ordnung n besitzt (E(|X|n ) < ∞), dann
dk
ψ(t)|t=0 = ik E(X k )(k = 1, ..., n) (Anwendung d. Vertauschung von Diff. und Reihe bzw.
dtk
Diff. und Integration)
5. ψ : R → C ist glm. stetig (Ü.i.S.)
itY it(X+Y )
itX
6. Wenn X, Y unabhängig,
dann
ψ
=
ψ
·
ψ
.
(ψ
(t)
=
E
e
=
E
e
e
X+Y
X
Y
X+Y
= E eitX E eitY = ψX (t)ψY (t)), Faltung wird in normale Multiplikation übergeführt.
7. ψ ist positiv definit, d.h.:
∀N ∈ N, t1 , ..., tN ∈ R, z1 , ..., zN ∈ C(nicht alle Null) :
N
P
ψ(tj − tk )zj zk > 0
j,k=1
8. Ist ψ : R → C und gelten für ψ die Eigenschaften (2),(5) und (7). Dann gibt es (Ω, F, P )
und eine Zgr. X mit ψX = ψ.
Satz 4.3. (Inversionsformel)
1. Sei ψ char. Fkt einer Zgr. X, a, b ∈ R, a < b. Dann gilt
1
1
1
P {X = a} + P {a < X < b} + P {X = b} =
2
2
2π
Z∞
−∞
30
e−ita − eitb
ψ(t)dt
it
2. Wenn a, b Stetigkeitspunkte von F sind, dann F (b) − F (a) =
1
2π
R∞
−∞
e−ita −eitb
ψ(t)dt
it
4.1,4.3
3. Die Verteilungsfunktion ist eindeutig bestimmt. Also F ↔ ψ (o.B.)
R∞
|ψ(t)|dt < ∞, so gibt es eine Dichtefunktion f mit fX (x) =
Lemma 4.4. Wenn
−∞
1
2π
R∞
e−itx ψ(t)dt
−∞
Satz 4.5. (Konvergenzsatz) Sei (Fn ) eine Folge von Verteilungsfunktionen, (ψn ) die Folge der
zugehörigen char. Funktionen. Dann gilt (Fn (x))n∈N konvergiert in allen Stetigkeitspunkten gegen
eine Verteilungsfunktion F ⇔ ψn konvergiert punktweise gegen eine Funktion ψ, die stetig in 0 ist
und ψ ist charakteristische Funktion von F . (o.B.)
Beispiel 4.6
Sei X Poissonverteilt mit λ > 0 Nach 4.1 ist dann
ψ(t) =
∞
X
itk
e
k=0
∞
X
(λeit )k
λk −λ
it
it
−λ
= e−λ eλe = eλ(e −1)
· e =e
k!
k!
k=0
Sind X, Y unabhängige Zgr., dann ist auch X + Y Poissonverteilt mit λX + λY . (aus
Kapitel 3)
Ü.i.S.: 4.2(6), 4.3(3), dieses Resultat hier nochmal bestätigen
Beispiel 4.7
Sei X ∼ N (µ, σ 2 ). o.B.d.A. µ = 0, σ = 1. Dann ist
1
ψ(t) = √
2π
Z∞
2
− x2
eitx e
−∞
1
dx = √
2π
∞
1 X (it)k
√
=
2π k=0 k!
Z∞ X
∞
1
(itx)k − x2
e 2 dx = √
k!
2π
−∞ k=0
Z∞
Z∞ X
∞
−∞ k=0
(it)k k − x2
x · e 2 dx
k!
x2
xk · e− 2 dx
−∞
8
>
<0
{z
|
}
: k ungerade
= ... = 1 · 3 · ... · (2k − 1) : k gerade
k
∞
∞
∞
X
X
X
2
(it)2k
(it)2k
1 −t2
− t2
=
1 · 3 · ... · (2k − 1) =
=
=
e
(2k)!
2k · k! k=0 k!
2
k=0
k=0
=
>
:E(X 2 k)
Nun ist X ∼ N (µ, σ 2 ) ⇔ Z :=
X−µ
∼ N (0, 1).
σ
2 2
− σ 2t
itµ
Somit ist ψX (t) = eitµ ψ(σt) = e
·e
Also X = σZ + µ.
.
Beispiel 4.8
Seien X, Y unabhängig, X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ). Nach 4.8 ist ψX (t) = eitµ1 ·
e−
2 t2
σ2
2
, ψY (t) = eitµ2 · e−
2 t2
σ2
2
. Nach 4.2(6) ist
ψX+Y (t) = ψX (t) · ψY (t) = eit(µ1 +µ2 ) e−
2 +σ 2 )t2
(σ1
2
w
⇒ ist charakteristische Funktion zu einer Zgr. Z ∼ N (µ1 + µ2 , σ12 + σ22 ), und aufgrund
der Eindeutigkeit aus 4.3(3) ist diese Verteilung die einzige.
Also X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ).
31
5
5.1
Gesetze der Großen Zahlen und Anwendungen in der
Statistik
Ungleichungen
Satz 5.1. (Hajek-Renyi) Seien X1 , X2 , ... paarweise unabhängige Zgr. mit ∀n : |E(Xn )| < ∞,
i
P
γ1 ≥ γ2 ≥ ... ≥ γn > 0. Setze Si :=
(Xj − E(Xj )). Dann gilt für m = 1, ..., n und jedes ε > 0:
j=1
P
sup γi |Si | ≥ ε
≤
m≤i≤n
m
n
X
1 2 X 2
γ
D
(X
)
+
γj2 D2 (Xj )
j
ε2 m j=1
j=m+1
o.B.
Aus 5.1 folgen eine Reihe von wichtigen Spezialfällen:
Folgerung 5.2.
1. n = m = 1 = γ1 : P {|X − E(X)| ≥ ε} ≤ ε12 D2 (X)
(Ungleichung von Tschebyschew)
(
)
P
n
i
P
D2 (Xj ).
2. m = 1, γ1 = ... = γn = 1: P sup (Xj − E(Xj )) ≥ ε ≤ ε12
1≤i≤n j=1
j=1
(Ungleichung von Kolmogorov)
Wir wollen 5.2(1) ohne Kenntnis von 5.1 beweisen. Man wendet an
Lemma 5.3. Sei X Zgr. mit |E(X)| < ∞. Dann gilt ∀ε > 0 : P {|X| ≥ ε} ≤ 1ε |E(X)|
(Ungleichung von Markov)
Beweis.
Z
Z
|X|dP =
E|X| =
Ω
Z
Z
|X|dP +
ω:|X(ω)|≥ε
|X|dP ≥
ω:|X(ω)|<ε
|X|dP
ω:|X(ω)|≥ε
Z
≥
εdP = ε · P {|X| ≥ ε}
ω:|X(ω)|≥ε
Beweis. von 5.2(1): Anwendung von 5.3 auf die Zgr. |X − E(X)|2 :
5.3
P {|X − E(X)| ≥ ε} = P {|X − E(X)|2 ≥ ε2 } ≥
Definition 5.4. Eine Folge (Xn ) von Zgr. mit E|Xn | <
Großen Zahlen, wenn
(
n
1X
lim
(Xk − E(Xk )) = 0 bzw. ∀ε > 0 : lim P ω
n→∞ n
n→∞
k=1
1 2
1
2
E(X
−
E(X
)
=
D (X)
)
ε2
ε2
∞ genügt dem Schwachen Gesetz der
)
n
1 X
:
(Xk (ω) − E(Xk )) > ε = 0
n
k=1
1
2
2
2 (D (X1 ) + ... + D (Xn ))
n→∞ n
Satz 5.5. Sei (Xn ) eine Folge von Zgr. mit lim
Folge (Xn ) dem Schwachen Gesetz der Großen Zahlen.
32
= 0. Dann genügt die
P
Beweis. X n := n1 ni=1 Xi . Nach 5.2(1) ist
( n
)
1 X
1
P (Xk − E(Xk )) ≥ ε = P {|X n − E(X n )| ≥ ε} ≤ 2 D2 (X n )
n
ε
k=1
=
1
ε2 n 2
· E [(X1 − E(X1 )) + ... + (Xn − E(Xn ))]2 =
1
ε2 n 2
n→∞
(D2 (X1 ) + ... + D2 (Xn )) → 0
1. Wenn D2 (Xn ) ≤ L, (n = 1, 2, ...), so gilt das SGdGZ.
Folgerung 5.6.
2. Ist FXn = F, (n = 1, 2, ...) (also Verteilungsfkt. bei allen gleich) und D2 (X) < ∞, so gilt das
SGdGZ.
(
1 :p
3. Die Vor. in (2) ist erfüllt, wenn Xn =
für p ∈ (0, 1). Also gilt das SGdGZ.
0 :1−p
Bemerkung 5.7. zu 5.6(2): Aus FXn = F (Sei X die Zgr. zu F ) folgt E(Xn ) = E(X) und
n
n
n
P
P
P
n→∞
n→∞
1
(Xk − E(Xk )) = n1
Xk − E(X) −→ 0 in Wahrscheinlichkeit, also n1
Xk −→ E(X) in
n
k=1
k=1
k=1
Wkt.
n
P
Im Sinne der Konvention Wahrscheinlichkeit ist für große n n1
Xk eine Näherung für E(X).
k=1
(
1 : A tritt ein
zu 5.6(3): E(Xn ) = E(X) = 1 · p + 0 · (1 − p) = p; Xn =
.
0 : A tritt nicht ein
n
n
P
P
Xk : zählt das Eintreten von A bei n Versuchen. Also n1
Xk = Hn (A) ist Näherung für p.
k=1
k=1
Lässt sich die Konvergenzaussage verschärfen?
Definition 5.8. Eine Folge (Xn ) von Zgrn. mit E|Xn | < ∞ genügt dem (starken) Gesetz der
großen Zahlen, wenn:
)
(
n
1X
P ω : lim
(Xk (ω) − E(Xk )) = 0 = 1 Konvergenz mit Wert 1
n→∞ n
k=1
Bemerkung:
Aus 5.8 folgt 5.4. Die Umkehrung gilt im Allgemeinen nicht. Wir geben folgende Variante eines starken Gesetzes der Großen Zahlen an.
∞
P
D2 (Xn )
< ∞. Dann gilt das starke GdGZ.
Satz 5.11. Sei (Xn ) eine Folge unabhängiger Zgr.,
n2
n=1
Beweis. Yn :=
1
n
n
P
k=1
(Xk − E(Xk )), σk2 := D2 (Xk ). Anwendung von 5.1 für γk = k1 .
P
sup |Yk | ≥ ε
m≤k≤n
1
≤ 2
ε
m
n
X
σj2
1 X 2
σ
+
m2 j=1 j j=m+1 j 2
!
Halte in linker Menge m fest und schicke n → ∞.
m→∞
{ω : sup |Yk ω| ≥ ε} ergibt {ω : sup |Yk (ω)| ≥ ε} −→ ∅
m≤k≤n
k≥m
∀ε > 0 : ∃m0 (ε, ω) : ∀k ≥ m0 : |Yk (ω)| < ε für P -fast alle ω, d.h. Die Konvergenz gilt mit
k→∞
Wahrscheinlichkeit 1, d.h. Yk −→ 0 mit Wahrscheinlichkeit 1.
33
Bemerkung 5.12. Aus den Voraussetzungen von 5.6 folgt, dass unter den Bedingungen von 5.6
n
P
Xk ist unter 5.6(2) eine Näherung für E(X) mit
auch das starke GdGZ gilt. Insbesondere n1
k=1
Wahrscheinlichkeit 1 für große n.
Definition 5.13. Sei X : (Ω, F, P ) → R eine Zgr. Ein n-dimensionaler zufälliger Vektor
~ = (X1 , ..., Xn ) heißt (mathematische) Stichprobe (aus der Gesamtheit (R, L, FX )), falls
X
1. FX = FXi , (i = 1, ..., n)
2. X1 , ..., Xn sind unabhängig (in der Gesamtheit)
Eine Realisierung (X1 (ω), ..., Xn (ω)) heißt (konkrete) Stichprobe. (n-Mal wird X beobachtet)
Mittels einer Stichprobe kann FX geschätzt (angenähert) werden. (Beachte: X vollständig durch
”
”
FX charakterisiert.) Aber in der Regel FX unbekannt.
Definition 5.14. Sei (X1 , ..., Xn ) eine Stichprobe (vom Umfang n), dann heißt
Wn (x) := n1 · |{Xi : Xi ≤ x}|, ((zufällige) Anzahl der Xi mit Xi ≤ x) empirische Verteilungsfunktion.
Bemerkung 5.15.
1. Beim Arbeiten mit konkkreten Stichproben ist es oft zweckmäßig, die
Werte so anzuordnen, dass x1 ≤ ... ≤ xn gilt. (geordnete Stichprobe)
2. Für festes x ∈ R ist Wn (x) eine Zgr.
3. Für festes ω ∈ Ω, also eine konkrete Stichprobe, ist Wn (x) eine monoton wachsende rechtsseitig stetige Sprungfunktion, denn: Sei (x1 , ..., xn ) eine geordnete Stichprobe. Dann ist


0 : x < x1
Wn (x) = m
: xm ≤ x < xm+1 (m = 1, ..., n − 1)
n


1 : x ≥ xn
Satz 5.16. (Satz von Gliwenko, Hauptsatz der Statistik)
1. E(Wn (x)) = FX (x)
n→∞
2. D2 (Wn (x)) = E(Wn (x) − FX (x))2 = n1 FX (x)(1 − FX (x)) −→ 0
3. lim Wn (x) = FX (x) mit Wahrscheinlichkeit 1 für jedes x ∈ R
n→∞
n→∞
4. Es gilt sogar: P sup |Wn (x) − FX (x)| −→ 0 = 1. D.h. Wn (x) strebt gegen FX (x) mit Wkt.
x∈R
1 gleichmäßig bzgl. x.
1. (X1 , ..., Xn ) Stichprobe,
x ∈ R fest. P {Xi ≤ x} = FXi (x) = FX (x) =: p,
(
n
P
1 : Xi ≤ x : p
(i = 1, ..., n). Yi (x) :=
. Damit: Zuf. Anzahl der Xi mit Xi ≤ x ist
Yi .
0 : sonst
:1−p
i=
n
P
E(Yi ) = n1 · np = p = FX (x).
Dies ist binomialverteilt mit (n, p). Damit E(Wn (x)) = n1
Beweis.
i=1
2. D2 (Wn (x))
Bin.Zgr 1
= n2
· np(1 − p) = n1 FX (x)(1 − FX (x))
34
n
P
3. Wn (x) =
n→∞
Yi −→ p = FX (x) mit Wkt. 1, wegen starkem GdGZ.
i=1
4. o.B. (würde etwa eineinhalb Vorlesungen benötigen)
Bemerkung 5.17. 5.16(1): Wn (x) schätzt im Mittel FX (x).
5.16(2): Die Genauigkeit der Schätzung Wn (x) für FX (x) (im quadr. Mittel) verhält sich wie n1 .
5.16(3): Mit Wkt. 1 liefern Stichproben und das damit ermittelte En (x) Näherungen für FX (x).
Bemerkung 5.18. Sei (X1 , ..., Xn ) eine Stichprobe. Wenn der Verteilungstyp bekannt ist, dann
enthält die Verteilungsfunktion oft unbekannte Parameter. z.B.
E(X)
Näherung
Verfahren Parameter
P
i = 1n Xi
Poissonverteilung
λ
E(X) = λ
λ ≈ n1
−1
P
Exponentialverteilung
λ
E(X) = λ1 λ ≈ n1 Pi = 1n Xi
µ, σ 2
E(X) = µ
µ ≈ n1
Normalverteilung
i = 1n Xi
P
1
XP
i = 1n Xi ist eine Stichprobenfunktion. Wenn E|X|k < ∞, dann
n := n
1
i = 1n (Xi )k ≈ E(X k ) (im Mittel)
k-tes empirisches Moment.
n
Beispiel 5.19
(X1 , ..., Xn ) Stichprobe, D2 (X) < ∞. Setze Sn2 :=
1
n−1
n
P
(Xi − X n )2 heißt empirische
i=1
Streuung und ist ein weiteres Beispiel einer Stichprobenfunktion. Dabei ist
E(Sn2 ) = D2 (X). Im Mittel schätzt Sn2 die Streuung. Insbesondere σ 2 der Normalverteilung. (Ü.i.S.)
n
P
Was ergibt sich für Sn02 := n1 (Xi − X n )2 ? (Es ist E(Sn02 ) 6= D2 (X), aber wenigstens
lim E(Sn02 ) = D2 (X))
i=1
n→∞
Beispiel 5.20
Stichprobe vom Umfang n = 50 Messungen; +: Abweichung nach oben, -: Abweichung
nach unten;
0.46 0.47 2.46 -0.32 -0.07
0.06 -2.52 -0.53 -0.19 0.54
1.49 -0.35 -0.63 0.70 0.93
1.02 -0.47 1.28 3.56 0.57
1.39 -0.56 0.05 0.32 2.95
0.30 -0.29 1.30 0.24 -0.96
-1.56 0.19 -1.19 0.02 0.53
1.38 0.79 -0.96 -0.85 -1.87
-1.58 0.19 1.19 -0.50 -0.27
1.97 -0.26 0.41 0.44 -0.04
- kritische Durchsicht der Stichprobe auf mögliche Ausreißer, Rückfrage zum Ursprung
der Daten, je nach Antwort gebenenfalls Prüfung mittels Ausreißer-Tests anwenden
(insbesondere wichtig bei kleinen“ Stichproben), wenn nötig, den Wert entfernen
”
- Zweckmäßig: Werte der Größe nach ordnen, unübersichtliche Verhältnisse“, daher:
”
Klasseneinteilung ( Zusammenfassung von Stichprobenwerten“), so dass die Verhältnisse
”
überschaubarer werden, aber auch so, dass die Zufälligkeit erhalten bleibt
35
√
Empfehlungen für Klassenanzahl k: k ≤ 5 lg n, k = n, ...;
- hier: k = 8, xmin = −2.52, xmax = 3.56, Spanweite R = Xmax − xmin = 6.08, Klassenbreite d := Rk = 0.76.
[
) Absolute Klassenhäuf. rel. Klassenhäuf. Summenhäuf.
−∞ -1.76 III
3
0.06
0.06
-1.76 -1.00 II
2
0.04
0.10
-1.00 -0.24 IIIIIIIIIIIII
13
0.26
0.36
-0.24 0.52 IIIIIIIIIIIII
13
0.26
0.62
0.52 1.28 IIIIIIIIII
10
0.20
0.82
1.28 2.04 IIIIII
6
0.12
0.94
2.04 2.80 I
1
0.02
0.96
2.80
∞ II
2
0.04
1.00
Formulierung einer Vermutung zum Verteilungstyp anhand graphischer Darstellungen.
Normalverteilung, aber stets Rückfrage, ob das Modell sinnvoll ist
50
k
P
P
1
xi , bei Klasseneinteilung Schätzung durch X̃n = n1
yi hi
Schätzung von µ: X n = 50
i=1
i=1
(yi : Klassenmitte der i-ten Klasse)
Weitere Untermauerung der Vermutung Normalverteilung durch Signifikanztests (s.
später)
Beispiel 5.21
Weitere Stichprobenfunktionen: Sei X1 , ..., Xn mathematische Stichprobe,
1. m̂k =
1
n
1
n
n
P
xki emp. Moment der Ordnung k. E|X|k < ∞ ⇒ E(m̂k ) = E(X k ).
i=1
n
P
(Xi − X n )k : empir. zentriertes Moment der Ordnung k
i=1

X n+1
: n ungerade
b c
3. Median: 1 2
 X n +X n
: n gerade
2
b c+1
b c
2. µ̂k =
2
2
4. Seien (X1 , ..., Xn ), (Y1 , ..., Yn ) Stichproben aus Grundgesamtheiten X und Y .
n
P
ρ̂X,Y =
s
(Xi −X)(Yi −Y )
i=1
n
P
i=1
(Xi −X)2
n
P
heißt emp. Korrelationskoeffizienr.
(Yi −Y )2
i=1
Es gilt E(ρ̂X,Y ) = ρX,Y
5. Rangkorrelationskoeffizient von Spearman: Bsp: Lehrer für Ma/Phy wollen für die
Festlegung von Noten für die Mitarbeit feststellen, ob ein Zusammenhang zwischen
bei den mündlichen Leistungen von 10 Schülern in den beiden Fächern besteht.
Jeder Lehrer ordnet die Schüler der Leistung nach in dem der beste die Rangzahl
1, usw., der Schlechteste die Rangzahl 10 erhält.
SchülerNr.
1 2 3 4 5 6 7 8
9 10
Rangzahlen Ri (Ma) 4 2 3 7 5 6 1 9 10 8
Rangzahlen Ri0 (Phy) 3 4 5 8 2 7 1 10 9
6
6
n
P
(Ri −Ri0 )2
Nun ist der Rangkoeffizient sp := 1 − (n−1)n(n+1) , hier sp = 0.84. Da dies näher
an 1 liegt, ist daraus zu schließen, dass die Leistungen in den beiden Fächern stark
korrelieren.
i=1
36
Gesetze der großen Zahlen sind wichtig in der Simulation.
Beispiel 5.22
Mittels Überlegungen aus der Stochastik soll eine Näherung für
R1
g(x)dx ermittelt wer-
0
den, wobei g ∈ C([0, 1], [0, 1]).
Diese Methode ist bedeutend für:
Rb1
...
Rbn
g(x1 , ..., xn )dxn ...dx1 , falls
an
a1
”
g kompliziert“
oder n groß“ oder Integrationsbereich kompliziert“ bzw. ganz Rn .
”
”
1. Aufgabenstellung a =
R1
g(x)dx, näherungsweise
0
2. Zuordnung
( eines stochastischen Modells: Sei X eine über [0, 1] glm. vert. Zgr.,d.h.
R1
R1
R1
1 : x ∈ [0, 1]
f (x) =
. E(g(X)) = g(x) · f (x)dx = g(x)dx, d.h. g(x)dx
0 : sonst
0
0
0
kann als Erwartungwert der Zgr. g(X) interpretiert werden. Seien X1 , ..., Xn über
[0, 1] glm. vert. unabhängige Zgr. Dann sind die Voraussetzungen von 5.11 erfüllt,
n
P
d.h. lim n1
g(Xk ) = E(g(X)) (mit Wkt. 1)
n→∞
k=1
3. Durchführung von Experimenten mit dem Modell aus 2: Ermittlung von gleichmäßig
n
P
verteilten ZZ x1 , ..., xn . Ermittlung von g(x1 ), ..., g(xn ) und n1
g(xk )
k=1
4. Rücktransformation: Wegen 5.11 ist
1
n
n
P
g(xk ) eine Näherung von
k=1
R1
g(x)dx.
0
Wir betrachten noch eine Aussage zur Fehlerabschätzung“. Es soll E(X) unter den
”
Voraussetzungen vo 5.11 durch X n angenähert werden. n soll
so gewählt werden, dass,
dass mit einer vorgegebenen
X n − E(X) ≤ d. X n ist Zgr. Also: Es
Genauigkeit gilt:
liegen Ereignisse vor {ω : X n (ω) − E(X) ≤ d}.
!
P {ω : X n (ω) − E(X) ≤ d} ≥ 1 − α (*) (α > 0 klein) Wir suchen zu gegebenem d
”
und α einen Stichprobenumfang, sodass (*) erfüllt ist. (sogen. optimaler Stichproben”
umfang“)
Beispiel 5.23
Stichproben (X1 , ..., Xn ), X ∈ N (µ, σ 2 ), σ 2 bekannt, µ unbekannt.
2
Xi ∈ N (µ, σ ) ⇒
n
X
2
Xk ∈ N (nµ, nσ ) ⇒ X n ∈ N
k=1
σ2
µ,
n
⇒ 1 − α ≤ P {X n − E(X) ≤ d} = P {−d ≤ X n − E(X) ≤ d}
d√
X n − E(X) √
d√
d√
d√
d√
=P −
n≤
n≤
n =Φ
n −Φ −
n = 2Φ
n −1
σ
σ
σ
σ
σ
σ
i
h
α
d√
⇒1− =Φ
n ⇒ n∗ = z1− α σ2 + 1 mit zy = Φ−1 (x) (Umkehrfunktion)
2 d2
2
σ
37
6
Zum zentralen Grenzwertsatz
Wir sagen, eine 
Folge von Zgr. genügt
 dem zentralen Grenzwertsatz (ZGW), wenn gilt:


P

n
Xk −E(Xk )
s
∀x ∈ R : lim P
≤ x = Φ(x)
n
n→∞


k=1 P D2 Xk

k=1
Satz 6.1. Wir betrachten die folgende Variante: Sei (Xn ) eine Folge unabh. Zgr. mit
n
P
Xk −E(X)
1
2
√
√
FXn = FX ∀n, D Xk < ∞. Dann gilt: lim P
≤ x = Φ(x)
n
2
n→∞
Beweis. Sn :=
n
P
k=1
"
k=1
D (X)
Sn −nE(X)
Xk . Wir ermitteln die charakteristische Funktion ψn von √
.
2
Sn − nE(X)
⇒ ψ(t) = E exp it · p
nD2 (X)
n·D (X)
!#
=
n
Y
"
E exp
k=1
it(Xk − µ)
p
nD2 (X)
!#
=
ψ
t
!!n
p
nD2 (X)
(Anwendung der Taylorformel, Entwicklung bis zum quadratischen Term), wobei ψ die char. Fkt.
von Xk − µ (zugehörige Vert.: FX ).
2 n 2 n
t
t2
t
(it)2 D2 (X)
+o
= 1−
+o
ψn (t) = 1 +
2
2nD (X)
n
2n
n
2 n
n−1
n
n
n−k
X n
t2
t2
t
t2
n→∞ − t2
+ o
+
−→ e 2
o
= 1−
k
n
n
2n
n
k=1
(
1 :p
Folgerung 6.2. Die Voraussetzungen von 6.1 seien erfüllt und speziell: Xk =
,
0 :1−p
(p ∈ (0, 1)). Dann gilt

 n
P




X
−
np
k


k=1
p
≤ x = Φ(x)
lim P
n→∞





 np(1 − p)
Bemerkung 6.3. Mittels 6.2kann die Verteilungsfunktion
binomialverteilter Zgr. approximiert

n
P
n
 Xk −np
 n→∞ P
x−np
x−np
k=1
werden: P
Xk ≤ x = P √
≤√
≈ Φ √
np(1−p) 
np(1−p)
 np(1−p)
k=1
Beispiel 6.4
Ein Meinungsforschungsinstitut möchte den (unbekannten) Anteil p von Wählern einer Partei ermitteln. Wir wissen, dass p durch die relative Häufigkeit geschätzt wird
(Gesetz der großen Zahlen).
Dann kann die relative Häufigkeit geschätzt werden mit
(
n
P
1 : Partei gewählt“ : p
”
p̃n := n1
Xk , Xk =
. Es soll die Anzahl der Befragten so
0 : nicht gewählt : 1 − p
k=1
bestimmt werden, dass: P {|p̃n − p| ≤ 0.02} ≥ 0.95 gilt.
n
n
P
P
Xk − np Xk − np n
X
k=1
≤ p0.02 · n
≤ 0.02 ⇔ |p̃n −p| ≤ 0.02 ⇔ k=1
Xk − np ≤ 0.02·n ⇔ p
n
np(1 − p)
np(1 − p) k=1
38
2
Aber p ist unbekannt, also Versuch einer Abschätzung: p(1 − p) = 41 − p − 12 ≤ 14 .
Also

 n

 n
P
P








Xk − np Xk − np  !



0.02
·
n
0.02
·
n
k=1
k=1
p
p
q
≥ 0.95
P p
≤
≥
P
≤
np(1 − p) 


1 
np(1
−
p)
np(1
−
p)




n
·



4 

 n
P




Xk − np

√
√
√ 
k=1
≤ 0.04 n ≈ 2Φ(0.04 n)−1 ≥ 0.95 ⇒ 1.96 = 0.04 n ⇒ n ≈ 2401 → 2500
P p





 np(1 − p) Es sollten also etwa 2500 Wähler befragt werden.
7
Maximum-Likelihood-Schätzungen
X n , Sn2 sind Schätzungen für E(X), D2 (X) für Stichproben (X1 , ..., Xn ).
Definition 7.1. Sei (Fγ )γ∈Γ eine Familie von Verteilungsfunktionen. Von einer Zgr. sei bekannt:
∃γ 0 ∈ Γ : FX = Fγ 0 . (Verteilungsfunktion bis auf Parameter bekannt). Sei G eine σ-Algebra
von Teilmengen aus Γ (Γ ∈ G). Sei γ̂0 : Rn → Γ, mit γ̂0 := Tn (X1 , ..., Xn ) für eine Stichprobe
(X1 , ..., Xn ). Dann heißt γ̂0 Schätzung (Punktschätzung) für γ0 , wenn ∀B ∈ G : Tn−1 (B) ∈ Bn .
Definition 7.2.
1. γ̂0 heißt erwartungstreue Schätzung für γ, wenn E(γ̂0 ) = γ0
2
(X n , Sn sind erwartungstreu)
2. Falls lim E [Tn (X1 , ..., Xn )] = γ0 , so heißt die Punktschätzung asymptotisch erwartungstreu.
n→∞
lim Tn (X1 , ..., Xn ) = γ0 mit Wkt. 1
stark konsistent n→∞
.
3. Falls gilt, dann heißt die Schätzung schwach konsistent
lim Tn (X1 , ..., Xn ) = γ0 in Wkt. 1 n→∞
4. Seien γˆ1 , γˆ2 Punktschätzungen für γ0 . γˆ1 heißt besser als γˆ2 für γ0 , falls für bel. ε > 0 gilt
P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε}.
Beispiel 7.3
Sei γˆ1 ∈ N (γ0 , σ12 ), γˆ2 ∈ N (γ0 , σ22 ). γˆ1 besser als γˆ2 ⇔ σ12 ≤ σ22 , denn: sei ε > 0 beliebig.
Dann ist
|γ̂i − γ0 |
ε
ε
P {|γ̂i − γ0 | ≤ ε} = P
≤
= 2Φ
−1
σi
σi
σi
ε
Nun gilt γˆ1 besser als γˆ2 ⇔ P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε} ⇔ Φ σ1 ≥ Φ σε2
⇔
ε
σ1
≥
ε
σ2
⇔ σ22 ≥ σ12
Definition 7.4. Sei unser Modell wie in 7.1, (X1 , ..., Xn ) sei Stichprobe zu X. Fallunterscheidung
(γ)
(γ)
1. X diskret mit den Werten a1 , a2 , ... und P {X = ak } = pk = pak . (Einzelwahrscheinlichkeiten hängen von einem unbekannten Parameter γ ∈ Γ ab.)
(γ)
(γ)
Setze L(X1 , ..., Xn ; γ) := PX1 · ... · PXn heißt Likelihoodfunktion.
39
2. Sei X stetig. (Dichtefunktion hängt von einem unbekannten Parameter γ ∈ Γ ab: f (γ) (x))
L(X1 , ..., Xn ; γ) := f (γ) (X1 ) · ... · f (γ) (Xn )
3. Sei (x1 , ..., xn ) eine konkrete Stichprobe. Dann heißt L(x1 , ..., xn , γ) konkrete Likelihoodfkt.
4. l(x : 1, ..., xn ; γ) = ln L(x1 , ..., xn ; γ) heißt logarithmierte Likelihoodfkt.
5. Eine Schätzung γ̂0 = Tn (X1 , ..., Xn ) heißt Maximum-Likelihoodschätzung für γ, falls:
L(X1 , ..., Xn ; γ̂0 ) = max{L(X1 , ..., Xn ; γ) : γ ∈ Γ}
Bemerkung 7.5. X sei diskret, (x1 , ..., xn ) konkrete Stichprobe für (X1 , ..., Xn ). Das ergibt
!
(γ)
(γ)
L(x1 , ..., xn ; γ) = px1 · ... · pxn = P {X1 = x1 } · ... · P {Xn = xn } = P {(X1 , ..., Xn ) = (x1 , ..., xn )} =
max Gesucht ist γ 0 ∈ Γ, so dass die Wkt., dass X1 = x1 , ..., Xn = xn gilt, maximal wird.
γ∈Γ
Beispiel 7.6
Sei X binomialverteilt mit (γ, m), γ = p ∈ (0, 1) =: Γ, m gegeben. Eine zu X gehörige
n
X
Q
m
Stichprobe (X1 , ..., Xn ). X ist diskrete Zgr. ⇒ L(X1 , ..., Xn ; γ) =
γ i (1−γ)m−Xi .
Xi
n
ni=1
P
P
P
m
Übergang zu l(X1 , ..., X; γ) =
ln Xi +
Xi ln γ +
(m − Xi ) ln(1 − γ).
i=1
i=1
i=1
Versuch:
1
d
l(X1 , ..., Xn ; γ) =
dγ
γ
n
X
!
Xi
i=1
1
−
1−γ
mn −
n
X
!
Xi
i=1
n
1 X
Xn
·
Xi =
= 0 ⇒ γ̂ =
nm i=1
m
!
2
d l
Wegen 0 ≤ Xi ≤ m folgt γ̂ ∈ (0, 1). Ferner ist dγ
2 < 0 ⇒ γ̂ ist Max.-Lik.-Schätzung.
Ist es erwwartungstreu? E(γ̂) = E Xmn = m1 · E(X) = m1 · mγ = γ.
Beispiel 7.7
(X1 , ..., Xn ) sei Stichprobe aus einer exponentialverteilten Grundgesamtheit x mit
n
P
γ(= λ) > 0. fγ (x) = γe−γx χR+ (x). Setze S :=
Xi .
L(X1 , ..., Xn ; γ) =
n
Q
i=1
!
γe−γXi = γ n e−γS ⇒ l(X1 , ..., Xn ; γ) = n ln γ − γS = max.
γ>0
i=1
dl
n
n
1
!
>0
= − S = 0 ⇒ γ̂ = =
dγ
γ
S
Xn
d2 l
n
=
−
<0
dγ 2
γ2
Also ist γ̂ Max.-Lih.-Schätzung.
Max.-Lih.-Schätungen besitzen bemerkenswerte Eigenschaften.
Satz 7.8. Sei X stetige Zgr. mit Dichte fγ (X), γ ∈ [a, b] ⊂ R mit
k
∂ fγ (x) ∂ k ln fγ (x)
(k = 1, 2, 3), ∀γ ∈ [a, b]∀x,
∃
∂γ k ≤ Gk (x),
∂γ k
(Ableitungen existieren und haben Majoranten) wobei G1 , G2 über R integrierbar und
R
R h ∂ ln fγ (x) i2
sup G3 (x)fγ (x)dx < ∞, I(γ) :=
fγ (x)dx < ∞ und positiv
∂γ
γ∈Γ R
R
(als Information interpretierbar)
Sei (X1 , ..., Xn ) eine Stichprobe zu X, Die Likelihoodgleichung
und γ̂ ist Max.-Lih.-Schätzung mit folgenden Eigenschaften:
40
∂L(X1 ,...,Xn ;γ)
∂γ
= 0 besitzt eine Lösung
1. γ̂ ist asymptotisch erwartungstreu (im Allg. nicht erwartungstreu)
2. γ̂ ist schwach konsistent
√
3. I(γ) n(γ̂ − γ) ∈ N (0, 1) für n → ∞.
(Anwendung für Teste bei nicht normalverteiltem X)
Ü.i.S.: Max.-Lih.-Schätzung für µ, σ 2 falls X ∈ N (µ, σ 2 )
n
P
(Γ = R × (0, ∞)) ⇒ µ̂ = X n , σ 2 = n1 (xi − X n )2
i=1
Ü.i.S.: Max.-Lih.-Schätzung für λ bei Poisson-Verteilung
Bemerkung:
Für praktisch relevante Probleme sind die Gleichungen für die Max.-Lih.-Schätzungen
nicht mehr geschlossen lösbar. In solchen Fällen muss man auf numerische Verfahren
(zumeist Newton) zurück greifen.
8
Zu Signifikanztesten
Definition 8.1. Sei X Zgr. mit Verteilungsfunktion Fγ , γ ∈ Γ. γ 0 sei der wahre Parameter:
FX = Fγ 0 , γ 0 ∈ Γ, ∅ 6= Γ0 ( Γ. Werte γ ∈ Γ0 heißen Nullhypothese H0 , γ ∈ Γ\Γ0 heißen
Alternativhypothese H1 . Insbesondere Γ0 = {γ 0 }: Vermutung für einen konkreten Wert für γ
Beispiel 8.2
Γ0 = {γ : γ ≥ γ0 , Γ0 = {γ : γ < γ0 }. Meist aber einelementiger Fall.
Definition 8.3. Ein (nicht radomisierter) Test ist eine Funktion, ϕ : G ⊂ Rn → {0, 1} mit: Sei
(x1 , ..., xn ) konkrete
( Stichprobe einer Grundgesamtheit X. Dann definieren wir
0 : (x1 , ..., xn ∈ Rn \G
.
ϕ(x1 , ..., xn ) =
1 : (x1 , ..., xn ) ∈ G
Interpretation ϕ = 1: Annahme von H0 /Ablehnung von H1 .
Definition 8.4. Ist Tn eine Stichprobenfunktion und wird G durch
{(x1 , ..., xn ) : Tn (x1 , ..., xn ) ∈ K} beschrieben, so heißt K kritischer Bereich.
Im Folgenden sei 8.4 vorausgesetzt.
Also: Entscheidung basiert auf einer Stichprobe, d.h. basiert auf einer Verteilung, da die Stichprobenfkt. eine Zgr. ist. Es sind 2 Fehlentscheidungen möglich:
Fehler 1. Art: Ablehnung von H0 , obwohl H0 richtig ist; Fehler 2. Art: Annahme von H0 , obwohl
H0 falsch ist.
Beide Fehlerwahrscheinlichkeiten lassen sich nicht gleichzeitig minimieren. Daher spezielle Tests:
Signifikanzteste
Sei α ∈ (0, 1) gegeben (üblich: α = 0.05 bzw 0.01 oder 0.001). Dann soll gelten P {Fehler 1. Art} ≤
α. (α - Irrtumswahrscheinlichkeit, Sinifikanzniveau,...).
Bemerkung 8.5. Es ist keine Aussage über den Fehler 2. Art möglich. (Oft: Wkt für Fehler 2. Art
minimal zu halten). Es gibt einen Zusammenhang zwischen α und n. Mitunter ist es möglich, zu
vorgegebenen α einen Stichprobenumfang n∗ (notwendiger Spichprobenumfagn) so zu bestimmen,
dass für die Wahrhsceinlichkeit des Fehlers 2. Art eine gewünschte Wahrscheinlichkeit mindestens
einegehalten wird, wenn man eine einzuhaltende Genauigkeit für den Parameter vorgibt.
Sequentielle Teste/Folgeteste: unsere Entscheidung basiert auf Stichprobe, bei nächster Stichprobe
evtl andere Entscheidung. Wir suchen nun nach Regeln, damit nächste Stichprobe sicherer wird.
41
Beispiel 8.6
Leitbeispiel: bezieht sich auf Teste für normalverteilte Grundgesamtheiten. Sei X ∈
N (µ, σ 2 ), σ 2 sei bekannt (σ 2 = 4). Gegeben Stichprobe (X1 , ..., Xn ), hier: konkrete Stichprobe vom Umfang n = 20: 10,11,13,11,12,13,14,10,9,10,10,11,12,14,14,10,11,10,16,9
1. Formulierung einer Hypothese H0 (Nullhypothese) und einer alternativen Hypothese
hier
H1 , hier: H0 : µ = µ0 = 11, Alternative H1 : µ 6= µ0 , (hier: µ 6= 11)
2. Angabe einer Testgröße, d.h. Angabe einer Stichprobenfunktion T , deren Verteilung
unter Zugrundelegung von H0 (mindestens asymptotisch) bekannt ist. Hier: Eine Stich√
probenfkt. T := Z = X nσ−µ0 · n ∈ N (0, 1)
Für eine konkrete Stichprobe wird einer Realisierung von T ermittelt. Hier: z = X nσ−µ0 ·
√
√
n = 11.5−11
20 ≈ 1.118
2
3. Angabe des kritischen Bereiches K, d.h. Ein möglichst großer Teil des Wertebereiches von T mit P {T ∈ K|H0 } ≤ α mit α ∈ (0, 1) gegeben ( möglichst groß“ ganz
”
intuitiv, λ1 (K) maximal). Es gibt verschiedene Wahlmöglichkeiten von K, z.B.
Hier: H0 : µ = µ0 , Es gibt also Unterschreitungen und Überschreitungen des Sollwertes. Somit ist eine sogenannte zweiseitige Fragestellung sinnvoll. Suche also z α2 , sodass
P {X > z α2 } ≤ α2 . Wegen der Symmetrie ist dann K = z : |z| > z α2
Ist ein Unterschreiten der Nullhypothese ausgeschlossen (durch äußere Umstände oder
durch eine Nullhyothese µ ≤ µ0 ) dann ist es sinnvoll eine rechtsseitige Fragestellung
durchzuführen, also K = {z : z ≥ zα }. Bzw. wenn ein Überschreiten ausgeschlossen
ist, (H0 : µ = µ0 , H1 : µ < µ0 ), so ergibt sich eine linksseitige Fragestellung mit
K = {z : z ≤ −zα }.
zβ
β
0.10
1.282
0.05
1.655
0.025 1.96
0.01
2.326
0.005 2.576
0.001 3.090
4. Entscheidungsfindung: Gilt für die Realisierung von T aus Schritt 2 die Beziehung
t∈
/ K, so ist nicht gegen H0 einzuwenden. Für t ∈ K wird H0 zugunsten von H1 abgelehnt.
Hier: 1.118 ∈
/ K bei α = 0.05 ⇒ nichts gegen µ = 11 einzuwenden.
Kann man Bereiche angeben von Werten, die nicht abgelehnt werden können? Ja, indem man die
gegebenen Sachen umstellt. Das führt zum Begriff der Konfidenzintervalle.
8.1
Gütefunktion eines Tests
Beispiel 8.7
2-seitiger Test, H0 : E(X) = µ0 , H1 : E(X) 6= µ0 , wenn X ∈ N (µ, σ 2 ), σ 2 bekannt.
0
Setze nun δ := µ−µ
( genormte Abweichung“), Q = α2 , α ∈ (0, 1) sei ein gegebenes
σ
”
42
Signifikanzniveau.
X n − µ0 √
X n − µ0 √
:= P
n ≥ zq = 1 − P
n ≤ zq
σ
σ
Xn √
µ0 √
= 1 − P −zq ≤
n−
n ≤ zq
σ
σ
µ√
Xn √
µ0 √
µ0 √
µ√
µ0 √
n−
n≤
n−
n ≤ zq +
n−
n
= 1 − P −zq +
σ
σ
σ
σ
σ
σ
√
√
√
√ Xn − µ√
= 1 − P −zq − δ n ≤
n ≤ zq − δ n = 1 − Φ(zq − δ n) − Φ(−zq − δ n ]
σ
√
√
= 1 − Φ(zq − δ n) + Φ(−zq − δ n) =: g1 (δ)
Die Gütefunktion g1 gängt ggf. von u und von δ ab.
µ = µ0 :⇒ δ = 0 ⇒ g(µ0 ) = 1 − Φ(zq ) + Φ(−zq ) = 2(1 − Φ(zq )) = α
| {z }
=1− α
2
Die Gütefunktion liefert also eine Majorante für den fehelr 1. Art.
Wkt Fehler 2. Art: β(µ) = 1 − g(µ) für µ 6= µ0 , Konkret: α = 0.01, n = 5, n = 20
|δ| n = 5 n = 20
0
0.010 0.010
0.5 0.073 0.367
1
0.367 0.971
1.5 0.782 1.000
2
0.971 1.000
2.5 0.999 1.000
3
1.000 1.000
Für großes δ und somit für größer werdenden ersten Fehler wird der Fehler 2. Artkleiner. Die Wahrscheinlichkeiten sind also gegenläufig.
Gesucht ist nun ein Mindestumfang für eine Stichprobe (2-seitige Fragetsellung), damit
der Fehler 2. Art kleiner wird als eine vorgegebene Schranke β0 . Dabei erhält man
!
z α2 − z β0 2
2
n≥
δ
8.2
Konfidenzintervalle/Konfidenzschätzungen
Eine Konfidenzschätzung (Bereichsschätzung) ist eine zufällige Menge (stichprobenabhängig)
im Parameterraum, die mit Wahrscheinlichkeit 1 − α den wahren Parameter überdeckt.
P {ω : G(ω) 3 µ0 } ≥ 1 − α, α ∈ (0, 1) Oft sind die Mengen G(ω) Intervalle mit
zufälligen Grenzen. Dann spricht man von Vertrauenintevallen.
Beispiel 8.8
Gesucht ist ein Konfidenzntervall für den Erwartungswert einer normalverteilten Grundgesamtheit bei bekannter Streuung (zweiseitig)
Überlegung: Gibt es einen entsprechenden Test?
43
√
ja, siehe 8.6.(2): T = X nσ−µ0 n ∈ N (0, 1)
8.6.(3): P {T ∈ K} = α ⇔ P {T ∈
/ K} = 1 − α ⇔ P {|T | ≤ z α2 } = 1 − α ⇔
n
o
zα σ
zα σ
P X n − √2n ≤ µ0 ≤ X n + √2n
zα σ
zα σ
Also ist das Vertrauensintervall X n − √2n , X n + √2n Hier spiegelt sich
auch wieder, dass wachsender Stichprobenumfang eine größere Genauigkeit
liefert.
Das Vertrauensintervall gibt die Menge von Erwartungswerten an, die nicht
abgelehnt werden können.
Bemerkung 8.9. Prüfen von µ, wenn X ∈ N (µ, σ 2 ),σ 2 unbekannt. Dann betrachtet
man folgende Testgröße:
√
n −µ0
T := X√
n ist t-Verteilung mit n − 1 Freiheitsgraden. Diese ist vertafelt. Statt
2
Sn
z α2 haben wir t α2 ,1−n . Der Stichprobenumfang geht also mit ein. Will man dies lösen,
so erhält man Fixpunktgleichungen, die nicht geschlossen lösbar sind, aber es lassen
Näherungen/Schranken berechnen.
Prüfen von σ 2 einer normalverteilten Zgr. bei unbekanntem Erwartungswert:
2
n
ist χ2 -verteilt mit n − 1 Freiheitsgraden, (σ0 -Hypothese), Liegt wieder
T := (n−1)S
σ02
vertafelt vor.
44
Herunterladen