hrs™heinli™hkeit und ƒt—tistik

Werbung
Wahrscheinlichkeit
und Statistik
Informatik-SS2002
A.J. McNeil
Michel Estermann
28. August 2002
Inhaltsverzeichnis
Teil 1. Wahrscheinlichkeitsrechnung
1
Kapitel 1.
1
Wahrscheinlichkeiten
1.1.
Zufallsexperimente
1
1.2.
Der Ereignisraum / Grundraum
1
1.3.
Das Wahrscheinlichkeitsmass
2
1.4.
Die Interpretation (bzw. Festlegung) von Wahrscheinlichkeit)
4
1.5.
Berechnung von Wahrscheinlichkeiten in endlichen Räumen
5
1.6.
Bedingte Wahrscheinlichkeit
1.7.
Unabhängigkeit
Kapitel 2.
8
12
Zufallsvariablen
14
2.1.
Begri der Zufallsvariable (ZV)
14
2.2.
Wahrscheinlichkeits- und Verteilungsfunktion (diskreter ZV)
14
2.3.
Wichtige diskrete Verteilung
15
2.4.
Stetige Zufallsvariablen
20
2.5.
Wichtige stetige Verteilungen
20
2.6.
Transformationen von (stetigen) ZV
23
2.7.
Erzeugung von Zufallsvariablen
24
Kapitel 3.
Gemeinsame Verteilung mehrerer Zufallsvariablen
26
3.1.
Das Konzept der gemeinsamen Verteilung
3.2.
Randverteilung
27
3.3.
Unabhängigkeit von Zufallsvariablen
28
3.4.
Wichtige Mehrdimensionale Verteilungen
29
3.5.
Bedingte Verteilung
31
3.6.
Funktionen von Zufallsvariablen
33
Kapitel 4.
26
Erwartungswert
35
4.1.
Denition
35
4.2.
Varianz und Standardabweichung
38
4.3.
Kovarianz und Korrelation
40
Kapitel 5.
Grenzwertsätze
5.1.
(schwaches) Gesetz der grossen Zahlen
5.2.
Zentraler Grenzwertsatz
42
42
43
Teil 2. Statistik
45
Kapitel 6.
45
Statistik
6.1.
Beschreibende Statistik
45
6.2.
Anpassung der Poisson-Verteilung
46
6.3.
Anpassung der Normalverteilung
48
6.4.
allgemeine Methoden zur Parameterschätzung
50
6.5.
Allgemeine Testtheorie
52
6.6.
Vergleich von 2 Behandlungen
56
II
Teil 1
Wahrscheinlichkeitsrechnung
KAPITEL 1
Wahrscheinlichkeiten
1.1. Zufallsexperimente


künstlich erzeugte Experimente









komlexe Phänomene







Werfen einer Münze
Würfeln
Lotterieziehungen
Börsen
− Kursentwicklung
Wetter
Genetik
Turbulenzen
Epidemien
Warteschlangen
Definition.
Zufallsexperiment: -ein Experiment desen Ergebnis im voraus nicht exakt vorausgesagt werden kann
1.2. Der Ereignisraum / Grundraum
Definition.
Der
Ereignisraum
Ein
Elementarereignis
Ω
ist die Menge aller möglichen Ergebnisse des Zufallsexperimentes.
ist ein Element
ω∈Ω
Beispiel.
1.
2.
3.
4.
Ein
1 Würfel
Ω = {1, 2, 3, 4, 5, 6}
2 Würfe einer Münze
Ω = {KK, KZ, ZK, ZZ}
Ω = {0, 1, 2, ...}
Anzahl Kunden zur Zeit t in einer Warteschlange
Lebensdauer einer Glühbirne
Ω = {t > 0}
Ergebnis A ist eine Teilmenge von
Ω
A⊂Ω
Beispiel.
1.
2.
Würfel
Münzen
A = {2, 4, 6} = {gerade
Augenzahl
A = {KK, KZ, ZK} = {mind.
}
einen Kopf
}
Seien A und B Ereignisse. Durch Mengentheorie können wir weitere Ereignisse bilden
1
1.3. DAS WAHRSCHEINLICHKEITSMASS
Ω
Α
Β
A ∩ B = das
Ω
Ereignis , dass A und B eintritt
Β
Α
ΩA
A ∪ B = Ereignis ,
dass A oder B (oder beides) eintritt
Ac (Komplement ) = Ereignis ,
A tritt ein, falls das realisierte Elementarereignis
A
2
ω
dass A nicht eintritt
Element von A (
ω∈A
) ist.
ist die Klasse der beobachtbaren Ereignisse, d.h. die Menge aller Teilmengen von
1.3. Das Wahrscheinlichkeitsmass
P : A → [0, 1]
P (A) :
Abbildung der Klasse aller Ereognisse in
Die Wahrscheinlichkeit, dass A eintritt
[0, 1]
Ω
.
1.3. DAS WAHRSCHEINLICHKEITSMASS
3
Grundregeln (Axiome ) für Wahrscheinlichkeiten
für alle Ereignisse A in A
Axiom 1.
0 6 P (A)
Axiom 2.
P (Ω) = 1
Axiom 3.
P (A ∪ B) = P (A) + P (B)
falls A ∩ B = φ ist
|
und im allgemeinen
{z
}
∞
[
Ai ) =
disjunkt
P(
i=1
∞
X
P (Ai )
i=1
für paarweise disjunkte Ereignisse
Weitere Rechenregeln werden aus den Axiomen hergeleitet
i)
P (Ac ) = 1 − P (A)
Beweis.
A ∪ Ac = Ω , A ∩ Ac = φ
1 = P (Ω) = P (A) + P (Ac )
ii)
P (ϕ) = 0
Beweis.
folgt sofort weil
iii)
ϕ = Ωc
(ϕ ist die leere Menge
φ
)
A ⊂ B ⇒ P (A) 6 P (B)
Beweis.
B ∩ Ac = B \ A
Ω
B
P (B)
B
A
= A ∪ (B \ A)
= P (A) + P (B \ A)
⇒ P (B) > P (A)
iv)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beweis.
Allgemeiner Additivitätssatz
1.4. DIE INTERPRETATION (BZW. FESTLEGUNG) VON WAHRSCHEINLICHKEIT)
Ω
A∪B
P (A ∪ B)
4
Β
Α
(A ∩ B c ) ∪ (B ∩ Ac ) ∪ (A ∩ B)
A \ B ∪ B \ A ∪ (A ∩ B)
= P (A \ B) + P (B \ A) + P (A ∩ B)
=
Allgemein:
A
= A \ B ∪ A ∩ B (disjunkte
⇒ P (A \ B) = P (A) − P (A ∩ B)
Ereignisse )
ähnliches Argument
⇒ P (B \ A) = P (B) − P (A ∩ B)
⇒
Satz
1.4. Die Interpretation (bzw. Festlegung) von Wahrscheinlichkeit)
Was bedeutet
z.B.
P (A) = p
P (Kopf ) =
P (Morgen
?
1
2
wird es regnen )
=
1
2
Die frequentistische Interpretation.
Man betrachtet die wiederholungen eines Zufallsexperimentes unter identischen Bedingungen
n
Für
A
sei
fn (A) =
P (A) = lim fn (A)
n→∞
1X
1 {A
n i=1
tritt beim Experiment i ein }
Frequenz unter unendlichen Widerholungen
Die subjektive Bayes'sche Interpretation.
P (A)
ist ein Mass für den persönlichen Glauben, dass
A
eintreten wird.
1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN
5
1.5. Berechnung von Wahrscheinlichkeiten in endlichen Räumen
Ω = {ω1 , ..., ωn }
,
P (ωi ) = pi
,
Zur Berechnung von P(A) wird
i = 1, ..., n
P
P (A) = i=ωi ∈A pi
Beispiel.
2 Würfe einer Münze,
Ω = {KK, KZ, ZK, ZZ}
1
i = 1, ..., 4
pi =
4
P (min.
Wenn
ω1 , ..., ωn
ein Kopf )
gleichwahrscheinlich sind
= P (KK, KZ, ZK) =
(p1 = p2 = ... = pn )
, heisst
Ω
3
4
ein Laplace-Raum
In einem Laplace-Raum ist also:
P (A) =
Anzahl Elementarereignisse in A
Anzahl Elementarereignisse in Ω
=
|A|
|Ω|
Kombinatorik.
1. Permutationen ohne Zurücklegen.
Aufgabe:
Aus n Objekten sind
k 6n
herauszugreifen und in einer Folge anzuordnen, wobei die Reihenfolge
eine Rolle spielt.
Überlegung: Für die 1.
Stelle gibt es n Möglichkeiten, für die 2. Stelle noch n-1, usw.
Anzahl
= n(n − 1).....(n − k + 1) =
n!
(n−k)!
Spezialfall: Von n Objekten gibt es n! Permutationen
2. Permutationen mit Zurücklegen.
Aufgabe: Wieviele Folgen der Länge k kann man bilden, falls jedes Objekt gewählt werden darf ?
Überlegung : Für die 1. Stelle gibt es n Möglichkeiten, ebenso für die 2. Stelle usw.
Anzahl Möglichkeiten
= nk
1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN
6
3. Kombination ohne Zurücklegen.
Aufgabe: Wieviele Teilmengen mit k 6 n Elementen gibt es?
Überlegung: Gemäss (1.) gibt es mit Berücksichtigung der Reihenfolge
n!
(n−k)! Möglichkeiten
Da es aber nicht auf die Reihenfolge ankommt, ist diese Zahl durch k! (Anzahl Permutationen bei k Objekten)
zu dividieren
Anzahl Möglichkeiten
=
n!
k!(n−k)!
=
n
k
Beispiele von Laplace-Räumen.
Beispiel.
1
Was ist die Wahrscheinlichkeit, dass eine zufällig gewählte 3-stellige Nummer wiederholte Zahlen enthält
A = {Nummer enthält wiederholte
c
P (A) = 1 − P (Ac ) = 1 − AΩ |Ω| :
|Ac | :
Zahlen }
Permutationen mit zurücklegen
= 103
Permutationen ohne zurücklegen
= 10 ∗ 9 ∗ 8
P (A) = 1 − 0.72 = 0.28
Beispiel.
2A Das Geburtstagsproblem
Ein Raum enthält n Leute
a) Was ist die Wahrscheinlichkeit, dass mind. zwei davon einen gemeinsamen Geburtstag haben ?
b) Wie gross muss n sein, damit diese Wahrscheinlichkeit > 0.5 ist ?
Elementarereignis
ω
= Θ1 , Θ2 , ..., Θn
→ Θi ∈ {1, 2, ..., 365}
Geburstag des i − ten
[Annahme: Geburtstage sind über das ganze Jahr gleichverteilt]
|Ω = 365n |
Individuums
1.5. BERECHNUNG VON WAHRSCHEINLICHKEITEN IN ENDLICHEN RÄUMEN
Ac
= {Keine Leute
365!
|Ac | =
(365 − n)!
Beispiel.
haben einen gemeinsamen Gebutstag
}
|Ac |
|Ω|
P (A)
=
1−
n = 23
n = 56
,
,
P (A) = 0.507
P (A) = 0.988
2B
- Was ist die Wahrscheinlichkeit, dass jemand heute Geburtstag hat ?
- Wie gross muss n sein, damit die Wahrscheinlichkeit > 0.5 ist ?
Ac = {Niemand
|Ac | = 364n
Beispiel.
364
365
hat heute Geburtstag }
n
P (A)
=
1−
n = 300
n = 253
,
,
P (A) = 0.56
P (A) = 0.5
Kombinationen statt Permutationen
Beim Lotto werden aus 45 Zahlen 6 gezogen.
Was ist die Wahrscheinlichkeit, dass ich:
i) die 6 Richtigen wähle ?
= A1
ii) genau 4 Richtige Zahlen wähle ?
|Ω|
=
|A1 |
=
1
45
6
= A2
= 80 1450 060
1
80 1450 060
6
39
= 110 115
4
2
⇒ P (A1 ) =
|A2 |
=
⇒
P (A2 ) =
110 115
80 1450 060
Kombinationen ohne zurücklegen
7
1.6. BEDINGTE WAHRSCHEINLICHKEIT
8
1.6. Bedingte Wahrscheinlichkeit
Seien A und B Ereignisse. Sei
P (A) > 0
Die bedingte Wahrscheinlichkeit von B unter der Bedingung, dass A eintritt, wird durch
P (B|A) =
P (A ∩ B)
P (A)
berechnet.
Beispiel.
Würfelspiel
A = {gerade Augenzahl }
B = {Augenzahl > 3}
A∩B
= {4, 6}
P (B|A) =
2
6
3
6
=
2
3
Bemerkung.
•
•
In der Regel
P (B|A) 6= P (B)
P (..|A)
Ω∗ = A aufgefasst werden
• P (..|A) erfüllen die Axiome A1.1-A1.3
Die bedingten Wahrscheinlichkeiten
können als Wahrscheinlichkeiten in einem neuen Grund-
raum
Multiplikationssatz.
Sei
P (A) > 0 .
Dann ist
P (A ∩ B) = P (B|A) ∗ P (A)
Additionssatz.
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Beispiel.
1
Eine Urneenthält 3 rote Kugeln + 1 blaue Kugel.
- Was ist die Wahrscheinlichkeit, dass ich 2 rote Kugeln ziehe ? (ohne die 1. zurückzulegen)
R1
R2
P (R2 ∩ R1 )
= {Kugel 1
= {Kugel 2
rot}
rot}
= P (R2 |R1 ) ∗ P (R1 )
2 3
=
∗
3 4
1
=
2
1.6. BEDINGTE WAHRSCHEINLICHKEIT
Beispiel.
9
2
Was ist die Wahrscheinlichkeit, dass niemand heute oder morgen Geburtstag hat ? (Siehe 1.5 Beispiel 2)
363
365
n
oder mit Multiplikationssatz:
= {Keiner
= {Keiner
A1
A2
hat heute Geburtstag }
0
hat morgen G tag}
n
364
365
n
363
P (A2 |A1 ) =
364
n
363
⇒ P (A1 ∩ A2 ) =
365
P (A1 )
=
Satz der totalen Wahrscheinlichkeit.
Eine Einteilung von
(1)
(2)
Ω
Sn
i=1 Ai = Ω
Ai ∩ Aj = φ,
Dann gilt für beliebige
sei durch
für
A1 , ..., Ai
gegeben. D.h.
i 6= j
B⊂Ω
P (B) =
Ω
Pn
i=1
P (B|Ai ) ∗ P (Ai )
Ω
A1
A1
A2
A4
A3
A5
B
A2
A4
A3
A5
1.6. BEDINGTE WAHRSCHEINLICHKEIT
10
Beweis.
B
= B∩Ω
= B∩
n
[
Ai
!
i=1
n
[
=
(B ∩ Ai )
i=1
Wobei
(B ∩ Ai ) ∩ (B ∩ Aj ) = φ i 6= j
:
P (B)
n
X
=
i=1
n
X
=
P (B ∩ Ai )
Axiom
(P (B|Ai ) ∗ P (Ai )
Multiplikationssatz
1.3
i=1
Beispiel.
1 Fortsetzung
P (R2 ) = P (Kugel 2 rot)
P (R2 ) = P (R1 ) ∗ P (R2 |R1 ) + P (B1 ) ∗ P (R2 |B1 )
B1 = {Kugel 1 blau } = R1c
R1
und
B1
bilden eine Einteilung von
Ω
P (R2 ) =
3
2 3 1
∗ + ∗1=
3 4 4
4
Baumdiagram
2-stuges Experiment
2/3
R2
R−R
1/3
B2
R−B
1
R2
B−R
B2
(B−B)
R1
3/4
1/4
c
B1 = R1
0
Beispiel.
•
•
•
Röntgen-Analyse bei Tb
Von Tb-kranken Personen werden 90% durch Röntgen entdeckt
Von den Tb-freien Personen werden 99% als solche erkannt
In einer Bevölkerung sind 0.1% tb-krank
,
wobei
1.6. BEDINGTE WAHRSCHEINLICHKEIT
11
Eine Person wird herausgegrien, geröntgt und als Tb-krank eingestuft.
Mit welcher Wahrscheinlichkeit stimmt das ?
A = {Person Tb − krank }
A = {Per. nicht Tb − krank }
B = {Röntgenanalyse positiv }
B c = {Röntgenanalyse negativ }
c
P (B|A) =
P (B|Ac ) =
P (A|B)
0.9
B
0.1
B
0.01
B
0.99
B
=
P (A) = 0.001
P (Ac ) = 0.999
P (B) =?
P (B c ) =?
0.9
0.01
P (A ∩ B)
P (B)
gesucht
A
0.001
0.999
A
c
c
c
Satz der totalen Wahrscheinlichkeit
=⇒ P (B) = P (A)P (B|A) + P (Ac )P (B|Ac ) = 0.001 ∗ 0.9 + 0.999 ∗ 0.01 = 0.01089
Multiplikationssatz
=⇒ P (A ∩ B) = P (A) ∗ P (B|A) = 0.001 ∗ 0.9 = 0.0009
P (A|B) =
P (A ∩ B)
= 0.083 = 8.3%
P (B)
Bemerkung.
•
Die kleine Wahrscheinlichkeit liegt daran, dass zwar viele Leute die Krankheit nicht haben, aber bei
10% der Test trotzdem positiv ausgeht.
•
P (B|Ac ) = 0.001
−→ P (A|B c ) = 0.47
Falls
(falsche Diagnose bei nicht Tb-kranken)
(Problem der falschen Daignose bei seltenen Krankheiten)
Wir haben den Satz von Bayes benutzt
P (A|B) =
P (A ∩ B)
P (B|A) ∗ P (A)
=
P (B)
P (B|A) ∗ P (A) + P (B|Ac )P (Ac )
1.7. UNABHÄNGIGKEIT
12
Allgemeine Form von Bayes:
A1 , ..., An
Seien eine Einteilung von
P (Ai ) > 0, ∀i
Ω
P (B) > 0
Dann gilt
P (Ak |B) =
P (B|Ak )∗P (An )
n
P
P (B|Ai )∗P (Aj )
j=1
1.7. Unabhängigkeit
Definition.
Die Ereignisse
Beweis.
A, B ⊂ Ω
heissen unabhängig, falls
P (A ∩ B) = P (A) ∗ P (B)
Falls
P (A) 6= 0
A, B
unabhängig
:
Falls
P (B) > 0
A, B
unabhängig
#
⇐⇒ P (B|A) = P (B)
⇐⇒ P (A|B) = P (A)
von #
⇒
P (B|A) =
P (B∩A)
P (A)
= P (B)
⇐ P (A ∩ B) = P (B|A) ∗ P (A) = P (A) ∗ P (B)
Die Tatsache, dass A eingetreten ist, hat keinen Einuss auf die Wahrscheinlichkeit von B Beispiel. 2
In einer Urne benden sich 2 Sorten von Münzen, gleichviele von jeder Sorte
•
•
Münzen der 1. Sorte:
Münzen der 2. Sorte:
P (K) = 0.9 , P (Z) = 0.1
fair Ich ziehe eine Münze und werfe sie zweimal auf.
K1 = {Kopf
beim 1. Wurf }
K2 = {Kopf
beim 2. Wurf }
Sind
K1
und
A = {Münze
K2
unabhängig ?
NEIN
der 1. Sorte wird gezogen } (verfälscht)
P (K2 ) = P (AK1 K2 , AK1 Z2 , Ac K1 K2 , Ac K1 K2
= 0.405 + 0.045 + 0.045 + 0.125 + 0.125 = 0.7
P (K2 ) = 0.7
P (K1 ∩ K2 ) = P (AK1 K2 , Ac K1 K2 = 0.53
1.7. UNABHÄNGIGKEIT
13
P (K1 ∩ K2 ) > P (K1 )P (K2 )
P (K2 |K1 = 0.53
0.7 = 0.757 > P (K1 )
K1
K2
und
und
A
A
sind abhängig
sind abhängig
P (K1 |A) = 0.9 > P (K1 )
P (K2 |A) > P (K2 )
durch die gemeinsame abhängigkeit vom
A
sind
K1
und
K2
abhängig.
Allgemeine Dention der Unabhängigkeit
A1, . . . , An
heissen unabhängig für je m Ereignisse
{K1 , . . . , Km } ⊂ {1, . . . , n}
ist, stets gilt
m ∈ N und
m
Q
P (Aki )
∩ . . . ∩ Akm ) =
Ak1 , . . . , Akm
P (Ak1 ∩ Ak2
wo
i=1
Bemerkung: Es genügt nicht, dass alle Ereignisse paarweise unabhängig sind.
Beispiel. 2 Würfel
A={Würfel 1 zeigt gerade Augenzahl}
B={Würfel 2 zeigt gerade Augenzahl}
C={Beide Wüerfel zeigen gerade oder ungerade }
P (A) = P (B) = P (C) = 12
P (A ∩ B) = P (A ∩ C) = P (C ∩ B) = 14
A∩B∩C =A∩B
P (A ∩ B ∩ C) = 41 > P (A)P (B)P (C) =
1
8
KAPITEL 2
Zufallsvariablen
2.1. Begri der Zufallsvariable (ZV)
Definition.
Es sei
Ω
ein Grundraum. Eine Zufallsvariable auf
Jedes Elementarereignis
ω
wird eine Zahl
X(ω)
Ω
ist eine Abbildung:
X:Ω→R
abgebildet.
Beispiel. Würfeln
1) Die Augenzahl ist eine ZV
Ω = {1, . . . , 6}, X(ω) = ω
X1 : Gesamtanzahl der
X2 : Anzahl der Köpfe - Anzahl der Zahlen
ω
KK
KZ
ZK
ZZ
X1 (ω)
2
1
1
0
X2 (ω)
2
0
0
-2
2) 2-maliger Münzwurf
Köpfe
3) Ich werfe eine Münze, bis ich Kopf erhalte
X : Gesamtanzahl
ω = K, ZK, ZZK,
X(ω)=1,2,3,4 . . .
der Würfe
ZZZK, . . .
Diskete Zufallsvariablen nehmen entweder endliche viele (Beispiel 1 und 2) oder aber abzählbar unendlich viele
Werte an (Beispiel 3)
2.2. Wahrscheinlichkeits- und Verteilungsfunktion (diskreter ZV)
Alternative Darstellung der Verteilung einer Zufallsvariable.
AX = {ω : X(ω) = x} ⊂ Ω
Wir schreiben
P (X = x)
und verstehen
(Ereignis im Grundraum)
P (Ax )
Definition.
X ist
(
P (X = x),
p(x) =
0,
Die Wahrscheinlichkeitsfunktion für eine diskrete ZV:
Wobei
W
der Wertebereich von
X
ist.
14
die Funktion:
X∈W
sonst
2.3. WICHTIGE DISKRETE VERTEILUNG
15
Definition.
Die Verteilunsfunktion der ZV
X
ist die Funktion
x∈R
F (x) = P (X 6 x),
Beispiel.
2
(Fortsetzung)
P (X2 = 2) = P ({ω : X2 (ω) = 2}) = P ({KK}) =
P (X2 = 0) = P ({KZ, KK}) =
P (X2 = −2) =
Die Paare
(X, P (X2 = x)), x = −2, 0, 2
1
2
1
4
legen die sogenannte Verteilung von
W = {−2, 0, 2}
x ∈ (−∞, 0) ⇒ P (X2 6 x) = 0
x ∈ [−2, 0) ⇒ P (X2 6 x) = P (X2 = −2) = 14
x ∈ [0, 2) ⇒ P (X2 6 x) = P (X2 = −2) + P (X2 = 0) =
x ∈ [2, ∞) ⇒ P (X2 6 x) = 1
3
4
Für diskrete ZV ist
F (x) =
X
p(xi )
xi : x ∈ W
xi 6 x
Eigenschaften einer Verteilungsfunktion.
1)
F
ist steigend und rechtsstetig
2)
lim F (x) = 1,
x→∞
lim F (x) = 0
x→−∞
2.3. Wichtige diskrete Verteilung
2.3.1. Uniform - Gleichverteilung.
X
hat den Wertebereich
W = {x1 , . . . , xn }
P(xi )=P(X =
Würfeln n=6,
Münze n=2,
xi )=
W={1,. . . ,}
X=Anzahl Köpfe ,
W={0, 1}
1
n,
1
4
i = 1, . . . , n
X2
fest
2.3. WICHTIGE DISKRETE VERTEILUNG
16
2.3.2. Bernoulli.
Eine Bernoulli-ZV nimmt Werte 0 und 1 an:
p(1) = P (X = 1) = p
p(0) = P (X = 0) = 1 − p
(P (X = x) = 0
x 6= 0, 1)
Alternative Schreibweise:
(
px (1 − p)(1−x)
p(x) =
0
X ∼ Be(p),
x = 0, 1
sonst
0<p<1
Beispiel. Indikator eines Ereignisses
(
1
A ⊂ Ω IA (ω) =
0
IA
ω∈A
ω 6∈ A
(A tritt ein)
ist eine Bernoulli-Zufallsvariable
p(1) = P (1A = 0) = P (Ac ) = 1 − P (A)
⇒ 1A ∼ Be(P (A))
2.3.3. Binomialverteilung.
X
X
und
p,
p(k) = P (X = k) =
n
k
ist Binomialverteilt mit Parametern
ist die Anzahl der Erfolge bei
Ai ={Erfolg
beim
i-ten
n
n
falls
∗ pk ∗ (1 − p)(n−k)
k = 0, 1, 2 . . .
unabhängigen Versuchen mit gleicher Erfolgswahrscheinlichkeit.
i = 1, 2 . . . n
Versuch}
P = (A1 ∩ A2 ∩ . . . ∩ Ak ∩ Ack+1 ∩ . . . ∩ Acn ) =
k
Y
P (Ai )
i=1
pk (1 − p)n−k
Es gibt
n
k
solche Möglichkeiten bei
X ∼ B(n, p)
X ∼ B(1, p), Be(p)
Bezeichnung
Bernoulli:
n
Versuchen
k
mal erfolgreich zu sein.
n
Y
i=k+1
P (Aci )
2.3. WICHTIGE DISKRETE VERTEILUNG
17
Beispiel.
Was ist die Wahrscheinlichkeit das von 350 Leute genau k(
P (X = k) =
k
k
k
k
=0
=1
=2
=3
k6
350) heute Geburtstag haben?
k 350−k
350
1
364
k
365
365
0.383
0.368
0.176
0.056
Die Summe von unabhängig, identisch verteilten Bernoulli-Zufallsvariablen ist binominalverteilt.
Seien
Yi ∼ Be(p)
i = 1, . . . , n
X=
n
X
Yi ,
X ∼ B(n, p)
i=1
Beispiel.
Yi = 1{ Individum
i hat heute Geburtstag }
1
)
Yi ∼ Be( 365
2.3.4. geometrische Verteilung.
X
ist geometrisch Verteilt mit Parameter
p,
falls
p(k) = P (X = k) = (1 − p)k−1 p
X
Ist
k = 1, 2, 3, . . .
ist die Anzahl Versuche, die ich durchführen muss, bis ein Erfolg eintritt.
p(k)
eine Wahrscheinlichkeitsfunktion?
∞
X
p(k) = p
k=1
∞
X
k=1
(1 − p)k−1 = p 1 + (1 − p) + (1 − p)2 + . . . = p ∗
1
= 1.
1 − (1 − p)
2.3.5. Negativ Binomiale Verteilung.
X
X
r und p, falls
r
k−r
p(k) = P (X = k) = k−1
r−1 p (1 − p)
ist negativ binomial Verteilt mit Parametern
ist die Anzahl Versuche, die ich machen muss, bis ich
r
k = r, r + 1, r + 2, . . .
Erfolge habe.
Herleitung:
P (Ac1 ∩ . . . ∩ Ack−r , ∩ Ak−r+1 ∩ . . . ∩ Ak ) = 1 − pk−r pr
{z
}
|
{z
} |
k-r Misserfolge
Es gibt
k−1
r−1
r Erfolge
Möglichkeiten, eine Folge von
Versuch ein Erfolg ist.
⇒ p(k) =
k−1
r−1
(1 − p)k−r pr
k−r
Misserfolgen und
r
Erfolgen hinzuschreiben, damit der letzte
2.3. WICHTIGE DISKRETE VERTEILUNG
18
2.3.6. Die hypergeometrische Verteilung.
X
ist h-g-verteilt mit den Parametern
r, n, m
falls:
p(k) = P (X = k) =
n−r
(kr )(m−k
)
,
n
(m)
0 6 k 6 r;
k 6 m.
Beispiel. 1
n
Gegenstände in einer Urne
m
X =Anzahl
Ich ziehe
(
r vom Typ 1
-r (vom anderen Typ)
davon (ohne Zurücklegen)
Gegestände vom Typ 1 in der Stichprobe
Wieso?
n
m
=
n
k
n−r
m−k
Anzahl mögliche Stichproben der Grösse
= Anzahl solcher Stichproben mit
Beispiel. 2
k
m.
Gegenständen von Typ 1 und
Lotto
n=45 Zahlen
r=6 die richtigen Zahlen
m=6 meine Zahlen
P (X = 4) = P ( V ierer ) =
(64)(39
2)
(45
6)
2.3.7. Die Poisson-Verteilung.
X
ist Poisson-verteilt mit Parameter
λ,
falls:
P (X = k) =
Bezeichnung:
λk e−λ
k! ,
k = 1, 2, . . .
X ∼ P o(λ)
Diese Verteilung eignet sich zur Modellierung seltener Ereignisse
Beispiel. Bortkiewicz
Todesfälle durch Hufschläge (von Pferden) in der preussischen Armee
Daten: 10 Kavallerieregimente beobachtet über eine Periode von 20 Jahren.
Zufallsgrösse : Todesfälle pro Regiment pro Jahr.
Anzahl Beobachtungen:
k
Nk
RelativeHäuf igkeit :
Nk
200
Anzahl Todesfälle:
0
109
200
1
2
65
22
0.545 0.325
3
4
>4
3
1
0
0.11 0.15 0.005
m−k
vom anderen Typ.
2.3. WICHTIGE DISKRETE VERTEILUNG
B hatte diese Häugkeit mit der Wahrscheinlichkeitsfunktion einer
k
P (X = k)
0
0.543
1
2
0.331 0.101
P0 (0.61)-ZV
19
verglichen:
3
4
>4
0.021 0.003 0.001
Poisson-Verteilung als Grenzwert der Binominalverteilung
X ∼ B(n, p).
Wenn
p(k) = P (X = k) =
Sei
λ = np ⇒ p =
n
gross ist und
n
k
p
klein ist, kann
X
durch
Y
approximiert werden, wobei
Y ∼ P o(np).
pk (1 − p)n−k
λ
n
n−k
n!
λ k
1 − nλ
(n−k)!k! n
n
λk n∗(n−1)∗...∗(n−k+1)
1 − nλ
k!
n∗n∗...∗n
p(k) =
=
1−
λ −k
n
Nun betrachten wir den Grenzwert wenn
n∗(n−1)∗...∗(n−k+1)
n∗n∗...∗n
n
1 − nλ → e−λ
−k
1 − nλ
→1
n→∞
geht.
→1
n→∞ λk −λ
k! e
p(k) −→
Wir betrachten immer mehr Versuche ( n), bei denen der Erfolg immer unwahrscheinlicher (
der Bedingung
np = λ
p)
(konstant).
Phänomene die mit Poisson modelliert werden:
•
•
•
Anzahl Anrufe bei einer Telefonzentrale in einer gewissen Periode
Anzahl Versicherungsschäden in einer gewissen Periode
Anzahl Jobs, die bei einem Server ankommen
WIESO?
Intuitive Idee:
Zeitperiode[0,1]: n Intervalle der Länge
1/n
Annahme:
• Es kann höchstens 1 Kunde/Anruf/Job in einem Intervall ankommen
i
• Ii , der Idikator einer Ankuft im Intervall i−1
n , n , sei Bernoulli verteilt, Ii ∼ Be(p)
• Ankünfte sind unabhängig: I1 , . . . , In unabhängig
⇒X=
n
X
i=1
Gesamtankünfte.
X
lässt sich durch
Y ∼ P o(n, p)
approximieren.
Ii ∼ B(n, p)
wird, aber unter
2.5. WICHTIGE STETIGE VERTEILUNGEN
20
2.4. Stetige Zufallsvariablen
W
Wir behandeln ZV, bei denen die Menge der möglichen Werte
ein Intervall ist (zum Beispiel
Für solche Zufallsvariablen übernimmt die Dichte die Rolle der Wahrscheinlichkeitsfunktion.
Definition.
Sei
X
Falls:
eine ZV mit der Verteilungsfunktion
F (x) =
Rx
f (y) dy,
heisst
f (x)
F (x) = P (X 6 x)
die Dichte von
X.
y=−∞
Eigenschaften:
• f (x) > 0
• f (x) ist stetig (oder
R∞
•
f (x) dx = 1,
stückweise stetig)
weil
limx→∞ F (x) = 1
−∞
a < b ⇒ P (a < X 6 b)
= P (X 6 b) − P (X 6 a) = F (b) − F (a)
Z b
=
f (x) dx
x=a
ε>0
P (a − ε < X 6 a + ε) =
Z
a+ε
f (x) dx
a−ε
Annahme:
f (x) 6 M < ∞ 6
limε→0 P (a − ε < X 6 a + ε) = 0
⇒ P (X = a) = 0
Wahrscheinlichkeitsfunktion
max
f (x)2ε
(a−ε,a+ε]
ist identisch NULL
P (a 6 X 6 b) = P (a 6 X < b) = P (a < X 6 b) = P (a < X < b)
An allen Stellen, an denen
f (x)
stetig ist gilt,
F 0 (x) = f (x).
2.5. Wichtige stetige Verteilungen
2.5.1. Gleichverteilung / Uniformverteilung.
(
1
f (x) =
0


0
F (x) = x


1
06x61
sonst
x60
0<x61
x>1
R, R+ , [0, 1]
)
2.5. WICHTIGE STETIGE VERTEILUNGEN
21
Bezeichnung: X ∼ U (0, 1)
2.5.2. Exponentialverteilung.
(
λe−λx
0>x
f (x) =
,λ > 0
0
x<0
(
Rx
Rx
1 − e−λx
F (x) =
f (t) dt =
λe−λtdt =
0
−∞
−∞
Bezeichnung: X ∼ Exp(λ)
x>0
x<0
2.5. WICHTIGE STETIGE VERTEILUNGEN
22
Bemerkung.
•
Die Exponentialverteilung wird oft zur Modellierung von Lebensdauern gebraucht. Sie hat die Eigenschaft der
Gedächtnislosigkeit .
T ∼ Exp(λ)
s, t > 0
P (T > t + s|T > s) =
=
=
P (T > t + s&T > s)
P (T > s)
P (T > t + s)
1 − P (T 6 t + s)
=
P (T > s)
1 − P (T 6 s
1 − F (t + s)
e−λ(t+s)
=
1 − F (s)
eλs
= e−λt = P (T > t)
t
Wahrscheinlichkeit, dass ein Individuum nach einer Zeit
•
Verbindung Exponential
⇔
überlebt, hängt nicht vom Alter von
s
ab.
Poisson
Eine Ankuftsprozess (Kunden/Telefonanrufe) heisst ein Poissonprozess, falls die Zeiten zwischen Ankünften unabhängig, identisch exponentiell verteilt sind. Der Parameter
λ heisst die Rate des Poisson-
Prozesses.
Die Anzahl Ankünfte im Intervall
[0, t]
(oder in
[s, s + t])
ist
P0 (λt)
verteilt.
2.5.3. Normalverteilung / Gausverteilung.
2
f (x) =
1 x−µ
√1 e− 2 ( σ )
σ 2π
−∞ < µ < ∞
,
Parameter: −∞ < µ < ∞, σ > 0
Bezeichnung: X ∼ N (µ, σ 2 )
F (x) =
Zx
f (y) dy
−∞
Spezialfall: Standardisierte Normalverteilung:
Dichte wird mit
Falls
ϕ(x)
X ∼ N (0, 1)
µ = 0,
Φ(x)
bezeichnet
und Verteilungsfunktion
X ∼ N (µ, σ 2 ) ⇒
X−µ
σ
σ=1
∼ N (0, 1)
X −µ
P(
6 x) = P (X 6 µ + σx) =
σ
µ+σx
Z
y=−∞
1 x−µ 2
1
√ e− 2 ( σ ) dy
σ 2π
2.6. TRANSFORMATIONEN VON (STETIGEN) ZV
Sei
Zx
y−µ
dy
t=
⇒ dt =
=
σ
σ
t=−∞
Zx
t=−∞
=⇒ Φ(x) =
23
1 2
1
√ e− 2 t dt
2π
ϕ(t) dt
t=−∞
Phänomene die mit der Gaussverteilung modelliert werden
•
•
•
Streueung von Messwerten um den Mittelwert
Gewichte / Grössen / IQ's von Individuen in einer Bevölkerung
St =Preis am Ende Tag t,
(Annahme)
⇒
Xt ∼ N (0, σt2 )
Renditen von Aktien
xt :=
St+1 −St
St
∗ 100
2.6. Transformationen von (stetigen) ZV
Sei X eine Zufallsvariable mit Verteilungsfunktion
Gesucht: Verteilungsfunktion und Dichte von
Fx
und Dichte
Lineare Transformationen. Y = aX + b
a > 0, b ∈ R
FY (y) = P (Y 6 y) = P (aX + b 6 y) = P X 6
Verteilung:
fY (y) =
Dichte:
Beispiel.
X ∼ N (µ, σ 2 )
fY (y) = a1 fX y−b
=
a
1
√
aσ 2π
e
1
2
2
y−b
−µ
a
σ
=
1
1
√
e2(
aσ 2π
y−b−aµ
aσ
Y ∼ N (b + aµ, a2 µ2 )
Spezialfall
a = 1/σ,
b = −µ/σ ⇒ Y ∼ N (0, 1)
Diese Transformation heisst eine Standardisierung.
Zahlenbeispiel:
X ∼ N (100, 152 )
Was ist P (120 6 X 6 130)?
Tabelle der standardisierten Normalverteilung vorhanden
P (120 6 X 6 130) = P
120−100
15
6
X−100
15
6
130−100
15
Y = X−100
⇒ Y ∼ N (0, 1) = P (1.3) 6 Y 6 2)
15
= Φ(2) − Φ(1.33) = 0.9772 − 0.9082 = 0.069
Sei
fx .
Y=g(X)
2
)
= FX
y−b
a
(y) = a1 fX
y−b
a
y−b
a
d
dy FY
2.7. ERZEUGUNG VON ZUFALLSVARIABLEN
24
Nichtlineare Transformationen.
a)
Y = X2
FY (y)
= P (Y 6 y) = P (X 2 6 y)
√
√
= P (− y 6 X 6 y)
√
√
= FX ( y) − FX (− y)
Beispiel.
X ∼ N (0, 1)
√
√
Y = X 2 : FY (y) = Φ( y) − Φ(− y)
1
1
1
√
√
√
fY (y) = 12 y − 2 ϕ( y) + 12 y − 2 ϕ(− y) = y − 2 ϕ( y)
Sei
Diese Dichte ist die
b)
χ2 − V erteilung
Symmetrie
mit einem Freiheitsgrad.
Y = 1/X
FY (y) = P (
1
1
1
1
6 y) = P (X > ) = 1 − P (X 6 ) = 1 − FX ( )
x
y
y
y
fY (y) = y −2 fX ( y1 )
Beispiel.
U ∼ U (0, 1),
fU (u) = 1
06u61
V ∼ 1/U,
FU (u) = u
06u61
FV (v) = 1 − FU ( v1 ) = 1 − v1 ,
fV (v) = v 2
06
1
v
61⇔v>1
Allgemeiner (ohne Beweis)
Sei X stetig mit der Dichte f (x)
Sei Y = y(X), g dierenzierbar und streng monoton in einem Intervall I
Sei f (x) = 0, x 6∈ I
Satz.
(
d −1
fX (g −1 (y)) | dy
g (y)|
FY (y) =
0
[g −1 (y) = x falls, g(x) = y]
b)
V = g(U ),
g(u) = 1/u,
g −1 (v) = 1/v ,
d −1
(v)
dv g
y ∈ {g(x)|x ∈ I}
y 6∈ {g(x)|x ∈ I}
= −1/v 2 ,
d −1
fV (v) = fU (g −1 (v)) | dv
g (v)| = 1/v 2
2.7. Erzeugung von Zufallsvariablen
U sei U(0,1)-verteilt
Sei X = F −1 (U ), wobei F eine stetige und streng monoton wachsende Verteilungsfunktion ist.
Dann gilt P (X 6 x) = F (x)
Satz.
Beweis.
P (X 6 x) = P F −1 (U ) 6 x = P (U 6 F (x)) = F (x)
2.7. ERZEUGUNG VON ZUFALLSVARIABLEN
Simulationsalgorithmus für Zufallsvariablen mit der Verteilungsfunktion
25
F:
Invertiermethode.
•
U ∼ (0, 1) mit einem Zufallsgenerator. [Deterministischer Algorithmus, welcher eine Folge
(u1 , u2 , . . .) produziert, so dass sie sich gleich Verhalten wie Realisationen von unabhängigen U(0,
Simuliere
1)-verteilten ZV]
•
Berechne
X = F −1 (U )
Beispiel. Simuliere
F (x) = 1 − e−λx ,
•
•
Simuliere
Berechne
X ∼ Exp(λ)
x60
⇒
F −1 (u) =
− log(1−u)
λ
U ∼ U (0, 1)
)
X = − log(1−U
λ
Bemerkung.
• Quantil:
Der Wert
F −1 (u), u ∈ (0, 1)
heisst das u-Quantil der
F.
P (X 6 F −1 (u)) = F F −1 (u) = u
P (X 6 95% − Quantil) = 95%
Verteilung
• Median:
Der Wert
F −1 ( 21 )
heisst der Median der Verteilung.
KAPITEL 3
Gemeinsame Verteilung mehrerer Zufallsvariablen
3.1. Das Konzept der gemeinsamen Verteilung
Definition.
Die gemeinsame Verteilungsfunktion von n Zufallsvariablen X1 , . . . , Xn
F (x1 , . . . , xn ) = P (X1 6 x1 , X2 6 x2 , . . . , Xn 6 xn )
ist
Definition.
n diskreten Zufallsvariablen
p(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
[ Wir konzentrieren uns auf den Fall n=2 und die Zufallsvariablen X
Die gemeinsame Wahrscheinlichkeits von
ist
und
Y ]
Beispiel. A.
Eine Münze wird 3 mal geworfen
Y=
X=
Anzahl Köpfe beim 1. Wurf Gesamtanzahl Köpfe
Ω = {KKK, KKZ, KZK, KZZ, ZKK, ZKZ, ZZK, ZZZ}
x=
y=
p(x,y)
0
1
0
1/8
1
0
2/8
1/8
2
3
1/8 0
2/8 1/8
Definition.
Seien
X1 , . . . , Xn
Zufallssvariablen mit gemeinsamer Verteilungsfunktion
F (x1 , . . . , xn ) =
Zx1
−∞
heisst
f (x1 , . . . , xn )
die gemeinsame Dichte von
···
Zxn
F (x1 , . . . , xn ).
f (y1 , . . . , yn ) dy1 , . . . , dyn ,
−∞
X1 , . . . , Xn
Eigenschaften
• f (x1 , . . . , xn ) > 0
Z∞
Z∞
•
···
f (y1 , . . . , yn ) dy1 , . . . , dyn = 1
−∞
|
−∞
{z
n mal
}
n
• f (x1 , . . . , xn ) = ∂x1∂...∂xn
R
R
• P ((X1 , . . . , Xn ) ∈ A) = · · · f (x1 , . . . , xn ) dx, . . . , dxn
26
A ⊂ Rn
Falls
3.2. RANDVERTEILUNG
Beispiel. B
Die Verteilung von
X
und
Y
hat die gemeinsam Dichte:
12 2
(x + xy),
0 6 x 6 1,
06y61
7
Z
Z
12
F (x, y) =
x···
y (u2 + uv) dv du
7
f (x, y) =
u=0
v=0
3
4 3
x y + x2 y 2
7
7
=
F(0,0)=0 , F(1,1)=1
A = {(x, y)|0 6 y 6 x 6 1}
P (X > Y )
= P ({ω : X(ω) > Y (ω)})
= P (ω : 0 6 Y (ω) 6 X(ω) 6 1)
ZZ
=
f (x, y) dx dy
A
P (X > Y )
Z1 Zx
=
9
12 2
(x + xy) dy dx =
7
14
x=0 y=0
3.2. Randverteilung
Wir haben für
X
Gesucht wird die
und
Y
eine gemeinsame


Verteilungsfunktion


F
p


f
von
X
Verteilungsfunktion
Wahrscheinlichkeitsfunktion
Dichte
bzw
Y
Wahrscheinlichkeitsfunktion


Dichte
Die Verteilungsfunktion der Randverteilung von
X
ist
FX (x) = P (X 6 x) = P (X 6 x, Y 6 ∞) = lim F (x, y)
y→∞
Diskreter Fall
Y
nimmt die Werte
y1 , y 2 , . . .
an.
Die Wahrscheinlichkeitsfunktion der Randverteilung von
X
wird gegeben durch
PX (x) = P (X = x) =
P
j
p(x, yj )
27
3.3. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN
Beispiel. A
x=
y=
p(x,y)
0
1
0
1/8
1
0
2/8
1/8
2
X = Anzahl Köpfe beim
Y = Gesamtzahl Köpfe
P
pX (1) = P (X = 1))
3
1/8 0
2/8 1/8
1 Wurf p(1, yj ) = 1/8 + 2/8 + 1/8 = 1/2
j
X ∼ Be( 12 )
P
pY (1) = P (Y = 1) = p(x, y) = 2/8 + 1/8 = 3/8
j
pY (0), pY (1), pY (2)
u.s.w.
Stetiger Fall
Die Dichte der Randverteilung von
fX (x) =
d
dy FX (x)
=
X:
d
lim F (x, y)
dx y→∞
=
d
dx
Rx R∞
f (u, y) dy du =
−∞ −∞
R∞
f (x, y) dy
−∞
Beispiel. B
fX (x) =
12
7
fY (y) =
12
7
R1
(x2 + xy) dy =
y=0
R1
(x2 + xy) dx =
0
12
2
7 (x
1y
32
12
7
+ x2 )
3.3. Unabhängigkeit von Zufallsvariablen
Definition.
Die Zufallsvariabeln
X1 , . . . , Xn
sind unabhängig, falls
F (x1 , . . . , xn ) = FX1 (x1 ) · . . . · FXn (xn ) =
n
Q
i=1
n=2
a) Diskreter Fall
X, Y
unabhängig
⇔ p(x, y) = pX (x)pY (y),
∀x, y
⇔ f (x, y) = fX (x)fY (y),
∀x, y
b) Stetiger Fall
X, Y
unabhängig
Beweis. von b)
X,Y unabhängig
⇒ F (x, y) = FX (x)FY (y) ⇒
∂2
∂x∂y F (x, y)
=
d
d
dx FX (x) dy FY
(y)
FXi (xi )
28
3.4. WICHTIGE MEHRDIMENSIONALE VERTEILUNGEN
⇒ f (x, y) = fX (x)fY (y) ⇒ F (x, y) =
=
Rx
fX (u) du
−∞
Ry
Rx Ry
29
fX (u)fY (v) du dv
−∞ −∞
fY (v) dv = FX (x)FY (y)
−∞
Weder in Beispiel A noch in Beispiel B sind
X ,Y
unabhängig.
3.4. Wichtige Mehrdimensionale Verteilungen
3.4.1. Die Mehrdimensionale Normalverteilung (stetig).
f (x, y) =
1√
2πσx σy
1−ρ2
exp
x−µx
σx
2
+
y−µy
σy
−∞ < µx < ∞,
−∞ < µy < ∞,
5 Parameter
µ = µµxy
2
σx
Σ=
ρσx σy
−1
2(1−ρ2 )
2
−
2ρ(x−µx )(y−µy )
σx σy
σx > 0,
σy > 0
ρ heisst
−1 < ρ < 1
die Korrelation
Sei
ρσx σy
σy2
1
1
T −1
f (x) = 2π|Σ|
(x − µ)
1/2 exp − 2 (x − µ) Σ
x
x=
y
Anwendungen:
• X
= Rendite der BMW-Aktie
Y = Rendite der Siemens-Aktie
• X
= Log(Körpergewicht eines Säugetiers)
Y = Log Gehirnmasse
Graphische Darstellung
•
•
Gemeinsame Dichte ist eine glockenförmige Oberäche in
Höhenlinien der Dichte {(x,y) | f(x,y) = k},
falls
ρ = 0,
fX (x) =
R∞
f (x, y) dy
−∞
Aufgabe =
σx
1
√
∗ e2(
1
2π
R3
k>0
sind die Achsen der Ellipse parallel zur x-Achse und zur y-Achse
Randverteilungen
x−µx
σx
2
)
3.4. WICHTIGE MEHRDIMENSIONALE VERTEILUNGEN
30
X ∼ N (µx , σx2 )
Y ∼ N (µy , σy2 )
Unabhängigkeit
f (x, y) = fX (x)fY (y)?
ρ=0
Unabhängigkeit von X, Y ⇔ ρ = 0
Wann ist
Nur dann wenn
(Keine Korrelation)
3.4.2. Die Multinominalverteilung (diskret).
n
Es werden
unabhängige Experimente durchgeführt:
Bei jedem Experiment gibt es
r
mögliche Ergebnisse mit jeweiligen Wahrscheinlichkeiten
p1 , . . . , p r
r
P
p1 = 1
i=1
Sei
Ni
die Anzahl Experimente bei denen Ergebnis
i
eintritt.
n
n1 . . . n r
|
{z
}
n!
n ! · n2 ! · . . . · n r !
|1
{z
}
p(n1 , n2 , . . . , nr ) = P (N1 = n1 , . . . , Nr = nr ) =
pn1 1 pn2 2 . . . pnr r
MultinomialKoezient
n
pn 1
pn2 2
,
n1 n2 1
|{z}
| {z }
(1−p1 )(n−n1 )
im Fall r=2
mit
n2 = n − n1 ,
p2 = 1 − p1
n!
n!(n−n1 )!
Herleitung
Die Folge
n
z
}|
{
1, . . . , 1, 2, . . . , 2 . . . . . . r, . . . , r
| {z } | {z }
| {z }
n1
n2
hat Wahrscheinlichkeit
pn1 1 pn2 2 . . . pnr r
nr
Es gibt:
n
die Ergebnisse von Typ 1 den Stellen der Folge zuzutueilen.
n1 Möglichkeiten,
n−n1
Möglichkeiten, die Ereignisse vom Typ 2 den verbleibenden (n − n1 ) Stellen der Folge zuzuteilen
n2
usw.
n
n1
n−n1
n2
n−n1 −n2
n3
Randverteilung von
...
n−n1 ...nr−1
nr
=
n
n1 ,...,nr
Ni
PNnii = P (Ni = ni ) =
Ni ∼ B(n, p)
p(n1 , . . . , nr ) 6=
r
Q
i=1
pNi ni ?
n
ni
pn1 i (1 − pi )n−ni
3.5. BEDINGTE VERTEILUNG
N1 , . . . , Nr
31
sind abhängig
3.5. Bedingte Verteilung
Diskreter Fall
X, Y
diskrete Zufallsvariablen mit gemeinsamer Wahrscheinlichkeitsfunktion
p(x, y).
Definition.
X
Die Wahrscheinlichkeitsfunktion von
unter der Bedingung, dass
PX|Y (x | y) = P (X = x | Y = y) =
P (X=x,Y =y)
P (Y =y)
=
Y =y
ist
p(x,y)
pY (y)
falls
pY (y) > 0
Bemerkung.
•
P
pX|Y (xi |y) =
P
p(xi ,y)
i
pY (y)
i
=
PY (y)
PY (y)
=1
[x1 , x2 , . . . sind die möglichen Werte von X ]
• pX|Y (x|y) = PX (x), ∀x, y mit PY (y) > 0 ⇔ X, Y
unabhängig
Beispiel. A
Bedingte Verteilung von
X
pX|Y (0|1) =
p(0,1)
pY (1)
=
2
8
3
8
=
2
3
pX|Y (1|1) =
p(1,1)
pY (1)
=
1
8
3
8
=
1
3
gegeben
X|Y = 1 ∼ Be( 13 )
⇒ X, Y
X ∼ Be( 12 )
Y =1
abhängig !!
Beispiel. B
In einer Bevölkerung haben 50% der Leute blaue Augen,40% dunkle Augen,10% grüne Augen
Unter 10 zufällig ausgewählten Leuten ist die Anzahl der dunklen Augen 6.
Was ist die Verteilung der Anzahl der verbleibenden Leute mit grünen Augen?
X= Anzahl Leute mit grünen Augen
Y= Anzahl Leute mit dunklen Augen
Z= Anzahl Leute mit blauen Augen
PX|Y (x|6) =
P (X=x,Y =6)
PY (6)
=
1 2 1
(X, Y, Z) ∼ Mn (10, 10
, 5, 2)
Y ∼ B(10, 52 )
P (X=x,Y =6,Z=10−6−x)
P (Y =6)
3.5. BEDINGTE VERTEILUNG
10!
1 x 2 6 1
5
2
x!6!(4−x)! 10
10! 2 6 3 4
6!4! 5
4
4−x
( ) ( )( )
( )( )
PX|Y (x, 6) =
= ... =
4
x
1 x
6
5 4−x
6
32
⇒ X|Y = 6 ∼ B(4, 16 )
Stetiger Fall
X, Y
f (x, y).
stetige Zufallsvariablen mit gem. Dichte
Definition.
Die bedingte Dichte von
Y
unter der Bedingung
fY |X (y|x) =
X=x
ist
f (x,y)
fy (x) ,
falls
0 < fy (x) < ∞
Bemerkung.
•
R∞
−∞
1
fx (x)
fY |X (y|x) dy =
• fY |X (y|x) = fY (y),
R∞
f (x, y) dy =
−∞
∀x, y ⇔ X ,Y
fX (x)
fX (x)
=1
unabhängig.
Beispiel. 2-Dimensionale Normalverteilung
fY |X(x|y) =
f (x,y)
fx (x)
= ... =
σy
√
1
2π(1−ρ2 )
exp
σ
y
(y−µy −ρ σx
(x−µx ))2
− 12
σy2 (1−ρ2 )
Dichte ist eine 1-Dimensionale-Normalverteilung mit:
p
b = σ y 1 − ρ2
a = µy + ρ σσxy (x − µx ),
σ
⇒ Y |X = x ∼ N µ + ρ σxy (x − µx ), σy2 (1 − ρ2 )
X
Y
= relative Kursänderung BMW (täglich)
= relative Kursänderung Siemens
Modell
µx = µy = 0%
σx = σy = 1%
ρ = 0.7
Was ist die Wahrscheinlichkeit dass die Siemensaktie um
5%
oder mehr fällt , gegeben dass BMW um
P (Y 6 −5 | X = −5)
Y |X = −5 ∼ N (a, b2 )
Bei der Berechnung von a setze x=-5
a =√
−3.5
b = 1 − 0.49
Y −a
b |X
= −5 ∼ N (0, 1)
P (Y 6 −5|X = −5) = P ( Y −a
6
b
−5−a
b |X
Vergleiche mit unbedingt
P (Y 6 −5) = Φ(−5) = 2.68 × 10−7
P (Y 6−5 | X=−5)
P (Y 6−5)
∼
= 60000
= −5) = Φ
−5−a
b
=
0.0178
5%
fällt?
3.6. FUNKTIONEN VON ZUFALLSVARIABLEN
33
3.6. Funktionen von Zufallsvariablen
X ,Y
sind Zufallsvariablen mit bekannter (gemeinsamer) Verteilung.
Was ist die Verteilung von
X + Y, X − Y, . . . g(x, y)
?
a) Diskreter Fall
X ,Y
p(x, y) gegeben
Z =X +Y
S
S
{Z = z} = {X = xi , Y = z − xi } ⇔ {Y = yi , X = z − yi }
i
x1 , x2 . . .
i
mögliche Werte von
P
PZ (z) = P (Z = z) = P (X = xi , Y = z − xi )
i
P
PZ (z) = p(xi , z − xi )
i
X ,YPunabhängig:
pZ (z) = pX (xi )pY (z − xi )
Falls
i
Die Faltung von
Beispiel
pX
und
pY .
3-maliger Munzwurf
X = Anzahl K beim 1 Wurf Z =X +Y
Y = Gesamtzahl K
P
pZ (0) = P (X = xi , Y = −xi ) = P (X = 0, Y = 0) = 18
i
P
pZ (1) = P (X = xi , Y = 1 − xi ) = P (X = 0, Y = 1) + P (X = 1, Y = 0) =
|
{z
}
i
2
8
gibts nicht
pZ (2) = p(0, 2) + p(1, 1) =
pZ (3) = p(0, 3) + p(1, 2) =
pZ (4) = p(1, 3) = 18
2
8
2
8
b) Stetiger Fall
X ,Y
f (x, y)
Z =X +Y
gegeben
FZ (z) = P (Z 6 z) = P (X + Y 6 z)
Sei
AZ = {(x, y)|x + y 6 z}
FZ (z) = P (X + Y 6 z) = P ((X, Y ) ∈ AZ ) =
RR
f (x, y) dx dy =
R∞ z−x
R
f (x, y) dy dx
−∞ −∞
AZ
v =x+y ⇒y =v−x
dy = dv
R∞ Rz
Rz R∞
f (x, v − x) dv dx =
f (x, v − x) dx dv = FZ (z)
Sei
−∞ −∞
−∞ −∞
fZ (z) =
d
dz FZ (z)
=
R∞
f (x, z − x)dx
x=−∞
Falls X,Y unabhängig
fZ (z) =
R∞
fX (x)fY (z − x)dx
−∞
Die Faltung von
fX
und
fY
3.6. FUNKTIONEN VON ZUFALLSVARIABLEN
34
Beispiel.
X, Y ∼ Exp(λ),
X, Y
unabhängig
fX (x)
= λe−λx ,
x>0
−λy
fY (y)
= λe
,
y>0
(
−λ(z−x)
λe
x6z
fY (z − x) =
0
x>z
Zz
fZ (z) =
λe−λx λe−λ(z−x) dx
0
=
Zz
λ2 e−λz dx = λ2 ze−λz ,
0
Z
hat eine Gamma-Verteilung mit Parametern
Z ∼ Ga(α, λ)
α α−1 −λz
fZ (z) = λ z Γ(α)e ,
α=2
und
λ
z>0
Allgemeine Form der Dichte einer
Gamma(α, λ)-Verteilung.
z>0
KAPITEL 4
Erwartungswert
4.1. Denition
Motivierendes Beispiel
Spieler 1 verspricht Spieler 2, dass er ihm beim Würfelspiel folgende Gewinne auszahlen werde.
10 Rappen, falls 1 oder 2 erscheint
20 Rappen, falls 3 oder 4 erscheint
40 Rappen, falls 5 erscheint
80 Rappen, falls 6 erscheint
Wieviel muss Spieler 2, Spieler 1 vor jeder Runde bezahlen damit das Spiel fair ist?
Fair heisst dabei, dass der Einsatz gleich dem durchschnittlichen Gewinn sein soll.
Lösung:
Sei
n
n0 die Anzahl Runden,
G = 10n1 + 10n2 + 20n3 + 20n4 + 40n5 + 80n6
die Anzahl der Runden und
Gewinn:
Durchschnittlicher Gewinn pro Spielrunde:
bei denen die Augenzahl
i
auftritt.
G
n
Erwartungswert des Gewinns: Idealisierter durchschnittlicher Gewinn bei unendlich vielen Spielrunden
Erwartungswert
= 10p1 + 10p2 . . . + 80p6 , p1 = p2 . . . p6 =
1
6
⇒30
Rappen Der Faire Einsatz
Definition. Diskret
X
sei diskret mit Wahrscheinlichkeitsfunktion
Dann heisst:
E(X) =
P
xi p(xi )
p(x)
der Erwartungswert von
x.
(vorausgesetzt, dass die Reihe absolut konvergiert)
i
Beispiel.
(1) Roulette Rad
0, 1 . . . 36 + 00
Ich wette 1 CHF, dass die Zahl ungerade ist. Falls dies vorkommt ist mein Gewinn 1, sonst verliere
ich meinen Einsatz.
X = Netto-Gewinn
18
X = 1 mit Wahrscheinlichkeit 38
X =-1 mit Wahrscheinlichkeit 20
38
20
1
E(X) = 1 · 18
+
−1
·
=
−
38
38
19
Spiel ist unfair. Auf Dauer verlieren wir im Schnitt
(2)
≈
5 Rappen pro Spiel.
Bernoulli-Verteilung
X ∼ Be(p)
P (X = 1) = p = 1 − P (X = 0)
E(X) = 1p + 0(1 − p) = p
35
4.1. DEFINITION
(3)
36
geometrische Verteilung
X ∼ N b(1, b)
(Negativbinominal)
p(k) = (1 − p)k−1 p
k = 1, 2 . . .
∞
P
k−1
E(x) =
kp(1 − p)
k=i
E(x)
=
p + 2p(1 − p) + 3p(1 − p)2 + 4p(1 − p)3 + . . .
−(1 − p)E(x) =
p(1 − p) + 2p(1 − p)2 + 3p(1 − p)3 + . . .
⇒ p (E(x)) = p + p(1 − p) + p(1 − p)2 + p(1 − p)3 + . . .
∞
P
⇒ pE(X) =
p(k) = 1
⇒ E(x) =
k=1
(4)
1
p
Poisson-Verteilung
−λ
k
X ∼ PO (λ) = p(k) = e k!λ ,
k = 1, 2, . . .
P ke−λ λk
P ke−λ λk
E(X) =
∞ k! =
∞ k!
k=0
k=1
P e−λ λk−1
=λ
∞ (k−1)!
E(X) = λ
k=0
Definition. Stetig
X
sei stetig mit der Dichte
Dann heisst
R∞
E(X) =
f (x)
xf (x) dx
der Erwartungswert von
X
(vorausgesetzt, dass das Integral absolut kon-
−∞
vergiert).
Beispiel.
(1)
Uniform-Verteilung
X ∼ U (0, 1)
R∞
R1
E(X) =
xf (x) dx = 1x dx = [1/2x2 ]10 =
−∞
(2)
0
1
2
E(X) =
Normalverteilung
X ∼ N (µ, σ 2 )
E(X) =
Sei
√1
σ 2π
z =x−µ
E(X) =
R∞
xe−
R∞
(z + µ)e− 2σ2 dz
(x−µ)2
2σ 2
dx
−∞
√1
σ 2Π
Z∞
z2
−∞
Z∞
2
z2
1
µ
− 2σz√2π
= √
ze
dz + √
e− 2σ2 dz
σ 2π
σ 2π
−∞
−∞
|
{z
} |
{z
}
A
A=0
weil
R∞
B
e
−z 2
2σ 2
dz = −
−∞
R0
−∞
2
z
− 2σ
2
ze
dz B = µ,
weil
µ
√
σ 2π
2
N(0,σ )-Verteilung ist.
⇒
(3)
1
2
Cauchy-Verteilung
E(X) = µ
R∞
−∞
z2
e− 2σ2 dz ,
das Integral der Dichte einer
4.1. DEFINITION
Dichte
E(X)
1 1
π 1+x2 ,
f (x) =
37
−∞ < x < ∞
ist undeniert:
Z∞
|x| f (x) dx = 2
−∞
Z∞
x 1
dx = lim 2
k→∞
π 1 + x2
0
= lim
k→∞
log(1 + x2 )
π
Zk
x 1
dx
π 1 + x2
0
k
log(1 + k 2 )
=∞
k→∞
π
= lim
0
Der Median der Cauchy-Verteilung ist aber 0
Funktionen von Zufallsvariablen.
Satz.
A
Sei Y = g(x)
•
Falls X diskret mit Wahrscheinlichkeitsfunktion p(X) ist: E(Y ) =
Summe konvergiert absolut.(
•
R∞
g(xi )p(xi )
i
vorrausgesetzt die
|g(xi )| p(xi ) < ∞)
Falls X stetig ist mit Dichte f (x) ist: E(Y ) =
absolut.(
R∞
g(x)f (x) dx
−∞
vorausgesetzt das Integral konvergiert
g(x)f (x) dx < ∞)
−∞
Satz.
P
P
B
Seien X1 , . . . , Xn , Y Zufallsvariablen mit Y = g(X1 , . . . Xn )
•
Falls X1 . . . Xn diskret mit gemeinsamer Wahrscheinlichkeitsfunktion p(x1 , . . . , xn ) sind, folgt:
E(Y ) =
P
...
x1
•
P
g(x1 , . . . xn )p(x1 , . . . xn )
xn
Falls X1 . . . Xn stetig mit gemeinsamer Dichte f (x1 , . . . , xn ) sind folgt:
E(Y ) =
R
...
x1
R
g(x1 , . . . xn )f (x1 , . . . xn )dx1 . . . dxn
xn
Korollar. X1 , X2 unabhängig. Dann folgt
E(g(X1 ), h(X2 )) = E(g(x1 ))E(h(X2 )) vorausgesetzt E(|g(X1 )|)E(|h(X2 )|) < ∞.
Beweis. (stetig)
RR
E(Y
R
RR ) = E(g(X1 )h(x2 )) = g(x1 )h(x1 )f (x1R, x2 ) dx1 dx2
= g(x1 )h(x1 )fx1 (x)fx2 (x)(x1 ) dx1 dx2 =
g(x1 )fx1 (x1 ) dx1
h(x2 )fx2 (x2 ) dx2 .
4.2. VARIANZ UND STANDARDABWEICHUNG
38
Lineare Kombination von Zufallsvariablen.
Der Erwartungswert ist ein linearer Operator.
Satz.
C
X1 , . . . , Xn
seien Zufallsvariablen mit Erwartungswerten E(X1 ), . . . , E(Xn )
Sei Y = a +
n
P
bi X i
i=1
Dann folgt E(Y ) = a +
n
P
bi E(Xi )
i=1
(folgt aus Satz B (ohne Beweis))
Beispiel.
(1)
Y ∼ B(n, p)
n
n
P
P
E(Y ) =
kp(k) =
k nk pk (1 − p)n−k
Y =
n
P
k=0
k=0
Xi ∼ Be(p)
Xi ,
i=1
n
P
E(Y ) =
E(Xi ) =
i=1
n
P
p = np
i=1
E(Y ) = np
(2)
Fussballbildchen erhält man in Cornakespakungen
1 pro Packung. Die Serie besteht aus
n
Bildchen.
X =Anzahl
Packungen die ich kaufen muss, bis ich
die ganze Serie habe
Gesucht: E(X);
X1 = 1sei die Anzahl Käufe bis ich das erste Bildchen erhalte.
Xr sei
Pdie Anzahl Käufe nach dem (r − 1)-ten Erfol bis ich ein
X=
nXr Xr ist geometrischverteilt:
neues Bildchen habe.
r=1
Erfolgswahrscheinlichkeit =
X1 ∼ N b(1, 1)
X2 ∼ N b(1, n−1
n )
1
Xn ∼ N b(1, n )
n
n
P
P
E(x) =
E(Xr ) =
r=1
r=1
≈ n(log(n) + γ)
für
n
n−r+1
n
n
n−r+1
gross ( γ
=n
n
P
r=1
1
r
= Eulesche
Konstante
≈ 0.57) E(X)
wächst schneller als
4.2. Varianz und Standardabweichung
X
sei eine Zufallsvariable mit Erwartungswert
E(X)
2
p var(X) = E((X − E(X)) ) die Varianz
sd(X) = var(X) heisst die Standardabweichung.
Dann heisst
von
X.
g(x) = (x − µx )2 ,
var(X) = E(g(X)),
Aus Satz 4.1A folgt
var(X) = E(g(x)) =
=
R∞
−∞
g(x)f (x)dx =
P
i
R∞
−∞
g(xi )p(xi ) =
P
(xi − µx )2 p(xi )
i
(x − µx )2 f (x)dx
(Stetig)
(Diskret)
µx = E(X)
n!.
4.2. VARIANZ UND STANDARDABWEICHUNG
39
Beispiel.
X ∼ Be(p)
E(X) = p
1)
var(X) = (0 − p)2 x(1 − p) + (1 − p)2 xp = p(1 − p)
N (µ, σ 2 )
R∞
(x−µ)2
2
√
var(X) = E((X − µ)2 ) = (x−µ)
e− 2σ2 dx
σ 2Π
2) Normalverteilung
z=
x−µ
σ
Z∞
⇒ σ2
∞
|
var(X) = σ 2
∞
−z 2
1
√ z z e 2 dz
2Π
{z
}
=1
A)
Sei X eine Zufallsvariable mit var(X) < ∞
Sei Y = a + bX dann folgt var(Y ) = b2 var(X)
Satz.
Beweis.
var(Y ) = E((Y − E(Y ))2 ) = E (a + bX) − (a + bE(X))2 = E b2 (X − E(X))2 = b2 var(X)
Satz.
B
var(X) = E(X 2 ) − E(X)2
var(X) = E((X − µx )2 ) = E(X 2 − 2µx X + µ2x ) = E(X 2 ) − 2µx E(X) + µ2x
⇒ E(X 2 ) − µ2x
Beispiel.
1)
U ∼ U (0, 1)
E(U 2 ) =
E(U ) = 1/2,
R1
u2 du =
0
satzB
→ var(U ) = E(U 2 ) − E(U )2 =
1
3
−
1
22
=
1
3
1
12
2) X ∼ P0 (µ)
E(X) = µ,
E(X 2 )?
Trick:
X 2 = X(X − 1) + X
E(X 2 )
= E (X(X − 1)) + µ = µ2 + µ
∞
X
k(k − 1)e−µ µk
E(X(X − 1)) =
k!
=
k=0
∞
X
k=2
= µ2
j=k−2
→
= µ2
k(k − 1)e−µ µk
k!
∞
X
e−µ µk−2
k=2
∞
X
k=0
var(X) = E(X 2 ) − E(X)2 = µ2 + µ − µ2 = µ
(k − 2)!
e−µ µ2
= µ2
j!
4.3. KOVARIANZ UND KORRELATION
40
4.3. Kovarianz und Korrelation
x1 , . . . , xn sind Zufallsvariablen
n
n
P
P
E( Xi ) =
E(Xi ), immer
i=1
n
P
var(
i=1
n
P
Xi ) =
i=1
var(Xi ),
wenn die ZV unabhängig sind
i=1
Wenn die Zufallsvariablen abhängig sind, muss man Kovarianzen betrachten.
X , Y seien Zufallsvariablen mit Erwartungswerten µx und µy dann heisst
cov(X, Y ) = E((X − µx )(Y − µy )) (+) die Kovarianz von X und Y .
Einige Regeln
*
cov(X, Y ) = E(XY ) − E(X)E(Y )
Beweis. Einfach von der Def (
Korollare
i)
ii)
iii)
iv)
v)
vi)
vii)
+)
*
folgen aus ( )
X, Y
unabhängig
⇒ cov(X, Y ) = 0
cov(X, X) = var(X)
cov(aX, Y ) = a cov(X, Y )
cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
cov(X, a) = 0
n
m
n P
m
P
P
P
cov(a +
bi X i , c +
di Yi ) =
bi dj cov(Xi , Yj )
var(a +
i=1
n
P
j=1
bi X i ) =
i=1
viii)
( )
i=1 j=1
n P
n
P
bi bj cov(Xi , Xj )
i=1 j=1
var(X + Y ) = var(X) + var(Y ) + 2 cov(X, Y ))
Eigenschaften von Kovarianz.
• X, Y unabhängig ⇒ E(XY ) = E(X) E(Y ) ⇒ cov(X, Y ) = 0
!! cov(X, Y ) = 0 ; X, Y unabhängig !!
Gegenbeispiel: X ∼ N (0, 1),
Y = X2
E(XY ) = E(X 3 ) =
R∞
−∞
3
1 2
√x e− 2 x
2π
cov(X, Y ) = E(XY ) − E(X) E(Y ) = 0
| {z } | {z } | {z }
0
0
F (x, y)
FX (x)
⇒ ∃x, y
>0
P (X 6 x, Y 6 y) = P (X 6 x, X 2 6 y)
√
√
P (− y 6 x 6 min(x, y))
√
√
FX (min(x, y)) − FX (− y)
√
√
φ (min(x, y)) − φ (− y)
√
√
= φ(x), FY (y) = P (X 2 6 y) = φ ( y) − φ (− y)
=
=
=
=
F (x, y) 6= FX (x) FY (y)
!
m
n P
m
n
P
P
P
• cov a +
bi xi , c +
d j yj =
bi dj cov(xi , yj )
damit
i=1
⇒ var a +
j=1
n
P
i=1
bi xi
=
i=1 j=1
n P
n
P
i=1 j=1
bi bj cov(xi , yi )
dx = 0
4.3. KOVARIANZ UND KORRELATION
Falls
X1 . . . X n
unabhängig
⇒ var a +
n
X
bi xi
!
=
i=1
n
X
b2i cov(xi , xi )
i=1
⇒
n
P
i=1
Beispiel.
n
P
=
X ∼ B(n, p),
Yi , Yi ∼ Be(p), Yi
i=1
var(X) =
n
P
var(Yi ) =
i=1
Definition.
X, Y
b2i var(xi )
E(X) = npX
unabhängig.
P
i=1
np(1 − p) = np(1 − p)
seien Zufallsvariablen mit endlichen Varianzen dann heisst
ρ= √
ρ
41
cov(X,Y )
var(X)var(Y )
Korrelation .
misst die Stärke des linearen Zusammenhangs zwischen X und Y.
Satz.
(ohne Beweis)
i) 1 6 ρ 6 1
ii) ρ = ±1 ⇔ P (Y = a + bX) = 1 für Konstanten a, b ∈ Rb 6= 0
Beispiel.
X, Y
Y.
seien gemeinsam normalverteilt mit Parameter
µx , µy , σx , σy , ρ.
Dann ist
ρ
die
Korrelation
von X und
KAPITEL 5
Grenzwertsätze
X: Gewinn beim Glücksspiel. Spiel wird wiederholt:
X1 . . . X n
Sn
Der durchschnittliche Gewinn (arithmetisches Mittel)
n
=
n
P
Xi
i=1
n
Der Erwartungswert wurde als einen idealisierten durchschnittlichen Gewinn bei unendlich vielen Wiederholun-
Sn
n ,n
gen interpretiert:
→ ∞.
Das Gesetz der grossen Zahlen macht diese Überlegung präziser.
5.1. (schwaches) Gesetz der grossen Zahlen
Sei
Sei
X1 . . . X n
Sn
n
Xn =
eine Folge von unabhängigen Zufallsvariablen, identisch verteilt mit
=
1
n
n
P
Xi .
Dann
i=1
konvergiert X n
gegen
µ
E(Xi ) = µ
und
var(Xi ) = σ 2 .
in Wahrscheinlichkeit .
ε>0
P (|X n | > ε) → 0 für n → ∞
D.h für jedes
Beispiel.
Simuliere
X1 , X 2 , . . .
von einer Verteilung. Plotte
Xn
gegen
n
für
n = 1, 2, . . .
A) 5000 Gaussverteilte Zufallsvariablen
Das arithmetische Mittel konvergiert gegen Null. Es gilt das Gesetz der grossen Zahlen.
B) 5000 Cauchy-verteilte ZV
Unterliegt nicht dem Gesetz der grossen Zahlen. Arithmetisches-Mittel konvergiert nicht und bleibt auch bei
grossem
n
unberechenbar
E(X)
ist undeniert.
Die Chebyshev Ungleichung
X sei eine Zufallsvariable mit E(X) = µ und var(X) = σ 2 ∀t > 0 gilt P (|X − µ| > t) 6
Lemma.
σ2
t2
Beweis. (stetig)
A = {x : |x − µ| > t}
P (|X − µ| > t) =
R
f (x)dx
A
Für
x ∈ A,
gilt
(x−µ)
t2
P (|X − µ| > t) =
R
2
>1
f (x)dx 6
A
R
A
(x−µ)2
f (x)dx
t2
6
R∞
−∞
(x−µ)2
f (x)dx
t2
6
1
t2
R∞
(x − µ)2 f (x)dx
das Integral ist
σ2
−∞
Beweis des Gesetzes der grossen Zahlen
E(X n ) =
1
n
var(X n ) =
Chebyshev
n
P
E(Xi ) = µ
i=1
1
n2
n
P
i=1
var(X) =
σ
n
⇒ P (|X n − µ| > ε) 6
var(X n )
ε2
6
σ für n→∞
−→
nε2
0
42
5.2. ZENTRALER GRENZWERTSATZ
Bemerkung.
Starkes Gesetz der grossen Zahlen
n→∞
Xn → µ
43
fast sicher
P ({ω : X n (ω) → µ, n → ∞}) = 1
Anwendung
Monte Carlo Integration
Problem:
I=
R1
g(x)dx
ist schwierig zu berechnen.
0
=1
Sei
U ∼ U (0, 1)
I = E(g(U )) =
R1
0
Seien
U1 . . . Un
unabhangig und identisch
Gesetz der Grossen zahlen(GZ) ⇒
Lösung
Berechne
Simuliere
1
n
n
P
U1 . . . Un , n
1
n
n
P
U (0, 1)
z}|{
g(x) f (x) dx
verteilt.
n→∞
g(Ui ) → E(g(U )) = I
i=1
gross (z.B.
n = 106 )
g(Ui )
i=1
5.2. Zentraler Grenzwertsatz
Sei
Sei
X1 , X2 , . . . eine unabhängig, identisch verteilte Folge von Zufallsvariablen
n
P
−µn
6 x = Φ(x), ∀x ∈ R .
Sn =
(Xi ). Dann lim P Sσn √
n
mit
E(Xi ) = µ
und
var(xi ) = σ 2
n→∞
i=1
Bemerkung.
Sn √
−µn
ist die Standardisierung von
σ n
2
Sn √
−µn
var( σ n ) = nσ1 2 var(Sn ) = nσ
nσ 2 =
Für
n
Sn
denn
−µn
E( Sσn √
)=0
n
1
gross genug:
Sn √
−µn
σ n
2
X n ≈ N (µ, σn )
Sn ≈ N (µn, nσ 2 )
≈ N (0, 1)
Beispiel. Uniform Verteilung
Ui ∼ U (− 21 , 12 ),
Ui = Ũi −
E(Ui ) = E(Ũi ) −
1
2
U1 , . . . , Un
1
2 mit
Ũi ∼ U (0, 1)
=0
var(Ui ) = var(Ũi ) =
1
12 ,
Sn =
n
P
Ui
i=1
1
S12 ≈ N (0, 12 12
) = N (0, 1)
Beispiel. Eine Normalannäherung für die Binominalverteilung
Münzwurfexperiment: Würfe n=100, Anzahl Kopf = 60
Ist die Münze fair?
Annahme: X1 . . . Xn
u.i.v. (unabhängig identisch verteilt)
S100 ∼ B(100,
100 100
X
P
100 1 k 1 100−k
P (S100 = k) =
> 60) =
k 2 2
k=60
k=60
|
{z
}
Anzahl Kopf:
P (S100
1
2)
Normal-Annäherung
µ = E(Xi ) =
1
2
(p)
mühsam zu rechnen
∼ Be( 12 ) (Xi
sind Indikatoren für einen Kopf )
5.2. ZENTRALER GRENZWERTSATZ
σ 2 = var(Xi ) =
1
4
(p(1 − p))
Zentraler Grenzwertsatz
P (S100 > 60) =
44
⇒ S100 ≈ N ( 12 · 100, 14 · 100) ∼ N (50, 25)
S100 −50
> 60−50
6 2) ≈ 1 − Φ(2) = 0.028
5 ) = 1 − P(
5
P ( S1005−50
Wenn die Münze fair wäre, dann wäre die wahrscheinlichkeit für
S100 > 60
sehr klein.( → Münze ist kaum fair)
Teil 2
Statistik
KAPITEL 6
Statistik
In der Statistik will man aus beobachteten Daten Schlüsse ziehen.
6.1. Beschreibende Statistik
Daten: x1 , . . . , xn
Annahme:
Gesucht:
Die Daten sind Realisierung von Zufallsvariablen.
Eine geeignete Verteilung.
Stichprobe :
die Gesamtheit der Daten
Sichprobenumfang :
ihre Anzahl
Graphische Darstellung :
Die Werte werden
Für jeden Wert
fi :
y
Falls
yi
x(1) 6 x(2) 6 . . . 6 x(n)
Die Daten werden geordnet:
m
P
fi = n,
[Ordnungsstatistiken]
genannt.
wird die zugehörige Häugkeit
fi
n relative Hügkeit.
n
n
y1 < y2 , . . . < ym , m 6 n
Häugkeit von Wert
ri =
X1 , . . . , X2
fi
abgezählt.
m
P
ri = 1
i=1
gross ist oder die Häugkeiten fi klein sind, werden benachbarte Werte zu einer Klasse zusammengefasst.
i=1
Der Wertebereich wird in disjunkte Intervalle unterteilt.
Faustregel :
•
•
Anzahl Klassen sollte in der Grössenordnung
√
n
sein
Klassenbreite sollte für alle Klassen gleich sein.
Histogramm :
Die Häugkeiten der klassierten/unklassierten Daten kann in einem Histogramm dargestellt
werden. Dies hilft uns, die Form einer geeigneten Dichte-/Wahrscheinlichkeitsfunktion zu erkennen.
Die empirische Verteilungsfunktion.
Fn (y) =
Anzahl der xi 6y
Man plottet
n
[schätzt F (y),
die wahre Verteilungsfunktion. ]
{(yi , Fn (yi )), i = 1, . . . , m}
Das hilft uns, die Form einer geeigneten Verteilungsfunktion zu erkennen.
Masszahlen :
x1 +...+xn
n
n
P
1
s2 = n−1
(xi
i=1
x=
s
heisst Mittelwert der Stichprobe.
2
− x)
empirische Varianz
empirische Standardabweichung.
α-Quantil:
k = [αn] + 1
([..] bedeutet
αn nicht ganzzahlig: x(k)
Das empirische
nimm Integeranteil)
α
45
ganzzahlig:
1
2 (xk
+ xk+1 )
6.2. ANPASSUNG DER POISSON-VERTEILUNG
46
Beispiel.
n = 100 ⇒ αn = 75
α = 75%
k = 76
(ganzzahhlig)
n = 101 ⇒ 75 < αn < 76
α = 75%
k = 76 ⇒ x(76)
Boxplot :
⇒
x(76) +x75
empirisches 75 % -Quantil
2
Empirischer Median = Empirisches 50% Quantil
Eine graphische Darstellung der empirischen Quantile
=d
empirisches 75% Quantil =b
empirischer Median
δ
Skala
empirisches 25% Quantil = a
=c
d = grösster Wert
δ
xi ,
damit
|xi − b| < 1.5 · δ
ausreisser
= interquantile range c = der kleinste Wert
xi ,
damit
|xj − a| < 1.5 · δ
Q-Q-Plot (Quantil-Quantil-Plot) :
Man vergleicht die empirischen Quantile der Daten mit den theoretischen Quantilen einer Referenzverteilung
(in der Regel der Gaussverteilung)
Hypothese :
wartet
x1 , . . . , xn stammen von
−1
x[αn]+1 ≈ Fµ,σ (α) = µ + σΦ−1 (α)
| {z }
| {z }
Daten
empirisch
Man erwartet:
Q-Q-Plot
N (µ, σ 2 )-Verteilung mit Verteilungsfunktion Fµ,σ
i = [αn] + 1 ⇒ i−1
n ≈α
theoretisch
x(i) ≈ µ + Φ−1 ( i−1
n ),
(Φ−1 (
Normalverteilt
einer
i− 21
n
), x(i) ),
i = 1...,n
i = 1, . . . , n)
man erwartet eine Gerade mit der Steigung
langschwänzig
kurzschwänzig
schiefe Verteilung
6.2. Anpassung der Poisson-Verteilung
Beispiel. Radioaktiver Zerfall von
Gesucht :
Am245 , α-
1
σ
Teilchen werden emittiert.
Ein Modell für die Anzahl Emissionen in einem Intervall von 10 Sekunden.
Man er-
6.2. ANPASSUNG DER POISSON-VERTEILUNG
Daten :
47
Die Betrachtungsperiode wird in 1207 Intervallen von 10 Sekunden unterteil. In jedem Intervall wird
die Anzahl Emissionen gezählt.
Modell : Poisson (Wie Ankunft von Anrufen)
Annahme : Die rohen Daten x1 , . . . x1207 sind realisierung von unabhängig identisch verteilten Zufallsvariablen
X1 , . . . X1207
p(k) = P (X = k) =
mit Wahrscheinlichkeitsfunktion
Anpassung
λ = E(X) und mit x geschätzt. (Methode heisst
n
P
λ̂ = x = n1
xi ist der Schätzwert (eine Zahl)
Notation
λ̂ = X =
λk e−λ
k!
Momentenmethode)
i=1
1
n
n
P
Xi
ist der Schätzer (eine Zufallsvariable)
i=1
Mit anderen Realisierungen von
X1 , . . . X1207
hätten wir eine andere Realisisierung des Schätzers. Der Schätzer
hat seine eigene Verteilung.
µ̂ = 8.392
(Messung hat durchschnittlich 8.392 Emissionen pro 10s ergeben) Das Modell ist gettet. Nun wird
die Anpassung kritisch überprüft.
Chiquadrat-Anpassungstest ( χ2 )
Klasseneinteilung :
x1 , . . . , x1207
y1 = |{i : 0 ≤ xi ≤ 2}|
y2 = |{i : xi = 3}|
= 18, Anzahl Intervalle mit 0-2 Emissionen
.
.
.
y16 = |{i : xi ≥ 17}|
Y1 . . . Y16
i = 1, . . . , 16
2
P
π1 = P (0 6 X 6 2) =
p(k) π2 = P (X = 3) = p(3) =
Diese sind Realisierungen von Zufallsvariablen
Yi ∼ B(1207, πi ),
k=0
[Y1 , . . . , Y16 haben
E(Yi ) = 1207 · πi
λ̂3 e−λ̂
k!
...
π16 = P (X ≥ 17) = 1 −
n
P
p(k)
k=0
eine multinomiale Verteilung ]
Klasse
Beobachtete Häugkeit
Erwartete Häugkeit
j
yj
E(Yi )
0-2
18
12.2
3
28
27
4
56
56.5
5
7.1
.
.
.
17+
Die Übereinstimmung zwischen den beobachteten und erwarteten Häugkeit wird anhand der PearsonStatistik beurteilt:
Z2 =
16
P
j=1
Theorie :
Z2
ist annäherend
χ2 -verteilt
(Yj −E[Yj ])2
E(Yj )
mit 14 Freiheitsgraden.
Bemerkung.
- Je grösser
Z2
ist, desto schlechter stimmt die Hypothese.
- Anzahl Freiheitsgrade [FG] = Anzahl Klassen - Anzahl geschätzter Parameter - 1
= 16 − 1 − 1 = 14
χ2 -
6.3. ANPASSUNG DER NORMALVERTEILUNG
48
Z 2 = 8.99
Hier:
Frage : ist dieser Wert konsistent mit einer
Antwort : p-Wert berechnen
p∗ = P (Z 2 > 8.99|
Modell ist richtig )
χ214 -Verteilung.
= 0.83
Regel : Ist der p-Wert klein (< 0.05), dann wird das Modell verworfen, d.h die Anpassung ist schlecht.
Hier : Modell passt
p-Wert : wenn das Modell richtig ist und wir das Experiment wiederholen würden, dann hätten wir das Ereignis
einer gleichen oder noch extremeren p-Wert zu erhalten, die Wahrscheinlichkeit 0.83.
Etappen einer parametrischen, statistischen Analyse
(1) Beschreibende Statistik
(2) Wahl eines Modells
(3) Schätzung des/der Parameter
(4) Kritische Modellprüfung
(5) Standardfehler / Vertrauensintervalle für geschätze Parameter.
Standardfehler von µ̂
n
P
P
Xi , damit E(µ̂) = n1
E(Xi ) =
i=1 P
µ
1
1
var(µ̂) = n
var(Xi ) = n · µ = n
µ̂ =
⇒
1
n
1
n nµ
=µ
(erwartungstreu) ( µ̂
Standardfehler = geschätzte Standardabweichung =
q
= λ̂)
µ̂
n
Mass der Präzision des Schätzers
Vertrauensintervall
Gesucht
ZGS:
X−µ
√
µ
n
Verteilung von
µ̂ = X
X ∼ N (µ, nµ )
∼ N (0, 1)
Wir wollen:
P
√ µ 6 Z1− α
−Z1− α2 6 X−µ
2
≈ 1 − α,
α = 0.05 (0.01)
n
Schreibweise
Z1− α2 =z(
b α2 )
pµ
Wir setzen nun für
⇒
n
eine Schätzung, nämlich
q
µ̂
n
mit Einsetzen und Umformen
P
X − z1− α2
q
µ̂
n ein.
6 µ 6 X + Z1− α2
q d.h. also mit Wahrscheinlichkeit 1 − α liegt µ im Intervall
q q
µ̂
X − Z1− α2 n , X + Z1− α2 nµ̂ = 100% (1 − α)-Vertrauensintervall
µ̂
n
=1−α
(VI)
Beispiel.
8.392 ± 1.96 · 0.028(α = 0.05, 95%V I)
6.3. Anpassung der Normalverteilung
Gegeben : iid (identisch,unabhängig)- verteilte Stichprobe X1 . . . Xn
Annahme : X ∼ N (µ, σ2 ) (X : irgendeine Messgrösse, Summe)
Parameterschätzung : (Momenten Methode)
µ = E(X)
P geschätzt
µ̂ = X = n1
Xi
1. Moment:
mit arithmetischem Mittel:
6.3. ANPASSUNG DER NORMALVERTEILUNG
49
P 2
E(X 2 ) geschätzt mit n1
Xi
2
2
2
Also: σ = E(X ) − E(X)
n
P 2
P
2
2
Xi2 − 2X · X + X =
σ̂ 2 = n1
Xi − 2X = n1
2. Moment:
1
n
P
Xi2
−
2X) n1
P
i=1
2
x1 + X =
Modellprüfung / Anpassungstest :
Standard von
1
n
n
P
(Xi − X)2
i=1
Normal-Q-Q-Plot
µ̂
Gesucht :
Verteilung X
P
Xi ∼ N (µ, σ 2 ) ⇒ Xi ∼ N (nµ, nσ 2 ) (Faltungsformel)
σ2
Also X ∼ N (µ,
n ) (mit linearer Transformation)
σ
Standardfehlernorm X : √ ,
n
√P
(Xi −X̂)2
σ̂
Dieser Schätzer wir durch √ =
n
n
Vertrauensintervall
1. Ansatz :
Nehme an, dass wir das wahre
σ
kennen, resp. unsere Schätzung
σ̂
dem wahren
X−µ
√ 6 Z1− α = 1 − α
P −Z1− α2 6 σ/
n
2
σ
⇔ P X − Z1− α2 √n 6 µ 6 X + Z1− α2 = 1 − α
⇒ (1 − α)100%− VI ist X ± Z1− α2 √σn
normal- α = 0.05, 0.01 ⇒ Z1− α = 1.96, 2.57
2
Bemerkung. :σ nennt man ein Störparameter →
Satz.
X1 . . . X n
Dann:
Unbefriedigend
⇒σ
meist unbekannt.
unabhängige Stichprobe mit Xi ∼ N (µ, σ 2 ) ∀i dann
i) (Xσi −X)
∼ χ2 -verteilt und (n − 1) FG
2
P
ii) X und (Xi − X)2 sind unabhängig
X−µ √
n
iii) r Pσ(X −X)
∼ t-Verteilt mit (n − 1) FG ∼ tn−1
2
2
P
i
(n−1)σ 2
2. Ansatz :
√
n(X−µ)
rP
(Xi −X)2
(n−1)
Kennen
σ
nicht!
∼ tn−1


P −tn−1 ( α2 ) 6

X−µ
sP

⇒ P X − tn−1
(Xi −X)2
(n−1)
√
n
α
rP
(Xi −X)2
(n−1)
√
2

6 tn−1 ( α2 ) = 1 − α
n
6 µ 6 X + tn−1
(1 − α)100% − VI
Bemerkung.
tn−1
α
2
=
b tn−1,1− α2
ist das
Bedeutung des VI für Parameter
•
•
(1 −
α
rP
(Xi −X)2
(n−1)
√
2
n

=1−α
α
rP
(Xi −X)2
(n−1)
√
X ± tn−1 2
n
α
)
-Quantil der t-Verteilung.
2
µ
Das Intervall enthält den wahren Parameter
µ
mit Wahrscheinlichkeit
Das Intervall wird aus einer zufälligen Realisation
x1 , . . . , xn
1 − α.
berechnet.
σ
entspricht.
6.4. ALLGEMEINE METHODEN ZUR PARAMETERSCHÄTZUNG
•
Intervall ist zufällig (der wahre Parameter
Bemerkung. Vetrauensintervall
[V I]=
b
µ
50
ist fest).
Kondenzintervall
[KI]
6.4. allgemeine Methoden zur Parameterschätzung
1.Momentenmethode
Das k-te Moment einer ZV
Seien
⇒ µˆk
X1 , X 2 , . . . , XN
(resp. einer Verteilung
F (X))
ist deniert durch
iid ZV'en irgendeiner Verteilung, dann heisst
ist ein Schätzer von
Allgemein :
X
µˆk =
1
n
P
i=1
µk = E(X k ).
n(Xik ) das k-te
Stichprobenmoment
µk .
Verteilung mit Parametern
Θ1 . . . , Θm können durch µ1 , . . . , µn
Θ1 = f1 (µ1 , µ2 , . . . , µn )
Θ1 . . . , Θm
ausgedrückt werden
.
.
.
Θm = fm (µ1 , µ2 , . . . , µn )
b i = fi (µ̂1 , . . . , µ̂n )
Dann: Θ
ist der Momentenschätzer für
Θi
Eigenschaften der Θ's
Sei
Θ̂n
ein Schätzer von
Θ,
welcher auf einer Stichprobe der Grösse
Θ̂n erwartungstreu falls E(Θ̂n ) = Θ
heisst Θ̂n konsistent , falls für alle > 0
P (|Θ̂n − Θ| > ) → 0 falls n → ∞ (d.h Der
n
basiert, dann
i) heisst
ii)
Schätzer konvergiert in W'keit gegen
Θ).
Bemerkung.
i) Aus dem Gesetz der grossern Zahlen folgt, dass die Stichprobenmomente gegen die theoretischen
Momente konvergieren.
ii) Falls die
fi
stetig sind, konvergieren die Momentenschätzer gegen die (unbekannten) Parameter.
2. Maximum-Likelihood-Methode
Einleitendes Beispiel
Wir machen 10 Würfe mit einem Würfel:
p
die
1
xi =
0
Sei
Wahrscheinlichkeit einer 6.
i−terWurf = 6
sonst
Wir erhalten 3 Sechser.(
Momentenschätzer:
Jetzt
MLE
x3 , x5 , x8 )
µ̂ = x =
1
10
10
P
xi = 0.3
i=1
(Maximum-Likelihood-Estimate)
6.4. ALLGEMEINE METHODEN ZUR PARAMETERSCHÄTZUNG
51
P (x3 = x5 = x8 = 1, x1 = 0 i 6= 3, 5, 8|p) = p3 (1 − p)7 maximal wird (W'keit hängt von unbekanntem Paramter p ab)
d.h. wir suchen p so, dass die Wahrscheinlichkeitk, dass das beobachtete Ereignis eintritt, maximal wird
Fordern, dass
∂
∂p P (. . .)
= 3p2 (1 − p)7 + p3 7(1 − p)6 (−1) = 0
⇒ 3(1 − p) = 7p ⇔ 3 = 10p ⇔ µMLE = 0.3
ableiten:
Allgemein:
Xn ZV's mit gemeinsamer Dichte f (x1 , . . . , xn | Θ1 , . . . , Θm ).
Xi = xi ,
i = 1, . . . , n heisst
Lik(Θ1 , . . . , Θm ) = f (x1 , . . . , xn | Θ1 , . . . , Θm ) die Likelihood-Funktion von ( Θ1 , . . . , Θm )
ML-Schätzung der Θ's sind diejenigen Θ's, welche die Likelihood-Funktion (global) maximieren.
Seien
X1
bis
Realisation:
Spezialfall
Seien die
Xi 's
u.i.v. ZV (iid) Dann ist die Likelihood-Funktion das Produkt der eindimensionalen
Dichten:
Lik(Θ1 , . . . , Θm ) =
n
Y
f (xi |Θ1 , . . . , Θm )
i=1
Es ist oft einfacher, mit der Log-Likelihood-Funktion zu arbeiten:
L(Θ1 , . . . Θn ) =
n
X
log(f (xi |Θ1 , . . . , Θm )
i=1
Beispiel.
1) Poisson Verteilung
−λ
k
P (X = k) = e k!λ
n
Q
e−λ λxi
Lik(λ) =
xi !
0
L (λ) =
⇒ λ̂ =
i=1
n
P
1
λ
1
n
xi − n = 0
xi = x =
L(µ, σ) =
n
Q
i=1
n
P
i=1
∂L(µ,σ)
∂µ
⇒
#2
⇒
i=1
Momentenschätzer
i=1
Lik(µ, σ) =
#1
i=1
i=1
n
P
2)X1 , . . . , Xn u.i.v
∂L(µ,σ)
∂σ
X1 . . . Xn u.i.v. ∼ P o(λ)
x1 . . . xn Realisationen.
n
n
n
P
P
P
L(λ) =
(xi log λ − λ − log xi !) = log λ
xi − nλ −
log xi !
√1 1 e
2π σ
1
σ2
=
+
µ̂ = x
s
σ̂ =
n
P
x1 , . . . , xn
− 1 (xi −µ)2
2
σ2
(− 12 log(2π) − log σ −
−n
σ
=
∼ N (µ, σ 2 )
1
2σ 2 (xi
− µ)2 )
(xi − µ) = 0
#1
n
P
#2
i=1
1
σ3
1
n
(xi − µ)2 = 0
i=1
n
P
(xi − x)2
i=1
3) Gamma Verteilung
X 1 , . . . X2
Lik(α, λ) =
n
Q
i=1
u.i.v.∼
1
α α−1 −λxi
e
Γ(α) λ xi
Ga(α, λ)
i=1
6.5. ALLGEMEINE TESTTHEORIE
L(α, λ) =
n
P
(− log Γ(α) + α log λ + (α − 1) log xi − λxi )
i=1
∂L(α,λ)
∂α
= −n Γ̇(α)
Γ(α) + n log λ +
∂L(α,λ)
∂λ
#2
⇒ λ̂ =
52
=
nx
λ
−
n
P
n
P
log xi = 0
#1
i=1
xi = 0
#2
i=1
α̂
x
#1 Wenn man das Resultat von #2 in #1 einsetzt, erhält man eine Gleichung für
α̂,
die mit numerischen
Methoden gelöst werden muss.
M-L-Schätzer
6=
Momentenschätzer
6.5. Allgemeine Testtheorie
Allgemeine Problemstellung: Unterscheidung zwischen Verteilungen anhand von Stichproben. In der NeymanPearson-Testtheorie wird eine Nullhypothese (
H0 )
mit einer alternativen Hypothese ( HA ) verglichen
Beispiel.
Wir haben eine Stichprobe
µ1
H0 : µ = µ1
HA : µ = µ2
entweder
oder
µ2 .
X1 . . . X n
aus einer Normalverteilung,
N (µ, σ 2 )
mit bekannter Varianz
σ2 . µ
ist
Wir müssen entscheiden:
Beispiel. 2)
Anpassungstest
X1 . . . Xn sei eine Stichprobe aus einer
H0 : Die Verteilung ist Poisson
HA : Die Verteilung ist nicht Poisson
diskreten Verteilung
Zweite Variante (2b)
H0 : Die Stichprobe ist Poissonverteilt mit dem Parameter µ = µ0
HA : Die Stichprobe ist Poissonverteilt mit dem Parameter µ =
6 µ0
Einfache und Zusammengesetzte Hypothesen
Wenn unter einer Hypothese die Verteilung und ihre Parameter
fest
sind, heisst die Hypothese
einfach.
Beispiel.
H0
H0
und
HA
in 1
in 2b
Wenn aber die Verteilung nicht eindeutig festgelegt wird, heisst die Hypothese
zusammengesetzt .
Beispiel.
H0 und HA
HA in 2b
in 2
Beispiel. 3)
Experiment bei einer Studie der aussersinnlichen Wahrnehmung
52 Spielkarten,
n
Karten werden zufällig gezogen und zurückgelegt. Ohne sie zu sehen muss ich bei jeder Karte
erraten was die Farbe ist (Herz, Karo, Kreuz, Pik)
X.
H0 : X ∼ B(n, 41 ) keiner hellseherische
HA : X ∼ B(n, p), p > 14
H0 einfach, HA zusammengesetzt
Die Anzahl Erfolge sei
Fähigkeit
6.5. ALLGEMEINE TESTTHEORIE
53
Einseitige und Zweiseitige Alternativen
HA in 3 ist eine einseitige Annahme
H0 in 2B ist eine zweiseitige Annahme
Das hängt davon ab, welche Alternativen von der Nullhypothese interessant sind.
Der Neyman-Pearson Ansatz
Daten
X1 , . . . , Xn
H0
Nullhypotheses
Wir wählen eine
Falls
Falls
Alternativenhypotheses
HA
(beide einfach)
Teststatistik T (X). X = (X1 . . . Xn ) und denieren einen Verwerfungsbereich R.
T (X) ∈ R,
T (X) 6∈ R,
wird
wird
H0
H0
verworfen
angenommen
Zwei Arten von Fehlern sind möglich.
Fehler 1. Art : H0
stimmt, wird aber verworfen.
α = P (Fehler1. Art ) = P (T (X) ∈ R|H0 ) = PH0 (T (X) ∈ R)
α heisst auch das Signikanzniveau des Tests, z.Bsp 5 %
Fehler 2. Art : H0
β = P (Fehler
stimmt nicht, wird aber akzeptiert
2. Art )
= P (T (X) 6∈ R|HA ) = PHA (T (X) 6∈ R)
Normales Verfahren :
Die
Macht
wähle
eines Tests ist
α,
R.
nde geeignetes
1 − β = P (H0
wird verworfen
|HA ) = P (H0
wird zurecht verworfen )
Zusammengesetzte Hypothese
H0 : θ ∈ Θ0
α = max P (T (X) ∈ R|Θ)
HA : θ ∈ ΘA
θ∈Θ0
β = P (T (X) 6∈ R|θ), θ ∈ ΘA
(ohne Funktion von
ΘA )
Beispiel. A (Münze 10 mal werfen)
X sei B(10, p)-verteilt
H0 : p = 0.5
(einfach)
(Münze fair)
HA : p > 0.5
(zusammengesetzt, einseitig)
Test-Statistik X
R = {X > c}
c=7
H0 irrtümlich
c=6
mögliche Werte
Xi : Anzahl
Kopf
(Verdacht Münze kam zu oft)
Ω = {0, 1, . . . , 10}
c∈Ω
(Verwerfungsbereich), für ein festes
Signikanzniveau = α = P (X > 7|H0 )
1 − P (X ≤ 7|H0 ) = 0.55
⇒ α = −172
Wir legen das Signikanzniveau bei α = 0.55 fest; also c = 7
HA : p > 0.5,
β(p) = P (X ≤ 7|p),
H0 irrtümlich akzeptiert
verworfen =
Wahrscheinlichkeit des Fehlers 2. Art Macht des Tests
p = 0.6 β(p) = 0.833
p = 0.7 β(p) = 0.617
p→1
β(p) → 0
p→1
β(p) → 1 − α
1 − β(p) = 0.176
1 − β(p) = 0.383
1 − β(p) → 1
1 − β(p) → α
Macht eines Tests: Wahrscheinlichkeit, dass
Die Machtfunktion
H0
zurecht verworfen wir.
p > 0.5
6.5. ALLGEMEINE TESTTHEORIE
54
mehr Daten - mehr Experimente
X sei B(20, p)-verteilt
H0 : p = 0.5
R = {X > c}
H0 zurecht
1 − β(p)
Wahrscheinlichkeit Fehler 2. Art
p
HA : p > .5
α = P (X > 13|H0 ) = 0.58
c = 13,
Wahrscheinlichkeit
β(p)
0.6
0.75
0.25
0.7
0.392
0.608
⇒
mehr Experimente
Macht ist grösser
mehr Daten
Beispiel B X1 , . . . , Xn
uiv
⇒
mehr Macht
∼ N (µ, σ 2 )
HA : µ 6= µ0
H0 : µ = µ0
X=
1
n
n
P
√
n(X−µ)
Im Modell gilt: s n
Xi
(Xi −X)2
i=1
n−1
P
i=1
√
Test-Statistik:
T (X) =
verwofen
zweiseitig
∼ tn−1
s=
s
n
P
(Xi −X)2
i=1
n−1
n(X−µ0 )
s
Überlegung: Diese Nullhypothese wird verworfen falls
|T (X)| unter H0
für eine t-Verteilung untypisch gross ist.
mit n-1 Freiheitsgraden.
R = {|T (X)| > tn−1 ( α2 )}, wobei tn−1 ( α2 ) =
√
α
P n(X−µ)
>
t
(
)|H
n−1
0
S
2
α
Quantil der
tn−1 -Verteilung
(Signikanzniveau) wird festgelegt
Test: Verwirf
H0
falls
|T (X)| > tn−1
α
2
R = {x : |x| >
Überprüfen des Signikanzniveaus
P (T (X) ∈ R|H0 ) = P |T (X)| > tn−1
|
{z
}
α
2
H0 irrtümlich verworfen
α
2
}
Verwerfungsbereich
√
|H0 = P n(X−µ)
> tn−1
s
α
2
|H0
Wahrscheinlichkeit eines Fehlers 2. Art :
√
β(µ) = P (|
Macht
6 tn−1
(Wahrscheinlichkeit,
1 − β(µ)
HA
Unter
n(X−µ0 )
|
s
hat
T (X)
Zahlenbeispiel
α
2
H0
|µ)
zurecht verworfen wird):
eine nicht-zentrale t-Verteilung. Es ist möglich
β(µ)
zu berechnen.
Ein Bäcker behauptet: meine Brötchen wiegen im Schnitt genau
70 g
. Eine Nachkontrolle
von Brötchen ergab folgende Gewichte: 69,70,71,68,67,70,70,70,67,69
Modell
X1 , . . . X2 u.i.v.N (µ, σ 2 ),
x = 69.1 < 70
n = 10
H0
wird verworfen falls
|
√
n(X−µ0 )
|
s
> tn−1
σ unbekannt H0 : µ = 70
HA : µ 6= 70 Sicht
des Bäckers
s = 1.37
α = 0.05
t9 α2 = 2.26
√
α
0)
| n(X−µ
| = 2.08 < 2.26
2
s
6.5. ALLGEMEINE TESTTHEORIE
H0
H0
wird nicht verworfen. Falls
wäre,
α
2
t9
= 1.83
würde verworfen. Aber die Chance eines Fehlers 1.Art ist vielleicht zu gross.
Bemerkung. 1
H0
⇔
α = 10%
55
√
wird verworfen,falls
n(X−µ0 )
s
> tn−1
α
2
√
oder
n(X−µ0 )
s
< −tn−1
α
2
√s tn−1 α
2
n
+ √sn tn−1 α2
falls
µ0 < X −
oder
µ0 < X
µ0 nicht im 100(1 − α)%-Vertrauensintervall für µ liegt.
µ = Werte µ0 , wofür bei einem Test vom Niveau α die Nullhypothese H0 : µ = µ0
in anderen Worten, falls
100(1 − α)%−VI
für
verworfen wird
Bemerkung. 2
Der einseitige Test
Wir testen:
H0 : µ = 70
HA : µ < 70
Ein Kunde interessiert sich nur für negative Abweichungen.
√
0)
H0 falls T (X) = n(X−µ
< −tn−1 (α) ist.
s
R = {x : x < −tn−1 (α)}
P (T (X) ∈ R|H0 ) = P (T (X) < tn−1 (α)|H0 ) = α
α = 0.05
tn−1 (α) = 1.83
H0 wird verworfen. Mehr Macht beim einseitigen Test mit
Ich verwerfe
√
n(x−70)
s
= −2.08 < −1.83
dem gleichen Niveau.
Neyman-Pearson Lemma Das Konzept eines besten Testes
Wir betrachten zwei einfach Hypothesen
H0 : X1 , . . . Xn haben eine gemeinsame Dichte f0 (x)
HA : X1 , . . . Xn haben eine gemeinsame Dichte fA (x)
Gesucht ist ein Test mit den Eigenschaften:
(1)
(2)
α 6 α0 für ein vorgegebenes α0
1 − β möglichst gross
Einen solchen Test nennt man besten Test von Niveau
Wir denieren den
Falls
l
Test:
Likelihood-Quotient : l =
α0 .
f0 (X)
fA (x)
klein ist, sind die Daten unter der alternativen Hypothese wahrscheinlicher.
Wir verwerfen die Nullhypothese
H0
falls
l
klein ist.
(ohne Beweis)
Sei dieses α0 vorgegeben. Wir können einen Test konstruieren, damit:
Lemma.
(1)
(2)
α = α0
H0 verworfen
wird falls
f0 (X)
fA (X)
<k
Dieser Test ist der beste Test vom Niveau α0
Beispiel. A 2
X ∼ B(10, p)
f0 (x) = p0 (x) =
H0 : p = 0.5
10
x
x
10−x
· 0.5 0.5
HA : p = 0.6
fA (x) = pA (x) =
· 0.6x 0.410−x
10
x
nicht
6.6. VERGLEICH VON 2 BEHANDLUNGEN
f0 (x)
fA (x)
5 x
6
=
56
5 10−x
4
4 x
6
Likelihood-Quotient =
H0 ,
Wir verwerfen
falls
5 10
4
X>7
f0 (x)
fA (x)
<k
entspricht
x>c
c = 7,
α0 = P (X > c|H0 ) = 0.055
ist. Dieser Test ist der beste Test vom Niveau 0.055.
HA zusammengesetzt
Ein Test, welcher für jede einfache alternative Hypothese in der Menge
bester Test. A 2:
HA p > 0.5
HA
der beste ist, heisst ein gleichmässig
Unser Test ist der gleichmässig beste Test.
Bemerkung.
•
•
Für einseitige Tests existiert manchmal ein gleichmässig bester Test .
Für zweiseitige Tests existiert kein gleichmässig bester Test.
6.6. Vergleich von 2 Behandlungen
T-Test: 2-Stichproben-Version (ungepaart)
X1 , . . . Xn u.i.v. N (µ1 , σ 2 )
Y1 , . . . Ym u.i.v. N (µ1 , σ 2 )
H0 : µ1 = µ2 , µ1 − µ2 = 0
HA : µ1 6= µ2 , µ1 − µ2 6= 0
Beispiel. zufälliger Ordnung von 100 Testpatienten zu einer Grupp der Grösse 60 mit Medikamenten-Behandlung
und zu einer anderen Gruppe der Grösse 40 mit einem Placebo behandelt.
2
2
X ∼ N (µ1 , σn )
Y ∼ N (µ2 , σm )
X − Y ∼ N (µ1 − µ2 , σ 2 ( n1 +
(X−Y )−(µ1 −µ2 )
1
m ))
σ
√1
1
n+m
∼ N (0, 1)
Section 6.3
n
P
i=1
n
P
i=1
(Xi −X)2
σ2
∼ χ2n−1
(Xi −X)2
σ2
+
j=1
m
P
j=1
Schätzer für
√1
1
n+m
Teststatistik
Unter
H0
H0
(Yj −Y )2
σ2
σ:S=
(X−Y )−(µ1 −µ2 )
S
m
P
ist
s
n
P
∼ χ2n+m−2
(Xi −X)2 +
i=1
(X−Y )
√1
1
n+m
(Yj −Y )2
j=1
n+m−2
∼ tn+m−2 ,
S
m
P
t-Verteilung
= T (X, Y )
T (X, Y ) ∼ tn+m−2
wird verworfen falls
Der gepaarte Test
|T (X, Y )| > tn+m−2
α
2
(Yj −Y )2
σ2
∼ χ2m−1
6.6. VERGLEICH VON 2 BEHANDLUNGEN
57
Beispiel.
Vergleich zweier Reifentypen, wo bei jedem Testfahrzeug und jedem Fahrer beide Reifentypen verwendet werden.
X1 , . . . , Xn u.i.v. N (µ1 , σ 2 ) Reifentyp 1
Y1 , . . . , Yn u.i.v. N (µ2 , σ 2 ) Reifentyp 2
Zi = Xi − Yi , i = 1, . . . , n
δ = µ1 − µ2 :
H0 : δ = 0
Wie haben wieder einen 1-Stichproben-Test.
Z1 , . . . , Zn
u.i.v.
N (µ1 − µ2 , 2σ 2 )
HA : δ 6= 0
Herunterladen