1 |A2 - Studentenportal

Werbung
Wahrscheinlichkeit und Statistik: Zusammenfassung
TEIL I: Wahrscheinlichkeitsrechnung
Anzahl Möglichkeiten =
Zusammenfassung:
Permutationen: (Anordnungsmöglichkeiten)
von n verschiedenen Elementen: P(n) = n!
von n Elementen, wobei jeweils k1, k2, ... gleich sind: P(n;k1;k2;... ) = n! /
(k1! k2! ...)
Kombinationen: (ungeordnete Stichprobe)
Einer Urne mit n Elementen werden k Elemente entnommen, die
Reihenfolge ist egal.
1. Wahrscheinlichkeiten
1.1 Zufallsexperimente
Künstlich erzeugte Experimente: Werfen einer Münze, Würfeln, Ziehung
bei der Lotterie.
Komplexe Phänomene: Börse – Kursentwicklung, Wetter, Genetik,
Turbulenz, Epidemien, Warteschlange.
Zufallsexperiment: ein Experiment, dessen Ergebnis im voraus nicht exakt
vorausgesagt werden kann.
(k ) = n! / k!(n-k)!
(n;k) = ( n + k −1)
k
ohne Zurücklegen: C(n;k) = n
mit Zurücklegen: CW
1.2 Der Ereignisraum / Grundraum
Variation: (geordnete Stichprobe)
Einer Urne mit n Elementen werden k Elemente entnommen, die
Reihenfolge ist nicht egal.
ohne Zurücklegen: V(n,k) = n! / (n-k)!
mit Zurücklegen: VW(n;k) = nk
Der Ereignisraum Ω ist die Menge aller möglichen Ergebnisse des
Zufallsexperimentes. Ein Elementarereignis ist ein Element ω ∈ Ω.
Beispiel: 1 Würfel: Ω={1,2,...,6}
Ein Ereignis A ist eine Teilmenge von Ω. A ⊂ Ω.
Beispiel: Würfeln: A={2,4,6}={wir erhalten eine gerade Augenzahl}
Seien A und B Ereignisse. Durch Mengentheorie können weitere Ereignisse
gebildet werden. A ∩ B (Schnittmenge) ist das Ereignis, dass A und B
eintreten. A ∪ B (Vereinigung) ist das Ereignis, dass A oder B (oder beides)
eintritt. AC (Komplement) ist das Ereignis, dass A nicht eintritt.
A tritt ein, falls das realisierte Elementarereignis ω Element von A ist. A ist die
Menge / Klasse der beobachtbaren Ereignisse, d.h. die Menge von Teilmengen
von Ω.
Wahrscheinlichkeit in einem Laplace-Raum
Elementarereignisse ω ∈ Ω gleichwahrscheinlich. P(A) = |A|/|Ω|
Beispiel: A={3-stellige Nummer enthält wiederholte Zahlen}
P(A) = 1-P(AC) = 1-|AC|/|Ω|
|Ω| Permutationen mit Zurücklegen = 103
|AC| Permutationen ohne Zurücklegen = 10⋅9⋅8
P(A) = 1-0.72 = 0.28
Beispiel: Ein Raum enthält n Leute. Wie gross ist die Wahrscheinlichkeit, dass
mindestens 2 davon gemeinsam Geburtstag haben? Wie gross muss n sein,
damit diese W’keit >0.5 ist?
Elementarereignis ω=θ1θ2...θn (θ2 ∈ {1,...,365})
(Annahme: Geburtstage über das ganze Jahr gleichverteilt)
|Ω|=365n
AC={niemand hat einen gemeinsamen Geburtstag}
|AC|=365!/(365-n)! (Permutationen ohne Zurücklegen)
P(A)= 1-|AC|/|Ω|
n=23, P(A)=0.507. n=56, P(A)=0.988
Beispiel: Kombinationen statt Permutationen
Beim Lotto werden aus 45 Zahlen 6 gezogen. Wie gross ist die
Wahrscheinlichkeit, dass ich A1) die 6 richtigen Zahlen wähle, A2) genau 4
richtige Zahlen wähle?
1.3 Das Wahrscheinlichkeitsmass
P: A → [0,1] Abbildung der Klasse aller Ereignisse in [0,1].
P(A) „die Wahrscheinlichkeit, dass A eintritt“
Grundregeln (Axiome) für Wahrscheinlichkeiten:
A1: 0 ≤ P(A) für alle Ereignisse A in A
A2: P(Ω) = 1
A3: P(A ∪ B) = P(A) + P(B), falls A ∩ B = ∅ (disjunkt)
( )
und im allgemeinen: P ∪ Ai =∑ P ( Ai ) für paarweise disjunkte Ereignisse.
∞
∞
i =1
i =1
⎛ n⎞
n!
= ⎜ ⎟
k !( n − k ) ! ⎝ k ⎠
Weitere Rechenregeln:
1: P(AC) = 1 – P(A)
2: P(ϕ) = 0, weil ϕ = ΩC
3: A ⊂ B ⇒ P(A) ≤ P(B)
4: P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
(6)
|Ω|= 45 =8145060 (Kombinationen ohne Zurücklegen)
|A1|=1 ⇒ P(A)=1/8145060
( )( )
1.4 Festlegung und Interpretation von W’keiten
⋅ 39 =11115 (4 aus den richtigen, 2 aus den falschen) ⇒
|A2|= 6
4 2
Die frequentistische Interpretation: man betrachtet die Wiederholung
eines Zufallsexperiments unter identischen Bedingungen. P ( A ) =lim
f ( A)
n→∞ n
(Frequenz unter unendlichen Wiederholungen).
Die subjektive Bayes’sche Interpretation: P(A) ist ein Mass für den
persönlichen Glauben, dass A eintreten wird.
P(A)=11115/8145060
1.6 Bedingte Wahrscheinlichkeit
Seien A und B Ereignisse. Sei P(A)>0. Die bedingte Wahrscheinlichkeit von B
unter der Bedingung dass A eintrifft, ist P(B|A)=P(A ∩ B) / P(A).
Beispiel: Würfelspiel
A={gerade Augenzahl}, B={Augenzahl>3}
1.5 Berechnung von W’keiten in endlichen Räumen
Ω={ω1,...,ωn}, P(ω)=pi, i=1,...,n
P ( A ) = ∑ pi
A ∩ B={4,6} ⇒ P(B|A)=
i =ωi ∈A
Beispiel: 2 Würfe einer Münze: Ω={KK,KZ,ZK,ZZ}, pi=1/4, i=1,...,4
p(mindestens ein Kopf) = P(KK,KZ,ZK) = ¾
Wenn ω1,...,ωn gleichwahrscheinlich sind (p1=p2=...=pn), heisst Ω ein
Laplace-Raum. In einem Laplace-Raum ist also
P ( A) =
In der Regel ist P(B|A) ≠ P(B). Die bedingten W’keiten P(.|A) können als
W’keiten in einem neuen Grundraum Ω*=A aufgefasst werden. P(.|A) erfüllt
Axiome A1-A3.
Multiplikationssatz: Sei P(A)>0. Dann ist P(A ∩ B) = P(B|A) ⋅ P(A)
Additionssatz: P(A ∪ B) = P(A) + P(B) – P(A ∩ B)
Beispiel: Eine Urne enthält 3 rote Kugeln + 1 blaue Kugel. Wie gross ist die
Wahrscheinlichkeit, dass ich 2 rote Kugeln ziehe?
R1={Kugel 1 rot}, R2={Kugel 2 rot}
P(R2 ∩ R1) = P(R2|R1) ⋅ P(R1) = 2/3 ⋅ 3/4 = 1/2
Beispiel: Wie gross ist die Wahrscheinlichkeit, dass niemand heute oder
morgen Geburtstag hat?
A1={keiner hat heute Geburtstag}, P(A1)=(364/365)n
A2={keiner hat morgen Geburtstag}, P(A2)=(363/365)n
P(A2 ∩ A1) = (363/365)n
Anzahl Elementarereignisse in A A
=
Anzahl Elementarereignisse in Ω Ω
Kombinatorik
Permutationen ohne Zurücklegen: aus n Objekten sind k≤n
herauszugreifen und in eine Folge anzuordnen, wobei die Reihenfolge eine
Rolle spielt. ⇒ Für die 1. Stelle gibt es n Möglichkeiten, für die 2. Stelle noch
deren n-1, usw..
Anzahl Möglichkeiten = n ( n −1) ⋅ ... ⋅ ( n − k +1) =
n!
( n−k )!
2/6
=2/3
3/6
.
Spezialfall: von n Objekten gibt es n! Permutationen.
Permutationen mit Zurücklegen: wieviele Folgen der Länge k kann man
bilden, falls jedes Objekt gewählt werden darf? Für die 1.Stelle gibt es n
Möglichkeiten, ebenso für die 2. Stelle, usw..
Anzahl Möglichkeiten = nk
Kombinationen ohne Zurücklegen: wieviele Teilmengen mit k≤n Elementen
gibt es? Gemäss „Permutationen ohne Zurücklegen“ gibt es mit
Berücksichtigung der Reihenfolge n!/(n-k)! Möglichkeiten. Da es aber nicht auf
die Reihenfolge ankommt, ist diese Zahl durch k! (Anzahl Permutationen bei k
Objekten) zu dividieren.
Satz der totalen Wahrscheinlichkeit
Eine Entwicklung von Ω sei durch A1,...,An gegeben, d.h.
1)
n
∪ Ai =Ω
i =1
2) Ai ∩ Aj = ∅, für i≠j
n
Dann gilt für beliebiges B⊂Ω: P ( B ) = ∑ P ( B|Ai )⋅P ( Ai )
i =1
Beispiel: (Fortsetzung)
P(R2)=P{Kugel 2 rot}
-1-
P(R2)=P(R1) ⋅ P(R2|R1) + P(B1) ⋅ P(R2|B1), wobei B1={Kugel 1 blau}=R1C
R1 und B1 bilden eine Einteilung von Ω.
P(R2)=2/3 ⋅ 3/4 + 1/4 ⋅ 1 = 3/4
(die Aufgabe könnte auch mit einem Baumdiagramm gelöst werden)
Beispiel: Röntgen Analyse bei Tb
Von Tb-kranken Personen werden 90% durch Röntgen entdeckt. Von den
Tb-freien werden 99% als solche erkannt. In einer Bevölkerung sind 0.1%
Tb-krank. Eine Person wird herausgegriffen, geröntgt und als Tb-krank
eingestuft. Mit welcher Wahrscheinlichkeit stimmt dies?
A={Person Tb-krank}, P(A)=0.001
AC={Person nicht Tb-krank}, P(AC)=0.999
B={Röntgenanalyse positiv}, P(B)=?
BC={Röntgenanalyse negativ}, P(BC)=?
P(B|A)=0.9
P(B|AC)=0.01
P(A|B)=P(A∩B)/P(B) wird gesucht
0.9
0.001
0.999
A
0.1
0.01
AC
0.99
Diskrete Zufallsvariablen nehmen nur bestimmte Werte in einem Intervall an,
stetige ZV können jeden Wert in einem Intervall annehmen.
Beispiel: Würfeln
1. Die Augenzahl ist eine ZV. Ω={1,...,6}, X(ω)=ω
2. 2-maliger Münzenwurf. X1: Gesamtzahl der Köpfe, X2: Anzahl der Köpfe
– Anzahl der Zahlen.
ω
KK KZ ZK ZZ
1
1
0
X1(ω) 2
0
0
-2
X2(ω) 2
3. Ich werfe eine Münze, bis ich Kopf erhalte.
X: Gesamtanzahl Würfe, ω=K,ZK,ZZK,ZZZK,...
X(ω)=1,2,3,4,...
Diskrete ZV nehmen endlich viele (Beispiele 1+2) oder abzählbar viele
Werte an (Bsp.3).
2.2 Wahrscheinlichkeitsfunktion und
Verteilungsfunktion von diskreten Zufallsvariablen
B
Alternative Darstellungen der „Verteilung“ einer ZV
{ω: X(ω) = x} ⊂ Ω (Ereignis im Grundraum)
Wir schreiben P(X=x) und verstehen P(Ax).
Beispiel: (Fortsetzung Nr.2)
P(X2=2) = P({ω: X2(ω)=2}) = P({KK}) = 1/4
P(X2=0) = P({KZ,ZK}) = 1/2
P(X2=-2) = 1/4
die Paare (x,P(x2=x)),x=-2,0,2 legen die sogenannte Verteilung von X2 fest.
Def.: Die Wahrscheinlichkeitsfunktion für eine diskrete ZV X ist die Funktion
BC
B
BC
Satz der totalen Wahrscheinlichkeit ⇒P(B)=0.001x0.9+0.999x0.1=0.01089
Multiplikationssatz ⇒ P(A∩B)=P(A)⋅P(B|A)=0.001x0.9=0.0009
P(A|B)=0.083=8.3%
Bemerkung: Falls P(B|AC)=0.001
falsche Diagnose bei nicht Tb-kranken: P(A|B)=0.47
Problem der falschen Diagnose bei einer seltenen Krankheit.
{0,
p(x)= P ( X = x ), X ∈W , wobei W der Wertebereich von X ist.
Allgemeine Formel von Bayes
A1,...,An seien eine Einteilung von Ω
P(Ai)>0 ∀i, P(B)>0
Dann gilt: P ( Ak |B ) =
P ( B|Ak )⋅P ( Ak )
n
∑ P ( B|Aj )⋅P ( Aj )
sonst
Def.: Die Verteilungsfunktion der ZV X ist die Funktion F(x)=P(X≤x), x∈R.
Beispiel: (Fortsetzung)
W={-2,0,2}
x ∈ (-∞,-2) ⇒ P(X2 ≤ x) = 0
x ∈ [-2,0) ⇒ P(X2 ≤ x) = P(X2 = -2) = 1/4
Multiplikationssatz
Satz der totalen W'keit
x ∈ [0,2) ⇒ P(X2 ≤ x) = P(X2 = -2) + P(X2 = 0) = 3/4
x ∈ [2,∞) ⇒ P(X2 ≤ x) = 1
j =1
Für diskrete ZV ist F(x)=
1.7 Unabhängigkeit
∑
xi :xi ∈W , xi ∈X
p ( xi )
Eigenschaften einer Verteilungsfunktion: 1. F ist steigend und rechts
stetig. 2. lim
F ( x ) =1, lim
F ( x ) =0 .
x →∞
x∈−∞
Def.: Die Ereignisse A,B ∈ Ω heissen unabhängig
falls P(A)≠0: A,B unabhängig ⇔ P(B|A) = P(B)
falls P(B)>0: A,B unabhängig ⇔ P(A|B) = P(A)
„Die Tatsache, dass A eingetreten ist, hat keinen Einfluss auf die
Wahrscheinlichkeit von B“
Beispiel: 2-maliger Münzenwurf Ω={KK,KZ,ZK,ZZ}
A={Kopf beim 1.Wurf}, B={Kopf beim 2.Wurf}
P(A)=P(B)=1/2, P(A∩B)=1/4 ⇒ unabhängig
Beispiel: In einer Urne befinden sich 2 Sorten von Münzen, gleichviel von
jeder Sorte. Münzen der 1.Sorte: P(K)=0.9, P(Z)=0.1. Münzen der 2.Sorte:
fair. Ich ziehe eine Münze und werfe sie zweimal auf.
K1={Kopf beim 1.Wurf}, K2={Kopf beim 2.Wurf}. Sind K1 und K2
unabhängig?
A={Münze der 1.Sorte wird gezogen}
P(K1)=P(AK1K2,AK1Z2,ACK1K2,ACK1Z2)=0.405 + 0.045 + 0.125 + 0.125 =0.7
P(K2)=0.7
P(K1∩K2)=P(AK1K2,ACK1K2)=0.53
P(K1∩K2)>P(K1) ⋅ P(K2)
P(K2|K1)=0.53/0.7=0.757>P(K2)
K1 und A sind abhängig P(K1|A)=0.9>P(K1)
K2 und A sind abhängig P(K2|A)>P(K2)
Durch die gemeinsame Abhängigkeit sind K1 und K2 abhängig.
2.3 Wichtige diskrete Verteilungen
Uniform-/ Gleichverteilung
X hat Wertebereich W={x1,...,xn}.
p(xi) = P(X=xi) = 1/n, i=1,...,n
Beispiele: Würfeln: n=6, W={1,...,6}
Münze: n=2, X=Anzahl Köpfe, W={0,1}
Bernoulli-Verteilung
Eine Bernoulli-ZV X nimmt Werte 0+1 an.
p(1) = P(X=1) = p (P(X=x)=0 x≠0,1)
p(0) = P(X=0) = 1-p
⎧ x
Alternative Schreibweise p(x)= ⎨ p (1− p )
1− x
⎩0,
, x =0,1
sonst
Bezeichnung: X~Be(p), 0<p<1
Beispiel: Indikator eines Ereignisses
A<Ω, 1A(ω)= 1, ω∈A (A tritt ein)
0, ω∉A
1A ist eine Bernoulli-ZV
p(1)=P(1A=1)=P(A)
p(0)=P(1A=0)=P(AC)=1-P(A)
⇒ 1A ~ Be(P(A))
{
Allgemeine Definition der Unabhängigkeit
A1,...,An heissen unabhängig, wenn für je m Ereignisse Ak1,...,Akm, wo m∈N
m
und {k1,...km} ⊂ {1,...,n} ist, stets gilt P(Ak1 ∩ Ak2 ∩...∩ Akm) = ∏ P ( Aki ) .
Binomialverteilungen
i =1
Bemerkung: es genügt nicht, dass alle Ereignisse paarweise unabhängig sind.
Beispiel: 2 Würfel
A={Würfel 1 zeigt gerade Augenzahl}
B={Würfel 2 zeigt gerade Augenzahl}
C={beide zeigen gerade oder beide zeigen ungerade Augenzahl}
P(A)=P(B)=P(C)=1/2
P(A∩B)=P(A∩C)=P(B∩C)=1/4
A∩B∩C=A∩B
P(A∩B∩C)=1/4>P(A)⋅P(B)⋅P(C)=1/8
X ist binomialverteilt mit Parametern n+p, falls
()
p(k)=P(X=k)= n pk (1− p )n− k , k=0,1,...,n.
k
X ist die „Anzahl der Erfolge“ bei n unabhängigen Versuchen mit gleicher
Erfolgswahrscheinlichkeit.
Ai={Erfolg beim i-ten Versuch} i=1,...,n
P(A1 ∩ A2 ∩...∩ Ak ∩ Ak+1C ∩ AnC) = ∏ p( Ai ) ∏ p( Ai
k
n
i =1
i = k +1
C
)
→ pk⋅(1-p)n-k
(k )
Es gibt n
2. Zufallsvariablen
solche Möglichkeiten bei n Versuchen k-mal erfolgreich zu sein.
Bezeichnung: X ~ B(n,p)
Bernoulli: X ~ B(1,p), Be(p)
Beispiel: Was ist die Wahrscheinlichkeit, dass bei 350 Leuten genau k
(k≤350) heute Geburtstag haben?
2.1 Begriff der Zufallsvariable (ZV)
Def.: Es sei Ω ein Grundraum. Eine ZV (Zufallsgrösse) auf Ω ist eine
Abbildung X: Ω → R. Jedes Elementarereignis ω wird in eine Zahl X(ω)
abgebildet.
-2-
Zusammenfassung
( )⎝ 365 ⎠ ⎝ 365 ⎠
k
350− k
1 ⎞ ⎛ 364 ⎞
P(X=k)= 350 ⎛⎜
⎟ ⎜
⎟
k
Ai={Erfolg beim i-ten Versuch}
P(Ai)=p ∀i. Die Ai’s sind unabhängig
Beispiel: Ein Versuch = Es wird gewürfelt. Ein Erfolg = Augenzahl ist 6.
Bernoulli: X=1Ai Indikator. ⇒ X ~ Be(p)
k=0, P(X=0)=0.383. P(X=1)=0.368. P(X=2)=0.176. P(X=3)=0.056
Die Summe von unabhängig, identisch verteilten Bernoulli Zufallsvariablen ist
binomialverteilt. Seien Yi ~ Be(p), i=1,...,n
n
Binomial: X=“Anzahl Erfolge bei n-Versuchen“. X =∑ 1Ai ⇒ X ~ B(n,p)
n
X= X =∑ Yi , X ~ B(n,p)
i =1
i =1
Geometrische Verteilung: X=“Anzahl Versuche, bis ein Erfolg eintritt“.
X=min{i: 1Ai=1}. X ~ Nb(1,p)
Negativbinomiale Verteilung: X=“Anzahl Versuche, bis ich r-mal erfolgreich
Beispiel: Yi=1{Individuum hat heute Geburtstag} Yi ~ Be(1/365)
Anwendung der Binomialverteilung: für die Anzahl Erfolge bei
unabhängigen Wiederholungen. Anzahl fauler Äpfel in einer 6-er Packung.
k
bin. X=min{k: ∑ 1Ai = r }. X ~ Nb(r,p)
i =1
Die geometrische Verteilung
X ist geometrischgleichverteilt mit Parameter pi, falls p(k)=P(X=k)=(1-p)k-1p,
k=1,2,3,...
X ist die Anzahl Versuche, die ich durchführen muss, bis ein Erfolg eintritt.
Ist p(k) eine Wahrscheinlichkeitsfunktion?
k −1
∞
∞
k =1
k =1
∑ p( k ) = p ∑ (1− p )
(
2
)
= p 1+ (1− p ) + (1− p ) +... = p⋅
2.4 Die Verteilung von stetigen Zufallsvariablen
Wir behandeln ZV, bei denen die Menge der möglichen Werte W ein Intervall
ist (z.B. R, R+, [0,1]). Für solche ZV übernimmt die Dichte die Rolle der
W’keitsfunktion.
Def.: Sei X eine ZV mit Verteilungsfunktion F(x)=P(X≤x). Falls
1
=1
1− (1− p )
x
F ( x ) = ∫ f ( y )dy , heisst f(x) die Dichte von X.
Anwendung der geometrischen Verteilung: für die Wartezeit auf den
ersten Erfolg. Anzahl Würfe, die man braucht, bis man die erste 6 würfelt.
y =−∞
Eigenschaften: f(x)≥0. f(x) ist stetig (oder stückweise stetig).
∞
Die negativbinomiale Verteilung
F ( x ) =1 .
∫ f ( x )dx =1, weil lim
x →∞
( )
−∞
X ist n-b-verteilt mit Parametern r und p, falls p(k)=P(X=k)= k −1 pr (1− p )k − r ,
r −1
k=r,r+1,r+2,.... Es gibt
( )
b
a<b ⇒ P(a<X≤b) = P(X≤b) - P(X≤a) = F(b) - F(a) = ∫ f ( x )dx
x =a
k −1 Möglichkeiten, eine Folge von k-r Misserfolgen
r −1
An allen Stellen, an denen f(x) stetig ist, gilt F’(x)=f(x).
und r Erfolgen hinzuschreiben, damit der letzte Versuch ein Erfolg ist.
X ist die Anzahl Versuche, die ich durchführen muss, bis ich r Erfolge habe.
Anwendung der negativbinomialen Verteilung: für die Wartezeit auf den
r-ten Erfolg. Anzahl der kariösen/gefüllten Zahnflächen von Kindern in einer
Untersuchung bei 450 Kindern.
2.5 Wichtige stetige Verteilungen
Gleichverteilung/ Uniform-Verteilung
Die hypergeometrische Verteilung
X ist h-g-verteilt mit Parametern r,n,m, falls
(kr )(mn−−rk ) ,
( mn )
p( k ) = P ( X = k ) =
{
0≤k≤r, k≤m.
0 ≤ x ≤1
f(x)= 1,
0, sonst
Anwendung der Gleichverteilung: Rundungsfehler einer Messung (alle
Werte im Rundungsintervall sind gleich wahrscheinlich).
Beispiel: n Gegenstände in einer Urne
r vom Typ 1, n-r vom anderen Typ
Ich ziehe m davon (ohne Zurücklegen).
X=“Anzahl Gegenstände vom Typ 1 in der Stichprobe“
Exponentialverteilung
{0,
( )
r n − r = Anzahl solche Stichproben mit k Gegenständen vom Typ 1 und
(k )(m−k )
Wieso?
−λ x
f(x)= λ e , x ≥ 0,λ > 0
n = Anzahl mögliche Stichproben der Grösse m.
m
(64)(392 ) =0.001364
(456)
P(T>t+s|T>s)=
k!
Bezeichnung: X ~ Po(λ)
Diese Verteilung eignet sich zur Modellierung von „seltenen Ereignissen“.
Beispiel: Todesfälle durch Hufschläge in der preussischen Armee.
Zufallsgrösse: Todesfälle pro Regiment pro Jahr
Anzahl Todesfälle
k
0
1
2
3
4
≥5
109
65
22
3
1
0
Anzahl Beobachtungen
Nk
.325
.11
.015
.005
0
Relative Häufigkeit
Nk/200 .545
Vergleich mit der W’keitsfunktion einer Po(.61)-ZV:
k
0
1
2
3
4
≥5
P(X=k) .543
.331
.101
.021
.003
.001
Poisson-Verteilung als Grenzwert der Binomialverteilung: X ~ B(n,p).
Wenn n gross und p klein ist, kann X durch Y approximiert werden, wobei
Y~Po(np).
e
− λ (t + s )
e− λ s
= e
− λt
= P (T > t )
2
f ( x )=
1
2π σ
e
1 ⎛ x −µ ⎞
− ⎜
⎟
2⎝ σ ⎠
, -∞<x<∞
Parameter: -∞<µ<∞, σ>0.
Bezeichnung: X ~ N(µ,σ2)
Spezialfall: Standardisierte Normalverteilung: X ~ N(0,1) (µ=0,σ=1).
Dichte wird mit ϕ(x) und Verteilungsfunktion mit Φ(x) bezeichnet.
X −µ
Falls X ~ N(µ,σ2) ⇒
~ N(0,1).
σ
()
k!
, x ≥0
x <0
Normalverteilung/ Gaussverteilung
n−k
. Sei λ=np ⇒ p=λ/n.
p( k ) = P ( X = k ) = n pk (1− p )
k
λk
−λ x
Wahrscheinlichkeit, dass ein Individuum noch eine Zeit t überlebt, hängt nicht
vom Alter s ab.
Verbindung Exponential ⇔ Poisson
Ein Ankunftsprozess (Kunden/Telefonanrufe) heisst ein Poisson-Prozess, falls
die Zeiten zwischen Ankünften unabhängig, identisch exponential verteilt sind.
Der Parameter λ heisst die Rate des Poisson-Prozesses. Die Anzahl Ankünfte in
[0,1] (oder in [s,s+t]) ist Po(λt) verteilt.
Anwendung des Exponentialverteilung: Lebensdauer eines radioaktiven
Teilchens.
, k=0,1,2,...
n→∞
Nach mehreren Umformungen: p( k ) ⎯⎯⎯⎯
→
{
P (T >t + s & T > s )
P (T >t + s )
1− P (T ≤ t + s )
1− F ( t + s )
=
=
=
P (T > s )
P (T > s )
1− P (T ≤ s )
1− F ( s )
=
X ist Poisson-verteilt mit Parameter λ, falls
λ k e− λ
−∞
X ~ Exp(λ)
Bemerkungen: Die Exponentialverteilung wird oft zur Modellierung von
Lebensdauern gebraucht. Sie hat die Eigenschaft der „Gedächtnislosigkeit“.
T ~ Exp(λ) s,t>0.
Die Poisson-Verteilung
P ( X =k )=
x
−∞
F(x)= ∫ f ( t )dt = ∫ λ e− λt = 1− e
0,
m-k vom anderen Typ.
Beispiel: Lotto
n=45 Zahlen, r=6 (die richtigen Zahlen), m=6 (meine Zahlen)
P(X=4)=P(„Ein Vierer“)=
x <0
x
e− λ
2
Wir betrachten immer mehr Versuche, bei denen Erfolg immer
unwahrscheinlicher wird, aber unter der Bedingung np=λ (konstant).
Anwendung der Poisson-Verteilung: für die Häufigkeiten seltener
Ereignisse. Anzahl Anrufe bei einer Telefonzentrale in einer gewissen Periode.
Anzahl grosse Versicherungsschäden in einer gewissen Periode. Anzahl Jobs,
die bei einem Server ankommen. Anzahl Ereignisse in einem Zeitintervall.
Anzahl Lokomotiven der SBB, die in der nächsten Woche einen Defekt haben.
Anzahl der Gewinner mit 4 Richtigen im Lotto.
µ +σ x
X −µ
1
P ⎛⎜
≤ x ⎞⎟ = P ( X ≤ µ +σ x ) = ∫
e
y =−∞
⎝ σ
⎠
2π σ
Y −µ
dy
x
1
1 ⎛ Y −µ ⎞
− ⎜
⎟
2⎝ σ ⎠
1
− t2
2
dy
x
⇒ dt = = ∫
⋅e
dt ⇒ Φ ( x ) = ∫ ϕ (t )dt .
t =−∞
σ
σ t =−∞ 2π
Anwendung der Gauss-Verteilung: Steuerung von Messwerten um den
Mittelwert. Gewichte/ Grössen/ IQs von Individuen in einer Bevölkerung.
Sei t =
-3-
Beispiel A: Eine Münze wird 3-mal geworfen.
X=“Anzahl Köpfe beim 1.Wurf“
Y=“Gesamtanzahl Köpfe“
Ω={KKK,KKZ,KZK,KZZ,ZKK,ZKZ,ZZK,ZZZ}
Renditen von Aktien. St=Preis am Ende Tag t. Wirkstoffgehalt in einer
Tablette. Stetige glockenförmige Verteilung um einen bestimmten Normwert.
xt:=
St +1 − St
Annahme
x100 ⎯⎯⎯⎯⎯⎯→ x ~N ( 0,σ t2 )
t
St
y
p ( x ,y ) 0
1
2
3
⎧0 18 2 8 18 0
x⎨
2
1
0 1
⎩1
8
8
8
Allgemein: X ersetzen mit (X-µ)/σ (~ N(0,1)).
Φ(x)=p, Φ(-x)=1-p
2.6 Transformation von (stetigen) Zufallsvariablen
Sei X eine ZV mit Verteilungsfunktion Fx und Dichte fx.
Gesucht: Verteilungsfunktion und Dichte von Y=g(x).
Def.: Seien X1,...Xn ZV mit gemeinsamer Verteilungsfunktion F(x1,...,xn). Falls
Lineare Transformationen Y=aX+b, a>0, b∈R.
Fy(y)=P(Y≤y)=P(aX+b≤y)=P(X≤
y -b
y −b
)=Fx(
).
a
a
⎛ y −b
⎞
−µ ⎟
1⎜ a
⎟
⎠
σ
− ⎜
1
y −b ⎞
1
⎝
e 2
fy(y)= f ⎛⎜
⎟=
a x ⎝ a ⎠ aσ 2π
∞
∞
−∞
−∞
1 ⎛ y − b − aµ ⎞
⎟
⎠
aσ
n-mal
2
− ⎜
1
⎝
=
⋅e 2
aσ 2π
f ( x1 ,..., xn ) =
2 2
Y ~ N(b+aµ, a σ )
Spezialfall: a=1/σ, b=-µ/σ ⇒ Y ~ N(0,1)
Diese Transformation heisst eine Standardisierung.
Zahlenbeispiel: X ~ N(100,152)
Was ist P(120≤x≤130)= P ⎛⎜
⎝
∂n
F ( x1 ,..., xn )
∂x1...∂xn
P ( ( X1 ,..., X n )∈A ) = ∫ ...∫ f ( x1 ,..., xn )dx1...dxn
A
Beispiel B: Die Verteilung von X und Y hat die gemeinsame Dichte
120 −100 X −100 130 −100 ⎞
≤
≤
⎟.
⎠
15
15
15
f ( x ,y ) =
12 2
( x + xy ) , o≤x≤1, 0≤y≤1
7
x
12 ( 2
4
3
u + uv ) dvdu = x 3y + x 2 y 2
7
7
7
y
F ( x ,y ) = ∫ ∫
X −100
⇒ Y ~ N(0,1)
15
u =0 v =0
F(1,1)=1, F(0,0)=0
F(0,0)=P(X≤0, Y≤0)=0
F(1,1)=P(X≤1, Y≤1)=1
P(X≥Y)=P({ω:X(ω)≥Y(ω)})=P(ω:0≤Y(ω)≤X(ω)≤1)= ∫∫ f ( x ,y )dxdy
= P (1.3≤ y ≤2 ) ≅Φ (2) −Φ (1.3) =0.9772 − 0.9082= 0.069
Kumulative Verteilungsfunktion: Beispiel mit Y=eX. X ~ N(µ,σ2)
FY(y)=P(Y≤y)=P(eX≤y)=P(X≤logy)=P((X-µ)/σ≤(logy-µ)/σ)=Φ((logy-µ)/σ) ist die
kumulative Verteilungsfunktion. Die Dichte ergibt sich, wenn man FY(y) nach y
ableitet (Vorsicht: innere Ableitung von Φ).
A
12 2
9
( x + xy )dydx =
x =0 y =0 7
14
1
x
A={(x,y)|0≤y≤x≤1} ⇒ P(X≥Y)= ∫ ∫
Nichtlineare Transformationen
3.2 Randverteilung
a) Y=X2 Fy(y)=P(Y≤y)=P(X2≤y)=P(- y ≤X≤ y )=FX( y )-FX(- y ).
⎧⎪F
Beispiel: Sei X ~ N(0,1)
Wir haben eine gemeinsame ⎨P
y=x2: Fy(y)=Φ( y ) - Φ(- y )
für X und Y
⎪⎩f
fy(y)=1/2y1/2ϕ( y ) + 1/2y-1/2ϕ(- y )=y-1/2ϕ( y ) (Symmetrie)
⎧⎪Verteilungsfunktion von X bzw. Y
Gesucht wird die ⎨Wahrscheinlichkeitsfunktion
Diese Dichte ist die Dichte der Χ2-Verteilung mit 1 Freiheitsgrad.
b) Y=1/X Fy(y)=P(1/x≤y)=P(X≥1/y)=1-P(X≤1/y)=1-Fx(1/y)
fy(y)=y-2fx(1/y)
Beispiel: U ~ U(0,1), V=1/U
fu(u)=1, 0≤u≤1
Fu(u)=u, 0≤u≤1
Fv(v)=1-Fu(1/v)=1-1/v, 0≤1/v≤1 ⇔ v≥1
fv(v)=v-2
Allgemeiner Satz: (ohne Beweis)
Sei X stetig mit Dichte f(x). Sei Y=g(x), g differenzierbar und streng monoton
in einem Intervall I. Sei f(x)=0, x∉I.
d
dy
−∞
∫ ... ∫ f ( x1 ,..., xn )dx1...dxn =1
2
−1
⎪⎧
fy(y)= ⎨fx ( g ( y ) )
⎩⎪0,
xn
von X1,...,Xn.
Eigenschaften:
f(x1,...,xn)>0
Beispiel: X ~ N(µ,σ2)
Sei Y =
x1
−∞
F(x1,...,xn)= ∫ ... ∫ f ( y1 ,...,yn )dy1...dyn , heisst f(x1,...,xn) die gemeinsame Dichte
⎪⎩Dichte
Die Verteilungsfunktion der Randvereilung von X ist
Fx ( x ) = P ( X ≤ x ) = P ( X ≤ x ,Y ≤∞ ) = lim F ( x ,y )
y →∞
Diskreter Fall
Y nimmt die Werte y1,y2,... an. Die Wahrscheinlichkeitsverteilung der
Randverteilung von X wird gegeben durch Px ( x ) = P ( X = x ) =∑ p( x ,y j ) .
j
Beispiel A: (Fortsetzung)
px(1)=P(X=1)= ∑ p(1,y j ) =1/8+2/8+1/8=1/2
j
X ~ Be(1/2)
py(1)=P(Y=1)= ∑ p( xi ,1) =2/8+1/8=3/8
g −1 ( y ) , y∈{g ( x )|x∈I ⎪⎫
⎬
y∉{g ( x )|x∈I ⎭⎪
i
[g-1 ist die Inverse von g. g-1(y)=x falls g(x)=y]
b) V=g(U), g(x)=1/u, g-1(v)=1/v, d/dxg-1(v)=-1/v2
fv(v)=fu(g-1(v))d/dx g-1(v)=1/v2
usw. py(0), py(2), py(3)
Stetiger Fall
Die Dichte der Randverteilung von X:
2.7 Erzeugung von Zufallsvariablen
fx ( x ) =
Satz: U sei U(0,1)-verteilt. Sei X=F-1(U), wobei F eine stetige und streng
monoton wachsende Verteilungsfunktion ist. Dann gilt P(X≤x)=F(x).
Simulationsalgorithmus für ZV mit der Verteilungsfunktion F:
Inversionsmethode.
Simuliere U ~ U(0,1) mit einem „Zufallsgenerator“. Deterministischer
Algorithmus, welcher eine Folge (u1,u2,...) produziert, so dass sie sich gleich
verhalten wie Realisationen von unabhängig verteilten U(0,1)-verteilten ZV.
Berechne X=F-1(U).
Beispiel: Simuliere X ~ Exp(λ), F(x)=1-e-λx, x≥0 ⇒ F-1(u)=-log(1-u)/λ
Simuliere U ~ U(0,1). Berechne X=-log(1-u)/λ
Bemerkung:
Quantil: Der Wert F-1(u), u∈(0,1) heisst das u-Quantil der Verteilung F.
∞
d
d
d x ∞
Fx ( x ) =
lim F ( x ,y ) =
∫ ∫ f ( u,y ) dydu = ∫ f ( x ,y )dy
−∞
dx
dx y →∞
dx −∞ −∞
Beispiel B: (Fortsetzung)
(
fx ( x ) =
12
7
fy ( y ) =
12
12 ⎛ 1 y ⎞
2
∫ ( x + xy )dx = 7 ⎜⎝ 3 + 2 ⎟⎠
7 0
1
∫ (x
2
+ xy ) dy =
y =0
12 2 x
x +
7
2
)
1
3.3 Unabhängigkeit von ZV
Def.: Die ZV X1,...,Xn sind unabhängig, falls
n
F(x1,...,xn)=Fx1(x1)...Fxn(xn)= ∏ Fxi ( xi ) .
i =1
3. Gemeinsame Verteilung mehrerer ZV
n=2: a) diskreter Fall
X,Y unabhängig ⇔ p(x,y)=px(x)py(y), ∀x,y
b) stetiger Fall
X,Y unabhängig ⇔ f(x,y)=fx(x)=fx(x)fy(y), ∀x,y
weder im Bsp.A noch im Bsp.B sind X,Y unabhängig.
3.1 Das Konzept der gemeinsamen Verteilung
3.4 Wichtige mehrdimensionale Verteilungen
P(X≤F-1(u))=F(F-1(u))=u. P(X≤95%-Quantil)=95%
Median: Der Wert F-1(1/2) heisst der Median der Verteilung.
Def.: Die gemeinsame Verteilungsfunktion von n Zufallsvariablen X1,...,Xn ist
F(x1,....,xn)=P(X1≤x1, X2≤x2,..., Xn≤xn).
Def.: Die gemeinsame Wahrscheinlichkeitsfunktion von n diskreten
Zufallsvariablen ist p(x1,...,xn)=P(X1=x1,...,Xn=xn).
(wir konzentrieren und auf den Fall n=2 und die ZV X und Y).
Die mehrdimensionale Normalverteilung (stetig)
⎛ −1 ⎡⎛ x − µ ⎞ ⎛ y − µ ⎞ 2 ρ ( x − µ )( y − µ ) ⎤ ⎞
1
(
)
2
2
f x ,y =
2πσ xσ y 1− ρ 2
exp⎜⎜
2 ⎢⎜
⎝ 2(1− ρ ) ⎣⎝ σ x
x
⎟ +⎜ σ
⎠ ⎝
y
y
⎟ −
⎠
x
σ xσ y
y
⎥ ⎟⎟
⎦⎠
5 Parameter: -∞<µx<∞, -∞<µy<∞, σx>0, σy>0, -1<ρ<1 heisst die Korrelation
-4-
()
µ
σ2
Sei µ = ⎛⎜ x ⎞⎟ , Σ=⎛⎜ x
ρσ
σ
µ
x y
⎝
⎝ y⎠
ρσ xσ y ⎞
, x= x
y
σ y2 ⎟⎠
⇒ f ( x )=
1
2π Σ
1
2
(
exp −
1
( x − µ )T Σ−1 ( x − µ )
2
)
X=“relative Kursänderung BMW“, Y=“relative Kursänderung Siemens“
Modell: µx=µy=0%, σx=σy=1%, ρ=0.7
Wie gross ist die Wahrscheinlichkeit, dass die Siemens-Aktie um 5% fällt,
gegeben dass BMW um 5% fällt.
P(Y≤-5|X=-5), Y|X=-5 ~ N(a,b2)
Anwendung der mehrdimensionalen Normalverteilung: X=“Rendite der
BMW-Aktie“, Y=“Rendite der Siemens-Aktie“. X=“Log-Körpergewicht eines
Säugetiers“, Y=“Log-Gehirnmasse“.
Graphische Darstellung: gemeinsame Dichte ist eine glockenförmige
Oberfläche in R3. Höhenlinien der Dichte {(x,y)|f(x,y)=k} k>0. Falls ρ=0, sind
die Achsen der Ellipse parallel zur x-Achse und zur y-Achse.
Randverteilungen:
1
fx ( x ) = ∫ f ( x ,y )dy =...=
e
−∞
σ x 2π
∞
−
1 ⎛ x − µ x ⎞2
2 ⎜⎝ σ x ⎟⎠
Bei der Berechnung von a setze x=-5. a=-0.35, b= 1−0.49
Y|X = -5 ~ N(a,b2), (Y-a)/b|X = -5 ~ N(0,1)
P(Y≤-5|X=-5)=P((Y-a)/b≤(-5-a)/b|X=-5)=Φ((-5-a)/b)=0.0178
P(Y≤-5)=Φ(-5)=2.68⋅10-7
P (Y ≤−5|X =−5)
P (Y ≤−5)
, X ~ N(µx,σx2), Y ~ N(µy,σy2)
3.6 Funktionen von Zufallsvariablen
Unabhängigkeit von X,Y ⇔ ρ=0.
X,Y sind ZV mit bekannter (gemeinsamer) Verteilung. Was ist die Verteilung
von X+Y, X-Y, Y/X, g(X,Y)?
Die Multinomialverteilung (diskret)
Diskreter Fall
Es werden n unabhängige Experimente durchgeführt. Bei jedem Experiment
gibt es r mögliche Ergebnisse mit jeweiligen Wahrscheinlichkeiten ρ1,...,ρr,
X,Y, p(x,y) gegeben. Z=X+Y.
{Z=z}= ∪ {X = xi ,Y = z − xi } oder ∪ {Y = y j , X = z − y j }
r
∑ pi =1 . Sei Ni die Anzahl Experimente, bei deren Ergebnis i eintritt.
(
x1,x2,... mögliche Werte von X
pz(z)=P(Z=z)= ∑ P ( X = xi ,Y = z − xi )
)
n
p(n1,n2,...,nr)=P(N1=n1,...,Nr=nr)= n ...
p1n1p2n2...prnr
nr
1
Fall r=2:
( )
i
Binomial
pz(z)= ∑ p( xi , z − xi )
i
Randverteilung von Ni
r
n− n
n
pNi(ni)=P(Ni=ni)= nn pi i (1− pi ) i . Ni ~ B(n,pi). p(n1,...,nr) ≠∏ pNi ( ni ) .
( )
Falls X,Y unabhängig: pz(z)= ∑ px ( xi )⋅ py ( z − xi ) . Die Faltung von px und py.
i
Beispiel: 3-maliger Münzenwurf
X=“Anzahl Köpfe beim 1.Wurf“, Y=“Gesamtanzahl Köpfe“, Z=X+Y.
i =1
i
N1,...,Nr sind abhängig
pz(0)= ∑ P ( X = xi ,Y =− xi ) = P ( X =0,Y = 0) =
3.5 Bedingte Verteilungen
i
i
X,Y diskrete ZV mit gem. Wahrscheinlichkeitsfunktion ρ(x,y).
Def.: Die bedingte Wahrscheinlichkeitsfunktion von X unter der Bedingung,
P ( X = x ,Y = y ) p( x ,y )
dass Y=y ist pX|Y(x|y)=P(X=x|Y=y)=
, falls py(y)>0.
=
P (Y = y )
py ( y )
Stetiger Fall
∑ p ( x i ,y )
i
X,Y, f(x,y) gegeben. Z=X+Y.
Fz(z)=P(Z≤z)=P(X+Y≤z)
Sei Az={(x,y)|x+y≤z}
Py ( y )
=
= 1 . x1,x2,... sind die möglichen Werte von X.
Py ( y )
py ( y )
pX|Y(x|y)=px(x), ∀x,y mit py(y)>0 ⇔ X,Y unabhängig.
Beispiel A: Bedingte Verteilung von X gegeben Y=1.
p( 0,1) 2 8 2
pX|Y(0|1)=
=3 =
py (1)
1
3
∞
Fz(z)=P(X+Y≤z)=P((X,Y)∈Az)= ∫∫ f ( x ,y )dxdy = ∫
Az
8
8
∞
∫
6
( ) =( 4)⎛⎜ 1 ⎞⎟ ⎛⎜ 5 ⎞⎟
x ⎝6⎠ ⎝6⎠
10!
⎛ 1 ⎞ ⎛2⎞ 1
⎜
⎟ ⎜ ⎟
(
)
pX|Y(x|6)= x !6! 4 − x ! ⎝ 10 6⎠ ⎝ 5 ⎠4 2
10! ⎛ 2 ⎞ ⎛ 3 ⎞
⋅⎜ ⎟ ⋅⎜ ⎟
6!4! ⎝ 5 ⎠ ⎝ 5 ⎠
∞
−∞
Beispiel: X,Y ~ Exp(λ), X,Y unabhängig
fx(x)=λe-λx, x≥0. fy(y)=λe-λy, y≥0
{0,
−λ
fy(z-x)= λ e
z
0
4− x
z
0
Beispiel: Spieler 1 verspricht Spieler 2, dass er ihm beim Würfelspiel folgende
Gewinne auszahlen werde:
10 Rappen, falls 1 oder 2 erscheint,
20 Rappen, falls 3 oder 4 erscheint,
40 Rappen, falls 5 erscheint,
80 Rappen, falls 6 erscheint.
Wieviel muss Spieler 2 Spieler 1 vor jeder Runde bezahlen, damit das Spiel
fair ist? „Fair“ heisst dabei, dass der Einsatz gleich dem durchschnittlichen
Gewinn sein soll.
Lösung: Sei n die Anzahl der Runden und ni die Anzahl Runden, bei denen
die Augenzahl i auftritt.
Gewinn: 10n1+10n2+20n3+20n4+40n5+80n6.
durchschnittlicher Gewinn pro Spielrunde: (10n1/n)+...+(80n6/n).
Erwartungswert des Gewinns: „Idealisierter durchschnittlicher Gewinn bei
unendlich vielen Spielrunden“. E-Wert=10p1+0p2+...+80p6
(p1=...=p6=1/6) =30 Rappen „der faire Einsatz“
Def.: X sei diskret mit W’keitsfunktion p(x). Dann heisst E ( X ) =∑ xi p( xi ) der
fx ( x )
Bemerkungen:
1 ∞
fx ( x )
∫ fY|X ( y , x )dy = ( ) ∫ f ( x ,y )dy = ( ) =1
fx x y =−∞
fx x
∞
y =−∞
fY|X(y|x)=fy(y), ∀x,y ⇔ X,Y unabhängig
Beispiel: 2-dimensionale Normalverteilung
⎛
σy
⎛
⎞
⎜
⎜ y − µy − ρ ( x − µ x ) ⎟
1
σx
1⎝
⎠
⎜
exp −
2
2
⎜
σ y2 (1− ρ )
2π (1− ρ )
⎝ 2
2
⎞
⎟
⎟
⎟
⎠
a=µy+ρ(σx/σy)(x-µx), b=σy 1− ρ 2
1 ( y − a)
2 b2
2
e
)
4.1 Definition und Eigenschaften
X,Y stetige ZV mit gem. Dichte f(x,y).
Def.: Die bedingte Dichte von Y, unter der Bedingung X=x, ist
f ( x ,y )
, falls 0<fx(x)<∞.
fY|X(y|x)=
fY|X(y|x)=
(
4. Erwartungswert
Stetiger Fall
−
, x≤z
x<z
Z hat eine Gamma-Verteilung mit Parametern α=2 und λ.
Z ~ Ga(α,λ)
λ α z α −1e− λ z
fz(z)=
, z≥0
Γ (α )
Allgemeine Form der Dichte einer Gamma(α,λ)-Verteilung.
4− x
x
(z−x)
fz(z)= ∫ λ e − λ x λ e − λ z − x dx = ∫ λ 2e− λ z dx = λ 2 ze− λ z , z≥0
X|Y=6 ~ B(4,1/6)
1
∫ f ( x ,v − x ) dxdv
Falls X,Y unabhängig: fz(z)= ∫ fx ( x ) fy ( z − x )dx . Die Faltung von fx und fy.
p(Y =6 )
σy
∞
x =−∞
py (6 )
=
z
v =−∞ x =−∞
fz(z)=d/dxFz(z)= ∫ f ( x , z − x )dx
(X,Y,Z) ~ Mn(10,1/10,2/5,1/2). Y ~ B(10,2/5)
fx ( x )
∫ f ( x ,y )dydx .
∞
X|Y=1 ~ Be(1/3), X ~ Be(1/2) ⇒ X,Y abhängig
Beispiel: In einer Bevölkerung haben 50% der Leute blaue Augen, 40%
dunkle Augen, 10% grüne Augen. Unter 10 zufällig ausgewählten Leuten ist
die Anzahl mit dunklen Augen 6. Was ist die Verteilung der Anzahl der
verbleibenden Leute mit grünen Augen?
X=“Anzahl Leute mit grünen Augen“, Y=“Anzahl Leute mit dunklen Augen“,
Z=“Anzahl Leute mit blauen Augen“.
P ( X = x ,Y =6 ) P ( X = x ,Y = 6, Z =10 −6 − x )
pX|Y(x|6)=
=
fY|X(y|x)=
z
∫ f ( x ,v − x )dvdx = ∫
x =−∞ v =−∞
1
=
3
x
z−x
x =−∞ y =−∞
Sei v=x+y ⇒ y=v-x, dy=dv
3
8
p(1,1)
pX|Y(1|1)=
=
py (1)
f ( x ,y )
2
8
pz(2)=p(0,2)+p(1,1)=2/8
pz(3)=p(0,3)+p(1,2)=2/8
pz(4)=p(1,3)=1/8
Bemerkungen:
∑ pX|Y ( xi|y ) =
1
8
pz(1)= ∑ P ( X = xi ,Y =1− xi ) = P ( X =0,Y =1) + P ( X =1,Y =0) =
Diskreter Fall
i
j
i
i =1
n pn1 pn2 , mit n =n-n
2
1
n1n2 1 2
≅ 60000
2π b
⇒ Y|X=x ~ N(µy+ρ(σx/σy)(x-µx), σy2 (1-ρ2))
i
Erwartungswert von x (vorausgesetzt, dass die Reihe absolut konvergiert).
-5-
Beispiel: Roulette-Rad 0,1,...,36 + 00
Ich wette 1.-, dass die Zahl ungerade ist. Falls dies vorkommt, ist mein
Gewinn 1, sonst verliere ich meinen Einsatz. X=“Netto-Gewinn“. X=1 mit
W’keit 18/38, X=-1 mit W’keit 20/38.
E(X)=1⋅18/38+(-1)⋅20/38=-1/19 ⇒ Spiel ist unfair. Auf Dauer verliert man im
Schnitt 5 Rappen pro Spiel.
Beispiel: Bernoulli-Verteilung
X ~ Be(p)
P(X=1)=p=1-P(X=0)
E(X)=1⋅p+0⋅(1-p)=p
Beispiel: Geometrische Verteilung
X ~ Nb(1,p), p(k)=(1-p)k-1p k=1,2,...
∞
E(X)= ∑ k ⋅ p(1− p )
n
Y =∑ X i , Xi ~ Be(p), x1,...,xn unabhängig
i =1
n
n
i =1
i =1
E (Y ) = ∑ E ( X i ) = ∑ p = np
Beispiel: Fussballbildchen erhält man in Cornflakes-Packungen (1 pro
Packung). Die Serie besteht aus n Bildchen. X=“Anzahl Packungen, die ich
kaufen muss, bis ich alle habe“. Gesucht: E(X).
Xi=1 sei die Anzahl Käufe, bis ich das erste Bildchen erhalte. Xr sei die
Anzahl Käufe nach dem (r-i)-ten Erfolg, bis ich ein neues Bildchen habe.
n
X =∑ X r
r =i
Xr ist geometrischverteilt. Erfolgswahrscheinlichkeit= n − r +1 .
n
k −1
X1 ~ Nb(1,1), X2 ~ Nb(1,(n-1)/n), Xn ~ Nb(1,1/n)
k =1
E(X)=p+2p(1-p)+3p(1-p)2+4p(1-p)3+... (1)
(1-p)E(X)=p(1-p)+2p(1-p)2+3p(1-p)3+... (2)
(1)-(2): pE(X)=p+p(1-p)+p(1-p)2+p(1-p)3+...
n
n
r =1
r =1
E(X)= ∑ E ( X r ) = ∑
n
n = n + n +...+ n = n ∑
1 ≈ n(log n + r ) für n gross (r=Eulersche
n − r +1 n n −1
1 r =1 r
Konstante ≈ .57)
E(X) wächst schneller als n!
∞
pE(X)= ∑ p( k ) =1 ⇒ E(X)=1/p
k =1
4.2 Varianz und Standardabweichung
Beispiel: Poisson-Verteilung
e− λ λ k
, k=0,1,2,3,...
k!
X ~ Po(λ), p(k)=
∞
E(X)= ∑
k =0
X seine eine ZV mit Erwartungswert E(X). Dann heisst var(X)=E((X-E(X))2) die
Varianz von X. sd(X)= var ( X ) heisst die Standardabweichung.
var(X)=E(g(x)), g(x)=(x-µx)2, µx==E(X)
2
= ∑ g ( xi ) p( xi ) = ∑ ( xi − µ x ) p( xi ) (diskret)
i
i
Aus Satz 4.1A folgt: var(X)=E(g(x)) ∞
∞
2
= ∫ g ( x ) f ( x )dx = ∫ ( x − µ x ) f ( x )dx (stetig)
− λ k −1
∞ e
k ⋅e − λ λ k ∞ k ⋅e− λ λ k
λ
=∑
=λ ∑
k =1
k =0 ( k −1) !
k!
k!
∞
Setze j=k-1: E(X)= λ ∑
j =0
e− λ λ
j!
j
∞
= λ ∑ p( j )
j =0
=λ
−∞
1
Def.: X sei stetig mit Dichte f(x). Dann heisst E ( X ) = ∫ xf ( x )dx der
−∞
Erwartungswert von X (vorausgesetzt, dass das Integral absolut konvergiert).
Beispiel: Uniform-Verteilung
X ~ U(0,1)
( x − µ )2 −
e
−∞ σ
2π
∞
var(X)=E((x-µ)2)= ∫
1
1
E ( X ) = ∫ xf ( x )dx = ∫ x ⋅1dx = x 2 =
0
−∞
2
2 0
1
1
∞
z=
Beispiel: Normal-Verteilung
X ~ N(µ,σ2)
−( x − µ )
2σ 2
−z
∞
− z2
− z2
∞
∞
1
1
µ ∞ 2σ 2
2σ 2
2σ 2
dx =
+
dz
∫ (2 + µ ) e
∫ ze
∫e
σ 2π −∞
σ 2π −∞
σ 2π −∞
2
0
2
B=µ, weil
−z
∞
−z
2
∞
∫ x f ( x )dx =2 ∫ x
2
k
3
12
Beispiel: X ~ Po(µ)
E(X)=µ, E(X2)=?
Trick: X2=X(X-1)+X
E(X2)=E(X(X-1))+µ=µ2+µ
−µ
−µ
−µ
−µ
j
∞
∞
∞
∞
k ( k −1) e µ k
k ( k −1) e µ k
e µ k −2
e µ
2
2
2
E(X(X-1))= ∑
= ∑
= µ ∑ (
= µ ∑
= µ
)
2σ
dz das Integral der Dichte einer N(0,σ2)-Verteilung
∫ ze
1 dx = lim 2 ∫ x
(2)
2
k!
k =0
k =2
k!
k =2
k −2 !
j =0
j!
var(X)=E(X2)-E(X)2=µ2+µ-µ2=µ
4.3 Kovarianz und Korrelation
k
2
2
1 dx = lim ⎡ log(1+ x ) ⎤ = lim log(1+ k ) = ∞
k →∞
π
⎦⎥ 0
π
2
⎢
k →∞
k →∞ ⎣
0 π 1+ x
π 1+ x 2
Der Median der Cauchy-Verteilung ist aber 0.
Trick: E(25X)=25*E(X)
0
dz
3
0
Dichte f(x)= 1 1 2 , -∞<x<∞
π 1+ x
E(X) ist undefiniert.
E(X)=
∞
− −z
2
1
Satz B → var (U ) = E ( U 2 ) − E (U )2 = 1 − 1 = 1
E(U)=1/2, E(U2)= ∫ u2du = 1 ⎯⎯⎯⎯⎯
2
σ 2π −∞
ist. E(X)=µ
Beispiel: Cauchy-Verteilung
−∞
1 z 2e
2π
−∞
k
−∞
1
2
Tip: Var(25X)=252*Var(X)
Beispiel: U ~ U(0,1)
2
A=0, weil ∫ ze 2σ dz = − ∫ ze 2σ dz
0
∞
⇒ σ ∫
σ
dx
2
var(X)=σ2
Satz A: Sei X eine ZV mit var(X)<∞.Sei Y=a+bX. Dann folgt var(Y)=b2var(X).
Satz B: var(X)=E(X2)-E(X)2=E((X-µx)2)=E(X2-2µxX+µx2)=E(X2)-2µxE(X)+ µx2
⇒ E(X2)- µx2
Tip: E(X2)= ∑ k 2P ( X = k )
dx
− z2
Sei z=x-µ, E(X)=
x−µ
( x − µ )2
2σ 2
1
2
∞
1
E(X)=
∫ xe
σ 2π −∞
−∞
Beispiel: X ~ Be(p)
E(X)=p, var(X)=(0-p)2⋅x(1-p)+(1-p)2⋅xp=p(1-p)
Beispiel: Normalverteilung N(µ,σ2)
∞
x1,...,xn sind ZV
n
n
i =1
i =1
E( ∑ X i )= ∑ E ( X i ) ⇒ immer
Funktionen von Zufallsvariablen
n
n
i =1
i =1
var( ∑ X i )= ∑ var ( X i ) ⇒ wenn die ZV unabhängig sind
Satz A: Sei Y=g(X). Falls X diskret mit W’keitsfunktion p(x) ist, ist
E (Y ) =∑ g ( xi ) p( xi ) , vorausgesetzt ∑ g ( xi ) p( xi ) <∞ .
Falls X1,...,Xn stetig mit gemeinsamer Dichte f(x1,...,xn) sind, folgt
E(Y)= ∫ ∫ g ( x1 ,..., xn ) f ( x1 ,..., xn )dx1...dxn .
Wenn die ZV abhängig sind, muss man Kovarianzen betrachten.
X,Y seien ZV mit Erwartungswerten µx und µy. Dann heisst
cov(X,Y)=E((X-µx)(Y-µy)) die Kovarianz von X und Y.
cov(X,Y)=E(XY)-E(X)E(Y) (µx=E(X), µy=E(Y)) (*)
Korollare: (folgen aus (*))
X,Y unabhängig ⇒ E(XY)=E(X)E(Y) ⇒ cov(X,Y)=0
cov(X,Y)=0 ⇒
/ Unabhängigkeit
cov(X,X)=var(X)
cov(aX,Y)=a⋅cov(X,Y)
cov(aX,X)=a⋅var(X)
cov(X+Y,Z)=cov(X,Z)+cov(Y,Z)
cov(X,a)=0
Korollar: X1,...,Xn unabhängig. Dann folgt E(g(x1)⋅g(x2))=E(g(x1))⋅E(h(x2)).
cov(a+ ∑ bi X i ,c+ ∑ d jYj )= ∑ ∑ bi d j ⋅cov ( X i ,Yj )
i
∞
Falls X stetig mit Dichte f(x) ist, ist E (Y ) = ∫ g ( x ) f ( x )dx , vorausgesetzt
−∞
∞
∫ g ( x ) f ( x ) dx <∞ .
−∞
Satz B: Seien X1,...,Xn, Y Zufallsvariablen mit Y=g(X1,...,Xn).
Falls X1,...,Xn diskret mit gemeinsamer W’keitsfunktion p(x1,...,xn) sind, folgt
E (Y ) = ∑ ∑ g ( x1 ,..., xn ) p( x1 ,..., xn ) .
x1 xn
Lineare Kombinationen von Zufallsvariablen
n
m
i =1
j =1
n
n
n
m
i =1 j =1
m
var(a+ ∑ bi X i )= ∑ ∑ bi bj ⋅cov ( X i ,Y j )
Der Erwartungswert ist ein linearer Operator.
Satz C: X1,...,Xn seien ZV mit Erwartungswerten E(x1),...,E(xn). Sei
i =1 j =1
i =1
var(X+Y)=var(X)+var(Y)+2cov(X+Y)
n
n
i =1
i =1
Y= a +∑ bi xi . Dann folgt E (Y ) = a+∑ bi E ( X i ) .
Falls xi,...,xn unabhängig sind ⇒ var(a+ ∑ bi X i )= ∑ bi2 var ( X i )
Beispiel: Y ~B(n,p) binomial
Beispiel: X ~ B(n,p), E(X)=np
n
n
i =1
i =1
()
n
n
n
n−k
schwierig.
E (Y ) = ∑ k ⋅ p( k ) = ∑ k n pk (1− p )
k
k =0
k =0
X= ∑ Yi , Yi ~ Be(p), Yi unabhängig
i =1
n
n
i =1
i =1
var(X)= ∑ var (Yi ) = ∑ p(1− p ) = np (1− p )
-6-
Def.: X,Y seien ZV mit endlichen Varianzen. Dann heisst ρ =
cov ( X ,Y )
var ( X ) var (Y )
P(S100≥60)=P(
ZGS ≈ 1-Φ(2)=0.028
wenn die Münze fair wäre, wäre die W’keit für S100≥60 sehr klein.
Korrelation. ρ misst die Stärke des linearen Zusammenhangs.
Satz: i) -1≤ρ≤1
ii) ρ=±1 ⇔ P(Y=a+bX)=1 für Konstanten a,b∈R, b≠0.
Beispiel: X,Y seien gemeinsam normalverteilt mit Parametern µx, µy, σx, σy, ρ.
Dann ist ρ die Korrelation von X und Y.
TEIL II: Statistik
6. Statistik
5. Grenzwertsätze
In der Statistik will man aus beobachtbaren Daten Schlüsse ziehen.
X: Gewinn beim Glücksspiel
Spiel wird wiederholt: X1,...,Xn
Der durchschnittliche Gewinn (arithmetische Mittel):
6.1 Beschreibende Statistik
Daten: x1,...,xn
Annahme: die Daten sind Realisierungen von Zufallsvariablen
Gesucht: eine geeignete Verteilung
Stichprobe: die Gesamtheit der Daten
Stichprobenumfang: ihre Anzahl n
Graphische Darstellung: die Daten werden geordnet:
x(1) ≤ x(2) ≤ ... ≤ x(n) (Ordnungsstatistiken)
Die Werte werden y1 < y2 < ... < ym, m≤n genannt.
Für jeden Wert yi wird die zugehörige Häufigkeit fi abgezählt.
fi: Häufigkeit vom Wert yi. ri=fi/n: relative Häufigkeit
n
(eine ZV)
∑ Xi
Sn i =1
=
n
n
Der Erwartungswert wurde als einen idealisierten durchschnittlichen Gewinn
bei unendlich vielen Wiederholungen interpretiert: Sn/n, n→∞. Das Gesetz der
grossen Zahlen macht diese Überlegung präziser.
5.1 Gesetz der grossen Zahlen (schwache Version)
Sei X1,...,Xn eine Folge von unabhängigen ZV mit E(Xi)=µ und var(Xi)=σ2. Sei
n
Xn =
S100 −50
S −50
≥ 60 −50 )=1-p( 100
≤2)
5
5
5
Xi
Sn ∑
. Dann konvergiert X n gegen µ in Wahrscheinlichkeit. Das heisst
= i =1
n
n
m
m
i =1
i =1
∑ fi = n, ∑ ri =1
Falls n gross ist oder die Häufigkeiten fi klein sind, werden benachbarte Werte
zu einer Klasse zusammengefasst. Der Wertebereich wird in disjunkte
Intervalle unterteilt.
für jedes ε>0 P(| X n -µ|>ε)→0, für n→∞.
Beispiel: Simuliere X1,X2,... von einer Verteilung. Plotte X n gegen n für
n=1,2,....
A: 5000 Gaussverteilte ZV (N(0,1)). Das arithmetische Mittel konvergiert
gegen Null. Es gilt das Gesetz der grossen Zahlen
B: 5000 Cauchyverteilte ZV. Das arithmetische Mittel bleibt auch bei
grossen n noch unberechenbar. E(X) ist undefiniert.
Lemma: Die Chebyshev-Ungleichung
2
X sein eine ZV mit E(X)=µ und var(X)=σ2. Für alle t>0 gilt P(|X-µ|>t)≤ σ .
Faustregeln: Anzahl Klassen sollte der Grössenordnung n sein.
Klassenbreite sollte für alle Klassen gleich sein.
Histogramm: die Häufigkeiten der klassierten/ unklassierten Daten werden in
einem Histogramm dargestellt. Dies hilft uns, die Form einer geeigneten
Dichte/ W’keitsfunktion zu erkennen.
Bemerkung: Starkes Gesetz der grossen Zahlen
Fn(y)=
Die empirische Verteilungsfunktion
t2
X n ⎯⎯⎯⎯
→ µ „fast sicher“
P({ω: X n (ω)→µ, n→∞})=1
Eine Anwendung: Monte Carlo Integration
x=
1
Problem: I = ∫ g ( x )dx ist schwierig zu berechnen.
0
s: empirische Standardabweichung
Das empirische α-Quantil:
k=[αn]+1
αn nicht ganzzahlig: x(k)
αn ganzzahlig: 1/2(x(k)+x(k-1))
Beispiel: n=100, α=75% ⇒ αn=75 (ganzzahlig)
k=76 ⇒ (x(76)+x(75))/2
Beispiel: n=101, α=75% ⇒ 75<αn<76
k=76 ⇒x(76)
Empirischer Median = Empirisches 50%-Quantil
0
Seien U1,...,Un unabhängig, identisch U(0,1)-verteilt.
n→∞
GZ ⇒ 1 ∑ g (Ui ) ⎯⎯⎯⎯
→ E ( g (U ) ) = I .
n
n i =1
n
Lösung: Simuliere U1,...,Un, n gross. Berechne 1 ∑ g (Ui )
n
i =1
5.2 Zentraler Grenzwertsatz
Sei X1,X2,... eine unabhängig, identisch verteilte Folge von ZV mit E(Xi)=µ und
n
S −µn
≤ x ⎞⎟ = Φ ( x ) , ∀x ∈ .
var(Xi)=σ2. Sei Sn =∑ X i . Dann lim
P ⎛⎜ n
n→∞
i =1
⎝ σ n
⎠
Sn − nµ
S −µn ⎞
ist die Standardisierung von Sn, denn E ⎛⎜ n
Bemerkung:
⎟ =0,
⎝ σ n ⎠
σ n
2
S
−
µ
n
⎞ = 1 ⋅ var ( S ) = nσ = 1 . Für n gross genug.
var ⎛⎜ n
⎟
n
nσ 2
nσ 2
⎝ σ n ⎠
Sn − µ n
∼ N ( 0,1)
σ n
Sn ∼ N ( µ n,nσ 2 )
2
X ∼ N µ ,σ
n
heisst der Mittelwert der Stichprobe
2
s2 = 1 ∑ ( xi − x ) : empirische Varianz
n −1 i =1
1
1
(
x1 +...+ xn
n
n
Sei U ~ U(0,1). I = E ( g (U ) ) = ∫ g ( x ) f ( x ) dx
n
Anzahl der xi ≤ y
(schätzt F(y) die wahre Verteilungsfunktion)
n
Man plottet {(yi, Fn(yi)), i=1,...,m}. Manchmal verbindet man die Punkte mit
einer Treppenfunktion.
Masszahlen:
n→∞
Boxplot
d
empirisches 75%-Quantil =b
empirischer Median
empirisches 25%-Quantil =a
)
Beispiel: Uniform-Verteilung U1,...,Un
Ui ~ U(-1/2,1/2), Ui= Ui -1/2, mit Ui ~ U(0,1)
c
E(Ui)=E( Ui )-1/2=0
var(Ui)=var( Ui )=1/12
Ausreisser
n
Sn= ∑ Ui
i =1
S12 ~ N(0,12⋅1/12)=N(0,1)
Beispiel: Eine Normal-Annäherung für die Binomialverteilung.
Münzwurf-Experiment: Würfe n=100. Anzahl Kopf=60.
Ist die Münze fair?
Annahme: X1,...,Xn u.i.v. ~ Be(1/2) (Xi sind Indikatoren für einen Kopf).
Anzahl Kopf: S100 ~ B(100,1/2).
( )2
k
P(S100≥60)= ∑ P ( S100 = k ) = ∑ 100 1 ⋅ 1
k
100
100
k =60
k =60
2
100 − k
δ=“interquartile range“. Bereich zwischen a und b.
c=der kleinste Wert xi, damit |xi-a|<1.5⋅δ
d=der grösste Wert xi, damit |xi-b|<1.5⋅δ
Q-Q-Plot (Quantil-Quantil-Plot)
Man vergleicht die empirischen Quantile der Daten mit den theoretischen
Quantilen einer Referenzverteilung (in der Regel die Gaussverteilung).
Hypothese: Daten x1,...,xn stammen von einer N(µ,σ2)-Verteilung mit
V’funktion Fµ,σ.
Man erwartet X([αn]+1) ≈ Fµ,σ-1(α)=µ+σΦ-1(α)
mühsam zu rechnen
Normal-Annäherung:
µ=E(Xi)=1/2 (p)
σ2=var(Xi)=1/4(p(1-p))
ZGS ⇒ S100 ~ N(1/2⋅100,1/4⋅100) = N(50,25)
empirisch theoretisch
i=[αn]+1 ⇒ (i-1)/n ≈ α
Man erwartet X(i) ≈ µ+σΦ-1((i-1)/n), i=1,...,n
-7-
Q-Q-Plot ((Φ-1((i-1/2)/n),x(i)), i=1,...,n)
Man erwartet eine Gerade mit Steigung 1/σ.
Q-Q-Plots sind entweder langschwänzig, kurzschwänzig oder sie weisen eine
schiefe Verteilung auf.
X −µ
ZGS: X ~ N(µ,µ/n).
µ
~N ( 0,1)
n
⎛
Wir wollen: P ⎜ − Z1− α ≤
⎜⎜
⎝
6.2 Statistik für die Poisson-Verteilung
⎞
≤ Z1− α ⎟ ≈1−α , α=0.05 (=0.01)
2
⎟⎟
⎠
n
X −µ
µ
2
Beispiel: Radioaktiver Zerfall von „americum 241“. α-Teilchen werden
emittiert.
Gesucht: Ein Modell für die Anzahl Emissionen in einem Intervall von 10
Sekunden.
Daten: die Beobachtungsperiode wird in 1207 Intervallen von 10 Sekunden
unterteilt. In jedem Intervall wird die Anzahl Emissionen gezählt.
Modell: Poisson (wie Ankunft von Anrufen)
Annahme: die rohen Daten x1,...,x1207 sind Realisierungen u.i.v. ZV
−µ
µ ke
X1,...,X1207 mit W’keitsfunktion p(k)=P(X=k)=
.
⇒ mit Einsetzen + Umformen: P ⎜ X − Z1− α
Anpassung: µ=E(X) wird mit x geschätzt (Momentenmethode)
Beispiel: 8.392 ± 1.96 ⋅ 0.028 (α=0.05 95% VI)
Tip: Z1-α/2 = Φ-1(1-α/2)
Schreibweise: Z1-α/2 Z(α/2)
⎡
⎢ X − Z1− α
⎣
2
2
µˆ ⎞
µˆ
≤ µ ≤ X + Z1− α
n
2
⎟ =1−α , d.h. also mit
n⎠
µˆ
n
, X + Z1− α
2
µˆ ⎤
=100% (1-α)-Vertrauensintervall (VI).
n ⎥⎦
i =1
6.3 Statistik für die Normalverteilung
n
µˆ = X = 1 ∑ X i ist der Schätzer (eine ZV)
i =1
Gegeben: i.i.d.-verteilte Stichprobe X1,...,Xn (=ZV) (Realisierungen x1,...,xn)
Annahme: X ~ N(µ,σ2) (X-irgendeine Messgrösse, Summe)
Parameterschätzung: (Momentenmethode)
1. Moment: µ=E(X)
Mit anderen Realisierungen von X1,...,X1207 hätten wir eine andere Realisierung
des Schätzers. Der Schätzer hat seine eigene Verteilung. µ̂ =8.392. Das
Modell ist gefittet. Nun wird die Anpassung kritisch überprüft.
geschätzt mit arithmetischem Mittel: µ = X = 1 ∑ X i
n
Chiquadrat-Anpassungstest
2. Moment E(X2)
Klasseneinteilung:
x1,...,x1207
y1=|{i:0≤xi≤2}|=18 Anzahl Intervalle mit 0-2 Emissionen
y2=|{i:xi=3}|
geschätzt mit 1 ∑ X i2
n
Also: σ2=E(X2)-E(X)2
σˆ2 = 1 ∑ X i2 − X 2 = 1 ∑ X i2 −2 XX + X 2 = 1 ∑ X i2 −2 X 1 ∑ X i + X 2 = 1 ∑ ( X i − X )
n
n
y16=|{i:xi≥17}|
Diese sind Realisierungen von ZV Y1,...,Y16
Yi ~ B(1207,∏i), i=1,...,16
n
n i =1
n
n
2
n i =1
Modellüberprüfung/Anpassungstest: Normal=Q-Q-Plot
Standard von µ̂ :
2
Gesucht: Verteilung X .
Xi ~ N(µ,σ2) → ∑ X i ~N ( nµ ,nσ 2 ) (Faltungsformel)
∏1=P(0≤X≤2)= ∑ p( k )
k =0
∏2=P(X=3)=p(3)
Also X ~ N(µ,σ2/n) (mit linearer Transformation)
16
∏16=P(X≥17)=1- ∑ p( k )
Standardfehler von X⋅ σ , dies schätzen wir durch
k =0
n
(Y1,...,Y16 haben eine multinomiale Verteilung)
E(Yi)=1207∏i
Klasse (j)
Beobachtete Häufigkeit (yi)
Erwartete Häufigkeit
0-2
18
12.2
3
28
27.0
4
56
56.5
16
(Y
⎝
j =1
2
)
(
⎠
n
2
n
normal α=0.05/0.01 ⇒ Z1− α =1.96/2.57
− E [Yj ])
E (Yj )
2
Bemerkung: σ nennt man Störparameter → unbefriedigend → σ meist
unbekannt
Satz: X1,...,Xn unabhängig Stichprobe mit mit Xi ~ N(µ,σ2) ∀i. Dann ist
Theorie: Z2 ist annähernd Χ2-verteilt mit 14 Freiheitsgraden
Bemerkung: Anzahl Freiheitsgrade [FG¡] = Anzahl Klassen – Anzahl
geschätzter Parameter – 1 = 14.
Hier: Z2=8.99
Frage: Ist dieser Wert konsistent mit einer Χ142-Verteilung?
Antwort: p-Wert berechnen
p*=P(Z2 ≥ 8.99 | Modell ist richtig) = 0.83
Regel: ist der p-Wert klein (<0.05), dann wird das Modell verworfen, d.h. die
Anpassung ist schlecht.
Hier: Modell passt
p-Wert: wenn das Modell richtig ist, und wir das Experiment wiederholen
würden, dann hätte das Ereignis einen gleichen oder noch extremeren p-Wert
zu erhalten, die Wahrscheinlichkeit 0.83.
2
ii) X und ∑ ( X i − X )
iii)
n
2
-t-verteilt mit (n-1) FG ~ tn-1
2. Ansatz: Kenne σ nicht!
n ( X −µ )
∑ ( Xi − X )
( n −1)
s
2
~tn−1
( )
(
( )
( )
( ) sn ) = 1 − α
⎛
⎞
X −µ
≤ tn−1 α ⎟ =1−α ⇔ P X − tn−1 α ⋅ s ≤ µ ≤ X + tn −1 α
P ⎜ −tn −1 α ≤
2
2
2 s
2 ⎟
n
⎜
⎝
⎠
n
(2)
(1-α)100%-VI: X ± t n−1 α tn-1, 1-α/2 ist das (1-α/2)-Quantil
Lineare Interpolation: Zahlenbeispiel:
n
µˆ= 1 ∑ X i , damit E ( µˆ) = 1 ∑ X i = 1 nµ = µ (erwartungstreu)
n
t99,0.995 = t60,0.995 -
µ
var ( µ
ˆ) = 1 ∑ var ( X1 ) = 1 µ =
n
n
n
⇒ Standardfehler = geschützte Standardabweichung =
σ
∑ (X −X )
sind unabhängig
i
n
i =1
(X − µ) ⋅
2
( n −1)σ 2
1) Beschreibende Statistik
2) Wahl eines Modells
3) Schätzung des/der Parameter
4) Kritische Modellüberprüfung
5) Standardfehler/ Vertrauensintervalle für geschätzte Parameter
Standardfehler von µ̂ :
n
∑ ( Xi − X )
2
~ Χ -verteilt mit (n-1) FG
σ2
i)
Etappe einer parametrischen, statistischen Analyse
n i =1
∑ ( Xi − X )
n
⇔ (1-α)100%-VI ist X ± Z1− α σ
2
j
σˆ =
n
Vertrauensintervall:
1. Ansatz: Nehmen an, dass wir das wahre σ kennen, resp. unsere Schätzung
σ̂ dem wahren σ entspricht.
X −µ
P ⎜⎛ Z1− α ≤
≤ Z1− α ⎟⎞ = 1 − α ⇔ P X − Z1− α σ ≤ µ ≤ X + Z1− α σ = 1 − α
2
2
2
n
n
⎜ 2 σ
⎟
17+
5
7.1
Die Übereinstimmung zwischen den beobachteten und erwarteten
2
Häufigkeiten wird anhand der Pearson Χ - Statistik beurteilt.
Z2 − ∑
µˆ
ein
n
einen Schätzungswert, nämlich
Wahrscheinlichkeit 1-α liegt µ im Intervall
n
Notation: µˆ = x = 1 ∑ xi ist der Schätzwert (eine Zahl)
2
n
⎛
⎝
k!
2
µ
Wir setzen nun für
t60,0.995 −t120,0.995
120 −60
⋅ (99 - 60) = 2.632
6.4 Allgemeine Methoden zur Parameterschätzung
µˆ
1. Momentenmethode
n
Mass der Präzision des Schätzer
Vertrauensintervall:
Das k-te Moment einer ZV X (resp. einer Verteilung Fx) ist definiert durch
µk=E(Xk).
Seien X1,...,X.
Gesucht: Verteilung von µˆ= X .
-8-
Seien X1,...,Xn iid ZV’en irgendeiner Verteilung, dann heisst µˆk = 1 ∑ X ik das k-te
n
n
L(α,λ)= ∑ − log Γ (α ) +α log λ + (α −1)(log xi − λ xi )
n i =1
i =1
n
∂L (α ,λ )
′( )
= − n Γ ( α ) + n log λ + ∑ log xi = 0
i =1
∂α
Γα
n
∂L (α ,λ )
= nx − ∑ xi = 0
i =1
λ
∂λ
Stichprobenmoment. ⇒ µˆk schätzt µk.
Allgemein: Verteilung mit Parameter θ1,...,θm.
θ1,...,θm können durch µ1,..., µn ausgedrückt werden:
θ1=f1(µ1,..., µn),..., θm=fm(µ1,..., µn).
Dann: θ1 = f1 ( µˆ1 ,...,µˆn ) ist der Momentenschätzer für θ1.
⇒ λˆ= αˆ wenn man das oben einsetzt, erhält man eine Gleichung für
x
mit numerischen Methoden gelöst werden muss.
ML-Schätzer ≠ Momentenschätzer
Beispiel: Poisson
µ=µ1=E(X) ⇒ µˆ= X
Beispiel: Normalverteilung
6.5 Allgemeine Testtheorie
µ=µ1=E(X), µ2=E(X2) ⇒ µˆ= X
2
2
=µ2-µ12
2
σ =E(X )-E(X)
Allgemeine Problemstellung: Unterscheidung zwischen Verteilungen anhand
von Stichproben. In der Neyman-Pearson-Testtheorie wird eine Nullhypothese
(H0) mit einer alternativen Hypothese (HA) verglichen.
Beispiel 1: wir haben eine Stichprobe X1,...,Xn aus einer Normalverteilung
N(µ,σ2) mit bekannter Varianz. µ ist entweder µ1 oder µ2.
Wir müssen entscheiden: H0: µ=µ1, HA: µ=µ2.
Beispiel 2: Anpassungstest
X1,...,Xn sei eine Stichprobe aus einer diskreten Verteilung
H0: die Verteilung ist Poisson. HA: die Verteilung ist nicht Poisson.
Zweite Variante (2B):
H0: Die Stichprobe ist poissonverteilt mit Parameter µ=µ0.
HA: Die Stichprobe ist poissonverteilt mit Parameter µ≠µ0.
(f(µ1,µ2)) ⇒ σ = 1 ∑ ( X i − X )
2
n
2
2 i =1
Eigenschaften der θ̂ ’s:
Definition: Sei θˆn ein Schätzer von θ welcher auf einer Stichprobe der Grösse
n basiert, dann
i) heisst θˆn erwartungstreu, falls E( θˆn )=θ
ii) heisst θˆn konsistent, falls für alle ε>0 P ( θˆn −θ >ε ) →0 falls n→∞ (der Schätzer
konvergiert in W’keit gegen θ).
Bemerkung:
1) Aus dem Gesetz der grossen Zahlen folgt, dass die Stichprobenmomente
gegen die theoretischen Momente kovergieren.
2) Falls f1,...,fm stetig sind, dann konvergieren die Momentenschätzer gegen
die (unbekannten) Parameter.
Einfache und zusammengesetzte Hypothesen
Wenn unter einer Hypothese die Verteilung und ihre Parameter fest sind,
heisst die Hypothese einfach.
Beispiel: H0 und HA in 1, H0 in 2B.
Wenn aber die Verteilung nicht eindeutig festgelegt wird, heisst die Hypothese
zusammengesetzt.
Beispiel: H0 und HA in 2, HA in 2B.
Beispiel 3: Experiment bei einer Studie der “aussersinnlichen Wahrnehmung”
52 Spielkarten. n Karten werden zufällig gezogen und zurückgelegt. Ohne
sie zu sehen, muss ich bei jeder Karte erraten, was die Farbe ist (Herz,
Karo, Kreuz, Pik). Die Anzahl Erfolge sei X.
H0: X ~ B(n,1/4) keine hellseherische Fähigkeit
HA: X ~ B(n,p), p>1/4
H0 einfach, HA zusammengesetzt
2. Maximum-Likelihood-Methode
Beispiel: Machen 10 Würfe mit Würfel, möchten p schätzen
1 2 3 4 5 6 7 8 9 10
x
x
x
6er
{
x = 1, i-ter Wurf=6
i 0, i-ter Wurf ≠ 6
10
ˆ= X = 1 ∑ X i = 3
Momentenschätzer: p
10 i =1
10
Maximum-Likelihood-Schätzer (MLE):
Fordern, dass P(x3=x5=x8=1; xi=0 i≠3,5,8|p)=p3(1-p)7 maximal wird, d.h. wir
suchen p so, dass die Wahrscheinlichkeit, dass das oben beobachtete Ereignis
eintritt, maximal wird. → ableiten:
Einseitige und zweiseitige Alternativen
∂ P(...)=3p2(1-p)7+p37(1-p)6⋅(-1)=0 ⇒ 3(1-p)=7p ⇔ p
ˆML =3/10.
∂p
HA in 3 ist eine einseitige Alternative. HA in 2B ist zweiseitig. Dies hängt davon
ab, welche Abweichungen von der Nullhypothese bekannt sind.
Der Neyman-Pearson Ansatz:
Daten X1,...,Xn
Nullhypothese H0. Alternativhypothese HA. (beide einfach)
Wir wählen eine Teststatistik T(X).
X=( X1,...,Xn)T und definieren einen Verwerfungsbereich R.
Falls T(X)∈R, wird H0 verworfen, falls T(X)∉R, wird H0 angenommen.
Zwei Arten von Fehlern sind möglich:
Fehler 1.Art: H0 stimmt, wird aber verworfen
α=P(Fehler 1.Art)=P(T(X)∈R|H0)=PH0(T(X)∈R)
α heisst auch Signifikanzniveau des Tests, z.B. 5%
Fehler 2. Art: H0 stimmt nicht, wird aber akzeptiert
β=P(Fehler 2.Art)=P(T(X)∉R|HA)=PHA(T(X)∉R)
Normale Verfahren: wähle α, finde geeignetes R.
Die Macht eines Tests ist 1-β=P(H0 wird verworfen|HA)=P(H0 wird zurecht
verworfen).
Zusammengesetzte Hypothesen:
H0: θ∈Θ0, HA: θ∈ΘA
P(T(X)∈R|θ)
α= max
θ ∈Θ
Allgemein: X1,...,Xn ZV’en mit gemeinsamer Dichte. f(X1,...,Xn|θ1,..., θm).
θ1,..., θm Parameter der Dichte.
Realisationen: Xi=xi, i=1,...,n
lik(θ1,..., θm)=f(x1,..., xn|θ1,..., θm), xi fest, θ1 variabel
Likelihood-Funktion: von θ1,..., θm
ML-Schätzung der θi’s sind die θ1,..., θm so dass lik(θ1,..., θm) maximal ist.
Spezialfall: Seien die Xi’s u.i.v. ZV (iid). Dann ist die Likelihood-Funktion das
Produkt der eindimensionalen Dichten:
n
lik(θ1,..., θm)= ∏ f ( xi|θ1 ,...,θm ) .
i =1
Es ist oft einfacher, mit der log-Likelihood-Funktion zu arbeiten:
n
L(θ1,..., θm)= ∑ log f ( xi|θ1 ,...,θm )
i =1
Beispiel: Poisson-Verteilung
−λ k
P(X=k)= e λ . X1,...,Xn u.i.v. ~ Po(λ)
k!
x1,...,xn Realisationen
−λ
k
n
lik(λ)= ∏ e λ
k!
i =1
0
n
n
n
i =1
i =1
i =1
β(θ)=P(T(X)∉R|θ), θ∈ΘA (eine Funktion von θ)
Beispiel A: X sei B(10,p)-verteilt
H0: p=0.5 (einfach), HA: p>0.5 (zusammengesetzt, einseitig)
Test-Statistik X: mögliche Werte Ω={0,1,...,10}
R={X>c}, für ein festes x∈Ω
c=7, Signifikanzniveau=α=P(X>7|H0)
H0 irrtümlich verworfen=1-P(X≤7|H0)=0.55
c=6 ⇒ α=-172
Wir legen das Signifikanzniveau bei α=0.55 fest, also c=7.
HA: p>0.5. β(p)=P(X≤7|p), p>0.5
H0 irrtümlich akzeptiert
Fehler 2.Art
p=0.6
β(p)=0.833
1-β(p)=0.176
p=0.7
β(p)=0.617
1-β(p)=0.383
p→1
β(p)→0
1-β(p)→1
p→1
β(p)→1-α
1-β(p)→α
”Macht eines Tests”: Wahrscheinlichkeit, dass H0 zurecht verworfen wird.
mehr Experimente ⇒ mehr Daten ⇒ mehr “Macht”
L(λ)= ∑ ( xi log λ − λ −log x !) =log λ ∑ xi − nλ − ∑ log xi !
n
n
L’(λ)= 1 ∑ xi − n =0 ⇒ λˆ= 1 ∑ xi = x
n i =1
λ i =1
Beispiel: X1,...,Xn u.i.v. ~ N(µ,σ2)
− 1 ( xi − µ )
2
2
n
lik(µ,σ)= ∏ 1 ⋅ 1 ⋅e
i =1
2π σ
α̂ , die
σ2
(
n
2
L(µ,σ)= ∑ − 1 log(2π ) −log σ − 1 2 ( xi − µ )
i =1
2
2σ
∂L( µ ,σ ) 1 n
= 2 ∑ ( xi − µ ) = 0
∂µ
σ i =1
)
n
∂L ( µ ,σ )
2
= − n + 13 ∑ ( xi − µ ) = 0
∂σ
σ
σ i =1
⇒ µˆ= x
n
2
⇒ σˆ= 1 ∑ ( xi − x )
n i =1
Beispiel B: klassischer t-Test
X1,...,Xm ~ N(µ,σ2), σ unbekannt.
H0µ0=µ0, HAµ0≠µ0.
3. Gamma-Verteilung
X1,...,Xn u.i.v. Ga(α,λ)
n
−λ x
lik(α,λ)= ∏ (1 ) λα xiα −1e i
i =1 Γ α
-9-
Beispiel: zufällige Ordnung von 100 Testpatienten zu einer Gruppe der
Grösse 60 mit Medikamenten-Behandlung und zu einer anderen Gruppe der
Grösse 40 mit Placebo-Behandlung.
α (Signifikanzniveau) wird festgelegt.
Test: Verwirf H0 falls |T(X)|>tn-1(α/2)R={x:|x|>(α/2)} Verwerfungsbereich
Überprüfung des Signifikanzniveaus:
P(T(X)∈R|H0) H0 irrtümlich verworfen
X ~ N(µ1,σ2/n), Y ~ N(µ2,σ2/m)
=P(|T(X)|>tn-1(α/2)|H0)=P(|
( X −Y ) − ( µ1 − µ2 )
X − Y ~ N(µ1-µ2,σ2(1/n+1/m))
n ( X − µ0 )
|>tn-1(α/2)|H0)=α
s
σ 1+ 1
Wahrscheinlichkeit eines Fehlers 2.Art:
n
n ( X − µ0 )
|≤tn-1(α/2)|HA,µ)
s
β(µ)=P(|
|
( X −Y ) − ( µ1 − µ2 )
s 1 + 1
n m
Teststatistik
n ( X − µ0 )
>-tn-1(α/2)
s
n
in anderen Worten, falls µ0 nicht im 100(1-α)%-Vertrauensintervall für µ liegt.
VI=[ x − s tn-1(α/2), x + s tn-1(α/2)]
n
100(1-α)%-VI für µ = Werte µ0, wofür bei einem Test vom Niveau α die
Nullhypothese H0: µ=µ0 nicht verworfen wird.
Bemerkung 2: der einseitige Test
Wir testen H0: µ=70, HA:µ<70.
Ein Kunde interessiert sich nur für negative Abweichungen von 70. Ich
n ( X − µ0 )
<-tn-1(α/2) ist.
s
verwerfe H0, falls T(X)=
R={x:x<-tn-1(α/2)}. P(T(X)∈R|H0)=P(T(X)<-tn-1(α/2)|H0)=α.
(
)
α=0.05, tn-1(α)=1.83, n X −70 =-2.08<-1.83
s
H0 wird verworfen
Neyman-Pearson Lemma:
Das Konzept eines besten Tests. Wir behandeln 2 einfach Hypothesen
H0: X1,...,Xn haben gemeinsame Dichte f0(x)
HA: X1,...,Xn haben gemeinsame Dichte fA(x)
Gesucht ist ein Test mit den Eigenschaften
i) α≤α0 für ein vorgegebenes α0.
ii) 1-β möglichst gross.
Einen solchen Test nennt man besten Test vom Niveau α0.
Wir definieren den Likelihood-Quotient:
L=f0(x)/fA(x), falls L klein ist, sind die Daten unter der alternativen Hypothese
wahrscheinlicher.
Test: wir verwerfen die Nullhypothese, falls L klein ist.
Lemma: sei dieses α0 vorgegeben. Wir können einen Test konstruieren, damit:
i) α=α0. ii) H0 verworfen wird, falls (f0(x)/fA(x))<k
Dieser Test ist der beste Test vom Niveau α0.
Beispiel: X ~ B(10,p)
H0: p=0.5, HA: p=0.5.
(x)
f (x)=(p (x)= (10 ) 0.6 0.4
x
f0(x)=(p0(x)= 10 0.5x0.510-x
A
0
x
s 1 + 1
n m
2
n + m −2
t-Verteilung
=T(X,Y)
Beispiel: Vergleich zweier Reifentypen, wo bei jedem Testfahrzeug und jedem
Fahrer beide Reifentypen verwendet werden.
X1,...,Xn u.i.v. N(µ1,σ2) Reifentyp 1
Y1,...,Yn u.i.v. N(µ2,σ2) Reifentyp 2
Zi=Xi-Yi, i=1,...,n
Z1,...,Zn u.i.v. N(µ1-µ2,2σ2)
δ=µ1-µ2
H0: δ=0, HA: δ≠0
wir haben wieder einen 1-Stichproben-Test.
⇔ falls µ0< x − s tn-1(α/2) oder µ0> x + s tn-1(α/2)
n
( X −Y )
m
j =1
~ tn+m-2
Der gepaarte Test
H0 wird nicht verworfen. Falls α=10% wäre, tq(α/2)=1.83. H0 würde
verworfen. Aber die Chance eines Fehlers 1. Art ist vielleicht zu gross.
Bemerkung 1:
n ( X − µ0 )
>tn-1(α/2) oder
s
2
i =1
unter H0 ist T(X,Y) ~ tn+m-2
H0 wird verworfen, falls |T(X,Y)|>tn+m-2(α/2)
n ( X − µ0 )
|>tn-1(α/2)
s
n
∑ ( X i − X ) + ∑ (Y j −Y )
n
n ( X −70) |=2.08 < 2.26
s
H0 wird verworfen, falls
m
Schätzer für σ: S=
Macht (W’keit, H0 zurecht verworfen wird): 1-β(µ)
Unter HA hat T(X) eine nicht-zentrale t-Verteilung. Es ist möglich β(µ) zu
berechnen.
Beispiel: Ein Bäcker behauptet: meine Brötchen wiegen im Durchschnitt
genau 70g. Eine Nachkontrolle von 10 Brötchen ergab folgende Gewichte:
69, 70, 71, 68, 67, 70, 70, 70, 67, 65.
Modell: X1,...,Xn u.i.v. N(µ,σ2), σ unbekannt
H0: µ=70, HA: µ≠70. Sicht des Bäckers
x =69.1<70, n=10, s=1.37, α=0.05, tq(α/2)=2.26
H0 wird verworfen, falls |
~ N ( 0,1)
10-x
f0(x)/fA(x)=(5/6)x(5/4)10-x
Likelihood-Quotient=(4/6)x(5/4)10 f0(x)/fA(x)<k entspricht x>c
c=7, α0=P(X>c|H0)=0.055
Wir verwerfen H0, falls X>7 ist. Dieser Test ist der beste Test vom Niveau
0.055
Bemerkung:
HA zusammengesetzt. Ein Test, welcher für jede alternative Hypothese in der
Menge HA der Beste ist, heisst ein gleichmässig bester Test. A2:HAP>0.5. Unser
Test ist der gleichmässig beste Test.
Für einseitige Tests existiert manchmal ein gleichmässig bester Test. Für
zweiseitige Tests existiert kein gleichmässig bester Test.
6.6 Vergleich von 2 Behandlungen
T-Test: 2-Stichproben-Version (ungepaart)
X1,...,Xn u.i.v. N(µ1,σ2)
Y1,...Ym u.i.v. N(µ2,σ2)
H0: µ1=µ2, µ1-µ2=0, HA: µ1≠µ2, µ1-µ2≠0
-10-
Herunterladen