Wahrscheinlichkeitsrechnung und

Werbung
Wahrscheinlichkeitsrechnung und Statistik Zusamenfassung
Patrick Pletscher
22. September 2003
1 Wahrscheinlichkeiten
Exkurs in die Kombinatorik
1.1 Ereignisraum
Permutationen ohne Zurücklegen
Aus n Objekten sind k ≤ n herauszugreifen, wobei
die Reihenfolge eine Rolle spielen soll.
Der Ereignisraum Ω umfasst alle möglichen Ausgänge
eines Zufallsexpermiments.
Ein Elementarereignis Ω ist ein Element ω ∈ Ω
Ein Ereignis A ist eine Teilmenge von Ω, d.h. eine
Kombination von Elementarereignissen A ⊂ Ω
] Mögl. =
n!
(n−k)!
Permutationen mit Zurücklegen
Gegeben sind n Objekte. Wieviele Folgen der Länge
k können gebildet werden, falls jedes Objekt beliebig
oft gewählt werden darf.
Ac (Komplement) ist das Ereignis, dass A nicht
eintritt.
A ist die Klasse der beobachteten Ereignisse. Falls Ω
endlich ist, dann ist A die Menge aller Teilmengen ] Mögl. = nk
von Ω, d.h. die Potenzmenge.
P : A → [0, 1]
.
P(A)= ’die Wahrscheinlichkeit, dass A eintritt’
Kombinationen ohne Zurücklegen
Gegeben eine Menge mit n Elementen. Wieviele
Teilmengen mit k ≤ n Elementen kann man daraus
bilden?
Axiome der Wahrscheinlichkeitstheorie
] Mögl. =
1.2 Das Wahrscheinlichkeitsmass
n!
(n−k)!k!
=
n
k
A1 0 ≤ P (A) ≤ 1 für alle A ⊂ Ω
Bsp: Lotto (6 aus 45) A = {6Richtige} = 45
6
B = {4Richtige} = 64 39
2
A2 P (Ω) = 1
A3 Sei A1 , A2 , . . . eine
Folge disjunkter Ereignisse,
P∞
dann P (∪∞
)
=
i=1
i=1 P (Ai )
1.4 Bedingte W’keiten
Weitere Rechenregeln
P (Ac ) = 1 − P (A)
Seien A,B Ereignisse, P (A) > 0
Def.: Die bedingte W’keit, dass A gegeben B eintritt,
ist
P (B|A) = P P(A∩B)
(A)
P (∅) = 0
A ⊂ B ⇒ P (A) ≤ P (B)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
Multiplikationssatz
Sei P (A) > 0: Dann
P (A ∩ B) = P (B|A)· P (A)
¯ + P (B))
¯
P (A ∪ B) = 1 − (P (A)
und → Multiplikation
1.3 Berechnung von W’keiten in
endlichen Räumen
P (A) =
Satz von der totalen W’keit
Gegeben seien Ereignisse A1 , . . . , An mit P (Ai ) > 0.
Def.: Die Ai bilden eine Zerlegung von Ω, falls
|A|
|Ω|
1
1. Ai ∩ Aj = ∅ für i 6= j, paarw. disj.
2. Ω =
n
S
Die Verteilungsfunktion ist:
• rechtsstetig
Ai
i=1
• limx→−∞ F (X) = 0, limx→+∞ F (X) = 1
Dann gilt für B ⊂ Ω dass
n
P
P (B|Ai )· P (Ai )
P (B) =
2.3 Einige wichtige diskrete Verteilungen
i=1
Satz von Bayes
P (A|B) = P P(A∩B)
(B) =
1. Uniforme Verteilung (Gleichverteilung)
ω = {x1 , . . . , xn }
p(xi ) = P (X = xi ) = n1 Bsp: Würfeln mit einem
Würfel
P (B|A)·P (A)
P (B|A)·P (A)+P (B|AC )·P (AC )
2. Bernoulli-Verteilung
X nimmt nur die Werte 0 und 1 an
P (X = 1) = p
P (X = 0) = 1 − p
P (X) = px · (1 − p)1−x , x = 0, 1
X ∼ Be(p)
Allgemeine Formel von Bayes
P (B|Ak )P (Ak )
P (Ak |B) = P
n
P (B|Ai )P (Ai )
i=1
1.5 Unabhängigkeit
Seien A, B ⊂ Ω zwei Ereignisse.
Def. A und B sind unabhängig, falls P (A ∩ B) =
P (A)P (B)
Falls P (A) > 0:
A,B unabh. ⇔ P (B|A) = P (B)
Falls P (B) > 0:
A,B unabh. ⇔ P (A|B) = P (A)
3. Binomialverteilung
X=”Anzahl
Erfolge bei n Versuchen”
p(k) = nk pk (1 − p)n−k
X ∼ B(n, p)
Approx. durch Poisson
Multinomialverteilung
Allgemeine Definition der Unabhängigkeit
4. Die geometrische Verteilung
X=”Anzahl der Versuche, bis ein Erfolg eintritt”
p(k) = P (X = k) = (1 − p)k−1 p
P [X1 = x1 , X2 = x2 , X3 = x3 ] =
n Ereignisse A1 , . . . , An heissen unabhängig, falls für
jede Wahl von je m Ereignissen
Ak1 , . . . , Akm , {k1 , . . . , km } ⊂ {1, . . . , n},
stets gilt:
P (Ak1 ∩ . . . ∩ Akm ) = P (Ak1 )· . . . · P (Akm )
x1 x2 x3
n!
x1 !x2 !x3 ! p1 p2 p3
5. Die negativbinomiale Verteilung
X=”Anzahl Versuche, bis ich r-mal erfolgreich
bin”
r
k−r
P (X = k) = k−1
r−1 p (1 − p)
2 Zufallsvariable
6. Die hypergeometrische Verteilung
n Gegenstände in einer Urne, r vom Typ I und
n-r vom Typ II, ich ziehe m davon (ohne Zurück(r )( n−r )
legen) P (X = k) = k nm−k
(m)
Bsp: Lotto, 6 aus 45, W’keit eines Vierers:
n=45, r=6, m=6, k=4
2.1 Begriff der ZV
Es sei Ω ein Ereignisraum. Eine ZV auf Ω ist eine
Funktion Ω → R.
Wir nennen eine ZV diskret, falls sie endliche oder
abzählbar viele Werte annimmt.
7. Die Poisson-Verteilung
X=”Anzahl Ereignisse in einem Zeitintervall(Anrufe, gedruckte Files)”
X ist Poisson-verteilt mit Parameter λ, falls
k −λ
e
P (X = k) = λ k!
k = 0, 1, . . .
Wertebereich W = 1, . . . , ∞
λ = E[X] = n· p
2.2 Wahrscheinlichkeit- und
Verteilungsfunktion
Def. Die W’keitsfunktion der diskreten ZV X ist die
Funktion
P (X = x) falls x ∈ ω
p(x) =
0
sonst
ω: Wertebereich von X
2.4 Stetige Zufallsvariablen
Sind ZV, die Werte in einem Intervall W annehmen
können.
z.B.: W = R, W = R+ , W = [0, 1]
Definition
Sei X eine ZV mit Verteilungsfunktion oder
W’keitsfunktion F (x) = P [X ≤ x].
Falls es eine Funktion f(x) gibt, so dass
Verteilungsfunktion F: F (x) = P (X ≤ x)
Für diskrete
P ZV ist
F (x) = p(xi )
xi : xi ∈ ω, xi ≤ x
2
Rx
F (x) = −∞ f (y)dy für alle x ∈ W , dann heisst f (x) 2.5 Transformation von ZV
die Dichte von X.
Sei X eine ZV mit Verteilungsfkt. FX (x) und Dichte
fX (x).
Gesucht: Verteilung und Dichte von Y = g(X)
Eigenschaften
• f (x) ≥ 0 für alle x
Satz
Wenn X ∼ N (µ, σ 2 ) und Y = aX + b, dann gilt
Y ∼ N (aµ + b, a2 σ 2 )
• f (x) ist stetig oder stückweise stetig
•
R∞
f (x)dx = 1, weil lim F (x) = 1
x→∞
−∞
• a < b : P [a < X ≤ b] = P [X ≤ b] − P [X ≤ a] =
Satz
Rb
Sei X stetig, mit Dichte fX (x), Verteilung FX (x).
F (b) − F (a) = f (x)dx
a
Sei Y = g(X), mit g diff’bar, streng monoton steigend/fallend auf einem Intervall I, wobei fX (x) = 0
• P [X = a] = 0
für x ∈
/ I (I = R ist zugelassen).
Satz
Dann ist die Dichte von Y
d −1
An allen Stellen, an denen f (x) stetig ist, gilt:
g (y)|
fX (g −1 (y))· | dy
fY (y) =
F 0 (x) = f (x)
0 sonst
wobei g −1 die Umkehrfkt. von g und y ∈ {g(x)|x ∈ I}
Beispiele
von Y ist
1. Gleichverteilung (Uniform Distribution): X ∼ und die Verteilungsfkt.
−1
F
(g
(y))
für g steigend
X
U (0, 1) FY (y) =
−1
1
−
F
(g
(y))
für g fallend
X
1 für x ∈ [0, 1]
f (x) =
y ∈ {g(x)|x ∈ I}
 0 sonst
 0 für x < 0
x für x ∈ [0, 1]
F (x) =

1 für x > 1
Lognormale Verteilung
X ∼ N (µ, σ 2 ), Y = ex
2. Exponentialverteilung X ∼ Exp(λ)
g(x) = ex , g −1 (y) = ln y, I = R
λ>0 λe−λx für x > 0
f (x) =
 0xsonst
Satz
x
 R f (y)dy = R λe−λx dy = 1 − e−λx für x ≥ 0
Sei U ∼ U (0, 1).
F (x) =
0
 0
Sei F (x) eine stetige, streng monoton wachsende
0 für x < 0
Verteilungsfunktion. Setze
Die Exp-Verteilung ist gedächnislos.
X := F −1 (U )
Ein Ankunftsprozess, bei dem die Zeiten zwiDann gilt:
schen den Ankünften Exponentiell-verteilt
P [X ≤ x] = F (x)
ist, heisst Poisson-Prozess. λ heisst dann die
(Ankunfts)Rate des Poisson-Prozess.
3. Die Normalverteilung
X ∼ N (µ, σ 2 )
/
Gauss-Verteilung Definition
• Der Wert F −1 (p) (für p ∈ (0, 1)) heisst das pQuantil der Verteilung F
1
1 x−µ 2
f (x) = √
exp{− (
) }
2
σ
2Πσ
µ = ”Mean”, Mittelwert, −∞ < µ < ∞
σ = Standardabweichung, σ > 0
σ 2 = Varianz
Rx
F (x) =
f (y)dy: keine geschlossene Form,
• F −1 (0.5) heisst der Median der Verteilung F.
−∞
3 Gemeinsame Verteilung
mehrerer ZV
aber Tabellen
Standardisierte NV:
µ = 0, σ = 1
Wenn X ∼ N (µ, σ 2 ) dann ist x−µ
σ ∼ N (0, 1)
0
x−µ
x0 −µ
0
P [X ≤ x ] = P [ σ ≤ σ ] = Φ( x σ−µ )
Φ(−x) = 1 − Φ
Seien X1 , . . . , Xn Zufallsvariablen.
Dann ist F (x1 , . . . , xn ) = P [X1 ≤ x1 , . . . , Xn ≤ xn ]
3
3.1 Stetige ZV
Wichtige Mehrdimensionale Verteilungen
Falls
wir
F (x1 , . . . , xn )
folgendermassen
darstellen
können
F (x1 , . . . , xn )
=
x
Rn
Rx1
f (y1 , . . . , yn )dyn . . . dy1
dann
heisst
...
1. die mehrdimensionale Normalverteilung (stetige
Verteilung)
Dichte:
1√
·
f (x, y) =
2
−∞
−∞
2ΠσX σY
f (x1 . . . xn ) die Dichte von (X1 . . . Xn )
exp{−
1
2(1−ρ2 )[(
x−µX
σX
)2 +(
y−µY
σY
)2 −
2ρ(x−µX )(y−µY )
]
σX σ Y
}
−1 < ρ < +1 Korrelation zw. X und Y.
Randverteilung
1
X 2
exp(− 21 ( x−µ
fX (x) = σ √
σX ) )
X 2Π
Unabhängigkeit von X und Y, genau dann, wenn
ρ=0
Eigenschaften
RR
• P [(X1 . . . Xn ) ∈ A] =
f (~x)d~x
A
R
R
...
f (x1 , . . . , xn )dx1 . . . dx1
1−ρ
=
(x1 ...xn )∈A
R∞
•
...
−∞
R∞
2. Die Multinomiale Verteilung (diskret)
Es werden n unabhängige Experimente durchgeführt. Es gibt jeweils
Pn r mögliche Ergebnisse mit
W’keit p1 , . . . , pr . i=1 pi = 1.
Sei Ni die Anzahl der Ergebnisse ”i”.
Die Vtlg. von [N1 , . . . , Nr ] heisst Multinomialvtlg.
n1
n
p(N1 = n1 , . . . , Nr = nr ) = n1 ···n
p1 · · · pnr r
r
n
n!
n1 ···nr = n1 !···nr ! : Multinomialkoeffizient
RV von Ni :
pNi (ni ) = P [Ni = ni ] = nni pni i (1 − pi )n−ni
r
Q
p(n1 . . . nr ) 6=
pNi (ni ) ⇔ keine Unabh.
f (x1 , . . . , xn )dxn . . . dx1 = 1
−∞
• f (x1 , . . . , xn =
∂n
∂x1 ...∂xn F (x1
. . . xn )
3.2 Randverteilungen
Gegeben sei die gemeinsame Verteilung von X und
Y:F (x, y). Die Randverteilung von X ist:
FX (x) = P [X ≤ x] = P [X ≤ x; Y ∈ (−∞, ∞)] =
lim F (x, y)
y→∞
i=1
Diskrete ZV: Y ∈ {y1 , y2 , . . .}
Die W’keitsfkt.
der Randverteilung von X ist
P
pX (x) = p(x, yj )
3. Mehrdim. Verteilungen mit U(0,1)-RV
1
F (x, y) = exp(−[(− ln x)β + (− ln y)β ] β
x, y ∈]0, 1], β ≥ 1
RV: FX (x) = F (x, y = 1) = x: U(0,1)-Vrtlg. (Y
genauso)
j
Stetige ZV: Die Dichte der RV von X ist
Rx R∞
d
d
fX (x) = dx
FX (x) = dx
[
f (x0 , y 0 )dy 0 ]dx0 =
3.4 Bedingte Verteilungen
−∞ −∞
R∞
0
f (x, y )dy
0
Diskrete ZV
−∞
X,Y ZV diskret mit gemeinsamer W’keitsfkt. p(x,y)
Def. Die bedingte W’keitsfkt. von X unter der
Bedingung, dass Y=y ist, ist pX|Y (x|y) = P [X =
x|Y = y] = P [X = x, Y = y]/P [Y = y]
Beispiel 6(x − y) für 0 ≤ y ≤ x ≤ 1
f (x, y) =
0 sonst
Rx
fX (x) = f (x, y)dy
Bem:
0
fY (y) =
R1
P
f (x, y)dx
•
y
P
pX|Y (xi , y) =
i
3.3 Unabhängigkeit von ZV
p(xi ,y)
i
pY (y)
=1
• Wenn pX|Y (x|y) = pX (x) für alle x,y, dann sind
X und Y unabh.
Die ZV X1 , . . . , Xn sind unabhängig, falls
F (x1 , . . . , xn ) = FX1 (x1 )· FX2 (x2 )· . . . · FXn (xn )
Stetige ZV
für alle (x1 . . . xn ) ∈ Rn
1. Diskreter
Fall:
(X1 . . . Xn )
⇔ p(x1 . . . xn ) = PX1 · . . . · PXn (xn )
2. Stetiger
Fall:
fX1 (x1 )· . . . · fXn (xn )
X,Y unabhängig (F (x, y)
f (x, y) = fX (x)· fY (y)
f (x1 . . . xn )
=
unabh. Seien X,Y stetige ZV mit gem. Dichte f (x, y)
Def. Die bedingte Dichte von Y, gegeben X=x, ist
(x,y)
fY |X (y|x) = ffX
(x) , wenn 0 < fX (x) < ∞ sont
=
fY |X (y|x) = 0
FX (x)· FY (y))
⇔
Bem:
4
•
R∞
4.2 Funktionen von ZV
fY |X (y|x)dy = 1
−∞
Satz
• fY |X (y|x) = fY (y) für alle x,y ⇔ X und Y sind Sei Y = g(X). Falls X diskret
P mit W’keitsfkt. p(x)
unabh.
ist, dann ist E[g(X)] =
g(xi )px (xi ), falls die
i
X,Y ZV mit bekannter gem. Vtlg.
Summe absolut konvergiert.
Falls X stetig verteilt verteilt ist mit Dichtefkt. f,
+∞
R
dann ist E[g(X)] =
g(x)f (x)dx falls das Integral
Was ist die Vtlg. der Summe X+Y?
konvergiert.
3.5 Funktionen von ZV
−∞
1. Diskreter Fall
Z = X +P
Y
pZ (z) = p(xi , z − xi ),
Satz
Seien X1 , . . . , Xn , Y ZV mit Y = g(X1 , . . . , Xn ).
Falls X1P
,...,X
n diskret sind mit p(x1 , . . . , xn ), dann
P
E[Y ] = . . . g(x1 , . . . , xn )p(x1 , . . . , xn )
i
Falls X,YPunabhängig:
pZ (z) = pX (xi )pY (z − xi ) (Faltung von X,Y)
X1
Xn
stetiger Fall:
+∞
R
E[Y ] =
g(x1 , . . . , xn )f (x1 , . . . , xn )dx1 . . . dxn
i
2. stetiger Fall
X,Y Dichtefkt. f(x,y) sind gegeben. Z=X+Y
+∞
R
fZ (z) =
f (x, z − x)dx
−∞
falls das Integral absolut konvergiert.
−∞
Falls X,Y unabhängig:
+∞
R
fZ (z) =
fX (x)fY (z − x)dx
Korollar zum Satz
Seien X,Y unabh. ZV
Dann E[g(X)h(Y )] = E[g(X)]E[h(Y )]
−∞
4 Erwartungswert
4.3 Linearkombinationen von ZV
Satz
Der E’wert ist ein linearer Operator, d.h. X1 , . . . , Xn
Diskrete ZV
seien ZV mit E’werten E[X1 ], . . . , E[Xn ]. Sei Y =
n
n
P
P
X sei diskrete ZV mit W’keitsfunktion
P p(x). Dann ist ai +
bi Xi . Dann ist E[Y ] = ai +
bi E[Xi ].
der EW von X def. durch E[X] = xi p(xi ) falls die
i=1
i=1
4.1 Definition und Eigenschaften
i
Reihe absolut konvergiert.
4.4 Varianz und Standardabweichung
1. Bernoulli Verteilung (X ∼ Be(p))
E[X] = 1· p + 0· (1 − p) = p
Definition
X sei eine ZV mit E’wert E[X]. Dann heisst
var(X) = E[(X − E[X])2 ] die Varianz von
X (falls var(X) < +∞). Es gilt aber auch
var(X) = E[X 2 ] − (E[X])2 , was meist einfacher zu berechnen
ist. Es gilt: var(X) > 0!
p
σ(X) = var(X) heisst Standardabweichung.
2. Geometrische Verteilung (X ∼ N b(1, p))
E[X] = p1
3. Poisson Verteilung (X ∼ Pλ (x))
∞ −λ k
P
e λ
E[X] = λ
k!
k=1
Stetige ZV
X diskret: P
X sei stetig verteilt mit Dichtefkt. fX . Dann ist var(X) = (xi − µ)2 p(xi ), µ = E[X]
+∞
i
R
E[X] =
xfX (x)dx, falls das Integral absolut konX
stetig:
−∞
+∞
R
vergiert.
var(X) =
(x − µ)2 f (x)dx, µ = E[X]
−∞
1. Uniforme Verteilung (X ∼ U (0, 1))
E[X 2 ] = E[X]2 − var(X)
R1
E[X] = xdx = [ 21 x2 ]10 = 12
0
2. Normale Verteilung (X ∼ N (µ, σ 2 ))
E[X] = µ
Satz
Sei X eine ZV mit var(X) < +∞, a, b ∈ R. Dann ist
var(a + bX) = b2 var(X)
3. Cauchy Verteilung
1
f (x) = Π1 1+x
2 , −∞ < x < +∞
E[X] = +∞
1. Bernoulli-Verteilung X ∼ Be(p)
5
E[X] = p
var(X) = p(1 − p)
8. var(a +
n
P
bi X i ) =
i=1
n P
n
P
bi bj cov(Xi , Xj )
i=1 j=1
9. var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
2. Binomial Verteilung X ∼ B(n, p)
E[X] = np
var(X) = np(1 − p)
10. Falls X1 , . . . , Xn unabh.:
n
n
P
P
var( Xi ) =
var(Xi )
i=1
3. Normalverteilung X ∼ N (µ, σ)
E[X] = µ
var(x) = σ 2
i=1
im Gegensatz dazu gilt immer: E[
n
P
4. Uniforme Verteilung U ∼ U (0, 1)
E[X] = 21
1
var(U ) = 12
n
P
xi ] =
i=1
E[Xi ]
i=1
X, Y seien ZV mit endlichen Varianzen. Dann heisst
PXY = ρ(X, Y ) = √ cov(X,Y )
var(X)var(Y )
5. X ∼ P oisson(µ)
E[X] = µ
var(X) = µ
die Korrelation.
Eigenschaften
6. Geometrische Verteilung
E[X] = p1
var(X) = 1−p
p2
• ρ(X, Y ) ∈ [−1, 1]
• falls ρ(X, Y ) = ±1 dann P [Y = aX + b] = 1 für
a, b ∈ R, b 6= 0
7. Exponential Verteilung
E[X] = λ1
var(X) = λ12
• ρ(X, Y ) ≈ ±1 ⇒ X und Y sind stark linear
abhängig
• ρ(X, Y ) ≈ 0 ⇒ X und Y sind schwach linear
abhängig
Gamma Funktion
R∞
α > 0 Γ(α) = uα−1 e−u du
0
α ∈ R+ : Γ(α) = (α − 1)!
α > 0 : √Γ(α) = (α − 1)Γ(α
− 1)
√
Γ( 12 ) = Π, Γ( 32 ) = 12 Π
5 Grenzwertsätze
Seien X1 , . . . , Xn unabh. ZV, mit E[Xi ] = µ und
var(Xi ) = σ 2 < +∞.
Dann gilt:
lim P (| X̄n − µ |≥ ) = 0 ∀ > 0
4.5 Kovarianz und Korrelation
µX = E[X], µY = E[Y ]
cov(X, Y ) = E[(x − µX )(Y − µY )]
cov(X, Y ) = E[XY ] − µX µY
n→∞
5.1 Zentraler Grenzwertsatz
X1 , X2 , . . . Folge identisch verteilter, unabh. ZV mit
E[Xi ] = µ, var(Xi ) = σ 2 < ∞
n
P
sn =
xi ; Standardisierung: sn√−µn
nσ
RR
E[XY ] =
xyf (x, y)dxdy falls gem. Dichtefkt.
E[XY ] = E[X]· E[Y ] falls unabh.
i=1
Rechenregeln
Standardisierung: U =
1. X,Y unabh. ⇒ cov(X, Y ) = 0
Die Umkehrung gilt aber nicht.
X−µ
σ
∼ N (0, 1)
Zentraler Grenzwertsatz
lim P ( sn√−µn
≤ x) = Φ(x), Φ ist die Vertfkt.
nσ
2. cov(X, X) = var(X)
n→∞
der N (0, 1)-Verteilung. Kann auch so geschrieben
werden:
X̄−µ
√ ≤ x) ∼ N (0, 1)
lim P ( σ/
n
3. cov(aX, Y ) = a· cov(X, Y )
4. cov(X + Y, Z) = cov(X, Z) + cov(Y, Z)
n→∞
5. cov(X + Y, Z + W ) = cov(X, Z) + cov(X, W ) +
cov(Y, Z) + cov(Y, W )
7. cov(a
+
bi X i , c
i=1
n P
m
P
120
P
Ii > x] = 0.95
i=1
6. cov(X, a) = 0 für a ∈ R
n
P
Beispiel Gesucht ist x, so dass P [
+
m
P
dj Yj )
Aus dem ZGS folgt:
120
120
P
P
0.05
=
1
−
P
[
I
>
x]
=
P
[
Ii ≤ x] =
i
=
i=1
j=1
120
P
bi dj cov(Xi , Yj )
√
P [ i=1
Ii −120E[I]
120 V ar(I)
i=1 j=1
6
i=1
≤ √x−120E[I] ] ≈ Φ( √x−120E[I] )
120 V ar(I)
120V ar(I)
Monte-Carlo-Integration
j(f ) =
R1
Satz
Sei var(Xi ) = σ 2 . Dann E[S 2 ] = σ 2 . Man sagt, der
Schätzer S 2 habe keinen Bias.
f (x)dx sei numerisch zu berechnen
0
Generiere unabh. auf [0, 1] gleichverteilte ZV.
n
6.2 χ2 Verteilung
¯ ) = 1 P f (ui ).
U1 , . . . , Un und berechne f (U
n
i=1
Satz
Falls X ∼ N (0, 1), dann ist X 2 ∼ Γ( 21 , 12 ). Diese Verteilung nennt man χ21 -Verteilung. Lies: chi-Quadrat
mit 1 Freiheitsgrad.
Sei var(f (Ui )) endlich.
Nach dem Gesetz der grossen Zahlen gilt:
n
R1
P
lim n1
f (Ui ) = E[f (Ui )] = dx
n→∞
i=1
E[g(x)] =
R∞
0
Satz
Seien X1 , . . . , Xn unabh. ident. verteilt, Xi ∼ χ21 .
Dann ist V = X1 + . . . + Xn χ2n -verteilt. χ2n ist eine
Γ( 21 , 12 )-Verteilung. D.h., die Dichte ist
n
t
f (t) = Γ( n12n/2 t 2 −1 e− 2 t ≥ 0
g(x)· fx (x)dx, wobei fx (x) die Dichte
−∞
von x ist.
5.2 Normalapproximation der
Binomialverteilung
2
Falls V ∼ χ2n , dann E[V ] = n, var(V ) = 2n
Falls gilt np(1 − p)p > 9 so kann B(n; p) durch
Satz
N (µ = np; σ =
np(1 − p)) approximiert werSeien X1 , . . . , Xn eine Stichprobe von N (µ, σ 2 )den, sonst falls np ≤ 10 und n ≥ 1500p durch
2
∼ χ2n−1
verteilten ZV. Dann ist (n−1)S
P oiss(λ = np).
σ2
Beispiel
6.3 t Verteilung
VB auf α Niveau für Binomialvrtlg.
√X−np ∼ N (0, 1)
np(1−p)
p
⇒ {X > Φ−1 (1 − α)· np̂(1 − p̂) + np̂}
Satz
Sei X1 , . . . , Xn eine Stichprobe aus einer N (µ, σ 2 )X̄−µ
√ tn−1 verteilt. Dichte
Population. Dann ist t = S/
n
der t-Verteilung: f (x) =
6 Statistik
Γ( n+1
2 )
√
· (1
ΠnΓ( 12 )
+
x2 −n+1
2
.
n )
6.4 F Verteilung
Definition
2
Eine Stichprobe vom Umfang n ist eine Folge U und V unabh. χ ZV mit m bzw. n Freiheitsgraden,
X1 , . . . , Xn von unabh., ident. verteilten ZV. Ei- so wird die Verteilung:
ne Statistik ist eine ZV g(X1 , . . . , Xn ), wobei
U/m
g : Rn → R
W =
V /n
als F Verteilung mit m und n Freiheitsgraden bezeichnet, geschrieben Fm,n
6.1 empirischer Mittelwert und
empirische Varianz
7 Konfidenzintervalle ...
Für eine Stichprobe X1 , . . . , Xn , n ≥ 2
n
X̄ =
7.1 ... für unbekannte Mittelwert µ einer
Normalverteilung bei bekannter
Varianz σ 2
1X
Xi
n i=1
n
S2 =
1 X
(Xi − X̄)2
n − 1 i=1
Vertrauensniveau (1 − α) wählen (z.B. 0.95)
Satz
Falls die Xi EW µ und var σ 2 haben, so ist
2
E[X̄] = µ, var(X̄) = σn . X̄ ist eine ZV, µ eine Zahl.
Man sagt, X̄ ist ein Schätzer von µ.
Eine Stichprobe
1. Verteilung ist gleich Z =
X̄−µ
√
σ/ n
∼ N (0, 1)
2. Konfidenzintervall
Satz
2
Falls die Xi N (µ, σ 2 )-verteilt sind, so ist X̄ N (µ, σn )verteilt.
a) zweiseitig
X̄−µ
√ ≤ q1− α ] = 1 − α
P [q α2 ≤ σ/
n
2
⇒ [X̄ − q1− α2 · √σn ≤ µ ≤ X̄ + q α2 ]
7
b) nach oben
X̄−µ
√ ≤ q1−α ] = 1 − α
P [ σ/
n
Eine Stichprobe
S2
(n − 1) ∼ χ2n−1
σ2
c) nach unten
X̄−µ
√ ]=1−α
P [qα ≤ σ/
n
Zwei Stichproben
2
2
SX
/σX
∼ F(m−1,n−1)
2
SY /σY2
Zwei Stichproben (Differenz der Mittelwerte)
gleich wie eine Stichprobe, aber mit folgender Verteilung:
Wobei m (n) Anz. Experimente für ZV X (Y).
(X̄ − Ȳ ) − (µX − µY )
q 2
∼ N (0, 1)
2
σY
σX
+
m
n
7.4 ... für unbekannten Parameter p
einer Binomialverteilung
1. Verteilung ist gleich Z = √np̂−np
np̂(1−p̂)
7.2 ... für unbekannten Mittelwert µ
einer Normalverteilung bei
unbekannter Varianz σ 2
wobei p̂ =
∼ N (0, 1),
k
n
k= Anz. Erfolge bei n Versuchen.
q1− α p
2. Konfidenzintervall [p̂ − n 2 np̂(1 − p̂) ≤ p ≤
p
qα
p̂ − n2 np̂(1 − p̂)]
Vertrauensniveau (1 − α) wählen (z.B. 0.95)
8 Schätztheorie
Eine Stichprobe
1. Verteilung ist gleich T =
X̄−µ
√
S/ n
Ein Schätzer ist erwartungstreu, falls E[θ̂] = θ.
∼ tn−1
8.1 Maximum Likelihood
2. Konfidenzintervall
Sei X1 , . . . , Xn eine Stichprobe des Umfangs n einer
a) zweiseitig
Dichte f (x, θ), dann ist die gemeinsame Dichte von
α
α
P [tn−1, 2 ≤ T ≤ tn−1,1− 2 ] = 1 − α
(X1 , . . . , Xn ) die Likelihood-Funktion.
S
¯
¯
⇒ [Xn − tn−1,1− α2 · √n ≤ µ ≤ Xn +
• X diskret:
tn−1,1− α2 · √Sn ]
n
Q
L(Θ) =
P (Xi = xi )
b) nach oben
i=1
P [T ≤ tn−1,1−α ] = 1 − α
• X stetig:
n
Q
c) nach unten
L(Θ) =
f (xi )
P [tn−1,α ≤ T ] = 1 − α
i=1
Wähle Θ so dass die Realisierungen X1 , . . . , Xn am
wahrscheinlichsten sind. Um die Berechnung zu vereinfachen: logarithmiere, so ergibt sich aus dem Produkt eine Summe. l(Θ) = log L(Θ). Differenziere da-
Zwei Stichproben (Differenz der Mittelwerte)
gleich wie eine Stichprobe, aber mit folgender Verteilung:
(X̄ − Ȳ ) − (µX − µY )
q
∼ tm+n−2
1
SP m
+ n1
nach und setze gleich 0.
nach Θ ⇒ Θ̂M L
∂
∂Θ l(Θ)
!
= 0. Löse danach
8.2 Momentenmethode
wobei Sp :
Sp2 =
Berechne für X ∼ F (Θ):
2
(m − 1)SX
+ (n − 1)SY2
m+n−2
• E[X] hängt von Θ ab (da f (x) oder P (X = xi )
von Θ abhängen).
n
R∞
P
E[X] = −∞ xf (x)dx oder E[X] =
xi P (X =
die gepoolte Varianz ist
i=1
falls m=n und Stichproben nicht unbedingt unabh.:
Di = Xi − Yi
D̄−(µX −µY )
√
∼ tn−1
SD / n
xi )
• X̄ =
1
n
n
P
Xi
i=1
Danach setze E[X] = X̄ und löse nach Θ ⇒ Θ̂M M
7.3 ... für unbekannte Varianz σ 2 einer
Normalverteilung
p-tes Moment: Setze auch noch E[X 2 ]
=
X¯2 . . . E[X p ] = X¯p ⇒ p-Gleichungen, löse nach Θ
Vertrauensniveau (1 − α) wählen (z.B. 0.95)
8
9 Testen von Hypothesen
Unter H0 : T ∼ tn−1
9.1 Neyman-Pearson Paradigma
Verwerfungsbereich:
Nullhypothese H0 :
Die zu zeigende Aussage, meist also µ = µ0
• HA : µ 6= µ0
V B = {| T |≥ tn−1,1− α2 }
Alternative HA :
Was gilt, falls HA nicht gilt:
µ 6= µ0 , µ > µ0 , µ < µ0
• HA : µ > µ0
V B = {T > tn−1,1−α }
Fehler 1. Art (α):
Verwerfung
von
H0 ,
α = P (F ehler 1.Art)
• HA : µ < µ0
V B = {T < tn−1,α }
obwohl
H0
richtig.
Falls T bzw. |T | in VB ⇒ H0 verwerfen, sonst H0
beibehalten.
Fehler 2. Art (β):
Keine Ablehnung von H0 , obwohl H0 falsch. 2-Stichproben t-Test
β = P (F ehler 2.Art).
(X̄−Ȳ )−(µX −µY )
√1 1
T
=
Macht Macht = 1 − β. W’keit, dass H0 verworfen Sp2
wird, wenn es tatsächlich falsch ist.
ist.
=
SP
m+n
2
2
(m−1)SX
+(n−1)SY
m+n−2
∼
tm+n−2 .
Wobei
die gepoolte Varianz
Man versucht α möglichst klein, und 1 − β möglichst
gross zu wählen. Dazu wird α fixiert. Danach konstruiert man dazu einen Test mit möglichst grosser 9.4 Der z-Test
Macht.
Mittelwert bei bekanntem σ
Beispiel Macht, wenn µX , σX gleich wirklicher Mittelwert bzw. Varianz und G die zuvor ausgerechnete
Grenze des VB’s ist:
M acht = 1 − P (F ehler 2. Art) = 1 − P (X ≤ G) =
G−µx
x
x
≤ G−µ
1 − P ( X−µ
σX
σx ) = 1 − Φ( σx )
Modellannahmen:
• Xi ∼ N (µ, σ)
• Xi unabhängig
• µ unbekannt, σ bekannt
9.2 Neyman-Pearson Lemma
Wir wollen testen, ob µ = µ0 oder Alternative.
Likelihood ratio = ffA0 (x)
(x)
(
1 wenn ffA0 (x)
(x) < Kα
ρL =
f0 (x)
0 wenn fA (x) > Kα
Kα muss so gewählt sein, dass E0 [ρL ] = α
Verteilung:
X̄−µ
√ ∼ N (0, 1)
σ/ n
Verwerfungsbereich:
Der Likelihood-Test ρL ist der mächtigste Test unter
den Tests ρ∗ mit Signifikanzlevel α∗ ≤ α
• HA : µ 6= µ0
√ 0 | > q1− α }
V B = {| X̄−µ
σ/ n
2
9.3 Der t-Test
• HA : µ > µ0
√ 0 > q1−α }
V B = { X̄−µ
σ/ n
Mittelwert bei unbekanntem σ
Modellannahmen:
• HA : µ < µ0
√ 0 < qα }
V B = { X̄−µ
σ/ n
• Xi ∼ N (µ, σ)
• Xi unabhängig
9.5 Likelihood-Ratio Tests für
Multinomialverteilungen
• µ, σ unbekannt
Wir wollen testen, ob µ = µ0 oder Alternative.
m Zellen, n Beobachtungen ⇒ Histogramm
−2 ln Λ = 2
Für den t-Test gilt:
√
0
T = n X̄−µ
S
m
P
i=1
xi
xi ln( E
) ist χ2 -verteilt mit m − 1 − k
i
Freiheitsgraden, wobei k die Anz. freier Parameter in
H0 ist.
9
n
P
χ2 Anpassungstest
βˆ1 =
• Modellannahme: X ∼ F , F irgend eine Verteilungsfkt.
(xi −X̄)(yi −Ȳ )
i=1
n
P
(xi −X̄)2
i=1
10.1 Statistisches Modell
• Nullhypothese H0 : F = P ois(λ)
yi = β0 + β1 xi + ei
ei : Beobachtungsfehler
• Alternative HA : F 6= P ois(λ)
• Die Teststatistik ist gegeben durch die χ2 TestVoraussetzungen:
statistik: man bildet die qudrierten Differenzen
zwischen den beobachteten Häufigkeiten (Beobi )
1. ei sind unabhängig
und den erwarteten Häufigkeiten (Erwi ), man
2. E[ei ] = 0
teilt durch die erwarteten Häufigkeiten (Erwi )
und summiert über alle möglichen Klassen.
3. var(ei ) = σ 2
n= Anz. Klassen
n
P (Beobi −Erwi )2
4. xi sind fest
χ2 =
Erwi
i=0
Unter H0 ist die Teststatistik χ2 -verteilt mit f
Freiheitsgraden, wobei
f= Anz. Klassen - 1 - Anzahl geschätzter Parameter
Varianz
i=1
n
n
P
i=1
var(βˆ1 ) =
x2i −(
nσ
n
• Entscheidung:
VB={χ2 > χ2f ;p }
n
P
i=1
x2i
n
P
x2i −(
n
P
n
Teststatistik:
Di unabhängig mit Median m̃
m̃ = 0
m̃ 6= 0
n
P
T =
1|{Di >0}
Unter H0 :
T ∼ Bin(n, p)
=
xi )2
n
P
i=1
x2i −(
(xi −X̄)2
xi
i=1
n
P
n
P
σ2
n
P
i=1
i=1
−σ 2
cov(βˆ0 , βˆ1 ) =
xi )2
i=1
2
Korrelation
Vorzeichen Test
Modellannahme:
Nullhypothese:
Alternative:
n
P
σ2
var(βˆ0 ) =
xi )2
i=1
Bemerkungen
• eˆi := yi − βˆ0 − βˆ1 xi
i=1
n
P
2
• S =
Beispiel für T = 7 und n = 10
10
P
2P [T ≥ 7] = 2
P [T = i] = 0.34
(eˆi )2
i=1
n−2
ist bias-freier Schätzer für σ 2
• Setze S 2 ein in Formel für var(βˆ0 ) bzw. var(βˆ1 )
und erhalte: s2βˆ bzw. s2βˆ .
i=1
Da 0.34 > 0.05 wird H0 beibehalten auf 5% Test
0
1
• Wenn ei normalverteilt sind, dann sind βˆ0 , βˆ1
ˆ
ˆ
1
0
auch normalverteilt, und β0s−β
und β1s−β
sind
ˆ
ˆ
10 Methode der kleinsten
Quadrate und lineare
Regression
β0
β1
t-verteilt mit n-2 Freiheitsgraden.
Korrelation und Regression
n
P
Beobachtungen:
SXX = n1
(xi − X̄)2 ”Varianz von X”
i=1
{(xi , yi ) | i = 1 . . . n}
n
y = die abhängige Variabel, ”zu erklärende Variabel” SY Y = 1 P (yi − Ȳ )2 ”Varianz von Y”
n
x = die unabhängige Variabel, ”erklärende Variabel”
i=1
n
P
1
SXY = n
(xi − Ȳ )(yi − Ȳ ) ”Kovarianz von X und
Ansatz:
i=1
Der Zusammenhang zw. x und y ist linear, d.h Y”
y = β0 + β1 x
Der Korrelationskoeffizient von X und Y ist:
r = √SSXYS
Abweichung (Residuum) des i-ten Punktes:
ei = yi − (β0 + β1 xi )
XX
Ergebnis:
βˆ0 =
(
n
P
i=1
x2i )(
n
P
yi )−(
i=1
n
P
n
i=1
n
P
xi )(
i=1
n
P
x2i −(
n
P
xi yi )
i=1
xi )2
i=1
10
YY
Herunterladen