Zusammenfassung (15. April 2015) 1. Einleitung und¨Uberblick

Werbung
Zusammenfassung (15. April 2015)
1. Einleitung und Überblick
Stochastik: Lehre von den math. Gesetzmäßigkeiten des Zufalls.
• Wahrscheinlichkeitstheorie. Bildung und Untersuchung
wahrscheinlichkeitstheoretischer Modelle (Wahrscheinlichkeits-
räume, Zufallsvariablen).
• Statistik. Methoden zur Auswertung konkreter Daten.
1.1. Konzepte und Methoden in W’theorie u. Statistik
Beispiel: Qualitätsprüfung von N Produktionsteilen.
1.1.1. Einfache Modellannahmen
• Produktionsteile mit Wahrscheinlichkeit p ∈ [0, 1] defekt.
• Produktionsteile unabhängig.
1.1.2. Ein wahrscheinlichkeitstheoretisches Modell
• Wahrscheinlichkeitsraum (ΩN , FN , PN,p):
ΩN = {0, 1}N (Stichprobenraum),
FN = Pot(ΩN ) (σ-Algebra der Ereignisse),
PN,p : FN → [0, 1] (Wahrscheinlichkeitsmaß).
Zusammenfassung (17. April 2015)
• Zufallsvariablen (ΩN , FN , PN,p) → R:
ω = (ω1, . . . , ωN ) ∈ ΩN , i = 1, . . . , N ,
P
ZN = (1/N ) N
i=1 Yi , . . .
Yi(ω) = ωi,
1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen
• Erwartungswert:
N
X
k
k
EN,p[ZN ] =
= · · · = p.
PN,p ZN =
N
N
k=0
Zusammenfassung (22. April 2015)
• Varianz:
2
VarN,p(ZN ) = EN,p (ZN − EN,p[ZN ])
• Schwaches Gesetz der großen Zahlen:
lim PN,p |ZN − p| ≥ ǫ = 0, ǫ > 0.
= p(1 − p)/N .
N →∞
(stochastische Konvergenz)
• Zentraler Grenzwertsatz:
p
lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b]
N →∞
√
Rb
= (1/ 2π) a dx exp(−x2/2), a, b ∈ R, a < b.
(Konvergenz in Verteilung, Normalverteilung)
1.1.4. Ein statistisches Modell (XN , GN , (QN,p)p∈[0,1]) (zur
Schätzung der Fehlerw’keit pw mit Hilfe der Anzahl defekter Produktionsstücke)
- XN = {0, 1, . . . , N } (Stichprobenraum, mögl. Beobachtungen)
- GN = Pot(XN ) (σ-Algebra; für Schätzung relevante Ereignisse)
- QN,p, p ∈ [0, 1] (W’maße auf (XN , GN ); mögl. Verteilungen des
Beobachtungswerts; QN,p Binomialverteilung zu Param. N , p)
1.1.5. Statistische Untersuchungen
• Maximum-Likelihood-Schätzer (Beobachtungswert: x ∈ XN ):
pc
c
w löst QN,c
w = x/N .
pw [{x}] = supp∈[0,1] QN,p[{x}], d.h., p
Zusammenfassung (24. April 2015)
• Konfidenzbereich: Zu Irrtumsniveau s ∈ (0, 1) sei
XN ∋ y → C(y) (möglichst kleines) Intervall in [0, 1] mit
supp∈[0,1] QN,p {y ∈ XN : C(y) 6∋ p} ≤ s.
=⇒ Für alle x gilt: Mit einer Sicherheit von mindestens
”
(1 − s) · 100 % liegt pw in dem Intervall C(x)“.
• Testen einer Hypothese: Zu Irrtumsniveau t ∈ (0, 1) und
Nullhypothese Θ0 ⊆[0, 1] ist ein Test

0, falls p ∈ Θ0 angenommen wird,
XN ∋ x → φ(x) =

1, falls p 6∈ Θ0 vermutet wird,
zu suchen mit
– supp∈Θ0 QN,p[{x ∈ XN : φ(x) = 1}] ≤ t und
!!
– QN,p[{x ∈ XN : φ(x) = 0}] = minimal für p ∈ [0, 1] \ Θ0.
=⇒ Für alle x gilt: Mit einer Sicherheit von mindestens
”
(1 − t) · 100 % wird die Gültigkeit der Nullhypothese erkannt.
Die Alternative [0, 1] \ Θ0 wird mit maximaler Zuverlässigkeit
nachgewiesen“.
1.1.6. Zusammenfassung und Ausblick: Stochastik, Wahrscheinlichkeitstheorie, Statistik; Wahrscheinlichkeitsraum, Zufallsvariable, Unabhängigkeit, Erwartungswert, Gesetz der großen Zahlen, Zentraler Grenzwertsatz, Normalverteilung; statistisches Modell, Schätzer, Konfidenzbereich, Test; Maß- und Integrationstheorie.
Zusammenfassung (29. April 2015)
1.2. Geschichte der W’theorie und der Statistik
Bis Mitte 19. Jhr.: Glücksspiele; Modellierung des Zufalls“ unklar.
”
Ende 19. Jhr.: Maß- und Integrationstheorie.
1933: Axiomensystem von A.N. Kolmogorov.
Danach: Schnelle Fortschritte (Stoch. Diff’gleichungen, Martingale)
2. Wahrscheinlichkeitsräume
Kolmogorovsche Axiome:
Definition. Sei Ω 6= ∅. Eine Familie F ⊆ Pot(Ω) mit
(a) Ω ∈ F
(b) A ∈ F
(Sicheres Ereignis)
(Ω \ A) ∈ F
S∞
(c) A1, A2, ... ∈ F =⇒ n=1 An ∈ F
=⇒
(A tritt nicht ein)
(A1 oder A2 oder ...)
wird als σ-Algebra bezeichnet. F beschreibt Menge der Ereignisse.
(Ω, F) ist ein meßbarer Raum.
Definition. Eine Funktion P : F → [0, 1] mit
(a) P[Ω] = 1,
S∞
P∞
(b) P i=1 Ai = i=1 P[Ai], falls Ai ∩ Aj = ∅, i 6= j,
heißt Wahrscheinlichkeitsmaß. (b) wird als σ-Additivität bezeichnet. (Ω, F, P) ist ein Wahrscheinlichkeitsraum.
Zusammenfassung (6. Mai 2015)
2.1. Elementare wahrscheinlichkeitstheoret. Modelle
• Münzwurf (fair, unfair; ein-, mehrmalig unabhängig)
• Wurf eines Würfels (fair, unfair)
• Laplacescher W’raum: |Ω| < ∞; P[{ω}] = 1/|Ω|, ω ∈ Ω
(Gleichverteilung auf Ω).
2.2. Diskrete Wahrscheinlichkeitsmaße
Ω endlich oder abzählbar unendlich; F = Pot(Ω);
P
P
P[A] = a∈A pa, A ∈ F (pa ∈ [0, 1], a ∈ Ω;
a∈Ω pa = 1).
• Bernoulli-Verteilung (|Ω| = 2).
• Binomial-Verteilung (Ω = {0, ..., N }; pk =
• Geometrische Verteilung (Ω = N; pk = (1 − p)
• Negative Binomial Verteilung (Ω = N0; pk =
N k
p (1 − p)N −k ).
k
k−1
p).
k+r−1
k
pr (1−p)k ).
• Laplacesche Verteilung (Ω = M (endlich); pω = 1/|M |).
• Poissonverteilung (Ω = N0; pk = exp(−λ)λk /k!).
Zusammenfassung (8. Mai 2015)
• Multinomialverteilung, hypergeometrische Verteilung.
P W’maß auf (Ω, F). a ∈ Ω Atom von P, falls P[{a}] > 0.
Diskrete Wahrscheinlichkeitsmaße sind auf Atomen konzentriert.
Wahrscheinlichkeitsmaße mit Dichte besitzen keine Atome.
2.3. Konsequenzen aus den Kolmogorovschen Axiomen
2.3.1. Weitere Eigenschaften von σ-Algebren
• ∅ ∈ F.
• A1, A2 , . . . , AN ∈ F
• A1, A2 , · · · ∈ F
=⇒
=⇒
T∞
SN
n=1 An
n=1 An
∈ F.
∈ F.
2.3.2. Weitere Eigenschaften von W’maßen
• P[∅] = 0.
• endliche Additivität.
• P[A ∪ B] = P[A] + P[B] − P[A ∩ B], A, B ∈ F.
• Subadditivität: P[A ∪ B] ≤ P[A] + P[B], A, B ∈ F.
• Monotonie: A ⊆ B
=⇒ P[A] ≤ P[B].
S ∞
P∞
• σ-Subadditivität: P i=1 Ai ≤ i=1 P[Ai], A1, A2, · · · ∈ F.
2.4. Konstruktion von σ-Algebren und W’maßen
Ω sei gegeben.
• Familie F ∗ ⊆ Pot(Ω) elementarer“ Ereignisse.
”
∗
∗
• P : F → [0, 1] mit Eigenschaften“ eines W’maßes.
”
• Erweiterung F = σ(F ∗) (kleinste σ-Algebra ⊇ F ∗).
• Fortsetzung P von P∗. P : F → [0, 1] W’maß auf (Ω, F).
2.4.1. Gleichverteilung auf [0, 1]
Ω = [0, 1]; F ∗ Menge der Intervalle in Ω; P∗[(a, b)] = |b − a|.
F = σ(F ∗) = B([0, 1]) Borelsche σ-Algebra; P Lebesguemaß.
2.4.2. ∞-facher, unabhängiger Münzwurf
Ω = {0, 1}N ({0, 1}-wertige Folgen);
F ∗ durch endlich viele Würfe bestimmte Ereignisse;
P∗ durch w’theoretische Modelle für endlich viele Würfe gegeben.
Zusammenfassung (13. Mai 2015)
Bsp.: P[1. Wurf von Kopf“ in geradem Zeitpkt.] = p/(p+1),
”
p ∈ (0, 1).
Bsp.: P[ Kopf“ nur endlich oft geworfen] = 0, p ∈ [0, 1).
”
2.4.3. Lebesguemaß in Rd, d = 1, 2, . . .
λ(A) = Vol(A) = |A|, A ∈ B(Rd) (Borelsche σ-Algebra).
λ ist kein Wahrscheinlichkeitsmaß.
Zusammenfassung (15. Mai 2015)
2.5. Satz von Vitali
Pot(Ω) ist in überabzählbaren Stichprobenräumen Ω i.allg. als σAlgebra ungeeignet. Begründung: Widerspruch bei der Konstruktion
eines vernünftigen W’maßes (für ∞-fachen, unabhängigen, fairen
Münzwurf).
2.6. W’maße mit einer Dichte bzgl. des Lebesguemaßes
R
f : Rd → [0, ∞) meßbar, Rd dx f (x) = 1 (Wahrscheinlichkeitsdichte);
R
P[A] = A dx f (x), A ∈ B(Rd).
√
2
2
• Normalverteilung (f (x) = exp(−(x − µ) /(2σ ))/ 2πσ 2).
• Exponentialverteilung (f (x) = I[0,∞)(x)λ exp(−λx)),
• Gleichverteilung auf G (beschränkt) (f (x) = IG(x)Vol(G)−1),
• Cauchy-Verteilung (f (x) = a/(π(a2 + x2))),
• Gamma-Verteilung (f (x) = I[0,∞)(x)(αr /Γ(r))xr−1 exp(−αx)),
• χ2n-Verteilung (Gamma-Verteilung mit α = 1/2 und r = n/2).
2.6.1. Anwendung“ der Gleichverteilung
”
Nicht jede sinnvoll klingende Anwendung“ der Mathematik ist ver”
nünftig !!
2.7. Poisson-Approximation der Binomialverteilung
Sei pn, n ∈ N, eine Folge in (0, 1) mit limn→∞ npn = λ ∈ (0, ∞).
λk −λ
=⇒ lim B(n, pn)[{k}] = e = P (λ)[{k}], k = 0, 1, ...
n→∞
k!
Zusammenfassung (20. Mai 2015)
2.7.1. Anwendung der Poisson-Approximation
Bedeutung der Poissonverteilung in Anwendungen basiert auf der
Poisson-Approximation der Binomialverteilung.
Beispiele: Modellierung der Anzahl der Zerfälle eines radioaktiven
Präparats (Anfragen an einen E-Mail-Server) in einem festen Zeitintervall, der Anzahl der Sterne in einem homogenen Bereich des
Weltraums, . . .
3. Zufallsvariablen
ZV’en dienen der Modellierung “zufälliger Beobachtungsgrößen“.
(Ω, F), (Ω′, F ′) meßbare Räume. X : (Ω, F) → (Ω′, F ′) mit
X −1(A′) = {ω ∈ Ω : X(ω) ∈ A′} = {X ∈ A′} ∈ F, A′ ∈ F ′,
heißt meßbar.
(Ω, F, P) Wahrscheinlichkeitsraum, (Ω′, F ′) meßbarer Raum.
Eine meßbare Funkt. X : (Ω, F, P) → (Ω′, F ′) heißt Zufallsvariable.
• Ω abzählbar, F = Pot(Ω): Alle Funktionen auf Ω sind meßbar.
• Ω′ abzählbar, F ′ = Pot(Ω′): Falls X −1({ω ′}) ∈ F, ω ′ ∈ Ω′, ist
X meßbar. X ist dann eine diskrete meßbare Funktion.
• Die Meßbarkeit einer Funktion X : (Ω, F) → (Ω′, F ′) geht verloren, wenn F zu klein ist.
Zusammenfassung (22. Mai 2015)
3.1. Verteilung von Zufallsvariablen
Die Verteilung einer ZV X : (Ω, F, P) → (Ω′, F ′) ist definiert durch
PX [A′] = P[{ω ∈ Ω : X(ω) ∈ A′}] = P[X ∈ A′], A′ ∈ F ′.
• PX ist ein Wahrscheinlichkeitsmaß auf (Ω′, F ′).
• Ω′ höchstens abzählbar, F ′ = Pot(Ω′).
P
PX [A′] = a∈A′ PX [{a}], A′ ∈ F ′,
d.h., PX ist eindeutig durch PX [{a}], a ∈ Ω′, bestimmt.
• Beispiel: Beliebig oft unabhängig wiederholtes, identisches Ex”
periment“ mit Ausgängen Erfolg“, bzw. Mißerfolg“.
”
”
Der Zeitpunkt des ersten Erfolgs ist geometrisch verteilt.
3.1.1. Konstruktion und Simulation diskreter ZV’en
Eine N-wertige Zufallsvariable mit vorgegebener Verteilung µ =
(µn )n∈N ist zu konstruieren.
• Sei (Ω, F, P) = (N, Pot(N), µ); X(ω) = ω, ω ∈ Ω =⇒ PX = µ.
• (Ω, F, P) = ([0, 1], B([0, 1]), λ[0,1]);
Pn−1
Pn
X1(ω) = n, ω ∈
k=1 µk ,
k=1 µk , n ∈ N =⇒ PX1 = µ.
• Simulation von unabhängigen N-wertigen ZV’en mit gegebener
Verteilung µ = (µn)n∈N: X1(x1), X1(x2), . . .
(x1, x2, . . . Folge von unabhängigen“, in [0, 1] gleichverteilten“
”
”
Pseudozufallszahlen.)
Es gibt qualitativ unterschiedliche Zufallsgeneratoren!
Zusammenfassung (27. Mai 2015)
3.2. Familien v. ZV’en u. deren gemeinsame Verteilung
Abhängigkeiten“ zwischen Zufallsvariablen werden durch deren ge”
meinsame Verteilung beschrieben.
Seien (Ω, F, P) ein W’raum und (Ω′λ, Fλ′ ), λ ∈ Λ, meßbare Räume.
Xλ : (Ω, F, P) → (Ω′λ, Fλ′ ), λ ∈ Λ, seien Zufallsvariablen.
• Die gemeinsame Verteilung der Xλ, λ ∈ Λ, ist durch
P[Xλ1 ∈ A′λ1 , . . . , Xλn ∈ A′λn ],
{λ1, . . . , λn} ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λn ∈ Fλ′ n , n ∈ N,
charakterisiert.
• Die ZV’en Xλ, λ ∈ Λ, heißen unabhängig, wenn die gemeinsame
Verteilung faktorisiert“, d.h., wenn jeweils
”
′
P[Xλ1 ∈ Aλ1 , . . . , Xλn ∈ A′λn ] = P[Xλ1 ∈ A′λ1 ] · · · P[Xλn ∈ A′λn ].
3.2.1. Gem. Verteilung endlich vieler diskreter ZV’en
Mk , k = 1, . . . , n, seien höchstens abzählbar.
Xk : (Ω, F, P) → (Mk , Pot(Mk )), k = 1, . . . , n, seien ZV’en.
PX1,...,Xn [A′] := P[(X1, ..., Xn) ∈ A′] (Gemeinsame Verteilung)
X
=
P[X1 = m1 , ..., Xn = mn ], A′ ∈ Pot(M1 ×...×Mn).
(m1,...,mn )∈A′
PX1 ,...,Xn ist ein W’maß auf (M1 ×. . .×Mn, Pot(M1 ×. . .×Mn)).
Zusammenfassung (29. Mai 2015)
3.2.2. Unabhängige Zufallsvariablen mit einer Dichte
X1, . . . , XN unabhängige, reellwertige Zufallsvariablen.
Für k = 1, . . . , N habe die Verteilung PXk die Dichte fk .
⇒ Gemeinsame Verteilung PX1,...,XN hat Dichte
QN
(y1, . . . , yN ) → k=1 fk (yk ) auf (RN , B(RN )).
Beispiel: Mehrdimensionale Normalverteilung.
3.2.3. Unabhängigkeit von Ereignissen
Ereignisse Aλ, λ ∈ Λ, in einem W’raum (Ω, F, P) sind unabhängig,
T
Q
wenn P λ∈∆ Aλ = λ∈∆ P[Aλ], ∆ ⊂ Λ, |∆| < ∞.
Beachte: Paarweise Unabhängigkeit ; Unabhängigkeit.
3.2.4. Verteilung von Summen unabhängiger ZV’en
P
p = (pn)n∈Z, q = (qn)n∈Z =⇒ (p ∗ q)m := ∞
n=−∞ pnqm−n , m ∈ Z.
R∞
f , g W’dichten auf R =⇒ (f ∗ g)(u) = −∞ dv f (v)g(u − v), u ∈ R.
p ∗ q (f ∗ g) ist die Faltung von p und q (f und g).
X, Y seien unabhängige, Z-wertige ZV’en. =⇒ PX+Y = PX ∗ PY .
X, Y seien unabhängige, R-wertige ZV’en mit Dichte f , bzw. g.
=⇒ Dichte von X + Y ist f ∗ g.
Zusammenfassung (3. Juni 2015)
3.2.5. Gleichheitsbegriffe für Zufallsvariablen
• X, Y : (Ω, F, P) → (Ω′, F ′).
X = Y , f.s., falls P[X = Y ] = 1 (fast-sichere Gleichheit).
• X : (Ω, F, P) → (Ω′, F ′), Y : (Ω1, F1, P1) → (Ω′, F ′).
d
L
X = Y (X = Y ), falls PX = PY
(Gleichheit in Verteilung, X und Y sind identisch verteilt).
3.3. Verteilungsfunktionen reellwertiger ZV’en
X reellwert. ZV. Verteilungsfunktion FX : R → [0, 1] definiert durch
FX (y) = P[X ≤ y] = PX [(−∞, y]],
y ∈ R.
3.3.1. Eigenschaften von Verteilungsfunktionen
• PX (a, b] = FX (b) − FX (a), −∞ < a < b < ∞.
=⇒
Verteilung PX ist durch FX eindeutig bestimmt.
• FX ist monoton wachsend.
• limy→−∞ FX (y) = 0, limy→∞ FX (y) = 1.
• FX ist rechtsstetig und besitzt linksseitige Grenzwerte.
• a ∈ R ein Atom von PX
Es gilt:
⇐⇒
FX hat Sprung in a.
FX (a) − limyրa FX (y) = P[X = a] = PX [{a}].
• PX habe eine Dichte f bzgl. des Lebesguemaßes auf R.
Ry
=⇒ FX (y) = −∞ dz f (z), y ∈ R.
Allg.: FX differenzierbar mit FX′ = f
⇐⇒
PX hat Dichte f .
Zusammenfassung (5. Juni 2015)
3.3.2. Beispiele für Verteilungsfunktionen
• ...
• Dichtetransformation: X reellwertige ZV mit stetiger Dichte ψ.
H ∈ C 1(R), H ′ > 0, limx→±∞ H(x) = ±∞.
=⇒ H(X) besitzt die Dichte ψH (.) = ψ(H −1(.))/H ′(H −1(.)).
Beispiel: α > 0, β ∈ R.
ψα,β (y) = (1/α)ψ((y − β)/α), y ∈ R, Dichte der ZV αX + β.
3.3.3. Simulation einer Folge von i.i.d. ZV’en mit Dichte
µ W’maß auf R mit Dichte f > 0, d.h., Fµ stetig, invertierbar.
x1, x2, ... unabh. in (0, 1) gleichverteilte“ Pseudozufallszahlen.
”
−1
=⇒ Fµ (x1), Fµ−1(x2), . . . simulieren i.i.d. ZV’en mit Verteilung µ
(Inversionsmethode).
3.3.4. Quantile reellwertiger Zufallsvariablen
Sei X eine (R, B(R))-wertige ZV, α ∈ (0, 1). q ∈ R mit
P[X ≤ q] ≥ α, P[X ≥ q] ≥ 1 − α
ist ein α-Quantil von X.
Ein Median ist ein (1/2)-Quantil ( mittlerer Wert von X“).
”
FX streng monoton steigend =⇒ Quantile sind eindeutig.
I. allg. brauchen Quantile nicht eindeutig zu sein.
Zusammenfassung (10. Juni 2015)
qeα := inf y ∈ R : P[X ≤ y] ≥ α ist das kleinste α-Quantil.
3.4. Stochastische Prozesse
(Ω, F, P) W’raum, (Ω′, F ′) meßbarer Raum, T ⊆ R ( Zeitpunkte“).
”
′
′
Xt : (Ω, F, P) → (Ω , F ), t ∈ T, seien ZV’en.
X = (Xt)t∈T stochastischer Prozeß mit Zustandsraum (Ω′, F ′).
Verteilung von X , Verteilung von {Xt : t ∈ T}.
• Bernoulli-Prozeß Y = (Yk )k∈N zum Parameter p ∈ [0, 1]:
Y1, Y2, . . . unabhängige, {−1, 1}-wertige Zufallsvariablen mit
P[Yk = −1] = 1 − p, P[Yk = 1] = p, k = 1, 2, . . . .
Zusammenfassung (12. Juni 2015)
Pk
• Irrfahrt: X0 = 0; Xk = Xk−1 + Yk = r=1 Yr , k = 1, 2, . . . .
In jedem Zeitpunkt k ∈ N springt X = (Xk )k∈N0 auf Z mit
W’keit p nach rechts bzw. mit W’keit (1−p) nach links.
p = 1/2: Symmetrische Irrfahrt.
Irrfahrten sind einfach zu simulieren!
3.4.1. Stationäre stochastische Prozesse
X = (Xk )k∈N0 ist stationär, wenn für k1 < . . . < kn, n ∈ N die gemeinsame Verteilung von Xk+k1 , . . . , Xk+kn unabhängig von k ∈ N0 ist.
Ein Bernoulli-Prozeß ist stationär. Eine Irrfahrt ist nicht stationär.
3.5. W’räume und ZV’en in der Modellbildung
• Allgemeine W’räume als Zufallsgeneratoren“ zur Konstrukti”
on der bei der Modellbildung benötigten Zufallsvariablen.
Ein Modell ist brauchbar, wenn hinreichend viele“ Zufallsva”
riablen mit vernünftigen“ Verteilungen zu Verfügung stehen.
”
• Spezielle W’räume zur Beschreibung und Untersuchung der
gemeinsamen Verteilung von ZV’en und in der Statistik.
4. Schätztheorie
Ziel: Schätzen unbekannter Parameter in Modellen zuf. Phänomene.
4.1. Statistische Modelle (X, G, (Pλ)λ∈Λ)
• (X, G) meßbarer Raum (X mögl. Beobachtungswerte, G Ereignisse, auf denen statistische Entscheidungen aufbauen).
• Pλ, λ ∈ Λ, Familie von Wahrscheinlichkeitsmaßen auf (X, G)
(mögliche W’verteilungen der Beobachtungswerte).
Statistisches Modell als Arbeitsumfeld“ in der Statistik.
”
• Diskretes statistisches Modell: X abzählbar, G = Pot(X).
• Kontinuierliches statistisches Modell: X ∈ B(Rn ), G = B(X),
Pλ besitzt eine Dichte ρλ für alle λ ∈ Λ.
Eine Statistik S ist eine meßbare Abbildung auf (X, G) (Entscheidungsverfahren).
b für unbekannten Pa4.2. Maximum-Likelihood-Schätzer λ
rameter λ zum Beobachtungswert x ∈ X.
b ist plausibelster Parameter.
Idee: λ
• Diskretes statistisches Modell: Pλb [{x}] = supλ∈Λ Pλ[{x}].
• Kontinuierliches statistisches Modell: ρλb (x) = supλ∈Λ ρλ(x).
Likelihood-Funktion
 zum Beobachtungswert x ∈ X:

Pλ[{x}] (diskretes statistisches Modell),
Λ ∋ λ → Lx(λ) =

ρλ(x)
(kontinuierliches stat. Modell).
Log-Likelihood-Funktion: Λ ∋ λ → ℓx(λ) = log Lx(λ).
b maximal, wenn ℓx maximal ist.
Für x ∈ X ist genau dann Lx in λ
Zusammenfassung (17. Juni 2015)
• Beispiel:
Vorgegebene Eingaben eines linearen Systems: x1, . . . , xn.
Beobachtete Ausgaben: yk = α + βxk + zk , k = 1, . . . , n.
z1, . . . , zn Rauschen (Realisierungen unabhängiger N(0, σ 2)-verteilter ZV’en).
b Maximum-Likelihood-Schätzer für (α, β) zur Beobach(b
α, β)
tung (y1, . . . , yn). βb empirischer Regressionskoeffizient.
b
Regressionsgerade: R ∋ x → α
b + βx.
Zusammenfassung (19. Juni 2015)
• Taxiproblem: Maximum-Likelihood-Sch. kann unbefriedigend
sein. Es gibt Kriterien zur Qualitätsbewertung von Schätzern.
4.3. Konfidenzbereiche
(X, G, (Pλ)λ∈Λ) statistisches Modell, α ∈ (0, 1).
Eine Abbildung X ∋ x → C(x) ⊆ Λ heißt Konfidenzbereich zum
Irrtumsniveau α, wenn
sup Pλ[{x ∈ X : C(x) 6∋ λ}] ≤ α.
λ∈Λ
Sprechweise: Für jede Beobachtung x liegt mit einer Sicherheit
”
(!! nicht Wahrscheinlichkeit !!) von mindestens (1 − α) · 100% der
(wahre) Parameter λ in C(x)“.
• C(.) ist klein zu wählen, wenn der Erkenntnisgewinn“ groß sein
”
soll.
• Unterschiedliche Zielsetzungen beeinflussen die Wahl der Konfidenzbereiche.
• Berechnung von Konfidenzintervallen.
– Spezielle Methode mit Hilfe von Quantilen.
– Allgemeine Methode basierend auf der Čebyšev’schen Ungleichung (nichtoptimale Konfidenzintervalle).
Zusammenfassung (24. Juni 2015)
5. Laplacesche Wahrscheinlichkeitsräume
und Kombinatorik
Ω endlich, F = Pot(Ω), P[{ω}] = |Ω|−1, ω ∈ Ω.
Alle Elemente von Ω sind gleichwahrscheinlich“.
”
Lösung von Abzählproblemen zur Bestimmung von Wahrscheinlichkeiten P[A] = |A|/|Ω|, A ∈ F.
5.1. Urnenmodelle (Hilfsmittel für Abzählprobleme)
Urne mit N unterscheidbaren Kugeln, n Ziehungen.
Ziehungsvarianten:
(U1) Ziehung mit Zurücklegen, Reihenfolge berücksichtigt.
(U2) Ziehung ohne Zurücklegen, Reihenfolge berücksichtigt.
(U3) Ziehung mit Zurücklegen, Reihenfolge unberücksichtigt.
(U4) Ziehung ohne Zurücklegen, Reihenfolge unberücksichtigt.
Wk (N, n) mögliche Ziehungsresultate für (Uk ), k = 1, . . . , 4.
5.1.1. Darstellung der Mengen Wk (N, n), k = 1, . . . , 4
W1(N, n) , {1, . . . , N }n
= {(w1, . . . , wn) : w1, . . . , wn = 1, . . . , N },
W2(N, n) , {w ∈ W1(N, n) : wi 6= wj , i 6= j},
W3(N, n) , {w ∈ W1(N, n) : 1 ≤ w1 ≤ w2 ≤ . . . ≤ wn ≤ N },
W4(N, n) , {w ∈ W1(N, n) : 1 ≤ w1 < w2 < . . . < wn ≤ N }.
(wi , Resultat der i-ten Ziehung; bei W3(N, n) und W4(N, n) evtl.
Umordnung der Ziehungszeitpunkte“)
”
5.1.2. Berechnung von |Wk (N, n)|, k = 1, . . . , 4
|W1(N, n)| = N n,
|W2(N, n)| = N !/(N − n)!,
N
|W3(N, n)| = N +n−1
,
|W
(N,
n)|
=
.
4
n
n
Zusammenfassung (26. Juni 2015)
5.2. Anwendungen von Urnenmodellen
• W’keit für 2 Buben im Skat = |W4(4, 2)|/|W4(32, 2)|.
• W’keit, daß von M Pers. 2 am gleichen Tag Geburtstag haben
|W2 (365,M)|
M(M−1) = 1 − |W1(365,M)| ≥ 1 − exp − 730 .
• Wahrscheinlichkeit für r Richtige beim Zahlenlotto 6 aus 49“
”
43
(6r)·(6−r
)
|W4(6,r)| |W4(43,6−r)|
=
=
.
|W4 (49,6)|
(496)
• Warnung vor sorgloser Anwendung von Laplaceschen Modellen.
Einführung einer künstlichen Reihenfolge bei Ziehungen aus ei-
ner Urne kann hilfreich sein.
Zusammenfassung (1. Juli 2015)
5.3. Eine Alternative zu den Urnenmodellen
Verteilung von n Murmeln“ auf N Zellen“.
”
”
Vier Varianten:
• Mehrfachbelegung der Zellen erlaubt / nicht erlaubt.
• Murmeln unterscheidbar / nicht unterscheidbar.
Äquivalenz zu entsprechenden Urnenmodellen.
5.4. Multinomialverteilung u. hypergeom. Verteilung
Multinomialverteilung Mn(N, q1, . . . , qn) mit Parametern
Pn
n, N ∈ N und q1, . . . , qn ∈ [0, 1], wobei k=1 qk = 1:
Ωn,N = ω = (ω1, . . . , ωn) :
Pn
ωk ∈ {0, 1, ..., N }, k = 1, ..., n;
k=1ωk = N ,
N!
Mn(N, q1, . . . , qn)[{ω}] =
q1ω1 . . . qnωn , ω ∈ Ωn,N .
ω1! . . . ωn!
• Beispiel: Urne mit Kugeln der Farben 1, . . . , n.
Für k = 1, . . . , n sei qk der Anteil der Kugeln der Farbe k.
N -maliges Ziehen mit Zurücklegen.
P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen]
= Mn(N, q1, . . . , qn)[{(l1, . . . , ln )}],
Pn
l1, . . . , ln ∈ {0, 1, . . . , N },
k=1 lk = N .
Hypergeometrische Verteilung Hn,M (N, m1, ..., mn )
mit Parametern n, M, N ∈ N, m1, . . . , mn ∈ {1, . . . , M }
Pn
mit n, N ≤ M und k=1 mk = M :
n
m1 ,...,mn
= ω = (ω1, ..., ωn) :
Ωn,N
o
Pn
ωk ∈ {0, 1, ..., mk }, k = 1, ..., n;
k=1 ωk = N ,
mn
m1 m2
ω2 ... ωn
ω1
m1 ,...,mn
Hn,M (N, m1, ..., mn )[{ω}] =
.
,
ω
∈
Ω
n,N
M
N
• Beispiel: Urne mit Kugeln der Farben 1, . . . , n.
Für k = 1, . . . , n sei mk die Anzahl der Kugeln der Farbe k.
Beim N -maligen Ziehen ohne Zurücklegen ist Farbverteilung
durch Hn,M (N, m1, ..., mn ) bestimmt.
• Bsp.: Multinomialapproximation der hypergeom. Verteilung.
6. Erwartungswert und Varianz
6.1. Erwartungswert für diskrete Zufallsvariablen
X : (Ω, F, P) → (R, B(R)) diskret, d.h. X(Ω) höchstens abzählbar.
P
• X ist integrabel, wenn x∈X(Ω) |x|P[X = x] < ∞.
• Für integrable Zufallsvariablen definiert
P
(∗)
E[X] := x∈X(Ω) xP[X = x]
den Erwartungswert von X.
• Für positive Zufallsvariablen kann durch (∗) immer ein Erwartungswert definiert werden. Dieser kann ∞ sein.
• X ist integrabel ⇐⇒ E[|X|] < ∞.
Zusammenfassung (3. Juli 2015)
6.2. Eigenschaften der Abbildung X → E[X]
X, Y , Xk , Yk , k ∈ N, integrable, reellwertige Zufallsvariablen.
• Monotonie des Erwartungswerts: X ≤ Y , f.s. =⇒ E[X] ≤ E[Y ].
• Linearität des Erwartungswerts: Sei c ∈ R.
cX, X + Y sind integrabel mit
– E[cX] = cE[X],
– E[X + Y ] = E[X] + E[Y ].
• σ-Additivität des Erwartungswerts:
P
P∞
Xk ≥ 0, f.s., k ∈ N; X = ∞
X
=⇒
E[X]
=
k=1 k
k=1 E[Xk ].
Satz von der monotonen Konvergenz:
Yk ր Y , f.s.
=⇒ E[Y ] = limk→∞ E[Yk ].
• Produktregel für unabhängige Zufallsvariablen:
X, Y unabhängig. =⇒ XY integrabel, E[XY ] = E[X]E[Y ].
• Normierung: Sei X = 1, f.s.
=⇒ E[X] = 1.
6.3. Erwartungswert für allgemeine, reellwertige ZV’en
• Bestimmung von E[X] mit Hilfe diskreter Approximationen.
Sei X(m)(ω) = ⌊mX(ω)⌋/m, ω ∈ Ω, m ∈ N.
(a) X(n) ≤ X ≤ X(n) + n−1.
(b) X(n0) sei integrabel.
=⇒ alle X(n) sind integrabel;
E[X(n)], n ∈ N, ist Cauchy-Folge.
• Definition: X integrabel, wenn ein X(n) integrabel ist.
• Definition: E[X] := limn→∞ E[X(n)] für integrable ZV X.
• Eigenschaften in 6.2 gelten für beliebige integrable ZV’en.
• E[ . ] ist abstraktes Integral:
R
R
E[X] =: Ω X(ω)P(dω) =: XdP.
• PX habe Dichte f bzgl. des Lebesguemaßes. H sei meßbar.
R
X ist integrabel, falls R dx |x|f (x) < ∞,
R
H(X) ist integrabel, falls R dx |H(x)|f (x) < ∞,
R
R
E[X] = R dx xf (x), E[H(X)] = R dx H(x)f (x).
Zusammenfassung (8. Juli 2015)
•X ≥0
=⇒
E[X] ∈ [0, ∞] ist wohldefiniert.
• X = X+ − X− (Zerlegung in Positiv- und Negativteil).
E[X] := E[X+] − E[X−], wenn E[X+] < ∞ oder E[X−] < ∞.
E[X] existiert nicht, wenn E[X+] = E[X−] = ∞.
• X ist integrabel
⇐⇒
E[|X|] = E[X+] + E[X−] < ∞.
6.4. Varianz und verwandte Begriffe
• Sei p ∈ N.
Falls E[X p] existiert, heißt E[X p] das p-te Moment von X.
p-tes Moment von X ist endlich, falls |X|p integrabel ist.
• E[|X|p] < ∞
=⇒
E[|X|r ] < ∞, 1 ≤ r < p.
• Lp(Ω, F, P) := {Y : (Ω, F, P) → (R, B(R)) : E[|Y |p] < ∞}
ist ein Banachraum mit der Norm kY kp := (E[|Y |p])1/p.
L2(...) ist Hilbertraum mit Skalarprodukt hY, Zi := E[YZ].
• Varianz: Var(X) := E[(X − E[X])2] = E[X 2] − E[X]2.
(Stärke der Fluktuationen von X um typischen“ Wert E[X])
”
2
• Cauchysche Ungleichung: E[X] ≤ E[X 2].
p
• Standardabweichung: σX = Var(X).
• Kovarianz:
Cov(X, Y ) := E[(X −E[X])(Y −E[Y ])] = E[XY ]−E[X]E[Y ].
• Korrelation: ρ(X, Y ) := Cov(X, Y )/(σX σY ) ∈ [−1, 1].
(ρ(X, Y ) > 0 (bzw. < 0), wenn typischerweise“ X −E[X] und
”
Y −E[Y ] gleiches (entgegengesetztes) Vorzeichen besitzen.)
• X1, . . . , Xd seien R-wertige Zufallsvariablen.
(Cov(Xi, Xj ))i,j=1,...,d ist die Kovarianzmatrix.
• X,Y unabhängig, X, Y ∈ L2(. . . )
⇒ X,Y unkorreliert, d.h., Cov(X, Y ) = 0.
X,Y unkorreliert ; X,Y unabhängig.
Zusammenfassung (10. Juli 2015)
6.4.1. Rechenregeln für Varianz und Kovarianz
• Cov(aX + b, cY + d) = ac Cov(X, Y ), a, b, c, d ∈ R,
Var(aX + b) = a2 Var(X).
n
X
• Var(X1 + · · · + Xn) =
Var(Xk ) +
k=1
X
Cov(Xk , Xl ).
k,l=1,...,n; k6=l
Für unkorrelierte ZV’en addieren sich die Varianzen.
• Cov(X, Y )2 ≤ Var(X) Var(Y ).
• |ρX,Y | ≤ 1.
6.5. Beispiele zum Erwartungswert und zur Varianz
• X habe Exponentialverteilung mit Parameter λ > 0.
⇒
E[X] = 1/λ, E[X 2] = 2/λ2, Var(X) = 1/λ2 .
⇒
E[X] existiert nicht, E[X 2] = ∞.
⇒
Alle Momente existieren,
• X habe Cauchy-Verteilung.
• X habe Normalverteilung mit Parameter µ ∈ R und σ 2 > 0.
E[X] = µ, Var(X) = σ 2, E[X 2] = σ 2 + µ2.
6.6. Erwartungstreue Schätzer
(X, G, (Pλ)λ∈Λ) statistisches Modell mit Λ ∈ B(R).
T : (X, G) → (R, B(R)) sei Schätzer für λ.
• Bias von T : bλ(T ) := Eλ[T ] − λ, λ ∈ Λ
( Systematischer“ Fehler des Schätzers T ).
”
• T heißt erwartungstreu, wenn bλ(T ) = 0, λ ∈ Λ.
• Maximum-Likelihood-Sch. braucht nicht erwartungstreu zu sein.
• Erwartungstreuer Schätzer braucht nicht zu existieren.
• X1, . . . , XN i.i.d. ZV’en mit Erwartungswert µ und Varianz σ 2.
P
PN
e
2 := (N − 1)−1
µ
e := N −1 N
X
und
σ
e)2
k=1 k
k=1 (Xk − µ
sind erwartungstreue Schätzer für µ, bzw. σ 2.
Zusammenfassung (15. Juli 2015)
6.6.1. Mittlerer quadratischer Fehler eines Schätzers
(X, G, (Pλ)λ∈Λ) diskretes statistisches Modell, Λ ⊆ R Intervall.
Sei T eine Statistik zur Schätzung von λ.
• Mittl. quadratischer Fehler von T : s2λ(T ) := Eλ[(T−λ)2], λ ∈ Λ.
• Informationsungleichung für erwartungstreuen Schätzer T :
Eλ[(T − λ)2] = Varλ(T ) ≥ I(λ)−1, λ ∈ Λ,
P
2
′
I(λ) = Eλ[ℓ.(λ) ] = x∈X ℓ′x(λ)2Pλ[{x}] Fisher-Information
(Λ ∋ λ → ℓx(λ) Log-Likelihood-Funktion zur Beobachtung x).
6.7. Elementare Ungleichungen in der W’theorie
Sei X eine reellwertige Zufallsvariable.
• Markov-Ungleichung. Sei f : [0, ∞) → [0, ∞) monoton wach-
send mit f (x) > 0 für x > 0. Dann gilt:
E[f (|X|)]
P[|X| ≥ ǫ] ≤
, ǫ > 0.
f (ǫ)
E[X 2]
• Čebyšev-Ungleichung: P[|X| ≥ ǫ] ≤
, ǫ > 0.
2
ǫ
6.8. Konvergenzbegriffe in der W’theorie
• Stochastische Konvergenz
(Konvergenz in W’keit; Anwendung: Schwaches GGZ).
n→∞
P[|Xn − X| > ǫ] → 0, ǫ > 0
P
⇐⇒: Xn → X.
• Fast-sichere Konvergenz (Anwendung: Starkes GGZ).
P[limn→∞ Xn = X] = 1
f.s.
⇐⇒: Xn → X.
• Konvergenz in Verteilung (Anwendung: ZGWS).
limn→∞ E[h(Xn)] = E[h(X)], h ∈ Cb(R)
• Äquivalente Aussagen:
d
– Xn → X.
– limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y.
– limn→∞ ψXn (y) = ψX (y), y ∈ R.
(FY Verteilungsfunktion, ψY mit ψY (z) = E[exp(izY )]
charakteristische Funktion einer Zufallsvariable Y )
f.s.
• Xn → X
=⇒
P
Xn → X
=⇒
d
⇐⇒: Xn → X.
d
Xn → X.
7. Gesetz der großen Zahlen
7.1. Ein schwaches Gesetz der großen Zahlen
• Xk , k ∈ N, Folge von unkorrelierten, reellwertigen ZV’en in
L2(Ω, F, P) mit E[Xk ] = µ, k ∈ N, und supk∈N Var(Xk ) < ∞.
N →∞
PN
=⇒ P (1/N )
Xk − µ ≥ ǫ → 0, ǫ > 0.
k=1
• Unter obigen Bedingungen gilt auch das starke GGZ:
PN
limN →∞(1/N ) k=1 Xk = µ, f.s.
Zusammenfassung (17. Juli 2015)
7.2. Anwendungen des schwachen GGZ
7.2.1. Monte-Carlo-Integration h : [0, 1] → R meßb., beschr.
PN
P R1
=⇒ (1/N ) k=1 h(Xk ) → 0 dx h(x)
(X1, X2, . . . unabhängig, gleichverteilt auf [0, 1]).
PN
f.s. R 1
• Starkes GGZ: (1/N ) k=1 h(Xk ) → 0 dx h(x).
• Konvergenzgeschwindigkeit:
R1
PN
(1/N ) k=1 h(Xk ) − 0 dx h(x) = O(N −1/2).
• MC-Integration sinnvoll bei irregulären Integranden h.
7.2.2. Bernstein-Polynome u. Approx.satz v. Weierstraß
f : [0, 1] → R stetig; Bernstein-Polynome:
PN
PN
p
fN (p) = E[f ((1/N ) n=1 Xn )] = k=0 f (k/N )
N
k
pk (1 − p)N −k
(X1p, X2p, . . . i.i.d., {0, 1}-wertig mit Bernoulli-Verteilung zum Parameter p ∈ [0, 1]).
=⇒
limN →∞ supp∈[0,1] |fN (p) − f (p)| = 0.
8. Bedingte Wahrscheinlichkeiten
• P[A|B] W’keit f. A unter d. Bedingung, daß B eingetreten ist.
• P[A|B] 6= P[A], falls A und B nicht unabhängig sind.
8.1. Bestimmung bedingter Wahrscheinlichkeiten
(Ω, F, P) ein Wahrscheinlichkeitsraum, B ∈ F mit P[B] > 0.
Bedingte Wahrscheinlichkeit P[ . |B] ist W’maß auf (Ω, F) mit
P[A ∩ B]
P[A|B] =
, A∈F
P[B]
(Bestätigung durch ein Beispiel und durch allgemeine Überlegung).
• Beispiel: T gedächtnislose Wartezeit in kontinuierlicher Zeit,
d.h., P[T > t + s|T > t] = P[T > s], 0 < s, t < ∞.
=⇒ T ist exponentiell verteilt.
8.1.1. Rechenregeln für bedingte Wahrscheinlichkeiten
•
S
Ω = j∈I Bj abzählbare Zerlegung von Ω. P[Bj ] > 0, j ∈ I.
• Fallunterscheidungsformel.
P
P[A] = j∈I P[Bj ]P[A|Bj ],
A ∈ F.
• Formel von Bayes.
P[Bk ]P[A|Bk ]
P[Bk ]P[A|Bk ]
P
P[Bk |A] =
=
,
P[A]
P[B
]P[A|B
]
j
j
j∈I
k ∈ I, A ∈ F, P[A] > 0.
• Anwendung: Bewertung eines medizin. Diagnoseverfahrens.
Zusammenfassung (22. Juli 2015)
9. Zentraler Grenzwertsatz
Ziel: Präzisierung des GGZ für i.i.d. ZV’en in L2(Ω, F, P) mit pos.
Varianz. Charakterisierung der Konvergenzgeschwindigkeit.
9.1. Konvergenzgeschwindigkeit beim GGZ
Xn, n ∈ N, i.i.d., {0, 1}-wertig, P[Xn
= 0] = P[Xn = 1] = 1/2.
#
"
√

N

1 X
1, falls αN N → ∞,
1
N →∞
P Xk − ≤ αN →
√
N

2

0, falls αN N → 0.
k=1
√
PN
1
1
=⇒ Für N N k=1Xk − 2 wird nichttrivialer Limes bei N → ∞
erwartet.
9.2. Eigenschaften charakteristischer Funktionen
R
ψX (z) = E[exp(izX)] = R PX (dx) exp(izx), z ∈ R, X reellw. ZV.
• X, Y unabhängig =⇒ ψX+Y = ψX · ψY .
• E[|X|2] < ∞ =⇒ ψX ∈ Cb2(R),
ψX (z) = 1 + izE[X] − z 2E[X 2]/2 + o(|z|2), bei |z| → 0.
• a, b ∈ R =⇒ ψaX+b(z) = exp(izb)ψX (az), z ∈ R.
• PX = N(0, 1) =⇒ ψX (z) = exp(−z 2/2), z ∈ R.
• ψX = ψY ⇔ PX = PY (Eindeutigkeit charakteristischer Fktn.)
9.3. Zentraler Grenzwertsatz für i.i.d. Zufallsvariablen
Xn, n ∈ N, i.i.d. R-wertige ZV’en. E[X1] = µ, Var(X1) = σ 2 ∈ (0, ∞).
!
r
N
N 1 X
d
=⇒
X
−
µ
→
X mit PX = N(0, 1).
k
2
σ N
k=1
• Kurzer Beweis des ZGWS durch Verwendung charakteristischer
Funktionen.
• ZGWS ist ein zentrales Resultat der Mathematik und ihrer Anwendungen.
Herunterladen