Zusammenfassung (15. Oktober 2014) 1. Einleitung und Überblick Stochastik: Lehre von den math. Gesetzmäßigkeiten des Zufalls. • Wahrscheinlichkeitstheorie. Bildung und Untersuchung wahrscheinlichkeitstheoretischer Modelle (Wahrscheinlichkeits- räume, Zufallsvariablen). • Statistik. Methoden zur Auswertung konkreter Daten. 1.1. Konzepte und Methoden in W’theorie u. Statistik Beispiel: Qualitätsprüfung von N Produktionsteilen. 1.1.1. Einfache Modellannahmen • Produktionsteile mit Wahrscheinlichkeit p ∈ [0, 1] defekt. • Produktionsteile unabhängig. 1.1.2. Ein wahrscheinlichkeitstheoretisches Modell • Wahrscheinlichkeitsraum (ΩN , FN , PN,p): ΩN = {0, 1}N (Stichprobenraum), FN = Pot(ΩN ) (σ-Algebra der Ereignisse), PN,p : FN → [0, 1] (Wahrscheinlichkeitsmaß). Zusammenfassung (17. Oktober 2014) • Zufallsvariablen (ΩN , FN , PN,p) → R: ω = (ω1, . . . , ωN ) ∈ ΩN , i = 1, . . . , N , P ZN = (1/N ) N i=1 Yi , . . . Yi(ω) = ωi, Zusammenfassung (22. Oktober 2014) 1.1.3. Wahrscheinlichkeitstheoretische Untersuchungen • Erwartungswert: N X k k EN,p[ZN ] = = · · · = p. PN,p ZN = N N k=0 • Varianz: 2 VarN,p(ZN ) = EN,p (ZN − EN,p[ZN ]) = p(1 − p)/N . • Schwaches Gesetz der großen Zahlen: lim PN,p |ZN − p| ≥ ǫ = 0, ǫ > 0. N →∞ (stochastische Konvergenz) • Zentraler Grenzwertsatz: p lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b] N →∞ √ Rb = (1/ 2π) a dx exp(−x2/2), a, b ∈ R, a < b. (Konvergenz in Verteilung, Normalverteilung) 1.1.4. Ein statistisches Modell (XN , GN , (QN,p)p∈[0,1]) (zur Schätzung der Fehlerw’keit pw mit Hilfe der Anzahl defekter Produktionsstücke) - XN = {0, 1, . . . , N } (Stichprobenraum, mögl. Beobachtungen) - GN = Pot(XN ) (σ-Algebra; für Schätzung relevante Ereignisse) - QN,p, p ∈ [0, 1] (W’maße auf (XN , GN ); mögl. Verteilungen des Beobachtungswerts; QN,p Binomialverteilung zu Param. N , p) 1.1.5. Statistische Untersuchungen • Maximum-Likelihood-Schätzer (Beobachtungswert: x ∈ XN ): pc c w löst QN,c w = x/N . pw [{x}] = supp∈[0,1] QN,p[{x}], d.h., p Zusammenfassung (24. Oktober 2014) • Konfidenzbereich: Zu Irrtumsniveau s ∈ (0, 1) sei XN ∋ y → C(y) (möglichst kleines) Intervall in [0, 1] mit supp∈[0,1] QN,p {y ∈ XN : C(y) 6∋ p} ≤ s. =⇒ Für alle x gilt: Mit einer Sicherheit von mindestens ” (1 − s) · 100 % liegt pw in dem Intervall C(x)“. • Testen einer Hypothese: Zu Irrtumsniveau t ∈ (0, 1) und Nullhypothese Θ0 ⊆ [0, 1] ist ein Test 0, falls p ∈ Θ angenommen wird, 0 XN ∋ x → φ(x) = 1, falls p 6∈ Θ vermutet wird, 0 zu suchen mit – supp∈Θ0 QN,p[{x ∈ XN : φ(x) = 1}] ≤ t und !! – QN,p[{x ∈ XN : φ(x) = 0}] = minimal für p ∈ [0, 1] \ Θ0. =⇒ Für alle x gilt: Mit einer Sicherheit von mindestens ” (1 − t) · 100 % wird die Gültigkeit der Nullhypothese erkannt. Die Alternative [0, 1] \ Θ0 wird mit maximaler Zuverlässigkeit nachgewiesen“. 1.1.6. Zusammenfassung und Ausblick: Stochastik, Wahrscheinlichkeitstheorie, Statistik; Wahrscheinlichkeitsraum, Zufallsvariable, Unabhängigkeit, Erwartungswert, Gesetz der großen Zahlen, Zentraler Grenzwertsatz, Normalverteilung; statistisches Modell, Schätzer, Konfidenzbereich, Test; Maß- und Integrationstheorie. 1.2. Geschichte der W’theorie und der Statistik Bis Mitte 19. Jhr.: Glücksspiele; Modellierung des Zufalls“ unklar. ” 1933: Axiomensystem von A.N. Kolmogorov. Danach: Schnelle Fortschritte. Zusammenfassung (29. Oktober 2014) 2. Wahrscheinlichkeitsräume Kolmogorovsche Axiome: Definition. Sei Ω 6= ∅. Eine Familie F ⊆ Pot(Ω) mit (a) Ω ∈ F (b) A ∈ F (Sicheres Ereignis) (Ω \ A) ∈ F S∞ (c) A1, A2, ... ∈ F =⇒ n=1 An ∈ F =⇒ (A tritt nicht ein) (A1 oder A2 oder ...) wird als σ-Algebra bezeichnet. F beschreibt Menge der Ereignisse. (Ω, F) ist ein meßbarer Raum. Definition. Eine Funktion P : F → [0, 1] mit (a) P[Ω] = 1, S∞ P∞ (b) P i=1 Ai = i=1 P[Ai], falls Ai ∩ Aj = ∅, i 6= j, heißt Wahrscheinlichkeitsmaß. (b) wird als σ-Additivität bezeichnet. (Ω, F, P) ist ein Wahrscheinlichkeitsraum. 2.1. Elementare wahrscheinlichkeitstheoret. Modelle • Münzwurf (fair, unfair; ein-, mehrmalig unabhängig) • Wurf eines Würfels (fair, unfair) • Laplacescher W’raum: |Ω| < ∞; P[{ω}] = 1/|Ω|, ω ∈ Ω (Gleichverteilung auf Ω). 2.2. Diskrete Wahrscheinlichkeitsmaße Ω endlich oder abzählbar unendlich; F = Pot(Ω); P P P[A] = a∈A pa, A ∈ F (pa ∈ [0, 1], a ∈ Ω; a∈Ω pa = 1). • Bernoulli-Verteilung (|Ω| = 2). • Binomial-Verteilung (Ω = {0, ..., N }; pk = • Geometrische Verteilung (Ω = N; pk = (1 − p) • Negative Binomial Verteilung (Ω = N0; pk = N k N −k ). k p (1 − p) k−1 p). k+r−1 k pr (1−p)k ). Zusammenfassung (31. Oktober 2014) • Laplacesche Verteilung (Ω = M (endlich); pω = 1/|M |). • Poissonverteilung (Ω = N0; pk = exp(−λ)λk /k!). • Multinomialverteilung, hypergeometrische Verteilung. P W’maß auf (Ω, F). a ∈ Ω Atom von P, falls P[{a}] > 0. Diskrete Wahrscheinlichkeitsmaße sind auf Atomen konzentriert. Wahrscheinlichkeitsmaße mit Dichte besitzen keine Atome. 2.3. Konsequenzen aus den Kolmogorovschen Axiomen 2.3.1. Weitere Eigenschaften von σ-Algebren • ∅ ∈ F. • A1, A2 , . . . , AN ∈ F • A1, A2 , · · · ∈ F =⇒ =⇒ T∞ SN n=1 An n=1 An ∈ F. ∈ F. 2.3.2. Weitere Eigenschaften von W’maßen • P[∅] = 0. • endliche Additivität. • P[A ∪ B] = P[A] + P[B] − P[A ∩ B], A, B ∈ F. • Subadditivität: P[A ∪ B] ≤ P[A] + P[B], A, B ∈ F. • Monotonie: A ⊆ B =⇒ P[A] ≤ P[B]. S P∞ • σ-Subadditivität: P ∞ A i=1 i ≤ i=1 P[Ai ], A1 , A2 , · · · ∈ F. 2.4. Konstruktion von σ-Algebren und W’maßen Ω sei gegeben. • Familie F ∗ ⊆ Pot(Ω) elementarer“ Ereignisse. ” ∗ ∗ • P : F → [0, 1] mit Eigenschaften“ eines W’maßes. ” • Erweiterung F = σ(F ∗) (kleinste σ-Algebra ⊇ F ∗). • Fortsetzung P von P∗. P : F → [0, 1] W’maß auf (Ω, F). 2.4.1. Gleichverteilung auf [0, 1] Ω = [0, 1]; F ∗ Menge der Intervalle in Ω; P∗[(a, b)] = |b − a|. F = σ(F ∗) = B([0, 1]) Borelsche σ-Algebra; P Lebesguemaß. Zusammenfassung (5. November 2014) 2.4.2. ∞-facher, unabhängiger Münzwurf Ω = {0, 1}N ({0, 1}-wertige Folgen); F ∗ durch endlich viele Würfe bestimmte Ereignisse; P∗ durch w’theoretische Modelle für endlich viele Würfe gegeben. Bsp.: P[1. Wurf von Kopf“ in geradem Zeitpkt.] = p/(p+1), ” p ∈ (0, 1). Bsp.: P[ Kopf“ nur endlich oft geworfen] = 0, p ∈ [0, 1). ” 2.4.3. Lebesguemaß in Rd, d = 1, 2, . . . λ(A) = Vol(A) = |A|, A ∈ B(Rd) (Borelsche σ-Algebra). λ ist kein Wahrscheinlichkeitsmaß. Zusammenfassung (7. November 2014) 2.5. Satz von Vitali Pot(Ω) ist in überabzählbaren Stichprobenräumen Ω i.allg. als σAlgebra ungeeignet. Begründung: Widerspruch bei der Konstruktion eines vernünftigen W’maßes (für ∞-fachen, unabhängigen, fairen Münzwurf). 2.6. W’maße mit einer Dichte bzgl. des Lebesguemaßes R f : Rd → [0, ∞) meßbar, Rd dx f (x) = 1 (Wahrscheinlichkeitsdichte); R P[A] = A dx f (x), A ∈ B(Rd). √ 2 2 • Normalverteilung (f (x) = exp(−(x − µ) /(2σ ))/ 2πσ 2). • Exponentialverteilung (f (x) = I[0,∞)(x)λ exp(−λx)), • Gleichverteilung auf G (beschränkt) (f (x) = IG(x)Vol(G)−1), • Cauchy-Verteilung (f (x) = a/(π(a2 + x2))), • Gamma-Verteilung (f (x) = I[0,∞)(x)(αr /Γ(r))xr−1 exp(−αx)), • χ2n-Verteilung (Gamma-Verteilung mit α = 1/2 und r = n/2). 2.6.1. Anwendung“ der Gleichverteilung ” Nicht jede sinnvoll klingende Anwendung“ der Mathematik ist ver” nünftig !! Zusammenfassung (12. November 2014) 2.7. Poisson-Approximation der Binomialverteilung Sei pn, n ∈ N, eine Folge in (0, 1) mit limn→∞ npn = λ ∈ (0, ∞). λk −λ =⇒ lim B(n, pn)[{k}] = e = P (λ)[{k}], k = 0, 1, ... n→∞ k! 2.7.1. Anwendung der Poisson-Approximation Bedeutung der Poissonverteilung in Anwendungen basiert auf der Poisson-Approximation der Binomialverteilung. Beispiele: Modellierung der Anzahl der Zerfälle eines radioaktiven Präparats (Anfragen an einen E-Mail-Server) in einem festen Zeitintervall, der Anzahl der Sterne in einem homogenen Bereich des Weltraums, . . . 3. Zufallsvariablen ZV’en dienen der Modellierung “zufälliger Beobachtungsgrößen“. (Ω, F), (Ω′, F ′) meßbare Räume. X : (Ω, F) → (Ω′, F ′) mit X −1(A′) = {ω ∈ Ω : X(ω) ∈ A′} = {X ∈ A′} ∈ F, A′ ∈ F ′, heißt meßbar. (Ω, F, P) Wahrscheinlichkeitsraum, (Ω′, F ′) meßbarer Raum. Eine meßbare Funkt. X : (Ω, F, P) → (Ω′, F ′) heißt Zufallsvariable. • Ω abzählbar, F = Pot(Ω): Alle Funktionen auf Ω sind meßbar. • Ω′ abzählbar, F ′ = Pot(Ω′): Falls X −1({ω ′}) ∈ F, ω ′ ∈ Ω′, ist X meßbar. X ist dann eine diskrete meßbare Funktion. • Die Meßbarkeit einer Funktion X : (Ω, F) → (Ω′, F ′) geht verloren, wenn F zu klein ist. Zusammenfassung (14. November 2014) 3.1. Verteilung von Zufallsvariablen Die Verteilung einer ZV X : (Ω, F, P) → (Ω′, F ′) ist definiert durch PX [A′] = P[{ω ∈ Ω : X(ω) ∈ A′}] = P[X ∈ A′], A′ ∈ F ′. • PX ist ein Wahrscheinlichkeitsmaß auf (Ω′, F ′). • Ω′ höchstens abzählbar, F ′ = Pot(Ω′). P PX [A′] = a∈A′ PX [{a}], A′ ∈ F ′, d.h., PX ist eindeutig durch PX [{a}], a ∈ Ω′, bestimmt. • Beispiel: Beliebig oft unabhängig wiederholtes, identisches Ex” periment“ mit Ausgängen Erfolg“, bzw. Mißerfolg“. ” ” Der Zeitpunkt des ersten Erfolgs ist geometrisch verteilt. 3.1.1. Konstruktion und Simulation diskreter ZV’en Eine N-wertige Zufallsvariable mit vorgegebener Verteilung µ = (µn )n∈N ist zu konstruieren. • Sei (Ω, F, P) = (N, Pot(N), µ); X(ω) = ω, ω ∈ Ω =⇒ PX = µ. • (Ω, F, P) = ([0, 1], B([0, 1]), λ[0,1]); Pn−1 Pn X1(ω) = n, ω ∈ k=1 µk , k=1 µk , n ∈ N =⇒ PX1 = µ. • Simulation von unabhängigen N-wertigen ZV’en mit gegebener Verteilung µ = (µn)n∈N: X1(x1), X1(x2), . . . (x1, x2, . . . Folge von unabhängigen“, in [0, 1] gleichverteilten“ ” ” Pseudozufallszahlen.) Es gibt qualitativ unterschiedliche Zufallsgeneratoren! Zusammenfassung (19. November 2014) 3.2. Familien v. ZV’en u. deren gemeinsame Verteilung Abhängigkeiten“ zwischen Zufallsvariablen werden durch deren ge” meinsame Verteilung beschrieben. Seien (Ω, F, P) ein W’raum und (Ω′λ, Fλ′ ), λ ∈ Λ, meßbare Räume. Xλ : (Ω, F, P) → (Ω′λ, Fλ′ ), λ ∈ Λ, seien Zufallsvariablen. • Die gemeinsame Verteilung der Xλ, λ ∈ Λ, ist durch P[Xλ1 ∈ A′λ1 , . . . , Xλn ∈ A′λn ], {λ1, . . . , λn} ⊆ Λ, A′λ1 ∈ Fλ′ 1 , . . . , A′λn ∈ Fλ′ n , n ∈ N, charakterisiert. • Die ZV’en Xλ, λ ∈ Λ, heißen unabhängig, wenn die gemeinsame Verteilung faktorisiert“, d.h., wenn jeweils ” ′ P[Xλ1 ∈ Aλ1 , . . . , Xλn ∈ A′λn ] = P[Xλ1 ∈ A′λ1 ] · · · P[Xλn ∈ A′λn ]. 3.2.1. Gem. Verteilung endlich vieler diskreter ZV’en Mk , k = 1, . . . , n, seien höchstens abzählbar. Xk : (Ω, F, P) → (Mk , Pot(Mk )), k = 1, . . . , n, seien ZV’en. PX1,...,Xn [A′] := P[(X1, ..., Xn) ∈ A′] (Gemeinsame Verteilung) X = P[X1 = m1 , ..., Xn = mn ], A′ ∈ Pot(M1 ×...×Mn). (m1,...,mn )∈A′ PX1 ,...,Xn ist ein W’maß auf (M1 ×. . .×Mn, Pot(M1 ×. . .×Mn)). Zusammenfassung (21. November 2014) 3.2.2. Unabhängige Zufallsvariablen mit einer Dichte X1, . . . , XN unabhängige, reellwertige Zufallsvariablen. Für k = 1, . . . , N habe die Verteilung PXk die Dichte fk . ⇒ Gemeinsame Verteilung PX1,...,XN hat Dichte QN (y1, . . . , yN ) → k=1 fk (yk ) auf (RN , B(RN )). Beispiel: Mehrdimensionale Normalverteilung. 3.2.3. Unabhängigkeit von Ereignissen Ereignisse Aλ, λ ∈ Λ, in einem W’raum (Ω, F, P) sind unabhängig, T Q wenn P λ∈∆ Aλ = λ∈∆ P[Aλ], ∆ ⊂ Λ, |∆| < ∞. Beachte: Paarweise Unabhängigkeit ; Unabhängigkeit. 3.2.4. Verteilung von Summen unabhängiger ZV’en P p = (pn)n∈Z, q = (qn)n∈Z =⇒ (p ∗ q)m := ∞ n=−∞ pnqm−n , m ∈ Z. R∞ f , g W’dichten auf R =⇒ (f ∗ g)(u) = −∞ dv f (v)g(u − v), u ∈ R. p ∗ q (f ∗ g) ist die Faltung von p und q (f und g). X, Y seien unabhängige, Z-wertige ZV’en. =⇒ PX+Y = PX ∗ PY . X, Y seien unabhängige, R-wertige ZV’en mit Dichte f , bzw. g. =⇒ Dichte von X + Y ist f ∗ g. Zusammenfassung (26. November 2014) 3.2.5. Gleichheitsbegriffe für Zufallsvariablen • X, Y : (Ω, F, P) → (Ω′, F ′). X = Y , f.s., falls P[X = Y ] = 1 (fast-sichere Gleichheit). • X : (Ω, F, P) → (Ω′, F ′), Y : (Ω1, F1, P1) → (Ω′, F ′). d L X = Y (X = Y ), falls PX = PY (Gleichheit in Verteilung, X und Y sind identisch verteilt). 3.3. Verteilungsfunktionen reellwertiger ZV’en X reellwert. ZV. Verteilungsfunktion FX : R → [0, 1] definiert durch FX (y) = P[X ≤ y] = PX [(−∞, y]], y ∈ R. 3.3.1. Eigenschaften von Verteilungsfunktionen • PX (a, b] = FX (b) − FX (a), −∞ < a < b < ∞. =⇒ Verteilung PX ist durch FX eindeutig bestimmt. • FX ist monoton wachsend. • limy→−∞ FX (y) = 0, limy→∞ FX (y) = 1. • FX ist rechtsstetig und besitzt linksseitige Grenzwerte. • a ∈ R ein Atom von PX Es gilt: ⇐⇒ FX hat Sprung in a. FX (a) − limyրa FX (y) = P[X = a] = PX [{a}]. • PX habe eine Dichte f bzgl. des Lebesguemaßes auf R. Ry =⇒ FX (y) = −∞ dz f (z), y ∈ R. Allg.: FX differenzierbar mit FX′ = f ⇐⇒ PX hat Dichte f . Zusammenfassung (28. November 2014) 3.3.2. Beispiele für Verteilungsfunktionen • ... • Dichtetransformation: X reellwertige ZV mit stetiger Dichte ψ. H ∈ C 1(R), H ′ > 0, limx→±∞ H(x) = ±∞. =⇒ H(X) besitzt die Dichte ψH (.) = ψ(H −1(.))/H ′(H −1(.)). Beispiel: α > 0, β ∈ R. ψα,β (y) = (1/α)ψ((y − β)/α), y ∈ R, Dichte der ZV αX + β. 3.3.3. Simulation einer Folge von i.i.d. ZV’en mit Dichte µ W’maß auf R mit Dichte f > 0, d.h., Fµ stetig, invertierbar. x1, x2, ... unabh. in (0, 1) gleichverteilte“ Pseudozufallszahlen. ” −1 =⇒ Fµ (x1), Fµ−1(x2), . . . simulieren i.i.d. ZV’en mit Verteilung µ (Inversionsmethode). 3.3.4. Quantile reellwertiger Zufallsvariablen Sei X eine (R, B(R))-wertige ZV, α ∈ (0, 1). q ∈ R mit P[X ≤ q] ≥ α, P[X ≥ q] ≥ 1 − α ist ein α-Quantil von X. Ein Median ist ein (1/2)-Quantil ( mittlerer Wert von X“). ” FX streng monoton steigend =⇒ Quantile sind eindeutig. I. allg. brauchen Quantile nicht eindeutig zu sein. qeα := inf y ∈ R : P[X ≤ y] ≥ α ist das kleinste α-Quantil. Zusammenfassung (3. Dezember 2014) 3.4. Stochastische Prozesse (Ω, F, P) W’raum, (Ω′, F ′) meßbarer Raum, T ⊆ R ( Zeitpunkte“). ” Xt : (Ω, F, P) → (Ω′, F ′), t ∈ T, seien ZV’en. X = (Xt)t∈T stochastischer Prozeß mit Zustandsraum (Ω′, F ′). Verteilung von X , Verteilung von {Xt : t ∈ T}. • Bernoulli-Prozeß Y = (Yk )k∈N zum Parameter p ∈ [0, 1]: Y1, Y2, . . . unabhängige, {−1, 1}-wertige Zufallsvariablen mit P[Yk = −1] = 1 − p, P[Yk = 1] = p, k = 1, 2, . . . . P • Irrfahrt: X0 = 0; Xk = Xk−1 + Yk = kr=1 Yr , k = 1, 2, . . . . In jedem Zeitpunkt k ∈ N springt X = (Xk )k∈N0 auf Z mit W’keit p nach rechts bzw. mit W’keit (1−p) nach links. p = 1/2: Symmetrische Irrfahrt. Irrfahrten sind einfach zu simulieren! 3.4.1. Stationäre stochastische Prozesse X = (Xk )k∈N0 ist stationär, wenn für k1 < . . . < kn, n ∈ N die gemeinsame Verteilung von Xk+k1 , . . . , Xk+kn unabhängig von k ∈ N0 ist. Ein Bernoulli-Prozeß ist stationär. Eine Irrfahrt ist nicht stationär. 3.5. W’räume und ZV’en in der Modellbildung • Allgemeine W’räume als Zufallsgeneratoren“ zur Konstrukti” on der bei der Modellbildung benötigten Zufallsvariablen. Ein Modell ist brauchbar, wenn hinreichend viele“ Zufallsva” riablen mit vernünftigen“ Verteilungen zu Verfügung stehen. ” • Spezielle W’räume zur Beschreibung und Untersuchung der gemeinsamen Verteilung von ZV’en und in der Statistik. 4. Schätztheorie Ziel: Schätzen unbekannter Parameter in Modellen zuf. Phänomene. 4.1. Statistische Modelle (X, G, (Pλ)λ∈Λ) • (X, G) meßbarer Raum (X mögl. Beobachtungswerte, G Ereignisse, auf denen statistische Entscheidungen aufbauen). • Pλ, λ ∈ Λ, Familie von Wahrscheinlichkeitsmaßen auf (X, G) (mögliche W’verteilungen der Beobachtungswerte). Statistisches Modell als Arbeitsumfeld“ in der Statistik. ” • Diskretes statistisches Modell: X abzählbar, G = Pot(X). • Kontinuierliches statistisches Modell: X ∈ B(Rn ), G = B(X), Pλ besitzt eine Dichte ρλ für alle λ ∈ Λ. Eine Statistik S ist eine meßbare Abbildung auf (X, G) (Entscheidungsverfahren). Zusammenfassung (5. Dezember 2014) b für unbekannten Pa4.2. Maximum-Likelihood-Schätzer λ rameter λ zum Beobachtungswert x ∈ X. b ist plausibelster Parameter. Idee: λ • Diskretes statistisches Modell: Pλb [{x}] = supλ∈Λ Pλ[{x}]. • Kontinuierliches statistisches Modell: ρλb (x) = supλ∈Λ ρλ(x). Likelihood-Funktion zum Beobachtungswert x ∈ X: Pλ[{x}] (diskretes statistisches Modell), Λ ∋ λ → Lx(λ) = ρλ(x) (kontinuierliches stat. Modell). Log-Likelihood-Funktion: Λ ∋ λ → ℓx(λ) = log Lx(λ). b maximal, wenn ℓx maximal ist. Für x ∈ X ist genau dann Lx in λ Zusammenfassung (10. Dezember 2014) • Beispiel: Vorgegebene Eingaben eines linearen Systems: x1, . . . , xn. Beobachtete Ausgaben: yk = α + βxk + zk , k = 1, . . . , n. z1, . . . , zn Rauschen (Realisierungen unabhängiger N(0, σ 2)-verteilter ZV’en). b Maximum-Likelihood-Schätzer für (α, β) zur Beobach(b α, β) tung (y1, . . . , yn). βb empirischer Regressionskoeffizient. b Regressionsgerade: R ∋ x → α b + βx. • Taxiproblem: Maximum-Likelihood-Sch. kann unbefriedigend sein. Es gibt Kriterien zur Qualitätsbewertung von Schätzern. Zusammenfassung (12. Dezember 2014) 4.3. Konfidenzbereiche (X, G, (Pλ)λ∈Λ) statistisches Modell, α ∈ (0, 1). Eine Abbildung X ∋ x → C(x) ⊆ Λ heißt Konfidenzbereich zum Irrtumsniveau α, wenn sup Pλ[{x ∈ X : C(x) 6∋ λ}] ≤ α. λ∈Λ Sprechweise: Für jede Beobachtung x liegt mit einer Sicherheit ” (!! nicht Wahrscheinlichkeit !!) von mindestens (1 − α) · 100% der (wahre) Parameter λ in C(x)“. • C(.) ist klein zu wählen, wenn der Erkenntnisgewinn“ groß sein ” soll. • Unterschiedliche Zielsetzungen beeinflussen die Wahl der Konfidenzintervalle. • Berechnung von Konfidenzintervallen. – Spezielle Methode mit Hilfe von Quantilen. – Allgemeine Methode basierend auf der Čebyšev’schen Ungleichung (nichtoptimale Konfidenzintervalle). 5. Laplacesche Wahrscheinlichkeitsräume und Kombinatorik Ω endlich, F = Pot(Ω), P[{ω}] = |Ω|−1, ω ∈ Ω. Alle Elemente von Ω sind gleichwahrscheinlich“. ” Lösung von Abzählproblemen zur Bestimmung von Wahrscheinlichkeiten P[A] = |A|/|Ω|, A ∈ F. Zusammenfassung (17. Dezember 2014) 5.1. Urnenmodelle (Hilfsmittel für Abzählprobleme) Urne mit N unterscheidbaren Kugeln, n Ziehungen. Ziehungsvarianten: (U1) Ziehung mit Zurücklegen, Reihenfolge berücksichtigt. (U2) Ziehung ohne Zurücklegen, Reihenfolge berücksichtigt. (U3) Ziehung mit Zurücklegen, Reihenfolge unberücksichtigt. (U4) Ziehung ohne Zurücklegen, Reihenfolge unberücksichtigt. Wk (N, n) mögliche Ziehungsresultate für (Uk ), k = 1, . . . , 4. 5.1.1. Darstellung der Mengen Wk (N, n), k = 1, . . . , 4 W1(N, n) , {1, . . . , N }n = {(w1, . . . , wn) : w1, . . . , wn = 1, . . . , N }, W2(N, n) , {w ∈ W1(N, n) : wi 6= wj , i 6= j}, W3(N, n) , {w ∈ W1(N, n) : 1 ≤ w1 ≤ w2 ≤ . . . ≤ wn ≤ N }, W4(N, n) , {w ∈ W1(N, n) : 1 ≤ w1 < w2 < . . . < wn ≤ N }. (wi , Resultat der i-ten Ziehung; bei W3(N, n) und W4(N, n) evtl. Umordnung der Ziehungszeitpunkte“) ” 5.1.2. Berechnung von |Wk (N, n)|, k = 1, . . . , 4 |W1(N, n)| = N n, |W2(N, n)| = N !/(N − n)!, N +n−1 N |W3(N, n)| = , |W4(N, n)| = n . n 5.2. Anwendungen von Urnenmodellen • W’keit für 2 Buben im Skat = |W4(4, 2)|/|W4(32, 2)|. • W’keit, daß von M Pers. 2 am gleichen Tag Geburtstag haben M(M−1) |W2 (365,M)| = 1 − |W1(365,M)| ≥ 1 − exp − 730 . Zusammenfassung (19. Dezember 2014) • Wahrscheinlichkeit für r Richtige beim Zahlenlotto 6 aus 49“ ” 43 (6r)·(6−r ) |W4(6,r)| |W4(43,6−r)| = . = |W4 (49,6)| (496) • Warnung vor sorgloser Anwendung von Laplaceschen Modellen. 5.3. Eine Alternative zu den Urnenmodellen Verteilung von n Murmeln“ auf N Zellen“. ” ” Vier Varianten: • Mehrfachbelegung der Zellen erlaubt / nicht erlaubt. • Murmeln unterscheidbar / nicht unterscheidbar. Äquivalenz zu entsprechenden Urnenmodellen. 5.4. Multinomialverteilung u. hypergeom. Verteilung Multinomialverteilung Mn(N, q1, . . . , qn) mit Parametern Pn n, N ∈ N und q1, . . . , qn ∈ [0, 1], wobei k=1 qk = 1: Ωn,N = ω = (ω1, . . . , ωn) : Pn ωk ∈ {0, 1, ..., N }, k = 1, ..., n; k=1ωk = N , N! q1ω1 . . . qnωn , ω ∈ Ωn,N . Mn(N, q1, . . . , qn)[{ω}] = ω1! . . . ωn! • Beispiel: Urne mit Kugeln der Farben 1, . . . , n. Für k = 1, . . . , n sei qk der Anteil der Kugeln der Farbe k. N -maliges Ziehen mit Zurücklegen. P[lk Kugeln der Farbe k, k = 1, . . . , n, werden gezogen] = Mn(N, q1, . . . , qn)[{(l1, . . . , ln )}], Pn l1, . . . , ln ∈ {0, 1, . . . , N }, k=1 lk = N . Zusammenfassung (7. Januar 2015) Hypergeometrische Verteilung Hn,M (N, m1, ..., mn ) mit Parametern n, M, N ∈ N, m1, . . . , mn ∈ {1, . . . , M } Pn mit n, N ≤ M und k=1 mk = M : n m1 ,...,mn = ω = (ω1, ..., ωn) : Ωn,N o Pn ωk ∈ {0, 1, ..., mk }, k = 1, ..., n; k=1 ωk = N , mn m1 m2 ... ωn ω2 ω1 m1 ,...,mn Hn,M (N, m1, ..., mn )[{ω}] = . , ω ∈ Ω n,N M N • Beispiel: Urne mit Kugeln der Farben 1, . . . , n. Für k = 1, . . . , n sei mk die Anzahl der Kugeln der Farbe k. Beim N -maligen Ziehen ohne Zurücklegen ist Farbverteilung durch Hn,M (N, m1, ..., mn ) bestimmt. • Bsp.: Multinomialapproximation der hypergeom. Verteilung. 6. Erwartungswert und Varianz 6.1. Erwartungswert für diskrete Zufallsvariablen X : (Ω, F, P) → (R, B(R)) diskret, d.h. X(Ω) höchstens abzählbar. P • X ist integrabel, wenn x∈X(Ω) |x|P[X = x] < ∞. • Für integrable Zufallsvariablen definiert P (∗) E[X] := x∈X(Ω) xP[X = x] den Erwartungswert von X. • Für positive Zufallsvariablen kann durch (∗) immer ein Erwartungswert definiert werden. Dieser kann ∞ sein. • X ist integrabel ⇐⇒ E[|X|] < ∞. 6.2. Eigenschaften der Abbildung X → E[X] X, Y , Xk , Yk , k ∈ N, integrable, reellwertige Zufallsvariablen. • Monotonie des Erwartungswerts: X ≤ Y , f.s. =⇒ E[X] ≤ E[Y ]. • Linearität des Erwartungswerts: Sei c ∈ R. cX, X + Y sind integrabel mit – E[cX] = cE[X], – E[X + Y ] = E[X] + E[Y ]. • σ-Additivität des Erwartungswerts: P∞ P∞ Xk ≥ 0, f.s., k ∈ N; X = k=1 Xk =⇒ E[X] = k=1 E[Xk ]. Satz von der monotonen Konvergenz: Yk ր Y , f.s. =⇒ E[Y ] = limk→∞ E[Yk ]. Zusammenfassung (9. Januar 2015) • Produktregel für unabhängige Zufallsvariablen: X, Y unabhängig. =⇒ XY integrabel, E[XY ] = E[X]E[Y ]. • Normierung: Sei X = 1, f.s. =⇒ E[X] = 1. 6.3. Erwartungswert für allgemeine, reellwertige ZV’en • Bestimmung von E[X] mit Hilfe diskreter Approximationen. Sei X(m)(ω) = ⌊mX(ω)⌋/m, ω ∈ Ω, m ∈ N. (a) X(n) ≤ X ≤ X(n) + n−1. (b) X(n0) sei integrabel. =⇒ alle X(n) sind integrabel; E[X(n)], n ∈ N, ist Cauchy-Folge. • Definition: X integrabel, wenn ein X(n) integrabel ist. • Definition: E[X] := limn→∞ E[X(n)] für integrable ZV X. • Eigenschaften in 6.2 gelten für beliebige integrable ZV’en. • E[ . ] ist abstraktes Integral: R R E[X] =: Ω X(ω)P(dω) =: XdP. • PX habe Dichte f bzgl. des Lebesguemaßes. H sei meßbar. R X ist integrabel, falls R dx |x|f (x) < ∞, R H(X) ist integrabel, falls R dx |H(x)|f (x) < ∞, R R E[X] = R dx xf (x), E[H(X)] = R dx H(x)f (x). Zusammenfassung (14. Januar 2015) •X ≥0 =⇒ E[X] ∈ [0, ∞] ist wohldefiniert. • X = X+ − X− (Zerlegung in Positiv- und Negativteil). E[X] := E[X+] − E[X−], wenn E[X+] < ∞ oder E[X−] < ∞. E[X] existiert nicht, wenn E[X+] = E[X−] = ∞. • X ist integrabel ⇐⇒ E[|X|] = E[X+] + E[X−] < ∞. 6.4. Varianz und verwandte Begriffe • Sei p ∈ N. Falls E[X p] existiert, heißt E[X p] das p-te Moment von X. p-tes Moment von X ist endlich, falls |X|p integrabel ist. • E[|X|p] < ∞ =⇒ E[|X|r ] < ∞, 1 ≤ r < p. • Lp(Ω, F, P) := {Y : (Ω, F, P) → (R, B(R)) : E[|Y |p] < ∞} ist ein Banachraum mit der Norm kY kp := (E[|Y |p])1/p. L2(...) ist Hilbertraum mit Skalarprodukt hY, Zi := E[YZ]. • Varianz: Var(X) := E[(X − E[X])2] = E[X 2] − E[X]2. (Stärke der Fluktuationen von X um typischen“ Wert E[X]) ” • Cauchysche Ungleichung: E[X]2 ≤ E[X 2]. p • Standardabweichung: σX = Var(X). • Kovarianz: Cov(X, Y ) := E[(X −E[X])(Y −E[Y ])] = E[XY ]−E[X]E[Y ]. • Korrelation: ρ(X, Y ) := Cov(X, Y )/(σX σY ) ∈ [−1, 1]. (ρ(X, Y ) > 0 (bzw. < 0), wenn typischerweise“ X −E[X] und ” Y −E[Y ] gleiches (entgegengesetztes) Vorzeichen besitzen.) • X1, . . . , Xd seien R-wertige Zufallsvariablen. (Cov(Xi, Xj ))i,j=1,...,d ist die Kovarianzmatrix. • X,Y unabhängig, X, Y ∈ L2(. . . ) ⇒ X,Y unkorreliert, d.h., Cov(X, Y ) = 0. X,Y unkorreliert ; X,Y unabhängig. 6.4.1. Rechenregeln für Varianz und Kovarianz • Cov(aX + b, cY + d) = ac Cov(X, Y ), a, b, c, d ∈ R, Var(aX + b) = a2 Var(X). n X • Var(X1 + · · · + Xn) = Var(Xk ) + k=1 X Cov(Xk , Xl ). k,l=1,...,n; k6=l Für unkorrelierte ZV’en addieren sich die Varianzen. Zusammenfassung (16. Januar 2015) • Cov(X, Y )2 ≤ Var(X) Var(Y ). • |ρX,Y | ≤ 1. 6.5. Beispiele zum Erwartungswert und zur Varianz • X habe Exponentialverteilung mit Parameter λ > 0. ⇒ E[X] = 1/λ, E[X 2] = 2/λ2, Var(X) = 1/λ2 . ⇒ E[X] existiert nicht, E[X 2] = ∞. ⇒ Alle Momente existieren, • X habe Cauchy-Verteilung. • X habe Normalverteilung mit Parameter µ ∈ R und σ 2 > 0. E[X] = µ, Var(X) = σ 2, E[X 2] = σ 2 + µ2. 6.6. Erwartungstreue Schätzer (X, G, (Pλ)λ∈Λ) statistisches Modell mit Λ ∈ B(R). T : (X, G) → (R, B(R)) sei Schätzer für λ. • Bias von T : bλ(T ) := Eλ[T ] − λ, λ ∈ Λ ( Systematischer“ Fehler des Schätzers T ). ” • T heißt erwartungstreu, wenn bλ(T ) = 0, λ ∈ Λ. • Maximum-Likelihood-Sch. braucht nicht erwartungstreu zu sein. Zusammenfassung (21. Januar 2015) • Erwartungstreuer Schätzer braucht nicht zu existieren. • X1, . . . , XN i.i.d. ZV’en mit Erwartungswert µ und Varianz σ 2. P PN e 2 := (N − 1)−1 µ e := N −1 N X und σ e)2 k=1 k k=1 (Xk − µ sind erwartungstreue Schätzer für µ, bzw. σ 2. 6.6.1. Mittlerer quadratischer Fehler eines Schätzers (X, G, (Pλ)λ∈Λ) diskretes statistisches Modell, Λ ⊆ R Intervall. Sei T eine Statistik zur Schätzung von λ. • Mittl. quadratischer Fehler von T : s2λ(T ) := Eλ[(T−λ)2], λ ∈ Λ. • Informationsungleichung für erwartungstreuen Schätzer T : Eλ[(T − λ)2] = Varλ(T ) ≥ I(λ)−1, λ ∈ Λ, P I(λ) = Eλ[ℓ′.(λ)2] = x∈X ℓ′x(λ)2Pλ[{x}] Fisher-Information (Λ ∋ λ → ℓx(λ) Log-Likelihood-Funktion zur Beobachtung x). 6.7. Elementare Ungleichungen in der W’theorie Sei X eine reellwertige Zufallsvariable. • Markov-Ungleichung. Sei f : [0, ∞) → [0, ∞) monoton wach- send mit f (x) > 0 für x > 0. Dann gilt: E[f (|X|)] , ǫ > 0. P[|X| ≥ ǫ] ≤ f (ǫ) E[X 2] • Čebyšev-Ungleichung: P[|X| ≥ ǫ] ≤ , ǫ > 0. 2 ǫ 6.8. Konvergenzbegriffe in der W’theorie • Stochastische Konvergenz (Konvergenz in W’keit; Anwendung: Schwaches GGZ). n→∞ P[|Xn − X| > ǫ] → 0, ǫ > 0 P ⇐⇒: Xn → X. • Fast-sichere Konvergenz (Anwendung: Starkes GGZ). P[limn→∞ Xn = X] = 1 f.s. ⇐⇒: Xn → X. • Konvergenz in Verteilung (Anwendung: ZGWS). limn→∞ E[h(Xn)] = E[h(X)], h ∈ Cb(R) d ⇐⇒: Xn → X. Zusammenfassung (23. Januar 2015) • Äquivalente Aussagen: d – Xn → X. – limn→∞ FXn (y) = FX (y), y ∈ R, FX stetig in y. – limn→∞ ψXn (y) = ψX (y), y ∈ R. (FY Verteilungsfunktion, ψY mit ψY (z) = E[exp(izY )] charakteristische Funktion einer Zufallsvariable Y ) f.s. • Xn → X =⇒ P Xn → X =⇒ d Xn → X. 7. Gesetz der großen Zahlen 7.1. Ein schwaches Gesetz der großen Zahlen • Xk , k ∈ N, Folge von unkorrelierten, reellwertigen ZV’en in L2(Ω, F, P) mit E[Xk ] = µ, k ∈ N, und supk∈N Var(Xk ) < ∞. N →∞ PN =⇒ P (1/N ) Xk − µ ≥ ǫ → 0, ǫ > 0. k=1 • Unter obigen Bedingungen gilt auch das starke GGZ: PN limN →∞(1/N ) k=1 Xk = µ, f.s. 7.2. Anwendungen des schwachen GGZ 7.2.1. Monte-Carlo-Integration h : [0, 1] → R meßb., beschr. PN P R1 =⇒ (1/N ) k=1 h(Xk ) → 0 dx h(x) (X1, X2, . . . unabhängig, gleichverteilt auf [0, 1]). PN f.s. R 1 • Starkes GGZ: (1/N ) k=1 h(Xk ) → 0 dx h(x). • MC-Integration sinnvoll bei irregulären Integranden h. 7.2.2. Bernstein-Polynome u. Approx.satz v. Weierstraß f : [0, 1] → R stetig; Bernstein-Polynome: PN PN p fN (p) = E[f ((1/N ) n=1 Xn )] = k=0 f (k/N ) N k pk (1 − p)N −k (X1p, X2p, . . . i.i.d., {0, 1}-wertig mit Bernoulli-Verteilung zum Parameter p ∈ [0, 1]). =⇒ limN →∞ supp∈[0,1] |fN (p) − f (p)| = 0. 8. Bedingte Wahrscheinlichkeiten • P[A|B] W’keit f. A unter d. Bedingung, daß B eingetreten ist. • P[A|B] 6= P[A], falls A und B nicht unabhängig sind. 8.1. Bestimmung bedingter Wahrscheinlichkeiten (Ω, F, P) ein Wahrscheinlichkeitsraum, B ∈ F mit P[B] > 0. Bedingte Wahrscheinlichkeit P[ . |B] ist W’maß auf (Ω, F) mit P[A ∩ B] P[A|B] = , A∈F P[B] (Bestätigung durch ein Beispiel und durch allgemeine Überlegung). Zusammenfassung (28. Januar 2015) • Beispiel: T gedächtnislose Wartezeit in kontinuierlicher Zeit, d.h., P[T > t + s|T > t] = P[T > s], 0 < s, t < ∞. =⇒ T ist exponentiell verteilt. 8.1.1. Rechenregeln für bedingte Wahrscheinlichkeiten • S Ω = j∈I Bj abzählbare Zerlegung von Ω. P[Bj ] > 0, j ∈ I. • Fallunterscheidungsformel. P P[A] = j∈I P[Bj ]P[A|Bj ], A ∈ F. • Formel von Bayes. P[Bk ]P[A|Bk ] P[Bk ]P[A|Bk ] P[Bk |A] = =P , P[A] P[B ]P[A|B ] j j j∈I k ∈ I, A ∈ F, P[A] > 0. • Anwendung: Bewertung eines medizin. Diagnoseverfahrens. 9. Zentraler Grenzwertsatz Ziel: Präzisierung des GGZ für i.i.d. ZV’en in L2(Ω, F, P) mit pos. Varianz. Charakterisierung der Konvergenzgeschwindigkeit. Zusammenfassung (30. Januar 2015) 9.2. Eigenschaften charakteristischer Funktionen R ψX (z) = E[exp(izX)] = R PX (dx) exp(izx), z ∈ R, X reellw. ZV. • X, Y unabhängig =⇒ ψX+Y = ψX · ψY . • E[|X|2] < ∞ =⇒ ψX ∈ Cb2(R), ψX (z) = 1 + izE[X] − z 2E[X 2]/2 + o(|z|2), bei |z| → 0. • a, b ∈ R =⇒ ψaX+b(z) = exp(izb)ψX (az), z ∈ R. • PX = N(0, 1) =⇒ ψX (z) = exp(−z 2/2), z ∈ R. • ψX = ψY ⇔ PX = PY (Eindeutigkeit charakteristischer Fktn.) 9.3. Zentraler Grenzwertsatz für i.i.d. Zufallsvariablen Xn, n ∈ N, i.i.d. R-wertige ZV’en. E[X1] = µ, Var(X1) = σ 2 ∈ (0, ∞). ! r N X N 1 d =⇒ X − µ → X mit PX = N(0, 1). k σ2 N k=1 • Kurzer Beweis des ZGWS durch Verwendung charakteristischer Funktionen. • ZGWS ist ein zentrales Resultat der Mathematik und ihrer Anwendungen. • Andere des Zentralen Grenzwertsatzes: ! # "r Schreibweise Z b N N 1X 1 N →∞ dx exp(−x2/2). X −µ ∈ (a, b) ∼ √ P k 2 σ N 2π a k=1 9.4. Lokale Normalapproximation Zusätzlich seien die Xn, n ∈ N, nicht auf einem Gitter in R konzentriert. Dann gilt: "r # ! N N 1 X β α √ √ P , x+ X −µ ∈ x+ k σ2 N N N k=1 N →∞ β −α 1 ∼ √ √ exp(−x2/2), x ∈ R, −∞ < α < β < ∞. N 2π 9.5. Bestimmung von Konfidenzintervallen • Konfidenzintervalle für Erwartungswert von i.i.d. ZV’en. X1, X2, . . . i.i.d. mit E[X1] = µ, Var(X1) = σ 2 ∈ (0, ∞). P σ 2 sei bekannt, µ ist zu schätzen. Sei µ eN = N1 N k=1 Xk , N ∈ N. √ N →∞ Rb p 2 µN −µ) ∈ (a, b) ∼ (1/ 2π) a dx exp(−x2/2), P N/σ (e √ RU U = U (α) durch (1/ 2π) −U dx exp(−x2/2) = 1−α definiert. q q 2 2 =⇒ CN (e µN ) = µ eN − U σN , µ eN + U σN ist für N → ∞ Konfidenzintervall zum Irrtumsniveau α N →∞ für µ, d.h., P[CN (e µN ) 6∋ µ] ∼ α.