Prof. Dr. Michael Eisermann Höhere Mathematik 3 (vertieft) • Inhalt dieses Kapitels 1 Zufallsvariablen und Chebychev–Ungleichung Zufallsvariablen, Erwartung und Varianz Die Ungleichungen von Chebychev 2 Unabhängigkeit und das Gesetz der großen Zahlen Unabhängige Zufallsvariablen Das Gesetz der großen Zahlen 3 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz Konfidenzintervalle 4 Fazit: der zentrale Grenzwertsatz Summen von Zufallsvariablen Anwendungen der Grenzwertsätze 5 Analytische Methoden der Wahrscheinlichkeitsrechnung Potenzreihen und erzeugende Funktionen Laplace– und Fourier–Transformation Kapitel V Der zentrale Grenzwertsatz Zweck des vorliegenden Heftes ist eine axiomatische Begründung der Wahrscheinlichkeitsrechnung. (...) Vor Entstehung der Lebesgueschen Maß- und Integrationstheorie war diese Aufgabe ziemlich hoffnungslos. Nach den Lebesgueschen Untersuchungen lag die Analogie zwischen dem Maße einer Menge und der Wahrscheinlichkeit eines Ereignisses sowie zwischen dem Integral einer Funktion und der mathematischen Erwartung einer zufälligen Größe auf der Hand. Andrei Kolmogorov (1902–1987), Grundbegriffe der Wahrscheinlichkeitstheorie (1933) WiSe 2017/18 www.igt.uni-stuttgart.de/eiserm/lehre/HM3 • • Stand 27.10.2017 Motivation V001 Erläuterung Wir kennen bereits zwei nützliche und wichtige Grenzwertsätze: Bei seltenen Ereignissen können wir die Binomialverteilung B(n, t) durch die Poisson–Verteilung P (nt) nähern mit guter Fehlerschranke. Das Gesetz der kleinen Zahlen besagt B(n, λ/n) → P (λ) für n → ∞. Der lokale Grenzwertsatz hingegen nützt für beliebige 0 < t < 1 und approximiert Binomialverteilungen durch Normalverteilungen: b X n exakt P(a ≤ S ≤ b) = k k=a tk (1 − t)n−k approx ˆ β = α V000 2 e−ξ /2 √ dξ + δ 2π Die Normalverteilung ist zudem universell: Sie entsteht immer, wenn sich viele unabhängige, ähnlich große Beiträge zu S aufsummieren: ˆ β −ξ2 /2 e √ S = X1 + X2 + · · · + Xn , P(a ≤ S ≤ b) = dξ + δ 2π α Entscheidend ist hier, wie immer, den Fehler δ geeignet zu beschränken. Die genaue Aussage ist Inhalt des zentralen Grenzwertsatzes V3A. Erinnerung: Augensumme von zwei Würfeln V101 1 Ergebnisse ω ∈ Ω = {1, 2, 3, 4, 5, 6}2 mit Gleichverteilung P({ω}) = 36 . Augenzahlen X1 , X2 : Ω → R mit X1 (ω1 , ω2 ) = ω1 und X2 (ω1 , ω2 ) = ω2 . Augensumme X : Ω → R mit X = X1 + X2 . Die Verteilung von X ist: 6/36 6+1 5/36 5+1 5+2 6+2 4+1 4+2 4+3 5+3 6+3 3+1 3+2 3+3 3+4 4+4 5+4 6+4 2+1 2+2 2+3 2+4 2+5 3+5 4+5 5+5 6+5 1+1 1+2 1+3 1+4 1+5 1+6 2+6 3+6 4+6 5+6 6+6 2 3 4 5 6 7 8 9 10 11 12 4/36 Vorgehensweise V002 Erläuterung Unser Ziel sind rationale Entscheidungen unter Unsicherheit. Hierzu wollen wir stochastische Gesetzmäßigkeiten erklären und nutzen. Eine Messung betrachten wir als Zufallsvariable X : Ω → R. Sie definiert eine WVerteilung auf R mit Erwartung und Varianz. Entscheidend ist der Begriff der Unabhängigkeit von Zufallsvariablen. Die intuitive Anschauung präzisieren wir durch Definitionen und Sätze. Wir können damit die Chebychev–Ungleichung formulieren und hieraus das (schwache) Gesetz der großen Zahlen ableiten. Höhepunkt dieses Kapitels ist der zentrale Grenzwertsatz V3A. Diesen formuliere ich mit einer allgemeinen, expliziten Fehlerschranke. Die vom ZGS vorhergesagte Normalverteilung ist ein universelles Werkzeug und bietet für viele Situationen ein brauchbares Modell. Sie dient insbesondere zur Bestimmung von Konfidenzintervallen und wird daher in nahezu allen praktischen Anwendungen benötigt. Hierzu gebe ich abschließend erste einfache Anwendungsbeispiele. Mit diesen Grundlagen gewappnet beginnt die mathematische Statistik. Erinnerung: unabhängig wiederholte Tests Ergebnisse sind n–Tupel ω ∈ Ω = {0, 1}n . Die WVerteilung ist hier P({ω}) = tk (1 − t)n−k bei Trefferzahl k = ω1 + · · · + ωn . Für Xi : Ω → {0, 1} mit Xi (ω1 , ω2 , . . . , ωn ) = ωi gilt Xi ∼ B(1, t). Für X = X1 + · · · + Xn gilt X ∼ B(n, t), d.h. X hat die Verteilung n k P(X=k) = P ω X(ω) = k = t (1 − t)n−k . k n = 100, t = 0.1 n = 100, t = 0.3 n = 100, t = 0.5 0.12 0.10 3/36 V102 0.08 2/36 0.06 0.04 1/36 Zufallsvariablen 0.02 0 V103 10 20 30 40 50 Zufallsvariablen V104 Erläuterung Oft interessiert bei Experimenten nicht das detaillierte Ergebnis ω ∈ Ω, sondern nur eine reelle Größe X(ω) ∈ R, die vom Ergebnis ω abhängt. Wir betrachten statt reeller auch vektorwertige Zufallsvariablen Definition V1A (Zufallsvariable) Allgemeiner: Jede Zufallsvariable ist eine messbare Abbildung Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A , P). ?? Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R. Diese definiert auf R eine WVerteilung PX : B(R) → [0, 1] durch PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B . Diese nennen wir die Verteilung der Zufallsvariablen X (Bildmaß). Wir sagen hierzu X ist PX –verteilt und schreiben kurz X ∼ PX . Wir stellen uns Ω als Lostopf vor; zu jedem Los ω ∈ Ω ist X(ω) ∈ R der Gewinn. Die Wkt P ist auf die verschiedenen Ergebnisse ω ∈ Ω verteilt, entsprechend PX auf die möglichen Gewinne. Messbarkeit von X ist eine technisch notwendige Sie bedeutet: Voraussetzung. Für jedes Intervall B ⊂ R ist die Urbildmenge A = X −1 (B) = ω ∈ Ω X(ω) ∈ B = „ X ∈ B “ in Ω messbar, das heißt A ∈ A . Diese Vorsichtsmaßnahme ist (wie immer) nur technischer Natur: Sie stellt sicher, dass die Definition von PX und alle weiteren Rechnungen möglich sind. 60 X = (X1 , . . . , Xn ) : (Ω, A , P) → (Rn , B, PX ). X : (Ω, A , P) → (Ω0 , B, PX ) Anschaulich wird die Massenverteilung von P auf PX transportiert. Statt mit einer Zufallsvariable X : Ω → Ω0 auf dem WRaum (Ω, A , P) können wir ebenso auch direkt mit dem Bildraum (Ω0 , B, PX ) arbeiten. Mit der Zufallsvariable X können wir so einen komplizierten durch einen einfachen Wahrscheinlichkeitsraum ersetzen. Die Einführung von Zufallsvariablen ist oft bequem und nützlich: Bequeme Notation und natürliche Sprechweise: ZVariablen sind z.B. Messungen, Stichproben, etc. Das ist für Anwendungen hilfreich. Wir können mehrere Experimente als Zufallsvariablen X1 , X2 , . . . auf dem gemeinsamen WRaum (Ω, A , P) betrachten. Wir können vom zugrundeliegenden WRaum (Ω, A , P) abstrahieren und müssen ihn häufig gar nicht explizit ausführen. Kontinuierliches Beispiel V105 Erläuterung Kontinuierliches Beispiel V106 Erläuterung (1) Gleichverteilung P auf dem Definitionsbereich Ω = [−1, 1]: R Ω Kumul G Aufgabe: (1) Auf Ω = [−1, 1] betrachten wir die Gleichverteilung P. Zeichnen Sie hierzu die WDichte g und die kumul. Verteilung G. (2) Bestimmen Sie für die ZVariable X : Ω → R mit X(t) = t2 die kumulative Verteilungsfunktion F und ihre WDichte f . Lösung: Die Bildmenge ist [0, 1], aber nicht gleichverteilt! Das Bildmaß PX hat für 0 ≤ x ≤ 1 die kumulative Verteilung √ √ F (x) = P(t2 ≤ x) = P(|t| ≤ x) = x. Demnach hat PX die Dichte f (x) = F 0 (x) = WDichte g x 1 √ . 2 x Kontinuierliches Beispiel V107 Erläuterung (2) Verteilung PX der ZVariablen X(t) = t2 im Bildbereich Ω0 = [0, 1]: Kumul F Konkret kann man dies wie folgt simulieren: Generieren Sie zufällig gleichverteilt Zahlen t ∈ [−1, 1] und tragen Sie die Bildpunkte X(t) = t2 ein. Es ergibt sich eine Punktwolke in [0, 1], deren Dichte von 0 nach 1 monoton abnimmt. Nahe 0 wird diese Wolke extrem dicht. WDichte f Unser Ergebnis für die Zufallsvariable X(t) = t2 ist daher plausibel. Will man die genaue Verteilung, so muss man rechnen (wie oben). Diese einfache Illustration ist der Sinn dieser Aufgabe. Erwartung: diskretes Beispiel Man sieht insbesondere, dass die Dichte nicht beschränkt sein muss. Hier hat sie eine Polstelle, bei 0 also unendlich große Dichte. Dennoch ist die Gesamtmasse endlich, immer noch gleich 1. V109 Wenn X : Ω → R nur endlich viele Werte a1 < a2 < · · · < an annimmt, dann ist der Erwartungswert E(X) der gewichtete Mittelwert: n X k=1 ak · P(X=ak ) Lösung: Die Berechnung des Erwartungswertes kennen wir n n X X n k E(X) = k · P(X=k) = k· t (1 − t)n−k k Definition der Erwartung V110 Erläuterung Für die Erwartung gehen wir wie beim Integral vor (siehe Kapitel A): Für jede einfache Funktion können wir das Integral durch eine endliche Summe definieren (wie bei Treppenfunktionen). Anschließend gelangen wir per Grenzübergang von einfachen zu messbaren Funktionen: Satz V1B (Ausschöpfung durch einfache Funktionen) Aufgabe: Man berechne E(X) für X ∼ B(n, t) binomialverteilt. k=0 V108 Erläuterung Anschaulich wird die Massenverteilung von P auf PX transportiert: Die Parameter t ∈ [−1, 1] sind gleichverteilt, nicht jedoch t2 ∈ [0, 1]. Im Bildraum [0, 1] werden die niedrigen Werte um 0 wahrscheinlicher getroffen (hohe Dichte) als die hohen Werte um 1 (geringere Dichte). x E(X) := Kontinuierliches Beispiel Sei (Ω, A , P) ein Wahrscheinlichkeitsraum. U209 : = Für jede Funktion f : Ω → [0, ∞] sind äquivalent: nt k=0 Konkret betrachten wir wie oben die Trefferzahl X : {0, 1}n → R mit X(ω) = ωP 1 + · · · + ωn . Dies ist eine einfache Funktion, in diesem konkreten Beispiel gilt nämlich X = n k=1 k IAk mit Ak = X −1 ({k}) = { ω ∈ Ω | X(ω) = k }. Dies verallgemeinert Treppenfunktionen A307 , hier nun sind A1 , . . . , An beliebige messbare Mengen (nicht nur Quader im Rn ). Die Menge T (Ω, R) aller P einfachen Funktionen Pnist ein R–Vektorraum. Hierauf ist die Erwartung n E : T (Ω, R) → R mit E k=1 ak IAk = k=1 ak P(Ak ) die einzige normierte, lineare Abbildung. Das entspricht dem Integral! Wir können unser Wissen nutzen. Alles wird gut. Definition der Erwartung V111 Erläuterung (1) Für alle a ∈ R ist f −1 ([0, a]) messbar: { ω ∈ Ω | f (ω) ≤ a } ∈ A . (2) Es existiert eine wachsende Folge einfacher Funktionen 0 ≤ f0 ≤ f1 ≤ f2 ≤ . . . : Ω → [0, ∞] mit fk % f. In diesem Fall gilt 0 ≤ E(f0 ) ≤ E(f1 ) ≤ . . . und wir definieren E(f ) := lim E(fk ) ∈ [0, ∞]. Dies ist wohldefiniert, d.h. von der Wahl der Folge (fk )k∈N unabhängig. Definition der Erwartung V112 Erläuterung Definition V1C (messbare und absolut integrierbare Funktionen) Für jede Funktion f : Ω → R̄ gilt f = f + − f − und |f | = f + + f − . Genau dann ist f : Ω → R̄ messbar, wenn f + und f − messbar sind. In diesem Fall ist auch |f | = f + + f − messbar, und somit gilt E(|f |) = E(f + ) + E(f − ). Ist dieser Wert endlich, so nennen wir f absolut integrierbar. In diesem Fall können wir den Erwartungswert von f definieren durch „(1)⇒(2)“: Wir konstruieren einfache Funktionen fk : Ω → [0, ∞]. Sei k ∈ N. Für j ∈ {0, . . . , N = k2k } setzen wir hj := j/2k und Aj := f −1 ([hj , hj+1 [), wobei AN := f −1 ([hN , ∞]). Wir definieren P fk := N k=0 hj · IAj . Für jeden Punkt x ∈ Ω gilt dann fk (x) % f (x). „(2)⇐(1)“: Seien fk : Ω → [0, ∞] messbar und fk % f . Die Menge Ak = fk−1 ([0, a]) ist messbar, also Ak ∈ A . T Für A = f −1 ([0, a]) gilt dann A = ∞ k=0 Ak , also A ∈ A . E(f ) := E(f + ) − E(f − ). Satz V1D (Erwartung als Integral) Der Erwartungswert verhält sich als Integral E(f ) = ´ x∈Ω f (x) dP: Die integrierbaren Funktionen f : Ω → R bilden einen Vektorraum. Hierauf ist f 7→ E(f ) eine normierte, lineare, monotone Abbildung. Erwartung: kontinuierliches Beispiel V113 Für jede Zufallsvariable X : Ω → R ist der Erwartungswert das Integral: ˆ ˆ E(X) := X(ω) dP = x dPX ω∈Ω x∈R Im diskreten Fall ist dies eine Summe, im kontinuierlichen ein Integral. Dies ist nur sinnvoll für E(|X|) < ∞: Wir nennen X integrierbar oder sagen: Der Erwartungswert von X existiert. Ω Aufgabe: Sei P die kontinuierliche Gleichverteilung auf Ω = [−1, 1]. Berechnen Sie den Erwartungswert von X : Ω → R mit X(t) = t2 . Lösung: Das gelingt durch Integration über (Ω, P): ˆ 1 ˆ 1 ˆ 1 1 1 3 1 1 X(t) · dt = t2 · dt = t = E(X) = X(t) dP = 2 2 6 −1 3 −1 −1 Ω Erwartung von Zufallsvariablen Die Verteilung PX dieser Zufallsvariable haben wir oben diskutiert. Der Erwartungswert ist anschaulich plausibel: Niedrige Werte nahe 0 werden wahrscheinlicher getroffen als hohe Werte nahe 1. Ein Wert unter 1/2 scheint daher plausibel. Den genauen Wert 1/3 hingegen muss man ausrechnen. Dafür haben wir alle Techniken zur Integration! Beide Integrale sind gleich dank Transformationssatz / Substitution! Der Erwartungswert lässt sich also auf zwei Weisen betrachten und berechnen: als Integral der messbaren Funktion X : Ω → R bezüglich des Maßes P auf Ω, oder als Schwerpunkt des Bildmaßes PX auf R. Beide ergeben dasselbe Ergebnis, und ein jeder darf sich aussuchen, welcher Rechenweg im konkreten Beispiel bequemer für ihn ist. Ich werde im Folgenden meist Bildmaße auf Rn vorziehen, da uns diese aus der n–dimensionalen Integration vertraut sind. V115 Erwartungswert: warnende Beispiele V116 Erläuterung Bei endlichen WRäumen (Ω, P) ist Summierbarkeit kein Problem. Ebenso besteht für einfache Funktionen X : Ω → R kein Hindernis. Vorsicht ist geboten, wenn X unendlich viele Werte annimmt: Definition V1E (Erwartungswert von Zufallsvariablen) Sei (Ω, A , P) ein WRaum und X : Ω → R̄ eine Zufallsvariable. Ihr Erwartungswert (oder kurz ihre Erwartung) ist gegeben durch ˆ ˆ µ(X) = E(X) := X(ω) dP = x dPX . x∈R Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt ˆ E(X) = x f (x) dx. R Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt X E(X) = x p(x). x∈R Dies ist jeweils nur sinnvoll für E(|X|) < ∞. In diesem Fall nennen wir X integrierbar oder sagen: Der Erwartungswert von X existiert. Varianz von Zufallsvariablen V114 Erläuterung Aufgabe: Berechnen Sie den Erwartungswert alternativ mit dem Bildmaß PX . Stimmen beide Ergebnisse überein? Warum ist das so? √ Lösung: Zu PX auf [0, 1] haben wir oben die Dichte f (x) = 1/(2 x) ausgerechnet. Hieraus erhalten wir den Erwartungswert wie folgt: ˆ 1 ˆ 1 ˆ ˆ 1 h1 i1 1 1 1 1/2 x dPX = xf (x) dx = x √ dx = x dx = x3/2 = 2 3 3 2 x 0 0 0 R 0 R ω∈Ω Erwartung: kontinuierliches Beispiel Aufgabe: Seien X, Y : Ω → Z Zufallsvariablen mit Verteilung a P X=(−2)k = 2−k und P Y = k = 2 für k = 1, 2, 3, . . . k (1) Sind dies WVerteilungen? (2) Existiert die Erwartung? P 2 Lösung: (1) Ja, es gilt p(k) ≥ 0 und ∞ k=1 p(k) = 1, wobei a = 6/π . (2) Nein, die zum Erwartungswert benötigte Reihe konvergiert nicht: ∞ ∞ X X xk · P(X=xk ) = (−2)k · 2−k = −1 + 1 − 1 + 1 − 1 ± . . . k=1 k=1 ∞ X ∞ X k=1 k · P(Y =k) = k=1 k· a k2 = 6 1 1 1 1 1 + + + + + ... 2 π 1 2 3 4 5 Die hier erforderlichen Reihen konvergieren nicht. Einen Erwartungswert können wir hier also nicht definieren! V117 Definition V1F (Varianz und höhere Momente) Varianz von Zufallsvariablen V118 Erläuterung Aufgabe: Sei µ = E(X). Zeigen Sie die praktisch nützliche Formel ! V(X) = E (X − µ)2 = E(X 2 ) − E(X)2 Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable. Sei E(|X|) < ∞, so dass der Erwartungswert µ = E(X) existiert. Die Varianz von X ist die mittlere quadratische Abweichung σ 2 (X) = V(X) := E (X − µ)2 = E(X 2 ) − E(X)2 ≥ 0. Die Streuung oder Standardabweichung von X ist die Quadratwurzel p σ(X) := V(X) ≥ 0. Nachrechnen: Dank Linearität des Erwartungswerts gilt 2 E X −µ = E X 2 − 2Xµ + µ2 2 = E X − 2E X µ + µ2 = E(X 2 ) − 2µ2 + µ2 Das (absolute, zentrierte) n–te Moment von X ist gegeben durch ρn (X) = E |X − µ|n . = E(X 2 ) − E(X)2 Die Varianz V(X) = E (X − µ)2 = E(X 2 ) − E(X)2 kann man also mit jeder der beiden Formeln ausrechnen. Beide sind nützlich. Anschaulich ist der Erwartungswert µ der Schwerpunkt der Verteilung. Varianz und höhere Momente messen, wie weit die Werte um µ streuen. Große Abweichungen wiegen schwerer: quadratisch oder gar hoch n. Dies ist eine besondere Eigenschaft des zweiten Moments. Für alle anderen Momente E[|X − µ|n ] mit n 6= 2 gilt dies nicht! Erwartung und Varianz V119 Erläuterung Sei X eine Zufallsvariable mit µ := E(X) und σ 2 := V(X). Aufgabe: Wie verhalten sich Erwartung und Varianz bei Verschiebung zu Y = X + c mit c ∈ R und Skalierung zu Z = aX mit a ∈ R? Was gilt demnach für Y = X − µ und Z = (X − µ)/σ? Lösung: Wir haben P(Ω) = 1. Bei Addition einer Konstanten c ∈ R gilt ˆ ˆ ˆ E(Y ) = E(X + c) = X + c dP = X dP + c dP = E(X) + c. Ω Ω Ω Bei Skalierung mit einem konstanten Faktor a ∈ R gilt ˆ ˆ E(Z) = E(aX) = aX dP = a X dP = aE(X). Ω Ω Diese einfachen aber nützlichen Rechenregeln verdanken wir der Linearität der Erwartung und der Normierung P(Ω) = 1. Erwartung und Varianz V120 Erläuterung Bei Verschiebungen bleibt die Varianz unverändert: h h 2 i 2 i V(X + c) = E X + c − E(X + c) = E X + c − E(X) − c h 2 i = E X − E(X) = V(X) Bei Skalierung verhält sich die Varianz quadratisch: h h 2 i 2 i V(aX) = E aX − E(aX) = E aX − aE(X) h 2 i = a2 E X − E(X) = a2 V(X) Speziell für Y = X − µ gilt somit E(Y ) = 0 und V(Y ) = V(X) = σ 2 . Speziell für Z = (X − µ)/σ gilt somit E(Z) = 0 und V(Z) = 1. Wir nennen Y = X − µ die Zentrierung und Z = (X − µ)/σ die Normierung von X. Dies lässt sich umkehren zu X = µ + Zσ. Für die Zufallsvariable X ist die natürliche Betrachtung die (µ, σ)–Skala mit Ursprung in µ und Längeneinheit σ > 0. Varianz von Zufallsvariablen V121 Lösung: Hier ist X : Ω → {0, 1} eine Zufallsvariable mit Verteilung und P(X=0) = 1 − t =: t̄. Ihre Erwartung und 1./2./3. Momente berechnen wir nach Definition: = 0 · P(X=0) + 1 · P(X=1) µ = E(X) E |X − µ| 1 E |X − µ| 2 E |X − µ| 3 =t 1 Man muss hierbei über die Verteilung von X nichts weiter wissen als ihren Erwartungswert µ = E(X) und ihre Varianz σ 2 = V(X)! Dies sind daher die beiden wichtigsten Kenngrößen. Selbst wenn man mehr weiß oder mehr herausfinden könnte, die Chebychev–Abschätzungen sind unschlagbar einfach und oft sehr nützlich als erste Überschlagsrechnung. 1 = |0 − µ| · P(X=0) + |1 − µ| · P(X=1) = t1 · (1 − t) + (1 − t)1 · t = |0 − µ|2 · P(X=0) + |1 − µ|2 · P(X=1) = t2 · (1 − t) + (1 − t)2 · t 3 = 2t(1 − t) = t(1 − t) 3 = |0 − µ| · P(X=0) + |1 − µ| · P(X=1) = t3 · (1 − t) + (1 − t)3 · t = tt̄(t2 + t̄2 ) Zum Vergleich: Auch E(X 2 ) − E(X)2 = t − t2 liefert die Varianz. Die Ungleichungen von Chebychev V123 Anschließend werden wir den zentralen Grenzwertsatz V3A kennen und nutzen lernen. Wenn der ZGS anwendbar ist, dann ermöglich er viel präzisere Schätzungen. In diesen Fällen ist Chebychev vergleichsweise grob und kann in Punkto Genauigkeit meist nicht konkurrieren. Typische Anwendungen zu Chebychev Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable mit Erwartungswert µ = E(X) und Varianz σ 2 = E (X − µ)2 . V125 Erläuterung 1/9 ≤ 1/16 ≈ 11% P X ≥ µ + 1σ) ≤ P X ≥ µ + 3σ) ≤ ≈ 6% 1/2 = 50% ≤ 1/5 = 20% 1/10 = 10% ≤ 1/17 ≈ 6% Große Abweichungen vom Erwartungswert sind unwahrscheinlich. Diese Abschätzungen sind grob, dafür aber universell einsetzbar. Die erste Abschätzung ist trivialerweise immer richtig aber nie hilfreich. Mindestens 3/4 der Wkt liegt in der 2σ–Umgebung [µ − 2σ, µ + 2σ]. Mindestens 8/9 der Wkt liegt in der 3σ–Umgebung [µ − 3σ, µ + 3σ]. Für Normalverteilungen gilt die genauere 68–95–99–Regel U236 . Die einseitige Chebychev–Abschätzung 1 2 1 + ( a−µ σ ) bzw. P X≥b ≤ c2 . p = 1/5 +c ≤ 1 2 1 + ( b−µ σ ) Wkt q = 4/5 σ2 V126 Erläuterung Aufgabe: Man überprüfe sie für folgende Verteilung. Sind sie scharf? b=2 a = −1/2 Lösung: Hier gilt µ = 0 und σ 2 = 1. Die Ungleichungen sind scharf: =p q=P X≤a Die Abschätzung ist meist grob, dafür aber universell einsetzbar. Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt. Anwendungsbeispiel zu Chebychev V127 Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also σ = nt(1 − t) = 51.2, σ ≈ 7.2 Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch 1 45 P T ≥ 301 = P T − 256 ≥ 45 ≤ 1+k mit k = 7.2 ≈ 6.22. 2 / 2.5% Die Schätzung 3% ist deutlich zu hoch, dafür aber bequem zu berechnen. Wir wissen über T noch viel mehr als nur µ und σ: Wir kennen die gesamte Verteilung. Die Binomialverteilung B(n, t) erlaubt dank lokalem Grenzwertsatz eine wesentlich genauere Abschätzung: ´∞ LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 10−5 , Approximationsfehler: |δ| < 1/(6σ) < 0.023, insgesamt Wkt < 2.3%. Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.9 · 10−12 . ≤ 1 4 = 1 + a2 5 bzw. p=P X≥b ≤ 1 1 = . 1 + b2 5 Die Abschätzung ist meist grob, dafür aber universell einsetzbar. Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt. Aufgabe: Für eine Klausur sind n = 320 Teilnehmer angemeldet. Jeder davon tritt nur mit Wahrscheinlichkeit t = 0.8 tatsächlich an. Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt) µ = nt = 256, ≤ P X≤a ≤ c2 Lösung: Es gilt µ = 0 und σ 2 = c2 p. Die Ungleichung ist scharf: 2 = 25% P |X − µ| ≥ 3σ) p/2 0 p = P |X − µ| ≥ c 1/4 Die einseitige Chebychev–Ungleichung ist für a < µ < b äquivalent zu σ2 Aufgabe: Man überprüfe sie für folgende Verteilung. Ist sie scharf? Wkt 1−p = 100% ≤ P X ≥ µ + 4σ) Die beidseitige Chebychev–Ungleichung ist äquivalent zu: ≤ 1/1 P X ≥ µ + 2σ) Wenn man nur µ und σ kennt, dann sind diese Ungleichungen optimal. P |X − µ| ≥ c ≤ P |X − µ| ≥ 4σ) Die erste Ungleichung lässt sich umformulieren und verallgemeinern: 1 P µ − kσ < X < µ + kσ ≥ 1− 2 k 4(hk − 1) P µ − hσ < X < µ + kσ ≥ . (h + k)2 Die beidseitige Chebychev–Abschätzung P |X − µ| ≥ 1σ) P |X − µ| ≥ 2σ) Für alle k > 0 gelten universelle „worst case“ Abschätzungen: 1 P |X − µ| ≥ kσ ≤ , k2 1 P X ≥ µ + kσ ≤ , 1 + k2 −c V124 Aufgabe: Was sagt Chebychev für folgende typische Abschätzungen? Satz V1G (Chebychev 1867) p/2 V122 Erläuterung Sei X : Ω → R eine Zufallsvariable mit Erwartung µ = E(X). Anschaulich gilt: Die Werte schwanken zufällig um µ, und große Abweichungen vom Erwartungswert sind eher unwahrscheinlich. Wie unwahrscheinlich? Wir fragen also nach P(|X − µ| ≥ c). Die Ungleichung von Chebychev gibt eine bequeme Abschätzung! Die Streuung σ misst hierzu die typische Breite der Verteilung. Aufgabe: Berechnen Sie das 1./2./3. Moment für X ∼ B(1, t). P(X=1) = t Die Ungleichungen von Chebychev Anwendungsbeispiel zu Chebychev V128 Aufgabe: Angenommen, im obigen Beispiel gilt n = 320 und t = 0.9. Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt) Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also µ = nt = 288, σ 2 = nt(1 − t) = 28.8, σ ≈ 5.4 Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch 1 13 P T ≥ 301 = P T − 288 ≥ 13 ≤ 1+k mit k = 5.4 ≈ 2.33. 2 / 15% Diese Größenordnung ist alarmierend: Wir sollten einen größeren Hörsaal buchen — oder genauer hinschauen! Die Binomialverteilung erlaubt eine wesentlich genauere Abschätzung: ´∞ LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 0.01, Approximationsfehler: |δ| ≤ 1/(6σ) < 0.04, insgesamt Wkt < 5%. Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.00684. Die Ungleichung von Chebychev ist vor allem in Situationen nützlich, in denen wir über die Verteilung wenig wissen (z.B. nur µ und σ) aber die Wahrscheinlichkeit großer Abweichungen abschätzen wollen. In obigen Beispielen kennen wir die Verteilung sogar genau. Der lokale Grenzwertsatz und die Tabelle der Normalverteilung liefern hier präzisere Abschätzungen. Beweis der beidseitigen Chebychev–Abschätzung V129 Erläuterung Chebychev gilt nicht nur für die Varianz, sondern für alle Momente! Nachrechnen: Die Zufallsvariable X zentrieren wir zu Z := X − µ. Beweis der einseitigen Chebychev–Abschätzung Als Hilfsmittel zeigen wir zunächst die Markov–Ungleichung: Sei Y : Ω → [0, ∞] eine nicht-negative Zufallsvariable. Für alle b > 0 gilt dann die Abschätzung P(Y ≥ b) ≤ E(Y )/b. Das n–te Moment ist ρn = E(|Z|n ). Für n = 2 ist dies die Varianz. Beweis: Es gilt Y ≥ b I{Y ≥b} , also E(Y ) ≥ bP(Y ≥ b). Wir vergleichen Z mit der einfachen, zweiwertigen Zufallsvariablen ( c falls |Z(ω)| ≥ c, Y = c I{|Z|≥c} , also Y (ω) = 0 falls |Z(ω)| < c. Beweis der einseitigen Chebychev–Abschätzung: Wir zentrieren die Zufallsvariable X zu Z := X − µ. Für alle t ∈ R mit t + b > 0 gilt dann: Es gilt |Z| ≥ Y . Dank Monotonie der Erwartung folgt P[Z ≥ b] = P[Z + t ≥ b + t] ρn = E(|Z|n ) ≥ E(Y n ) = cn · P |X − µ| ≥ c . ≤ P[(Z + t)2 ≥ (b + t)2 ] Wir erhalten hieraus die gewünschte Abschätzung P |X − µ| ≥ c ≤ ≤ E((Z + t)2 ) / (b + t)2 ρn . cn Für n = 2 und c = kσ ist dies die beidseitige Chebychev–Ungleichung. Die asymmetrische Chebychev–Abschätzung V131 Erläuterung Die zweite Ungleichung ist die Markov–Ungleichung. Sie gilt für alle t mit t + b > 0. Wir wählen t so, dass die rechte Seite minimal wird: Für t = σ 2 /b und b = kσ erhalten wir die gewünsche Ungleichung. Die asymmetrische Chebychev–Abschätzung Ist X = X1 + · · · + Xn die Summe vieler unabhängiger Beiträge, so ist X dank ZGS annähernd normalverteilt, PX ≈ N (µ, σ 2 ), das heißt: ˆ (b−µ)/σ −ξ2 /2 e √ P a≤X≤b ≈ dξ 2π (a−µ)/σ P(X=b) = t. Es gilt E(X) = a(1 − t) + bt = 0 und V(X) = a2 (1 − t) + b2 t = 1. In diesem Beispiel sind die obigen Ungleichungen scharf. Diese Näherungen sind meist recht gut – und genauer als Chebychev. Ziel dieses Kapitels ist der ZGS, um dies allgemein nutzen zu können. V201 Erläuterung Wir beschreiben die Durchführung unabhängiger Experimente durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ). Unabhängige Zufallsvariablen Y Die Ereignismenge A = A1 ⊗ · · · ⊗ An wird erzeugt von Produkten Y 1/2 A1 ∈ A 1 , . . . , A n ∈ A n . Das Produktmaß P = P1 ⊗ · · · ⊗ Pn : A → [0, 1] ist definiert durch abhängig P(A1 × · · · × An ) = P1 (A1 ) · · · Pn (An ). Wir erhalten den WRaum (Ω, A , P) durch eindeutige Fortsetzung. Für diskrete WRäume haben wir dies bereits gesehen und genutzt. V202 Zwei Zufallsvariablen X, Y sind unabhängig, wenn das Ergebnis von X nicht die Wkten von Y beeinflusst, und umgekehrt. Beispiel: Die gemeinsame Verteilung von (X, Y ) : Ω → R2 sei wie skizziert. Der Produktraum (Ω, A , P) nutzt das kartesische Produkt Ω = Ω1 × · · · × Ωn = (ω1 , . . . , ωn ) ω1 ∈ Ω1 , . . . , ωn ∈ Ωn . mit V132 Erläuterung ˆ (b+1/2−µ)/σ −ξ2 /2 b X n k e √ P a≤X≤b = t (1 − t)n−k ≈ dξ k 1/2−µ)/σ 2π (a− k=a Auch diese Abschätzung p lässt sich nicht verbessern. pObiges Beispiel: Zu 0 < t < 1 sei b = (1 − t)/t) und a = −1/b = − t/(1 − t) sowie A = A1 × · · · × An σ 2 + t2 (b + t)2 Kennen wir die Verteilung von X, so können wir genauer rechnen! Ist X ∼ B(n, t) binomialverteilt, so können wir den LGS nutzen: Zur Umformulierung setzt man m = (a + b)/2 und c = (b − a)/2. Für m = µ ergibt sich die symmetrische Chebychev–Ungleichung. Produktwahrscheinlichkeit = Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu: 4 (b − µ)(µ − a) − σ 2 P a<X<b ≥ . (b − a)2 Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu: 4 (b − µ)(µ − a) − σ 2 P a<X<b ≥ , (b − a)2 σ 2 + (m − µ)2 P |X − m| ≥ c ≤ . c2 P(X=a) = 1 − t und V130 Erläuterung unabhängig 1/2 1/2 X 1/2 X ?? Sind P1 , . . . , Pn kontinuierliche WMaße auf R mit Dichten f1 , . . . , fn , dann ist das Produktmaß P auf Rn kontinuierlich und hat die Dichte Die Skizze zeigt die Gleichverteilung auf den Mengen Q, R ⊂ R2 mit Q = ([0, 1] × [0, 1]) ∪ ([2, 3] × [2, 3]), R = ([0, 1] × [0, 1]) ∪ ([2, 3] × [0, 1]). f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). Unabhängige Zufallsvariablen V203 Zwei Zufallsvariablen X1 , X2 sind unabhängig, wenn das Ergebnis von X1 nicht die Wkten von X2 beeinflusst. Dies präzisieren wir wie folgt: Definition V2A (Unabhängigkeit von Zufallsvariablen) Zweidimensionale Normalverteilung 1 −2x f (x, y) = 2π e = ϕ(2x) · ϕ(y/2) 2 +y 2 /8 V204 X, Y sind unabhängig! Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt (stochastisch) unabhängig, wenn für alle Intervalle I1 , . . . , In ⊂ R gilt P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ). Anders gesagt, die Ereignisse X1 ∈ I1 , . . . , Xn ∈ In sind unabhängig, das heißt A1 , . . . , An ⊂ Ω mit Ak = { ω ∈ Ω | Xk (ω) ∈ Ik } = Xk−1 (Ik ). Unabhängigkeit der X1 , . . . , Xn entspricht somit dem Produktmaß: P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn In Worten: Die gemeinsame Verteilung ist die Produktverteilung. Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn , so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0 −3 −2 0 −1 0 x 1 2 3 −1 −2 −3 1 y 2 3 Zweidimensionale Normalverteilung 1 −(x+y) f (x, y) = 2π e 6= f1 (x) · f2 (y) V205 2 −(x−y)2 /16 X, Y sind abhängig! Beispiel zur Unabhängigkeit V206 Erläuterung Aufgabe: (1) Wann sind die Indikatorfunktionen IA , IB zweier Ereignisse A, B ⊂ Ω unabhängig? (2) Wann gilt E(IA · IB ) = E(IA ) · E(IB )? Lösung: (1) Sei A ⊂ Ω ein Ereignis und IA seine Indikatorfunktion, ( 1 falls ω ∈ A, IA : Ω → R, IA (ω) = 0 falls ω ∈ / A. 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0 Unabhängigkeit von IA und IB bedeutet vier äquivalente Bedingungen: −3 −2 0 −1 0 1 x 2 −1 −2 −3 3 1 3 2 y Beispiel zur Unabhängigkeit Demnach ist ihr Erwartungswert V207 Erläuterung P(IA =0) = 1 − P(A) P(IA =0, IB =1) = P(A ∩ B) = P(IA =0, IB =0) = P(A ∩ B) = ! V208 Ω V(X + X) = V(2X) = 4V(X) 6= V(X) + V(X). Die Varianzen addieren sich im Allgemeinen nicht! V209 Satz V2B (Fubini für unabhängige Zufallsvariablen) Anwendung: Varianz der Binomialverteilung V210 Aufgabe: Man berechne Erwartungswert und Varianz des Münzwurfs B(1, t) und hiermit (möglichst geschickt) der Binomialverteilung B(n, t). (1) Sind X, Y unabhängige Zufallsvariablen, dann gilt dank Fubini E(X · Y ) = E(X) · E(Y ). Lösung: Seien X1 , . . . , Xn : {0, 1}n → R unabhängig B(1, t)–verteilt: (2) Varianzen unabhängiger Zufallsvariablen addieren sich: P(Xk =1) = t und V(X + Y ) = V(X) + V(Y ). Nachrechnen: (1) Unabhängigkeit bedeutet P(X,Y ) = PX ⊗ PY , also: Def ´ Prod ´ ´ E X ·Y = R2 xy dP(X,Y ) = R R xy dPX dPY ´ ´ ´ ´ Lin Lin = R R x dPX y dPY = R x dPX · R y dPY = E(X) · E(Y ) (2) Nach Zentrierung können wir E(X) = E(Y ) = 0 annehmen. Dann: V(X + Y ) = E (X + Y )2 = E X 2 + 2XY + Y 2 P(Xk =0) = 1 − t. Der Erwartungswert ist E(Xk ) = t und die Varianz V(Xk ) = t(1 − t). Die Trefferzahl bei n Versuchen ist ihre Summe S = X1 + · · · + Xn . Sie ist B(n, t)–verteilt. Dank Linearität gilt E(S) = nE(X) = nt. Dank Unabhängigkeit gilt zudem V(S) = nV(X) = nt(1 − t). Man vergleiche dies mit der direkten, längeren Rechnung! U209 Mit den Begriffen und Techniken dieses Kapitels wird’s ein Zweizeiler. = V(X) + V(Y ) Das Gesetz der großen Zahlen 0 = E(X) · E(X). (3) Nein! Für jede Zufallsvariable X : Ω → R mit V(X) > 0 gilt Gleichheit links ist demnach äquivalent zu Gleichheit rechts: Die Zufallsvariablen IA , IB : Ω → R sind genau dann unabhängig V203 , wenn die betrachteten Ereignisse A, B ⊂ Ω unabhängig sind S217 . Nur dann ist die Erwartung multiplikativ, E(IA · IB ) = E(IA ) · E(IB ). Erwartungswert und Varianz bei Unabhängigkeit 6= Allgemein: Die Varianz ist V(X) = E(X 2 ) − E(X)2 ≥ 0 und i.A. > 0. Alternativ: E(IA · IB ) = E(IA ) · E(IB ) gilt nur für unabhängige A, B. = P(A ∩ B), V211 Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen, Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400 durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den n 1X Messung Stichprobenmittelwert: x̂ := xk = 57.5 n k=1 Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10. Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ? I3 = [56, 59], S217 Die Erwartungswerte multiplizieren sich im Allgemeinen nicht! = P(A) · P(B). = V(X) + 2E(X)E(Y ) + V(Y ) P(IA =0) P(IB =0) = P(A) P(B) Ω E(X · X) = E(1) = 1 Wir vergleichen schließlich, wie in der Aufgabenstellung gefragt, den Erwartungswert des Produkts mit dem Produkt der Erwartungswerte: E(IA ) · E(IB ) P(IA =0) P(IB =1) = P(A) P(B) Erwartungswert und Varianz Ω = E(IA∩B ) ! P(IA =1) P(IB =0) = P(A) P(B) (2) Nein! Gegenbeispiel: Für X : Ω → {±1} mit P(X = ±1) = 1/2 gilt IA · IB = IA∩B . I2 = [56.5, 58.5], = P(IA =1) P(IB =1) = P(A) P(B) Lösung: (1) Ja! Dank Linearität des Integrals gilt stets ˆ ˆ ˆ E(X + Y ) = X + Y dP = X dP + Y dP = E(X) + E(Y ). Für das Produkt von IA und IB gilt I1 = [57, 58], P(IA =1, IB =0) = P(A ∩ B) ! Aufgabe: Gilt E(X + Y ) = E(X) + E(Y ) für alle Zufallsvariablen X, Y ? und E(X · Y ) = E(X) · E(Y )? und V(X + Y ) = V(X) + V(Y )? E(IA ) = P(A). E(IA · IB ) = Dies ist äquivalent zur Unabhängigkeit der Ereignisse A und B! (2) Die Indikatorfunktion IA nimmt nur die beiden Werte 0 und 1 an: P(IA =1) = P(A) und ! P(IA =1, IB =1) = P(A ∩ B) Ik = [57.5 ± 0.5k] Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw. αk ≥ 99% den Erwartungswert µ? Was sagt Chebychev? (später ZGS) Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist, diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂. Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir? Das Gesetz der großen Zahlen V212 Lösung: Die Messung wird beschrieben durch X : Ω → R mit Erwartungswert µ = E(X) und Varianz σ 2 = V(X), 0 < σ < ∞. Aus unabhängigen Wiederholungen X1 , X2 , X3 , . . . , Xn bilden wir den 1 Mittelwert X̂ := X1 + · · · + Xn . n Dank Linearität gilt E(X̂) = E(X) und dank Unabhängigkeit zudem 1 1 1 V(X̂) = 2 V(X1 + · · · + Xn ) = 2 V(X1 ) + · · · + V(Xn ) = V(X). n n n √ √ Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5. Für unsere Intervalle gelten die Chebychev–Abschätzungen: α1 ≥ 1 − 1/12 = 0, 2 α3 ≥ 1 − 1/3 > 88%, 2 α10 ≥ 1 − 1/10 ≥ 99%, α2 ≥ 1 − 1/22 ≥ 75%, α5 ≥ 1 − 1/52 ≥ 96%, αk ≥ 1 − 1/k 2 . Diese genial-einfache Idee arbeiten wir im Rest des Kapitels aus! Ziel sind schärfere Abschätzungen und somit genauere Intervalle. Das Gesetz der großen Zahlen V213 Dieses Argument und die Rechnung sind allgemein anwendbar. Da sie häufig gebraucht werden, halten wir diese Regel als Satz fest: Motivation zum zentralen Grenzwertsatz Anwendung: Jede Messung Xk ist zufälligen Fehlern unterworfen. Sie habe Erwartungswert µk = E(Xk ) und Varianz σk2 = E(Xk2 ) > 0. Satz V2C (Gesetz der großen Zahlen) Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn . Bei Unabhängigkeit addieren sich die Varianzen σ 2 = σ12 + · · · + σn2 . Der empirische Mittelwert X̂ nähert sich dem Erwartungswert µ: √ √ (1) Seine Streuung σ(X̂) = σ(X)/ n → 0 fällt wie 1/ n für n → ∞. Typischerweise ähnelt die Verteilung von S der Normalverteilung: (2) Abweichung um ε > 0 werden beliebig unwahrscheinlich gemäß σ2 ≤ P X̂ − µ ≥ ε → 0. n ε2 S ∼ PS P(a ≤ S ≤ b) Das erklärt, warum man Messungen unabhängig wiederholt, um die Genauigkeit zu verbessern! Das Gesetz der großen Zahlen erklärt insbesondere, wie man Wahrscheinlichkeiten messen kann: Die Indikatorfunktion X = IA zählt das Eintreten des Ereignisses A. (Beim Würfeln sei zum Beispiel X = 1 falls eine 6 gewürfelt wird und X = 0 sonst.) Der Mittelwert X̂ ist dann die relative Häufigkeit nach n Versuchen und konvergiert gegen µ = E(X) = P(A). In praktischen Anwendungen will man n nicht allzu groß wählen, denn wiederholte Messungen sind teuer. Wir brauchen daher bessere Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS! Augenzahl bei einmaligen Würfeln ≈ N (µ, σ 2 ), ˆ (b−µ)/σ (a−µ)/σ das heißt ausgeschrieben −ξ 2 /2 e √ 2π dξ h i(b−µ)/σ Φ = (a−µ)/σ Aufgabe: Illustrieren Sie dies numerisch für Würfelsummen. Wie gut ist die Approximation für festes n? Wie groß ist der Fehler δ? Gilt δ → 0 für n → ∞? Das ist Inhalt des zentralen Grenzwertsatzes! Augensumme bei zweimaligem Würfeln 0.15 0.10 V303 N (2µ, 2σ 2 ) Würfeln 0.15 Wahrscheinlichkeit Wahrscheinlichkeit V302 ≈ Das ist eine enorme Vereinfachung: Die Verteilung von S ist kompliziert und i.A. unbekannt, die Normalverteilung hingegen ist explizit & leicht! Die Normalverteilung entsteht, egal welche Verteilungen die Xk haben! N (µ, σ 2 ) Würfeln 0.20 V301 0.10 0.05 0.05 0 1 2 3 4 5 Augenzahl beim Würfen 0 6 Die Augenzahl hat Erwartung µ = 7/2 und Varianz σ 2 = 35/12. Augensumme bei dreimaligem Würfeln V304 Augensumme bei viermaligem Würfeln Wahrscheinlichkeit Wahrscheinlichkeit 0.05 4 0 4 6 8 10 12 14 16 18 20 22 Augensumme bei vier unabhängigen Würfen 24 Dank Unabhängigkeit addieren sich auch die Varianzen. Augensumme bei zehnmaligem Würfeln Wahrscheinlichkeit N (4µ, 4σ 2 ) Würfeln 0.05 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Augensumme bei drei unabhängigen Würfen Dank Linearität addieren sich die Erwartungswerte. V306 N (10µ, 10σ 2 ) Würfeln 0.07 V305 0.10 0.10 3 3 4 5 6 7 8 9 10 11 12 Augensumme bei zwei unabhängigen Würfen Die Augensumme hat Erwartung 2µ = 7 und Varianz 2σ 2 = 35/6. N (3µ, 3σ 2 ) Würfeln 0 2 Augensumme bei hundertmaligem Würfeln N (100µ, 100σ 2 ) 0.020 0.06 0.015 0.05 0.04 0.010 0.03 0.02 0.005 0.01 0 20 25 30 35 40 45 50 Augensumme bei zehn unabhängigen Würfen Große Zahlen: Die Verteilung von X̂ konzentriert sich um µ. 0 200 250 300 350 400 450 500 Augensumme bei hundert unabhängigen Würfen Grenzwertsatz: Die Verteilung nähert sich der Normalverteilung! V307 Augenzahl bei einmaligem Würfeln Augensumme bei zweimaligem Würfeln fair gezinkt V309 fair gezinkt 0.15 Wahrscheinlichkeit 0.2 Wahrscheinlichkeit V308 0.15 0.1 0.10 0.05 0.05 0 1 2 3 4 5 Augenzahl beim Würfen 0 6 V310 Augensumme bei viermaligem Würfeln 0.10 0.05 3 4 fair gezinkt 0.05 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Augensumme bei drei unabhängigen Würfen 4 6 8 10 12 14 16 18 20 22 Augensumme bei vier unabhängigen Würfen 24 Dank Unabhängigkeit addieren sich auch die Varianzen. Dank Linearität addieren sich die Erwartungswerte. Augensumme bei hundertmaligem Würfeln V312 fair gezinkt 0.020 V311 0.10 Wahrscheinlichkeit Wahrscheinlichkeit fair gezinkt 0 3 4 5 6 7 8 9 10 11 12 Augensumme bei zwei unabhängigen Würfen Auch die Varianz σ22 = 3.0275 ist etwas größer als σ12 = 2.9167. Gezinkt ist die Erwartung µ2 = 3.65 etwas größer als fair µ1 = 3.5. Augensumme bei dreimaligem Würfeln 2 Augensumme bei tausendmaligem Würfeln V313 fair gezinkt 0.007 0.006 0.015 0.005 0.004 0.010 0.003 0.002 0.005 0.001 0 0 300 350 400 Augensumme bei hundert unabhängigen Würfen Zur Vereinfachung zeichne ich hier nicht mehr die Einzelwkten. Was sehen wir in diesen Beispielen? V314 Erläuterung Die Wahrscheinlichkeitsverteilung des Experiments Xk , hier Würfeln, bestimmt die Erwartung µ = E(Xk ) und die Varianz σ 2 = V(Xk ). Die Summe S = X1 + · · · + Xn von n unabhängigen Wiederholungen hat dann Erwartung nµ und Varianz nσ 2 . Sie ist nicht binomialverteilt, also können wir den lokalen Grenzwertsatz U3A hier nicht anwenden. Bei vielen Wiederholungen spielt die Ausgangsverteilung jedoch keine Rolle: Es entsteht immer annähernd die Normalverteilung N (nµ, nσ 2 ). Ihre universelle Rolle ist ein phantastisch nützliche Eigenschaft! Man kann dies (etwas vage aber poetisch) auch wie folgt formulieren: Im Kleinen, bei einzelnen Experimenten regiert der Zufall ungezügelt; im Großen, bei vielen Experimenten muss er sich Gesetzen beugen. Diese Gesetzmäßigkeit sollten Sie kennen und nutzen können. „Nul n’est censé ignorer la loi.“ [Niemand darf das Gesetz ignorieren.] 3300 3400 3500 3600 3700 3800 Augensumme bei tausend unabhängigen Würfen Nach vielen Würfen unterscheiden sich beide Würfel deutlich. Der zentrale Grenzwertsatz V315 Erläuterung Anschaulich besagt der zentrale Grenzwertsatz: Die Summe vieler unabhängiger Zufallsvariablen ist annähernd normalverteilt. Beispiel: Für unabhängige und identisch verteilte Zufallsvariablen Xk : Ω → {0, 1} ist S = X1 + · · · + Xn binomialverteilt, S ∼ B(n, t). Für diesem Spezialfall kennen wir den lokalen Grenzwertsatz U3A! Im allgemeineren ZGS dürfen X1 , X2 , . . . , Xn beliebig verteilt sein. Wir benötigen allerdings einige Vorsichtsmaßnahmen V409 : 1 Die Beiträge X1 , X2 , . . . , Xn sollen unabhängig sein. Für S = X + X + · · · + X gilt der ZGS sicher nicht. 2 Die Beiträge X1 , X2 , . . . , Xn sollen alle etwas streuen. Für S = 1 + 1 + · · · + 1 gilt der ZGS sicher nicht. 3 Die Beiträge X1 , X2 , . . . , Xn sollen „ähnlich groß“ sein. Der folgende Satz (formuliert nach Berry 1941 und Esséen 1944) präzisiert diese Voraussetzungen in Form des 2. und 3. Moments und quantifiziert den Approximationsfehler durch eine explizite Schranke. Allgemein gültige Näherung mit informativer Fehlerabschätzung! Der zentrale Grenzwertsatz V316 Lösung: Aus Xk ∼ B(1, t) berechnen wir µk = t und σk2 = t(1 − t) sowie ρ3k = t(1 − t)(t2 + (1 − t)2 ). Die Summe S = X1 + · · · + Xn ist B(n, t)–verteilt mit µ = nt und σ 2 = nt(1 − t). Dann gilt exakt / approx.: Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit µk = E(Xk ), σk2 = E |Xk − µk |2 ≥ σ02 > 0, beschränkten dritten Momenten ρ3k = E |Xk − µk |3 ≤ ρ30 < ∞. endlichen Erwartungen strikt positiven Varianzen P(a ≤ S ≤ b) = Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer: P(a ≤ S ≤ b) (b−µ)/σ = (a−µ)/σ + ≤ ρ31 + · · · + ρ3n (σ12 + · · · + σn2 )3/2 ρ30 √ σ03 n ≤ LGS δ |δ| < → 0. Alle drei Voraussetzungen werden wirklich gebraucht. V409 Vergleich zwischen ZGS und LGS ˆ (b+1/2−µ)/σ −ξ2 /2 b X n k e √ t (1 − t)n−k = dξ + δ k 2π (a−1/2−µ)/σ k=a Für σ ≥ 5 ist der Approximationsfehler δ im LGS/ZGS beschränkt durch 2 e−ξ /2 √ dξ 2π ZGS 1 ρ30 t2 + (1 − t)2 1 1 √ = p = p < <p 6σ σ03 n 6 nt(t − 1) nt(t − 1) nt(t − 1) Der LGS liefert eine bessere Konstante: 1/6 ≤ 1/2 ≤ t2 + (1 − t)2 ≤ 1 Mit Korrekturterm κ sinkt der Fehler auf |ε| < 1/(3σ 2 ) = 1/[3nt(t − 1)]. Der lokale Grenzwertsatz ist spezieller, dabei aber auch präziser. und für den Approximationsfehler δ gilt die allgemeine Schranke |δ| V317 Aufgabe: Wer ist für X1 , . . . , Xn ∼ B(1, t) genauer: ZGS oder LGS? Satz V3A (zentraler Grenzwertsatz, ZGS) ˆ Vergleich zwischen ZGS und LGS Wozu bzw. wann brauchen wir dann den zentralen Grenzwertsatz? Der ZGS gilt nicht nur für S ∼ B(n, t), sondern ganz allgemein! V318 Erläuterung Vergleich zwischen ZGS und LGS V319 Erläuterung Der LGS nutzt die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen zur genaueren Approximation. Der ZGS kennt diese Korrektur nicht: Er gilt für kontinuierlich verteilte Zufallsvariablen ebenso wie für diskrete. Der ZGS hingegen liefert ohne Stetigkeitskorrektur leider nur ˆ (k−µ)/σ −ξ2 /2 ZGS e √ = P k≤S≤k dξ + δ = 0 + δ 2π (k−µ)/σ Aufgabe: Welcher Fehler entsteht hierdurch schlimmstenfalls? Dieses Integral verschwindet! Belügt uns der ZGS in diesem Fall? Nein, er nützt nur nicht mehr viel, denn er besagt jetzt lediglich: Lösung: Für S ∼ B(n, t) und k = 0, 1, . . . , n gilt exakt und nach LGS ˆ (k+1/2−µ)/σ −ξ2 /2 LGS n k e √ P k≤S≤k = t (1 − t)n−k ≈ dξ k 2π (k−1/2−µ)/σ ≈ 2 2 e−(k−µ) /2σ √ σ 2π ≤ 0 P k≤S≤k =δ ≤ ρ30 √ σ03 n Alles ist gut. Der Fehler δ bleibt unter der Fehlerschranke des ZGS: ρ30 t2 + (1 − t)2 1 1 √ = p ≥ p ≥p ≥δ≥0 n nt(t − 1) 2 nt(1 − t) 2πnt(1 − t) 1 p 2πnt(1 − t) σ03 In solch extremen Fällen wird man den ZGS wohl kaum nutzen wollen. Sie illustrieren jedoch eindrücklich, was schlimmstenfalls passiert. Hier wird der ZGS missbraucht, aber dank δ bleibt alles richtig: Die Approximation kann schlecht sein, die Fehlerschranke stimmt immer. Man beachte die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen. Andernfalls wäre die Approximation P k ≤ S ≤ k ≈ 0 völlig nutzlos. Die obere Schranke erhält man für k = µ und nutzt σ 2 = nt(1 − t). Hier nimmt die Normalverteilung (Glockenkurve) ihr Maximum an. Summen gleichverteilter Zufallsvariablen V320 Aufgabe: Wir betrachten unabhängige gleichverteilte Zufallsvariablen X1 , X2 , X3 , . . . : Ω → [0, 1], das heißt PXk hat die Dichte f1 = I[0,1] . Welche Verteilung hat Sn = X1 + · · · + Xn ? Bestimmen Sie die Dichte: ˆ ∞ ˆ 1 fn (x) = (fn−1 ∗ f1 )(x) = fn−1 (x − u)f1 (u) du = fn−1 (x − u) du −∞ ≤ Summen gleichverteilter Zufallsvariablen V321 Erläuterung Lösung: Die Summe Sn = X1 + · · · + Xn gleichverteilter ZVariablen ist nicht gleichverteilt. Ihre Dichte fn ist stückweise polynomiell vom Grad < n. Für x = k + t mit t ∈ [0, 1] und k = 0, 1, 2, . . . finden wir: ( t für k = 0, f2 (k + t) = 1 − t für k = 1. 1 2 für k = 0, 2t 1 f3 (k + t) = 2 + t − t2 für k = 1, 1 2 ) für k = 2. (1 − 2t + t 2 1 3 für k = 0, 6t 1 (1 + 3t + 3t2 − 3t3 ) für k = 1, 6 f4 (k + t) = 1 2 3 für k = 2, 6 (4 − 6t + 3t ) 1 (1 − 3t + 3t2 − t3 ) für k = 3. 6 Die ersten Terme f1 , f2 , . . . , f5 sind in obiger Graphik dargestellt. 0 Summen gleichverteilter Zufallsvariablen V322 Erläuterung Summen gleichverteilter Zufallsvariablen V323 Erläuterung Aufgabe: Berechnen Sie Erwartung µk = E(Xk ), Varianz σk2 = V(Xk ) und drittes Moment ρ3k = E(|Xk3 |) der Summanden. Welche Erwartung und Varianz hat die Summe S? Welchen Träger hat PS ? und N (0, 1)? Welche Fehlerschranke garantiert der ZGS zwischen PS und N (0, 1)? Lösung: Es gilt µk = 1/2. Wir berechnen das n–te absolute Moment: ˆ 1 ˆ 1/2 n n+1 1/2 1 n 1 −2 1 2−n − x dx = −x = x − dx = 2 2 n+1 2 n +1 x=0 x=0 2 x=0 Die obige Verteilung der fünfachen Summe S5 ähnelt augenscheinlich der Normalverteilung N (5/2, 5/12). Der Vergleich zeigt Abweichungen. Nicht jede glockenähnliche Kurve ist eine Normalverteilung! Die Zwölferregel ist eine einfache Methode, um näherungsweise normalverteilte Zufallszahlen zu erzeugen: „Wählt man Zufallszahlen X1 , . . . , X12 unabhängig und gleichverteilt im Intervall [−1/2, 1/2], so ist ihre Summe S = X1 + · · · + X12 näherungsweise std-normalverteilt.“ Demnach gilt σk2 = 1/12 und ρ3k = 1/32. Die Summe S hat Erwartung E(S) = 0 und Varianz V(S) = 1. Die Näherung ist recht brauchbar, doch die pessimistische Fehlerschranke des ZGS garantiert nur |δ| ≤ 12/32. (Der tatsächliche Fehler ist hier – dank Symmetrie – wesentlich kleiner.) Die Polarmethode ist wesentlich genauer und effizienter, siehe en.wikipedia.org/wiki/Marsaglia_polar_method: Sie erzeugt zwei exakt normalverteilte Zufallszahlen durch den Gaußschen Kunstgriff. Lobeshymne auf den zentralen Grenzwertsatz V324 Erläuterung In Natur- und Ingenieurwissenschaften, in Wirtschaft und Gesellschaft treten zufällige Größen X auf. Sie sind meist unvermeidbar, genauere Informationen sind oft zu teuer oder manchmal gar nicht zugänglich. Die Stochastik liefert Werkzeuge zum sicheren Umgang mit unsicheren Ergebnissen, allgemein zum rationalen Entscheiden unter Unsicherheit. Hierzu ist es von zentraler Bedeutung, die Verteilung PX zu kennen. Oft ist unsere Zufallsgröße S eine Summe zahlreicher kleiner Einflüsse, die unabhängig voneinander wirken. Der zentrale Grenzwertsatz erklärt, dass wir dann eine Normalverteilung erwarten dürfen, PS ≈ N (µ, σ 2 ). Der Name des Satzes geht zurück auf George Pólyas Arbeit Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung von 1920. Wie in der Mathematik üblich, geht man zum Grenzwert (Limes) über, um die Ergebnisse bequem und übersichtlich formulieren zu können. Im Satz V3A wird hierzu die Konvergenz in Verteilung formuliert. V326 Erläuterung Sehr wenige Informationen reichen für den ZGS aus! Wir können den ZGS durch Fourier–Transformation nachrechnen. Da wir die Fourier–Transformation aus Kapitel K bereits gut kennen, skizziere ich die Rechnung im Anhang zu diesem Kapitel, ab Seite V521. Die Idee ist genial aber leicht zu verstehen! Ohne die geforderten Momente gilt der ZGS im Allgemeinen nicht! Konfidenzintervalle V328 Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen, Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400 durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den n 1X Messung = 57.5 Stichprobenmittelwert: x̂ := xk n k=1 Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10. Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ? Ik = [57.5 ± 0.5k] Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw. ≥ 99% den Erwartungswert µ? Was sagt Chebychev? der ZGS? Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist, diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂. Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir? V330 Erinnerung Eine Wahl mit über 5 000 000 Stimmberechtigten steht bevor. Der Stimmanteil p ∈ [0.02, 0.98] einer Partei soll geschätzt werden. Hierzu werden n zufällige Personen befragt; die Schätzung soll mit Wahrscheinlichkeit ≥ 95% bis auf einen Fehler von ≤ 0.01 genau sein. Aufgabe: Wieviele Personen sollten hierfür befragt werden? Lösung: Sicherheit 95% garantieren wir mit einer 2σ–Umgebung. Für den empirischen Mittelwert X̂ = (X1 + · · · + Xn )/n gilt V(X̂) = p(1 − p) 1 1 V(X) = ≤ , n 4n n 1 σ(X̂) ≤ √ . 2 n Wir wollen eine Genauigkeit von 2σ(X̂) ≤ 0.01. Hierzu genügt 1 ! 2σ(X̂) ≤ √ ≤ 0.01, n Die vorausgesetzten Schranken σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen Grenzwertsatzes V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . . ähnlich stark streuen. Andernfalls könnte zum Beispiel X1 alle anderen Summanden X2 , X3 , . . . überwiegen, und in der Summe würde keine Normalverteilung entstehen, sondern im Wesentlichen die Verteilung von X1 . V409 V336 Lobeshymne auf den zentralen Grenzwertsatz V327 Erläuterung also n ≥ 10 000. Die detaillierte Rechnung haben wir bereits im letzten Kapitel U mit dem LGS und allen Fehlerabschätzungen ausgeführt. ?? Mit den Techniken dieses Kapitels wird’s ein Zweizeiler. Der Grenzwertsatz in der Form PS ≈ N (µ, σ 2 ) oder besser PS → N (µ, σ 2 ) für n → ∞ ist eine qualitative Aussage: Er garantiert die Konvergenz der Verteilungen, sagt aber noch nichts über die Konvergenzgeschwindigkeit oder den Approximationsfehler für ein vorgegebenes n. Obige Formulierung von Berry–Esséen ist eine quantitative Präzisierung: Sie besagt, wie schnell √ die Konvergenz ist (nämlich wie 1/ n → 0) und gibt sogar explizite Fehlerschranken an! Der LGS gibt eine genauere Schranke; symmetrisch oder mit Korrekturterm sinkt der Fehler √ sogar von |δ| ≤ const/ n auf |ε| ≤ const/n. Wenn im ZGS eine ähnliche Garantie nötig sein sollte, müsste man genauere und umfangreichere Rechnungen anstrengen. Auch das kommt in sicherheitskritischen Anwendungen vor. Hierzu existiert eine ausgedehnte Spezialliteratur. Oft ist die Näherung besser als die pessimistische Fehlerschranke! √ Die im zentralen Grenzwertsatz angegebene Fehlerschranke |δ| ≤ ρ30 /σ03 n ist ein bequemer erster Schritt. In günstigen Fällen ist die Approximation tatsächlich besser, wie Beispiele zeigen. √ Beispiele zeigen den asymptotischen Fehler |δ| ∼ const/ n. V417 Diese Fehlerschranke lässt sich also allgemein nicht verbessern. Wir finden auch einfache Gegenbeispiele, in denen der ZGS nicht anwendbar ist. V409 Die Cauchy–Verteilungen V525 zum Beispiel erfüllen nicht die Voraussetzungen des ZGS und auch nicht seine Schlussfolgerung, denn sie konvergieren nicht gegen die Normalverteilung. Beispiel: Meinungsforschung Zunächst setzen wir die Unabhängigkeit der Zufallsvariablen X1 , X2 , X3 , . . . voraus, was für viele Anwendungen realistisch ist. (Man kann dies weiter abschwächen, und ein kontrolliertes Maß an Abhängigkeit erlauben, aber dies würde uns hier zu weit vom Weg führen.) Oft verwendet man den ZGS nicht für n → ∞, sondern als PS ≈ N (µ, σ 2 ) für ein festes n. Für konkrete Anwendungen ist dann wichtig zu wissen: Wie gut ist die Approximation? Der lokale Grenzwertsatz U3A ist bei Bedarf genauer: Dort geht es nur um Binomialverteilungen, dafür liefert der LGS den nützlichen Korrekturterm κ und wesentlich schärfere Fehlerschranken. Diese Verbesserung ist auch für den ZGS möglich und führt zur Edgeworth–Entwicklung mittels höherer Momente. Der obige zentrale Grenzwertsatz ist die erste Näherung dieser Reihe. I3 = [56, 59], Die Voraussetzungen des ZGS sind sehr allgemein und oft erfüllt. Daher ist der ZGS nahezu überall anwendbar (anders als der LGS). Der ZGS liefert eine explizite Fehlerschranke. Ein besonders wichtiger Spezialfall ist die unabhängige Wiederholung von Messungen bzw. Experimenten: Hier sind die Zufallsvariablen X1 , . . . , Xn unabhängig und identisch verteilt, insbesondere gilt für ihre Kenngrößen µk = µ0 , σk = σ0 , ρk = ρ0 für alle k = 1, . . . , n. Zur Existenz dieser Integrale benötigen wir lediglich Xk ∈ L3 (Ω, R), denn L3 ⊃ L2 ⊃ L1 . I2 = [56.5, 58.5], Der zentrale Genzwertsatz ist ein phantastisches Ergebnis. Diese werden überall in Naturwissenschaft und Technik verwendet, um die Genauigkeit einer Messung, Rechnung oder Spezifikation zu quantifizieren (Fehlerrechnung). Diese wichtige Information muss man mindestens intuitiv passiv verstehen, meist auch präzise aktiv nutzen. Für die Näherung genügen die Erwartungen µk und Varianzen σk2 , für die Fehlerschranke zudem die dritten Momente ρ3k ≤ ρ30 , notfalls nach oben abgeschätzt. Das ist meist problemlos möglich. I1 = [57, 58], V325 Erläuterung Er ist allgemein gültig und daher vielseitig anwendbar. Das ermöglicht die Modellierung, Berechnung und Erklärung vieler stochastischer Phänomene, die uns täglich umgeben. Implizit oder explizit wird er in praktisch allen naturwissenschaftlichen Modellen oder industriellen Prozessen benutzt, in denen zufällige Schwankungen vorkommen. Eine allgegenwärtige Anwendung sind Konfidenzintervalle. Für praktische Anwendungen ist eine Fehlerschranke notwendig für den Wechsel von PS zu N (µ, σ 2 ). Satz V3A stellt hierzu alles bereit. Lobeshymne auf den zentralen Grenzwertsatz Lobeshymne auf den zentralen Grenzwertsatz Konfidenzintervalle V329 Lösung: Wir nutzen das Gesetz der großen Zahlen und den ZGS! Der Mittelwert X̂ := n1 X1 + · · · + Xn unabhängiger Messungen hat Erwartung E(X̂) = E(X) = µ und Varianz V(X̂) = V(X)/n. √ √ Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5. Chebychev liefert eine einfache aber leider grobe Abschätzung: α1 ≥ 1 − 1/12 = 0, α3 ≥ 1 − 1/32 > 88%, 2 α5 ≥ 1 − 1/5 ≥ 96%, α2 ≥ 1 − 1/22 ≥ 75%, α4 ≥ 1 − 1/42 > 93%, α10 ≥ 1 − 1/102 ≥ 99%, Dank ZGS gilt annähernd X̂ ∼ N (µ, σ 2 /n) mit besseren Schranken: α1 > 68.26% − δ, α2 > 95.44% − δ, α5 > 99.99994% − δ, α6 > 99.9999998% − δ. α3 > 99.73% − δ, α4 > 99.993% − δ, Für die Normalverteilung gilt die 68–95–99–Regel U236 : Schon das 2σ–Intervall genügt für 95%ige Sicherheit! Beispiel: Wareneingangsprüfung V331 Erläuterung Ihr Zulieferer schickt Ihnen N = 6000 Bauteile (z.B. Temperaturfühler). Als Eingangsprüfung nehmen Sie eine Stichprobe von n = 200 Teilen und prüfen die vereinbarten Anforderungen; k = 10 Stück fallen durch. Aufgabe: Wie viele Teile von den 6000 sind fehlerhaft? Geben Sie ein Intervall an, das den wahren Wert mit 95%iger Sicherheit überdeckt. (Für einen analogen aber einfacheren Hypothesentest siehe T339 .) Lösung: Wir schätzen den Anteil fehlerhafter Teile auf t = k/n = 5%. Das entspräche K = N t = 300 Teilen in der gesamten Lieferung. Wie gut ist diese Schätzung? Einzelprüfung: σ 2 (X) = t(1 − t) ≤ 0.08. Stichprobe: σ 2 (X̂) ≤ 0.08/200 = 0.0004, Streuung σ(X̂) ≤ 0.02. Das 2σ–Intervall um unsere Schätzung ist demnach: Anteil t ∈ [0.01, 0.09], absolut K ∈ [60, 540] Die Wareneingangsprüfung obliegt dem Käufer (§377 HGB). Hierzu gibt es normierte Methoden. Die Norm ISO2859 etwa beschreibt ein statistisches Qualitätsprüfungsverfahren für attributive Merkmale („in Ordnung“ / „nicht in Ordnung“). Sie wurde 1974 eingeführt und basiert auf dem Standard der amerikanischen Streitkräfte zur Qualitätsprüfung der anzukaufenden Ausrüstung. Konfidenzintervalle V332 Erläuterung Konfidenzintervalle Anwendung: Aus Messwerten x1 , . . . , xn ∈ R bilden wir den Problem: Jede Messung unterliegt zufälligen Störungen, wir betrachten sie daher als eine Zufallsvariable X : Ω → R. n Stichprobenmittelwert x̂ := Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Dieser wird meist vom Erwartungswert µ = E(X) abweichen! Als 2σ–Konfidenzintervall dieser Stichprobe bezeichnet man √ √ I2 = x̂ − 2σ/ n, x̂ + 2σ/ n . Annahme: Die Messung lässt sich beliebig, unabhängig wiederholen. Wir erhalten unabhängige Zufallsvariablen X1 , X2 , . . . verteilt wie X. Wir können den Erwartungswert µ durch eine Stichprobe schätzen! n 1X Xk n Wie x̂ ist auch das Intervall I2 zufälligen Schwankungen untworfen. Mit 95% Wkt überdeckt dieses Intervall den Erwartungswert µ. Problem: Wie die Erwartung µ ist auch die Streuung σ unbekannt. Lösung: Wir schätzen die Varianz σ 2 durch die (korrigierte) k=1 n ZGS hilft: X̂ ist annähernd normalverteilt, kurz X̂ ∼ N (µ, σ 2 /n). Stichprobenvarianz σ̂ 2 = Für große n spielt die genaue Verteilung von X keine Rolle mehr! Für den zentralen Grenzwertsatz müssen wir nur µ und σ kennen! Dieses Ergebnis hat ungemein praktische Konsequenzen. . . Konfidenzintervalle: erwartungstreue Schätzer k=1 V334 Erläuterung k=1 Ist der Erwartungswert µ bekannt, so schätzen wir die Varianz σ durch n S02 := 2 1X Xk − µ . n k=1 Für den Erwartungswert von S02 gilt dann tatsächlich k=1 Den Erwartungswert von S12 rechnen wir wie folgt nach: n n 2 1X 1X S12 = (Xk − X̂)2 = (Xk − µ) − (X̂ − µ) n n k=1 k=1 X X n n 1 1 = (Xk − µ)2 − 2 (Xk − µ)(X̂ − µ) + (X̂ − µ)2 n n k=1 k=1 X n 1 (Xk − µ)2 − (X̂ − µ)2 = n k=1 n 2 1X := Xk − X̂ . n Dieser Schätzer ist nun erwartungstreu, das heißt E(S 2 ) = σ 2 . Das Gesetz der großen Zahlen V2C garantiert die Konvergenz k=1 Dies nennt man die unkorrigierte Stichprobenvarianz. X̂ → E(X̂) = µ Konfidenzintervalle V336 Satz V3B (Konfidenzintervalle) Als Stichprobe für X führen wir n unabhängige Messungen aus. Aus den so gewonnenen Messwerten x1 , . . . , xn ∈ R berechnen wir n den Stichprobenmittelwert x̂ := 1X xk , n n σ̂ 2 := 1 X (xk − x̂)2 , n−1 I2 := h k=1 das 2σ–Konfidenzintervall σ̂ σ̂ i x̂ − 2 √ , x̂ + 2 √ . n n Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2 den (konstanten aber uns unbekannten) Erwartungswert µ = E(X). Ein wunderbar praktischer Satz! Mit kleinem Schönheitsfehler: Was genau bedeutet „große n“? Als Faustregel gilt schon n = 30 als groß genug. Bei ungünstiger Verteilung von X ist größeres n nötig. Konfidenzintervalle und S 2 → E(S 2 ) = σ 2 für n → ∞. Konfidenzintervalle V337 Ergänzung Das 2σ–Intervall liefert 95% Sicherheit, das 3σ–Intervall über 99%. Bei sicherheitskritischen Anwendungen wird man mehr verlangen. Als extremes Sicherheitsniveau wurde zum Beispiel 6σ propagiert, was bei Normalverteilung über 99.9999998% Sicherheit bedeutet. Je nach Kosten / Nutzen wird man n möglichst groß wählen: √ Mit wachsendem n wird der Intervallradius 2σ̂/ n beliebig klein. √ Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal größere Stichprobe. Das ist Fluch und Segen der großen Zahlen! k=1 die Stichprobenvarianz V335 Erläuterung k=1 Ist µ unbekannt, so würde man zunächst folgendes versuchen: S12 Konfidenzintervalle: erwartungstreue Schätzer Somit gilt E(S12 ) = V(X) − V(X̂) = σ 2 − σ 2 /n = σ 2 · (n − 1)/n. Als Schätzer nimmt man daher die korrigierte Stichprobenvarianz n 2 1 X S 2 := Xk − X̂ . n−1 n n 1X 1X 1 E(S02 ) = E (Xk − µ)2 = V(Xk ) = nσ 2 = σ 2 . n n n k=1 1 X (xk − x̂)2 . n−1 Der korrigierte Nenner n − 1 sichert Erwartungstreue: E(σ̂ 2 ) = σ 2 . Für große n ist der Unterschied zwischen n und n − 1 unerheblich. Wir rechnen nach: Der Schätzer X̂ für µ ist erwartungstreu, denn X n n 1 1X 1 E(X̂) = E Xk = E(Xk ) = nµ = µ n n n k=1 1X xk . n k=1 Die Erwartung µ und die Verteilung von X sind jedoch unbekannt. Das Ziel der Messung ist meist, µ möglichst genau zu bestimmen. Schätzfunktion X̂ := V333 Erläuterung V338 Erläuterung Sicherheit ≥ 95% für das 2σ–Intervall gilt für „große n“. Solche Faustregeln ohne Begründung sind Autoritätsargumente; manchmal beruhen sie auf Erfahrung, meist jedoch auf Unwissen. Für kleine Stichproben sind sorgfältige Korrekturen notwendig, auf diese will ich hier jedoch nicht genauer eingehen. ?? Ich belasse es bei diesem Überblick. Für die ernsthafte Anwendung statistischer Methoden verweise ich auf die umfangreiche Literatur. Konfidenzintervalle V339 Ich warne vorsorglich vor einem weitverbreiteten Missverständnis: Man sagt „Mit Wkt ≥ 95% überdeckt das Intervall I den wahren Wert µ.“ Das ist bequem aber irreführend; die Interpretation müssen wir klären. Die Graphik zeigt 100 Konfidenzintervalle √ [ x̂ ± 2σ̂/ n ], Sicherheitsniveau ≥ 95%. Der Mittelwert µ = E(X) ∈ R ist eine Zahl, unbekannt aber konstant. Aus den Messdaten x1 , . . . , xn ∈ R berechnen wir ein Intervall I ⊂ R. Die durchgeführte Messung legt somit das Intervall I fest. Entweder liegt µ in I oder nicht: Das ist eine Aussage über eine feste Zahl µ und ein festes Intervall I, mit Wkt hat das nichts mehr zu tun. Illustration: Wir werfen 400 mal p einen fairen Würfel. Wir wissen µ = 3.5 und σ = 35/12 ≈ 1.70783. Die Messwerte schwanken, und mit ihnen StichprobenMittelwert x̂ ≈ µ und -Streuung σ̂ ≈ σ. Jede Stichprobe liefert daher ihr eigenes Konfidenzintervall. Bei unserer Simulation überdecken 96 Intervalle den Erwartungswert µ = 3.5, die übrigen 4 Intervalle (in rot) tun dies nicht. Dieses Beispiel ist etwas künstlich, dafür aber besonders leicht zu verstehen. In realistischen Anwendungen kennt man den wahren Mittelwert µ und die wahre Streuung σ nicht, sondern will / muss sie durch Stichprobe schätzen. Genau dieses Verfahren wenden wir hier 100 mal an. Die Aussage „mit Wkt ≥ 95%“ betrifft also nicht ein einzelnes berechnetes Intervall, sondern das Verfahren der Berechnung: Bei unabhängiger Wiederholung können wir jedesmal dieses Verfahren anwenden, und in ≥ 95% aller Fälle werden wir damit richtig liegen. In diesem Sinne gilt: Mit Wkt ≥ 95% überdeckt das Intervall I den Wert µ. Zur Illustration gebe ich zwei Beispiele: zunächst ein etwas künstliches aber besonders einfaches zum Würfeln, sodann ein sehr realistisches aber auch komplizierteres mit echten Daten zum Venus Express. Im Allgemeinen weiß man nicht, ob man eine typische Stichprobe erwischt (schwarz) oder viele Außreißer (rot). Das Verfahren kann keine absolute Sicherheit garantieren, aber immerhin 95%. Die 3σ–Umgebung liefert 99%, etc. 3 µ 4 Mars & Venus Express V340 Missionen der ESA Start Jun. 2003 in Baikonur Mars-Orbit ab Jan. 2004 → Suche nach Wasser Start Nov. 2005 in Baikonur Venus-Orbit ab Apr. 2006 → Atmosphäre der Venus Orbiter: Masse 633kg plus Treibstoff (MMH+NTO) Hierzu will ich Sie mit meiner Einführung anleiten. Wer darüber hinaus ernsthafte statistische Analysen betreiben will/muss, kann sich darauf aufbauend in die Spezialliteratur einarbeiten. V342 Tag 1 2 3 ... 720 700 660 640 unplausibel: leichter als leer Tag 600 −150 −100 Mathematische Statistik: Konfidenzintervalle −50 V343 Erläuterung Datum 01.01.2012 02.01.2012 03.01.2012 ... Masse 640 674 659 ... Tag ... 364 365 366 Datum ... 29.12.2012 30.12.2012 31.12.2012 Masse ... 664 704 712 www.igt.uni-stuttgart.de/eiserm/lehre/HM3/VEX2012.txt Datengewinnung ist mühsam, erfordert Umsicht und Sachkenntnis! Diese Daten stellt uns freundlicherweise Herr Caglayan Gürbüz zur Verfügung. Er hat 2012 die Höhere Mathematik 3 gehört und am IRS / ESOC seine Bachelor-Arbeit zum Mars & Venus Express geschrieben. Rationale Entscheidung: Kann / sollte man die Mission verlängern? Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit! Techniken: Erwartung und Streuung, Stichproben und Schätzung, Gesetz der großen Zahlen, zentraler Grenzwertsatz, Konfidenzintervall This is rocket science. Mathematische Statistik zeigt, wie’s geht. 680 −200 Venus Express: Wieviel Treibstoff ist im Tank? Impuls-Messungs-Methode (Impulse Measurement Method, IMM): Aus Positions- und Steuerdaten errechnet man Werte für die Masse. unplausibel: schwerer als voll −250 Vereinfachte Analogie: Sie haben eine Gasflasche für einen Herd oder Grill: Leergewicht 6kg, Inhalt 0-5kg Propan, ebenfalls ohne Anzeige des Füllstandes. Sie können durch Schütteln recht gut erspüren, wie voll die Gasflasche ist. Probieren Sie es bei Gelegenheit mal aus! Es geht um rationale Entscheidungen unter Unsicherheit. Dafür genügt es nicht, eine willkürliche Schätzung auszuspucken! Die Anwendung ist ernst, es geht um Geld, wir müssen überzeugen. Wir wollen nicht nur eine gute Schätzung, sondern auch die Güte der Schätzung berechnen! 740 −300 Realistische Analogie: Heutige Autos haben eine Masse von etwa 1.2 bis 1.6 Tonnen bei einem Tankvolumen von 50 bis 70 Litern. Sie fahren ein Auto ohne Tankanzeige, die Tankfüllung erspüren Sie in Kurven, beim Gasgeben und Abbremsen. Ist das verrückt? Ja. Ist das möglich? Schwierig! Man muss genau und sehr häufig messen – und dann die Messfehler rausfiltern! Fortsetzung oder Ende: Wie lange reicht der Sprit? Aus Steuermanövern errechnete Masse für 366 Tage bis 31.12.2012. −350 Design erfordert Entscheidungen und meist Kompromisse. Die ESA hat auf Messgeräte für die Tankfüllung verzichtet. Zum geplanten Ende der Mission stellt sich die Frage: Kann die Mission verlängert werden? Ist dazu noch genug Treibstoff im Tank? Wie kann man das mit ausreichender Sicherheit herausfinden? Idee: Die ESA verfügt über alle bisherigen Positions- und Steuerdaten. Hieraus könnte man jeweils die Trägheit berechnen und indirekt die Gesamtmasse! Geht das? Jede Messung ist mit Fehlern behaftet: systematische müssen wir vermeiden, zufällige können wir nicht direkt korrigieren. Wir müssen lernen, sie geschickt rauszufiltern, um ein möglichst verlässliches Ergebnis zu erhalten. Genau das ist Aufgabe der mathematischen Statistik. Venus Express: Wieviel Treibstoff ist im Tank? 620 V341 Erläuterung Acht Steuertriebwerke mit jeweils 10N Schub Siehe en.wikipedia.org/wiki/Mars_Express und /Venus_Express 760 Masse/kg Mars & Venus Express 0 V344 Jahresmittelwert der Gesamtmasse mit 3σ–Konfidenzintervall. Mathematische Statistik: Konfidenzintervalle V345 Erläuterung Aufgabe: Wir groß war der Tankinhalt im Jahresmittel 2012? Geben Sie das 3σ–Konfidenzintervall an (für 99%ige Sicherheit). 760 Masse/kg Lösung: Unser Datensatz liefert Mittelwert und Streuung: Der Stichprobenmittelwert ist m̂ = 684kg. Dies schätzt die Masse m. Die Stichprobenstreuung ist σ̂m = 24.6kg. Dies schätzt die Streuung. √ Bei n = 345 Datenpunkten gilt σ̂m̂ = σ̂m / n = 1.33kg. Großes n hilft! Das 3σ–Intervall [m̂ ± 3σ̂m̂ ] = [680; 688]kg ist erstaunlich schmal! Der Tankinhalt betrug demnach [47; 55]kg mit 99%iger Sicherheit. 740 720 700 680 Messdaten sind voller Messfehler und anderer Ungenauigkeiten. 660 Unsere Daten sind schmutzig doch glücklicherweise sehr zahlreich: Wir können Gesetze der großen Zahlen und Grenzwertsätze nutzen! 640 620 Dank passender Technik können Sie so präzise Schlüsse ziehen! Dank Statistik fördern Sie Information zutage, die zuvor verborgen war. If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is. (John von Neumann) Tag 600 −350 −300 −250 −200 −150 −100 Mathematische Statistik: lineare Regression −50 0 V346 Regressionsgerade mit Konfidenzintervallen: 1σ, 2σ, 3σ. 760 Masse/kg 740 720 700 680 660 640 620 It is difficult to make predictions, especially about the future. 600 −350 −300 −250 −200 −150 −100 Tag −50 Jede Prognose ist höchstens so gut wie die zugrundeliegenden Daten! Zufällige Fehler können wir durch große Messreihen rausfiltern, systematische Fehler nicht! Hier helfen nur Umsicht und Sachkenntnis! 0 Mathematische Statistik: lineare Regression V347 Erläuterung Aufgabe: Wir groß war der Tankinhalt Ende 2012? Wie lange reicht’s noch? Wie sicher ist Ihre Prognose? Lösung: Unser Datensatz liefert die Regressionsgerade y = â + b̂ x: Ende 2012 ist die Gesamtmasse â = 680.5kg mit Streuung σ̂â = 2.6kg. Im Tank verbleiben t̂ = 47.5kg Treibstoff mit Streuung σ̂t̂ = 2.6kg. Der Verbrauch ist b̂ = −20.3g/Tag mit Streuung σ̂b̂ = 12.6g/Tag. Sehr grobe Prognose der verbleibenden Missionsdauer: 2300 Tage. Wie verlässlich ist diese Prognose aufgrund unserer Messdaten? Mit 95% Sicherheit reicht der Treibstoff noch für über 930 Tage: Tank [t̂ ± 2σ̂t̂ ] ⊂ [42.3; 52.7]kg, Verbrauch [b̂ ± 2σ̂b̂ ] ⊂ [−45.5; 4.9]g/Tag. Mit 99% Sicherheit reicht der Treibstoff noch für über 680 Tage: Tank [t̂ ± 3σ̂t̂ ] ⊂ [39.7; 55.3]kg, Verbrauch [b̂ ± 3σ̂b̂ ] ⊂ [−58.1; 17.5]g/Tag. Wir extrahieren sorgsam, was die vorliegenden Daten hergeben! Systematische Fehler? physikalische Annahmen? Alternativen? War 2012 ein typisches Jahr? Wenn man Sprit spart, reicht er länger! VEX wird 2013/14 tiefer in Atmosphäre abgesenkt ⇒ mehr Verbrauch. Die Mission endet im Dezember 2014 wegen Treibstoffmangels. Wow! Mathematische Statistik: Konfidenzintervalle V348 Das Ergebnis X einer Messung hängt von zufälligen Störungen F ab: X =x+F etwa mit F ∼ N (0, σF2 ) Das heißt: Messwerte X = x + F schwanken um den Wert x = E(X), der Fehler F = X − x hat Mittelwert E(F ) = 0 und Varianz V(F ) = σF2 . Problem: Erwartung E(X) = x und Varianz V(X) = σF2 sind uns nicht bekannt. Wir wollen sie durch wiederholte Messungen ermitteln. Unabhängige Wiederholung ergibt die Messwerte x1 , x2 , . . . , xn . 2 = σ 2 schätzen wir hieraus wie folgt: Erwartung µX = x und Varianz σX F x ≈ x̂ := n n i=1 i=1 1X 1 X σ̂X 2 2 xi , σX ≈ σ̂X := (xi − x̂)2 , σX̂ ≈ σ̂X̂ := √ n n−1 n Hieraus erhalten wir Konfidenzintervalle für den gesuchten Wert x: I2 = [x̂ ± 2σX̂ ] = x̂ − 2σX̂ ; x̂ + 2σX̂ 3 x mit 95% Sicherheit I3 = [x̂ ± 3σX̂ ] = x̂ − 3σX̂ ; x̂ + 3σX̂ 3 x mit 99% Sicherheit Mathematische Statistik: lineare Regression V350 Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F : Y = a + bX + F Unabhängige Wiederholung ergibt die Messdaten (x1 , y1 ), . . . , (xn , yn ). Die Regressionsparameter a und b schätzen wir hieraus wie folgt: P (xi − x̂)(yi − ŷ) P b ≈ b̂ := , a ≈ â := ŷ − b̂ x̂ (xi − x̂)2 Die Güte dieser Schätzungen wird bestimmt durch die Varianzen: P n σ̂b̂2 X (â + b̂ xi − yi )2 2 2 P σb̂2 ≈ σ̂b̂2 := , σ ≈ σ̂ := x2i â â (n − 2) (xi − x̂)2 n i=1 Wir erhalten Konfidenzintervalle für die gesuchten Werte a bzw. b: I2 = [â ± 2σâ ] = â − 2σâ ; â + 2σâ 3 a mit 95% Sicherheit I3 = [â ± 3σâ ] = â − 3σâ ; â + 3σâ 3 a mit 99% Sicherheit V352 Erläuterung Wir nehmen an, yi hängt linear von xi ab plus zufällige Störung fi : yi = a + b xi + fi i=1 Das ist eine positive quadratische Funktion in a und b. Minimum: ∂Q Xn ! = 2(yi − a − b xi ) · (−1) = 0 i=1 ∂a ∂Q Xn ! = 2(yi − a − b xi ) · (−xi ) = 0 i=1 ∂b Dieses lineare Gleichungssystem führt zu den obigen Formeln: P P (xi − x̂)(yi − ŷ) x y − nx̂ŷ P P i 2i â = ŷ − b̂ x̂, b̂ = = (xi − x̂)2 xi − nx̂2 Geometrisch: Für die zentrierten Vektoren ~xi = xi − x̂ und ~yi = yi − ŷ berechnet sich b̂ = h ~x | ~y i/h ~x | ~x i durch Skalarprodukte! Bestimmung der Ausgleichsgeraden V354 Erläuterung Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F : Y = a + bX + F etwa mit F ∼ N (0, σF2 ) Wie gut ist unsere Schätzung â, b̂ für die unbekannten Parameter a, b? Wir betrachten unabhängig wiederholte Messungen (Xi , Yi ) und analysieren unsere Schätzungen â, b̂ als Zufallsvariable Â, B̂: Yi = a + b Xi + Fi , n 1X X̂ := Xi , n i=1 P (Xi − X̂)(Yi − Ŷ ) B̂ = , P (Xi − X̂)2 Gesucht ist der wahre Wert x, doch dieser ist uns leider unbekannt. Wir schätzen ihn durch x̂ anhand der Messdaten (x1 , x2 , . . . , xn ). 2 . Die Güte dieser Schätzung wird bestimmt durch die Varianz σX 2 Wir schätzen sie wiederum durch die Stichprobenvarianz σ̂X . Grundlegende Annahmen unseres stochastischen Modells: Der Messfehler F ist zufällig und hat Mittelwert E(F ) = 0. Andernfalls machen wir einen systematischen Fehler! Den Fehler F können wir nicht direkt beobachtet (und korrigieren). Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern: Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert x. Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert x. Dies sind die Konfidenzniveaus 95% bzw. 99% der Normalverteilung! Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß, denn X̂ ∼ N (x, σF2 /n) gilt exakt oder in guter Näherung dank ZGS. Mit hinreichend vielen Messdaten bestimmen wir x beliebig genau. Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit. Doppelte Genauigkeit kostet viermal so viele Messungen. Mathematische Statistik: lineare Regression V351 Erläuterung Grundlegende Annahmen unseres stochastischen Modells: Der Messfehler F ist unabängig von X mit Mittelwert E(F ) = 0. Andernfalls machen wir einen systematischen Fehler! Den Fehler F können wir weder direkt beobachten noch korrigieren. Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern: Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert a. Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert a. Auch hier nutzen wir die Konfidenzniveaus der Normalverteilung! Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß, denn  ∼ N (a, σâ2 ) und B̂ ∼ N (b, σb̂2 ) gilt exakt oder in guter Näherung. Ausreichend viele Messdaten bestimmen a, b beliebig genau. Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit. Doppelte Genauigkeit kostet viermal so viele Messungen. Bestimmung der Ausgleichsgeraden V353 Erläuterung Wir nennen y = â + b̂ x die Kleinste-Quadrate-Gerade (KQ-Gerade). Der Wert ŷi = â + b̂ xi heißt der KQ-gefittete Wert und entsprechend die Abweichung fˆi = yi − ŷi = yi − â + b̂ xi der KQ-gefittete Fehler. Eigenschaften: Die Summe aller Fehler fˆi = yi − a − b xi ist Null. Liegen alle Datenpunkte (xi , yi ) auf einer Geraden y = a + bx, so gilt â = a und b̂ = b mit perfektem Fit: ŷi = yi und fˆi = 0. Wie gut beschreibt die Gerade die Daten? Korrelationskoeffizient P (xi − x̂)(yi − ŷ) h ~x | ~y i pP p r(x, y) := pP =p h ~x | ~x i h ~y | ~y i (xi − x̂)2 (yi − ŷ)2 mit Fehler fi = yi − a − b xi Wir suchen nach der Geraden, die diese Fehlerterme minimiert: Xn Xn ! Q(a, b) := fi2 = (yi − a − b xi )2 = min i=1 V349 Erläuterung Gesucht sind die Werte a, b, doch diese sind uns leider unbekannt. Wir schätzen sie durch â, b̂ anhand der Messdaten (x1 , y1 ), . . . , (xn , yn ). etwa mit F ∼ N (0, σF2 ) Bestimmung der Ausgleichsgeraden Mathematische Statistik: Konfidenzintervalle Fi ∼ N (0, σF2 ) n 1X Ŷ := Yi n i=1  = Ŷ − B̂ X̂ Wir nehmen vereinfachend an, die additiven Fehler Fi ∼ N (0, σF2 ) sind normalverteilt. Dann sind die Zufallsvariablen  und B̂ normalverteilt; allgemein gilt dies für große n in guter Näherung dank ZGS. Es gilt −1 ≤ r ≤ 1 und r = ±1 genau dann, wenn alle Daten auf einer Geraden liegen: gleichsinnig für r = +1 und gegensinnig für r = −1. Die Linearisierung ist gut für große Werte von r2 , schlecht für kleine. Geometrisch bedeutet r = 0, dass die Vektoren ~x, ~y senkrecht stehen. Stochastisch bedeutet es, dass x, y linear unkorreliert sind. Für Skalarprodukte h ~x | ~y i gilt die Cauchy–Schwarz–Ungleichung. ?? Zur Wiederholung siehe Kimmerle–Stroppel, Lineare Algebra, §2.6 Bestimmung der Ausgleichsgeraden V355 Erläuterung Für die Erwartungen finden wir (nach kurzer Rechnung): P (xi − x̂)(yi − ŷ) P E(B̂) = b ≈ b̂ := , E(Â) = a ≈ â := ŷ − b̂ x̂ (xi − x̂)2 Für die Varianzen finden wir (nach längerer Rechnung): P σF2 (â + b̂ xi − yi )2 P V(B̂) = ≈ σ̂b2 := n V(X) (n − 2) (xi − x̂)2 n σ 2 E(X 2 ) 1X 2 V(Â) = F ≈ σ̂a2 := σ̂b2 · xi n V(X) n i=1 Die Form der Varianzschätzer ist plausibel, die kleine Korrektur von 1/n zu 1/(n − 1) oder 1/(n − 2) sichert die richtige Erwartung. (Für große n, etwa n 100, ist diese Korrektur meist unerheblich.) Hieraus erhalten wir Vertrauensintervalle, etwa 2σ zu 95% Sicherheit. Der Aufwand lohnt sich: Wir gewinnen ein Maß für die (Un)Sicherheit. Wir bekommen nicht nur Punktschätzer der gesuchten Werte a, b, sondern sogar Intervallschätzer: Das enthält viel mehr Information! Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit! Zufallsvariablen und Erwartungswerte V401 Fazit Sei (Ω, A , P) ein WRaum ?? , zum Beispiel diskret oder kontinuierlich. Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R. Sie ordnet jedem Ergebnis ω ∈ Ω eine reelle Zahl X(ω) ∈ R zu. Ihre Verteilung PX : B(R) → [0, 1] im Bildbereich R ist definiert durch PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B . Ihr Erwartungswert ist gegeben durch ˆ ˆ µ = E(X) := X(ω) dP = x dPX . R Ω Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt ˆ E(X) = x f (x) dx. R Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt X E(X) = x p(x). Varianz und Streuung V402 Fazit Das (absolute, zentrierte) n–te Moment von X ist gegeben durch h n i E X − µ . Fall n = 2: Die Varianz von X ist die mittlere quadratische Abweichung h 2 i = E(X 2 ) − E(X)2 ≥ 0. σ 2 (X) = V(X) := E X − µ Die Streuung oder Standardabweichung ist die Quadratwurzel p σ(X) := V(X). Nach Chebychev gelten folgende Abschätzungen, wobei h, k > 0: 1 1 P |X − µ| ≥ kσ ≤ 2 , P µ − kσ < X < µ + kσ ≥ 1 − 2 k k 4(hk − 1) 1 P X ≥ µ + kσ ≤ , P µ − hσ < X < µ + kσ ≥ 2 1+k (h + k)2 x∈R Unabhängige Zufallsvariablen V403 Fazit Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt (stochastisch) unabhängig, wenn für alle Intervalle Ik ⊂ R gilt Ihre gemeinsame Verteilung ist dann die Produktverteilung: P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn . Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn , so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). Sind X, Y unabhängige Zufallsvariablen, dann gilt nach Fubini: E(X · Y ) = E(X) · E(Y ) V(X + Y ) = V(X) + V(Y ) Dies sind besonders einfache und nützliche Formeln. Für abhängige Zufallsvariablen gelten sie i.A. nicht! V405 Fazit Der ZGS besagt: Die Summe S = X1 + · · · + Xn vieler unabhängiger aber ähnlich großer Zufallsvariablen ist annähernd normalverteilt. n ρ30 √ σ03 n → Was ist ein Wahrscheinlichkeitsraum (Ω, A , P)? Was ist hierauf eine (reelle) Zufallsvariable X? Was ist ihre Verteilung PX auf R? Wie berechnet man den Erwartungswert µ = E(X)? bei diskreter Verteilung? bei kontinuierlicher Verteilung? Wie berechnet man die Varianz σ 2 = V(X) und Streuung σ? Was sind die Momente von X? Nennen Sie wichtige Verteilungen und ihre Anwendungen. Was sind ihre Kenngrößen µ und σ? Wie berechnet man sie? Wie verhalten sie sich bei einer affinen Skalierung Y = aX + b? Wie lauten und was besagen die Ungleichungen von Chebychev? Wann lassen sie sich anwenden, was muss man hierzu wissen? Gibt es genauere Ungleichungen, wenn man die Verteilung kennt? Z.B. für die Normalverteilung? Was besagt die 68–95–99–Regel? die Stichprobenvarianz 2 1X xk , n σ̂ := 1 X (xk − x̂)2 , n−1 k=1 das 2σ–Konfidenzintervall Der lokale Grenzwertsatz U3A ist spezieller, dabei aber auch präziser. Versuchen Sie, folgende Fragen frei aber genau zu beantworten, etwa so, wie Sie sie einem Kommilitonen / Kollegen erklären wollen. x̂ := n 0. Verständnisfragen: Zufallsvariablen den Stichprobenmittelwert k=1 und für den Approximationsfehler δ gilt die allgemeine Schranke ≤ V406 Fazit In der Praxis ist folgende Anwendung des ZGS besonders wichtig: Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer: ˆ (b−µ)/σ −ξ2 /2 e √ P(a ≤ S ≤ b) = dξ + δ 2π (a−µ)/σ ρ31 + · · · + ρ3n (σ12 + · · · + σn2 )3/2 Konfidenzintervalle Als Stichprobe führen wir n unabhängige Messungen aus. Aus den so gewonnenen Messwerten x1 , . . . , xn berechnen wir Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit endlichen Erwartungen µk = E(Xk ), strikt positiven Varianzen σk2 = E(|Xk − µk |2 ) ≥ σ02 > 0, beschränkten dritten Momenten ρ3k = E(|Xk − µk |3 ) ≤ ρ30 < ∞. ≤ Es gilt E(X̂) = µ und dank Unabhängigkeit zudem V(X̂) = σ 2 /n. √ Mit zunehmendem n streut X̂ immer weniger, gemäß 1/ n → 0. Der Mittelwert nähert sich dem Erwartungswert: Für jedes ε > 0 gilt σ2 P |X̂ − µ| ≥ ε ≤ → 0. n ε2 Dieser Grenzwert besagt in Worten: Große Abweichungen |X̂ − µ| ≥ ε sind beliebig unwahrscheinlich, wenn man n hinreichend groß wählt. In praktischen Anwendungen möchte man n nicht allzu groß wählen, denn wiederholte Messungen sind teuer. Wir brauchen daher bessere Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS! Für die Varianzen unabhängiger Zufallsvariablen folgt Additivität: |δ| V404 Fazit Eine Messung / ein Experiment entspricht einer Zufallsvariablen X : Ω → R mit Erwartung µ = E(X) und Varianz σ 2 = V(X) < ∞. Wir führen unabhängige Wiederholungen X1 , X2 , X3 , . . . durch. Aus diesen Messwerten bilden wir den empirischen Mittelwert 1 X̂ := X1 + · · · + Xn . n P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ). Der zentrale Grenzwertsatz (ZGS) Das Gesetz der großen Zahlen V407 Fazit I2 := h σ̂ σ̂ i x̂ − 2 √ , x̂ + 2 √ . n n Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2 den (festen aber uns unbekannten) Erwartungswert µ = E(X). √ Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal größere Stichprobe. Das ist Fluch und Segen der großen Zahlen! Verständnisfragen: zentraler Grenzwertsatz V408 Fazit Wann sind zwei Zufallsvariablen X, Y unabhängig? Wann sind die Indikatorfunktionen IA , IB zweier Ereignisse A, B ⊂ Ω unabhängig? Kennen Sie weitere Beispiele von un/abhängigen Zufallsvariablen? Gilt stets E(X + Y ) = E(X) + E(Y )? und E(X · Y ) = E(X) · E(Y )? und V(X + Y ) = V(X) + V(X)? Was gilt bei Unabhängigkeit? Was sind Erwartungswert und Varianz für B(1, t)? Wie kann man hieraus mühelos Erwartungswert und Varianz von B(n, t) ablesen? Was besagt das Gesetz der großen Zahlen? Wie kann man Wkten / Erwartungswerte empirisch messen? Wie schnell ist die Konvergenz? Was besagt der zentrale Grenzwertsatz? Welche drei Voraussetzungen braucht, welche Schlussfolgerung gewinnt man? Wie schnell ist die Konvergenz? Was ist gleich / anders beim lokalen Grenzwertsatz? Wie berechnet man Stichprobenmittelwert und -Varianz? Wie bestimmt man hieraus das Konfidenzintervall der Stichprobe? Wie liegt es zum (gesuchten aber unbekannten) Erwartungswert? ZGS: Wann erhalten wir die Normalverteilung? V409 Erläuterung Die Voraussetzungen σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen Grenzwertsatzes V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . . ähnlich stark streuen. Andernfalls können wir nicht garantieren, dass ihre Summen Sn = X1 + · · · + Xn sich der Normalverteilung nähern. Warnende Gegenbeispiele illustrieren dies, einfach aber eindrücklich: Seien X1 , X2 , X3 . . . : Ω → {0, 1} gleichverteilte Zufallsvariablen, also P(Xk =0) = P(Xk =1) = 1/2, und untereinander unabhängig. Aufgabe: (1) Wir betrachten die Summe Sn = X1 + · · · + Xn sowie ihre Normierung Sn∗ = (Sn − µ(Sn ))/σ(Sn ), sodass µ(Sn∗ ) = 0 und σ(Sn∗ ) = 1. (a) Berechnen Sie explizit µ(Xk ), σ(Xk ), ρ(Xk ) sowie µ(Sn ), σ(Sn ). (b) Bestimmen Sie die Verteilung PSn , skizzieren Sie die ersten Fälle. (c) Welche Voraussetzungen des ZGS sind erfüllt, welche nicht? (d) Welcher Grenzverteilung nähern sich PSn bzw. PSn∗ für n → ∞? (2) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = X1 . (3) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2−k Xk . (4) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2k−1 Xk . Variante: X1 , X2 , X3 . . . : Ω → {−1, 0, +1} und (3–4) zur Basis 3 statt 2. ZGS: Wann erhalten wir die Normalverteilung? V411 Erläuterung Lösung: (1a) Hier gilt µ(Xk ) = 1/2 und σ 2 (Xk ) = 1/4 und ρ3 (Xk ) = 1/8, dank Linearität µ(Sn ) = n/2, dank Unabhängigkeit σ 2 (Sn ) = n/4. (1b) Wir wissen bereits PSn = B(n, p) mit p = 1/2, also ausgeschrieben: n k n 1 P Sn = k = p (1 − p)n−k = k 2n k (1c) Alle drei Voraussetzungen des Satzes V3A sind hier erfüllt! 4 4 4 (1d) Dank ZGS erhalten wir PSn∗ → N (0, 1). Ausführlich und genauer: ˆ (b−µn )/σn −ξ2 /2 e √ P(a ≤ Sn ≤ b) = dξ + δ 2π (a−µn )/σn ˆ β −ξ2 /2 e √ P(α ≤ Sn∗ ≤ β) = dξ +δ 2π α √ mit der Fehlerschranke |δ| ≤ 1/ n → 0. Der lokale Grenzwertsatz U3A garantiert die noch bessere Fehlerschranke |δ| ≤ 4/3n für n ≥ 100. Ohne Normierung gilt P(Sn ∈ [a, b]) → 0 für n → ∞. (Skizze!) ZGS: Wann erhalten wir die Normalverteilung? S0 V413 Erläuterung Die Summen Sn = Y1 + Y2 + · · · + Yn mit Yk = 2−k Xk und Xk ∼ B(1, 1/2) als ein binärer Baum. +Y1 ZGS: Wann erhalten wir die Normalverteilung? V410 Erläuterung 0.08 B(100, 0.5) N (50, 25) 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 35 40 45 50 55 60 65 ZGS: Wann erhalten wir die Normalverteilung? V412 Erläuterung (2a) Wie in (1a) gilt µ(Yk ) = 1/2 und σ 2 (Yk ) = 1/4 und ρ3 (Yk ) = 1/8. Für die Summe Sn = nX1 gilt µ(Sn ) = n/2 aber σ 2 (Sn ) = n2 /4. (2b) Die Summe Sn ist gleichverteilt auf {0, n}, das heißt, sie nimmt nur zwei Werte an: P(Sn =0) = P(Sn =n) = 1/2. Normiert ist Sn∗ = 2X1 − 1 gleichverteilt auf {−1, +1}. (2c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Varianzen σk2 = 1/4 > 0 sind strikt positiv. Die dritten Momente ρ3k = 1/8 < ∞ sind beschränkt. Aber die Zufallsvariablen Y1 , Y2 , . . . sind nicht unabhängig! 4 4 8 Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Tatsächlich konvergiert PSn∗ nicht gegen die Normalverteilung N (0, 1)! (2d) Für alle n ist die normierte Summe Sn∗ gleichverteilt auf {−1, +1}. Ohne Normierung gilt für n → ∞ der Grenzwert P(Sn ∈ [a, b]) → 0 falls 0 ∈ / [a, b] und P(Sn ∈ [a, b]) → 1/2 falls 0 ∈ [a, b]. Das ist keine WVerteilung mehr: Wie in (1d) verschwindet Masse nach Unendlich. ZGS: Wann erhalten wir die Normalverteilung? V414 Erläuterung (3a) Für Yk = 2−k Xk gilt dank (1a) nach Skalierung µ(Yk ) = 2−k /2 und σ 2 (Yk ) = 2−2k /4 und ρ3 (Yk ) = 2−3k /8. Dank Linearität gilt dann µ(Sn ) = (1 − 2−n )/2, dank Unabhängigkeit σ 2 (Sn ) = (1 − 2−2n )/12. (3b) Im Binärsystem gilt: Sn = 2−1 X1 + 2−2 X2 + · · · + 2−n Xn = (0.X1 X2 . . . Xn )bin Demnach ist PSn die Gleichverteilung auf der endlichen Menge Mn = m/2n m = 0, 1, . . . , 2n − 1 ⊂ [0, 1]. S1 +Y2 (3c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig. Die dritten Momente ρ3k = 2−3k /8 ≤ ρ31 = 1/64 < ∞ sind beschränkt. Hingegen gilt σk2 = 2−2k /4 & 0, also nicht σk ≥ σ0 > 0. +Y2 S2 4 4 8 Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Genauer zeigen wir schließlich, dass die Verteilungen PSn bzw. PSn∗ tatsächlich nicht gegen die Normalverteilung konvergieren! S3 S4 ZGS: Wann erhalten wir die Normalverteilung? V415 Erläuterung (3d) Für n → ∞ nähert sich PSn der Gleichverteilung auf [0, 1]. Dank (3b) scheint dies plausibel. Wir rechnen es ausführlich nach. Für alle 0 ≤ a < b ≤ 1 und k ∈ N gelten folgende Implikationen: [a, b] ∩ Mn = k =⇒ k2−n ≤ |b − a| < (k + 1)2−n =⇒ [a, b] ∩ Mn ∈ {k, k + 1} Man beweist dies für k = 0 und per Induktion für k = 1, 2, 3, . . . . Also: b(b − a)2n c + {0, 1} P Sn ∈ [a, b] ∈ → |b − a| 2n Die Wahrscheinlichkeit für das Ereignis Sn ∈ [a, b] geht für n → ∞ gegen die Intervalllänge |b − a|. Das ist die Gleichverteilung auf [0, 1]. Demnach konvergiert die normierte Zufallsvariable Sn∗ = (Sn −√ µn )/σ √n gegen die kontinuierliche Gleichverteilung auf dem Intervall [− 3, 3]. All diese Verteilungen haben Erwartung 0 und Streuung 1. ?? ZGS: Wann erhalten wir die Normalverteilung? V416 Erläuterung (4a) Für Yk = 2k−1 Xk gilt nach (1a) dank Skalierung µ(Yk ) = 2k−1 /2 und σ 2 (Yk ) = 22k−2 /4 und ρ3 (Yk ) = 23k−3 /8. Dank Linearität gilt µ(Sn ) = (2n − 1)/2 dank Unabhängigkeit σ 2 (Sn ) = (22n − 1)/12. (4b) Im Binärsystem gilt: Sn = X1 + 2X2 + · · · + 2n−1 Xn = (Xn . . . X2 X1 )bin Demnach ist PSn die Gleichverteilung auf der endlichen Menge Mn = 0, 1, . . . , 2n − 1 ⊂ N. (4c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig. Die Varianzen σk2 = 22k−2 /4 ≥ σ12 = 1/4 > 0 sind strikt positiv. Hingegen gilt ρ3k = 23k−3 /8 % ∞, also nicht ρk ≤ ρ0 < ∞. 4 4 8 Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Wie in (3d) folgt, dass die Verteilung von Sn∗ tatsächlich nicht gegen √ √ N (0, 1) konvergiert, sondern gegen die Gleichverteilung auf [− 3, 3]. Vergleich: Binomial, Poisson, Normal V417 Erläuterung µk −µ e . k! Sie hat Erwartung µ und Varianz σ 2 = µ. Für t = µ/n und n → ∞ gilt n k µk −µ B(n, t) → P (µ) also punktweise t (1 − t)n−k → e . k k! P (µ) : N → [0, 1] mit P (µ)(k) = 0.10 0.08 0.06 Dank LGS nähert sich also auch die Poisson– der Normalverteilung: ˆ β −ξ2 /2 b b X X n k µk −µ e √ t (1 − t)n−k → e = dξ + δ k k! 2π α k=a k=a ˆ β −ξ2 /2 h 1 − ξ2 iβ e 2 √ √ e−ξ /2 + ε = dξ + α 2π 6σ 2π α 0.04 0.02 0 0 2 4 6 8 10 12 14 16 18 20 22 Aufgabe: Die Poisson–Näherung B(n, µ/n) → P (µ) für n → ∞ und der LGS B(n, µ/n) ≈ N (µ, µ) zeigen P (µ) ≈ N (µ, µ) wie skizziert. Welche Fehlerschranke gilt demnach zwischen P (µ) und N (µ, µ)? Poissons Gesetz der kleinen Zahlen V419 Erläuterung Zum Vergleich mit dem ZGS nochmal die Poisson–Approximation: Satz V4A (Poissons Gesetz der kleinen Zahlen) Seien X1 , . . . , Xn : Ω → {0, 1} unabhängig mit P (Xk =1) = pk ∈ [0, 1], also jeweils B(1, pk )–verteilt mit E(Xk ) = pk und V(Xk ) = pk (1 − pk ). Die Summe S = X1 + · · · + Xn hat die Erwartung µ = p1 + · · · + pn und dank Unabhängigkeit die Varianz σ 2 = pk (1 − pk ) + · · · + pn (1 − pn ). Für kleine pk ist S annähernd Poisson–verteilt, PS ≈ P (µ). Genauer: PS − P (µ) ≤ p21 + · · · + p2n Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, und somit B(n, p) − P (µ) ≤ np2 = µ2 /n. Poissons Gesetz der kleinen Zahlen V421 Ergänzung Lösung: Wir beginnen mit der Erinnerung zur Abstandsmessung: (0) Für diskrete WMaße P0 , P1 nutzen wir den totalen Abstand T323 : X P0 − P1 := sup P0 (A) − P1 (A) = 1 P0 ({ω}) − P1 ({ω}) 2 A⊂Ω ω∈Ω = P(X = k)P(Y = `) = k+`=n = k=0 Aufgabe: (0) Definieren Sie den totalen Abstand diskreter WMaße. (1) Sind X ∼ P (λ) und Y ∼ P (µ) unabhängig und Poisson–verteilt, dann ist ihre Summe X + Y ∼ P (λ + µ) ebenfalls Poisson–verteilt. (2) Berechnen Sie den Abstand der WMaße B(1, p) und P (p). Vergröbern Sie die exakte Rechnung zu B(1, p) − P (p) ≤ p2 . (3) Bei Produktmaßenaddieren sich die totalen Abstände gemäß der einfachen Formel P ⊗ Q − P0 ⊗ Q0 = P − P0 + Q − Q0 . (4) Seien P, P0 WMaße auf Ω und S : Ω → N eine Zufallsvariable. Für den Abstand der Bildmaße gilt dann kPS − P0S k ≤ kP − P0 k. (5) Folgern Sie Poissons Gesetz der kleinen Zahlen (Satz V4A). Poissons Gesetz der kleinen Zahlen V422 Ergänzung (2) Auf der Menge N vergleichen wir die Binomialverteilung B(1, p) mit Trefferwkt p ∈ [0, 1] und die Poisson–Verteilung P (p) zum Parameter p: X B(1, p)(k) − P (p)(k) 2B(1, p) − P (p) = k∈N ∞ p0 −p p1 −p X pk −p = (1 − p) − e + p − e + e 0! 1! k! ≤ 2p2 Hierbei nutzen wir zweimal die Ungleichung 1 − p ≤ e−p . T106 Wir erhalten die ersehnte Abschätzung des totalen Abstands: B(1, p) − P (p) ≤ p2 (λ + µ)n −(λ+µ) e n! Dies ist Satz V4A für den einfachsten Fall n = 1. Wir übertragen die Ungleichung nun von X1 , . . . , Xn auf ihre Summe S = X1 + · · · + Xn . Dies beweist die Faltung P (λ) ∗ P (µ) = P (λ + µ). Poissons Gesetz der kleinen Zahlen V420 Ergänzung Mit den Techniken dieses Kapitels können wir diese allgemeine Fassung beweisen und die explizite Fehlerschranke nachrechnen: = 2p(1 − e−p ) X λk µ` −µ e−λ · e k! `! k+`=n n 1 −(λ+µ) X n k n−k e λ µ n! k = Poissons Gesetz der kleinen Zahlen = (e−p − 1 + p) + p(1 − e−p ) + (1 − e−p − p e−p ) k+`=n X mit den Grenzen α = (a − 1/2 − µ)/σ und β = (b + 1/2 − µ)/σ und Fehlerschranken |δ| < 1/(6σ) bzw. |ε| < 1/(3σ 2 ) für σ ≥ 5. √ Dies zeigt |δ| < 1/σ → 0, aber auch |δ| ∼ const/ n im ZGS. k=2 (1) Wir berechnen die Wkten geduldig und sorgsam: X disj P(X + Y = n) = P(X = k, Y = `) unabh V418 Erläuterung Lösung: Für µ ≥ 0 ist die Poisson–Verteilung gegeben durch N (10, 10) B(200, 0.05) P (10) 0.12 Vergleich: Binomial, Poisson, Normal V423 Ergänzung (3) Gegeben sind WMaße P, P0 auf der Menge A sowie Q, Q0 auf B. Auf Ω = A × B vergleichen wir die Produktmaße P ⊗ Q und P0 ⊗ Q0 : X p(a)q(b) − p0 (a)q 0 (b) 2P ⊗ Q − P0 ⊗ Q0 = Poissons Gesetz der kleinen Zahlen V424 Ergänzung (4) Es gilt |PS (A) − P0S (A)| = |P(S −1 (A)) − P0 (S −1 (A))| ≤ kP − P0 k für jede Teilmenge A ⊂ N. Hieraus folgt die nützliche Ungleichung kPS − P0S k ≤ kP − P0 k. (a,b)∈A×B = X (a,b)∈A×B = X (a,b)∈A×B = XX a∈A b∈B = p(a)q(b) − p0 (a)q(b) + p0 (a)q(b) − p0 (a)q 0 (b) p(a) − p0 (a) · q(b) + p0 (a) · q(b) − q 0 (b) XX 0 q(b) · p(a) − p0 (a) + p (a) · q(b) − q 0 (b) b∈B a∈A X X p(a) − p0 (a) + q(b) − q 0 (b) = 2kP − P0 k + 2kQ − Q0 k a∈A b∈B Wir erhalten folgende nützliche Gleichung für den totalen Abstand: P ⊗ Q − P0 ⊗ Q0 = kP − P0 k + kQ − Q0 k (5) Dank (2,3) haben die Produktmaße P = B(1, p1 ) ⊗ · · · ⊗ B(1, pn ) und P0 = P (p1 ) ⊗ · · · ⊗ P (pn ) auf Nn den totalen Abstand P − P0 ≤ p21 + · · · + p2n . Unter P ist die Treffersumme S = X1 + · · · + Xn verteilt gemäß PS . Unter P0 ist das Bildmaß P0S = P (µ) die Poisson–Verteilung dank (1). Dank (4) haben beide Bildmaße auf N den totalen Abstand PS − P (µ) ≤ p21 + · · · + p2n . Das ist Poissons Gesetz der kleinen Zahlen (Satz V4A). Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, also B(n, p) − P (µ) ≤ np2 = µ2 /n. Anwendungsbeispiel: radioaktiver Zerfall V425 Anwendungsbeispiel: radioaktiver Zerfall V426 Ein Atom Uran 238 zerfällt in der nächsten Stunde mit Wkt p = 2 · 10−14 . Eine Probe von 20mg enthält etwa n = 5 · 1019 Atome. Wir nehmen die Zerfälle als stochastisch unabhängig an (insb. ohne Kettenreaktion). Lösung: (1) Es handelt sich um die Binomialverteilung B(n, p): n k P(X=k) = p (1 − p)n−k k Aufgabe: Sei X die Gesamtzahl der Zerfälle in der nächsten Stunde. (2) Erwartung, Varianz und Streuung von B(n, p) sind (1) Nennen Sie die exakte Verteilung (in diesem vereinfachten Modell). (2) Berechnen Sie Erwartung µ = E(X), Varianz σ 2 = V(X), Streuung σ. Runden Sie jedes Ergebnis auf die nächstgelegene ganze Zahl. (3) Wie klein ist der totale Abstand zur Poisson–Verteilung P (µ)? (4) Wie klein ist der Näherungsfehler zur Normalverteilung N (µ, σ 2 )? (5) Bestimmen Sie die Wahrscheinlichkeit P |X − µ| ≤ 2500 in Prozent, gerundet auf den nächstgelegenen Prozentpunkt. V427 ≈ 99% V428 Erläuterung Eine fahrlässige, falsche Modellbildung kann zu Katastrophen führen! Zwar sind die Werte innerhalb des Modells noch rechnerisch richtig, aber das gewählte Modell beschreibt keineswegs die Wirklichkeit. Die Poisson–Verteilung wäre nach (3) eine noch bessere Näherung. Für P (1 000 000) haben wir hier allerdings keine Tabelle vorliegen. Es gibt auch kumulative Tabellen zu Poisson–Verteilungen P (µ); noch bequemer ist heutzutage die Nutzung eines Computers. a Anwendungsbeispiel: radioaktiver Zerfall Allein die größere Zerfallswkt p ∈ [0, 1] ändert nicht das Modell. Doch unser Modell B(n, p) beruht auf stochastischer Unabhängigkeit! Andernfalls ist die Anzahl X der Zerfälle nicht mehr binomialverteilt. t=0 Genau genommen müssten wir mit α = 2500.5/σ = 2.5005 rechnen, aber die Stetigkeitskorrektur ist hier klein und fällt nicht ins Gewicht. a−1 |1 − 2p| 1 1 1 + 2 < < = 10−3 . 10σ 3σ 6σ σ (7) Nein. Die stochastische Unabhängigkeit der Zerfälle gilt nicht mehr! Wir entscheiden uns hier für den lokalen Grenzwertsatz U3A und nähern die Binomialverteilung durch die Normalverteilung. Dank unserer Fehlerabschätzung (4) ist das genau genug. 1−p σ = V(X) = np(1 − p) = 10 − 2 · 10 ≈ 106 p √ p σ = V(X) = 106 − 2 · 10−8 ≈ 106 = 103 (3) Es gilt PX − P (µ) ≤ np2 = 5 · 1019 · 4 · 10−28 = 2 · 10−8 . (6) Ja. Zwischen Uran 238 findet nahezu keine Wechselwirkung statt. (5) Dank (4) ist die Normalverteilung ausreichend genau: ˆ α ˆ 2.5 ϕ(t) dt = 2 · ϕ(t) dt P |X − µ| ≤ 2500 ≈ Zufällige Irrfahrt / Random Walk = 106 −8 Mancher verwendet die Grenzwertsätze nur gefühlt „nach Erfahrung“. Die Fehlerschranken sind weitaus präziser als eine vage Erfahrung. Sie helfen insbesondere auch dort, wo noch keine Erfahrung vorliegt! Anwendungsbeispiel: radioaktiver Zerfall = 0.98758 6 |δ| ≤ (7) Würden Sie diese Rechnung ebenso durchführen bei spaltbarem Material, etwa Uran 235? (Hier kann eine Kettenreaktion entstehen. Dies wird genutzt zum Beispiel als Kernreaktor oder als Kernwaffe.) ≈ 2 · 0.49379 2 (4) Im LGS bzw. ZGS gilt für den Approximationsfehler δ die Schranke (6) Ist unser Modell für Uran 238 realistisch? Warum / warum nicht? −α = np = 5 · 1019 · 2 · 10−14 µ = E(X) V429 Erläuterung p Die Grundlagen der Kernphysik gehören natürlich nicht zur HM3, aber soviel Anwendungsbezug gehört zur Allgemeinbildung für technisch Gebildete, insbesondere angehende Ingenieure. Ein qualitatives Modell kennen Sie vielleicht aus der Schule: Die Kettenreaktion entsteht, weil beim Zerfall Neutronen emitiert werden, die von anderen Atomkernen absorbiert werden und diese zum Zerfall anregen. Das ist das Gegenteil von Unabhängigkeit! Otto Hahn (1879–1968) bekam für diese wichtige Entdeckung 1945 den Nobelpreis für Chemie. Ihre Anwendungen, zum Guten wie zum Bösen, prägten das 20. Jahrhundert und wirken fort. Zufällige Irrfahrt / Random Walk V430 Erläuterung St Vier mögliche Pfade der Irrfahrt a+1 Zufällige Irrfahrt: Zur Zeit t = 0 starten Sie im Punkt S0 = a. t Im Schritt von St nach St+1 gehen Sie mit Wahrscheinlichkeit p ∈ [0, 1] nach rechts und entsprechend mit Wahrscheinlichkeit (1 − p) nach links. Das heißt, St : Ω → Z ist gegeben durch St = a + X1 + · · · + Xt mit unabhängigen Zuwächsen, P(Xt =+1) = p und P(Xt =−1) = 1 − p. Das ist ein einfaches aber wichtiges Modell. Mögliche Anwendung: Kontostand bei zufälligen Gewinnen und Verlusten. Daher werden solche Modelle häufig für Aktienkurse genutzt. Ähnlich entsteht die Brownsche Bewegung durch Wärmebewegung. Der schottische Botaniker Robert Brown (1773–1858) entdeckte 1827 unter dem Mikroskop das unregelmäßige Zittern von Pollen in Wasser. Anfangs hielt er Pollen für belebt, doch er fand dasselbe bei Staubteilchen. Albert Einstein erklärte die Zitterbewegung 1905 durch die ungeordnete Wärmebewegung der Wassermoleküle, die aus allen Richtungen in großer Zahl gegen die Pollen stoßen. Quantitativ konnte er so die Größe von Atomen bestimmen und die Anzahl pro Mol (Avogadro–Zahl). Die präzisen quantitativen Vorhersagen wurden in den Folgejahren experimentell bestätigt. Zufällige Irrfahrt / Random Walk V431 Erläuterung (2) Wir fixieren den Zielpunkt b ∈ Z und formulieren die Frage neu: Sei u(a) ∈ [0, 1] die Wkt, vom Start a irgendwann zum Ziel b zu kommen. u(a) b a Offensichtlich gilt u(b) = 1, denn hier ist der Start auch sofort das Ziel. Für a > b gilt die Mittelwerteigenschaft u(a) = 12 u(a + 1) + 21 u(a − 1). Somit ist u : Z≥b → [0, 1] eine Gerade, u(a) = 1 + m(a − b). (Warum?) Zudem ist u beschränkt, daher folgt m = 0. Ebenso auf Z≤b . Die Gerade finden wir durch vollständige Induktion: Aus u(b) = 1 und u(b + 1) = 1 + m folgt u(a + 1) = 2u(a) − u(a − 1) = [2 + 2m(a − b)] − [1 + m(a − 1 − b)] = 1 + m(a + 1 − b). Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir jeden Punkt mit Wkt 1! George Pólya (1887–1985) zeigte 1921: Mit Wkt 1 besuchen wir jeden Punkt in Z unendlich oft. Dies gilt ebenso in Dimension 2 bei Irrfahrt auf dem ebenen Gitter Z2 . Erstaunlicherweise gilt es nicht mehr in Dimension n ≥ 3 bei Irrfahrt auf dem Gitter Zn . Anschaulich bedeutet das: Ein betrunkener Mensch findet sicher irgendwann nach Hause, ein betrunkener Vogel hingegen nicht! Aufgabe: (1) Bestimmen Sie die Wahrscheinlichkeit P(St = b). Wir untersuchen speziell den symmetrischen Fall p = 1/2, ohne Drift. (2) Sie beginnen im Startpunkt a ∈ Z und fixieren einen Zielpunkt b ∈ Z. Wie groß ist die Wahrscheinlichkeit, ihn irgendwann zu erreichen? (3) Wie groß ist hierzu die erwartete Anzahl von Schritten? Lösung: (1) Wir erhalten eine Binomialverteilung (affin transformiert): t k t 1 p= 1 P St = a − t + 2k = p (1 − p)t−k =2 k k 2t Zufällige Irrfahrt / Random Walk V432 Erläuterung (3) Sei Tb die Zeit des ersten Besuchs im Punkt b und Ea (Tb ) die erwartete Anzahl von Schritten vom Startpunkt a zum Zielpunkt b. Dies ist invariant unter Verschiebungen, also Ea+k (Tb+k ) = Ea (Tb ). Zunächst gilt Ea (Ta ) = 0. Für a 6= b zeigen wir nun Ea (Tb ) = ∞: x := E0 (T1 ) = 12 E1 (T1 ) +E−1 (T1 ) + 1 = 12 E−1 (T1 ) + 1 | {z } =0 E−1 (T1 ) = E−1 (T0 ) + E0 (T1 ) | {z } | {z } =x = 2x =x Hieraus folgt x = 21 (2x) + 1 = x + 1. Das ist für x ∈ R unmöglich. Es bleibt nur E0 (T1 ) = x = ∞. Also erst recht E0 (Tb ) = ∞ für alle b 6= 0. Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir jeden Punkt mit Wkt 1, aber die erwartete Weglänge ist unendlich! Die Rechnung ist einfach, dank unserer geschickten Formalisierung. Die Interpretation hingegen muss man erst einmal verarbeiten. Die naive Anschauung kann einen hier leicht narren. Anwendung des ZGS auf den fairen Würfel V433 α = (390 − µ)/σ = (390 − 350)/17 ≈ 2.34. Chebychev gilt allgemein und liefert eine erste grobe Abschätzung: Lösung: Für die Augenzahl X bei einem fairen Würfel gilt: 1 6 E(X 2 ) = 12 · +2· 2 1 6 +2 2 1 6 · +3· 1 6 1 6 2 +4· +3 · 1 6 2 1 6 +5· + 42 · 1 6 1 6 +6· + 52 · 1 6 1 6 1 / 0.16 1 + α2 Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist! Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung: ˆ ∞ −ξ2 /2 e √ P(S ≥ 390) ≈ dξ ≈ 0.01 2π α P(S ≥ 390) ≤ = 21/6 = 3.5 + 62 · 1 6 = 91/6 V(X) = E(X ) − E(X) = 91/6 − 49/4 = 35/12 ≈ 2.9167 µ(X) = 3.5, σ 2 (X) ≈ 2.9167, σ(X) ≈ 1.7078 σ 2 (S) = 291.67, σ(S) ≈ 17.078 Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach: µ(S) = 350, Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.49036 = 0.00964. Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (X) = 6.375. Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert. In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen: Man bewundere die Magie der großen Zahlen! Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit √ n = 10. Im Verhältnis zum Erwartungswert 350 wird die Streuung 17 deutlich geringer! Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe! Anwendung des ZGS auf gezinkten Würfel V435 Aufgabe: Sie würfeln 100 mal mit unserem gezinkten Würfel. Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? V(Y ) = E(Y 2 ) − E(Y )2 = 16.35 − 13.3225 = 3.0275 σ(Y ) ≈ 1.74 Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach: σ 2 (S) = 302.75, Man bewundere die Magie der großen Zahlen! Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit √ n = 10. Im Verhältnis zum Erwartungswert 365 wird die Streuung 17.4 deutlich geringer! Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe! V437 Aufgabe: Sie haben drei Würfel, zwei faire und unseren gezinkten (alle äußerlich gleich). Sie wählen einen zufällig und würfeln damit 100 mal. (1) Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? (2) Angenommen S ≥ 390: Mit welcher Wkt ist der Würfel gezinkt? Lösung: (1) Die totale Wahrscheinlichkeit ist: P(S ≥ 390) = P(S ≥ 390|fair) P(fair) + P(S ≥ 390|gezinkt) P(gezinkt) ≈ 0.01 · 2/3 + 0.08 · 1/3 = 1/30 ≈ 3.33% P(S ≥ 390|gezinkt) P(gezinkt) P(S ≥ 390) 0.08 · 1/3 ≈ = 80% 1/30 P(gezinkt|S ≥ 390) = V439 Aufgabe: In einer Geburtsklinik beträgt die Wahrscheinlichkeit für eine Jungengeburt t = 0.514. Wie groß ist die Wahrscheinlichkeit, dass von den nächsten n = 1000 Neugeborenen genau k = 514 Jungen sind? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? Lösung: Wir haben S ∼ B(n, t). Wir suchen P(S = k). Es gilt: µ = E(S) = nt = 514, 2 σ = V(S) = nt(1 − t) ≈ 249.8, σ ≈ 15.8 Chebychev nützt für Intervalle um µ, aber nicht für einzelne Punkte! Das gilt auch für den ZGS. Mangels Stetigkeitskorrektur liefert er nur ˆ (k−µ)/σ −ξ2 /2 e √ P k≤S≤k = dξ + δ 2π (k−µ)/σ Pech: Das Integral verschwindet! Die Fehlerschranke liefert immerhin 1 0≤P k≤S≤k =δ≤ p / 0.032. 2 nt(1 − t) Die Ungleichung stimmt, aber damit sind wir noch nicht zufrieden! 1 / 0.33 1 + α2 Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist! Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung: ˆ ∞ −ξ2 /2 e √ P(S ≥ 390) ≈ dξ ≈ 0.075 2π α P(S ≥ 390) ≤ Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir: P(S ≥ 390) = 0.0794448 . . . ≈ 8% Anwendung: fair oder gezinkt? V438 Erläuterung Wir frischen hier nochmals die Grundlagen aus Kapitel S auf. Dank der Formel von Bayes sind solche Rechnungen meist leicht – und doch oft überraschend. Üben Sie sich mit diesem Werkzeug! Ohne weitere Information ist der von Ihnen gewählte Würfel mit Wkt 1/3 gezinkt und mit Wkt 2/3 fair. Nach Durchführung des Tests mit dem Ergebnis S ≥ 390 ist er mit deutlich höherer Wkt von 80% gezinkt. Wir können nicht 100% sicher sein, aber der Test spricht dafür, dass der Würfel nicht fair ist. Ist eine höhere Sicherheit nötig, dann sollten Sie weitere Tests durchführen. Eine größere Datenreihe liefert größere Genauigkeit bzw. größere Sicherheit (wenn auch nie 100%). (2) Nach der Formel von Bayes gilt: Anwendung: ZGS oder LGS? V436 Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.42507 = 0.07493 ≈ 7.5% Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (Y ) = 6.745. Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert. In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen: σ ≈ 17.4 Anwendung: fair oder gezinkt? Anwendung des ZGS auf gezinkten Würfel α = (390 − µ)/σ = (390 − 365)/17.4 ≈ 1.44. E(Y 2 ) = 12 · 0.15 + 22 · 0.16 + 32 · 0.16 + 42 · 0.16 + 52 · 0.16 + 62 · 0.21 µ(S) = 365, P(S ≥ 390) = 0.0102875 . . . ≈ 1% Chebychev gilt allgemein und liefert eine erste grobe Abschätzung: E(Y ) = 1 · 0.15 + 2 · 0.16 + 3 · 0.16 + 4 · 0.16 + 5 · 0.16 + 6 · 0.21 = 3.65 σ 2 (Y ) ≈ 3.0275, Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir: Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt Lösung: Für die Augenzahl Y bei unserem gezinkten Würfel gilt: µ(Y ) = 3.65, V434 Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt Aufgabe: Sie würfeln 100 mal mit einem fairen Würfel. Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? E(X) = 1 · Anwendung des ZGS auf den fairen Würfel Anwendung: ZGS oder LGS? V440 Der LGS ist besser: Dank seiner Stetigkeitskorrektur liefert er ˆ (k+1/2−µ)/σ −ξ2 /2 n k e √ P k≤S≤k = t (1 − t)n−k ≈ dξ k 2π (k−1/2−µ)/σ 2 ≈ e−(k−µ) /2σ √ σ 2π 2 1 = √ σ 2π (k=µ) ≈ 0.0252412 . . . Die Fehlerschranke ist wegen κ ≈ 0 hier |ε| < 1/(3σ 2 ) < 0.0014. Noch besser: Die exakte Rechnung ist hier direkt und mühelos! 1000 P S=k = (0.514)514 (0.486)486 = 0.0252349 . . . 514 Was lernen wir daraus? Augen auf bei der Methodenwahl! Diese bemerkenswerten Grenzwertsätze bilden einen umfangreichen Werkzeugkasten: Sie liefern mächtige Werkzeuge und ganz praktische Rechenregeln. Um sie zu nutzen, muss man die Voraussetzungen kennen und die Schlussfolgerungen verstehen. Es lohnt sich! Anwendung: Fehlerwahrscheinlichkeiten V441 Aufgabe: Ein Elektroniksystem habe n = 106 unabhängige Bauteile mit verschiedenen Fehlerwkten pk . Wir wissen nur 10−4 ≤ pk ≤ 10−2 . Wir denken an eine mehrjährige Marsmission, Störungen durch Sonnenwind, oder ähnliches. Fehler sind zahlreich, daher wollen wir ausreichend Redundanz für ein solches System. Ein explizites Beispiel für n = 3 haben wir auf Seite S317 ausführlich diskutiert. Anwendung: Fehlerwahrscheinlichkeiten (1) Wir berechnen zunächst Erwartung und Varianz (wie immer). Der Fehler des k-ten Bauteils ist eine ZVariable P Xk : Ω → {0, 1} mit P(Xk =1) = pk . Für die Gesamtsumme S = nk=1 Xk erhalten wir: µ = E(S) = Sie interessieren sich für die Gesamtzahl S der auftretenden Fehler. (1) Berechnen Sie Erwartung µ = E(S) und Varianz Ist hier die Verteilung durch (µ, σ) bereits festgelegt? σ2 n X E(Xk ) = k=1 = V(S). V442 n X ∈ pk k=1 [100, 10 000] Da die X1 , . . . , Xn unabhängig sind, addieren sich auch die Varianzen: (2) Welche Modelle beschreiben die Verteilung von S exakt / approx.? Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken? σ 2 = V(S) = n X V(Xk ) = k=1 (3) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern? Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern? n X k=1 pk (1 − pk ) ∈ [99, 9999]. Wegen (1 − pk ) ∈ [0.99, 1] gilt σ 2 ≈ µ bis auf 1% genau. Die exakte Verteilung ist allein durch (µ, σ) noch nicht festgelegt. Die Summe S ist nicht binomialverteilt, sobald die pk verschieden sind. (4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600. Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit? (5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10? Anwendung: Fehlerwahrscheinlichkeiten V443 (2) Welche Modelle beschreiben die Verteilung von S exakt / approx.? Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken? Anwendung: Fehlerwahrscheinlichkeiten (3a) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern? Im Extremfall µ = 10 000 und σ = 100 liefert Chebychev ganz grob Die Summe ist nicht binomialverteilt, da die pk verschieden sind. Poissons Gesetz der kleinen Zahlen liefert PS ≈ P (µ) mit Fehler kPS − P (µ)k ≤ p21 + · · · + p2n ∈ P(S ≥ 11 000) ≤ Der ZGS ist anwendbar und liefert PS ≈ N (µ, σ 2 ) mit Fehler µ 1 ρ31 + · · · + ρ3n ≈ 3/2 = √ µ (σ12 + · · · + σn2 )3/2 µ ∈ 1 < 0.01 mit k = 10. 1 + k2 Für die Normalverteilung sind 10σ–Abweichungen unwahrscheinlich: ˆ ∞ −ξ2 /2 e √ √ dξ < 10−23 , aber leider nur |δ| ≤ 1/ µ ∈ [0.01, 0.1]. 2π 10 [0.01, 100]. Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist. |δ| ≤ V444 Wenn wir der Normalverteilung glauben, dann ist eine 10σ–Abweichung praktisch unmöglich: Sie ist unwahrscheinlicher als dreimal nacheinander sechs Richtige im Lotto zu tippen! [0.01, 0.1]. Exakt liegt hier allerdings nicht die Normalverteilung N (µ, σ 2 ) vor, daher müssen wir zusätzlich den Approximationsfehler berücksichtigen: Unsere Schranke aus (2) ist hier leider recht grob. Daher nutzen wir den ZGS für große pk und Poisson für kleine pk . Die einzelnen Summanden von S = X1 + · · · + Xn sind leicht zu verstehen: Xk ∼ B(1, pk ) hat Erwartung µk = E(Xk ) = pk , Varianz σk2 = V(Xk ) = pk (1 − pk ) ≈ pk , drittes Moment ρ3k = E(|Xk − µk |3 ) = pk (1 − pk )(p2k + (1 − pk )2 ) ≈ pk . Trotz der großen Zahl n = 106 ist die Fehlerschranke nicht besonders gut. Für Poisson sieht’s allerdings auch nicht besser aus. Anwendung: Fehlerwahrscheinlichkeiten V445 Für µ < 10 000 wird alles nur noch schlimmer. Nach Beobachtung von 11 000 Fehlern scheint das Modell jedenfalls nicht mehr glaubwürdig! Dann ist die Annahme pk ≤ 10−2 nicht haltbar, oder die angenommene Unabhängigkeit ist nicht gegeben. Wie selten sind seltene Ereignisse? V446 Erläuterung „We were seeing things that were 25-standard deviation moves, several days in a row.“, sagte der Finanzvorstand von Goldman-Sachs, David Viniar, der Financial Times im August des Krisenjahres 2007. Aufgabe: Ist das plausibel? Meint er ernsthaft die Normalverteilung? Lösung: Für die Normalverteilung ist das sicher nicht plausibel! Die Wkt für kσ–Abweichungen nach Normalverteilung und Chebychev: ˆ ∞ −x2 /2 e 1 √ pk = dx ≤ 1 + k2 2π k Die Werte von pk entnimmt man der (erweiterten) Tabelle: (3b) Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern? Das ist etwa mit µ = 10 000 und σ = 100 durchaus vereinbar. (4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600. Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit? √ √ Wir haben σ ≈ 60 und N = 5, also 2σ/ N = 24. Als Intervall finden wir [3576, 3624]. (Das ist bereits recht genau.) (5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10? √ Wir verlangen 2σ/ N ≤ 10, im oben Beispiel σ ≈ 60 also N ≥ 144. (Das könnte in diesem Fall zu aufwändig, d.h. zu teuer sein.) k= 2 3 6 4 5 10−5 10−7 9.9 · 10−10 pk / 0.02275 0.00135 k= 7 10 15 20 25 pk / 1.3 · 10−12 7.7 · 10−24 3.7 · 10−51 2.8 · 10−87 3.1·10−136 3.2 · 2.9 · Letzteres ist unwahrscheinlicher als 20mal nacheinander im Lotto sechs Richtige zu tippen. Das genannte Modell scheint unplausibel / unseriös. Anwendung: ZGS oder LGS? V447 Ergänzung Wir untersuchen die Summe S = X1 + · · · + Xn von n unabhängigen ZVariablen X1 , . . . , Xn : Ω → R. Als Verteilungen betrachten wir dabei: (1) Xk ∼ N (µk , σk2 ) normalverteilt mit µk , σk ∈ R (2) Xk ∼ B(1, tk ) mit tk ∈ [0.1, 0.9] abhängig von k (3) Xk ∼ B(1, t) mit t ∈ [0.1, 0.9] unabhängig von k (4) Xk ∼ B(Nk , t) mit Nk ∈ N und t ∈ [0.1, 0.9] Aufgabe: Auf welche Summen S lässt sich der ZGS anwenden? Auf welche lässt sich zudem der speziellere LGS anwenden? Was lässt sich jeweils über den Approximationsfehler δ sagen? In welchen Fällen kennen Sie die exakte Verteilung von S? Anwendung: ZGS oder LGS? V448 Ergänzung Lösung: (1) Der ZGS lässt sich anwenden, aber nicht der LGS da die Summe S nicht binomialverteilt ist. Sie ist hier exakt normalverteilt: S ∼ N (µ, σ 2 ) mit µ= n X k=1 µk und σ 2 = n X σk2 k=1 Der Approximationsfehler ist demnach δ = 0, siehe folgende Aufgaben. (2) Der ZGS lässt sich anwenden, der LGS nicht da die Summe S nicht binomialverteilt ist. Den Approximationsfehler δ entnimmt man Satz V3A. Ein solches Beispiel diskutiert die obige Aufgabe V441 . (3) Die exakte Verteilung ist hier die Binomialverteilung S ∼ B(n, t). Der ZGS lässt sich anwenden, der LGS auch und liefert eine bessere Näherung. Den Fehler δ bzw. korrigiert ε entnimmt man Satz U3A. (4) Die exakte Verteilung ist hier S ∼ B(N, t) mit N = N1 + · · · + Nn . Der ZGS lässt sich anwenden, der LGS auch, wenn man es richtig anstellt. Zur Summe von binomialverteilten ZVariablen siehe unten. Summe normalverteilter Zufallsvariablen V449 Ergänzung Aufgabe: Die Zufallsvariablen X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) seien unabhängig und normalverteilt mit den angegebenen Parametern. Bestimmen Sie für die Summe S = X + Y den Erwartungswert E(S) und die Varianz V(S) sowie die Verteilung auf R. Ist S normalverteilt? Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X + Y ) = V(X) + V(Y ) = σ12 + σ22 Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit: ∗ = N (µ1 + + Bestimmen Sie für die Summe S = X1 + · · · + Xn die Erwartung E(S) und die Varianz V(S) sowie die Verteilung auf R. Gilt hier der ZGS? E(S) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = µ1 + · · · + µn =: µ Dank Unabhängigkeit addieren sich auch die Varianzen: µ2 , σ12 Aufgabe: Seien X1 , X2 , X3 , . . . unabhängige Zufallsvariablen, und jede sei normalverteilt gemäß Xk ∼ N (µk , σk2 ) mit µk , σk ∈ R. Lösung: Dank Linearität addieren sich die Erwartungswerte: E(S) = E(X + Y ) = E(X) + E(Y ) = µ1 + µ2 N (µ2 , σ22 ) V450 Ergänzung Es darf gelacht werden: Wie groß ist der Approximationsfehler δ? Lösung: Dank Linearität addieren sich die Erwartungswerte: N (µ1 , σ12 ) Summe normalverteilte Zufallsvariablen σ22 ) Das ist keineswegs offensichtlich! Man kann es geduldig direkt ausrechnen oder geschickt mit Fourier–Transformation K417 . Summe binomialverteiler Zufallsvariablen V(S) = V(X1 + · · · + Xn ) = V(X1 ) + · · · + V(Xn ) = σ12 + · · · + σn2 =: σ 2 Aus der vorigen Aufgabe erhalten wir die Verteilung S ∼ N (µ, σ 2 ). (Wir haben dies für zwei Summanden explizit nachgerechnet. Für n Summanden folgt es dann offensichtlich durch Induktion.) Hier gilt der ZGS exakt, d.h. mit Approximationsfehler δ = 0. V451 Ergänzung Summe binomialverteiler Zufallsvariablen V452 Ergänzung Aufgabe: Seien X ∼ B(1, p) und Y ∼ B(1, q) unabhängig mit p, q > 0. Bestimmen Sie für die Summe S = X + Y die Erwartung E(S) und die Varianz V(S) sowie die Verteilung auf {0, 1, 2}. Ist S binomialverteilt? Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N. Bestimmen Sie für S = X + Y die Erwartung E(S) und Varianz V(S) Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern? Lösung: Dank Linearität addieren sich die Erwartungswerte: Lösung: Wir wissen E(X) = mt und V(X) = mt(1 − t). Entsprechend gilt E(Y ) = nt und V(Y ) = nt(1 − t). Dank Linearität folgt E(S) = E(X + Y ) = E(X) + E(Y ) = (m + n)t. Dank Unabhängigkeit addieren sich auch die Varianzen: E(S) = E(X + Y ) = E(X) + E(Y ) = p + q Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X + Y ) = V(X) + V(Y ) = p(1 − p) + q(1 − q). Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit: P(S=0) = (1 − p)(1 − q), P(S=1) = p(1 − q) + (1 − p)q, P(S=2) = pq Wäre dies binomialverteilt, so hätten wir S ∼ B(2, t) für ein t ∈ [0, 1]. Wegen E(S) = 2t = p + q müsste dann t = (p + q)/2 gelten. Vergleich: t2 = pq bedeutet p2 + 2pq + q 2 = 4pq, also (p − q)2 = 0. Eine Binomialverteilung erhalten wir demnach nur für den Fall p = q! Zusatz: Im Sonderfall p = 0 gilt S ∼ B(1, q); für q = 0 gilt S ∼ B(1, p). Rechenmethode: erzeugende Funktion V501 Ergänzung Aufgabe: (1) Berechnen Sie G(z) := E z X für X ∼ B(n, t) und z ∈ C. (2) Berechnen Sie hieraus umgekehrt G(k) (0)/k! für k = 0, 1, 2, . . . (2) Es gilt = n(n − 1) · · · (n − k + (tz + 1 − 1 (k) n k G (0) = t (1 − t)n−k . k! k t)n−k , g(k)z k = g(0)z 0 + g(1)z 1 + g(2)z 2 + . . . . Ist X : Ω → N verteilt gemäß P(X=k) = g(k), so gilt demnach ∞ X G(z) := E z X = P(X=k) · z k k=0 für z ∈ C. Die Elementarwahrscheinlichkeiten können wir rekonstruieren durch V503 Ergänzung Erzeugende Funktionen bieten nützliche Rechentricks, zum Beispiel: Für die Summe X + Y unabhängiger Zufallsvariablen X, Y gilt GX+Y (z) = E z X+Y = E zX · zY X Y = E z ·E z = GX (z) · GY (z). Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N. Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern? Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: und GY (z) = (tz + 1 − t)n Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen GS (z) = GX (z) · GY (z) = (tz + 1 − t)m+n . ∞ X k=0 Das geht ganz leicht und das Ergebnis ist noch dazu sehr einfach! Diesen Trick wollen wir daher zu einer Rechenmethode ausbauen. . . GX (z) = (tz + 1 − t)m V502 Ergänzung Das vorige schöne Beispiel motiviert folgende Definition. G(z) := also Rechenmethode: erzeugende Funktion Rechenmethode: erzeugende Funktion Zur diskreten WVerteilung g : N → [0, 1] ist die erzeugende Funktion k=0 1) tk Wie findet man am geschicktesten die Verteilung von S? Rechnung? Wir nutzen die Darstellung X = X1 + · · · + Xm und Y = Y1 + · · · + Yn als Summe unabhängiger Zufallsvariablen Xi , Yj ∼ B(1, t). Hieraus folgt S ∼ B(m + n, t) ohne weitere Rechnung. Dieser Rechentrick vereinfacht die Aufgabe ungemein! Die explizite Rechnung führt auch zum Ziel ist aber länglich. . . Hier nützt die folgende Rechenmethode der erzeugenden Funktionen. Definition V5A (erzeugende Funktion einer WVerteilung auf N) Lösung: (1) Wir kennen die Binomialverteilung B(n, t): n k P(X=k) = t (1 − t)n−k . k Als Funktion G(z) = E z X erhalten wir ein hübsches Polynom: ∞ X n k G(z) = t (1 − t)n−k · z k = (tz + 1 − t)n k G(k) (z) V(S) = V(X + Y ) = V(X) + V(Y ) = (m + n)t(1 − t). Somit ist S ∼ B(m + n, t) tatsächlich binomialverteilt. Hier stellt sich die Frage: Lässt sich die Verteilung von S aus GS rekonstruieren? Wenn ja, wie? Das ist Inhalt der nächsten Aufgabe. P(X=k) = g(k) = 1 (k) G (0). k! Rechenmethode: erzeugende Funktion V504 Ergänzung Sei X : Ω → N eine Zufallsvariable mit = g(k) Verteilung P P(X=k) k und erzeugender Funktion G(z) = E z X = ∞ k=0 g(k)z für z ∈ C. Aufgabe: Berechnen Sie G(1). Ist somit der Konvergenzradius ≥ 1? Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)? Lösung: Da g eine WVerteilung ist, erhalten wir definitionsgemäß ∞ X g(k) ≥ 0 und G(1) = g(k) = 1. k=0 Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| ≤ 1. Der Konvergenzradius ρ erfüllt also ρ ≥ 1, und wir erhalten G : { z ∈ C | |z| ≤ 1 } → C. Innerhalb des Konvergenzkreises ist G beliebig oft differenzierbar. Die Potenzreihe können wir wie gewohnt termweise differenzieren: 1 G(k) (z) = k! g(k)z 0 + . . . , also g(k) = G(k) (0). k! Die WVerteilung g und die Funktion G bestimmen sich so gegenseitig. Rechenmethode: erzeugende Funktion V505 Ergänzung Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z X für eine Poisson–verteile Zufallsvariable X ∼ P (λ) mit λ ≥ 0. Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall? Lösung: Wir kennen die Poisson–Verteilung P (λ) mit λ ≥ 0: G(z) = k=0 −λ =e P(X=k) · z = e λk k ·z k! GS (z) = GX (z) · GY (z) = eλ(z−1) · eµ(z−1) = e(λ+µ)(z−1) . = e−λ eλz k! und GY (z) = eµ(z−1) Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen −λ k=0 ∞ X (λz)k k=0 ∞ X Aufgabe: Seien X ∼ P (λ) und Y ∼ P (µ) unabhängig, λ, µ ≥ 0. Ist die Summe S = X + Y Poisson–verteilt? Mit welchem Parameter? GX (z) = eλ(z−1) Die erzeugende Funktion ist demnach k V506 Ergänzung Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: P(X=k) = e−λ λk /k!. ∞ X Rechenmethode: erzeugende Funktion Somit ist S ∼ P (λ + µ) tatsächlich Poisson–verteilt. = eλ(z−1) . Auch hier stellt sich die Frage: Lässt sich die Verteilung von S aus GS rekonstruieren? Ja! Zum Glück wissen wir g(k) = G(k) (0)/k!. Der Konvergenzradius ist hier ∞. Der Exponentialreihe sei Dank! Zudem ist das Ergebnis eλ(z−1) denkbar einfach. Alles wird gut. . . Rechenmethode: erzeugende Funktion V507 Ergänzung Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z X für eine geometrisch verteilte Zufallsvariable X ∼ Geom(q) mit 0 ≤ q < 1. Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall? Lösung: Wir kennen die geometrische Verteilung: k=1 P(X=k) · z k = ∞ X (1 − q)z (1 − q)q k−1 z k = . (1 − qz) Rechenmethode: erzeugende Funktion V509 Ergänzung Aufgabe: (1) Für die erzeugende Funktion G(z) = E z X gilt Berechnen Sie auf diese Weise erneut die Erwartung und die Varianz (2) der Binomialverteilung B(n, t) und (3) der Poisson–Verteilung P (λ). G(z) = ∞ X k=0 folgt G0 (z) = ∞ X k=0 und G00 (z) = ∞ X k=0 g(k) · z P(X=k) · z G0 (z) = n t (tz + 1 − t)n−1 =⇒ E(X) = G0 (1) = nt Auch die Varianz erhalten wir leicht durch Ableiten nach z: G00 (z) = n(n − 1) t2 (tz + 1 − t)n−1 k =⇒ E(X) = G0 (1) = λ Das entspricht den zuvor berechneten Werten. Die explizite Berechnung führt natürlich auch zum Ziel. Erzeugende Funktionen organisieren die Rechnung jedoch besonders geschickt und effizient. V511 Ergänzung Die erzeugende Funktion G(z) hat nun auch negative Exponenten, ist also eine Laurent–Reihe und im Allgemeinen keine Potenzreihe mehr: k=−∞ V510 Ergänzung V(X) = G00 (1) + G0 (1) − G0 (1)2 = λ2 + λ − λ2 = λ Dies definiert die diskrete WVerteilung g : Z → [0, 1], Pg(k) = P(X=k). Wie immer ist die Gesamtmasse gleich Eins, also ∞ k=−∞ g(k) = 1. = Rechenmethode: erzeugende Funktion Auch die Varianz erhalten wir leicht durch Ableiten nach z: G00 (z) = λ2 eλ(z−1) Allgemeiner als zuvor X : Ω → N sei X : Ω → Z eine ganzzahlige Zufallsvariable, die nun auch negative Werte annehmen darf. G(z) := E z (1 − r)z . (1 − rz) Der Vergleich zeigt: S ist nicht geometrisch verteilt. (Warum?) Die Familie der geometrisch verteilten Zufallsvariablen ist also nicht stabil unter Faltung (unabhängigen Summen). Auch das ist also möglich und mit erzeugenden Funktionen besonders leicht zu erkennen. G0 (z) = λ eλ(z−1) k g(k) · z k−1 k(k − 1) g(k) · z k−2 . ∞ X GS (z) = (3) Für X ∼ P (λ) kennen wir die erz. Funktion G(z) = eλ(z−1) . Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos: Rechenmethode: erzeugende Funktion (1 − q)(1 − p)z 2 . (1 − qz)(1 − pz) V(X) = G00 (1) + G0 (1) − G0 (1)2 = nt(1 − t) k Einsetzen von z = 1 liefert die angegebenen Formeln. Dieser Trick beschert uns die beiden wichtigsten Kenngrößen. X (1 − p)z (1 − pz) (2) Für X ∼ B(n, t) kennen wir die erz. Funktion G(z) = (tz + 1 − t)n . Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos: V(X) = G00 (1) + G0 (1) − G0 (1)2 Lösung: (1) Aus und GY (z) = Wäre S geometrisch verteilt, also S ∼ Geom(r) mit 0 ≤ r < 1, so wäre k=1 Es kann also vorkommen, dass die erzeugende Funktion G(z) nicht für alle z ∈ C definiert ist. Wegen G(1) = 1 ist die Reihe aber zumindest für alle |z| ≤ 1 absolut konvergent. Das genügt für Anwendungen. und (1 − q)z (1 − qz) GS (z) = GX (z) · GY (z) = Pol in z = q −1 : Der Konvergenzradius ist q −1 > 1, beliebig dicht an 1! E(X) = G0 (1) Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen Die erzeugende Funktion ist hier ∞ X V508 Ergänzung Aufgabe: Seien X ∼ Geom(q) und Y ∼ Geom(p) unabhängig mit 0 ≤ p, q < 1. Ist die Summe S = X + Y ebenfalls geometrisch verteilt? GX (z) = P(X=k) = (1 − q)q k−1 . G(z) = Rechenmethode: erzeugende Funktion für z ∈ C. Aufgabe: Berechnen Sie G(1). Konvergiert G auf der Kreislinie? Rechenmethode: erzeugende Funktion V512 Ergänzung Lösung: Da g eine WVerteilung ist, haben wir definitionsgemäß X g(k) ≥ 0 und G(1) = g(k) = 1. k∈Z Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| = 1. Die übliche Formel g(k) = G(k) (0)/k! versagt bei einem Pol in z = 0. Glücklicherweise können wir alle Koeffizienten eindeutig rekonstruieren indem wir Residuen mittels komplexer Wegintegrale ausrechnen ?? : ˆ G(z) 1 g(k) = dz. 2πi ∂B(0,1) z k+1 Lässt sich die obige Formel g(k) = G(k) (0)/k! weiterhin anwenden? Die Wahrscheinlichkeitsverteilung g : Z → [0, 1] und die erzeugende P Funktion G(z) = k∈Z g(k)z k bestimmen sich so gegenseitig. Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)? Die Integralsätze und Cauchys Residuenkalkül leben hoch! Welche der obigen Rechentricks bleiben uns noch erhalten? Alle unsere Rechentricks für erzeugende Funktionen bleiben gültig, selbst wenn X nicht nur Werte in N, sondern nun auch in Z annimmt. Rechenmethode: Laplace–Transformation V513 Ergänzung Die Laplace–Transformation ist in vielen Bereichen ein nützliches Werkzeug, insbesondere bei Differentialgleichungen (Kapitel L). Ihre Anwendung in der WTheorie will ich hier kurz skizzieren. Motivation: Zu X : Ω → N haben wir die erzeugende Funktion G(z) = E z X zumindest für |z| ≤ 1. Entsprechendes wollen wir auch für Zufallsvariablen X : Ω → R≥0 . Der Erwartungswert existiert für z = 1, denn E(1X ) = E(1) = 1. Für 0 < z ≤ 1 gilt 0 < z X ≤ 1, also existiert auch E z X . Wir setzen daher z = e−s für s ∈ R≥0 und vereinbaren: Definition V5B (Laplace–Transformierte eines WMaßes auf R≥0 ) Für jedes WMaß PX auf R≥0 ist seine Laplace–Transformierte: ˆ ∞ F : R≥0 → R, F (s) := E e−sX = e−sx dPX Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also ˆ ∞ F (s) = e−sx f (x) dx. x=0 Allgemeiner erhalten wir so F : CRe≥0 → C holomorph auf CRe>0 . ´ Dank f (x) dx = 1 gilt absolute Integrierbarkeit und |F (s)| ≤ F (0) = 1. Hier treten Laplace–Transformationen F (s) = E e−sX natürlich auf, um kontinuierliche Zufallsvariablen X : Ω → R≥0 effizient zu behandeln. Dies möchte ich mit einem kurzen Beispiel illustrieren. V515 Ergänzung Rechenmethode: Laplace–Transformation f : R≥0 → R≥0 , F (0) = E(1) = 1, F 0 (0) = −E(X), F 00 (0) = E(X 2 ). (2) Berechnen Sie F (s) sowie E(X) und V(X) für X ∼ E(λ), also die Exponentialverteilung mit Dichte f (x) = λ e−λx für x ≥ 0. Lösung: (1) Wir nehmen an, dass diese Erwartungswerte existieren: ˆ ∞ ˆ ∞ E(X) = xf (x) dx, E(X 2 ) = x2 f (x) dx. x=0 Hieraus ergeben sich nun leicht Erwartungswert und Varianz: −λ , (s + λ)2 2λ F 00 (s) = , (s + λ)2 x=0 V517 Ergänzung Zur Zufallsvariablen X : Ω → N nutzen wir die erzeugende Funktion zumindest für |z| ≤ 1. k=−∞ zumindest für |z| = 1. Fourier–Transformation von WVerteilungen V518 Ergänzung Für jedes WMaß PX auf R≥0 ist seine Fourier–Transformierte ˆ F : R → C, F (ξ) := E e−iξX = e−iξx dPX Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also ˆ ∞ F (ξ) = e−iξx f (x) dx. Dank Mit diesen Potenzreihen können wir gut arbeiten, wie oben gesehen! Entsprechendes wünschen wir auch für Zufallsvariablen X : Ω → R. Der Erwartungswert E z X wird zumindest für |z| = 1 existieren. Wir setzen daher z = e−iξ für ξ ∈ R und vereinbaren: Fourier–Transformation von WVerteilungen wie zuvor berechnet. x∈R Allgemeiner, zu X : Ω → Z eventuell mit negativen Werten haben wir ∞ X G(z) = E z X = P(X=k) · z k 1 , λ2 Definition V5C (Fourier–Transformierte eines WMaßes auf R) Motivation: Die vorigen Rechnungen sind effizient und elegant. k=0 E(X) = −F 0 (0) = Wir erhalten V(X) = E(X 2 ) − E(X)2 = Fourier–Transformation von WVerteilungen ∞ X G(z) = E z X = P(X=k) · z k 1 , λ 2 E(X 2 ) = F 00 (0) = 2 . λ F 0 (s) = Für s = 0 ergeben sich hieraus obige Formeln. f (x) = λ e−λx . Ihre Laplace–Transformierte rechnen wir direkt aus: ˆ ∞ ˆ ∞ e−sx · λ e−λx dx F (s) = e−sx f (x) dx = x=0 x=0 ˆ ∞ λ h −(s+λ)x i∞ λ =λ e−(s+λ)x dx = −e = s+λ s+λ x=0 x=0 Wir können dann F unter dem Integral ableiten und erhalten ˆ ∞ ˆ ∞ F 0 (s) = −x e−sx f (x) dx, F 00 (s) = x2 e−sx f (x) dx. x=0 V516 Ergänzung (2) Sei X exponentialverteilt gemäß E(λ) mit λ > 0, mit Dichte Aufgabe: (1) Für die Laplace–Transformation F (s) = E e−sX gilt x=0 V514 Ergänzung x=0 In der Wahrscheinlichkeitsrechnung treten erzeugende Funktionen G(z) = E z X natürlich auf, wenn man Zufallsvariablen X : Ω → N effizient behandeln will. Wir haben dies oben in Beispielen ausgeführt. Rechenmethode: Laplace–Transformation Rechenmethode: Laplace–Transformation V519 Ergänzung ´ R f (x) dx −∞ = 1 gilt absolute Integrierbarkeit und |F (ξ)| ≤ F (0) = 1. Man beachte die hier gewählte Konvention der Normierung: √ Zur Bequemlichkeit lasse ich den Normierungsfaktor 1/ 2π weg. In der Rücktransformation benötigen wir dann den Faktor 1/2π. Fourier E e−iξX ist ein Spezialfall von Laplace E e−sX eingeschränkt auf die imaginäre Achse s = iξ mit ξ ∈ R. Fourier–Transformation von WVerteilungen V520 Ergänzung Wiederholung: Nennen Sie die Wahrscheinlichkeitsdichte f (x) 2 einer normalverteilten Zufallsvariablen X ∼ N (µ, σ ) sowie die Fourier–Transformierte F (ξ) = E e−iξX und ihre Rücktransformation. Die Fourier–Transformation ist ein mächtiges Universalwerkzeug. Wir haben dieser Technik daher ein eigenes Kapitel gewidmet. Lösung: Für die Normalverteilung N (µ, σ 2 ) wissen wir Zudem haben wir wichtige Beispiele und Erfahrungen gesammelt, die in vielen Problemstellungen erneut auftreten. (x−µ)2 1 f (x) = √ e− 2σ2 σ 2π =⇒ F (ξ) = e K128 −iµξ−σ 2 ξ 2 /2 . Durch Rücktransformation von F lässt sich f rekonstruieren: ˆ ∞ 1 f (x) = F (ξ) eiξx dξ 2π −∞ Man beachte die hier gewählte Konvention der Normierung. Bei der Fourier–Transformation geht keine Information verloren: Die Rücktransformation rekonstruiert die ursprüngliche Verteilung. Die dort erlernten Rechenmethoden zahlen sich bei der Behandlung vieler Probleme aus, so auch hier für die Wahrscheinlichkeitsrechnung. Erzeugende Funktionen E z X , Laplace–Transformierte E e−sX und Fourier–Transformierte E e−iξX sind nützliche Rechenmethoden. Sie entspringen alle derselben natürlichen Idee, wie hier skizziert: Transformation reorganisiert alle Informationen auf praktische Weise. Durch Rücktransformation lässt sich jeweils die ursprüngliche Verteilung rekonstruieren, es geht also tatsächlich keinerlei Information verloren. Zur Illustration will ich als Hauptergebnis den zentralen Grenzwertsatz mit der Fourier–Transformation erklären und nachrechnen. Erwartungswert und Varianz V521 Ergänzung Aufgabe: Berechnen Sie F (0), F 0 (0), F 00 (0) und F 000 (0) sowie hiermit die Taylor–Entwicklung zweiter Ordnung von F (ξ) um ξ = 0. ´ Lösung: Existieren die Momente R |x|k f (x) dx < ∞ für k = 1, 2, 3, . . . , so dürfen wir für F (k) die Ableitung unters Integral ziehen ?? : ˆ ˆ d ∂ −iξx e f (x) dx F 0 (ξ) = e−iξx f (x) dx = dξ R ∂ξ R ˆ = (−ix) e−iξx f (x) dx =⇒ F 0 (0) = −iE(X) ˆR F 00 (ξ) = (−x2 ) e−iξx f (x) dx =⇒ F 00 (0) = −E(X 2 ) ˆR 000 F (ξ) = (ix3 ) e−iξx f (x) dx =⇒ F 000 (0) = iE(X 3 ) R Für µ = 0 und σ 2 > 0 hat F demnach die Taylor–Entwicklung F (ξ) = 1 − σ 2 ξ 2 /2 + . . . Das dritte Moment liefert eine Fehlerschranke O(ξ 3 ) für das Restglied. Ausführung bei Feller, Introduction to Probability, vol. 2 (1971), §XVI Beweis des zentralen Grenzwertsatzes V523 Ergänzung Summe unabhängiger Zufallsvariablen V522 Ergänzung Lemma V5D (Summe unabhängiger Zufallsvariablen) Seien X, Y : Ω → R unabhängige ZV mit Transformierten FX , FY . Die Summe X + Y hat dann die Transformierte FX+Y = FX · FY . Nachrechnen: Auch e−iξX und e−iξY sind unabhängig, also gilt FX+Y (ξ) = E e−iξ(X+Y ) −iξX −iξY =E e ·e = E e−iξX · E e−iξY = FX (ξ) · FY (ξ) Das ist der entscheidende Trick! Er vereinfacht die Rechnung. Damit haben wir alle Werkzeuge, um den zentralen Grenzwertsatz zu beweisen! Ich formuliere ihn in vereinfachter Form für identisch verteilte, unabhängige Zufallsvariablen. Vor allem aber zeige ich die Konvergenz ohne eine explizite Fehlerschranke, um alle Argumente so einfach wie möglich zu halten. Für eine detaillierte Ausarbeitung müsste man die Fehlerterme kontrollieren, die hier nur mit „. . . “ abgekürzt werden. Beweis des zentralen Grenzwertsatzes V524 Ergänzung Aufgabe: (1) Berechnen Sie die Fourier–Transformierte Fn von Sn∗ . Seien X1 , X2 , X3 , . . . : Ω → R unabhängige Zufallsvariablen. Es gelte E(Xk ) = µ und E(Xk2 ) = σ 2 > 0 sowie E(|Xk |3 ) ≤ ρ3 < ∞. (2) Wie folgt hieraus der zentrale Grenzwertsatz für n → ∞? Wir normieren Sn zu Erwartung 0 und Varianz 1 durch die Skalierung Beweis: (1) Die Transformierte von Die Summe Sn = X1 + · · · + Xn hat Erwartung nµ und Varianz (3) Warum geht das plötzlich so leicht? nσ 2 . X1 + · · · + Xn − nµ √ Sn∗ := . σ n Xk√−µ σ n ist Fk (ξ) = 1 − ξ 2 /2n + . . . . Die Transformierte der Summe ist das Produkt der Transformierten: n 2 → exp(−ξ 2 /2) = F (ξ) für n → ∞. Fn (ξ) = 1 − ξ /2n + . . . Sn∗ Wir wollen nun PSn ≈ N (nµ, nσ 2 ) zeigen, normiert also PSn∗ ≈ N (0, 1). Fehlerschranken sind für die Praxis wichtig aber schwer zu beweisen. In dieser Skizze begnügen wir uns mit dem Grenzwert für n → ∞. (2) Der Grenzwert F ist die Transformierte der Normalverteilung N (0, 1)! Satz V5E (zentraler Grenzwertsatz, ohne Fehlerschranken) (3) Das geht leicht dank starker Werkzeuge wie Fourier–Transformation! Die Verteilung von Sn∗ konvergiert gegen die Normalverteilung N (0, 1). Das ist die qualitative Aussage PS ≈ aus Satz V3A. Die quantitative Fehlerabschätzung lassen wir hier außer Acht. N (nµ, nσ 2 ) Fourier–Transformation der Cauchy–Verteilung Damit können wir den ZGS zumindest qualitativ nachrechnen: V525 Ergänzung 1 a f (x) = π a2 + x2 Man bestimme Erwartung und Varianz und die Fourier–Transformierte. f (x) endlastig (fat tail) −3 −2 −1 0 1 2 x 3 √ 2 Der Graph erinnert an die Glockenkurve ϕ(x) = e−x /2 / 2π. Aber die Cauchy–Verteilung hat völlig andere Eigenschaften: Vor allem klingt sie nicht exponentiell ab, sondern nur wie 1/x2 . Das hat dramatische Konsequenzen: Es existiert keine Erwartung! Fourier–Transformation der Cauchy–Verteilung mit V527 Ergänzung 1 a f (x) = . π a2 + x2 Aufgabe: Seien X ∼ C(a) und Y ∼ C(b) unabhängig Cauchy–verteilt. Ist ihre Summe S = X + Y Cauchy–verteilt? Mit welchem Parameter? Lösung: Wir wissen E e−iξX = e−a|ξ| und ebenso E e−iξY = e−b|ξ| . Dank Unabhängigkeit von X und Y gilt für die Summe S = X + Y somit E e−iξS = E e−iξ(X+Y ) = E e−iξX · e−iξY −iξX −iξY =E e ·E e = e−a|ξ| · e−b|ξ| Fourier–Transformation der Cauchy–Verteilung V526 Ergänzung Lösung: Wir haben f ≥ 0 und die Gesamtmasse ist ˆ x ∞ 1 f (x) dx = arctan =1 π a −∞ R Für Erwartung und Varianz benötigen wir folgende Integrale: ˆ ˆ ax 1 ax2 1 dx und dx = ∞. π R a2 + x2 π R a2 + x2 Das erste ist nicht absolut integrierbar, nur als Cauchy–Hauptwert. Der Median ist offensichtlich 0, aber die Erwartung existiert nicht! Hier haben Erwartungswert und Varianz demnach keinen Sinn. Die Fourier–Transformierte haben wir bereits berechnet K113 : ˆ ∞ 1 −iξx a F (ξ) = E e−iξX = e · 2 dx = e−a|ξ| π a + x2 −∞ Die ursprüngliche WDichte f rekonstruiert man hieraus durch Rücktransformation. Man beachte, dass F in 0 nicht differenzierbar ist. Dies entspricht der Tatsache, dass die Erwartung E(f ) nicht existiert. Die Cauchy–Verteilung C(a) mit a > 0 ist gegeben durch die Dichte f :R → R Zwecks Vereinfachung verzichten wir zudem auf Fehlerabschätzungen. Für großes n ist X1 + · · · + Xn annähernd N (nµ, nσ 2 )–verteilt. Aufgabe: Ist für a > 0 die folgende Funktion eine WDichte? f : R → R, Rücktransformation: Die Verteilung von Sn∗ konvergiert gegen N (0, 1). = e−(a+b)|ξ| Durch Rücktransformation gewinnen wir hieraus die Verteilung von S: Demnach ist die Summe ebenfalls Cauchy–verteilt gemäß C(a + b). Die Cauchy–Verteilungen (C(a))a∈R>0 sind stabil unter Faltung! Fourier–Transformation der Cauchy–Verteilung V528 Ergänzung Seien X1 , . . . , Xn ∼ C(a) unabhängig und identisch Cauchy–verteilt. Wie im ZGS betrachten wir die (wie üblich normierte) Summe 1 Sn∗ := √ X1 + · · · + Xn . n Aufgabe: Welche Verteilung PSn∗ hat die Zufallsvariable Sn∗ ? Konvergiert PSn∗ für n → ∞ gegen eine Normalverteilung? Lösung: Die Summe X1 + · · · + Xn ist C(na)–verteilt. √ Durch den Normierungsfaktor 1/ n ist Sn∗ dann C(a)–verteilt. Für n → ∞ ist die Verteilung fix und konvergiert somit gegen C(a). Insbesondere konvergiert sie nicht gegen eine Normalverteilung! Die Cauchy–Verteilungen C(a) erfüllen nicht die Voraussetzungen des ZGS (V3A): Die geforderten Momente µ, σ, ρ existieren nicht! Daher lässt sich der zentrale Grenzwertsatz hier nicht anwenden. Unsere explizite Rechnung zeigt tatsächlich genauer noch mehr: Die Verteilung der Summe konvergiert nicht gegen die Normalverteilung!