Prof. Dr. Michael Eisermann • Höhere Mathematik 3 (vertieft) Kapitel V Der zentrale Grenzwertsatz Zweck des vorliegenden Heftes ist eine axiomatische Begründung der Wahrscheinlichkeitsrechnung. (...) Vor Entstehung der Lebesgueschen Maß- und Integrationstheorie war diese Aufgabe ziemlich hoffnungslos. Nach den Lebesgueschen Untersuchungen lag die Analogie zwischen dem Maße einer Menge und der Wahrscheinlichkeit eines Ereignisses sowie zwischen dem Integral einer Funktion und der mathematischen Erwartung einer zufälligen Größe auf der Hand. Andrei Kolmogorov (1902–1987), Grundbegriffe der Wahrscheinlichkeitstheorie (1933) WiSe 2017/18 • www.igt.uni-stuttgart.de/eiserm/lehre/HM3 • Stand 17.10.2017 Inhalt dieses Kapitels 1 Zufallsvariablen und Chebychev–Ungleichung Zufallsvariablen, Erwartung und Varianz Die Ungleichungen von Chebychev 2 Unabhängigkeit und das Gesetz der großen Zahlen Unabhängige Zufallsvariablen Das Gesetz der großen Zahlen 3 Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz Konfidenzintervalle 4 Fazit: der zentrale Grenzwertsatz Summen von Zufallsvariablen Anwendungen der Grenzwertsätze 5 Analytische Methoden der Wahrscheinlichkeitsrechnung Potenzreihen und erzeugende Funktionen Laplace– und Fourier–Transformation V000 Motivation V001 Erläuterung Wir kennen bereits zwei nützliche und wichtige Grenzwertsätze: Bei seltenen Ereignissen können wir die Binomialverteilung B(n, t) durch die Poisson–Verteilung P (nt) nähern mit guter Fehlerschranke. Das Gesetz der kleinen Zahlen besagt B(n, λ/n) → P (λ) für n → ∞. Der lokale Grenzwertsatz hingegen nützt für beliebige 0 < t < 1 und approximiert Binomialverteilungen durch Normalverteilungen: P(a ≤ S ≤ b) exakt = b X n k=a k k n−k t (1 − t) approx ˆ β = α 2 e−ξ /2 √ dξ + δ 2π Die Normalverteilung ist zudem universell: Sie entsteht immer, wenn sich viele unabhängige, ähnlich große Beiträge zu S aufsummieren: ˆ β −ξ2 /2 e √ S = X1 + X2 + · · · + Xn , P(a ≤ S ≤ b) = dξ + δ 2π α Entscheidend ist hier, wie immer, den Fehler δ geeignet zu beschränken. Die genaue Aussage ist Inhalt des zentralen Grenzwertsatzes V3A. Vorgehensweise V002 Erläuterung Unser Ziel sind rationale Entscheidungen unter Unsicherheit. Hierzu wollen wir stochastische Gesetzmäßigkeiten erklären und nutzen. Eine Messung betrachten wir als Zufallsvariable X : Ω → R. Sie definiert eine WVerteilung auf R mit Erwartung und Varianz. Entscheidend ist der Begriff der Unabhängigkeit von Zufallsvariablen. Die intuitive Anschauung präzisieren wir durch Definitionen und Sätze. Wir können damit die Chebychev–Ungleichung formulieren und hieraus das (schwache) Gesetz der großen Zahlen ableiten. Höhepunkt dieses Kapitels ist der zentrale Grenzwertsatz V3A. Diesen formuliere ich mit einer allgemeinen, expliziten Fehlerschranke. Die vom ZGS vorhergesagte Normalverteilung ist ein universelles Werkzeug und bietet für viele Situationen ein brauchbares Modell. Sie dient insbesondere zur Bestimmung von Konfidenzintervallen und wird daher in nahezu allen praktischen Anwendungen benötigt. Hierzu gebe ich abschließend erste einfache Anwendungsbeispiele. Mit diesen Grundlagen gewappnet beginnt die mathematische Statistik. Erinnerung: Augensumme von zwei Würfeln V101 1 Ergebnisse ω ∈ Ω = {1, 2, 3, 4, 5, 6}2 mit Gleichverteilung P({ω}) = 36 . Augenzahlen X1 , X2 : Ω → R mit X1 (ω1 , ω2 ) = ω1 und X2 (ω1 , ω2 ) = ω2 . Augensumme X : Ω → R mit X = X1 + X2 . Die Verteilung von X ist: 6/36 6+1 5/36 5+1 5+2 6+2 4+1 4+2 4+3 5+3 6+3 3+1 3+2 3+3 3+4 4+4 5+4 6+4 2+1 2+2 2+3 2+4 2+5 3+5 4+5 5+5 6+5 1+1 1+2 1+3 1+4 1+5 1+6 2+6 3+6 4+6 5+6 6+6 2 3 4 5 6 7 8 9 10 11 12 4/36 3/36 2/36 1/36 Erinnerung: unabhängig wiederholte Tests V102 Ergebnisse sind n–Tupel ω ∈ Ω = {0, 1}n . Die WVerteilung ist hier P({ω}) = tk (1 − t)n−k bei Trefferzahl k = ω1 + · · · + ωn . Für Xi : Ω → {0, 1} mit Xi (ω1 , ω2 , . . . , ωn ) = ωi gilt Xi ∼ B(1, t). Für X = X1 + · · · + Xn gilt X ∼ B(n, t), d.h. X hat die Verteilung n k P(X=k) = P ω X(ω) = k = t (1 − t)n−k . k n = 100, t = 0.1 n = 100, t = 0.3 n = 100, t = 0.5 0.12 0.10 0.08 0.06 0.04 0.02 0 10 20 30 40 50 60 Zufallsvariablen V103 Oft interessiert bei Experimenten nicht das detaillierte Ergebnis ω ∈ Ω, sondern nur eine reelle Größe X(ω) ∈ R, die vom Ergebnis ω abhängt. Definition V1A (Zufallsvariable) Wir betrachten einen Wahrscheinlichkeitsraum (Ω, A , P). ?? Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R. Diese definiert auf R eine WVerteilung PX : B(R) → [0, 1] durch PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B . Diese nennen wir die Verteilung der Zufallsvariablen X (Bildmaß). Wir sagen hierzu X ist PX –verteilt und schreiben kurz X ∼ PX . Wir stellen uns Ω als Lostopf vor; zu jedem Los ω ∈ Ω ist X(ω) ∈ R der Gewinn. Die Wkt P ist auf die verschiedenen Ergebnisse ω ∈ Ω verteilt, entsprechend PX auf die möglichen Gewinne. Messbarkeit von X ist eine technisch notwendige Sie bedeutet: Voraussetzung. Für jedes Intervall −1 B ⊂ R ist die Urbildmenge A = X (B) = ω ∈ Ω X(ω) ∈ B = „ X ∈ B “ in Ω messbar, das heißt A ∈ A . Diese Vorsichtsmaßnahme ist (wie immer) nur technischer Natur: Sie stellt sicher, dass die Definition von PX und alle weiteren Rechnungen möglich sind. Zufallsvariablen V104 Erläuterung Wir betrachten statt reeller auch vektorwertige Zufallsvariablen X = (X1 , . . . , Xn ) : (Ω, A , P) → (Rn , B, PX ). Allgemeiner: Jede Zufallsvariable ist eine messbare Abbildung X : (Ω, A , P) → (Ω0 , B, PX ) Anschaulich wird die Massenverteilung von P auf PX transportiert. Statt mit einer Zufallsvariable X : Ω → Ω0 auf dem WRaum (Ω, A , P) können wir ebenso auch direkt mit dem Bildraum (Ω0 , B, PX ) arbeiten. Mit der Zufallsvariable X können wir so einen komplizierten durch einen einfachen Wahrscheinlichkeitsraum ersetzen. Die Einführung von Zufallsvariablen ist oft bequem und nützlich: Bequeme Notation und natürliche Sprechweise: ZVariablen sind z.B. Messungen, Stichproben, etc. Das ist für Anwendungen hilfreich. Wir können mehrere Experimente als Zufallsvariablen X1 , X2 , . . . auf dem gemeinsamen WRaum (Ω, A , P) betrachten. Wir können vom zugrundeliegenden WRaum (Ω, A , P) abstrahieren und müssen ihn häufig gar nicht explizit ausführen. Kontinuierliches Beispiel V105 Erläuterung R Ω Aufgabe: (1) Auf Ω = [−1, 1] betrachten wir die Gleichverteilung P. Zeichnen Sie hierzu die WDichte g und die kumul. Verteilung G. (2) Bestimmen Sie für die ZVariable X : Ω → R mit X(t) = t2 die kumulative Verteilungsfunktion F und ihre WDichte f . Lösung: Die Bildmenge ist [0, 1], aber nicht gleichverteilt! Das Bildmaß PX hat für 0 ≤ x ≤ 1 die kumulative Verteilung √ √ F (x) = P(t2 ≤ x) = P(|t| ≤ x) = x. Demnach hat PX die Dichte f (x) = F 0 (x) = 1 √ . 2 x Kontinuierliches Beispiel V106 Erläuterung (1) Gleichverteilung P auf dem Definitionsbereich Ω = [−1, 1]: Kumul G WDichte g x Kontinuierliches Beispiel V107 Erläuterung (2) Verteilung PX der ZVariablen X(t) = t2 im Bildbereich Ω0 = [0, 1]: Kumul F WDichte f x Kontinuierliches Beispiel V108 Erläuterung Anschaulich wird die Massenverteilung von P auf PX transportiert: Die Parameter t ∈ [−1, 1] sind gleichverteilt, nicht jedoch t2 ∈ [0, 1]. Im Bildraum [0, 1] werden die niedrigen Werte um 0 wahrscheinlicher getroffen (hohe Dichte) als die hohen Werte um 1 (geringere Dichte). Konkret kann man dies wie folgt simulieren: Generieren Sie zufällig gleichverteilt Zahlen t ∈ [−1, 1] und tragen Sie die Bildpunkte X(t) = t2 ein. Es ergibt sich eine Punktwolke in [0, 1], deren Dichte von 0 nach 1 monoton abnimmt. Nahe 0 wird diese Wolke extrem dicht. Unser Ergebnis für die Zufallsvariable X(t) = t2 ist daher plausibel. Will man die genaue Verteilung, so muss man rechnen (wie oben). Diese einfache Illustration ist der Sinn dieser Aufgabe. Man sieht insbesondere, dass die Dichte nicht beschränkt sein muss. Hier hat sie eine Polstelle, bei 0 also unendlich große Dichte. Dennoch ist die Gesamtmasse endlich, immer noch gleich 1. Erwartung: diskretes Beispiel V109 Wenn X : Ω → R nur endlich viele Werte a1 < a2 < · · · < an annimmt, dann ist der Erwartungswert E(X) der gewichtete Mittelwert: E(X) := n X k=1 ak · P(X=ak ) Aufgabe: Man berechne E(X) für X ∼ B(n, t) binomialverteilt. Lösung: Die Berechnung des Erwartungswertes kennen wir n n X X n k E(X) = k · P(X=k) = k· t (1 − t)n−k k k=0 U209 : = nt k=0 Konkret betrachten wir wie oben die Trefferzahl X : {0, 1}n → R mit X(ω) = ωP 1 + · · · + ωn . Dies ist eine einfache Funktion, in diesem konkreten Beispiel gilt nämlich X = n k=1 k IAk −1 mit Ak = X ({k}) = { ω ∈ Ω | X(ω) = k }. Dies verallgemeinert Treppenfunktionen A307 , hier nun sind A1 , . . . , An beliebige messbare Mengen (nicht nur Quader im Rn ). Die Menge T (Ω, R) aller P einfachen Funktionen Pnist ein R–Vektorraum. Hierauf ist die Erwartung n E : T (Ω, R) → R mit E k=1 ak IAk = k=1 ak P(Ak ) die einzige normierte, lineare Abbildung. Das entspricht dem Integral! Wir können unser Wissen nutzen. Alles wird gut. Definition der Erwartung V110 Erläuterung Für die Erwartung gehen wir wie beim Integral vor (siehe Kapitel A): Für jede einfache Funktion können wir das Integral durch eine endliche Summe definieren (wie bei Treppenfunktionen). Anschließend gelangen wir per Grenzübergang von einfachen zu messbaren Funktionen: Satz V1B (Ausschöpfung durch einfache Funktionen) Sei (Ω, A , P) ein Wahrscheinlichkeitsraum. Für jede Funktion f : Ω → [0, ∞] sind äquivalent: (1) Für alle a ∈ R ist f −1 ([0, a]) messbar: { ω ∈ Ω | f (ω) ≤ a } ∈ A . (2) Es existiert eine wachsende Folge einfacher Funktionen 0 ≤ f0 ≤ f1 ≤ f2 ≤ . . . : Ω → [0, ∞] mit fk % f. In diesem Fall gilt 0 ≤ E(f0 ) ≤ E(f1 ) ≤ . . . und wir definieren E(f ) := lim E(fk ) ∈ [0, ∞]. Dies ist wohldefiniert, d.h. von der Wahl der Folge (fk )k∈N unabhängig. Definition der Erwartung V111 Erläuterung „(1)⇒(2)“: Wir konstruieren einfache Funktionen fk : Ω → [0, ∞]. Sei k ∈ N. Für j ∈ {0, . . . , N = k2k } setzen wir hj := j/2k und Aj := f −1 ([hj , hj+1 [), wobei AN := f −1 ([hN , ∞]). Wir definieren P fk := N k=0 hj · IAj . Für jeden Punkt x ∈ Ω gilt dann fk (x) % f (x). „(2)⇐(1)“: Seien fk : Ω → [0, ∞] messbar und fk % f . Die Menge Ak = fk−1 ([0, a]) ist messbar, also Ak ∈ A . T Für A = f −1 ([0, a]) gilt dann A = ∞ k=0 Ak , also A ∈ A . Definition der Erwartung V112 Erläuterung Definition V1C (messbare und absolut integrierbare Funktionen) Für jede Funktion f : Ω → R̄ gilt f = f + − f − und |f | = f + + f − . Genau dann ist f : Ω → R̄ messbar, wenn f + und f − messbar sind. In diesem Fall ist auch |f | = f + + f − messbar, und somit gilt E(|f |) = E(f + ) + E(f − ). Ist dieser Wert endlich, so nennen wir f absolut integrierbar. In diesem Fall können wir den Erwartungswert von f definieren durch E(f ) := E(f + ) − E(f − ). Satz V1D (Erwartung als Integral) Der Erwartungswert verhält sich als Integral E(f ) = ´ x∈Ω f (x) dP: Die integrierbaren Funktionen f : Ω → R bilden einen Vektorraum. Hierauf ist f 7→ E(f ) eine normierte, lineare, monotone Abbildung. Erwartung: kontinuierliches Beispiel V113 Für jede Zufallsvariable X : Ω → R ist der Erwartungswert das Integral: ˆ ˆ E(X) := X(ω) dP = x dPX ω∈Ω x∈R Im diskreten Fall ist dies eine Summe, im kontinuierlichen ein Integral. Dies ist nur sinnvoll für E(|X|) < ∞: Wir nennen X integrierbar oder sagen: Der Erwartungswert von X existiert. R Ω Aufgabe: Sei P die kontinuierliche Gleichverteilung auf Ω = [−1, 1]. Berechnen Sie den Erwartungswert von X : Ω → R mit X(t) = t2 . Lösung: Das gelingt durch Integration über (Ω, P): 1 ˆ ˆ 1 ˆ 1 1 1 1 1 E(X) = X(t) dP = X(t) · dt = t2 · dt = t3 = 2 2 6 −1 3 Ω −1 −1 Erwartung: kontinuierliches Beispiel V114 Erläuterung Die Verteilung PX dieser Zufallsvariable haben wir oben diskutiert. Der Erwartungswert ist anschaulich plausibel: Niedrige Werte nahe 0 werden wahrscheinlicher getroffen als hohe Werte nahe 1. Ein Wert unter 1/2 scheint daher plausibel. Den genauen Wert 1/3 hingegen muss man ausrechnen. Dafür haben wir alle Techniken zur Integration! Aufgabe: Berechnen Sie den Erwartungswert alternativ mit dem Bildmaß PX . Stimmen beide Ergebnisse überein? Warum ist das so? √ Lösung: Zu PX auf [0, 1] haben wir oben die Dichte f (x) = 1/(2 x) ausgerechnet. Hieraus erhalten wir den Erwartungswert wie folgt: ˆ 1 ˆ 1 ˆ ˆ 1 h1 i1 1 1 1 1/2 3/2 x √ dx = x dx = x = x dPX = xf (x) dx = 2 3 3 2 x 0 R 0 0 0 Beide Integrale sind gleich dank Transformationssatz / Substitution! Der Erwartungswert lässt sich also auf zwei Weisen betrachten und berechnen: als Integral der messbaren Funktion X : Ω → R bezüglich des Maßes P auf Ω, oder als Schwerpunkt des Bildmaßes PX auf R. Beide ergeben dasselbe Ergebnis, und ein jeder darf sich aussuchen, welcher Rechenweg im konkreten Beispiel bequemer für ihn ist. Ich werde im Folgenden meist Bildmaße auf Rn vorziehen, da uns diese aus der n–dimensionalen Integration vertraut sind. Erwartung von Zufallsvariablen V115 Definition V1E (Erwartungswert von Zufallsvariablen) Sei (Ω, A , P) ein WRaum und X : Ω → R̄ eine Zufallsvariable. Ihr Erwartungswert (oder kurz ihre Erwartung) ist gegeben durch ˆ ˆ µ(X) = E(X) := X(ω) dP = x dPX . ω∈Ω x∈R Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt ˆ E(X) = x f (x) dx. R Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt X E(X) = x p(x). x∈R Dies ist jeweils nur sinnvoll für E(|X|) < ∞. In diesem Fall nennen wir X integrierbar oder sagen: Der Erwartungswert von X existiert. Erwartungswert: warnende Beispiele V116 Erläuterung Bei endlichen WRäumen (Ω, P) ist Summierbarkeit kein Problem. Ebenso besteht für einfache Funktionen X : Ω → R kein Hindernis. Vorsicht ist geboten, wenn X unendlich viele Werte annimmt: Aufgabe: Seien X, Y : Ω → Z Zufallsvariablen mit Verteilung a k −k P X=(−2) = 2 und P Y = k = 2 für k = 1, 2, 3, . . . k (1) Sind dies WVerteilungen? (2) Existiert die Erwartung? P 2 Lösung: (1) Ja, es gilt p(k) ≥ 0 und ∞ k=1 p(k) = 1, wobei a = 6/π . (2) Nein, die zum Erwartungswert benötigte Reihe konvergiert nicht: ∞ ∞ X X xk · P(X=xk ) = (−2)k · 2−k = −1 + 1 − 1 + 1 − 1 ± . . . k=1 ∞ X k=1 k · P(Y =k) = k=1 ∞ X k=1 a k· 2 k 6 1 1 1 1 1 = 2 + + + + + ... π 1 2 3 4 5 Die hier erforderlichen Reihen konvergieren nicht. Einen Erwartungswert können wir hier also nicht definieren! Varianz von Zufallsvariablen V117 Definition V1F (Varianz und höhere Momente) Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable. Sei E(|X|) < ∞, so dass der Erwartungswert µ = E(X) existiert. Die Varianz von X ist die mittlere quadratische Abweichung 2 2 σ (X) = V(X) := E (X − µ) = E(X 2 ) − E(X)2 ≥ 0. Die Streuung oder Standardabweichung von X ist die Quadratwurzel p σ(X) := V(X) ≥ 0. Das (absolute, zentrierte) n–te Moment von X ist gegeben durch ρn (X) = E |X − µ|n . Anschaulich ist der Erwartungswert µ der Schwerpunkt der Verteilung. Varianz und höhere Momente messen, wie weit die Werte um µ streuen. Große Abweichungen wiegen schwerer: quadratisch oder gar hoch n. Varianz von Zufallsvariablen V118 Erläuterung Aufgabe: Sei µ = E(X). Zeigen Sie die praktisch nützliche Formel ! V(X) = E (X − µ)2 = E(X 2 ) − E(X)2 Nachrechnen: Dank Linearität des Erwartungswerts gilt 2 E X −µ = E X 2 − 2Xµ + µ2 = E X 2 − 2E X µ + µ2 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − E(X)2 2 Die Varianz V(X) = E (X − µ) = E(X 2 ) − E(X)2 kann man also mit jeder der beiden Formeln ausrechnen. Beide sind nützlich. Dies ist eine besondere Eigenschaft des zweiten Moments. Für alle anderen Momente E[|X − µ|n ] mit n 6= 2 gilt dies nicht! Erwartung und Varianz V119 Erläuterung Sei X eine Zufallsvariable mit µ := E(X) und σ 2 := V(X). Aufgabe: Wie verhalten sich Erwartung und Varianz bei Verschiebung zu Y = X + c mit c ∈ R und Skalierung zu Z = aX mit a ∈ R? Was gilt demnach für Y = X − µ und Z = (X − µ)/σ? Lösung: Wir haben P(Ω) = 1. Bei Addition einer Konstanten c ∈ R gilt ˆ ˆ ˆ E(Y ) = E(X + c) = X + c dP = X dP + c dP = E(X) + c. Ω Ω Ω Bei Skalierung mit einem konstanten Faktor a ∈ R gilt ˆ ˆ E(Z) = E(aX) = aX dP = a X dP = aE(X). Ω Ω Diese einfachen aber nützlichen Rechenregeln verdanken wir der Linearität der Erwartung und der Normierung P(Ω) = 1. Erwartung und Varianz V120 Erläuterung Bei Verschiebungen bleibt die Varianz unverändert: h h 2 i 2 i = E X + c − E(X) − c V(X + c) = E X + c − E(X + c) h 2 i = E X − E(X) = V(X) Bei Skalierung verhält sich die Varianz quadratisch: h h 2 i 2 i V(aX) = E aX − E(aX) = E aX − aE(X) h 2 i 2 = a E X − E(X) = a2 V(X) Speziell für Y = X − µ gilt somit E(Y ) = 0 und V(Y ) = V(X) = σ 2 . Speziell für Z = (X − µ)/σ gilt somit E(Z) = 0 und V(Z) = 1. Wir nennen Y = X − µ die Zentrierung und Z = (X − µ)/σ die Normierung von X. Dies lässt sich umkehren zu X = µ + Zσ. Für die Zufallsvariable X ist die natürliche Betrachtung die (µ, σ)–Skala mit Ursprung in µ und Längeneinheit σ > 0. Varianz von Zufallsvariablen V121 Aufgabe: Berechnen Sie das 1./2./3. Moment für X ∼ B(1, t). Lösung: Hier ist X : Ω → {0, 1} eine Zufallsvariable mit Verteilung P(X=1) = t und P(X=0) = 1 − t =: t̄. Ihre Erwartung und 1./2./3. Momente berechnen wir nach Definition: = 0 · P(X=0) + 1 · P(X=1) µ = E(X) E |X − µ| 1 = |0 − µ|1 · P(X=0) + |1 − µ|1 · P(X=1) = t1 · (1 − t) + (1 − t)1 · t E |X − µ|2 E |X − µ|3 = |0 − µ|2 · P(X=0) + |1 − µ|2 · P(X=1) = t2 · (1 − t) + (1 − t)2 · t = |0 − µ|3 · P(X=0) + |1 − µ|3 · P(X=1) = t3 · (1 − t) + (1 − t)3 · t =t = 2t(1 − t) = t(1 − t) = tt̄(t2 + t̄2 ) Zum Vergleich: Auch E(X 2 ) − E(X)2 = t − t2 liefert die Varianz. Die Ungleichungen von Chebychev V122 Erläuterung Sei X : Ω → R eine Zufallsvariable mit Erwartung µ = E(X). Anschaulich gilt: Die Werte schwanken zufällig um µ, und große Abweichungen vom Erwartungswert sind eher unwahrscheinlich. Wie unwahrscheinlich? Wir fragen also nach P(|X − µ| ≥ c). Die Ungleichung von Chebychev gibt eine bequeme Abschätzung! Die Streuung σ misst hierzu die typische Breite der Verteilung. Man muss hierbei über die Verteilung von X nichts weiter wissen als ihren Erwartungswert µ = E(X) und ihre Varianz σ 2 = V(X)! Dies sind daher die beiden wichtigsten Kenngrößen. Selbst wenn man mehr weiß oder mehr herausfinden könnte, die Chebychev–Abschätzungen sind unschlagbar einfach und oft sehr nützlich als erste Überschlagsrechnung. Anschließend werden wir den zentralen Grenzwertsatz V3A kennen und nutzen lernen. Wenn der ZGS anwendbar ist, dann ermöglich er viel präzisere Schätzungen. In diesen Fällen ist Chebychev vergleichsweise grob und kann in Punkto Genauigkeit meist nicht konkurrieren. Die Ungleichungen von Chebychev V123 Satz V1G (Chebychev 1867) Sei (Ω, A , P) ein WRaum und X : Ω → R eine Zufallsvariable mit Erwartungswert µ = E(X) und Varianz σ 2 = E (X − µ)2 . Für alle k > 0 gelten universelle „worst case“ Abschätzungen: 1 P |X − µ| ≥ kσ ≤ , k2 1 P X ≥ µ + kσ ≤ , 1 + k2 Die erste Ungleichung lässt sich umformulieren und verallgemeinern: 1 P µ − kσ < X < µ + kσ ≥ 1− 2 k 4(hk − 1) P µ − hσ < X < µ + kσ ≥ . (h + k)2 Wenn man nur µ und σ kennt, dann sind diese Ungleichungen optimal. Typische Anwendungen zu Chebychev V124 Aufgabe: Was sagt Chebychev für folgende typische Abschätzungen? P |X − µ| ≥ 1σ) ≤ 1/1 = 100% 1/4 = 25% P |X − µ| ≥ 3σ) ≤ ≤ 1/9 ≤ 1/16 ≈ 11% P X ≥ µ + 1σ) ≤ 1/2 = 50% 1/5 = 20% P X ≥ µ + 3σ) ≤ ≤ 1/10 = 10% ≤ 1/17 ≈ 6% P |X − µ| ≥ 2σ) P |X − µ| ≥ 4σ) P X ≥ µ + 2σ) P X ≥ µ + 4σ) ≈ 6% Große Abweichungen vom Erwartungswert sind unwahrscheinlich. Diese Abschätzungen sind grob, dafür aber universell einsetzbar. Die erste Abschätzung ist trivialerweise immer richtig aber nie hilfreich. Mindestens 3/4 der Wkt liegt in der 2σ–Umgebung [µ − 2σ, µ + 2σ]. Mindestens 8/9 der Wkt liegt in der 3σ–Umgebung [µ − 3σ, µ + 3σ]. Für Normalverteilungen gilt die genauere 68–95–99–Regel U236 . Die beidseitige Chebychev–Abschätzung V125 Erläuterung Die beidseitige Chebychev–Ungleichung ist äquivalent zu: P |X − µ| ≥ c ≤ σ2 c2 Aufgabe: Man überprüfe sie für folgende Verteilung. Ist sie scharf? p/2 Wkt 1−p −c p/2 +c 0 Lösung: Es gilt µ = 0 und σ 2 = c2 p. Die Ungleichung ist scharf: p = P |X − µ| ≥ c ≤ σ2 =p c2 Die Abschätzung ist meist grob, dafür aber universell einsetzbar. Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt. Die einseitige Chebychev–Abschätzung V126 Erläuterung Die einseitige Chebychev–Ungleichung ist für a < µ < b äquivalent zu P X≤a ≤ 1 2 1 + ( a−µ σ ) bzw. P X≥b ≤ 1 1+ 2 ( b−µ σ ) . Aufgabe: Man überprüfe sie für folgende Verteilung. Sind sie scharf? Wkt q = 4/5 p = 1/5 a = −1/2 b=2 Lösung: Hier gilt µ = 0 und σ 2 = 1. Die Ungleichungen sind scharf: q=P X≤a ≤ 1 4 = 1 + a2 5 bzw. p=P X≥b ≤ 1 1 = . 1 + b2 5 Die Abschätzung ist meist grob, dafür aber universell einsetzbar. Das Beispiel zeigt, dass sie sich allgemein nicht verbessern lässt. Anwendungsbeispiel zu Chebychev V127 Aufgabe: Für eine Klausur sind n = 320 Teilnehmer angemeldet. Jeder davon tritt nur mit Wahrscheinlichkeit t = 0.8 tatsächlich an. Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt) Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also µ = nt = 256, σ 2 = nt(1 − t) = 51.2, σ ≈ 7.2 Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch 1 45 P T ≥ 301 = P T − 256 ≥ 45 ≤ 1+k mit k = 7.2 ≈ 6.22. 2 / 2.5% Die Schätzung 3% ist deutlich zu hoch, dafür aber bequem zu berechnen. Wir wissen über T noch viel mehr als nur µ und σ: Wir kennen die gesamte Verteilung. Die Binomialverteilung B(n, t) erlaubt dank lokalem Grenzwertsatz eine wesentlich genauere Abschätzung: ´∞ LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 10−5 , Approximationsfehler: |δ| < 1/(6σ) < 0.023, insgesamt Wkt < 2.3%. Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.9 · 10−12 . Anwendungsbeispiel zu Chebychev V128 Aufgabe: Angenommen, im obigen Beispiel gilt n = 320 und t = 0.9. Mit welcher Wkt reichen 300 Plätze? (Chebychev, LGS, exakt) Lösung: Die Teilnehmerzahl T ist B(n, t)–verteilt. Wir wissen also µ = nt = 288, σ 2 = nt(1 − t) = 28.8, σ ≈ 5.4 Chebychev: Die Wkt für mehr als 300 Teilnehmer ist beschränkt durch 1 13 P T ≥ 301 = P T − 288 ≥ 13 ≤ 1+k mit k = 5.4 ≈ 2.33. 2 / 15% Diese Größenordnung ist alarmierend: Wir sollten einen größeren Hörsaal buchen — oder genauer hinschauen! Die Binomialverteilung erlaubt eine wesentlich genauere Abschätzung: ´∞ LGS: Normalverteilung als Näherung, Tabelle: k ϕ(t) dt < 0.01, Approximationsfehler: |δ| ≤ 1/(6σ) < 0.04, insgesamt Wkt < 5%. Exakt: Durch Aufsummieren erhalten wir P T ≥ 301 / 0.00684. Die Ungleichung von Chebychev ist vor allem in Situationen nützlich, in denen wir über die Verteilung wenig wissen (z.B. nur µ und σ) aber die Wahrscheinlichkeit großer Abweichungen abschätzen wollen. In obigen Beispielen kennen wir die Verteilung sogar genau. Der lokale Grenzwertsatz und die Tabelle der Normalverteilung liefern hier präzisere Abschätzungen. Beweis der beidseitigen Chebychev–Abschätzung V129 Erläuterung Chebychev gilt nicht nur für die Varianz, sondern für alle Momente! Nachrechnen: Die Zufallsvariable X zentrieren wir zu Z := X − µ. Das n–te Moment ist ρn = E(|Z|n ). Für n = 2 ist dies die Varianz. Wir vergleichen Z mit der einfachen, zweiwertigen Zufallsvariablen ( c falls |Z(ω)| ≥ c, Y = c I{|Z|≥c} , also Y (ω) = 0 falls |Z(ω)| < c. Es gilt |Z| ≥ Y . Dank Monotonie der Erwartung folgt ρn = E(|Z|n ) ≥ E(Y n ) = cn · P |X − µ| ≥ c . Wir erhalten hieraus die gewünschte Abschätzung P |X − µ| ≥ c ρn . cn ≤ Für n = 2 und c = kσ ist dies die beidseitige Chebychev–Ungleichung. Beweis der einseitigen Chebychev–Abschätzung V130 Erläuterung Als Hilfsmittel zeigen wir zunächst die Markov–Ungleichung: Sei Y : Ω → [0, ∞] eine nicht-negative Zufallsvariable. Für alle b > 0 gilt dann die Abschätzung P(Y ≥ b) ≤ E(Y )/b. Beweis: Es gilt Y ≥ b I{Y ≥b} , also E(Y ) ≥ bP(Y ≥ b). Beweis der einseitigen Chebychev–Abschätzung: Wir zentrieren die Zufallsvariable X zu Z := X − µ. Für alle t ∈ R mit t + b > 0 gilt dann: P[Z ≥ b] = P[Z + t ≥ b + t] ≤ P[(Z + t)2 ≥ (b + t)2 ] 2 2 ≤ E((Z + t) ) / (b + t) σ 2 + t2 = (b + t)2 Die zweite Ungleichung ist die Markov–Ungleichung. Sie gilt für alle t mit t + b > 0. Wir wählen t so, dass die rechte Seite minimal wird: Für t = σ 2 /b und b = kσ erhalten wir die gewünsche Ungleichung. Die asymmetrische Chebychev–Abschätzung V131 Erläuterung Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu: 4 (b − µ)(µ − a) − σ 2 P a<X<b ≥ , (b − a)2 σ 2 + (m − µ)2 P |X − m| ≥ c ≤ . c2 Zur Umformulierung setzt man m = (a + b)/2 und c = (b − a)/2. Für m = µ ergibt sich die symmetrische Chebychev–Ungleichung. Auch diese Abschätzung p lässt sich nicht verbessern. pObiges Beispiel: Zu 0 < t < 1 sei b = (1 − t)/t) und a = −1/b = − t/(1 − t) sowie P(X=a) = 1 − t und P(X=b) = t. Es gilt E(X) = a(1 − t) + bt = 0 und V(X) = a2 (1 − t) + b2 t = 1. In diesem Beispiel sind die obigen Ungleichungen scharf. Die asymmetrische Chebychev–Abschätzung V132 Erläuterung Die asymmetrische Ungleichung ist für a < µ < b äquivalent zu: 4 (b − µ)(µ − a) − σ 2 P a<X<b ≥ . (b − a)2 Kennen wir die Verteilung von X, so können wir genauer rechnen! Ist X ∼ B(n, t) binomialverteilt, so können wir den LGS nutzen: ˆ (b+1/2−µ)/σ −ξ2 /2 b X n k e n−k √ P a≤X≤b = t (1 − t) ≈ dξ k 1 2π (a− /2−µ)/σ k=a Ist X = X1 + · · · + Xn die Summe vieler unabhängiger Beiträge, so ist X dank ZGS annähernd normalverteilt, PX ≈ N (µ, σ 2 ), das heißt: ˆ (b−µ)/σ −ξ2 /2 e √ P a≤X≤b ≈ dξ 2π (a−µ)/σ Diese Näherungen sind meist recht gut – und genauer als Chebychev. Ziel dieses Kapitels ist der ZGS, um dies allgemein nutzen zu können. Produktwahrscheinlichkeit V201 Erläuterung Wir beschreiben die Durchführung unabhängiger Experimente durch Wahrscheinlichkeitsräume (Ω1 , A1 , P1 ), . . . , (Ωn , An , Pn ). Der Produktraum (Ω, A , P) nutzt das kartesische Produkt Ω = Ω1 × · · · × Ωn = (ω1 , . . . , ωn ) ω1 ∈ Ω1 , . . . , ωn ∈ Ωn . Die Ereignismenge A = A1 ⊗ · · · ⊗ An wird erzeugt von Produkten A = A1 × · · · × An mit A1 ∈ A 1 , . . . , A n ∈ A n . Das Produktmaß P = P1 ⊗ · · · ⊗ Pn : A → [0, 1] ist definiert durch P(A1 × · · · × An ) = P1 (A1 ) · · · Pn (An ). Wir erhalten den WRaum (Ω, A , P) durch eindeutige Fortsetzung. Für diskrete WRäume haben wir dies bereits gesehen und genutzt. ?? Sind P1 , . . . , Pn kontinuierliche WMaße auf R mit Dichten f1 , . . . , fn , dann ist das Produktmaß P auf Rn kontinuierlich und hat die Dichte f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). Unabhängige Zufallsvariablen V202 Zwei Zufallsvariablen X, Y sind unabhängig, wenn das Ergebnis von X nicht die Wkten von Y beeinflusst, und umgekehrt. Beispiel: Die gemeinsame Verteilung von (X, Y ) : Ω → R2 sei wie skizziert. Y Y 1/2 abhängig 1/2 unabhängig X 1/2 1/2 X Die Skizze zeigt die Gleichverteilung auf den Mengen Q, R ⊂ R2 mit Q = ([0, 1] × [0, 1]) ∪ ([2, 3] × [2, 3]), R = ([0, 1] × [0, 1]) ∪ ([2, 3] × [0, 1]). Unabhängige Zufallsvariablen V203 Zwei Zufallsvariablen X1 , X2 sind unabhängig, wenn das Ergebnis von X1 nicht die Wkten von X2 beeinflusst. Dies präzisieren wir wie folgt: Definition V2A (Unabhängigkeit von Zufallsvariablen) Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt (stochastisch) unabhängig, wenn für alle Intervalle I1 , . . . , In ⊂ R gilt P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ). Anders gesagt, die Ereignisse X1 ∈ I1 , . . . , Xn ∈ In sind unabhängig, das heißt A1 , . . . , An ⊂ Ω mit Ak = { ω ∈ Ω | Xk (ω) ∈ Ik } = Xk−1 (Ik ). Unabhängigkeit der X1 , . . . , Xn entspricht somit dem Produktmaß: P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn In Worten: Die gemeinsame Verteilung ist die Produktverteilung. Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn , so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). Zweidimensionale Normalverteilung 1 −2x f (x, y) = 2π e = ϕ(2x) · ϕ(y/2) 2 +y 2 /8 V204 X, Y sind unabhängig! 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0 −3 −2 0 −1 0 x 1 2 3 −1 −2 −3 1 y 2 3 Zweidimensionale Normalverteilung 1 −(x+y) f (x, y) = 2π e 6= f1 (x) · f2 (y) 2 −(x−y)2 /16 V205 X, Y sind abhängig! 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0 −3 −2 0 −1 0 1 2 x 3 −1 −2 −3 1 3 2 y Beispiel zur Unabhängigkeit V206 Erläuterung Aufgabe: (1) Wann sind die Indikatorfunktionen IA , IB zweier Ereignisse A, B ⊂ Ω unabhängig? (2) Wann gilt E(IA · IB ) = E(IA ) · E(IB )? Lösung: (1) Sei A ⊂ Ω ein Ereignis und IA seine Indikatorfunktion, ( 1 falls ω ∈ A, IA : Ω → R, IA (ω) = 0 falls ω ∈ / A. Unabhängigkeit von IA und IB bedeutet vier äquivalente Bedingungen: ! P(IA =1, IB =1) = P(A ∩ B) = P(IA =1, IB =0) = P(A ∩ B) = P(IA =0, IB =1) = P(A ∩ B) = P(IA =0, IB =0) = P(A ∩ B) = ! ! ! P(IA =1) P(IB =1) = P(A) P(B) P(IA =1) P(IB =0) = P(A) P(B) P(IA =0) P(IB =1) = P(A) P(B) P(IA =0) P(IB =0) = P(A) P(B) Dies ist äquivalent zur Unabhängigkeit der Ereignisse A und B! S217 Beispiel zur Unabhängigkeit V207 Erläuterung (2) Die Indikatorfunktion IA nimmt nur die beiden Werte 0 und 1 an: P(IA =1) = P(A) und Demnach ist ihr Erwartungswert P(IA =0) = 1 − P(A) E(IA ) = P(A). Für das Produkt von IA und IB gilt IA · IB = IA∩B . Wir vergleichen schließlich, wie in der Aufgabenstellung gefragt, den Erwartungswert des Produkts mit dem Produkt der Erwartungswerte: E(IA · IB ) = E(IA∩B ) E(IA ) · E(IB ) = P(A ∩ B), = P(A) · P(B). Gleichheit links ist demnach äquivalent zu Gleichheit rechts: Die Zufallsvariablen IA , IB : Ω → R sind genau dann unabhängig V203 , wenn die betrachteten Ereignisse A, B ⊂ Ω unabhängig sind S217 . Nur dann ist die Erwartung multiplikativ, E(IA · IB ) = E(IA ) · E(IB ). Erwartungswert und Varianz V208 Aufgabe: Gilt E(X + Y ) = E(X) + E(Y ) für alle Zufallsvariablen X, Y ? und E(X · Y ) = E(X) · E(Y )? und V(X + Y ) = V(X) + V(Y )? Lösung: (1) Ja! Dank Linearität des Integrals gilt stets ˆ ˆ ˆ E(X + Y ) = X + Y dP = X dP + Y dP = E(X) + E(Y ). Ω Ω Ω (2) Nein! Gegenbeispiel: Für X : Ω → {±1} mit P(X = ±1) = 1/2 gilt E(X · X) = E(1) = 1 6= 0 = E(X) · E(X). Die Erwartungswerte multiplizieren sich im Allgemeinen nicht! Allgemein: Die Varianz ist V(X) = E(X 2 ) − E(X)2 ≥ 0 und i.A. > 0. Alternativ: E(IA · IB ) = E(IA ) · E(IB ) gilt nur für unabhängige A, B. (3) Nein! Für jede Zufallsvariable X : Ω → R mit V(X) > 0 gilt V(X + X) = V(2X) = 4V(X) 6= V(X) + V(X). Die Varianzen addieren sich im Allgemeinen nicht! Erwartungswert und Varianz bei Unabhängigkeit V209 Satz V2B (Fubini für unabhängige Zufallsvariablen) (1) Sind X, Y unabhängige Zufallsvariablen, dann gilt dank Fubini E(X · Y ) = E(X) · E(Y ). (2) Varianzen unabhängiger Zufallsvariablen addieren sich: V(X + Y ) = V(X) + V(Y ). Nachrechnen: (1) Unabhängigkeit bedeutet P(X,Y ) = PX ⊗ PY , also: Prod ´ ´ Def ´ = R R xy dPX dPY E X ·Y = R2 xy dP(X,Y ) ´ ´ Lin ´ Lin ´ = R R x dPX y dPY = R x dPX · R y dPY = E(X) · E(Y ) (2) Nach Zentrierung können wir E(X) = E(Y ) = 0 annehmen. Dann: V(X + Y ) = E (X + Y )2 = E X 2 + 2XY + Y 2 = V(X) + 2E(X)E(Y ) + V(Y ) = V(X) + V(Y ) Anwendung: Varianz der Binomialverteilung V210 Aufgabe: Man berechne Erwartungswert und Varianz des Münzwurfs B(1, t) und hiermit (möglichst geschickt) der Binomialverteilung B(n, t). Lösung: Seien X1 , . . . , Xn : {0, 1}n → R unabhängig B(1, t)–verteilt: P(Xk =1) = t und P(Xk =0) = 1 − t. Der Erwartungswert ist E(Xk ) = t und die Varianz V(Xk ) = t(1 − t). Die Trefferzahl bei n Versuchen ist ihre Summe S = X1 + · · · + Xn . Sie ist B(n, t)–verteilt. Dank Linearität gilt E(S) = nE(X) = nt. Dank Unabhängigkeit gilt zudem V(S) = nV(X) = nt(1 − t). Man vergleiche dies mit der direkten, längeren Rechnung! U209 Mit den Begriffen und Techniken dieses Kapitels wird’s ein Zweizeiler. Das Gesetz der großen Zahlen V211 Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen, Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400 durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den n 1X Messung = 57.5 Stichprobenmittelwert: x̂ := xk n k=1 Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10. Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ? I1 = [57, 58], I2 = [56.5, 58.5], I3 = [56, 59], Ik = [57.5 ± 0.5k] Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw. αk ≥ 99% den Erwartungswert µ? Was sagt Chebychev? (später ZGS) Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist, diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂. Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir? Das Gesetz der großen Zahlen V212 Lösung: Die Messung wird beschrieben durch X : Ω → R mit Erwartungswert µ = E(X) und Varianz σ 2 = V(X), 0 < σ < ∞. Aus unabhängigen Wiederholungen X1 , X2 , X3 , . . . , Xn bilden wir den 1 Mittelwert X̂ := X1 + · · · + Xn . n Dank Linearität gilt E(X̂) = E(X) und dank Unabhängigkeit zudem 1 1 1 V(X̂) = 2 V(X1 + · · · + Xn ) = 2 V(X1 ) + · · · + V(Xn ) = V(X). n n n √ √ Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5. Für unsere Intervalle gelten die Chebychev–Abschätzungen: α1 ≥ 1 − 1/12 = 0, α3 ≥ 1 − 1/32 > 88%, α10 ≥ 1 − 1/102 ≥ 99%, α2 ≥ 1 − 1/22 ≥ 75%, α5 ≥ 1 − 1/52 ≥ 96%, αk ≥ 1 − 1/k 2 . Diese genial-einfache Idee arbeiten wir im Rest des Kapitels aus! Ziel sind schärfere Abschätzungen und somit genauere Intervalle. Das Gesetz der großen Zahlen V213 Dieses Argument und die Rechnung sind allgemein anwendbar. Da sie häufig gebraucht werden, halten wir diese Regel als Satz fest: Satz V2C (Gesetz der großen Zahlen) Der empirische Mittelwert X̂ nähert sich dem Erwartungswert µ: √ √ (1) Seine Streuung σ(X̂) = σ(X)/ n → 0 fällt wie 1/ n für n → ∞. (2) Abweichung um ε > 0 werden beliebig unwahrscheinlich gemäß σ2 ≤ P X̂ − µ ≥ ε → 0. n ε2 Das erklärt, warum man Messungen unabhängig wiederholt, um die Genauigkeit zu verbessern! Das Gesetz der großen Zahlen erklärt insbesondere, wie man Wahrscheinlichkeiten messen kann: Die Indikatorfunktion X = IA zählt das Eintreten des Ereignisses A. (Beim Würfeln sei zum Beispiel X = 1 falls eine 6 gewürfelt wird und X = 0 sonst.) Der Mittelwert X̂ ist dann die relative Häufigkeit nach n Versuchen und konvergiert gegen µ = E(X) = P(A). In praktischen Anwendungen will man n nicht allzu groß wählen, denn wiederholte Messungen sind teuer. Wir brauchen daher bessere Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS! Motivation zum zentralen Grenzwertsatz V301 Anwendung: Jede Messung Xk ist zufälligen Fehlern unterworfen. Sie habe Erwartungswert µk = E(Xk ) und Varianz σk2 = E(Xk2 ) > 0. Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn . Bei Unabhängigkeit addieren sich die Varianzen σ 2 = σ12 + · · · + σn2 . Typischerweise ähnelt die Verteilung von S der Normalverteilung: S ∼ PS P(a ≤ S ≤ b) ≈ ≈ N (µ, σ 2 ), ˆ (b−µ)/σ (a−µ)/σ das heißt ausgeschrieben 2 e−ξ /2 √ dξ 2π = h i(b−µ)/σ Φ (a−µ)/σ Das ist eine enorme Vereinfachung: Die Verteilung von S ist kompliziert und i.A. unbekannt, die Normalverteilung hingegen ist explizit & leicht! Die Normalverteilung entsteht, egal welche Verteilungen die Xk haben! Aufgabe: Illustrieren Sie dies numerisch für Würfelsummen. Wie gut ist die Approximation für festes n? Wie groß ist der Fehler δ? Gilt δ → 0 für n → ∞? Das ist Inhalt des zentralen Grenzwertsatzes! Augenzahl bei einmaligen Würfeln N (µ, σ 2 ) Würfeln 0.20 Wahrscheinlichkeit V302 0.15 0.10 0.05 0 1 2 3 4 5 Augenzahl beim Würfen 6 Die Augenzahl hat Erwartung µ = 7/2 und Varianz σ 2 = 35/12. Augensumme bei zweimaligem Würfeln N (2µ, 2σ 2 ) Würfeln 0.15 Wahrscheinlichkeit V303 0.10 0.05 0 2 3 4 5 6 7 8 9 10 11 12 Augensumme bei zwei unabhängigen Würfen Die Augensumme hat Erwartung 2µ = 7 und Varianz 2σ 2 = 35/6. Augensumme bei dreimaligem Würfeln V304 Wahrscheinlichkeit N (3µ, 3σ 2 ) Würfeln 0.10 0.05 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Augensumme bei drei unabhängigen Würfen Dank Linearität addieren sich die Erwartungswerte. Augensumme bei viermaligem Würfeln N (4µ, 4σ 2 ) Würfeln 0.10 Wahrscheinlichkeit V305 0.05 0 4 6 8 10 12 14 16 18 20 22 Augensumme bei vier unabhängigen Würfen Dank Unabhängigkeit addieren sich auch die Varianzen. 24 Augensumme bei zehnmaligem Würfeln N (10µ, 10σ 2 ) Würfeln 0.07 Wahrscheinlichkeit V306 0.06 0.05 0.04 0.03 0.02 0.01 0 20 25 30 35 40 45 50 Augensumme bei zehn unabhängigen Würfen Große Zahlen: Die Verteilung von X̂ konzentriert sich um µ. Augensumme bei hundertmaligem Würfeln N (100µ, 100σ 2 ) 0.020 0.015 0.010 0.005 0 200 250 300 350 400 450 500 Augensumme bei hundert unabhängigen Würfen Grenzwertsatz: Die Verteilung nähert sich der Normalverteilung! V307 Augenzahl bei einmaligem Würfeln Wahrscheinlichkeit 0.2 V308 fair gezinkt 0.15 0.1 0.05 0 1 2 3 4 5 Augenzahl beim Würfen 6 Gezinkt ist die Erwartung µ2 = 3.65 etwas größer als fair µ1 = 3.5. Augensumme bei zweimaligem Würfeln fair gezinkt 0.15 Wahrscheinlichkeit V309 0.10 0.05 0 2 3 4 5 6 7 8 9 10 11 12 Augensumme bei zwei unabhängigen Würfen Auch die Varianz σ22 = 3.0275 ist etwas größer als σ12 = 2.9167. Augensumme bei dreimaligem Würfeln V310 Wahrscheinlichkeit fair gezinkt 0.10 0.05 0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Augensumme bei drei unabhängigen Würfen Dank Linearität addieren sich die Erwartungswerte. Augensumme bei viermaligem Würfeln fair gezinkt 0.10 Wahrscheinlichkeit V311 0.05 0 4 6 8 10 12 14 16 18 20 22 Augensumme bei vier unabhängigen Würfen Dank Unabhängigkeit addieren sich auch die Varianzen. 24 Augensumme bei hundertmaligem Würfeln V312 fair gezinkt 0.020 0.015 0.010 0.005 0 300 350 400 Augensumme bei hundert unabhängigen Würfen Zur Vereinfachung zeichne ich hier nicht mehr die Einzelwkten. Augensumme bei tausendmaligem Würfeln V313 fair gezinkt 0.007 0.006 0.005 0.004 0.003 0.002 0.001 0 3300 3400 3500 3600 3700 3800 Augensumme bei tausend unabhängigen Würfen Nach vielen Würfen unterscheiden sich beide Würfel deutlich. Was sehen wir in diesen Beispielen? V314 Erläuterung Die Wahrscheinlichkeitsverteilung des Experiments Xk , hier Würfeln, bestimmt die Erwartung µ = E(Xk ) und die Varianz σ 2 = V(Xk ). Die Summe S = X1 + · · · + Xn von n unabhängigen Wiederholungen hat dann Erwartung nµ und Varianz nσ 2 . Sie ist nicht binomialverteilt, also können wir den lokalen Grenzwertsatz U3A hier nicht anwenden. Bei vielen Wiederholungen spielt die Ausgangsverteilung jedoch keine Rolle: Es entsteht immer annähernd die Normalverteilung N (nµ, nσ 2 ). Ihre universelle Rolle ist ein phantastisch nützliche Eigenschaft! Man kann dies (etwas vage aber poetisch) auch wie folgt formulieren: Im Kleinen, bei einzelnen Experimenten regiert der Zufall ungezügelt; im Großen, bei vielen Experimenten muss er sich Gesetzen beugen. Diese Gesetzmäßigkeit sollten Sie kennen und nutzen können. „Nul n’est censé ignorer la loi.“ [Niemand darf das Gesetz ignorieren.] Der zentrale Grenzwertsatz V315 Erläuterung Anschaulich besagt der zentrale Grenzwertsatz: Die Summe vieler unabhängiger Zufallsvariablen ist annähernd normalverteilt. Beispiel: Für unabhängige und identisch verteilte Zufallsvariablen Xk : Ω → {0, 1} ist S = X1 + · · · + Xn binomialverteilt, S ∼ B(n, t). Für diesem Spezialfall kennen wir den lokalen Grenzwertsatz U3A! Im allgemeineren ZGS dürfen X1 , X2 , . . . , Xn beliebig verteilt sein. Wir benötigen allerdings einige Vorsichtsmaßnahmen V409 : 1 Die Beiträge X1 , X2 , . . . , Xn sollen unabhängig sein. Für S = X + X + · · · + X gilt der ZGS sicher nicht. 2 Die Beiträge X1 , X2 , . . . , Xn sollen alle etwas streuen. Für S = 1 + 1 + · · · + 1 gilt der ZGS sicher nicht. 3 Die Beiträge X1 , X2 , . . . , Xn sollen „ähnlich groß“ sein. Der folgende Satz (formuliert nach Berry 1941 und Esséen 1944) präzisiert diese Voraussetzungen in Form des 2. und 3. Moments und quantifiziert den Approximationsfehler durch eine explizite Schranke. Allgemein gültige Näherung mit informativer Fehlerabschätzung! Der zentrale Grenzwertsatz V316 Satz V3A (zentraler Grenzwertsatz, ZGS) Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit µk = E(Xk ), endlichen Erwartungen σk2 = E |Xk − µk |2 ≥ σ02 > 0, beschränkten dritten Momenten ρ3k = E |Xk − µk |3 ≤ ρ30 < ∞. strikt positiven Varianzen Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer: ˆ P(a ≤ S ≤ b) (b−µ)/σ = (a−µ)/σ 2 e−ξ /2 √ dξ 2π + δ und für den Approximationsfehler δ gilt die allgemeine Schranke |δ| ≤ ρ31 + · · · + ρ3n (σ12 + · · · + σn2 )3/2 ≤ ρ30 √ σ03 n → 0. Alle drei Voraussetzungen werden wirklich gebraucht. V409 Vergleich zwischen ZGS und LGS V317 Aufgabe: Wer ist für X1 , . . . , Xn ∼ B(1, t) genauer: ZGS oder LGS? Lösung: Aus Xk ∼ B(1, t) berechnen wir µk = t und σk2 = t(1 − t) sowie ρ3k = t(1 − t)(t2 + (1 − t)2 ). Die Summe S = X1 + · · · + Xn ist B(n, t)–verteilt mit µ = nt und σ 2 = nt(1 − t). Dann gilt exakt / approx.: ˆ (b+1/2−µ)/σ −ξ2 /2 b X n k e √ P(a ≤ S ≤ b) = t (1 − t)n−k = dξ + δ k 1/2−µ)/σ 2π (a− k=a Für σ ≥ 5 ist der Approximationsfehler δ im LGS/ZGS beschränkt durch LGS |δ| < ZGS 1 1 ρ30 t2 + (1 − t)2 1 p p √ = p < = < 6σ σ03 n 6 nt(t − 1) nt(t − 1) nt(t − 1) Der LGS liefert eine bessere Konstante: 1/6 ≤ 1/2 ≤ t2 + (1 − t)2 ≤ 1 Mit Korrekturterm κ sinkt der Fehler auf |ε| < 1/(3σ 2 ) = 1/[3nt(t − 1)]. Der lokale Grenzwertsatz ist spezieller, dabei aber auch präziser. Wozu bzw. wann brauchen wir dann den zentralen Grenzwertsatz? Der ZGS gilt nicht nur für S ∼ B(n, t), sondern ganz allgemein! Vergleich zwischen ZGS und LGS V318 Erläuterung Der LGS nutzt die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen zur genaueren Approximation. Der ZGS kennt diese Korrektur nicht: Er gilt für kontinuierlich verteilte Zufallsvariablen ebenso wie für diskrete. Aufgabe: Welcher Fehler entsteht hierdurch schlimmstenfalls? Lösung: Für S ∼ B(n, t) und k = 0, 1, . . . , n gilt exakt und nach LGS ˆ (k+1/2−µ)/σ −ξ2 /2 LGS n k e √ = P k≤S≤k t (1 − t)n−k ≈ dξ k 1 2π (k− /2−µ)/σ 2 ≈ e−(k−µ) /2σ √ σ 2π 2 1 p 2πnt(1 − t) ≤ Man beachte die Stetigkeitskorrektur ±1/2 in den Integrationsgrenzen. Andernfalls wäre die Approximation P k ≤ S ≤ k ≈ 0 völlig nutzlos. Die obere Schranke erhält man für k = µ und nutzt σ 2 = nt(1 − t). Hier nimmt die Normalverteilung (Glockenkurve) ihr Maximum an. Vergleich zwischen ZGS und LGS V319 Erläuterung Der ZGS hingegen liefert ohne Stetigkeitskorrektur leider nur ˆ (k−µ)/σ −ξ2 /2 ZGS e √ P k≤S≤k = dξ + δ = 0 + δ 2π (k−µ)/σ Dieses Integral verschwindet! Belügt uns der ZGS in diesem Fall? Nein, er nützt nur nicht mehr viel, denn er besagt jetzt lediglich: 0 ≤ P k≤S≤k =δ ≤ ρ30 √ 3 σ0 n Alles ist gut. Der Fehler δ bleibt unter der Fehlerschranke des ZGS: ρ30 t2 + (1 − t)2 1 1 p p p √ = ≥ ≥ ≥δ≥0 σ03 n nt(t − 1) 2 nt(1 − t) 2πnt(1 − t) In solch extremen Fällen wird man den ZGS wohl kaum nutzen wollen. Sie illustrieren jedoch eindrücklich, was schlimmstenfalls passiert. Hier wird der ZGS missbraucht, aber dank δ bleibt alles richtig: Die Approximation kann schlecht sein, die Fehlerschranke stimmt immer. Summen gleichverteilter Zufallsvariablen V320 Aufgabe: Wir betrachten unabhängige gleichverteilte Zufallsvariablen X1 , X2 , X3 , . . . : Ω → [0, 1], das heißt PXk hat die Dichte f1 = I[0,1] . Welche Verteilung hat Sn = X1 + · · · + Xn ? Bestimmen Sie die Dichte: ˆ ∞ ˆ 1 fn (x) = (fn−1 ∗ f1 )(x) = fn−1 (x − u)f1 (u) du = fn−1 (x − u) du −∞ Summen gleichverteilter Zufallsvariablen 0 V321 Erläuterung Lösung: Die Summe Sn = X1 + · · · + Xn gleichverteilter ZVariablen ist nicht gleichverteilt. Ihre Dichte fn ist stückweise polynomiell vom Grad < n. Für x = k + t mit t ∈ [0, 1] und k = 0, 1, 2, . . . finden wir: ( t für k = 0, f2 (k + t) = 1 − t für k = 1. 1 2 für k = 0, 2t f3 (k + t) = 12 + t − t2 für k = 1, 1 2 2 (1 − 2t + t ) für k = 2. 1 3 für k = 0, 6t 1 (1 + 3t + 3t2 − 3t3 ) für k = 1, f4 (k + t) = 61 2 + 3t3 ) (4 − 6t für k = 2, 6 1 (1 − 3t + 3t2 − t3 ) für k = 3. 6 Die ersten Terme f1 , f2 , . . . , f5 sind in obiger Graphik dargestellt. Summen gleichverteilter Zufallsvariablen V322 Erläuterung Die obige Verteilung der fünfachen Summe S5 ähnelt augenscheinlich der Normalverteilung N (5/2, 5/12). Der Vergleich zeigt Abweichungen. Nicht jede glockenähnliche Kurve ist eine Normalverteilung! Die Zwölferregel ist eine einfache Methode, um näherungsweise normalverteilte Zufallszahlen zu erzeugen: „Wählt man Zufallszahlen X1 , . . . , X12 unabhängig und gleichverteilt im Intervall [−1/2, 1/2], so ist ihre Summe S = X1 + · · · + X12 näherungsweise std-normalverteilt.“ Summen gleichverteilter Zufallsvariablen V323 Erläuterung Aufgabe: Berechnen Sie Erwartung µk = E(Xk ), Varianz σk2 = V(Xk ) und drittes Moment ρ3k = E(|Xk3 |) der Summanden. Welche Erwartung und Varianz hat die Summe S? Welchen Träger hat PS ? und N (0, 1)? Welche Fehlerschranke garantiert der ZGS zwischen PS und N (0, 1)? Lösung: Es gilt µk = 1/2. Wir berechnen das n–te absolute Moment: ˆ 1 ˆ 1/2 n n+1 1/2 1 n 1 −2 1 2−n − x dx = −x = x − dx = 2 2 2 n + 1 2 n+1 x=0 x=0 x=0 Demnach gilt σk2 = 1/12 und ρ3k = 1/32. Die Summe S hat Erwartung E(S) = 0 und Varianz V(S) = 1. Die Näherung ist recht brauchbar, doch die pessimistische Fehlerschranke des ZGS garantiert nur |δ| ≤ 12/32. (Der tatsächliche Fehler ist hier – dank Symmetrie – wesentlich kleiner.) Die Polarmethode ist wesentlich genauer und effizienter, siehe en.wikipedia.org/wiki/Marsaglia_polar_method: Sie erzeugt zwei exakt normalverteilte Zufallszahlen durch den Gaußschen Kunstgriff. Lobeshymne auf den zentralen Grenzwertsatz V324 Erläuterung In Natur- und Ingenieurwissenschaften, in Wirtschaft und Gesellschaft treten zufällige Größen X auf. Sie sind meist unvermeidbar, genauere Informationen sind oft zu teuer oder manchmal gar nicht zugänglich. Die Stochastik liefert Werkzeuge zum sicheren Umgang mit unsicheren Ergebnissen, allgemein zum rationalen Entscheiden unter Unsicherheit. Hierzu ist es von zentraler Bedeutung, die Verteilung PX zu kennen. Oft ist unsere Zufallsgröße S eine Summe zahlreicher kleiner Einflüsse, die unabhängig voneinander wirken. Der zentrale Grenzwertsatz erklärt, dass wir dann eine Normalverteilung erwarten dürfen, PS ≈ N (µ, σ 2 ). Der Name des Satzes geht zurück auf George Pólyas Arbeit Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung von 1920. Wie in der Mathematik üblich, geht man zum Grenzwert (Limes) über, um die Ergebnisse bequem und übersichtlich formulieren zu können. Im Satz V3A wird hierzu die Konvergenz in Verteilung formuliert. Für praktische Anwendungen ist eine Fehlerschranke notwendig für den Wechsel von PS zu N (µ, σ 2 ). Satz V3A stellt hierzu alles bereit. Lobeshymne auf den zentralen Grenzwertsatz V325 Erläuterung Der zentrale Genzwertsatz ist ein phantastisches Ergebnis. Er ist allgemein gültig und daher vielseitig anwendbar. Das ermöglicht die Modellierung, Berechnung und Erklärung vieler stochastischer Phänomene, die uns täglich umgeben. Implizit oder explizit wird er in praktisch allen naturwissenschaftlichen Modellen oder industriellen Prozessen benutzt, in denen zufällige Schwankungen vorkommen. Die Voraussetzungen des ZGS sind sehr allgemein und oft erfüllt. Daher ist der ZGS nahezu überall anwendbar (anders als der LGS). Zunächst setzen wir die Unabhängigkeit der Zufallsvariablen X1 , X2 , X3 , . . . voraus, was für viele Anwendungen realistisch ist. (Man kann dies weiter abschwächen, und ein kontrolliertes Maß an Abhängigkeit erlauben, aber dies würde uns hier zu weit vom Weg führen.) Die vorausgesetzten Schranken σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen Grenzwertsatzes V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . . ähnlich stark streuen. Andernfalls könnte zum Beispiel X1 alle anderen Summanden X2 , X3 , . . . überwiegen, und in der Summe würde keine Normalverteilung entstehen, sondern im Wesentlichen die Verteilung von X1 . V409 Eine allgegenwärtige Anwendung sind Konfidenzintervalle. V336 Diese werden überall in Naturwissenschaft und Technik verwendet, um die Genauigkeit einer Messung, Rechnung oder Spezifikation zu quantifizieren (Fehlerrechnung). Diese wichtige Information muss man mindestens intuitiv passiv verstehen, meist auch präzise aktiv nutzen. Lobeshymne auf den zentralen Grenzwertsatz V326 Erläuterung Sehr wenige Informationen reichen für den ZGS aus! Für die Näherung genügen die Erwartungen µk und Varianzen σk2 , für die Fehlerschranke zudem die dritten Momente ρ3k ≤ ρ30 , notfalls nach oben abgeschätzt. Das ist meist problemlos möglich. Ein besonders wichtiger Spezialfall ist die unabhängige Wiederholung von Messungen bzw. Experimenten: Hier sind die Zufallsvariablen X1 , . . . , Xn unabhängig und identisch verteilt, insbesondere gilt für ihre Kenngrößen µk = µ0 , σk = σ0 , ρk = ρ0 für alle k = 1, . . . , n. Zur Existenz dieser Integrale benötigen wir lediglich Xk ∈ L3 (Ω, R), denn L3 ⊃ L2 ⊃ L1 . Der lokale Grenzwertsatz U3A ist bei Bedarf genauer: Dort geht es nur um Binomialverteilungen, dafür liefert der LGS den nützlichen Korrekturterm κ und wesentlich schärfere Fehlerschranken. Diese Verbesserung ist auch für den ZGS möglich und führt zur Edgeworth–Entwicklung mittels höherer Momente. Der obige zentrale Grenzwertsatz ist die erste Näherung dieser Reihe. Wir können den ZGS durch Fourier–Transformation nachrechnen. Da wir die Fourier–Transformation aus Kapitel K bereits gut kennen, skizziere ich die Rechnung im Anhang zu diesem Kapitel, ab Seite V519. Die Idee ist genial aber leicht zu verstehen! Ohne die geforderten Momente gilt der ZGS im Allgemeinen nicht! Wir finden auch einfache Gegenbeispiele, in denen der ZGS nicht anwendbar ist. V409 Die Cauchy–Verteilungen V525 zum Beispiel erfüllen nicht die Voraussetzungen des ZGS und auch nicht seine Schlussfolgerung, denn sie konvergieren nicht gegen die Normalverteilung. Lobeshymne auf den zentralen Grenzwertsatz V327 Erläuterung Der ZGS liefert eine explizite Fehlerschranke. Der Grenzwertsatz in der Form PS ≈ N (µ, σ 2 ) oder besser PS → N (µ, σ 2 ) für n → ∞ ist eine qualitative Aussage: Er garantiert die Konvergenz der Verteilungen, sagt aber noch nichts über die Konvergenzgeschwindigkeit oder den Approximationsfehler für ein vorgegebenes n. Oft verwendet man den ZGS nicht für n → ∞, sondern als PS ≈ N (µ, σ 2 ) für ein festes n. Für konkrete Anwendungen ist dann wichtig zu wissen: Wie gut ist die Approximation? Obige Formulierung von Berry–Esséen ist eine quantitative Präzisierung: Sie besagt, wie schnell √ die Konvergenz ist (nämlich wie 1/ n → 0) und gibt sogar explizite Fehlerschranken an! Der LGS gibt eine genauere Schranke; symmetrisch oder mit Korrekturterm sinkt der Fehler √ sogar von |δ| ≤ const/ n auf |ε| ≤ const/n. Wenn im ZGS eine ähnliche Garantie nötig sein sollte, müsste man genauere und umfangreichere Rechnungen anstrengen. Auch das kommt in sicherheitskritischen Anwendungen vor. Hierzu existiert eine ausgedehnte Spezialliteratur. Oft ist die Näherung besser als die pessimistische Fehlerschranke! √ Die im zentralen Grenzwertsatz angegebene Fehlerschranke |δ| ≤ ρ30 /σ03 n ist ein bequemer erster Schritt. In günstigen Fällen ist die Approximation tatsächlich besser, wie Beispiele zeigen. √ Beispiele zeigen den asymptotischen Fehler |δ| ∼ const/ n. V417 Diese Fehlerschranke lässt sich also allgemein nicht verbessern. Konfidenzintervalle V328 Anwendung: Jede Messung X ist zufälligen Fehlern unterworfen, Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Beispiel: Sie führen n = 400 unabhängige Messungen X1 , . . . , X400 durch und erhalten Messwerte x1 , . . . , x400 . Sie schätzen µ durch den n 1X Messung = 57.5 Stichprobenmittelwert: x̂ := xk n k=1 Die Streuung von X schätzen Sie (dank der Stichprobe) auf σ ≈ 10. Wie genau ist x̂? Wo liegt vermutlich der wahre Erwartungswert µ? I1 = [57, 58], I2 = [56.5, 58.5], I3 = [56, 59], Ik = [57.5 ± 0.5k] Aufgabe: Welches Intervall Ik überdeckt mit Sicherheit αk ≥ 95% bzw. ≥ 99% den Erwartungswert µ? Was sagt Chebychev? der ZGS? Der Erwartungswert µ ist eine Konstante. Leider ist sie uns unbekannt. Das Ziel der Messung ist, diese Konstante µ möglichst genau zu bestimmen. Als Schätzung für den Wert µ dient uns x̂. Wie die Messwerte x1 , . . . , xn ist auch x̂ zufälligen Schwankungen unterworfen. Wenn Sie eine neue unabhängige Stichprobe durchführen, erhalten Sie einen neuen Mittelwert x̂, und mit ihm verschieben sich obige Intervalle. Wir wollen sichergehen und verlangen, dass in 95% aller Stichproben unser Intervall den wahren Wert µ überdecken soll. Welchem Intervall vertrauen wir? Konfidenzintervalle V329 Lösung: Wir nutzen das Gesetz der großen Zahlen und den ZGS! 1 Der Mittelwert X̂ := n X1 + · · · + Xn unabhängiger Messungen hat Erwartung E(X̂) = E(X) = µ und Varianz V(X̂) = V(X)/n. √ √ Also σ(X̂) = σ(X)/ n. Im Beispiel gilt σ(X̂) = 10/ 400 = 0.5. Chebychev liefert eine einfache aber leider grobe Abschätzung: α1 ≥ 1 − 1/12 = 0, α3 ≥ 1 − 1/32 > 88%, α5 ≥ 1 − 1/52 ≥ 96%, α2 ≥ 1 − 1/22 ≥ 75%, α4 ≥ 1 − 1/42 > 93%, α10 ≥ 1 − 1/102 ≥ 99%, Dank ZGS gilt annähernd X̂ ∼ N (µ, σ 2 /n) mit besseren Schranken: α1 > 68.26% − δ, α2 > 95.44% − δ, α5 > 99.99994% − δ, α6 > 99.9999998% − δ. α3 > 99.73% − δ, α4 > 99.993% − δ, Für die Normalverteilung gilt die 68–95–99–Regel U236 : Schon das 2σ–Intervall genügt für 95%ige Sicherheit! Beispiel: Meinungsforschung V330 Erinnerung Eine Wahl mit über 5 000 000 Stimmberechtigten steht bevor. Der Stimmanteil p ∈ [0.02, 0.98] einer Partei soll geschätzt werden. Hierzu werden n zufällige Personen befragt; die Schätzung soll mit Wahrscheinlichkeit ≥ 95% bis auf einen Fehler von ≤ 0.01 genau sein. Aufgabe: Wieviele Personen sollten hierfür befragt werden? Lösung: Sicherheit 95% garantieren wir mit einer 2σ–Umgebung. Für den empirischen Mittelwert X̂ = (X1 + · · · + Xn )/n gilt V(X̂) = p(1 − p) 1 1 V(X) = ≤ , n n 4n 1 σ(X̂) ≤ √ . 2 n Wir wollen eine Genauigkeit von 2σ(X̂) ≤ 0.01. Hierzu genügt 1 ! 2σ(X̂) ≤ √ ≤ 0.01, n also n ≥ 10 000. Die detaillierte Rechnung haben wir bereits im letzten Kapitel U mit dem LGS und allen Fehlerabschätzungen ausgeführt. ?? Mit den Techniken dieses Kapitels wird’s ein Zweizeiler. Beispiel: Wareneingangsprüfung V331 Erläuterung Ihr Zulieferer schickt Ihnen N = 6000 Bauteile (z.B. Temperaturfühler). Als Eingangsprüfung nehmen Sie eine Stichprobe von n = 200 Teilen und prüfen die vereinbarten Anforderungen; k = 10 Stück fallen durch. Aufgabe: Wie viele Teile von den 6000 sind fehlerhaft? Geben Sie ein Intervall an, das den wahren Wert mit 95%iger Sicherheit überdeckt. (Für einen analogen aber einfacheren Hypothesentest siehe T339 .) Lösung: Wir schätzen den Anteil fehlerhafter Teile auf t = k/n = 5%. Das entspräche K = N t = 300 Teilen in der gesamten Lieferung. Wie gut ist diese Schätzung? Einzelprüfung: σ 2 (X) = t(1 − t) ≤ 0.08. Stichprobe: σ 2 (X̂) ≤ 0.08/200 = 0.0004, Streuung σ(X̂) ≤ 0.02. Das 2σ–Intervall um unsere Schätzung ist demnach: Anteil t ∈ [0.01, 0.09], absolut K ∈ [60, 540] Die Wareneingangsprüfung obliegt dem Käufer (§377 HGB). Hierzu gibt es normierte Methoden. Die Norm ISO2859 etwa beschreibt ein statistisches Qualitätsprüfungsverfahren für attributive Merkmale („in Ordnung“ / „nicht in Ordnung“). Sie wurde 1974 eingeführt und basiert auf dem Standard der amerikanischen Streitkräfte zur Qualitätsprüfung der anzukaufenden Ausrüstung. Konfidenzintervalle V332 Erläuterung Problem: Jede Messung unterliegt zufälligen Störungen, wir betrachten sie daher als eine Zufallsvariable X : Ω → R. Messwerte schwanken um den Erwartungswert µ mit Streuung σ > 0. Die Erwartung µ und die Verteilung von X sind jedoch unbekannt. Das Ziel der Messung ist meist, µ möglichst genau zu bestimmen. Annahme: Die Messung lässt sich beliebig, unabhängig wiederholen. Wir erhalten unabhängige Zufallsvariablen X1 , X2 , . . . verteilt wie X. Wir können den Erwartungswert µ durch eine Stichprobe schätzen! n 1X Schätzfunktion X̂ := Xk n k=1 ZGS hilft: X̂ ist annähernd normalverteilt, kurz X̂ ∼ N (µ, σ 2 /n). Für große n spielt die genaue Verteilung von X keine Rolle mehr! Für den zentralen Grenzwertsatz müssen wir nur µ und σ kennen! Dieses Ergebnis hat ungemein praktische Konsequenzen. . . Konfidenzintervalle V333 Erläuterung Anwendung: Aus Messwerten x1 , . . . , xn ∈ R bilden wir den n 1X Stichprobenmittelwert x̂ := xk . n k=1 Dieser wird meist vom Erwartungswert µ = E(X) abweichen! Als 2σ–Konfidenzintervall dieser Stichprobe bezeichnet man √ √ I2 = x̂ − 2σ/ n, x̂ + 2σ/ n . Wie x̂ ist auch das Intervall I2 zufälligen Schwankungen untworfen. Mit 95% Wkt überdeckt dieses Intervall den Erwartungswert µ. Problem: Wie die Erwartung µ ist auch die Streuung σ unbekannt. Lösung: Wir schätzen die Varianz σ 2 durch die (korrigierte) n 1 X Stichprobenvarianz σ̂ = (xk − x̂)2 . n−1 2 k=1 Der korrigierte Nenner n − 1 sichert Erwartungstreue: E(σ̂ 2 ) = σ 2 . Für große n ist der Unterschied zwischen n und n − 1 unerheblich. Konfidenzintervalle: erwartungstreue Schätzer V334 Erläuterung Wir rechnen nach: Der Schätzer X̂ für µ ist erwartungstreu, denn X n n 1X 1 1 E(X̂) = E Xk = E(Xk ) = nµ = µ n n n k=1 k=1 Ist der Erwartungswert µ bekannt, so schätzen wir die Varianz σ durch n S02 2 1X := Xk − µ . n k=1 Für den Erwartungswert von S02 gilt dann tatsächlich E(S02 ) n n k=1 k=1 1X 1X 1 2 = E (Xk − µ) = V(Xk ) = nσ 2 = σ 2 . n n n Ist µ unbekannt, so würde man zunächst folgendes versuchen: n S12 2 1X := Xk − X̂ . n k=1 Dies nennt man die unkorrigierte Stichprobenvarianz. Konfidenzintervalle: erwartungstreue Schätzer V335 Erläuterung Den Erwartungswert von S12 rechnen wir wie folgt nach: n n X X 2 1 1 S12 = (Xk − X̂)2 = (Xk − µ) − (X̂ − µ) n n k=1 k=1 X X n n 1 1 = (Xk − µ)2 − 2 (Xk − µ)(X̂ − µ) + (X̂ − µ)2 n n k=1 k=1 X n 1 (Xk − µ)2 − (X̂ − µ)2 = n k=1 Somit gilt E(S12 ) = V(X) − V(X̂) = σ 2 − σ 2 /n = σ 2 · (n − 1)/n. Als Schätzer nimmt man daher die korrigierte Stichprobenvarianz n X 2 1 S 2 := Xk − X̂ . n−1 k=1 Dieser Schätzer ist nun erwartungstreu, das heißt E(S 2 ) = σ 2 . Das Gesetz der großen Zahlen V2C garantiert die Konvergenz X̂ → E(X̂) = µ und S 2 → E(S 2 ) = σ 2 für n → ∞. Konfidenzintervalle V336 Satz V3B (Konfidenzintervalle) Als Stichprobe für X führen wir n unabhängige Messungen aus. Aus den so gewonnenen Messwerten x1 , . . . , xn ∈ R berechnen wir n den Stichprobenmittelwert 1X x̂ := xk , n k=1 n die Stichprobenvarianz 1 X 2 (xk − x̂)2 , σ̂ := n−1 k=1 das 2σ–Konfidenzintervall I2 := h σ̂ σ̂ i x̂ − 2 √ , x̂ + 2 √ . n n Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2 den (konstanten aber uns unbekannten) Erwartungswert µ = E(X). Ein wunderbar praktischer Satz! Mit kleinem Schönheitsfehler: Was genau bedeutet „große n“? Als Faustregel gilt schon n = 30 als groß genug. Bei ungünstiger Verteilung von X ist größeres n nötig. Konfidenzintervalle V337 Ergänzung Das 2σ–Intervall liefert 95% Sicherheit, das 3σ–Intervall über 99%. Bei sicherheitskritischen Anwendungen wird man mehr verlangen. Als extremes Sicherheitsniveau wurde zum Beispiel 6σ propagiert, was bei Normalverteilung über 99.9999998% Sicherheit bedeutet. Je nach Kosten / Nutzen wird man n möglichst groß wählen: √ Mit wachsendem n wird der Intervallradius 2σ̂/ n beliebig klein. √ Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal größere Stichprobe. Das ist Fluch und Segen der großen Zahlen! Sicherheit ≥ 95% für das 2σ–Intervall gilt für „große n“. Solche Faustregeln ohne Begründung sind Autoritätsargumente; manchmal beruhen sie auf Erfahrung, meist jedoch auf Unwissen. Für kleine Stichproben sind sorgfältige Korrekturen notwendig, auf diese will ich hier jedoch nicht genauer eingehen. ?? Ich belasse es bei diesem Überblick. Für die ernsthafte Anwendung statistischer Methoden verweise ich auf die umfangreiche Literatur. Konfidenzintervalle V338 Erläuterung Ich warne vorsorglich vor einem weitverbreiteten Missverständnis: Man sagt „Mit Wkt ≥ 95% überdeckt das Intervall I den wahren Wert µ.“ Das ist bequem aber irreführend; die Interpretation müssen wir klären. Der Mittelwert µ = E(X) ∈ R ist eine Zahl, unbekannt aber konstant. Aus den Messdaten x1 , . . . , xn ∈ R berechnen wir ein Intervall I ⊂ R. Die durchgeführte Messung legt somit das Intervall I fest. Entweder liegt µ in I oder nicht: Das ist eine Aussage über eine feste Zahl µ und ein festes Intervall I, mit Wkt hat das nichts mehr zu tun. Die Aussage „mit Wkt ≥ 95%“ betrifft also nicht ein einzelnes berechnetes Intervall, sondern das Verfahren der Berechnung: Bei unabhängiger Wiederholung können wir jedesmal dieses Verfahren anwenden, und in ≥ 95% aller Fälle werden wir damit richtig liegen. In diesem Sinne gilt: Mit Wkt ≥ 95% überdeckt das Intervall I den Wert µ. Zur Illustration gebe ich zwei Beispiele: zunächst ein etwas künstliches aber besonders einfaches zum Würfeln, sodann ein sehr realistisches aber auch komplizierteres mit echten Daten zum Venus Express. Konfidenzintervalle V339 Die Graphik zeigt 100 Konfidenzintervalle √ [ x̂ ± 2σ̂/ n ], Sicherheitsniveau ≥ 95%. Illustration: Wir werfen 400 mal p einen fairen Würfel. Wir wissen µ = 3.5 und σ = 35/12 ≈ 1.70783. Die Messwerte schwanken, und mit ihnen StichprobenMittelwert x̂ ≈ µ und -Streuung σ̂ ≈ σ. Jede Stichprobe liefert daher ihr eigenes Konfidenzintervall. Bei unserer Simulation überdecken 96 Intervalle den Erwartungswert µ = 3.5, die übrigen 4 Intervalle (in rot) tun dies nicht. Dieses Beispiel ist etwas künstlich, dafür aber besonders leicht zu verstehen. In realistischen Anwendungen kennt man den wahren Mittelwert µ und die wahre Streuung σ nicht, sondern will / muss sie durch Stichprobe schätzen. Genau dieses Verfahren wenden wir hier 100 mal an. Im Allgemeinen weiß man nicht, ob man eine typische Stichprobe erwischt (schwarz) oder viele Außreißer (rot). Das Verfahren kann keine absolute Sicherheit garantieren, aber immerhin 95%. Die 3σ–Umgebung liefert 99%, etc. 3 µ 4 Mars & Venus Express V340 Missionen der ESA Start Jun. 2003 in Baikonur Mars-Orbit ab Jan. 2004 → Suche nach Wasser Start Nov. 2005 in Baikonur Venus-Orbit ab Apr. 2006 → Atmosphäre der Venus Orbiter: Masse 633kg plus Treibstoff (MMH+NTO) Acht Steuertriebwerke mit jeweils 10N Schub Fortsetzung oder Ende: Wie lange reicht der Sprit? Siehe en.wikipedia.org/wiki/Mars_Express und /Venus_Express Mars & Venus Express V341 Erläuterung Design erfordert Entscheidungen und meist Kompromisse. Die ESA hat auf Messgeräte für die Tankfüllung verzichtet. Zum geplanten Ende der Mission stellt sich die Frage: Kann die Mission verlängert werden? Ist dazu noch genug Treibstoff im Tank? Wie kann man das mit ausreichender Sicherheit herausfinden? Idee: Die ESA verfügt über alle bisherigen Positions- und Steuerdaten. Hieraus könnte man jeweils die Trägheit berechnen und indirekt die Gesamtmasse! Geht das? Realistische Analogie: Heutige Autos haben eine Masse von etwa 1.2 bis 1.6 Tonnen bei einem Tankvolumen von 50 bis 70 Litern. Sie fahren ein Auto ohne Tankanzeige, die Tankfüllung erspüren Sie in Kurven, beim Gasgeben und Abbremsen. Ist das verrückt? Ja. Ist das möglich? Schwierig! Man muss genau und sehr häufig messen – und dann die Messfehler rausfiltern! Vereinfachte Analogie: Sie haben eine Gasflasche für einen Herd oder Grill: Leergewicht 6kg, Inhalt 0-5kg Propan, ebenfalls ohne Anzeige des Füllstandes. Sie können durch Schütteln recht gut erspüren, wie voll die Gasflasche ist. Probieren Sie es bei Gelegenheit mal aus! Jede Messung ist mit Fehlern behaftet: systematische müssen wir vermeiden, zufällige können wir nicht direkt korrigieren. Wir müssen lernen, sie geschickt rauszufiltern, um ein möglichst verlässliches Ergebnis zu erhalten. Genau das ist Aufgabe der mathematischen Statistik. Es geht um rationale Entscheidungen unter Unsicherheit. Dafür genügt es nicht, eine willkürliche Schätzung auszuspucken! Die Anwendung ist ernst, es geht um Geld, wir müssen überzeugen. Wir wollen nicht nur eine gute Schätzung, sondern auch die Güte der Schätzung berechnen! Hierzu will ich Sie mit meiner Einführung anleiten. Wer darüber hinaus ernsthafte statistische Analysen betreiben will/muss, kann sich darauf aufbauend in die Spezialliteratur einarbeiten. Venus Express: Wieviel Treibstoff ist im Tank? V342 Aus Steuermanövern errechnete Masse für 366 Tage bis 31.12.2012. 760 Masse/kg unplausibel: schwerer als voll 740 720 700 680 660 640 620 unplausibel: leichter als leer Tag 600 −350 −300 −250 −200 −150 −100 −50 Venus Express: Wieviel Treibstoff ist im Tank? 0 V343 Erläuterung Impuls-Messungs-Methode (Impulse Measurement Method, IMM): Aus Positions- und Steuerdaten errechnet man Werte für die Masse. Tag 1 2 3 ... Datum 01.01.2012 02.01.2012 03.01.2012 ... Masse 640 674 659 ... Tag ... 364 365 366 Datum ... 29.12.2012 30.12.2012 31.12.2012 Masse ... 664 704 712 www.igt.uni-stuttgart.de/eiserm/lehre/HM3/VEX2012.txt Datengewinnung ist mühsam, erfordert Umsicht und Sachkenntnis! Diese Daten stellt uns freundlicherweise Herr Caglayan Gürbüz zur Verfügung. Er hat 2012 die Höhere Mathematik 3 gehört und am IRS / ESOC seine Bachelor-Arbeit zum Mars & Venus Express geschrieben. Rationale Entscheidung: Kann / sollte man die Mission verlängern? Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit! Techniken: Erwartung und Streuung, Stichproben und Schätzung, Gesetz der großen Zahlen, zentraler Grenzwertsatz, Konfidenzintervall This is rocket science. Mathematische Statistik zeigt, wie’s geht. Mathematische Statistik: Konfidenzintervalle V344 Jahresmittelwert der Gesamtmasse mit 3σ–Konfidenzintervall. 760 Masse/kg 740 720 700 680 660 640 620 If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is. (John von Neumann) Tag 600 −350 −300 −250 −200 −150 −100 Mathematische Statistik: Konfidenzintervalle −50 0 V345 Erläuterung Aufgabe: Wir groß war der Tankinhalt im Jahresmittel 2012? Geben Sie das 3σ–Konfidenzintervall an (für 99%ige Sicherheit). Lösung: Unser Datensatz liefert Mittelwert und Streuung: Der Stichprobenmittelwert ist m̂ = 684kg. Dies schätzt die Masse m. Die Stichprobenstreuung ist σ̂m = 24.6kg. Dies schätzt die Streuung. √ Bei n = 345 Datenpunkten gilt σ̂m̂ = σ̂m / n = 1.33kg. Großes n hilft! Das 3σ–Intervall [m̂ ± 3σ̂m̂ ] = [680; 688]kg ist erstaunlich schmal! Der Tankinhalt betrug demnach [47; 55]kg mit 99%iger Sicherheit. Messdaten sind voller Messfehler und anderer Ungenauigkeiten. Unsere Daten sind schmutzig doch glücklicherweise sehr zahlreich: Wir können Gesetze der großen Zahlen und Grenzwertsätze nutzen! Dank passender Technik können Sie so präzise Schlüsse ziehen! Dank Statistik fördern Sie Information zutage, die zuvor verborgen war. Jede Prognose ist höchstens so gut wie die zugrundeliegenden Daten! Zufällige Fehler können wir durch große Messreihen rausfiltern, systematische Fehler nicht! Hier helfen nur Umsicht und Sachkenntnis! Mathematische Statistik: lineare Regression V346 Regressionsgerade mit Konfidenzintervallen: 1σ, 2σ, 3σ. 760 Masse/kg 740 720 700 680 660 640 620 It is difficult to make predictions, especially about the future. 600 −350 −300 −250 −200 −150 −100 Mathematische Statistik: lineare Regression Tag −50 0 V347 Erläuterung Aufgabe: Wir groß war der Tankinhalt Ende 2012? Wie lange reicht’s noch? Wie sicher ist Ihre Prognose? Lösung: Unser Datensatz liefert die Regressionsgerade y = â + b̂ x: Ende 2012 ist die Gesamtmasse â = 680.5kg mit Streuung σ̂â = 2.6kg. Im Tank verbleiben t̂ = 47.5kg Treibstoff mit Streuung σ̂t̂ = 2.6kg. Der Verbrauch ist b̂ = −20.3g/Tag mit Streuung σ̂b̂ = 12.6g/Tag. Sehr grobe Prognose der verbleibenden Missionsdauer: 2300 Tage. Wie verlässlich ist diese Prognose aufgrund unserer Messdaten? Mit 95% Sicherheit reicht der Treibstoff noch für über 930 Tage: Tank [t̂ ± 2σ̂t̂ ] ⊂ [42.3; 52.7]kg, Verbrauch [b̂ ± 2σ̂b̂ ] ⊂ [−45.5; 4.9]g/Tag. Mit 99% Sicherheit reicht der Treibstoff noch für über 680 Tage: Tank [t̂ ± 3σ̂t̂ ] ⊂ [39.7; 55.3]kg, Verbrauch [b̂ ± 3σ̂b̂ ] ⊂ [−58.1; 17.5]g/Tag. Wir extrahieren sorgsam, was die vorliegenden Daten hergeben! Systematische Fehler? physikalische Annahmen? Alternativen? War 2012 ein typisches Jahr? Wenn man Sprit spart, reicht er länger! VEX wird 2013/14 tiefer in Atmosphäre abgesenkt ⇒ mehr Verbrauch. Die Mission endet im Dezember 2014 wegen Treibstoffmangels. Wow! Mathematische Statistik: Konfidenzintervalle V348 Das Ergebnis X einer Messung hängt von zufälligen Störungen F ab: X =x+F etwa mit F ∼ N (0, σF2 ) Das heißt: Messwerte X = x + F schwanken um den Wert x = E(X), der Fehler F = X − x hat Mittelwert E(F ) = 0 und Varianz V(F ) = σF2 . Problem: Erwartung E(X) = x und Varianz V(X) = σF2 sind uns nicht bekannt. Wir wollen sie durch wiederholte Messungen ermitteln. Unabhängige Wiederholung ergibt die Messwerte x1 , x2 , . . . , xn . 2 = σ 2 schätzen wir hieraus wie folgt: Erwartung µX = x und Varianz σX F n n i=1 i=1 1X 1 X σ̂X 2 2 x ≈ x̂ := xi , σX ≈ σ̂X := (xi − x̂)2 , σX̂ ≈ σ̂X̂ := √ n n−1 n Hieraus erhalten wir Konfidenzintervalle für den gesuchten Wert x: I2 = [x̂ ± 2σX̂ ] = x̂ − 2σX̂ ; x̂ + 2σX̂ 3 x mit 95% Sicherheit I3 = [x̂ ± 3σX̂ ] = x̂ − 3σX̂ ; x̂ + 3σX̂ 3 x mit 99% Sicherheit Mathematische Statistik: Konfidenzintervalle V349 Erläuterung Gesucht ist der wahre Wert x, doch dieser ist uns leider unbekannt. Wir schätzen ihn durch x̂ anhand der Messdaten (x1 , x2 , . . . , xn ). 2 . Die Güte dieser Schätzung wird bestimmt durch die Varianz σX 2 . Wir schätzen sie wiederum durch die Stichprobenvarianz σ̂X Grundlegende Annahmen unseres stochastischen Modells: Der Messfehler F ist zufällig und hat Mittelwert E(F ) = 0. Andernfalls machen wir einen systematischen Fehler! Den Fehler F können wir nicht direkt beobachtet (und korrigieren). Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern: Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert x. Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert x. Dies sind die Konfidenzniveaus 95% bzw. 99% der Normalverteilung! Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß, denn X̂ ∼ N (x, σF2 /n) gilt exakt oder in guter Näherung dank ZGS. Mit hinreichend vielen Messdaten bestimmen wir x beliebig genau. Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit. Doppelte Genauigkeit kostet viermal so viele Messungen. Mathematische Statistik: lineare Regression V350 Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F : Y = a + bX + F etwa mit F ∼ N (0, σF2 ) Unabhängige Wiederholung ergibt die Messdaten (x1 , y1 ), . . . , (xn , yn ). Die Regressionsparameter a und b schätzen wir hieraus wie folgt: P (xi − x̂)(yi − ŷ) P a ≈ â := ŷ − b̂ x̂ b ≈ b̂ := , (xi − x̂)2 Die Güte dieser Schätzungen wird bestimmt durch die Varianzen: P n σ̂b̂2 X (â + b̂ xi − yi )2 2 2 2 2 P , σb̂ ≈ σ̂b̂ := σâ ≈ σ̂â := x2i 2 (n − 2) (xi − x̂) n i=1 Wir erhalten Konfidenzintervalle für die gesuchten Werte a bzw. b: I2 = [â ± 2σâ ] = â − 2σâ ; â + 2σâ 3 a mit 95% Sicherheit I3 = [â ± 3σâ ] = â − 3σâ ; â + 3σâ 3 a mit 99% Sicherheit Mathematische Statistik: lineare Regression V351 Erläuterung Gesucht sind die Werte a, b, doch diese sind uns leider unbekannt. Wir schätzen sie durch â, b̂ anhand der Messdaten (x1 , y1 ), . . . , (xn , yn ). Grundlegende Annahmen unseres stochastischen Modells: Der Messfehler F ist unabängig von X mit Mittelwert E(F ) = 0. Andernfalls machen wir einen systematischen Fehler! Den Fehler F können wir weder direkt beobachten noch korrigieren. Je mehr Messwerte wir haben, desto besser können wir ihn rausfiltern: Mit Wkt 95% überdeckt das Konfidenzintervall I2 den wahren Wert a. Mit Wkt 99% überdeckt das Konfidenzintervall I3 den wahren Wert a. Auch hier nutzen wir die Konfidenzniveaus der Normalverteilung! Sie gilt falls F ∼ N (0, σF2 ) normalverteilt ist oder n ausreichend groß, denn  ∼ N (a, σâ2 ) und B̂ ∼ N (b, σb̂2 ) gilt exakt oder in guter Näherung. Ausreichend viele Messdaten bestimmen a, b beliebig genau. Jede gegebene Messreihe liefert nur eine begrenzte Genauigkeit. Doppelte Genauigkeit kostet viermal so viele Messungen. Bestimmung der Ausgleichsgeraden V352 Erläuterung Wir nehmen an, yi hängt linear von xi ab plus zufällige Störung fi : yi = a + b xi + fi mit Fehler fi = yi − a − b xi Wir suchen nach der Geraden, die diese Fehlerterme minimiert: Xn Xn ! 2 Q(a, b) := fi = (yi − a − b xi )2 = min i=1 i=1 Das ist eine positive quadratische Funktion in a und b. Minimum: ∂Q Xn ! = 0 = 2(yi − a − b xi ) · (−1) i=1 ∂a ∂Q Xn ! = 2(yi − a − b xi ) · (−xi ) = 0 i=1 ∂b Dieses lineare Gleichungssystem führt zu den obigen Formeln: P P (xi − x̂)(yi − ŷ) xi yi − nx̂ŷ P P â = ŷ − b̂ x̂, b̂ = = (xi − x̂)2 x2i − nx̂2 Geometrisch: Für die zentrierten Vektoren ~xi = xi − x̂ und ~yi = yi − ŷ berechnet sich b̂ = h ~x | ~y i/h ~x | ~x i durch Skalarprodukte! Bestimmung der Ausgleichsgeraden V353 Erläuterung Wir nennen y = â + b̂ x die Kleinste-Quadrate-Gerade (KQ-Gerade). Der Wert ŷi = â + b̂ xi heißt der KQ-gefittete Wert und entsprechend die Abweichung fˆi = yi − ŷi = yi − â + b̂ xi der KQ-gefittete Fehler. Eigenschaften: Die Summe aller Fehler fˆi = yi − a − b xi ist Null. Liegen alle Datenpunkte (xi , yi ) auf einer Geraden y = a + bx, so gilt â = a und b̂ = b mit perfektem Fit: ŷi = yi und fˆi = 0. Wie gut beschreibt die Gerade die Daten? Korrelationskoeffizient P (xi − x̂)(yi − ŷ) h ~x | ~y i pP p =p r(x, y) := pP 2 2 h ~x | ~x i h ~y | ~y i (xi − x̂) (yi − ŷ) Es gilt −1 ≤ r ≤ 1 und r = ±1 genau dann, wenn alle Daten auf einer Geraden liegen: gleichsinnig für r = +1 und gegensinnig für r = −1. Die Linearisierung ist gut für große Werte von r2 , schlecht für kleine. Geometrisch bedeutet r = 0, dass die Vektoren ~x, ~y senkrecht stehen. Stochastisch bedeutet es, dass x, y linear unkorreliert sind. Für Skalarprodukte h ~x | ~y i gilt die Cauchy–Schwarz–Ungleichung. ?? Zur Wiederholung siehe Kimmerle–Stroppel, Lineare Algebra, §2.6 Bestimmung der Ausgleichsgeraden V354 Erläuterung Wir nehmen an, Y hängt linear von X ab plus zufällige Störung F : Y = a + bX + F etwa mit F ∼ N (0, σF2 ) Wie gut ist unsere Schätzung â, b̂ für die unbekannten Parameter a, b? Wir betrachten unabhängig wiederholte Messungen (Xi , Yi ) und analysieren unsere Schätzungen â, b̂ als Zufallsvariable Â, B̂: Yi = a + b Xi + Fi , n 1X Xi , X̂ := n i=1 P (Xi − X̂)(Yi − Ŷ ) , B̂ = P (Xi − X̂)2 Fi ∼ N (0, σF2 ) n 1X Ŷ := Yi n i=1  = Ŷ − B̂ X̂ Wir nehmen vereinfachend an, die additiven Fehler Fi ∼ N (0, σF2 ) sind normalverteilt. Dann sind die Zufallsvariablen  und B̂ normalverteilt; allgemein gilt dies für große n in guter Näherung dank ZGS. Bestimmung der Ausgleichsgeraden V355 Erläuterung Für die Erwartungen finden wir (nach kurzer Rechnung): P (xi − x̂)(yi − ŷ) P E(Â) = a ≈ â := ŷ − b̂ x̂ E(B̂) = b ≈ b̂ := , (xi − x̂)2 Für die Varianzen finden wir (nach längerer Rechnung): P 2 σF (â + b̂ xi − yi )2 2 P V(B̂) = ≈ σ̂b := n V(X) (n − 2) (xi − x̂)2 n X σF2 E(X 2 ) 1 V(Â) = ≈ σ̂a2 := σ̂b2 · x2i n V(X) n i=1 Die Form der Varianzschätzer ist plausibel, die kleine Korrektur von 1/n zu 1/(n − 1) oder 1/(n − 2) sichert die richtige Erwartung. (Für große n, etwa n 100, ist diese Korrektur meist unerheblich.) Hieraus erhalten wir Vertrauensintervalle, etwa 2σ zu 95% Sicherheit. Der Aufwand lohnt sich: Wir gewinnen ein Maß für die (Un)Sicherheit. Wir bekommen nicht nur Punktschätzer der gesuchten Werte a, b, sondern sogar Intervallschätzer: Das enthält viel mehr Information! Grundlose Schätzungen sind sinnlos, wir brauchen Sicherheit! Zufallsvariablen und Erwartungswerte V401 Fazit Sei (Ω, A , P) ein WRaum ?? , zum Beispiel diskret oder kontinuierlich. Eine reelle Zufallsvariable ist eine messbare Funktion X : Ω → R. Sie ordnet jedem Ergebnis ω ∈ Ω eine reelle Zahl X(ω) ∈ R zu. Ihre Verteilung PX : B(R) → [0, 1] im Bildbereich R ist definiert durch PX (B) = P(X ∈ B) = P ω ∈ Ω X(ω) ∈ B . Ihr Erwartungswert ist gegeben durch ˆ ˆ µ = E(X) := X(ω) dP = x dPX . R Ω Ist die Verteilung PX auf R kontinuierlich mit Dichte f : R → R≥0 , so gilt ˆ E(X) = x f (x) dx. R Ist PX diskret mit Wkten p(x) = P({ ω ∈ Ω | X(ω) = x }), so gilt X E(X) = x p(x). x∈R Varianz und Streuung V402 Fazit Das (absolute, zentrierte) n–te Moment von X ist gegeben durch h n i E X − µ . Fall n = 2: Die Varianz von X ist die mittlere quadratische Abweichung h 2 i 2 = E(X 2 ) − E(X)2 ≥ 0. σ (X) = V(X) := E X − µ Die Streuung oder Standardabweichung ist die Quadratwurzel p σ(X) := V(X). Nach Chebychev gelten folgende Abschätzungen, wobei h, k > 0: 1 1 P |X − µ| ≥ kσ ≤ 2 , P µ − kσ < X < µ + kσ ≥ 1 − 2 k k 1 4(hk − 1) P X ≥ µ + kσ ≤ , P µ − hσ < X < µ + kσ ≥ 1 + k2 (h + k)2 Unabhängige Zufallsvariablen V403 Fazit Eine Familie X = (X1 , . . . , Xn ) von Zufallsvariablen Xk : Ω → R heißt (stochastisch) unabhängig, wenn für alle Intervalle Ik ⊂ R gilt P(X1 ∈ I1 , . . . , Xn ∈ In ) = P(X1 ∈ I1 ) · · · P(Xn ∈ In ). Ihre gemeinsame Verteilung ist dann die Produktverteilung: P(X1 ,...,Xn ) = PX1 ⊗ · · · ⊗ PXn . Sind PX1 , . . . , PXn auf R kontinuierliche WMaße mit Dichten f1 , . . . , fn , so ist auch das Produktmaß auf Rn kontinuierlich, mit Produktdichte f (x1 , . . . , xn ) = f1 (x1 ) · · · fn (xn ). Sind X, Y unabhängige Zufallsvariablen, dann gilt nach Fubini: E(X · Y ) = E(X) · E(Y ) Für die Varianzen unabhängiger Zufallsvariablen folgt Additivität: V(X + Y ) = V(X) + V(Y ) Dies sind besonders einfache und nützliche Formeln. Für abhängige Zufallsvariablen gelten sie i.A. nicht! Das Gesetz der großen Zahlen V404 Fazit Eine Messung / ein Experiment entspricht einer Zufallsvariablen X : Ω → R mit Erwartung µ = E(X) und Varianz σ 2 = V(X) < ∞. Wir führen unabhängige Wiederholungen X1 , X2 , X3 , . . . durch. Aus diesen Messwerten bilden wir den empirischen Mittelwert 1 X̂ := X1 + · · · + Xn . n Es gilt E(X̂) = µ und dank Unabhängigkeit zudem V(X̂) = σ 2 /n. √ Mit zunehmendem n streut X̂ immer weniger, gemäß 1/ n → 0. Der Mittelwert nähert sich dem Erwartungswert: Für jedes ε > 0 gilt σ2 P |X̂ − µ| ≥ ε ≤ → 0. n ε2 Dieser Grenzwert besagt in Worten: Große Abweichungen |X̂ − µ| ≥ ε sind beliebig unwahrscheinlich, wenn man n hinreichend groß wählt. In praktischen Anwendungen möchte man n nicht allzu groß wählen, denn wiederholte Messungen sind teuer. Wir brauchen daher bessere Schranken für die Abweichung P(|X̂ − µ| ≥ ε). Diese liefert der ZGS! Der zentrale Grenzwertsatz (ZGS) V405 Fazit Der ZGS besagt: Die Summe S = X1 + · · · + Xn vieler unabhängiger aber ähnlich großer Zufallsvariablen ist annähernd normalverteilt. Sei (Ω, A , P) ein WRaum und X1 , X2 , X3 , . . . : Ω → R unabhängig mit endlichen Erwartungen µk = E(Xk ), strikt positiven Varianzen σk2 = E(|Xk − µk |2 ) ≥ σ02 > 0, beschränkten dritten Momenten ρ3k = E(|Xk − µk |3 ) ≤ ρ30 < ∞. Die Summe S = X1 + · · · + Xn hat die Erwartung µ = µ1 + · · · + µn und die Varianz σ 2 = σ12 + · · · + σn2 . Es gilt PS ≈ N (µ, σ 2 ), genauer: ˆ (b−µ)/σ −ξ2 /2 e √ P(a ≤ S ≤ b) = dξ + δ 2π (a−µ)/σ und für den Approximationsfehler δ gilt die allgemeine Schranke |δ| ≤ ρ31 + · · · + ρ3n (σ12 + · · · + σn2 )3/2 ≤ ρ30 √ 3 σ0 n → 0. Der lokale Grenzwertsatz U3A ist spezieller, dabei aber auch präziser. Konfidenzintervalle V406 Fazit In der Praxis ist folgende Anwendung des ZGS besonders wichtig: Als Stichprobe führen wir n unabhängige Messungen aus. Aus den so gewonnenen Messwerten x1 , . . . , xn berechnen wir n den Stichprobenmittelwert 1X x̂ := xk , n k=1 n die Stichprobenvarianz 1 X σ̂ 2 := (xk − x̂)2 , n−1 k=1 das 2σ–Konfidenzintervall I2 := h σ̂ σ̂ i x̂ − 2 √ , x̂ + 2 √ . n n Für große n gilt: Bei 95% aller Stichproben überdeckt das Intervall I2 den (festen aber uns unbekannten) Erwartungswert µ = E(X). √ Der Nenner n bedeutet: Für doppelte Genauigkeit braucht man eine viermal größere Stichprobe, für zehnfache Genauigkeit eine 100mal größere Stichprobe. Das ist Fluch und Segen der großen Zahlen! Verständnisfragen: Zufallsvariablen V407 Fazit Versuchen Sie, folgende Fragen frei aber genau zu beantworten, etwa so, wie Sie sie einem Kommilitonen / Kollegen erklären wollen. Was ist ein Wahrscheinlichkeitsraum (Ω, A , P)? Was ist hierauf eine (reelle) Zufallsvariable X? Was ist ihre Verteilung PX auf R? Wie berechnet man den Erwartungswert µ = E(X)? bei diskreter Verteilung? bei kontinuierlicher Verteilung? Wie berechnet man die Varianz σ 2 = V(X) und Streuung σ? Was sind die Momente von X? Nennen Sie wichtige Verteilungen und ihre Anwendungen. Was sind ihre Kenngrößen µ und σ? Wie berechnet man sie? Wie verhalten sie sich bei einer affinen Skalierung Y = aX + b? Wie lauten und was besagen die Ungleichungen von Chebychev? Wann lassen sie sich anwenden, was muss man hierzu wissen? Gibt es genauere Ungleichungen, wenn man die Verteilung kennt? Z.B. für die Normalverteilung? Was besagt die 68–95–99–Regel? Verständnisfragen: zentraler Grenzwertsatz V408 Fazit Wann sind zwei Zufallsvariablen X, Y unabhängig? Wann sind die Indikatorfunktionen IA , IB zweier Ereignisse A, B ⊂ Ω unabhängig? Kennen Sie weitere Beispiele von un/abhängigen Zufallsvariablen? Gilt stets E(X + Y ) = E(X) + E(Y )? und E(X · Y ) = E(X) · E(Y )? und V(X + Y ) = V(X) + V(X)? Was gilt bei Unabhängigkeit? Was sind Erwartungswert und Varianz für B(1, t)? Wie kann man hieraus mühelos Erwartungswert und Varianz von B(n, t) ablesen? Was besagt das Gesetz der großen Zahlen? Wie kann man Wkten / Erwartungswerte empirisch messen? Wie schnell ist die Konvergenz? Was besagt der zentrale Grenzwertsatz? Welche drei Voraussetzungen braucht, welche Schlussfolgerung gewinnt man? Wie schnell ist die Konvergenz? Was ist gleich / anders beim lokalen Grenzwertsatz? Wie berechnet man Stichprobenmittelwert und -Varianz? Wie bestimmt man hieraus das Konfidenzintervall der Stichprobe? Wie liegt es zum (gesuchten aber unbekannten) Erwartungswert? ZGS: Wann erhalten wir die Normalverteilung? V409 Erläuterung Die Voraussetzungen σk ≥ σ0 > 0 und ρk ≤ ρ0 < ∞ des zentralen Grenzwertsatzes V3A stellen sicher, dass alle Beiträge X1 , X2 , X3 , . . . ähnlich stark streuen. Andernfalls können wir nicht garantieren, dass ihre Summen Sn = X1 + · · · + Xn sich der Normalverteilung nähern. Warnende Gegenbeispiele illustrieren dies, einfach aber eindrücklich: Seien X1 , X2 , X3 . . . : Ω → {0, 1} gleichverteilte Zufallsvariablen, also P(Xk =0) = P(Xk =1) = 1/2, und untereinander unabhängig. Aufgabe: (1) Wir betrachten die Summe Sn = X1 + · · · + Xn sowie ihre Normierung Sn∗ = (Sn − µ(Sn ))/σ(Sn ), sodass µ(Sn∗ ) = 0 und σ(Sn∗ ) = 1. (a) Berechnen Sie explizit µ(Xk ), σ(Xk ), ρ(Xk ) sowie µ(Sn ), σ(Sn ). (b) Bestimmen Sie die Verteilung PSn , skizzieren Sie die ersten Fälle. (c) Welche Voraussetzungen des ZGS sind erfüllt, welche nicht? (d) Welcher Grenzverteilung nähern sich PSn bzw. PSn∗ für n → ∞? (2) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = X1 . (3) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2−k Xk . (4) Dieselben Fragen (a–d) für Sn = Y1 + · · · + Yn mit Yk = 2k−1 Xk . Variante: X1 , X2 , X3 . . . : Ω → {−1, 0, +1} und (3–4) zur Basis 3 statt 2. ZGS: Wann erhalten wir die Normalverteilung? V410 Erläuterung 0.08 B(100, 0.5) N (50, 25) 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 35 40 45 50 55 60 65 ZGS: Wann erhalten wir die Normalverteilung? V411 Erläuterung Lösung: (1a) Hier gilt µ(Xk ) = 1/2 und σ 2 (Xk ) = 1/4 und ρ3 (Xk ) = 1/8, dank Linearität µ(Sn ) = n/2, dank Unabhängigkeit σ 2 (Sn ) = n/4. (1b) Wir wissen bereits PSn = B(n, p) mit p = 1/2, also ausgeschrieben: n k n 1 P Sn = k = p (1 − p)n−k = k 2n k (1c) Alle drei Voraussetzungen des Satzes V3A sind hier erfüllt! 4 4 4 (1d) Dank ZGS erhalten wir PSn∗ → N (0, 1). Ausführlich und genauer: ˆ (b−µn )/σn −ξ2 /2 e √ P(a ≤ Sn ≤ b) = dξ + δ 2π (a−µn )/σn ˆ β −ξ2 /2 e ∗ √ P(α ≤ Sn ≤ β) = dξ +δ 2π α √ mit der Fehlerschranke |δ| ≤ 1/ n → 0. Der lokale Grenzwertsatz U3A garantiert die noch bessere Fehlerschranke |δ| ≤ 4/3n für n ≥ 100. Ohne Normierung gilt P(Sn ∈ [a, b]) → 0 für n → ∞. (Skizze!) ZGS: Wann erhalten wir die Normalverteilung? V412 Erläuterung (2a) Wie in (1a) gilt µ(Yk ) = 1/2 und σ 2 (Yk ) = 1/4 und ρ3 (Yk ) = 1/8. Für die Summe Sn = nX1 gilt µ(Sn ) = n/2 aber σ 2 (Sn ) = n2 /4. (2b) Die Summe Sn ist gleichverteilt auf {0, n}, das heißt, sie nimmt nur zwei Werte an: P(Sn =0) = P(Sn =n) = 1/2. Normiert ist Sn∗ = 2X1 − 1 gleichverteilt auf {−1, +1}. (2c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Varianzen σk2 = 1/4 > 0 sind strikt positiv. Die dritten Momente ρ3k = 1/8 < ∞ sind beschränkt. Aber die Zufallsvariablen Y1 , Y2 , . . . sind nicht unabhängig! 4 4 8 Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Tatsächlich konvergiert PSn∗ nicht gegen die Normalverteilung N (0, 1)! (2d) Für alle n ist die normierte Summe Sn∗ gleichverteilt auf {−1, +1}. Ohne Normierung gilt für n → ∞ der Grenzwert P(Sn ∈ [a, b]) → 0 falls 0 ∈ / [a, b] und P(Sn ∈ [a, b]) → 1/2 falls 0 ∈ [a, b]. Das ist keine WVerteilung mehr: Wie in (1d) verschwindet Masse nach Unendlich. ZGS: Wann erhalten wir die Normalverteilung? S0 V413 Erläuterung Die Summen Sn = Y1 + Y2 + · · · + Yn mit Yk = 2−k Xk und Xk ∼ B(1, 1/2) als ein binärer Baum. +Y1 S1 +Y2 +Y2 S2 S3 S4 ZGS: Wann erhalten wir die Normalverteilung? V414 Erläuterung (3a) Für Yk = 2−k Xk gilt dank (1a) nach Skalierung µ(Yk ) = 2−k /2 und σ 2 (Yk ) = 2−2k /4 und ρ3 (Yk ) = 2−3k /8. Dank Linearität gilt dann µ(Sn ) = (1 − 2−n )/2, dank Unabhängigkeit σ 2 (Sn ) = (1 − 2−2n )/12. (3b) Im Binärsystem gilt: Sn = 2−1 X1 + 2−2 X2 + · · · + 2−n Xn = (0.X1 X2 . . . Xn )bin Demnach ist PSn die Gleichverteilung auf der endlichen Menge Mn = m/2n m = 0, 1, . . . , 2n − 1 ⊂ [0, 1]. (3c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig. Die dritten Momente ρ3k = 2−3k /8 ≤ ρ31 = 1/64 < ∞ sind beschränkt. Hingegen gilt σk2 = 2−2k /4 & 0, also nicht σk ≥ σ0 > 0. Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Genauer zeigen wir schließlich, dass die Verteilungen PSn bzw. PSn∗ tatsächlich nicht gegen die Normalverteilung konvergieren! 4 4 8 ZGS: Wann erhalten wir die Normalverteilung? V415 Erläuterung (3d) Für n → ∞ nähert sich PSn der Gleichverteilung auf [0, 1]. Dank (3b) scheint dies plausibel. Wir rechnen es ausführlich nach. Für alle 0 ≤ a < b ≤ 1 und k ∈ N gelten folgende Implikationen: [a, b] ∩ Mn = k =⇒ k2−n ≤ |b − a| < (k + 1)2−n =⇒ [a, b] ∩ Mn ∈ {k, k + 1} Man beweist dies für k = 0 und per Induktion für k = 1, 2, 3, . . . . Also: b(b − a)2n c + {0, 1} P Sn ∈ [a, b] ∈ → |b − a| 2n Die Wahrscheinlichkeit für das Ereignis Sn ∈ [a, b] geht für n → ∞ gegen die Intervalllänge |b − a|. Das ist die Gleichverteilung auf [0, 1]. Demnach konvergiert die normierte Zufallsvariable Sn∗ = (Sn −√ µn )/σ √n gegen die kontinuierliche Gleichverteilung auf dem Intervall [− 3, 3]. All diese Verteilungen haben Erwartung 0 und Streuung 1. ?? ZGS: Wann erhalten wir die Normalverteilung? V416 Erläuterung (4a) Für Yk = 2k−1 Xk gilt nach (1a) dank Skalierung µ(Yk ) = 2k−1 /2 und σ 2 (Yk ) = 22k−2 /4 und ρ3 (Yk ) = 23k−3 /8. Dank Linearität gilt µ(Sn ) = (2n − 1)/2 dank Unabhängigkeit σ 2 (Sn ) = (22n − 1)/12. (4b) Im Binärsystem gilt: Sn = X1 + 2X2 + · · · + 2n−1 Xn = (Xn . . . X2 X1 )bin Demnach ist PSn die Gleichverteilung auf der endlichen Menge Mn = 0, 1, . . . , 2n − 1 ⊂ N. (4c) Nur zwei der drei Voraussetzungen des ZGS sind hier erfüllt: Die Zufallsvariablen Yk = 2−k Xk sind untereinander unabhängig. Die Varianzen σk2 = 22k−2 /4 ≥ σ12 = 1/4 > 0 sind strikt positiv. Hingegen gilt ρ3k = 23k−3 /8 % ∞, also nicht ρk ≤ ρ0 < ∞. 4 4 8 Der zentrale Grenzwertsatz lässt sich daher hier nicht anwenden. Wie in (3d) folgt, dass die Verteilung von Sn∗ tatsächlich nicht gegen √ √ N (0, 1) konvergiert, sondern gegen die Gleichverteilung auf [− 3, 3]. Vergleich: Binomial, Poisson, Normal V417 Erläuterung N (10, 10) B(200, 0.05) P (10) 0.12 0.10 0.08 0.06 0.04 0.02 0 0 2 4 6 8 10 12 14 16 18 20 22 Aufgabe: Die Poisson–Näherung B(n, µ/n) → P (µ) für n → ∞ und der LGS B(n, µ/n) ≈ N (µ, µ) zeigen P (µ) ≈ N (µ, µ) wie skizziert. Welche Fehlerschranke gilt demnach zwischen P (µ) und N (µ, µ)? Vergleich: Binomial, Poisson, Normal V418 Erläuterung Lösung: Für µ ≥ 0 ist die Poisson–Verteilung gegeben durch µk −µ P (µ) : N → [0, 1] mit P (µ)(k) = e . k! Sie hat Erwartung µ und Varianz σ 2 = µ. Für t = µ/n und n → ∞ gilt n k µk −µ n−k B(n, t) → P (µ) also punktweise t (1 − t) → e . k k! Dank LGS nähert sich also auch die Poisson– der Normalverteilung: ˆ β −ξ2 /2 b b k X X n k µ e √ t (1 − t)n−k → e−µ = dξ + δ k k! 2π α k=a k=a ˆ β −ξ2 /2 h 1 − ξ2 iβ e −ξ 2 /2 √ √ e = dξ + + ε α 2π 6σ 2π α mit den Grenzen α = (a − 1/2 − µ)/σ und β = (b + 1/2 − µ)/σ und Fehlerschranken |δ| < 1/(6σ) bzw. |ε| < 1/(3σ 2 ) für σ ≥ 5. √ Dies zeigt |δ| < 1/σ → 0, aber auch |δ| ∼ const/ n im ZGS. Poissons Gesetz der kleinen Zahlen V419 Erläuterung Zum Vergleich mit dem ZGS nochmal die Poisson–Approximation: Satz V4A (Poissons Gesetz der kleinen Zahlen) Seien X1 , . . . , Xn : Ω → {0, 1} unabhängig mit P (Xk =1) = pk ∈ [0, 1], also jeweils B(1, pk )–verteilt mit E(Xk ) = pk und V(Xk ) = pk (1 − pk ). Die Summe S = X1 + · · · + Xn hat die Erwartung µ = p1 + · · · + pn und dank Unabhängigkeit die Varianz σ 2 = pk (1 − pk ) + · · · + pn (1 − pn ). Für kleine pk ist S annähernd Poisson–verteilt, PS ≈ P (µ). Genauer: PS − P (µ) ≤ p21 + · · · + p2n Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, und somit B(n, p) − P (µ) ≤ np2 = µ2 /n. Poissons Gesetz der kleinen Zahlen V420 Ergänzung Mit den Techniken dieses Kapitels können wir diese allgemeine Fassung beweisen und die explizite Fehlerschranke nachrechnen: Aufgabe: (0) Definieren Sie den totalen Abstand diskreter WMaße. (1) Sind X ∼ P (λ) und Y ∼ P (µ) unabhängig und Poisson–verteilt, dann ist ihre Summe X + Y ∼ P (λ + µ) ebenfalls Poisson–verteilt. (2) Berechnen Sie den Abstand der WMaße B(1, p) und P (p).2 Vergröbern Sie die exakte Rechnung zu B(1, p) − P (p) ≤ p . (3) Bei Produktmaßenaddieren sich die totalen Abstände gemäß0 0 0 0 der einfachen Formel P ⊗ Q − P ⊗ Q = P − P + Q − Q . (4) Seien P, P0 WMaße auf Ω und S : Ω → N eine Zufallsvariable. Für den Abstand der Bildmaße gilt dann kPS − P0S k ≤ kP − P0 k. (5) Folgern Sie Poissons Gesetz der kleinen Zahlen (Satz V4A). Poissons Gesetz der kleinen Zahlen V421 Ergänzung Lösung: Wir beginnen mit der Erinnerung zur Abstandsmessung: (0) Für diskrete WMaße P0 , P1 nutzen wir den totalen Abstand T323 : X P0 ({ω}) − P1 ({ω}) P0 − P1 := sup P0 (A) − P1 (A) = 1 2 A⊂Ω ω∈Ω (1) Wir berechnen die Wkten geduldig und sorgsam: X disj P(X + Y = n) = P(X = k, Y = `) k+`=n unabh = = X P(X = k)P(Y = `) = ` X λk −λ µ −µ e · e k! `! k+`=n k+`=n n 1 −(λ+µ) X n k n−k e λ µ n! k (λ + µ)n −(λ+µ) e n! k=0 = Dies beweist die Faltung P (λ) ∗ P (µ) = P (λ + µ). Poissons Gesetz der kleinen Zahlen V422 Ergänzung (2) Auf der Menge N vergleichen wir die Binomialverteilung B(1, p) mit Trefferwkt p ∈ [0, 1] und die Poisson–Verteilung P (p) zum Parameter p: X B(1, p)(k) − P (p)(k) 2 B(1, p) − P (p) = k∈N X ∞ 1 0 p p pk −p −p −p = (1 − p) − e + p − e + e 0! 1! k! k=2 = (e−p − 1 + p) + p(1 − e−p ) + (1 − e−p − p e−p ) = 2p(1 − e−p ) ≤ 2p2 Hierbei nutzen wir zweimal die Ungleichung 1 − p ≤ e−p . T106 Wir erhalten die ersehnte Abschätzung des totalen Abstands: B(1, p) − P (p) ≤ p2 Dies ist Satz V4A für den einfachsten Fall n = 1. Wir übertragen die Ungleichung nun von X1 , . . . , Xn auf ihre Summe S = X1 + · · · + Xn . Poissons Gesetz der kleinen Zahlen V423 Ergänzung (3) Gegeben sind WMaße P, P0 auf der Menge A sowie Q, Q0 auf B. Auf Ω = A × B vergleichen wir die Produktmaße P ⊗ Q und P0 ⊗ Q0 : X 0 0 0 0 2 P⊗Q−P ⊗Q = p(a)q(b) − p (a)q (b) (a,b)∈A×B = X (a,b)∈A×B = X (a,b)∈A×B = XX a∈A b∈B p(a)q(b) − p0 (a)q(b) + p0 (a)q(b) − p0 (a)q 0 (b) p(a) − p0 (a) · q(b) + p0 (a) · q(b) − q 0 (b) XX 0 0 0 q(b) · p(a) − p (a) + p (a) · q(b) − q (b) b∈B a∈A X X 0 q(b) − q 0 (b) = 2kP − P0 k + 2kQ − Q0 k = p(a) − p (a) + a∈A b∈B Wir erhalten folgende nützliche Gleichung für den totalen Abstand: P ⊗ Q − P0 ⊗ Q0 = kP − P0 k + kQ − Q0 k Poissons Gesetz der kleinen Zahlen V424 Ergänzung (4) Es gilt |PS (A) − P0S (A)| = |P(S −1 (A)) − P0 (S −1 (A))| ≤ kP − P0 k für jede Teilmenge A ⊂ N. Hieraus folgt die nützliche Ungleichung kPS − P0S k ≤ kP − P0 k. (5) Dank (2,3) haben die Produktmaße P = B(1, p1 ) ⊗ · · · ⊗ B(1, pn ) und P0 = P (p1 ) ⊗ · · · ⊗ P (pn ) auf Nn den totalen Abstand P − P0 ≤ p21 + · · · + p2n . Unter P ist die Treffersumme S = X1 + · · · + Xn verteilt gemäß PS . Unter P0 ist das Bildmaß P0S = P (µ) die Poisson–Verteilung dank (1). Dank (4) haben beide Bildmaße auf N den totalen Abstand PS − P (µ) ≤ p21 + · · · + p2n . Das ist Poissons Gesetz der kleinen Zahlen (Satz V4A). Spezialfall: Für p1 = · · · = pn = p ist S exakt B(n, p)–verteilt, also B(n, p) − P (µ) ≤ np2 = µ2 /n. Anwendungsbeispiel: radioaktiver Zerfall V425 Ein Atom Uran 238 zerfällt in der nächsten Stunde mit Wkt p = 2 · 10−14 . Eine Probe von 20mg enthält etwa n = 5 · 1019 Atome. Wir nehmen die Zerfälle als stochastisch unabhängig an (insb. ohne Kettenreaktion). Aufgabe: Sei X die Gesamtzahl der Zerfälle in der nächsten Stunde. (1) Nennen Sie die exakte Verteilung (in diesem vereinfachten Modell). (2) Berechnen Sie Erwartung µ = E(X), Varianz σ 2 = V(X), Streuung σ. Runden Sie jedes Ergebnis auf die nächstgelegene ganze Zahl. (3) Wie klein ist der totale Abstand zur Poisson–Verteilung P (µ)? (4) Wie klein ist der Näherungsfehler zur Normalverteilung N (µ, σ 2 )? (5) Bestimmen Sie die Wahrscheinlichkeit P |X − µ| ≤ 2500 in Prozent, gerundet auf den nächstgelegenen Prozentpunkt. (6) Ist unser Modell für Uran 238 realistisch? Warum / warum nicht? (7) Würden Sie diese Rechnung ebenso durchführen bei spaltbarem Material, etwa Uran 235? (Hier kann eine Kettenreaktion entstehen. Dies wird genutzt zum Beispiel als Kernreaktor oder als Kernwaffe.) Anwendungsbeispiel: radioaktiver Zerfall V426 Lösung: (1) Es handelt sich um die Binomialverteilung B(n, p): n k P(X=k) = p (1 − p)n−k k (2) Erwartung, Varianz und Streuung von B(n, p) sind µ = E(X) = np = 5 · 1019 · 2 · 10−14 = 106 σ 2 = V(X) = np(1 − p) = 106 − 2 · 10−8 ≈ 106 p √ p 6 −8 σ = V(X) = 10 − 2 · 10 ≈ 106 = 103 (3) Es gilt PX − P (µ) ≤ np2 = 5 · 1019 · 4 · 10−28 = 2 · 10−8 . (4) Im LGS bzw. ZGS gilt für den Approximationsfehler δ die Schranke |δ| ≤ |1 − 2p| 1 1 1 + 2 < < = 10−3 . 10σ 3σ 6σ σ Mancher verwendet die Grenzwertsätze nur gefühlt „nach Erfahrung“. Die Fehlerschranken sind weitaus präziser als eine vage Erfahrung. Sie helfen insbesondere auch dort, wo noch keine Erfahrung vorliegt! Anwendungsbeispiel: radioaktiver Zerfall V427 (5) Dank (4) ist die Normalverteilung ausreichend genau: ˆ α ˆ 2.5 ϕ(t) dt = 2 · ϕ(t) dt P |X − µ| ≤ 2500 ≈ −α ≈ 2 · 0.49379 = 0.98758 t=0 ≈ 99% Wir entscheiden uns hier für den lokalen Grenzwertsatz U3A und nähern die Binomialverteilung durch die Normalverteilung. Dank unserer Fehlerabschätzung (4) ist das genau genug. Genau genommen müssten wir mit α = 2500.5/σ = 2.5005 rechnen, aber die Stetigkeitskorrektur ist hier klein und fällt nicht ins Gewicht. Die Poisson–Verteilung wäre nach (3) eine noch bessere Näherung. Für P (1 000 000) haben wir hier allerdings keine Tabelle vorliegen. Es gibt auch kumulative Tabellen zu Poisson–Verteilungen P (µ); noch bequemer ist heutzutage die Nutzung eines Computers. Anwendungsbeispiel: radioaktiver Zerfall V428 Erläuterung (6) Ja. Zwischen Uran 238 findet nahezu keine Wechselwirkung statt. (7) Nein. Die stochastische Unabhängigkeit der Zerfälle gilt nicht mehr! Allein die größere Zerfallswkt p ∈ [0, 1] ändert nicht das Modell. Doch unser Modell B(n, p) beruht auf stochastischer Unabhängigkeit! Andernfalls ist die Anzahl X der Zerfälle nicht mehr binomialverteilt. Eine fahrlässige, falsche Modellbildung kann zu Katastrophen führen! Zwar sind die Werte innerhalb des Modells noch rechnerisch richtig, aber das gewählte Modell beschreibt keineswegs die Wirklichkeit. Die Grundlagen der Kernphysik gehören natürlich nicht zur HM3, aber soviel Anwendungsbezug gehört zur Allgemeinbildung für technisch Gebildete, insbesondere angehende Ingenieure. Ein qualitatives Modell kennen Sie vielleicht aus der Schule: Die Kettenreaktion entsteht, weil beim Zerfall Neutronen emitiert werden, die von anderen Atomkernen absorbiert werden und diese zum Zerfall anregen. Das ist das Gegenteil von Unabhängigkeit! Otto Hahn (1879–1968) bekam für diese wichtige Entdeckung 1945 den Nobelpreis für Chemie. Ihre Anwendungen, zum Guten wie zum Bösen, prägten das 20. Jahrhundert und wirken fort. Zufällige Irrfahrt / Random Walk 1−p a−1 a V429 Erläuterung p a+1 Zufällige Irrfahrt: Zur Zeit t = 0 starten Sie im Punkt S0 = a. Im Schritt von St nach St+1 gehen Sie mit Wahrscheinlichkeit p ∈ [0, 1] nach rechts und entsprechend mit Wahrscheinlichkeit (1 − p) nach links. Das heißt, St : Ω → Z ist gegeben durch St = a + X1 + · · · + Xt mit unabhängigen Zuwächsen, P(Xt =+1) = p und P(Xt =−1) = 1 − p. Das ist ein einfaches aber wichtiges Modell. Mögliche Anwendung: Kontostand bei zufälligen Gewinnen und Verlusten. Daher werden solche Modelle häufig für Aktienkurse genutzt. Ähnlich entsteht die Brownsche Bewegung durch Wärmebewegung. Der schottische Botaniker Robert Brown (1773–1858) entdeckte 1827 unter dem Mikroskop das unregelmäßige Zittern von Pollen in Wasser. Anfangs hielt er Pollen für belebt, doch er fand dasselbe bei Staubteilchen. Albert Einstein erklärte die Zitterbewegung 1905 durch die ungeordnete Wärmebewegung der Wassermoleküle, die aus allen Richtungen in großer Zahl gegen die Pollen stoßen. Quantitativ konnte er so die Größe von Atomen bestimmen und die Anzahl pro Mol (Avogadro–Zahl). Die präzisen quantitativen Vorhersagen wurden in den Folgejahren experimentell bestätigt. Zufällige Irrfahrt / Random Walk V430 Erläuterung St Vier mögliche Pfade der Irrfahrt t Aufgabe: (1) Bestimmen Sie die Wahrscheinlichkeit P(St = b). Wir untersuchen speziell den symmetrischen Fall p = 1/2, ohne Drift. (2) Sie beginnen im Startpunkt a ∈ Z und fixieren einen Zielpunkt b ∈ Z. Wie groß ist die Wahrscheinlichkeit, ihn irgendwann zu erreichen? (3) Wie groß ist hierzu die erwartete Anzahl von Schritten? Lösung: (1) Wir erhalten eine Binomialverteilung (affin transformiert): 1 t k t 1 p= P St = a − t + 2k = p (1 − p)t−k =2 k k 2t Zufällige Irrfahrt / Random Walk V431 Erläuterung (2) Wir fixieren den Zielpunkt b ∈ Z und formulieren die Frage neu: Sei u(a) ∈ [0, 1] die Wkt, vom Start a irgendwann zum Ziel b zu kommen. u(a) a b Offensichtlich gilt u(b) = 1, denn hier ist der Start auch sofort das Ziel. Für a > b gilt die Mittelwerteigenschaft u(a) = 12 u(a + 1) + 12 u(a − 1). Somit ist u : Z≥b → [0, 1] eine Gerade, u(a) = 1 + m(a − b). (Warum?) Zudem ist u beschränkt, daher folgt m = 0. Ebenso auf Z≤b . Die Gerade finden wir durch vollständige Induktion: Aus u(b) = 1 und u(b + 1) = 1 + m folgt u(a + 1) = 2u(a) − u(a − 1) = [2 + 2m(a − b)] − [1 + m(a − 1 − b)] = 1 + m(a + 1 − b). Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir jeden Punkt mit Wkt 1! George Pólya (1887–1985) zeigte 1921: Mit Wkt 1 besuchen wir jeden Punkt in Z unendlich oft. Dies gilt ebenso in Dimension 2 bei Irrfahrt auf dem ebenen Gitter Z2 . Erstaunlicherweise gilt es nicht mehr in Dimension n ≥ 3 bei Irrfahrt auf dem Gitter Zn . Anschaulich bedeutet das: Ein betrunkener Mensch findet sicher irgendwann nach Hause, ein betrunkener Vogel hingegen nicht! Zufällige Irrfahrt / Random Walk V432 Erläuterung (3) Sei Tb die Zeit des ersten Besuchs im Punkt b und Ea (Tb ) die erwartete Anzahl von Schritten vom Startpunkt a zum Zielpunkt b. Dies ist invariant unter Verschiebungen, also Ea+k (Tb+k ) = Ea (Tb ). Zunächst gilt Ea (Ta ) = 0. Für a 6= b zeigen wir nun Ea (Tb ) = ∞: x := E0 (T1 ) = 12 E1 (T1 ) +E−1 (T1 ) + 1 = 12 E−1 (T1 ) + 1 | {z } =0 E−1 (T1 ) = E−1 (T0 ) + E0 (T1 ) | {z } | {z } =x = 2x =x Hieraus folgt x = 21 (2x) + 1 = x + 1. Das ist für x ∈ R unmöglich. Es bleibt nur E0 (T1 ) = x = ∞. Also erst recht E0 (Tb ) = ∞ für alle b 6= 0. Bei einer symmetrischen Irrfahrt (p = 1/2, ohne Drift) erreichen wir jeden Punkt mit Wkt 1, aber die erwartete Weglänge ist unendlich! Die Rechnung ist einfach, dank unserer geschickten Formalisierung. Die Interpretation hingegen muss man erst einmal verarbeiten. Die naive Anschauung kann einen hier leicht narren. Anwendung des ZGS auf den fairen Würfel V433 Aufgabe: Sie würfeln 100 mal mit einem fairen Würfel. Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? Lösung: Für die Augenzahl X bei einem fairen Würfel gilt: E(X) = 1 · 1 6 E(X 2 ) = 12 · +2· 2 1 + 2 6 2 1 6 · +3· 1 6 1 6 2 +4· +3 · 1 6 1 6 +5· + 42 · 1 6 1 6 +6· + 52 · 1 6 1 6 = 21/6 = 3.5 + 62 · 1 6 = 91/6 V(X) = E(X ) − E(X)2 = 91/6 − 49/4 = 35/12 ≈ 2.9167 µ(X) = 3.5, σ 2 (X) ≈ 2.9167, σ(X) ≈ 1.7078 σ 2 (S) = 291.67, σ(S) ≈ 17.078 Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach: µ(S) = 350, Man bewundere die Magie der großen Zahlen! Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit √ n = 10. Im Verhältnis zum Erwartungswert 350 wird die Streuung 17 deutlich geringer! Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe! Anwendung des ZGS auf den fairen Würfel V434 Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt α = (390 − µ)/σ = (390 − 350)/17 ≈ 2.34. Chebychev gilt allgemein und liefert eine erste grobe Abschätzung: 1 / 0.16 1 + α2 Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist! Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung: ˆ ∞ −ξ2 /2 e √ P(S ≥ 390) ≈ dξ ≈ 0.01 2π α P(S ≥ 390) ≤ Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.49036 = 0.00964. Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (X) = 6.375. Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert. In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen: Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir: P(S ≥ 390) = 0.0102875 . . . ≈ 1% Anwendung des ZGS auf gezinkten Würfel V435 Aufgabe: Sie würfeln 100 mal mit unserem gezinkten Würfel. Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? Lösung: Für die Augenzahl Y bei unserem gezinkten Würfel gilt: E(Y ) = 1 · 0.15 + 2 · 0.16 + 3 · 0.16 + 4 · 0.16 + 5 · 0.16 + 6 · 0.21 = 3.65 E(Y 2 ) = 12 · 0.15 + 22 · 0.16 + 32 · 0.16 + 42 · 0.16 + 52 · 0.16 + 62 · 0.21 V(Y ) = E(Y 2 ) − E(Y )2 = 16.35 − 13.3225 = 3.0275 µ(Y ) = 3.65, σ 2 (Y ) ≈ 3.0275, σ(Y ) ≈ 1.74 Für die Augensumme S bei 100 unabhängigen Würfen gilt demnach: µ(S) = 365, σ 2 (S) = 302.75, σ ≈ 17.4 Man bewundere die Magie der großen Zahlen! Erwartungswert und Varianz werden mit n = 100 multipliziert, die Streuung jedoch nur mit √ n = 10. Im Verhältnis zum Erwartungswert 365 wird die Streuung 17.4 deutlich geringer! Aus diesem Grund liefern größere Stichproben zuverlässigere Ergebnisse. Doch alles im Leben hat seinen Preis: Für 10mal höhere Genauigkeit benötigt man eine 100mal größere Stichprobe! Anwendung des ZGS auf gezinkten Würfel V436 Abweichung vom Erwartungswert: Für S ≥ 390 = µ + ασ gilt α = (390 − µ)/σ = (390 − 365)/17.4 ≈ 1.44. Chebychev gilt allgemein und liefert eine erste grobe Abschätzung: 1 / 0.33 1 + α2 Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist! Der zentrale Grenzwertsatz nutzt die Normalverteilung als Näherung: ˆ ∞ −ξ2 /2 e √ P(S ≥ 390) ≈ dξ ≈ 0.075 2π α P(S ≥ 390) ≤ Hierzu genügt es, die Tabelle abzulesen: P(S ≥ 390) ≈ 0.5 − 0.42507 = 0.07493 ≈ 7.5% Der ZGS garantiert nur die pessimistische Fehlerschranke |δ| < 13%, mit ρ3 (Y ) = 6.745. Wir nehmen optimistisch an, dass die Normalverteilung hier wesentlich besser approximiert. In diesem konkreten Fall können wir das durch eine exakte Rechnung direkt nachprüfen: Exakte Rechnung: Durch mühsames Aufsummieren erhalten wir: P(S ≥ 390) = 0.0794448 . . . ≈ 8% Anwendung: fair oder gezinkt? V437 Aufgabe: Sie haben drei Würfel, zwei faire und unseren gezinkten (alle äußerlich gleich). Sie wählen einen zufällig und würfeln damit 100 mal. (1) Mit welcher Wkt erhalten Sie eine Augensumme S ≥ 390? (2) Angenommen S ≥ 390: Mit welcher Wkt ist der Würfel gezinkt? Lösung: (1) Die totale Wahrscheinlichkeit ist: P(S ≥ 390) = P(S ≥ 390|fair) P(fair) + P(S ≥ 390|gezinkt) P(gezinkt) ≈ 0.01 · 2/3 + 0.08 · 1/3 = 1/30 ≈ 3.33% (2) Nach der Formel von Bayes gilt: P(S ≥ 390|gezinkt) P(gezinkt) P(S ≥ 390) 0.08 · 1/3 ≈ = 80% 1/30 P(gezinkt|S ≥ 390) = Anwendung: fair oder gezinkt? V438 Erläuterung Wir frischen hier nochmals die Grundlagen aus Kapitel S auf. Dank der Formel von Bayes sind solche Rechnungen meist leicht – und doch oft überraschend. Üben Sie sich mit diesem Werkzeug! Ohne weitere Information ist der von Ihnen gewählte Würfel mit Wkt 1/3 gezinkt und mit Wkt 2/3 fair. Nach Durchführung des Tests mit dem Ergebnis S ≥ 390 ist er mit deutlich höherer Wkt von 80% gezinkt. Wir können nicht 100% sicher sein, aber der Test spricht dafür, dass der Würfel nicht fair ist. Ist eine höhere Sicherheit nötig, dann sollten Sie weitere Tests durchführen. Eine größere Datenreihe liefert größere Genauigkeit bzw. größere Sicherheit (wenn auch nie 100%). Anwendung: ZGS oder LGS? V439 Aufgabe: In einer Geburtsklinik beträgt die Wahrscheinlichkeit für eine Jungengeburt t = 0.514. Wie groß ist die Wahrscheinlichkeit, dass von den nächsten n = 1000 Neugeborenen genau k = 514 Jungen sind? Was sagt Chebychev? der ZGS? der LGS? die exakte Rechnung? Lösung: Wir haben S ∼ B(n, t). Wir suchen P(S = k). Es gilt: µ = E(S) = nt = 514, σ 2 = V(S) = nt(1 − t) ≈ 249.8, σ ≈ 15.8 Chebychev nützt für Intervalle um µ, aber nicht für einzelne Punkte! Das gilt auch für den ZGS. Mangels Stetigkeitskorrektur liefert er nur ˆ (k−µ)/σ −ξ2 /2 e √ P k≤S≤k = dξ + δ 2π (k−µ)/σ Pech: Das Integral verschwindet! Die Fehlerschranke liefert immerhin 1 0≤P k≤S≤k =δ≤ p / 0.032. 2 nt(1 − t) Die Ungleichung stimmt, aber damit sind wir noch nicht zufrieden! Anwendung: ZGS oder LGS? V440 Der LGS ist besser: Dank seiner Stetigkeitskorrektur liefert er ˆ (k+1/2−µ)/σ −ξ2 /2 n k e n−k √ P k≤S≤k = t (1 − t) ≈ dξ k 1 2π (k− /2−µ)/σ 2 e−(k−µ) /2σ √ ≈ σ 2π 2 1 = √ σ 2π (k=µ) ≈ 0.0252412 . . . Die Fehlerschranke ist wegen κ ≈ 0 hier |ε| < 1/(3σ 2 ) < 0.0014. Noch besser: Die exakte Rechnung ist hier direkt und mühelos! 1000 P S=k = (0.514)514 (0.486)486 = 0.0252349 . . . 514 Was lernen wir daraus? Augen auf bei der Methodenwahl! Diese bemerkenswerten Grenzwertsätze bilden einen umfangreichen Werkzeugkasten: Sie liefern mächtige Werkzeuge und ganz praktische Rechenregeln. Um sie zu nutzen, muss man die Voraussetzungen kennen und die Schlussfolgerungen verstehen. Es lohnt sich! Anwendung: Fehlerwahrscheinlichkeiten V441 Aufgabe: Ein Elektroniksystem habe n = 106 unabhängige Bauteile mit verschiedenen Fehlerwkten pk . Wir wissen nur 10−4 ≤ pk ≤ 10−2 . Wir denken an eine mehrjährige Marsmission, Störungen durch Sonnenwind, oder ähnliches. Fehler sind zahlreich, daher wollen wir ausreichend Redundanz für ein solches System. Ein explizites Beispiel für n = 3 haben wir auf Seite S317 ausführlich diskutiert. Sie interessieren sich für die Gesamtzahl S der auftretenden Fehler. (1) Berechnen Sie Erwartung µ = E(S) und Varianz σ 2 = V(S). Ist hier die Verteilung durch (µ, σ) bereits festgelegt? (2) Welche Modelle beschreiben die Verteilung von S exakt / approx.? Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken? (3) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern? Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern? (4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600. Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit? (5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10? Anwendung: Fehlerwahrscheinlichkeiten V442 (1) Wir berechnen zunächst Erwartung und Varianz (wie immer). Der Fehler des k-ten Bauteils ist eine ZVariable Pn Xk : Ω → {0, 1} mit P(Xk =1) = pk . Für die Gesamtsumme S = k=1 Xk erhalten wir: µ = E(S) = n X E(Xk ) = k=1 n X k=1 pk ∈ [100, 10 000] Da die X1 , . . . , Xn unabhängig sind, addieren sich auch die Varianzen: 2 σ = V(S) = n X k=1 V(Xk ) = n X k=1 pk (1 − pk ) ∈ [99, 9999]. Wegen (1 − pk ) ∈ [0.99, 1] gilt σ 2 ≈ µ bis auf 1% genau. Die exakte Verteilung ist allein durch (µ, σ) noch nicht festgelegt. Die Summe S ist nicht binomialverteilt, sobald die pk verschieden sind. Anwendung: Fehlerwahrscheinlichkeiten V443 (2) Welche Modelle beschreiben die Verteilung von S exakt / approx.? Binomial? Poisson? LGS? ZGS? mit welchen Fehlerschranken? Die Summe ist nicht binomialverteilt, da die pk verschieden sind. Poissons Gesetz der kleinen Zahlen liefert PS ≈ P (µ) mit Fehler kPS − P (µ)k ≤ p21 + · · · + p2n ∈ [0.01, 100]. Der LGS lässt sich nicht anwenden, da S nicht binomialverteilt ist. Der ZGS ist anwendbar und liefert PS ≈ N (µ, σ 2 ) mit Fehler ρ31 + · · · + ρ3n µ 1 ≈ = |δ| ≤ 2 √ µ (σ1 + · · · + σn2 )3/2 µ3/2 ∈ [0.01, 0.1]. Daher nutzen wir den ZGS für große pk und Poisson für kleine pk . Die einzelnen Summanden von S = X1 + · · · + Xn sind leicht zu verstehen: Xk ∼ B(1, pk ) hat Erwartung µk = E(Xk ) = pk , Varianz σk2 = V(Xk ) = pk (1 − pk ) ≈ pk , drittes Moment ρ3k = E(|Xk − µk |3 ) = pk (1 − pk )(p2k + (1 − pk )2 ) ≈ pk . Trotz der großen Zahl n = 106 ist die Fehlerschranke nicht besonders gut. Für Poisson sieht’s allerdings auch nicht besser aus. Anwendung: Fehlerwahrscheinlichkeiten V444 (3a) Wie beurteilen Sie einen Testlauf mit mehr als 11 000 Fehlern? Im Extremfall µ = 10 000 und σ = 100 liefert Chebychev ganz grob P(S ≥ 11 000) ≤ 1 < 0.01 mit k = 10. 1 + k2 Für die Normalverteilung sind 10σ–Abweichungen unwahrscheinlich: ˆ ∞ −ξ2 /2 e √ √ dξ < 10−23 , aber leider nur |δ| ≤ 1/ µ ∈ [0.01, 0.1]. 2π 10 Wenn wir der Normalverteilung glauben, dann ist eine 10σ–Abweichung praktisch unmöglich: Sie ist unwahrscheinlicher als dreimal nacheinander sechs Richtige im Lotto zu tippen! Exakt liegt hier allerdings nicht die Normalverteilung N (µ, σ 2 ) vor, daher müssen wir zusätzlich den Approximationsfehler berücksichtigen: Unsere Schranke aus (2) ist hier leider recht grob. Für µ < 10 000 wird alles nur noch schlimmer. Nach Beobachtung von 11 000 Fehlern scheint das Modell jedenfalls nicht mehr glaubwürdig! Dann ist die Annahme pk ≤ 10−2 nicht haltbar, oder die angenommene Unabhängigkeit ist nicht gegeben. Anwendung: Fehlerwahrscheinlichkeiten V445 (3b) Wie beurteilen Sie einen Testlauf mit etwa 10 100 Fehlern? Das ist etwa mit µ = 10 000 und σ = 100 durchaus vereinbar. (4) Durch N = 25 Testläufe ermitteln Sie x̂ ≈ 3600 und σ 2 ≈ 3600. Welches Konfidenzintervall überdeckt µ mit 95%iger Sicherheit? √ √ Wir haben σ ≈ 60 und N = 5, also 2σ/ N = 24. Als Intervall finden wir [3576, 3624]. (Das ist bereits recht genau.) (5) Wie viele Testläufe brächten eine 2σ–Genauigkeit von ±10? √ Wir verlangen 2σ/ N ≤ 10, im oben Beispiel σ ≈ 60 also N ≥ 144. (Das könnte in diesem Fall zu aufwändig, d.h. zu teuer sein.) Wie selten sind seltene Ereignisse? V446 Erläuterung „We were seeing things that were 25-standard deviation moves, several days in a row.“, sagte der Finanzvorstand von Goldman-Sachs, David Viniar, der Financial Times im August des Krisenjahres 2007. Aufgabe: Ist das plausibel? Meint er ernsthaft die Normalverteilung? Lösung: Für die Normalverteilung ist das sicher nicht plausibel! Die Wkt für kσ–Abweichungen nach Normalverteilung und Chebychev: ˆ ∞ −x2 /2 1 e √ pk = dx ≤ 1 + k2 2π k Die Werte von pk entnimmt man der (erweiterten) Tabelle: k= 2 3 4 5 6 pk / 0.02275 0.00135 3.2 · 10−5 2.9 · 10−7 9.9 · 10−10 k= 7 10 15 20 25 pk / 1.3 · 10−12 7.7 · 10−24 3.7 · 10−51 2.8 · 10−87 3.1·10−136 Letzteres ist unwahrscheinlicher als 20mal nacheinander im Lotto sechs Richtige zu tippen. Das genannte Modell scheint unplausibel / unseriös. Anwendung: ZGS oder LGS? V447 Ergänzung Wir untersuchen die Summe S = X1 + · · · + Xn von n unabhängigen ZVariablen X1 , . . . , Xn : Ω → R. Als Verteilungen betrachten wir dabei: (1) Xk ∼ N (µk , σk2 ) normalverteilt mit µk , σk ∈ R (2) Xk ∼ B(1, tk ) mit tk ∈ [0.1, 0.9] abhängig von k (3) Xk ∼ B(1, t) mit t ∈ [0.1, 0.9] unabhängig von k (4) Xk ∼ B(Nk , t) mit Nk ∈ N und t ∈ [0.1, 0.9] Aufgabe: Auf welche Summen S lässt sich der ZGS anwenden? Auf welche lässt sich zudem der speziellere LGS anwenden? Was lässt sich jeweils über den Approximationsfehler δ sagen? In welchen Fällen kennen Sie die exakte Verteilung von S? Anwendung: ZGS oder LGS? V448 Ergänzung Lösung: (1) Der ZGS lässt sich anwenden, aber nicht der LGS da die Summe S nicht binomialverteilt ist. Sie ist hier exakt normalverteilt: 2 S ∼ N (µ, σ ) mit µ= n X k=1 µk 2 und σ = n X σk2 k=1 Der Approximationsfehler ist demnach δ = 0, siehe folgende Aufgaben. (2) Der ZGS lässt sich anwenden, der LGS nicht da die Summe S nicht binomialverteilt ist. Den Approximationsfehler δ entnimmt man Satz V3A. Ein solches Beispiel diskutiert die obige Aufgabe V441 . (3) Die exakte Verteilung ist hier die Binomialverteilung S ∼ B(n, t). Der ZGS lässt sich anwenden, der LGS auch und liefert eine bessere Näherung. Den Fehler δ bzw. korrigiert ε entnimmt man Satz U3A. (4) Die exakte Verteilung ist hier S ∼ B(N, t) mit N = N1 + · · · + Nn . Der ZGS lässt sich anwenden, der LGS auch, wenn man es richtig anstellt. Zur Summe von binomialverteilten ZVariablen siehe unten. Summe normalverteilter Zufallsvariablen V449 Ergänzung Aufgabe: Die Zufallsvariablen X ∼ N (µ1 , σ12 ) und Y ∼ N (µ2 , σ22 ) seien unabhängig und normalverteilt mit den angegebenen Parametern. Bestimmen Sie für die Summe S = X + Y den Erwartungswert E(S) und die Varianz V(S) sowie die Verteilung auf R. Ist S normalverteilt? Lösung: Dank Linearität addieren sich die Erwartungswerte: E(S) = E(X + Y ) = E(X) + E(Y ) = µ1 + µ2 Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X + Y ) = V(X) + V(Y ) = σ12 + σ22 Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit: N (µ1 , σ12 ) ∗ N (µ2 , σ22 ) = N (µ1 + µ2 , σ12 + σ22 ) Das ist keineswegs offensichtlich! Man kann es geduldig direkt ausrechnen oder geschickt mit Fourier–Transformation K417 . Summe normalverteilte Zufallsvariablen V450 Ergänzung Aufgabe: Seien X1 , X2 , X3 , . . . unabhängige Zufallsvariablen, und jede sei normalverteilt gemäß Xk ∼ N (µk , σk2 ) mit µk , σk ∈ R. Bestimmen Sie für die Summe S = X1 + · · · + Xn die Erwartung E(S) und die Varianz V(S) sowie die Verteilung auf R. Gilt hier der ZGS? Es darf gelacht werden: Wie groß ist der Approximationsfehler δ? Lösung: Dank Linearität addieren sich die Erwartungswerte: E(S) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = µ1 + · · · + µn =: µ Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X1 + · · · + Xn ) = V(X1 ) + · · · + V(Xn ) = σ12 + · · · + σn2 =: σ 2 Aus der vorigen Aufgabe erhalten wir die Verteilung S ∼ N (µ, σ 2 ). (Wir haben dies für zwei Summanden explizit nachgerechnet. Für n Summanden folgt es dann offensichtlich durch Induktion.) Hier gilt der ZGS exakt, d.h. mit Approximationsfehler δ = 0. Summe binomialverteiler Zufallsvariablen V451 Ergänzung Aufgabe: Seien X ∼ B(1, p) und Y ∼ B(1, q) unabhängig mit p, q > 0. Bestimmen Sie für die Summe S = X + Y die Erwartung E(S) und die Varianz V(S) sowie die Verteilung auf {0, 1, 2}. Ist S binomialverteilt? Lösung: Dank Linearität addieren sich die Erwartungswerte: E(S) = E(X + Y ) = E(X) + E(Y ) = p + q Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X + Y ) = V(X) + V(Y ) = p(1 − p) + q(1 − q). Schließlich berechnen wir die Verteilung von S dank Unabhängigkeit: P(S=0) = (1 − p)(1 − q), P(S=1) = p(1 − q) + (1 − p)q, P(S=2) = pq Wäre dies binomialverteilt, so hätten wir S ∼ B(2, t) für ein t ∈ [0, 1]. Wegen E(S) = 2t = p + q müsste dann t = (p + q)/2 gelten. Vergleich: t2 = pq bedeutet p2 + 2pq + q 2 = 4pq, also (p − q)2 = 0. Eine Binomialverteilung erhalten wir demnach nur für den Fall p = q! Zusatz: Im Sonderfall p = 0 gilt S ∼ B(1, q); für q = 0 gilt S ∼ B(1, p). Summe binomialverteiler Zufallsvariablen V452 Ergänzung Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N. Bestimmen Sie für S = X + Y die Erwartung E(S) und Varianz V(S) Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern? Lösung: Wir wissen E(X) = mt und V(X) = mt(1 − t). Entsprechend gilt E(Y ) = nt und V(Y ) = nt(1 − t). Dank Linearität folgt E(S) = E(X + Y ) = E(X) + E(Y ) = (m + n)t. Dank Unabhängigkeit addieren sich auch die Varianzen: V(S) = V(X + Y ) = V(X) + V(Y ) = (m + n)t(1 − t). Wie findet man am geschicktesten die Verteilung von S? Rechnung? Wir nutzen die Darstellung X = X1 + · · · + Xm und Y = Y1 + · · · + Yn als Summe unabhängiger Zufallsvariablen Xi , Yj ∼ B(1, t). Hieraus folgt S ∼ B(m + n, t) ohne weitere Rechnung. Dieser Rechentrick vereinfacht die Aufgabe ungemein! Die explizite Rechnung führt auch zum Ziel ist aber länglich. . . Hier nützt die folgende Rechenmethode der erzeugenden Funktionen. Rechenmethode: erzeugende Funktion V501 Ergänzung Aufgabe: (1) Berechnen Sie G(z) := E z X für X ∼ B(n, t) und z ∈ C. (2) Berechnen Sie hieraus umgekehrt G(k) (0)/k! für k = 0, 1, 2, . . . Lösung: (1) Wir kennen die Binomialverteilung B(n, t): n k P(X=k) = t (1 − t)n−k . k Als Funktion G(z) = E z X erhalten wir ein hübsches Polynom: ∞ X n k G(z) = t (1 − t)n−k · z k = (tz + 1 − t)n k k=0 (2) Es gilt G(k) (z) = n(n − 1) · · · (n − k + 1) tk (tz + 1 − t)n−k , also 1 (k) n k G (0) = t (1 − t)n−k . k! k Das geht ganz leicht und das Ergebnis ist noch dazu sehr einfach! Diesen Trick wollen wir daher zu einer Rechenmethode ausbauen. . . Rechenmethode: erzeugende Funktion V502 Ergänzung Das vorige schöne Beispiel motiviert folgende Definition. Definition V5A (erzeugende Funktion einer WVerteilung auf N) Zur diskreten WVerteilung g : N → [0, 1] ist die erzeugende Funktion G(z) := ∞ X g(k)z k = g(0)z 0 + g(1)z 1 + g(2)z 2 + . . . . k=0 Ist X : Ω → N verteilt gemäß P(X=k) = g(k), so gilt demnach ∞ X X G(z) := E z = P(X=k) · z k k=0 für z ∈ C. Die Elementarwahrscheinlichkeiten können wir rekonstruieren durch P(X=k) = g(k) = 1 (k) G (0). k! Rechenmethode: erzeugende Funktion V503 Ergänzung Erzeugende Funktionen bieten nützliche Rechentricks, zum Beispiel: Für die Summe X + Y unabhängiger Zufallsvariablen X, Y gilt GX+Y (z) = E z X+Y = E zX · zY X Y = E z ·E z = GX (z) · GY (z). Aufgabe: Seien X ∼ B(m, t) und Y ∼ B(n, t) unabhängig, m, n ∈ N. Ist die Summe S = X + Y binomialverteilt? Mit welchen Parametern? Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: GX (z) = (tz + 1 − t)m und GY (z) = (tz + 1 − t)n Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen GS (z) = GX (z) · GY (z) = (tz + 1 − t)m+n . Somit ist S ∼ B(m + n, t) tatsächlich binomialverteilt. Hier stellt sich die Frage: Lässt sich die Verteilung von S aus GS rekonstruieren? Wenn ja, wie? Das ist Inhalt der nächsten Aufgabe. Rechenmethode: erzeugende Funktion V504 Ergänzung Sei X : Ω → N eine Zufallsvariable mit = g(k) Verteilung P∞ P(X=k) X k und erzeugender Funktion G(z) = E z = k=0 g(k)z für z ∈ C. Aufgabe: Berechnen Sie G(1). Ist somit der Konvergenzradius ≥ 1? Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)? Lösung: Da g eine WVerteilung ist, erhalten wir definitionsgemäß ∞ X g(k) ≥ 0 und G(1) = g(k) = 1. k=0 Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| ≤ 1. Der Konvergenzradius ρ erfüllt also ρ ≥ 1, und wir erhalten G : { z ∈ C | |z| ≤ 1 } → C. Innerhalb des Konvergenzkreises ist G beliebig oft differenzierbar. Die Potenzreihe können wir wie gewohnt termweise differenzieren: 1 G(k) (z) = k! g(k)z 0 + . . . , also g(k) = G(k) (0). k! Die WVerteilung g und die Funktion G bestimmen sich so gegenseitig. Rechenmethode: erzeugende Funktion V505 Ergänzung X Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z für eine Poisson–verteile Zufallsvariable X ∼ P (λ) mit λ ≥ 0. Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall? Lösung: Wir kennen die Poisson–Verteilung P (λ) mit λ ≥ 0: P(X=k) = e−λ λk /k!. Die erzeugende Funktion ist demnach G(z) = ∞ X k=0 −λ =e P(X=k) · z k ∞ X (λz)k k=0 k! = ∞ X −λ e k=0 λk k ·z k! = e−λ eλz = eλ(z−1) . Der Konvergenzradius ist hier ∞. Der Exponentialreihe sei Dank! Zudem ist das Ergebnis eλ(z−1) denkbar einfach. Alles wird gut. . . Rechenmethode: erzeugende Funktion V506 Ergänzung Aufgabe: Seien X ∼ P (λ) und Y ∼ P (µ) unabhängig, λ, µ ≥ 0. Ist die Summe S = X + Y Poisson–verteilt? Mit welchem Parameter? Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: GX (z) = eλ(z−1) und GY (z) = eµ(z−1) Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen GS (z) = GX (z) · GY (z) = eλ(z−1) · eµ(z−1) = e(λ+µ)(z−1) . Somit ist S ∼ P (λ + µ) tatsächlich Poisson–verteilt. Auch hier stellt sich die Frage: Lässt sich die Verteilung von S aus GS rekonstruieren? Ja! Zum Glück wissen wir g(k) = G(k) (0)/k!. Rechenmethode: erzeugende Funktion V507 Ergänzung Aufgabe: Berechnen Sie die erzeugende Funktion G(z) = E z X für eine geometrisch verteilte Zufallsvariable X ∼ Geom(q) mit 0 ≤ q < 1. Welchen Konvergenzradius hat die Potenzreihe G(z) in diesem Fall? Lösung: Wir kennen die geometrische Verteilung: P(X=k) = (1 − q)q k−1 . Die erzeugende Funktion ist hier G(z) = ∞ X k=1 ∞ X (1 − q)z P(X=k) · z = (1 − q)q k−1 z k = . (1 − qz) k k=1 Pol in z = q −1 : Der Konvergenzradius ist q −1 > 1, beliebig dicht an 1! Es kann also vorkommen, dass die erzeugende Funktion G(z) nicht für alle z ∈ C definiert ist. Wegen G(1) = 1 ist die Reihe aber zumindest für alle |z| ≤ 1 absolut konvergent. Das genügt für Anwendungen. Rechenmethode: erzeugende Funktion V508 Ergänzung Aufgabe: Seien X ∼ Geom(q) und Y ∼ Geom(p) unabhängig mit 0 ≤ p, q < 1. Ist die Summe S = X + Y ebenfalls geometrisch verteilt? Lösung: Die erzeugenden Funktionen haben wir oben ausgerechnet: GX (z) = (1 − q)z (1 − qz) und GY (z) = (1 − p)z (1 − pz) Für die Summe S = X + Y erhalten wir somit ohne weitere Mühen (1 − q)(1 − p)z 2 GS (z) = GX (z) · GY (z) = . (1 − qz)(1 − pz) Wäre S geometrisch verteilt, also S ∼ Geom(r) mit 0 ≤ r < 1, so wäre GS (z) = (1 − r)z . (1 − rz) Der Vergleich zeigt: S ist nicht geometrisch verteilt. (Warum?) Die Familie der geometrisch verteilten Zufallsvariablen ist also nicht stabil unter Faltung (unabhängigen Summen). Auch das ist also möglich und mit erzeugenden Funktionen besonders leicht zu erkennen. Rechenmethode: erzeugende Funktion V509 Ergänzung Aufgabe: (1) Für die erzeugende Funktion G(z) = E z X gilt E(X) = G0 (1) V(X) = G00 (1) + G0 (1) − G0 (1)2 und Berechnen Sie auf diese Weise erneut die Erwartung und die Varianz (2) der Binomialverteilung B(n, t) und (3) der Poisson–Verteilung P (λ). Lösung: (1) Aus G(z) = ∞ X k=0 folgt 0 G (z) = ∞ X k=0 und G00 (z) = ∞ X k=0 g(k) · z k k g(k) · z k−1 k(k − 1) g(k) · z k−2 . Einsetzen von z = 1 liefert die angegebenen Formeln. Dieser Trick beschert uns die beiden wichtigsten Kenngrößen. Rechenmethode: erzeugende Funktion V510 Ergänzung (2) Für X ∼ B(n, t) kennen wir die erz. Funktion G(z) = (tz + 1 − t)n . Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos: G0 (z) = n t (tz + 1 − t)n−1 =⇒ E(X) = G0 (1) = nt Auch die Varianz erhalten wir leicht durch Ableiten nach z: G00 (z) = n(n − 1) t2 (tz + 1 − t)n−1 V(X) = G00 (1) + G0 (1) − G0 (1)2 = nt(1 − t) (3) Für X ∼ P (λ) kennen wir die erz. Funktion G(z) = eλ(z−1) . Es gilt G(1) = 1. Den Erwartungswert erhalten wir nun mühelos: G0 (z) = λ eλ(z−1) =⇒ E(X) = G0 (1) = λ Auch die Varianz erhalten wir leicht durch Ableiten nach z: G00 (z) = λ2 eλ(z−1) V(X) = G00 (1) + G0 (1) − G0 (1)2 = λ2 + λ − λ2 = λ Das entspricht den zuvor berechneten Werten. Die explizite Berechnung führt natürlich auch zum Ziel. Erzeugende Funktionen organisieren die Rechnung jedoch besonders geschickt und effizient. Rechenmethode: erzeugende Funktion V511 Ergänzung Allgemeiner als zuvor X : Ω → N sei X : Ω → Z eine ganzzahlige Zufallsvariable, die nun auch negative Werte annehmen darf. Dies definiert die diskrete WVerteilung g : Z → [0, 1], = P(X=k). Pg(k) ∞ Wie immer ist die Gesamtmasse gleich Eins, also k=−∞ g(k) = 1. Die erzeugende Funktion G(z) hat nun auch negative Exponenten, ist also eine Laurent–Reihe und im Allgemeinen keine Potenzreihe mehr: G(z) := E z X = ∞ X k=−∞ P(X=k) · z k für z ∈ C. Aufgabe: Berechnen Sie G(1). Konvergiert G auf der Kreislinie? Lässt sich die obige Formel g(k) = G(k) (0)/k! weiterhin anwenden? Wie rekonstruiert man die Koeffizienten g(k) aus der Funktion G(z)? Welche der obigen Rechentricks bleiben uns noch erhalten? Rechenmethode: erzeugende Funktion V512 Ergänzung Lösung: Da g eine WVerteilung ist, haben wir definitionsgemäß X g(k) ≥ 0 und G(1) = g(k) = 1. k∈Z Nach dem Majoranten-Kriterium konvergiert G(z) für alle |z| = 1. Die übliche Formel g(k) = G(k) (0)/k! versagt bei einem Pol in z = 0. Glücklicherweise können wir alle Koeffizienten eindeutig rekonstruieren indem wir Residuen mittels komplexer Wegintegrale ausrechnen ?? : ˆ G(z) 1 g(k) = dz. 2πi ∂B(0,1) z k+1 Die Wahrscheinlichkeitsverteilung g : Z → [0, 1] und die erzeugende P k Funktion G(z) = k∈Z g(k)z bestimmen sich so gegenseitig. Die Integralsätze und Cauchys Residuenkalkül leben hoch! Alle unsere Rechentricks für erzeugende Funktionen bleiben gültig, selbst wenn X nicht nur Werte in N, sondern nun auch in Z annimmt. Rechenmethode: Laplace–Transformation V513 Ergänzung Die Laplace–Transformation ist in vielen Bereichen ein nützliches Werkzeug, insbesondere bei Differentialgleichungen (Kapitel L). Ihre Anwendung in der WTheorie will ich hier kurz skizzieren. Motivation: Zu X : Ω → N haben wir die erzeugende Funktion G(z) = E z X zumindest für |z| ≤ 1. In der Wahrscheinlichkeitsrechnung treten erzeugende Funktionen X G(z) = E z natürlich auf, wenn man Zufallsvariablen X : Ω → N effizient behandeln will. Wir haben dies oben in Beispielen ausgeführt. Entsprechendes wollen wir auch für Zufallsvariablen X : Ω → R≥0 . Der Erwartungswert existiert für z = 1, denn E(1X ) = E(1) = 1. X X Für 0 < z ≤ 1 gilt 0 < z ≤ 1, also existiert auch E z . Wir setzen daher z = e−s für s ∈ R≥0 und vereinbaren: Rechenmethode: Laplace–Transformation V514 Ergänzung Definition V5B (Laplace–Transformierte eines WMaßes auf R≥0 ) Für jedes WMaß PX auf R≥0 ist seine Laplace–Transformierte: ˆ ∞ −sX F : R≥0 → R, F (s) := E e = e−sx dPX x=0 Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also ˆ ∞ F (s) = e−sx f (x) dx. x=0 Allgemeiner erhalten wir so F : CRe≥0 → C holomorph auf CRe>0 . ´ Dank f (x) dx = 1 gilt absolute Integrierbarkeit und |F (s)| ≤ F (0) = 1. Hier treten Laplace–Transformationen F (s) = E natürlich auf, um kontinuierliche Zufallsvariablen X : Ω → R≥0 effizient zu behandeln. Dies möchte ich mit einem kurzen Beispiel illustrieren. e−sX Rechenmethode: Laplace–Transformation V515 Ergänzung Aufgabe: (1) Für die Laplace–Transformation F (s) = E e−sX gilt F (0) = E(1) = 1, F 0 (0) = −E(X), F 00 (0) = E(X 2 ). (2) Berechnen Sie F (s) sowie E(X) und V(X) für X ∼ E(λ), also die Exponentialverteilung mit Dichte f (x) = λ e−λx für x ≥ 0. Lösung: (1) Wir nehmen an, dass diese Erwartungswerte existieren: ˆ ∞ ˆ ∞ E(X) = xf (x) dx, E(X 2 ) = x2 f (x) dx. x=0 x=0 Wir können dann F unter dem Integral ableiten und erhalten ˆ ∞ ˆ ∞ F 0 (s) = −x e−sx f (x) dx, F 00 (s) = x2 e−sx f (x) dx. x=0 x=0 Für s = 0 ergeben sich hieraus obige Formeln. Rechenmethode: Laplace–Transformation (2) Sei X exponentialverteilt gemäß E(λ) mit λ > 0, mit Dichte f : R≥0 → R≥0 , f (x) = λ e−λx . Ihre Laplace–Transformierte rechnen wir direkt aus: ˆ ∞ ˆ ∞ F (s) = e−sx f (x) dx = e−sx · λ e−λx dx x=0 x=0 ˆ ∞ λ h −(s+λ)x i∞ λ −(s+λ)x e dx = =λ = −e s+λ s+λ x=0 x=0 Hieraus ergeben sich nun leicht Erwartungswert und Varianz: −λ , (s + λ)2 2λ F 00 (s) = , (s + λ)2 F 0 (s) = 1 , λ 2 E(X 2 ) = F 00 (0) = 2 . λ E(X) = −F 0 (0) = Wir erhalten V(X) = E(X 2 ) − E(X)2 = 1 , λ2 wie zuvor berechnet. V516 Ergänzung Fourier–Transformation von WVerteilungen V517 Ergänzung Motivation: Die vorigen Rechnungen sind effizient und elegant. Zur Zufallsvariablen X : Ω → N nutzen wir die erzeugende Funktion G(z) = E z X = ∞ X k=0 P(X=k) · z k zumindest für |z| ≤ 1. Allgemeiner, zu X : Ω → Z eventuell mit negativen Werten haben wir ∞ X X G(z) = E z = P(X=k) · z k k=−∞ zumindest für |z| = 1. Mit diesen Potenzreihen können wir gut arbeiten, wie oben gesehen! Entsprechendes wünschen wir auch für Zufallsvariablen X : Ω → R. X Der Erwartungswert E z wird zumindest für |z| = 1 existieren. Wir setzen daher z = e−iξ für ξ ∈ R und vereinbaren: Fourier–Transformation von WVerteilungen V518 Ergänzung Definition V5C (Fourier–Transformierte eines WMaßes auf R) Für jedes WMaß PX auf R≥0 ist seine Fourier–Transformierte ˆ −iξX F : R → C, F (ξ) := E e = e−iξx dPX x∈R Für eine kontinuierliche Verteilung mit Dichte f erhalten wir also ˆ ∞ F (ξ) = e−iξx f (x) dx. Dank ´ R f (x) dx −∞ = 1 gilt absolute Integrierbarkeit und |F (ξ)| ≤ F (0) = 1. Man beachte die hier gewählte Konvention der Normierung: √ Zur Bequemlichkeit lasse ich den Normierungsfaktor 1/ 2π weg. In der Rücktransformation benötigen wir dann den Faktor 1/2π. Fourier E e−iξX ist ein Spezialfall von Laplace E e−sX eingeschränkt auf die imaginäre Achse s = iξ mit ξ ∈ R. Fourier–Transformation von WVerteilungen V519 Ergänzung Wiederholung: Nennen Sie die Wahrscheinlichkeitsdichte f (x) 2 einer normalverteilten Zufallsvariablen −iξXX ∼ N (µ, σ ) sowie die Fourier–Transformierte F (ξ) = E e und ihre Rücktransformation. Lösung: Für die Normalverteilung N (µ, σ 2 ) wissen wir (x−µ)2 1 − f (x) = √ e 2σ2 σ 2π =⇒ K128 F (ξ) = e−iµξ−σ 2 ξ 2 /2 . Durch Rücktransformation von F lässt sich f rekonstruieren: ˆ ∞ 1 f (x) = F (ξ) eiξx dξ 2π −∞ Man beachte die hier gewählte Konvention der Normierung. Bei der Fourier–Transformation geht keine Information verloren: Die Rücktransformation rekonstruiert die ursprüngliche Verteilung. Fourier–Transformation von WVerteilungen V520 Ergänzung Die Fourier–Transformation ist ein mächtiges Universalwerkzeug. Wir haben dieser Technik daher ein eigenes Kapitel gewidmet. Die dort erlernten Rechenmethoden zahlen sich bei der Behandlung vieler Probleme aus, so auch hier für die Wahrscheinlichkeitsrechnung. Zudem haben wir wichtige Beispiele und Erfahrungen gesammelt, die in vielen Problemstellungen erneut auftreten. X −sX Erzeugende Funktionen E z , Laplace–Transformierte E e −iξX und Fourier–Transformierte E e sind nützliche Rechenmethoden. Sie entspringen alle derselben natürlichen Idee, wie hier skizziert: Transformation reorganisiert alle Informationen auf praktische Weise. Durch Rücktransformation lässt sich jeweils die ursprüngliche Verteilung rekonstruieren, es geht also tatsächlich keinerlei Information verloren. Zur Illustration will ich als Hauptergebnis den zentralen Grenzwertsatz mit der Fourier–Transformation erklären und nachrechnen. Erwartungswert und Varianz V521 Ergänzung Aufgabe: Berechnen Sie F (0), F 0 (0), F 00 (0) und F 000 (0) sowie hiermit die Taylor–Entwicklung zweiter Ordnung von F (ξ) um ξ = 0. ´ Lösung: Existieren die Momente R |x|k f (x) dx < ∞ für k = 1, 2, 3, . . . , so dürfen wir für F (k) die Ableitung unters Integral ziehen ?? : ˆ ˆ d ∂ −iξx e f (x) dx e−iξx f (x) dx = F 0 (ξ) = dξ R ∂ξ R ˆ = (−ix) e−iξx f (x) dx =⇒ F 0 (0) = −iE(X) ˆR F 00 (ξ) = (−x2 ) e−iξx f (x) dx =⇒ F 00 (0) = −E(X 2 ) ˆR =⇒ F 000 (0) = iE(X 3 ) F 000 (ξ) = (ix3 ) e−iξx f (x) dx R Für µ = 0 und σ 2 > 0 hat F demnach die Taylor–Entwicklung F (ξ) = 1 − σ 2 ξ 2 /2 + . . . Das dritte Moment liefert eine Fehlerschranke O(ξ 3 ) für das Restglied. Ausführung bei Feller, Introduction to Probability, vol. 2 (1971), §XVI Summe unabhängiger Zufallsvariablen V522 Ergänzung Lemma V5D (Summe unabhängiger Zufallsvariablen) Seien X, Y : Ω → R unabhängige ZV mit Transformierten FX , FY . Die Summe X + Y hat dann die Transformierte FX+Y = FX · FY . Nachrechnen: Auch e−iξX und e−iξY sind unabhängig, also gilt FX+Y (ξ) = E e−iξ(X+Y ) −iξX −iξY =E e ·e −iξX −iξY =E e ·E e = FX (ξ) · FY (ξ) Das ist der entscheidende Trick! Er vereinfacht die Rechnung. Damit haben wir alle Werkzeuge, um den zentralen Grenzwertsatz zu beweisen! Ich formuliere ihn in vereinfachter Form für identisch verteilte, unabhängige Zufallsvariablen. Vor allem aber zeige ich die Konvergenz ohne eine explizite Fehlerschranke, um alle Argumente so einfach wie möglich zu halten. Für eine detaillierte Ausarbeitung müsste man die Fehlerterme kontrollieren, die hier nur mit „. . . “ abgekürzt werden. Beweis des zentralen Grenzwertsatzes V523 Ergänzung Seien X1 , X2 , X3 , . . . : Ω → R unabhängige Zufallsvariablen. Es gelte E(Xk ) = µ und E(Xk2 ) = σ 2 > 0 sowie E(|Xk |3 ) ≤ ρ3 < ∞. Die Summe Sn = X1 + · · · + Xn hat Erwartung nµ und Varianz nσ 2 . Wir normieren Sn zu Erwartung 0 und Varianz 1 durch die Skalierung Sn∗ := X1 + · · · + Xn − nµ √ . σ n Wir wollen nun PSn ≈ N (nµ, nσ 2 ) zeigen, normiert also PSn∗ ≈ N (0, 1). Fehlerschranken sind für die Praxis wichtig aber schwer zu beweisen. In dieser Skizze begnügen wir uns mit dem Grenzwert für n → ∞. Satz V5E (zentraler Grenzwertsatz, ohne Fehlerschranken) Die Verteilung von Sn∗ konvergiert gegen die Normalverteilung N (0, 1). Das ist die qualitative Aussage PS ≈ N (nµ, nσ 2 ) aus Satz V3A. Die quantitative Fehlerabschätzung lassen wir hier außer Acht. Beweis des zentralen Grenzwertsatzes V524 Ergänzung Aufgabe: (1) Berechnen Sie die Fourier–Transformierte Fn von Sn∗ . (2) Wie folgt hieraus der zentrale Grenzwertsatz für n → ∞? (3) Warum geht das plötzlich so leicht? Beweis: (1) Die Transformierte von Xk√−µ σ n ist Fk (ξ) = 1 − ξ 2 /2n + . . . . Die Transformierte der Summe Sn∗ ist das Produkt der Transformierten: n 2 → exp(−ξ 2 /2) = F (ξ) für n → ∞. Fn (ξ) = 1 − ξ /2n + . . . (2) Der Grenzwert F ist die Transformierte der Normalverteilung N (0, 1)! Rücktransformation: Die Verteilung von Sn∗ konvergiert gegen N (0, 1). (3) Das geht leicht dank starker Werkzeuge wie Fourier–Transformation! Zwecks Vereinfachung verzichten wir zudem auf Fehlerabschätzungen. Damit können wir den ZGS zumindest qualitativ nachrechnen: Für großes n ist X1 + · · · + Xn annähernd N (nµ, nσ 2 )–verteilt. Fourier–Transformation der Cauchy–Verteilung V525 Ergänzung Aufgabe: Ist für a > 0 die folgende Funktion eine WDichte? f : R → R, f (x) = 1 a π a2 + x2 Man bestimme Erwartung und Varianz und die Fourier–Transformierte. f (x) endlastig (fat tail) −3 −2 −1 0 1 2 2 e−x /2 / 3 x √ Der Graph erinnert an die Glockenkurve ϕ(x) = 2π. Aber die Cauchy–Verteilung hat völlig andere Eigenschaften: Vor allem klingt sie nicht exponentiell ab, sondern nur wie 1/x2 . Das hat dramatische Konsequenzen: Es existiert keine Erwartung! Fourier–Transformation der Cauchy–Verteilung V526 Ergänzung Lösung: Wir haben f ≥ 0 und die Gesamtmasse ist ˆ x ∞ 1 f (x) dx = arctan =1 π a −∞ R Für Erwartung und Varianz benötigen wir folgende Integrale: ˆ ˆ ax 1 ax2 1 dx und dx = ∞. π R a2 + x2 π R a2 + x2 Das erste ist nicht absolut integrierbar, nur als Cauchy–Hauptwert. Der Median ist offensichtlich 0, aber die Erwartung existiert nicht! Hier haben Erwartungswert und Varianz demnach keinen Sinn. Die Fourier–Transformierte haben wir bereits berechnet K113 : ˆ ∞ −iξX a 1 −iξx −a|ξ| F (ξ) = E e = e · 2 dx = e a + x2 −∞ π Die ursprüngliche WDichte f rekonstruiert man hieraus durch Rücktransformation. Man beachte, dass F in 0 nicht differenzierbar ist. Dies entspricht der Tatsache, dass die Erwartung E(f ) nicht existiert. Fourier–Transformation der Cauchy–Verteilung V527 Ergänzung Die Cauchy–Verteilung C(a) mit a > 0 ist gegeben durch die Dichte f :R → R mit f (x) = 1 a . π a2 + x2 Aufgabe: Seien X ∼ C(a) und Y ∼ C(b) unabhängig Cauchy–verteilt. Ist ihre Summe S = X + Y Cauchy–verteilt? Mit welchem Parameter? Lösung: Wir wissen E e−iξX = e−a|ξ| und ebenso E e−iξY = e−b|ξ| . Dank Unabhängigkeit von X und Y gilt für die Summe S = X + Y somit −iξS −iξ(X+Y ) E e =E e = E e−iξX · e−iξY = E e−iξX · E e−iξY = e−a|ξ| · e−b|ξ| = e−(a+b)|ξ| Durch Rücktransformation gewinnen wir hieraus die Verteilung von S: Demnach ist die Summe ebenfalls Cauchy–verteilt gemäß C(a + b). Die Cauchy–Verteilungen (C(a))a∈R>0 sind stabil unter Faltung! Fourier–Transformation der Cauchy–Verteilung V528 Ergänzung Seien X1 , . . . , Xn ∼ C(a) unabhängig und identisch Cauchy–verteilt. Wie im ZGS betrachten wir die (wie üblich normierte) Summe 1 ∗ √ Sn := X1 + · · · + Xn . n Aufgabe: Welche Verteilung PSn∗ hat die Zufallsvariable Sn∗ ? Konvergiert PSn∗ für n → ∞ gegen eine Normalverteilung? Lösung: Die Summe X1 + · · · + Xn ist C(na)–verteilt. √ Durch den Normierungsfaktor 1/ n ist Sn∗ dann C(a)–verteilt. Für n → ∞ ist die Verteilung fix und konvergiert somit gegen C(a). Insbesondere konvergiert sie nicht gegen eine Normalverteilung! Die Cauchy–Verteilungen C(a) erfüllen nicht die Voraussetzungen des ZGS (V3A): Die geforderten Momente µ, σ, ρ existieren nicht! Daher lässt sich der zentrale Grenzwertsatz hier nicht anwenden. Unsere explizite Rechnung zeigt tatsächlich genauer noch mehr: Die Verteilung der Summe konvergiert nicht gegen die Normalverteilung!