Stochastik II Skript zur Vorlesung Wolfgang Näther Dietrich Stoyan Helge Bahmann Tobias Schlemmer Gunter Döge April 2005 INHALTSVERZEICHNIS i Inhaltsverzeichnis 1 Nachträge zu den Grundlagen der Stochastik 3 1.1 Eigenschaften der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Darstellung der hypergeometrischen Verteilung als Bildmaß . . . . . . . . . . . . . 6 2 Zufallsgrößen und Verteilungen - maßtheoretisch 2.1 Zufallsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Erwartungswerte - maßtheoretisch 3.1 3.2 7 7 9 Allgemeines und Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.2 Berechnung von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . . 9 Einige Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Quantile und Zufallszahlen-Erzeugung 13 5 Unabhängigkeit und Produktmaße 17 5.1 Unabhängigkeit von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2 Unabhängige oder Produkt-Experimente . . . . . . . . . . . . . . . . . . . . . . . . 17 6 Zufällige Vektoren, unabhängige Zufallsgrößen 6.1 19 Zufällige Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6.1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 6.1.2 Diskrete und absolutstetige Zufallsvektoren . . . . . . . . . . . . . . . . . . 20 6.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 6.3 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 6.4 Erwartungswert, Kovarianz, Korrelation . . . . . . . . . . . . . . . . . . . . . . . . 24 6.5 Beispiele für Verteilungen zufälliger Vektoren . . . . . . . . . . . . . . . . . . . . . 26 6.5.1 Gleichverteilung auf G ∈ R . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 6.5.2 n-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 26 6.5.3 Gibbs-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6.5.4 Bayes-a-posteriori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 28 d ii INHALTSVERZEICHNIS 7 Bedingte Verteilungen, bedingte Erwartung 29 7.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 7.2 Bedingte Größen bezüglich B ∈ A mit P (B) > 0 . . . . . . . . . . . . . . . . . . . 30 7.3 Verteilung von X unter der Bedingung Y = y . . . . . . . . . . . . . . . . . . . . . 31 7.4 Allgemeiner Begriff der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . 32 8 Funktionen von Zufallsvektoren, Faltung 8.1 Funktionen von zufälligen Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Prüfverteilungen der Statistik 9.1 37 37 41 2 χ -Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . 2 41 9.2 Verteilung von S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 9.3 t-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 9.4 F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 10 Charakteristische Funktionen 45 10.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 10.2 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 10.3 Umkehr- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 10.4 Die charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . . 48 10.5 Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 11 Gesetze der großen Zahlen 51 11.1 Konvergenzarten der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 11.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 11.2.1 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 52 11.2.2 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 53 12 Zentrale Grenzwertsätze 57 12.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 12.2 Grenzwertsatz von Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 12.3 Grenzwertsatz für Folgen von iid-Zufallsgrößen . . . . . . . . . . . . . . . . . . . . 59 12.4 Grenzwertsatz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 13 Eigenschaften von Schätzern 67 13.1 Ungleichung von Rao-Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 13.2 Suffiziente Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 14 Signifikanztests 73 14.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 14.2 Beispiel: Mittelwert-Tests im Fall der Normalverteilung . . . . . . . . . . . . . . . 74 14.2.1 Bekannte Varianz – Gauß-Test . . . . . . . . . . . . . . . . . . . . . . . . . 74 INHALTSVERZEICHNIS 1 14.2.2 Unbekannte Varianz – Student-Test, t-Test . . . . . . . . . . . . . . . . . . 76 14.2.3 Vergleich zweier Mittelwerte – Welch-Test . . . . . . . . . . . . . . . . . . . 77 14.3 Ausgewählte weitere Tests im Fall der Normalverteilung . . . . . . . . . . . . . . . 77 14.3.1 Varianztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 14.3.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 2 14.4 χ -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Regressionsanalyse 78 79 15.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 15.2 Methode der kleinsten Quadrate für Modell I . . . . . . . . . . . . . . . . . . . . . 80 15.3 Nicht parametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 16 Konfidenz-Intervalle 83 Literaturverzeichnis 87 Index 87 2 INHALTSVERZEICHNIS 3 Kapitel 1 Nachträge zu den Grundlagen der Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf der Grundlage der Maßtheorie erläutert werden. 1.1 Eigenschaften der Wahrscheinlichkeit Um ein Zufallsexperiment quantitativ zu beschreiben, werden den Ereignissen A ∈ A Häufigkeiten“ ihres möglichen Auftretens, die sog. Wahrscheinlichkeiten, zugeordnet. Die Wahr” scheinlichkeit1 dafür, dass A eintritt (kurz: Wahrscheinlichkeit von A), wird mit P (A) bezeichnet. Definition 1.1 Axiomatische Definition von Kolmogorow Der Maßraum [Ω, A, P ] ist der sogenannte Wahrscheinlichkeitsraum. Dabei ist P ein normiertes Maß, das sogenannte Wahrscheinlichkeits-Maß, auch Wahrscheinlichkeits-Verteilung genannt. Damit genügt P : A → [0, 1] den folgenden Eigenschaften (jeweils für beliebige A, B ∈ A): P (A) ≥ 0 P (Ω) = 1 A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) S P A1 , A2 , . . . ∈ A paarweise unvereinbar ⇒ P ( i Ai ) = i P (Ai ) (σ-Additivität/Volladditivität) Aus der Maßtheorie ergeben sich die folgenden Eigenschaften (für A, B, Bn ∈ A): Bn ↓ B ⇒ P (Bn ) ↓ P (B) Stetigkeit P (∅) = 0 c P (A ) = 1 − P (A) A ⊂ B ⇒ P (A) ≤ P (B) (Monotonie) Ferner gilt die Einschluss-Ausschluss-Formel (Poincaré-Formel): ! n n [ X X P (Ai1 ∩ . . . ∩ Aik ) P Ai = (−1)k−1 i=1 1 lat. k=1 probābilitās, -ātis“; engl. probability“ ” ” 1≤i1 <...<ik ≤n (1.1) 4 KAPITEL 1. NACHTRÄGE ZU DEN GRUNDLAGEN DER STOCHASTIK Für n = 3 lautet diese Formel zum Beispiel: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (A ∩ C) + P (A ∩ B ∩ C) und für n = 2: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Bemerkung: Das Rechnen mit Komplementen ist eine häufig angewendete Methode, zum Beispiel bei P ( mindestens ein . . .“) = 1 − P ( kein . . .“). ” ” Obwohl das unmögliche Ereignis die Wahrscheinlichkeit 0 hat, ist nicht jedes Ereignis, das die Wahrscheinlichkeit 0 hat, das unmögliche Ereignis. Dementsprechend heißen Ereignisse A mit • A 6= ∅, P (A) = 0 fast unmöglich“ ” • A 6= Ω, P (A) = 1 fast sicher“ ” Weiterhin gilt für beliebige Ereignisse A1 , A2 , . . . die Boolesche Ungleichung (vergleiche Maßtheorie): ! ∞ ∞ [ X P (Ai ) ≤ P (Ai ) (1.2) i=1 i=1 Satz 1.1 (1. Borel-Cantelli-Lemma) Sei {Ai } eine beliebige Folge von Ereignissen. Wenn ∞ X P (Ai ) < ∞ i=1 ist, so gilt P lim sup Ai = 0. i→∞ Beweis: Es gilt lim sup Ai = i→∞ ∞ [ ∞ \ An ⊂ k=1 n=k ∞ [ An , (k beliebig). n=k Damit lässt sich für beliebig kleines ε zeigen, dass es ein k0 gibt, so dass für alle k > k0 gilt: P lim sup Ai i→∞ ≤P ∞ [ ! An ≤ n=k ∞ X P (An ) < ε n=k Satz 1.2 (2. Borel-Cantelli-Lemma) Die Ereignisse A1 , . . . , An seien paarweise unabhängig ∞ P mit P (An ) = ∞. Dann gilt: n=1 P (lim sup An ) = 1 n→∞ 1.1. EIGENSCHAFTEN DER WAHRSCHEINLICHKEIT Beweis. 2 5 Für vollständig unabhängige An gilt: P( N \ Ack ) = k=n N Y (1 − P (Ak )) ≤ exp − k=n N X ! P (Ak ) k=n Letzterer Term strebt gegen Null, wenn N gegen Unendlich geht. (Die Abschätzung nutzte die Beziehung: (1 − x) ≤ e−x .) Für alle n ist daher P ( ∞ T k=n Ack ) = 0, und nach der Booleschen Ungleichung und den de-Morganschen Formeln folgt: 0=P ∞ \ ∞ [ ∞ [ ∞ \ ! Ack = P n=1 k=n !c ! Ak n=1 k=n = P c (lim sup An ) n→∞ Demzufolge ist P (lim sup An ) = 1. n→∞ Diese Sätze sind sogenannte Null-Eins-Gesetze“. Diese Gesetze enthalten Aussagen über Wahr” scheinlichkeiten, die unter bestimmten Bedingungen nur die Werte 0 oder 1 annehmen können. Eine Anwendung ergibt sich, wenn An das Ereignis beschreibt, dass bei der n-ten Lotto-Ziehung ein Sechser erzielt wird. Die Voraussetzungen von Satz 1.2 sind offenbar erfüllt. Schließlich sind die einzelnen An unabhängig und die Wahrscheinlichkeiten P (An ) liegen konstant bei P (A1 ), welche größer als 0 ist. Der Satz besagt nun folgendes: Wenn die Menschheit unendlich lange Lotto spielen würde, käme es unendlich oft vor, dass ein Sechser auftritt. Wahrscheinlichkeits-Begriff Es gab in der Entwicklung der Wahrscheinlichkeitstheorie noch andere Versuche, die Wahrscheinlichkeit zu definieren: Bernoulli definierte 1713 die Wahrscheinlichkeit als Grad der Gewissheit, welcher sich zur Ge” wissheit wie der Teil zum Ganzen verhält“. Ähnlich bezeichnete Laplace 1812 damit das Verhältnis der Anzahl der für A günstigen Fälle zu der Anzahl der möglichen Fälle. Dies entspricht der sogenannten frequentistischen Auffassung, die von einer naturgesetzartigen Konvergenz der Häufigkeiten ausgeht. von Mises versuchte 1919, die Wahrscheinlichkeit folgendermaßen zu definieren: Wenn in einer Folge von gleichartigen Beobachtungen bei jeder regellosen Auswahl unendlich vieler Ereignisse die Wahrscheinlichkeit P (A) = lim h(A) stets das gleiche Ergebnis liefert, so ist dieses die n→∞ n Wahrscheinlichkeit. Kolmogorow führte 1933 die obige axiomatische Definition der Wahrscheinlichkeit ein: Der Vollständigkeit halber soll hier noch die subjektive Wahrscheinlichkeit angeführt werden. Diese begegnet uns z. B., wenn beim Wetterbericht das Niederschlags-Risiko bekanntgegeben wird. Es handelt sich dabei oft um Zahlenwerte, die der Meteorologe vom Dienst festlegt. 2 vergleiche [6], Seite 74. Dort steht auch der Beweis für den allgemeinen Fall. 6 KAPITEL 1. NACHTRÄGE ZU DEN GRUNDLAGEN DER STOCHASTIK 1.2 Darstellung der hypergeometrischen Verteilung als Bildmaß Das Lottomodell N . . . Anzahl möglicher Zahlen M . . . Anzahl der Gewinnzahlen n . . . Anzahl der getippten Zahlen (siehe Elementare Stochastik“, Kapitel B) kann durch ein diskretes Wahrscheinlichkeits-Maß auf ” Ω0 = {max{0, n − N + M }, max{0, n − N + M } + 1, . . . , min{n, M }} beschrieben werden, die sogenannte hypergeometrische Verteilung. Der Raum (Ω0 , A0 = P(Ω0 ), P(N,M,n) ) mit P(N,M,n) ({k}) = M k N −M n−k N n (1.3) ist ein Wahrscheinlichkeitsraum und eine Vergröberung des Ausgangswahrscheinlichkeitsraumes (Ω, A = P(Ω), P ), wobei Ω die Menge der N möglichen Tipps und P die diskrete Gleichverteilung n N −M auf A ist. Es gibt M Elemente von Ω, die auf dasselbe Element von Ω0 (nämlich k) führen. k n−k Sei der Tipp z.B. die Menge {1, 2, . . . , n}. Dann kann eine diesen Tipp charakterisierende Abbildung S : Ω → Ω0 folgendermaßen definiert werden: S(ω) = |ω ∩ {1, . . . , n}|, ω ∈ Ω. ω ist dann ein n-tupel verschiedener Zahlen aus 1,. . . ,N. Da Potenzmengen σ-Algebren sind, ist in diesem Falle auch die Messbarkeit gegeben. Das dadurch induzierte Bildmaß ist durch PS ({k}) := P (S −1 ({k})) definiert. Dies lässt sich noch etwas umformen: P (S −1 ({k})) = P ({ω : |ω ∩ {1, 2, . . . , n}| = k} = P(N,M,n) ({k}). 7 Kapitel 2 Zufallsgrößen und Verteilungen maßtheoretisch In diesem Kapitel soll nun der Zusammenhang zwischen der Wahrscheinlichkeitstheorie und der Maßtheorie vertieft werden. Reelle Funktionen werden mit Zufallsgrößen und Abbildungen mit Zufallsvariablen identifiziert (diese sind ja beide messbar). Speziell wird aus der Funktion f ein X und aus dem Wert f (x) wird die Realisierung X(ω) = x. 2.1 Zufallsgrößen Oft ist es sinnvoll, das Zufallsgeschehen von (Ω, A, P ) auf einen leichter beschreibbaren Raum (Ω0 , A0 ) zu transformieren (z.B. Ω0 = Rd ). Wenn zum Beispiel ωk ein Elementarereignis ist, in dem sich k Unfälle an einem Tag ereignen, dann ist X(ωk ) = k eine sinnvolle Transformation. Ein weiteres Beispiel: Würfeln mit zwei Würfeln, wobei die Augensumme betrachtet wird. Ω ist dann Ω = {1, . . . , 6}×{1, . . . , 6}. Für den Bildraum ist Ω0 = R1 sinnvoll. Zu dem Elementarereignis ω = (ω1 , ω2 ) bietet sich das Bildelementarereignis ω 0 = ω1 + ω2 an. Allgemein muss gesichert sein, dass {X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 } = X −1 (A0 ) ∈ A, (2.1) damit {X ∈ A0 } ein Ereignis und P (X ∈ A0 ) definiert sind. X muss also eine (A, A0 )-messbare Abbildung sein. Definition 2.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum. Die Abbildung X : Ω → Ω0 heißt Zufallsvariable (zufällige Variable), wenn sie (A, A0 )-messbar ist. Durch PX (A0 ) = P (X −1 (A0 )), A0 ∈ A0 (2.2) wird durch X auf (Ω0 , A0 ) ein Wahrscheinlichkeitsmaß PX induziert. (Ω0 , A0 , PX ) ist der BildWahrscheinlichkeitsraum bezüglich X. PX heißt dann Verteilungs-Gesetz der Zufallsvariablen X. Wir interessieren uns im Folgenden speziell für folgende Zufallsvariablen: Ω0 = R1 , A0 = R1 = σ-Algebra der Borelmengen des R1 ; dann heißt die Zufallsvariable Zufallsgröße. Ω0 = Rd , A0 = Rd = σ-Algebra der Borelmengen des Rd ; dann heißt die zufällige Variable zufälliger Vektor bzw. Zufallsvektor. 8 KAPITEL 2. ZUFALLSGRÖSSEN UND VERTEILUNGEN - MASSTHEORETISCH Weitere wichtige Zufallsvariablen hängen mit zufälligen Funktionen, stochastischen Prozessen und zufälligen Mengen zusammen. Speziell: Zufallsgrößen X (Ω, A, P ) −→ (R1 , R1 , PX ) PX ist Wahrscheinlichkeitsmaß auf (R1 , R1 ), {(−∞; x) : x ∈ R} ist ein Erzeugendensystem für R1 , das heißt durch PX ((−∞; x)) für alle x ist PX bereits eindeutig bestimmt (siehe Maßtheorie). Daher: Definition 2.2 Es sei X eine Zufallsgröße auf (Ω, R, P ). Dann heißt die für alle reellen x definierte Funktion = PX ((−∞; x)) = P ({ω ∈ Ω : X(ω) < x}) = P (X < x) FX (x) Verteilungsfunktion 1 (2.3) der Zufallsgröße X. Bemerkung. Neben diskreten und absolut stetigen Verteilungen existieren auch singulär stetige Verteilungen. Eine Verteilung Ps heißt singulär stetig, wenn ihre Verteilungsfunktion stetig ist und eine Lebesgue-Nullmenge N mit Ps (N ) = 1 existiert. Es gilt der Zerlegungssatz von Lebesgue: Für jede Verteilungsfunktion F existieren eindeutig bestimmte Verteilungsfunktionen Fa (absolut stetig), Fs (singulär stetig), Fd (diskret) und nichtnegative Zahlen αa , αs , αd mit F = αa Fa + αs Fs + αd Fd , (2.4) wobei αa + αs + αd = 1. 1 In vielen Büchern findet sich ≤“ statt <“. Dann wird also mit den halboffenen Intervallen (−∞, x] gearbeitet. ” ” Dann ist die Verteilungsfunktion nicht mehr links-, sondern rechtsseitig stetig. Damit kann es vor allem bei Beweisen zu gewissen Unterschieden kommen, obwohl sich die Theorie vom Ergebnis her kaum unterscheidet. 9 Kapitel 3 Erwartungswerte - maßtheoretisch 3.1 3.1.1 Allgemeines und Formeln Definition Hier soll nun die Identifikation desR Maßes µ mit R R der Wahrscheinlichkeit P forciert werden. Es werden die Integrale f (ω) µ(dω), f dµ und f (x) dx, sowie die Bezeichnungen EX, E(X) und EP (X) eingeführt. Definition R 3.1 Es sei X eine Zufallsgröße auf (Ω, A, P ), X sei integrierbar bezüglich P (das bedeutet |X(ω)| P (dω) < ∞). Dann heißt Ω Z EX = X(ω) P (dω) (3.1) Ω Erwartungswert von X (Erwartungswert zur Verteilung PX ). Wenn X ≥ 0 ist, so ist die Existenz immer gegeben, aber unter Umständen ist EX = ∞. 3.1.2 Berechnung von Erwartungswerten Die Berechnung von Erwartungswerten basiert auf dem Transformationssatz der Maßtheorie. Dabei werden g mit X und g(µ) mit PX identifiziert. Demnach gilt: Z EX = R1 +∞ Z x PX (dx) = x dFX (x) (Riemann-Stieltjes). (3.2) −∞ Im diskreten Fall ergibt sich daraus für P (X = ak ) = pk : X EX = ak pk (3.3) (k) und im absolutstetigen Fall: +∞ Z EX = xfX (x) dx. (3.4) −∞ EX kann als Massenschwerpunkt oder Mittelwert gedeutet werden. Hier nun noch zwei Spezialfälle: 10 KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH • Es sei X = 1A mit A ∈ A. Dann ist EX = E1A = P (A), denn es gilt: Z Z 1A (ω) P (dω) = P (dω). (3.5) A Eine alternative Begründung geht von der Formel EX = P ak pk aus und ergibt ebenfalls EX = 0 · p0 + 1 · p1 = 0 · P (Ac ) + 1 · P (A) = P (A). • Für die Exponential-Verteilung lautet die Dichte-Funktion: fX (x) = 1[0,∞) λe−λx . Für den Erwartungswert ergibt sich also: Z∞ EX = xfX (x) dx −∞ Z∞ xλe−λx dx = = 1 λ 0 Bemerkung. Die Integration ist eine lineare Operation, daher gilt für beliebige reelle Zahlen α und β E(αX + βY ) = αEX + βEY, (3.6) sofern die Erwartungswerte EX und EY der beiden Zufallsgrößen X und Y existieren. Anwendung Um den Erwartungswert einer Binomialverteilung auszurechnen, ist es ungeschickt, zu versuchen, ihn nach (3.3) direkt zu berechnen. Viel einfacher ist es hingegen, die Zufallsvariable entsprechend X= n X Xi , Xi = 1Ai i=1 zu zerlegen, wobei Ai das Ereignis eines Erfolges im i-ten Versuch beschreibt. Die Xi sind dann diskret mit a1 = 0, a2 = 1, p1 = 1 − p und p2 = p. Damit ist der Erwartungswert EXi = p. Daraus folgt für den Gesamt-Erwartungswert EX = np. (3.7) Wenn X ≥ 0, kann man den Erwartungswert mitunter elegant durch Integration über die Verteilungsfunktion F (x) ermitteln: Z∞ EX = (1 − F (x)) dx. (3.8) 0 Damit kann man zum Beispiel noch einmal den Erwartungswert der Exponentialverteilung berechnen. Dichte- und Verteilungsfunktion sahen ja folgendermaßen aus: F (x) f (x) = 1 − e−λx , = λe−λx , x≥0 x ≥ 0. 3.2. EINIGE UNGLEICHUNGEN 11 Es ergibt sich Z∞ = (1 − F (x)) dx EX 0 Z∞ = e−λx dx 0 ∞ 1 −λx 1 = − e = λ λ 0 Hier noch eine Bezeichnungsweise: Z E(X; A) = X(ω) P (dω) A ist der auf das Ereignis A eingeschränkte Erwartungswert von X. Oft werden die speziellen Erwartungswerte E(X; X 6= Y ) und E(X; X > 0) benötigt. Es ist offensichtlich, dass gilt: E(X; A) = E(X1A ). Es handelt sich hier nicht um einen bedingten Erwartungswert, wie er in 7.4 betrachtet wird. Beispiel. Bei einem Würfelwurf beschreibe X die Augenzahl. A sei das Ereignis, dass die Augenzahl größer als 3 ist. Dann beschreibt E(X; A) den Mittelwert von Null oder der Augenzahl, ” sofern diese größer als 3 ist.“ Es ergibt sich rechnerisch: E(X; A) = 6 X ak pk = 4 · k=4 3.2 1 1 1 + 5 · + 6 · = 2.5 6 6 6 Einige Ungleichungen Satz 3.1 Es sei X eine Zufallsgröße und g eine auf [0, ∞) definierte nicht negative monoton wachsende Funktion mit E(g(|X|)) < ∞. Dann gilt für jede positive Zahl z: P (|X| ≥ z) ≤ Eg(|X|) g(z) (3.9) Beweis. Es gilt für alle ω g(|X(ω)|) ≥ g(|X(ω)|) 1 (|X(ω)| ≥ z) ≥ g(z) 1 (|X(ω)| ≥ z) , also Eg(|X|) ≥ E (g(|X|); {|X| ≥ z}) ≥ g(z)P (|X| ≥ z). Speziell für g(x) = xk , k > 0, ergibt sich die Markowsche Ungleichung P (|X| ≥ z) ≤ E|X|k zk (3.10) und für X := X − EX und k = 2 die Tschebyschewsche Ungleichung: P (|X − EX| ≥ z) ≤ var X z2 (3.11) 12 KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH Satz 3.2 (Jensensche Ungleichung) g sei konvex und E|X| < ∞. Dann gilt g(EX) ≤ E(g(X)) (3.12) Beweis. Wegen der Konvexität existiert ein reelles a, so dass für alle x gilt: g(x) ≥ g(EX) + a(x − EX) (Wenn g differenzierbar ist, dann ist a = g 0 (EX).) Für x = X(ω) ergibt sich g(X(ω)) ≥ g(EX) + a(X(ω) − EX) für alle ω. Damit ist dann Eg(X) ≥ g(EX) + a(EX − EX) = g(EX) An dieser Stelle sei noch auf die wichtigen Ungleichungen der Funktionalanalysis von Hölder, Ljapunow und Minkowski verwiesen. Die Cauchy-Schwarzsche Ungleichung gilt natürlich auch hier. Unter der Voraussetzung, dass EX 2 < ∞ und EY 2 < ∞ und damit auch E|XY | < ∞ sind, gilt: (E(XY ))2 ≤ EX 2 EY 2 . (3.13) Gleichheit gilt genau dann, wenn X und Y linear abhängig sind, also reelle Zahlen a und b existieren, so dass P (aX + bY = 0) = 1 ist. 13 Kapitel 4 Quantile, Quantilfunktionen und Zufallszahlen-Erzeugung Definition 4.1 Es seien X eine Zufallsgröße auf (Ω, B, P ) mit der Verteilungsfunktion FX , p ∈ (0, 1) sowie Q− p = sup{x ∈ R : FX (x) < p} (4.1) Q+ p = sup{x ∈ R : FX (x) ≤ p}. (4.2) + Jeder Wert Qp ∈ [Q− p , Qp ] heißt p-Quantil der Verteilung FX . + Für fast alle p ist Q− p = Qp , d.h., es existiert zu p genau ein Quantilwert Qp . Ist die Verteilungs+ funktion FX jedoch in einem Intervall konstant mit Funktionswert p, so ist Q− p < Qp . Das tritt vor allem bei diskreten Verteilungen auf, aber auch bei stetigen Verteilungen, wenn die Wahrscheinlichkeitsmasse auf mehrere nicht zusammenhängende Intervalle konzentriert ist. Es gilt: Qp ist p-Quantil ⇔ FX (Qp ) ≤ p ≤ FX (Qp + 0) (4.3) Interpretation: links“ von Qp liegen (maximal) 100% · p der Wahrscheinlichkeitsmasse“, rechts“ ” ” ” davon (maximal) 100% · (1 − p). Im Gegensatz zu EX und var X existieren Quantile immer. In dem Spezialfall, dass FX absolutstetig mit der Dichte fX ist, ist Qp Lösung der Gleichung ZQp FX (Qp ) = fX (x) dx = p (4.4) −∞ Besonders wichtig sind die Quantile für sehr kleine bzw. sehr große p sowie die Werte • p = 14 , p = 43 , die sogenannten Quartile • p = 12 , der Median Im allgemeinen sind Median und Erwartungswert einer Verteilung verschieden (wie man beispielsweise an der Exponentialverteilung sieht), für symmetrische Verteilungen (FX (EX + a) = + 1 − FX (EX − a)) stimmen beide überein, falls der Median eindeutig im Sinne von Q− 0.5 = Q0.5 ist. 14 KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG F −1 6 6 F 6 1,0 5 0,8 4 0,6 3 0,4 0,2 2 0,0 0 1 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 3 4 5 6 Abbildung 4.1: Beispiel einer Verteilungsfunktion (links) sowie der zugehörigen Quantilfunktion (rechts) Satz 4.1 Sei X eine Zufallsgröße mit E|X| < ∞. Dann gilt E|X − Q 21 | = inf E|X − a|, a∈R Falls X absolutstetig ist, so gilt die Formel Q 21 = arg min E|X − a|, (4.5) (a) d.h., der Median minimiert den mittleren (erwarteten) Absolutfehler.1 Ebenfalls von Bedeutung (aber kein Quantil) sind Modalwerte: Dies sind die Werte der Zufallsgröße, an denen die Dichte (bei einer absolutstetigen) bzw. Wahrscheinlichkeit (bei einer diskreten Zufallsgröße) ein lokales Maximum hat. Gibt es nur einen Modalwert, so heißt die Verteilung unimodal. Die Inverse der Verteilungsfunktion wird auch als Quantilfunktion bezeichnet: F −1 (x) = sup{t : FX (t) ≤ x} (4.6) Die Existenz dieser Funktion ist aufgrund der Monotonie von FX immer gegeben. Falls FX streng monoton ist, so handelt es sich hierbei um die Umkehrfunktion. Man setzt −1 FX (0) = sup{t : FX (t) = 0} −1 FX (1) = inf{t : FX (t) = 1} Beispiel. In Abbildung 4.1 sind eine Verteilungs-Funktion und die zugehörige Quantil-Funktion dargestellt. Als Auswahl seien hier folgende beiden Werte angegeben: F −1 (0.1) = sup{t : FX (t) ≤ 0.1} = 1.5 F −1 (0.5) = sup{t : FX (t) ≤ 0.5} = 2.5 Satz 4.2 1. Für alle x und t gilt: F −1 (x) < t ⇔ x < F (t). 2. F −1 ist wachsend und rechtsseitig stetig 3. Wenn F stetig ist, dann gilt F (F −1 (x)) = x für alle x aus dem Intervall (0, 1). 1 Zum Vergleich: Der Erwartungswert minimiert den mittleren quadratischen Fehler: var X = E(X − EX)2 = inf E(X − a)2 a∈R 15 Quantil-Transformation Die Quantil-Transformation bildet eine wichtige Grundlage der Monte-Carlo-Methode. Satz 4.3 Es sei F eine Verteilungsfunktion und U sei auf [0, 1] gleichmäßig verteilt. Dann hat X = F −1 (U ) die Verteilungsfunktion F. Beweis. F −1 ist monoton, also Borel-messbar. Also ist X eine Zufallsgröße. Wegen Satz 4.2 (1.) gilt: P (X < x) = P (F −1 (U ) < x) = P (U < F (x)) = F (x) Inversionsmethode Aus Pseudo-Zufallszahlen u werden nach dem Prinzip X = F −1 (U ) Pseudo-Zufallszahlen mit der Verteilungsfunktion F erzeugt. Wir betrachten hier die Inversionsmethode im diskreten Fall. Es seien P (X = ai ) = pi für i = 1, . . . k P pj . Eine naive Lösung ist folgende: und qk = j=1 Falls u < q1 → a1 q1 ≤ u < q2 → a2 .. . Eine eventuell cleverere Lösung ist nun, die pi so zu sortieren (hier dann mit p∗i bezeichnet), dass p∗1 > p∗2 > . . . gilt. Dann sieht die Lösung folgendermaßen aus: Falls u < q1∗ → a∗1 q1∗ ≤ u < q2∗ → a∗2 .. . Verwerfungsmethode Die Verwerfungsmethode von J. v. Neuman geht davon aus, dass die Zufallsgröße X eine Dichtefunktion f mit f (x) ≤ M und f (x) = 0 für x < a und x > b besitzt. Man erzeuge Zufallszahlen ux und uy aus dem Intervall [0, 1]. Dann berechne man einen Punkt T = (a + ux (b − a), M uy ) = (xT , yT ). Falls T unter der Kurve (x, f (x)) liegt, setze man x = xT und erhält somit eine Zufallszahl zur Dichte f (x). Falls T nicht unter der Kurve liegt, starte man neu. Begründen lässt sich dieses Verfahren mittels geometrischer Wahrscheinlichkeiten: P (X < z) = P (XT < z | YT < f (XT )) = 1 M (b−a) = Rz f (x) dx a 1 M (b−a) P (XT < z, YT < f (XT )) P (YT < f (XT )) Zz = f (x) dx = F (z) a 16 KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG Bemerkungen: • Diese Methode funktioniert auch in hochdimensionalen Fällen mit einer Dichtefunktion wie f (x1 , . . . , xn ). • Eine Vorsiebung kann die Effektivität erhöhen. 17 Kapitel 5 Unabhängigkeit und Produktmaße 5.1 Unabhängigkeit von σ-Algebren Definition 5.1 Eine Familie {Ei }i∈I von Ereignis-Systemen Ei ⊂ A heißt (vollständig) unabhängig, wenn für alle k und i1 , . . . , ik ∈ I und jede mögliche Wahl von Ereignissen Aim ∈ Eim (m = 1, . . . , k) die Gleichheit k k \ Y P( Aim ) = P (Aim ) (5.1) m=1 m=1 besteht. Falls die Ei die Einermengen {Ai } symbolisieren, so handelt es sich um unabhängige Ereignisse. Sind die Ei speziell σ-Algebren Ai , so werden die Ai ⊂ A als unabhängige σ-Algebren bezeichnet. Wenn die Ei durchschnittsstabil sind und die Beziehung Ai = σ(Ei ) gilt, so folgt aus der Unabhängigkeit der Ei auch die Unabhängigkeit der Ai , vgl. [6]. 5.2 Unabhängige oder Produkt-Experimente Es seien (Ωk , Ak , Pk ) Wahrscheinlichkeitsräume für zufällige Experimente, k = 1, . . . , n. Der Wahrscheinlichkeitsraum, auch Produktraum, für das Produkt-Experiment, die stochastisch unabhängige Hintereinanderausführung dieser Einzel-Experimente, ist dann gegeben durch: ( n Y Ων , ν=1 n O ν=1 Aν , n O Pν ) = (Ω, A, P ) ν=1 mit Ω := A := n Y ν=1 n O Ω1 × . . . × Ωn Ων = Aν = σ({A1 × . . . × An : Ak ∈ Ak }) ν=1 P ist dann das (eindeutig bestimmte) Produktmaß auf der Produkt-σ-Algebra A mit P (A1 × . . . × An ) = P1 (A1 ) · . . . · Pn (An ), Ai ∈ Ai . 18 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMASSE Ãi = Ω1 × . . . × Ai × . . . × Ωn bezeichnet das Ereignis, dass im i-ten Experiment das Ereignis Ai eintritt. Es gilt: P (Ãi ) = Pi (Ai ) P (Ãi ∩ Ãj ) = P (Ω1 × . . . × Ai × . . . × . . . Aj × . . . × Ωn ) = Pi (Ai ) · Pj (Aj ) = P (Ãi ) · P (Ãj ) usw. D.h., die Ãi sind vollständig unabhängig. Bernoulli-Schema Ein praktisch wichtiges Beispiel für ein Produktexperiment ist die n-fache, stochastisch unabhängige Hintereinanderausführung von ein und demselben Bernoulli-Experiment, welches durch den Wahrscheinlichkeitsraum (Ω, A, P ) mit A = {∅, Ω, A, A} charakterisiert wird, P (A) = p. Dabei bedeute A einen Erfolg und A einen Nicht-Erfolg im k-ten Versuch. Das einzelne (Teil-)Experiment werde durch den Wahrscheinlichkeitsraum (Ω, A0 , P0 ) mit A0 = {∅, Ω, A, Ac } charakterisiert und es sei P0 (A) = p. Dabei bedeute z.B. A einen Erfolg und Ac einen Nicht-Erfolg. Dann ist P0 (Ac ) = 1 − p. Weil die (Teil-)Experimente alle gleich sind, gilt: Ω1 = . . . = Ωn A1 = . . . = An P1 = . . . = Pn = Ω0 = A0 = P0 Für das Produkt-Experiment gilt dann: Ω = A = P = n Y Ωi i=1 n O i=1 n O Ai Pi i=1 ω = (ω1 , . . . , ωn ) Es sei Ai das Ereignis, dass im i-ten Versuch ein Erfolg eintritt. Dann sind Ai und Aj (i 6= j) stochastisch unabhängig. P (Ai ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 = P0 (A) = p P (Ai ∩ Aj ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 · P0 (A) · 1 . . . · 1 = P0 (A)2 = p2 19 Kapitel 6 Zufällige Vektoren, unabhängige Zufallsgrößen 6.1 Zufällige Vektoren 6.1.1 Grundbegriffe Ein zufälliger Vektor ist eine zufällige Variable (Borel-messbare Abbildung) X : Ω → Rd , X = (X1 , . . . , Xd )T , d.h. X (Ω, A, P ) −→ (Rd , Rd , PX ) mit PX (B) = P (X ∈ B), B ∈ Rd . Beispielsweise könnte X1 die Größe, X2 das Gewicht und X3 den Bauchumfang eines Menschen beschreiben. Ebenso wie Zufallsgrößen können auch Zufallsvektoren durch Verteilungsfunktionen charakterisiert werden: Definition 6.1 Die durch FX (x1 , . . . , xd ) = P (X1 < x1 , . . . , Xd < xd ) (6.1) gegebene Funktion FX : Rd → [0, 1] heißt Verteilungsfunktion des Zufallsvektors X bzw. gemeinsame Verteilungsfunktion der Komponenten von X (joint distribution function). Diese Verteilungsfunktion hat folgende Eigenschaften: 1. FX ist monoton steigend in jeder Variablen 2. 3. lim xk →−∞ FX (x1 , . . . , xk , . . . , xd ) = 0 lim FX (x1 , . . . , xd ) = 1 x1 →∞ x2 →∞ .. . xd →∞ 4. FX ist in jedem Argument linksseitig stetig 20 KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN 5. FX wächst“ auf jedem d-dimensionalen Quader, d.h. ” FX (x1 + h1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd ) − (FX (x1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd )) − (FX (x1 + h1 , x2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd )) .. . − (FX (x1 + h1 , x2 + h2 , . . . , xd ) − FX (x1 , x2 , . . . , xd )) ≥ 0 (6.2) Bemerkung: Es gibt Funktionen, die 1. bis 4. erfüllen, jedoch 5. verletzen, z.B. im zweidimensionalen Fall 1 x1 + x2 > 0 F (x1 , x2 ) = 0 sonst PX ist eindeutig durch FX bestimmt. So gilt zum Beispiel: P (a ≤ X1 ≤ b, c ≤ X2 ≤ d) = PX (Rechteck) = F (b, d) − F (a, d) − F (b, c) + F (a, c). Der Zerlegungssatz von Lebesgue (2.4) hat auch im d-Dimensionalen Gültigkeit, auch Vektorfunktionen lassen sich daher in einen absolut-stetigen, einen singulär-stetigen und einen diskreten Anteil aufteilen. Wir beschränken uns jedoch auf 1. rein absolut-stetige Verteilungsfunktionen (d.h. PX νd ), charakterisiert durch die RadonNikodym-Dichte fX (x1 , . . . , xd ) 2. rein diskrete Verteilungsfunktionen, charakterisiert durch P (X1 = x1 , . . . , Xd = xd ) an diskreten Stellen (x1 , . . . , xd ) 6.1.2 Diskrete und absolutstetige Zufallsvektoren Bei einem diskreten Zufallsvektor existiert eine abzählbare Teilmenge C ⊂ Rd mit P (X ∈ C) = 1 und P (X = x) > 0 für alle x ∈ C. Dies ist genau dann der Fall, wenn alle Komponenten diskret sind. Wenden wir uns nun den absolutstetigen Zufallsvektoren zu. Es sei PX νd . Dann existiert eine gemeinsame Dichte fX (x1 , . . . , xn ). Für die Verteilungsfunktion gilt dann: Zxd Zx1 FX (x1 , . . . , xd ) = ... −∞ fX (t1 , . . . , td ) dt1 . . . dtd −∞ Beachte: Auch wenn X1 , . . . , Xd absolutstetig sind, folgt nicht, dass X absolutstetig ist. 6.2. RANDVERTEILUNGEN 6.2 21 Randverteilungen Die Verteilungsfunktion Fi der Komponente Xi kann aus FX erhalten werden. Sie wird RandVerteilungsfunktion genannt. Satz 6.1 Sei X ein zufälliger Vektor. Dann gilt für jedes i und x: FXi (xi ) = x lim F (x1 , . . . , xi , . . . , xd ) →∞ X (6.3) j j6=i Beweis. Es gilt im Fall (xj ) → ∞ für alle j 6= i: {X1 < x1 , . . . , Xi < xi , . . . , Xd < xd } ↑ {Xi < xi } Wegen der Stetigkeit von P (Satz 4.1 aus der Maßtheorie) folgt (6.3). Es ist z. B. FX1 (x1 ) = PX ((−∞, x1 ) × Rd−1 ) = P (X1 < x1 ) = x lim F (x1 , x2 , . . . , xd ) →∞ X 2 x3 →∞ .. . xd →∞ die Randverteilung bezüglich X1 ; die Zufallsgrößen X2 , . . . , Xd werden in ihr nicht beachtet. Allgemein heißt FXi1 ,...,Xik (xi1 , . . . , xik ) = lim i∈{i / 1 ,...,ik }: xi →∞ FX (x1 , x2 , . . . , xd ) (6.4) (k-dimensionale) Randverteilung bezüglich (Xi1 , . . . , Xik )T . Speziell ergibt sich im zweidimensionalen Fall: FX1 (x1 ) = F(X1 ,X2 ) (x1 , ∞) FX2 (x2 ) = F(X1 ,X2 ) (∞, x2 ) Im absolut-stetigen Fall PX νd existieren Randverteilungsdichten: Z fXi1 ,...,Xik (xi1 , . . . , xik ) = fX (x1 , . . . , xd ) νd−k (dx0 ), (6.5) (6.6) Rd−k wobei sich die Integration über die nicht erfassten Komponenten erstreckt. Soll die Randverteilung einer Komponente berechnet werden, sieht die Formel wie folgt aus: Z∞ fXi (x) = Z∞ ... −∞ fX (t1 , . . . , ti−1 , x, ti+1 , . . . , td ) dt1 . . . dti−1 dti+1 . . . dtd −∞ Im zweidimensionalen Fall ergibt sich Z∞ fX1 (x1 ) = f(X1 ,X2 ) (x1 , x2 ) dx2 −∞ Z∞ fX2 (x2 ) = f(X1 ,X2 ) (x1 , x2 ) dx1 −∞ (6.7) 22 KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN Im diskreten Fall ist P (Xi1 = xi1 , . . . , Xik = xik ) X = P (X1 = x1 , . . . , Xd = xd ), (6.8) xj1 ,...,xjd−k wobei hier über die (d − k) fehlenden Komponenten summiert wird, d.h., {i1 , . . . , ik } ∪ {j1 , . . . , jd−k } = {1, . . . , d}, {i1 , . . . , ik } ∩ {j1 , . . . , jd−k } = ∅. Beispiele 1. Wir betrachten die Gleichverteilung auf einem zusammenhängenden Gebiet G ⊂ Rd ; diese ist eine absolutstetige Verteilung mit über G konstanter Dichte fX (x1 , . . . , xd ) = 1 1G (x1 , . . . , xd ) νd (G) Für die zweidimensionale Gleichverteilung auf [a, b] × [c, d] gilt fX1 ,X2 (x1 , x2 ) = fX1 (x1 ) = fX2 (x2 ) = 1 1[a,b]×[c,d] (x1 , x2 ) (b − a)(d − c) 1 1[a,b] (x1 ) b−a 1 1[c,d] (x2 ) d−c 2. Wir betrachten eine diskrete Verteilung im R2 mit endlich vielen Werten (x1i , x2j ), i = 1, . . . , q, j = 1, . . . , r. Die Wahrscheinlichkeiten P (X1 = x1i , X2 = x2j ) =: pij bilden eine q × r-Matrix P = (6.9) (pij ) Die Randverteilungen ergeben sich als Zeilen- beziehungsweise Spaltensummen der Matrix: X P (X1 = x1i ) = pij = pi· , (6.10) j P (X2 = x2j ) = X pij = p·j . (6.11) i 6.3 Unabhängigkeit Definition 6.2 Es sei (Xi )i=1,2,... eine Folge von Zufallsgrößen auf (Ωi , Ai , Pi ); die (Xi ) heißen total stochastisch unabhängig, wenn für jedes k der zufällige Vektor X = (Xi1 , . . . , Xik ) durch den Produkt-Wahrscheinlichkeitsraum Rk , Rk , k O PXij j=1 beschrieben wird (% Abschnitt 5.2). Insbesondere gilt also PX = k O PXij (6.12) j=1 für jede Auswahl X = (Xi1 , . . . , Xik ). Sind alle Verteilungen PXi überdies gleich, so heißen die Xi , i = 1, 2, . . . unabhängig und identisch verteilt (auch iid: independent and identically distributed“). ” 6.3. UNABHÄNGIGKEIT 23 Aus (6.12) und der Erzeugereigenschaft der (−∞, xi ) folgt: Genau dann gilt für jede Auswahl X = (Xi1 , . . . , Xik ) FX (x1 , . . . , xk ) = k Y FXij (xj ), (6.13) j=1 wenn (Xi ) eine total stochastisch unabhängige Familie ist. Speziell ist also bei zufälligen Vektoren mit unabhängigen Komponenten die Verteilungsfunktion das Produkt der Randverteilungsfunktionen der einzelnen Komponenten. Im absolut-stetigen Fall folgt aus der Unabhängigkeit: fX (x1 , . . . , xd ) = d Y fXi (xi ) (6.14) i=1 Ein Beispiel für eine solche absolutstetige Verteilung ist die zweidimensionale Gleichverteilung auf [a, b] × [c, d] (siehe obiges Beispiel). Bei diskreten zufälligen Vektoren ist die Unabhängigkeit äquivalent zu: P (X1 = x1 , . . . , Xd = xd ) = d Y P (Xi = xi ) (6.15) i=1 Bei diskreten Verteilungen im R2 lässt sich (6.15) auch ausdrücken als: pij = pi· · p·j (6.16) Für den Erwartungswert des Produkts zweier unabhängiger Zufallsgrößen gilt E(XY ) = EX · EY (6.17) wegen Z∞ Z∞ Z E(XY ) = X(ω)Y (ω) P (dω) = Z∞ Z∞ = xy dF (x, y) −∞ −∞ Z∞ x dF (x) · xy dF (x) dF (y) = −∞ −∞ Z∞ −∞ y dF (y) −∞ Speziell: Wenn X und A unabhängig sind (d. h., σ(X) und R{∅, A, Ac , Ω} sind unabhängig), so sind X und 1A unabhängig und es gilt für E(X; A) = EX1A = X(ω) P (dω) A E(X; A) = E(X1A ) = EX E1A = EX P (A). Beispiel. X sei die Augenzahl beim zweiten Wurf. A sei das Ereignis, dass die Augenzahl beim ersten Wurf gerade war. Dann beträgt E(X; A) = 3.5 · 0.5. 24 6.4 KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN Erwartungswert, Kovarianz, Korrelation Definition 6.3 Es sei X ein d-dimensionaler zufälliger Vektor auf (Ω, A, P ). Der Erwartungswert EX (falls er existiert) ist gleich dem Vektor der Erwartungswerte der Komponenten von X, d.h., EX = (EX1 , . . . , EXd )T (6.18) Bemerkung: EX ist bereits durch die Randverteilungen FXi , i = 1, . . . , d, bestimmt: Z EXi = Z xi dFX (x1 , . . . , xi , . . . , xd ) = xi dFXi (xi ) (6.19) R1 Rd Wenn Xi und Xj unabhängig sind, dann gilt nach (6.17) EXi Xj = EXi · EXj (6.20) Definition 6.4 Es sei X ein d-dimensionaler zufälliger Vektor auf (Ω, A, P ). Die Größe E ((Xi − EXi )(Xj − EXj )) = EXi Xj − EXi · EXj = cov(Xi , Xj ) (6.21) heißt (sofern sie existiert) Kovarianz von Xi und Xj . Die normierte Größe cov(Xi , Xj ) var Xi · var Xj %(Xi , Xj ) = p (6.22) heißt Korrelationskoeffizient zwischen Xi und Xj . Als Spezialfall ergibt sich: cov(Xi , Xi ) = var Xi , %(Xi , Xi ) = 1. Als allgemeine Formel für die Varianz der Summe von Zufallsgrößen ergibt sich nunmehr var (Xi ± Xj ) = var Xi + var Xj ± 2cov(Xi , Xj ), (6.23) und für unkorrelierte Xi und Xj gilt var (Xi ± Xj ) = var Xi + var Xj (6.24) Beweis von (6.23). var (Xi ± Xj ) = E((Xi − EXi ) ± (Xj − EXj ))2 = E((Xi − EXi )2 + (Xj − EXj )2 ± 2(Xi − EXi )(Xj − EXj )) = var Xi + var Xj ± 2cov(Xi , Xj ). Für den d-dimensionalen Vektor X ist (cov(Xi , Xj ))d×d = ΣX (6.25) (%(Xi , Xj ))d×d = RX (6.26) sogenannte Kovarianzmatrix und sogenannte Korrelationsmatrix . ΣX und RX sind symmetrisch und positiv semidefinit. 6.4. ERWARTUNGSWERT, KOVARIANZ, KORRELATION 25 Nachweis: Es sei z der Spaltenvektor aus den Xi − EXi . Dann ist ΣX = E(zz T ). Für einen beliebigen d-Vektor t gilt tT ΣX t = tT E(zz T )t = E(tT (zz T )t) = E((tT z)(z T t)) = E((tT z)2 ) !2 d X = E (ti (Xi − EXi )) ≥ 0. i=1 Hilbertraum der Zufallsgrößen 2. Ordnung. Zufallsgrößen, deren ersten beide Momente existieren, heißen Zufallsgrößen 2. Ordnung. Wenn Xi und Xj zwei Zufallsgrößen zweiter Ordnung sind, dann ist durch hXi , Xj i = EXi Xj (6.27) ein Skalarprodukt definiert. So entsteht ein Hilbertraum mit dem in (6.27) definierten Skalarprodukt. Es gilt die Cauchy-Schwarzsche Ungleichung: |EXi Xj |2 ≤ |EXi2 | · |EXj2 | (6.28) Wegen Z hXi , Xj i = Xi (ω)Xj (ω) P (dω) (6.29) Ω wird der Raum auch als L2 (Ω, A, P ) bezeichnet. Interpretation des Korrelationskoeffizienten: %(Xi , Xj ) misst den Grad der linearen Abhängigkeit zwischen Xi und Xj : Ist % > 0, dann besteht die Tendenz, dass bei großen Werten von Xi auch Xj groß ist, ist % < 0, dann treten bei großen Xi tendenziell kleine Xj auf. Eigenschaften des Korrelationskoeffizienten: 1. |%(Xi , Xj )| ≤ 1 2. Sind Xi und Xj unabhängig, dann ist %(Xi , Xj ) = 0 (Xi und Xj sind unkorreliert) 3. Gilt Xk0 = ak Xk + bk für k = i und j, so folgt %(Xi0 , Xj0 ) = %(Xi , Xj ). f.s. 4. |%(Xi , Xj )| = 1 ⇔ Xi = aXj + b Beweise. 1. folgt sofort aus der Schwarzschen Ungleichung 2. folgt aus (6.20) und (6.21) 3. Einfaches Ausrechnen 4. ⇐“: ergibt sich unmittelbar durch Einsetzen ” X −EXj √i −EXi , X 0 := √j ⇒“: Es sei %(Xi , Xj ) = +1, Xi0 := X ; es ist also EXi0 = EXj0 = 0, j var Xi var Xj ” var Xi0 = var Xj0 = 1. Es folgt: var (Xi0 − Xj0 ) f.s. = 1 + 1 − 2cov(Xi0 , Xj0 ) = 2(1 − EXi0 Xj0 ) = 2(1 − %(Xi , Xj )) = 0 f.s. Daraus folgt, dass Xi0 − Xj0 = 0, also Xi = aXj + b Als Folgerung aus (6.23) ergibt sich: Xi , Xj sind unkorreliert genau dann, wenn var (Xi + Xj ) = var Xi + var Xj . Sind die Komponenten des Vektors X alle unkorreliert, dann ist ΣX eine Diagonal- und RX eine Einheitsmatrix. 26 6.5 6.5.1 KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN Beispiele für Verteilungen zufälliger Vektoren Gleichverteilung auf G ∈ Rd Die Dichtefunktion hat die Form: fX (x) = 1G (x) , νd (G) x ∈ Rd Speziell für G = [0, 1]d ergibt sich die Dichtefunktion 1, x ∈ [0, 1]d fX (x) = . 0, sonst d Es gilt dann Xi = U mit U = glm[0, 1]. Die Xi sind hier iid. 6.5.2 n-dimensionale Normalverteilung Vorerst ein paar Worte zur n-dimensionalen Standard-Normalverteilung. Dort sind die Komponenten Zi des Zufallsvektors Z unabhängig und N(0, 1)-verteilt. Für die Dichte-Funktion gilt ) ( n 1X 2 1 z (6.30) f (z1 , . . . , zn ) = ϕ(z1 ) · . . . · ϕ(zn ) = √ n exp − 2 i=1 i 2π wobei die zi beliebige reelle Zahlen sind. Doch nun zur allgemeinen mehrdimensionalen Normalverteilung. Eine reguläre mehrdimensionale Normalverteilung ist eine absolutstetige Verteilung mit der Dichtefunktion 1 1 exp − (x − µ)T Σ−1 (x − µ) (6.31) fX (xi , . . . , xn ) = p 2 (2π)n det Σ wobei µ = (µ1 , . . . , µn )T , x = (x1 , . . . , xn )T und Σ eine positiv definite (n × n)-Matrix. Mit X = AZ + µ, wobei Z n-dimensional standard-normalverteilt ist und A eine n × n-Matrix mit det A 6= 0 sowie Σ = AAT erhält man (6.31) aus (6.30). Symbolisch wird dies ausgedrückt durch: X ∼ N(µ, Σ) (6.32) Die Höhenlinien“ der Dichte sind Ellipsen, deren Hauptachsen durch die Eigenwerte und Eigen” vektoren von Σ, der Kovarianzmatrix, bestimmt sind. Es gilt: EX = µ (6.33) Sind die Komponenten von X unkorreliert, so ist Σ eine Diagonalmatrix mit den Werten σ12 , . . . σn2 in der Hauptdiagonalen, wobei σk2 = var Xk . Die Dichte lässt sich in diesem Fall auch darstellen als: 2 ! n 1 1 X xi − µi fX (x) = s exp − 2 i=1 σi n Q (2π)n σi2 i=1 n Y 1 1 p = exp − 2 2 2πσi i=1 xi − µi σi 2 ! = n Y i=1 fXi (xi ) 6.5. BEISPIELE FÜR VERTEILUNGEN ZUFÄLLIGER VEKTOREN 27 Aus (6.14) ergibt sich, dass die Komponenten unabhängig sind. Ist also X ∼ N(µ, Σ), so gilt: ⇐⇒ Komponenten unabhängig Komponenten unkorreliert (6.34) Die Randverteilungen einer mehrdimensionalen Normalverteilung sind wieder Normalverteilungen: X ∼ N(µ, Σ) ⇒ Xi ∼ N(µi , σi2 ) Setzt sich der normalverteilte Vektor X aus zwei Vektoren zusammen, d.h., X1 Σ11 Σ21 µ1 X= , Σ= , µ= , X2 Σ21 Σ22 µ2 dann ist auch X1 normalverteilt: X1 ∼ N(µ1 , Σ11 ) (6.35) Lineare Transformationen von normalverteilten Zufallsgrößen liefern wieder normalverteilte Zufallsgrößen. Zu jeder positiv definiten symmetrischen Matrix Σ existiert eine absolutstetige Normalverteilung N(µ, Σ). Ist Σ symmetrisch und positiv semidefinit, aber nicht positiv definit, dann existiert zwar ein Zufallsvektor X mit normalverteilten Komponenten Xi und Kovarianzmatrix Σ, die Verteilung von X ist aber nicht absolutstetig bezüglich νn , der sogenannte irreguläre Fall. Dieser Fall tritt genau dann auf, wenn lineare Abhängigkeiten zwischen den Komponenten X1 ,. . . ,Xn bestehen. Für den Spezialfall einer zweidimensionalen Normalverteilung ergibt sich fX (x1 , x2 ) = ( 2 x1 − µ1 1 1 p exp − 2(1 − %)2 σ1 2πσ1 σ2 1 − %2 2 !) x2 − µ2 x1 − µ1 x2 − µ2 + −2% , σ1 σ2 σ2 (6.36) wobei % = %(X1 , X2 ) und Σ= σ12 %σ1 σ2 %σ1 σ2 σ22 . Will man im zweidimensionalen Fall normalverteilte Zufallsvektoren erzeugen, so kann man den log-tri-Algorithmus verwenden. Dafür verwendet man zwei gleichverteilte Zufallszahlen u1 und u2 aus dem Intervall [0, 1] und σ1 , σ2 und µ1 , µ2 und % wie oben. Die gesuchten Komponenten x1 und x2 können dann wie folgt berechnet werden: p p x1 = µ1 + σ1 −2 ln u1 ( 1 − %2 cos(2πu2 ) + % sin(2πu2 )) p x2 = µ2 + σ2 −2 ln u1 sin(2πu2 ) 28 6.5.3 KAPITEL 6. ZUFÄLLIGE VEKTOREN, UNABHÄNGIGE ZUFALLSGRÖSSEN Gibbs-Verteilung Die Gibbs-Verteilung hat die Dichte-Funktion f (x1 , . . . , xn ) = exp{−U (x1 , . . . , xn )}C mit (x1 , . . . , xn ) ∈ B ⊂ Rn . U hat die Form U (x1 , . . . , xn ) = X Θ(|xi − xj |), i<j wobei Θ eine Paarpotential-Funktion ist. Beispielsweise könnte ∞ t<h Θ(t) = 0 t≥h sein. Das ist ein Modell für zufällig verteilte Punkte in B mit dem minimalen Zwischenpunktabstand h. Es ergibt sich hierbei das Problem, dass C meist nicht formelmäßig bestimmbar ist, weswegen Simulationen herangezogen werden. 6.5.4 Bayes-a-posteriori-Verteilung Laut Bayesscher Formel gilt: P (A | Bi )P (Bi ) P (Bi | A) = P P (A | Bj )P (Bj ) (j) Die absolutstetige Version dazu lautet dann: f (x | A) = R P (A | x)f (x) = P (A | x)f (x)C P (A | y)f (y) dy Wieder tritt das Problem der Bestimmung von C auf. 29 Kapitel 7 Bedingte Verteilungen, bedingte Erwartung 7.1 Einführung Bevor wir uns diesem Thema zuwenden, hier zwei einführende Beispiele: 1. (X, Y ) bezeichne den Zufallsvektor (Größe, Gewicht) eines zufällig ausgewählten Menschen. Da es sich um absolutstetige Zufallsgrößen handelt, ist P (X = x) = 0. Oft interessieren wir uns für bedingte Wahrscheinlichkeiten wie P (Y < y | X = x) oder z. B. für eine Gewichtstabelle am Wägeautomaten E(Y | X = x). Die bisherigen Formeln helfen uns nicht viel, da hier nach der Formel der einfachen bedingten Wahrscheinlichkeit durch Null geteilt wird. 2. Bei einem Würfel ist Ω = {1, . . . , 6}, die σ-Algebra A ist die Potenzmenge P(Ω). Für die Zufallsgröße X gelte X(ω) = ω. Nun werden die beiden Seiten mit den Werten 1 und 6 zugeklebt und rot angemalt. Damit werden die Beobachtungen vergröbert. Zu diesem Versuch gehört nur noch eine kleinere σ-Algebra C. Diese enthält zwar {1, 6} als Element, aber nicht {1} und {6}. Genauer gesagt gilt C = σ({2}, {3}, {4}, {5}, {1, 6}). Was wird nun aus X? X ist ja nun nicht mehr bezüglich C messbar, denn das Urbild von 1 existiert ja nicht mehr. Es wird also eine vernünftige“ Zufallsgröße Augenzahl“ für das ” ” vereinfachte Experiment gesucht. Wir führen also ein: E(X | C)(ω) = X(ω), für ω = 2, 3, 4, 5 E(X | C)(ω) = const., für ω = 1, 6 1+6 = = 3.5. 2 Würden wir nun alle Seiten zukleben, dann ergäbe sich die σ-Algebra C0 = {∅, Ω}. Dann würden wir verwenden: E(X | C0 )(ω) = const. = 3.5 Daraus sieht man, dass einer Vergröberung der σ-Algebra eine Vergröberung von X entspricht, bei der sich die Varianz bei gleichbleibendem Erwartungswert verringert. 30 7.2 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG Bedingte Größen bezüglich B ∈ A mit P (B) > 0 Ausgangspunkt ist die in Kapitel 4 definierte bedingte Wahrscheinlichkeit P (A | B) = P (A ∩ B) P (B) PB (·) = P (· | B) ist dann ein Wahrscheinlichkeitsmaß. Wir betrachten nun die Transformation von dem Wahrscheinlichkeitsraum (Ω, A, P ) in den Raum (Ω, A, PB ). Sei B ∈ A mit P (B) > 0 ein Ereignis, X : Ω → R1 eine Zufallsgröße, PX | B das Bildmaß von PB bei X. Dann ist PB (dω) = P (dω) 1B (ω), P (B) und die bedingte Verteilung ist definiert durch: PX | B (A) = P (X ∈ A | B) = P ({X(ω) ∈ A} ∩ B) P (B) (7.1) Für die zugehörige bedingte Verteilungsfunktion gilt dann: FX | B (x) = P (X < x | B) (7.2) Falls PX | B absolutstetig ist, gilt Z 1 fX (t) dt = P (B) FX | B (x) = Zx 1 fX (t)1X(B) (t) dt, P (B) −∞ (−∞,x)∩X(B) also ist durch fX | B (x) = 1 fX (x)1X(B) (x) P (B) (7.3) die bedingte Dichte gegeben. Beispiel.(Zweiseitige Stutzung) Sei B = X −1 ([a, b]) = {ω ∈ Ω : a ≤ X(ω) ≤ b}. Dann sind X(B) = [a, b] und P (B) = FX (b) − FX (a). Die bedingte Dichte fX (x)1[a,b] (x) (7.4) fX | B (x) = FX (b) − FX (a) heißt dann die Dichte der bei a und b gestutzten Verteilung von X. Bedingter Erwartungswert E(X | B) unter der Hypothese B: R R X(ω)1B (ω) P (dω) X(ω) P (dω) Z E(X; B) E(X | B) = X(ω) PB (dω) = Ω (7.5) =B = P (B) P (B) P (B) Ω oder: Z∞ E(X | B) = x dFX | B (x) −∞ = 1 P (B) Z X(B) X 1 xi (P (X = xi ) P (B) x ∈X(B) iZ x dFX (x) = 1 xfX (x) dx P (B) X(B) (7.6) 7.3. VERTEILUNG VON X UNTER DER BEDINGUNG Y = Y 31 Bei der zweiseitigen Stutzung ergibt sich: Rb E(X | a ≤ X ≤ b) = 7.3 xfX (x) dx a F (b) − F (a) Verteilung von X unter der Bedingung Y = y Zunächst wird der diskrete Fall betrachtet. X nehme die Werte x1 , x2 , . . . und Y die Werte y1 , y2 , . . . an, P (Y = yi ) = pi > 0. Dann ist P (X = xi , Y = yj ) = pij , i, j = 1, 2, . . . die gemeinsame Verteilung von (X, Y ) (siehe (6.9)). Dann ist P (X = xi | Y = yj ) = pi|j = pij p·j (7.7) die Verteilung von X unter der Bedingung Y = yj , entsprechend pij P (Y = yj | X = xi ) = pj|i = pi· die Verteilung von Y unter der Bedingung X = xi . Es ergeben sich die bedingten Erwartungswerte E(X | Y = yj ) = P E(Y | X = xi ) = P 1 X xi pij p·j i 1 X yj pij = pi· j i xi pi|j = j yj pj|i (7.8) Betrachten wir nun den Fall, dass (X, Y ) absolutstetig mit der gemeinsamen Dichte f(X,Y ) ist. Wir suchen nun nach der bedingten Dichtefunktion fX | Y =y . Es gilt: Rx y+h R P (X < x | y ≤ Y ≤ y + h) = −∞ f(X,Y ) (s, t) dt ds y y+h R fY (t) dt y Dann ist, falls fY (y) > 0 FX | Y =y (x) = = lim P (X < x | y ≤ Y ≤ y + h) h→0 Rx f(X,Y ) (s, y) ds −∞ (7.9) fY (y) die Verteilungsfunktion von X unter der Bedingung Y = y; die zugehörige Dichtefunktion ist dann gegeben durch: f(X,Y ) (x, y) (7.10) fX | Y =y (x) = fY (y) Entsprechend ergeben sich FY sich: | X=x und fY | X=x . Als bedingter Erwartungswert mX (y) ergibt R∞ Z∞ mX (y) = E(X | Y = y) = xfX | Y =y (x) dx = −∞ xf(X,Y ) (x, y) dx −∞ fY (y) (7.11) 32 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG mX wird auch Regressionsfunktion 1. Art von X bezüglich Y genannt. Entsprechend E(Y | X = x). Beispiel. Sei (X, Y ) normalverteilt (siehe (6.36)) mit 2 σX %σX σY Σ= . %σX σY σY2 Dann ist ( σY (x − µX )]2 1 [y − µY − % σX exp − fY | X=x (y) = q 2 (1 − %2 )σY2 2π(1 − %2 )%2y 1 ) , (7.12) Y die Dichte der bedingten Verteilung ist also die Dichte der Verteilung N(µY + % σσX (x − µX ), (1 − 2 2 % )σY ). Für den bedingten Erwartungswert ergibt sich: σY E(Y | X = x) = µY + % (x − µX ) (7.13) σX Die Regressionsfunktion von Y bezüglich X ist also eine Gerade, was ein Charakteristikum der Normalverteilung ist. Die Gerade ist steigend, falls % > 0 bzw. fallend, falls % < 0. 7.4 Allgemeiner Begriff der bedingten Erwartung Der Erwartungswert ist wichtiger als die Wahrscheinlichkeit.“ ” Denn es gilt: P (A) P (A | Y = y) = E1A = E(1A | Y = y) = X 1A (j)pj|i = (j) X pj|i j∈A Offensichtlich ist E(X | Y = y) eine Funktion von y. Das führt zu der Einführung der Zufallsgröße E(X | Y )(ω) = E(X | Y = y) für alle ω mit Y (ω) = y. Mit der Messbarkeit von E(X | Y ) bzgl. σ(Y ) hängt die Bezeichnung E(X | σ(Y )) zusammen. Im Trivialfall ist E(X | X = x) = x und E(X | X) = X. Beispiel. Sei X die Augenzahl eines Würfels. Y beschreibe folgendes Ereignis: g, gerade Y = u, ungerade Klassisch ermittelt sich der bedingte Erwartungswert auf die folgende Weise: X E(X | Y = g) = jpj|g j=1 = 2p2|g + 4p4|g + 6p6|g 1 = (2 + 4 + 6) · = 4 3 Analog berechnet sich auch E(X | Y = u) = 3. Dem entspricht die Zufallsgröße: 3, ω ∈ {1, 3, 5}, d.h., wenn Y = u E(X | Y )(ω) = 4, ω ∈ {2, 4, 6}, d.h., wenn Y = g Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgröße mit E|X| < ∞ (% Maßtheorie), C ⊂ A sei Unter-σ-Algebra von A. Nun wird eine zu C passende Vergröberung der Zufallsgröße X gesucht. Diese Zufallsgröße E(X | C) heißt bedingte Erwartung und hat zwei wichtige Eigenschaften: 7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG 33 1. E(X | C) ist messbar bezüglich C. ( Vergröberung“) ” 2. Für alle C aus C gilt E(X; C) = E(E(X | C); C). ( beide Größen sind im Mittel gleich“) ” Für das Würfelbeispiel gilt C = σ({1, 3, 5}, {2, 4, 6}). Für C = {1, 3, 5} gilt E(X; C) = 1· 1 1 1 + 3 · + 5 · = 1.5, 6 6 6 also ist E(X | C)(ω) = 3 für ω = 1, 3 und 5. Beispiel. (Vergröberte Exponentialverteilung) Es sei X ∼ Exp(λ), dann ist der Median x0.5 = lnλ2 . Für die mit beliebigen a 6= b gemäß a X(ω) ≤ x0.5 Y (ω) = b sonst definierte Zufallsgröße Y gilt dann P (Y = a) = P (Y = b) = 21 . Die von Y erzeugte σ-Alebra ist C = {∅, A, AC , Ω} mit A = {ω : X(ω) < x0.5 }. E(X | Y ) = E(X | C) ist auf A bzw. AC jeweils konstant, wie auch Y . Aber wie lauten die entsprechenden Werte cA bzw. cAC ? Z E(X; A) = x0.5 x0.5 Z Z X(ω) P (dω) = x dF (x) = xλe−λx dx 0 A 0 x0.5 1 e−λx = 1 − e−λx0.5 (1 + λx0.5 ) = λ 2 · (−λx − 1) λ λ 0 1 1 − ln 2 0.1534 1 1 − ln 2 1−e (1 + ln 2) = = = 1 − (1 + ln 2) = λ λ 2 2λ λ Durch E(E(X | C); A) = P (A) · cA erhält man cA = 1.6932 dann auch cAC = . λ Kontrolle mittels (7.6): 0.3068 1 , mit P (A) · cA + P (AC ) · cAC = EX = λ λ E(X | Y = a) = E(X | X < x0.5 ) = 2 · x0.5 Z λe−λx dx = cA 0 Satz 7.1 Es sei X eine nichtnegative bzw. integrierbare Zufallsgröße auf (Ω, A, P ). C sei eine beliebige Teil-σ-Algebra von A. Dann existiert bis auf fast sichere Gleichheit eine C-messbare Zufallsgröße XC mit E(X; C) = E(XC ; C), C∈C (7.14) bzw. Z Z X(ω) P (dω) = C XC (ω) P (dω) C XC ist fast sicher nichtnegativ bzw. integrierbar und wird bedingte Erwartung von X bezüglich C genannt: XC = E(X | C) 34 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG Beweis für X ≥ 0. Es wird der Satz von Radon-Nikodym verwendet, der besagt, dass für ein σ-finites Maß µ und ein Maß ν mit ν µ eine Dichtefunktion f existiert mit Z ν(C) = f (ω) µ(dω), C ∈ C C Wenn wir das jetzt auf unser Problem beziehen, sei PC die Einschränkung von P auf C. Ferner sei Z Q(C) = X(ω) P (dω) = E(X; C). C Um die Analogie zum obigen Formalismus herzustellen, identifizieren wir ν mit Q und µ mit PC . Die σ-Finitheit ist gegeben, da P ein Wahrscheinlichkeitsmaß ist. Natürlich ist Q PC , da aus PC (C) = P (C) = 0 Z X(ω) P (dω) = 0 C folgt. Also existiert eine C-messbare nichtnegative Funktion XC mit Z Z Z X(ω) P (dω) = Q(C) = XC (ω) PC (dω) = XC (ω) P (dω), C C C da XC C-messbar ist. XC ist P -fast-eindeutig: Wenn X̄C eine andere Zufallsgröße wäre, die der Bedingung ebenfalls genügt, so muss gelten: PC (XC = X̄C ) = 1, und weil {XC = X̄C } ∈ C folgt P (XC = X̄C ) = 1. Die Fortsetzung des Beweises findet sich in [6] auf den Seiten 118 ff. Bemerkungen 1. E(X | C) ist nur P -fast-sicher bestimmt. 2. Die Berechnung von E(X | C) ist oft schwierig. ( Differenzieren ist nicht immer leichter als ” Integrieren.“) 3. X → E(X | C) ist eine Glättung oder Mittelung (siehe Beispiele). 4. Zwei Extremfälle: • E(X | A) = X fast sicher. • C = {∅, Ω} ⇒ E(X | C) = EX fast sicher. Fakten • Es gilt die Formel des totalen Erwartungswertes: E(E(X | C)) = EX. (7.15) (In (7.14) setzen wir C = Ω.) • Ist Z C-messbar, so gilt E(ZX | C) = ZE(X | C). • Es gilt E(|E(X | C)|p ) ≤ E|X|p für p ≥ 1. Damit gilt auch: var (E(X | C)) ≤ var X (7.16) 7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG 35 • Wir betrachten nun L2(Ω,A,P ) , also Zufallsgrößen mit EX 2 < ∞ (% Maßtheorie Abschnitt 11.2). Hier gilt: Alle X, die messbar bezüglich C sind, bilden einen linearen Teilraum von L2 . • Im Spezialfall C = σ(Y ) schreibt man E(X | C) = E(X | Y ) • Es gilt E(X | X) = X fast sicher. • Es gilt E(X | Y ) = f (Y ). (7.17) Daraus ergibt sich ein Rezept zur Berechnung von E(X | Y ): Berechne f (y) = E(X | Y = y) mittels elementarer Stochastik. Setze dann E(X | Y ) = f (Y ). Wenn z. B. E(X + Y | Y ) für unabhängige X und Y gesucht ist, dann ergibt sich: E(X + Y | Y = y) = E(X | Y = y) + E(Y | Y = y) = EX + y = f (y) Also E(X + Y | Y ) = EX + Y . Bei stochastischen Prozessen (z. B. Martingalen) beschreibt C = σ(X1 , . . . , Xn ) die kleinste σ-Algebra, bezüglich der X1 , . . . , Xn messbar sind. Interpretiert werden kann das auch wie folgt: E(Xn+1 | X1 , . . . , Xn ) ist gesucht, wobei die X1 , . . . , Xn die Vergangenheit“ darstellen. ” Bemerkungen • Wenn X und Y diskret sind, dann hat die Zufallsgröße E(X | Y ) gerade die bedingten Erwartungswerte E(X | Y = y) aus (7.8) als mögliche Realisierungen. Der Erwartungswert des bedingten Erwartungswertes E(X | Y ) ist nach (7.15) gleich EX: X E(E(X | Y )) = E(X | Y = yj )p·j = EX j • Wenn X und Y absolutstetig sind, dann sind die E(X | Y = y) aus (7.11) die möglichen Werte der Zufallsgröße E(X | Y ). Aus (7.15) folgt wiederum: Z∞ E(E(X | Y )) = E(X | Y = y)fY (y) dy = EX −∞ • Sei A ∈ A und X(ω) = 1A (ω). Dann schreibt man E(X | C)(ω) = P (A | C)(ω) (7.18) und mit (7.14) ergibt sich für alle B ∈ C Z P (A ∩ B) = P (A | C)(ω) P (dω) (7.19) B Speziell für B = Ω ergibt sich Z P (A) = P (A | C)(ω) P (dω), Ω die Formel der totalen Wahrscheinlichkeit. (7.20) 36 KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG Sei Bi (i = 1, . . . , n) eine Folge von paarweise disjunkten Teilmengen aus Ω mit P (Bi ) > 0 und C = σ(B1 , . . . , Bn ) die von den Bi erzeugte σ-Algebra. Aus der C-Messbarkeit von E(X | C) folgt, dass E(X | C) konstant auf den Bi ist, spezieller: E(X | C)(ω) = E(X | Bi ) für ω ∈ Bi Dies ergibt sich aus E(X | C)(ω) Z = X(ω) P (dω) Bi 1 = E(X | Bi ) P (Bi ) (7.21) 37 Kapitel 8 Funktionen von Zufallsvektoren, Faltung 8.1 Funktionen von zufälligen Vektoren Es sei X ein zufälliger Vektor auf (Ω, A, P ), g : Rd → Rd sei Borel-messbar, dann ist Y = g(X) ein zufälliger Vektor auf demselben Wahrscheinlichkeitsraum mit PY (B) = PX (g −1 (B)) (8.1) für alle Borelmengen B. Es sei nun X absolutstetig mit der Dichte fX , g sei eineindeutig, g −1 = h sei die Umkehrabbildung, d.h. X = h(Y ) = (h1 (Y ), . . . , hd (Y )). Dann gilt: Z P (X ∈ A) = fX (x1 , . . . , xd ) dx1 . . . dxd A Z = fX (h(y))|J| dy1 . . . dyd g(A) = P (Y ∈ g(A)). (8.2) Es gilt also fY (y) = |J|fX (h(y)) (8.3) Hierbei ist J = det ∂hi (y) ∂yj ! i,j=1,...,d die sogenannte Jacobische Funktionaldeterminante. Beispiel. Seien X1 , X2 unabhängig und gleichverteilt auf [0, 1]. Dann sind Y1 und Y2 mit Y1 Y2 unabhängig N(0, 1) verteilt. √ = √−2 ln X1 sin 2πX2 = −2 ln X1 cos 2πX2 (8.4) 38 KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG Anwendung von (8.3) auf X = (X1 , X2 )T mit der Dichte fX (x1 , x2 ) liefert: fX1 +X2 (z) fX1 −X2 (z) fX1 X2 (z) fX1 /X2 (z) = = = = R∞ −∞ R∞ −∞ R∞ −∞ R∞ fX1 ,X2 (x, z − x) dx falls X1 ,X2 = unabhängig fX1 ,X2 (x, x − z) dx = 1 z |x| fX1 ,X2 (x, x ) dx = |x|fX1 ,X2 (xz, x) dx = R∞ −∞ R∞ −∞ R∞ −∞ R∞ −∞ fX1 (x)fX2 (z − x) dx fX1 (x)fX2 (x − z) dx (8.5) z 1 |x| fX1 (x)fX2 ( x ) dx |x|fX1 (xz)fX2 (x) dx −∞ Beweis. Es werden nur die Aussagen über die Addition und das Produkt von Zufallsgrößen bewiesen. 1. Addition. Sei g(x1 , x2 ) = Y1 = g1 (X1 , X2 ) = X1 Y2 = g2 (X1 , X2 ) = X1 + X2 x1 x1 + x2 X1 = h1 (Y1 , Y2 ) = Y1 X2 = h2 (Y1 , Y2 ) = Y2 − Y1 Es ergibt sich die Jacobi-Determinante 1 J = −1 0 =1 1 Damit folgt = fX1 ,X2 (y1 , y2 − y1 ) Z fY2 (z) = fX1 ,X2 (x, z − x) dx fY1 ,Y2 (y1 , y2 ) 2. Produkt. Sei g(x1 , x2 ) = Y1 = g1 (X1 , X2 ) = X1 Y2 = g2 (X1 , X2 ) = X1 X2 Es ergibt sich die Jacobi-Determinante 1 J = y2 − y2 1 x1 x1 x2 X1 = h1 (Y1 , Y2 ) = Y1 Y2 X2 = h2 (Y1 , Y2 ) = Y1 0 1 y1 = 1 y1 Damit folgt 1 y2 fY1 ,Y2 (y1 , y2 ) = fX ,X y1 , |y1 | 1 2 y1 Z z 1 fY2 (z) = fX ,X x, dx |x| 1 2 x 8.1. FUNKTIONEN VON ZUFÄLLIGEN VEKTOREN Verteilung Normal Bernoulli Binomial Poisson Exponential Gamma Gleichmäßig Parameter µ1 , σ12 , µ2 , σ22 p n1 , p, n2 , p λ1 , λ2 λ, λ p1 , λ, p2 , λ [0, 1], [0, 1] Summenverteilung Normal Binomial Binomial Poisson Gamma Gamma Dreieck 39 Parameter µ1 + µ2 , σ12 + σ22 2, p n1 + n 2 , p λ 1 + λ2 2, λ p 1 + p2 , λ [0, 2] Tabelle 8.1: Verteilungen von Summen unabhängiger Zufallsgrößen Die Operation Z∞ fX1 (x)fX2 (z − x) dx fX1 ∗ fX2 = fX1 +X2 = (8.6) −∞ wird als Faltung bezeichnet. Beispiele. Tabelle 8.1 zeigt einige Verteilungen von Summen unabhängiger Zufallsgrößen. Der Beweis dieser Aussagen ergibt sich mit Hilfe des Faltungsintegrals (8.6) bzw. dem diskreten Analogon X P (X1 + X2 = k) = P (X1 = i)P (X2 = k − i) (8.7) i bzw. leichter mit charakteristischen Funktionen (siehe nächstes Kapitel). Normalverteilung, Poissonverteilung und Binomialverteilung heißen auf Grund der Gleichungen in Tabelle 8.1 faltungsstabil. Die Formeln (8.5) lassen sich auch direkt erhalten, z.B. Z FX1 +X2 (y) = P (X1 + X2 < y) = fX1 ,X2 (x1 , x2 ) dx1 dx2 x1 +x2 <y oder heuristisch Z∞ P (X1 + X2 < y) P (X2 < y − x) = −∞ fX1 (x) dx | {z } P (X1 ∈(x,x+dx)) Z∞ FX2 (y − x)fX1 (x) dx, = −∞ was auf Z∞ fX1 +X2 (y) fX1 (x)fX2 (y − x) dx = −∞ und fX1 +X2 = fX1 ∗ fX2 führt. Speziell für die allgemeine zweidimensionale Normalverteilung von (X1 , X2 ) ergibt sich: X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 + 2σ1 σ2 %). Ein wichtiges Problem der Statistik ist die Entfaltung“. Dabei sind für Y = X1 + X2 die Daten ” von Y und die Verteilung von X1 bekannt, und X2 ist gesucht. Das ist ein typisches inverses Problem. 40 KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG 41 Kapitel 9 Prüfverteilungen der Statistik: χ2, t und F Wir betrachten hier eine mathematische Stichprobe vom Umfang n (vgl. S.67) aus einer N(µ, σ 2 )Grundgesamtheit. Der Stichprobenmittelwert und die Stichprobenstreuung sind definiert als n X̄ = 1X Xi n i=1 n und S 2 = 1 X (Xi − X̄)2 . n − 1 i=1 Es gilt σ2 X̄ ∼ N µ, . n 9.1 χ2 -Verteilung mit n Freiheitsgraden Es seien die Zufallsgrößen Xi ∼ N(0, 1) stochastisch unabhängig. Dann ist die positive Zufallsgröße X 2 = X12 + . . . + Xn2 ∼ χ2n χ2 -verteilt mit n Freiheitsgraden. Um die Dichtefunktion fX 2 (x) zu erhalten, betrachten wir zuerst den Fall n = 1: √ √ √ √ P (X12 < x) = P (− x < X1 < x) = FX1 ( x) − FX1 (− x) Also gilt für die Dichtefunktion √ √ 1 fX12 (x) = √ (fX1 ( x) + fX1 (− x)), 2 x woraus folgt: 1 x x− 2 fX12 (x) = √ e− 2 1[0,∞) (x). 2π Das ist die Dichte der Γ-Verteilung mit p = 21 und λ = 12 . Nach dem Additionstheorem für diese Verteilung ist X 2 ebenfalls Γ-verteilt, mit den Parametern p = n2 und λ = 12 . Für die Dichtefunktion gilt dann: fX 2 (x) = fχ2n (x) = n x 1 x 2 −1 e− 2 1[0,∞) (x) n 2 2 Γ( n2 ) (9.1) 42 KAPITEL 9. PRÜFVERTEILUNGEN DER STATISTIK Die zugehörige Verteilung heißt χ2 -Verteilung mit n Freiheitsgraden. Falls nun Xi = N(0, σ 2 ) verteilt ist, hat Xi2 eine Γ-Verteilung mit p = lässt sich ableiten, dass n X Y = Xi2 = X 2 1 2 und λ = 1 2σ 2 . Daraus i=1 Γ-verteilt mit den Parametern p = n 2 und λ = 1 2σ 2 ist. Satz 9.1 Genau dann, wenn Xi ∼ N(µ, σ 2 ) ist, sind X̄ und S 2 unabhängig. Zum Beweis sei auf [13] verwiesen. 9.2 Verteilung von S 2 Es gilt n−1 2 S ∼ χ2n−1 σ2 (9.2) wegen (n − 1)S 2 = n X (Xi − X̄)2 . i=1 Es handelt sich um die Summe aus n Zufallsgrößen, wobei die Bindung nX̄ = n X Xi i=1 besteht. Daher spricht man von n − 1 Freiheitsgraden. Es gilt weiterhin: ES 2 var S 2 = σ2 = 2 σ4 n−1 Diese Tatsachen lassen sich auf die allgemein (d. h. ohne Normalverteilungs-Annahme) gültigen Aussagen ES 2 var S 2 zurückführen. 9.3 = var X1 1 n−3 4 2 = E(X1 − EX1 ) − (var X1 ) n n−1 1 t-Verteilung mit n Freiheitsgraden Wenn zwei Zufallsgrößen X ∼ N(0, 1) und Y ∼ χ2n unabhängig sind, dann gilt: X q ∼ tn Y n Die zugehörige Verteilung wird Studentsche t-Verteilung mit n Freiheitsgraden genannt. Als wichtige Anwendung gilt: X̄ − µ ∼ tn−1 . (9.3) T = S √ 1 Zum Beweis siehe [8], Seite 177. n 9.4. F -VERTEILUNG 43 Diese Verteilung wurde von Gosset, der unter dem Pseudonym Student“ veröffentlichte, 1908 ” publiziert. Die Dichtefunktion von tn ist n+1 − n+1 Γ 2 x2 2 fn (x) = n √ 1+ . n Γ πn 2 Die t-Verteilung nähert sich für große n der Normalverteilung an. Deswegen kann man für n ≥ 30 die Quantile tn,α und zα miteinander identifizieren (Regel 30 = ∞“). ” 9.4 F -Verteilung Definition: Es seien X ∼ χ2n1 , Y ∼ χ2n2 sowie X und Y stochastisch unabhängig. Dann heißt die Verteilung der Zufallsgröße X n2 X n1 = Y n 1 Y n 2 F -Verteilung mit (n1 , n2 ) Freiheitsgraden (R.A. Fisher 1912). Wenn S12 und S22 die Stichproben-Streuungen zweier unabhängiger Stichproben aus N(µ, σ 2 ) mit den Umfängen n1 und n2 sind, dann ist der Quotient S12 ∼ Fn1 −1,n2 −1 S22 F -verteilt (Fishersche F -Verteilung mit (n1 , n2 ) Freiheitsgraden). Für weitere Informationen und Tabellen sei auf entsprechende Literatur verwiesen. 44 KAPITEL 9. PRÜFVERTEILUNGEN DER STATISTIK 45 Kapitel 10 Charakteristische Funktionen 10.1 Definition Charakteristische Funktionen sind ein wichtiges Hilfsmittel der Stochastik. Sie vereinfachen viele Darstellungen und Beweise: Faltung, Momentenberechnung, Beweis von Grenzwertsätzen. Erstmals eingeführt wurden sie von Lagrange, und sie gehen zurück auf Laplace und Fourier (LaplaceTransformation, Fourier-Transformation). Die charakteristische Funktion der Zufallsgröße X wird eingeführt als Erwartungswert der Zufallsgröße eitX . Zunächst werden daher komplexwertige Zufallsgrößen eingeführt. Z = X + iY ist eine komplexwertige Zufallsgröße auf (Ω, A, P ) genau dann, wenn X und Y reelle Zufallsgrößen auf (Ω, A, P ) sind. Der Erwartungswert wird erklärt durch EZ = EX + iEY , die Varianz durch var Z = E|Z − EZ|2 . Zwei Zufallsgrößen Z1 = X1 + iY1 und Z2 = X2 + iY2 heißen unabhängig genau dann wenn (X1 , Y1 )T und (X2 , Y2 )T unabhängig sind. Dann gilt z.B.: EZ1 Z2 = EZ1 · EZ2 (10.1) Häufig wird die bekannte Euler-Relation verwendet: eitX = cos tX + i sin tX (10.2) Definition 10.1 ϕX (t) = EeitX , −∞ < t < ∞ Z = eitX(ω) P (dω) (10.3) Ω Z = itx e Z∞ PX (dx) = eitx dFX (x) (∗) −∞ R1 ∞ R eitx f (x) dx (∗∗) X = P itxk −∞ P (X = xk ) ke (10.4) heißt charakteristische Funktion der Zufallsgröße X (bzw. der Verteilungsfunktion FX ). (∗) heißt auch Fourier-Stieltjes-Transformierte von FX , (∗∗) heißt auch Fourier-Transformierte von fX . Wegen |ϕX (t)| ≤ E|eitX | = 1 bzw. R∞ |eitx | dFX (x) = −∞ Zufallsgröße X eine charakteristische Funktion. R∞ −∞ 1 dFX (x) = 1 < ∞ existiert zu jeder 46 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN In Tabelle 10.1 sind die charakteristischen Funktionen einiger wichtiger Verteilungen zusammengestellt. Verteilung Konstant Bernoulli Binomial Parameter c p n, p Geometrisch p Negativ binomial charakteristische Funktion eitc 1 − p + peit (1 − p + peit )n peit it 1 − (1 it− p)e m pe 1 − (1 − p)eit it eλ(e −1) m, p Poisson λ t2 e− 2 Standard normal 2 t2 µ, σ 2 Normal Exponential eµit−σ 2 λ λ − itα λ λ − it sin at at λ Gamma α, λ gleichmäßig [−a, a] a Tabelle 10.1: Charakteristische Funktionen wichtiger Verteilungen 10.2 Elementare Eigenschaften Eigenschaften der charakteristischen Funktion: ϕX (0) = 1, |ϕ(x)| ≤ 1, ϕX (−t) = ϕX (t) (10.5) Beweis: Z∞ ϕX (0) = 1 dFX (x) = 1 −∞ Z∞ |ϕX (t)| ≤ itx |e Z∞ | dFX (x) = −∞ ϕX (−t) i(−t)X = Ee 1 dFX (x) = 1 −∞ −itX = Ee = Eeitx = ϕX (t) Satz 10.1 ϕX ist gleichmäßig stetig auf R1 . Beweis: Es gilt für beliebiges h: |ϕX (t + h) − ϕ(t)| = E eitX eihX − 1 ≤ E eitX eihX − 1 = E eihX − 1 . | {z } =1 Aus h → 0 folgt E|eihX − 1| → 0 nach dem Lebesgue-Satz über die majorisierte Konvergenz mit P -integrierbarem |eihX |, wobei für alle ω eihX(ω) gegen 1 konvergiert. Die Majorante ist 2. 10.3. UMKEHR- UND EINDEUTIGKEITSSATZ 47 Bei der linearen Transformation Y = aX + b verhält sich die charakteristische Funktion folgendermaßen ϕaX+b (t) = Eeit(aX+b) = eitb ϕX (at) (10.6) Sei X ∼ N(0, 1) und Y = σX + µ. Dann ergibt sich itµ ϕN(µ,σ2 ) = ϕY (t) = e σ 2 t2 ϕX (σt) = exp itµ − 2 (10.7) Satz 10.2 (Faltungssatz) Es seien X1 und X2 unabhängig. Dann gilt für Z = X1 + X2 : ϕZ (t) = ϕX1 (t)ϕX2 (t) (10.8) Beweis: ϕX1 +X2 (t) = Eeit(X1 +X2 ) = EeitX1 eitX2 = EeitX1 EeitX2 = ϕX1 (t)ϕX2 (t) Die charakteristische Funktion der Summe zweier Zufallsgrößen ist also das Produkt der charakteristischen Funktionen der Zufallsgrößen. Sind beispielsweise X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ), dann gilt: σ 2 t2 σ 2 t2 ϕX1 +X2 = exp itµ1 − 1 · exp itµ2 − 2 2 2 2 2 2 (σ + σ2 )t = exp it(µ1 + µ2 ) − 1 2 Auf Grund des Eindeutigkeitssatzes (% später) folgt X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 ) 10.3 Umkehr- und Eindeutigkeitssatz Es gelten folgende Umkehrformeln“: ” Satz 10.3 An Stetigkeitsstellen a und b von FX (a < b) gilt: 1 FX (b) − FX (a) = 2π Z∞ e−ita − e−itb ϕX (t) dt it (10.9) −∞ Im absolutstetigen Fall ergibt sich die Umkehrformel der Fourier-Transformation: 1 fX (x) = 2π Z∞ ϕX (t)e−itx dt (10.10) −∞ d Satz 10.4 (Eindeutigkeitssatz) Wenn ϕX (t) = ϕY (t) für alle t gilt, dann folgt X = Y . Jede Verteilungsfunktion FX ist eindeutig durch die charakteristische Funktion ϕX bestimmt. Zu einem Beweis des Satzes siehe z. B. Gnedenko, Renyi. 48 10.4 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN Die charakteristische Funktion und Momente Die Momente einer Verteilung können leicht aus ϕX berechnet werden. Satz 10.5 Falls EX n existiert, dann ist ϕX n-mal stetig differenzierbar und es gilt: (k) (−i)k ϕX (0) = EX k , k = 1, 2, . . . , n (10.11) Beweis. Der Beweis wird nur für den Fall k = 1 geführt. Es gilt: ϕ0X (t) ϕX (t + h) − ϕX (t) h 1 i(t+h)X = lim E(e − eitX ) h→0 h = lim h→0 Nun konvergiert Zh = h1 (ei(t+h)X − eitX ) gegen Z = iXeitX , wenn h gegen 0 geht. Wegen |eity − eitz | ≤ |y − z| · |t| folgt |Zh | = |h| · |X| 1 i(t+h)X |e − eitX | ≤ = |X|. |h| |h| Also wird Zh durch |X| dominiert und gehört damit zum L1 . Nach dem Lebesgue-Satz über die majorisierte Konvergenz gilt lim EZh = E( lim Zh ) = E(iXeitX ), h→0 h→0 woraus die Behauptung folgt. Speziell gilt EX = −iϕ0X (0) und EX 2 = −ϕ00X (0). Beispielsweise ergibt sich für X ∼ N(0, 1): t2 ϕX (t) = e− 2 ϕ0X (t) = −te− 2 ϕ00X (t) = t2 t2 (t2 − 1)e− 2 Daraus folgt EX = 0, EX 2 = 1 und var X = 1. Falls EX n existiert, dann kann ϕX in eine Taylor-Reihe der Ordnung n entwickelt werden, d.h. ϕX (t) = 1 + n X 1 (it)k EX k + o(tn ) k! (10.12) k=1 (k) Wenn ϕX (0) existiert, so existiert auch EX k für gerade k. 10.5 Stetigkeitssatz d Eine Folge von Zufallsgrößen Xn konvergiert in Verteilung gegen X (Xn − → X) genau dann, wenn lim FXn (x) = FX (x) n→∞ für alle Stetigkeitspunkte x von F gilt. Äquivalent dazu ist lim Ef (Xn ) = Ef (X) n→∞ für alle stetigen und beschränkten Funktionen f . Hierbei ist Ef (X) = R f (x) dFX (x). 10.5. STETIGKEITSSATZ 49 Satz 10.6 Es gilt d Xn − →X ⇐⇒ lim ϕXn (t) = ϕX (t) für alle t. n→∞ Beweis: =⇒“: Da cos(tx) und sin(tx) stetig und beschränkt sind, konvergiert ” ϕXn (t) = E(cos(tXn )) + iE(sin(tXn )) gegen E(cos(tX)) + iE(sin(tX)). ⇐=“: Es genügt zu zeigen, dass für alle a und b mit a < b, die Stetigkeitspunkte aller FXn und ” von FX sind, gilt: FXn (b) − FXn (a) → FX (b) − FX (a) Es gilt FX (b) − FX (a) 1 = lim T →∞ 2π ZT e−ita − e−itb ϕX (t) dt it −T 1 = lim T →∞ 2π ZT e−ita − e−itb ( lim ϕXn (t)) dt n→∞ it −T ZT 1 = lim lim n→∞ T →∞ 2π e−ita − e−itb (ϕXn (t)) dt it −T = lim (FXn (b) − FXn (b)) n→∞ nach dem Satz von der majorisierten Konvergenz. Satz 10.7 Stetigkeitssatz (Lévy, Cramér). Fn (x) → F (x) für n → ∞ an jeder Stetigkeitsstelle von F gilt genau dann, wenn ϕn (t) → ϕ(t) für n → ∞ gleichmäßig auf jedem endlichen Intervall konvergiert. Anwendungsbeispiel: Poissonscher Grenzwertsatz. Es sei Xn binomialverteilt mit den Parametern n und pn . Wenn n groß wird und pn gegen Null strebt, strebe npn gegen einen Wert λ mit 0 < λ < ∞. Es gilt EXn = npn . Es sei weiterhin X Poisson-verteilt mit dem Parameter λ d und damit mit dem Erwartungswert λ. Es gilt Xn − → X, was übrigens heißt, dass die Einzelwahrscheinlichkeiten P (Xn = i) gegen P (X = i) konvergieren. Beweis. Es gilt ϕXn (t) ϕX (t) = (1 − pn + pn eit )n = eλ(e und 1 − pn + pn eit n it −1) ∼ 1− strebt gegen eλ(e Nach Satz 10.6 folgt nun die Behauptung. it −1) λ λ it + e n n n 50 KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN Bemerkungen: • X sei diskrete Zufallsgröße. Dann gilt ϕX (t) = X eitk P (X = k). (10.13) k ϕX hängt nur über eit von t ab, ist damit periodisch mit der Periode 2π; die Kenntnis von ϕX auf [−π, π] genügt, damit die zugehörige Zufallsgröße eindeutig bestimmt ist, es gilt: Zπ pk = P (X = k) = eitk ϕX (t) dt −π Man erhält also den k-ten Koeffizienten der Fourier-Reihe von ϕX . • Substituiert man z = eit in (10.13), erhält man: X GX (z) := pk z k , (10.14) k die erzeugende Funktion von X; es gilt ϕX (t) = GX (eit ). • Die charakteristische Funktion für zufällige Vektoren X = (X1 , . . . , Xd )T wird analog definiert: Pd T (10.15) ϕX (t1 , . . . , td ) = EeiX t = E ei j=1 Xj tj Dabei ist t = (t1 , . . . , tn )T Wenn X unabhängige Komponenten hat, so gilt: ϕX (t1 , . . . , td ) = d Y ϕXj (tj ) (10.16) j=1 • Noch allgemeiner ist das charakteristische Funktional für eine zufällige Funktion X(u): R ϕX (t) = E ei t(u)X(u) du . 51 Kapitel 11 Gesetze der großen Zahlen 11.1 Konvergenzarten der Stochastik Es sei (Xn )n∈N eine Folge von Zufallsgrößen. • Verteilungskonvergenz d Symbolisch: Xn − →X Die Folge (Xn ) heißt verteilungskonvergent gegen X, falls für jede Stetigkeitsstelle x von FX gilt lim FXn (x) = FX (x) (11.1) n→∞ Bemerkung: Verteilungskonvergenz ist zur sogenannten schwachen Konvergenz Xn → X äquivalent, d.h., für alle beschränkten und stetigen f gilt: lim Ef (Xn ) = Ef (X) n→∞ (11.2) • Konvergenz in Wahrscheinlichkeit (stochastische Konvergenz) P Symbolisch: Xn − →X Die Folge (Xn ) heißt stochastisch konvergent gegen X, wenn für jedes positive ε gilt lim P (|Xn − X| ≥ ε) = 0 n→∞ (11.3) (entspricht der Maßkonvergenz) • Konvergenz mit Wahrscheinlichkeit 1 (fast sichere Konvergenz) P −f.s. Symbolisch: Xn −−−−→ X Die Folge (Xn ) heißt gegen X fast sicher konvergent, wenn P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1 n→∞ (11.4) (vgl. Maßtheorie: Konvergenz P -fast überall) • Konvergenz im p-ten Mittel Lp Symbolisch: Xn −−→ X lim E|Xn − X|p = 0, n→∞ p≥1 (11.5) Speziell für p = 2 spricht man von der Konvergenz im quadratischen Mittel und für p = 1 von der L1 -Konvergenz. 52 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN Im Rahmen der Maßtheorie wurden die meisten der folgenden Beziehungen zwischen den verschiedenen Konvergenzarten (% Abbildung 11.1) nachgewiesen. L2 Xn → X L1 Xn → X - P -f.s. HH H Xn → X HH P j X → H X * n 6 - d Xn → X X=c Abbildung 11.1: Beziehungen zwischen den Konvergenzarten 11.2 Gesetze der großen Zahlen 11.2.1 Schwache Gesetze der großen Zahlen Die Erfahrung lehrt, dass die relative Häufigkeit eines Ereignisses bei einer großen Anzahl von Versuchen gegen die Wahrscheinlichkeit strebt; das arithmetische Mittel von (unabhängigen) Zufallsgrößen mit gleichem Erwartungswert strebt gegen den Erwartungswert. Die Gesetze der großen Zahlen sind Sätze über die Konvergenz von arithmetischen Mitteln gegen Konstanten. Speziell: n Xn = 1 1X Xi = Sn → EX n i=1 n (11.6) Schwache Gesetze der großen Zahlen hängen mit der stochastischen Konvergenz zusammen, während starke Gesetze der großen Zahlen zur fast sicheren Konvergenz gehören. Satz 11.1 Es sei X1 , X2 , . . . eine Folge von unabhängigen Zufallsgrößen auf (Ω, A, P ) mit EXi = µ var Xi ≤ M < ∞ und (11.7) P Dann gilt X n − → µ. Zwei Beweise: 1. Es gilt: EX n var X n = µ = P (|X n − µ| ≥ ε) ≤ n 1 X M var Xi ≤ 2 n i=1 n var X n M n→∞ ≤ 2 −−−−→ 0 2 ε ε n d P 2. Allgemein gilt: Aus Xn − → c folgt Xn − → c. Das ergibt sich folgendermaßen. P (|Xn − c| > ε) = P (Xn < c − ε) + P (Xn > c + ε) ≤ FXn (c − ε) + (1 − FXn (c + ε)) 11.2. GESETZE DER GROSSEN ZAHLEN 53 d Die rechte Seite strebt wegen Xn − → c gegen Fc (c − ε) + (1 − Fc (c + ε)) = 0 + (1 − 1) = 0. Es genügt also zum Beweis des Gesetzes der großen Zahlen, die Konvergenz der charakteristischen Funktion ϕX̄n (t) → eitµ zu zeigen: ϕX n (t) n t t = ϕS n = ϕX n n n itµ 1 = 1+ −→ eitµ . +o n n Beispiel. Unabhängige Wiederholung eines Bernoulli-Experiments; sei 1, falls Erfolg im i-ten Versuch Xi = 0, falls Misserfolg im i-ten Versuch Es gilt P (Xi = 1) = p, EXi = p, var Xi = p(1 − p) ≤ anwendbar und es folgt: n 1X n→∞ Xi −−−−→ p. P n 1 4, damit ist der eben bewiesene Satz (11.8) k=1 (Bernoullisches Gesetz der großen Zahlen) 11.2.2 Starkes Gesetz der großen Zahlen P −f.s. Unser Ziel ist es nun, X n −−−−→ µ unter den gleichen Voraussetzungen (11.7) zu beweisen. Satz 11.2 (Starkes Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabhängige Zufallsgrößen auf P −f.s. (Ω, A, P ) mit EXi ≡ µ und var Xi ≤ M < ∞. Dann gilt Xn −−−−→ µ. Beweis. Sei Zn = Xn − µ = 1 n n P P −f.s. P −f.s. (Xi − µ). Dann ist Xn −−−−→ µ ⇔ Zn −−−−→ 0 i=1 P −f.s. 1. Es wird zunächst gezeigt, dass Zn2 −−−−→ 0. Sei An := {|Zn2 | ≥ ε}; dann gilt: 2 var Zn2 n 1 X n2 M = 4 var Xi ≤ M 4 = 2 n i=1 n n (11.9) Mittels Tschebyschews Ungleichung folgt: P (An ) ≤ ∞ X var Zn2 M ≤ 2 2 2 ε n ε P (An ) < ∞ n=1 Für A∗ = lim sup Ai folgt aus dem Lemma von Borel-Cantelli (Satz 1.1) P (A∗ ) = 0; sei speziell 1 A∗k := {ω : Zn2 (ω) ≥ für unendlich viele n} k 54 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN S T Es folgt: P (A∗k ) = 0 damit auch P ( k A∗k ) = 0; mit E := k (A∗k )c folgt P (E) = 1, d.h. E enthält fast alle“ Elemente von Ω. Für fast jedes ω ∈ E und zu jedem k ∈ N gibt es nur ” endlich viele n mit 1 |Zn2 | ≥ (11.10) k d.h. für P -fast falle ω ∈ Ω gilt: lim Zn2 = 0. n→∞ 2. Für m ∈ N sei n = n(m) die natürliche Zahle mit n(m)2 ≤ m ≤ (n(m) + 1)2 ; Zm wird nun mit Zn2 verglichen. Sei k X Sk := (Xi − µ) i=1 Dann gilt: var (Sm − Sn2 ) = m X var Xi ≤ M (m − n2 ) i=n2 +1 und Tschebyschews Ungleichung liefert P (|Sm − Sn2 | ≥ εn2 ) ≤ M (m − n2 ) ε 2 n4 Summiert man nun über m auf, ergibt sich: ∞ X m=1 2 P 1 |Sm − Sn2 (m) | ≥ ε n2 (m) ≤ ∞ (n+1) −1 M X X m − n2 ε2 n=1 n4 2 = ∞ M X 1 (1 + 2 + . . . + 2n) ε2 n=1 n4 = ∞ M X 2n(2n + 1) <∞ ε2 n=1 2n4 m=n Nach dem Lemma von Borel-Cantelli gilt für fast alle ω und hinreichend große m: 1 |Sm − Sn2 (m) | < ε n2 (m) Es folgt daraus zeilenweise: Zn2 (m) = 1 n2 (m) Sn2 (m) < ε |Sm | = |Zm | < 2ε m Zm → 0 Die Gesetze der großen Zahlen sind spezielle Ergodensätze“. Solche Sätze zeigen, dass unter ” gewissen Bedingungen gilt n Xn = 1X Xi n i=1 Zeitmittel“ ” n→∞ Z −−−−→ X(ω) P (dω) Ω Raummittel“ ” Fasst man die Xi als zeitliche Abfolge von Zufallsgrößen auf, deren Werte das Verhalten einer Größe an einem Ort im Raum Rd beschreibt, so bedeutet diese Beziehung, dass das Zeitmittel“ ” 11.2. GESETZE DER GROSSEN ZAHLEN 55 gegen das Raummittel“ konvergiert. Interessant ist dies insbesondere im Fall von stochastisch ” abhängigen X1 , X2 , . . . . Dass diese Konvergenz keineswegs immer gilt, zeigt folgendes Beispiel. Sei X1 = 1 p= −1 p = Xi = X1 1 2 1 2 i = 2, 3, . . . Offenbar ist EXi = 0, aber n 1X Xi = n i=1 1 −1 falls X1 = 1 falls X1 = −1 = X1 , d.h., lim X n = X1 6= EXi n→∞ Es müssen also Voraussetzungen an die Stärke der Abhängigkeit der Variablen gemacht werden, damit ein starkes Gesetz der großen Zahlen gilt. 56 KAPITEL 11. GESETZE DER GROSSEN ZAHLEN 57 Kapitel 12 Zentrale Grenzwertsätze In diesem Kapitel betrachten wir die Konvergenz der Verteilung normierter Summen gegen N(0, 1). 12.1 Vorbetrachtungen Es sei X1 , X2 , . . . eine total unabhängige Folge von Bernoulli-Zufallsgrößen mit 1 mit Wkt. p Xi = 0 mit Wkt. 1 − p Dann kann für großes n die Verteilung von n X Xk ∼ Bin(n, p) (12.1) k=1 durch eine Normalverteilung mit µ = np und σ 2 = np(1 − p) approximiert werden. Sei allgemeiner X1 , X2 , . . . eine beliebige Folge total unabhängiger Zufallsgrößen mit EXi = µi und var Xi = σi2 . Gegen welche Verteilung konvergiert n 1 X Xi − µi = Sn (α) nα i=1 σi ? (12.2) P −f.s. Für α = 1 ergibt sich aus dem vorherigen Abschnitt, dass Sn (1) −−−−→ 0 (starkes Gesetz der großen Zahlen). Im Fall α = 0 ist var Sn (0) = n, es liegt also keine Konvergenz vor, die Verteilung verbreitert“ sich immer stärker. Im Fall α = 12 ergibt sich unter gewissen Bedingungen eine ” Konvergenz gegen eine Normalverteilung: 1 d Sn − → N(0, 1) (12.3) 2 Sn 21 heißt auch asymptotisch normalverteilt. Die zentralen Grenzwertsätze behandeln Bedingungen für diese Konvergenz. 12.2 Grenzwertsatz von Moivre-Laplace Der Grenzwertsatz von Moivre-Laplace sichert die Konvergenz binomialverteilter Zufallsgrößen gegen eine N(0, 1)-Verteilung. 58 KAPITEL 12. ZENTRALE GRENZWERTSÄTZE Satz 12.1 Sei Yn binomialverteilt mit den Parametern (p, n). Dann gilt: Yn − np d Zn = p − → Z, np(1 − p) Z ∼ N(0, 1), (12.4) d. h. lim P n→∞ ! Yn − np p < x = Φ(x). np(1 − p) (12.5) Der Beweis wird später in allgemeinerem Zusammenhang nachgeholt werden. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Binomialverteilung -4 -3 -2 -1 0 1 2 3 4 Abbildung 12.1: Verteilungsfunktionen der Zn für binomialverteilte Yn mit p = sowie der Standardnormalverteilung Bemerkung. Da Yn = n P 1 3 und n = 5, 20, 100 Xi mit iid-Bernoulli-Variablen Xi ist, hat der Grenzwertsatz von i=1 Moivre-Laplace tatsächlich die Form wie in (12.3). 12.3. GRENZWERTSATZ FÜR FOLGEN VON IID-ZUFALLSGRÖSSEN 59 Der Zentrale Grenzwertsatz kann dazu benutzt werden, um eine Binomialverteilung anzunähern. Für große n gilt: Bin(n, p) ≈ N(np, np(1 − p)) (12.6) 12.3 Grenzwertsatz für Folgen von iid-Zufallsgrößen Nachdem wir nun eine brauchbare Näherung für die Binomialverteilung bei großen n haben, möchten wir das nun etwas verallgemeinern und i.i.d. Zufallsgrößen mit endlicher Streuung betrachten. Satz 12.2 Sei X1 , X2 , . . . eine Folge von iid-Zufallsgrößen mit EXi = µ und var Xi = σ 2 < ∞. Dann gilt n P Xi − nµ n X 1 1 Xi − µ d i=1 √ Sn =√ = −−−−→ Z ∼ N(0, 1) (12.7) n→∞ 2 σ n i=1 σ n oder lim P n→∞ Sn 1 < x = Φ(x) 2 (12.8) Beweis. Ohne Beschränkung der Allgemeinheit sei µ = 0 (andernfalls setze man Xi0 = Xi − µ). Aus dem Faltungssatz (siehe (10.6) und (10.9)) ergibt sich für die charakteristische Funktion von Sn := Sn 12 : n t √ ϕSn (t) = ϕX σ n Entwicklung von ϕX in eine Taylorreihe unter Berücksichtigung von µ = 0 liefert: ϕX (t) = 1 − Damit ergibt sich: Wegen lim 1 + n→∞ x n n t2 σ 2 + o(t2 ) 2 2 n t2 t ϕSn (t) = 1 − +o 2n n = ex ergibt sich: t2 lim ϕSn (t) = e− 2 n→∞ Aus dem Stetigkeitssatz und dem Eindeutigkeitssatz für charakteristische Funktionen folgt Sn ∼ N(0, 1). Die unabhängige Wiederholung ein und desselben Experiments führt in der Summe der Messwerte zu einer normalverteilten Zufallsgröße, d.h. n X d Xi ≈ N(nµ, nσ 2 ) (12.9) i=1 Man spricht dann von einer asymptotisch normalverteilten“ Zufallsgröße. Es gilt dann ” ! n X x − nµ √ P Xi < x ≈ Φ . nσ i=1 Oft ist diese Näherung schon für kleine n brauchbar. Dies ist natürlich von der Verteilung von X1 abhängig. 60 KAPITEL 12. ZENTRALE GRENZWERTSÄTZE Die Gleichverteilung auf dem Intervall [0, 1] der Zufallsgrößen Xi ist hier ein wichtiger Spezialfall. Dort gilt z.B. n = 12 als eine ausreichend große Anzahl. Man geht dann näherungsweise von folgendem Zusammenhang aus: S12 = X1 + . . . + X12 ∼ N(µ, σ 2 ) mit EX1 = 0.5, ES12 mit µ = 6 und σ 2 = 1, 1 , var S12 = 1 folgt = 6, var X1 = 12 S12 − 6 ∼ N(0, 1) Das wird ausgenutzt zur Erzeugung von normalverteilten Zufallszahlen. 12.4 Grenzwertsatz von Lindeberg-Feller Die Bedingung, dass die Zufallsgrößen der betrachteten Folge identisch verteilt sein müssen, wird nun fallengelassen, lediglich Unabhängigkeit wird auch weiterhin gefordert. Die behandelte Frage ist wiederum die, wann die additive Überlagerung vieler kleiner zufälliger (Fehler-)Einflüsse näherungsweise auf eine Normalverteilung führt. Satz 12.3 (Lindeberg, 1922) Sei X1 , X2 , . . . eine Folge unabhängiger Zufallsgrößen mit EXi = µi n P und var Xi < ∞, sowie Zn := Xi . Sei i=1 σn2 = n X var Xi = var Zn (12.10) i=1 und es gelte für alle ε > 0 die Lindeberg-Bedingung, d.h. n 1 X E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0, 2 n→∞ σn i=1 lim (12.11) bzw. anders ausgedrückt n 1 X 2 n→∞ σn i=1 Z lim (x − µi )2 dFXi (x) = 0. (12.12) |x−µi |>εσn Dann gilt gleichmäßig in x: lim P n→∞ ! n 1 X (Xi − µi ) < x = Φ(x) σn i=1 (12.13) Beispiele. 1. Wir betrachten gleichmäßig beschränkte Verteilungen, d.h., P (|Xi − µi | ≤ c) = 1 mit σn2 → ∞. Wir wählen zu positivem ε ein n0 so, dass ε · σn > c für alle n > n0 wird. Dann ist E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0 für alle i. 2. Wenn die Zufallsgrößen iid. mit EX1 = 0 und var X1 = σ 2 sind, dann lässt sich mit dem Lebesgueschen Satz von der majorisierten Konvergenz zeigen, dass n √ 1 1 X E(Xi2 ; {|Xi | > εσn }) = 2 E(X12 ; {|X1 | > ε nσ}) → 0. 2 σn i=1 σ 12.4. GRENZWERTSATZ VON LINDEBERG-FELLER 61 Man beachte dazu Z EX12 = X12 (ω) µ(dω) Z E(X12 ; An ) √ wobei An = {ω : |X1 (ω)| > ε nσ} = fn (ω) µ(dω) mit µ = P mit fn = X12 1An Die Folge der An strebt gegen die leere Menge. Damit ergibt sich: fn (ω) → f (ω) ≡ 0, woraus folgt Z f (ω) µ(dω) = 0. Bevor wir zum Beweis dieses Grenzwertsatzes kommen, sind noch einige Vorbetrachtungen nützlich: n P • Auf Grund der Unabhängigkeit ist σn2 = var Xi . i=1 • (12.12) wird Lindeberg-Bedingung genannt. • Interpretation der Lindeberg-Bedingung: Sei |Xi − µi | Ai = >ε σn Dann gilt: Z dFXi (x) ≤ P (Ai ) = |x−µi |>σn ε 1 ε2 σn2 Z (x − µi )2 dFXi (x) |x−µi |>σn ε Damit erhält man: P ≤ n X i=1 |Xi − µi | sup >ε σn 1≤i≤n P (Ai ) ≤ n 1 X ε2 σn2 i=1 =P n [ ! Ai i=1 Z n→∞ (x − µi )2 dFXi (x) −−−−→ 0 |x−µi |>εσn Aus (12.12) folgt also lim P n→∞ |Xi − µi | sup > ε = 0, σn 1≤i≤n (12.14) d.h., die Summanden in der relevanten Summe 1 X |Xi − µi | σn werden gleichmäßig klein (konvergieren gleichmäßig stark gegen Null). • Analog kann aus (12.12) gefolgert werden: √ lim sup n→∞ 1≤i≤n d.h., alle Standardabweichungen n P Xi gleichmäßig klein. i=1 √ var Xi = 0, σn (12.15) var Xi sind im Vergleich zur Standardabweichung von 62 KAPITEL 12. ZENTRALE GRENZWERTSÄTZE • (12.15) ist hinreichend für (12.14) (Tschebyschewsche Ungleichung) • (12.12) ist unter gewissen Bedingungen nicht nur hinreichend sondern auch notwendig, genauer: aus (12.13) und (12.15) folgt (12.12). Der Beweis wurde von Feller 1933 erbracht, daher heißt (12.15) Feller-Bedingung. • Für die Lindeberg-Bedingung (12.12) ist die sogenannte Ljapunow-Bedingung hinreichend. lim n→∞ n 1 X σnβ i=1 E|Xi − µi |β = 0 für ein β > 2 (12.16) Beweis. n 1 X σn2 i=1 Z n X Z (x − µi )2 dFXi (x) |x−µi |>εσn ≤ ≤ 1 σn2 i=1 1 εβ−2 |x − µi |β dFXi (x) (εσn )β−2 |x−µi |>εσn n 1 X σnβ ! β E|Xi − µi | n→∞ −−−−→ 0 i=1 • Eine Fehlerabschätzung für die Annäherung an die Normalverteilung liefert der folgende Satz: Satz 12.4 (Berry- Esseen 1941) Seien X1 , X2 , . . . iid-Zufallsgrößen mit EXi = µ, var Xi = σ 2 und γ = E|Xi − µ|3 < ∞. Für die Verteilungsfunktion 1 X (Xi − µ) < x Fn (x) = P √ nσ gilt dann sup |Fn (x) − Φ(x)| ≤ 0.5 x γ √ . σ3 n Bemerkung: Die Konstante 0.5 stammt von Bentkus (1988); im ursprünglichen Beweis (1941) betrug sie 7.59. Beispiel. Die Wahrscheinlichkeit für das Eintreten eines Ereignisses soll durch die relative Häufigkeit hn = nk des Eintretens bei n-facher unabhängiger Wiederholung des Experiments geschätzt werden (Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p). hn ist Realisierung von n P Hn = n1 Xi , wobei Xi Erfolg (1) oder Misserfolg (0) im i-ten Experiment beschreibt, d.h., i=1 P (Xi = 1) = p und P (Xi = 0) = 1 − p. Wie groß ist die Wahrscheinlichkeit einer Abweichung um mehr als 0.05 gegenüber dem tatsächlichen Wert, d. h. wie groß ist P (|Hn − p| ≥ 0.05)? 1. Abschätzung durch Ungleichung von Tschebyschew: p(1 − p) n p(1 − p) 1 P (|Hn − p| > 0.05) ≤ ≤ n(0.05)2 4n(0.05)2 1 n = 100 = 0.1 n = 1000 EHn = p var Hn = 12.4. GRENZWERTSATZ VON LINDEBERG-FELLER 63 2. Abschätzung durch Approximation mit Normalverteilung (Grenzwertsatz von Moivreas Laplace): Hn ∼ N(p, p(1−p) ) n ! |Hn − p| √ 0.05 √ P (|Hn − p| > 0.05) = P p n> p n p(1 − p) p(1 − p) ! √ 0.05 √ ≤ P |Zn | ≥ p n = P (|Zn | > 0.1 n) 1/4 √ 0.3174 n = 100 = 2(1 − Φ(0.1 n)) = 0.0016 n = 1000 3. Güte der Approximation durch eine Normalverteilung: Die Folge X1 , X2 , . . . erfüllt die Voraussetzungen des Satzes von Berry-Esseen. Es gilt γ σ3 = E|Xi − p|3 = (1 − p)3 p + p3 (1 − p) = p(1 − p)(p2 + (1 − p)2 ) = (var Xi )3/2 = (p(1 − p))3/2 also (1 − p)2 + p2 sup |Fn (x) − Φ(x)| ≤ 0.5 p x np(1 − p) und speziell für p = 0.5: sup |Fn (x) − Φ(x)| 0.5 √ = n ≤ x 0.05 n = 100 0.016 n = 1000 Tabelle 12.1 stellt die gewonnenen Ergebnisse noch einmal den tatsächlichen Werten gegenüber. n 100 1000 P (|Hn − 12 | > 0.05) 0.2713 0.0014 Tschebyschew 1,0 0.1 Moivre-Laplace 0.3173 0.0016 Tabelle 12.1: Exakte Werte für P (|Hn − p|) und dessen Abschätzungen im Fall p = 0.5 Wir wenden uns nun dem Beweis des Satzes von Lindeberg zu: Beweis. Es sei ηk = Xk − µk (Eηk = 0), n n X 1 X ηk ηk = σn σn ξn = k=1 k=1 Zu zeigen ist nun lim P (ξn < x) = Φ(x). Wir benutzen charakteristische Funktionen und zeigen n→∞ n 2o lim ϕξn (t) = exp − t2 ; die Behauptung folgt dann aus Stetigkeits- und Eindeutigkeitssatz. Es n→∞ gilt: ϕ ηk (t) σn = ϕηk t σn Z = = eitx/σn dFηk (x) −∞ itx/σn e |x|>εσn = I1 + I2 Z∞ Z dFηk (x) + |x|≤εσn eitx/σn dFηk (x) 64 KAPITEL 12. ZENTRALE GRENZWERTSÄTZE mit ε > 0 beliebig. Einschub: Es gilt eia = m−1 P ν=0 (ia)ν ν! am Υm m! + mit |Υm | ≤ 1. Speziell ergibt sich mit m = 2: itx x2 t2 + Υ2 2 σn 2σn (12.17) x3 t3 itx x2 t2 + Υ3 3 − 2 σn 2σn 6σn (12.18) eitx/σn = 1 + und mit m = 3: eitx/σn = 1 + Mit (12.17) ergibt sich für I1 : Z I1 = dFηk (x) + (1) t2 2 2σn R (1) x dFηk (x) + Rk |x|>εσn |x|>εσn mit |Rk | ≤ Z it σn x2 dFηk (x). Für I2 ergibt sich mit (12.18): |x|>εσn Z I2 = dFηk (x) + |x|≤εσn 2 − (2) mit |Rk | ≤ |t|3 3 6σn R t 2σn2 |x|3 dFηk (x) ≤ |x|≤εσn Damit können wir schreiben: t ϕηk σn Z it σn x dFηk (x) |x|≤εσn Z (2) x2 dFηk (x) + Rk |x|≤εσn ε|t|3 2 var Xk . 6σn = I1 + I2 = t2 1 + 0 − 2 var Xk 2σn 2 t (1) (2) + R k + R k + 2 2σn Z x2 dFηk (x) |x|>εσn Wir setzen nun ak bk t2 var Xk 2σn2 t2 (1) (2) := Rk + Rk + 2 2σn := 1 + 0 − Z x2 dFηk (x) |x|>εσn Nach dem Faltungssatz ergibt sich: ϕξn = n Y ϕηk k=1 t σn Wir setzen ∆1 ∆2 := := n Y ϕηk k=1 n Y k=1 t σn − n Y k=1 t2 1 − 2 var Xk 2σn t2 1 − 2 var Xk 2σn − n Y k=1 2 t − 2σ 2 var Xk e n 12.4. GRENZWERTSATZ VON LINDEBERG-FELLER und erhalten 65 t2 ϕξn (t) − e− 2 ≤ |∆1 | + |∆2 | Einschub: Es gilt: n Y (ak + bk ) − k=1 n Y ak = n X j=1 k=1 Y bj ak k<j Y (aj + bj ) (12.19) j<k Mit Hilfe von (12.19) erhalten wir nun: ∆1 |bk | = ≤ n X Y t t2 var X ϕ k ηk 2 2σ σ n n j=1 j<k k<j Z t2 ε|t|3 var X + x2 dFηk (x) k 6σn2 σn2 bj Y 1− ⇒ |∆1 | ≤ n X |bj | j=1 |x|>εσn |∆1 | ≤ n 2 X ε|t|3 t + 2 6 σn ≤ ε Z (x − µj )2 dFXj (x) j=1 |x−µj |>εσn |t|3 + t2 6 für n ≥ n0 = n0 (ε) wegen (12.12) Auf Grund der Ungleichung − e t2 var Xk 2 2σn ≤ t2 var Xk 1− 2σn2 1 2 + t2 var Xk 2σn2 2 ! erhalten wir wiederum mit (12.19) und (12.15) für n ≥ n00 = n00 (ε): |∆2 | ≤ n X 1 t4 (var Xk )2 k=1 2 − t2 Damit folgt lim ϕηk (t) = e n→∞ 8 σn4 ≤ n X 1 k=1 8 t4 1 var Xk 2 ε = t4 ε 2 σn2 8 . Bemerkungen. • Der zentrale Grenzwertsatz ist im allgemeinen nicht geeignet zur Abschätzung der Wahrscheinlichkeiten seltener Ereignisse, insbesondere der Wahrscheinlichkeiten großer Abweichungen von µ (large deviation, P (Zn > x)), auch wenn z. B. d Zn − → N(0, 1), d. h., wenn |P (Zn ≥ x) − (1 − Φ(x))| = |P (Zn < x) − Φ(x)| klein wird (z. B. im Sinne von Berry-Esseen), kann der relative Fehler der Approximation sehr groß sein (ist beispielsweise P (Zn ≥ x) = 0.01 und 1 − Φ(x) = 0.0001, so beträgt der relative Fehler 100). • In der Theorie der großen Abweichungen wird daher eine Funktion Q(n, x) gesucht, für die lim n→∞ x→∞ P (Zn ≥ x) =1 Q(n, x) (12.20) (Dies ist z. B. in der Versicherungsmathematik bei der sogenannten Risikotheorie (Abschätzung der Wahrscheinlichkeit großer Schäden) wichtig). 66 KAPITEL 12. ZENTRALE GRENZWERTSÄTZE • Es sind mehrere Verallgemeinerungen der Grenzwertsätze denkbar: – Verteilung einer zufälligen Anzahl von Summanden: N X Xi i=1 wobei N und Xi Zufallsgrößen bezeichnen (z.B. Schadenssummen pro Jahr). – Aufgabe der Unabhängigkeit der Xi ; dies wird in Grenzwertsätzen über stochastische Prozesse betrachtet – Aufgabe der Summenstruktur; z.B. ist die Konvergenz von min(X1 , . . . , Xn ) − an bn (entsprechend für max) von Interesse (sogenannte Extremwertverteilung; z.B. ist die Weibull-Verteilung eine solche Extremwertverteilung). Ein weiterer bekannter Grenzwertsatz ist der Satz vom iterierten Logarithmus: Satz 12.5 (ohne Beweis) Die Folge der Zufallsgrößen Xi sei iid. mit EX1 = 0 und 0 < σ 2 = var X1 < ∞. Dann gilt: n P Xi i=1 lim sup p =1 n→∞ 2σ 2 n log(log(n)) d.h., bei iid-Zufallsgrößen Xi wird P Xi von der Ordnung fast sicher, p n log(log n) groß. (12.21) 67 Kapitel 13 Eigenschaften von Schätzern Modell der klassischen mathematischen Statistik (Wiederholung) In der klassischen mathematischen Statistik betrachten wir Zufallsgrößen X1 , . . . , Xn , die und abhängig und identisch verteilt sind. Dabei ist X1 = X, wobei X der Prototyp der Grundgesamtheit ist. Der Vektor X = (X1 , . . . , Xn )T wird als mathematische Stichprobe bezeichnet, deren Realisierung x = (x1 , . . . , xn ) konkrete Stichprobe heißt. Dabei wird mit n der Stichproben-Umfang bezeichnet. Die Aufgabe der klassischen mathematischen Statistik ist es nun, anhand von gegebenen konkreten Stichproben die Verteilung PX zu erforschen. Üblicherweise formuliert man aufgrund von Vorwissen oder einer Explorativen Datenanalyse eine Annahme. Auf dieser Annahme bauen dann weitere Untersuchungen auf. Unter sogenannten Verteilungsannahmen versteht man Annahmen der Form: Die gesuchte Ver” teilung gehört zu einer Menge P (PX ∈ P).“ Wichtig sind parametrische Aufgaben. Bei diesen gilt für die Menge P: P = {P : P = Pϑ , ϑ ∈ Θ} 13.1 Ungleichung von Rao-Cramér Im allgemeinen ist es erstrebenswert, bei erwartungstreuen Schätzern die Schätz-Varianz E(ϑ̂ − ϑ)2 = E(ϑ̂ − Eϑ̂)2 möglichst klein zu halten. Unter gewissen Umständen kann man hierfür eine untere Schranke angeben. Falls diese erreicht wird, spricht man von einem effektiven Schätzer. Da viele Indizes die Übersicht erschweren, treffen wir an dieser Stelle folgende Konvention: ϑ sei reell und ϑ̂ ein Schätzer für ϑ, wobei der Erwartungswert von ϑ̂ endlich ist. Wir schreiben dann ϑ̂(X) bzw. ϑ̂(x) und meinen dabei ϑ̂ = T (X). Es gilt: Z Eϑ̂ = ϑ̂(x)L(x, ϑ) dx = ϑ + b(ϑ) (13.1) Mn Dabei bezeichnet b(ϑ) den Bias, den systematischen Fehler. Für den absolutstetigen Fall ergibt sich speziell Z n Y Eϑ̂ = ϑ̂(x) f (xi , ϑ) d x1 . . . dxn i=1 Mn und im diskreten Fall Eϑ̂ = X ϑ̂(x) n Y i=1 P ({xi }, ϑ) 68 KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN Es werden nun die folgenden Voraussetzungen gemacht: 1. Der Support supp L(x, ϑ) = {x ∈ M n : L(x, ϑ) > 0} ist von ϑ unabhängig. Dies ist beispielsweise für die Gleichverteilung glm[0, ϑ] nicht erfüllt. 2. L soll nach ϑ differenzierbar sein und 3. die Integration bezüglich x muss mit der Differentiation bezüglich ϑ (in Ausdrücken wie (13.1)) vertauschbar sein. Satz 13.1 (Informations-Ungleichung von Rao-Cramér bei reellwertigem Parameter ϑ) Unter den obigen Voraussetzungen gilt (1 + b0 (ϑ))2 , nI(ϑ) var ϑ̂ ≥ (13.2) wobei I(ϑ) = var ∂ ln f (X1 , ϑ) ∂ϑ im stetigen Fall beziehungsweise I(ϑ) = var ∂ ln P ({X1 }, ϑ) ∂ϑ im diskreten Fall ist, allgemein I(ϑ) = 1 var n ∂ ln L(X, ϑ) . ∂ϑ I(ϑ) wird als Fisher-Information bezeichnet. Die rechte Seite von (13.2) heißt Rao-CramérSchranke. Bei r Parametern wird aus der Fisher-Information die Fishersche Informationsmatrix. Beweis. 1. Differentiation von 13.1 nach ϑ liefert Z 0 1 + b (ϑ) = ϑ̂(x)L0 (x, ϑ) dx. Mn Hierbei ist u0 = ∂ ∂ϑ u. Aus l = ln L folgt l0 = 1 + b0 (ϑ) = Z L0 L und damit L0 = l0 L. Somit ergibt sich ϑ̂(x)l0 (x, ϑ)L(x, ϑ) dx = E ϑ̂ · l0 . Mn 2. Aus 1 = R L(x, ϑ) dx folgt durch Differentation beider Seiten Z 0= l0 (x, ϑ)L(x, ϑ) dx = El0 . Speziell für n = 1 ergibt sich 0=E ∂ ln f (X1 , ϑ) ∂ϑ = El10 . 13.1. UNGLEICHUNG VON RAO-CRAMÉR 69 3. Für die eigentliche Rechnung ergibt sich nun: 1 + b0 (ϑ) = E(ϑ̂ · l0 ) − El0 · Eϑ̂ = E((ϑ̂ − Eϑ̂)l0 ), da El0 = 0 ist. Nach der Schwarzschen Ungleichung gilt: 2 (1 + b0 (ϑ))2 2 ≤ E(ϑ̂ − Eϑ̂)2 · El0 = var ϑ̂ · El0 . P Da die Zufallsgrößen Xi unabhängig identisch verteilt sind und l0 = li0 gilt, folgt i 2 El0 = var l0 = n · var l10 = nI(ϑ) und die Behauptung. Bemerkung. Bei Erwartungstreue erhält der Zähler in (13.2) den Wert 1. Beispiel. Wir betrachten die Poisson-Verteilung, wo bekanntlich λ̂ = X̄ erwartungstreu ist. Für die Varianz gilt dann var X̄ = n1 var X1 , und daraus ergibt sich var λ̂ = var X̄ = 1 λ var X1 = . n n Um nun die Fisher-Information zu berechnen, gehen wir folgendermaßen vor. Zuerst berechnen wir l(X1 , λ): X1 λ −λ e l(X1 , λ) = ln X1 ! = X1 ln λ − (λ + ln(X1 !)) Differentiation ergibt dann ∂l(X1 , λ) X1 = − 1. ∂λ λ Damit ergibt sich bei der Varianz-Berechnung l10 = var l10 = var X1 1 λ 1 = 2 var X1 = 2 = . λ λ λ λ Also beträgt die Fisher-Information I(λ) = λ1 . Es folgt für die rechte Seite von (13.2) var ϑ̂ = 1 λ = , n n λ1 demnach ist X̄ effektiv. Definition 13.1 Ein erwartungstreuer Schätzer, der das durch (13.2) gegebene Minimum erreicht, heißt effektiv (effizient, wirksam). Nun wollen wir uns der Frage widmen, warum das so schön klappt (und wann in der Schwarzschen Ungleichung das Gleichheitszeichen gilt). Die Bedingung dafür ist eine bestimmte Struktur der Verteilung. Wir befassen uns mit der Exponentialfamilie (Pϑ )ϑ∈Θ mit absolutstetigen Pϑ . Die zugehörige Likelihoodfunktion hat die Struktur L(x, ϑ) = 1D (x) exp{A(ϑ)η̂(x) + B(ϑ) + C(x)}. (13.3) D bezeichnet hierbei eine Borel-Menge des Rn . A, B, C sind messbare Funktionen, die in die Menge der reellen Zahlen abbilden. Schließlich gilt noch η̂ = η̂(x), η̂ ist der Schätzer für einen Parameter η(ϑ), wobei im Augenblick noch nicht klar ist, wie η von unserem Modellparameter ϑ abhängt. 70 KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN Wann gilt in (13.2) das Gleichheitszeichen? Im obigen Beweis wurde die Schwarzsche Ungleichung E(U V )2 ≤ EU 2 EV 2 für die Zufallsgrößen U = l0 und V = η̂ − Eη̂ benutzt. Gleichheit gilt nur im Fall U = aV , wobei a eine reelle Konstante ist. Es gilt l0 (x, ϑ) = A0 (ϑ)η̂(x) + B 0 (ϑ), x ∈ D. Demnach muss 0 = El0 (X, ϑ) = A0 (ϑ)Eη̂(X) + B 0 (ϑ) = A0 (ϑ)Eη̂ + B 0 (ϑ) gelten, woraus folgt B 0 (ϑ) Eη̂ = −Eη̂ · A0 (ϑ), B 0 (ϑ) . = − 0 A (ϑ) und damit Daraus kann man nun auf l0 (x, ϑ) = A0 (ϑ)(η̂(x) − Eη̂), x∈D schließen. Mit a = A0 (ϑ) gilt dann tatsächlich U = aV , 0 (ϑ) Also ist η̂ für den Parameter η = − B A0 (ϑ) erwartungstreu und effektiv. Was nützt das nun? Wir müssen jetzt die Formel (13.3) nehmen, die Dichtefunktion in eine passende Form bringen 0 (ϑ) und versuchen, η̂ zu verstehen und hoffen, dass − B A0 (ϑ) anständig aussieht. Beispiel. Für die Exponentialverteilung ist die Dichtefunktion f (x, λ) = λe−λx 1[0,∞) (x) bekannt. Damit ergibt sich für die Likelihood-Funktion ( n L(x, λ) = 1[0,∞)n (x)λ exp −λ n X ) xi i=1 und damit ( L(x, λ) = 1[0,∞)n (x) exp −λ n X ) xi + n ln λ i=1 Damit gehört die Exponentialverteilung zur Exponential-Familie. Wir setzen also A(λ) = −λ, n 0 P (λ) n B(λ) = n ln λ und η̂ = xi und erhalten B 0 (λ) = nλ und A0 (λ) = −1. Damit ist Eη̂ = − B A0 (λ) = λ . i=1 Also ist n P i=1 für Xi erwartungstreu und effizient für nλ . Entsprechend ist X̄ erwartungstreu und effizient 1 λ. 13.2 Suffiziente Schätzer Beispiel 1. Gesucht wird mit Hilfe der Statistik die Einzelwahrscheinlichkeit p im BernoulliSchema. Dazu nehmen wir eine Stichprobe (x1 , . . . , xn ) = x (Folge von 0“ und 1“ der einzelnen ” ” xi , wobei 0“ einen Misserfolg und 1“ einen Erfolg bezeichnet). Wenn nur p zu schätzen ist, ” ” genügt es anscheinend, nur n X T (x) = xi i=1 13.2. SUFFIZIENTE SCHÄTZER 71 zu kennen. Es gilt ja dann: p̂ = T (x) n T (x) ∼ Bin(n, p). Also ist viel weniger Information als das gesamte x erforderlich. 1 Beispiel 2. Ein Physiker will λ der Exponentialverteilung schätzen. Er findet den Schätzer n λ̂ = P n Xi i=1 nicht gut, weil so viel Information verschenkt wird. Deswegen hat er ein Histogramm ermittelt und eine Exponentialfunktion angepasst. Ist das sinnvoll? Wann sind nun solche Datenreduzierungen zulässig und sinnvoll? Mit dieser Frage beschäftigt sich die Theorie der suffizienten/erschöpfenden Statistiken. Definition 13.2 T (X) heißt suffizient (erschöpfend) für ϑ, wenn PX (·|T = t; ϑ) unabhängig von ϑ ist. Beispiel. Im Bernoulli-Schema sei T (X) = k die Anzahl der Erfolge. Wenn k bekannt ist, wie hoch sind dann die Wahrscheinlichkeiten für die verschiedenen Realisierungen von X = (X1 , . . . , Xn )? Es gibt dann nk mögliche Fälle, 2 die allesamt die gleiche Wahrscheinlichkeit haben. Damit ergibt −1 sich die Wahrscheinlichkeit von nk für jedes (x1 , . . . , xn ). Diese ist offenbar unabhängig von p. Also ist T (X) suffizient. Für den absolutstetigen Fall mit reellem ϑ stellt eine Likelihood-Funktion der Form L(x, ϑ) = q(ϑ, T (x))r(x) ein hinreichendes Kriterium für die Suffizienz dar. Im Falle der Exponential-Verteilung mit der Likelihood-Funktion ( ) n X n L(x, λ) = 1[0,∞)n (x)λ exp −λ xi i=1 n n P P n sind zum Beispiel r = 1[0,∞) (x) und q = λ exp −λ xi , wobei T (x) = xi ist. i=1 i=1 Die Verbesserung von Schätzern durch Bedingen mit suffizienten Schätzern nennt man salopp Rao-Blackwellisieren. Es sei ϑ̂ ein erwartungstreuer Schätzer für ϑ und T (X) sei suffizient. Dann kann man mittels der Formel ϑ̂T (X) = E(ϑ̂(X) | T (X)) (13.4) einen neuen Schätzer ϑ̂T konstruieren. Er ist wegen E(E(X | Y )) = EX (13.5) ebenfalls erwartungstreu, nach (7.16) ist die Streuung kleiner (oder gleich) als die von ϑ̂, und ϑ̂T ist wie T (X) suffizient. 1 Natürlich gilt dies nicht für alle Aufgaben. Wollte man zum Beispiel prüfen, ob das Bernoulli-Schema wirklich passend ist, so wäre es nötig, wirklich x zu kennen. 2 Diese lassen sich kombinatorisch herleiten, indem die n Positionen von 1 bis n durchnumeriert werden. Jeder mögliche Fall beschreibt dann eine Auswahl von genau k dieser Positionen aus den n möglichen ohne Wiederholung. Dafür gibt es bekanntlich n Möglichkeiten. k 72 KAPITEL 13. EIGENSCHAFTEN VON SCHÄTZERN Beispiel. Sei X auf dem Intervall [0, ϑ] gleichverteilt und ein geeigneter Schätzer für ϑ gesucht. Es seien weiterhin ϑ̂(1) = max Xi der M-L-Schätzer und ϑ̂(2) = 2X̄ der erwartungstreue i Momentenmethoden-Schätzer für ϑ. ϑ̂(1) ist suffizient für ϑ, denn die Likelihood-Funktion L(X, ϑ) = 1 1[Xmax ,∞) (ϑ) ϑn hängt nur von Xmax ab. Dann ergibt E(2X̄|Xmax ) = n+1 Xmax = ϑ̂T = ϑ̂(3) n einen suffizienten Schätzer, der offensichtlich besser als ϑ̂(1) ist. Um die wahre“ Gestalt von E(2X̄|Xmax ) zu erforschen, wird die in Kapitel 11 skizzierte Methode ” angewendet. Dazu wird die Funktion f (x) = E(X̄|Xmax = x) berechnet. Es gilt f (x) = 1 n−1x n+1 x+ = x. n n 2 2n Daraus folgt E(X̄|Xmax ) = n+1 Xmax , 2n woraus unser oben genanntes Ergebnis E(2X̄|Xmax ) = Satz 13.2 (Rao-Blackwell) treu. Dann ist der Schätzer n+1 n Xmax folgt. Es sei T (X) suffizient für den Parameter ϑ und ϑ̂ sei erwartungsϑ̂T = E(ϑ̂(X)|T (X)) ebenfalls erwartungstreu und suffizient und hat höchstens die Varianz von ϑ̂, var ϑ̂T ≤ var ϑ̂. Beweis. Die Erwartungstreue resultiert aus der Formel 13.5, die Suffizienz aus (7.17) mit E(X|Y ) = f (Y ) und die Varianzungleichung aus (7.16). 73 Kapitel 14 Signifikanztests 14.1 Einführung Die Signifikanztests werden manchmal als eine der 20 großen Erfindungen des 20. Jahrhunderts bezeichnet. Ein Test ist allgemein ein Verfahren zur Überprüfung einer Hypothese. Als statistische Hypothesen werden oft die folgenden verwendet: 1. EX > µ0 (z. B. Festigkeit eines Werkstoffes) 2. p < p0 (z. B. Ausschussquote hinreichend klein). 3. Die Verteilungsfunktion einer Zufallsgröße ist die Normalverteilungsfunktion mit den Parametern (µ, σ 2 ). 4. Zwei Stichproben stammen aus der gleichen Grundgesamtheit (z. B. Erzproben aus zwei Lagerstätten). Das Ziel ist nun eine solche Hypothese anzunehmen oder abzulehnen, ausgehend von einer Stichprobe. Das Ergebnis ist vom Zufall abhängig. 1 Die Nullhypothese H0 spielt eine zentrale Rolle im Test, manchmal nur vergleichend, oftmals aber auch direkt. Sie legt die Verteilung eindeutig fest; wenn H0 erfüllt ist, kann die Verteilung einer Testgröße“ bestimmt werden. Oft macht sie nur die Aussage nichts los“ oder kein Effekt“. ” ” ” Alternativ dazu gibt es die sogenannte Alternativhypothese H1 (manchmal auch HA ). Sie wird akzeptiert, wenn H0 abgelehnt wird, wenn H0 als zu unwahrscheinlich erscheint. Dann spricht man von signifikanten“ oder statistisch gesicherten“ Abweichungen von H0 . Oft ist die Alterna” ” tivhypothese die Arbeitshypothese“, die man eigentlich beweisen will. ” Entscheidungsregeln können mittels einer Zufallsgröße τ formuliert werden: 1, wenn H0 abgelehnt τ (ω) = 0, wenn H0 nicht abgelehnt werden kann Diese Zufallsgröße hat die Eigenschaft: τ (ω) = 1 ⇐⇒ ω liegt im kritischen Bereich. Bei den Tests gibt es zwei wichtige Fehler: 1 Über die Richtigkeit oder Falschheit der Hypothese kann keine Aussage gemacht werden, weil die statistischen Untersuchungen auf Zufall und Wahrscheinlichkeiten beruhen und nicht auf Sicherheiten. 74 KAPITEL 14. SIGNIFIKANZTESTS 1. H0 ist richtig, aber wir lehnen H0 ab. Dieser Fehler wird als Fehler erster Art bezeichnet. 2. H0 wird nicht abgelehnt, obwohl sie falsch ist. Das ist dann der Fehler zweiter Art. Bei den sogenannten Signifikanz-Tests ist die Wahrscheinlichkeit des Fehlers erster Art vorgegeben. Diese soll kleiner oder (idealerweise) gleich einer Zahl α sein, die dann Irrtums-Wahrscheinlichkeit 2 bzw. Signifikanzniveau 3 genannt wird. Die Tests kann man grob in zwei Klassen einteilen: Parameter-Test: Es werden Parameter betrachtet. So kann die Nullhypothese die Form H0 : µ = µ0 o. ä. haben. nichtparametrischer Test: z.B. Anpassungs-Test: Es werden Verteilungsfunktionen betrachtet. So kann die Nullhypothese die Form H0 : F = F0 haben. (Englisch: goodness-of-fit test“). ” Ein weiterer nichtparametrischer Test ist z.B. der Test auf stochastische Unabhängigkeit zweier Merkmale. 14.2 Beispiel: Mittelwert-Tests im Fall der Normalverteilung 14.2.1 Bekannte Varianz – Gauß-Test Die Nullhypothese lautet H0 : µ = µ0 , 2 und es wird angenommen, dass σ bekannt ist. µ könnte beispielsweise die Füllmenge von Bierflaschen angeben. Als Alternativ-Hypothese stehen die folgenden drei zur Verfügung: • Die zweiseitige Alternative H1 : µ 6= µ0 ist z. B. für den Messtechniker, der eine möglichst hohe Genauigkeit beim Bierabfüllen erreichen will, interessant. Wenn er das Abfüllgerät eingestellt hat, hofft er auf eine Annahme von H0 . • Die einseitige Alternative H1 : µ > µ0 ist z. B. für einen Alkoholgegner interessant, der befürchtet, dass die Leute durch (unbewusst) höheren Bierkonsum abhängig werden. Er hofft auf die Ablehnung von H1 . • Die einseitige Alternative H1 : µ < µ0 ist z. B. für einen Säufer interessant, der möglichst viel trinken möchte und deshalb sicherstellen möchte, dass die Flasche auch mindestens die theoretische Füllmenge enthält. Auch er hofft auf die Ablehnung von H1 . Die beiden einseitigen Alternativen H1 : µ > µ0 bzw. H1 : µ < µ0 passen“ eigentlich besser zu ” den Nullhypothesen H0 : µ ≤ µ0 bzw. H1 : µ ≥ µ0 , und häufig wird die Testproblematik dann auch so behandelt. Wenn nun H0 richtig ist, dann gilt für die unabhängig identisch verteilten X1 , . . . , Xn X1 , . . . , Xn ∼ N(µ0 , σ 2 ) 2 und für den Mittelwert X̄ ∼ N(µ0 , σn ). Die Idee ist nun, H0 abzulehnen, wenn x̄ zu weit von µ0 entfernt ist, also x̄ µ0 oder x̄ µ0 ist. Zur weiteren Rechnung führen wir die kanonische Variable ω = x̄ ein. Wenn wir H1 : µ > µ0 betrachten, dann erhalten wir für die Zufallsgröße τ : 1 x̄ > x1−α τ (x̄) = 0 sonst 2 Beachte: Hier wird nur der Fehler erster Art betrachtet. wird auch 1 − α als Signifikanz-Niveau bezeichnet 3 Manchmal 14.2. BEISPIEL: MITTELWERT-TESTS IM FALL DER NORMALVERTEILUNG 75 mit geeignetem x1−α . Unser Ziel ist, dass der Fehler 1.Art die Wahrscheinlichkeit α hat, d.h., dass gilt Pµ0 X̄ > x1−α = α. Das richtige x1−α finden wir gemäß P (X̄ > x1−α ) = α =1−Φ x1−α − µ0 ! √σ n unter Ausnutzung der Normalverteilungsannahme. Es gilt x1−α − µ0 √σ n = z1−α , also x1−α = µ0 + z1−α √σn . Der kleinste Wert von α, bei dem für ein gegebenes x̄ H0 abgelehnt wird, ist der sogenannte p-Wert. Im hier betrachteten Fall berechnet er sich folgendermaßen: ! x̄ − µ0 p = Pµ0 (X̄ > x̄) = 1 − Φ . σ √ n Die Gütefunktion (Macht, Power) ist die Wahrscheinlichkeit in Abhängigkeit von µ dafür, dass H0 abgelehnt wird. Sie hat folgende Form: σ g(µ) = Pµ X̄ > µ0 + z1−α √ n ! σ µ0 + z1−α √n − µ = 1−Φ = 1 − Φ(z1−α − c) σ √ mit c := µ − µ0 √ n σ n Nichtzentralitätsparameter“ ” . g ist also monoton wachsend in µ. Damit lässt sich nun auch die maximale Wahrscheinlichkeit angeben, dass H0 fälschlicherweise abgelehnt wird. Sie liegt hier bei: sup g(µ) = g(µ0 ), µ≤µ0 was plausibel erscheint. Bemerkenswert ist vielleicht noch lim g(µ) = 1. µ→∞ Wir wollen nun x̄ festhalten und den Einfluss von α und n auf das Testergebnis untersuchen. Wir beginnen mit α. H1 wird angenommen, wenn x̄ > µ0 + z1−α √σn gilt. Nun fällt aber z1−α bei steigendem α. Damit würde dann H1 öfter“ angenommen. Also ist ein großes α H0 -unfreundlich. ” Hieraus ergeben sich Möglichkeiten, Betrügereien in der Statistik durchzuführen. So kann man α sehr klein wählen, wenn man H0 annehmen möchte, und sehr groß, wenn man H1 annehmen möchte. Übliche Werte für α sind von 0.05 bis 0.01, wobei in der Medizin oft auch mit 0.005 gerechnet wird. Äußerst unüblich sind dagegen Werte wie 0.10 oder 0.001. Kommen wir nun zum Einfluss von n. Für steigendes n fällt µ + z1−α √σn . Damit werden auch relativ kleine Änderungen von x̄ ernst genommen. Der Fehler zweiter Art wird mit β bezeichnet. Bei uns wird α vorgegeben, während i.a. β berechnet werden muss. Kleine β sind oft nur durch große n zu erreichen. Berechnet wird der Fehler zweiter Art nach der Formel β(µ) = 1 − g(µ). 76 KAPITEL 14. SIGNIFIKANZTESTS H0 richtig H0 falsch H0 nicht abgelehnt richtige Entscheidung 1−α falsche Entscheidung β H0 abgelehnt falsche Entscheidung α richtige Entscheidung 1−β Tabelle 14.1: mögliche Entscheidungen und Fehler beim Signifikanztest 1 − g(µ) wird als Operations-Charakteristik (OC) bezeichnet. Die vier möglichen Entscheidungen und Fehler sind in Tabelle 14.1 systematisiert. Beispiel. Eine Lebensdauer-Untersuchung wird angesetzt, um zu ermitteln, ob die Lebensdauer eines Bauteils größer als 100 Tage ist. Bei dieser Untersuchung sind n = 10, σ = 20 und α = 0.05 festgesetzt. Als Nullhypothese wurde H0 : µ = 100 genommen. Die Alternativhypothese lautet dann H1 : µ > 100. Damit ergibt sich µ0 = 100. In der Stichprobe möge sich eine durchschnittliche Lebensdauer von x̄ = 112 ergeben. Die Rechnung ergibt: 20 σ x1−α = µ0 + z1−α √ = 100 + 1.645 · √ = 110.4, n 10 d.h. x̄ > x1−α . Demnach wird H0 abgelehnt und H1 angenommen. Der p-Wert beträgt in diesem Falle 0.0289. Das bedeutet, dass bei einem α von 0.01 H0 angenommen würde. Das Ergebnis könnte man etwa so formulieren: Die Messungen (Versuche) haben ergeben, dass die mittlere Lebensdauer signifikant ” (mit großer Sicherheit) über 100 Tagen liegt.“ Für die Gütefunktion gilt in diesem Fall: g(µ) = 1 − Φ 100 + 32.9 √ n 20 √ n −µ ! Damit ergibt sich für n = 10 und eine wahre mittlere Lebensdauer von 110 Tagen der Wert g(110) = 0.48. Das ist allerdings ein klägliches Ergebnis: Wenn tatsächlich µ = 110 ist, wird H1 nur in 48% der Fälle angenommen. Erst bei n = 43 gibt es diesbezüglich ein einigermaßen sicheres Ergebnis: Es gilt dann g(110) = 0.95. x̄ − µ0 Hier noch einmal die Testregeln für den Gauß-Test: Testgröße T = σ µ ≤ µ0 µ ≥ µ0 H0 : µ = µ0 14.2.2 µ > µ0 : Lehne H0 ab, wenn T H1 : µ < µ0 : Lehne H0 ab, wenn T µ 6= µ : Lehne H ab, wenn T 0 0 sog. kritische Bereiche z }| { > z1−α . < −z1−α = zα . < −z1− α2 ∨ T > z1− α2 . Unbekannte Varianz – Student-Test, t-Test Für die Nullhypothese sei wieder H0 : µ = µ0 . Auch die Alternativhypothesen mögen die gleichen Fälle annehmen, wie im vorigen Abschnitt. Entsprechend Formel (9.3) gilt: T = X̄ − µ √S n ∼ tn−1 14.3. AUSGEWÄHLTE WEITERE TESTS IM FALL DER NORMALVERTEILUNG 77 Die drei Testregeln haben dann die folgende Form: 4 µ ≤ µ0 µ > µ0 : Lehne H0 ab, wenn T > tn−1,1−α . µ < µ0 : Lehne H0 ab, wenn T < −tn−1,1−α . µ ≥ µ H0 : H1 : 0 µ 6= µ0 : Lehne H0 ab, wenn |T | > tn−1,1− α2 . µ = µ0 Die Annahme hierbei ist, dass es sich um eine Normalverteilung handelt (bzw. dass X̄ asymptotisch normalverteilt ist. Dieser Test ist relativ robust gegenüber Abweichungen von der Normalverteilung.) Ab n = 30 kann übrigens statt tn−1,1−α näherungsweise z1−α genommen werden. 14.2.3 Vergleich zweier Mittelwerte – Welch-Test Als Nullhypothese wird hier H0 : µX = µY betrachtet, wobei Xi Yi 2 ∼ N(µX , σX ) ∼ N(µY , σY2 ) Bei Verwendung von Stichprobenumfängen nX und nY und unbekannten und verschiedenen Va2 rianzen σX und σY2 gibt es von Welch gefundene Näherungsformeln für H1 : µX 6= µY : T =q X̄ − Ȳ 2 SX nX + ∼ tm 2 SY nY mit m = int 2 S X nX S2 Y nY 2 2 SY SX nX + nY 2 2 nX +1 + −2 nY +1 Für große nX und nY gilt m ≈ nX + nY . 14.3 Ausgewählte weitere Tests im Fall der Normalverteilung 14.3.1 Varianztest Bei einer Normalverteilung sei die Nullhypothese H0 : σ 2 = σ02 zu testen. Man benutzt die Testgröße (n − 1)S 2 T = ∼ χ2n−1 , σ02 vgl. (9.2). Hier gibt es die folgenden Testregeln: 2 σ ≤ σ02 σ 2 ≥ σ02 H0 : 2 σ = σ02 2 2 σ > σ0 : 2 σ < σ2 : H1 : σ 2 6= σ02 : 0 Lehne H0 ab, wenn T > χ2n−1,1−α . Lehne H0 ab, wenn T < χ2n−1,α . Lehne H0 ab, wenn T < χ2n−1, α oder T > χn−1,1− α2 . Hilfreich zum Verständnis ist hierzu [10], Seiten 120/121. 4 Siehe auch Tabellen [10], Seite 117 2 78 14.3.2 KAPITEL 14. SIGNIFIKANZTESTS Korrelation Die Zufallsgrößen X und Y mögen eine zweidimensionale Normalverteilung haben. Wenn nun %XY = 0 ist, dann sind beide unabhängig. Als Schätzer für %XY verwenden wir %̂XY , für dessen Realisierung in der Literatur oft das Symbol rXY verwendet wird. Der empirische Korrelationskoeffizient rXY wird berechnet durch Pn (xi − x̄)(yi − ȳ) . rXY = pPn i=1 Pn 2 2 (x i=1 (yi − ȳ) i=1 i − x̄) Hierbei ist zu beachten, dass die Werte xi und yi für jedes i zusammengehören. Als Testgröße wird √ rXY n − 2 T = p ∼ tn−2 2 1 − rXY benutzt. Alternativhypothese ist H1 : %XY 6= 0. Als Testregel gilt hier: Lehne H0 ab, wenn |T | > tn−2,1− α2 . Auch hier wird von unehrlichen Statistikern oft getrickst. Ein genügend großes α oder ein großes n führen zur Ablehnung von H0 . 14.4 χ2 -Anpassungstest Mit Hilfe des χ2 -Anpassungstests können Verteilungsannahmen getestet werden. Hier gilt bei großem n für die Stichprobenfunktion T = k X (hi − npi )2 i=1 npi ∼ χ2k−r−1 . Dabei werden die Einzelergebnisse in k Klassen eingeteilt (z. B. die Intervalle [ai−1 , ai ), wobei meist a0 = 0, gegebenenfalls auch a0 = −∞, und ak = ∞ ist). Dann sind hi die Häufigkeiten in den einzelnen Klassen. n ist – wie immer – die Anzahl der Werte. Für die pi gilt hier pi = P (ai−1 ≤ X < ai ) = F0 (ai ) − F0 (ai−1 ). Für große n ergibt sich näherungsweise eine χ2 -Verteilung. Dabei gibt r die Anzahl der Parameter an, die nach der M-L-Methode aus der Stichprobe geschätzt werden (z. B. r = 2 bei einer Normalverteilung). Die Nullhypothese H0 wird abgelehnt, wenn T > χ2k−r−1,1−α ist. 79 Kapitel 15 Regressionsanalyse 15.1 Einführung Bei der Regressions-Analyse soll eine Punktwolke, ein sogenannter Scatter-Plot, auf einen funktionalen Zusammenhang hin untersucht werden. Dazu werden in der Regel zwei Modelle verwendet: Modell I. Beim Modell I wird als Zusammenhang die Formel Y (x) = g(x) + ε(x) angenommen. Dabei ist g eine unbekannte deterministische Funktion. ε(x) ist der zufällige Fehler bei der Beobachtung. Hier soll Eε(x) = 0 gelten, es soll also kein systematischer Fehler vorliegen. Ferner sei var ε(x) = σ 2 und die Fehler für verschiedene x seien i.i.d. Der Parameter x ist einstellbar, wird also vorgegeben. Die Stichprobe y1 , . . . , yn besteht aus den Realisierungen Y (xi ) an den Beobachtungsstellen x1 , . . . , xn . Nun gibt es abhängig von der Aufgabe zwei Wege, wie das Problem gelöst werden kann: Der parametrische und der nichtparametrische Weg. Wir werden uns zunächst dem parametrischen Weg widmen. Dabei wird ein Ansatz g(x, ϑ) (z. B. g(x) = a + bx mit ϑ = (a, b)) gemacht. Der lineare Ansatz hat die Form g(x, ϑ) = ϑ1 f1 (x) + . . . + ϑr fr (x), mit bekannten fi . Die ϑi können dann mit Hilfe der Approximations-Theorie oder Ausgleichsrechnung ermittelt werden. Modell II. Hier liegt ein Zufallsvektor (X, Y ) vor, dem ein Zusammenhang der Form Y = g(X)+ε angepasst wird. Die Daten sind analog zum Modell I gegeben. Der Unterschied liegt aber darin, dass sowohl X als auch Y zufällig sind, d.h., jetzt lautet die Stichprobe (x1 , y1 ), . . . , (xn , yn ). Beispiele. 1. Größe (X) und Gewicht (Y ) des Menschen. 2. Größe des Vaters (X) und des Sohnes (Y ). Woher kommt übrigens der Name Regression“? Große Väter haben nicht immer so große Söhne ” und kleine Väter nicht immer so kleine, wie schon Galton bei statistischen Untersuchungen feststellte. Dementsprechend ergibt sich eine Kurve wie in Abbildung 15.1 zu sehen. Dieses Zurückgehen ” zum Durchschnitt“ hängt mit der Vorsilbe Re“ zusammen. ” ! Die optimale Lösung von E(Y − g(X))2 = min (messbares g) ist natürlich mit g(X) = E(Y | X) gegeben, häufig aber schwer zu berechnen. Daher wird oft eine aufgezwungene Lösung verwendet, 80 KAPITEL 15. REGRESSIONSANALYSE Y ideale Gerade 6 beobachtete Kurve X Abbildung 15.1: Regressions-Kurve die durch einen Ansatz bestimmt ist. Beispielsweise führt der lineare Ansatz zu dem Optimierungsproblem E((Y − a − bX)2 ) → min! Die Formeln zur Bestimmung von a und b unterscheiden sich nicht von denen im Modell I. 15.2 Methode der kleinsten Quadrate für Modell I Im allgemeinen ist die Wahl der Messpunkte frei. Zur optimalen Wahl der xi kann man die Theorie der Versuchsplanung befragen. Zur Berechnung der Näherung gibt es nun verschiedene Möglichkeiten: Zum einen gibt es die Tschebyschew-Approximation ϑ̂ = arg min sup |g(xi , ϑ) − yi | ϑ i=1,...,n sowie die L1 -Approximation ϑ̂ = arg min ϑ n X |g(xi , ϑ) − yi |. i=1 Zum anderen gibt es die Methode der kleinsten Quadrate von Gauß und Legendre, die von Legendre 1805 publiziert worden ist und der L2 -Approximation entspricht. 1 ϑ̂ = arg min ϑ n X (g(xi , ϑ) − yi )2 . i=1 Im linearen Fall hat man damit keine größeren Probleme. Aber im nichtlinearen Fall nutzt man häufig eine der beiden Alternativen: 1. Numerische Verfahren. Hier ist die beliebteste Methode in der Statistik die MarquardtProzedur. 2. Transformationsmethode Beispiel. Die Funktion y = ae−bx kann man durch Logarithmieren auf eine lineare Form bringen: ln y zi 1 Gauß = ln a − bx = A + Bxi behauptete damals, schon lange so gerechnet zu haben. 15.2. METHODE DER KLEINSTEN QUADRATE FÜR MODELL I 81 Die daraus ermittelten Werte  und B̂ kann man nun folgendermaßen zurücktransformieren: Für â gilt â = e und aus B̂ wird b̂ = −B̂. Doch wenden wir uns jetzt dem linearen Fall zu. Wir betrachten also den Zusammenhang Y = a + bx + ε(x), (15.1) Y = ϑ1 f1 (x) + . . . + ϑr fr (x) + ε(x) = f (x)T ϑ + ε(x). (15.2) oder allgemeiner Wir fassen nun alle unsere Werte y1 ,. . . ,yn der Stichprobe zusammen. Dann sind y = (y1 , . . . , yn )T , ε = (ε1 , . . . , εn )T , F = (f (x1 ), . . . , f (xn ))T und ϑ = (ϑ1 , . . . , ϑr )T . Es ergibt sich die folgende Formel: y = Fϑ + ε n X (f (xi )T ϑ − yi )2 = (F ϑ − y)T (F ϑ − y) = h(ϑ) = kF ϑ − yk2 i=1 Die Ableitung bezüglich ϑ ergibt dann gradϑ h(ϑ) = 2F T (F ϑ − y) Für das optimale ϑ̂ muss nun gelten: gradϑ h(ϑ̂) = 2F T F ϑ̂ − 2F T y = 0. Damit ergibt sich das Normalgleichungssystem F T F ϑ̂ = F T y. (15.3) Wenn nun F T F regulär, also invertierbar ist, dann erhält man nach Auflösung von (15.3) den MKQ-Schätzer ϑ̂ = (F T F )−1 F T y (15.4) Speziell für Y = a + bx ergibt sich: â = Ȳ − b̂x̄ n P xi Yi − nx̄Ȳ b̂ = i=1 . n P 2 2 xi − nx̄ i=1 Die MKQ-Schätzung hat für reguläre F T F die folgenden Eigenschaften: 1. ϑ̂ ist erwartungstreu. Wegen Y = F ϑ + ε gilt: Eϑ̂ = = (F T F )−1 F T EY (F T F )−1 F T F ϑ = ϑ. 2. Satz 15.1 (Gauß-Markow-Theorem) ϑ̂ ist der beste lineare erwartungstreue Schätzer (BLUE) für ϑ. Das bedeutet: Für jeden anderen linearen erwartungstreuen Schätzer ϑ̃ = CY gilt: covϑ̃ − covϑ̂ ist eine positiv semidefinite r × r-Matrix. 82 KAPITEL 15. REGRESSIONSANALYSE 3. Bei i.i.d. normalverteilten Beobachtungen, das heißt, wenn Y ∼ N(g(x, ϑ), σ 2 ) oder ε(x) ∼ N(0, σ 2 ), ist der MKQ-Schätzer zugleich auch M-L-Schätzer. Es ist ja ) ( n n Y 1 X 2 L(y, ϑ) = (g(xi , ϑ) − yi ) · (const)n f (yi ; ϑ) = exp − 2 2σ i=1 i=1 wegen 1 2 f (yi ; ϑ) = exp − 2 (g(xi , ϑ) − yi ) · (const). 2σ Damit wird L(y, ϑ) maximal, wenn n P (g(xi , ϑ) − yi )2 minimal wird. i=1 Die Überprüfung des Modelles wird im allgemeinen mittels der Residuen durchgeführt, die wie folgt definiert sind. ε̂i = Yi − f (xi )T ϑ̂ (15.5) Die Datenanalyse dieser Residuen erfolgt oft durch einfache Visualisierung. Falls sehr extreme Residuen auftauchen, muss das Modell geprüft werden. 15.3 Nicht parametrische Regression Ein wichtiges Beispiel der nicht parametrischen Regression ist der Nadaraya-Watson-Schätzer. R∞ Hierzu brauchen wir wieder eine Kernfunktion Kh (x) mit Kh (x) dx = 1. Wichtige Kerne sind −∞ der Rechteck-Kern Kh (x) = 1 1[−h,h] (x) 2h und der Epanechnikow-Kern Kh (x) = 3 4h 1− x2 h2 1[−h,h] (x). Der Schätzer hat dann die Form n P ĝ(x) = Kh (x − xi )yi i=1 n P . Kh (x − xi ) i=1 Er nimmt den Wert 0 an, wenn der Zähler den Wert 0 hat. Probleme gibt es dabei am Rand und bei der Wahl von h. Große h führen zu einer glatten Funktion. 83 Kapitel 16 Konfidenz-Intervalle Punktschätzungen liefern nur Punkte auf der Zahlengeraden. In vielen Fällen ist aber P (ϑ̂ = ϑ) = 0, auch wenn ϑ̂ erwartungstreu ist. So ist zum Beispiel bei der Normalverteilung X1 ∼ N(µ, σ 2 ) 2 mit µ̂ = X̄ ∼ N(µ, σn ), und es ist P (X̄ = µ) = 0. Die neue Idee (Neyman, 1935) ist nun, anstelle eines Punktes ein Intervall, einen Bereich oder sonst eine Menge zu betrachten. Dazu betrachten wir Stichprobenfunktionen I : M n → J, wobei J die Menge aller abgeschlossenen Intervalle in R ist. Ein etwas absonderliches, aber sicherlich anschauliches Beispiel ist eine Fliege an der Wand. Dabei kommt der Versuch, auf die Fliege zu schießen, einem Punktschätzer gleich. Die Verwendung einer Menge entspricht dann dem Einsatz einer Fliegenklatsche. Sie trifft zwar auch nicht besser, aber sie erwischt doch mehr von der Wand. Damit ist die Wahrscheinlichkeit, die Fliege zu treffen, trotzdem höher, ohne dass aber der genaue Ort der Fliege erhalten wird. Das Ziel ist nun, ϑ mit möglichst großer Wahrscheinlichkeit zu überdecken, aber möglichst schmale Intervalle zu verwenden. Definition 16.1 Eine Bereichsschätzung I heißt Konfidenzschätzung (-intervall, VertrauensIntervall) zum Niveau (1 − α), wenn für alle ϑ ∈ Θ Pϑ (ϑ ∈ I) ≥ (1 − α) (16.1) gilt. Beliebte Werte für 1 − α sind 0.95 und 0.99. Beispiele. 1. Hier betrachten wir Konfidenzintervalle für µ bei der Normalverteilung N(µ, σ 2 ) mit bekannter Varianz σ 2 . Es gilt σ2 X̄ ∼ N(µ, ) n Also folgt nun ! X̄ − µ Pµ −z1− α2 ≤ ≤ z1− α2 = 1 − α. σ √ n Das lässt sich umformen als σ σ Pµ X̄ − z1− α2 √ ≤ µ ≤ X̄ + z1− α2 √ = 1 − α. n n (16.2) 84 KAPITEL 16. KONFIDENZ-INTERVALLE Daraus ergibt sich nun für das Intervall: σ σ α α I(µ) = X̄ − z1− 2 √ , X̄ + z1− 2 √ n n 2. Betrachten wir nun das Gleiche für unbekannte Varianz. Für die Verteilungsfunktion gilt nun X̄ − µ ∼ tn−1 . S √ n Also gilt Pµ −tn−1,1− α2 ≤ X̄ − µ √S n ! ≤ tn−1,1− α2 = 1 − α, woraus folgt Pµ X̄ − t n−1,1− α 2 S S √ ≤ µ ≤ X̄ + tn−1,1− α2 √ n n =1−α (16.3) Die hier betrachteten Intervalle sind zweiseitige Intervalle. Man kann aber auch einseitige Intervalle betrachten (z. B. [X̄ − tn−1,1−α √Sn , ∞)). Zu weiteren Intervallen sei hier auf die Tabellenbücher verwiesen. Hinweis. ϑ ist deterministisch und I(X) zufällig. Es ist Pϑ (ϑ ∈ I(X)) ≥ 1 − α. Also ist ϑ mit einer Wahrscheinlichkeit, die größer als 1−α ist, im Intervall. Das ist solange richtig, wie I(X) zufällig ist. Aus einer konkreten Statistik wird jedoch eine deterministische Realisierung von I(X) ermittelt. Dann liegt ϑ liegt entweder im Intervall oder nicht. Es ist dann nur bekannt, dass ein Rezept genommen wurde, das oft“, nämlich mit Wahrscheinlichkeit 1 − α, erfolgreich ist. ” Die Lage von ϑ im Intervall ist ein anderes Problem. Eine wichtige Anwendung der Konfidenzintervalle ist die Suche nach dem notwendigen Stichproben-Umfang n. Für seine Wahl gibt es als grobe Faustregel das folgende Rezept: • n ≥ 10 bei Parameterschätzungen, • n ≥ 6 bei H0 : µ = µ0 und • n ≥ 50 bei Verteilungsfunktionsschätzungen. Die Idee, die bei der Anwendung eines Konfidenzintervalls zugrunde liegt, sagt: Gib α und die zulässige Breite 2b des Intervalls vor und berechne den notwendigen Stichprobenumfang n. Wollte man z.B. µ schätzen, dann gibt es die Formel S b = tn−1,1− α2 √ . n n muss man hier iterativ bestimmen. b ist in der Praxis oft schwer angebbar, während α natürlich einfacher zu wählen ist. Das Problem, welches sich hier ergibt, ist, dass S näherungsweise bekannt sein muss. Dies kann man durch eine Pilotuntersuchung lösen. Was war nun der Grund, dass bei der Konstruktion der obigen Intervalle alles so schön klappte? X̄−µ √ ) verwendet, die folgende Eigenschaften hatte: Wir hatten eine Pivot-Größe (z.B. t = σ/ n 1. Die Verteilung ist unabhängig von den unbekannten Parametern. 85 2. Die Ungleichung u ≤ t ≤ o lässt sich leicht in eine Ungleichung der Form µu ≤ µ ≤ µo umformen. Im Fall einer Nicht-Normalverteilung gibt es unter anderem folgende Auswege: 1. NV-Asymptotik. Ein Beispiel für die Normalverteilungs-Asymptotik ist die Suche nach einem Intervall für p bei einer Bernoulli-Verteilung. 1 Hier wird eine asymptotische Pivot-Größe betrachtet. Dabei macht man sich den Sachverhalt S − np d p n −−−−→ N(0, 1) n→∞ np(1 − p) zunutze. Dabei ist Sn = n P Xi = k die Anzahl der Erfolge. Mit Hilfe von p̂ = i=1 √ p̂ − p p p(1 − p) k n ergibt sich n −→ N(0, 1). < Aus der Bedingung P (p1 ≤ p ≤ p2 ) ≈ 1 − α ergeben sich nun die Lösungen s 2 2 z1− z1− α α α z 1− 2 2 ∓ √ 2 p̂(1 − p̂) + p̂ + 2n 4n n . p1,2 = 2 z1− α 2 1+ n 2. Man kann auch die Bootstrap-Methode verwenden, die 1982 von Efron eingeführt wurde. Wir betrachten sie hier für µ = EX und X ∼ F mit unbekanntem F . Dabei gehen wir von der Größe X̄ − µ T = s √ n aus. Um noch brauchbare Ergebnisse zu erzielen, müssen wir uns nun am eigenen Stiefelriemen aus dem Sumpf ziehen.2 Wir ersetzen dazu F durch F̂n und kennzeichnen alle zugehörigen Größen mit ∗. Dabei erhalten wir so die Formeln µ∗ = X̄, und t∗ = X̄ ∗ − X̄ S∗ √ n . Die Quantile von t∗ bezeichnen wir mit tB und tB . Für diese Werte gelten dann die Formeln P ∗ (t∗ ≤ tB ) = α2 und P ∗ (t∗ ≥ tB ) = α2 . Sie lassen sich entweder numerisch berechnen oder müssen er“-simuliert werden. ” Die Simulation läuft dabei folgendermaßen ab: Aus den Stichprobendaten x1 , . . . , xn werden neue Stichproben (zufällig, mit Zurücklegen) vom Umfang m (häufig: m = n) gebildet und jeweils t∗ ermittelt. Als Faustregel gelten ca. 1000 Simulationen. Aus den empirischen Quantilen t1 , t2 , . . . , t999 , t1000 werden dann Schätzwerte für tB und tB gebildet. Beispielsweise nimmt man für α = 0.05 die Werte t25 und t976 . Das hierbei erhaltene Vertrauensintervall S S X̄ − √ tB , X̄ − √ tB n n ist dann oft besser als die NV-Asymptotik. 1 Vergleiche dazu auch [13]. Eigentlich ziehen wir uns ja am eigenen Zopf aus dem Sumpf, aber die englischsprachige Gesellschaft verwendet dazu den Bootstrap, also den Stiefelriemen. 2 86 KAPITEL 16. KONFIDENZ-INTERVALLE LITERATURVERZEICHNIS 87 Literaturverzeichnis [] Klassiker [1] Feller, W., An Introduction to Probability Theory and its Application, J. Wiley & Sons (Vol I 1950, Vol II 1966) [2] Fisz, M., Wahrscheinlichkeitsrechnung und mathematische Statistik, Deutscher Verlag der Wissenschaften (11.Auflage 1988) [3] Gnedenko, B.W., Lehrbuch der Wahrscheinlichkeitsrechnung, Akademie Verlag Berlin (Neuauflage 1994; russisch 1954) [4] Kolmogorow, A.N., Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer-Verlag (1933, Neuauflage 1973) [5] Renyi, A., Wahrscheinlichkeitstheorie, Deutscher Verlag der Wissenschaften (6.Auflage 1979) [] Neuere Bücher [6] Bauer, H., Wahrscheinlichkeitstheorie, Walter de Gruyter (4. Auflage 1991) 2, 5.1, 7.4 [7] Beichelt, F., Stochastik für Ingenieure, Teubner (1995) [8] Beyer, O., H. Hackel und V. Pieper, Wahrscheinlichkeitsrechnung und mathematische Statistik, Teubner (8.Auflage 1999) 1 [9] Georgii, H.-O., Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik, Walter de Gruyter (2002) [10] Göhler, W. und B. Ralle, Formelsammlung Höhere Mathematik, Harry Deutsch (14.Auflage 1999) 14.3.1, 4 [11] Karr, A., Probability, Springer-Verlag (1993) [12] Krengel, U., Einführung in Wahrscheinlichkeitstheorie und Statistik, Vieweg Verlag Braunschweig (3.Auflage 1991) [13] Krickeberg, K. und H. Ziezold, Stochastische Methoden, Springer-Verlag (4.Auflage 1995) 9.1, 1 [14] Sachs, L., Angewandte Statistik. Anwendung statistischer Methoden, Springer-Verlag (10.Auflage 2002) [15] Storm, R., Wahrscheinlichkeitsrechnung, Mathematische Statistik und Statistische Qualitätskontrolle, Fachbuchverlag Leipzig (11.Auflage 2001) [16] Stoyan, D., Stochastik für Ingenieure und Naturwissenschaftler, Akademie Verlag Berlin (1993) [17] Viertl, R., Einführung in die Stochastik, Springer-Verlag Wien (1997) 88 INDEX Index σ-Additivität, 3 p-Wert, 75 Kovarianz, 24 -matrix, 24 Abweichung signifikante, 73 Alternative einseitige, 74 zweiseitige, 74 Maßraum, 3 Maß normiertes, 3 Wahrscheinlichkeits-, 6, 7 Bernoulli-Schema, 18 Dichte gemeinsame, 20 Erwartungswert, 9 Experiment Bernoulli-, 18 Produkt-, 17 unabhängiges, 17 Fehler bei statistischen Tests, 73 erster Art, 74 zweiter Art, 74, 75 frequentistische Auffassung, 5 Funktion charakteristische, 45 Güte-, 75 Verteilungs-, 8, 19 Gesetz Null-Eins-Gesetz, 5 Verteilungs-, 7 Hypothese Null-, 73 statistische, 73 Intervall Konfidenz-, 83 Inversionsmethode, 15 Korrelation -smatrix, 24 Korrelationskoeffizient, 24 empirischer, 78 Quantil, 13 -Funktion, 13 -Transformation, 15 Schätzer effektiver, 67 Stichprobe konkrete, 67 mathematische, 67 Test, 73 Anpassungs-, 74 Parameter-, 74 Signifikanz-, 73, 74 Unabhängigkeit, 22 Ungleichung Boolesche, 4 Jensensche, 12 Markowsche, 11 Tschebyschewsche, 11 Vektor zufälliger, 19 Zufalls-, 19 Verteilung hypergeometrische, 6 Verwerfungsmethode, 15 Volladditivität, 3 Wahrscheinlichkeit, 3 Irrtums-, 74 subjektive, 5 WahrscheinlichkeitsMaß, 3 Verteilung, 3 Wahrscheinlichkeitsraum, 3 Bild-, 7 INDEX Zufallsgröße, 7 Unabhängigkeit von ˜n, 22 Zufallsvariable, 7 Zufallsvektor, 19 Zufallszahlen-Erzeugung, 13 89