Einführung in die Statistik MINISKRIPTUM Bruno Nietlispach mit Beiträgen von A. D. Barbour und Dominic Schuhmacher 30. März 2006 Inhaltsverzeichnis 0 Grundbegriffe der Wahrscheinlichkeit 0.1 Der Wahrscheinlichkeitsraum . . . . . . . 0.2 Zufallsvariablen und ihre Verteilungen . . 0.3 Bedingte Wahrscheinlichkeit . . . . . . . . 0.4 Unabhängigkeit . . . . . . . . . . . . . . . 0.5 Der Erwartungswert . . . . . . . . . . . . 0.6 Die Bienaymé-Chebyshev-Ungleichung und 0.7 Bedingter Erwartungswert . . . . . . . . . . . . . . . . 3 3 8 10 12 16 22 24 starke Gesetz der grossen Zahlen Die Lemmata von Borel-Cantelli . . . . . . . . . . . . . . . . . . . Fast sichere Konvergenz . . . . . . . . . . . . . . . . . . . . . . . Das starke Gesetz der grossen Zahlen . . . . . . . . . . . . . . . . 33 33 36 37 2 Der zentrale Grenzwertsatz 2.1 Konvergenz in Verteilung . . . . . . . . . . . . . . . . . . . . . . . 2.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . 39 39 41 3 Einführung in die Statistik 3.1 Zusammenfassung und Darstellung von Daten 3.2 Entscheidungstheoretische Grundlagen . . . . 3.3 Suffizienz . . . . . . . . . . . . . . . . . . . . 3.4 Exponentielle Familien . . . . . . . . . . . . . 3.5 Schätzung . . . . . . . . . . . . . . . . . . . . 3.6 Tests . . . . . . . . . . . . . . . . . . . . . . . 3.7 Die Bayes’sche Methode . . . . . . . . . . . . 3.8 Die nichtparametrische Statistik . . . . . . . . 43 43 45 48 50 51 53 54 55 1 Das 1.1 1.2 1.3 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapitel 0 Grundbegriffe der Wahrscheinlichkeit 0.1 Der Wahrscheinlichkeitsraum Definition 0.1.1. Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, F, P), wobei Ω eine nichtleere Menge, F eine σ-Algebra von Teilmengen von Ω, und P : F → R eine Abbildung ist, die folgende drei Eigenschaften erfüllt: Axiom I: Für alle A ∈ F sei 0 ≤ P[A] ≤ 1. Axiom II: Es gelte P[Ω] = 1. Axiom III: Für eine Folge (An )n∈N von paarweise disjunkten Elementen aus F gelte ∞ h[∞ i X P An = P[An ] . n=1 n=1 Diese Eigenschaft von P heisst σ-Additivität. Ist die Menge Ω endlich, so sprechen wir von einem endlichen Wahrscheinlichkeitsraum, ist Ω endlich oder abzählbar unendlich, so nennen wir (Ω, F, P) einen diskreten Wahrscheinlichkeitsraum. Ein Element A ∈ F heisst ein Ereignis. Ist {ω} ∈ F für ω ∈ Ω, so wird {ω} ein Elementarereignis genannt. Die Abbildung P heisst Wahrscheinlichkeit oder Wahrscheinlichkeitsmass. Für ein Ereignis A wird der Wert P[A] als Wahrscheinlichkeit des Ereignisses A bezeichnet. Schon aus den Axiomen I und II mit der schwächeren paarweise Additivät Axiom IIIendl : Für disjunkte Ereignisse A, B gilt: P[A ∪ B] = P[A] + P[B], 3 kann man erste Eigenschaften der Wahrscheinlichkeit P folgern: Lemma 0.1.2. Für m ≥ 2 und (Ai )1≤i≤m paarweise disjunkt gilt: P h[m i n=1 An = m X P[An ]. n=1 Wir nennen diese Eigenschaft die Additivität von P. Lemma 0.1.3. 1. P[∅] = 0 ; (0.1.1) c 2. P[A ] = P[Ω\A] = 1 − P[A] ; 3. 4. Falls A ⊂ B, so folgt P[A] ≤ P[B] ; (0.1.3) Für beliebige Ereignisse (Cn )1≤n≤m gilt die Boolesche Ungleichung: m h[m i X P Cn ≤ P[Cn ] . (0.1.4) n=1 (0.1.2) n=1 Die nächsten Resultate brauchen das volle Axiom III. Lemma 0.1.4 (Stetigkeitslemma). Sei (Bn )n∈N eine steigende Folge von Ereignissen aus F: also Bn ⊂ Bn+1 für alle n. Dann gilt " # [ P Bn = lim P[Bn ]. n→∞ n∈N Für beliebige Ereignisse (Cn )n∈N gilt also " # " n # [ [ P Cm = lim P Cm . n→∞ m≥1 m=1 Beweis: Setze An := Bn \Bn−1 , verwende Axiom III. Dann setze Bn = 2 Sn m=1 Cm . Lemma 0.1.5. Sei (Cn )n∈N eine Folge von beliebigen Ereignissen aus F. Dann gilt die allgemeine Boolesche Ungleichung: P h[∞ n=1 Cn i ≤ ∞ X P[Cn ] . (0.1.5) n=1 Beweis: Zunächst Lemma 0.1.4, zweiter Teil, danach Lemma 0.1.3 (4). 4 2 Fall 1: Ω endlich In diesem Fall können wir zeigen, dass jede Wahrscheinlichkeit P durch eine Familie reeller Zahlen (pi )1≤i≤n mit n X pi = 1 (0.1.6) i=1 und pi ≥ 0 für alle 1 ≤ i ≤ n (0.1.7) eindeutig bestimmt ist. Die Zahlen pi sind gerade die Werte von P auf den Elementarereignissen. Wir wollen möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass wir, falls Ω endlich ist, immer F := 2Ω setzen können. Beispiele von Wahrscheinlichkeiten im endlichen Fall: die Uniformverteilung, die Bernoulli-Verteilung, die Binomialverteilung. Fall 2: Ω abzählbar unendlich Analog zum endlichen Fall können wir hier zeigen, dass jede Wahrscheinlichkeit P durch eine Folge reeller Zahlen (pi )i≥1 mit ∞ X pi = 1 (0.1.8) i=1 und pi ≥ 0 für alle i ∈ N (0.1.9) eindeutig bestimmt ist. Die pi sind gerade die Werte von P auf den Elementarereignissen. Wie im endlichen Fall wollen wir möglichst vielen Teilmengen aus Ω eine Wahrscheinlichkeit zuordnen können, die σ-Algebra F des Wahrscheinlichkeitsraumes (Ω, F, P) also möglichst gross wählen. Die obigen Ausführungen zeigen, dass auch im abzählbar unendlichen Fall stets F := 2Ω gesetzt werden kann. Beispiele von Wahrscheinlichkeiten auf abzählbar unendlichen Mengen: die geometrische Verteilung, die Negativ-Binomialverteilung, die Poisson-Verteilung. Es gibt keine Uniformverteilung auf abzählbar unendlichen Mengen. Die Binomialverteilung lässt sich durch die Poisson-Verteilung approximieren. Lemma 0.1.6 (Poissonscher Grenzwertsatz). Sei λ > 0 und sei (p(n))n≥1 eine Folge von Zahlen im Intervall [0, 1] mit limn→∞ np(n) = λ. Für n → ∞ gilt 5 dann Bi(n, p(n))[{i}] = n p(n)i (1 − p(n))n−i i n(n − 1) · · · (n − i + 1) ni p(n)i = ni i! i λ −λ −→ e = Po(λ)[{i}] . i! np(n) 1− n n np(n) 1− n 2 Beweis: Stirling’sche Formel. Fall 3: Ω überabzählbar unendlich Im abzählbar unendlichen Fall wurde gezeigt, dass es keine Uniformverteilung geben kann. Für ein beliebiges Teilintervall (a, b] von (0, 1] liegt es jedoch intuitiv nahe, eine Wahrscheinlichkeit P mit uniformer Verteilung durch P[(a, b]] = b − a (0.1.10) zu konstruieren. Wie ist aber die σ-Algebra F zu wählen? Wir betrachten hierzu die kleinste σAlgebra von Teilmengen in (0, 1], die von allen Intervallen der Form (a, b] mit 0 < a < b ≤ 1 erzeugt wird. Dies ist die Borelsche σ-Algebra B((0, 1]) := (0, 1] ∩ B(R). Der Erweiterungssatz der Masstheorie besagt, dass ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf B((0, 1]) existiert, das für jedes Intervall (a, b] mit 0 < a < b ≤ 1 die Gleichung (0.1.10) erfüllt. Auf diese Weise erhalten wir einen Wahrscheinlichkeitsraum ((0, 1], B((0, 1]), P). Wir nennen P die Uniformverteilung U[(0, 1]]. Bemerkung 0.1.7. Wäre es hier aber nicht möglich wie im diskreten Fall als σAlgebra die Potenzmenge 2(0,1] zu wählen? Nein. Man kann zeigen, dass das durch (0.1.10) bestimmte P nicht konsistent auf die Potenzmenge von (0, 1] fortgesetzt werden kann. Die Idee der Konstruktion der Uniformverteilung auf (0, 1] soll nun erweitert werden, damit wir Wahrscheinlichkeitsräume mit Ω := R konstruieren können. Dazu benötigen wir folgende Definition: Definition 0.1.8. Eine Funktion F : R → [0, 1] heisst Verteilungsfunktion, wenn sie rechtsstetig und monoton wachsend ist, und wenn limx→−∞ F (x) = 0 und limx→+∞ F (x) = 1 gilt. 6 −i Bemerkung 0.1.9. Aus den Eigenschaften der Verteilungsfunktion folgt, dass diese in jedem Punkt in R den linksseitigen Limes besizt. Rechtsstetige Funktionen mit linksseitigen Limites werden auch als càdlàg-Funktionen bezeichnet ( continue à droit - limite á gauche). Jedes Wahrscheinlichkeitsmass auf B(R) kann auf eindeutige Weise durch eine Verteilungsfunktion beschrieben werden. Eine wichtige Klasse von Verteilungsfunktionen wird über Wahrscheinlichkeitsdichten definiert. Definition 0.1.10. Eine Wahrscheinlichkeitsdichte ist eine integrierbare Funktion f : R → R+ mit Z +∞ f (t)dt = 1 . −∞ Ist f eine Dichte, so wird durch Z x f (t)dt F (x) := −∞ eine stetige Verteilungsfunktion F , und damit auch eine Wahrscheinlichkeit P auf B(R), definiert. Bemerkung 0.1.11. Der Begriff der Dichte lässt sich auch allgemeiner fassen. Eine integrierbare Funktion f : Rn → R+ heisse Wahrscheinlichkeitsdichte, wenn Z f (x1 , . . . , xn ) d(x1 , . . . , xn ) = 1 Rn gilt. Nach dem Erweiterungssatz der Masstheorie gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmass P auf B(Rn ), so dass für jedes n-dimensionale Intervall (a, b] ⊂ Rn gilt: Z P[(a, b]] = f (x1 , . . . , xn ) d(x1 , . . . , xn ) . (0.1.11) (a,b] Wir erhalten so Wahrscheinlichkeitsräume der Form (Rn , B(Rn ), P). Der Begriff der Verteilungsfunktion wird im mehrdimensionalen Fall selten verwendet. Beispiele von Wahrscheinlichkeiten auf überabzählbar unendlichen Mengen: die Negativ-Exponentialverteilung, die Normalverteilung, die bivariate Normalverteilung, die Cauchy-Verteilung, die Gamma-Verteilung, die Chi-Quadrat-Verteilung. Auf R+ bzw. auf R gibt es keine Uniformverteilung. Dafür gibt es eine auf jedem endlichen Intervall von R. 7 0.2 Zufallsvariablen und ihre Verteilungen Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Definition 0.2.1. Ein n-dimensionaler Zufallsvektor auf Ω ist eine F-B(Rn )messbare Abbildung X : Ω → Rn . Der Fall n = 1 ist besonders wichtig: hier sprechen wir von einer Zufallsvariablen X. Ist X(Ω) endlich oder abzählbar unendlich, so sprechen wir von einer diskreten Zufallsvariablen. Wir verwenden im folgenden die abkürzende Schreibeweise {X ∈ B} := X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} für B ⊂ Rn , bzw. {X = c} für c ∈ Rn oder, für n = 1, {X ≤ c} u.s.w. Ist B ∈ B(Rn ) eine Ereignis, so ist X −1 (B) ∈ F, und wir verwenden entsprechend die Notation P[X ∈ B] := P[X −1 (B)] . Satz 0.2.2. Sei X : Ω → Rn ein Zufallsvektor. Sei PX : B(Rn ) → R definiert durch PX [B] := P[X ∈ B] . Dann ist PX eine Wahrscheinlichkeit auf B(Rn ), also (Rn , B(Rn ), PX ) ein Wahrscheinlichkeitsraum. Anstelle von PX wird auch die Schreibweise PX −1 benutzt. Wir nennen PX die Verteilung des Zufallsvektors X und verwenden die Notationen X ∼ PX . Speziell verwenden wir für die in den Beispielen betrachteten Verteilungen die Notationen X ∼ Po(λ), X ∼ N (µ, σ 2 ), X ∼ U[0, 1], u.s.w. Ist X eine Zufallsvariable, so bezeichen wir mit FX die durch PX definierte Verteilungsfunktion. Wir betrachten nun einige Beispiele dazu, wie sich aus gegebenen Zufallsvariablen neue bilden lassen. 1. Sind Xi Zufallsvariablen für alle 1 ≤ i ≤ n, so ist (X1 , . . . , Xn ) : Ω → Rn , definiert durch (X1 , . . . , Xn )(ω) := (X1 (ω), . . . , Xn (ω)) , ein Zufallsvektor und umgekehrt. Dies folgt aus der Eigenschaft, dass B(Rn ) = Nn i=1 B(R) die von B(R) × · · · × B(R) erzeugte σ-Algebra ist: (X1 , . . . , Xm )−1 (A1 × · · · × Am ) = m \ j=1 8 Xj−1 (Aj ). 2. Sei X : Ω → Rn ein Zufallsvektor und g : Rn → Rm eine B(Rn )-B(Rm )messbare Abbildung. Dann ist durch g(X)(ω) := g(X(ω)) ein Zufallsvektor g(X) : Ω → Rm definiert. 3. Aus den vorhergehenden beiden Punkten ergibt sich, dass, wenn X und Y Zufallsvariablen sind, auch X + Y , XY und eX Zufallsvariablen sind. 4. Sei (Xi )i≥1 eine Folge von Zufallsvariablen Xi : Ω → R. Existiert supi≥1 Xi in R, so ist supi≥1 Xi : Ω → R, gegeben durch (supi≥1 Xi )(ω) := supi≥1 (Xi (ω)) , T eine Zufallsvariable. Dies folgt, da {supi≥1 Xi ≤ x} = i≥1 {Xi ≤ x} für jedes x ∈ R ein abzählbarer Durchschnitt von messbaren Mengen ist. Entsprechend zeigt man, dass, falls inf i≥1 Xi in R existiert, dies eine Zufallsvariable ist. 5. Sei wie vorher (Xi )i≥1 eine Folge von Zufallsvariablen. Existieren lim supi→∞ Xi := inf j≥1 (supk≥j Xk ), bzw. lim inf i→∞ Xi := supj≥1 (inf k≥j Xk ) in R, so sind dies wegen vorhergehendem Punkt ebenfalls Zufallsvariablen. 6. Betrachte wiederum eine Folge (Xi )i≥1 von Zufallsvariablen. Existiert limi→∞ Xi (ω) in R für alle ω, so haben wir insbesondere limi→∞ Xi (ω) = lim supi→∞ Xi (ω), und so eine Zufallsvariable limi→∞ Xi . Pj P Konvergiert die Summe ∞ i=1 Xi (ω) für alle ω, so ist i=1 Xi (ω) := limj→∞ diese wiederum eine Zufallsvariable. Kehren wir zurück zu Punkt 2 der obigen Liste: Wir betrachten eine Zufallsvariable X mit der Verteilung PX und eine messbare Funktion g : R → R. Was können wir über die Verteilung Pg(X) der Zufallsvariablen g(X) aussagen? Betrachten wir dazu zwei Beispiele. Beispiel 0.2.3. Sei g : R → R bijektiv und steigend. Für die Verteilungsfunktion Fg(X) gilt: Fg(X) (x) := Pg(X) [(−∞, x]] = P[g(X) ≤ x] = P[X ≤ g −1 (x)] = PX [(−∞, g(x)]] = FX (g −1 (x)) für alle x ∈ R. 9 Beispiel 0.2.4. Aus dem vorhergehenden Beipiel erhalten wir einen wichtigen Spezialfall. Seien dazu µ ∈ R und σ ∈ (0, ∞) gegeben. Betrachte eine Zufallsvariable X ∼ N (0, 1) und setze Y := σX + µ . Dann ist Y ∼ N (µ, σ 2 ). Ist umgekehrt eine Zufallsvariable Y ∼ N (µ, σ 2 ) vorgegeben, so folgt X := Y −µ σ der Standard-Normalverteilung N (0, 1). Beispiel 0.2.5. Sei g : R → R gegeben durch x 7→ x2 . Dann gilt für x ∈ R FX 2 (x) := PX 2 [(−∞, x]] = P[X 2 ≤ x] √ √ √ √ = P[− x ≤ X ≤ x] = P[X ≤ x] − P[X < − x] √ √ = FX ( x) − FX (− x−) . Aus der Substitutionsregel der Differential- und Integralrechnung folgt: Satz 0.2.6 (Dichtetransformation). Sei X eine Zufallvariable mit Dichte fX . Sei g : R → R eine messbare Abbildung und Y := g(X). Ist g im Wertebereich X(Ω) von X stetig differenzierbar mit strikt postiver Ableitung g 0 > 0, so ist die Dichte fY von Y gegeben durch ( fX (g −1 (y)) für y ∈ g(X(Ω)) |g 0 (g −1 (y))| fY (y) = 0 für y 6∈ g(X(Ω)) Die gleiche Aussage folgt, wenn vorausgesetzt wird, dass g eine strikt negative Ableitung g 0 < 0 hat. 0.3 Bedingte Wahrscheinlichkeit Definition 0.3.1. Seien A, B ∈ F Ereignisse mit P[A] > 0. Dann heisst P[B|A] := P[A ∩ B] P[A] die bedingte Wahrscheinlichkeit von B gegeben das Ereignis A. Aus der Definition lässt sich sofort schliessen: 1. Für festes A mit P[A] > 0 ist die Wahrscheinlichkeit P[B|A] für alle B ∈ F definiert. 10 2. Offenbar gilt für jedes B ∈ F die Eigenschaft P[B|A] = P[A ∩ B|A]. 3. Speziell haben wir P[A|A] = 1. Satz 0.3.2. Sei das Ereignis A ∈ F mit P[A] > 0 fest gegeben. Dann ist PA : F → R, definiert durch PA [B] := P[B|A] für B ∈ F, eine Wahrscheinlichkeit; das heisst (Ω, F, PA ) ist ein Wahrscheinlichkeitsraum. Satz 0.3.3 (Formel der totalen Wahrscheinlichkeit (FTW)). Sei (An )n≥1 eine Folge von Ereignissen aus F, die eine Partition von Ω bildet. Die Ereignisse S seien also paarweise disjunkt, und ∞ n=1 An = Ω. Dann gilt für alle B ∈ F: P[B] = ∞ X P[B|An ]P[An ] , n=1 wobei P[B|An ]P[An ] := 0 gesetzt wird, falls P[An ] = 0. Satz 0.3.4 (Bayes). Seien A, B ∈ F mit P[A] > 0 und P[B] > 0. Dann gilt: P[B|A] = P[A|B]P[B] . P[A] Die in Satz 0.3.3 vorausgesetzte Partition der Menge Ω wird häufig in Verbindung mit Zufallsvariablen definiert. Betrachte zunächst eine diskrete Zufallsvariable X. Sei (xn )n≥1 eine Aufzählung ihres Wertebereichs. Dann ist durch (An )n≥1 , wobei An := {X = xn } für alle n ∈ N, eine Partition von Ω definiert. Mit Satz 0.3.3 gilt demnach für alle Ereignisse B ∈ F: P[B] = ∞ X P[B|X = xn ]P[X = xn ] = n=1 ∞ X P[B|X = xn ]PX [xn ] . (0.3.1) n=1 Diese Formel lässt sich aber nur im diskreten Fall verwenden. Was aber haben wir, wenn die Verteilung X durch eine Dichte fX bestimmt ist? Hier haben wir offenbar P[X = x] = 0 für alle x ∈ R, und P[B|X = x] ist nirgends definiert. Bemerkung 0.3.5. Sei X : Ω → R eine beliebige Zufallsvariable. Wir betrachten ein fest gewähltes Ereignis B ∈ F. Es kann gezeigt werden, dass eine messbare Funktion gB : R → [0, 1] existiert, die für alle A ∈ B(R) die Gleichung Z gB dPX = P[B ∩ {X ∈ A}] (0.3.2) A erfüllt. Die Funktion gB ist dadurch ( PX -fast sicher) eindeutig bestimmt. 11 Wir definieren nun P[B|X = ·] := gB (·) . Setzen wir weiter in Gleichung (0.3.2) A := R ein, so erhalten wir Z P[B|X = x] dPX = P[B ∩ {X ∈ R}] = P[B ∩ Ω] = P[B] . R Ist die Verteilung PX über die Dichte fX gegeben ist, folgt nun mittels Transformation das stetige Analogon zu Gleichung (0.3.1): Z +∞ P[B|X = x]fX (x) dx . P[B] = (0.3.3) −∞ 0.4 Unabhängigkeit Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Unabhängigkeit von Ereignissen Definition 0.4.1. Zwei Ereignisse A und B aus F heissen genau dann unabhängig, wenn sie der Gleichung P[A ∩ B] = P[A]P[B] (0.4.1) genügen. Drei Spezialfälle sind bemerkenswert: 1. Die Ereignisse A und B seien disjunkt. In diesem Fall sind A und B genau dann unabhängig, wenn P[A] = 0 oder P[B] = 0 gilt. 2. Sei P[B] ∈ {0, 1}. Dann folgt aus der Definition, dass A und B stets unabhängig sind. Mit anderen Worten: Jedes Ereignis ist unabhängig von einem fast sicheren oder fast unmöglichen Ereignis. 3. Sei A ⊂ B. In diesem Fall sind A und B genau dann unabhängig, wenn P[A] = 0 oder P[B] = 1 gilt. Erweitern wir nun die Definition der Unabhängigkeit auf eine beliebige Anzahl von Ereignissen: 12 Definition 0.4.2. Sei N eine endliche oder abzählbar unendliche Indexmenge. Seien (An )n∈N Ereignisse aus F. Setze A0n := Acn , A1n := An für alle n ∈ N. Die Ereignisse (An )n∈N heissen unabhängig, wenn für jede endliche Teilmenge M ⊂ N gilt h\ i Y (0.4.2) P P[Aann ] für alle (an ) ∈ {0, 1}N . Aann = n∈M n∈M Wir bemerken zu dieser Definition: 1. Mittels vollständiger Induktion über |M | kann gezeigt werden, dass Gleichung (0.4.2) äquivalent ist zu h\ i Y P An = P[An ] für alle endliche M ⊂ N . (0.4.3) n∈M n∈M Diese äquivalente Formulierung ist für den expliziten Nachweis der Unabhängigkeit der Ereignisse (An )n∈N offenbar besser geeignet als die Gleichung (0.4.2). 2. Mit dem vorhergehenden Punkt folgt weiter, dass die Definition 0.4.1 mit der allgemeinen Definition 0.4.2 verträglich ist. 3. Seien die Ereignisse (An )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition 0.4.2 folgt sofort, dass auch die Teilfamilie (An )n∈N 0 unabhängig ist. Die Gleichungen (0.4.2), beziehungsweise (0.4.3) müssen für jede Teilmenge M ⊂ N verifiziert werden um Unabhängigkeit der Ereignisse (An )n∈N nachzuweisen. Es ist nicht hinreichend die Gleichungen lediglich für M := N zu überprüfen. Unabhängigkeit von Zufallsvariablen Zum Begriff der Unabhängigkeit der Zufallsvariablen gelangen wir über die Unabhängigkeit von Ereignissen. Definition 0.4.3. Sei N eine endliche oder abzählbar unendliche Indexmenge. Sei (Xn )n∈N eine Folge von Zufallsvektoren mit Xn : Ω → Rkn . Die Zufallsvektoren heissen unabhängig, wenn für alle Bn ∈ B(Rkn ) die Ereignisse {Xn ∈ Bn }, n ∈ N , unabhängig sind, das heisst wenn für jede endliche Teilmenge M ⊂ N und beliebige Ereignisse Bn ∈ B(Rkn ) gilt: h\ i Y P {Xn ∈ Bn } = P[Xn ∈ Bn ] . (0.4.4) n∈M n∈M 13 Einige Bemerkungen zu dieser Definition: 1. Es kann gezeigt werden, dass eine Folge von Ereignissen (An )n∈N genau dann unabhängig ist, wenn die entsprechenden Indikatorvariablen (I[An ])n∈N unabhängig sind. 2. Seien die Zufallsvektoren (Xn )n∈N unabhängig. Sei weiter N 0 ⊂ N eine Teilmenge der Indexmenge N . Aus Definition folgt, dass auch die Teilfamilie (Xn )n∈N 0 unabhängig ist. 3. Sei N eine endliche Indexmenge. Gilt (0.4.4) für alle M ⊂ N , so ist insbesondere auch h\ i Y P {Xn ∈ Bn } = P[Xn ∈ Bn ] (0.4.5) n∈N n∈N für beliebige Bn ∈ B(Rkn ). Ist (0.4.5) andererseits für alle Bn ∈ B(Rkn ) erfüllt, und M ⊂ N vorgegeben, so können wir Bn := Rkn für alle n ∈ N \M setzen, und erhalten wegen P[Xn ∈ Rkn ] = 1 die Gleichung (0.4.4) zurück. Im endlichen Fall genügt es daher für die Unabhängigkeit der Zufallsvariablen (Xn )n∈N die Gleichung (0.4.4) für M := N zu überprüfen. 4. Die Borelsche σ-Algebren B(Rkn ) wird erzeugt von kn -dimensionalen Intervallen der Form (a, b] := (a1 , b1 ] × · · · × (akn , bkn ] mit ai ∈ R ∪ {−∞}, bi ∈ R und ai < bi für alle 1 ≤ i ≤ kn . Aus des Masstheorie folgt, dass es für die Unabhängigkeit der (Xn )n∈N hinreichend ist, die Gleichung (0.4.4) nur für solche Intervalle nachzuprüfen, also h\ i Y P {Xn ∈ (a, b]} = P[Xn ∈ (a, b]] . (0.4.6) n∈M n∈M für alle kn -dimensionalen (a, b] zu verifizieren. Ist die Unabhängigkeit endlich vieler diskreter Zufallsvariablen nachzuweisen, ist das folgende Lemma hilfreich: Lemma 0.4.4. Sei (Xn )1≤n≤m eine Familie diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind. Die Zufallsvariablen Xn sind genau dann unabhängig, wenn für alle in ∈ N mit n ∈ N gilt: m h\m i Y P {Xn = xnin } = P[Xn = xnin ] . (0.4.7) n=1 n=1 14 Korollar 0.4.5. Sei (Xn )1≤n≤m eine Familie unabhängiger diskreter Zufallsvariablen auf Ω, wobei Xn (Ω) = {xn1 , xn2 , . . .} Aufzählungen ihrer Wertebereiche sind. Dann gilt, falls P[X1 = x1,i1 , . . . , Xn−1 = xn−1,i(n−1) ] > 0 erfüllt ist: P[Xn = xnin | X1 = x1i1 , . . . , Xn−1 = xn−1,i(n−1) ] = P[Xn = xnin ] . Eine 0.4.4 entsprechende Aussage für unabhängige Zufallsvariablen mit Dichten kann mit Hilfe der Masstheorie ebenfalls bewiesen werden. Bemerkung 0.4.6. Seien Xi : Ω → R Zufallsvariablen für alle 1 ≤ i ≤ n. Sei weiter der Zufallsvektor X := (X1 , . . . , Xn ) : Ω → Rn gegeben. Dann gilt: 1. Sind die Xi unabhängig und haben die Dichten fXi , so hat X eine Wahrscheinlichkeitsdichte fX , gegeben durch fX (x1 , . . . , xn ) := fX1 (x1 ) · · · fXn (xn ) . 2. Hat der Zufallsvektor X eine Dichte der Form fX := fX1 · · · fXn , so sind die Xi unabhängig und besitzen die Dichten fXi . Die nächsten zwei Sätze können in Kombination verwendet werden, um die Unabhängigkeit von Zufallsvariablen auf die Unabhängigkeit anderer Zufallsvariablen zurückzuführen. Satz 0.4.7. Seien Xn , 1 ≤ n ≤ m, unabhängige Zufallsvariablen. Gegeben seien weiter die Zufallsvektoren Yij := (Xij +1 , Xij +2 , . . . , Xij+1 ) : Ω → Rij+1 −ij , wobei 1 ≤ j < q für ein festes q ≤ m, und 0 =: i1 < i2 < · · · < iq := m. Dann sind die Zufallsvektoren (Yij )1≤j<q unabhängig. Satz 0.4.8. Seien Xn : Ω → Rkn , 1 ≤ n ≤ m, unabhängige Zufallsvektoren. Seien weiter messbare Abbildungen ϕn : Rkn → Rln für 1 ≤ n ≤ m gegeben. Dann sind die Zufallsvektoren ϕn (Xn ) : Ω → Rln unabhängig. Dieses nützliche Korollar, das im nächsten Abschnitt noch häufig angewendet werden wird, folgt direkt aus den zwei vorhergehenden Sätzen: Korollar 0.4.9. Seien Xn , 1 ≤ n ≤ m + 1, unabhängige Zufallsvariablen. Dann P sind die Zufallsvariablen Sm := m n=1 Xn und Xm+1 unabhängig. 15 Summen unabhängiger Zufallsvariablen Es soll nun die Frage nach der Verteilung der Summe unabhängiger Zufallsvariablen untersucht werden. Obwohl diese Frage für beliebige endliche Familien unabhängiger Rk -wertiger Zufallsvariablen mittels der Faltung ihrer Verteilungen beantwortet werden kann, werden wir uns hier auf den Fall der diskreten Zufallsvariablen und den Fall der R-wertigen Zufallsvariablen, deren Verteilungen durch Dichten gegeben sind, beschränken. Satz 0.4.10 (Faltungsformel im diskreten Fall). Seien X, Y : Ω → Rk unabhängige diskrete Zufallsvektoren. Sei (xi )i≥1 eine Aufzählung des Wertebereichs von X. Dann gilt für z ∈ Rk P[X + Y = z] = ∞ X P[X = xi ]P[Y = z − xi ] . i=1 Satz 0.4.11 (Faltungsformel im stetigen Fall). Seien X, Y unabhängige Zufallsvariablen mit Dichten fX , resp. fY . Dann hat die Zufallsvariable X + Y eine Dichte fX+Y , gegeben durch Z +∞ fX+Y (z) = fX (x)fY (z − x) dx −∞ für z ∈ R. 0.5 Der Erwartungswert Im folgenden sei unseren Betrachtungen stets ein Wahrscheinlichkeitsraum (Ω, F, P) zugrundegelegt. Definition 0.5.1. Sei X : Ω → R+ eine nicht-negative Zufallsvariable. Der Erwartungwert von X wird definiert als Z E(X) := X dP ∈ R+ ∪ {∞} . (0.5.1) Ω Ist X eine nicht-negative diskrete Zufallsvariable, so erhalten wir gerade X E(X) = X(ω) P[{ω}] . (0.5.2) ω∈Ω Aus (0.5.1) folgt mittels des Transformationssatzes für Masse Z E(X) = x dPX , [0,∞) 16 (0.5.3) beziehungsweise im diskreten Fall aus (0.5.2) E(X) = ∞ X xi P[X = xi ] , (0.5.4) i=1 wobei (xi )i≥1 eine Abzählung des Wertebereichs von X ist. Ist die Verteilung PX von X durch eine Dichte fX bestimmt, so folgt aus (0.5.3) mit dem Transformationssatz für Masse mit Dichten weiter Z ∞ xfX (x) dx . (0.5.5) E(X) = 0 Lemma 0.5.2. Der Erwartungswert von X ≥ 0 kann auch in der Form Z ∞ Z ∞ E(X) = P[X > x] dx = (1 − FX (x)) dx 0 0 geschrieben werden. Hierbei bezeichnet FX die Verteilungsfunktion von X. Für ganzzahlwertiges X gilt also X X E(X) = P[X > j] = P[X ≥ j]. j≥0 j≥1 Also gelten im Allgemeinen die folgenden Abschätzungen: X X P[X ≥ n] ≤ E(X) ≤ 1 + P[X ≥ n] n≥1 (0.5.6) n≥1 Bisher wurden lediglich nicht-negative Zufallsvariablen und deren Erwartungswerte betrachtet. Die Definition des Erwartungswerts für eine beliebige reellwertige Zufallsvariablen wird zurückgeführt auf die Definition für nicht-negative Zufallsvariablen. Man definiert für eine Zufallsvariable X X + := max(X, 0) und X − := min(X, 0) . Sowohl X + als auch X − sind Zufallsvariablen. Offenbar ist X + ≥ 0, X − ≤ 0, X = X + + X − und |X| = X + − X − . Definition 0.5.3. Sei X eine reelle Zufallsvariable. Wir sagen der Erwartungswert von X existiert, wenn E(X + ) < ∞ oder E(−X − ) < ∞ gilt. In einem solchen Fall wird der Erwartungswert von X definiert durch E(X) := E(X + ) − E(−X − ) ∈ R ∪ {±∞} . 17 Die Existenz des Erwartungswerts gemäss Definition 0.5.3 besagt, dass dieser als Wert in R ∪ {±∞} gegeben ist. Eine hinreichende Bedingung für die Existenz des Erwartungswerts von X ist E(|X|) < ∞ . Denn es gilt 0 ≤ X + ≤ |X| und 0 ≤ −X − ≤ |X| und somit folgt mit Definition 0.5.1 wegen der Monotonie des Integrals E(X + ) ≤ E(|X|) < ∞ und E(−X − ) ≤ E(|X|) < ∞ . Die Bedingung ist also äquivalent zur Intergrierbarkeit von X. Es gilt dann Z E(X) = X dP . Ω Der Erwartungswert ist hier als Zahl in R gegeben. Mittels Transformationen erhalten wir die (0.5.2) bis (0.5.5) entsprechenden Gleichungen im allgemeinen Fall. Also beispielsweise Z +∞ E(X) = xfX (x) dx , (0.5.7) −∞ wenn die Verteilung von X durch eine Dichte fX festgelegt ist. Wir werden im folgenden, wenn nicht anders erwähnt, stets E(|X|) < ∞ als Bedingung voraussetzen. Bemerkung 0.5.4. Ist eine Zufallsvariable X : Ω → R und eine messbare Funktion ϕ : R → R gegeben, so folgt aus dem Transformationssatz, dass der Erwartungswert von ϕ(X) genau dann existiert, wenn die Funktion ϕ PX -integrierbar ist, und dass in diesem Fall gilt Z Z E(ϕ(X)) = ϕ(X) dP = ϕ dPX . (0.5.8) Ω R Im diskreten Fall haben wir so gerade E(ϕ(X)) = ∞ X ϕ(xi )P[X = xi ] . i=1 Ist die Verteilung von X durch eine Dichte fX gegeben, so erhält man aus (0.5.8) durch eine weitere Transformation Z +∞ E(ϕ(X)) = ϕ(x)fX (x) dx . (0.5.9) −∞ 18 Satz 0.5.5 (Eigenschaften des Erwartungswerts). Seien X und Y Zufallsvariablen mit E(|X|) < ∞, beziehungsweise E(|Y |) < ∞. Sei weiter c ∈ R eine Konstante. Dann gilt: i) Ist X ≥ 0 P-fast sicher, so gilt E(X) ≥ 0. ii) E(cX) = c E(X), insb. E(c) = c. iii) E(X + Y ) = E(X) + E(Y ). iv) Ist X ≥ Y P-fast sicher, so folgt E(X) ≥ E(Y ). v) |E(X)| ≤ E(|X|). vi) Sind X und Y unabhängig, so gilt E(|XY |) < ∞ und weiter E(XY ) = E(X)E(Y ). Beweis: Die Aussagen i) bis iii) folgen aus der Definition des Erwartungswerts als Integral bezüglich des Wahrscheinlichkeitsmasses P. Sie gelten ebenfalls für allgemeine nichtnegative Zufallsvariablen X, Y . Die Aussage iv) kann auf i) zurückgeführt werden: Es gilt X − Y ≥ 0 P-fast sicher, und daher E(X − Y ) ≥ 0. Danach schliesst man mit iii). Die Aussage v) folgt aus iv). Die Aussage vi) folgt wegen des Fubini-Tonelli-Satzes, da die gemeinsame Verteilung von (X, Y ) eine Produktverteilung ist. 2 Satz 0.5.6. 1. Seien (Xi , i ≥ 1) nichtnegative Zufallsvariablen. Dann gilt ( ) X X E Xi = E(Xi ) ≤ ∞. i≥1 i≥1 2. Seien (Xi , i ≥ 1) Zufallsvariablen sodass E ( X P i≥1 E|Xi | < ∞. Dann gilt ) Xi i≥1 = X E(Xi ), i≥1 und die Summe ist endlich. Beweis: Masstheorie: Die erste Aussage folgt aus dem Satz der monotonen Konvergenz, die zweite aus dem Lebesgue-Satz. 2 19 Satz 0.5.7 (Jensen-Ungleichung). Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞. Sei f : R → R eine konvexe Funktion. Dann ist f (X) eine Zufallsvariable. Existiert der Erwartungswert von f (X), so gilt f (E(X)) ≤ E(f (X)) . Beweis: Es gilt für alle x, a ∈ R f (x) ≥ f (a) + (x − a)f+0 (a) , wobei f+0 (a) die rechtsseitige Ableitung von f in a bezeichnet. Ersetzt man x durch X und bildet den Erwartungswert, so folgt die Behauptung mit a := E(X). 2 Einen wichtigen Spezialfall der Jensenschen Ungleichung erhält man für f (x) := x2 : E(X 2 ) = E(|X|2 ) ≥ (E|X|)2 . Existiert also der Erwartungswert von X 2 als endlicher Wert, so gilt dasselbe für den Erwartungswert von X. Mit Hilfe der Jensen-Ungleichung kann gezeigt werden, dass E(|X|p ) ≥ (E|X|)p für eine Zufallsvariable X und p ≥ 1, sodass die Funktion g : [1, ∞) → [0, ∞], definiert durch g(r) := (E|X|r )1/r , monoton wachsend ist. Sind insbesondere m, n ∈ N mit m < n, so folgt aus E(|X|n ) < ∞ auch E(|X|m ) < ∞. Satz 0.5.8 (Cauchy-Schwarz-Ungleichung). Seien X und Y Zufallsvariablen auf Ω mit E(X 2 ) < ∞ und E(Y 2 ) < ∞. Dann gilt E(|XY |) < ∞ und weiter {E(XY )}2 ≤ E(X 2 )E(Y 2 ) . Beweis: Im wesentlichen wie folgt: für jedes a ∈ IR gilt E(X 2 ) − 2a E(XY ) + a2 E(Y 2 ) = E(X 2 − 2aXY + a2 Y 2 ) = E((X − aY )2 ) ≥ 0 ; dann setzt man a := E(XY ) . E(Y 2 ) (0.5.10) 2 Bemerkung 0.5.9. In der Cauchy-Schwarz-Ungleichung gilt genau dann Gleichheit, wenn X und Y P-fast sicher linear abhängig sind, nämlich X = aY für ein a ∈ IR. 20 Varianz, Kovarianz und Korrelation Definition 0.5.10. Sei X eine Zufallsvariable mit existierendem Erwartungswert. Dann heisst Var (X) := E{(X − E(X))2 } ∈ [0, ∞] die Varianz von X. Weiter nennt man SA(X) := p Var (X) die Standardabweichung von X. Die Varianz von X ist genau dann endlich, wenn E(X 2 ) < ∞. Satz 0.5.11 (Eigenschaften der Varianz und Standardabweichung). Sei X eine Zufallsvariable mit E(X 2 ) < ∞ und c ∈ R eine Konstante. Dann gilt: i) Var (X) = E(X 2 ) − E(X)2 ; iii) Var (X + c) = Var (X); v) SA(cX) = c SA(X); ii) SA(X) ≥ E(|X − E(X)|); iv) Var (cX) = c2 Var (X); vi) Var (X) ≤ E((X − c)2 ). Beweis: Die Aussagen ergeben sich aus den Eigenschaften des Erwartungswerts, insbesondere aus Satz 0.5.5. 2 Definition 0.5.12. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp. E(Y 2 ) < ∞. Die Kovarianz von X und Y wird durch Kov(X, Y ) := E((X − E(X))(Y − E(Y ))) gegeben. Gilt Kov(X, Y ) = 0, so heissen die beiden Zufallsvariablen unkorreliert. Satz 0.5.13 (Eigenschaften der Kovarianz). Seien X, Y und Xi , 1 ≤ i ≤ n, Zufallsvariablen deren Quadrate endiche Erwartungswerte haben. Seien c, d ∈ R Konstanten. Dann gilt: i) Kov(X, X) = Var (X) ii) Kov(X, Y ) = E(XY ) − E(X)E(Y ) iii) Die Kovarianz ist wie folgt skalenabhängig: Kov(cX, dY ) = cd Kov(X, Y ) P P P iv) Var ( ni=1 Xi ) = ni=1 Var (Xi ) + 2 j<k Kov(Xj , Xk ) v) Sind X und Y unabhängig, so auch Kov(X, Y ) = 0. 21 Definition 0.5.14. Seien X und Y zwei Zufallsvariablen mit E(X 2 ) < ∞, resp. E(Y 2 ) < ∞ und Var (X) > 0, Var (Y ) > 0. Dann heisst die Zahl Korr(X, Y ) := Kov(X, Y ) SA(X) SA(Y ) die Korrelationvon X und Y . Satz 0.5.15 (Eigenschaften der Korrelation). i) Die Korrelation ist skalenunabhängig: Korr(cX, dY ) = Korr(X, Y ). ii) | Korr(X, Y )| ≤ 1. iii) Die Korrelation kann als Mass für die lineare Abhängigkeit zweier Zufallsvariablen verstanden werden: Korr(X, Y ) = 1 gilt genau dann, wenn es ein a > 0 und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt; Korr(X, Y ) = −1 genau dann, wenn es ein a < 0 und ein b ∈ R gibt, so dass P-fast sicher Y = aX + b gilt. Wir sehen aus Aussage ii) von Satz 0.5.13, dass die Zufallsvariablen X und Y genau dann unkorreliert sind, wenn E(XY ) = E(X)E(Y ) gilt. Nach Satz 0.5.5 sind also unabhängige Zufallsvariablen auch unkorreliert, sofern die Korrelation definiert werden kann. Die Umkehrung gilt nicht. Satz 0.5.16 (Bienaymé). Seien Xi , 1 ≤ i ≤ n, Zufallsvariablen, deren Quadrate endliche Erwartungswerte haben. Sind die Zufallvariablen paarweise unkorreliert, so gilt n X n X Var Xi = Var (Xi ) . i=1 0.6 i=1 Die Bienaymé-Chebyshev-Ungleichung und Anwendungen Satz 0.6.1 (Markov-Ungleichung). Sei X : Ω → R+ eine nicht-negative Zufallsvariable mit existierendem Erwartungswert und c > 0 eine Konstante. Dann gilt die Ungleichung P[X ≥ c] ≤ E(X) . c Satz 0.6.2 (Bienaymé-Chebyshev-Ungleichung). Sei Y : Ω → R eine Zufallsvariable mit E(Y 2 ) < ∞ und d > 0 eine Konstante. Dann gilt die Ungleichung P[|Y − E(Y )| ≥ d] ≤ 22 Var (Y ) . d2 Bemerkung 0.6.3. Setzen wir im vorhergehenden Satz d := k SA(Y ) für ein k ∈ N, so erhalten wir die praktische Abschätzung P[|Y − E(Y )| ≥ k SA(Y )] ≤ Var (Y ) 1 = 2 . 2 SA(Y ) k k2 Offenbar erhält man erst für k ≥ 2 nützliche Information. Schwache Konsistenz des Stichprobenmittelwerts und der Stichprobenvarianz Definition 0.6.4. Sei (Xi )i≥1 eine Folge von reellwertigen Zufallsvariablen auf Ω. Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xi )i≥1 konvergiere in Wahrscheinlichkeit gegen X, Xn →p X, wenn für alle ε > 0 gilt: lim P[|Xn − X| ≥ ε] = 0 . n→∞ Lemma 0.6.5. Falls Xn →p X und Yn → Y folgt auch Xn + Yn →p X + Y und Xn Yn → XY . Satz 0.6.6. Sei (Xi )i≥1 eine Folge paarweise unkorrelierter, reeller Zufallsvariablen mit beschränkten Varianzen Var (Xi ) ≤ A, für ein A > 0. Dann gilt für alle ε > 0: h i −1 Xn lim P n (Xi − E(Xi )) ≥ ε = 0 . i=1 n→∞ Beweis: Die Bienaymé-Chebyshev-Ungleichung. 2 Definition 0.6.7. Seien Xi : Ω → R, 1 ≤ i ≤ n, unabhängige, identisch verteilte Zufallsvariablen. Eine Realisierung (x1 , . . . , xn ) := (X1 (ω), . . . , Xn (ω)) ∈ Rn heisst eine Stichprobe vom Umfang n. Die Zahl n µ̂ := x̄(n) := 1X xi n i=1 wird der Stichprobenmittelwert genannt. Der Wert n σ̂ 2 := 2 1X xi − x̄(n) n i=1 P heisst Stichprobenvarianz. Die entsprechenden Zufallsvariablen X̄ (n) := n−1 ni=1 Xi P und n−1 ni=1 (Xi − X̄ (n) )2 werden ebenfalls als Stichprobenmittelwert, beziehungsweise Stichprobenvarianz bezeichnet. 23 Definition 0.6.8. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen. P Sei E(|X1 |) < ∞. Der Stichprobenmittelwert n−1 ni=1 Xi heisst schwach konsiP stent für den Erwartungswert E(X1 ), wenn n−1 ni=1 Xi mit n → ∞ in Wahrscheinlichkeit gegen E(X1 ) konvergiert. Sei nun sogar E(X12 ) < ∞. Entsprechend nennt Pn man die Stichprobenvarianz (n) 2 −1 ) mit n → ∞ schwach konsistent für die Varianz, wenn n i=1 (Xi − X̄ in Wahrscheinlichkeit gegen Var (X1 ) konvergiert. Der folgende Satz gibt eine hinreichende Bedingung an die schwache Konsistenz des Stichprobenmittelwertes. Der Satz wird manchmal auch Schwaches Gesetz der grossen Zahlen genannt. Das entsprechende Starke Gesetz der grossen Zahlen ist Thema von Kapitel 1. Satz 0.6.9. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit endlicher Varianz Var (X1 ). Dann gilt für alle ε > 0 lim P X̄ (n) − E(X1 ) ≥ ε = 0 . n→∞ Der Stichprobenmittelwert ist also schwach konsistent für den Erwartungswert, falls die Varianz endlich ist. Beweis: Der Satz ist eine direkte Folgerung aus Satz 0.6.6, wenn A := Var (X1 ) gesetzt wird. 2 Korollar 0.6.10. Sei (Ai )i≥1 eine Folge unabhängiger Ereignisse mit P[Ai ] = p für alle i ≥ 1. Dann gilt für alle ε > 0 h i Xn lim P n−1 I[Ai ] − p ≥ ε = 0 . i=1 n→∞ Satz 0.6.11. Sei (Xi )i≥1 eine Folge unabhängiger, identisch verteilter, reeller Zufallsvariablen mit E(X14 ) < ∞. Dann gilt für alle ε > 0 h i −1 Xn (n) 2 lim P n Xi − X̄ − Var (X1 ) ≥ ε = 0 . n→∞ i=1 Unter der Voraussetzung E(X14 ) < ∞ ist die Stichprobenvarianz also schwach konsistent für die Varianz. 0.7 Bedingter Erwartungswert In diesem Abschnitt werden wir den bedingten Erwartungswert einer Zufallvariablen X über einem Wahrscheinlichkeitsraum (Ω, F, P) einführen. Dabei werden drei Fälle des bedingten Erwartungswerts betrachten: 24 1. den bedingten Erwartungswert von X bei gegebenem Ereignis B aus F, 2. den bedingten Erwartungswert von X bei einer gegebener diskreter Zufallsvariable Y , 3. und den bedingten Erwartungswert von X bei beliebiger vorgegebener Zufallsvariable Y . Dies sind drei Spezialfälle des allgemeinen Begriffs des bedingten Erwartungswerts einer Zufallsvariablen bei gegebener Unter-σ-Algebra von F. In dieser Allgemeinheit wird der Begriff hier jedoch nicht benötigt. Definition 0.7.1. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Sei B ∈ F ein Ereignis mit P[B] > 0. Dann heisst E(X|B) := E(X I[B]) P[B] der bedingte Erwartungswert von X bei gegebenem Ereignis B. Der bedingte Erwartungswert von X gegeben B ∈ F ist genau der Erwartungswert von X bezüglich der in Satz 0.3.2 betrachteten bedingten Wahrscheinlichkeit PB [·] := P[·|B]: Z Z 1 X dPB . X dP = E(X|B) = P[B] B Ω Wird umgekehrt X := I[A] für ein Ereignis A ∈ F gesetzt, so erhält man aus obiger Definition 0.7.1 gerade die Definition 0.3.1 der bedingten Wahrscheinlichkeit. Entsprechend wir auch die Formel der totalen Wahrscheinlichkeit, Satz 0.3.3, verallgemeinert: Satz 0.7.2 (Formel des totalen Erwartungswerts (FTE)). Sei (Bi )i≥1 eine Folge von Ereignissen aus F, die eine Partition von Ω bildet. Sei X eine Zufallsvariable auf Ω mit E(|X|) < ∞. Dann gilt: E(X) = ∞ X E(X|Bi )P[Bi ] , i=1 wobei E(X|Bi )P[Bi ] := 0 gesetzt wird, falls P[Bi ] = 0. P Beweis: Wegen X = i≥1 XI[Bi ], Satz 0.5.6 und Definition 0.7.1. 2 Wir definieren nun den Erwartungswert der Zufallsvariablen X, bedingt durch eine gegebene Zufallsvariable Y : Ω → Rn . 25 Dazu betrachten wir zunächst den Fall, dass Y diskret ist. Sei Y (Ω) der Wertebereich von Y , in dem Sinne, dass P[Y = y] > 0 für jedes y ∈ Y (Ω) gelte. Der bedingte Erwartungswert E(X|Y = y) von X bei gegebenem Ereignis {Y = y} ∈ F ist gemäss Definition 0.7.1 bestimmt. Durch E(X|Y = ·)(y) := E(X|Y = y) := E(XI[Y = y]) , P[Y = y] für alle y ∈ Y (Ω), wird daher eine eindeutig bestimmte messbare Abbildung E(X|Y = ·) : Y (Ω) → R definiert. Weiter ist durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) , für ω ∈ Ω, eine Abbildung auf Ω gegeben. Diese ist als Komposition zweier messbarer Abbildungen messbar. Fassen wir diese Konstruktion in einer Definition zusammen: Definition 0.7.3. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y : Ω → Rn eine diskrete Zufallsvariable. Der bedingte Erwartungswert von X bei gegebener Zufallsvariablen Y ist die eindeutig bestimmte Zufallsvariable E(X|Y ) : Ω → R , definiert durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) . Ist Y (Ω) = {y1 , y2 , . . .} eine Aufzählung des Wertebereichs von Y , so erhalten wir aus Satz 0.7.2 die Formel des totalen Erwartungswerts sofort in der speziellen Form ∞ X E(X) = E(X|Y = yi )P[Y = yi ] . (0.7.1) i=1 Formt man die rechte Seite von (0.7.1) noch weiter um, erhält man X E(X) = (E(X|Y = ·) ◦ Y ) (ω)P[{ω}] ω∈Ω = X E(X|Y )(ω)P[{ω}] ω∈Ω = E(E(X|Y )) . Wir betrachten jetz den Fall, dass Y : Ω → Rn eine beliebige Zufallsvariable ist. Hier können wir den Begriff des bedingten Erwartungswerts nicht mehr wie im diskreten Fall auf Definition 0.7.1 zurückführen, da, wenn beispielsweise die Verteilung von Y durch eine Dichte gegeben ist, P[Y = y] = 0 für jedes y ∈ Y (Ω) gelten kann. 26 Bemerkung 0.7.4. Sei Y : Ω → Rn eine Zufallsvariable. Es kann bewiesen werden, dass eine messbare, PY -integrierbare Funktion g : Rn → R mit Z Z g dPY = X dP (0.7.2) B Y −1 (B) für alle B ∈ B(Rn ) existiert. Die Funktion g ist durch diese Bedingung PY -fast sicher eindeutig bestimmt. In Analogie zum diskreten Fall setzen wir, für ein beliebiges g, das Bemerkung (0.7.4) erfüllt, E(X|Y = ·)(y) := E(X|Y = y) := g(y) für alle y ∈ Y (Ω), und E(X|Y )(ω) := (E(X|Y = ·) ◦ Y )(ω) (0.7.3) für alle ω ∈ Ω. Auf diese Weise wird eine P-fast sicher eindeutige Zufallsvariable E(X|Y ) : Ω → R bestimmt. Man definiert jetzt: Definition 0.7.5. Sei X : Ω → R eine Zufallsvariable mit E(|X|) < ∞ und Y : Ω → Rn beliebige Zufallsvariable. Der bedingte Erwartungswert von X bei gegebener Zufallsvariablen Y ist die P-fast sicher eindeutig bestimmte Zufallsvariable E(X|Y ) : Ω → R , definiert durch E(X|Y )(ω) := (E(X|Y = ·) ◦ Y ) (ω) . Die linke Seite der Gleichung (0.7.2), die g und damit E(X|Y ) fast sicher eindeutig bestimmt, kann nun mit Hilfe des Transformationssatzes der Masstheorie umformuliert werden: Z Z Z g dPY = g ◦ Y dP = E(X|Y ) dP = E(E(X|Y )I[Y ∈ B]) , B Y −1 (B) Y −1 (B) und Gleichung (0.7.2) kann daher in einer äquivalenten Form geschrieben werden als E(E(X|Y )I[Y ∈ B]) = E(XI[Y ∈ B]) . (0.7.4) Mit B := Rn folgt dann sofort E(E(X|Y )) = E(X) . 27 (0.7.5) Ist Y : Ω → R durch eine Dichte fY definiert, so erhält man ein stetiges Analogon zu (0.7.1), denn (0.7.2) lässt sich mit B := R transformieren zu Z +∞ Z E(X|Y = y)fY (y) dy = −∞ Z g dPY = R X dP = E(X) . Ω Ist Z : Ω → Rm eine weitere Zufallsvariable, so definieren wir den bedingten Erwartungswert von X gegeben Y und Z durch E(X|Y, Z) := E(X|(Y, Z)) . wobei (Y, Z) : Ω → Rm+n . Es gilt hier P-fast sicher E(X|(Y, Z)) = E(X|(Z, Y )) . (0.7.6) Genauso lässt sich der bedingte Erwartungswert von X gegeben Zufallsvariablen Y1 , . . . , Yk durch E(X|Y1 , . . . , Yk ) := E(X|(Y1 , . . . , Yk )) definieren. Da die bedingten Erwartungswerte nur P-fast sicher eindeutig bestimmt sind, gelten Gleichungen, wie sie im nächsten Satz auftauchen ebenfalls nur P-fast sicher. Dies wird im folgenden jedoch nicht mehr immer explizit erwähnt. Satz 0.7.6 (Eigenschaften des bedingten Erwartungswerts). Seien X : Ω → R und Y : Ω → Rn Zufallsgrössen, wobei E(|X|) < ∞. i) Gibt es eine messbare Funktion f : Rn → R mit X = f (Y ), so gilt E(X|Y ) = X. Insbesondere ist E(X|X) = X. ii) Sind X und Y unabhängig, so ist E(X|Y ) = E(X). iii) Ist h : Rn → R eine messbare, beschränkte Funktion, so gilt E(h(Y )E(X|Y )) = E(h(Y )X). iv) Ist h : Rn → R eine messbare Funktion und gilt E(|h(Y )X|) < ∞, so ist E(h(Y )X|Y ) = h(Y )E(X|Y ). v) Ist Z : Ω → Rm ein weiterer Zufallsvektor, so haben wir E(X|Y ) = E(E(X|Y, Z)|Y ). vi) Ist c ∈ R konstant und W : Ω → R eine Zufallsvariable mit E(|W |) < ∞, so folgt E(X + cW |Y ) = E(X|Y ) + c E(W |Y ). 28 Beweis: (i) folgt aus (0.7.2) mit g(y) = f (y). Für (ii) nimmt man g(y) = EX für alle y in (0.7.2), und merkt, dass die rechte Seite als E{X I[Y ∈ B]} geschrieben werden kann, wobei die Unabhängigkeit jetzt den Beweis abschliesst. Zu mit h beschränkt, approximiert man h durch einfache Funktionen hn (·) := Pm(iii), n i=1 hni I[· ∈ Bni ], sodass supy |hn (y)−h(y)| ≤ 1/n. Die Definition (0.7.2) bringt also mn X E{Xhn (Y )} = hni E{g(Y )I[Y ∈ Bni ]} = E{g(Y )hn (Y )}; i=1 danach lässt man n → ∞ streben (und E|X| < ∞ einbeziehen). Zu (iv) hat man, für h beschränkt, E{E(Xh(Y ) | Y ) I[Y ∈ B]} = E{Xh(Y )I[Y ∈ B]} = E{E(X | Y )h(Y )I[Y ∈ B]}, wobie die erste Gleichung aus der Definition (0.7.2) und die zweite aus Teil (iii) folgen. Für allgemeines h approximiert man durch einfache Funktionen wieder, nur jetzt mit unendlichen Summen überall: X Bni := h−1 ([(i − 1)/n, i/n)), hn+ (y) = (i/n) I[y ∈ Bni ], i usw. Da E|Xh(Y )| < ∞ gilt, hat man mit Hilfe vom Satz 0.5.6 E{Xhn+ (Y )} = · · · = E{g(Y )hn+ (Y )}. Dann hat man |E{Xh(Y )} − E{Xhn+ (Y )}| ≤ n−1 E|X|; |E{g(Y )h(Y )} − E{g(Y )hn+ (Y )}| ≤ n−1 E|g(Y )|. Jetzt haben wir g(Y ) = E(X | Y ), und die Jensen–Ungleichung kann ebenfalls für bedingte Erwartungen bewiesen werden, sodass |g(Y )| = |E(X | Y )| ≤ E(|X| | Y ) gilt: also gilt E|g(Y )| ≤ E|X| ebenfalls. Zu (v): da I[Y ∈ B] = I[(Y, Z) ∈ B × IR] folgt n o E E E(X | Y, Z) Y I[Y ∈ B] = E{E(X | Y, Z) I[Y ∈ B]} = E{XI[(Y, Z) ∈ B × IR]} = E{XI[Y ∈ B]} = E{E(X | Y )I[Y ∈ B]}. Daraus folgt (aus der Definition des bedingten Erwartungs der Eindeutigkeit werts), dass E E(X | Y, Z) Y = E(X | Y ), wie erwünscht. Teil (vi) folgt einfach aus der Definition (0.7.2). 2 29 Martingale und die Ungleichung von Lévy-Kolmogorov Definition 0.7.7. Sei (Xi )i≥0 eine Folge reell-wertiger Zufallsvariablen auf Ω mit E(|Xi |) < ∞ für alle i ≥ 0. Die Folge (Xi )i≥0 heisst ein Martingal, wenn für jedes i ≥ 0 gilt: E(Xi+1 |X0 , X1 , . . . , Xi ) = Xi . Sei (Yj )j≥0 eine Folge beliebiger Zufallsvariablen. Die Folge (Xi )i≥0 heisst ein Martingal bezüglich (Yj )j≥0 falls Xi ∈ σ(Y0 , . . . , Yi ) für alle i, und wenn E(Xi+1 |Y0 , Y1 , Y2 , . . . , Yi ) = Xi für alle i ≥ 0 gilt. Seien dieselben Voraussetzungen wie in Definition 0.7.7 gegeben. Dann gilt für jedes i ≥ 0 und alle j ≤ i die Gleichung E(Xj |X0 , X1 , . . . , Xi ) = Xj , denn die Projektion hj : Ri+1 → R auf die j-te Koordinate von Ri+1 ist messbar und es gilt Xj = hj (X0 , X1 , . . . , Xi ). Die Behauptung ergibt sich jetzt mit Satz 0.7.6 i). Die Folge (Xi )i≥0 ist wegen der Linearität des bedingten Erwartungswerts also genau dann ein Martingal, wenn E(Xi+1 − Xi |X0 , X1 , . . . , Xi ) = 0 gilt. Lemma 0.7.8. Ist (Xi )i≥0 ein Martingal, so gilt P-fast sicher E(Xi+k |X0 , X1 , . . . , Xi ) = Xi für alle i ≥ 0 und k ≥ 1. Beweis: Vollständige Induktion bez. k unter Verwendung von Satz 0.7.6 v), wobei k = 1 die Definition eines Martingals ist. 2 Beispiel 0.7.9. Sei (Xi )i≥0 eine Folge unabhängiger Zufallsvariablen auf Ω mit E(Xi ) = 0 für alle i ≥ 0. Dann ist die Summenfolge (Sn )n≥0 ein Martingal, denn wir haben wegen Satz 0.7.6 vi), i) und ii) E(Sn+1 |S0 , . . . , Sn ) = E(Sn |S0 , . . . , Sn ) + E(Xn+1 |S0 , . . . , Sn ) = Sn + E(Xn+1 ) = Sn . 30 Die Folge (Sn )n≥0 ist auch ein Martingal in Bezug auf (Xi )i≥0 , denn mit denselben Argumenten wie bei der oberen Rechnung folgt E(Sn+1 |X0 , . . . , Xn ) = E(Sn |X0 , . . . , Xn ) + E(Xn+1 |X0 , . . . , Xn ) = Sn + E(Xn+1 ) = Sn . Zufallsvariablen Xi : Ω → {−1, 1} mit P[X = 1] = P[X = −1] = 1/2 oder Zufallsvariablen Xi ∼ N (0, σ 2 ) erfüllen die gewünschten Bedingungen besipielsweise. Satz 0.7.10 (Ungleichung von Lévy-Kolmogorov). Sei (Xi )i≥0 ein Martingal, mit Var (Xi ) < ∞ für alle i ≥ 0. Sei weiter P[X0 = 0] = 1. Sei a > 0 fest gegeben. Dann gilt für alle n ∈ N: P [max1≤i≤n |Xi | ≥ a] ≤ Var (Xn ) . a2 Beweis: Wir setzen Aj := {ω ∈ Ω | |Xi (ω)| < a für 0 ≤ i < j und |Xj (ω)| ≥ a}, sodass I [max1≤i≤n |Xi | ≥ a] = n X I[Aj ]. j=1 Dann merken wir, dass E(Xn2 I[Aj ]) = E((Xj + (Xn − Xj ))2 I[Aj ]) = E(Xj2 I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) + E((Xn − Xj )2 I[Aj ]) ≥ a2 E(I[Aj ]) + 2 E(Xj I[Aj ](Xn − Xj )) = a2 P[Aj ] + 2E(Xj I[Aj ](Xn − Xj )) . Da E(Xj I[Aj ](Xn − Xj )) = 0 (0.7.7) wegen der Martingaleigenschaft, folgt EXn2 ≥ n X E(Xn2 I[Aj ]) ≥ a2 P [max1≤i≤n |Xi | ≥ a] , j=1 2 wie gewünscht. Bemerkung 0.7.11. Aus der Lévy-Kolmogorov-Ungleichung erhält man auch die Bienaymé-Chebyshev-Ungleichung. 31 Bemerkung 0.7.12. Ganz ähnlich hat man 2 E(Xn+i ) = E{(Xn+i − Xn )2 } + E(Xn2 ). Also existiert σ 2 := limn→∞ E(Xn2 ) ≤ ∞. Dann, für BnI (a) := {max1≤i≤I |Xn+i − Xn | ≥ a}, folgt vom Satz 0.7.10 und mit dem Martingal (Xn+i − Xn , i ≥ 0), dass 2 ) − E(Xn2 )} ≤ a−2 {σ 2 − E(Xn2 )}. P[BnI (a)] ≤ a−2 {E(Xn+I Mit I → ∞ folgt BnI (a) ↑ Bn (a) := {supi≥1 |Xn+i − Xn | ≥ a}, sodass P[Bn (a)] ≤ a−2 {σ 2 − E(Xn2 )} ebenfalls. Dann, falls σ 2 < ∞, haben wir lim P[Bn (a)] = 0 für alle a > 0. n→∞ 32 (0.7.8) Kapitel 1 Das starke Gesetz der grossen Zahlen 1.1 Die Lemmata von Borel-Cantelli Wir legen den folgenden Ausführungen wie immer einen Wahrscheinlichkeitsraum (Ω, F, P) zugrunde. Definition 1.1.1. Sei (An )n≥1 eine Folge von Ereignissen in F. Dann heisst das Ereignis \[ lim supn An := lim sup An := Ar ∈ F n→∞ n≥1 r≥n der Limes superior, und lim inf n An := lim inf An := n→∞ [\ Ar ∈ F n≥1 r≥n der Limes inferior der Ereignisse (An )n≥1 . Zwischen dem Limes superior und Limes inferior gelten die Beziehungen (lim supn An )c = lim inf n Acn (1.1.1) und lim inf n An ⊂ lim supn An . Sowohl der Limes superior als auch der Limes inferior lassen sich anschaulich interpretieren. Betrachten wir dazu ein beliebiges Element ω ∈ Ω. Dann gilt [ ω ∈ lim supn An ⇔ ω ∈ Ar für alle n ≥ 1 r≥n ⇔ für alle n ≥ 1 existiert ein r ≥ n mit ω ∈ Ar ⇔ ω ist in unendlich vielen der Ereignisse (An )n≥1 enthalten . 33 Damit erhalten wir lim supn An = {ω ∈ Ω | ω ist in unendlich vielen An enthalten} . (1.1.2) Eine ähnliche Argumentation kann beim Limes inferior angewendet werden: \ ω ∈ lim inf An ⇔ es existiert ein n ≥ 1, so dass ω ∈ Ar r≥n n→∞ ⇔ es existiert ein n ≥ 1, so dass ω ∈ Ar für alle r ≥ n ⇔ es existiert ein n ≥ 1, so dass ω in jedem Ereignis der Folge (Ar )r≥n enthalten ist . Mit anderen Worten: lim inf n An = {ω ∈ Ω | ω ist in allen bis auf endlich vielen der Ereignisse (An )n≥1 enthalten} . Lemma 1.1.2 (Borel-Cantelli I). Sei (An )n≥1 eine Folge von Ereignissen in P F. Wenn n≥1 P[An ] < ∞ gilt, dann folgt P [lim supn An ] = 0 . Beweis: Setze N := P j≥1 I[Aj ], sodass {N = ∞} = lim supn An ; dann gilt X EN = P[Aj ] < ∞, j≥1 2 also notwendigerweise P[N < ∞] = 1. Lemma 1.1.3 (Borel-Cantelli II). Sei (An )n≥1 eine Folge von unabhängigen P Ereignissen in F. Falls n≥1 P[An ] = ∞ gilt, dann folgt P [lim supn An ] = 1 . P Beweis: Sei Nm := m j=1 I[Aj ] ≤ N ; wegen Bienaymé-Chebyshev und der Unabhängigkeit gilt dann IP[N ≤ a] ≤ IP[Nm ≤ a] ≤ Var Nm ENm ≤ 2 (ENm − a) (ENm − a)2 P für jedes a > 0, m ∈ N. Falls EN = n≥1 P[An ] = ∞, folgt also mit m → ∞, dass IP[N ≤ a] = 0 für alle a; d.h. IP[N = ∞] = IP[lim supn An ] = 1. 2 Wir betrachten nun Beispiele, die zeigen wie sich die beiden Lemmata von BorelCantelli anwenden lassen, um das Verhalten von Folgen von Zufallsvariablen zu studieren. 34 Beispiel 1.1.4. Sei (Xn )n≥1 eine Folge von identisch verteilten reellen Zufallsvariablen auf Ω mit E(X12 ) < ∞. Sei ε > 0 fest gewählt. Seien die Ereignisse An := {ω ∈ Ω | |Xn − E(Xn )| > n ε} gegeben. Mit der Bienaymé-Chebyshev-Ungleichung folgt für jedes n ∈ N P[An ] = P [|Xn − E(X1 )| > n ε] ≤ n−2 ε−2 Var (Xn ) = n−2 ε−2 Var (X1 ) . Da wegen E(X12 ) < ∞ auch die Varianz von X1 endlich ist, erhält man X P[An ] ≤ ε−2 Var (X1 ) n≥1 X n−2 < ∞ . n≥1 Mit Borel-Cantelli I erhalten wir also P [lim supn An ] = 0, resp. P [lim inf n Acn ] = 1. Anschaulich bedeutet dies, dass die Folge (Xn )n≥1 P-fast sicher schliesslich in den Intervallen [E(X1 ) − nε, E(X1 ) + nε] enthalten ist. Beispiel 1.1.5. Sei (Xn )n≥1 eine Folge von unabhängigen, identisch verteilten reellen Zufallsvariablen auf Ω mit existierenden Erwartungswerten, und sei ε > 0 beliebig vorgegeben. Wir betrachen die Ereignisse An := {ω ∈ Ω | |Xn | > n ε} für jedes n ∈ N. Dann gilt X X X P[An ] = P[|X1 | > n ε] = P ε−1 |X1 | > n . n≥1 n≥1 n≥1 Es lassen sich nun zwei Situationen untersuchen: 1. E(|X1 |) < ∞. Mit der Abschätzung (0.5.6) erhält man X P ε−1 |X1 | > n ≤ ε−1 E(|X1 |) < ∞ . n≥1 In diesem Fall sind die Voraussetzungen von Borel-Cantelli I erfüllt. Es gilt daher P [lim inf n Acn ] = 1. Intuitiv bedeutet dies, dass P-fast sicher irgendwann einmal die Folge (Xn )n≥1 die Intervalle [−nε, nε] nicht mehr verlässt. 2. E(|X1 |) = ∞. 35 Hier erhalten wir mit der Abschätzung (0.5.6) X X X P ε−1 |X1 | > n ≥ P ε−1 |X1 | ≥ n + 1 = P ε−1 |X1 | ≥ n n≥1 n≥1 n≥2 X = P ε−1 |X1 | ≥ n − P ε−1 |X1 | ≥ 1 n≥1 X ≥ P ε−1 |X1 | ≥ n − 1 ≥ ε−1 E(|X1 |) − 2 = ∞ . n≥1 Nach Voraussetzung sind die Ereignisse An unabhängig, und somit die Voraussetzungen von Borel-Cantelli II erfüllt. Es gilt also P [lim supn An ] = 1. Mit anderen Worten: Die Folge (Xn )n≥1 wird die entsprechenden Intervalle [−nε, nε] P-fast sicher immer wieder verlassen. 1.2 Fast sichere Konvergenz Definition 1.2.1. Sei (Xn )n≥1 eine Folge von reellen Zufallsvariablen auf Ω. Sei X : Ω → R eine weitere Zufallsvariable. Die Folge (Xn )n≥1 konvergiert fast sicher gegen X, f.s. Xn −→ X , wenn gilt P h\ [ s≥1 \ m≥1 r≥m i ω ∈ Ω |Xr (ω) − X(ω)| ≤ s−1 = 1 . Tatsächlich ist der Name der Konvergenz gerechtfertigt, denn Xn konvergiert fast sicher gegen X, wenn P [{ω : Xn (ω) → X(ω)}] = 1, wobei die Konvergenz der Folge Xn (ω), n ≥ 1, wie üblich in R zu verstehen ist. f.s. Eine Anwendung des Stetigkeitslemmas 0.1.4 zeigt, dass Xn −→ X genau dann, wenn P[lim supm→∞ Am (s)] = 0 für alle s ≥ 1, wobei Am (s) := ω ∈ Ω |Xm (ω) − X(ω)| > s−1 . Hieran sieht man, dass Konvergenzbeweise häufig mit Hilfe der Borel-CantelliLemmata durchgeführt werden können. Es gibt eine ‘Cauchy’-Version der fast sicheren Konvergenz: z.B. \ [ \ f.s. {ω : Xn (ω) −→} = ω ∈ Ω |Xr1 (ω) − Xr2 (ω)| ≤ s−1 s≥1 m≥1 r1 ,r2 ≥m (1.2.1) Mit dieser Feststellung erhält man folgenden Konvergenzsatz für “L2 – Martingale”. 36 Satz 1.2.2. Sei (Xn , n ≥ 0) ein Martingal mit σ 2 := limn→∞ E(Xn2 ) < ∞. Dann gilt f.s. P[Xn −→] = 1. Beweis: Es folgt aus der Dreiecksungleichung, dass h\ i 1 − P ω ∈ Ω |Xr1 (ω) − Xr2 (ω)| ≤ s−1 r1 ,r2 ≥m h[ i −1 ≤ P ω ∈ Ω |Xr1 (ω) − Xm (ω)| > (2s) ≥m hr1[ i +P ω ∈ Ω |Xr2 (ω) − Xm (ω)| > (2s)−1 r2 ≥m ≤ 2P[Bm (1/2s)], wobei Bm (a) wie in (0.7.8) definiert ist. Aus (0.7.8), (1.2.1) und Lemma 0.1.4 folgt der Satz. 2 Die fast sichere Konvergenz erbt viele Eigenschaften von der üblichen Konvergenz in R: f.s. f.s. Lemma 1.2.3. Falls Xn −→ X und Yn −→ Y , so gelten: f.s. 1. cXn −→ cX, c ∈ R; f.s. 2. Xn + Yn −→ X + Y ; f.s. 3. Xn Yn −→ XY . Satz 1.2.4 (Stetiger Abbildungssatz). Sei h : R → R stetig in allen Punkten f.s. f.s. von C ⊂ R. Falls Xn −→ X und P[X ∈ C] = 1 folgt h(Xn ) −→ h(X). Beweis: Xn (ω) → X(ω) ∈ C impliziert h(Xn (ω)) → h(X(ω)). 2 Bemerkung 1.2.5. Der Raum R spielt bei der fast sicheren Konvergenz keine wesentliche Rolle. Man kann überall Zufallsvariablen durch Zufallselemente eines vollständigen metrischen Raums und |·| durch die entsprechende Metrik ersetzen. Insbesondere kann man die fast sichere Konvergenz ebenso gut bei Folgen von Zufallsvektoren einsetzen. 1.3 Das starke Gesetz der grossen Zahlen Die wichtigste Anwendung des fast sicheren Konvergenzbegriffs ist das starke Gesetz der grossen Zahlen. Es gibt mehrere Varianten, wovon die einfachste folgendes aussagt: 37 Satz 1.3.1. Seien Xi , i ∈ N, unabhängig und identisch verteilt mit EX14 < ∞. P Sei Sn := ni=1 Xi . Dann gilt f.s. n−1 Sn −→ EX1 . Beweis: Sei Am (s) wie oben, mit m−1 Sm an der Stelle von Xm und mit EX1 an der Stelle von X(ω) für alle ω. Die Bienaymé-Chebyshev-Ungleichung ergibt direkt die Abschätzung P[Am (s)] ≤ s2 Var (X1 )/m, welche (leider) über m nicht endlich summierbar ist. Stattdessen wendet man die Markov-Ungleichung auf die Zufallsvariablen (m−1 Sm − EX1 )4 an, da eine einfache Berechnung zeigt, dass E{(m−1 Sm − EX1 )4 } ≤ Km−2 für eine endliche Konstante K; daraus folgt eine Abschätzung von P[Am (s)], welche über m summierbar ist. Die Aussage ergibt sich nun aus dem ersten BorelCantelli-Lemma. 2 Dieser Satz genügt insbesondere, um zu zeigen, dass relative Häufigkeiten gegen Wahrscheinlichkeiten konvergieren. Um die Bedingung EX14 < ∞ abzuschwächen, braucht man raffiniertere Argumente. Falls EXi2 < ∞, auch wenn die Xi nicht unbedingt identisch verteilt sind, kann man die Lévy-Kolmogorov-Ungleichung einsetzen. Um die Bedingung bei unabhängigen und identisch verteilten Zufallsvariablen auf E|X1 | < ∞ zu reduzieren, muss man eine gezielte Stutzung vornehmen, was im wesentlichen heisst, dass man anstatt Xi jeweils Xi I[|Xi | ≤ i] betrachtet für jedes i. 38 Kapitel 2 Der zentrale Grenzwertsatz 2.1 Konvergenz in Verteilung Dieser Konvergenzbegriff betrifft eher Verteilungen als Zufallsvariablen. Bei der fast sicheren Konvergenz müssen sowohl alle Zufallsvariablen der Folge als auch die Limes-Zufallsvariable auf demselbem Wahrscheinlichkeitsraum definiert sein, bei der Konvergenz in Verteilung spielen die Wahrscheinlichkeitsräume keine Rolle. Die intuitive Idee wäre, die Konvergenz in Verteilung einer Folge von Zufallsvariablen über die Konvergenz der Wahrscheinlichkeiten P[Xn ≤ a] für alle a zu definieren. Dies stellt sich in der Tat als leicht zu restriktiv heraus. Definition 2.1.1. Für eine beliebige Folge von Zufallsvariablen Xn und eine d Zufallsvariable X definieren wir Xn −→ X falls Ef (Xn ) → Ef (X) für alle beschränkten stetigen Funktionen f : R → R. Wir definieren die Menge H3 von ‘angenehmen’ Funktionen als 0 00 00 00 H3 := f : kf k + kf k + kf k < ∞, K3 (f ) := sup{|f (x) − f (y)|/|x − y|} < ∞ . x6=y Satz 2.1.2. Folgende Aussagen sind äquivalent: d i) Xn −→ X; ii) Ef (Xn ) → Ef (X) für alle f ∈ H3 ; iii) P[Xn ≤ a] → P[X ≤ a] für alle Stetigkeitspunkte a von FX ; iv) lim supn→∞ P[Xn ∈ A] ≤ P[X ∈ A] für alle abgeschlossenen Mengen A. Beweis: i) impliziert sofort ii). Für alle a ∈ R und ε > 0 gibt es eine Funktion fa,ε ∈ H3 mit I[x ≤ a] ≤ fa,ε (x) ≤ I[x ≤ a + ε], 39 und daraus folgt: ii) impliziert iii). Um zu zeigen, dass Aussage iii) Aussage i) impliziert, benutzt man, dass N X bj−1 I[bj−1 < f (x) ≤ bj ] ≤ f (x) ≤ j=1 N X bj I[bj−1 < f (x) ≤ bj ], j=1 für jede Folge b0 < b1 < · · · < bN mit b0 ≤ inf x f (x) ≤ supx f (x) ≤ bN . Für f eine streng wachsende Funktion, falls bj − bj−1 < ε für alle j, und falls jedes f −1 bj ein Stetigkeitspunkt von FX ist, folgt lim sup Ef (Xn ) ≤ lim sup n n = N X N X bj P[bj−1 < f (Xn ) ≤ bj ] j=1 bj {P[f (X) ≤ bj ] − P[f (X) ≤ bj−1 ]} j=1 = N X bj P[bj−1 < f (X) ≤ bj ] j=1 ≤ N X (bj−1 + ε)P[bj−1 < f (X) ≤ bj ] j=1 ≤ Ef (X) + ε. Das allgemeine (beschränkte stetige) f kann auf jedem abgeschlossenen Intervall gleichmässig beliebig genau durch ein Polynom approximiert werden (Weierstrass), und ein Polynom lässt sich als Differenz zweier streng wachsenden Funktionen schreiben. Daraus kann man auf eine allgemeine Funktion f fortsetzen. Aus iv) mit A = (−∞, a] und A = [a, ∞) folgt iii). Schliesslich gilt, für jedes ε > 0, dass 1A (x) ≤ (1 − ε−1 d(x, A))+ ≤ 1Aε (x) für alle x, (wobei d(x, A) := miny∈A |x − y|); daraus folgt mit i), dass lim sup P[Xn ∈ A] ≤ E{1 − ε−1 d(X, A)} ≤ P[X ∈ Aε ], n→∞ 2 und danach iv) mit ε → 0. Aus diesem Satz kann man Eigenschaften beweisen, welche denjenigen der fast sicheren Konvergenz ähneln. Satz 2.1.3 (Stetiger Abbildungssatz). Sei h : R → R stetig in allen Punkten d d von C ⊂ R. Falls Xn −→ X und P[X ∈ C] = 1, folgt h(Xn ) −→ h(X). 40 Beweis: Falls x ∈ C ∩h−1 (A) für ein abgeschlossenes A, folgt einfach x ∈ h−1 (A). Aus Satz 2.1.2 iv) merkt man dann, dass für jedes abgeschlossene A gilt lim sup P[h(Xn ) ∈ A] ≤ lim sup P[Xn ∈ h−1 (A)] ≤ P[X ∈ h−1 (A)]. n n Da P[X ∈ C] = 1, ist letzteres gerade P[X ∈ C ∩ h−1 (A)], also wegen der ersten Überlegung nicht grösser als P[X ∈ h−1 (A)]. 2 d d Satz 2.1.4 (Slutsky). Wenn Xn −→ X und Yn −→ 0, wobei Xn und Yn jeweils d auf demselben Wahrscheinlichkeitsraum definiert sind, folgt Xn + Yn −→ X. 2.2 Der zentrale Grenzwertsatz Das starke Gesetz der grossen Zahlen zeigt (unter passenden Bedingungen) die Konvergenz einer normierten Summe unabhängiger Zufallsvariablen gegen ihren Erwartungswert. Mann kann sich fragen, wie schnell diese Konvergenz stattfindet. Eine Antwort auf dieser Frage wird vom zentralen Grenzwertsatz gegeben. Diesen wichtigen Satz beweisen wir mit der Methode von Lindeberg. Wir beginnen mit folgendem Lemma. 2 2 Lemma 2.2.1. Seien X1 P , . . . , Xn unabhängig, mit EXP i = 0, EXi = σi und γi := E|Xi |3 < ∞, wobei ni=1 σi2 = 1 gilt. Sei Wj := ji=1 Xi . Dann folgt für jedes f ∈ H3 , dass |Ef (Wn ) − Ef (N )| ≤ Kf n X E{|Xi |2 min{|Xi |, 1} + n3 σi3 } i=1 √ für eine Konstante Kf , wobei N ∼ N (0, 1) und n3 := E|N |3 = 4/ 2π. Beweis: Nehme T1 , . . . , Tn unabhängig, auch von X1 , . . . , Xn , mit Ti ∼ N(0, σi2 ), P 1 ≤ i ≤ n, und setze N := ni=1 Ti . Schreibe e(u, h) := f (u + h) − f (u) − hf 0 (u) − 21 h2 f 00 (u), sodass |e(u, h)| ≤ Kf min(|h|2 kf 00 k, 12 |h|3 K3 (f )) ≤ Kf min(|h|2 , |h|3 ) für eine Konstante Kf = max(kf 00 k, 21 K3 (f )), falls f ∈ H3 . Dann gilt f (Wn ) − f (N ) = n X {f (Uj + Xj ) − f (Uj + Tj )}, j=1 41 wobei Uj := Wj−1 + als auch von Tj ist, Pn i=j+1 Tj , und demzufolge, da Uj unabhängig sowohl von Xj Ef (Wn ) − Ef (N ) = n X E{e(Uj , Xj ) − e(Uj , Tj )}. j=1 2 Das Lemma folgt. Aus diesem Lemma lassen sich viele verschiedene zentrale Grenzwertsätze beweisen. Satz 2.2.2 (Lyapunov). Seien Y1 , . . . , Yn unabhängig, mit EYi = 0, EYi2 = τi2 P P und Γi := E|Yi |3 < ∞; schreibe Sn := ni=1 Yi und s2n := ni=1 τi2 . Dann, falls Pn limn→∞ s−3 n i=1 Γi = 0, gilt d s−1 n Sn −→ N (0, 1) für n → ∞. Beweis: Setze Xi := s−1 n Yi , und wende Lemma 2.2.1 an. Natürlich hat man die 2 Ungleichung |Xi | min{|Xi |, 1} ≤ |Xi |3 , und wegen der Hölder-Ungleichung gilt τi3 ≤ Γi . 2 Eigentlich hat man noch mehr bewiesen — für jede Funktion f ∈ H3 hat man sogar eine konkrete Abschätzung der Differenz von Ef (s−1 n Sn ) und Ef (N ) für jedes gegebene n. Satz 2.2.3 (IID). Seien Y1 , . . . , Yn unabhängig und identisch verteilt, mit EY1 = Pn 2 2 0 und EY1 = τ < ∞. Schreibe Sn := i=1 Yi . Dann gilt √ d Sn /{τ n} −→ N (0, 1) für n → ∞. Der Beweis läuft wieder über Lemma 2.2.1, braucht allerdings etwas mehr Arbeit. Dieser Satz hat viele Anwendungen in der Statistik; als Musterbeispiel kann man daraus eine approximative Verteilung für das arithmetische Mittel herleiten. 42 Kapitel 3 Einführung in die Statistik 3.1 Zusammenfassung und Darstellung von Daten Die Statistik beschäftigt sich mit der realen Welt. Wir beobachten ein Phänomen (z.B. in der Biologie, Medizin, Ökologie, in den Wirtschaftswissenschaften etc.), das wir nicht vollständig verstehen und über das wir mehr erfahren möchten. Es sind zwei Vorgehensweisen möglich: • exploratorisch: Daten werden erhoben, danach werden Hypothesen aufgestellt oder Modelle gebildet. Es wird versucht, Strukturen in den Daten zu erkennen. Dieses Vorgehen ist wenig mathematisch. • konfirmatorisch: Sobald Hypothesen oder Modell vorhanden sind, versucht man aufgrund der Daten die Hypothesen gegeneinander zu testen oder die Modellparameter zu schätzen. Das Ziel der Statistik besteht darin, aus Daten Informationen über Wahrscheinlichkeitsmodelle zu gewinnen. Diese Wahrscheinlichkeitsmodelle sollen uns dabei helfen, die reale Welt zu beschreiben und Vorhersagen zu machen. Daten treten in der Praxis oft als reelle Zahlen, Vektoren, Matrizen, oder als geordnete (wenig, mässig, viel ), bzw. ungeordnete (rot, blau, gelb) Kategorien auf. Eine Statistik ist eine ”Zusammenfassung” dieser Daten. Formal definiert heisst dies: Definition 3.1.1. Seien (Y, E) und (Z, F) messbare Räume. Eine Statistik ist eine messbare Abbildung T : (Y, E) → (Z, F). Wir nennen Y den Datenraum, Elemente von Y heissen Daten. 43 Betrachten wir einige Beispiele von Statistiken. Sei dazu (y1 , . . . , yn ) ∈ Y die Realisierung einer Stichprobe. Hier nehmen wir für den Datenraum stets (Y, E) = (Rn , B(Rn )). • Die triviale Statistik T (y1 , . . . , yn ) := (y1 , . . . , yn ) liefert die beobachteten Daten unverändert zurück. • Die Ordnungsstatistik T (y1 , . . . , yn ) := (y(1) , . . . , y(n) ), wobei y(1) ≤ . . . ≤ y(n) , gibt die Werte der Grösse nach geordnet zurück. • Seien z1 , . . . , zl , wobei l ≤ n, die paarweise verschiedenen Werte der beobachteten Daten (y1 , . . . , yn ) und n1 , . . . , nl die entsprechenden Häufigkeiten. Die Statistik n1 nl T (y1 , . . . , yn ) := z(1) , , . . . , z(l) , =: Fn (3.1.1) n n liefert ein ”Säulendiagramm der empirischen Verteilung”: Diese gibt zu jedem beobachteten Wert zi die relative Häufigkeit mit der er in den Daten (y1 , . . . , yn ) erscheint an. • Erwartungswert der empirischen Verteilung: n 1X T (y1 , . . . , yn ) := yi =: ȳn . n i=1 • Varianz der empirischen Verteilung: n 1X (yi − ȳn )2 . T (y1 , . . . , yn ) := n i=1 • Histogramm: Wir nehmen an, die Daten y1 , . . . , yn seien positive reelle Zahlen. Es werden Zahlen 0 = x0 < x1 < · · · < xl fest vorgegeben. Sei rj := |{i | yi ∈ (xj−1 , xj ]}| für alle j = 1, . . . , l. Wir setzen T (y1 , . . . , yn ) := T(x1 ,...,xl ) (y1 , . . . , yn ) r1 rl , . . . , xl , . := x1 , n(x1 − x0 ) n(xl − xl−1 ) Graphisch dargestellt liefert das Histogramm ”Rechtecke” mit der Fläche ri /n über den Intervallen (xi−1 , xi ]. 44 3.2 Entscheidungstheoretische Grundlagen Wir vertreten den sog. frequentistischen Standpunkt, d.h. wir gehen davon aus, dass sich hinter den beobachteten, bzw. gemessenen Daten y ∈ Y ein fester, aber uns unbekannter Wahrscheinlichkeitsraum (Ω, F, P) und eine Zufallsvariable Y : (Ω, F, P) −→ (Y, E) verbergen, so dass y = Y (ω) eine Realisierung von Y ist. Daten sind uns häufig in Form einer Stichprobe y = (y1 , . . . , yn ) gegeben, d.h. sie sind die Realisierung einer Zufallsvariablen Y = (Y1 , . . . , Yn ), wobei die Y1 , . . . , Yn unabhängig und identisch verteilt sind. Obwohl uns das Wahrscheinlichkeitsmass P nicht bekannt ist, können wir oft in konkreten Problemstellungen die für Y vermuteten Verteilungen anhand der Daten y einschränken, etwa auf eine durch eine Menge Θ parametrisierte Familie von Verteilungen (Pθ )θ∈Θ . Auf diese Weise erhält man einen parametrisierten Wahrscheinlichkeitsraum (Y, E, Pθ )θ∈Θ , das statistische Modell. Sofern das statistische Modell ”sinnvoll” gewählt wurde, ist ein Parameter θ∗ ∈ Θ der wahre Parameter in dem Sinne, dass Pθ∗ die tatsächliche Verteilung von Y ist, d.h. Pθ∗ = PY . Typische Ansätze den unbekannten wahren Parameter zu ermitteln sind • Schätzungen: Wir versuchen den wahren Parameter θ∗ möglichst genau zu schätzen, d.h. aufgrund der Daten entscheiden wir uns für einen Parameter aus Θ als den wahren Parameter. • Tests: Wir geben uns eine Teilmenge Θ0 ⊂ Θ vor und entscheiden aufgrund der Daten ob wir die Hypothese, dass θ∗ in Θ0 liegt, annehmen sollen oder nicht. Es werde nun vier für die Statistik grundlegende Begriffe eingeführt: • Aktionsraum • Entscheidungsfunktion • Verlustfunktion • Risikofunktion Bei der Ermittlung des wahren Parameters θ∗ werden aufgrund der vorliegenden Daten y ∈ Y gewisse Aktionen durchgeführt. Dies wird in der folgenden Definition formalisiert. 45 Definition 3.2.1. Sei (A, E 0 ) ein messbarer Raum. Eine Entscheidungfunktion ist eine messbare Funktion. d : (Y, E, PY ) −→ (A, E 0 ) . Der messbare Raum (A, E 0 ) wird Aktionsraum genannt. Die Menge der Entscheidungsfunktionen wird mit D bezeichnet. Da wir die Daten y als Realisationen der Zufallsvariablen Y auffassen, werden wir oft der Zufallsvariablen d(Y ) := d ◦ Y : (Ω, F, P) −→ (A, E 0 ) begegnen. Beispiel 3.2.2. i) Schätzungen: Der unbekannte wahre Parameter θ∗ ∈ Θ wird geschätzt. Ist Θ ein messbarer Raum, so ist in diesem Fall der Aktionsraum gerade der Parameterraum, A := Θ. Wir entscheiden uns hier für einen Parameter θ den wir aufgrund der Daten als den wahren Parameter θ∗ vermuten. ii) Tests: Ist θ0 der Wert des wahren Parameters θ∗ ? Gehört θ∗ zu einer vorgegebenen Teilmenge Θ0 ⊂ Θ? Bei Fragen dieser Art hat der Aktionsraum die Form A := {0, 1}. D.h. aufgrund der Daten entscheiden wir uns eine Hypothese anzunehmen (0) oder zu verwerfen (1). Es können seltene Fälle auftreten, bei denen wir uns aufgrund der vorliegenden Daten nicht sicher sind, für welche Aktion wir uns entscheiden sollten. In einem solchen Fall wählen wir eine Aktion unabhängig von den Daten zufällig aus, beispielsweise durch einen Münzwurf. Diese Überlegung führt zum Begriff der randomisierten Entscheidungsfunktion. Definition 3.2.3. Eine randomisierte Entscheidungsfunktion ist eine messbare Funktion d¯ : (Y × [0, 1], E ⊗ B([0, 1]), PY ⊗ U[0, 1]) −→ A . Die Menge der randomisierten Entscheidungsfunktionen wird mit D̄ bezeichnet. Wir können schreiben ¯ Z) := d¯ ◦ (Y, Z) : (Ω, F, P) −→ (A, E 0 ) , d(Y, wobei Z ∼ U[0, 1] unabhängig von Y ist. Beispiel 3.2.4. Seien d1 , d2 ∈ D Entscheidungsfunktionen. Sei p ∈ [0, 1] fest. Wir definieren eine randomisierte Entscheidungsfunktion d¯ : Y × [0, 1] → A durch d1 (y) falls z ≤ p ; ¯ d(y, z) := d2 (y) falls z > p . 46 Die Aktion a ∈ A die wir aufgrund der Daten y ∈ Y ausführen sollte ”gut” sein. Eine Schätzung des wahren Parameters sollte möglichst präzise sein oder eine Hypothese über den wahren Parameter sollte genau dann angenommen werden, falls sie zutrifft. In diesem Sinn entsteht bei ”schlechten” Aktionen ein Verlust. Definition 3.2.5. Die Verlustfunktion ist eine Funktion L : Θ × A → R+ . Beispiel 3.2.6. i) Schätzungen: Es wird ein reeller Parameter geschätzt. Wir haben also Θ = A = R. Sinvolle Verlustfunktionen sind beispielsweise L(θ, a) := (θ − a)2 oder L(θ, a) := |θ − a| . ii) Tests: Wir stellen die Hypothese auf, dass der wahre Parameter zur Teilmenge Θ0 ⊂ Θ gehört. Der Aktionsraum ist A = {0, 1}, wobei die Aktion 0 der Schlussfolgerung ‘θ∗ ∈ Θ0 ’ entspricht usw. Eine naheliegende Verlustfunktion ist beispielsweise definiert durch 0 falls {θ ∈ Θ0 , a = 0} oder {θ ∈ Θ\Θ0 , a = 1} ; L(θ, a) := 1 falls {θ ∈ Θ0 , a = 1} oder {θ ∈ Θ\Θ0 , a = 0} . D.h. wir haben keinen Verlust, falls der wahre Parameter θ∗ in Θ0 liegt und die Hypothese tatsächlich angenommen wird, oder falls der wahre Parameter θ∗ ausserhalb von Θ0 liegt und wir die Hypothese auch verwerfen. Andernfalls sei der Verlust 1. Weiter versuchen wir das Risiko zu minimieren. Das Risiko beschreiben wir als den erwarteten Verlust, wenn ein θ ∈ Θ der wahre Parameter wäre und wir eine Entscheidung d treffen würden. Definition 3.2.7. Die Risikofunktion R : Θ × D → R+ wird definiert durch R(θ, d) := Eθ (L(θ, d(Y ))) . Dabei verstehen wir unter Eθ f (Y ) den Erwartungswert der Zufallsvariablen f (Y ) : Ω → R+ , wenn Y als Pθ -verteilt angenommen wird. Bemerkung 3.2.8. Für randomisierte Entscheidungsfunktionen haben wir ent¯ := sprechend eine Risikofunktion R : Θ × D̄ → R+ , die gegeben ist durch R(θ, d) ¯ Z)) . Hier ist entsprechend Eθ die Schreibweise für den ErwartungsEθ L(θ, d(Y, wert, wenn Y ∼ Pθ und Z ∼ U[0, 1] angenommen wird. 47 Ist die randomisierte Entscheidungsfunktion d¯ via d1 , d2 ∈ D gegeben wie in Beispiel 3.2.4, so folgt mit dem Satz von Fubini ¯ = pR(θ, d1 ) + (1 − p)R(θ, d2 ) . R(θ, d) Das Gesamtrisiko wird also aufgeteilt in das Risiko die Entscheidung d1 und in das Risiko die Entscheidung d2 zu treffen aufgrund der vorhandenen Daten. Wir sollten Entscheidungsfunktionen d so wählen, dass das Risiko R(θ, d) klein ist für möglichst viele Werte θ ∈ Θ. ..................... ......... ..... ......... ... ........ ... ...... . . . . . . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . .. .................. ..... ... . . . . . . . . . ........... ... .. .... . . . . . . . . . . . ......... ... ... ... . . . . . . . . . . .. ....... .. ... . . . . . . . . ...... .... .. . .. . . . . . ... . . ...... .... ... . . ....... . .... . ......... ........................ .... . ... ....... .... . . . .... . ... ........ . ....... .. ..... ... ..... ........ ... ... ............ ................. ... ..... ... ... .... . . .................................................................... .......... .... . ............... ... ... ........ ... .......... ... ... ....... . ... . .... .. . ... . . ..... ... .. . . . . ... . . . . . . ... ..... . .... ... . . . ...... . . . . . ... .... . ........ ... . . . . . . . . . ... ........... ... .. ........................................ ... . ... .. ... . ... ... .. ... . ... .. . ... . . . .... .... ....... R(θ,d1 ) R(θ,d2 ) R(θ,d3 ) θ Im obigen Bild ist d2 wohl eine geeignetere Wahl als d1 , da das Risiko R(θ, d2 ) für jedes θ kleiner ist als das Risiko R(θ, d1 ). Ist aber d1 eine bessere Wahl als d2 ? Definition 3.2.9. Eine Entscheidungsfunktion d2 dominiert eine Entscheidungsfunktion d1 , wenn i) R(θ, d2 ) ≤ R(θ, d1 ) für alle θ ∈ Θ, und ii) R(θ, d2 ) < R(θ, d1 ) für mindestens ein θ ∈ Θ. Definition 3.2.10. Eine Entscheidungsfunktion d heisst zulässig, falls es keine Entscheidungsfunktion gibt die d dominiert. PRINZIP DER ZULÄSSIGKEIT. dungsfunktionen zu verwenden. 3.3 Es sind nur zulässige Entschei- Suffizienz Wie im vorhergehenden Abschnitt haben wir Daten y ∈ Y als Realisierung einer Zufallsvariablen Y und eine Familie von Verteilungen (Pθ )θ∈Θ , wobei θ∗ den Parameter der wahren Verteilung Pθ∗ von Y bezeichnet. 48 Definition 3.3.1. Die Likelihood der Daten y ∈ Y ist eine Funktion p(·) (y) : Θ −→ R+ , i) die im diskreten Fall definiert wird als pθ (y) := Pθ [Y = y] , ii) und im Fall von stetigen Verteilungen auf Rn durch pθ (y) := fθ (y) , wobei fθ die Dichte der Verteilung Pθ ist. Bemerkung 3.3.2. Die Likelihood kann allgemeiner definiert werden. Wir betrachten das statistische Modell (Y, E, Pθ )θ∈Θ . Gibt es ein Referenzmass µ auf (Y, E) in dem Sinne, dass jedes Pθ eine Dichte fθ bezüglich µ hat, so setzt man pθ (y) := fθ (y) . In der obigen Definition ist µ bei i) das Zählmass und bei ii) das Lebesgue-Mass auf Rn . Welche Idee steckt hinter der Likelihood? Je grösser der Wert der Likelihood pθ (y) ist, desto eher wird die Verteilung Pθ zur Beobachtung y geführt haben. Dabei ist aber nicht der absolute Wert der Likelihood von primärem Interesse, sondern das Verhältnis der Likelihoods zweier beliebiger Parameter θ1 und θ2 aus Θ. Gilt beispielsweise pθ1 (y) >1, pθ2 (y) so ist es plausibler, dass y die Realisierung einer Pθ1 -verteilten Zufallsvariable als die Realisierung einer Pθ2 -verteilten Zufallsvariable ist. Beispiel 3.3.3. Wir haben eine Beobachtung y = 1. Sei die Verteilungsfamilie gegeben durch Pθ = N (θ, 1) wobei θ ∈ {0, 1}. Wird wohl der Parameter θ = 0 oder der Parameter θ = 1 eher zur Beobachtung y = 1 geführt haben? Die Likelihood ist gegeben durch (1−θ)2 1 pθ (1) := √ e− 2 . 2π Betrachtet man den Quotienten √ p0 (1) 2π 1 =√ = √ <1, p1 (1) e 2πe so kann man schliessen, dass die Beobachtung y = 1 eher eine Realisierung einer N (1, 1)-verteilten Zufallsvariablen als einer N (0, 1)-verteilten Zufallsvariablen ist. 49 Beispiel 3.3.4. Sei y = (y1 , . . . yn ) = (Y1 (ω), . . . , Yn (ω)) eine Stichprobe, wobei Yi ∼ N (θ, 1) für 1 ≤ i ≤ n. Sei Θ = {0, 1}. Wir nehmen weiter an, dass P ȳ := n−1 ni=1 yi = 1. Da die Yi unabhängig sind können wir berechnen: n 1 Pn 1 2 pθ (y) = pθ (y1 ) · · · pθ (yn ) = √ e− 2 i=1 (yi −θ) 2π ( !) n n X n 1 √ exp − (yi − ȳ)2 . = (θ − ȳ)2 + n−1 2 2π i=1 Wir haben also n p0 (y) = e− 2 < 1 . p1 (y) PRINZIP DER LIKELIHOOD. Es sind nur Entscheidungsfunktionen zu verwenden, welche Funktionen von Likelihood-Quotienten sind. Definition 3.3.5. Eine Statistik T : (Y, E) → Z heisst suffizient für θ, wenn es eine Funktion λ : Z → [0, 1] gibt, sodass Pθ [Y ∈ A | T (Y ) = t] = λ(t, A) . Für jedes t ist λ(t, ·) eine W’keit auf Y, die gleiche für alle θ. Das Faktorisierungskriterium. Eine Statistik T ist genau dann für einen Parameter θ suffizient, wenn sich die Likelihood in der Form pθ (y) = g(θ, T (y))h(y) faktorisieren lässt. PRINZIP DER SUFFIZIENZ. Ist eine suffiziente Statistik T vorhanden, sind nur Entscheidungsfunktionen zu verwenden, welche Funktionen von T sind. Wegen des Faktorisierungskriteriums sehen wir, dass das Prinzip der Suffizienz in Einklang mit dem Prinzip der Likelihood steht. 3.4 Exponentielle Familien Definition 3.4.1. Sei y ∈ Y gegeben. Eine Familie von Verteilungen (Pθ )θ∈Θ , wobei Θ ⊂ Rk , heisst exponentielle Familie, falls es Funktionen h, t1 , . . . , tk : Y → R und c : Θ → R gibt, so dass sich die Likelihood der Daten y schreiben lässt als Produkt X k pθ (y) = c(θ) · h(y) · exp θi ti (y) . i=1 50 Definition 3.4.2. Es gelten die Bezeichnungen der Definition 3.4.1. Sei (Pθ )θ∈Θ eine diskrete exponentielle Familie. Die Menge n X k o X k Π := π ∈ R : h(y) exp πi ti (y) < ∞ y∈Y i=1 heisst der natürliche Parameterraum der Familie (Pθ )θ∈Θ . Ganz allgemein ersetzt man die y–Summe mit einem Integral bezüglich des Referenzmasses µ(dy). Die meisten wohlbekannten Verteilungsfamilien sind exponentielle Familien. Wegen des Faktorisierungskriteriums sehen wir, dass bei einer Stichprobe (Y1 , . . . , Yn ) vom Umfang n aus einer exponentiellen Familie gilt: T (Y ) := (T1 (Y ), . . . , Tk (Y )) , wobei Ti (Y ) := n X ti (Yj ) , j=1 ist suffizient für θ. 3.5 Schätzung Der Parameterraum Θ ist typischerweise eine offene Teilmenge von IRk für ein k ≥ 1, und bei der Schätzung ist der Aktionsraum gleich Θ. Der Vergleich zwischen den Risikofunktionen zu verschiedenen Entscheidungsfunktionen (hier Schätzer genannt) besteht aus einem Vergleich zwischen zwei Θ-wertigen Funktionen. Für k = 1 und quadratischen Verlust hätte man also folgendes: Definition 3.5.1. Ein Schätzer T von f (θ) hat minimalen ‘Mean Square Error’ (MSE), falls IEθ (T − f (θ))2 minimal ist über alle Schätzer einer vorgegebenen Klasse von Schätzern für jedes θ ∈ Θ. Die Einschränkung auf eine vorgegebene (vernünftige) Klasse von Schätzern braucht man, da es sonst (ausser in Trivialfällen) keinen Schätzer gibt, welcher für alle θ am besten ist; es gibt zu viele Möglichkeiten. Insbesondere hat der Schätzer, der ungeachtet der Daten immer einen bestimmten Punkt θ0 ∈ Θ zurückgibt, konsequenterweise das kleinste von allen Risiken im Punkt θ0 , ohne ein vernünftiger Schätzer zu sein. Also genügt das Prinzip der Zulässigkeit bei weitem nicht, um einen besten Schätzer zu erhalten; man muss weitere Kriterien einführen. Als Beispiel könnte man nur diejenige Schätzer in Betracht ziehen, welche lineare Funktionen der Daten sind. Das folgende Konzept ist etwas raffinierter. Definition 3.5.2. Gegeben eine (z.B. reelle) Funktion f , heisst ein Schätzer T von f (θ) erwartungstreu, falls für alle θ ∈ Θ. IEθ T = f (θ) 51 Leider gibt es sogar einfache Fälle, in welchen es keinen erwartungstreuen Schätzer gibt. Die Likelihood bietet eine ganz andere Methode, Schätzer zu erhalten. Da Werte von θ, welche (relativ) grosse Likelihood-Werte aufweisen, plausibler sind als andere, kommt man auf die Idee, die Likelihood bezüglich θ zu maximieren. Definition 3.5.3. Der Maximum–Likelihood–Schätzer (MLE) von θ wird durch θ̂ := arg maxθ∈Θ pθ (y) definiert. Wenn man f (θ) schätzen will, verwendet man einfach f (θ̂). Hier hat man einige asymptotische Argumente, welche das Verfahren rechtfertigen. Nimmt man an, die Daten y = (y1 , . . . , yn ) stammen von einer Stichprobe aus der Verteilung Pθ∗ , wobei nur die Verteilungsfamilie {Pθ , θ ∈ Θ} bekannt ist, dann ist die Likelihood n Y L(y; θ) = f (yj , θ), j=1 wobei f (y, θ) die Wahrscheinlichkeitsdichte (oder die Wahrscheinlichkeit) einer einzelnen Beobachtung y darstellt. Wenn man das dazugehörende Wahrscheinlichkeitsmodell betrachtet, sieht man, dass n 1 1X log L(Y ; θ) = log f (Yj , θ) n n j=1 eine normierte Summe von unabhängigen und identisch verteilten Zufallsvariablen ist, welche (unter Pθ∗ ) fast sicher gegen IEθ∗ log f (Y1 , θ) konvergiert wegen des starken Gesetzes der grossen Zahlen, falls IEθ∗ | log f (Y1 , θ)| < ∞ gilt. Diese Funktion von θ findet in θ∗ ihr Maximum. Satz 3.5.4. Es gilt IEθ∗ log f (Y1 , θ) ≤ IEθ∗ log f (Y1 , θ∗ ) − d2H (Pθ∗ , Pθ ), falls die Erwartungswerte existieren. Hier bezeichnet dH die sogenannte Hellinger–Distanz zwischen Wahrscheinlichkeitsverteilungen. Da die normierte Log–Likelihood nahe bei einer Funktion liegt, welche ihr Maximum an der Stelle θ∗ annimmt, ist es einleuchtend, den ML–Schätzer zu verwenden. Mit weiteren Argumenten kann man in vielen Situationen beweisen, dass dieses Vorgehen asymptotisch sehr effizient ist. 52 3.6 Tests Bei einem Test will man entscheiden, ob der wahre Parameter θ∗ zu einer vorgegebenen Menge Θ0 gehört (die Nullhypothese), oder nicht (die Alternativhypothese; Θ1 := Θ \ Θ0 ). Dementsprechend besteht der Aktionsraum aus nur zwei Punkten, A = {0, 1}. Wenn Θ0 = {θ0 } und Θ1 = {θ1 } beides Ein-Punkt-Mengen sind (‘einfache Hypothesen’), kann die Risikofunktion einer Entscheidungsfunktion (Test) d besonders einfach als ein Punkt (R(θ0 , d), R(θ1 , d)) ∈ [0, c0 ] × [0, c1 ] dargestellt werden, wobei c0 die Kosten der Aktion 1 (θ ∈ Θ1 annehmen) sind, falls in Wirklichkeit θ ∈ Θ0 gilt (Fehler erster Art), und c1 die Kosten der Aktion 0, falls in Wirklichkeit θ ∈ Θ1 gilt (Fehler zweiter Art). Normalerweise nimmt man der Einfachheit halber c0 = c1 = 1; dann hat man natürlich R(θ0 , d) = IPθ0 [d(Y ) = θ1 ], R(θ1 , d) = IPθ1 [d(Y ) = θ0 ]. Daraus bildet man die Risikomenge: S := {(R(θ0 , d), R(θ1 , d)) : d ∈ D}. Die zulässigen Tests d sind dann diejenigen, welche Punkten auf der unteren Grenze von S entsprechen. Die Konstruktion dieser Tests bildet den wesentlichen Inhalt des folgenden Satzes. Das klassische Vorgehen besteht darin, d so zu wählen, dass R(θ1 , d) minimal ist unter allen Tests d mit R(θ0 , d) ≤ α, für eine vorgegebene ‘Grösse’ α. Satz 3.6.1 (Das Neyman–Pearson–Lemma). In der obigen Situation hat der beste Test die Form d(y) = θ1 falls Λ(y) > k; d(y) = θ0 IP[d(y) = θ1 ] = γ falls falls Λ(y) < k; Λ(y) = k, wobei Λ(y) den Likelihoodquotienten pθ1 (y)/pθ0 (y) bezeichnet, und IP sich auf die Zusatzrandomisierung bezieht. Die Werte von k und γ werden durch die Bedingung R(θ0 , d) = IPθ0 [d(Y ) = θ1 ] = α bestimmt. Dieses Verfahren steht wieder im Einklang sowohl mit dem Likelihood–Prinzip als auch mit dem Prinzip der Suffizienz. Die Betrachtungen sind selten so einfach, falls die Mengen Θ0 und Θ1 mehr als einen Punkt enthalten; Verallgemeinerungen des Neyman–Pearson–Verfahrens bieten jedoch ziemlich allgemein asymptotisch effiziente Tests. 53 3.7 Die Bayes’sche Methode In der Bayes’schen Statistik betrachtet man den unbekannten Parameter θ∗ als Realisierung einer Zufallsgrösse ϑ. Die Verteilung von ϑ beinhaltet unsere Information (bzw. unsere Ungewissheit) über den Wert θ∗ . Bevor wir ein Experiment durchführen bzw. Daten sammeln, haben wir eine eventuell vage Vorstellung darüber, wie θ∗ sein könnte; dies müssen wir in Form einer Wahrscheinlichkeitsverteilung für ϑ ausdrücken, der a-priori-Verteilung, gegeben durch eine Wahrscheinlichkeitsdichte π. Nach dem Experiment kommt dazu die Information, welche uns die Daten y liefern, was zu einer neuen a-posteriori -Wahrscheinlichkeitsverteilung für ϑ führen, deren Dichte wir mit π(· | y) bezeichnen. Nach dem Satz von Bayes gilt: π(θ | y) = c(y) pθ (y) π(θ), θ ∈ Θ, wobei die Normierungskonstante c(y) so gewählt wird, dass daraus eine Wahrscheinlichkeitsverteilung auf Θ resultiert. DAS BAYES’SCHE PRINZIP. Sämtliche Informationen über θ∗ sind in der a-posteriori-Verteilung enthalten. Es gilt zu beachten, dass dieses Prinzip nicht mit dem Likelihoodprinzip zu vereinbaren ist; die a priori Information kommt neu dazu. Definition 3.7.1. Das Bayes’sche Risiko einer Entscheidungsfunktion d ∈ D wird durch rπ (d) := Eπ {R(ϑ, d)} definiert: hierbei steht Eπ für den Erwartungswert bezüglich der a-priori-Verteilung π. DAS BAYES’SCHE ENTSCHEIDUNGSPRINZIP. Die Entscheidung d ∈ D sollte so gewählt werden, dass rπ (d) minimal ist. Im Vergleich zur Lage im klassischen Fall, wo Zulässigkeit häufig keine grosse Hilfe bei der Suche nach Entscheidungsfunktionen leistet, liefert das Bayes’sche Entscheidungsprinzip die Möglichkeit, Entscheidungsfunktionen zu konstruieren. Satz 3.7.2. Das Bayes’sche Risiko wird dadurch minimiert, dass man den aposteriori erwarteten Verlust minimiert: d(y) := arg mina∈A Eπ(· | y) {L(ϑ, a)}, wobei Eπ(· | y) für den Erwartungswert bezüglich der a-posteriori-Verteilung π(· | y) steht. 54 Dieser Satz hat einige nützliche Konsequenzen. Bei der Schätzung eines Parameters in IR mit quadratischem Verlust erhält man als Schätzer den Erwartungswert der a-posteriori-Verteilung; mit L(θ, a) := |θ − a| erhält man ihren Median. Bei Tests von einfachen Hypothesen erhält man die Neyman–Pearson–Tests; im Gegensatz zum klassischen Verfahren wird der Wert von k durch die Wahl von π und der Kosten bestimmt. Bei der Schätzung eines Parameters in IR kann man auch Konfidenzintervalle durch die Betrachtung der a-posteriori-Verteilung π(· | y) sehr einfach gestalten. Zum Beispiel nimmt man das kürzeste Intervall in Θ, das durch die a-posterioriVerteilung π(· | y) eine Wahrscheinlichkeit von 95% zugeordnet bekommt. Ein weiterer Vorteil der Bayes’schen Methode: Bayes–Entscheidungen sind (mit nur wenigen Ausnahmen) z ulässig; und zulässige Entscheidungen sind auch Bayes– Entscheidungen (für ein gewisses π), solange die Risikomenge abgeschlossen und konvex ist (wobei die Definition der Risikomenge verallgemeinert werden muss, falls Θ aus mehr als nur 2 Punkten besteht). 3.8 Die nichtparametrische Statistik Bisher haben wir angenommen, dass die Verteilung der Daten bis auf die Werte einiger reeller Parameter bekannt ist. Wie geht man vor, wenn man Eigenschaften einer völlig unbekannten Verteilung untersuchen will? Wir betrachten nur den einfachsten Fall, wo uns eine Stichprobe y1 , . . . , yn aus einer unbekannten Verteilung F vorliegt. Einen Zugang liefert uns die empirische Verteilung Fn , welche in (3.1.1) definiert ist. Diese konvergiert gegen die unbekannte Verteilung F im folgenden Sinne. Satz 3.8.1 (Glivenko–Cantelli). Seien Y1 , Y2 , . . . unabhängig und identisch verteilt mit Verteilung F . Sei Fn die empirische Verteilung von Y1 , . . . , Yn . (Bemerkung: Fn = Fn (ω) ist zufällig.) Dann gilt lim sup |Fn (x) − F (x)| = 0 n→∞ f.s., x wobei wir Fn (x) für Fn {(−∞, x]} und F (x) für F {(−∞, x]} schreiben. Beweis: Die Konvergenz gilt wegen des starken Gesetzes der grossen Zahlen für das Supremum über beliebige, aber nur endlich viele x-Werte x1 , . . . , xk . Da sowohl Fn (x) als auch F (x) steigende Funktionen sind, kann man jedoch die gewünschte Konvergenz daraus ableiten. 2 Sei jetzt T ein Funktional einer Verteilung: T bildet die Menge aller Wahrscheinlichkeitsverteilungen M in IR ab. Sei T stetig in der Topologie der gleichmässigen Konvergenz von Verteilungsfunktionen. Dann folgt aus dem Satz 3.8.1, dass 55 T (Fn ) → T (F ) f.s. Leider sind sehr wenig statistisch interessante Funktionale stetig — der Erwartungswert, zum Beispiel, ist nirgendwo stetig in dieser Topologie. Allerdings ergibt sich aus einem stetigen Abbildungssatz, dass T (Fn ) → T (F ) f.s., falls T im Punkt F ∈ M stetig ist, was viel einfacher zu erreichen ist (der Median ist bei den meisten F stetig). Auch die Variabilität des Schätzers T (Fn ) von T (F ) lässt sich aus dem Gedanken, dass Fn nahe bei F liegt, näherungsweise erhalten. Um dies zu bewerkstelligen, untersucht man die Verteilung von T (Fm∗ ), wobei Fm∗ die empirische Verteilung einer Stichprobe vom Umfang m aus der (diskreten) Verteilung Fn ist — die sogenannte Bootstrap–Methode. Darauf, wie dies genau geschieht, und weshalb es meistens sinnvoll ist, m viel kleiner als das ursprüngliche n zu wählen, wird hier nicht näher eingegangen. 56