Wahrscheinlichkeit und mathematische Statistik Inoffizielles Skript zur Vorlesung von Prof. Grecksch, SS 2009 geschrieben von Henning Seidler Inhaltsverzeichnis 1 Zufällige Ereignisse 2 2 Wahrscheinlichkeitsraum, Anwendung 6 3 Zufallsgrößen, zufällige Vektoren 12 4 Charakteristische Funktionen 30 5 Gesetze der Großen Zahlen und Anwendungen in der Statistik 32 5.1 Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 6 Zum zentralen Grenzwertsatz 38 7 Maximum-Likelihood-Schätzungen 39 8 Zu Signifikanztesten 41 8.1 Gütefunktion eines Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 8.2 Konfidenzintervalle/Konfidenzschätzungen . . . . . . . . . . . . . . . . . . . . . . . 43 Einführung: vielfältige Erscheinungen in Wirtschaft (z.B. Ausfälle v. Maschinen, Aktien,...), atomarer Zerfall, Wachstumsprozesse, Verhalten v. Epidemien Mathematische Modellierung (i) komplizierter praktischer Sachverhalt (ii) Erstellung eines mathematischen Modells (evtl. aus Zusammensetzung bisheriger Modelle) (iii) Rückkopplung zur Praxis, Durchführung von Experimenten mit dem Modell (iv) Interpretation des Ergebnis der Experimente, erneute Rückkopplung Aufgabe der Statistik: Methoden bereit stellen, um Verteilungen zu erfassen, Schlussfolgerungen von endlichen Stichproben ausgehend 1 1 Zufällige Ereignisse Definition 1.1. Ein zufälliger Versuch ist ein Vorgang (in einem sehr allgemeinen Sinne), der unter gleichen äußeren Bedingungen beliebig oft wiederholbar ist und dessen Ergebnis im Rahmen verschiedener Möglichkeiten ungewiss ist. Ein Ergebnis eines ZV heißt (zufälliges) Ereignis. Das Ereignis, das bei jeder/keiner Versuchsdurchführung eintritt heißt sicheres/unmögliches Ereignis. Bez. Ω/∅ Folgerung: Sei A ein Ereignis. Dann ist A ⊆ Ω ⇒ Ereigniss als Mengen. Die Elemente von Ω heißen Elementarereignisse. Beispiel 1.2 1. idealer Würfel, Ω = {1, 2, 3, 4, 5, 6}, Ereignis z.B. A = {2, 4, 6} 2. Münze, Ω = {Zahl, Wappen} 3. Kartenspiele, Unfallstatistiken, Niederschlagsmessung, Ausbreitung von Epidemien, Umfragen Bemerkung 1.3. In der Formulierung im Rahmen verschiedener Möglichkeiten“ soll nicht nur ” der Fall endlich vieler Elementarereignisse enthalten sein, sondern auch unendlich vieler“ EE. ” (abzählbar und überabzählbar) Beispiel 1.4 1. Häufig in der Messtechnik: Toleranzbereiche (zulässige Abweichungen von einem Sollwert), → Intervall [x0 − δ, x0 + δ] → unendlich viele EE. 2. Menge aller möglichen Kursentwicklungen einer Aktie im Zeitintervall [0, T ], Ω = {ω : [0, T ] → R+ } - Menge von Funktionen z.B. A = {ω ∈ Ω : ∃h, t > 0 : ω(t) > ω(t + h)} - der Kurs fällt zu irgendeinem Zeitpunkt 3. Kurven der Brown’schen Molekularbewegung 4. Anzahl der bis zu einem Zeitpunkt t eingetroffenen Nachrichten Beispiel 1.5 zwei Würfe eines Würfels: Dann sind die EE geordnete Paare, z.B. A: Summe ≥ 10, A = {(5, 5), (5, 6), (6, 5), (6, 6)} das konkrete Aufschreiben wird mühsam, insbesondere bei häufigen Durchführungen Bemerkung 1.6. Einführung von Operationen mit Ereignissen, die ihre Entsprechung in der Mengenlehre haben. Seien A, B ∈ Ω (Bilder fehlen noch) Ω A⊆Ω A = Ω\A A∩B A⊆B sicheres Ereignis A ist Ereignis A ist nicht eingetreten/Komplementärereignis sowohl A als auch B ist eingetreten A zieht B nach sich dazu noch A ∪ B, A\B, A4B 2 Weiterhin: n S Ai = A1 ∪ A2 ∪ ... ∪ An , ∞ S i=1 i=1 Ai = A1 ∪ A2 ∪ ... = {ω : ∃i : ω ∈ Ai } (mindestens eines der Ereignisse Ai tritt ein.) n ∞ T T Ai = A1 ∩ A2 ∩ ... ∩ An , Ai = A1 ∩ A2 ∩ ... = {ω : ∀i : ω ∈ Ai } i=1 i=1 (alle Ereignisse Ai treten ein.) Beispiel 1.7 Würfelexperiment (1mal): Betrachte A = {2} ∪ {4} = {2, 4}, B{3} ∩ {3, 5} = {3}, C = {3} = {1, 2, 4, 5, 6} Beispiel 1.8 Ein technisches System bestehe aus 3 Teilsystemen, die in einem betrachteten Zeitraum zufällig ausfallen können (oder auch nicht) 1. Kodierung: 0: steht für Ausfall, 1 steht für Nicht-Ausfall/intakt; Ω = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} 2. A: Genau zwei Teilsysteme fallen aus, B: Teilsystem 1 fällt aus A = {(0, 0, 1), (0, 1, 0), (1, 0, 0)}, B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1)}, A ∩ B = {(0, 0, 1), (0, 1, 0)} - System 1 fällt aus und genau ein Weiteres. A ∪ B = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (0, 1, 1), (1, 0, 0)}, A\B = {((1, 0, 0)}, A = Ω\A = {(0, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} 3. Man beschreibe (Ü.i.S = Übungsaufgabe im Selbststudium) C: kein Teilsystem fällt aus, D: Höchstens ein Teilsystem fällt aus, E: Mindestens ein Teilsystem fällt aus weiterhin: A ∩ E, E\B, B ∩ C, B ∩ D in Mengen und in Worten 4. (Ü.i.s) Welche der Ereignisse sind paarweise unvereinbar (disjunkt) Beispiel 1.9 1. Der zufällige Versuch bestehe im Verteilen und Ausfüllen eines Fragebogens mit 4 alternativen (unabhängigen) Entscheidungsfragen. Ak : Ereignis, dass Frage k mit ”ja”beantwortet wird. (k = 1, 2, 3, 4) A: Jede Frage wird mit ”ja”beantwortet, A = A1 ∩ A2 ∩ A3 ∩ A4 B: Es wird keine der Fragen mit ”ja”beantwortet, B = A1 ∩ A2 ∩ A3 ∩ A4 !! 4 T S Ak ∩ Ai C: Es wird genau eine Frage mit ”nein”beantwortet. C = k=1 i6=k D: Mindestens eine Frage mit ”ja”beantwortet, D = A1 ∪ A2 ∪ A3 ∪ A4 E: Es werden genau zwei Fragen mit ! ”ja”beantwortet. 4 S S E= Ak ∩ A i ∩ Aj i,k=1,i6=k j6=i,k 2. *Bildchen* Ai : Element i fällt aus, C: System fällt aus (am Ausgang kommt nichts an), 0-Ausfall, 1-intakt, Ω = {(a1 , a2 , a3 , a4 , a5 ) : ai ∈ {0, 1}, i = 1, ..., 5} C = A1 ∪ ((A2 ∪ A3 ) ∩ A4 ) ∪ A5 3 Doch wichtiger ist eine Maßzahl für die Häufigkeit des Eintreffen des Ereignisses. Hierbei stellt sich die Frage, wie sich die Wahrscheinlichkeit von verküpften Ereignissen verhält. Zudem benötigt man eigentlich die Wahrscheinlichkeiten der Teilereignisse. Diese sind aber oftmals nur näherungsweise bekannt. Definition 1.10. Sei (An )n∈N eine Folge von Ereignissen (aus Ω). ∞ ∞ S T 1. lim inf An := Ai Dies ist das Ereignis, das darin besteht, dass alle Ereignisse einn→∞ n=1 i=n treten, ausgenommen einer endlichen Anzahl von Ereignissen Ai . Es gibt ein n ∈ N, sodass alle Ai für i ≥ n erfüllt sind. ! ! ! ∞ ∞ ∞ \ \ \ lim inf An = Ai ∪ Ai ∪ ... ∪ Ai ∪ ... n→∞ ∞ T 2. lim sup An = n→∞ ∞ S n=1 i=1 i=2 i=n Ai i=n 3. Eine Folge von Ereignissen (An )n∈N heißt monoton wachsend, wenn ∀n : An ⊆ An+1 und monoton fallen, wenn ∀n : An+1 ⊆ An (streng monoton im Fall ⊂) 1. Eine Folge von Ereignissen (An )n∈N , An ⊂ Ω erfüllt die Regeln von de Morgan Satz 1.11. a) ∞ S An = i=1 b) ∞ T ∞ T An i=1 An = i=1 ∞ S An i=1 Bemerkung: Dies gilt auch für beliebige Familien. 2. Es gilt stets lim inf An ⊆ lim sup An n→∞ n→∞ ∞ S 3. Wenn (An ) monoton wachsend, dann lim inf = lim sup An = n→∞ An n=1 ∞ T 4. Wenn (An ) monoton fällt, dann lim inf An = lim sup An = An ! n=1 ∞ ∞ ∞ [ [ [ Beweis. 1. (a) ω∈ / An ⇔ ω ∈ Ω\ An ⇔ ω ∈ An ⇔ ∀n : ω ∈ / An n=1 n=1 n=1 ⇔ ∀n : ω ∈ Ω\An ⇔ ∀n : ω ∈ An ⇔ ω ∈ ∞ \ n=1 (b) ∞ [ An = n=1 Wegen ∞ T An ⊆ n=nω ∞ S ∀m : ω ∈ n=m ∞ S (a) An = n=1 2. Es gilt ω ∈ lim inf An ⇒ ∃nω : ω ∈ n→∞ ∞ [ ! ∞ T n=1 An für alle m gilt also: n=m ∞ S ∞ T m=1 n=m ! An = ∞ \ n=1 An ⇒ ∀n ≥ nω : ω ∈ An n=nω An ⇒ ω ∈ ∞ \ An = lim sup An n→∞ 4 An An 3. für eine monoton wachsende Folge von Ereignissen gilt: ∞ S lim inf An = n→∞ An . Nach Def. ist lim sup An ⊆ n→∞ n=1 Ak = An für alle n Daraus folgt k= An . Nach (2) folgt nun Gleichheit. Und n=1 ∞ S wegen dieser Beziehung gilt auch lim inf An = n→∞ ∞ S ∞ T An . n=1 4. analog zu (3) Definition 1.12. Eine Menge F von Ereignissen aus Ω 6= ∅ heißt Ereignisfeld (σ-Algebra), wenn: 1. F 6= ∅ 2. A ∈ F ⇒ Ω\A ∈ F ∞ S 3. (An )n∈N ⊂ F ⇒ An ∈ F n=1 Sprechweise: das Paar (Ω, F) wird bezeichnet als ”messbarer Raum”. Beispiel 1.13 1. Die Potenzmenge einer Menge Ω ist ein Ereignisfeld. 2. Zu allen betrachteten Beispielen mit endlicher Menge Ω ist die Potenzmenge das zugehörige Ereignisfeld. 3. Für unendliche Ω ist im Allgemeinen die Potenzmenge zu groß“ (im Sinne von ” sie ist ungeeignet“). ” 4. Seien (Ω, F), (Ω∗ , F∗ ) messbare Räume. T : Ω → Ω∗ eine Funktion. Dann ist FT = {T −1 (A∗ ) : A∗ ∈ F∗ } (Menge aller Urbilder) ein Ereignisfeld in Ω, denn T −1 (A∗ ) = {ω : T (ω) ∈ A∗ }, A∗ ∈ F∗ . Nun ist Ω\T −1 (|{z} A∗ ) = {ω : T (ω) ∈ / A∗ } = {ω : T (ω) ∈ Ω∗ \A∗ } = T −1 (Ω∗ \A∗ )} ∈ F∗ | {z } ∗ ∈F ∈F∗ Also ist Ω\T −1 (A∗ ) ∈ F∗ . Somit ist die zweite Eigenschaft erfüllt. Sei (An )n∈N ⊆ FT ⇒ Ai = T −1 (A∗i ). Somit ist ∞ [ An = n=1 ∞ [ T −1 (A∗n ) = {ω ∈ Ω : ∃n : ω ∈ T −1 (A∗n )} n=1 ∞ [ ( = {ω ∈ Ω : ∃n : T (ω) ∈ A∗n } = ∞ [ ( = ω ∈ Ω : ω ∈ T −1 ω ∈ Ω : T (ω) ∈ ∞ [ !) A∗n = T −1 n=1 Damit ist die dritte Bedingung erfüllt. Folgerung 1.14. Sei F ein Ereignisfeld. Dann gilt 5 A∗n n=1 ! A∗n ∈ FT n=1 | ) {z =:A∗ ∈F∗ } 1. ∅, Ω ∈ F 2. A, B ∈ F ⇒ A ∩ B, A\B, A4B ∈ F 3. (An )n∈N ⊆ F ⇒ ∞ T n=1 Beweis. An , lim inf An , lim sup An ∈ F n→∞ n→∞ 1. Nach Axiom (1) gibt es ein A ∈ F. Somit ist ∅ = A\A ∈ F und Ω = Ω\∅ ∈ F 2. A ∩ B = Ω\((Ω\A) ∪ (Ω\B)) Rest ist Ü.i.S. Lemma 1.15. F0 sei eine Menge von Ereignissen (aus Ω). Dann existiert in der Potenzmenge von Ω (Bez. P(Ω) ein kleinstes Ereignisfeld (Bez. σ{F0 }) d.h σ{F0 } ist das Ereignisfeld, das F0 enthält und für jedes andere Ereignisfeld S, das ebenfalls F0 enthält, gilt σ{F0 } ⊆ S. T Beweis. Betrachte σ{F0 } := {S : F0 ⊂ S, S ist Ereignisfeld} ⊇ F0 6= ∅ ist ein Ereignisfeld, da es ein Schnitt von Ereignisfeldern ist. Wegen dieser Definition ist auch F0 ∈ σ{F0 } und σ{F0 } ist minimal. Beispiel 1.16 1. Betrachte < a1 , b1 >, ..., < an , bn >⊂ R seien Intervalle. F0 : System aller endlichen Vereinigungen von Intervallen. Dann ist σ{F0 } = B1 (σ-Algebra der Borelmengen aus R1 ). B1 wird erzeugt von {] − ∞, c] : c ∈ R} und vielen anderen. 2. Entsprechend Bn im n-dimensionalen. B1 , Bn sind also Ereignisfelder (σ-Algebren). Es fehlt: Wie kann die Ungewissheit“ in 1.1 beschrieben“ werden?⇒ Wahrscheinlichkeit von Er” ” eignissen Kapitel 2 (R2 , B1 ) ist ein Beipsiel für einen messbaren Raum (insbes. für ein Ereignisfeld), ebenso (Rn , Bn ) Wie gelangt man von (Ω, F) in (R1 , B1 ), sodass der Rahmen von Ereignissen aus F nicht verlassen wird? Wie wird dabei die Wahrscheinlichkeit auf (Ω, F) in eine Wahrscheinlichkeit auf (R1 , B1 ) transformiert? Kapitel 3 Bemerkung 1.17. Sei (Ω, F)) ein messbarer Raum, ( 1 :ω∈A A ∈ F, 1A (ω) = 0 : sonst Seien A, B ∈ F. Dann ist 1A∩B (ω) = 1A (ω) · 1B (ω) und 1A∪B (ω) = max{1A (ω), 1b (ω)}, 1A (ω) = 1Ω (ω) − 1A (ω), 1A\B (ω) = 1A∩B (ω) = 1A (ω)(1Ω (ω) − 1B (ω)) = 1A (ω) − 1A∩B (ω) 2 Wahrscheinlichkeitsraum, Anwendung Definition 2.1. Sei (Ω, F) ein messbarer Raum. Eine Abbildung P : F → R heißt Wahrscheinlichkeit, wenn folgende Bedingungen erfüllt sind: 1. P (Ω) = 1 2. ∀A ∈ F : P (A) ≥ 0 6 3. Für jede Folge (An )n∈N ⊂ F von Ereignissen mit der Eigenschaft ∀i 6= j : Ai ∩ Aj = ∅ (Ai ∞ ∞ S P sind paarweise disjunkt) gilt P An = P (An ) (1932: Kolmogorow) n=1 n=1 Das Tripel (Ω, F, P ) heißt Wahrscheinlichkeitsraum. Bemerkung: (Ω, F, P ) sei vollständig, d.h. F enthält auch alle Nullereignisse (= {A : P (A) = 0}}). Satz 2.2. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, A, B ∈ F. Dann gelten 1. P (A) = 1 − P (A), 0 ≤ P (A) ≤ 1 2. P (∅) = 0 3. P (A\B) = P (A) − P (A ∩ B), insbesondere B ⊆ A ⇒ P (A\B) = P (A) − P (B) 4. Wenn A ⊆ B, dann P (A) ≤ P (B) ( Monotonie“) ” 5. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 2.1(3) Beweis. 1. A ∩ A = ∅, A ∪ A = Ω ⇒ P (Ω) = P (A ∪ A) = P (A) + P (A) ⇒ P (A) = 1 − P (A) Ferner A ∈ F ⇒ P (A) ≥ 0 und 0 ≤ P (A) = 1 − P (A) ⇒ 0 ≤ P (A) ≤ 1 2. Anwendung von (1) mit A = Ω ⇒ A = ∅ ⇒ P (∅) = 1 − P (Ω) = 1 − 1 = 0 2.1(3) 3. A = (A ∩ B) ∪ (A\B), (A ∩ B) ∩ (A\B) = ∅ ⇒ P (A) = P (A ∩ B) + P (A\B) ⇒ P (A\B) = P (A) − P (A ∩ B) Für B ⊂ A ist A ∩ B = B. Rest trivial (3) 4. A ⊆ B ⇒ A ∩ B = A, B\A ∈ F ⇒ 0 ≤ P (B\A) = P (B) − P (A) ⇒ P (A) ≤ P (B) 5. Wegen A ∪ (A ∩ B) = A ∪ B und A ∩ (A ∩ B) = ∅ folgt mit 2.1(3) P (A ∪ B) = P (A) + P (A ∩ B) = P (A) + P (B\A) = P (A) + P (B) − P (A ∩ B) Satz 2.3. Sei (Ω, F, P ) Wahrscheinlichkeitsraum, (An )n∈N ⊂ F. Dann n n n S P P 1. P Ai = P (Ai ) − P (Ai ∩ Aj ) + ... + (−1)n−1 P (A1 ∩ A2 ∩ ... ∩ An ) i=1 2. P ∞ S n=1 i=1 Ai ≤ ∞ P i,j=1;i<j P (Ai ) n=1 Satz 2.4. ( Stetigkeitseigenschaften von P“) ” ∞ S 1. Sei (An )n∈N ⊂ F monoton wachsend. Dann lim P (An ) = P n→∞ 2. Sei (An )n∈N ⊂ F monoton fallend. Dann lim P (An ) = P n→∞ 3. Sei (An )n∈N ⊂ F, A = n=1 AN , dann lim P n→∞ i=1 7 ∞ T n=1 n S An n=1 ∞ S Ai = P (A) An 4. Sei (An )n∈N ⊂ F, A = ∞ T An , dann lim P n→∞ n=1 Beweis. n T Ai = P (A) i=1 1. Setze B1 := A1 , B2 = A2 \A1 , ..., Bn := An \An−1 , ... Dann A := ∞ S n=1 An = ∞ S Bn . n=1 Die der Definition paarweise disjunkt. Also ist i sind B nach ∞ ∞ ∞ S S P P An = P Bn = P (Bn ) = P (A1 ) + P (A2 \A1 ) + ... n=1 n=1 n=1 = P (A1 ) + P (A2 ) − P (A1 ) + ... + P (An ) − P (An−1 + ... = lim P (An ) n→∞ (2) entsprechend, (3) auf (1) zurückführen, (4) auf (2) zurück führen Beispiel 2.5 (Klassische Definition der Wahrscheinlichkeit, Laplace, 1759-1820) Sei Ω = {ω1 , ..., ωn }, P (ω1 ) = P (ω2 ) = ... = P (ωn ) = n1 . F ist hierbei: Anzahl der ωi mit ωi ∈ A n heißt klassische Wahrscheinlichkeit von A (Anzahl der für A günstigen Versuchsausgänge). Die klassische Definition erfüllt 2.1: P (Ω) = nn = 1, Quotient nichtnegativer Werte ist nichtnegativ, also P (A) ≥ 0. Seien A1 , A2 ∈ F, A1 ∩ A2 = ∅. A1 werde durch n1 EE beschrieben, A2 durch n2 EE. P (A1 ) = nn1 , P (A2 ) = nn2 . A1 ∪ A2 wird durch n1 + n2 2 = P (A1 ) + P (A2 ). Nach Induktion ist die EE beschrieben. Also ist P (A1 ∪ A2 ) = n1 +n n Erweiterung auf jede endliche Anzahl möglich. F = P(Ω), A∈F P (A) = Beispiel 2.6 1. Werfen eines idealen Würfels, Ω = {1, 2, 3, 4, 5, 6}, ωi = i, P (ωi ) = 61 . A: Es fällt eine ungerade Augenzahl. P (A) = P ({1, 3, 5}) = 36 = 12 , Für A = {1, 2} ist P (A) = 62 = 31 2. Das zufällige Experiment sei dreimaliges Werfen einer Münze, bei Beachtung der Reihenfolge. Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} enthält 23 = 8 EE. Diese treten mit gleichem Wert 81 auf. A: Wie groß ist die Wahrscheinlichkeit, dass bei einem Wurf Wappen“ genau zweimal vorkommt? ” P (A) = P ({wwz, wzw, zww}) = 38 Definition 2.7. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, B ∈ F, mit P (B) > 0, A ∈ F. P (A|B) := P P(A∩B) heißt bedingte Wahrscheinlichkeit. (B) Folgerung 2.8. Sei (Ω, F, P ), B ∈ F, P (B) > 0. Dann ist für festes B auch (Ω, F, P (·|B)) ein Wahrscheinlichkeitsraum. Beweis. Es bleibt zu beweisen, P (·|B) besitzt die Eigenschaften der Def. 2.1. 2.7 P (B) Nach Konstruktion ist ∀A ∈ F : P (A|B) > 0. P (Ω|B) = P P(Ω∩B) = P (B) = 1. (B) Sei A1 , ..., An , ... ∈ F, Ai ∩ Aj = ∅ (i 6= j). Dann ∞ ∞ S S ! (An ∩ B P An ∩ B P ∞ [ 2.7 n=1 n=1 P An |B = = P (B) P (B) n=1 (Ai ∩B)∩(Aj ∩B)=∅ = ∞ X P (An ∩ B) n=1 8 P (B) = ∞ X n=1 P (An |B) Folgerung 2.9. (Multiplikationsregel) Sei (Ω, F, P ), A1 , ..., An ∈ F mit P (A1 ∩ ... ∩ An ) > 0 Dann gilt P (A1 ∩ ... ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · ... · P (An |A1 ∩ ... ∩ An−1 ) Beweis. P (A1 ∩ ... ∩ An ) P (A1 ∩ A2 ) · ... · P (A1 ) P (A1 ∩ ... ∩ An−1 ) = P (A1 ∩ ... ∩ An ) 2.7 P (A1 ) · ... · P (An |A1 ∩ ... ∩ An−1 ) = P (A1 ) · Alle Nenner snd von Null verschieden nach Voraussetzung. Jeder Zähler kürzt sich mit dem Nenner des nächsten Faktors weg. Beispiel 2.10 2.7 ist sinnvoll. Man habe eine Urne mit 100 gleich großen Kugeln in den Farben schwarz und weiß und zweierlei Masse 10g und 500g. weiß schwarz 10g 10 30 500g 45 15 Aus der Urne wird zufällig eine Kugel entnommen (klass. Wahrscheinlichkeit). A: gezogene Kugel ist weiß. B gezogene Kugel besitzt die Masse 500g. 55 Hat man beim Herausnehmen der Kugel aus der Urne noch ehe die Farbe P (A) = 100 festgestellt wird zweifelsfrei bemerkt, dass die Kugel schwer ist, so erwartet man jetzt mit dieser Zusatzinformation (also des Eintretens von B) eine weiße Kugel mit der = 0.75 Diese Wahrscheinlichket ergibt sich aus 2.1. Ferner ist Wahrscheinlichkeit 45 60 P (A∩B) P (B) = 45 100 : 60 100 = 45 60 2.7 = 0.75 = P (A|B) und P (B|A) = P P(A∩B) unterscheiden sich hinMan beachte, dass P (A|B) = P P(A∩B) (B) (A) 45 sichtlich des Inhalts: P (B|A) = 55 die Wahrscheinlichkeit, dass eine weiße Kugel schwer ist. Satz 2.11. (Formel der totalen Wahrscheinlichkeit) Sei Ω = A1 ∪ ... ∪ An , Ai ∩ Aj = ∅ für n P i 6= j, P (A1 ), ..., P (An ) > 0, B ∈ F Dann ist P (B) = P (Ai )P (B|Ai ) i=1 Beweis. B = n S i=1 (B ∩ Ai )) = n P 2.7 P (B ∩ Ai ) = i=1 Bemerkung: 2.11 gilt auch für Ω = n P P (Ai )P (B|Ai ) i=1 ∞ S An , Ai ∩ Aj = ∅ für i 6= j n=1 Beispiel: Urne 1: 3 weiße, 2 schwarze Kugeln; Urne 2: 1 weiße, 4 schwarze Kugeln; Mit Wahrscheinlichkeit 12 wird eine Urne ausgewählt und dann willkürlich eine Kugel gezogen. Wie groß ist die Wkt., dass eine weiße Kugel gezogen wird? A1 Auswahl von Urne 1, A2 : Urne 2, P (A1 ) = P (A2 ) = 21 , A1 ∩ A2 = ∅, P (A1 ) + P (A2 ) = 1, P (B|A1 ) = 35 , P (B|A2 ) = 15 . Die Formel für die totale Wkt liefert nun: P (B) = P (A1 )P (B|A1 ) + P (A2 )P (B|A2 ) = 0.4. Solche Sachverhalten treten beispielsweise in der Qualitätskontrolle auf. 9 SatzS2.12. (Formel von Bayes) Seien A1 , ..., An ∈ F, B ∈ F, P (B) > 0, Ai ∩ Aj (i 6= j), Ω = Ai , P (Ai ) > 0 (i = 1, ..., n). Dann ist P (Aj )P (B|Aj ) P (Aj |B) = P n P (Ai )P (B|Ai ) für j = 1, ..., n i=1 Beweis. P (Aj |B) = P (Aj ∩ B) 2.11 P (Aj )P (B|Aj ) = P n P (B) P (Ai )P (B|Ai ) i=1 S Bemerkung: Sei Ω = Ai . Die Wkt P (Ai ) nennt man Priori-Wahrscheinlichkeiten. (Wkt. ohne Nebenbedingungen). Eine Vermutung/Hypothese B (Hinweise auf Ai ). Die P (Ai |B) nennt man Posteriori-Wkt. Definition 2.13. (Unabhängigkeit von Ereignissen) 1. A, B ∈ F heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B). 2. Eine Folge (An ))n∈N von Ereignissen heißt Folge unabhängigen Ereignissen (unabhängig in der Gesamtheit), wenn für alle endlichen Mengen {i1 , ..., in } ⊂ {1, 2, ...} gilt P (Ai1 ∩ ... ∩ Ain ) = P (Ai1 ) · ... · P (Ain ) 3. Eine Folge (An ))n∈N von Ereignissen heißt Folge von paarweisen unabhängigen Ereignissen, wenn: ∀i 6= j : P (Ai ) · P (Aj ) = P (Ai )P (Aj ) 4. (2) und (3) entsprechend für A1 , ..., An (endlich viele Ereignisse) (B) = P (A)·P = P (A) Das heißt, das Bemerkung 2.14. 1. Aus 2.13.1 folgt : P (A|B) = P P(A∩B) (B) P (B) Entreten von B hat keinen Einfluss auf die Wkt des Eintreffens von A. Es gilt auch die Umkehrung P (A|B) = P (A) ⇒ P (A ∩ B) = P (A) · P (B). 2. Bsp. Würfel: gefühlmäßig“ sind die Ereignisse Fallen einer 2“ und Fallen einer geraden ” ” ” Augenzahl“ nicht unabhängig. Die Rechnung belegt: P (A) · P (B) = 16 · 21 6= 16 = P ({2}) = P (A ∩ B) 3. Aus (2) in 2.13 folgt (3) in 2.13. Die Umkehrung gilt i.A. nicht. Bsp.: 2maliger Münzwurf, Ω = {ww, wz, zw, zz}, A1 : beim ersten Wurf w“, A1 = {ww, wz}, ” A2 : Beim 2. Wurf w“, A2 = {ww, zw}, A3 : beide Würfe sind gleich, A3 = {ww, zz} ” P (A1 ∩ A2 ) = P ({ww}) = 14 = 21 · 21 = P (A1 ) · P (A2 ) ⇒ A1 , A2 unabh.,analog A2 , A3 und A1 , A3 jeweils unabhängig. Also sind A1 , A2 , A3 paarweise unabhängig. Aber es ist P (A1 ∩A2 ∩A3 ) = P ({ww}) = 41 6= 18 = P (A1 )·P (A2 )·P (A3 ), Also sind A1 , A2 , A3 nicht in der Gesamtheit unabhängig. 4. In 2.13.2 steht ein System von Gleichungen. Nun: A1 , ..., An . Aus P (A1 ∩ ... ∩ An ) = P (A1 ) · ... · P (An ) folgt i.A. nicht 2.13.2. 3-maliger Wurf einer Münze: Ω = {www, wwz, wzw, zww, wzz, zwz, zzw, zzz} Wkt 81 . A := {www, wwz, wzw, zww}, B := {www, wwz, wzw, wzz}, C := {www, zww, wzz, zzz} Dann ist P (A) = P (B) = P (C) = 12 . P (A ∩ B ∩ C) = P ({www}) = 18 = P (A) · P (B) · P (C) aber P (A ∩ B) = P ({www, wwz, wzw}) = 83 6= P (A) · P (B) 10 5. Man darf nicht unabhängig und disjunkt vermischen! Satz 2.15. (Ω, F, P ), A, B ∈ F Dann sind folgende Aussagen äquivalent. 1. A, B unabhängig 2. A, B unabhängig 3. A, B unabhängig 4. A, B unabhängig Beweis. (1) ⇔ (2) : P (B) − P (A)P (B) = (1 − P (A))P (B) = P (A) · P (B) = P (A ∩ B) = P (A\B) = P (B) − P (A ∩ B). Also P (A) · P (B) = P (A ∩ B) Rest folgt aus (1) und Symmetrie der Unabhängigkeit. Lemma 2.16. (Borel-Cantelli) 1. Sei (An ) eine Folge von Ereignissen mit ∞ P P (An ) < ∞ Dann ist P n=1 2. Sei (An ) eine Folge unabhängigen Ereignissen mit ∞ P lim An = 0. n→∞ P (An ) = ∞. Dann P n=1 ∞ S 1. lim An ⊆ Ai für alle n ⇒ P lim A1 ≤ P n→∞ i=n n→∞ ⇒ P lim An = 0 Beweis. ∞ S Ai ≤ i=n ∞ P lim An = 1. n→∞ n→∞ P (Ai ) −→ 0 ∀n i=n n→∞ 2. Weil Ai unabhängig ⇒ Ai unabhängig. ! ! ∞ ∞ [ [ Ai = 1 − P P Ai = 1 − P i=n ∞ \ i=n ! Ai = 1 − lim P m→∞ i=n m \ ! Ai i=n ∞ ∞ Y Y = 1 − lim P (A1 · ... · P (Am ) = 1 − P (Ai ) = 1 − (1 − P (Ai )) m→∞ i=n i=n kurzer Ausflug in Analysis: Taylorentwiklcung von e−x liefert: ∞ P ∞ ∞ Y Y − P (Ai ) −P (Ai ) 0≤ (1 − P (Ai ) ≤ e = e i=n i=n i=n ∞ ∞ P Q Nun n fest. Nach Vorr. folgt P (Ai ) = +∞. Also ist (1 − P (Ai )) = 0 für jedes n. Also i=n ∞ ∞ ∞ i=n ∞ S S T S ist P Ai für jedes n. P (lim sup An ) = P An = lim P Ai = 1 i=n n→∞ n=1 i=n n→∞ i=n Definition 2.17. Gegeben sei ein zufälliger Versuch mit den Ausgängen A und A. Tritt bei nk k unabhängigen Versuchswiederholungen mk mal das Ereignis A ein, so heißt hnk (A) := m relative nk Häufigkeit. Bemerkung 2.18. hnk (A) hängt von konkretem Versuchsablaufstatt. Im Unterschied zu P (A) keine feste Zahl bei Vorgabe von A. Aber für n1 < n2 < ... gilt P lim hnk (A) = P (A) = 1, d.h. k→∞ hnk (A) ist eine Näherung für P (A). (vgl. Kapitel 4, 11 statistische Definition der Wkt.) 3 Zufallsgrößen, zufällige Vektoren Definition 3.1. 1. Eine Funktion X : Ω → R heißt eine (reelle) Zufallsgröße (zufällige Variable,...) falls ∀A ∈ B1 : X −1 (A) = {ω : X(ω) ∈ A} ∈ F 2. Seien X, Y Zufallsgrößen (Zgrn.). Dann heißt X + iY komplexe Zgr. ~ := (X1 , ..., Xn )T (n-dimensionaler) zufälliger Vek3. Sind X1 , ..., Xn reelle Zgr., dann heißt X n n −1 tor. (X : Ω → R , ∀B ∈ B : X (B) ∈ F) Bemerkung: Sei X : Ω → R Nach 1.13(3) wissen wir, dass {X −1 (A) : A ∈ B1 } eine σ-Algebra in Ω erzeugt (also ein Ereignisfeld). In 3.1 fordern wir, dass dieses in F liegt, also: Der Rahmen des Ereignisfeldes F wird nicht verlassen. Beispiel 3.2 ( 1 :ω∈A Sei A ⊂ Ω, 1A (ω) = ist Zgr. (zweipunkteverteilte Zgr.) wenn A ∈ F, denn: 0 :ω∈ /A Sei X(ω) := 1A (ω), B ∈ B Fall 1: B ∈ B mit 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F Fall 2: B ∈ B mit 0 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = A ∈ F Fall 3: B ∈ B mit 0, 1 ∈ B ⇒ X −1 (B) = {ω : X(ω ∈ B} = Ω ∈ F Fall 4: B ∈ B mit 0, 1 ∈ / B ⇒ X −1 (B) = {ω : X(ω ∈ B} = ∅ ∈ F Also 1A erzeugt in F das Ereignisfeld {∅, A, A, Ω} Beispiel 3.3 X heißt diskrete Zgr., wenn Ω = ∞ S Ai , Ai ∩ Aj = ∅ (i 6= j), Ai ∈ F, P (Ai ) > 0 i=1 (i = 1, 2, ...), x1 , x2 , ... ∈ R und X(ω) = ∞ P 1Ai (ω)xi i=1 Bemerkung 3.4. 1. oBdA x1 < x2 < ... 2. Sei B ∈ B beliebig. Zur Berechnung von P {ω : X(ω) ∈ B} ist die Kenntnis von pi := P (Ai ) erforderlich (i = 1, 2, ...) S P P −1 P {ω : X(ω) ∈ B} = P (X (B)) = P Ai = P (Ai ) = pi . i:xi ∈B i:xi ∈B i:xi ∈B T 3. Damit können wir auch sagen: Eine diskrete P Zgr. X ist beschrieben, wenn X = (x1 , x2 , ...) mit pi = P {ω : X(ω) = xi } (i = 1, 2, ...), pi = 1 i Beispiel 3.5 Eine diskrete Zgr. X heißt binomialverteilte Zgr., wenn X = k (0, 1, ..., n) mit n ∈ N n k n−k gegeben und P {X = k} = k p (1 − p) , p ∈ (0, 1), k = 0, 1, ..., n X ist diskrete Zgr., denn X = (0, 1, ..., n)T , P {X = k} ≥ 0, n n P P n k P {X = k} = p (1 − p)n−k = (1 + (1 − p))n = 1 k k=0 k=0 Interpretation: Zufallsexperiment mit den Ausgängen 1 und 0, wobei P (1) = p, P (0) = 1 − p. Das Experiment werde n-mal unabhängig durchgeführt. X gebe an, 12 wieviel Mal die 1 eintritt. Sei Ω = {(ω1 , ..., ωn ) : ωi ∈ {0, 1}, i = 1, ..., n}. Sei k ∈ {0, 1, ..., n}, k-mal sei 1 eingetreten. Folglich 0 ist n−k-mal eingetreten. z.B. n = 7, k = 5. ω = (1, 1, 1, 0, 0, 1, 1). 7 5 2 Dann ist P (ω) = p (1 − p) , aber es gibt 5 mögliche Anordnungen der Einsen. Das liefert dann die Formel. Beispiel 3.6 k X heißt Poissonverteilte Zgr, wenn X = (1, 2, ...)T und P {X = k} = λk! e−λ , wobei λ > 0 ein gegebener Parameter ist, k = 0, 1, 2, .... Das ist eine Zgr., denn: P {X = k} ≥ 0 und ∞ X P {X = k} = k=0 ∞ X λk k=0 k! −λ e −λ =e · ∞ X λk k=0 k! = e−λ eλ = 1 Oft: λ λt, t > 0 Zeit“, teilweise auch allgemeiner λ λ(t) ” z.B.: bei Versicherungen als Anzahl der Schäden, die bis zum Zeitpunkt t eingetreten sind; Bemerkung: 3.5 und 3.6 enthalten Parameter: (n, p), λ. um Wkt. entsprechend den Modellen 3.5, 3.6 zu ermitteln, müssen also diese Parameter bekannt sein. Bei 3.5: p wird mittels relativer Häufigkeit angenähert, wenn p unbekannt. λ kann als Intensität interpretiert werden. Kommt zum Begriff des Erwartungswerts. Satz 3.7. Die folgenden Aussagen sind äquivalent. 1. X ist Zgr. 2. ∀x ∈ R : X −1 ((−∞, x)) ∈ F 3. ∀x ∈ R : X −1 ((−∞, x]) ∈ F 4. ∀x ∈ R : X −1 ((x, ∞)) ∈ F 5. ∀x ∈ R : X −1 ([x, ∞)) ∈ F Beweis. (1) ⇒ (2): (−∞, x) = {y ∈ R : y < x} ∈ B ∞ T (2) ⇒ (3): (−∞, x] = −∞, x + n1 ⊇ (−∞, x], n=1 ∞ T 1 1 −1 −1 −1 X −∞, x + ) ∈ F ∀n ⇒ X ((−∞, x]) = X −∞, x + ∈F n n n=1 {z } {z } | | ∈B ∈F (3) ⇒ (4), (4) ⇒ (5) Ü.i.S. (5) ⇒ (1): M := {A ⊆ R1 : X −1 (A) ∈ F} ist Ereignisfeld (über R1 ). G = {[x, ∞) : x ∈ R1 } ist ein Teilsystem in M. Weiterhin wissen wir aus dem ersten Kapitel, dass σ(G) = B1 , G ⊆ M, (M, σ(G) sind Ereignisfelder und da G ⊆ M, ist σ(G) ⊆ M) Daher für alle B ∈ σ(G) = B1 durch B ∈ M und somit X −1 (B) ∈ F. Bemerkung 3.8. 3.7 gilt sinngemäß auch für n-dimensionale zufällige Vektoren, wenn man z.B. (−∞, x] durch (−∞, x1 ] × ... × (−∞, xn ], x1 , ..., xn ∈ R ersetzt. 13 Satz 3.9. Sei Y : Rn → R1 mit Y −1 (B) ∈ Bn für alle B ∈ B1 , X sei n-dimensionaler zufälliger Vektor. Dann ist Y ◦ X := Y (X(ω)), ω ∈ Ω eine Zgr. Beweis. Sei B ∈ B. Nach Voraussetzung ist Y −1 (B) ∈ Bn . X ist nach Voraussetzung ein n-dimensionaler zufälliger Vektor ⇒ {ω : X(ω) ∈ Y −1 (B)} ∈ F. Folglich (Y ◦ X)−1 (B) = {ω : Y (X(ω)) ∈ B} ∈ F. Das heißt, die Zusammensetzung definiert eine Zgr. Mit diesem Satz kann man beweisen: Folgerung 3.10. Seien X, Z Zgr. Dann 1. a ∈ R1 ⇒ a · X ist Zgr. 2. |X| ist Zgr. 3. X + Z ist Zgr. 4. X − Z ist Zgr. 5. X · Z ist Zgr. 6. X Z ist Zgr. wenn für alle ω ∈ Ω gilt Z(ω) 6= 0. 7. min{X, Z}, max{X, Z} ist Zgr. Satz 3.11. Seien X, Y Zgr. Dann: {ω : X(ω) > Y (ω)} ∈ F, {ω : X(ω) ≥ Y (ω)} ∈ F, {ω : X(ω) = Y (ω)} ∈ F T Beweis. {ω : X(ω) > Y (ω)} = ({ω : X(ω) > r} ∩ {ω : r > Y (ω)}) ∈ F | {z } {z } r∈Q | ∈F ∈F Da der abzählbare Durchschnitt von Ereignissen wieder ein Ereignis ist. {ω : X(ω) ≥ Y (ω)} = Ω\{ω : Y (ω) < X(ω)} ∈ F | {z } ∈F {ω : X(ω) = Y (ω)} = {ω : X(ω) ≥ Y (ω)}\{ω : x(ω) > Y (ω)} ∈ F | | {z } {z } ∈F ∈F Satz 3.12. Sei (Xn )n=1,2,... eine Folge von Zgr. Dann sind sup Xn , inf Xn , lim sup Xn , lim inf Xn n n n→∞ n→∞ Zufallsgrößen. ∞ S {ω : Xn (ω) > x} ∈ F Beweis. Sei x ∈ R beliebig. Dann {ω : sup Xn (ω) > x} = {z } n n=1 | | {z } ∈F ∃n:Xn >x inf Xn = − sup(−Xn ) Somit folgt die Behauptung mit dem ersten Teil. n n lim sup Xn = inf sup Xk ist ebenfalls Zgr. n→∞ n≥1 k≥n Satz 3.13. Sei X eine Zgr. Dann definiert PX : B → R1 mit ∀B ∈ B : PX (B) := P (ω : X(ω) ∈ B} = P (X −1 (B)) eine Wahrscheinlichkeit auf (R1 , B1 ) und PX heißt die durch X induzierte Wahrscheinlichkeit auf (R1 , B1 ). X Das bedeutet, der Wahrscheinlichkeitsraum wird transformiert. (Ω, F, P ) → (R, B1 , PX ) 14 Beweis. Nachweis der Kolmogorov-Axiome. (1) PX (B) ≥ 0 ist erfüllt, (2) PX (R) = {ω : X(ω) ∈ R} = 1 (3): Sei (Bn ) ∈ B mit Bi ∩ Bj = ∅(i 6= j). Dann ist ! ( ) ∞ ∞ [ [ P Bn = P ω : X(ω) ∈ Bn = P {ω : ∃n : X(ω) ∈ Bn } n=1 n=1 =P ∞ [ ! X −1 (Bn ) = n=1 ∞ X P (X −1 (Bn )) = n=1 ∞ X PX (Bn ) n=1 Beispiel 3.14 Sei X eine diskrete Zgr. (3.4) Dann gilt für B ∈ B : PX (B) = P pi = i:xi ∈B P P (Ai ). i:xi ∈B Also: Im Falle einer diskreten Zgr. ist Px durch xi , pi (i = 1, 2, ...) festgelegt. Definition 3.15. Die Funktion FX : R → [0, 1] definiert durch FX (x) := P {ω : X(ω) ≤ x} =: P (X(ω) ≤ x), (x ∈ R beliebig) heißt Verteilungsfunktion von X. Beispiel 3.16 Sei X eine diskrete Zgr. mit den Werten x1 , x2 , ... und den zugehörigen Werten p1 , p2 , ... Dann ist 3.14; B=(−∞,x] X FX (x) = P {ω : X(ω) ≤ x} = pi i:xi ≤x Beispiel 3.17 ( 1 :p Sei X = . Was ist FX (·)? 0 :1−p P {ω : X(ω) < 0} = 0, FX (0) = P {ω : X(ω) ≤ 0} = P {ω : X(ω) = 0} = 1 − p = FX (x) für alle x ∈ [0, 1). FX (1) = P {ω : X(ω) ≤ 1} = P {ω : X(ω) ∈ {0, 1}} = 1 = FX (y) für alle y ≥ 1. FX hat zwei Sprungstellen bei 0 und 1. Sie ist nicht stetig, aber rechtsstetig. Definition 3.18. Eine Zgr. X heißt stetig, wenn eine Funktion fX : R → [0, ∞) existiert mit R∞ Rx fX (x)dx = 1 und FX (x) = fX (t)dt. f heißt Dichtefunktion. −∞ −∞ Bermerkung: Für A ∈ B wird durch PX (A) = R fX (t)dt eine Wahrscheinlichkeit auf (R, B) defi- A niert. Wenn A = (−∞, x], dann: PX (A) X stetig Zx 3.13 fX (t)dt = P {ω : X(ω) ≤ x} = P {ω : X(ω) ∈ A} = PX (A) = −∞ Sei nun A = (x, ∞). Dann Z∞ PX (A) = fX (t)dt = x Z∞ Z fX (t)dt = PX (R)−PX ((−∞, x]) = fX (t)dt− −∞ R\(−∞,x] 15 Zx −∞ fX (t)dt = 1−FX (x) Sei nun fX stetig. A = [a, b], PX (A) = PX (A) = R n S fX (t)dt = Ai n R P Rb fX (t)dt, A = n S Ai , (Ai ∩ Aj = ∅, i 6= j), i=1 a fX (t)dt i=1 Ai i=1 Speziell für Ai = [ai , bi ): n Rbi P fX (t)dt = i=1 ai n P PX (Ai ) Fortsetzung auf B möglich. i=1 Für A ∈ B schreibt man Z PX (A) = A P pi : X diskret i:xi ∈A dFX (x) = R fX (t)dt : X stetig A ( (x, pi ), i = 1, 2, ... : diskr. Zgr X Also P → PX ⇔ FX → fX : stetige Zgr. Beispiel 3.19 Eine Zgr. X heißt ( exponentialverteilt mit Parameter λ > 0, wenn X stetig ist mit der λe−λx : x > 0 Dichte f (x) = . 0 :x≤0 R∞ R∞ f ist Dichtefunktion, denn f (x) ≥ 0, f (t)dt = λe−λx dt = 1. −∞ 0 ( −λx 1−e :x>0 Es ist F (x) = 0 :x≤0 Anwendungen: Lebensdauerverteilungen (Wahrscheinlichkeit, dass ein Gegenstand eine gewisse Zeit funktioniert), Verweilzeiten in Zuständen (z.B. Zeiten zwischen dem Eintreffen zweier Kunden im Supermarkt), Diese Werte sind jedoch nur ermittelbar, wenn λ bekannt ist, (analog zu Binomialverteilung, Poisson, etc.) Beispiel 3.20 X heißt über [a, b] gleichmäßig verteilt, wenn X stetig ist und f einer Rechteckverteilung ( :x<a 0 1 : x ∈ [a, b] x−a b−a Dann ist F (x) = b−a : a ≤ x ≤ b genügt, also f (x) = 0 : sonst 1 :x>b ( 0 : x < 0 1 : x ∈ [0, 1] , F (x) = x : x ∈ [0, 1] speziell: a = 0, b = 1: f (x) 0 : sonst 1 :x>1 Ü.i.S.: Sei X über [a, b] gleichmäßig verteilt. Dann ist Y := X−a über [0, 1] gleichmäßig b−a verteilt. Satz 3.21. Ist X eine stetige Zgr. mit eineindeutiger Verteilungsfunktion F . Dann ist Y := F (X) über [0, 1] gleichmäßig verteilt. 16 Beweis. Sei y ∈ [0, 1] beliebig. FY (y) = P {ω : Y (ω) ≤ y} = P {ω : F (X(ω)) ≤ y} F injektiv = P {ω : X(ω) ≤ F −1 (y)} = F (F −1 (y)) = y FY (y) = 0 für y < 0 und aufgrund der Monotonie gilt FY (y) = 1 für y > 1. Also ist FY gleichmäßig verteilt auf [0, 1] Bemerkung 3.22. 1. Sind die Voraussetzungen von 3.21 erfüllt, so folgt aus diesem Satz, dass X aus einer über [0, 1] gleichmäßig verteilten Zgr. transformiert/erzeugt/gewonnen werden kann: X = F −1 (Y ). 2. Sei X exponentialverteilt (F auf [0, ∞) konzentriert und dort eineindeutig) Aus 3.21 folgt Y = 1 − e−λX ist auf [0, 1] gleichmäßig verteilt ⇔ 1 − Y = e−λX ⇔ ln(1 − Y ) = −λX ⇔ X = − λ1 ln(1 − Y ) 3. (1) ist besonders bei der Modellierung (Simulation) von Zgr. von Bedeutung. Als nach F verteilte (Pseudo-)Zufallszahlen bezeichnet man n-Tuppel (x1 , ..., xn ), die Realisierungen von n (in der Gesamtheit) unabhängigen Zgr. X1 , ..., Xn , die alle die Verteilungsfunktion F besitzen. (Im Sinne eines Signifikanztestes.) x1 , ..., xn werden im Allgemeinen über (deterministische) Algorithmen erzeugt. Gefahr: Zyklenbildung, regelmäßige Wiederholung der Werte 4. Sei x1 : p1 X = ... xn : pn FX (x) = X pi xi ≤x Zerlegung des Intervalls [0, 1]. I0 := (0, p0 ], ..., Ik := (p0 + ... + pk−1 , p0 + ... + pk ] Wir erzeugen gleichverteilte Zufallszahlen α. αk ⇒ ∃ik : α ∈ Iik . Dann sind i1 , i2 , ... Realisierungen der Zgr. X. Beispiel 3.23 Eine stetige Zgr. X heißt normalverteilt mit den Parametern µ und σ 2 (Bez. X ∈ N(µ, σ 2 )), wenn ihre Dichte durch φ(x; µ, σ 2 ) := √ 1 2πσ 2 · e− (x−µ)2 2σ 2 ,x ∈ R gegeben ist. Bei bekannten µ ∈ R, σ 2 > 0 ist also die Dichte bestimmbar. Die Verteilungssfunktion ist also durch 2 Φ(x; µ, σ ) := √ 1 2πσ 2 Zx e− (x−µ)2 2σ 2 −∞ gegeben. Für µ = 0, σ 2 = 1. bestimmen wir für die Dichte bzw. die Verteilungsfunktion Rx −t2 φ(x), Φ(x). Aus Analysis ist bekannt, dass e dt nicht geschlossen integrierbar, aber −∞ 17 R∞ Φ(x, µ, σ 2 )dx = 1, o.B.d.A. µ = 0, σ 2 = 1. −∞ Z∞ 2 2 − t2 e Z∞ dt = −∞ 2 − x2 e −∞ Z2π Z∞ = φ=0 r=0 Z∞ dx −∞ 2 − y2 e Z∞ Z∞ dy = x2 y2 e− 2 − 2 dxdy −∞ −∞ 2 ∞ 2 r − r2 e rdrdφ = 2π − exp − = 2π 1 r=0 Beispiel 3.24 Sei log zu irgendeiner Basis. Eine stetige Zgr. X heißt logarithmisch-normalverteilt mit den Parametern µ, σ 2 , wenn gilt: ( Φ(log x, µ, σ 2 ) : x > 0 FX (x) = 0:x≤x X ist stetige Zgr., sodass log X ∈ N (µ, σ 2 ), x > 0. Für die Dichte gilt 0 log x Z (log t−µ) (log x−µ)2 log e 1 1 − − 0 2 2 2σ 2σ dt = √ e e fX (x) = FX (x) = √ x 2πσ 2 2πσ 2 0 Dichten sind asymmetrisch; spezielle Bedeutung: log = ln. Anwendung: Lebensdauer, Konzentrationsrechnung in der Chemie Beispiel 3.25 Eine stetige Zgr X heißt Weibull-verteilt mit den Parametern µ > 0, δ > 0, x0 ∈ R, wenn : x ≤ x0 0 δ fX (x) = δ x−x0 δ−1 0 µ exp − x−x : x > x0 µ µ µ-Maßstabsparameter, δ-Formparameter, x0 -Lageparameter. Also ist 0 : x ≤ x0 δ FX (x) = 0 1 − exp − x−x x > x0 µ Spezialfall: x0 = 0, µ = 1 Reduzierte Weibull-Verteilung“ ” 0 Substitutionsregel: Wenn X weibullverteilt mit den Parametern δ, µ, x0 ⇔ Y := X−x µ genügt eben einer reduzierten Weibull-Vert. δ = 1, x0 = 0 ⇒ Exponentialverteilung mit Parameter µ1 Durch die drei eingehenden Parameter wesentlich vielseitiger: Lebensdauer, Zuverlässigkeiten, Alterungen Weibull-Vert. ist Beispiel einer Extremwerverteilung. Lebensdauer einer Serienschaltung, T = min{T1 , ..., Tn } unabh. exp. verteilt ⇒ T weibullverteilt. 18 Wenn wir unsere Beispiele betrachten, dann können wir bestimmte Eigenschaften von Verteilungsfunktionen für diskrete und stetige Zgr. feststellen. Diese Eigenschaften gelten auch allgemein. Satz 3.27. Seien a, b ∈ R, a < b, FX Verteilungsfunktion einer Zgr. X. 1. P (a < X ≤ b) = F (b) − F (a) 2. P (X = b) = F (b) − lim F (b − ε) ε→0 3. P (X < b) = Beweis. lim F (b − ε). ε→0, ε>0 1. P (a < X ≤ b) = P ({X ≤ b}\{X ≤ a}) = P ({X ≤ b})−P ({X ≤ a}) = F (b)−F (a) 2. Sei (xn ) ⊂ R mit xn % b, also xn ≤ xn+1 , lim xn = b. Setze An := {xn < x ≤ b}. Dann ist n→∞ ∞ T An ⊆ An+1 ∀n. Daraus folgt lim P (An ) = P An = P (X = b) = F (b) − lim F (b − ε). n→∞ ε→0 n=1 3. P (X < b) = P (X ≤ b) − P (X = b) = lim F (b − ε) ε→0 Satz 3.28. Sei FX Verteilungsfunktion einer Zgr. X. Dann gilt 1. F ist monoton wachsend. 2. lim F (x) = 0 x→−∞ 3. lim F (x) = 1 x→∞ 4. F ist rechtsseitig stetig, d.h. F (x + 0) = F (x), wobei F (x + 0) = lim F (y) = F (x) y&x 5. Die Menge der Unstetigkeitsstellen von F ist höchstens abzählbar. Beweis. 1. Betrachte zu x1 < x2 : {ω : X(ω) ≤ x1 } ⊆ {ω : X(ω) ≤ x2 }. Wegen Monotonie des Wahrscheinlichkeitsmaßes P gilt P ({ω : X(ω) ≤ x1 }) ≤ P ({ω : X(ω) ≤ x2 }), d.h. F (x1 ) ≤ F (x2 ). 2. Sei xn > xn+1 , lim xn = −∞, An := {ω : X(ω) ≤ xn } n→∞ ∞ T Dann folgt An+1 ⊆ An ∀n ⇒ lim P (An ) = P An = P (∅) = 0 n→∞ n=1 Aber P (An ) = F (xn ) und somit lim F (xn ) = 0 für alle solche Folgen. n→∞ 3. Sei yn < yn+1 , lim yn = ∞, Bn := {ω : yn < X(ω)} ⇒ Bn+1 ⊆ Bn n→∞ ∞ T Also ist ⇒ lim P (Bn ) = P Bn = P (∅) = 0. n→∞ n=1 Aber es ist P (Bn ) = 1 − P ({ω : X(ω) ≤ yn }) = 1 − FX (yn ) ⇒ lim FX (yn ) = 1 für alle n→∞ solchen Folgen. Also ist lim FX (x) = 1. x→∞ 4. Sei xn > xn+1 , lim xn = x, x ∈ R beliebig., An := {ω : x < X(ω) ≤ xn }, An+1 ⊆ An n→∞ ∞ T Daraus folgt lim P (An ) = P An = P (∅) = 0. Also ist P (An ) = F (x) − F (xn ) n→∞ n=1 und somit lim F (xn ) = F (x) für alle solchen Folgen. Also lim F (y) = F (x). n→∞ y&x 19 5. Wenn x eine Unstetigkeitsstelle von FX ist, dann gibt es an der Stelle x einen Sprung mit der Sprunghöhe P {X = x} = F (x) − F (x − 0): Sei jetzt N eine natürliche Zahl. Für F (y) ∈ [ N1 , 1] kann F höchstens N viele Sprünge haben, denn wenn x1 , ..., xN +1 Unstetigkeitspunkte P {X = xi } ∈ [ N1 , 1], i = 1, ..., N + 1 und somit N +1 N +1 S P P {X = xi } = P {X = xi } ≥ NN+1 > 1, was ein Widerspruch zur Definition von X i=1 ist. Aber ∞ S n=1 i=1 ∞ S [ N1 , 1] = (0, 1] ⇒ [0, 1] = {0} ∪ [ N1 , 1] n=1 Teilintervalle [ N1 , 1] höchstens Daraus folgt, dass in jedem der endlich viele Unstetigkeitsstellen liegen. In [0, 1] sind es also höchstens abzählbar unendlich viele Sprünge. Satz 3.29. Sei G : R → [0, 1], die die Eigenschaften (1) bis (4) aus 3.28 besitzt. Dann gibt es ein (Ω, F, P ) und eine Zufallsgröße X mit FX = G. ( Eine Zufallsgröße ist vollständig charakterisiert ” über ihre Verteilungsfunktion.“) Beweis. Ω = [0, 1], F = B1[0,1] , P :Lebesgue-Maß λ auf [0, 1]. (d.h. Die Wahrscheinlichkeit, die durch Fortsetzung entsteht, wenn λ([a, b]) = b − a für [a, b] ⊂ [0, 1] ist.) −1 inf{G ({y})} : y ∈ G(R), y 6= 0 H(y) := sup{G−1 ({y})} : 0 = y ∈ G(R) xy :y∈ / G(R) H ist monoton wachsend (nicht unbedingt streng), aber nicht stetig. xy ist eindeutig bestimmt, denn y ∈ (F (xy − 0), F (xy + 0)]. Wir definieren Zufallsgröße X : Ω → R | {z } =F (xy ) durch X(ω) = H(ω). Dies ist auch wirklich eine Zgr. nach Konstruktion. Dann ist FX (x) = P {ω : X(ω) ≤ x} = P (ω : H(ω) ≤ x} = λ{y ∈ [0, 1] : 0 ≤ y ≤ G(x)} = G(x). Bemerkung 3.30. Die betrachteten Beispiele für Zgrn. enthalten oft Parameter (i.A. unbekannt). Kann man diese Parameter interpretieren, so dass auf dieser Basis Schätzungen“ (Näherungen) ” der Parameter möglich sind? Antwort: ja, dies ist mögich und soll nun im Folgenden geschehen. R∞ r Definition 3.31. 1. Sei X eine Zgr. mit |x| dF (x) < ∞ (für ein r > 0). Dann heißt −∞ E(X r ) = R∞ xr dF (x) r-tes Moment von X. (vgl. Bemerkung zu 3.18) −∞ 2. Die Voraussetzung in (1) sei für r = 1 erfüllt. Dann heißt E(X) Erwartungswert von X. 3. Sei X eine Zgr., sodass (1) mit r = 2 erfüllt ist. Dann heißt D2 (X) = E(X 2 ) − E(X)2 Streuung/Varianz/Dispersion von X. Bemerkung: Man betrachtet eigentlich nur r ∈ N. Folgerung 3.32. 1. diskrete Zgr X heißt 3.31(1): Es gelte ∞ P |xj |r pj < ∞. j=1 Dann ist E(X r ) = ∞ P xrj pj . j=1 2. Für stetige Zgr X heißt 3.31(2): Es gelte R∞ |x|r f (x)dx < ∞ Dann ist E(X r ) = −∞ 20 R∞ −∞ xr f (x)dx. 3. Insbesondere E(X) = ∞ P xj pj j=1 R∞ : X diskret xf (x)dx : X stetig −∞ 4. Sei X(ω) ≡ x ∈ R. Dann ist P {ω : X(ω) = x} = 1. Dann folgt aus (3): E(X) = x · P (Ω) = x. 1. Sei g : R → R mit ∀B ∈ B : g −1 (B) ∈ B. Dann ist g(X) auch eine Zgr. R∞ |g(x)|dF (x) < ∞, dann (siehe 3.9). Man führt nun ein: Erwartungswert g(X). Wenn Bemerkung 3.33. −∞ R∞ E(g(X)) = g(x)dF (x). −∞ ∞ P E(g(X)) = g(xj )pj : X diskret g(x)f (x)dx : X stetig j=1 R∞ −∞ 2. Das r-te Moment ergibt sich also aus (1), wenn g(x) := xr , r ∈ N. 3. Mittels einer allgemeinen Substitutionsregel kann man zeigen, E(X) = R XdP = Ω R∞ xdF (x). −∞ 1. Veranschaulichung von (3) für X = (x1 , ..., xn )T mit den Wahrschein∞ S lichkeiten p1 , ..., pn . X(ω) = xi : ω ∈ Ai , Ai ∈ F, Ai ∩ Aj = ∅ (i 6= j), Ai = Ω. Dann ist Bemerkung 3.34. ∞ 3.32(1) P n P i=1 n P xi P {ω : X(ω) = xi } = xi P (Ai ). i=1 Speziell: Ω = [0, 1), Ai = i−1 , i , i = 1, ..., n. P (Ai ) = F (xi ) − F (xi − 0). n n E(X) = xi pi = i=1 i=1 2. Wenn f (x) stetig für alle x, dann: (totales Differential). Also: E(X) = d F (x) dx R = d dx xf (x)dx = R Rx formal f (t)dt = f (x) ⇒ dF (x) = f (x)dx R−∞ xdF (x) R Beispiel 3.35 Sei X binomialverteilt. Daraus folgt E(xr ), r ∈ N existieren. n X n X (n − 1)! n k n−k E(X) = k· p (1 − p) = np · pk−1 (1 − p)(n−1)−(k−1) k (k − 1)!((n − 1) − (k − 1))! k=1 k=1 n−1 X n−1 = np pk−1 (1 − p)(n−1)−(k−1) = np(p + (1 − p))n−1 = np k − 1 k=0 Ü.i.S.: D2 (X) = np(1 − p). Beispiel 3.36 Sei X Poissonverteilt. Dann ist ∞ X ∞ ∞ X X λk −λ λk−1 λk −λ −λ E(X) = k · e = λe = λe = λe−λ eλ = λ k! (k − 1)! k! k=0 k=1 k=0 21 Ü.i.S.: D2 (X) = λ. Interpretation: λ λt, t > 0 mittlere Anzahl der bis t auf einem Parkplatz ankom” menden Autos.“ Also: λ entspricht einer Intensität. Beispiel 3.37 Eine diskrete Zgr. X heißt geometrisch verteilt mit einem Parameter p ∈ (0, 1), wenn: P (X = k) = p(1 − p)k , k = 0, 1, 2, .... (Prüfung, dass dies eine Zgr. ist, Interpretation , D2 (X) = 1−p Ü.i.S.), E(X) = 1−p p p2 Beispiel 3.38 Sei X exponential verteilte Zgr. Dann ist E(X) = R∞ −∞ xλe−λx dx = ... = λ1 . Beispiel 3.39 1. X ∈ N (µ, σ 2 ) ⇒ E(X) = µ, D2 (X) = σ 2 . Allerdings muss hier erst noch nachgewiesen werden, dass das Integral über den Betrag existiert. Hierfür genügt aber die Betrachtung von N (0, 1), da man jede Normalverteilung darauf transformieren kann. Diese ist nun symmetrisch, sodass man lediglich x > 0 betrachten muss. Ü.i.S. σ2 2 2 2. X sei log.-normalverteilte Zgr. Dann ist E(X) = eµ− 2 , D2 (X) = e2µ+σ eσ − 1 . Beispiel 3.40 X sei Weibull-verteilt. Dann ist 1 2 1 2 2 2 + 1 , D (X) = µ Γ +1 −Γ +1 E(X) = x0 + µΓ δ δ δ Lemma 3.42. Sei X eine Zgr. mit D2 (X) < ∞. Dann gilt D2 (X) = E((X − E(X))2 ). Beweis. E((X − E(X))2 ) = E(X 2 − 2X(E(X)) + (E(X))2 ) = E(X 2 ) − 2(E(X))2 + (E(X))2 = E(X 2 ) − (E(X))2 = D2 (X) Zufällige Vektoren ~ = (X1 , ..., Xn ), X1 , ..., Xn Zgrn. Sei X Definition 3.43. Die durch FX~ (x1 , ..., xn ) = P {ω : (X1 (ω =, ..., Xn (ω)) ≤ (x1 , ..., xn )} = P {ω : X1 (ω) ≤ x1 , ..., Xn (ω) ≤ xn }, ((x1 , ..., xn )T ∈ Rn ) definierte Funktion FX~ : Rn → [0, 1] ~ heißt Verteilungsfunktion des zufälligen Vektors X Satz 3.44. 2. lim 1. Sei i ∈ {1, ..., n}. Dann ist lim FX~ (x1 , ..., xi , ..., xn ) = 0 x1 →∞,...,xn →∞ xi →−∞ FX~ (x1 , ..., xn ) = 1 22 3. FX~ ist in jeder Variablen monoton wachsend. 4. FX~ ist in jeder Variablen rechtsseitig stetig. (1) (2) (n) 5. Sei n ≥ 2. Für beliebige xi ∈ R, hi > 0 gilt ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) ≥ 0, (j) wobei ∆hj FX~ (x1 , ..., xn ) := FX~ (x1 , ..., xj + hj , ..., xn ) − FX~ (x1 , ..., xj , ..., xn ) (1) (2) (n) Dann ∆h1 ∆h2 ...∆hn FX~ (x1 , ..., xn ) = P {(X1 , ..., Xn ) ∈ [x1 , x1 + h1 ) × ... × [xn .xn + hn )} 6. Sei G : Rn → [0, 1] und G besitzt die Eigenschaften (1) bis (5). Dann gibt es (Ω, F, P ) und ~ : Ω → Rn mit F ~ = G (X ~ vollständig charakterisiert durch F ~ .) X X X Beweis. Bemerkung: Betrachte (5) für n = 2 FX~ (x1 + h1 , x2 + h2 ) − FX~ (x1 + h1 , x2 ) − FX~ (x1 , x2 + h2 ) − FX~ (x1 , x2 ) = P {ω : X ∈ [x1 , x1 + h1 ) × [x2 , x2 + h2 )} ≥ 0, folgt aus der Additivität von Maßen, da die Wahrscheinlichkeit nur ein besonderes Maß nist. (hier auch gut graphisch zu veranschaulichen) T lim FX~ (x1 , ..., xn ) = P {Xi ≤ xi } = P {Xi ≤ xi } = FXi (xi ). (VerteilungsBemerkung: ∀k6=i:xk →∞ i=1 ~ FX heißt i-te Randbedingung von X. ~ funktion der i-ten Komponente von X.) i ~ zuf. Vektor. Die Komponenten von X ~ heißen unabhängig, wenn Definition 3.45. Sei X FX~ (x1 , ..., xn ) = FX1 (x1 ) · ... · FXn (xn ). Beispiel 3.46 ~ = (x1 , ..., xn ) zuf. Vektor mit unabhängigen Komponenten und Sei X FXi = F (i = 1, ..., n). Welche Verteilung besitzt die Zufallsgröße Y = max{X1 , ..., Xn }? FY (y) = {P {max{X1 , ..., Xn } ≤ y} = P {X1 ≤ y, ..., Xn ≤ y} n n Y Y = P {(X1 , ..., Xn ) ≤ (y, ..., y)} = P {Xi ≤ y} = FXi (y) = (F (y))n i=1 i=1 Z := min{X1 , ..., Xn }. FZ (z) = P (Z ≤ z) = P {min{X1 , ..., Xn } ≤ z} = 1 − P {min{X1 , ..., Xn } > z} n Y = 1 − P {X1 > z, ..., Xn > z} = 1 − P {Xi > z} i=1 n Y = 1 − (1 − FXi (z)) = 1 − (1 − F (z))n i=1 Nun n = 2, X1 , X2 unabhängige exponential verteilte Zgr. mit Parameter λ. ( ( 0 :y<0 0 :y<0 Fmax(X1 ,X2 ) (y) = Fmin(X1 ,X2 ) (y) = λy 2 −2λy (1 − e ) = y ≥ 0 1−e =y≥0 Beispiel 3.47 ~ = (X1 , X2 ) heißt diskreter zufälliger Vektor mit den Werten (xi , yj ) ∈ R2 , X (i = 1, 2, ..., j = 1, 2, ...) wenn pij = PP {(X1 , X2 ) = (xP i , yj )} gegeben wird. Dann gilt FX~ (x, y) = P {(X1 , X2 ) ≤ (x, y)} = pij . Es ist pij = 1. xi ≤x,yj ≤y 23 i,j Beispiel 3.48 Fertigung eines Stellring, Dicke X1 , Bohrung X2 . Xi = 0 ⇔ liegt im Toleranzbereich, ~ = (X1 , X2 ) die Werte (0, 0), (0, 1), (1, 0), (1, 1) an. sonst Xi = 1. Also nimmt X Aus praktischen Erfahrungen weiß man, dass 5% aller Stellringe Ausschuss sind. Davon entfallen 1% auf falsche Bohrung und Dicke, 3% auf nur falsche Bohrung und 1% auf nur falsche Dicke. p00 = P {X1 = 0, X2 = 0} = 0.95, p01 = 0.03, p10 = 0.01, p11 = 0.01. P {X1 = 0} = p01 = 0.98. p· 0 = 0.96, p1 · = 0.02, p· 1 = 0.04. Pp0 · = p00 +P Allg. pxi · = pij , p·yj = pij . j i Beispiel 3.49 ~ heißt stetiger n-dimensionaler zuf. Vektor, wenn es ein f : Rn → [0, ∞) gibt mit X R Rx1 Rxn ... f (s1 , ..., sn )dsn ...ds1 f (x1 , ..., x) dx = 1 und FX~ (x1 , ..., xn ) = Rn −∞ −∞ Aus 3.45 folgt ~ stetig, dann besitzt X ~ unabhängige Komponenten genau dann, wenn Folgerung 3.50. Ist X f (x1 , ..., xn ) = fX1 (x1 ) · ... · fXn (xn ) Beispiel 3.51 Rx1 Rx2 n=2 FX1 (x1 ) = lim F(X1 ,X2 ) (x1 , x2 ) = lim x2 →∞ fX1 (x1 ) = dFX1 (x1 ) dxx1 x2 →∞ −∞ −∞ = R∞ f (s1 , s2 )ds2 ds1 = Rx1 −∞ R∞ f (s1 , s2 )ds2 ds1 , −∞ f (x1 , s2 )ds2 , fX2 (x2 ) = ... −∞ Wenn E(X1 ), E(X2 ) existieren: E(X1 ) EW stetig Z∞ = Z∞ x1 fX1 (x1 )dx1 = −∞ Z∞ x1 −∞ Z∞ Z∞ f (x1 , s2 )ds2 dx1 = −∞ x1 f (x1 , x2 )dx2 dx1 −∞ −∞ Wenn E(X12 ), E(X22 ) existieren, dann Z∞ Z∞ E(X1 X2 ) = x1 x2 f (x1 , x2 )dx2 dx1 −∞ −∞ Lemma 3.52. Sind X1 , X2 unabhängige Zgr. mit existierenden Streuungen D2 (X1 ), D2 (X2 ), dann D2 (X1 + X2 ) = D2 (X1 ) + D2 (X2 ). Beweis. D2 (X1 + X2 ) = E((X1 + X2 )2 ) − (E(X1 + X2 ))2 = E(X12 ) + 2E(X1 X2 ) + E(X22 ) − (E(X1 ))2 − (E(X2 ))2 − 2E(X1 )E(X2 ) = D2 (X1 ) + D2 (X2 ), da R∞ R∞ R∞ R∞ E(X1 X2 ) = x1 x2 f (x1 , x2 )dx2 dx1 = fX1 (x1 ) · fX2 (x2 ) = x1 fX1 (x1 )dx1 · x2 fX2 (x2 )dx2 −∞ −∞ −∞ = E(X1 )E(X2 ) aufgrund der Unabhängigkeit. 24 −∞ Definition 3.53. Seien X1 , X2 Zgr. mit D2 (X1 ), D2 (X2 ) < ∞. Dann heißt cov(X1 , X2 ) := E[(X1 − E(X1 ))(X2 − E(X2 ))] Kovarianz von X1 , X2 . Der Ausdruck 1 ,X2 ) ~ = (X1 , ..., Xn )T ein ρX1 ,X2 := √ 2cov(X√ heißt Korrelationskoeffizient von X1 , X2 . Ist X 2 D (X1 ) D (X2 ) 2 zufälliger Vektor mit D (Xi ) < ∞(i = 1, ..., n), dann heißt R := (ρij )i,j=1,...,n mit ρij := ρXi Xj Korrelationsmatrix. Entsprechend sei die Kovarianzmatrix definiert. Wie man aus der Definition erkennt, ist die Matrix symmetrisch. Ferner ist ρii = 1, (i = 1, ..., n). ~ = (X1 , X2 ) ein zufälliger Vektor mit diskreten Zgr X1 , X2 , die die Bemerkung 3.54. 1. Ist X (1) (K) (1) (L) Werte x1 , ..., x1 bzw. x2 , ..., x2 annehmen und bezeichnen (i) (j) pij = P {(X1 , X2 ) = (x1 , x2 )} die Wahrscheinlichkeiten für die Werte des zufälligen Vektors, so gilt K X L X (i) (j) cov(X1 , X2 ) = x1 − E(X1 ) x2 − E(X2 ) · pij i=1 j=1 ~ = (X1 , X2 ) ein stetiger zufälliger Vektor, mit der Dichte f (x1 , x2 ), dann gilt 2. Ist X Z∞ Z∞ (x1 − E(X1 )) (x2 − E(X2 )) f (x1 , x2 )dx1 dx2 cov(X1 , X2 ) = −∞ −∞ 3.53 Bemerkung 3.55. cov(X1 , X2 ) = E(X1 · X2 ) − 2(E(X1 ))(E(X2 )) + (E(X1 ))(E(X2 )) = E(X1 · X2 ) − (E(X1 ))(E(X2 )) Für alle Zgr X mit E(X 2 ) < ∞ gilt: Diese bilden eine linearen Raum/ Vektorraum L2 . (Eigentlich die Äquivalenzklassen von Funktionen, die mit X fast überall überein stimmen.) Durch hX1 , X2 i := E(X1 X2 ) wird auf L2 ein Skalarprodukt definiert, d.h. es gilt hX + Y, Zi = hX, Zi + hY, Zi, haX, Y i = ∈ R), hX, Y i = hY, Xi. Mit jedem Skalarp ahX, Y i(a p produkt wird eine Norm definiert: kXk := hX, Xi = E(X 2 ). Für jedes Skalarprodukt gilt die Schwarz’sche Ungleichung |hX, Y i| ≤ kXk · kY k. Es gilt =“⇔ ∃α, β 6= 0 : kαX + βY k2 = 0, d.h. ” X und Y sind linear abhängig. Wenden wir p die Schwarz’sche Ungleichung auf X := X1 − E(X1 ), p 2· E(X − E(X )) E(X − E(X2 ))2 Y p := X2 − E(X ) an, so gilt cov(X , X ) ≤ 1 1 2 1 2 p 2 = D2 (X1 ) D2 (X2 ) und damit ist |ρX1 X2 | ≤ 1. Satz 3.56. (Eigenschaften des Korrelationskoeffizienten) Seien X1 , X2 Zgr mit D2 (X1 ), D2 (X2 ) < ∞. Dann 1. |ρ12 | ≤ 1 2. X1 , X2 unabhängig ⇒ ρ12 = 0 (Umkehrung gilt i.A. nicht.) 3. |ρ12 | = 1 ⇔ ∃a, b ∈ R : P {ω : X2 (ω) = a · X1 (ω) + b} = 1 Beweis. 1. eben gezeigt 2. siehe 3.55: unabhängig cov(X1 , X2 ) = E(X1 X2 ) − E(X1 ) · E(X2 ) = E(X1 ) · E(X2 ) − E(X1 ) · E(X2 ) = 0. 3. 3.55: in Schw. Ug. steht =“⇔ α(X1 − E(X1 )) + β(X2 − E(X2 )) = 0 mit Wkt. 1. Stellt man ” dies um, erhält man α α X2 (ω) = − X1 (ω) + E(X1 ) + E(X2 ) β β |{z} | {z } :=a =:b 25 Beispiel 3.57 Nun noch das Gegenbeispiel zur Umkehrung von (2): 1 : 2/5 −1 : 2/5 −1 : 2/5 1 : 2/5 Ω = {ω1 , ω2 , ω3 , ω4 }, X1 := , X2 := 2 : 1/10 2 : 1/10 −2 : 1/10 −2 : 1/10 Dann ist E(X1 ) = E(X2 ) = 0 und 1 1 + 4 · 10 = 0. cov(X1 , X2 ) = E(X1 X2 ) = (−1) · 25 + (−1) · 52 + 4 · 10 Aber es ist P {X1 = 1, X2 = −1} = P {{X1 = 1} ∩ {X2 = −1}} = P {ω1 } = 4 = P {X1 = 1} · P {X2 = −1} 6= 25 2 5 Beispiel 3.58 ~ = (X1 , X2 ) heißt zweidimensionaler normalverteilter Vektor, wenn X ~ stetig und für X die Dichte f gilt: 1 − 1 2(1−ρ2 ) (x −µ )(x −µ ) (x −µ )2 (x1 −µ1 )2 + 2 2 2 −2ρ 1 σ1 σ 2 2 σ−12 σ2 1 2 f (x1 , x2 ) = p e 4π 2 σ12 σ22 (1 − ρ2 ) p wobei µi = E(Xi ), σi = D2 (Xi ), (i = 1, 2), ρ = ρX1 X2 Bemerkung 3.58. , (x1 , x2 ∈ R) 1. Ang. ρ = 0 (also cov(X1 , X2 ) = 0) Aus 3.58 folgt f (x1 , x2 ) = p 1 2πσ12 − e (x1 −µ1 )2 2 2σ1 ·p 1 − 2πσ22 e (x2 −µ2 )2 2 2σ2 = fX1 (x1 ) · fX2 (x2 ) was genau die Dichten zweier normalverteilter Zgr. sind. Also sind X1 , X2 unabhängig. 2. Ü.i.S. Man schreibe den obigen Exponenten (ohne das erste -“) als ” a11 a12 x 1 − µ1 = x 1 − µ1 x 2 − µ 2 a21 a22 x 2 − µ2 ~ = (X1 , X2 ) ⇒ f ~ = 1 exp − 1 (x2 + x2 ) . Substituiere 3. Seien X1 , X2 unabh. N (0, 1)-Zgr. X 1 2 X 2π 2 nun X1 = R cos Φ, X2 = R sin Φ wobei R, Φ Zgr. sind. Es ist R2 = X12 + X22 . q 2 2 FR (t) = P {R ≤ t} = P X1 + X2 ≤ t = P {X12 + X22 ≤ t2 } Z = Z2π Z t t2 1 1 2 1 − 1 r2 exp − (x1 + x22 ) dx1 dx2 = e 2 rdrdϕ = 1 − e− 1 (t ≥ 0) 2π 2 2π 0 Kt 0 R2 Φ ist über [0, 2π) gleichmäßig verteilt. 3.21 ⇒ FR (R) = 1 − e− 2 =: Z ist über [0, 1] glm. p verteilte Zgr. R = −2 ln(1 − z). 3.22 ⇒ R ist Zgr. p mit V-Fkt. FR und Z ist über [0, 1] glm. verteilt. Erzeugung einer Zufallszahl z1 ⇒ R1 := −2 ln(1 − z1 ) ist eine Realisierung für R. Erzeugung einer weitere Zufallszahl z2 ⇒ Φ1 = 2πz2 ist eine Realisierung von Φ. ⇒ (R1 cos Φ1 , R1 sin Φ1 ) ist Realisierung für X1 , X2 . 26 Satz 3.59. Seien X, Y unabh. Zgr. mit den Dichten fX , fY . Dann besitzt Z := X + Y die Dichte R∞ fX (z − y)fY (y)dy =: (fX ∗ fY )(z). fZ (z) = −∞ Beweis. B : {(x, y) : x + y ≤ z}. Z Z Z Z FZ (z) = P {X + Y ≤ Z} = B B X,Y unabh. Z∞ Zz−y Z Z = f(X,Y ) (x, y)dxdy dF(X,Y ) (x, y) = fX (x)fY (y)dxdy = Z∞ −∞ −∞ B −∞ Z∞ fY (y)fX (z − y)dy = (fX ∗ fY )(z) da fZ (z) = = fY (y)F (z − y)dy fX (x)fY (y)dxdy = dFZ (z) dz −∞ Satz 3.60. Seien X, Y unabh. diskrete Zgr. mit den Werten 0, 1, .... Dann ist X P {X + Y } = P {Y = i} · P {X = k − i} i Beweis. Ü.i.S. Beispiel 3.61 Seien X, Y unabh. Poissonverteilte Zgr mit den Parametern λ1 , λ2 > 0. X + Y ist Poisonverteilt mit den Parametern λ1 + λ2 , denn 3.60 P {X + Y = k} = k X i −λ2 λ2 e i=0 = e−(λ1 +λ2 ) i! −λ1 ·e k X k! λk−i k i k−i 1 −(λ1 +λ2 ) 1 · =e λλ (k − i)! k! k! i=0 i 2 1 (λ1 + λ2 )k k! Bemerkung: Seien X, Y unabh. X ∈ N (µ1 , σ12 ), Y ∈ N (µ2 , σ22 ). Dann kann mittels 3.59 gezeigt werden, dass X + Y normalverteilt mit dem Erwartungswert µ1 + µ2 und der Streuung σ12 + σ22 ist. Bedingte Verteilungen Definition 3.62. 1. Sei X eine Zgr. B ∈ F, P (B) > 0. Dann heißt FX (x|B) := P {X ≤ x|B} bedingte Verteilungsfunktion. 2. Wenn X, Y diskrete Zgr. und P {Y = y} > 0. Dann ist die bedingte Verteilungsfunktion von X (bei gegebenem Ereignis {Y = y}) durch FX|Y (x|y) := P {X ≤ x|Y = y} = 27 P {{X ≤ x} ∩ {Y = y}} P {Y = y} 3. Wenn X und Y stetige Zgr. mit fY (y) > 0, dann ist die bedingte Verteilungsfunktion von X (bei gegebenem Ereignis {Y = y}) definiert durch 1 FX|Y (x|y) = fY (y) Zx f(X,Y ) (u, y)du −∞ Lemma 3.63. Die bed. V-Fkt. von X erfüllt die Beziehung FX|Y (x|y) = F(X,Y ) (x, y + b) − F(X,Y ) (x, y − a) a&0,b&0 F(X,Y ) (∞, y + b) − F(X,Y ) (∞, y − a) lim Beweis. R(a, b) = P {X ≤ x, Y ≤ y + b} − P {X ≤ x, Y ≤ y − a} 3.27 P {X ≤ x, y − a < Y < y + b} = P {Y ≤ y + b} − P {Y ≤ y − a} P {y − a < Y < y + b} Der weitere Beweis für den Fall X, Y stetig: 1 a+b lim R(a, b) = a&0,b&0 lim Rx y+b R f(X,Y ) (u, v)dvdu −∞ y−a a&0,b&0 1 a+b y+b R fY (u)du 1 = · fY (y) Zx f (u, y)du = FX|Y (x|y) −∞ y−a Folgerung: Sei f(X,Y ) stetig. Für FX|Y (x|y) existiert für jedes y eine Dichte fX|Y (x|y) und fX|Y (x|y) = fY1(y) f(X,Y ) (x, y), (fY (y) > 0). Definition 3.64. Sei X eine Zgr, B ∈ F mit P (B) > 0. Sei FX (·|B) die bedingte V-Funktion. Rx Wenn eine Funktion fX (·|B) : R → [0, ∞) mit FX (x|B) = fX (t|B)dt, so heißt fX (·|B) bedingte −∞ Dichte. Wenn X, Y stetige Zgr., dann ist die bedigte Dichte von X bei gegebenem y mit Y (ω) = y f ) (x,y) und fY (y) > 0 durch fX|Y (x|y) = (X,Y definiert. fY (y) Satz 3.65. (Eigenschaften) Rx 1. FX|Y (x|y) = fX|Y (u, y)du −∞ 2. FX (x) = R∞ fY (y) · FX|Y (x|y)dy −∞ 3. Bayessche Formel für bedingte Dichten: fX|Y (x|y) = R∞ −∞ Beweis. 1. klar 28 fY |X (y|x)fX (x) fY |X (y|u)fX (u)du 2. f(X,Y ) (x, y) = fX|Y (x|y)fY (y) (◦) bzw. f(X,Y ) (x, y) = FY |X (y|x)fX (x) (◦◦) Z∞ Randdichten: fX (x) = (◦) f(X,Y ) (x, v)dv = −∞ Z∞ fY (y) = f(X,Y ) (u, y)du = fX (u)du = −∞ F ubini Z∞ = 3. (◦) fX|Y (x|y) = fY |X (y|u)fX (u)du (∗∗) (◦) Zx f(X,Y ) (u, v)dvdu = −∞ −∞ Zx fY (v) −∞ (∗) −∞ Zx Z∞ Zx fX|Y (x|v)fY (v)dv −∞ Z∞ −∞ ⇒ FX (x) = Z∞ fX|Y (u|v)fY (u)dv du −∞ Z∞ fX|Y (u|v)du dv = −∞ −∞ Z∞ fY (v)FX|Y (x|v)dv −∞ f(X,Y ) (x, y) (◦◦) fY |X (y|x)fX (x) (∗∗) fY |X (y|x)fX (x) = = R∞ fY (y) fY (y) fY |X (y|u)fX (u)du −∞ Bedingter Erwartungswert Definition 3.66. Sei B ∈ F, P (B) > 0 1. Sei X diskrete Zgr. mit den Werten x1 , x2 , .... E(X|B) = P Erwartungswert wenn |xi |P {X = xi |B} < ∞. P xi · P {X = xi |B} heißt bedingter i i R∞ 2. Sei X stetige Zgr. E(X|B) := xfX (x|B)dx heißt bedingter Erwartungswert, wenn −∞ R∞ |x|fX (x|B)dx < ∞. −∞ 3. (1) und (2) zusammengefasst: E(X|B) = R∞ xdfX (X|B) falls −∞ Lemma 3.67. Sei Ω = ∞ S R∞ |x|dFX (X|B) −∞ Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist E(X) = i=1 P P (Bi ) · E(X|Bi ), sofern i die bedingten Erwartungswerte existieren. Beweis. FX (x) = P {X ≤ x} = X P {{X ≤ x} ∩ Bi } = i Z∞ ⇒ E(X) = xdFX (x) = −∞ X P (Bi )FX (x|Bi ) i X i Z∞ P (Bi ) −∞ 29 xdFX (x|Bi ) = X i P (Bi )E(X|Bi ) Lemma 3.68. Sei B ∈ F, P (B) > 0, B = ∞ S Bi , Bi ∩ Bj = ∅ (i 6= j). Dann ist i=1 E(X|B) = X 1 · P (Bi )E(X|Bi ) P (B) i Beweis. 3.67 ⇒ E(X) =PP (B)·E(X|B)+P (B)E(X|B) Bilden eine Zerlegung von Ω : B1 , ..., Bn , ..., B. Nach 3.67 ist E(X) = P (Bi )E(X|Bi ) + P (B)E(X|B). Subtraktion beider Gleichungen liefert i die Behauptung. 4 Charakteristische Funktionen Definition 4.1. Sei X Zgr. über (Ω, F, P ). Dann heißt für t ∈ R P itxk Z∞ e P {X = xk } k ψ(t) = E eitX = eitx dFX (x) = R∞ eitx fX (x)dx −∞ : X diskret : X stetig −∞ charakteristische Funktion der Zgr. X (der Verteilung FX ). Bemerkung 4.2. 1. Die Definition ist sinnvoll, denn P Z∞ Z∞ 1 · P {X = xk } = 1 itx k e dFX (x) = 1dFX (x) = R∞ | {z } 1 · fX (x)dx = 1 −∞ =1 −∞ =1<∞ −∞ 2. ψ(0) = 1, |ψ(t)| ≤ 1 für jedes t ∈ R. 3. Für a, b ∈ R ist ψaX+b (t) = eitb ψ(at) 4. Wenn X absolutes Moment der Ordnung n besitzt (E(|X|n ) < ∞), dann dk ψ(t)|t=0 = ik E(X k )(k = 1, ..., n) (Anwendung d. Vertauschung von Diff. und Reihe bzw. dtk Diff. und Integration) 5. ψ : R → C ist glm. stetig (Ü.i.S.) itY it(X+Y ) itX 6. Wenn X, Y unabhängig, dann ψ = ψ · ψ . (ψ (t) = E e = E e e X+Y X Y X+Y = E eitX E eitY = ψX (t)ψY (t)), Faltung wird in normale Multiplikation übergeführt. 7. ψ ist positiv definit, d.h.: ∀N ∈ N, t1 , ..., tN ∈ R, z1 , ..., zN ∈ C(nicht alle Null) : N P ψ(tj − tk )zj zk > 0 j,k=1 8. Ist ψ : R → C und gelten für ψ die Eigenschaften (2),(5) und (7). Dann gibt es (Ω, F, P ) und eine Zgr. X mit ψX = ψ. Satz 4.3. (Inversionsformel) 1. Sei ψ char. Fkt einer Zgr. X, a, b ∈ R, a < b. Dann gilt 1 1 1 P {X = a} + P {a < X < b} + P {X = b} = 2 2 2π Z∞ −∞ 30 e−ita − eitb ψ(t)dt it 2. Wenn a, b Stetigkeitspunkte von F sind, dann F (b) − F (a) = 1 2π R∞ −∞ e−ita −eitb ψ(t)dt it 4.1,4.3 3. Die Verteilungsfunktion ist eindeutig bestimmt. Also F ↔ ψ (o.B.) R∞ |ψ(t)|dt < ∞, so gibt es eine Dichtefunktion f mit fX (x) = Lemma 4.4. Wenn −∞ 1 2π R∞ e−itx ψ(t)dt −∞ Satz 4.5. (Konvergenzsatz) Sei (Fn ) eine Folge von Verteilungsfunktionen, (ψn ) die Folge der zugehörigen char. Funktionen. Dann gilt (Fn (x))n∈N konvergiert in allen Stetigkeitspunkten gegen eine Verteilungsfunktion F ⇔ ψn konvergiert punktweise gegen eine Funktion ψ, die stetig in 0 ist und ψ ist charakteristische Funktion von F . (o.B.) Beispiel 4.6 Sei X Poissonverteilt mit λ > 0 Nach 4.1 ist dann ψ(t) = ∞ X itk e k=0 ∞ X (λeit )k λk −λ it it −λ = e−λ eλe = eλ(e −1) · e =e k! k! k=0 Sind X, Y unabhängige Zgr., dann ist auch X + Y Poissonverteilt mit λX + λY . (aus Kapitel 3) Ü.i.S.: 4.2(6), 4.3(3), dieses Resultat hier nochmal bestätigen Beispiel 4.7 Sei X ∼ N (µ, σ 2 ). o.B.d.A. µ = 0, σ = 1. Dann ist 1 ψ(t) = √ 2π Z∞ 2 − x2 eitx e −∞ 1 dx = √ 2π ∞ 1 X (it)k √ = 2π k=0 k! Z∞ X ∞ 1 (itx)k − x2 e 2 dx = √ k! 2π −∞ k=0 Z∞ Z∞ X ∞ −∞ k=0 (it)k k − x2 x · e 2 dx k! x2 xk · e− 2 dx −∞ 8 > <0 {z | } : k ungerade = ... = 1 · 3 · ... · (2k − 1) : k gerade k ∞ ∞ ∞ X X X 2 (it)2k (it)2k 1 −t2 − t2 = 1 · 3 · ... · (2k − 1) = = = e (2k)! 2k · k! k=0 k! 2 k=0 k=0 = > :E(X 2 k) Nun ist X ∼ N (µ, σ 2 ) ⇔ Z := X−µ ∼ N (0, 1). σ 2 2 − σ 2t itµ Somit ist ψX (t) = eitµ ψ(σt) = e ·e Also X = σZ + µ. . Beispiel 4.8 Seien X, Y unabhängig, X ∼ N (µ1 , σ12 ), Y ∼ N (µ2 , σ22 ). Nach 4.8 ist ψX (t) = eitµ1 · e− 2 t2 σ2 2 , ψY (t) = eitµ2 · e− 2 t2 σ2 2 . Nach 4.2(6) ist ψX+Y (t) = ψX (t) · ψY (t) = eit(µ1 +µ2 ) e− 2 +σ 2 )t2 (σ1 2 w ⇒ ist charakteristische Funktion zu einer Zgr. Z ∼ N (µ1 + µ2 , σ12 + σ22 ), und aufgrund der Eindeutigkeit aus 4.3(3) ist diese Verteilung die einzige. Also X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ). 31 5 5.1 Gesetze der Großen Zahlen und Anwendungen in der Statistik Ungleichungen Satz 5.1. (Hajek-Renyi) Seien X1 , X2 , ... paarweise unabhängige Zgr. mit ∀n : |E(Xn )| < ∞, i P γ1 ≥ γ2 ≥ ... ≥ γn > 0. Setze Si := (Xj − E(Xj )). Dann gilt für m = 1, ..., n und jedes ε > 0: j=1 P sup γi |Si | ≥ ε ≤ m≤i≤n m n X 1 2 X 2 γ D (X ) + γj2 D2 (Xj ) j ε2 m j=1 j=m+1 o.B. Aus 5.1 folgen eine Reihe von wichtigen Spezialfällen: Folgerung 5.2. 1. n = m = 1 = γ1 : P {|X − E(X)| ≥ ε} ≤ ε12 D2 (X) (Ungleichung von Tschebyschew) ( ) P n i P D2 (Xj ). 2. m = 1, γ1 = ... = γn = 1: P sup (Xj − E(Xj )) ≥ ε ≤ ε12 1≤i≤n j=1 j=1 (Ungleichung von Kolmogorov) Wir wollen 5.2(1) ohne Kenntnis von 5.1 beweisen. Man wendet an Lemma 5.3. Sei X Zgr. mit |E(X)| < ∞. Dann gilt ∀ε > 0 : P {|X| ≥ ε} ≤ 1ε |E(X)| (Ungleichung von Markov) Beweis. Z Z |X|dP = E|X| = Ω Z Z |X|dP + ω:|X(ω)|≥ε |X|dP ≥ ω:|X(ω)|<ε |X|dP ω:|X(ω)|≥ε Z ≥ εdP = ε · P {|X| ≥ ε} ω:|X(ω)|≥ε Beweis. von 5.2(1): Anwendung von 5.3 auf die Zgr. |X − E(X)|2 : 5.3 P {|X − E(X)| ≥ ε} = P {|X − E(X)|2 ≥ ε2 } ≥ Definition 5.4. Eine Folge (Xn ) von Zgr. mit E|Xn | < Großen Zahlen, wenn ( n 1X lim (Xk − E(Xk )) = 0 bzw. ∀ε > 0 : lim P ω n→∞ n n→∞ k=1 1 2 1 2 E(X − E(X ) = D (X) ) ε2 ε2 ∞ genügt dem Schwachen Gesetz der ) n 1 X : (Xk (ω) − E(Xk )) > ε = 0 n k=1 1 2 2 2 (D (X1 ) + ... + D (Xn )) n→∞ n Satz 5.5. Sei (Xn ) eine Folge von Zgr. mit lim Folge (Xn ) dem Schwachen Gesetz der Großen Zahlen. 32 = 0. Dann genügt die P Beweis. X n := n1 ni=1 Xi . Nach 5.2(1) ist ( n ) 1 X 1 P (Xk − E(Xk )) ≥ ε = P {|X n − E(X n )| ≥ ε} ≤ 2 D2 (X n ) n ε k=1 = 1 ε2 n 2 · E [(X1 − E(X1 )) + ... + (Xn − E(Xn ))]2 = 1 ε2 n 2 n→∞ (D2 (X1 ) + ... + D2 (Xn )) → 0 1. Wenn D2 (Xn ) ≤ L, (n = 1, 2, ...), so gilt das SGdGZ. Folgerung 5.6. 2. Ist FXn = F, (n = 1, 2, ...) (also Verteilungsfkt. bei allen gleich) und D2 (X) < ∞, so gilt das SGdGZ. ( 1 :p 3. Die Vor. in (2) ist erfüllt, wenn Xn = für p ∈ (0, 1). Also gilt das SGdGZ. 0 :1−p Bemerkung 5.7. zu 5.6(2): Aus FXn = F (Sei X die Zgr. zu F ) folgt E(Xn ) = E(X) und n n n P P P n→∞ n→∞ 1 (Xk − E(Xk )) = n1 Xk − E(X) −→ 0 in Wahrscheinlichkeit, also n1 Xk −→ E(X) in n k=1 k=1 k=1 Wkt. n P Im Sinne der Konvention Wahrscheinlichkeit ist für große n n1 Xk eine Näherung für E(X). k=1 ( 1 : A tritt ein zu 5.6(3): E(Xn ) = E(X) = 1 · p + 0 · (1 − p) = p; Xn = . 0 : A tritt nicht ein n n P P Xk : zählt das Eintreten von A bei n Versuchen. Also n1 Xk = Hn (A) ist Näherung für p. k=1 k=1 Lässt sich die Konvergenzaussage verschärfen? Definition 5.8. Eine Folge (Xn ) von Zgrn. mit E|Xn | < ∞ genügt dem (starken) Gesetz der großen Zahlen, wenn: ) ( n 1X P ω : lim (Xk (ω) − E(Xk )) = 0 = 1 Konvergenz mit Wert 1 n→∞ n k=1 Bemerkung: Aus 5.8 folgt 5.4. Die Umkehrung gilt im Allgemeinen nicht. Wir geben folgende Variante eines starken Gesetzes der Großen Zahlen an. ∞ P D2 (Xn ) < ∞. Dann gilt das starke GdGZ. Satz 5.11. Sei (Xn ) eine Folge unabhängiger Zgr., n2 n=1 Beweis. Yn := 1 n n P k=1 (Xk − E(Xk )), σk2 := D2 (Xk ). Anwendung von 5.1 für γk = k1 . P sup |Yk | ≥ ε m≤k≤n 1 ≤ 2 ε m n X σj2 1 X 2 σ + m2 j=1 j j=m+1 j 2 ! Halte in linker Menge m fest und schicke n → ∞. m→∞ {ω : sup |Yk ω| ≥ ε} ergibt {ω : sup |Yk (ω)| ≥ ε} −→ ∅ m≤k≤n k≥m ∀ε > 0 : ∃m0 (ε, ω) : ∀k ≥ m0 : |Yk (ω)| < ε für P -fast alle ω, d.h. Die Konvergenz gilt mit k→∞ Wahrscheinlichkeit 1, d.h. Yk −→ 0 mit Wahrscheinlichkeit 1. 33 Bemerkung 5.12. Aus den Voraussetzungen von 5.6 folgt, dass unter den Bedingungen von 5.6 n P Xk ist unter 5.6(2) eine Näherung für E(X) mit auch das starke GdGZ gilt. Insbesondere n1 k=1 Wahrscheinlichkeit 1 für große n. Definition 5.13. Sei X : (Ω, F, P ) → R eine Zgr. Ein n-dimensionaler zufälliger Vektor ~ = (X1 , ..., Xn ) heißt (mathematische) Stichprobe (aus der Gesamtheit (R, L, FX )), falls X 1. FX = FXi , (i = 1, ..., n) 2. X1 , ..., Xn sind unabhängig (in der Gesamtheit) Eine Realisierung (X1 (ω), ..., Xn (ω)) heißt (konkrete) Stichprobe. (n-Mal wird X beobachtet) Mittels einer Stichprobe kann FX geschätzt (angenähert) werden. (Beachte: X vollständig durch ” ” FX charakterisiert.) Aber in der Regel FX unbekannt. Definition 5.14. Sei (X1 , ..., Xn ) eine Stichprobe (vom Umfang n), dann heißt Wn (x) := n1 · |{Xi : Xi ≤ x}|, ((zufällige) Anzahl der Xi mit Xi ≤ x) empirische Verteilungsfunktion. Bemerkung 5.15. 1. Beim Arbeiten mit konkkreten Stichproben ist es oft zweckmäßig, die Werte so anzuordnen, dass x1 ≤ ... ≤ xn gilt. (geordnete Stichprobe) 2. Für festes x ∈ R ist Wn (x) eine Zgr. 3. Für festes ω ∈ Ω, also eine konkrete Stichprobe, ist Wn (x) eine monoton wachsende rechtsseitig stetige Sprungfunktion, denn: Sei (x1 , ..., xn ) eine geordnete Stichprobe. Dann ist 0 : x < x1 Wn (x) = m : xm ≤ x < xm+1 (m = 1, ..., n − 1) n 1 : x ≥ xn Satz 5.16. (Satz von Gliwenko, Hauptsatz der Statistik) 1. E(Wn (x)) = FX (x) n→∞ 2. D2 (Wn (x)) = E(Wn (x) − FX (x))2 = n1 FX (x)(1 − FX (x)) −→ 0 3. lim Wn (x) = FX (x) mit Wahrscheinlichkeit 1 für jedes x ∈ R n→∞ n→∞ 4. Es gilt sogar: P sup |Wn (x) − FX (x)| −→ 0 = 1. D.h. Wn (x) strebt gegen FX (x) mit Wkt. x∈R 1 gleichmäßig bzgl. x. 1. (X1 , ..., Xn ) Stichprobe, x ∈ R fest. P {Xi ≤ x} = FXi (x) = FX (x) =: p, ( n P 1 : Xi ≤ x : p (i = 1, ..., n). Yi (x) := . Damit: Zuf. Anzahl der Xi mit Xi ≤ x ist Yi . 0 : sonst :1−p i= n P E(Yi ) = n1 · np = p = FX (x). Dies ist binomialverteilt mit (n, p). Damit E(Wn (x)) = n1 Beweis. i=1 2. D2 (Wn (x)) Bin.Zgr 1 = n2 · np(1 − p) = n1 FX (x)(1 − FX (x)) 34 n P 3. Wn (x) = n→∞ Yi −→ p = FX (x) mit Wkt. 1, wegen starkem GdGZ. i=1 4. o.B. (würde etwa eineinhalb Vorlesungen benötigen) Bemerkung 5.17. 5.16(1): Wn (x) schätzt im Mittel FX (x). 5.16(2): Die Genauigkeit der Schätzung Wn (x) für FX (x) (im quadr. Mittel) verhält sich wie n1 . 5.16(3): Mit Wkt. 1 liefern Stichproben und das damit ermittelte En (x) Näherungen für FX (x). Bemerkung 5.18. Sei (X1 , ..., Xn ) eine Stichprobe. Wenn der Verteilungstyp bekannt ist, dann enthält die Verteilungsfunktion oft unbekannte Parameter. z.B. E(X) Näherung Verfahren Parameter P i = 1n Xi Poissonverteilung λ E(X) = λ λ ≈ n1 −1 P Exponentialverteilung λ E(X) = λ1 λ ≈ n1 Pi = 1n Xi µ, σ 2 E(X) = µ µ ≈ n1 Normalverteilung i = 1n Xi P 1 XP i = 1n Xi ist eine Stichprobenfunktion. Wenn E|X|k < ∞, dann n := n 1 i = 1n (Xi )k ≈ E(X k ) (im Mittel) k-tes empirisches Moment. n Beispiel 5.19 (X1 , ..., Xn ) Stichprobe, D2 (X) < ∞. Setze Sn2 := 1 n−1 n P (Xi − X n )2 heißt empirische i=1 Streuung und ist ein weiteres Beispiel einer Stichprobenfunktion. Dabei ist E(Sn2 ) = D2 (X). Im Mittel schätzt Sn2 die Streuung. Insbesondere σ 2 der Normalverteilung. (Ü.i.S.) n P Was ergibt sich für Sn02 := n1 (Xi − X n )2 ? (Es ist E(Sn02 ) 6= D2 (X), aber wenigstens lim E(Sn02 ) = D2 (X)) i=1 n→∞ Beispiel 5.20 Stichprobe vom Umfang n = 50 Messungen; +: Abweichung nach oben, -: Abweichung nach unten; 0.46 0.47 2.46 -0.32 -0.07 0.06 -2.52 -0.53 -0.19 0.54 1.49 -0.35 -0.63 0.70 0.93 1.02 -0.47 1.28 3.56 0.57 1.39 -0.56 0.05 0.32 2.95 0.30 -0.29 1.30 0.24 -0.96 -1.56 0.19 -1.19 0.02 0.53 1.38 0.79 -0.96 -0.85 -1.87 -1.58 0.19 1.19 -0.50 -0.27 1.97 -0.26 0.41 0.44 -0.04 - kritische Durchsicht der Stichprobe auf mögliche Ausreißer, Rückfrage zum Ursprung der Daten, je nach Antwort gebenenfalls Prüfung mittels Ausreißer-Tests anwenden (insbesondere wichtig bei kleinen“ Stichproben), wenn nötig, den Wert entfernen ” - Zweckmäßig: Werte der Größe nach ordnen, unübersichtliche Verhältnisse“, daher: ” Klasseneinteilung ( Zusammenfassung von Stichprobenwerten“), so dass die Verhältnisse ” überschaubarer werden, aber auch so, dass die Zufälligkeit erhalten bleibt 35 √ Empfehlungen für Klassenanzahl k: k ≤ 5 lg n, k = n, ...; - hier: k = 8, xmin = −2.52, xmax = 3.56, Spanweite R = Xmax − xmin = 6.08, Klassenbreite d := Rk = 0.76. [ ) Absolute Klassenhäuf. rel. Klassenhäuf. Summenhäuf. −∞ -1.76 III 3 0.06 0.06 -1.76 -1.00 II 2 0.04 0.10 -1.00 -0.24 IIIIIIIIIIIII 13 0.26 0.36 -0.24 0.52 IIIIIIIIIIIII 13 0.26 0.62 0.52 1.28 IIIIIIIIII 10 0.20 0.82 1.28 2.04 IIIIII 6 0.12 0.94 2.04 2.80 I 1 0.02 0.96 2.80 ∞ II 2 0.04 1.00 Formulierung einer Vermutung zum Verteilungstyp anhand graphischer Darstellungen. Normalverteilung, aber stets Rückfrage, ob das Modell sinnvoll ist 50 k P P 1 xi , bei Klasseneinteilung Schätzung durch X̃n = n1 yi hi Schätzung von µ: X n = 50 i=1 i=1 (yi : Klassenmitte der i-ten Klasse) Weitere Untermauerung der Vermutung Normalverteilung durch Signifikanztests (s. später) Beispiel 5.21 Weitere Stichprobenfunktionen: Sei X1 , ..., Xn mathematische Stichprobe, 1. m̂k = 1 n 1 n n P xki emp. Moment der Ordnung k. E|X|k < ∞ ⇒ E(m̂k ) = E(X k ). i=1 n P (Xi − X n )k : empir. zentriertes Moment der Ordnung k i=1 X n+1 : n ungerade b c 3. Median: 1 2 X n +X n : n gerade 2 b c+1 b c 2. µ̂k = 2 2 4. Seien (X1 , ..., Xn ), (Y1 , ..., Yn ) Stichproben aus Grundgesamtheiten X und Y . n P ρ̂X,Y = s (Xi −X)(Yi −Y ) i=1 n P i=1 (Xi −X)2 n P heißt emp. Korrelationskoeffizienr. (Yi −Y )2 i=1 Es gilt E(ρ̂X,Y ) = ρX,Y 5. Rangkorrelationskoeffizient von Spearman: Bsp: Lehrer für Ma/Phy wollen für die Festlegung von Noten für die Mitarbeit feststellen, ob ein Zusammenhang zwischen bei den mündlichen Leistungen von 10 Schülern in den beiden Fächern besteht. Jeder Lehrer ordnet die Schüler der Leistung nach in dem der beste die Rangzahl 1, usw., der Schlechteste die Rangzahl 10 erhält. SchülerNr. 1 2 3 4 5 6 7 8 9 10 Rangzahlen Ri (Ma) 4 2 3 7 5 6 1 9 10 8 Rangzahlen Ri0 (Phy) 3 4 5 8 2 7 1 10 9 6 6 n P (Ri −Ri0 )2 Nun ist der Rangkoeffizient sp := 1 − (n−1)n(n+1) , hier sp = 0.84. Da dies näher an 1 liegt, ist daraus zu schließen, dass die Leistungen in den beiden Fächern stark korrelieren. i=1 36 Gesetze der großen Zahlen sind wichtig in der Simulation. Beispiel 5.22 Mittels Überlegungen aus der Stochastik soll eine Näherung für R1 g(x)dx ermittelt wer- 0 den, wobei g ∈ C([0, 1], [0, 1]). Diese Methode ist bedeutend für: Rb1 ... Rbn g(x1 , ..., xn )dxn ...dx1 , falls an a1 ” g kompliziert“ oder n groß“ oder Integrationsbereich kompliziert“ bzw. ganz Rn . ” ” 1. Aufgabenstellung a = R1 g(x)dx, näherungsweise 0 2. Zuordnung ( eines stochastischen Modells: Sei X eine über [0, 1] glm. vert. Zgr.,d.h. R1 R1 R1 1 : x ∈ [0, 1] f (x) = . E(g(X)) = g(x) · f (x)dx = g(x)dx, d.h. g(x)dx 0 : sonst 0 0 0 kann als Erwartungwert der Zgr. g(X) interpretiert werden. Seien X1 , ..., Xn über [0, 1] glm. vert. unabhängige Zgr. Dann sind die Voraussetzungen von 5.11 erfüllt, n P d.h. lim n1 g(Xk ) = E(g(X)) (mit Wkt. 1) n→∞ k=1 3. Durchführung von Experimenten mit dem Modell aus 2: Ermittlung von gleichmäßig n P verteilten ZZ x1 , ..., xn . Ermittlung von g(x1 ), ..., g(xn ) und n1 g(xk ) k=1 4. Rücktransformation: Wegen 5.11 ist 1 n n P g(xk ) eine Näherung von k=1 R1 g(x)dx. 0 Wir betrachten noch eine Aussage zur Fehlerabschätzung“. Es soll E(X) unter den ” Voraussetzungen vo 5.11 durch X n angenähert werden. n soll so gewählt werden, dass, dass mit einer vorgegebenen X n − E(X) ≤ d. X n ist Zgr. Also: Es Genauigkeit gilt: liegen Ereignisse vor {ω : X n (ω) − E(X) ≤ d}. ! P {ω : X n (ω) − E(X) ≤ d} ≥ 1 − α (*) (α > 0 klein) Wir suchen zu gegebenem d ” und α einen Stichprobenumfang, sodass (*) erfüllt ist. (sogen. optimaler Stichproben” umfang“) Beispiel 5.23 Stichproben (X1 , ..., Xn ), X ∈ N (µ, σ 2 ), σ 2 bekannt, µ unbekannt. 2 Xi ∈ N (µ, σ ) ⇒ n X 2 Xk ∈ N (nµ, nσ ) ⇒ X n ∈ N k=1 σ2 µ, n ⇒ 1 − α ≤ P {X n − E(X) ≤ d} = P {−d ≤ X n − E(X) ≤ d} d√ X n − E(X) √ d√ d√ d√ d√ =P − n≤ n≤ n =Φ n −Φ − n = 2Φ n −1 σ σ σ σ σ σ i h α d√ ⇒1− =Φ n ⇒ n∗ = z1− α σ2 + 1 mit zy = Φ−1 (x) (Umkehrfunktion) 2 d2 2 σ 37 6 Zum zentralen Grenzwertsatz Wir sagen, eine Folge von Zgr. genügt dem zentralen Grenzwertsatz (ZGW), wenn gilt: P n Xk −E(Xk ) s ∀x ∈ R : lim P ≤ x = Φ(x) n n→∞ k=1 P D2 Xk k=1 Satz 6.1. Wir betrachten die folgende Variante: Sei (Xn ) eine Folge unabh. Zgr. mit n P Xk −E(X) 1 2 √ √ FXn = FX ∀n, D Xk < ∞. Dann gilt: lim P ≤ x = Φ(x) n 2 n→∞ Beweis. Sn := n P k=1 " k=1 D (X) Sn −nE(X) Xk . Wir ermitteln die charakteristische Funktion ψn von √ . 2 Sn − nE(X) ⇒ ψ(t) = E exp it · p nD2 (X) n·D (X) !# = n Y " E exp k=1 it(Xk − µ) p nD2 (X) !# = ψ t !!n p nD2 (X) (Anwendung der Taylorformel, Entwicklung bis zum quadratischen Term), wobei ψ die char. Fkt. von Xk − µ (zugehörige Vert.: FX ). 2 n 2 n t t2 t (it)2 D2 (X) +o = 1− +o ψn (t) = 1 + 2 2nD (X) n 2n n 2 n n−1 n n n−k X n t2 t2 t t2 n→∞ − t2 + o + −→ e 2 o = 1− k n n 2n n k=1 ( 1 :p Folgerung 6.2. Die Voraussetzungen von 6.1 seien erfüllt und speziell: Xk = , 0 :1−p (p ∈ (0, 1)). Dann gilt n P X − np k k=1 p ≤ x = Φ(x) lim P n→∞ np(1 − p) Bemerkung 6.3. Mittels 6.2kann die Verteilungsfunktion binomialverteilter Zgr. approximiert n P n Xk −np n→∞ P x−np x−np k=1 werden: P Xk ≤ x = P √ ≤√ ≈ Φ √ np(1−p) np(1−p) np(1−p) k=1 Beispiel 6.4 Ein Meinungsforschungsinstitut möchte den (unbekannten) Anteil p von Wählern einer Partei ermitteln. Wir wissen, dass p durch die relative Häufigkeit geschätzt wird (Gesetz der großen Zahlen). Dann kann die relative Häufigkeit geschätzt werden mit ( n P 1 : Partei gewählt“ : p ” p̃n := n1 Xk , Xk = . Es soll die Anzahl der Befragten so 0 : nicht gewählt : 1 − p k=1 bestimmt werden, dass: P {|p̃n − p| ≤ 0.02} ≥ 0.95 gilt. n n P P Xk − np Xk − np n X k=1 ≤ p0.02 · n ≤ 0.02 ⇔ |p̃n −p| ≤ 0.02 ⇔ k=1 Xk − np ≤ 0.02·n ⇔ p n np(1 − p) np(1 − p) k=1 38 2 Aber p ist unbekannt, also Versuch einer Abschätzung: p(1 − p) = 41 − p − 12 ≤ 14 . Also n n P P Xk − np Xk − np ! 0.02 · n 0.02 · n k=1 k=1 p p q ≥ 0.95 P p ≤ ≥ P ≤ np(1 − p) 1 np(1 − p) np(1 − p) n · 4 n P Xk − np √ √ √ k=1 ≤ 0.04 n ≈ 2Φ(0.04 n)−1 ≥ 0.95 ⇒ 1.96 = 0.04 n ⇒ n ≈ 2401 → 2500 P p np(1 − p) Es sollten also etwa 2500 Wähler befragt werden. 7 Maximum-Likelihood-Schätzungen X n , Sn2 sind Schätzungen für E(X), D2 (X) für Stichproben (X1 , ..., Xn ). Definition 7.1. Sei (Fγ )γ∈Γ eine Familie von Verteilungsfunktionen. Von einer Zgr. sei bekannt: ∃γ 0 ∈ Γ : FX = Fγ 0 . (Verteilungsfunktion bis auf Parameter bekannt). Sei G eine σ-Algebra von Teilmengen aus Γ (Γ ∈ G). Sei γ̂0 : Rn → Γ, mit γ̂0 := Tn (X1 , ..., Xn ) für eine Stichprobe (X1 , ..., Xn ). Dann heißt γ̂0 Schätzung (Punktschätzung) für γ0 , wenn ∀B ∈ G : Tn−1 (B) ∈ Bn . Definition 7.2. 1. γ̂0 heißt erwartungstreue Schätzung für γ, wenn E(γ̂0 ) = γ0 2 (X n , Sn sind erwartungstreu) 2. Falls lim E [Tn (X1 , ..., Xn )] = γ0 , so heißt die Punktschätzung asymptotisch erwartungstreu. n→∞ lim Tn (X1 , ..., Xn ) = γ0 mit Wkt. 1 stark konsistent n→∞ . 3. Falls gilt, dann heißt die Schätzung schwach konsistent lim Tn (X1 , ..., Xn ) = γ0 in Wkt. 1 n→∞ 4. Seien γˆ1 , γˆ2 Punktschätzungen für γ0 . γˆ1 heißt besser als γˆ2 für γ0 , falls für bel. ε > 0 gilt P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε}. Beispiel 7.3 Sei γˆ1 ∈ N (γ0 , σ12 ), γˆ2 ∈ N (γ0 , σ22 ). γˆ1 besser als γˆ2 ⇔ σ12 ≤ σ22 , denn: sei ε > 0 beliebig. Dann ist |γ̂i − γ0 | ε ε P {|γ̂i − γ0 | ≤ ε} = P ≤ = 2Φ −1 σi σi σi ε Nun gilt γˆ1 besser als γˆ2 ⇔ P {|γˆ1 − γ0 | ≤ ε} ≥ P {|γˆ2 − γ0 | ≤ ε} ⇔ Φ σ1 ≥ Φ σε2 ⇔ ε σ1 ≥ ε σ2 ⇔ σ22 ≥ σ12 Definition 7.4. Sei unser Modell wie in 7.1, (X1 , ..., Xn ) sei Stichprobe zu X. Fallunterscheidung (γ) (γ) 1. X diskret mit den Werten a1 , a2 , ... und P {X = ak } = pk = pak . (Einzelwahrscheinlichkeiten hängen von einem unbekannten Parameter γ ∈ Γ ab.) (γ) (γ) Setze L(X1 , ..., Xn ; γ) := PX1 · ... · PXn heißt Likelihoodfunktion. 39 2. Sei X stetig. (Dichtefunktion hängt von einem unbekannten Parameter γ ∈ Γ ab: f (γ) (x)) L(X1 , ..., Xn ; γ) := f (γ) (X1 ) · ... · f (γ) (Xn ) 3. Sei (x1 , ..., xn ) eine konkrete Stichprobe. Dann heißt L(x1 , ..., xn , γ) konkrete Likelihoodfkt. 4. l(x : 1, ..., xn ; γ) = ln L(x1 , ..., xn ; γ) heißt logarithmierte Likelihoodfkt. 5. Eine Schätzung γ̂0 = Tn (X1 , ..., Xn ) heißt Maximum-Likelihoodschätzung für γ, falls: L(X1 , ..., Xn ; γ̂0 ) = max{L(X1 , ..., Xn ; γ) : γ ∈ Γ} Bemerkung 7.5. X sei diskret, (x1 , ..., xn ) konkrete Stichprobe für (X1 , ..., Xn ). Das ergibt ! (γ) (γ) L(x1 , ..., xn ; γ) = px1 · ... · pxn = P {X1 = x1 } · ... · P {Xn = xn } = P {(X1 , ..., Xn ) = (x1 , ..., xn )} = max Gesucht ist γ 0 ∈ Γ, so dass die Wkt., dass X1 = x1 , ..., Xn = xn gilt, maximal wird. γ∈Γ Beispiel 7.6 Sei X binomialverteilt mit (γ, m), γ = p ∈ (0, 1) =: Γ, m gegeben. Eine zu X gehörige n X Q m Stichprobe (X1 , ..., Xn ). X ist diskrete Zgr. ⇒ L(X1 , ..., Xn ; γ) = γ i (1−γ)m−Xi . Xi n ni=1 P P P m Übergang zu l(X1 , ..., X; γ) = ln Xi + Xi ln γ + (m − Xi ) ln(1 − γ). i=1 i=1 i=1 Versuch: 1 d l(X1 , ..., Xn ; γ) = dγ γ n X ! Xi i=1 1 − 1−γ mn − n X ! Xi i=1 n 1 X Xn · Xi = = 0 ⇒ γ̂ = nm i=1 m ! 2 d l Wegen 0 ≤ Xi ≤ m folgt γ̂ ∈ (0, 1). Ferner ist dγ 2 < 0 ⇒ γ̂ ist Max.-Lik.-Schätzung. Ist es erwwartungstreu? E(γ̂) = E Xmn = m1 · E(X) = m1 · mγ = γ. Beispiel 7.7 (X1 , ..., Xn ) sei Stichprobe aus einer exponentialverteilten Grundgesamtheit x mit n P γ(= λ) > 0. fγ (x) = γe−γx χR+ (x). Setze S := Xi . L(X1 , ..., Xn ; γ) = n Q i=1 ! γe−γXi = γ n e−γS ⇒ l(X1 , ..., Xn ; γ) = n ln γ − γS = max. γ>0 i=1 dl n n 1 ! >0 = − S = 0 ⇒ γ̂ = = dγ γ S Xn d2 l n = − <0 dγ 2 γ2 Also ist γ̂ Max.-Lih.-Schätzung. Max.-Lih.-Schätungen besitzen bemerkenswerte Eigenschaften. Satz 7.8. Sei X stetige Zgr. mit Dichte fγ (X), γ ∈ [a, b] ⊂ R mit k ∂ fγ (x) ∂ k ln fγ (x) (k = 1, 2, 3), ∀γ ∈ [a, b]∀x, ∃ ∂γ k ≤ Gk (x), ∂γ k (Ableitungen existieren und haben Majoranten) wobei G1 , G2 über R integrierbar und R R h ∂ ln fγ (x) i2 sup G3 (x)fγ (x)dx < ∞, I(γ) := fγ (x)dx < ∞ und positiv ∂γ γ∈Γ R R (als Information interpretierbar) Sei (X1 , ..., Xn ) eine Stichprobe zu X, Die Likelihoodgleichung und γ̂ ist Max.-Lih.-Schätzung mit folgenden Eigenschaften: 40 ∂L(X1 ,...,Xn ;γ) ∂γ = 0 besitzt eine Lösung 1. γ̂ ist asymptotisch erwartungstreu (im Allg. nicht erwartungstreu) 2. γ̂ ist schwach konsistent √ 3. I(γ) n(γ̂ − γ) ∈ N (0, 1) für n → ∞. (Anwendung für Teste bei nicht normalverteiltem X) Ü.i.S.: Max.-Lih.-Schätzung für µ, σ 2 falls X ∈ N (µ, σ 2 ) n P (Γ = R × (0, ∞)) ⇒ µ̂ = X n , σ 2 = n1 (xi − X n )2 i=1 Ü.i.S.: Max.-Lih.-Schätzung für λ bei Poisson-Verteilung Bemerkung: Für praktisch relevante Probleme sind die Gleichungen für die Max.-Lih.-Schätzungen nicht mehr geschlossen lösbar. In solchen Fällen muss man auf numerische Verfahren (zumeist Newton) zurück greifen. 8 Zu Signifikanztesten Definition 8.1. Sei X Zgr. mit Verteilungsfunktion Fγ , γ ∈ Γ. γ 0 sei der wahre Parameter: FX = Fγ 0 , γ 0 ∈ Γ, ∅ 6= Γ0 ( Γ. Werte γ ∈ Γ0 heißen Nullhypothese H0 , γ ∈ Γ\Γ0 heißen Alternativhypothese H1 . Insbesondere Γ0 = {γ 0 }: Vermutung für einen konkreten Wert für γ Beispiel 8.2 Γ0 = {γ : γ ≥ γ0 , Γ0 = {γ : γ < γ0 }. Meist aber einelementiger Fall. Definition 8.3. Ein (nicht radomisierter) Test ist eine Funktion, ϕ : G ⊂ Rn → {0, 1} mit: Sei (x1 , ..., xn ) konkrete ( Stichprobe einer Grundgesamtheit X. Dann definieren wir 0 : (x1 , ..., xn ∈ Rn \G . ϕ(x1 , ..., xn ) = 1 : (x1 , ..., xn ) ∈ G Interpretation ϕ = 1: Annahme von H0 /Ablehnung von H1 . Definition 8.4. Ist Tn eine Stichprobenfunktion und wird G durch {(x1 , ..., xn ) : Tn (x1 , ..., xn ) ∈ K} beschrieben, so heißt K kritischer Bereich. Im Folgenden sei 8.4 vorausgesetzt. Also: Entscheidung basiert auf einer Stichprobe, d.h. basiert auf einer Verteilung, da die Stichprobenfkt. eine Zgr. ist. Es sind 2 Fehlentscheidungen möglich: Fehler 1. Art: Ablehnung von H0 , obwohl H0 richtig ist; Fehler 2. Art: Annahme von H0 , obwohl H0 falsch ist. Beide Fehlerwahrscheinlichkeiten lassen sich nicht gleichzeitig minimieren. Daher spezielle Tests: Signifikanzteste Sei α ∈ (0, 1) gegeben (üblich: α = 0.05 bzw 0.01 oder 0.001). Dann soll gelten P {Fehler 1. Art} ≤ α. (α - Irrtumswahrscheinlichkeit, Sinifikanzniveau,...). Bemerkung 8.5. Es ist keine Aussage über den Fehler 2. Art möglich. (Oft: Wkt für Fehler 2. Art minimal zu halten). Es gibt einen Zusammenhang zwischen α und n. Mitunter ist es möglich, zu vorgegebenen α einen Stichprobenumfang n∗ (notwendiger Spichprobenumfagn) so zu bestimmen, dass für die Wahrhsceinlichkeit des Fehlers 2. Art eine gewünschte Wahrscheinlichkeit mindestens einegehalten wird, wenn man eine einzuhaltende Genauigkeit für den Parameter vorgibt. Sequentielle Teste/Folgeteste: unsere Entscheidung basiert auf Stichprobe, bei nächster Stichprobe evtl andere Entscheidung. Wir suchen nun nach Regeln, damit nächste Stichprobe sicherer wird. 41 Beispiel 8.6 Leitbeispiel: bezieht sich auf Teste für normalverteilte Grundgesamtheiten. Sei X ∈ N (µ, σ 2 ), σ 2 sei bekannt (σ 2 = 4). Gegeben Stichprobe (X1 , ..., Xn ), hier: konkrete Stichprobe vom Umfang n = 20: 10,11,13,11,12,13,14,10,9,10,10,11,12,14,14,10,11,10,16,9 1. Formulierung einer Hypothese H0 (Nullhypothese) und einer alternativen Hypothese hier H1 , hier: H0 : µ = µ0 = 11, Alternative H1 : µ 6= µ0 , (hier: µ 6= 11) 2. Angabe einer Testgröße, d.h. Angabe einer Stichprobenfunktion T , deren Verteilung unter Zugrundelegung von H0 (mindestens asymptotisch) bekannt ist. Hier: Eine Stich√ probenfkt. T := Z = X nσ−µ0 · n ∈ N (0, 1) Für eine konkrete Stichprobe wird einer Realisierung von T ermittelt. Hier: z = X nσ−µ0 · √ √ n = 11.5−11 20 ≈ 1.118 2 3. Angabe des kritischen Bereiches K, d.h. Ein möglichst großer Teil des Wertebereiches von T mit P {T ∈ K|H0 } ≤ α mit α ∈ (0, 1) gegeben ( möglichst groß“ ganz ” intuitiv, λ1 (K) maximal). Es gibt verschiedene Wahlmöglichkeiten von K, z.B. Hier: H0 : µ = µ0 , Es gibt also Unterschreitungen und Überschreitungen des Sollwertes. Somit ist eine sogenannte zweiseitige Fragestellung sinnvoll. Suche also z α2 , sodass P {X > z α2 } ≤ α2 . Wegen der Symmetrie ist dann K = z : |z| > z α2 Ist ein Unterschreiten der Nullhypothese ausgeschlossen (durch äußere Umstände oder durch eine Nullhyothese µ ≤ µ0 ) dann ist es sinnvoll eine rechtsseitige Fragestellung durchzuführen, also K = {z : z ≥ zα }. Bzw. wenn ein Überschreiten ausgeschlossen ist, (H0 : µ = µ0 , H1 : µ < µ0 ), so ergibt sich eine linksseitige Fragestellung mit K = {z : z ≤ −zα }. zβ β 0.10 1.282 0.05 1.655 0.025 1.96 0.01 2.326 0.005 2.576 0.001 3.090 4. Entscheidungsfindung: Gilt für die Realisierung von T aus Schritt 2 die Beziehung t∈ / K, so ist nicht gegen H0 einzuwenden. Für t ∈ K wird H0 zugunsten von H1 abgelehnt. Hier: 1.118 ∈ / K bei α = 0.05 ⇒ nichts gegen µ = 11 einzuwenden. Kann man Bereiche angeben von Werten, die nicht abgelehnt werden können? Ja, indem man die gegebenen Sachen umstellt. Das führt zum Begriff der Konfidenzintervalle. 8.1 Gütefunktion eines Tests Beispiel 8.7 2-seitiger Test, H0 : E(X) = µ0 , H1 : E(X) 6= µ0 , wenn X ∈ N (µ, σ 2 ), σ 2 bekannt. 0 Setze nun δ := µ−µ ( genormte Abweichung“), Q = α2 , α ∈ (0, 1) sei ein gegebenes σ ” 42 Signifikanzniveau. X n − µ0 √ X n − µ0 √ := P n ≥ zq = 1 − P n ≤ zq σ σ Xn √ µ0 √ = 1 − P −zq ≤ n− n ≤ zq σ σ µ√ Xn √ µ0 √ µ0 √ µ√ µ0 √ n− n≤ n− n ≤ zq + n− n = 1 − P −zq + σ σ σ σ σ σ √ √ √ √ Xn − µ√ = 1 − P −zq − δ n ≤ n ≤ zq − δ n = 1 − Φ(zq − δ n) − Φ(−zq − δ n ] σ √ √ = 1 − Φ(zq − δ n) + Φ(−zq − δ n) =: g1 (δ) Die Gütefunktion g1 gängt ggf. von u und von δ ab. µ = µ0 :⇒ δ = 0 ⇒ g(µ0 ) = 1 − Φ(zq ) + Φ(−zq ) = 2(1 − Φ(zq )) = α | {z } =1− α 2 Die Gütefunktion liefert also eine Majorante für den fehelr 1. Art. Wkt Fehler 2. Art: β(µ) = 1 − g(µ) für µ 6= µ0 , Konkret: α = 0.01, n = 5, n = 20 |δ| n = 5 n = 20 0 0.010 0.010 0.5 0.073 0.367 1 0.367 0.971 1.5 0.782 1.000 2 0.971 1.000 2.5 0.999 1.000 3 1.000 1.000 Für großes δ und somit für größer werdenden ersten Fehler wird der Fehler 2. Artkleiner. Die Wahrscheinlichkeiten sind also gegenläufig. Gesucht ist nun ein Mindestumfang für eine Stichprobe (2-seitige Fragetsellung), damit der Fehler 2. Art kleiner wird als eine vorgegebene Schranke β0 . Dabei erhält man ! z α2 − z β0 2 2 n≥ δ 8.2 Konfidenzintervalle/Konfidenzschätzungen Eine Konfidenzschätzung (Bereichsschätzung) ist eine zufällige Menge (stichprobenabhängig) im Parameterraum, die mit Wahrscheinlichkeit 1 − α den wahren Parameter überdeckt. P {ω : G(ω) 3 µ0 } ≥ 1 − α, α ∈ (0, 1) Oft sind die Mengen G(ω) Intervalle mit zufälligen Grenzen. Dann spricht man von Vertrauenintevallen. Beispiel 8.8 Gesucht ist ein Konfidenzntervall für den Erwartungswert einer normalverteilten Grundgesamtheit bei bekannter Streuung (zweiseitig) Überlegung: Gibt es einen entsprechenden Test? 43 √ ja, siehe 8.6.(2): T = X nσ−µ0 n ∈ N (0, 1) 8.6.(3): P {T ∈ K} = α ⇔ P {T ∈ / K} = 1 − α ⇔ P {|T | ≤ z α2 } = 1 − α ⇔ n o zα σ zα σ P X n − √2n ≤ µ0 ≤ X n + √2n zα σ zα σ Also ist das Vertrauensintervall X n − √2n , X n + √2n Hier spiegelt sich auch wieder, dass wachsender Stichprobenumfang eine größere Genauigkeit liefert. Das Vertrauensintervall gibt die Menge von Erwartungswerten an, die nicht abgelehnt werden können. Bemerkung 8.9. Prüfen von µ, wenn X ∈ N (µ, σ 2 ),σ 2 unbekannt. Dann betrachtet man folgende Testgröße: √ n −µ0 T := X√ n ist t-Verteilung mit n − 1 Freiheitsgraden. Diese ist vertafelt. Statt 2 Sn z α2 haben wir t α2 ,1−n . Der Stichprobenumfang geht also mit ein. Will man dies lösen, so erhält man Fixpunktgleichungen, die nicht geschlossen lösbar sind, aber es lassen Näherungen/Schranken berechnen. Prüfen von σ 2 einer normalverteilten Zgr. bei unbekanntem Erwartungswert: 2 n ist χ2 -verteilt mit n − 1 Freiheitsgraden, (σ0 -Hypothese), Liegt wieder T := (n−1)S σ02 vertafelt vor. 44