Wahrscheinlichkeit und Statistik WS 2009/10 Vorlesung von Priv.-Doz. Dr. J. Dippon 25. März 2010 Inhaltsverzeichnis I Grundbegriffe der Wahrscheinlichkeitstheorie 1 Wahrscheinlichkeitsräume 1 2 2 Kombinatorische Wahrscheinlichkeitsrechnung 10 3 Zufallsvariablen und Verteilungen 14 3.1 Meßbare Abbildungen und Zufallsvariablen . . . . . . . . . 14 3.2 Bildmaße und Verteilungen . . . . . . . . . . . . . . . . . . 16 4 Erwartungswerte und Dichten 20 5 Unabhängigkeit 28 6 Erzeugende und charakteristische Funktionen, Faltungen 32 6.1 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . 32 6.2 Charakteristische Funktionen . . . . . . . . . . . . . . . . 34 7 Spezielle Verteilungen 39 7.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . 39 7.2 Totalstetige Verteilungen . . . . . . . . . . . . . . . . . . . 43 1 8 Gesetze der großen Zahlen 47 8.1 Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . 47 8.2 Schwache und starke Gesetze der großen Zahlen . . . . . . 48 9 Zentrale Grenzwertsätze II 52 9.1 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd 52 9.2 Zentrale Grenzwertsätze . . . . . . . . . . . . . . . . . . . 54 9.3 Multivariate zentrale Grenzwertsätze . . . . . . . . . . . . 56 Deskriptive Statistik 58 10 Statistische Kenngrößen 60 10.1 Empirische Häufigkeitsverteilung . . . . . . . . . . . . . . 61 10.2 Lagemaße . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 10.3 Steuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . 62 10.4 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . 63 11 Grafiken III 65 11.1 Beispiele für Grafiken für univariate Daten . . . . . . . . . 65 11.2 Beispiele für Grafiken für bivariate Daten . . . . . . . . . . 65 Grundbegriffe der Mathematischen Statistik 12 Testen von Hypothesen 66 68 2 12.1 Problemstellung, Bezeichnungen . . . . . . . . . . . . . . . 68 12.2 Wahrscheinlichkeitstheoretische Grundlagen für spezielle Tests 70 12.3 Spezielle Tests bei parametrischen Verteilungsannahmen . 72 12.4 Tests bei nichtparametrischen Verteilungsannahmen . . . . 74 13 Parameterschätzung 81 14 Parameterschätzung bei linearen Regressionsproblemen 84 15 Bereichsschätzung 87 A Begriffe und Sätze der Maß- und Integrationstheorie 90 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 91 Teil I Grundbegriffe der Wahrscheinlichkeitstheorie 1 Kapitel 1 Wahrscheinlichkeitsräume Definition 1.1. Sei Ω eine nichtleere Menge. Ein System A von Teilmengen von Ω heißt eine Algebra, wenn 1) ∅ ∈ A 2) A ∈ A =⇒ Ac := Ω\A ∈ A 3) A, B ∈ A =⇒ A∪B ∈ A m ∪ An ∈ A, oder — äquivalent — A1 , . . . , Am ∈ A =⇒ n=1 das System A heißt σ-Algebra, falls zusätlich gilt ∞ 3’) An ∈ A (n = 1, 2, . . .) =⇒ ∪ An ∈ A . n=1 Bemerkung 1.1. A σ-Algebra =⇒ A Algebra. Lemma 1.1. a) Sei A eine Algebra. m A1 , . . . , Am ∈ A =⇒ ∩ An ∈ A n=1 A, B ∈ A =⇒ A\B ∈ A . b) Sei A eine σ-Algebra. ∞ An ∈ A (n = 1, 2, . . .) =⇒ ∩ An ∈ A . n=1 2 Eine Algebra [σ-Algebra] enthält ∅, Ω und ist abgeschlossen gegenüber endlich [abzählbar] vielen üblichen Mengenoperationen. Definition 1.2. Es sei Ω eine nichtleere Menge, A eine σ-Algebra in Ω. Das Paar (Ω, A) heißt Messraum (measurable space); die Elemente ∈ A heißen A-messbare Mengen. Lemma 1.2. a) Aα Algebren in Ω (α ∈ I) =⇒ ∩ Aα Algebra in Ω. α∈I b) C Mengensystem in Ω =⇒ es existiert eine kleinste C enthaltende Algebra. Entsprechend für σ-Algebren. Definition 1.3. C sei ein Mengensystem in Ω. Die kleinste der C enthaltenden Algebren heißt die von C erzeugte Algebra; C heißt ein Erzeugersystem dieser Algebra. — Entsprechend für σ-Algebren; Bezeichnung: F(C) . . . die von C erzeugte σ-Algebra. Definition 1.4. On := System der offenen Mengen des Euklidischen Raumes Rn ; Bn := F(On ), B := B1 . Bn wird als σ-Algebra der Borelschen Mengen in Rn bezeichnet. Bn enthält alle abgeschlossenen Mengen und alle höchstens abzählbaren Mengen in Rn . Es gilt Bn ⊂ P(Rn ). 6= Satz 1.1. Das System Jn der halboffenen Intervalle (a, b] := {(x1 , . . . , xn ) ∈ Rn | ai < xi ≤ bi (i = 1, . . . , )} in Rn (a = (a1 , . . . , an ), b = (b1 , . . . , bn ) ∈ Rn mit ai < bi ) [oder auch das System der offenen Intervalle, der abgeschlossenen Intervalle, der Intervalle (−∞, a] oder der Intervalle (−∞, a)] ist ein Erzeugersystem von Bn . 3 Definition 1.5. C sei ein Mengensystem in Ω mit ∅ ∈ C. Eine Mengenfunktion µ : C → R := R ∪ {+∞, −∞} heißt (mit a + ∞ = ∞ (a ∈ R), ∞ + ∞ = ∞ usw.) a) ein Inhalt (content) auf C, wenn • µ ist nulltreu, d.h. µ(∅) = 0, • µ positiv, d.h. ∀ µ(A) ≥ 0, A∈C • µ additiv, d.h. für alle paarweise disjunkte An ∈ C (n = 1, 2, . . . , m) P Pm Pm mit m A ∈ C gilt µ ( A ) = n=1 n n=1 n n=1 µ(An ). b) ein Maß (measure) auf C, wenn • µ ist nulltreu, d.h. µ(∅) = 0, • µ positiv, d.h. ∀ µ(A) ≥ 0, A∈C • µ σ-additiv, d.h. für alle paarweise disjunkte An ∈ C (n = P P∞ P∞ 1, 2, . . .) mit ∞ A ∈ C gilt µ ( A ) = n n n=1 n=1 n=1 µ(An ) . “Natürliche” Definitionsbereiche für Inhalt und Maß sind Algebren bzw. σP P∞ Algebren (dann Verzicht auf Voraussetzung m A ∈ C bzw. n n=1 n=1 An ∈ C). Häufig werden nur diese Definitionsbereiche verwendet. Jedes Maß ist ein Inhalt. Definition 1.6. Ist A eine σ-Algebra in Ω, µ ein Maß auf A, so heißt (Ω, A, µ) ein Maßraum (measure space). Ist (Ω, A) ein Messraum, Z = {z1 , z2 , . . .} eine höchstens abzählbare Teilmenge von Ω, so heißt µ : A → R mit µ(A) := Anzahl der zi ∈ A, A ∈ A, ein abzählendes Maß (counting measure). Bemerkung 1.2. A Algebra in Ω, µ endlicher Inhalt auf A. A, B ∈ A, A ⊂ B =⇒ µ(B\A) = µ(B) − µ(A) . . . Subtraktivität. Definition 1.7. Sei A eine σ-Algebra in Ω. Eine Abbildung P : A → R heißt ein Wahrscheinlichkeitsmaß (W-Maß) auf A, wenn 4 • P (∅) = 0, • P positiv, d.h. P (A) ≥ 0, • P σ-additiv, d.h. für alle paarweise disjunkte An ∈ A (n = 1, 2, . . .) gilt ! ∞ ∞ X X P (An ), An = P n=1 n=1 • P normiert, d.h. P (Ω) = 1. (Ω, A, P ) heißt dann ein Wahrscheinlichkeitsraum (W-Raum) (probability space). Ein W-Raum ist ein normierter Maßraum. Ist (Ω, A, P ) ein W-Raum, so bezeichnet man die Grundmenge Ω auch als Merkmalraum, Stichprobenraum (sample space), die Mengen A ∈ A als Ereignisse, P (A) als Wahrscheinlichkeit von A, die Elemente ω ∈ Ω bzw. die 1-Punkt-Mengen {ω} ⊂ Ω (nicht notwendig ∈ A) als Elementarereignisse (auch Realisierungen). 1 Ein W-Raum (Ω, A, P ) mit Ω endlich, A = P(Ω), P ({ω}) = |Ω| (ω ∈ Ω) (|Ω| = Anzahl der Elemente in Ω) heißt Laplacescher W-Raum: Für A ∈ A gilt P (A) = Anzahl der “günstigen” Fälle |A| = |Ω| Anzahl der “möglichen” Fälle Es sei (Ω, A) = (R, B) und (pk )k∈N0 (N0 := {0, 1, . . .}) eine Zahlenfolge mit P pk ≥ 0 (k ∈ N0 ), ∞ k=0 pk = 1. Dann ist P : B → R mit X P (A) := pk , A ∈ A , k∈A∩N0 ein W-Maß. (pk ) heißt Zähldichte zu P . k Ist speziell pk = e−λ λk! , (k ∈ N0 ) bei festem λ > 0, so heißt P PoissonVerteilung mit Parameter λ . . . Bezeichnung π(λ). 5 Bezeichnung [für Mengen An (n = 1, 2, . . .), A] ∞ An ↑ A : A1 ⊂ A2 ⊂ A3 ⊂ . . . , ∪ An = A n=1 ∞ An ↓ A : A1 ⊃ A2 ⊃ A3 ⊃ . . . , ∩ An = A. n=1 Satz 1.2. Sei A eine Algebra in Ω, µ ein endlicher (d.h. µ(Ω) < ∞) Inhalt auf A. Dann sind die folgenden Aussagen a), . . . , d) äquivalent: a) µ σ-additiv b) µ stetig von unten, d.h. [An ∈ A, An ↑ A ∈ A =⇒ µ(An ) → µ(A)] c) µ stetig von oben, d.h. [An ∈ A, An ↓ A ∈ A =⇒ µ(An ) → µ(A)] d) µ ∅-stetig, d.h. [An ∈ A, An ↓ ∅ =⇒ µ(An ) → 0] . Auch ohne die Voraussetzung der Endlichkeit von µ gilt a) ⇐⇒ b). Lemma 1.3. Sei A eine Algebra in Ω, µ ein Inhalt auf A. a) µ ist monoton, d.h. [A, B ∈ A, A ⊂ B =⇒ µ(A) ≤ µ(B)] . b) µ ist subadditiv, m m P n=1 n=1 d.h. [A1 , . . . , Am ∈ A =⇒ µ( ∪ An ) ≤ µ(An )] . c) Ist µ ein Maß, dann ist µ sogar σ-subadditiv, ∞ ∞ ∞ P n=1 n=1 n=1 d.h. [An ∈ A (n = 1, 2, . . .), ∪ An ∈ A =⇒ µ( ∪ An ) ≤ µ(An )] . Satz 1.3 (1. Lemma von Borel und Cantelli). W-Raum (Ω, A, P ); An ∈ A (n ∈ N) . Mit ∞ ∞ lim An := ∩ ∪ Ak = {ω ∈ Ω | existieren unendlich viele n ∈ N mit ω ∈ An } n=1 k=n = “Ereignis, dass unendlich viele An eintreten” 6 gilt dann: ∞ X P (An ) < ∞ =⇒ P (lim An ) = 0, n=1 d.h. P-f.s. gilt: An tritt nur endlich oft auf Satz 1.4. (Fortsetzungs- und Eindeutigkeitssatz) [Verallgemeinerung siehe Bauer (Maß- und Integrationstheorie) §5, Elstrodt Kap. II §4, Hinderer §16] Sei P ein normiertes [d.h. P (Ω) = 1] Maß auf einer Algebra A in Ω. Dann existiert genau ein W-Maß P ∗ auf F(A), das P fortsetzt [d.h. ∀ P ∗ (A) = P (A)]. A∈A Bemerkung 1.3. P ∗ in Satz 1.4 ist gegeben durch (∞ ) X P ∗ (A) = inf P (Bn ) | Bn ∈ A (n = 1, 2, . . .) mit A ⊂ ∪ Bn , A ∈ F(A) . n n=1 Bemerkung 1.4. Es ist im allgemeinen nicht möglich, P fortzusetzen von A auf P(Ω). Satz 1.5. Es gibt genau ein Maß λ auf Bn , das jedem beschränkten (nach rechts halboffenen) Intervall in Rn seinen elementargeometrischen Inhalt zuordnet. Definition 1.8. Das Maß λ in Satz 1.5 heißt Lebesgue–Borel–Maß (LB-Maß) in Rn . Definition 1.9. Eine Funktion F : R → R, die monoton wachsend (im Sinne von nicht fallend) und rechtsseitig stetig ist mit lim F (x) = 0, lim F (x) = 1 , x→−∞ x→+∞ heißt (eindimensionale) Verteilungsfunktion (VF). Satz 1.6. Zu jedem W-Maß P auf B gibt es genau eine VF F : R → R, so dass (∗) F (b) − F (a) = P ((a, b]), a ≤ b, a, b ∈ R 7 gilt, und umgekehrt . . . Bijektion P ←→ F . Hierbei F (x) = P ((−∞, x]), x ∈ R. Beispiel: Φ : R → [0, 1] mit 1 Φ(x) := √ 2π Zx t2 e− 2 dt, x ∈ R, −∞ ist eine VF. Das zugehörige W-Maß auf B ist die sogenannte standardisierte Normalverteilung . . . Bezeichnung N (0, 1). Verallgemeinerung: Normalverteilung (Gauß-Verteilung) N (a, σ 2 ) (a, σ ∈ R, σ > 0) mit durch Zx (t−a)2 1 e− 2σ2 dt, x ∈ R, F (x) := √ 2πσ −∞ gegebener VF F . Bemerkung 1.5. Definition 1.9, Satz 1.6 lassen sich auf Bn und Rn als Definitionsbereiche von P bzw. F verallgemeinern statt B bzw. R. Dabei ist die VF F zu einem W-Maß P auf Bn gegeben durch F (x1 , . . . , xn ) = P ({(u1 , . . . , un ) ∈ Rn | u1 ≤ x1 , . . . , un ≤ xn }) für (x1 , . . . , xn ) ∈ Rn . Definition 1.10. Es sei (Ω, A, P ) ein W-Raum, A ∈ A, B ∈ A mit P (B) > 0. Dann heißt P (A ∩ B) P (A | B) := P (B) die bedingte Wahrscheinlichkeit (conditional probability) von A unter der Bedingung B. Satz 1.7. Sei (Ω, A, P ) ein W-Raum. a) Bei festem B ∈ A mit P (B) > 0 ist P (· | B) ein W-Maß auf A, das auf B konzentriert ist [d.h. P (B | B) = 1]. 8 b) Für A, B ∈ A mit P (A) > 0, P (B) > 0 gilt P (A | B) = P (B | A) · P (A) . P (B) m−1 c) Für An ∈ A (n = 1, . . . , m) mit P ( ∩ An ) > 0 gilt n=1 m m−1 n=1 n=1 P ( ∩ An ) = P (A1 ) · P (A2 | A1 ) · P (A3 | A1 ∩ A2 ) · . . . · P (Am | ∩ An ) . Satz 1.8. Es sei (Ω, A, P ) ein W-Raum, {Bn ; n ∈ I} eine höchstens abzählbare Familie paarweise disjunkter Ereignisse Bn ∈ A mit P (Bn ) > P 0 (n ∈ I) und Bn = Ω. Dann gilt n∈I a) die Formel von der totalen Wahrscheinlichkeit X P (A) = P (Bn )P (A | Bn ) (A ∈ A) n∈I b) die Formel von Bayes P (Bk ) · P (A | Bk ) , k ∈ I (A ∈ A mit P (A) > 0) P (Bk | A) = P P (Bn )P (A | Bn ) n∈I Bezeichnungen [Maßraum (Ω, A, µ), W-Raum (Ω, A, P )]: µ-fast überall (µ-f.ü.) in Ω bzw. P -fast sicher (P -f.s.) in Ω . . . überall bis auf eine Menge ∈ A vom µ-Maß bzw. P -Maß Null [oder eine Teilmenge hiervon]. L-fast überall (L-f.ü.) in Rn . . . überall bis auf eine Menge ∈ Bn vom L-BMaß Null [oder eine Teilmenge hiervon]. 9 Kapitel 2 Kombinatorische Wahrscheinlichkeitsrechnung Zugrundegelegt werden Laplacesche W-Räume; die Abzählung der “günstigen” und der “möglichen” Fälle erfolgt systematisch mit Hilfe der Kombinatorik. Definition 2.1. Gegeben seien n — nicht notwendig verschiedene — Elemente a1 , . . . , an . Das n-tupel (ai1 , . . . , ain ) mit ij ∈ {1, . . . , n}, ij 6= ik für j 6= k (j, k = 1, . . . , n) heißt eine Permutation der gegebenen Elemente. Satz 2.1. Die Anzahl der Permutationen von n verschiedenen Elementen ist n!. Verallgemeinerung: Satz 2.2. Gegeben seien n Elemente; die verschiedenen Elemente darunter seien mit a1 , . . . , ap bezeichnet (p ≤ n). Tritt ai ni -fach auf (i = 1, . . . , p, p P ni = n), dann können die n Elemente auf wobei i=1 n! n1 ! . . . np ! verschiedene Arten permutiert werden. 10 Definition 2.2. Sei A eine n-elementige Menge, k ∈ N. a) [b)] Jedes k-tupel (a1 , . . . , ak ) mit nicht notwendig verschiedenen [lauter verschiedenen] ai ∈ A heißt eine Kombination k-ter Ordnung aus A mit [ohne] Wiederholung und mit Berücksichtigung der Anordnung. (c) [d)] Werden in a) [b)] Kombinationen, welche dieselben Elemente in verschiedener Anordnung enthalten, als äquivalent aufgefasst, so heißen die einzelnen Äquivalenzklassen Kombinationen k-ter Ordnung aus A mit [ohne] Wiederholung und ohne Berücksichtigung der Anordnung. Interpretation (mit A = {1, . . . , n}): Aufteilung von k Kugeln auf n Zellen, wobei in a) [b)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Kugeln unterscheidbar sind (ai . . . Nummer der Zelle, in der die i-te Kugel liegt), in c) [d)] die Zellen mehrfach [nicht mehrfach] besetzt werden dürfen und die Kugeln nicht unterscheidbar sind (ein Repräsentant der Äquivalenzklasse ist gegeben durch ein k-tupel von Zahlen aus {1, . . . , n}, in dem die Zellennummern so oft auftreten, wie die zugehörige Zelle besetzt ist). Satz 2.3. Die Anzahl der Kombinationen k-ter Ordnung aus der n-elementigen Menge A — mit [ohne] Wiederholung und mit [ohne] Berücksichtigung der Anordnung — ist gegeben durch m. Berücksichtigung der Anordnung o. Berücksichtigung der Anordnung m. Wiederholung o. Wiederholung (1 ≤ k ≤ n) nk n(n − 1) . . . (n − k + 1) n n+k−1 k k Bestimmung von Fakultäten durch Tabellen für log n! und — bei großem n — durch die Stirlingsche Formel n n √ ∼ n! = 2πn (n → ∞) e 11 und ihre Verschärfung exp 1 n! 1 < n √ < exp , 12n + 1 ( e )n 2πn 12n n ∈ N. Anwendung in der Physik. Man beschreibt das makroskopische Verhalten von k Teilchen in der Weise, dass man den (der Darstellung des Momentanzustandes dienenden) Phasenraum in n kongruente würfelförmige Zellen zerlegt und die Wahrscheinlichkeit p(k1 , . . . , kn ) bestimmt, dass sich genau ki der Teilchen in der i-ten Zelle befinden (i ∈ {1, . . . , n}). Sei Ω0 die n P n ki = k. Menge aller n-tupel (k1 , . . . , kn ) ∈ N0 von Besetzungszahlen mit W-Maße auf P(Ω0 ) (charakterisiert durch p): i=1 1) Maxwell-Boltzmann-Statistik (Unterscheidbarkeit der Teilchen, Mehrfachbesetzbarkeit von Zellen) p(k1 , . . . , kn ) = 1 k! k1 ! . . . kn ! n k 2) Bose-Einstein-Statistik zur Beschreibung des Verhaltens von Photonen (keine Unterscheidbarkeit der Teilchen, jedoch Mehrfachbesetzbarkeit von Zellen) −1 n+k−1 p(k1 , . . . , kn ) = k 3) Fermi-Dirac-Statistik zur Beschreibung des Verhaltens von Elektronen, Protonen und Neutronen (keine Unterscheidbarkeit der Teilchen, keine Mehrfachbesetzbarkeit von Zellen ) ( −1 n , ki ∈ {0, 1} k p(k1 , . . . , kn ) = 0 , sonst. Die Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) ist ein W-Maß auf B mit der Zähldichte ( n k n−k , k = 0, 1, . . . , n k p (1 − p) k→ 0 , k = n + 1, n + 2, . . . ; 12 durch diese wird für n “unabhängige” Versuche mit jeweiliger Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit von k Erfolgen angegeben. 13 Kapitel 3 Zufallsvariablen und Verteilungen 3.1 Meßbare Abbildungen und Zufallsvariablen Definition 3.1. Zwei nichtleere Mengen Ω, Ω0 ; A0 ⊂ Ω0 ; Abbildung X : Ω → Ω0 . Die Menge {ω ∈ Ω | X(ω) ∈ A0 } =: X −1 (A0 ) =: [X ∈ A0 ] (in Ω) heißt das Urbild von A0 bezüglich der Abbildung X; die somit definierte Abbildung X −1 : P(Ω0 ) → P(Ω) heißt Urbildfunktion (zu unterscheiden von einer inversen Funktion!). Bezeichnung. Sei X : Ω → Ω0 , C 0 Mengensystem in Ω0 . X −1 (C 0 ) := {X −1 (A0 ) | A0 ∈ C 0 }. | {z } ein Mengensystem in Ω Satz 3.1. Sei X : Ω → Ω0 . P a) X −1 und Mengenoperationen ∪, , ∩, c , \ sind vertauschbar; z.B. X −1 ( ∪ A0α ) = ∪ X −1 (A0α ) (A0α ⊂ Ω0 , α ∈ Indexbereich I). α∈I b) X −1 (∅) = ∅; α∈I X −1 (Ω0 ) = Ω; A0 ⊂ B 0 ⊂ Ω0 =⇒ X −1 (A0 ) ⊂ X −1 (B 0 ). c) A0 σ-Algebra in Ω0 =⇒ X −1 (A0 ) σ-Algebra in Ω. 14 d) C 0 ⊂ P(Ω0 ) =⇒ X −1 (FΩ0 (C 0 )) = FΩ (X −1 (C 0 )) . Definition 3.2. Messräume (Ω, A), (Ω0 , A0 ). Die Abbildung X : Ω → Ω0 heißt A-A0 -messbar [kurz: messbar; measurable], wenn gilt: X −1 (A0 ) ∈ A, ∀ 0 0 d.h. X −1 (A0 ) ⊂ A, A ∈A d.h. Urbilder von messbaren Mengen in Ω0 sind messbare Mengen in Ω. In diesem Falle Schreibweise X: (Ω, A) → (Ω0 , A0 ). Bemerkung 3.1. In Satz 3.1c ist X −1 (A0 ) die kleinste der σ-Algebren A in Ω mit A − A0 -Messbarkeit von X. Definition 3.3. Es sei (Ω, A, P ) ein W-Raum, (Ω0 , A0 ) ein Messraum. Die Abbildung X : (Ω, A) → (Ω0 , A0 ) heisst Zufallsvariable (ZV ) auf (Ω, A, P ) [mit Zustandsraum Ω0 ] (ausführlich: (Ω0 , A0 )-ZV auf (Ω, A, P ); random variable). X : (Ω, A) → (R, B) heißt reelle ZV (oft auch nur ZV); X : (Ω, A) → (R, B) heißt erweitert-reelle ZV; X : (Ω, A) → (Rn , Bn ) heißt n-dimensionaler Zufallsvektor. X(ω) für ein ω ∈ Ω heißt eine Realisierung der ZV X. Bezeichnung B := {B, B ∪ {+∞}, B ∪ {−∞}, B ∪ {−∞, +∞} | B ∈ B}. Satz 3.2. Messräume (Ω, A), (Ω0 , A0 ); X : Ω → Ω0 ; C 0 Erzeugersystem von A0 . Dann gilt: X messbar ⇐⇒ ( ∀ X −1 (C 0 ) ∈ A) 0 0 |C ∈C {z } −1 0 d.h. X (C ) ⊂ A Satz 3.3. Messraum (Ω, A), X : Ω → R. Dann gilt X A-B-messbar ⇐⇒ ∀ [X ≤ α] ∈ A α∈R ⇐⇒ ∀ [X < α] ∈ A α∈R ⇐⇒ ∀ [X ≥ α] ∈ A. α∈R 15 Korollar 3.1. Für zwei Abbildungen X, Y : (Ω, A) → (R, B) gilt [X < Y ], [X ≤ Y ], [X = Y ], | {z } := {ω ∈ Ω | X(ω) < Y (ω)}. [X 6= Y ] ∈ A. Satz 3.4. Sei ∅ = 6 A ⊂ Rm , A ∩ Bm := {A ∩ B | B ∈ Bm }. Jede stetige Abbildung g : A → Rn ist A ∩ Bm -Bn -messbar. Satz 3.5. X : (Ω1 , A1 ) → (Ω2 , A2 ), Y : (Ω2 , A2 ) → (Ω3 , A3 ). Die zusammengesetzte Abbildung Y ◦ X : Ω1 → Ω3 ist dann A1 -A3 messbar. Korollar 3.2. Für X : (Ω, A) → (Rm , Bm ) und eine stetige Abbildung g : Rm → Rn ist g ◦ X : Ω → Rn A-Bn -messbar. Satz 3.6. Messraum (Ω, A). a) Sei Xn : (Ω, A) → (R, B) (n = 1, . . . , m). Dann ist Y : Ω → Rm mit Y (ω) := (X1 (ω)), . . . , Xm (ω)), ω ∈ Ω, A-Bm -messbar, und für g : (Rm , Bm ) → (R, B) ist g ◦ Y : Ω → R A-B-messbar. b) Seien X1,2 : (Ω, A) → (R, B). Dann sind αX1 + βX2 (α, β ∈ R), X1 X2 , messbar. X1 (falls existent) A-BX2 Satz 3.7. Messraum (Ω, A); Xn : (Ω, A) → (R, B) (n = 1, 2, . . .) . Dann sind inf Xn , sup Xn , lim Xn , lim Xn A-B-messbar, ebenso lim Xn (falls n n n n n existent). 3.2 Bildmaße und Verteilungen Satz 3.8. Messräume (Ω, A), (Ω0 , A0 ); Abbildung X : (Ω, A) → (Ω0 , A0 ); 16 Maß µ auf A. Durch µX (A0 ) := µ(X −1 (A0 )) = µ({ω ∈ Ω | X(ω) ∈ A0 }) =: µ[X ∈ A0 ]; A0 ∈ A 0 , wird ein Maß (das sogenannte Bildmaß) µX auf A0 definiert. Ist µ ein W-Maß auf A, dann ist µX ein W-Maß auf A0 . Definition 3.4. Sei X eine (Ω0 , A0 )-ZV auf dem W-Raum (Ω, A, P ). Das W-Maß PX im Bild-W-Raum (Ω0 , A0 , PX ) heißt Verteilung der ZV X. Sprechweise: Die ZV X liegt in A0 ∈ A0 , nimmt Werte in A0 ∈ A0 an mit Wahrscheinlichkeit PX (A0 ) = P [X ∈ A0 ]. P [X ∈ A0 ] = 1 . . . P -fast sicher (P -f.s.) liegt X in A. Bemerkung 3.2. W-Raum (Ω, A, P ), Messräume (Ω0 , A0 ), (Ω00 , A00 ); X : (Ω, A) → (Ω0 , A0 ), Y : (Ω0 , A0 ) → (Ω00 , A00 ). Dann gilt PY ◦X = (PX )Y . Definition 3.5. Messräume (Ωi , Ai ) (i = 1, . . . , n). n Die Produkt-σ-Algebra ⊗ Ai wird definiert als die von dem Mengeni=1 system n n Q Q Ai | Ai ∈ Ai (i = 1, . . . , n) in Ωi erzeugte σ-Algebra. i=1 i=1 n n n Q ⊗ (Ωi , Ai ) := Ωi , ⊗ Ai heißt Produkt-Messraum. i=1 i=1 i=1 Beispiel: (Rn × Rm , Bn ⊗ Bm ) = (Rn+m , Bn+m ). Bemerkung 3.3. Abbildung Xi : (Ω, A) → (Ωi , Ai ) (i = 1, . . . , n). Die n Q Abbildung X : Ω → Ωi mit i=1 X(ω) := (X1 (ω), . . . , Xn (ω)), ω ∈ Ω n ist A- ⊗ Ai -messbar. i=1 17 Bemerkung 3.4. Messräume (Ωi , Ai ) (i = 1, . . . , n). Ein W-Maß auf n ⊗ Ai ist eindeutig festgelegt durch seine Werte auf dem Mengensystem i=1 n Q Ai | Ai ∈ Ai (i = 1, . . . , n) . i=1 Definition 3.6. Seien Xi (Ωi , Ai )-ZVn auf einem W-Raum (Ω, A, P ) (i = 1, . . . , n). Die Verteilung PX der ZV X := (X1 , . . . , Xn ) auf (Ω, A, P ) — erklärt durch PX (A) := P [(X1 , . . . , Xn ) ∈ A] n n Q Ai (Ai ∈ Ai , i = 1, . . . , n) — für A ∈ ⊗ Ai oder auch nur für A = i=1 i=1 heißt die gemeinsame Verteilung der ZVn Xi . Die Verteilungen PXi — erklärt durch PXi (Ai ) := P [Xi ∈ Ai ] = P [X ∈ Ω1 × . . . × Ωi−1 × Ai × Ωi+1 × . . . × Ωn ] für Ai ∈ Ai — heißen Randverteilungen von PX (i = 1, . . . , n). Wichtiger Spezialfall in Definition 3.6: (Ωi , Ai ) = (R, B) (i = 1, . . . , n). Bemerkung 3.5. Bezeichnungen wie in Definition 3.6. a) Die Verteilung PX ist ohne Zusatzvoraussetzung durch ihre Randverteilungen nicht eindeutig festgelegt. n Q Ωk → Ωi die (messbare!) Projektionsabbildung. b) Ist πi : k=1 (ω1 , . . . , ωn ) → ωi , so gilt PXi = (PX )πi (i = 1, . . . , n). Bemerkung 3.6. a) Sei Q ein W-Maß auf (Rn , Bn ). Dann existieren reelle ZVn X1 , . . . , Xn auf einem geeigneten W-Raum (Ω, A, P ) so, dass ihre gemeinsame Verteilung mit Q übereinstimmt: (Ω, A, P ) := (Rn , Bn , Q), Xi : Ω → R wird definiert als die Projektionsabbildung (x1 , . . . , xn ) → xi (i = 1, . . . , n); 18 hierbei ist also X := (X1 , . . . , Xn ) die auf Rn definierte identische Abbildung. b) Möglichkeit der unmittelbaren Verallgemeinerung von a) auf einen n n Q Ωi , ⊗ Ai statt (Rn , Bn ). Produkt-Meßraum i=1 i=1 c) Sonderfall zu b): Ist (Ω, A, Q) ein W-Raum, X : Ω → Ω die identische Abbildung, so gilt PX = Q. Jedes W-Maß lässt sich somit als eine Verteilung auffassen (und — definitionsgemäß — umgekehrt). 19 Kapitel 4 Erwartungswerte und Dichten Gegeben seien ein W-Raum (Ω, A, P ) und eine reelle ZV X auf (Ω, A, P ) mit Verteilung PX (auf B) und VF F : R → R. Bezeichnungen: X(ω), falls X(ω) > 0 + X (ω) := 0 sonst −X(ω), falls X(ω) < 0 − X (ω) := 0 sonst. Der Erwartungswert EX der ZV X gibt einen “mittleren Wert” von X bezüglich P an, die Varianz V (X) gibt die “Schwankung” der ZV X als “mittleren Wert” ihrer quadratischen Abweichung von EX an. Definition 4.1 des Erwartungswertes EX von X als Integral Z x PX (dx). R 1. Schritt: Sei X ≥ 0 (also PX (R+ ) = 1, F (x) = 0 (x < 0)). Z Z R EX := x PX (dx) := x dF (x) := lim [0,a] x dF (x) | {z } a→∞ | {z } R(+) R(+) Riemann−Stieltjes−Integral F (dx) 20 (somit 0 ≤ EX ≤ ∞) 2. Schritt: Seien EX + , EX − nicht beide ∞. Z EX := xPX (dx) := EX + − EX − R Definition 4.2 des Erwartungswertes EX von X als Integral Z Z X(ω)P (dω) =: XdP Ω Ω 0. Schritt: Sei X ≥ 0, und X nehme nur endlich viele Werte an. Dann existiert Darstellung X= PN PN i=1 αi χAi i=1 Ai mit αi ∈ R, Ai ∈ A (i = 1, . . . , N ), paarweise disjunkt, = Ω. Z EX := X dP := Ω N X αi P (Ai ) i=1 1. Schritt: Sei X ≥ 0. Dann existieren ZVn Xn ≥ 0, die jeweils nur endlich viele Werte annehmen mit Xn (ω) ↑ X(ω) (n → ∞), ω ∈ Ω(!): Z EX := X dP := lim EXn n→∞ Ω 2. Schritt: Seien EX + , EX − nicht beide ∞. Z EX := X dP := EX + − EX − Ω Bemerkung 4.1. (zu Definition 4.1.2) a) Die einzelnen Schritte — insbesondere bei der 2. Definition — sind sinnvoll. b) Die beiden Definitionen sind äquivalent. 21 R c) Das Integral R xPX (dx) in der 1. Definition ändert seinen Wert nicht, wenn man es gemäß der 2. Definition erklärt. R d) Der Begriff Ω XdP in Definition 4.2 lässt sich unmittelbar verallgeR meinern auf den Fall eines Maßraumes (Ω, A, µ) und liefert Ω X(ω) µ(dω) =: R Ω X dµ. Wichtiger Spezialfall: 1) (Ω, A) = (Rn , Bn ) oder etwas allgemeiner Ω = B mit B ∈ Bn , A = σ-Algebra der Borelschen Mengen in B; µ = λ := (ReR R striktion des) L-B-Maß(es) auf A. Rn X dλ bzw. B X dλ wird als Lebesgue–Integral bezeichnet. R R Im Falle n = 1 Schreibweise R X(x) dx bzw. B X(x) dx. 2) (Ω, A) = (R, B), H : R → R maßdefinierende Funktion mit zugehörigem Maß µ, d.h. H(b)−H(a) = µ((a, b]), −∞ < a < b < ∞. Schreibweise Z Z Z X(x) dH(x) := X(x) H(dx) := X dµ R R R Verallgemeinerung auf Ω = B ∈ B. e) Sei X eine erweitert-reelle ZV auf einem W-Raum (Ω, A, P ) mit ( X(ω), falls |X(ω)| < ∞, ω ∈ Ω, P [|X| = ∞] = 0; Y (ω) := 0 sonst. Man definiert EX := EY , falls EX existiert. Bemerkung 4.2. W-Raum (Ω, A, P ). Für A ∈ A gilt P (A) = EχA . Definition 4.3. Existiert für die reelle ZV X auf dem W-Raum (Ω, A, P ) ein endlicher Erwartungswert EX, so heißt X integrierbar (bezüglich P ). R Analog für Ω X dµ in Bemerkung 4.1d. Lemma 4.1. Für eine reelle ZV X ≥ 0 mit VF F gilt Z ∞ (1 − F (x)) dx . EX = 0 22 Satz 4.1. Sei X eine reelle ZV auf einem W-Raum (Ω, A, P ). a) X integrierbar ⇐⇒ X + und X − integrierbar ⇐⇒ |X| integrierbar, b) existiert reelle integrierbare ZV Y ≥ 0 mit |X| ≤ Y P-f.s. =⇒ X integrierbar, c) X integrierbar, |{z} Y = X P-f.s. =⇒ existiert EY = EX. reelle ZV Satz 4.2. Seien X, Y reelle integrierbare ZVn auf einem W-Raum (Ω, A, P ). a) Es existiert E(X + Y ) = EX + EY . b) Es existiert E(αX) = αEX (α ∈ R). c) X ≥ Y =⇒ EX ≥ EY . d) |EX| ≤ E|X|. e) X = Y P-f.s. =⇒ EX = EY . f) X ≥ 0, EX = 0 =⇒ X = 0 P-f.s. Satz 4.3. (Satz von der monotonen Konvergenz; B. Levi) Für reelle ZVn Xn auf (Ω, A, P ) mit Xn ≥ 0 (n ∈ N), Xn ↑ X (n → ∞) existiert EX = lim EXn . Hierbei EX := ∞, falls P [X = ∞] > 0. Entspren R chend für Reihen von nichtnegativen ZVn. — Analog für Ω X(n) dµ gemäß Bemerkung 4.1d. Definition 4.4. Sei X ein n-dimensionaler Zufallsvektor mit Verteilung PX auf Bn und VF F : Rn → R. a) Nimmt (eventuell nach Vernachlässigung einer P -Nullmenge in Ω) X höchstens abzählbar viele Werte an, so ist PX eine sogenannte diskrete W-Verteilung. 23 Ist X eine reelle ZV und PX auf N0 konzentriert (d.h. PX (N0 ) = 1), so heißt die Folge (pk ) mit pk := PX ({k}) = P [X = k], k ∈ N0 , (wobei P pk = 1) Zähldichte von X bzw. PX . b) Gibt es eine Funktion f : (Rn , Bn ) → (R+ , B+ ) [mit B+ := R+ ∩ B], R f (y) dy – allgefür die das uneigentliche Riemann-Integral Qn (−∞,xi ] i=1 R f dλ [λ L-B-Maß auf Bn ] – meiner das Lebesgue-Integral Qn (−∞,xi ] i=1 n Q (−∞, xi ] = F (x1 , . . . , xn ) übereinstimmt existiert und mit PX i=1 ((x1 , . . . , xn ) ∈ Rn ), so heißt f Dichte(funktion) von X bzw. PX bzw. F . — PX und F heißen totalstetig, falls sie eine Dichtefunktion besitzen. Bemerkung 4.3. a) Eine totalstetige VF ist stetig. b) Besitzt die n-dimensionale VF F : Rn → R eine Dichtefunktion f : ∂ nF Rn → R+ , so existiert L-f.ü. , und L-f.ü. — insbesondere ∂x1 . . . ∂xn ∂ nF an den Stetigkeitsstellen von f — = f. ∂x1 . . . ∂xn c) Ein uneigentliches R-Integral einer nichtnegativen Bn -B-messbaren Funktion lässt sich als L-Integral deuten. Satz 4.4. Sei X eine reelle ZV mit Verteilung PX . a) Ist PX auf N0 konzentriert mit Zähldichte (pk ), dann gilt X EX = kpk . k b) Besitzt X eine Dichtefunktion f : R → R+ , so existiert das LebesgueR R Integral R xf (x) dx =: R xf (x) λ(dx) [λ L-B-Maß auf B] genau dann, wenn EX existiert, und es gilt hierbei Z EX = xf (x) dx . R 24 Beispiel zu Satz 4.4. ZV X auf (Ω, A, P ). a) X sei b(n, p)-verteilt, d.h. P [X = k] = mit n ∈ N, p ∈ [0, 1]. EX = np. n k pk (1−p)n−k (k = 0, 1, . . . , n) −λ λ b) X sei π(λ)-verteilt, d.h. P [X = k] = e EX = λ. k k! (k ∈ N0 ), mit λ > 0. c) X sei N (a, σ 2 )-verteilt, d.h. X habe Dichtefunktion f : R → R+ mit (x−a)2 1 e− 2σ2 x ∈ R , f (x) := √ 2πσ mit a ∈ R, σ > 0. EX = a. Satz 4.5. X sei eine reelle ZV mit Verteilung PX und VF F ; g : (R, B) → R (R, B). E(g ◦ X) existiert genau dann, wenn R g dPX existiert, und es gilt hierbei nach dem Transformationssatz für Integrale Z Z Z E(g ◦ X) = g dPX =: g dF =: g(x) dF (x) , | {z } R R R F (dx) P g(k)pk unter der Voraussetzung von Satz 4.4a. k Z g(x)f (x) dx unter der Voraussetzung von Satz 4.4b. E(g ◦ X) = {z } |R Lebesgue-Integral Insbesondere gilt (mit g = χA , wobei A ∈ B) P pk unter Vorauss. von Satz 4.4a 0 Z k∈A∩N R P [X ∈ A] = PX (A) = χA (x)f (x) dx =: A f (x) dx unter Vorauss. von Satz 4.4b |R {z } Lebesgue-Integral Zusatz. X sei ein n-dimensionaler Zufallsvektor auf (Ω, A, P ) mit Dichtefunktion f : Rn → R+ ; A ∈ Bn . Dann gilt: Z Z χA (x)f (x) dx =: f (x) dx. P [X ∈ A] = PX (A) = Rn A 25 [Falls das entsprechende R-Integral existiert, dann R-Integral = L-Integral.] R Bemerkung 4.5. A f (x) dx in Satz 4.4 ist gleich dem L-B-Maß der Ordinatenmenge {(x, y) ∈ R2 | x ∈ A, 0 ≤ y ≤ f (x)} von f |A in R2 . Lemma 4.2. X sei eine reelle ZV; 0 ≤ α < β < ∞. Dann gilt E|X|β < ∞ =⇒ E|X|α < ∞ . Definition 4.5. X sei eine reelle ZV; k ∈ N. Im Falle der Existenz heißt EX k das k-te Moment von X und E(X − EX)k das k-te zentrale Moment von X. Ist X integrierbar, dann heißt V (X) := E(X − EX)2 die p Varianz von X und σ(X) :=+ V (X) die Streuung von X. Satz 4.6. X sei eine reelle integrierbare ZV. a) V (X) = EX 2 − (EX)2 . b) V (aX + b) = a2 V (X) (a, b ∈ R). Beispiel zu Satz 4.6. a) X sei b(n, p)-verteilt mit n ∈ N, p ∈ [0, 1]. V (x) = np(1 − p). b) X sie π(λ)-verteilt mit λ > 0. V (X) = λ. c) X sei N (a, σ 2 )-verteilt mit a ∈ R, σ > 0. k Q 2k−1 2k 2k E(X − a) = 0, E(X − a) = σ (2j − 1) (k ∈ N). j=1 Satz 4.7. X sei eine reelle ZV auf einem W-Raum (Ω, A, P ). Dann gilt für jedes ε > 0, r > 0: P [|X| ≥ ε] ≤ ε−r E|X|r (Markoffsche Ungleichung). 26 Für r = 2 erhält man die sog. Tschebyschevsche Ungleichung, die bei integrierbarem X auch in der Variante P [|X − EX| ≥ ε] ≤ ε−2 V (X) angegeben wird. Satz 4.8. (Transformationssatz für Dichten). [Verallgemeinerung s. Hinderer S. 148] Es sei Q ein W-Maß auf B2 und T : R2 → R2 eine injektive stetigdifferenzierbare Abbildung. Es sei R := QT das Bild-W-Maß von Q bzgl. T [d.h. R(B) = Q(T −1 (B)), B ∈ B2 ] und ∆ der Betrag der Funktionaldeterminante von T . Hat R die Dichte g, so hat Q die Dichte (g ◦ T )∆. 27 Kapitel 5 Unabhängigkeit Definition 5.1. W-Raum (Ω, A, P ). Eine Familie {Ai | i ∈ I} von Ereignissen Ai ∈ A heißt unabhängig (ausführlich: stochastisch unabhängig bzgl. P ), falls für jede nichtleere endliche Menge K ⊂ I gilt ! \ Y P Ak = P (Ak ) . k∈K k∈K Definition 5.2. W-Raum (Ω, A, P ). Eine Familie {Xi | i ∈ I} von (Ωi , Ai ) - ZVn auf (Ω, A, P ) heißt unabhängig, wenn gilt: Für jede nichtleere endliche Indexmenge {i1 , . . . , in } ⊂ I und jede Wahl von Mengen Aiν ∈ Aiν (ν = 1, . . . , n) ist n Y P [Xi1 ∈ Ai1 , . . . , Xin ∈ Ain ] = P Xiν ∈ Aiν . ν=1 Sprechweise: Unabhängigkeit der ZVn statt Unabhängigkeit der Familie der ZVn. Lemma 5.1. Eine Familie von Ereignissen ist genau dann unabhängig, wenn jede endliche Teilfamilie unabhängig ist. Entsprechendes gilt für Zufallsvariablen. Bemerkung 5.1 zu Definition 5.1 bzw. Definition 5.2. Paarweise Unabhängigkeit 6⇒ Unabhängigkeit 28 Bemerkung 5.2. W-Raum (Ω, A, P ); Ereignisse Ai ∈ A, i ∈ I, mit (reellen) ZVn χAi (Indikatorfunktionen) auf (Ω, A, P ). {Ai | i ∈ I} unabhängig ⇐⇒ {χAi | i ∈ I} unabhängig Satz 5.1. Gegeben seien (Ωi , Ai ) - ZVn Xi auf einem W-Raum (Ω, A, P ) und Abb. gi : (Ωi , Ai ) → (Ω0i , A0i ), i ∈ I. Dann gilt: {Xi | i ∈ I} unabhängig =⇒ {gi ◦ Xi | i ∈ I} unabhängig Satz 5.2. Gegeben seien eine unabhängige Familie {Xi | i ∈ I} reeller ZVn P auf einem W-Raum (Ω, A, P ) und eine Zerlegung I = Ij mit |Ij | < ∞. j∈J Das |Ij |-tupel {Xk | k ∈ Ij } sei mit Yj bezeichnet, j ∈ J. a) Die Familie {Yj | j ∈ J} ist unabhängig. b) Sind Abb. gj : (R|Ij | , B|Ij | ) → (R, B), j ∈ J, gegeben, so ist (nach Satz 5.1) die Familie {gj ◦ Yj | j ∈ J} unabhängig. Bemerkung 5.3. Satz 5.2 lässt sich auf (Ωi , Ai ) - ZVn und Abb. gj : N (Ωi , Ai ) → (Ω0j , A0j ) verallgemeinern. i∈Ij Satz 5.3. Seien Xi (i = 1, . . . , n) reelle ZVn auf einem W-Raum (Ω, A, P ) mit Verteilungsfunktionen Fi . Der Zufallsvektor X := (X1 , . . . , Xn ) habe die n-dimensionale VF F. n Q a) {X1 , . . . , Xn } unabhängig ⇐⇒ (∗) F (x , . . . , x ) = Fi (xi ) . ∀ 1 n n (x1 ,...,xn )∈R i=1 b) Existieren zu Fi (i = 1, . . . , n), F Dichten fi bzw. f , dann gilt n Q f (x , . . . , x ) = fi (xi ) 1 n i=1 (∗) ⇐⇒ für Lebesgue - fast alle (x1 , . . . , xn ) ∈ Rn . | {z } λ-fast alle mit λ = L-B-Maß auf Bn 29 Satz 5.4. Seien X1 , . . . , Xn unabhängige reelle ZVn auf einem W-Raum (Ω, A, P ) mit endlichen Erwartungswerten. Dann existiert E(X1 . . . Xn ) = EX1 · . . . · EXn . — Entsprechendes gilt für komplexe ZVn Xk : (Ω, A) → (R2 , B2 ), wobei EXk := E Re Xk + iE Im Xk (k = 1, . . . , n) Satz 5.5. Seien X1 , . . . , Xn unabhängige reelle ZVn mit endlichen Erwartungswerten. Dann gilt ! n n X X V (Xj ) . Xj = V j=1 j=1 Bemerkung 5.4. In Satz 5.5 genügt statt der Unabhängigkeit von {X1 , . . . , Xn } die sog. paarweise Unkorreliertheit, d.h. ∀ E(Xj − EXj )(Xk − EXk ) = 0 . j6=k Definition 5.3. Sind X, Y zwei unabhängige reelle ZVn auf einem WRaum (Ω, A, P ) mit Verteilungen PX , PY , so wird die Verteilung PX+Y =: PX ∗ PY der ZV X + Y als Faltung von PX und PY bezeichnet. Bemerkung 5.5. Die Faltungsoperation ist kommutativ und assoziativ. Satz 5.6. Seien X, Y zwei unabhängige reelle ZVn. a) Besitzen X und Y Dichten f bzw. g, so besitzt X +Y eine [als Faltung von f und g bezeichnete] Dichte h mit Z Z h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx, t ∈ R . R R | {z } | {z } Lebesgue-Integrale b) Besitzen X und Y Zähldichten (pk )k∈N0 bzw. (qk )k∈N0 , so besitzt X +Y eine [als Faltung von (pk ) und (qk ) bezeichnete] Zähldichte (rk )k∈N0 mit rk = k X pk−j qj = j=0 k X i=0 30 qk−i pi , k ∈ N0 . Bemerkung 5.6. Gegeben seien Messräume (Ωi , Ai ) und W-Maße Qi auf Ai , i ∈ I. Dann existiert ein W-Raum (Ω, A, P ) und (Ωi , Ai ) — ZVn Xi auf (Ω, A, P ), i ∈ I, mit Unabhängigkeit von {Xi | i ∈ I} und PXi = Qi (Andersen und Jessen). Satz 5.7. (2. Lemma von Borel und Cantelli) W-Raum (Ω, A, P ). Die Familie {An ; n ∈ N} von Ereignissen (∈ A) sei unabhängig. Dann gilt: ∞ X P (An ) = ∞ (⇐⇒ ) P (limAn ) = 1 . | {z } n=1 P-f.s. tritt An unendlich oft auf Definition ∞ 5.4.Messraum (Ω, A). σ-Algebren An ⊂ A (n ∈ N). Tn := F ∪ Ak . . . die von An , An+1 , . . . erzeugte σ-Algebra. ∞ k=n T∞ := ∩ Tn heißt die σ-Algebra der terminalen Ereignisse (tail events) n=1 der Folge (An ). Beispiele 1) Xn : (Ω, A) → (R, B); An := F(Xn ) := Xn−1 (B) (n ∈ N) a) [ P Xn konv.] ∈ T∞ b) [(Xn ) konv.] ∈ T∞ 2) Messraum (Ω, A). Ereignisse An ∈ A (n ∈ N); An := {∅, An , Acn , Ω} (n ∈ N). ∞ ∞ lim sup An := ∩ ∪ Ak = {ω ∈ Ω | ω ∈ An für unendliche viele n→∞ n=1 k=n n} ∈ T∞ ∞ ∞ lim inf An := ∪ ∩ Ak = {ω ∈ Ω | ω ∈ An von einem Index an} ∈ T∞ n→∞ n=1 k=n Satz 5.8 (Null-Eins-Gesetz von Kolmogorov) W-Raum (Ω, A, P ). Sei (An ) eine unabhängige Folge von σ-Algebren An ⊂ A. Dann gilt für jedes terminale Ereignis A von (An ) entweder P (A) = 0 oder P (A) = 1. 31 Kapitel 6 Erzeugende und charakteristische Funktionen, Faltungen Die erzeugenden und charakteristischen Funktionen sind ein methodisches Hilfsmittel zur Untersuchung von W-Maßen. 6.1 Erzeugende Funktionen Definition 6.1. Es sei µ : B → R ein auf N0 konzentriertes W-Maß mit Zähldichte (bk )k∈N0 bzw. X eine reelle ZV auf einem W-Raum (Ω, A, P ), deren Verteilung PX auf N0 konzentriert ist, mit Zähldichte (bk )k∈N0 . Dann heißt die auf [0, 1] (oder auch {s ∈ C | |s| ≤ 1}) definierte Funktion g mit P µ({k})sk ∞ X k g(s) := bk s = bzw. k=0 P P [X = k]sk = P P ({k})sk = EsX X die erzeugende Funktion von µ bzw. X. Bemerkung 6.1. In Definition 6.1 gilt |g(s)| ≤ |s| ≤ 1 . Bemerkung 6.2. 32 P bk |s|k ≤ P bk = 1, a) Die Binomialverteilung b(n, p) mit n ∈ N, p ∈ [0, 1] hat — mit q := 1 − p — die erzeugende Funktion g mit g(s) = (q + ps)n . b) Die Poissonverteilung π(λ) mit λ ∈ (0, ∞) hat die erzeugende Funktion g mit g(s) = e−λ+λs . c) Als negative Binomialverteilung oder Pascal-Verteilung N b(r, p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p — die Zähldichte r+k−1 r k k → N b(r, p; k) := p q , k ∈ N0 k besitzt. Speziell wird N b(1, p) — mit Zähldichte k → p(1 − p)k , k ∈ N0 — als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. Ist (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn, n P so ist die erweitert-reelle ZV X := inf {n ∈ N | Xk = r} − r k=1 mit inf ∅ := ∞ N b(r, p)-verteilt. X gibt die Anzahl der Misserfolge bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoullirq rq Versuchen an. EX = , V (X) = 2 . p p N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r . Satz 6.1 (Eindeutigkeitssatz für erzeugende Funktionen). Besitzen zwei auf B definierte, aber auf N0 konzentrierte W-Maße bzw. Verteilungen dieselbe erzeugende Funktion, so stimmen sie überein. Satz 6.2. Sei X eine reelle ZV, deren Verteilung auf N0 konzentriert ist, mit erzeugender Funktion g. 33 a) g ist in {s ∈ C | |s| < 1} unendlich oft differenzierbar; für j ∈ N gilt g (j) (1−) := lim 0≤s→1−0 g (j) (s) = E[X(X − 1) . . . (X − j + 1)] (≤ ∞) , insbesondere g 0 (1−) = EX. b) EX < ∞ =⇒ V (X) = g 00 (1−) + g 0 (1−) − (g 0 (1−))2 . Satz 6.3. Seien X1 , . . . , Xn unabhängige reelle ZVn, deren Verteilungen jeweils auf N0 konzentriert sind, mit erzeugenden Funktionen g1 , . . . , gn . n Q gj Für die erzeugende Funktion g der Summe X1 +. . .+Xn gilt dann g = j=1 . 6.2 Charakteristische Funktionen Definition 6.2. Es sei µ ein W-Maß auf B bzw. X eine reelle ZV mit VF F . Dann heißt die auf −∞ < u < ∞ definierte (i.a. komplexwertige) Funktion ϕ mit Z ϕ(u) := eiux µ(dx) R bzw. ϕ(u) := EeiuX = Z eiux PX (dx) = Z eiux dF (x) R | R {z } L-S-Integral oder uneig. R-S-Integral die charakteristische Funktion von µ bzw. X. Bemerkung 6.3. In Definition 6.2 gilt a) ϕ(0) = 1, b) | ϕ(u) |≤ 1, u ∈ R, c) ϕ gleichmäßig stetig in R, d) ϕ(−u) = ϕ(u), u ∈ R. 34 Bemerkung 6.4. Die Normalverteilung N (a, σ 2 ) mit a ∈ R, σ 2 ∈ (0, ∞) hat die charakteristische Funktion ϕ mit ϕ(u) = eiau e− σ 2 u2 2 . u2 Insbesondere hat N (0, 1) die charakteristische Funktion ϕ mit ϕ(u) = e− 2 . Bemerkung 6.5. Als Exponentialverteilung exp(λ) mit Parameter λ ∈ (0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit λe−λx , x > 0 f (x) = 0, x≤0 besitzt. Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte ZV angegeben. Ist X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert ist, mit P [0 < X < ∞] > 0, so gilt P [X > t + s | X > s] = P [X > t] ∀ (“Gedächtnislosigkeit”) s,t∈(0,∞) ⇐⇒ PX ist eine Exponentialverteilung. Für eine ZV X mit PX = exp(λ) gilt EX = λ1 , V (X) = λ12 . λ exp (λ) hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu . Bemerkung 6.6. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν ∈ (0, ∞) wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit λν xν−1 e−λx , x > 0 f (x) = Γ(ν) 0, x≤0 besitzt. Hierbei Γλ,1 = exp(λ). Γ 21 , n2 wird als Chi-Quadrat-Verteilung χ2n mit n(∈ N) Freiheitsgraden bezeichnet. Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) = λν2 . ν λ Γλ,ν hat die charakteristische Funktion ϕ mit ϕ(u) = λ−iu . 35 Satz 6.4. (Eindeutigkeitssatz für charakteristische Funktionen) Besitzen zwei auf B definierte W-Maße bzw. Verteilungen dieselbe charakteristische Funktion, so stimmen sie überein. — Ist µ ein W-Maß auf B bzw. PX die Verteilung einer reellen ZV X mit zugehöriger VF F und zugehöriger charakteristischer Funktion ϕ und sind a, b mit a < b Stetigkeitsstellen von F , so gilt die Umkehrformel Z U −iua e − e−iub 1 F (b) − F (a) = lim ϕ(u) du . | {z } U →∞ 2π −U iu = µ((a, b]) bzw. PX ((a, b]) Satz 6.5. Gegeben sei eine VF F mit charakteristischer Funktion ϕ; es R∞ sei −∞ | ϕ(u) | du < ∞. Dann besitzt F eine Dichte f , die stetig und beschränkt ist, und es gilt die Umkehrformel Z 1 e−iux ϕ(u) du, x ∈ R f (x) = 2π R R [vgl. die Formel ϕ(u) = R eiux f (x) dx, u ∈ R, bei existierender Dichte f ]. Satz 6.6. Sei X eine reelle ZV mit Verteilung PX und charakteristischer Funktion ϕ. Für j ∈ N gilt: E | X |j < ∞ =⇒ ϕ hat eine stetige j-te Ableitung ϕ(j) mit Z ϕ(j) (u) = ij xj eiux PX (dx), u ∈ R, R insbesondere ϕ(j) (0) = ij EX j . Satz 6.7. Seien X1 , . . . , Xn unabhängige reelle ZVn mit charakteristischen Funktionen ϕ1 , . . . , ϕn . Für die charakteristische Funktion der Summe X1 + . . . + Xn gilt dann n Y ϕ= ϕj . j=1 Definition 6.3. Zu zwei W-Maßen P, Q auf B wird das W-Maß P ∗ Q auf B, die sog. Faltung von P und Q, folgendermaßen definiert: 36 a) sei T : R × R → R mit T (x, y) = x + y; P ∗ Q := (P ⊗ Q)T (P ⊗Q W-Maß auf B2 mit (P ⊗Q)(B1 ×B2 ) = P (B1 )Q(B2 ), B1,2 ∈ B, sog. Produkt-W-Maß von P und Q) oder — äquivalent — b) man wähle ein unabhängiges Paar reeller ZVn X, Y mit PX = P , PY = Q und setze P ∗ Q := PX+Y . Satz 6.8. a) Die Faltungsoperation ist kommutativ und assoziativ. b) Es sei (X, Y ) ein unabhängiges Paar reeller ZVn. Für X, Y , X+Y seien die Verteilungsfunktionen mit F, G, H, die Dichten — falls existent — mit f, g, h und die Zähldichten — falls PX , PY auf N0 konzentriert sind — mit (pk ), (qk ), (rk ) bezeichnet. Dann gilt Z Z H(t) = F (t − y) G(dy) = G(t − x) F (dx), t ∈ R. R R Falls f existiert, so existiert h mit Z h(t) = f (t − y) G(dy) für (L-f.a.) t ∈ R; R falls zusätzlich g existiert, so gilt Z Z h(t) = f (t − y)g(y) dy = g(t − x)f (x) dx für (L-f.a.) t ∈ R. R R Falls (pk )k∈N0 , (qk )k∈N0 existieren, so existiert (rk )k∈N0 mit rk = k X pk−i qi = i=0 k X i=0 Bemerkung 6.7. 37 qk−i pi (k ∈ N0 ). a) Für n1,2 ∈ N, p ∈ [0, 1] gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p). Die Summe von n unabhängigen b(1, p) verteilten ZVn ist also b(n, p)verteilt. b) Für λ1,2 > 0 gilt π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ). c) Für r1,2 ∈ N, p ∈ (0, 1) gilt N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p). Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist also N b(r, p)verteilt. 2 d) Für a1,2 ∈ R, σ1,2 ∈ (0, ∞) gilt N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ). e) Für λ ∈ (0, ∞), ν1,2 ∈ (0, ∞) gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 . Die Summe von n unabhängigen exp(λ)-verteilten ZVn ist Γλ,n -verteilt. Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten ZVn ist χ2n -verteilt. 38 Kapitel 7 Spezielle Verteilungen 7.1 Diskrete Verteilungen Definition 7.1. Als Binomialverteilung b(n, p) mit Parametern n ∈ N, p ∈ (0, 1) oder auch [0, 1] wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} konzentriert ist und die Zähldichte n k k 7→ b(n, p; k) := p (1 − p)n−k , k ∈ N0 k besitzt. Satz 7.1. Sei n ∈ N, p ∈ [0, 1]; q := 1 − p. a) Ist (X1 , . . . , Xn ) ein n-tupel unabhängiger reeller ZVn mit P [Xi = 1] = p, P [Xi = 0] = q — d.h. mit jeweiliger b(1, p)-Verteilung — P (i = 1, . . . , n), so ist ni=1 Xi b(n, p)-verteilt. b) Für eine ZV X mit PX = b(n, p) gilt EX = np, V (X) = npq. c) b(n, p) hat die erzeugende Funktion g mit g(s) = (q + ps)n . d) Für n1,2 ∈ N gilt b(n1 , p) ∗ b(n2 , p) = b(n1 + n2 , p), 39 d.h. für zwei unabhängige ZVn X1 , X2 mit PX1 = b(n1 , p), PX2 = b(n2 , p) gilt PX1 +X2 = b(n1 + n2 , p). Bemerkung 7.1. Das n-tupel (X1 , . . . , Xn ) von ZVn aus Satz 7.1 beschreibt ein n-tupel von Bernoulli-Versuchen, d.h. Zufallsexperimenten ohne gegenseitige Beeinflussung mit Ausgängen 1 (“Erfolg”) oder 0 (“MisserP folg”) und jeweiliger Erfolgswahrscheinlichkeit p; nk=1 Xi gibt die Anzahl der Erfolge in n Bernoulli-Versuchen an. Definition 7.2. Als Poisson-Verteilung π(λ) mit Parameter λ > 0 wird ein W-Maß auf B bezeichnet, das auf N0 konzentriert ist und die Zähldichte −λ λ k 7→ π(λ; k) := e k k! , k ∈ N0 besitzt. Satz 7.2. Sei λ > 0. a) Ist (b(n, pn )) eine Folge von Binomialverteilungen mit npn → λ (n → ∞), dann konvergiert b(n, pn ; k) → π(λ; k) (n → ∞) für alle k ∈ N0 . b) Für eine ZV X mit PX = π(λ) gilt EX = V (X) = λ. c) π(λ) hat die erzeugende Funktion g mit g(s) = e−λ+λs . d) Für λ1,2 > 0 gilt π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ) . Bemerkung 7.2. Bei einer rein zufälligen Aufteilung von n unterscheidbaren Teilchen auf m gleichgroße mehrfach besetzbare Zellen in einem Euklidischen Raum wird die Anzahl der Teilchen in einer vorgegebenen Zelle durch eine b(n, m1 )-verteilte ZV angegeben. Der Grenzübergang n → ∞, 40 m → ∞ mit Belegungsintensität einer π(λ)-verteilten ZV. n m → λ > 0 führt gemäß Satz 7.2a zu Definition 7.3. Als negative Binomialverteilung oder Pascal-Verteilung N b(r, p) mit Parametern r ∈ N, p ∈ (0, 1) wird ein W-Maß auf B (oder auch B) bezeichnet, das auf N0 konzentriert ist und — mit q := 1 − p — die Zähldichte r+k−1 r k k 7→ N b(r, p; k) := p q , k∈N k besitzt. Speziell wird N b(1, p) — mit Zähldichte k 7→ p(1 − p)k , k ∈ N0 — als geometrische Verteilung mit Parameter p ∈ (0, 1) bezeichnet. 41 Satz 7.3. Sei r ∈ N, p ∈ (0, 1), q := 1 − p. a) Sei (Xn )n∈N eine unabhängige Folge von b(1, p)-verteilten ZVn. Die P erweitert-reelle ZV X := inf{n ∈ N | nk=1 Xk = r}−r mit inf ∅ := ∞ ist N b(r, p)-verteilt. b) Für eine ZV X mit PX = N b(r, p) gilt EX = rq p, V (X) = rq p2 . c) N b(r, p) hat die erzeugende Funktion g mit g(s) = pr (1 − qs)−r . d) Für r1,2 ∈ N gilt N b(r1 , p) ∗ N b(r2 , p) = N b(r1 + r2 , p) . Die Summe von r unabhängigen N b(1, p)-verteilten ZVn ist somit N b(r, p)-verteilt. Bemerkung 7.3. Für die Folge (Xn ) in Satz 7.3a wird durch die erweitertP reelle ZV T := inf{n ∈ N | nk=1 Xk = r} mit inf ∅ := ∞ die Wartezeit bis zum r-ten Auftreten der Eins in (Xn ) und durch die erweitert-reelle ZV X = T − r die Anzahl der Misserfolge bis zum r-ten Erfolg bei der zu (Xn ) gehörigen Folge von Bernoulli-Versuchen angegeben. Definition 7.4. Als hypergeometrische Verteilung mit Parametern n, r, s ∈ N, wobei n ≤ r + s, wird ein W-Maß auf B bezeichnet, das auf {0, 1, . . . , n} — sogar auf {max (0, n − s), . . . , min (n, r)} — konzentriert ist und die Zähldichte r s k n−k , k = 0, 1, . . . , n r+s k 7→ n 0 , k = n + 1, n + 2, . . . besitzt. Bemerkung 7.4. Werden aus einer Urne mit r roten und s schwarzen Kugeln rein zufällig n Kugeln ohne Zurücklegen gezogen (n, r, s wie in Definition 7.4), so wird die Anzahl der gezogenen roten Kugeln durch eine ZV angegeben, die eine hypergeometrische Verteilung mit Parametern 42 n, r, s besitzt. Anwendung der hypergeometrischen Verteilung in der Qualitätskontrolle. 7.2 Totalstetige Verteilungen Definition 7.5. Als Gleichverteilung auf (a, b) mit −∞ < a < b < ∞ 1 wird ein W-Maß auf B bezeichnet, das eine Dichte f = χ(a,b) besitzt. b−a Satz 7.4. Für eine ZV X mit Gleichverteilung auf (a, b) gilt EX = (b − a)2 . V (X) = 12 a+b , 2 Definition 7.6. Als (eindimensionale) Normalverteilung oder GaußVerteilung N (a, σ 2 ) mit Parametern a ∈ R, σ > 0 wird ein W-Maß auf B bezeichnet, das eine Dichte f mit f (x) = √ (x−a)2 1 e− 2σ2 , 2πσ x∈R besitzt. Speziell heißt N (0, 1) standardisierte Normalverteilung. Bemerkung 7.5. a) Sei f wie in Definition 7.6. Der Graph von f heißt Gaußsche Glocken1 kurve. Im Fall a = 0 ist f (0) = √ und hat f zwei Wendepunkte 2πσ 1 (±σ; √ ). 2πeσ b) Die Dichtefunktion und die VF φ von N (0, 1) sind tabelliert. c) Ist die ZV X N (a, σ 2 )-verteilt, so ist hierbei P [a − σ ≤ X ≤ a + σ] X −a N (0, 1)-verteilt. Es gilt σ = 2φ(1) − 1 ≈ 0, 683 P [a − 2σ ≤ X ≤ a + 2σ] = 2φ(2) − 1 ≈ 0, 954 P [a − 3σ ≤ X ≤ a + 3σ] = 2φ(3) − 1 ≈ 0, 997 . 43 d) Anwendung der Normalverteilung z.B. in der Theorie der Beobachtungsfehler. Satz 7.5. Sei a ∈ R, σ > 0. a) Für eine ZV X mit Verteilung N (a, σ 2 ) gilt: 2k−1 E(X − a) 2k = 0, E(X − a) k Y (2j − 1), =σ 2k k ∈ N; j=1 insbesondere EX = a, V (X) = σ 2 ; die ZV cX + b mit 0 6= c ∈ R, b ∈ R hat die Verteilung N (ca + b, c2 σ 2 ). b) Die charakteristische Funktion von N (a, σ 2 ) ist ϕ mit iau ϕ(u) = e e σ 2 u2 2 . c) Für a1,2 ∈ R, σ1,2 > 0 gilt N (a1 , σ12 ) ∗ N (a2 , σ22 ) = N (a1 + a2 , σ12 + σ22 ) . Definition 7.7. Als Exponentialverteilung exp(λ) mit Parameter λ > 0 wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit λe−λx , x > 0 f (x) = 0, x ≤ 0 besitzt. Satz 7.6. Sei λ > 0. a) Sei X eine erweitert-reelle ZV, deren Verteilung auf R+ konzentriert sei, mit P [0 < X < ∞] > 0. Dann gilt: ∀ P [X > t+s | X > s] = P [X > t] ⇐⇒ PX ist eine Exponentialverteilung. s,t∈(0,∞) “Gedächtnislosigkeit” b) Für eine ZV X mit PX = exp(λ) gilt EX = 44 1 1 , V (X) = 2 . λ λ c) exp(λ) hat die charakteristische Funktion ϕ mit ϕ(u) = λ . λ − iu Bemerkung 7.6. Die zufällige Lebensdauer eines radioaktiven Atoms wird durch eine exponentialverteilte ZV angegeben. Definition 7.8. Als Gamma-Verteilung Γλ,ν mit Parametern λ, ν > 0 wird ein W-Maß auf B oder B bezeichnet, das eine Dichtefunktion f mit ν λ xν−1 e−λx , x > 0 Γ(ν) f (x) = 0, x≤0 besitzt. Hierbei Γλ,1 = exp(λ). Γ 12 , n2 wird als Chi-Quadrat-Verteilung χ2n mit n(∈ N) Freiheitsgraden bezeichnet. Satz 7.7. Seien λ, ν > 0, n ∈ N. a) Für eine ZV X mit PX = Γλ,ν gilt EX = λν , V (X) = ν λ2 . b) Γλ,ν hat die charakteristische Funktion ϕ mit ν λ ϕ(u) = . λ − iu c) Für ν1,2 > 0 gilt Γλ,ν1 ∗ Γλ,ν2 = Γλ,ν1 +ν2 . Insbesondere ist Γλ,n die n-fache Faltung von exp(λ). d) Die Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten reellen ZVn ist χ2n -verteilt. Bemerkung 7.7. Sind X, Y zwei unabhängige reelle ZVn mit PX = X als t-Verteilung N (0, 1) und PY = χ2n , so wird die Verteilung der ZV p Y /n oder Student-Verteilung tn bzw. Stn mit n Freiheitsgraden bezeichnet 45 (n ∈ N). t1 bzw. St1 ist eine sogenannte Cauchy-Verteilung. — Anwendung von χ2n und Stn in der Statistik. Sei {Tn | n ∈ N} eine unabhängige Folge nichtnegativ-reeller Zufallsvariablen (d.h. Ti und Tj haben jeweils dieselbe Verteilung) mit P [Tn = 0] < 1. Definiere die ZV Nt := sup{n ∈ N | T1 + . . . + Tn ≤ t} (mit sup ∅ = 0), t ∈ R+ . Beispiel. In einem technischen System wird ein Bauelement mit endlicher zufälliger Lebensdauer bei Ausfall durch ein gleichartiges Element ersetzt. Die einzelnen Lebensdauern seien Realisierung der ZVn Tn . Nt gibt die Anzahl der Erneuerungen im Zeitintervall [0, t] an. Satz 7.8. Ist — mit den obigen Bezeichnungen — Tn exp(λ)-verteilt (λ > 0), so ist Nt π(λt)-verteilt, t ∈ R+ . Bemerkung 7.8. Die Familie {Nt | t ∈ R+ } aus Satz 7.8 ist ein sogenannter Poisson-Prozess. 46 Kapitel 8 Gesetze der großen Zahlen 8.1 Konvergenzbegriffe Definition 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum (Ω, A, P ). Die Folge (Xn ) heißt gegen X P a) vollständig konvergent, wenn für jedes > 0 gilt n∈N P [|Xn − X| ≥ c ] < ∞ . . . Schreibweise Xn →X, b) konvergent P -fast sicher (P -f.s., f.s.), wenn P [Xn → X (n → ∞)] = 1; c) konvergent nach Wahrscheinlichkeit oder stochastisch konvergent, wenn für jedes > 0 gilt P [|Xn − X| ≥ ] → 0 (n → ∞) P . . . Schreibweise Xn →X, d) konvergent im r-ten Mittel (r > 0), wenn E|Xn |r < ∞ ∀n, E|X|r < ∞ und E|Xn − X|r → 0 (n → ∞) [r = 2 . . . konv. im quadr. Mittel], e) konvergent nach Verteilung, wenn für jede beschränkte stetige Funktion g : R → R Eg(Xn ) → Eg(X) (n → ∞) oder — hier äquivalent — wenn für die Verteilungsfunktionen Fn und F von Xn bzw. X gilt Fn (x) → F (x) (n → ∞) 47 D in jedem Stetigkeitspunkt x von F . . . Schreibweise Xn →X. Bemerkung 8.1. a) Fn VF (n ∈ N), (Fn ) konv. impliziert nicht: lim Fn VF n b) Die Grenz-VF in Def. 8.1. e) ist eindeutig bestimmt. Satz 8.1. Seien Xn (n ∈ N), X reelle ZVn auf einem W -Raum (Ω, A, P). c a) Xn →X =⇒ Xn → X f.s. b) Xn → X f.s. =⇒ Xn → X nach Wahrsch. c) r > 0. Xn → X im r-ten Mittel =⇒ Xn → X nach Wahrsch. d) Xn → X nach Wahrsch. =⇒ Xn → X nach Verteilung. e) Xn → X nach Wahrsch. ⇐⇒ Zu jeder Teilfolge (Xnk )k∈N von (Xn )n∈N gibt es eine P -f.s. konvergente Teilteilfolge (Xnki )i∈N . 8.2 Schwache und starke Gesetze der großen Zahlen Definition 8.2. Eine Folge (Xn )n∈N von integrierbaren reellen ZVn auf einem W-Raum (Ω, A, P ) genügt dem schwachen bzw. starken Gesetz der großen Zahlen, wenn n 1X (Xk − EXk ) → 0 (n → ∞) nach Wahrscheinlichkeit bzw. P-f.s. n k=1 Bemerkung 8.2. Genügt eine Folge von ZVn dem starken Gesetz der großen Zahlen, dann genügt sie auch dem schwachen Gesetz der großen Zahlen. 48 Satz 8.2 (Kriterium von Kolmogorov für das starke Gesetz der großen Zahlen). Eine unabhängige Folge (Xn )n∈N quadratisch integrierbarer reeller ZVn mit ∞ X n−2 V (Xn ) < ∞ n=1 genügt dem starken Gesetz der großen Zahlen. Satz 8.3 (Kolmogorovsches starkes Gesetz der großen Zahlen). Für eine unabhängige Folge (Xn )n∈N identisch verteilter integrierbarer reeller ZVn gilt n 1X Xk → EX1 (n → ∞) f.s. n k=1 Bemerkung 8.3. a) In Satz 8.3 darf die Integrierbarkeitsvoraussetzung nicht weggelassen werden. b) Die Voraussetzung der Unabhängigkeit in Satz 8.3 kann zur Voraussetzung der paarweisen Unabhängigkeit abgeschwächt werden (Etemadi). P −2 c) In Satz 8.2 kann bei n V (Xn )(log n)2 < ∞ die Unabhängigkeitsvoraussetzung zur Voraussetzung der paarweisen Unkorreliertheit (s.u.) abgeschwächt werden (Rademacher, Menchov). Satz 8.4 (Tschebyschev). Eine Folge (Xn )n∈N quadratisch integrierbarer paarweise unkorrelierter [d.h. es gilt ∀ E(Xj − EXj )(Xk − EXk ) = 0] j6=k reeller ZVn mit n −2 n X V (Xk ) → 0 (n → ∞) k=1 genügt dem schwachen Gesetz der großen Zahlen. Bemerkung 8.4 (Folgerung aus obigen Sätzen). Für eine unabhängige Folge (Xn ) identisch verteilter reeller ZVn mit P [X1 = 1] = p, P [X1 = 0] = 49 1 − p (festes p ∈ [0, 1]) gilt n 1X Xk → p (n → ∞) P-f.s. und nach Wahrscheinlichkeit n k=1 (Borelsches starkes Gesetz der großen Zahlen bzw. Bernoullisches schwaches Gesetz der großen Zahlen). Bemerkung 8.4 stellt ein theoretisches Gegenstück zu der Erfahrungstatsache dar, dass i.a. die relative Häufigkeit eines Ereignisses bei großer Zahl der unter gleichen Bedingungen unabhängig durchgeführten Zufallsexperimente näherungsweise konstant ist. Beispiele zu Satz 8.3 und Bemerkung 8.4. a) Es seien X1 , X2 , . . . unabhängige identisch verteilte ZVn mit existierenden (endlichen) EX1 =: a und V (X1 ) =: σ 2 . Aufgrund der beobachteten Realisierungen x1 , . . . , xn von X1 , . . . , Xn wird a geschätzt durch n 1X x := xi (sog. empirisches Mittel) n i=1 und σ 2 durch n 1 X s := (xi − x)2 n − 1 i=1 2 Für n 1X Xi , X := n i=1 (sog. empirische Varianz). n 1 X S := (Xi − X)2 n − 1 i=1 2 gilt EX = a, ES 2 = σ 2 (sog. Erwartungstreue der Schätzungen), ferner für n → ∞ X → a f.s., S 2 → σ 2 f.s. (sog. starke Konsistenz der Schätzfolgen). b) Für eine Menge von n radioaktiven Atomen mit unabhängigen exp(λ)verteilten Lebensdauern (mit VF F ) gebe — bei festem T > 0 — die 50 Zufallsvariable Zn die zufällige Anzahl der Atome an, die von jetzt (Zeitpunkt 0) an bis zum Zeitpunkt T zerfallen. Die Wahrscheinlichkeit, dass ein gewisses Atom im Zeitintervall [0, T ] zerfällt, ist p = F (T ) = 1 − e−λT . Nach Bemerkung 8.4 konvergiert mit Wahrscheinlichkeit Eins Zn /n → p (n → ∞). Wählt man T so, dass F (T ) = 12 , d.h. T = (ln 2)/λ (T sog. Median von exp.(λ)), dann gilt f.s. Zn 1 → n 2 (n → ∞). Dieses T wird als Halbwertszeit des radioaktiven Elements bezeichnet (nach T Zeiteinheiten ist i.a. bei großem n ungefähr die Hälfte der Atome zerfallen). 51 Kapitel 9 Zentrale Grenzwertsätze 9.1 Schwache Konvergenz von Wahrscheinlichkeitsmaßen in Rd Definition 9.1. a) W-Maße Qn (n ∈ N), Q auf der σ-Algebra B der Borelschen Mengen in R. Die Folge (Qn ) heißt gegen Q schwach konvergent (weakly convergent) — Schreibweise Qn → Q schwach — , wenn für jede beschränkte stetige Funktion g : R → R gilt Z Z g dQn → g dQ (n → ∞). R R b) Reelle ZVn Xn (n ∈ N), X (nicht notwendig auf demselben W-Raum definiert). Die Folge (Xn ) heißt gegen X nach Verteilung konvergent (convergent in distribution, convergent in law) — Schreibweise D Xn → X (n → ∞) — , wenn PXn → PX schwach, d.h. für jede beschränkte stetige Funktion g : R → R gilt Z Z g dPXn → g dPX (n → ∞) R R oder (äquivalent nach dem Transformationssatz für Integrale) Eg(Xn ) → Eg(X) (n → ∞) . 52 Bemerkung 9.1. a) In Definition 9.1a ist das Grenz-W-Maß Q eindeutig bestimmt. b) In Definition 9.1b können Xn , X durch reelle ZVn Xn0 , X 0 mit PXn0 = PXn , PX 0 = PX ersetzt werden. Satz 9.1. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Aus Xn → X nach D Wahrscheinlichkeit (Schreibweise Xn → X) folgt Xn → X. P Satz 9.2. W-Maße Qn (n ∈ N), Q auf B bzw. reelle ZVn Xn (n ∈ N), X mit VFn Fn , F . D Qn → Q schwach bzw. Xn → X (n → ∞) gilt genau dann, wenn Fn (x) → F (x) (n → ∞) für alle Stetigkeitspunkte x von F . Satz 9.3. Reelle ZVn Xn (n ∈ N), X auf (Ω, A, P ). Ist X P-f.s. konstant, so gilt: D Xn → X ⇐⇒ Xn → X . P Satz 9.4. Reelle ZVn Xn , Yn (n ∈ N), X auf (Ω, A, P ) D Xn → X D =⇒ Yn → X . |Xn − Yn | → 0 P Satz 9.5 (Spezialfall des Darstellungssatzes von Skorokhod). Reelle D ZVn Xn (n ∈ N), X mit Xn → X. Dann existiert ein W-Raum (Ω∗ , A∗ , P ∗ ) — wobei man Ω∗ = [0, 1], A∗ = [0, 1] ∩ B, P ∗ = L-B-Maß auf A∗ wählen kann — und reelle ZVn Xn∗ (n ∈ N), X ∗ auf (Ω∗ , A∗ , P ∗ ) derart, dass ∗ ∗ ∗ ∗ ∀ PXn = PXn∗ , PX = PX ∗ , Xn → X (n → ∞) P ∗ -f.s. n Satz 9.6 (Satz von der stetigen Abbildung). Reelle ZVn Xn (n ∈ N), D X mit Xn → X; Abbildung h : (R, B) → (R, B) sei PX -f.ü. stetig. Dann gilt D h(Xn ) → h(X) 53 Satz 9.7 (Satz von Slutsky). Reelle ZVn Xn , Yn , X auf (Ω, A, P ); c ∈ R. D D Xn + Yn → Xn → X X +c =⇒ D Y X → Yn → c cX . n n P Satz 9.8. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt: D fn → f λ-f.ü. =⇒ Xn → X Satz 9.9. Für reellwertige Zufallsvariablen Xn (n ∈ N) und X gilt: D Xn → X ⇐⇒ Ef (Xn ) → Ef (X) für alle beschränkten gleichmäßig stetigen Funktionen f : R → R Satz 9.10 (Satz von Lévy-Cramér; Stetigkeitssatz). W-Maße Qn (n ∈ N), Q auf B mit charakteristischen Funktionen ϕn , ϕ : R → C. Dann gilt: Qn → Q schwach ⇐⇒ ∀ ϕn (u) → ϕ(u). u∈R Bemerkung 9.2. Die obigen Definitionen und Sätze lassen sich auf WMaße auf Bk bzw. k-dim. Zufallsvektoren übertragen. 9.2 Zentrale Grenzwertsätze Ausssagen über die Approximation von Verteilungen, insbesondere der Verteilungen von Summen von Zufallsvariablen, durch die Normalverteilung im Sinne der schwachen Konvergenz werden als zentrale Grenzwertsätze bezeichnet. Satz 9.11 (Zentraler Grenzwertsatz von Lindeberg-Lévy im 1dim. Fall). Sei (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer reeller ZVn mit EX1 =: a, V (X1 ) =: σ 2 mit σ > 0. 54 Dann n 1 X D √ (Xk − a) → N (0, 1)-verteilte reelle ZV. nσ k=1 Korollar 9.2 (Zentraler Grenzwertsatz von de Moivre und Laplace). Für eine unabhängige Folge (Xn )n∈N identisch verteilter reeller ZVn auf (Ω, A, P ) mit P [X1 = 1] = p, P [X1 = 0] = 1 − p =: q (0 < p < 1) gilt ∀ α<β ∈R Pn Z β 1 X − np 2 k=1 k <β →√ e−t /2 dt (n → ∞). P α< √ npq (=) (=) 2π α Hilfsformel ∀ k∈N |eix − 1 − ∀ x∈R (ix)k−1 |x|k ix − ... − |≤ 1! (k − 1)! k! Satz 9.11 folgt aus Satz 9.12 (Zentraler Grenzwertsatz von Lindeberg). Die Folge (Xn ) quadratisch integrierbarer reeller ZVn mit EX12 > 0, ∀ EXn = 0 sei n Pn 2 2 unabhängig und erfülle — mit sn := i=1 EXi (n ∈ N) — die LindebergBedingung n (LB) 1 X E(Xi2 χ[|Xi |>εsn ] ) → 0. 2 sn i=1 ∀ ε>0 Dann n 1 X D Xi → N (0, 1)-verteilte ZV. sn i=1 Bemerkung 9.3. a) In Satz 9.12 dient die Folge (sn ) zur Normierung. Die LindebergBedingung (LB) schränkt den Einfluss der einzelnen ZVn ein. 55 b) In Satz 9.12 — mit am Erwartungswert zentrierten ZVn — impliziert die Lindeberg-Bedingung (LB) die Feller-Bedingung 1 max EXi2 → 0 (n → ∞) i=1,...,n s2n und wird ihrerseits durch die Ljapunov-Bedingung n 1 X ∃ δ>0 s2+δ n i=1 E|Xi |2+δ → 0 (n → ∞) impliziert. Bei nicht am Erwartungswert zentrierten ZVn ist jeweils Xi durch Xi − EXi , auch in der Definition von sn , zu ersetzen. Satz 9.12 folgt aus Satz 9.13 (Zentraler Grenzwertsatz von Lindeberg für Dreiecksschemata von Zufallsvariablen). Für jedes n ∈ N seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare reelle ZVn mit mn → ∞ für n → ∞. P n 2 Ferner seien EXn,i = 0, m n=1 EXn,i = 1 und die Lindeberg-Bedingung ∀ ε>0 erfüllt. Dann mn X mn X 2 E Xn,i χ[|Xn,i |>ε] ) → 0. i=1 D Xn,i → N (0, 1)-verteilte ZV. i=1 9.3 Multivariate zentrale Grenzwertsätze Ist X ein d-dimensionaler integrierbarer Zufallsvektor, d.h. EkXk < ∞, so heißt EX = (EX1 , . . . , EXd )t Erwartungsvektor von X. Ist X ein d-dimensionaler quadratisch integrierbarer Zufallsvektor, d.h. EkXk2 < ∞, so heißt Cov(X) := (Cov(Xi , Xj ))i,j∈{1,...,d} Kovarianzmatrix von X, wobei die einzelnen Einträge die Kovarianzen cov(Xi , Xj ) := 56 E(Xi − EXi )(Xj − EXj ) der reellwertigen Zufallsvariablen Xi und Xj darstellen. Definition 9.2. Ein d-dimensionaler Zufallsvektor X = (X1 , . . . , Xd )t heißt multivariat normalverteilt (oder auch d-dimensional normalverP teilt), falls für jedes u ∈ Rd die Zufallsvariable hu, Xi = ut X = di=1 ui Xi eindimensional normalverteilt ist, wobei eine 1-dimensionale Normalverteilung mit Varianz 0 als eine Dirac-Verteilung δa im Punkt a interpretiert wird. Satz 9.14 (Cramér-Wold-Device). Für d-dimensionale Zufallsvektoren D D Xn und X gilt Xn → X genau dann, wenn hu, Xn i → hu, Xi für alle u ∈ Rd . Satz 9.15 (Multivariater zentraler Grenzwertsatz). Für jedes n ∈ N seien Xn,1 , . . . , Xn,mn unabhängige quadratisch integrierbare d-dimensionale ZVn mit mn → ∞ für n → ∞. Desweiteren gelte ∀ n ∀ i∈{1,...,mn } mn X Cov(Xn,i ) = C ∈ Rd×d ∀ n mn X ∀ ε>0 EXn,i = 0 i=1 E kXk2n,i χ[kXi k>ε] ) → 0. i=1 Dann mn X D Xn,i → N (0, C)-verteilten Zufallsvektor (n → ∞) i=1 Korollar 9.3. Ist (Xn )n∈N eine unabhängige Folge identisch verteilter quadratisch integrierbarer Zufallsvektoren, so gilt n 1 X D √ (Xi − EXi ) → N (0, Cov(X1 ))-verteilte ZV. n i=1 57 Teil II Deskriptive Statistik 58 Die deskriptive (beschreibende) Statistik hat zum Ziel, empirische Daten durch Tabellen und Grafiken übersichtlich darzustellen und zu ordnen, sowie durch geeignete grundlegende Kenngrößen zahlenmäßig zu beschreiben. Vor allem bei umfangreichem Datenmaterial ist es sinnvoll, sich einen ersten Überblick zu verschaffen. Durch eine systematische Beschreibung der Daten mit Hilfsmitteln der deskriptiven Statistik können mitunter auch Fehler in den Daten — beispielsweise durch Tippfehler bei der Dateneingabe oder fehlerhafte Ergebnisse von Texterkennungssystemen — erkannt werden. Die deskriptive Statistik verwendet keine stochastischen Modelle, so dass die dort getroffenen Aussagen nicht durch Risikogrößen, wie z.B. Fehlerwahrscheinlichkeiten, abgesichert sind. Dies kann durch die Methoden der schließenden Statistik erfolgen, sofern die untersuchten Daten den dort unterstellten Modellannahmen genügen. Die explorative (erkundende) Statistik hat darüber hinaus zum Ziel, bisher unbekannte Strukturen und Zusammenhänge in den Daten zu finden und hierdurch neue Hypothesen zu generieren. Diese auf Stichprobendaten beruhenden Hypothesen können dann im Rahmen der schließenden Statistik mittels wahrscheinlichkeitstheoretischer Methoden auf ihre Allgemeingültigkeit untersucht werden. Von der schließenden (auch induktiven oder inferentiellen) Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit macht. Beim Konklusionsschluss (indirekter Schluss) der inferentiellen Statistik ist es also umgekehrt: Dort werden ausgehend von der Stichprobe unbekannte Parameter der Grundgesamtheit geschätzt. 59 Kapitel 10 Statistische Kenngrößen Bei statistischen Untersuchungen werden an geeignet ausgewählten Untersuchungseinheiten jeweils die Werte eines oder mehrerer Merkmale (variable) festgestellt. Werte, die von Merkmalen angenommen werden können, heißen Merkmalsausprägungen. Die Menge aller Untersuchungseinheiten wird als Grundgesamtheit oder Population (population) bezeichnet. Eine Stichprobe (sample) ist eine zufällig gewonnene endliche Teilmenge aus einer Grundgesamtheit. Grob unterscheidet man zwischen qualitativen und quantitativen Merkmalen. Bei qualitativen Merkmalen unterscheidet man zwischen nominalen und ordinalen Merkmalen. Bei quantitativen Merkmalen unterscheidet man zwischen diskreten und stetigen Merkmalen. Desweiteren unterscheidet man Merkmalstypen auch anhand ihrer Skalenniveaus: Nominalskala, Ordinalskala, Intervallskala und Verhältnisskala (die letzten beiden Skalen für Merkmale, bei denen Differenzen bzw. Quotienten von Merkmalswerten sinnvoll interpretiert werden können). Die Elemente einer Stichprobe x1 , . . . , xn eines ordinalen Merkmals können der Größe nach geordnet werden. Hierbei bezeichne x(i) den i-kleinsten 60 Wert. Dann heißt x(1) ≤ . . . ≤ x(n) die geordnete Stichprobe (ordered sample) von x1 , . . . , xn . 10.1 Empirische Häufigkeitsverteilung Ein Merkmal habe die Merkmalsausprägungen ξ1 , . . . , ξk . Liegt zu diesem Merkmal eine Stichprobe x1 , . . . , xn vom Umfang n vor, so wird die Anzahl Hn (ξi ) derjenigen Stichprobenelemente mit Merkmalsausprägung ξi als absolute Häufigkeit von ξi in der Stichprobe genannt. hn (ξi ) := Hn (ξi )/n ist die relative Häufigkeit von ξi in der Stichprobe. P Handelt es sich um ein ordinales Merkmal, so ist ξk ≤ξi Hn (ξk ) die abP solute kumulierte Häufigkeit von ξi und ξk ≤ξi hn (ξk ) die relative kumulierte Häufigkeit von ξi . Die relative kumulierte Häufigkeit des Merkmalswertes ξ stimmt mit der empirischen Verteilungsfunktion P Fn (ξ) := 1/n ni=1 1[xi ≤ξ] am Merkmalswert ξ ∈ {ξ1 , . . . , ξk } überein. 10.2 Lagemaße Ein Lagemaß ist eine Abbildung L : Rn → R, für die ∀ a∈R ∀ x1 ,...,xn L(x1 + a, . . . , xn + a) = L(x1 , . . . , xn ) + a gilt. Beispiele für Lagemaße sind: • Modalwert (mode) xmod := argmax Hn (x) x∈{x1 ,...,xn } 61 • das arithmetisches Mittel (sample mean) n 1X x̄n := xi n i=1 • der (empirische) Median (median) x n+1 , 2 x̃ := x1/2 := 1 xn + xn 2 falls n ungerade 2 +1 2 , falls n gerade • das empirische p-Quantil (p-th quantile) für ein p ∈ (0, 1) x falls np keine natürliche Zahl (bnp+1c) , xp := 1 (x falls np eine natürliche Zahl 2 (np) + x(np+1) ), Das geometrische Mittel x̄geom := n Y !1/n xi i=1 und das harmonische Mittel n x̄harm := Pn 1 i=1 xi sind keine Lagemaße (wobei x1 , . . . , xn > 0). Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll. 10.3 Steuungsmaße Ein Streuungsmaß ist eine Abbildung S : Rn → R, für das ∀ a∈R ∀ x1 ,...,xn S(x1 + a, . . . , xn + a) = S(x1 , . . . , xn ) Beispiele für Streuungsmaße sind: 62 • Stichprobenspannweite (sample range) x(n) − x(1) • empirische Varianz (sample variance) n 1 X s := (xi − x̄n )2 n − 1 i=1 2 empirische Standardabweicheung (sample standard deviation) v u n u 1 X (xi − x̄n )2 s := t n − 1 i=1 • Mittlere absolute Abweichung vom Median (mean absolute deviation) n 1X |xi − x̃n | n i=1 • Interquartilabstand (interquartile distance) x0.75 − x0.25 Der Variationskoeffizient (coefficient of variation) s x̄ ist kein Streuungsmaß. Nicht jeder dieser Begriffe ist für jedes Skalenniveau sinnvoll. 10.4 Zusammenhangsmaße Gegeben seien die beiden Stichproben x1 , . . . , xn und y1 , . . . , yn zu zwei Merkmalen. Bei einem ordinalen Merkmal können zu einer Stichprobe x1 , . . . , xn die Ränge R(xi ) bestimmt werden. Hierbei erhält das kleinste Element den Rang 1, das größte den Rang n. 63 • Sind die beiden Merkmale intervallskaliert, dann heißt Pn (xi − x̄)(yi − ȳ) pPn rxy := pPn i=1 2 2 (x − x̄) i i=1 i=1 (yi − ȳ) Korrelationskoeffizient nach Pearson. • Sind die beiden Merkmale ordinalskaliert, erhält man den Korrelationskoeffizient nach Spearman, wenn im Korrelationskoeffizient nach Pearson die Werte xi und yi durch deren Ränge R(xi ) bzw. R(yi ) ersetzt werden. • Bei nominalen oder ordinalen Merkmalen ist die mittlere quadratische Kontingenz der Stichproben x1 , . . . , xn und y1 , . . . , yn definiert durch 2 K L 1 X X Hkl − Hk·nH·l Hk· H·l n n k=1 l=1 wobei Hkl die absolute Häufigkeit der Stichprobenelemente (xi , yi ) mit (xi , yi ) = (k, l), Hk· die absolute Häufigkeit der Stichprobenelemente xi mit xi = k und H·l die absolute Häufigkeit der Stichprobenelemente yi mit yi = l ist. 64 Kapitel 11 Grafiken 11.1 Beispiele für Grafiken für univariate Daten • Säulendiagramm (bar chart) • Kreisdiagramm (pie chart) • Histogramm (histogram) • Quantil-Quantil-Plot (QQ-plot) • Box-Plot (box plot) 11.2 Beispiele für Grafiken für bivariate Daten • Streudiagramm (scatter plot) • Mosaikplot (mosaic plot) 65 Teil III Grundbegriffe der Mathematischen Statistik 66 Während die Wahrscheinlichkeitstheorie Eigenschaften vorgegebener WMaße untersucht, gibt die Mathematische Statistik Wege zur vernünftigen Vorgabe von W-Maßen in wahrscheinlichkeitstheoretischen Modellen an. Allgemein: Die Statistik ist eine Zusammenfassung von Methoden (samt deren mit wahrscheinlichkeitstheoretischen Hilfsmitteln erfolgenden Gütebeurteilung), die es erlauben, vernünftige Entscheidungen bei Unsicherheit zu treffen. Bei einem einstufigen statistischen Experiment wird eine Realisierung x einer Zufallsvariablen X mit Werten in der Menge R (mit σ-Algebra S) beobachtet, wobei die auf S definierte Verteilung w von X nicht oder nur teilweise bekannt ist. Die Menge R der möglichen Beobachtungsresultate oder Stichproben(resultate) x — oder auch das Paar (R, S) — heißt Stichprobenraum [sample space]. Im Falle einer Stichprobe vom Umfang n ∈ N liegt i.a. der Fall R = Rn , S = Bn vor, d.h. X ist ein n-dimensionaler Zufallsvektor mit unbekannter oder nur teilweise bekannter Verteilung w (auf Bn ). Es wird angenommen, dass w in einer Klasse {wϑ | ϑ ∈ Θ} von WVerteilungen auf S enthalten sei. Θ (mit einer darüber erklärten σ-Algebra U von Mengen in Θ) heißt Parameterraum [parameter space] mit Parametern ϑ. Bei einer sog. parametrischen Verteilungsannahme läßt sich Θ in natürlicher Weise als Teilmenge eines Rk (k ∈ N) auffassen. Dementsprechend unterscheidet man parametrische und nichtparametrische (verteilungsunabhängige) statistische Verfahren. 67 Kapitel 12 Testen von Hypothesen 12.1 Problemstellung, Bezeichnungen In der Testtheorie tritt im Rahmen der oben beschriebenen Situation mit unbekanntem Parameter ϑ folgende Aufgabe auf. Sei Θ = Θ0 ∪ Θ1 mit nichtleeren disjunkten Mengen Θ0 , Θ1 (∈ U). Zu entscheiden ist aufgrund der Beobachtung x ∈ R zwischen der mit H0 bezeichneten Hypothese, dass ϑ ∈ Θ0 ist, und der mit H1 bezeichneten Hypothese, dass ϑ ∈ Θ1 ist; die beiden Entscheidungen seien mit aH0 und aH1 bezeichnet. Als (nichtrandomisierten) Test bezeichnet man eine Abbildung δ : R → {aH0 , aH1 } der Form ( aH1 für x ∈ R1 δ(x) = aH 0 für x ∈ R0 mit R0 , R1 ∈ S, disjunkt, R0 ∪ R1 = R. Ist H0 durch den Anwendungszweck ausgezeichnet, so heißt H0 Nullhypothese, H1 Alternativhypothese (Gegenhypothese). Es bedeutet aH0 Annahme oder wenigstens Nicht-Ablehnung der Hypothese H0 , aH1 Ablehnung der Hypothese H0 , R0 = {x ∈ R | δ(x) = aH0 } heißt Annahmebereich, R1 = {x ∈ R|δ(x) = aH1 } heißt kritischer Bereich (Ablehnungs68 bereich) des Tests. Ein Fehler 1. Art heißt eine Entscheidung für H1 , obwohl H0 richtig ist; ein Fehler 2. Art heißt eine Entscheidung für H0 , obwohl H1 richtig ist. Die Funktion β : Θ → [0, 1] mit β(ϑ) := wϑ (R1 ) wird als Gütefunktion des Tests δ bezeichnet, β(ϑ) gibt die Wahrscheinlichkeit an, dass X ∈ R1 , wenn ϑ der wahre Parameter ist; d.h. β(ϑ) gibt die mit Pϑ [δ(X) = aH1 ] bezeichnete Wahrscheinlichkeit für das Annehmen von H1 (Ablehnen von H0 ) an, wenn ϑ der wahre Parameter ist. Die Funktion 1 − β heißt Operationscharakteristik, ihr Graph heißt OC-Kurve. Die ideale Gütefunktion β ist gegeben durch β(ϑ) = 0 für ϑ ∈ Θ0 , β(ϑ) = 1 für ϑ ∈ Θ1 ; Tests mit einer solchen Gütefunktion existieren nur in trivialen Fällen. Ein Test, dessen Fehlerwahrscheinlichkeiten 1. Art ≤ α ∈ (0, 1) sind, d.h. mit supϑ∈Θ0 β(ϑ) ≤ α, heißt ein Test zum Niveau α. Redeweise: Hat ein Test zum Niveau α nach Beobachtung von x ∈ R zur Ablehnung von H0 geführt, so ist die Nichtgültigkeit von H0 , d.h. die Gültigkeit von H1 , statistisch gesichert (signifikant) mit einer zugelassenen Irrtumswahrscheinlichkeit α (Signifikanzzahl). Übliche α : 0, 05; 0, 01; 0, 005. Ein Test mit diesem Ziel (Ablehnung von H0 oder auch Nicht-Ablehnung von H0 ) heißt Signifikanztest (Hypothesentest) zum Niveau α zur statistischen Sicherung von H1 im Unterschied zum sog. Alternativtest mit dem Ziel Annahme von H0 oder Annahme von H1 . – Die Hypothese, die man statistisch sichern will, formuliert man also bei einem Signifikanztest als Gegenhypothese. – In der Wahl von α drückt sich eine Bewertung der Fehler 1. und 2. Art aus. Häufig auftretendes (unsymmetrisches!) Testproblem: Gesucht ein Test δ zum Niveau α mit möglichst kleinen Fehlerwahrscheinlichkeiten 2. Art (Werten 1 − β(ϑ), ϑ ∈ Θ1 ), d.h. möglichst großen Schärfen β(ϑ) (ϑ ∈ Θ1 ). Ein Test δ ∗ heißt gleichmäßig bester [uniformly most powerful, trennscharfer] Test für H0 gegen H1 zum Niveau α, wenn δ ∗ (mit Gütefunktion 69 βδ∗ ) ein Test für H0 gegen H1 zum Niveau α ist und wenn für alle Tests δ (mit jeweiliger Gütefunktion βδ ) für H0 gegen H1 zum Niveau α gilt ∀ ϑ∈Θ1 βδ∗ (ϑ) ≥ βδ (ϑ). Nimmt man die Forderung der Unverfälschtheit für Tests zum Niveau α hinzu, d.h. β(ϑ) ≥ α, ∀ ϑ∈Θ1 so läßt sich der Begriff eines gleichmäßig besten unverfälschten Tests zum Niveau α definieren. Bei Tests δ, für die mit einer Abb. T : R → R (mit {x ∈ R; T (x) < d} ∈ S, d ∈ R) – einer sog. Statistik T – und einem c ∈ R gilt ( aH1 , falls T (x) > c δ(x) = aH0 , falls T (x) < c, heißt T Prüfgröße und c kritischer Wert. 12.2 Wahrscheinlichkeitstheoretische Grundlagen für spezielle Tests Definition 12.1. (vgl. Definition 7.8) Die Verteilung der Summe der Quadrate von n unabhängigen jeweils N (0, 1)-verteilten reellen ZVn heißt ChiQuadrat-Verteilung mit n Freiheitsgraden (Bezeichnung χ2n ; n ∈ N). Bemerkung 12.1. (vgl. Definition 7.8) Die Verteilung χ2n besitzt eine Dichte f : R → R+ mit 1 xn/2−1 e−x/2 , x > 0 n/2 Γ( n ) 2 f (x) = 2 0 , x ≤ 0. Definition 12.2. (vgl. Bemerkung 7.7) Sind X, Y zwei unabhängige reelle ZVn mit PX = N (0, 1) und PY = χ2n , so wird die Verteilung der ZV 70 p X/ Y /n als t-Verteilung oder Student-Verteilung tn (auch Stn ) mit n Freiheitsgraden bezeichnet (n ∈ N). Bemerkung 12.2. Die Verteilung tn besitzt eine Dichte f : R → R+ mit 2 ) 1 Γ( n+1 x n+1 2 f (x) = √ 1+ − , x ∈ R. n n 2 nπ Γ( 2 ) Faustregeln: b(n, p) mit hinr. Genauigkeit approx. durch N (np, np(1 − p)), falls np(1 − p) > 9 χ2n mit hinr. Genauigkeit approx. durch N (n, 2n), falls n > 30 tn mit hinr. Genauigkeit approx. durch N (0, 1), falls n > 30 Satz 12.1. Seien X1 , . . . , Xn (n ≥ 2) unabhängige N (a, σ 2 )-vert. ZVn. n n √ P P 1 Xi ; S 2 := n−1 (Xi − X)2 , S := + S 2 X := n1 i=1 i=1 a) X und S 2 sind unabh. 2 b) X ist N (a, σn )-verteilt; n−1 2 σ2 S ist χ2n−1 -verteilt. c) EX = a, ES 2 = σ 2 . √ d) n X−a S ist tn−1 -verteilt. Bemerkung 12.3 zu Satz 12.1. Mit x = (x1 , . . . , xn ) ∈ Stichprobenraum Rn und n n 1X 1 X 2 x := xi und s := (xi − x)2 n i=1 n − 1 i=1 sind die Abbildungen x → x und x → s2 (x ∈ Rn ) sog. erwartungstreue Schätzfunktionen für a bzw. σ 2 (vgl. § 11). Die Realisierung x und X heißt Stichprobenmittel, die Realisierung s2 von S 2 heißt empirische Varianz. Für ein W-Maß Q auf B mit VF F und ein α ∈ (0, 1) wird das α-Fraktil erklärt als min{t ∈ R; F (t) ≥ 1 − α} 71 und das α-Quantil als min{t ∈ R; F (t) ≥ α}. α-Quantil = (1 − α)-Fraktil; α-Fraktil= (1 − α)-Quantil. 12.3 Spezielle Tests bei parametrischen Verteilungsannahmen Tests bei einseitigen Testproblemen: Es seien uα , χ2n;α , tn;α , b(n, p)α die α-Fraktile der Verteilungen N (0, 1), χ2n , tn , b(n, p) [n ∈ N, p ∈ (0, 1), 0 < α < 1] Tafeln s. D. B. Owen, Handbook of Statist. Tables, 1962. p Approximation von b(n, p)α bei großem n durch np + np(1 − p) uα − 12 . a) Einstichprobentests zum Niveau α ∈ (0, 1). Unabhängige identisch verteilte ZVn X1 , . . . , Xn ; x = (x1 , . . . xn ) beobachtete Realsierung von (X1 , . . . , Xn ). n 1P Stichprobenmittel x := xi ; n i=1 n 1 P Empirische Varianz s2 := (xi − x)2 (n ≥ 2), n − 1 i=1 Standardabweichung s(≥ 0). Prüfgröße T (x), kritischer Wert cα . Die Hypothese H0 wird abgelehnt, wenn T (x) > cα . a1 ) PXi = N (a, σ02 ) [NV mit unbekanntem α ∈ R, bekanntem σ02 ∈ (0, ∞)] (<) a0 ∈ R; H0 : a = a0 , H1 : a > a0 √ n (x − a0 ), cα = uα T (x) = σ0 Einseitiger Gauß-Test (für eine Stichprobe) 72 a2 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)] (<) a0 ∈ R; H0 : a = a0 , H1 : a > a0 (n ≥ 2) √ x − a0 T (x) = n ; cα = tn−1;α s Einseitiger t-Test von Student (für eine Stichprobe) a3 ) PXi = N (a, σ 2 ) [NV mit unbekanntem (a, σ 2 ) ∈ R × (0, ∞)] (<) σ02 ∈ (0, ∞); H0 : σ 2 = σ02 , H1 : σ 2 > σ02 n 1 P T (x) = 2 (xi − x)2 ; cα = χ2n−1;α σ0 i=1 Einseitiger χ2 -Test für die Varianz (n ≥ 2) a4 ) PXi = b(1, p) [Binomialvert. mit Par. 1 und p ∈ (0, 1)] (<) p0 ∈ (0, 1); H0 : p = p0 ; H1 : p > p0 . n P T (x) = xi ; cα = b(n, p0 )α i=1 Einseitiger Binomialtest (für eine Stichprobe) b) Zweistichprobentests zum Niveau α ∈ (0, 1). Unabhängige ZVn X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit identisch verteilten X1 , . . . , Xn1 und identisch verteilten Y1 , . . . , Yn2 ; x = (x1 , . . . , xn1 ), y = (y1 , . . . , yn2 ) beobachtete Realsierung von (X1 , . . . , Xn1 ) bzw. (Y1 , . . . , Yn2 ). n1 n2 1 P 1 P xi bzw. y = yj . Stichprobenmittel x = n1 i=1 n2 j=1 Prüfgröße T (x, y), kritischer Wert cα . Die Hypothese H0 wird abgelehnt, wenn T (x, y) > cα . b1 ) PXi = N (a, σ02 ), PYj = N (b, σ02 ) [NV mit unbekanntem (a, b) ∈ R2 , bekanntem σ02 ∈ (0, ∞)] (<) H0 : a = b, H1 : a > b r n1 n2 x − y T (x, y) = ; c α = uα . n1 + n2 σ0 Einseitiger Gauß-Test für zwei Stichproben b2 ) PXi = N (a, σ 2 ), PYj = N (b, σ 2 ) [NV mit unbekanntem (a, b, σ 2 ) ∈ R2 × (0, ∞)] 73 (<) H0 : a = b, H1 : a > b (n1 ≥ 2, n2 ≥ 2) s r P n1 n2 P n1 n2 1 2 2 (x−y)/ (xi − x) + (yj − y) ; T (x, y) = n1 + n2 n1 + n2 − 2 i=1 j=1 cα = tn1 +n2 −2;α Einseitiger t-Test von Student für zwei Stichproben. Tests bei den entsprechenden zweiseitigen Testproblemen [H0 mit = statt ≤, H1 mit 6= statt > ] zum Niveau α: zu a1 ), a2 ), b1 ), b2 ) . . . |T | statt T , c α2 statt cα ; zu a3 ), a4 ) . . . kritischer Bereich {x ∈ Rn | T (x) < c1− α2 ∨ T (x) > c α2 } Satz 12.2. a) Alle oben angegebenen Tests sind jeweils Tests für H0 gegen H1 zum Niveau α. b) Die Tests in a1 ), a2 ), a3 ), b1 ), b2 ) und die angegebenen zweiseitigen Varianten zu a1 ), a2 ), b1 ), b2 ) sind jeweils gleichmäßig beste unverfälschte Tests für H0 gegen H1 zum Niveau α; die Tests in a1 , a3 ), b1 ) sind sogar jeweils gleichmäßig beste Tests für H0 gegen H1 zum Niveau α. 12.4 Tests bei nichtparametrischen Verteilungsannahmen A) χ2 -Test (von Pearson) (ein parametrischer Test mit Anwendung auf nichtparametrische Probleme) Definition 12.3. Seien X1 , . . . , Xn unabhängige identisch verteilte ZVn auf (Ω, A, P ), welche die r(≥ 2) geg. Werte cj mit Wahrscheinlichkeit pj 74 annehmen (j = 1, . . . , r) wobei r P pj = 1. Die ZV Yj := n P i=1 j=1 I[X = c ] i j mit Werten in {0, 1, . . . , n} gibt also die Anzahl der cj an, die in dem ntupel (X1 , . . . , Xn ) auftreten (j = 1, . . . , r). Die Verteilung m(n; p1 , . . . , pr ) von Y = (Y1 , . . . , Yr ) heißt Multinomialverteilung (Polynomialverteilung). Die Zähldichte zu m(n; p1 , . . . , pr ) ist gegeben durch (k1 , . . . , kr ) −→ n! kr 1 pk 1 . . . pr , k1 ! . . . kr ! wobei k1 , . . . , kr ∈ {0, 1, . . . , n} mit k1 + . . . + kr = n. Es gilt m(n0 ; p1 , . . . , pr ) ∗ m(n00 ; p1 , . . . , pr ) = m(n0 + n00 ; p1 , . . . , pr ). Beobachtet seien Realisierungen xi von unabhängigen identisch verteilten ZV Xi (i = 1, . . . , n) wie oben mit Realisierungen yj der zugehörigen Yj (j = 1, . . . , r). — Diese Situation ergibt sich auch folgendermaßen. Seien ei (i = 1, . . . , n) unabhängig identisch verteilte ZV mit Bildmessraum X (R1 , S1 ) [wichtiger Spezialfall: (R1 , S1 ) = (R, B) und Verteilungsfunktion r e1 ]. Es wird R1 in messbare fremde Zellen C1 , . . . , Cr mit P Cj = R1 F von X j=1 ei (ω) ∈ Cj (i = 1, . . . , n; ω ∈ Ω). eingeteilt und Xi (ω) := Cj gesetzt für X Gegeben seien p10 , . . . , pr0 > 0 mit r P pj0 = 1 bzw. VF F0 : R → [0, 1]. j=1 Zu testen sei H0 : (p1 , . . . , pr ) = (p10 , . . . , pr0 ) gegen H1 : (p1 , . . . , pr ) 6= (p10 , . . . , pr0 ) bzw. H0 : F = F0 gegen F 6= F0 . Ein Test, der asymptotisch (für n → ∞) zum Niveau α ∈ (0, 1) ist, ist gegeben durch den sog. χ2 -Test (von Pearson), χ2 -Anpassungstest: H0 wird abgelehnt, wenn — mit x = (x1 , . . . , xn ) — T (x) := r X (yj − npj0 )2 j=1 npj0 r 1 X yj2 ≡ − n > χ2r−1;α . n j=1 pj0 75 Faustregel: Es soll npj0 ≥ 5 (j = 1, . . . , r) sein. Die yj sind die beobachteten, die npj0 die bei Gültigkeit von H0 erwarteten Zellhäufigkeiten bei Stichprobenumfang n. Hängen (p10 , . . . , pr0 ) bzw. F0 von einem unbekannten Parameter θ = (θ1 , . . . , θt ) ∈ Θ ⊆ Rt ab (Voraussetzung: r ≥ t + 2), so wird dieser geschätzt als Lösung θb (sog. modifizierte χ2 -Schätzung von θ) der Likelihood-Gleichungen r X yj ∂pj0 = 0 (l = 1, . . . , t) np ∂θ j0 l j=1 b . . . , pr0 (θ)) b und obiger χ2 -Test verwendet, (auch bei F0 !), dann (p10 (θ), jedoch mit χ2r−1−t;α statt χ2r−1;α . b ≥ 5 (j = 1, . . . , r) sein. Faustregel: Es soll npj0 (θ) Satz 12.3. X := (X1 , . . . , Xn ). a) Im ersteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch χ2r−1 -verteilt (für n → ∞). b) Im letzteren Testproblem ist T (X) bei Gültigkeit von H0 asymptotisch χ2r−1−t -verteilt, falls zusätzlich gilt: Θ offen, für alle θ ∈ Θ ist pj0 (θ1 , . . . , θt ) > 0, ∂pj0 ∂ 2 pj0 , ex. und stetig (j = 1, . . . , r; l, l0 , l00 = 1, . . . , t) ∂θl ∂θl0 ∂θl00 ∂pj0 und die Matrix ( ; j = 1, . . . , r; l = 1, . . . , t) vom Rang t. ∂θl Anwendung des χ2 -Tests bei Kontingenztafeln. Es seien (X1i , X2i ) (i = 1, . . . , n) n unabhängige identisch verteilte ZV, welche die r · s (r ≥ 2, s ≥ 2) geg. Wertepaare (cj , dk ) mit Wahrscheinlichkeit pjk annehmen (j = 1, . . . , r; k = 1, . . . , s), 76 s P wobei pj· := pjk (j = 1, . . . , r), p·k := r P pjk (k = 1, . . . , s). — Diese j=1 k=1 ZV können analog zu obigem aufgrund anderer ZV mit Hilfe einer Zelleinteilung definiert sein. — Es seien die zugehörigen Realisierungen (x1i , x2i ) (i = 1, . . . , n) beobachtet und dazu die entsprechenden Zellhäufigkeiten yjk (j = 1, . . . , r; k = 1, . . . , s) in einer Kontingenztafel (r × s-Feldertafel) angeordnet. Zu testen sei zum Niveau α ∈ (0, 1) H0 : Unabhängigkeit des Paares (X11 , X21 ), d.h. ∀ pjk = pj· p·k , (j,k) gegen H1 : Nicht-Unabhängigkeit des Paares (X11 , X21 ), d.h. ∃ pjk 6= pj· p·k . (j,k) Mit yj· := s P yjk , y·k := r P j=1 k=1 yjk sind n1 yj· und n1 y·k Likelihood-Schätzungen für pj· bzw. p·k . H0 wird abgelehnt, wenn X X (nyjk − yj· y·k )2 > χ2(r − 1)(s − 1); α . nyj· y·k j k Im Spezialfall r = s = 2 wird H0 abgelehnt, wenn n (y11 y22 − y12 y21 )2 > χ21; α y1· y2· y·1 y·2 Test asymptotisch (für n → ∞) zum Niveau α. Faustregel n ≥ 60. Ein weiterer Anpassungstest, d.h. Test zu dem Problem, ob vorliegende Beobachtungen signifikant von einer durch die Nullhypothese angegebenen Verteilung oder Klasse von Verteilungen abweichen, ist gegeben durch B) Test von Kolmogorov(-Smirnov) Sei (X1 , X2 , . . .) eine Folge unabhängiger identisch verteilter reellwertiger ZV, die jeweils die VF F besitzen sollen. Beobachtet sei die Realisierung 77 x(n) := (x1 , . . . , xn ) ∈ Rn von X(n) := (X1 , . . . , Xn ). Die VF Fn mit n 1X Fn (t) := Fn (x(n) , t) := I (xi ) n i=1 (−∞, t] wird als empirische VF zu x(n) bezeichnet. Die Schätzfunktion Fn (·, t) für F (t), t ∈ R, ist erwartungstreu und (stark) konsistent, d.h. Fn (X(n) , t) → F (t) (n → ∞) in Wahrscheinlichkeit (sogar f.s.). Zu letzterem gilt als Verschärfung der Satz von Glivenko-Cantelli. Unter den obigen Voraussetzungen strebt sup | Fn (X(n) , t) − F (t) |→ 0 (n → ∞) f.s. t∈R Hierbei wird durch Tn (x(n) ) := sup |Fn (x(n) , t) − F (t)| t∈R eine Abbildung Tn : (Rn , Bn ) → (R, B) definiert. Bemerkung 12.4. Bei stetigem F ist die Verteilung Qn von unabhängig von F , insbesondere ist Qn die Verteilung von √ √ nTn (X(n) ) n 1X n sup | I[0, u] (Ui ) − u | u∈[0,1] n i=1 mit unabhängigen ZV Ui (i = 1, . . . , n), die jeweils auf [0, 1] gleichverteilt sind. Satz von Kolmogorov(-Smirnov). Für jede stetige (wahre) VF F kon√ vergiert nTn (X(n) ) in Verteilung (n → ∞), wobei die Grenzverteilung Q eine VF G besitzt mit ∞ P 2 2 1 + 2 (−1)j e−2j t für t > 0 j=1 G(t) = 0 für t ≤ 0 78 Somit lässt sich √ nTn (x(n) ) := √ n sup | Fn (x(n) , t) − F0 (t) | als Prüfgröße t∈R eines Tests zum Niveau α ∈ (0, 1) für H0 : F = F0 mit stetiger VF F0 gegen H1 : F 6= F0 verwenden: H0 wird abgelehnt, wenn √ nTn (x(n) ) > Qn;α |{z} α-Fraktil von Qn oder — bei größerem n — √ nTn (x(n) ) > Qα (Test von Kolmogorov-Smirnov). Vertafelung von √1n Qn;α Mathematische Statistik Q0,05 = 1, 36; (α = 0, 05 und 0, 01) z.B. bei v. d. Waerden, Q0,01 = 1, 63. Zu beobachtetem x(n) und somit zu Fn (x(n) , ·) verwendet man als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1−α die Menge der stetigen Verteilungsfunktionen in einem durch 1 1 Fn (x(n) , ·) − √ Qn,α und Fn (x(n) , ·) + √ Qn;α n n begrenzten Streifen (vgl. §16). Für das entsprechende einseitige Testproblem H0 : F = stet. F0 , H1 : F ≥ F0 mit F 6= F0 wird statt Tn (x(n) ) die Prüfgröße Tn+ (x(n) ) := sup[Fn (x(n) , t) − F0 (t)] t∈R mit Verteilung Q+ n (von verwendet, wobei √ nTn+ (X(n) ) bei wahrem F0 ) und Grenz-VF G+ 1 − e−2t2 , t > 0 G+ (t) = 0, t ≤ 0. und kritischen Werten Q+ n;α bzw. Qα (G VF zu Q). 79 Als Bereichsschätzung für eine stetige VF F zum Konfidenzniveau 1 − α ergibt sich die Menge der stetigen Verteilungsfunktionen Fe mit Fe ≥ Fn (x(n) , ·) − √1 Q+ . n n;α 80 Kapitel 13 Parameterschätzung Während die Testtheorie der Entscheidung dient, aus welcher Grundgesamtheit eine Stichprobe entnommen worden ist, bezieht sich die Schätztheorie auf das Entscheidungsproblem, wie man den wahren Parameter (aus einem Kontinuum) aufgrund einer Stichprobe möglichst gut bestimmt. Im folgenden werden die unmittelbar vor §13 angegebenen Bezeichnungen verwendet, Θ ⊂ R, U ∈ B (allgemeiner Θ ⊂ Rk mit euklidischer Norm, U ∈ Bk ). Als Schätzfunktion (estimator), genauer Punktschätzfunktion, wird eine Abbildung δ : R → Θ bezeichnet (mit δ −1 (U ) ∈ S für U ∈ U). Eϑ δ(X) −ϑ heißt Verzerrung (bias) der Schätzfunktion für ϑ. | {z } Erwartungswert von δ(X) bei wahrem Parameter ϑ ∈ Θ Eine Schätzfunktion mit Verzerrung 0 heißt erwartungstreu (unverzerrt, unbiased). Die Qualität einer erwartungstreuen Schätzfunktion für ϑ wird häufig an Hand der i.a. von ϑ abhängigen Varianz Eϑ (δ(X) − ϑ)2 von δ(X) beurteilt. Allg.: Eϑ (δ(X) − δ)2 ...mittlerer quadratischer Fehler (mean squared error, MSE). Entsprechend: Schätzung eines g(ϑ) statt ϑ. 81 Satz 13.1. a) Seien X1 , . . . , Xn unabhängige identisch verteilte reelle Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. a := EX1 bzw. σ 2 := V (X1 ). Die Abbildung n 1 X xi x → x := n i=1 | {z } Stichprobenmittel bzw. n 1 X x → s := (xi − x)2 n − 1 i=1 | {z } empirische Varianz 2 (x = (x1 , . . . , xn ) ∈ Rn ) ist eine erwartungstreue Schätzfunktion für a bzw. σ 2 . n P 2 Xi ist σn Die Varianz von X := n1 (unabh. von a). i=1 b) Sei (Xn )n∈N eine unabhängige Folge identisch verteilter reeller Zufallsvariablen mit E|X1 | < ∞ bzw. EX12 < ∞. Dann konvergiert (für n → ∞) n 1 X Xi → a mit Wahrscheinlichkeit Eins (f.s.) n i=1 bzw. n 1 X (Xi − X)2 → σ 2 mit Wahrscheinlichkeit Eins (f.s.), n − 1 i=1 sog. starke Konsistenz der zugehörigen Folge von Schätzfunktionen. Spezialfall zu Satz 13.1: Xi b(1, p)-verteilt; das Stichprobenmittel ist als eine relative Häufigkeit deutbar und dient als Schätzung für die Wahrscheinlichkeit p. Ein Konstruktionsprinzip für Schätzfunktionen wird durch das nachstehende Maximum-Likelihood-Prinzip (R. A. Fisher) gegeben. Sei (R, S) = (Rn , Bn ), Θ ⊂ Rk mit Θ ∈ Bk , U ⊂ Bk . Die Elemente der Familie {wϑ ; ϑ ∈ Θ} sollen jeweils eine Dichte f (ϑ, ·) : R → R+ besitzen. 82 Aufgrund der Beobachtung x ∈ R sucht man δ(x) als Schätzung für den unbekannten Parameter ϑ so zu wählen, dass f (ϑ, x) maximal bezüglich ϑ ∈ Θ wird. Bei beobachtetem x ∈ R wird f (·, x) : Θ → R+ als Likelihood-Funktion, ein δ(x) ∈ Θ mit f (δ(x), x) = sup f (ϑ, x) als eine Maximum-Likelihoodϑ∈Θ Schätzung (Likelihood-Schätzung) für ϑ ∈ Θ bezeichnet. Die zugehörige Funktion δ : (R, S) → (Θ, U), falls als Schätzfunktion existent, heißt Maximum-Likelihood-Schätzfunktion (Likelihood-Schätzfunktion) für ϑ ∈ Θ. — Man sucht eine Likelihood-Schätzung δ(x) ∈ Θ ⊂ Rk als Lösung des Systems der Likelihood-Gleichungen ∂ ln f (ϑ, x) = 0 (j = 1, . . . , k) ∂ϑj [mit ϑ = (ϑ1 , . . . , ϑk )] zu gewinnen. Diese Bedingungen sind allerdings weder notwendig noch hinreichend. Analog für Zähldichten (im Falle n = 1; eine Verallgemeinerung auf n ∈ N ist möglich). Bemerkung 13.1 zum Maximum-Likelihood-Prinzip. Bei Unabhängigkeit des n-tupels (X1 , . . . , Xn ) = X konvergiert unter gewissen Zusatzvoraussetzungen bei wahrem Parameter θ ∈ Θ die Lösung δn ◦ X der LikelihoodGleichungen (mit X statt x) gegen θ nach Wahrscheinlichkeit (n → ∞), sog. Konsistenz der Schätzfunktionenfolge (δn ). Unter verschärften Zusatz√ voraussetzungen konvergiert sogar n(δ ◦ Xn − θ) nach Verteilung gegen eine N (0, σ 2 )-verteilte reelle ZV mit minimalem σ 2 . 83 Kapitel 14 Parameterschätzung bei linearen Regressionsproblemen Beobachtungen in Abhängigkeit von unterschiedlichen Versuchsbedingungen werden aufgefaßt als Realisierungen von reellwertigen Zufallsvariablen, die von einer (kontrollierbaren, d.h. nicht-zufallsabhängigen) Variablen s aus einer Teilmenge von R (allgemeiner Rm ) abhängen. Die Abhängigkeit von s des Erwartungswertes der Zufallsvariablen wird durch die sog. Regressionsfunktion beschrieben. In diesem Rahmen auftretende Probleme werden als Regressionsprobleme bezeichnet. Lineare Regression liegt vor, wenn die Abhängigkeit durch ein Polynom 1. Grades gegeben ist. Beobachtet seien Realisierungen xi von unabhängigen quadratisch inte> grierbaren reellwertigen Zufallsvariablen Xi [i = 1, . . . , n(= 3)] mit EXi = a + b(si − s), V (Xi ) = σ 2 (nicht notw. normalverteilt) [vorgegebene si ∈ R n P 1 si ; unbekannte a, b ∈ R, σ 2 ∈ (nicht alle übereinstimmend) mit s := n i=1 R+ (b sog. Regressionskoeffizient)]. 84 Bezeichnungen: x = (x1 , . . . , xn ); b a := x := n wsx 1 n n P xi ; i=1 n 1X 1X xi (si − s) = (xi − x)(si − s) ; := n i=1 n i=1 n n 1X 1X := si (si − s) = (si − s)2 ; n i=1 n i=1 bb := wsx ; ws2 n 1X 2 σ b := [xi − b a − bb(si − s)]2 . n i=1 ws2 Schätzungen b a, bb, σ b2 für a bzw. b bzw. σ 2 . b a, bb ergeben sich mit der Methode der kleinsten Quadrate, d.h. sie minimieren P R(a, b) := n1 [xi −a−b(si −s)]2 ; sie sind Lösungen der Normalgleichungen i X [xi − s − b(si − s)] = 0 , i X [si − s][xi − a − b(si − s)] = 0 . i Es gilt σ b2 = R(b a, bb) . Bei normalverteilten Xi ergeben sich b a, bb auch als Maximum-LikelihoodSchätzungen, wobei die beiden Likelihood-Gleichungen zur Bestimmung von b a, bb mit den ob. Normalgleichungen äquivalent sind. Die Schätzfunktionen α, β mit α(x1 , . . . , xn ) := b a, β(x1 , . . . , xn ) := bb sind erwartungstreu, d.h. Eθ α(X1 , . . . , Xn ) = a (θ = (a, b, σ 2 ) ∈ R × R × R+ ) , Eθ β(X1 , . . . , Xn ) = b 85 und konsistent, d.h. — bei wahrem Parameter θ = (a, b, σ 2 ) — α(X1 , . . . , Xn ) → a nach Wahrscheinlichkeit (n → ∞) , β(X1 , . . . , Xn ) → b nach Wahrscheinlichkeit (n → ∞) . Letzteres gilt für β jedoch nur, wenn n P (si − s)2 → ∞ (n → ∞) . i=1 Satz 14.1 (Spezialfall des Satzes von Gauß-Markov). Die obigen Schätzfunktionen α, β sind unter allen (in x1 , . . . , xn ) linearen erwartungstreuen Schätzfunktionen für a bzw. b diejenigen mit der (bzgl. des Parameters θ = (a, b, σ 2 )) gleichmäßig kleinsten Varianz. 86 Kapitel 15 Bereichsschätzung Verwendet werden die unmittelbar vor §12 angegebenen Bezeichnungen. Während die in §13 eingeführte Punktschätzung δ(x) eine präzise Aussage, jedoch häufig δ(X) f.s. eine Fehlentscheidung liefert, stellt eine Bereichsschätzung C(x) eine Teilmenge des Parameterraumes dar, wobei C(X) mit einer vorgegebenen Mindestwahrscheinlichkeit 1 − α den zugrundeliegenden Parameter ϑ enthält. Eine Abbildung C : R → P(Θ) − {∅} [P(Θ) . . . Potenzmenge von Θ] wird als eine Bereichsschätzfunktion für ϑ(∈ Θ) zum Konfidenzniveau (Sicherheitswahrscheinlichkeit) 1 − α [0 < α < 1] oder als ein Konfidenzbereich für ϑ zum Niveau 1 − α bezeichnet, wenn für alle ϑ ∈ Θ die Wahrscheinlichkeit wϑ ({x ∈ R | C(x) 3 ϑ}) =Pϑ [C(X) 3 ϑ] (:=P [C(X) 3 ϑ] bei wahrem Par. ϑ) definiert ist und inf wϑ ({x ∈ R | C(x) 3 ϑ}) ≥ 1 − α ϑ∈Θ gilt. Die hierbei zu einer Beobachtung x ∈ R gehörige Bereichsschätzung C(x) heißt Konfidenzschätzung (oder Konfidenzbereich) zum Niveau 1 − α. 87 Wichtiger Spezialfall: Konfidenzintervall (Vertrauensintervall); bei einem Konfidenzintervall mit oberer Grenze ∞ wird die untere Grenze als untere Konfidenzschranke zum Niveau 1 − α bezeichnet. Zusammenhang zwischen Testtheorie und der Theorie der Konfidenzbereiche durch das folgende Dualitätsprinzip. Stichprobenraum (R, S), Parameterraum (Θ, U); α ∈ (0, 1). a) Sei C ein Konfidenzbereich zum Niveau 1 − α. Für jedes ϑ0 ∈ Θ läßt sich dann A(ϑ0 ) := {x ∈ R | C(x) 3 ϑ0 } als Annahmebereich eines (nichtrandomisierten) Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α auffassen. b) Für jedes ϑ0 ∈ Θ sei A(ϑ0 ) Annahmebereich eines (nichtrandomisierten) Tests für H0 : ϑ = ϑ0 gegen H1 : ϑ ∈ Kϑ0 (63 ϑ0 ) zum Niveau α. Dann ist C mit C(x) := {ϑ ∈ Θ | A(ϑ) 3 x}, x ∈ R, ein Konfidenzbereich zum Niveau 1 − α, falls ∀ C(x) 6= ∅. x∈R Üblicherweise Kϑ0 . . . Θ − {ϑ0 } oder {ϑ ∈ Θ | ϑ > ϑ0 } oder {ϑ ∈ Θ | ϑ < ϑ0 } oder {ϑ = (a, σ 2 ) ∈ R × (0, ∞) | a > a0 } usw. Beispiele. Unabhängige identisch verteilte reelle ZVn X1 , . . . Xn ; x = (x1 , . . . , xn ) beobachtete Realisierung von X = (X1 , . . . , Xn ); α ∈ (0, 1). C(x), u(x) . . . Konfidenzintervall bzw. untere Konfidenzschranke für ϑ zum Niveau 1 − α. a) PXi = N (ϑ, σ02 ) [Normalverteilung mit unbekanntem ϑ ∈ R, bekanntem σ02 ∈ (0, ∞)] h σ0 u α2 σ0 u α2 i σ0 uα C(x) = x − √ , x + √ bzw. u(x) = x − √ n n n n P 1 xi und uα . . . α-Fraktil von N (0, 1) (n ≥ 1). mit x := n i=1 88 b) PXi = N (ϑ, σ 2 ) [Normalvert. mit unbekanntem ϑ ∈ R, unbekanntem σ 2 ∈ (0, ∞)] h s s s i C(x) = x − tn−1; α2 √ , x + tn−1; α2 √ bzw. u(x) = x − tn−1;α √ n n n mit s2 := 1 n−1 n P (xi − x)2 und tn−1;α . . . α-Fraktil von tn−1 (n ≥ 2). i=1 89 Anhang A Begriffe und Sätze der Maß- und Integrationstheorie Sei (Ω, A, µ) ein Maßraum. Satz von der monotonen Konvergenz (B. Levi). Für erweitert reellwertige messbare Funktionen fn mit fn ≥ 0 (n ∈ N), fn ↑ f (n → ∞) R existiert lim fn dµ und es gilt n Z lim n Z fn dµ = lim fn dµ n Lemma von Fatou. Für jede Folge (fn ) von erweitert reellwertigen messbaren Funktionen mit fn ≥ 0 µ-f.ü. gilt Z Z lim inf fn dµ ≤ lim inf fn dµ Satz von der dominierten Konvergenz (Lebesgue). Für erweitertreellwertige messbare Funktionen fn (n ∈ N), f und g mit fn → f µ-f.ü. R (n → ∞), |fn | ≤ g µ-f.ü. für alle n und g dµ < ∞ existiert limn→∞ fn dµ und es gilt Z Z lim n→∞ fn dµ = 90 f dµ Definition. Das Maß µ heißt σ-endlich, wenn es ein Folge von Mengen An ∈ A (n ∈ N) gibt mit An ↑ Ω und µ(An ) < ∞. Ein Maß ν auf A heißt µ-stetig, falls ∀ µ(A) = 0 ⇒ ν(A) = 0. A∈A Satz von Radon-Nikodym. Messraum (Ω, A), σ-endliche Maße µ und ν auf A, ν sei µ-stetig. Dann existiert eine Funktion f : (Ω, A) → (R+ , B+ ) mit Z ν(A) = f dµ ∀ A∈A A f ist eindeutig bis auf Äquivalenz “=µ-f.ü.”. f ist die sog. Radon-Nikodym-Ableitung von ν nach µ und wird häufig dν kurz durch dµ angegeben. 91 Literaturverzeichnis [1] Bauer, H. Wahrscheinlichkeitstheorie; de Gruyter, Berlin (1990), 4. Aufl. [2] Bauer, H. Maß- und Integrationstheorie; de Gruyter, Berlin (1998), 2. Aufl. [3] Billingsley, P. Probability and Measure; Wiley, New York (1995), 3rd ed. [4] Capiński, M., Kopp, E. Measure Integral and Probability; Springer (2004), 2nd ed. [5] Dudley, R.M. Real Analysis and Probability; Cambridge University Press (2002), 2nd ed. [6] Elstrodt, J. Maß- und Integrationstheorie; Springer (2009), 6. Aufl. [7] Feller, W. An Introduction to Probability and Its Applications I,II; Wiley, New York (1970/71), 3rd ed./2nd ed. [8] Fisz, M. Wahrscheinlichkeitsrechnung und mathematische Statistik; VEB Deutscher Verlag der Wissenschaften, Berlin (1970), 5. Aufl. [9] Gänssler, P., Stute, W. Wahrscheinlichkeitstheorie; Springer, Berlin (1977). [10] Henze, N. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls; Vieweg+Teubner (2008), 7. Aufl. [11] Hesse, C. Wahrscheinlichkeitstheorie — Eine Einführung mit Beispielen und Anwendungen. Vieweg+Teubner (2009), 2. Aufl. 92 [12] Hinderer, K. Grundbegriffe der Wahrscheinlichkeitstheorie; Springer, Berlin (1985), 3. korr. Nachdruck. [13] Jacod, J., Protter, P. Probability Essentials. Springer, Berlin (2004), 2nd ed. [14] Kallenberg, O. Foundations of Modern Probability. Springer, New York (2001), 2nd ed. [15] Klenke, A. Wahrscheinlichkeitstheorie; Springer, Heidelberg (2006) [16] Krengel, U. Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg, Braunschweig (2003), 7. Aufl. [17] Loève, M. Probability Theory I,II; Springer, Berlin (1977/78), 4th ed. [18] Meintrup D., Schäffler S. Stochastik — Theorie und Anwendungen; Springer (2004). [19] Williams, D. Probability with Martingales; Cambridge University Press (1991). [20] Wengenroth, J. Wahrscheinlichkeitstheorie. De Gruyter (2008). [21] Williams, D. Weighing the Odds — A Course in Probability and Statistics; Cambridge University Press (2001). 93