Mathematik 3 für Informatiker Flavius Guiaş Email: [email protected] Universität Duisburg-Essen, Sommersemester 2007 2 Empfohlene Literatur: G. Hübner: Stochastik - Eine anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker, 4. Auflage, Vieweg, 2003 Kapitel 1 Einführung “Stochastik”: Beschreibung und Untersuchung von Vorgängen und Ereignissen aus allen Lebensbereichen, die zufällig oder vom Zufall beeinflusst, im Sinne von “nicht vorhersagbar” oder “nicht exakt vorhersagbar”. 1.1 Beschreibende Statistik -Auswertung von zufälligen Daten Definition 1.1 Die aus einer Beobachtung oder Messung aufgezeichneten Daten nennen wir einen Datensatz. Ist der Datensatz aufgrund einer gezielten Teil-Erhebung entstanden, sprechen wir auch von einer Stichprobe. Bezeichnung: x := (x1 , x2 , . . . xn ). Statistik: Komprimierung und/oder tabellarische bzw. grafische Darstellung der Daten. Ordnungsstatistik: der geordnete Datensatz x[ ] := (x[1] , x[2] , . . . x[n] ). Definition 1.2 (a) Der Mittelwert x̄ (oder x̄n ) eines Datensatzes x wird defin 1X niert durch x̄ = xi . n i=1 (b) Der Median x̃ von x ist beim ungeraden n x̃ = x[ n+1 ] , bei geradem n 2 1 n n x̃ = (x[ 2 ] + x[ 2 +1] ). 2 Ein erstes Maß für die Schwankung innerhalb eines Datensatzes sind die Prozentpunkte oder Quantile. Definition 1.3 Der p% Punkt (das p%-Quantil) up% eines Datensatzes hat die Eigenschaft, dass links (bzw. rechts) von up% höchstens p% (bzw. (100 − p)%) der Daten liegen. Ggf. wählt man die Mitte zwischen zwei Werten. 3 4 KAPITEL 1. EINFÜHRUNG Meistens benutzt man ein Paar von Quantilen (up% , u(100−p)% ) um ein Bereich anzugeben, in dem der Anteil (100 − 2p)% der Werte liegen. Die 25%-75% -Punkte heißen untere/obere Quartile. In dem Bereich (u25% , u75% ) liegen also 50% der Werte. Definition 1.4 Die Streuung (Standardabweichung) sx eines Datensatzes x = (x1 , x2 , . . . xn ) ist die quadratische gemittelte Abweichung der xi von x̄, also: v u n u1 X (xi − x̄)2 . sx = t n i=1 Andere Bezeichnungen: sn , σn . Durch Umformung erhält man auch die Formel: v ! u n u1 X sx = t x2 − nx̄2 . n i=1 i Für 2-dimensionale Datensätze z = ((x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )) für welche man einen linearen Zusammenhang yi ≈ a + bxi vermutet, sucht man eine Regressionsgerade. Satz 1.1 (Lineare Regression) Für einen 2-dimensionalen Datensatz z mit sx 6= 0, minimiert dieP Regressionsgerade y = a∗ + b∗P x mit a∗ = ȳ − b∗ x̄, b∗ = n n 1 2 sxy /sx und sxy = n ( i=1 xi yi − nx̄ȳ) die Summe i=1 (yi − (a + bxi ))2 der y-Abstandsquadrate. Kapitel 2 WahrscheinlichkeitsModelle 2.1 Die Modell-Bausteine Beispiel 2.1 Von einem Terminal soll ein Auftrag an den Zentralrechner abgeschickt werden. Die Antwortzeit soll modelliert werden, ohne dass Informationen über die momentane Auslastung des Zentralrechners vorliegen. Definition 2.1 Ein Zufalls-Experiment ist ein Vorgang, der ein genau abzugrenzendes Ergebnis besitzt, das vom Zufall beeinflusst ist. Ein mathematisches Modell dafür soll nur die unbedingt nötigen Angaben enthalten. Dabei sollen folgende Aspekte berücksichtigt werden: 1. Aspekt: mögliche Ergebnisse (Beobachtungen) 2. Aspekt: mögliche Fragestellungen 3. Aspekt: zugehörige Wahrscheinlichkeiten Es werden dazu drei Bausteine benötigt: 1. Baustein: Merkmalraum Ω 2. Baustein: Ereignissystem A 3. Baustein: Wahrscheinlichkeit P 5 6 2.2 KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE Der Merkmalraum Ω Im Beispiel 2.1kann man z.B. Ω = {1, 2, 3, . . . , 120} nehmen, wobei dem Element ω = i die Bedeutung “Antwortzeit beträgt ≤ i Sekunden”, zugewiesen wird. Ausnahme: ω = 120 bedeutet: “Antwortzeit ≥ 119 Sekunden”. Durch diese Erläuterungen wird somit auch eine Modellierungszuordnung eingeführt. Definition 2.2 Der Merkmalraum Ω (Stichprobenraum, Grundmenge) ist eine nicht-leere Menge mit Elementen ω ∈ Ω, welche die möglichen Ausgänge (Ergebnisse) des Zufalls-Experiments angibt. Beispiel 2.2 Wählen eines Telefonnummers: Ω = {“belegt00 , “f rei00 } oder Ω = {0, 1} mit der Zuordnung: 0 =00 belegt00 , 1 =00 f rei00 . Beispiel 2.3 Anzahl der Anrufe bei einer bestimmten Telefonnummer zwischen 8-9 Uhr. z.B. Ω = N0 = {0, 1, 2, . . . } oder Ω = {0, 1, 2 . . . 100} wobei ω = 100: “100 Anrufe oder mehr” bedeutet. Wie man in diesem Beispiel sieht (die erste Möglichkeit), wählt man manchmal Ω größer als nötig. Die in der Realität nicht auftretenden Werte erhalten dann die Wahrscheinlichkeit 0. 2.3 Zusammengesetzte Merkmale Beispiel 2.4 Überprüfung eines Bauteils mit drei Funktionen, jeweils “intakt” (1) oder “defekt” (0). Ω = {(0, 0, 0), (0, 0, 1), . . . (1, 1, 1)}, also Ω = {0, 1} × {0, 1} × {0, 1} = {0, 1}3 (kartesisches Produkt). Definition 2.3 Das kartesische Produkt (Kreuzprodukt) Ω1 × Ω2 × · · · × Ωn der Mengen Ω1 , Ω2 , . . . , Ωn ist die Menge Ω = {(ω1 , ω2 , . . . ωn ) | ωi ∈ Ωi }. Bezeichnung: ×ni=1 Ωi . Falls Ωi = Ω, ∀i : Ωn . 2.4 Ereignisse Im Beispiel 2.1 wird meist nicht gefragt, ob die Antwortzeit z.B. genau 10 Sekunden beträgt, sondern ob die Antwort innerhalb von höchtens 10 Sekunden erfolgt. Definition 2.4 Ein Ereignis A ist eine Teilmenge A ⊆ Ω. “A tritt ein” ⇔ es wird ein Merkmal ω mit ω ∈ A beobachtet. 2.4. EREIGNISSE 7 Im Beispiel 2.1: A = {1, 2, . . . 10}. Falls ω = 5 gilt ω ∈ A, also A tritt ein (Antwortzeit in ≤ 10 Sekunden). Nicht immer sind alle Teilmengen A ⊂ Ω als Ereignisse sinnvoll. Deswegen erfolgt eine Auswahl gewisser Teilmengen (Ereignis-System A). Besondere Ereignisse: A = ∅: unmögliches Ereignis, weil ω ∈ ∅ nie eintritt. A = Ω: tritt immer ein. A = {ω} für ω ∈ Ω: Elementar-Ereignis. Ein Ereignis-System A ⊆ P(Ω) (Potenzmenge von Ω, d.h. Gesamtheit aller Teilmengen) erfüllt also die Eigenschaften: Für A, B ∈ A gilt: “A oder B oder beide” entspricht ω ∈ A ∪ B “A und B” entspricht ω ∈ A ∩ B “A, B treten nie gleichzeitig ein” entspricht A ∩ B = ∅ “A tritt nicht ein” entspricht ω ∈ Ac ⇔ ω ∈ /A “A tritt ein, B jedoch nicht” entspricht ω ∈ A \ B = A ∩ B c “mindestens ein Ai tritt ein” entspricht ω ∈ ∪∞ i=1 Ai “alle Ai treten ein” entspricht ω ∈ ∩∞ i=1 Ai Die letzten beiden Eigenschaften gelten natürlich auch für endlich viele Ai . Falls P A, B disjunkt (A ∩ B = ∅), schreiben wir auch A + B statt A ∪ B. ∞ ∞ Analog i=1 Ai statt ∪i=1 Ai . Die Verwendung dieser Bezeichnung bedeutet also implizit dass die Mengen paarweise disjunkt sind. “A oder B tritt ein, aber nicht beide” entspricht also ω ∈ A∆B = A ∩ B c + Ac ∩ B. Rechenregeln mit Mengen: A∪B =B∪A A∩B =B∩A (A ∪ B) ∪ C = A ∪ (B ∪ C) = A ∪ B ∪ C (A ∩ B) ∩ C = A ∩ (B ∩ C) = A ∩ B ∩ C A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) Regeln von de Morgan: (A ∪ B)c = Ac ∩ B c bzw. (∪i∈I Ai )c = ∩i∈I Aci (A ∩ B)c = Ac ∪ B c bzw. (∩i∈I Ai )c = ∪i∈I Aci Definition 2.5 Die Indikatorfunktion einer Menge A ⊆ Ω ist die Abbildung 1A : Ω → {0, 1} mit 1, ω ∈ A 1A (ω) = 0, ω ∈ /A Die Zuordnung zwischen der Menge A und der Indikatorfunktion 1A ist eindeutig. Dadurch werden Mengenverknüpfungen zu Rechenoperationen: 1A∩B = min(1A , 1B ) = 1A · 1B 1A∪B = max(1A , 1B ) = 1A + 1B − 1AB 1Ac = 1 − 1A 1A\B = 1A (1 − 1B ) = 1A − 1AB . 8 KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE 2.5 Das Ereignis-System A Prinzipien für die Wahl eines Ereignissystems: 1. Die Verknüpfung von Ereignissen (Vereingigung, Durchschnitt, Komplement) ist wieder ein Ereignis. Definition 2.6 Ein System A von Teilmengen der Menge Ω heißt σ-Algebra über Ω wenn gilt: 1. Ω ∈ A 2. Ac ∈ A, falls A ∈ A 3. ∪∞ i=1 Ai ∈ A, falls Ai ∈ A. Bemerkungen: • nach den Regeln von de Morgan gilt auch: ∩ni=1 Ai ∈ A, falls Ai ∈ A. • P(Ω) ist eine σ-Algebra. Ab jetzt wird stets vorausgesetzt, dass das Ereignis-System A stets eine σ-Algebra ist. 2. Man legt zunächst fest, welche Ereignisse mindestens ins A liegen sollen. A wird dann als die kleinste σ-Algebra, die diese Mengen enthält, definiert. Definition 2.7 Für ein System von Teilmengen E ⊆ P(Ω) heißt die kleinste σ-Algebra die E enthält, die von E erzeugte σ-Algebra. Bezeichnung: A(E). Folgerung 2.1 Falls Ω abzählbar ist, so erzeugt das System der Elementarereignisse E = {{ω} : ω ∈ Ω} die Potenzmenge P(Ω). Definition 2.8 Sei G1 = {(a, b] : a, b ∈ R, a ≤ b} die Menge der halb-offenen Intervalle in R. Die σ-Algebra B = A(G1 ) heißt Borel σ-Algebra über R. Die Elemente aus B heißen auch Borel-Mengen. Bemerkungen: • Alternativ kann man B als A(G0 ) definieren, für G0 = {(a, b) : a, b ∈ R, a ≤ b}. • zu B gehören alle in der Praxis vorkommenden Mengen, z.B. {a} = ∩∞ n=1 (a− 1/n, a], oder (−∞, a] = ∪∞ (a − n, a]. n=1 Definition 2.9 Seien a = (a1 , . . . , an ), b = (b1 , . . . , bn ), a, b ∈ Rn mit ai ≤ bi für alle i (kurz: a ≤ b). Das n-dimensionale Intervall (a, b] wird definiert als (a, b] = {x ∈ Rn : ai ≤ xi ≤ bi }. Durch Gn bezeichnet man das System dieser Intervalle. 2.6. DARSTELLUNG VON EREIGNISSEN DURCH ZUFALLSVARIABLE 9 Definition 2.10 B n := A(Gn ) heißt Borel-σ-Algebra über Rn . Auch in diesem Fall enthält B n alle in der Praxis vorkommenden Mengen in Rn : Einpunktmengen, Kurven, Flc̈hen, Körper, usw. 2.6 Darstellung von Ereignissen durch Zufallsvariable Im Beispiel 2.1 kann man das Ereignis A :=”die Antwort erfolgt von innherhalb höchstens 10 Sekunden” auch in einer anderer Weise ausdrücken: Z :=”Antwortzeit” A :=”Z ≤ 10”. Die Antwortzeit Z ist hier eine zufällige Größe (unbekannt vor der Durchführung des Versuchs), oder Zufallsvariable (ZV). Formal ordnet eine ZV jedem Ausgang des Versuchs einen Wert zu. Definition 2.11 Sei X : Ω → Ω0 eine Abbildung und A0 ⊆ Ω0 . Dann definiert man {X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 }. (2.1) Ein Ereignis der Form {X ∈ A0 } heißt durch X beschreibbar. Im Allgemeinen, falls A 6= P(Ω) ist nicht jede Menge der Form {X ∈ A0 } ein Ereignis (d.h. ∈ A). Deswegen folgende Definition 2.12 Eine Zufallsvariable (ZV) ist eine Abbildung X : (Ω, A) → (Ω0 , A0 ) mit der Eigenschaft {X ∈ A0 } ∈ A, für alle A0 ∈ A0 . (2.2) (A, A0 sind Ereignissysteme auf Ω bzw. Ω0 ). 2.7 Relative Häufigkeit und Wahrscheinlichkeit Beispiel: Bei einer großen Anzahl n von Wiederholungen eines Münzwurfs, stellt man fest, dass die relativen Häufigkeiten von “Kopf” bzw. “Zahl” sich dem Wert 1/2 nähern. Empirisches Gesetz der großen Zahlen: • n Wiederholungen eines Zufallsexperiments mit mögliche Ergebnisse {x1 , . . . , xn }. • hn (A) = { Anzahl xi : xi ∈ A} (relative Häufigkeit von A). n • dann gilt hn (A) →n→∞ P (A) (Wahrscheinlichkeit von A). 10 KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE Andere Möglichkeiten um Wahrscheinlichkeiten zu berechnen sind Symmetrieüberlegungen. Beim Münzwirf sollten “Kopf” und “Zahl” die gleiche Wahrscheinlichkeit, d.h. 1/2 besitzen. Eigenschaften die Eine Wahrscheinlichkeit P erfüllen soll: (1) P (A) ≥ 0 (1’) P (A) ≤ 1 (2) P (Ω) = 1 (2’) P (∅) = 0 (3) P (A1 + A2 ) = P (A1 ) + P (A2 ) (Additivität) (3n ) P (A1 + · · · + An ) = P (A1 ) + · · · + P (An ) (endliche Additivität) (3’) P (A1 + A2 + . . . ) = P (A1 ) + P (A2 ) + . . . (σ-Additivität) Bemerkung: Es genügt (1), (2), (3’) zu fordern; alle andere können daraus hergeleitet werden. Definition 2.13 Eine Abbildung P : A → R, wobei A eine σ-Algebra über Ω ist, heißt Wahrscheinlichkeitsmaß (W-Maß ) auf A, wenn die folgenden drei Bedingungen erfüllt sind: (1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität) (2) P (Ω) = 1 (Normiertheit) P∞ P∞ (3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität) • diese drei Bausteine (Ω, A, P ) bilden ein Wahrscheinlichkeitsraum (WRaum) oder Wahrscheinlichkeitsmodell (W-Modell). • zur Vereinfachung der Schreibweise benutzen wir die Notation P (X ∈ A0 ) anstatt P ({X ∈ A0 }). Im folgenden werden drei einfache Klassen von Wahrscheinlichkeitsmodellen vorgestellt. Definition 2.14 Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt Bernoulli-Experiment. Als Merkmalraum benutzt man Ω = {0, 1} und bezeichnet ω = 1 als “Erfolg” und ω = 0 als “Misserfolg”. Das W-Modell (Ω, A, P ) mit Ω = {0, 1}, A = P(Ω) und P gegeben durch P ({1}) = p, P ({0}) = 1 − p mit p ∈ [0, 1] heißt Bernoulli-Modell, das W-Maß P heißt Bernoulli-Verteilung mit Parameter p (kurz: B(p)). Beispiel: Münzwurf. Definition 2.15 Ein Zufallsexperiment mit endlich vielen und gleichwertigen Ausgängen heißt Laplace-Experiment. Als Merkmalraum wählt man z.B. Ω = {1, 2, . . . N }. Das W-Maß P auf A = P(Ω) ergibt sich durch P ({1}) = P ({2}) = · · · = P ({N }) = 1/N . Für die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A gilt dann P (A) = Anzahl der günstigen Fälle |A| = , |Ω| Anzahl der möglichen Fälle 2.8. EIGENSCHAFTEN VON WAHRSCHEINLICHKEITSMASSEN 11 wobei |A| die Anzahl der Elemente aus A bezeichnet. Das W-Maß P heißt Laplace-Verteilung oder diskrete Gleichverteilung über Ω (kurz: L(Ω)). Beispiele: Münzwurf, Würfelwurf. Definition 2.16 Sei Ω ein Merkmalraum, A ein Ereignis-System über Ω und a ∈ Ω ein festes ausgewähltes Ergebnis. Dann heißt das W-Maß P definiert durch P (A) = 1, falls a ∈ A und P (A) = 0, sonst, die Einpunktverteilung im Punkt a (kurz: P = εa ). 2.8 Eigenschaften von Wahrscheinlichkeitsmaßen (1) P (A) ≥ 0 für alle A ∈ A (Nichtnegativität) (2) P (Ω) = 1 (Normiertheit) P∞ P∞ (3’) P ( i=1 Ai ) = i=1 P (Ai ) (σ-Additivität) (4) P (Ac ) = 1 − P (A) (5) P (A \ B) = P (A) − P (AB) (6) P (A ∪ B) = P (A) + P (B) − P (AB) (7) P (A ∪ B) ≤ P (A) + P (B) (Subadditivität) (8) A ⊆ B ⇒ P (A) ≤ P (B) (9) A1 ⊆ A2 ⊆ · · · ⇒ P (∪∞ i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von unten) (10) A1 ⊇ A2 ⊇ · · · ⇒ P (∩∞ i=1 Ai ) = limi→∞ P (Ai ) (Stetigkeit von oben). Definition 2.17 Ein Maß auf A ist eine Abbildung µ : A → R ∪ {+∞} mit den Eigenschaften: (1) µ(A) ≥ 0 (2’) µ(∅) = 0 (3’) µ(A1 + A2 + . . . ) = µ(A1 ) + µ(A2 ) + . . . . 2.9 Elementare bedingte Wahrscheinlichkeiten Definition 2.18 Seien A, B Ereignisse in Ω und sei P (B) > 0. Dann heißt P (A|B) := P (AB) P (B) (2.3) die bedingte Wahrscheinlichkeit von A unter (der Bedingung) B, und es gilt P (AB) = P (B) · P (A|B). (2.4) Die obige Gleichung gilt auch im Fall P (B) = 0. Eigenschaften der bedingten Wahrscheinlichkeiten: • Verkettungsregel: P (ABC) = P (A) · P (B|A) · P (C|AB) (2.5) 12 KAPITEL 2. WAHRSCHEINLICHKEITS-MODELLE • Formel von der totalen Wahrscheinlichkeit: X X P (A) = P (ABi ) = P (Bi ) · P (A|Bi ) i∈I (2.6) i∈I (I ist eine abzählbare Indexmenge). • Bayes-Umkehrformel P (Bk ) · P (A|Bk ) P (Bk ) · P (A|Bk ) . = P (A) P (B ) · P (A|B ) i i i∈I P (Bk |A) = P (2.7) Definition 2.19 Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn gilt: P (AB) = P (A) · P (B). (2.8) Somit gilt P (A|B) = P (A), d.h. die W-keit von A wird durch B nicht beeinflusst. Definition 2.20 Die Ereignisse A1 , A2 , . . . An in einem W-Raum (Ω, A, P ) heißen stochastisch unabhängig, wenn für alle endlichen Teilmengen {Ai1 , Ai2 , . . . Aik } von diesen Ereignissen die “Produktformel” gilt: P (Ai1 Ai2 . . . Aik ) = P (Ai1 )P (Ai2 ) . . . P (Aik ). (2.9) Bemerkung: Die paarweise stochastische Unabhängigkeit von mehr als zwei Ereignissen impliziert nicht notwendigerweise deren allgemeine stochastische Unabhängigkeit. Kapitel 3 Darstellung von Wahrscheinlichkeitsmaßen • Zähldichten (für diskrete Modelle) • Riemann-Dichten (für stetige Modelle) • Verteilungsfunktionen 3.1 Diskrete W-Maße und Zähldichten Für diskrete Modelle ist es ausreichend, die Wahrscheinlichkeiten nur für die Einpunktmengen festzulegen. Die Wahrscheinlichkeiten der anderen Mengen werden daraus hergeleitet. Satz 3.1 Es sei Ω ein abzählbarer Merkmalraum. Das Ereignis-System sei A = P(Ω). (a) Ist P ein W-Maß über (Ω, A) und definiert man f (ω) := P ({ω}) für ω ∈ Ω, dann gilt: X f (ω) = 1 (3.1) f (ω) ≥ 0, (ω ∈ Ω), ω∈Ω und P (A) = X f (ω), (A ∈ A). (3.2) ω∈A (b) Umgekehrt wird durch jede Abbildung f : Ω → R mit der Eigenschaft (3.1) durch die Vorschrift (3.2) ein W-Maß P auf A definiert, für das P ({ω}) = f (ω) gilt, für alle ω ∈ Ω. In beiden Fällen nennt man die Abbildung f eine Zähldichte (Z-Dichte) von P. Beispiele von Z-Dichten: 13 14KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN Definition 3.1 (Binomialverteilung) Aus der binomischen Formel n X n k n−k n (p + q) = p q , p, q ∈ [0, 1], p + q = 1 k (3.3) k=0 erhält man die Binomial-Z-Dichte f (k) = b(n, p; k) := nk pk q n−k über Ω = {0, 1, . . . , n}. Das zugehörige W-Maß nennt man Binomialverteilung B(n, p). Definition 3.2 (geometrische Verteilung) Aus der geometrischen Reihe 1 + q + q 2 + · · · = (1 − q)−1 mit q ∈ (0, 1) erhält man die geometrische Z-Dichte f (k) = (1 − q)q k über Ω = {0, 1, 2, . . . }. Das zugehörige W-Maß nennt man auch geometrische Verteilung. P∞ k (Poisson-Verteilung) Aus der Exponential-Reihe eλ = k=0 λk! ergibt sich die Z-Dichte f (k) = e−λ λk /k!, k ∈ Ω = {0, 1, 2, . . . } (λ > 0). Das zugehörige W-Maß heißt Poisson-Verteilung π(λ). Definition 3.3 Für einen Datensatz x = (x1 , . . . , xn ) mit Werten in Ω ∈ R heißt die relative Häufigkeit A 7→ hn (A) := n1 · (Anzahl der xi mit xi ∈ A) auch Pn empirische Verteilung von x. Sie besitzt die Z-Dichte fˆn (x) := n1 i=1 1xi (x), x ∈ Ω. Die empirische Verteilung von x beschreibt das zufällige Ziehen eines Wertes xi aus dem Datensatz. Genauer beschrieben, wird dadurch ein zufälliger Index i gemäß der Laplace-Verteilung über {1, 2, . . . n} ausgewählt. Definition 3.4 (diskretes W-Maß mit Träger T) Sei T eine abzählbare Teilmenge von Ω Pund f : Ω → R eine Abbildung mit f ≥ 0, wobei f (ω) = 0 für alle ω∈ / T und ω∈T P f (ω) = 1. Dann heißt f eine Zähldichte über Ω mit Träger T . Durch P (A) = ω∈A∩T f (ω) wird damit auf einer beliebigen σ-Algebra über Ω ein sogenanntes diskretes W-Maß P erzeugt. 3.2 Stetige W-Maße und Riemann-Dichten Betrachte den Raum (R, B). Definition 3.5 Eine Riemann-integrierbare Funktion Z +∞ f : R → R mit f (x) ≥ 0 (x ∈ R) und f (x)dx = 1 (3.4) −∞ heißt Riemann-Dichte über R (R-Dichte). Jede R − Dichte definiert eindeutig ein W-Maß P über (R, B) durch Z b P ((a, b]) = P ([a, b]) = f (x)dx. (3.5) a Es gilt zusätztlich P ({a}) = 0 für alle a ∈ R. 3.2. STETIGE W-MASSE UND RIEMANN-DICHTEN 15 Die Fortsetzung des W-Maßes P von dem Erzeuger G1 auf der ganzen σAlgebra B erfolgt durch folgenden Satz. Satz 3.2 Ist P auf einem geeigneten Erzeuger E von A festgelegt und auf E nicht-negativ, σ-additiv und normiert, dann gibt es eine eindeutige Fortsetzung von P auf A. Beispiele von R-Dichten: Definition 3.6 (Rechteck-Verteilung) Ist f (x) = 1/(b − a) für a < x < b und f (x) = 0 sonst, dann ist f eine R-Dichte über Ω = R. Das zugehörige Maß heißt stetige Gleichverteilung oder Rechteck-Verteilung R(a, b). Bei der R(a, b)-Verteilung hat jedes Intervall [c, d] ⊂ [a, b] die Wahrscheinlichkeit (d − c)/(b − a) (proportional zu dessen Länge). Die Rechteck-Verteilung verhält sich also analog zu der diskreten Laplace-Verteilung, wo die Wahrscheinlichkeiten der Teilmengen proportional zur Anzahl deren Elemente sind. Definition 3.7 (Exponential-Verteilung) Ist α > 0 und αe−αx für x > 0 −αx f (x) = αe 1(0,∞) (x) = , 0 für x ≤ 0 (3.6) dann ist f eine R-Dichte. Das zugehörige W-Maß heißt Exponential-Verteilung Exp(α). Definition 3.8 (Normal-Verteilung) Für jeden Wert a ∈ R und σ > 0 ist f (x) = (x−a)2 1 √ e− 2σ2 , x ∈ R σ 2π (3.7) eine R-Dichte. Das zugehörige W-Maß heißt Normalverteilung (mit dem Mittelwert a und der Streuung σ) N (a, σ 2 ). Im Speziallfall a = 0 und σ = 1 spricht man von der Standard-Normalverteilung N (0, 1). Deren Dichte ist gegeben durch: x2 1 φ(x) = √ e− 2 , x ∈ R. 2π (3.8) Definition 3.9 (Gamma-Verteilung) Das W-Maß Γα,ν mit α > 0, ν > 0 und der R-Dichte αν ν−1 −αx x e für x > 0, sonst = 0, (3.9) Γ(ν) R∞ heißt Gamma (α, ν)-Verteilung. Dabei ist Γ(ν) = 0 uν−1 e−u du die Gamma√ Funktion, welche die Eigenschaften: Γ(ν + 1) = ν · Γ(ν), Γ(1/2) = π und Γ(ν + 1) = ν! für ν = 1, 2, . . . besitzt. Es gilt zusätzlich Γα,1 = Exp(α). γα,ν (x) := 16KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN Definition 3.10 (Beta-Verteilung) Das W-Maß Be(µ, ν) mit µ, ν > 0 und der R-Dichte beµ,ν (x) := Γ(µ + ν) µ−1 x (1 − x)ν−1 für x ∈ (0, 1), sonst = 0 Γ(µ)Γ(ν) (3.10) heißt Beta(µ, ν)-Verteilung. Speziell gilt Be(1, 1)=R(0, 1). Wenn man auf die Normiertheit verzichtet, kann man auch allgemeine Maße über (R, B) mithilfe von R-Dichten definieren. Z.B. erzeugt die konstante RDichte 1 das sogenannte Lebesgue-Maß λ, welche die Längenmessung auf R beschreibt: λ([a, b]) = b − a. Analog wie auf R kann man n-dimensionale R-Dichten definieren. n Definition 3.11 Eine n-dimensionale R Riemann-integrierbare Funktion f : R → n R mit f (x) ≥ 0 für x ∈ R und Rn f (x)dx = 1 heißt Riemann-Dichte (Rn n Dichte) in Rn . Auch hier ergibt sich eindeutig ein W-Maß R P über (R , B ) das n für Ereignisse A ∈ B als Riemann-Integral P (A) = A f (x)dx ausgewertet werden kann. Beispiel: Stetige Gleichverteilung über einem (geeigneten) Gebiet G ⊂ Rn R R mit G dx < ∞. Die R-Dichte f ist dabei konstant, gleich ( G dx)−1 auf G und gleich 0 sonst. Für Ereignisse A gilt dann: R Z dx R PG (A) = f (x)dx = A∩G . (3.11) dx A G Analog zum eindimensionalen Lebesgue-Maß kann man über Rn das ndimensionale Lebesgue-Maß λn durch die konstante R-Dichte 1 definieren. Diese beschreibt das n-dimensionale Volumen der Teilmengen von Rn . Damit kann man die Formel (3.11) auch als PG (A) = λn (A ∩ G) λn (G) schreiben. 3.3 Verteilungsfunktionen Definition 3.12 Ist P ein beliebiges W-Maß über (R, B), dann heißt die Abbildung F : R → R mit F (x) := P ((−∞, x]), x ∈ R, (3.12) die Verteilungsfunktion (VF) von P . Aus (3.12) erhält man die Darstellung P ((a, b]) = F (b) − F (a), a, b ∈ R, a ≤ b. (3.13) 3.3. VERTEILUNGSFUNKTIONEN 17 Falls das W-Maß P eine R-Dichte f besitzt, so gilt Z x Z b F (x) = f (t)dt und P ((a, b]) = f (t)dt = F (b) − F (a). −∞ (3.14) a Beispiele: a) Die VF der Rechteckverteilung R(a, b) ist x≤a 0, (x − a)/(b − a), a ≤ x ≤ b F (x) = 1, x ≥ b. b) Die VF der Exp(α)-Verteilung ist 0, x≤0 F (x) = 1 − e−αx , x ≥ 0. c) Für die Normalverteilung N (a, σ 2 ) lässt sich die VF nicht durch eine geschlossene Formel ausdrücken, sondern nur numerisch berechnen. Dafür reichen die Werte der VF der Standard-Normalverteilung aus, denn der allgemeine Fall kann man auf die VF der N (0, 1)-Verteilung zurückführen. Sei Z x 2 1 √ e−t /2 dt (3.15) Φ(x) = 2π −∞ die VF der Standard-Normalverteilung. Dann ist die VF der N (a, σ 2 )-Verteilung gegeben durch Z x 2 2 x−a 1 √ e−(t−a) /2σ dt = Φ( ). (3.16) Fa,σ2 (x) = σ σ 2π −∞ d) Die VF der Γα,n -Verteilung für n ∈ N ist gegeben durch ! n−1 X e−αx (αx)k /k! 1[0,∞) (x), x ∈ R. Fα,n (x) = 1 − (3.17) k=0 e) Die VF einer diskreten Verteilung mit Träger T und Z-Dichte f ist gegeben durch X F (x) = P ((−∞, x]) = f (t), x ∈ R. (3.18) t∈T,t≤x Bemerkung: In diesem Fall besitzt das W-Maß P keine R-Dichte. Die VF ist unstetig in den Punkten aus T und die Höhe der Sprünge entspricht genau dem Wert der Z-Dichte f in diesen Punkten. f) Die VF der empirischen Verteilung aus Definition 3.3 ist gegeben durch n 1X Fbnx := 1[x ,∞) (x), x ∈ R. n i=1 i (3.19) Es gibt auch W-Maße, die sowohl diskrete als auch stetige Anteile besitzen. 18KAPITEL 3. DARSTELLUNG VON WAHRSCHEINLICHKEITSMASSEN Definition 3.13 Hat das W-Maß P über R die Darstellung P (A) = αd Pd (A) + αs Ps (A), A ∈ B, (3.20) mit einer diskreten Verteilung Pd , einer stetigen Verteilung Ps (mit R-Dichte) und Gewichten αs , αd ∈ [0, 1], αs + αd = 1, dann heißt P eine gemischte Verteilung. Beispiel: Eine Glühlampe sei beim Einschalten mit einer Wahrscheinlihckeit vin 10% defekt und nach 500 Stunden werde sie grundsätzlich ausgetauscht, weil im Mittel nur 40% der Glühlampen diese 500 Stunden überleben. Dazwischen sei die Lebensdauer der Glühlampe gleichverteilt. Für dieses Modell gilt: P ({0}) = 0.1, P ({500}) = 0.4, αd = P ({0}) + P ({500}) = 0.5. Pd ist eine Zweipunktverteilung mit Pd ({0}) = P ({0})/αd = 0.2, Pd ({500}) = P ({500})/αd = 0.8. αs = 1 − αd = 0.5, Ps ist die Rechteckverteilung R(0, 500). Eigenschaften von Verteilungsfunktionen: Folgerung 3.1 Ist F die VF eines W-Maßes P über (R, B), dann gilt: (1) F ist nicht monoton fallend. (2) F (−∞) := limx→−∞ F (x) = 0, F (∞) := limx→∞ F (x) = 1. (3) F ist rechtsseitig stetig: limh↓0 F (x + h) = F (x), x ∈ R. (4) F besitzt linksseitige Grenzwerte: F (x−) := limh↓0 F (x−h) = P ((−∞, x)), x ∈ R. (5) Für Einpunktmengen {x} gilt: P ({x}) = F (x) − F (x−), x ∈ R. Jeder Abbildung F mit den Eigenschaften (1)-(5) kann man eindeutig ein W-Maß P über (R, B) durch P ((−∞, x]) := F (x) zuordnen. Die Erweiterung von P auf B erfolgt durch den Fortsetzungssatz. Kapitel 4 Mehrstufige W-Modelle, Koppelung 4.1 Koppelung diskreter W-Modelle Beispiel: (“Ziehen ohne Zurücklegen”) Aus 100 Werkstücken sind 10 defekt. Wieviel beträgt die Wahrscheinlichkeit, dass zwei zufällig entnommene Stücke defekt sind? Betrachte die Zuordnung: 0=”defekt”, 1=”intakt” und die Ereignisse A1 :=”das erste gezogene Stück ist defekt”, A2 :=”das zweite gezogene Stück ist defekt” und A :=”beide gezogenen Sücke sind defekt”. 10 9 1 1 1 Dann gilt P (A) = P (A1 ∩ A2 ) = P (A1 )P (A2 |A1 ) = 100 · 99 = 10 · 11 = 110 . Dieses Zufallsexperiment kann man auch durch folgendes Baumdiagramm darstellen: Start 1 10 0 @ 1 0,0 1 1 10 · 11 @ 9 @ 10 R @ 1 @ 10 10 11 11 @ @ R 0,1 1 10 10 · 11 19 89 99 99 @ @ R 1,0 9 10 10 · 99 1,1 9 89 10 · 99 20 KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG Ein Zufallsexperiment mit mehreren Merkmalen wird auch mehrstufiger Versuch gennannt. Der (diskrete) Merkmalraum hat dabei die Form Ω = Ω1 × · · · × Ωn . Die Konstruktion erfolgt folgendermaßen: Wird bei n Merkmalen ω1 , . . . ωn mit ωi ∈ Ωi die Wahrscheinlichkeit der Merkmale stufenweise in Abhängigkeit von den vorangehenden Ergebnissen bewertet, und zwar durch ω1 7→ f1 (ω1 ), eine Z-Dichte, ω2 7→ f21 (ω1 ; ω2 ), eine von ω1 abhängige Z-Dichte ω3 7→ f32 (ω1 , ω2 ; ω3 ), eine von (ω1 , ω2 ) abhängige Z-Dichte, usw., dann wird der Gesamtversuch bewertet durch die Z-Dichte (ω1 , . . . , ωn ) 7→ f (ω1 , . . . , ωn ) := f1 (ω1 )f21 (ω1 ; ω2 ) . . . fnn−1 (ω1 , . . . , ωn−1 ; ωn ). (4.1) Die Abbildung f ist eine Z-Dichte auf Ω, denn fii−1 (ω1 , . . . ωi−1 ; ωi ) ≥ 0 und X fii−1 (ω1 , . . . , ωi−1 ; ωi ) = 1. (4.2) ωi ∈Ωi Definition 4.1 (a) Die in der obigen Konstruktion benutzten abhängigen ZDichten fii−1 (ω1 , . . . ωi−1 ; ωi ) heißen Übergangszähldichten (ÜZ-Dichten)von Ω1 × · · · × Ωi−1 nach Ωi . Die jeweils vorausgehenden Beobachtungen (ω1 , . . . ωi−1 ) nennt man Vorgeschichte zur Stufe i. (b) Die durch (4.1) definierte Gesamtdichte f wird als Koppelung von f1 , f21 , . . . fnn−1 bezeichnet und man schreibt kurz f = f1 ⊗ f21 ⊗ · · · ⊗ fnn−1 . (4.3) Bemerkung: Zu jeder ÜZ-Dichte fii−1 gehört ein von ω1 , . . . , ωi−1 abhängiges W-Maß Pii−1 , genannt auch Übergangs-W-Maß (ÜW-Maß). Das zur Gesamt-ZDichte f gehörige W-Maß P wird dann mit P = P1 ⊗P21 ⊗· · ·⊗Pnn−1 bezeichnet. 4.2 Koppelung stetiger W-Modelle Die obige Konstruktion im Falle diskreter Modelle kann man auch auf stetige W-Modelle übertragen. Dabei treten die Übergangs-Riemann-Dichten (ÜRDichten) fii−1 (x1 , . . . , xi−1 ; xi ) auf, welche für jede feste Vorgeschichte (x1 , . . . , xi−1 ) gewöhnliche R-Dichten in der Variable xi sind. Dabei muß sichergestellt werden, dass die Gesamt-Dichte f = f1 ⊗ f21 · · · ⊗ fnn−1 definiert durch f (x1 , . . . , xn ) := f1 (x1 )f21 (x1 ; x2 ) . . . fnn−1 (x1 , . . . , xn−1 ; xn ) (4.4) im Rn Riemann-integrierbar ist. Man kann beide Arten von Modellen kombinieren, indem man auf gewisse Stufen diskrete Verteilungen (Z-Dichten) angibt und auf andere stetige Verteilungen (R-Dichten). 4.3. UNABHÄNGIGE KOPPELUNG 4.3 21 Unabhängige Koppelung Beispiel: Wenn man im dem Beispiel aus 4.1 die zu prüfenden Werkstücken aus verschiedenen “Losen” zieht, sind die entsprechenden Ereignisse unabhängig. Analog bei einem Verfahren mit Ziehen mit Zurücklegen aus einer Urne oder bei mehrfachen, unabhängigen Wiederholungen eines Zufallsexperiments (z.B. Würfeln). Definition 4.2 Hängen bei einem mehrstufigen Versuch die ÜZ-Dichten oder ÜR-Dichten f21 , . . . fnn−1 nicht von den jeweiligen Vorgeschichten ab, so spricht man von unabhängiger Koppelung. Die Übergangs-Dichten sind dann einfache Z- oder R-Dichten f2 , . . . fn . Die Dichte f des Gesamtversuchs ist gegeben durch das Produkt der Einzeldichten: f (ω1 , . . . ωn ) = f1 (ω1 )f2 (ω2 ) . . . fn (ωn ) (4.5) In diesem Fall bezeichnet man f als Produkt-Dichte. Folgerung 4.1 (Produktformel) In einem n-stufigen unabhängig gekoppelten W -Modell mit den einstufigen W-Maßen P1 , P2 , . . . Pn gilt für ein Produktereignis der Form A = A1 × · · · × An die Formel P (A) = P (A1 × · · · × An ) = P1 (A1 )P2 (A2 ) . . . Pn (An ). (4.6) Folgerung 4.2 (Ziehen mit Zurücklegen, n-faches Laplace-Experiment) Werden mehrere unabhängige Laplace-Experimente durchgeführt, dann ist der Gesamtversuch auch ein Laplace-Experiment. Die Z-Dichten der Einzelversuche sind fi (ωi ) = 1/|Ωi |, (ωi ∈ Ωi ) und die Gesamt-Dichte ist gegeben durch f (ω1 , . . . , ωn ) = 1 1 1 ... = mit Ω = Ω1 × · · · × Ωn . |Ω1 | |Ωn | |Ω| (4.7) Definition 4.3 (n-faches Bernoulli-Experiment) Die n-fache unabhängige Wiederholung eines Bernoulli-Experiments mit Parameter p heißt n-faches Bernoulli(p)-Experiment. Der Merkmalraum ist Ω = {0, 1}n und für die Z-Dichte f gilt f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k = n X ωi . (4.8) i=1 Das zugehörige W-Maß wird mit Bn (p) bezeichnet. Definition 4.4 Die n-fache unabhängige Koppelung von Standard-Normalverteilungen 2 N (0, 1) mit den R-Dichten fi (xi ) = φ(xi ) = √12π e−xi /2 heißt n-dimensionale Standard-Normalverteilung und besitzt auf Rn die Dichte n 2 2 1 1 f (x1 , . . . , xn ) = √ e− 2 (x1 +···+xn ) . (4.9) 2π 22 4.4 KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG Markov-Koppelung Definition 4.5 Hängen bei einem mehrstufigen Versuch die ÜZ- oder ÜRDichten nicht von der gesamten Vorgeschichte ab, sondern nur vom letzten beobachteten Wert: fii−1 (ω1 , . . . , ωi−1 ; ωi ) = fii−1 (ωi−1 ; ωi ), so spricht man von einer Markov-Koppelung. Die Folge der Beobachtungen bildet ein Markov-Prozess, im diskreten Fall auch Markov-Kette genannt. 4.5 Zufälliges Ziehen ohne Zurücklegen Beispiel: Es werden 6 Zahlen aus den Zahlen 1,2, . . . , 49 ohne Zurücklegen und mit Berücksichtigung der Reihenfolge gezogen. Das entsprechende Koppelungsmodell wird wie folgt beschrieben: Sei Ω1 = · · · = Ω6 = {1, . . . 49} und Ω = ×6i=1 Ωi = Ω61 . Dabei können in der Wirklichkeit nur Ergebnisse ω = (ω1 , . . . , ω6 ) vorkommen, bei denen alle ωi verschieden sind (weil nicht zurückgelegt wird). Die unmöglichen Ereignisse werden dann die W-keit =0 erhalten. 1 und Die Z-Dichte f1 für die erste Ziehung ergibt sich dann als f1 (ω1 ) = 49 1 1 1 für die ÜZ-Dichte f2 erhält man f2 (ω1 ; ω2 ) = 48 , falls ω1 6= ω2 , sonst =0 (es wird nur aus 48 verbleibenden Zahlen gezogen). Die weiteren ÜZ-Dichten sind 1 1 gegeben durch f32 (ω1 , ω2 ; ω3 ) = 47 , f43 (ω1 , ω2 , ω3 ; ω4 ) = 46 . . . , falls jeweils alle ωi verschieden sind und =0 sonst. Dabei ergibt sich das (vernachlässigbare) Problem, dass für feste, aber unmögliche Vorgeschichten die fii−1 (. . . ) keine Z-Dichten mehr sind. Für die Z-Dichte des Gesamtversuchs ergibt sich also: f (ω1 , . . . , ω6 ) = 1 1 1 1 1 1 · · · · · , falls alle ωi verschieden sind, sonst =0. 49 48 47 46 45 44 Setzen wir nun Ω6= := {ω ∈ Ω : ωi 6= ωj , i 6= j}, so definiert die Z-Dichte f eine Gleichverteilung (Laplace-Verteilung) auf dem Träger Ω6= ⊂ Ω. P Aus der Bedingung ω∈Ω6= f (ω) = 1 erhält man die Formel über die Anzahl der möglichen n-Permutationen aus N Objekten, d.h. die Anzahl der Möglichkeiten, mit Berücksichtigung der Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese Zahl ist gleich der Anzahl der Elemente aus Ω6= : |Ω6= | = N (N − 1)(N − 2) . . . (N − n + 1) := (N )n . (4.10) Für n = 0 definiert man (N )0 = 1. Speziell für N = n erhält man (n)n = n!. Beispiel: Wenn man 6 aus 49 Zahlen ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge zieht, kann man die Folge der 6 Zahlen als geordnet betrachten. Deswegen benutzt man den Merkmalraum Ω0 = {ω ∈ Ω : ω1 < ω2 < · · · < ω6 }. 4.5. ZUFÄLLIGES ZIEHEN OHNE ZURÜCKLEGEN 23 Weil jeder geordneten Folge ω 0 ∈ Ω0 genau 6! ungeordnete Folgen ω ∈ Ω6= entsprechen, ergibt sich für die Z-Dichte f 0 auf Ω0 die Beziehung f 0 (ω 0 ) = 6!f (ω 0 ) und damit f 0 (ω 0 ) = 6!/(49)6 für alle ω 0 . In diesem Fall liegt also auch eine Gleichverteilung vor. Durch diese Überlegungen erhält man die Anzahl der möglichen n-Kombinationen aus N Objekten, d.h. die Anzahl der Möglichkeiten, ohne Berücksichtigung der Reihenfolge und ohne Wiederholungen n aus N Objekten auszuwählen. Diese Zahl ist gleich der Anzahl der Elemente aus Ω0 : N (N )n =: . (4.11) |Ω0 | = n! n Beispiel: Aus N = 100 Werkstücken, davon K = 90 “intakt” (=1) und N − K = 10 “defekt” (=0) werden n = 5 Stücke ohne Zurücklegen entnommen. Als Merkmalraum wählt man Ω = {0, 1}5 . Für ω = (0, 1, 0, 1, 0) ∈ Ω erhält man die W-keit: f (0, 1, 0, 1, 0) = (90)2 (10)3 10 9 9 89 8 · · · · = . 100 99 98 97 06 (100)5 Allgemein erhält man die Z-Dichte f (ω1 , . . . , ωn ) = (K)k (N − K)n−k (N )n mit k := n X ωi . i=1 Die W-keit eines Ereignisses ω ∈ Ω hängt also nur von der Anzahl der beobachteten markierten Stücke ab und nicht von deren Reihenfolge. Für das Ereignis Bk :=”es werden k markierte Sücke gezogen” gibt es insn gesamt genau k Ergebnisse ω, die die oben angegeben W-keit besitzen. Aus P P (Bk ) = ω∈Bk f (ω) folgt also: n (K)k (N − K)n−k = P (Bk ) = k (N )n K k N −K n−k N n , 0 ≤ k ≤ n. (4.12) 24 KAPITEL 4. MEHRSTUFIGE W-MODELLE, KOPPELUNG Kapitel 5 Zufallsvariable und Bildmodelle 5.1 Zufallsvariable und messbare Abbildungen Definition 5.1 Eine Zufallsvariable (kurz: ZV) ist eine Abbildung vom Merkmalraum Ω in eine Bildmenge Ω0 . Ist A0 das Ereignissystem in Ω0 , dann wird für eine Zufallsvariable gefordert: {X ∈ A0 } ∈ A für alle A0 ∈ A0 . (5.1) Dabei ist {X ∈ A0 } := {ω ∈ Ω : X(ω) ∈ A0 } ein durch X beschreibbares Ereignis. Definition 5.2 Für jede Abbildung X heißt A := {X ∈ A0 } das Urbild von A0 . Man schreibt dafür auch X −1 (A0 ). Man beachte: X −1 ist eine Zuordnung von P(Ω0 ) nach P(Ω) (Mengenabbildung), genannt auch Urbildfunktion. Definition 5.3 Ein Paar (Ω, A) aus einer nicht-leeren Menge Ω und einer σAlgebra A über Ω heißt Messraum. Sind (Ω, A) und (Ω0 , A0 ) Messräume und X ist eine Abbildung von Ω nach Ω0 mit der Eigenschaft X −1 (A0 ) ∈ A für alle A0 ∈ A0 , (5.2) so sagt man: X ist messbar, genauer A − A0 -messbar. Folgerung 5.1 Die folgenden Arten von Abbildungen sind messbar (und damit Zufallsvariable): (a) alle Abbildungen Ω → Ω0 , falls A = P(Ω), (b) alle Indikatorfunktionen 1A mit A ∈ A, (c) alle stetigen (oder stückweise stetigen) Funktionen R → R oder Rk → Rn , falls A, A0 die entsprechenden Borelmengen sind. 25 26 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE (d) alle Vielfachen, Summen, Produkte, Quotienten (soweit definiert), Maxima und Minima von Zufallsvariablen, (e) alle Suprema, Infima und Grenzwerte von Folgen von Zufallsvariablen, (f ) alle messbaren Funktionen von Zufallsvariablen. 5.2 Bildmodelle und Verteilungen von Zufallsvariablen Beispiel: n Ziehungen (ohne Zurücklegen) aus N Objekten, davon K markiert (=1) und N − K unmarkiert (=0). W-Modell: Ω = {0, 1}n , A = P(Ω). P Für ein Ereignis ω = (ω ωi die Anzahl der gezogenen marP1 , . . . ωn ) gibt kierten Objekten und n − ωi entsprechend die Anzahl der gezogenen unmarkierten Objekten an. Das W-Maß P wird durch die Z-Dichte f (ω1 , . . . ωn ) = (K)P ωi (N − K)n−P ωi , (ω1 , . . . ωn ) ∈ Ω, (N )n definiert. P Betrachte die ZV Zn : Ω → Ω0 , Zn (ω) = ωi , wobei Ω0 = {0, 1, . . . , n}. Die Einführung von Zn hat folgende Effekte: (a) Komprimierung der Information aus ω = (ω1 , . . . , ωn ) durch Nichtberücksichtigung der Ziehungsreihenfolge. (b) Das Ereignis Bk :=”es werden k markierte Stücke gezogen” wird als Bk = {Zn = k} dargestellt. (c) Man kann über Ω0 = {0, 1, . . . , n} ein neues W-Modell für die Anzahl der gezogenen markierten Stücke angeben, indem man K N −K f 0 (k) = P 0 ({k}) = P ({Zn = k}) = k n−k N n betrachtet (vgl. (4.12)). Allgemein wird das W-Maß P 0 auf (Ω0 , P(Ω0 )) durch P 0 (A0 ) = P ({Zn ∈ A0 }) definiert. Die neue Wahrscheinlichkeit wird also über die Urbilder Zn−1 (A0 ) = {Zn ∈ A0 } bestimmt, d.h. die Wahrscheinlichkeit aller ω, die nach A0 abgebildet werden. Aufgrund dieses Zusammenhangs bezeichnet man das W-Mass P 0 auch mit P Zn . Definition 5.4 (Bildmaß P X unter der ZV X) Ist (Ω, A, P ) ein W-Raum, Ω0 eine nichtleere Menge, A0 ein Ereignis-System über Ω0 und X : Ω → Ω0 eine Zufallsvariable, dann ist die Zuordnung A0 → P X (A0 ) := P (X −1 (A0 )) = P (X ∈ A0 ) (5.3) mit A0 ∈ A0 ein W-Maß über (Ω0 , A0 ), genannt auch Bildmaß von P unter X oder Verteilung von X bezüglich P . (Ω0 , A0 , P X ) ist das Bildmodell von (Ω, A, P ) unter X. 5.3. HYPERGEOMETRISCHE UND BINOMIAL-MODELLE 27 Folgerung 5.2 (a) Ist X : Ω → Ω0 eine ZV und Ω0 (oder zumindest X(Ω)) abzählbar, dann hat P X die Z-Dichte f X mit f X (ω 0 ) = P (X = ω 0 ), ω 0 ∈ Ω0 . (5.4) (b) Ist X eine reellwertige ZV, dann hat P X die Verteilungsfunktion F X mit F X (t) = P (X ≤ t), t ∈ R. (5.5) Man nennt f X bzw. F X die Z-Dichte, bzw. die Verteilungsfunktion von X. 5.3 Hypergeometrische und Binomial-Modelle Definition 5.5 Das hypergeometrische Modell besteht aus Ω0 = {0, 1, . . . , n}, A0 = P(Ω0 ) und P Zn , angegeben durch die Z-Dichte K N −K h(N, K, n; k) := f Zn (k) = k n−k N n , 0 ≤ k ≤ n. (5.6) Das W-Maß P Zn heißt hypergeometrische Verteilung und wird mit H(N, K, n) bezeichnet. Bemerkung: Für die Fälle k > K bzw. n − k > N − K gilt f Zn (k) = 0. Beispiel: (n-fache Wiederholung eines Bernoulli(p)-Experiments). Ω = {0, 1}n , A = P(Ω) und P = Bn (p) mit der Z-Dichte f (ω1 , . . . , ωn ) = pk (1 − p)n−k mit k = n X ωi . i=1 ωi = 1: “Erfolg” im i-ten Experiment, ωi = 0: “Misserfolg” im i-ten Experiment. Betrachte die ZV Pn Sn = “Anzahl der Erfolge” in n Versuche, d.h. P Sn (ω1 , . . . , ωn ) = i=1 ωi . Mit Ak := {Sn = k} gilt dann: P (Ak ) = ω∈Ak f (ω) = |Ak |pk (1 − p)n−k = nk pk (1 − p)n−k . Definition 5.6 Das Binomial-Modell mit den Parametern n ∈ N und p ∈ [0, 1] besteht aus Ω0 = {0, 1, . . . , n}, A0 = P(Ω0 ) und P Sn mit der Z-Dichte n k Sn b(n, p; k) := f (k) = p (1 − p)n−k , 0 ≤ k ≤ n. (5.7) k Das W-Maß P Sn heißt Binomial(n, p)-Verteilung, kurz B(n, p). Bemerkungen • Man beachte den Unterschied zwischen Bn (p) (die Verteilung eines nfachen Bernoulli-Experiments, wo jeder unterschiedliche Ausgang betrachtet wird) und B(n, p) (die Verteilung des Binomial-Modells, wo nur die Anzahl der “Erfolge” in einem n-fachen Bernoulli-Experiment berücksichtigt wird, nicht deren genauen Reihenfolge). 28 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE • hypergeometrische Verteilung: “n Ziehungen ohne Zurücklegen aus N Objekten, von welche K markiert sind”. • Binomial-Verteilung: “n Ziehungen mit Zurücklegen aus N Objekten, von welche K markiert sind” (für p = K/N ). • Für große Werte von K und N − K im Vergleich zu n sind die Z-Dichten der beiden Modelle annähernd gleich. 5.4 Die Poisson-Approximation der BinomialVerteilung Die Binomial-Verteilung B(n, p) basiert auf n Wiederholungen eines Bernoulli(p)Experiments, wobei die Anzahl der “Erfolge” (und nicht deren Reihenfolge) untersucht wird. Für große n und kleine p, d.h. für viele Wiederholungen eines Bernoulli-Experiments mit kleiner Erfolgswahrscheinlichkeit, so dass np ≈ konstant, so kann man die Binomial-Verteilung durch eine Poisson-Verteilung approximieren. Satz 5.1 (Poisson-Approximation) Eine Binomial(n, pn )-Verteilung nähert sich für große n und kleine pn einer Poisson(n · pn )-Verteilung an. Genauer gilt: Für n → ∞ und n · pn → λ konvergieren die Werte der Z-Dichte b(n, pn ; k) für alle k = 0, 1, . . . gegen die entsprechenden Werte π(λ; k) = e−λ λk /k! der Z-Dichte der Poisson(λ)-Verteilung, π(λ). Bemerkung: Die Gleiche Aussage gilt für p ≈ 1, denn man kann zu 1 − p übergehen. Dann gilt λ ≈ n · (1 − pn ). 5.5 Die Normal-Approximation der BinomialVerteilung Allgemein, für große Werte von n und p nicht nahe bei 0 oder bei 1, kann man die Binomial-Verteilung durch eine Normalverteilung approximieren. Satz 5.2 (Zentraler Grenzwertsatz) Die Summe vieler kleiner und voneinander unabhängiger zufälliger Einflüsse verhält sich näherungsweise -und für wachsende Anzahl der Summanden mit zunehmender Genauigkeit- wie eine Normalverteilung. Satz 5.3 (Normal-Approximation) Ist F Sn die VF der Binomial(n, p)-Verteilung und Φ die VF der StandardNormalverteilung, dann gilt x−a Sn , x ∈ R, (5.8) F (x) ≈ Φ σ 5.6. WARTEZEITEN - DIE GEOMETRISCHE VERTEILUNG wobei a = np der “Mittelwert” und σ := ximierenden Normalverteilung ist. 5.6 29 p np(1 − p) die “Streuung” der appro- Wartezeiten - die geometrische Verteilung Betrachte n Wiederholungen eines Bernoulli(p)-Experiments. Untersucht wird die Anzahl der benötigten Versuche, um den ersten “Erfolg” zu erreichen. Betrachte die ZV W1 :=”Anzahl der Versuche bis zum ersten Erfolg”. Dann gilt: P (W1 = k) = (1 − p)k−1 · p für k = 1, 2, 3, . . . (5.9) (In den ersten k − 1 Versuche wurden Misserfolge registriert, der erste Erfolg passiert im k-ten Versuch; alle Versuche sind dabei unabhängig.) Zählt man nur die W1 − 1 Misserfolge, dann erhält man entsprechend P (W1 − 1 = k) = (1 − p)k · p für k = 0, 1, 2, . . . . (5.10) Definition 5.7 (Geometrische Verteilungen) Für 0 < p < 1 und q := 1 − p definieren wir die geometrische Verteilung Geo+ (p) durch die Z-Dichte geo+ (p; k) := p · q k−1 , k = 1, 2, 3, . . . (5.11) und die geometrische Verteilung Geo0 (p) durch die Z-Dichte geo0 (p; k) := p · q k , k = 0, 1, 2, . . . . (5.12) Beide beschreiben die Wartezeit bis zum ersten Erfolg bei einer unendlichen Folge von unabhängigen Bernoulli(p)-Versuchen, bei Geo+ (p) einschließlich des erfolgreichen Versuchs, bei Geo0 (p) ohne diesen. Folgerung 5.3 Die Geo+ (p)-Verteilung besitzt die VF F W1 (x) = P (W1 ≤ x) = 1 − (1 − p)bxc , x ≥ 0, (5.13) die Geo0 (p)-Verteilung besitzt entsprechend die VF F W1 −1 (x) = P (W1 − 1 ≤ x) = 1 − (1 − p)bx+1c , x ≥ 0, (5.14) wobei bxc den ganzzahligen Anteil von x bezeichnet. Für x < 0 sind die beiden VF gleich 0. 5.7 Mehrfaches Warten - die negative Binomialverteilung Als Verallgemeinerung des vorherigen Modells kann man die Anzahl Wr der benötigten Versuche bis zum r-ten Erfolg betrachten. 30 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE Definition 5.8 (Negative Binomialverteilung) Die negative Binomialverteilung Nb+ (r, p), die die Anzahl Wr der Versuche bis zum r-ten Erfolg beschreibt, hat die Z-Dichte k−1 r + Wr f (k) = P (Wr = k) = nb (r, p; k) = p (1 − p)k−r . k = r, r + 1, . . . . r−1 (5.15) Zählt man nur die Misserfolge, dann ergibt sich Nb0 (r, p) mit der Z-dichte k+r−1 r f Wr −r (k) = P (Wr −r = k) = nb0 (r, p; k) = p (1−p)k . k = 0, 1, 2, . . . . r−1 (5.16) Bemerkungen: • Der Name leitet sich ab von der Darstellung k+r−1 r−1 • Nb0 (r, p) existiert auch für r ∈ (0, ∞) wegen k+r−1 r−1 5.8 = = k+r−1 k = −r k . (k+r−1)k . k! Randverteilung und gemeinsame Verteilung Definition 5.9 (Randverteilung) Ist der Merkmalraum Ω ein kartesisches Produkt, also Ω = Ω1 × · · · × Ωn , dann heißt für i ∈ {1, . . . , n} die ZV Xi : Ω → Ωi , ω 7→ ωi die i-te Projektion oder die i-te Koordinatenvariable. Die Verteilung P Xi von Xi heißt die i-te Randverteilung. Folgerung 5.4 (a) Die i-te Randverteilung P Xi ergibt sich aus P Xi (Ai ) = P (Xi ∈ Ai ) = P (Ω1 , × . . . Ai × . . . Ωn ) für Ai ∈ Ai . (b) Ist Ω abzählbar und f eine Z-Dichte von P , dann besitzt P Xi eine ZDichte f Xi , auch i-te Randdichte genannt, und es gilt X X X X f Xi (ωi ) = ··· ··· f (ω1 , . . . , ωn ). ω1 ∈Ω1 ωi−1 ∈Ωi−1 ωi+1 ∈Ωi+1 ωn ∈Ωn Man muss also über alle “nicht benötigten” ωj aufsummieren. (c) Ist Ωi = R, Ai = B und A = B n und besitzt P eine R-Dichte f , dann hat auch P Xi eine R-Dichte f Xi und es gilt Z Z f Xi (xi ) = . . . f (x1 , . . . xn )dx1 . . . dxi−1 dxi+1 . . . dxn , R R wobei für alle xj mit j 6= i integriert wird. Für die unabhängig gekoppelten W-Modell kann man die Randverteilungen als die Verteilungen der entsprechenden Stufen berechnen: 5.9. STOCHASTISCHE UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN31 Folgerung 5.5 In unabhängig gekoppelten W-Modellen ist die i-te Randverteilung P Xi gleich der W-Verteilung Pi der i-ten Stufe, denn wegen der Produktform von {Xi ∈ Ai } gilt: P Xi (Ai ) = P (Ω1 × · · · × Ai × · · · × Ωn ) = P1 (Ω1 ) . . . Pi (Ai ) . . . Pn (Ωn ) = Pi (Ai ). Für die i-te Randdichte erhält man entsprechend f Xi = fi . Definition 5.10 (gemeinsame Verteilung) Wenn die ZV Yi von Ω nach Ωi abbilden, mit σ-Algebren A über Ω und Ai über Ωi , dann ist Y = (Y1 , . . . Yn ) eine ZV von Ω nach Ω0 := Ω1 × · · · × Ωn (Zufallsvektor). Die Verteilung P Y = P (Y1 ,...Yn ) von Y heißt dann die gemeinsame Verteilung von Y1 , . . . , Yn . Man kann somit auch Randverteilungen über mehrere Komponenten als gemeinsame Verteilungen definieren, z.B. P (Xi1 ,...,Xik ) (mit den Notationen aus Definition 5.9). Man wählt somit nur die Komponenten (i1 , . . . ik ) aus (1, . . . n) aus und betrachtet deren gemeinsame Verteilung. Folgerung 5.6 Die i-te Randverteilung einer gemeinsamen Verteilung P (Y1 ,...,Yn ) ist P Yi , die Verteilung von Yi . Folgerung 5.7 Bei der n-fachen Ziehung ohne Zurücklegen aus N Objekten, wovon K markiert sind, sei (X1 , . . . Xn ) das vollständige Ergebnis (“Ziehungsprotokoll”, Xi (ω) ∈ {0, 1}, “1” entspreche “markiert”). Dann gilt, dass jede Permutation Xi1 , . . . Xin von X1 , . . . Xn dieselbe gemeinsame Verteilung hat und dass deshalb alle Randverteilungen P Xi für alle i, bzw. P (Xi1 ,...,Xik ) , (k < n) für alle (i1 , . . . ik ) mit il 6= im für l 6= m jeweils übereinstimmen. Zufallsvariable X1 , . . . Xn mit dieser Eigenschaft heißen austauschbar. 5.9 Stochastische Unabhängigkeit von Zufallsvariablen Satz 5.4 Jede gemeinsame Verteilung P (Y1 ,...Yn ) mit Z-Dichte oder R-Dichte f (Y1 ,...Yn ) lässt sich als Koppelungs-Modell mit Z-Dichte bzw. R-Dichte f (Y1 ,...Yn ) (y1 , . . . yn ) = f1 (y1 )f21 (y1 ; y2 ) . . . fnn−1 (y1 , . . . , yn−1 ; yn ) darstellen. Dazu bestimmt man die Randdichten f (Y1 ,...Yn−1 ,) , f (Y1 ,...Yn−2 ,) , . . . , f (Y1 ,Y2 ) , f (Y1 ) = f1 (in dieser Reihenfolge) durch Summation bzw. Integration und erhält daraus f (Y1 ,...Yi ) (y1 , . . . yi ) . (5.17) fii−1 (y1 , . . . yi−1 ; yi ) = (Y ,...Y ) f 1 i−1 (y1 , . . . yi−1 ) Ist dabei der Nenner =0, dann setzt man für fii−1 (y1 , . . . yi−1 ; yi ) eine beliebige Dichte ein. 32 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE Definition 5.11 Die nach Satz 5.4 existierenden Übergangs- (Z- oder R-) Dichten nennt man wegen der im diskreten Fall möglichen Darstellung fii−1 (y1 , . . . yi−1 ; yi ) = P (Yi = yi | Y1 = y1 , . . . , Yi−1 = yi−1 ) auch bedingte Dichten und man schreibt f Yi |(Y1 ,...,Yi−1 ) statt fii−1 . Die zugehörigen Übergangs-W-Maße heißen bedingte Verteilungen und werden entsprechend als P Yi |(Y1 ,...,Yi−1 ) geschrieben. Definition 5.12 Die ZV Y1 , . . . Yn mit Yi : Ω → Ωi heißen stochastisch unabhängig (st.u.), wenn für die gemeinsame Verteilung P (Y1 ,...Yn ) die Produktformel gilt: P (Y1 ,...Yn ) (A1 × · · · × An ) = P Y1 (A1 ) . . . P Yn (An ) (5.18) für beliebige Ereignisse Ai in Ωi , bzw. in anschaulicherer Form P (Y1 ∈ A1 , . . . , Yn ∈ An ) = P (Y1 ∈ A1 ) . . . P (Yn ∈ An ). (5.19) Folgerung 5.8 Besitzen die ZV Y1 , . . . Yn mit Yi : Ω → Ωi Z-Dichten bzw. RDichten, dann ist die stochastische Unabhängigkeit äquivalent damit, dass die gemeinsame Verteilung eine Produkt-Dichte besitzt. Folgerung 5.9 In einer Folge von stochastisch unabhängigen Bernoulli(p)-Versuchen sind die Wartezeiten auf den jeweils nächsten Erfolg unabhängig und Geo+ (p)verteilt. Satz 5.5 Sind die ZV Y1 , . . . , Yn stochastisch unabhängig (z.B. Y1 , . . . Y5 ), dann sind auch stochastisch unabhängig: (a) Umstellungen von Y1 , . . . , Yn , z.B. Y3 , Y2 , Y5 , Y1 , Y4 , (b) Teilmengen von Y1 , . . . , Yn , z.B. Y1 , Y3 , Y4 , Y5 , (c) Disjunkte Gruppen von st.u. ZV, z.B. Z1 = (Y1 , Y3 ) und Z2 = (Y4 , Y5 ), (d) Messbare Funktionen von st.u. ZV, z.B. g(Z1 ) = Y12 + Y32 und h(Z2 ) = Y4 · eY5 . (e) Jede konstante ZV ist von allen ZV stochastisch unabhängig. (f ) Sind die ZV Y1 , . . . , Yn−1 st.u. und sind (Y1 , . . . , Yn−1 ), Yn st.u., dann sind auch Y1 , . . . , Yn st.u.. Folgerung 5.10 Die Ereignisse A1 , . . . , An in einem W-Raum (Ω, A, P) sind genau dann stochastisch unabhängig (s. Definition 2.20), wenn die ZV 1A1 , . . . , 1An stochastisch unabhängig sind. 5.10 Bild-Verteilungen für stetige W-Modelle Satz 5.6 Es sei P X eine Verteilung über (R, B) und die ZV Y = a + bX eine lineare Funktion von X mit a, b ∈ R, b 6= 0 (zur Vereinfachung sei b > 0). (a) Besitzt P X die VF F X , dann ist die VF von P Y gegeben durch y−a Y X , y ∈ R. (5.20) F (y) = F b 5.11. SUMMEN-VERTEILUNG UND FALTUNG (b) Besitzt P X eine R-Dichte f X , dann hat P Y die R-Dichte 1 y−a f Y (y) = f X , y ∈ R. b b 33 (5.21) (c) Ist speziell P X die Standard-Normalverteilung N (0,1) mit VF Φ und R-Dichte φ, dann hat Y = a + bX die VF F Y (y) = Φ y−a und die R-Dichte b y−a 1 Y f (y) = b φ b . Dies sind die VF und R-Dichte von N (a, b2 ). Die Normalverteilung N (a, σ 2 ) geht also durch die lineare Transformation x 7→ a + σx aus N (0, 1) hervor. Satz 5.7 (a) Ist X eine ZV mit Werten in R und der VF F X , dann besitzt Y = X 2 die VF √ √ (5.22) F Y (y) = (F X ( y) − F X ((− y)−))1[0,∞) (y) y ∈ R. (b) Besitzt X eine R-Dichte f X , dann hat Y = X 2 die R-Dichte 1 √ √ f Y (y) = √ (f X (− y) + f X ( y)1(0,∞) (y) y ∈ R. 2 y (5.23) Satz 5.8 Ist P X die Standard-Normalverteilung N (0, 1) mit VF Φ und R2 Dichte φ, dann besitzt die Verteilung P X die VF 2 √ F X (y) = [2Φ( y) − 1]1[0,∞) (y) y ∈ R. (5.24) und die R-Dichte 2 1 1 1 √ f X (y) = √ φ( y)1(0,∞) (y) = √ √ e−y/2 1(0,∞) (y) y ∈ R. y 2π y (5.25) 2 Die Verteilung P X heißt Chi(1)-Quadrat-Verteilung, kurz χ21 und ist eine spezielle Gamma-Verteilung, nämlich Γ 21 , 12 . 5.11 Summen-Verteilung und Faltung Satz 5.9 (a) Es seien X und Y zwei ZV über demselben W-Raum mit Werten in Z und mit gemeinsamer Z-Dichte f (X,Y ) (x, y). Dann erhält man die Z-Dichte von X + Y aus X f X+Y (z) = f (X,Y ) (x, z − x), z ∈ Z. (5.26) x∈Z (b) Sind X und Y reellwertig mit gemeinsamer R-Dichte f (X,Y ) (x, y), dann hat X + Y entsprechend die R-Dichte Z X+Y f (z) = f (X,Y ) (x, z − x)dx, z ∈ R. (5.27) R 34 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE Bemerkungen: Wegen der Symmetrie kann man die Rollen von X und Y vertauschen und entsprechende Formeln herleiten. Falls X und Y stochastisch unabhängig sind, dann besitzt deren gemeinsame Dichte die Produktform, und in den obigen Formeln erhält man somit f (X,Y ) (x, z − x) = f X (x)f Y (z − x). Definition 5.13 Die Verteilung der Summe von stochastisch unabhängigen ZV X und Y heißt die Faltung der Einzelverteilungen: P X ∗ P Y := P X+Y und f X ∗ f Y = f X+Y . (5.28) Folgerung 5.11 Für nicht-negative und stochastisch unabhängige ZV X und Y berechnet man die Faltung nach folgenden Formeln: (a) bei ganzzahligen Werten f X+Y (z) = (f X ∗ f Y )(z) = z X f X (x)f Y (z − x), z ∈ N0 . (5.29) f X (x)f Y (z − x)dx, z ≥ 0. (5.30) x=0 (b) bei Existenz von R-Dichten f X+Y (z) = (f X Y Z ∗ f )(z) = z 0 Für z < 0 ist in beiden Fällen f X+Y (z) = 0. Beispiele 1. Faltung von Binomialverteilungen Die Binomialverteilung B(n, p) wurde als Verteilung P Sn der Summe Sn von n st.u. Bernoulli(p)-ZV X1 , . . . , Xn definiert. Deshalb ist B(n, p) die n-fache Faltung von B(p)-Verteilungen: B(n, p) = B(p) ∗ B(p) ∗ · · · ∗ B(p) (n Faktoren). (5.31) Faßt man erst m und dann n B(p)-Verteilungen zusammen, dann ergibt sich B(m + n, p) = B(m, p) ∗ B(n, p). (5.32) 2. Faltung von Poissonverteilungen Es gilt π(λ1 ) ∗ π(λ2 ) = π(λ1 + λ2 ). (5.33) Dies ergibt sich aus der Tatsache, dass die Poisson(λ)-Verteilung durch eine B(n, pn )-Verteilung approximieren lässt, falls n groß ist und npn ≈ λ gilt. Der exakte Beweis geht jedoch über die Faltungsformel. 5.11. SUMMEN-VERTEILUNG UND FALTUNG 35 3. Faltung von geometrischen Verteilungen Ausder stochastischen Unabhängigkeit der Geo+ (p)-verteilten Zwischenwartezeiten bei einer Folge von stochastisch unabhängigen Bernoulli(p)Versuchen ergibt sich für die negative Binomialverteilung Nb+ (r, p) = Geo+ (p) ∗ Geo+ (p) ∗ . . . Geo+ (p) (r Faktoren), (5.34) und durch Zusammenfassung der Faktoren Nb+ (r1 + r2 , p) = Nb+ (r1 , p) ∗ Nb+ (r2 , p). (5.35) Dieselben Eigenschaften gelten für Nb0 (r, p) und Geo0 (r, p). 4. Faltung von Normalverteilungen Die Faltung von zwei beliebigen Normalverteilungen ergibt wieder eine Normalverteilung: N (a, σ 2 ) ∗ N (b, τ 2 ) = N (a + b, σ 2 + τ 2 ). (5.36) 5. Faltung von Gamma-Verteilungen Die Faltung von zwei Gamma-Verteilungen mit gleichen Parameter α ergibt Γα,µ ∗ Γα,ν = Γα,µ+ν . (5.37) Spezialfälle: (a) Die Exp(α)-Verteilung ist gleich der Γα,1 -Verteilung. Damit ergibt sich Γα,n = Exp(α) ∗ Exp(α) ∗ · · · ∗ Exp(α) (n Faktoren). (5.38) (b) Die χ21 -Verteilung ist gleich der Γ 21 , 12 -Verteilung. Somit kann man die Chi(n) − Quadrat − V erteilung χ2n als Verteilung der Summe der Quadrate von n stochastisch unabhängigen normalverteilten ZV einführen: χ2n := Γ 12 , n2 = χ21 ∗ χ21 ∗ · · · ∗ χ21 (n Faktoren). (5.39) 36 KAPITEL 5. ZUFALLSVARIABLE UND BILDMODELLE Kapitel 6 Kenngrößen 6.1 Mediane und Quantile Sei X : Ω → Ω0 ⊆ R eine ZV mit Z-Dichte oder R-Dichte f X und Verteilungsfunktion F X . Definition 6.1 Ein Median von X (oder von P X ) ist jeder Wert m ∈ R, an dem die VF F X den Wert 1/2 erreicht oder überschreitet, d.h. für den gilt: F X (m−) ≤ 1 ≤ F X (m). 2 (6.1) Bemerkungen. • Links und rechts von einem Median m liegt jeweils höchstens die Hälfte der gesamten Wahrscheinlichkeit, denn es gilt P (X < m) = F X (m−) ≤ 1/2 und P (X > m) = 1 − F X (m) ≤ 1/2. Der Punkt m selbst kann dabei auch positive Wahrscheinlichkeit besitzen. Hat der Median m dagegen die Wahrscheinlicheit 0, dann gilt F (m−) = F (m) = 1/2 und die gesamte Wahrscheinlichkeit wird genau “in der Mitte” geteilt. • Es kann mehrere Mediane geben, und zwar dann, wenn die VF F X auf einem ganzen Intervall den (konstanten) Wert 1/2 annimmt. Dann sind alle Punkte des Intervalls, einschließlich der Randpunkte, Mediane. In der Praxis wird dann normalerweise die Intervallmitte zum Median erklärt. Eine Verallgemeinerung des Medians sind die Quantile oder Prozent-Punkte: Definition 6.2 Ein Wert u ∈ R heißt α%-Quantil oder α%-Punkt, wenn die VF F X an der Stelle u den Wert α erreicht oder überschreitet, d.h. wenn F X (u−) ≤ α ≤ F X (u). Der Median ist also ein 50%-Quantil. Die 25% und 75% -Quantile nennt man auch Quartile. Definition 6.3 Jede Maximumstelle einer Z-Dichte oder R-Dichte f X heißt Modalwert von X (oder von P X ). 37 38 KAPITEL 6. KENNGRÖSSEN 6.2 Erwartungswert: Einführung Intuitiv entspricht der Erwartungswert eines gewichteten Mittels mit relativen Häufigkeiten. Beispiel: Bei einem Examen seien die Noten 1 bis 5 mit den relativen Häufigkeiten 0.11/0.23/0.31/0.27/0.08 aufgetreten. Dann ist der Mittelwert 1 · 0.11 + 2 · 0.23 + . . . 5 · 0.08 = 2.98. Interpretiert man die relativen Häufigkeiten als Wahrscheinlichkeiten für die Examensnote X eines zufällig herausgegriffenen Studenten, dann stellt der obige Mittelwert den “Erwartungswert” von X dar, bezeichnet mit EX. Dieser berechnet sich dann als EX = 1 · P (X = 1) + 2 · P (X = 2) + · · · + P (X = 5) = 5 X k · P (X = k). k=1 Bevor der Erwartungswert für reellwertige ZV allgemein definiert wird, führen wir folgende Definition ein: Definition 6.4 Ist X = (X1 , . . . , Xn ) eine mehrdimensionale ZV (Zufallsvektor), dann definiert man den Erwartungswert von X durch den Vektor der einzelnen Erwartungswerten: EX := (EX1 , . . . , EXn ), auch Erwartungsvektor genannt. 6.3 Erwartungswert: diskrete Modelle Definition 6.5 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit X ≥ 0 oder Ω0 endlich. Dann heißt X X EX := k · P (X = k) = k · f X (k) (6.2) k∈Ω0 k∈Ω0 der Erwartungswert von X (oder von P X ). Folgerung 6.1 Erwartungswerte der wichtigsten diskreten Verteilungen (q = 1 − p). (a) Laplace-Verteilung L({1, . . . , N }), f X (k) = 1/N , (b) Einpunktverteilung εa , f X (a) = 1, (c) Bernoulli-Versuch B(p), f X1 (1) = p, (d) Binomial-Verteilung B(n, p), f Sn (k) = nk pk (1 −p)n−k , N −K N (e) Hypergeom. Vert. H(N, K, n), f Zn (k) = K / k n−k n , (f) Poisson-Verteilung π(λ), f X (k) = e−λ λk /k!, (g) Geometrische Vert. Geo+ (p), f W1 (k) = p(1 − p)k−1 , 0 Geo0 (p), f W1 (k) = p(1 − p)k , r k−r (h) Neg. Binomial-Vert. Nb+ (r, p), f Wr (k) = k−1 , r−1 p (1 − p) 0 k+r−1 r Wr0 Nb (r, p), f (k) = r−1 p (1 − p)k , EX = N2+1 , EX = a, EX1 = p, ESn = np, EZn = nK/N , EX = λ, EW1 = 1/p, EW10 = q/p, EWr = r/p, EWr0 = rq/p. 6.3. ERWARTUNGSWERT: DISKRETE MODELLE 39 Die Definition des Erwartungswerts wurde zunächst nur für diskrete ZV mit endlich vielen oder ausschließlich positiven Werten eingeführt. Im letzten Fall war auch der Wert 00 + ∞“ möglich. Für den allgemeinen Fall zerlegt man die auftretenden unendlichen Reihen in Positiv- und Negativteil und stellt die Bedingung, dass nicht beide Summen unendlich sind. Definition 6.6 (a) Der Positivteil einer reellen Zahl a ist 0, a ≤ 0 a+ := max(0, a) = a, a ≥ 0. Entsprechend ist das Negativteil von a − + a := (−a) = max(0, −a) = |a|, a ≤ 0 0, a ≥ 0. Es gilt also: a− ≥ 0 und a = a+ − a− , |a| = a+ + a− . (b) Für eine reellwertige Abbildung f definiert man entsprechend f + und f − durch f + (y) = (f (y))+ , f − (y) = (f (y))− . Also ist auch für eine ZV X : Ω → Ω0 ⊂ R der Positivteil X + und der Negativteil X − erklärt, und es gilt X = X + + X −. Definition 6.7 Es sei X : Ω → Ω0 ⊂ R eine diskrete ZV mit Träger T ⊂ Ω0 (meist T = Ω0 ) und Z-Dichte f X (k), k ∈ T . Dann heißt X X EX := k · P (X = k) = k · f X (k) (6.3) k∈T k∈T X der Erwartungswert von X (oder von P ), falls die positive oder die negative Teilsumme (oder beide) endlich sind, d.h. falls X X EX + = k · f X (k) < ∞ oder EX − = |k| · f X (k) < ∞. (6.4) k∈T,k>0 k∈T,k<0 Der Wert von EX ist dann EX = EX + − EX − , unabhängig von der Summationsreihenfolge und man sagt: “EX existiert”. Falls EX + < ∞ und EX − < ∞ heißt X integrierbar. Satz 6.1 Die folgenden Gleichungen gelten unter der Voraussetzung, dass die entsprechenden Summen existieren. Dabei zieht die Existenz einer der beiden Seiten immer die der anderen nach sich. (a) Ist X : Ω → Ω0 ⊂ R eine diskrete ZV, sind Ω, Ω0 abzählbar und ist f eine Z-Dichte von P , dann gilt X X EX := k · P (X = k) = X(ω)f (ω). (6.5) k∈Ω0 ω∈Ω 0 (b) Ist X : Ω → Ω ⊂ R eine diskrete ZV, g : Ω0 → Ω00 eine Abbildung und sind Ω0 , Ω00 abzählbar, dann gilt X X Eg(X) := m · P (g(X) = m) = g(k) · P (X = k). (6.6) m∈Ω00 k∈Ω0 40 KAPITEL 6. KENNGRÖSSEN (c) Sind X : Ω → Ω01 , Y : Ω → Ω02 diskrete ZV, h : Ω01 × Ω02 → Ω00 ⊂ R eine Abbildung und sind Ω01 , Ω02 , Ω00 abzählbar, dann gilt X X X m · P (h(X, Y ) = m) = h(k, l) · P (X = k, Y = l). Eh(X, Y ) := k∈Ω01 l∈Ω02 m∈Ω00 (6.7) Satz 6.2 Es seien X, Y, X1 , . . . , Xn reellwertige ZV. (a) Gilt P (X = a) = 1, d.h. ist X (“fast sicher”) konstant, dann besitzt X die Einpunktverteilung εa und es ist EX = a. (b) Der Erwartungswert ist monoton: Aus X ≤ Y folgt EX ≤ EY , falls EX, EY existieren. Speziell ergibt sich aus a ≤ X ≤ b auch a ≤ EX ≤ b. (c) Der Erwartungswert ist linear: Existiert EX, dann existiert auch E(a + bX) für a, b ∈ R und es gilt E(a + bX) = a + b · EX. (6.8) (d1) Existieren EX und EY und ist EX + EY definiert (z.B. nicht ∞ − ∞), dann existiert auch E(X + Y ) und es gilt E(X + Y ) = EX + EY. (6.9) (d2) Unter entsprechenden Voraussetzungen (alle EXi existieren, alle EXi 6= ±∞) gilt n n X X E( Xi = EXi . (6.10) i=1 i=1 (e) Sind X, Y stochastisch unabhängig, existieren EX und EY und sind beide endlich, dann existiert EXY := E(XY ) und es gilt EXY = EX · EY. (6.11) Folgerung 6.2 Ist X : Ω → Ω0 ⊂ R eine reellwertige ZV, so gilt für die ZV |X| (= X + + X − ) (a) (b) (c) 6.4 E|X| = EX + + EX − EX existiert =⇒ |EX| ≤ E|X|, X ist integrierbar ⇔ E|X| < ∞. (6.12) (6.13) (6.14) Erwartungswert: stetige und gemischte Modelle Definition 6.8 Es sei X : Ω → R eine (reellwertige) ZV mit R-Dichte f X . Dann heißt Z +∞ EX := xf X (x)dx (6.15) −∞ 6.4. ERWARTUNGSWERT: STETIGE UND GEMISCHTE MODELLE 41 der Erwartungswert von X (oder von P X ), falls EX + = Z ∞ xf X (x)dx < ∞ oder EX − = Z 0 |x|f X (x)dx < ∞. (6.16) −∞ 0 Man sagt dann “EX existiert”, und es gilt EX = EX + −EX − . Falls EX + < ∞ und EX − < ∞, dann heißt X integrierbar. Bemerkung. Im Allgemeinen besitzt X + = max(X, 0) selber keine R+ Dichte, da P X ({0}) = P (X ≤ 0) positiv sein kann. Dass die Ausdrücke in (6.16) tatsächlich den Erwartungwerten entsprechen, wird im Folgenden erläutert. Definition 6.9 Es sei X : Ω → R eine ZV mit gemischter Verteilung P X = αd PdX + αs PsX . Dabei ist PdX eine diskrete Verteilung, PsX eine Verteilung mit R-Dichte, αd ∈ [0, 1] und αs = 1 − αd . Existieren dann die Erwartungswerte Ed X von PdX und Es X von PsX , dann sei EX := αs Ed X + αs Es X (6.17) der Erwartungswert von X (bzw. von P X ). Folgerung 6.3 Für eine reellwertige ZV X : Ω → R mit VF F X lassen sich der Positiv- und der Negativteil des Erwartungswerts darstellen als EX + = Z ∞ [1 − F X (x)]dx, EX − = Z 0 F X (x)dx. (6.18) −∞ 0 Folgerung 6.4 (a) Die in Satz 6.2 zusammengestellten Eigenschaften des Erwartungswerts gelten auch im allgemeinen Fall, also insbesondere die Monotonie und die Linearität, ebenso auch die Eigenschaften aus Folgerung 6.2. (b) Die im Satz 6.1 im diskreten Fall angegebenen Darstellungen von Eg(x) und Eh(X, Y ) müssen für ZV X, Y umgeschrieben werden, indem man die Summen durch entsprechende Integrale ersetzt. Die Existenz kann auf der rechten oder linken Seite nachgeprüft werden. (b1) Besitzt X : Ω → R die R-Dichte f X und ist g : R → R eine Rintegrierbare Abbildung, dann gilt Z ∞ Eg(X) = g(x)f X (x)dx. (6.19) −∞ (b2) Besitzen die ZV X : Ω → R und Y : Ω → R die gemeinsame R-Dichte f (X,Y ) , ist h eine Abbildung von R2 → R und h · f (X,Y ) R-integrierbar, dann gilt Z ∞Z ∞ Eh(X, Y ) = h(x, y)f (X,Y ) dxdy. (6.20) −∞ −∞ 42 KAPITEL 6. KENNGRÖSSEN Folgerung 6.5 Erwartungswerte der wichtigsten stetigen Verteilungen: 1 1(a,b) (x),, (a) Rechteck-Verteilung: R(a, b), f X (x) = b−a X (b) Exponential-Vert.: Exp(α), f (x) = αe−αx 1(0,∞) (x), αν (c) Gamma-Verteilung: Γα,ν , f X (x) = Γ(ν) xν−1 e−αx 1(0,∞) (x), 6.5 (d) Beta-Verteilung: Be(µ, ν), f X (x) = (e) Normal-Verteilung: (f) Cauchy-Verteilung: N (a, σ 2 ), C(α), f X (x) = f X (x) = Γ(µ+ν) µ−1 (1 − x)ν−1 , Γ(µ)Γ(ν) x 2 2 1 √1 e− 2 (x−a) /σ , 2π 1 α π α2 +x2 , Streuung und Varianz Definition 6.10 Ist X : Ω → Ω0 ⊂ R eine ZV mit endlichem Erwartungswert, dann heißen VarX und StrX := E(X − EX)2 = EX 2 − (EX)2 p √ := E(X − EX)2 = VarX (6.21) (6.22) die Varianz und die Streuung von X. Satz 6.3 (a) Eine Verschiebung hat keinen Einfluss auf die Varianz und die Streuung: Var(X + a) = VarX, Str(X + a) = StrX. (6.23) (b) Ein Faktor verändert die Varianz quadratisch, die Streuung proportional mit dem Betrag des Faktors: Var(bX) = b2 VarX, Str(bX) = |b| · StrX. (6.24) Aus (a) und (b) ergibt sich also, dass bei einer linearen Transformation nur der Faktor eine Rolle spielt: Var(a + bX) = b2 VarX, Str(a + bX) = |b| · StrX. (6.25) (c) Eine oft nützliche Formel ist E(X −a)2 = VarX +(EX −a)2 , speziell (a = 0) EX 2 = VarX +(EX)2 . (6.26) Der Wert von E(X − a)2 wird minimal für a = EX. (d) Konstante ZV besitzen die Streuung 0: StrX = 0 ⇔ VarX = 0 ⇔ P (X = EX) = 1. (e) “Varianz einer Summe = Summe der Varianzen” gilt bei stochastisch unabhängigen ZV: X, Y seien st.u. ⇒ Var(X + Y ) = VarX + VarY. (6.27) EX = a+b 2 , EX = 1/α, EX = ν/α, EX = µ µ+ν , EX = a, EX existiert nicht. 6.6. KOVARIANZ 43 Folgerung 6.6 1. Die Varianz der wichtigsten diskreten Verteilungen: (a) (b) (c) (d) (e) L({1, . . . , N }): εa : B(p): B(n, p): H(N, K, n): VarX = (N 2 − 1)/12, VarX = 0, VarX1 = p(1 − p), VarSn = np(1 − p), N N −K N −n VarZn = n K N N −1 , (f ) π(λ): (g) Geo+ (p) : Geo0 (p) : (h) Nb+ (r, p) : Nb0 (r, p) : VarX = λ, VarW1 = (1 − p)/p2 , Var(W1 − 1) = (1 − p)/p2 , VarWr = r(1 − p)/p2 , Var(Wr − r) = r(1 − p)/p2 . 2. Die Varianz der wichtigsten stetigen Verteilungen: (a) R(a, b): (b) Exp(α): (c) Γα,ν : 6.6 VarX = (b − a)2 /12, VarX = 1/α2 , VarX = ν/α2 , (d) χ2n = Γ 21 , n2 : (e) N (0, 1) : (f ) N (a, σ 2 ) : VarX = 2n, VarX = 1, VarX = σ 2 . Kovarianz Im Folgenden setzen wir EX 2 , EY 2 < ∞ voraus. Die Existenz und Endlichkeit der Erwartungswerte EXY, EX und EY folgt dann aus |XY | < max(X 2 , Y 2 ) ≤ X 2 + Y 2 bzw. |X| ≤ X 2 + 1 (setze Y = 1). Damit sind auch VarX und VarY definiert und endlich. Definition 6.11 Für die ZV X : Ω → R und Y : Ω → R mit EX 2 , EY 2 < ∞ heißt Kov(X, Y ) := EXY − EX · EY = E[(X − EX)(Y − EY )] (6.28) die Kovarianz von X und Y . Die normierte Kovarianz korr(X, Y ) := Kov(X, Y ) StrX · StrY (6.29) heißt Korrelationskoeffizient von X und Y , falls StrX 6= 0 und StrY 6= 0, andernfalls sei korr(X, Y ) := 0 (weil dann auch Kov(X, Y ) = 0 gilt). Folgerung 6.7 X und Y seien reellwertige ZV mit EX 2 , EY 2 < ∞. Dann gilt: (a) Kov(X, X) =VarX, Kov(X + Y ) = Kov(Y, X). (b) Var(X + Y ) =VarX+VarY + 2Kov(X, Y ). Entsprechend gilt für ZV Xi : Ω → R mit EXi2 < ∞, i = 1, . . . , n, Var n X i=1 Xi = n X i=1 VarXi + 2 X Kov(Xi , Xj ) i<j . (c) Sind X und Y stochastisch unabhängig, dann gilt Kov(X, Y ) = 0. Die Umkehrung gilt im Allgemeinen nicht. Ausnahme: X, Y sind gemeinsam normalverteilt. 44 KAPITEL 6. KENNGRÖSSEN Folgerung 6.8 Für die ZV X : Ω → R und Y : Ω → R gelte EX 2 , EY 2 < ∞ und VarX 6= 0, VarY 6= 0. Dann ergibt sich (a) Die mittlere quadratische Abweichung zwischen den ZV Y und a + bX ist minimal, wenn b = korr(X, Y ) StrY und a = EY − bEX. StrX Der Minimalwert ist dann Var[1 − (korr(X, Y ))2 ]. (b) Es gilt stets −1 ≤ korr(X, Y ) ≤ 1. (6.30) (6.31) (c) Es gilt korr(X, Y ) = ±1 genau dann, wenn Y = a + bX (mit Wahrscheinlichkeit 1). Die Vorzeichen von b und korr(X, Y ) stimmen dann überein. 6.7 Mehrdimensionale Normalverteilung Ein Spezialfall der mehrdimensionalen Normalverteilung, die Standard-Normalverteilung in Rn wurde in Definition 4.4 eingeführt, als unabhängige Kopplung von n eindimensionalen Standard-Normalverteilungen. Die entsprechende R-Dichte ist gegeben durch: n n 2 2 1 1 T 1 1 e− 2 (x1 +···+xn ) = √ e− 2 x x (6.32) f X (x1 , . . . , xn ) = √ 2π 2π mit x = (x1 , . . . , xn )T ∈ Rn . Sei X eine standard-normalverteilte, Rn -wertige ZV und Y = a+AX für a ∈ n R und A eine invertierbare Matrix. Wir führen also eine lineare Transformation von X durch. Es gilt somit Yi = ai + ai1 X1 + · · · + ain Xn , i = 1, . . . , n. (6.33) Wegen EXi = 0 impliziert die Linearität des Erwartungswertes EYi = ai für alle i, also kurz EY = a. Wegen EXi2 = 1 und EXi Xj = 0 für i 6= j (Unabhängigkeit) ergibt sich ! n ! n n X X X Kov(Xi , Xj ) = E(Yi −EYi )(Yj −EYj ) = E aik Xk ajl Xl = aik ajk . k=1 l=1 k=1 (6.34) Fasst man die Kovarianzen zu einer Matrix zusammen: K = (kij ) := (Kov(Yi , Yj )), dann gilt K = AAT . Die Matrix K ist also symmetrisch, positiv definit und es gilt detK =detAdetAT = (detA)2 . Durch die mehrdimensionale Transformationsformel erhält man die RDichte f Y (y) der ZV Y , welche in folgende Definition zusammengefasst wird: Definition 6.12 Das W-Maß über (Rn , B n ) definiert mit a ∈ Rn und einer symmetrischen und positiv definiten n × n-Matrix K durch die R-Dichte n T −1 1 1 1 Y √ f (y) = √ e− 2 (y−a) K (y−a) , y ∈ Rn , (6.35) 2π detK 6.8. ZUFÄLLIGE SUMMEN UND BEDINGTE ERWARTUNGSWERTE 45 heißt n-dimensionale Normalverteilung und wird mit N (a, K) bezeichnet. a ist dabei der Erwartungswert und K die Kovarianzmatrix. Die n-dimensionale Standard-Normalverteilung ist also N (0, En ). Die mehrdimensionale Normalverteilung besitzt folgende Eigenschaften: Folgerung 6.9 (a) Ist die ZV X N (0, EN )-verteilt und ist Y := a + AX mit a ∈ Rn und einer regulären n × n Matrix A, dann ist Y N (a, AAT )verteilt. Umgekehrt gibt es zu jeder N (a, K)-verteilten ZV Y eine Darstellung Y = a + AX mit einer regulären unteren Dreiecksmatrix A und K = AAT , sowie N (0, EN )-verteiltem X. (b) Ist die ZV Y N (a, K)-verteilt und ist Z := b + BY mit b ∈ Rn und einer regulären n × n-Matrix B, dann ist Z N (b + Ba, BKBT )-verteilt. (c) Alle Randverteilungen von n-dimensionalen Normalverteilungen (auch kdimensionale mit k < n) sind wieder Normalverteilungen. Die Parameter ai und kij bleiben für die nicht-wegfallenden Koordinaten unverändert. Insbesondere besitzen bei einer N (a, K)-verteilten ZV Y die Komponenten Yi eine N (ai , kii )Verteilung. (d) Die ZV Y1 , . . . Yn sind genau dann stochastisch unabhängig und Yi N (ai , σi2 )verteilt, wenn Y := (Y1 , . . . Yn ) N (a, K)-verteilt ist mit a = (a1 , . . . , an )T und der Diagonalmatrix K = (kij ) mit kii = σi2 . (Wenn K eine Diagonalmatrix ist, dann sind alle Kovarianzen Kov(Yi , Yj ) = 0 für i 6= j. 6.8 Zufällige Summen und bedingte Erwartungswerte In verschiedenen Anwendungen treten Summen von ZV mit einer zufälligen Anzahl von Summanden auf. Gesucht sind die Erwartungswerte oder Verteilungen dieser Summen, die hier “zufällige Summen” genannt werden. Beispiele 1. Der jährliche Gesamtschaden aus einer bestimmten Anzahl von Versicherungsverträgen setzt sich zusammen aus einer zufälliger Anzahl Y von Schäden, bei denen die Schadenhöhen X1 , X2 , . . . XY ebenfalls zufällig sind. Man möchte den Erwartungswert und die Streuung des Gesamtschadens bestimmen. 2. Ein Kunde kommt an einen Bankschalter und trifft dort eine zufällige Anzahl weiterer Kunden an, die vor ihm bedient werden sollen. Die Verweilzeit des Kunden am Schalter ist damit eine zufällige Summe von Bedienzeiten. Eine zufällige Summe kann man somit schreiben als S= Y X i=1 Y (ω) Xi oder ω 7→ S(ω) = X i=1 Xi (ω). (6.36) 46 KAPITEL 6. KENNGRÖSSEN Falls also die ZV Y den Wert PnY (ω) = n annimmt, stimmt S(ω) mit der gewöhnlichen Summe Sn (ω) = i=1 Xi (ω)Püberein. Für Y (ω) = 0 sei S(ω) = 0 ∞ (leere Summe). Aus der Darstellung S = i=1 Xi · 1{i,i+1,... } (Y ) folgt, dass S eine messbare Abbildung, also eine ZV ist. Im Folgenden wird angenommen, dass alle Summanden Xi dieselbe Verteilung besitzen und sowohl untereinander, als auch von der Anzahl Y der Summanden stochastisch unabhängig sind. Definition 6.13 Es sei Y eine ZV mit Werten in N0 , X1 , X2 , . . . seien reellwertige ZV, identisch verteilt PY und stochastisch unabhängig, auch von Y . Dann nennen wir die ZV S = i=1 Xi mit zufälliger oberer Grenze eine zufällige Summe. PY Satz 6.4 Für die zufällige Summe S = i=1 Xi gilt, falls EY und EXi endlich sind: ES Var S = EY · EX1 , = EY · Var X1 + Var Y · (EX1 )2 . (6.37) Bemerkung: Die Formel für den Erwartungswert entspricht der Intuition: mittlere Anzahl mal mittlere Größe der Summanden. Um ES zu berechnen, zerlegt man das Ereignis {S = k} nach allen möglichen Werten von Y , d.h. nach {Y = n}, n = 0, 1, 2, . . . . Nach der Formel der Totalen Wahrscheinlichkeit erhält man somit ES = = X k ∞ X n=0 k · P (S = k) = X k· k P (Y = n) · X ∞ X P (Y = n) · P (S = k|Y = n) n=0 k · P (S = k|Y = n) k Die innere Summe stellt den sogenannten “bedingten Erwartunsgwert” dar: Definition 6.14 Sind S : Ω → Ω0 ⊂ R und Y : Ω → Ω00 diskrete ZV und existiert der Erwartungswert ES, dann heißt X E(S|Y = n) := k · P (S = k|Y = n) (6.38) k∈Ω0 der bedingte Erwartungswert von S unter Y = n und es gilt die Formel vom iterierten Erwartungswert: X ES = P (Y = n) · E(S|Y = n). (6.39) n∈Ω00 (Falls ES existiert, dann existiert auch E(S|Y = n). Entsprechend heißt, falls E(S|Y = n) endlich ist, Var (S|Y = n) := E(S 2 |Y = n) − [E(S|Y = n)]2 (6.40) 6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ47 die bedingte Varianz von S unter Y = n und es gilt X P (Y = n) · E(S 2 |Y = n) − (ES)2 . Var S = (6.41) n∈Ω00 Bemerkungen. 1. Mit g(n) := E(S|Y = n) kann man die Formel (6.39) auch als X ES = g(n) · P (Y = n) = Eg(Y ) n∈Ω00 schreiben. g(Y ) ist eine ZV die man auch als E(S|Y ) bezeichnet und welche nur noch den von Y stammenden Teil der Zufälligkeit von S besitzt (über den von den Xi stammenden Teil der Zufälligkeit wird dabei gemittelt). 2. Die Bedingung Y = n gehört stets zum Erwartungs- bzw. Varianzoperator, es gibt keine “bedingte ZV”, z.B. “S|Y = n”. Berechnen Pn wir nun den Erwartungswert der zufälligen Summe aus Satz 6.4. Sei Sn = i=1 Xi . Nach der Formel der bedingten Wahrscheinlichkeit, unter Berücksichtigung der Unabhängigkeit der ZV, gilt: P (S = k|Y = n) P (S = k, Y = n) P (Sn = k, Y = n) P (Sn = k)P (Y = n) = = P (Y = n) P (Y = n) P (Y = n) = P (Sn = k). = Eingesetzt in (6.38) ergibt sich E(S|Y = n) = X k k · P (Sn = k) = ESn = n X EXi = n · EX1 . i=1 Nach erneutem Einsetzen in (6.39) folgt X ES = P (Y = n) · n · EX1 = EY · EX1 . n Die Formel für die Varianz der zufäligen Summe beweist man analog. 6.9 Gesetze der großen Zahlen und Zentraler Grenzwertsatz Bei der Durchführung einer sehr großen Anzahl von Wiederholungen eines Zufallsexperiments, z.B. Münzwurf, erwartet man dass die relativen Häufigkeiten der Ergebnisse gegen die entsprechenden (berechneten) Wahrscheinlichkeiten konvergieren. Sei A ein solches Ereignis mit Wahrscheinlichkeit P (A) und Xi = 1 falls A im i-ten Versuch eintritt und Xi = 0 sonst. Dann ist EXi = 0 · P (Xi = 0) + 1 · P (Xi = 1) = P (Xi = 1) = P (A). 48 KAPITEL 6. KENNGRÖSSEN Bei n Wiederholungen des ZufallsexperimentsP mit Ausgängen Xi , i = 1, . . . , n n “erwartet” man dass der arithmetische Mittel n1 i=1 Xi den gemeinsamen Erwartungswert EX1 approximiert (alle ZV Xi sind identisch verteilt). Im Folgenden werden diese Eigenschaften genauer präzisiert und verschiedene Konvergenzbegriffe eingeführt. Definition 6.15 Es seien Y und Y1 , Y2 , . . . ZV über (Ω, A, P ) mit Werten in R. f.s. (a) Yn konvergiert fast sicher gegen Y , kurz Yn → Y , wenn P ({ω ∈ Ω : lim Yn (ω) = Y (ω)}) = 1, n→∞ d.h. wenn höchstens innerhalb einer Ausnahmemenge N ∈ A mit P (N ) = 0 der Grenzwert limn→∞ Yn (ω) nicht existiert oder 6= Y (ω) ist. st (b) Yn konvergiert stochastisch gegen Y , kurz Yn → Y , wenn lim P (|Yn − Y | ≥ ε) = 0 für alle ε > 0, n→∞ d.h. für festes ε > 0 und für jedes n darf es eine Ausnahmemenge Mn geben, auf der |Yn − Y | > ε gilt, aber mit P (Mn ) → 0 für große n. (r) (c) Yn konvergiert im r-ten Mittel gegen Y , kurz Yn → Y , mit 1 ≤ r < ∞, wenn E|Yn − Y |r → 0. Für r = 1 sagt man auch “konvergiert im Mittel”, für r = 2 “im quadratischen Mittel”. V (d) Yn konvergiert nach Verteilung gegen Y , kurz Yn → Y , wenn F Yn (x) → F Y (x) für alle x mit F Y stetig im Punkt x. Bemerkungen • Die Einschränkung “F Y stetig im Punkt x” ist nötig, wie man im folgenden Beispiel sehen kann. Sei Yn eine Folge von N (0, 1/n2 )-verteilten ZV. Da die Streuung um den Mittelwert 0 immer kleiner wird (konvergent gegen 0), erwartet man als Grenzwert der Folge (Yn ) (im geeigneten Sinn) die konstante ZV Y = 0. Aber F Yn (y) = Φ(ny) konvergiert an der Stelle y = 0 gegen Φ(0) = 0.5 6= F Y (0) = 1 (und 6= F Y (0−) = 0). • Es gelten die Implikationen: f.s. st V Yn → Y =⇒ Yn → Y =⇒ Yn → Y , (r 0 ) (r) st Für 1 ≤ r ≤ r0 gilt: Yn → Y =⇒ Yn → Y =⇒ Yn → Y . Die letzte Implikation ergibt sich aus dem folgenden Satz: 6.9. GESETZE DER GROSSEN ZAHLEN UND ZENTRALER GRENZWERTSATZ49 Satz 6.5 Für jede ZV Y : Ω → R und r ≥ 1, ε > 0 gilt: P (|Y | > ε) ≤ E|Y |r , εr genannt auch Chebychev-Markov-Ungleichung. Existiert EY 2 , so gilt für r = 2 P (|Y − EY | ≥ ε) ≤ Var Y . ε2 Definition 6.16 Man sagt: Für die ZV X1 , X2 , . . . mit EX i < ∞ gilt das P n starke bzw. das schwache Gesetz der großen Zahlen, wenn n1 i=1 (Xi − EXi ) fast sicher bzw. stochastisch gegen 0 konvergiert. Wenn die Xi identisch verteilt sind, dann gilt n n 1X 1X f.s. st Xi → EX1 bzw. Xi → EX1 . n i=1 n i=1 Satz 6.6 (Gesetze der großen Zahlen) Seien X1 , X2 , . . . identisch verteilt mit VarXi < ∞. (a) Sind die Xi auch stochastisch unabhängig, dann gilt das starke Gesetz der großen Zahlen (und damit das schwache). (b) Sind die Xi nur paarweise unkorreliert, d.h. Kov(Xi , Xj ) = 0 für alle i 6= j, dann gilt das schwache Gesetz der großen Zahlen. Aus den Eigenschaften der Normalverteilungen ist folgendes bekannt: Wenn X −a X ∼ N (a, σ 2 ) dann gilt =: Y ∼ N (0, 1) (Standard-Normalverteilung). σ Pn Dies gilt analog für Summen von ZV, allerdings nur approximativ. Sn = i=1 Xi bezeichne die Summe der stochastisch unabhängigen, identischverteilten ZV Xi . Dann gilt der zentrale Grenzwertsatz: Satz 6.7 (Zentraler Grenzwertsatz) Sind die ZV X1 , X2 , . . . stochastisch unabhängig und identisch verteilt mit endlicher Streuung, dann konvergieren die “standardisierten” Teilsummen nach Verteilung gegen eine N (0, 1)-verteilte ZV Y , d.h.: Pn Xi − n · EX1 V Sn − ESn = i=1√ −→ Y mit P Y = N (0, 1). (6.42) StrSn n StrX1