Teil V Wahrscheinlichkeitsrechnung 359 / 472 Ziel der Wahrscheinlichkeitsrechnung Aussagen über Experimente und Prozesse mit „unsicherem“ Ausgang. Beispiele Würfeln Ziehen von Losen aus einer Urne Glücksspiele (Lotto, Roulette,. . . ) Lebensdauer von technischen Bauteilen Genauigkeit von Messungen Literatur: U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, 1991. 360 / 472 Experiment: Wurf eines Würfels Mögliche Ergebnisse: Zahlen 1, 2, 3, 4, 5, 6 Annahme: Alle Ergebnisse sind „gleich wahrscheinlich“ Das bedeutet: Wenn man „sehr oft“ würfelt, treten alle Ergebnisse „gleich häufig auf“, jedes Ergebnis tritt also in etwa 1/6–tel aller Fälle auf. Abstraktion des Experimentes: Menge der möglichen Ergebnisse: Ω = {1, 2, 3, 4, 5, 6} Zuordnung von Wahrscheinlichkeiten: p({1}) = p({2}) = p({3}) = p({4}) = p({5}) = p({6}) = 1/6 361 / 472 Frage: Was ist die Wahrscheinlichkeit für eine gerade Zahl als Ergebnis? Das Ereignis „gerade Zahl“ entspricht der Teilmenge M = {2, 4, 6} ⊂ Ω des Ergebnisraums. Wahrscheinlichkeit: p(M) = 1/2 = p({2}) + p({4}) + p({6}). => Zuordnung einer Wahrscheinlichkeit zu allen Teilmengen von Ω. Interpretation der Wahrscheinlichkeit: Wahrscheinlichkeit p(M) = a bedeutet: Bei sehr häufiger Wiederholung des Experimentes tritt der Fall „Ergebnis liegt in M“ etwa im a–fachen aller Fälle auf. Bezeichnung: Die Menge P(Ω) = {M | M ⊂ Ω} aller Teilmengen von Ω heißt Potenzmenge von Ω. 362 / 472 Definition Ein endlicher Wahrscheinlichkeitsraum (Ω, p) besteht aus einer endlichen Menge Ω von möglichen Ergebnissen einer Abbildung p : P(Ω) → [0, 1] mit folgenden Eigenschaften: p(Ω) = 1 M1 , M2 ⊂ Ω, M1 ∩ M2 = ∅ => p(M1 ∪ M2 ) = p(M1 ) + p(M2 ) (Additivität) Die Menge Ω heißt Ergebnismenge oder Ergebnisraum. Die Abbildung p : P(Ω) → [0, 1] heißt Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß. 363 / 472 Bemerkungen Für die leere Menge ∅ gilt p(∅) = 0 denn wegen Ω ∩ ∅ = ∅ folgt 1 = p(Ω) = p(Ω ∪ ∅) = p(Ω) + p(∅) = 1 + p(∅) Analog folgt für jede Menge M ⊂ Ω p(M) = 1 − p(Ω \ M) Bei einem endlichen Wahrscheinlichkeitsraum ist p eindeutig definiert durch die Elementarwahrscheinlichkeiten p({ω}) für ω ∈ Ω. Für M ⊂ Ω gilt: X p(M) = p({ω}) ω∈M 364 / 472 Beispiel: Wurf zweier Würfel 2 Möglichkeiten für die Ergebnismenge: 1 Mit Berücksichtigung der Reihenfolge: Ω1 = (i, j) | i, j ∈ {1, . . . , 6} Die Ergebnisse {(1, 2)} und {(2, 1)} sind verschieden Zuordnung von Elementarwahrscheinlichkeiten: 1 1 1 · = 6 6 36 (36 gleich wahrscheinliche Ergebnisse) p1 ({(i, j)}) = 2 Ohne Berücksichtigung der Reihenfolge: Ω2 = (i, j) | i, j ∈ {1, . . . , 6}, i ≤ j Elementarwahrscheinlichkeiten: ? 365 / 472 Frage: Sind bei einem Wurf zweier Würfel die Ergebnisse „1 und 1“ und „1 und 2“ (ohne Berücksichtigung der Reihenfolge) „gleich wahrscheinlich“ oder nicht? Antwort: Wir wählen als Ergebnisraum Ω1 , also den eines Wurfes zweier Würfel mit Berücksichtigung der Reihenfolge. 1 „1 und 1“: p1 ({(1, 1)} = 36 „1 und 2“: p1 ({(1, 2), (2, 1)}) = 2 · 1 36 = 1 18 366 / 472 Laplacesches Zufallsexperiment Ein Zufallsexperiment, dessen Ergebnismenge Ω aus einer endlichen Zahl von Elementen mit gleicher Wahrscheinlichkeit besteht, heißt Laplacesches Zufallsexperiment. Der zugehörige Wahrscheinlichkeitsraum heißt ein Laplacescher Wahrscheinlichkeitsraum. Die zugehörige Wahrscheinlichkeitsverteilung p heißt Gleichverteilung oder Laplace–Verteilung oder kurz L(Ω)–Verteilung. Dabei gilt: #(M) p(M) = #(Ω) wenn #(M) die Anzahl der Elemente der Menge M bezeichnet. Der Wurf zweier Würfel ist ein Laplacesches Zufallsexperiment, wenn man als Ergebnismenge Ω1 wählt, also die Reihenfolge berücksichtigt. 367 / 472 Urnenexperimente Aus einer Urne mit n durchnummerierten Kugeln / Losen zieht man sukzessive m Kugeln / Lose. 2 Varianten: mit Zurücklegen: Nach jedem Zug wird die Nummer der gezogenen Kugel notiert und die Kugel zurückgelegt ohne Zurücklegen: Gezogene Kugeln werden nicht wieder zurückgelegt. Jede Zahl kann dann höchstens einmal auftreten und man kann maximal n mal ziehen. Für jede Variante kann man die Fälle mit Berücksichtigung der Reihenfolge ohne Berücksichtigung der Reihenfolge unterscheiden. 368 / 472 Urnenexperiment mit Zurücklegen mit Reihenfolge Experiment „m aus n“ Ergebnismenge: Ω = {1, 2, . . . , n}m = (n1 , n2 , . . . , nm ) | nj ∈ {1, . . . , n} für j = 1, . . . , m Anzahl der Elemente: #(Ω) = n · · · · · n} = nm | · n {z m mal Elementarwahrscheinlichkeiten: 1 nm (alle Ergebnisse sind gleich wahrscheinlich) p({ω}) = 369 / 472 Urnenexperiment ohne Zurücklegen mit Reihenfolge Experiment „m aus n“ Ergebnismenge m Ω = ω ∈ {1, . . . , n} | ωi 6= ωj für i 6= j Anzahl der Elemente: #(Ω) = n(n − 1)(n − 2) · · · (n − m + 1) = n! (n − m)! mit n! = 1 · 2 · · · · · n Elementarwahrscheinlichkeiten: p({ω}) = (n − m)! n! 370 / 472 Beispiel 1 Anzahl der Permutationen (Vertauschungen) einer Menge mit n Elementen Darstellung als Urnenexperiment: Sukzessive Auswahl „n aus n“ ohne Zurücklegen mit Reihenfolge => Es gibt n! Permutationen Satz Die Anzahl der Permutationen einer n–elementigen Menge ist n!. 371 / 472 Beispiel 2 Wahrscheinlichkeit für 5 aufeinanderfolgende Zahlen beim Wurf von 5 Würfeln. Darstellung als Urnenexperiment: Statt „einmal 5 Würfel“ kann man „5 mal einen Würfel“ werfen Jeder Wurf entspricht einem Zug einer Zahl aus einer Urne mit 6 Elementen => Urnenexperiment „5 aus 6“ 372 / 472 Ereignis „5 aufeinanderfolgende Zahlen“ bei Ergebnismenge Ω = {1, 2, . . . , 6}5 (mit Berücksichtigung der Reihenfolge!): M = ω ∈ Ω | {ω1 , . . . , ω5 } = {1, 2, 3, 4, 5} oder {ω1 , . . . , ω5 } = {2, 3, 4, 5, 6} Anzahl: #(M) = 2 · 5! Wahrscheinlichkeit: #(M) 2 · 5! 5 5 P(M) = = = = 0,0308 · · · = #(Ω) 65 162 2 · 34 Ein Ereignis bezeichnet eine Teilmenge der Ergebnismenge 373 / 472 Beispiel 3 Gewinnwahrscheinlichkeit beim Lotto „6 aus 49“ Urnenexperiment „6 aus 49“ ohne Zurücklegen ohne Reihenfolge Vorhandener Tipp: {a1 , a2 , a3 , a4 , a5 , a6 } Ereignis „6 Richtige“ bei Ergebnisraum Ω = ω ∈ {1, . . . , 49}6 | ωi 6= ωj für i 6= j (also mit Berücksichtigung der Reihenfolge!): M = ω ∈ Ω | {ω1 , . . . , ω6 } ∈ {a1 , a2 , . . . , a6 } Anzahl: #(M) = 6! (Anzahl der Permutationen von {a1 , a2 , . . . , a6 }) Wahrscheinlichkeit: #(M) 1·2·3·4·5·6 1 p(M) = = = #(Ω) 49 · 48 · 47 · 46 · 45 · 44 13.983.816 374 / 472 Verallgemeinerung: Auswahl „m aus n“ Ziel: Anzahl der Möglichkeiten, m Elemente aus n Elementen ohne Berücksichtigung der Reihenfolge auszuwählen. Mit Berücksichtigung der Reihenfolge: Urnenexperiment „m aus n“ ohne Zurücklegen n! => Möglichkeiten. (n − m)! Jedes Ergebnis ohne Berücksichtigung der Reihenfolge entspricht m! Ergebnissen mit Berücksichtigung der Reihenfolge Resultat: Es gibt n! n = m (n − m)!m! Möglichkeiten, m Elemente aus n Elementen ohne Berücksichtigung der Reihenfolge auszuwählen. 375 / 472 Urnenexperiment ohne Zurücklegen ohne Reihenfolge Ergebnisraum für Urnenexperiment „m aus n“: Ω = ω = (ω1 , . . . , ωm ) ∈ {1, . . . , n}m | ω1 < ω2 < · · · < ωm (Anordnung der Ergebnisse in aufsteigender Reihenfolge) Anzahl der Elemente: Entspricht der Anzahl der Möglichkeiten, m Elemente aus n Elementen auszuwählen: n #(Ω) = m Elementarwahrscheinlichkeiten: 1 (n − m)!m! p({ω}) = = n! n m 376 / 472 Urnenexperiment mit Zurücklegen ohne Reihenfolge Mögliche Wahl der Ergebnismenge: Ω = ω = (ω1 , . . . , ωm ) ∈ {1, . . . , n}m | ω1 ≤ ω2 ≤ · · · ≤ ωm (Anordnen der Ergebnisse in aufsteigener Reihenfolge) Anzahl der Elemente: Nicht direkt ersichtlich. Man kann eine bijektive Abbildung e= ω Φ:Ω→Ω e ∈ {1, . . . , n + m − 1}m | ω e1 < ω e2 < · · · < ω em Φ(ω) = ω e mit ω ej = ωj + j − 1 für j = 1, . . . , m konstruieren. Beispiel: Φ(1, 1, 2, 3, 3, 5) = (1, 2, 4, 6, 7, 10) Es gilt: n + m − 1 e = #(Ω) = #(Ω) m 377 / 472 Die Elementarwahrscheinlichkeiten sind hier nicht alle gleich, d.h. Ω ist kein Laplacescher Ergebnisraum: Z.B. haben für n = 6, m = 2 (Wurf zweier Würfel) die Ergebnisse (1, 2) und (1, 1) unterschiedliche 1 1 Wahrscheinlichkeiten p({(1, 2)}) = 18 , p({(1, 1)}) = 36 . Fazit: Es ist einfacher, als Ergebnismenge die eines Urnenexperimentes mit Zurücklegen mit Reihenfolge zu wählen und das Ereignis als Menge aller Permutationen der Elemente des Ereignisses ohne Berücksichtigung der Reihenfolge zu definieren. 378 / 472 Zusammenfassung Zur Bestimmung der möglichen Kombinationen, die beim Ziehen von m aus n Kugeln entstehen, muss unterschieden werden, ob die Zugreihenfolge berücksichtigt wird oder nicht und ob Wiederholungen möglich sind oder nicht. Die Kombinationsmöglichkeiten berechnen sich wie folgt: mit Reihenfolge mit Wiederholungen ohne Wiederholungen nm n(n − 1) · · · (n − m + 1) ohne Reihenfolge n+m−1 m n m 379 / 472 Hypergeometrische Verteilung Aus einer Urne mit n roten und m schwarzen Kugeln wählen wir zufällig k Kugeln aus. Wie groß ist die Wahrscheinlichkeit für genau ` rote Kugeln als Ergebnis? Mathematische Beschreibung: Nummerierung der Kugeln von 1 bis n für rote und n + 1 bis n + m für schwarze Kugeln. Urnenexperiment „k aus n + m“ ohne Zurücklegen ohne Reihenfolge. Ergebnisraum: Ω = ω ∈ {1, . . . , n + m}k | ω1 < ω2 < . . . < ωk n+m #(Ω) = k 380 / 472 Das Ereignis M = „` rote Kugeln“ setzt sich zusammen aus: Auswahl von ` roten aus n roten Kugeln n => Möglichkeiten ` Auswahl von k − ` schwarzen aus m schwarzen Kugeln m => Möglichkeiten k −` n m Insgesamt: #(M) = ` k −` Wahrscheinlichkeit: n m ` k −` p(M) = n+m k (für 0 ≤ ` ≤ min{k , n}) 381 / 472 Direkte Beschreibung: Wahrscheinlichkeitsraum (Ω, p) mit Ω = {0, . . . , n}, ω ∈ Ω = Anzahl der roten Kugeln n m ` k −` p({`}) = n+m k Diese Verteilung heißt hypergeometrische Verteilung oder H(n, m, k )–Verteilung 382 / 472 Das Galton–Brett Schräg / senkrecht gestellte Platte mit n Reihen aus Hindernissen/Nägeln, an denen eine herunterfallende Kugel jeweils nach links bzw. rechts abgelenkt wird. Nach den n Reihen befinden sich von 0 bis n durchnummerierte Behälter, in denen die Kugel aufgefangen wird. 0 1 2 3 4 5 383 / 472 Interpretation als Urnenexperiment: Auswahl „n aus 2“ mit Zurücklegen, wobei eine Ziffer „1“ einer Ablenkung nach links und „2“ einer Ablenkung nach rechts entspricht. Urnenexperiment mit Reihenfolge => Ergebnisraum: Ω = {1, 2}n Anzahl Elemente: #(Ω) = 2n Elementarwahrscheinlichkeit: p({ω}) = 2−n 384 / 472 Frage: Mit welcher Wahrscheinlichkeit fällt die Kugel in den k –ten Behälter? k –ter Behälter bedeutet: k Ablenkungen nach rechts, n − k Ablenkungen nach links. Aufteilen der k Ablenkung nach rechts auf die n Stufen: Auswahl „k aus n“ (ohne Zurücklegen ohne Reihenfolge) n => Möglichkeiten. k n => Wahrscheinlichkeit für Behälter k : 2−n k Wenn man als Ergebnisse die Nummer des Behälters wählt, e = {0, . . . , n} hat man die Ergebnismenge Ω n e({k }) = 2−n und die Elementarwahrscheinlichkeiten p k 385 / 472 Verallgemeinerung des Galton–Bretts Unterschiedliche Wahrscheinlichkeiten: Wahrscheinlichkeit p für Ablenkung nach rechts, q = 1 − p für Ablenkung nach links. Ergebnisraum: Ω = {1, 2}n Einzelwahrscheinlichkeit für Ereignis ω ∈ Ω mit k mal „2“ (Ablenkung nach rechts) und n − k mal „1“ (Ablenkung nach links): p({ω}) = pk (1 − p)n−k für ω = Permutation von (1, . . . , 1, 2, . . . , 2) | {z } | {z } n−k mal k mal Wahrscheinlichkeit für „Kugel fällt in Behälter k “: n e({k }) = p pk (1 − p)n−k k 386 / 472 Direkte Beschreibung: Wahrscheinlichkeitsraum (Ω, p) mit Ω = {0, . . . , n} (Menge der Behälternummern) n p({k }) = pk (1 − p)n−k k Diese Verteilung heißt Binomialverteilung oder B(n, p)–Verteilung. Anwendung: Anzahl eingetretener Ereignisse bei mehrfacher Wiederholung eines Zufallsexperiments 387 / 472 Beispiel In einem Hörsaal sitzen 105 Personen. Die Zahl derer, die heute Geburtstag haben, ist B(n, p)–verteilt 1 mit n = 105, p = 365 . Die Wahrscheinlichkeit, dass genau zwei Personen heute Geburtstag haben, ist 1 2 364 103 105 = 0,03089 · · · ∼ 3% p({2}) = 2 365 365 388 / 472 Zufallsvariablen Bei vielen Zufallsexperimenten ist nicht das genaue Ergebnis ω ∈ Ω von Interesse, sondern eine bestimmte Größe X = X (ω), die von ω abhängt. Beispiel: Beim Galton–Brett ist am Ende nicht der durch ω ∈ {1, 2}n codierte Weg interessant, sondern die Nummer k ∈ {0, . . . , n} des Behälters, in den die Kugel am Ende fällt. Definition Sei (Ω, p) ein Wahrscheinlichkeitsraum und X eine Menge. Dann heißt eine Funktion X : Ω → X Zufallsvariable. Die durch pX (A) := p({ω ∈ Ω | X (ω) ∈ A}) definierte Funktion pX : P(X ) → [0, 1] heißt Verteilung der Zufallsvariablen. 389 / 472 Beispiel 1: Wurf zweier Würfel Wahrscheinlichkeitsraum (Ω, p) mit Ω = {1, . . . , 6}2 , 1 p({(i, j)}) = 36 (d.h. mit Reihenfolge) Beispiele für Zufallsvariablen: X : Ω → X := {ω = (ω1 , ω2 ) ∈ Ω | ω1 ≤ ω2 } ( (i, j) für i ≤ j X ((i, j)) = (j, i) für j ≤ i (Abbildung des Ergebnisses mit Reihenfolge auf das Ergebnis ohne Reihenfolge) X : Ω → X := {2, . . . , 12}, X ((i, j)) = i + j (Summe der Augenzahlen) 390 / 472 Beispiel 2: Galton–Brett Ω = {1, 2}n p({ω}) = pk (1 − p)n−k für ω = Permutation von (1, . . . , 1, 2, . . . , 2) | {z } | {z } n−k mal n X Zufallsvariable X : Ω → {0, . . . , n}, X ({ω}) = k mal (ωj − 1) j=1 (Nummer des Behälters, in den die Kugel fällt) n Verteilung von X : pX ({k }) = pk (1 − p)n−k k (Binomialverteilung) 391 / 472 Bemerkung Statt eine Zufallsvariable einzuführen, könnte man auch direkt (X , pX ) als neuen Wahrscheinlichkeitsraum definieren. Die Einführung von Zufallsvariablen ist trotzdem sinnvoll, weil man 1 dadurch „komplizierte“ Wahrscheinlichkeitsräume durch Zufallsvariablen über „einfache“ Wahrscheinlichkeitsräume ersetzen kann 2 verschiedene Varianten eines Zufallsexperimentes durch verschiedene Zufallsvariablen über demselben Wahrscheinlichkeitsraum beschreiben kann 392 / 472 Bedingte Wahrscheinlichkeiten Häufig hat man die Aufgabe, aus der Kenntnis oder Annahme eines Ereignisses die Wahrscheinlichkeit eines anderen Ereignisses abzuschätzen. Beispiel: Test für eine Krankheit. Von einer Krankheit ist bekannt, dass sie bei 1% aller Personen auftritt. Ein Testverfahren für diese Krankheit liefert ein positives Ergebnis bei 98% aller kranken und 2% aller gesunden Personen Frage: Wie groß ist die Wahrscheinlichkeit, dass eine Person mit positivem Testergebnis wirklich krank ist? 393 / 472 Ereignisraum Ω aller Personen Elementarwahrscheinlichkeit: p({ω}) = Wahrscheinlichkeitsverteilung: p(M) = 1 #(Ω) . #(M) #(Ω) für M⊂Ω Teilmengen K ⊂ Ω der kranken Personen G ⊂ Ω der gesunden Personen P ⊂ Ω der Personen mit positivem Testergebnis K ∩ P der Kranken mit positivem Testergebnis G ∩ P der Gesunden mit positivem Testergebnis Wahrscheinlichkeit, dass eine Person mit positivem Testergebnis gesund ist: p(G|P) = #(G ∩ P) #(G ∩ P) #(Ω) p(G ∩ P) = · = #(P) #(Ω) #(P) p(P) 394 / 472 Definition Sei (Ω, p) ein Wahrscheinlichkeitsraum, A, B ⊂ Ω zwei Ereignisse. Dann ist p(A ∩ B) p(A|B) = p(B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B Für unser Beispiel gilt 0,02 · 0,99 · #(Ω) = 0,0198 p(G ∩ P) = #(Ω) p(P) = 0,02 · 0,99 + 0,98 · 0,01 = 0,0296 0,0198 p(G|P) = = 0, 66 · · · > 1/2 ! 0,0296 Das heißt, eine Person mit positivem Testergebnis ist (bei diesem Beispiel) mit größerer Wahrscheinlichkeit gesund als krank! 395 / 472 Rechenregeln für bedingte Wahrscheinlichkeiten Satz Sei (Ω, p) ein Wahrscheinlichkeitsraum, B ⊂ Ω. Dann gilt: (i) pB (A) := p(A|B) ist ein Wahrscheinlichkeitsmaß auf Ω, d.h. p(Ω|B) = 1 und für A1 , A2 ⊂ Ω mit A1 ∩ A2 = ∅ gilt p(A1 ∪ A2 |B) = p(A1 |B) + p(A2 |B) (ii) Formel von der totalen Wahrscheinlichkeit: Für B1 , B2 ⊂ Ω mit B1 ∪ B2 = Ω und B1 ∩ B2 = ∅ sowie A ⊂ Ω gilt: p(A) = p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) (iii) Formel von Bayes: Für A ⊂ Ω mit P(A) 6= 0 und B1 , B2 wie in (ii) folgt p(B1 |A) = p(A|B1 ) p(B1 ) p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) 396 / 472 Beweis p(Ω ∩ B) p(B) = =1 p(B) p(B) und für A1 , A2 ⊂ Ω, A1 ∩ A2 = ∅: p((A1 ∩ B) ∪ (A2 ∩ B)) p((A1 ∪ A2 ) ∩ B) p(A1 ∪ A2 |B) = = p(B) p(B) p(A1 ∩ B) + p(A2 ∩ B) p(A1 ∩ B) p(A2 ∩ B) + = = p(B) p(B) p(B) = p(A1 |B) + p(A2 |B) Zu (i): Es gilt p(Ω|B) = Zu (ii): Mit p(A|Bi )p(Bi ) = P(A ∩ Bi ) folgt p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) = p(A ∩ B1 ) + p(A ∩ B2 ) = p((A ∩ B1 ) ∪ (A ∩ B2 )) = p(A ∩ (B1 ∪ B2 )) = p(A) Zu (iii): Mit (ii) folgt p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) = p(A) und dann mit p(A|B1 ) p(B1 ) = p(A ∩ B1 ) p(A|B1 )p(B1 ) p(A ∩ B1 ) = p(B1 |A) = p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) p(A) 397 / 472 Beispiel Ziehen zweier Kugeln ohne Zurücklegen aus einer Urne mit zwei roten und drei schwarzen Kugeln Frage: Wie groß ist die Wahrscheinlichkeit, dass beide Kugeln dieselbe Farbe haben? Definition von Ereignissen: A — beide Kugeln haben dieselbe Farbe B1 — die erste gezogene Kugel ist rot B2 — die erste gezogene Kugel ist schwarz Es gilt: B1 ∩ B2 = ∅, B1 ∪ B2 = Ω Wahrscheinlichkeiten p(B1 ) = 2/5, p(B2 ) = 3/5 398 / 472 Bedingte Wahrscheinlichkeiten: p(A|B1 ) = 1/4 (Auswahl einer roten Kugel aus einer Urne mit einer roten und drei schwarzen Kugeln) p(A|B2 ) = 1/2 (Auswahl einer schwarzen Kugel aus einer Urne mit zwei roten und zwei schwarzen Kugeln) Formel von der totalen Wahrscheinlichkeit => p(A) = p(A|B1 ) p(B1 ) + p(A|B2 ) p(B2 ) 1 2 1 3 2+6 2 = · + · = = 4 5 2 5 20 5 399 / 472 Stochastische Unabhängigkeit Zwei Ereignisse A und B sollen stochastisch unabhängig heißen, wenn die Wahrscheinlichkeit für das Eintreten von A unabhängig davon ist, ob (gleichzeitig) B eintritt oder nicht. Konkret muss dann gelten: p(A|B) = p(A) Dies ist äquivalent zu p(A ∩ B) = p(A) bzw. p(A ∩ B) = p(A) p(B) p(B) Definition Sei (Ω, p) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig ⇔ p(A ∩ B) = p(A) p(B) 400 / 472 Beispiel Eine Münze wird zweimal geworfen. Beschreibung als Urnenexperiment: Auswahl „2 aus 2“ mit Zurücklegen und Reihenfolge. Ergebnisraum: Ω = {1, 2}2 , #(Ω) = 22 = 4 Dabei bedeutet z.B. ωj = 1 „Zahl“ und ωj = 2 „Bild“ beim j–ten Wurf. Einzelwahrscheinlichkeit: p({ω}) = 1/4. Ereignisse: A — „Zahl“ beim 1. Wurf, A = {(1, 1), (1, 2)} B — „Zahl“ beim 2. Wurf, B = {(1, 1), (2, 1)} C — dasselbe Ergebnis beim 1. und 2. Wurf, C = {(1, 1), (2, 2)} Es gilt p(A) = p(B) = p(C) = 1/2 und p(A ∩ B) = 1/4, p(A ∩ C) = 1/4, p(B ∩ C) = 1/4 Die Ereignisse A, B, C sind also paarweise unabhängig. 401 / 472 Frage: Gilt auch p(A ∩ B ∩ C) = p(A) p(B) p(C)? Antwort: A ∩ B ∩ C = {(1, 1)} p(A ∩ B ∩ C) = 1/4 6= p(A) p(B) p(C) Definition Sei (Ω, p) ein Wahrscheinlichkeitsraum. Ereignisse A1 , A2 , . . . , Am ⊂ Ω heißen (stochastisch) unabhängig ⇔ für jede Auswahl Ai1 , . . . , Ai` mit i1 , . . . , i` ∈ {1, . . . , m}, ij 6= ik für j 6= k , gilt p(Ai1 ∩ Ai2 ∩ · · · ∩ Ai` ) = p(Ai1 ) p(Ai2 ) · · · p(Ai` ) Drei Ereignisse A, B, C sind also unabhängig, wenn p(A ∩ B) = p(A) p(B), p(A ∩ C) = p(A) p(C), p(B ∩ C) = p(B) p(C), p(A ∩ B ∩ C) = p(A) p(B) p(C). Beim Beispiel des zweifachen Wurfes zweier Münzen sind die Ereignisse A = {(1, 1), (1, 2)}, B = {(1, 1), (2, 1)} und C = {(1, 1), (2, 2)} nicht stochastisch unabhängig. 402 / 472 Diskrete Wahrscheinlichkeitsräume Bei vielen Anwendungen hat man abzählbar unendlich viele mögliche Ereignisse. Beispiel: Wir würfeln einen Würfel solange, bis zum ersten mal eine „Sechs“ auftritt. Wie groß ist die Wahrscheinlichkeit, dass das beim k –ten Wurf der Fall ist? Antwort: Bei den ersten k − 1 Würfen darf jeweils keine 6 auftreten (das passiert jeweils mit Wahrscheinlichkeit 5/6) beim k –ten Wurf muss eine 6 auftreten (das passiert mit Wahrscheinlichkeit 1/6. k −1 5 1 Folgerung: p({k }) = 6 6 Die möglichen Ergebnisse k sind hier nicht beschränkt, der zugehörige Wahrscheinlichkeitsraum ist (Ω, p) mit Ω = N. 403 / 472 Definition Ein (unendlicher) diskreter Wahrscheinlichkeitsraum (Ω, p) ist definiert durch eine abzählbare Ergebnismenge Ω = {ωj | j ∈ N} und eine Wahrscheinlichkeitsverteilung p : P(Ω) → [0, 1] mit den Eigenschaften p(Ω) = 1 M1 , M2 ⊂ Ω, M1 ∩ M2 = ∅ => p(M1 ∪ M2 ) = p(M1 ) + p(M2 ) (Additivität) Die Wahrscheinlichkeitsverteilung p ist eindeutig definiert durch die Einzelwahrscheinlichkeiten p({ω}) für ω ∈ Ω. Dabei gilt X p(A) = p({ω}) p(Ω) = ω∈A ∞ X p({ωj }) = 1 j=1 404 / 472 Bemerkungen Bei der Summe X p({ω}) ω∈A handelt es sich im Fall #(A) = ∞ um den Grenzwert einer absolut konvergenten Reihe. Bei absolut konvergenten Reihen hängt der Grenzwert nicht von der Reihenfolge der Summanden ab. Einen endlichen Wahrscheinlichkeitsraum bezeichnet man ebenfalls als diskreten Wahrscheinlichkeitsraum. Die bisher eingeführten Begriffe wie bedingte Wahrscheinlichkeit und unabhängige Ereignisse und deren Eigenschaften gelten auch für diskrete Wahrscheinlichkeitsräume. 405 / 472 Die Geometrische Verteilung Wir wiederholen ein Zufallsexperiment mit Erfolgswahrscheinlichkeit q so lange, bis zum ersten Mal der Erfolg eintritt. Sei k die Anzahl der Versuche bis zum ersten Erfolg. Es gilt: p({k }) = (1 − q)k −1 q Diese Verteilung heißt geometrische Verteilung oder G(q)–Verteilung. Der zugehörige Wahrscheinlichkeitsraum ist Ω = N. Anwendungen: Wartezeit bis zum Eintreten eines Ereignisses Lebensdauer von Geräten (d.h. Wartezeit bis zum Ausfall) 406 / 472 Satz Die geometrische Verteilung hat kein Gedächtnis: Für das Ereignis An = {n + 1, n + 2, n + 3, . . .} dass mehr als n Versuche nötig sind, gilt: p(An+m |An ) = p(Am ) Beweis: p(An ) = ∞ X p({k }) = ∞ X (1 − q)k −1 q k =n+1 k =n+1 n = (1 − q) q ∞ X `=0 (1 − q)n q (1 − q) = = (1 − q)n 1 − (1 − q) ` und damit p(An+m ) p(An+m ∩ An ) = p(An ) p(An ) (1 − q)n+m = = (1 − q)m = p(Am ) n (1 − q) p(An+m |An ) = 407 / 472 Die Poisson–Verteilung Ein Zufallsexperiment mit Erfolgswahrscheinlichkeit p werde n mal wiederholt. Die Zufallsvariable X misst die Anzahl der Erfolge. Dann ist X binomialverteilt, und zwar B(n, p)–verteilt. Sei nun n groß und p klein, p = λ/n. Dann gilt: k λ λ n−k n p({X = k }) = 1− k n n n · (n − 1) · · · · · (n − k + 1) λk λ n−k = 1− k! n nk 1 n n−1 n−k +1 k λ n λ −k = · · ··· · λ 1− 1− k ! |n n n n n {z } | {z } | {z } →1 für n→+∞ →e −λ λ →e−λ für n→∞ →1 für n→∞ k k! 408 / 472 k Für p({X = k }) = e−λ λk ! gilt: ∞ X p({X = k }) = e k =0 −λ ∞ X 1 k λ = e−λ eλ = 1 k! k =0 Damit definiert p({X = k }) = e −λ λ k k! eine Wahrscheinlichkeitsverteilung auf Ω = N ∪ {0} Diese Verteilung heißt Poisson–Verteilung oder P(λ)–Verteilung. Die Poisson–Verteilung mit Parameter λ ist eine Näherung für die Binomialverteilung B(n, p) bei großem n und kleinem p mit λ = np. Sie ist anwendbar, wenn man die Anzahl des Auftretens von Ereignissen mit geringer Wahrscheinlichkeit bei vielen Wiederholungen des Zufallsexperimentes abschätzen will. 409 / 472 Beispiel In einem Hörsaal sitzen 105 Personen. Die Zahl derer, die heute Geburtstag haben, ist etwa P(λ)–verteilt mit λ = n p, n = 105, p = 1/365, also λ = 105/365. Die Wahrscheinlichkeit, dass genau zwei Personen heute Geburtstag haben, ist etwa 2 −λ λ p({2}) = e = 0,03103 · · · ∼ 3% 2! Das Ergebnis mit der Binomialverteilung ist (siehe S. 388) p({2}) = 0,03089 · · · Ein Vorteil der Poisson–Verteilung besteht darin, dass man nur einen Parameter λ hat, den man aus nur einer Information / Messung (näherungsweise) bestimmen kann. Man muss nicht p und n wie bei der Binomialverteilung kennen, sondern nur λ = p · n. 410 / 472 Der Erwartungswert Sei X : Ω → R eine reellwertige Zufallsvariable. Wir betrachten den Mittelwert n 1X n X (ωj ) j=1 der Ergebnisse von vielen durch ω1 , . . . , ωn ∈ Ω beschriebenen Wiederholungen des Zufallsexperiments. Sei Ω ein diskreter Wahrscheinlichkeitsraum. Dann approximiert n p({ω}) die Zahl der Ergebnisse ω bei n Versuchen. Es gilt also (für großes n bzw. n → ∞) n X 1X 1X X (ωj ) ∼ X (ω) n p({ω}) = X (ω) p({ω}) n n j=1 ω∈Ω ω∈Ω 411 / 472 Definition Sei (Ω, p) ein diskreter Wahrscheinlichkeitsraum und X : Ω → R eine reellwertige Zufallsvariable. Dann heißt X E(X ) = X (ω) p({ω}) ω∈Ω der Erwartungswert von X . 412 / 472 Erwartungswert der Binomialverteilung Sei X eine B(n, p)–verteilte Zufallsvariable. Dann gilt: n X n E(X ) = k pk (1 − p)n−k k k =0 = n X k =1 n X k n · (n − 1) · · · · · · (n − k + 1) k p (1 − p)n−k k! (n − 1) · · · · · · (n − k + 1) k p (1 − p)n−k (k − 1)! k =1 n X n−1 = np pk −1 (1 − p)n−1−(k −1) k −1 = = np n k =1 n−1 X k =0 n−1 k p (1 − p)n−1−k = np(p + (1 − p))n−1 = np k 413 / 472 Erwartungswert der geometrischen Verteilung Sei X eine G(p)–verteilte Zufallsvariable. Dann gilt: E(X ) = ∞ X k p(1 − p) k −1 = p f (1 − p) mit f (x) := k =1 ∞ X k x k −1 k =0 Gliedweise Integration liefert f (x) = F 0 (x) mit F (x) = ∞ X xk = k =0 => f (x) = F 0 (x) = 1 1−x 1 (1 − x)2 und E(X ) = p f (1 − p) = p p 1 = = (1 − (1 − p))2 p2 p 414 / 472 Erwartungswert der Poisson–Verteilung Für eine P(λ)–verteilte Zufallsvariable gilt E(X ) = ∞ X ke k =0 −λ = λe k −λ λ k! = λe −λ ∞ ∞ X X λk −1 λk −λ = λe (k − 1)! k! k =1 k =0 eλ = λ 415 / 472 Anwendung Auf der Erde habe es in den letzten 100.000 Jahren etwa 10 Einschläge von Meteoriten oberhalb einer bestimmten Größe gegeben. Wie wahrscheinlich ist das Auftreten mindestens eines entsprechenden Einschlags in den nächsten 1.000 Jahren? Modell: Die Anzahl der Einschläge in 1.000 Jahren ist Poisson–verteilt mit Erwartungswert λ = 10/100 = 0,1. Wahrscheinlichkeit für mindestens einen Meteoriteneinschlag: p({1, 2, . . .}) = 1 − p({0}) = 1 − e 0 −λ λ = 1 − e−λ 0! = 0,09516 · · · ∼ 9,5% 416 / 472 Eigenschaften des Erwartungswerts Für eine konstante Zufallsvariable X (ω) = α gilt: X X X α p({ω}) = α p({ω}) = α E(X ) = X (ω) p({ω}) = ω∈Ω ω∈Ω ω∈Ω Der Erwartungswert ist linear: Sind X , Y : Ω → R zwei Zufallsvariablen und α, β ∈ R, so gilt X E(α X + β Y ) = (α X + βY )(ω) p({ω}) ω∈Ω = X α X (ω) + βY (ω) p({ω}) ω∈Ω =α X X (ω) p({ω}) + β ω∈Ω X Y (ω) p({ω}) ω∈Ω = α E(X ) + β E(Y ) 417 / 472 Die Varianz Die Varianz ist ein Maß für die mittlere Abweichung vom Erwartungswert. Definition Sei (Ω, p) ein Wahrscheinlichkeitsraum und X : Ω → R eine reellwertige Zufallsvariable. Dann heißt V (X ) = E (X − E(X ))2 die Varianz von X . Die Wurzel σX := p V (X ) heißt Standardabweichung von X . 418 / 472 Rechenregeln Satz Sei (Ω, p) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsvariable und α, β ∈ R. Dann gilt: V (X ) = E X 2 − (E(X ))2 V (αX + β) = α2 V (X ) Beweis Zu (i): Mit der Linearität des Erwartungswerts folgt V (X ) = E (X − E(X ))2 = E X 2 − 2 E(X ) X + (E(X ))2 = E X 2 − 2 E(X ) E(X ) + (E(X ))2 = E X 2 − (E(X ))2 Zu (ii): V (αX + β) = E (αX + β − E(αX + β))2 = E (αX + β − (αE(X ) + β))2 2 2 2 2 = E α (X − E(X )) = α E X − E(X ) = α2 V (X ) 419 / 472 Varianz der Binomialverteilung B(n, p)–Verteilung: n p({X = k }) = pk (1 − p)n−k für k = 0, 1, . . . , n k n X n E X2 = k2 pk (1 − p)n−k k k =0 n X n k (k − 1) + k = pk (1 − p)n−k k k =0 n n X X n n = k (k − 1) pk (1 − p)n−k + k pk (1 − p)n−k k k k =0 k =0 | {z } =E(X )=np 420 / 472 Mit n(n − 1) · · · (n − k + 1) n k (k − 1) = k (k − 1) k k (k − 1) · · · 1 (n − 2)(n − 3) · · · (n − 2 − (k − 2) + 1) = n(n − 1) (k − 2)(k − 3) · · · 1 n−2 = n(n − 1) k −2 folgt: n X n k (k − 1) pk (1 − p)n−k k k =2 n X n−2 = n(n − 1) p2 pk −2 (1 − p)n−2−(k −2) k −2 k =2 = n(n − 1)p2 n−2 X n−2 k =0 k pk (1 − p)n−2−k = n(n − 1)p2 (p + (1 − p))n−2 = n(n − 1)p2 421 / 472 Insgesamt erhält man: E X 2 = n(n − 1)p2 + np V (X ) = E X 2 − (E(X ))2 = n(n − 1)p2 + np − (np)2 = np(1 − p) 422 / 472 Varianz der geometrischen Verteilung G(p)–Verteilung: p({X = k }) = p(1 − p)k −1 , k ∈ N. ∞ X 2 E X = k 2 p(1 − p)k −1 = k =1 ∞ X k −1 k (k − 1)p(1 − p) + ∞ X kp(1 − p)k −1 k =1 k =1 | = p(1 − p) ∞ X {z =E(X )=1/p k (k − 1)(1 − p)k −2 + k =2 1 p Weiter gilt: ∞ ∞ X X k −2 00 k (k − 1)(1 − p) = f (1 − p) mit f (x) = xk = k =2 k =0 => f 0 (x) = } 1 1−x 1 2 00 , f (x) = (1 − x)2 (1 − x)3 423 / 472 => E X 2 2 1 2p(1 − p) p2 = p(1 − p) + = + 3 (1 − (1 − p))3 p p3 p 2p − p2 = p3 2p − p2 1 V (X ) = E X − (E(X )) = − p3 p2 1−p p − p2 = = p2 p3 2 2 424 / 472 Überabzählbare Wahrscheinlichkeitsräume Beispiel: Zwei Personen beschließen, sich zwischen 12 Uhr und 13 Uhr zum Mittagessen treffen. Jeder der beiden kommt zu einem zufällig ausgewählten Zeitpunkt und soll genau 20 Minuten auf den anderen warten. Wie groß ist die Wahrscheinlichkeit, dass sich beide treffen? Mathematische Beschreibung: Variable t ∈ [0, 1] bedeutet: Ankunft t Stunden nach 12 Uhr. Zwei Ankunftszeiten t1 , t2 ∈ [0, 1] => Zufallsvariable ω = (t1 , t2 ) ∈ [0, 1]2 => Wahrscheinlichkeitsraum Ω = [0, 1]2 mit überabzählbar vielen Elementen. 425 / 472 Ereignis „beide Personen treffen sich“: Menge A = {(t1 , t2 ) ∈ [0, 1]2 | |t1 − t2 | ≤ 1/3} ⊂ Ω t2 Ω A t1 Zuordnung von Wahrscheinlichkeiten: Jeder Zeitpunkt t1 , t2 soll gleichwahrscheinlich sein. Problem: Wir können nicht jedem ω ∈ Ω eine feste Wahrscheinlichkeit zuordnen, da Ω unendlich viele Elemente hat, und damit 1 p({ω}) = ∞ (= 0?) sein müsste. 426 / 472 Lösung: Betrachte Zerlegung von Ω in kleine Rechtecke der Form Qij = ((i − 1)h, ih] × ((j − 1)h, jh], h = 1/n, i, j = 1, . . . , n. Insgesamt: n2 Rechtecke Wahrscheinlichkeit für ω ∈ Qij : 1 =h n 1 p({t2 ∈ ((j − 1)h, jh]}) = = h n 1 p(Qij ) = 2 = h2 = |Qij | mit der Fläche |Qij | von Qij . n p({t1 ∈ ((i − 1)h, ih]}) = 427 / 472 [ Approximation für Menge A: Ah := Qij Qij ⊂A Wahrscheinlichkeit p(Ah ) = X |Qij | = |Ah | i,j=1,...,n Qij ⊂A Grenzübergang h → 0: p(A) = |A| Folgerung: p(A) ist proportional zur Fläche von A. Lösung des Beispiels: p(A) = 1 − 2 · 1 2 2 4 5 · · =1− = 2 3 3 9 9 428 / 472 Messbare Mengen Sei Ω ⊂ Rn . Wir wollen auf Ω ein Wahrscheinlichkeitsmaß definieren durch |A| für A ⊂ Ω p(A) = |Ω| Frage: Kann man jeder beliebigen Teilmenge des R (bzw. Rn ) eine Länge (bzw. eine Fläche, ein Volumen) zuordnen? Antwort: Nein! Folgerung: Wir können p nicht auf der gesamten Potenzmenge P(Ω) definieren. Eine Menge M ⊂ Rn , der wir ein n–dimensionales Volumen |M| zuordnen können, heißt messbar. 429 / 472 Beispiele für messbare Mengen Intervalle I = (a, b) (oder I = (a, b] oder I = [a, b]) in R: |I| = b − a Quader Q = (a, b) = {x ∈ Rn | ai < xi < bi für i = 1, . . . , n}: |Q| = n Y (bi − ai ) i=1 In Teil I der Vorlesung (Integration) wurde eine Menge A als messbar bezeichnet, wenn das (Riemann-) Integral ( Z Z 1 für x ∈ A 1 dx = χA (x) dx mit χA (x) = 0 für x ∈ /A A Rn existiert. Dann ist: Z |A| = 1 dx A 430 / 472 Wahrscheinlichkeitsraum, 1. Versuch Ein Wahrscheinlichkeitsraum (Ω, M , p) besteht aus einer Ergebnismenge Ω, einem System messbarer Teilmengen M ⊂ P(Ω) und einer Abbildung p : M → [0, 1] mit folgenden Eigenschaften: (i) p(Ω) = 1 (ii) Aj ∈ M für j ∈ N, Aj ∩ Ak = ∅ für j 6= k => [ X ∞ p Aj = p(Aj ) j∈N j=1 Damit man die Bedingungen (i)–(ii) an p : M → [0, 1] formulieren kann, muss M folgende Bedingungen erfüllen: (i) Ω ∈ M (ii) A ∈ M => Ω \ A ∈ M S (iii) Aj ∈ M für j ∈ N => j∈N Aj ∈ M Ein System M ⊂ P(Ω) mit diesen Eigenschaften heißt eine σ–Algebra. 431 / 472 Borelsche σ–Algebra Die kleinste σ–Algebra in Rn , in der alle Intervalle bzw. alle Quader enthalten sind, heißt Borelsche σ–Algebra, sie wird mit Bn bezeichnet. Sie besteht aus allen Mengen, die man durch Bilden von (möglicherweise unendlich vielen) Schnitt- und Vereinigungsmengen aus Intervallen bzw. Quadern konstruieren kann. Problem: Die Borelsche σ–Algebra ist größer als die Menge Z A ⊂ Rn das Riemann–Integral χA (x) dx existiert Rn Beispiel: A = (0, 1) ∩ Q (Q Menge der rationalen Zahlen): Z A ∈ B1 , aber χA (x) dx existiert nicht R 432 / 472 Auf Bn kann man in eindeutiger Weise eine Abbildung µ : Bn → [0, +∞] definieren, die auf der Menge der Intervalle bzw. Quader die Länge bzw. das Volumen liefert, das sogenannte Lebesgue–Maß. Damit kann man eine allgemeinere Definition des Integrals konstruieren, das sog. Lebesgue–Integral, so dass Z χA (x) dx für alle A ∈ Bn existiert Rn Das Lebesgue–Integral wird hier nicht näher beschrieben, da man (fast) alle praktisch relevanten Fälle auch mit dem Riemann–Integral lösen kann. 433 / 472 Wahrscheinlichkeitsraum, korrekte Definition Definition Ein Wahrscheinlichkeitsraum (Ω, M , p) besteht aus einer Ergebnismenge Ω, einer σ–Algebra M ⊂ P(Ω) und einer Abbildung p : M → [0, 1] mit folgenden Eigenschaften: (i) p(Ω) = 1 (ii) Aj ∈ M für j ∈ N, Aj ∩ Ak = ∅ für j 6= k => [ X ∞ p Aj = p(Aj ) j∈N j=1 Die Abbildung p heißt Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß. 434 / 472 Beispiele für Wahrscheinlichkeitsräume (i) Jeder endliche oder diskrete Wahrscheinlichkeitsraum (Ω, p) mit M = P(Ω) |A| (ii) Ω ⊂ Rn , Ω ∈ Bn , M = {A ∩ Ω | A ∈ Bn }, p(A) = |Ω| Diese Wahrscheinlichkeitsverteilung heißt Gleichverteilung (iii) Ω, M wie in (ii), Z p(A) = f (x) dx A mit einer integrierbaren Funktion f : A → R mit den Eigenschaften f (x) ≥ 0 für alle x ∈ Ω Z f (x) dx = 1 Ω 435 / 472 Definition Sei (Ω, M , p) ein Wahrscheinlichkeitsraum mit Ω ⊂ Rn . Die Wahrscheinlichkeitsverteilung p habe die Dichte f : Ω → R ⇔ Z p(A) = f (x) dx für alle A ∈ M A Beispiel: |A| 1 , denn hat die Dichte f (x) = |Ω| |Ω| Z Z 1 1 |A| dx = 1 dx = |Ω| A |Ω| A |Ω| Die Gleichverteilung p(A) = 436 / 472 Eindimensionale Wahrscheinlichkeitsverteilungen Ziel: Beschreibung von Wahrscheinlichkeitsverteilungen auf Ω = R 1. Möglichkeit: Dichte f : R → R der W.-Verteilung p Z p(A) = f (x) dx A Problem: Nicht jede Verteilung hat eine Dichte. Beispiel: Fortsetzung der geometrischen Verteilung auf R ( (1 − p)k −1 p für x = k ∈ N p({x}) = 0 sonst Die Existenz einer Dichte bedeutet, dass die Wahrscheinlichkeitsverteilung über ein Kontinuum verteilt ist, und die Einzelwahrscheinlichkeiten p({ω}) alle gleich Null sind. 437 / 472 Verteilungsfunktion Definition Sei p eine Wahrscheinlichkeitsverteilung auf Ω ⊂ R. Dann heißt F : R → [0, 1], F (x) := p({y ∈ R | y ≤ x}) = p((−∞, x]) die Verteilungsfunktion von p. Beispiel: Gleichverteilung auf [0, 1]. Für A = (a, b) ⊂ [0, 1] gilt: p(A) = (b − a) Damit folgt: F (x) = p((−∞, x]) 0 für x < 0 = x für x ∈ [0, 1] 1 für x > 1 1 1 438 / 472 Beispiel: Geometrische Verteilung ( (1 − p)k −1 p Sei p({x}) = 0 für x = k ∈ N sonst Für x ∈ [n, n + 1) mit n ∈ N gilt: n n X X F (x) = p((−∞, x]) = p({k }) = (1 − p)k −1 p k =1 =p n−1 X k =1 1 − (1 − p)n (1 − p) = p = 1 − (1 − p)n 1 − (1 − p) k k =0 Mit [x] := max{n ∈ Z | n ≤ x} folgt ( 1 − (1 − p)[x] F (x) = 0 für x ≥ 1 für x < 1 439 / 472 Verteilungsfunktion der Geometrischen Verteilung für p = 1/2: 1 1 2 3 4 5 440 / 472 Eigenschaften der Verteilungsfunktion Satz Für die Verteilungsfunktion F einer Wahrscheinlichkeitsverteilung auf R gilt: (i) F ist monoton steigend (ii) lim F (x) = 0, lim F (x) = 1 x→−∞ x→+∞ (iii) F ist rechtsseitig stetig, d.h. lim F (x + h) = F (x) für alle x ∈ R. h→0 h>0 (iv) Die Wahrscheinlichkeitsverteilung hat eine Dichte f ⇔ F ist differenzierbar In diesem Fall gilt f (x) = F 0 (x) Eigenschaft (iii) bedeutet, dass die Verteilungsfunktion an Sprungstellen immer den rechtsseitigen Grenzwert annimmt 441 / 472 Beweisskizze Zu (i): Für x < y gilt wegen (−∞, x] ⊂ (−∞, y ]: F (x) = p((−∞, x]) ≤ p((−∞, y ]) = F (y ) Zu (ii): lim F (n) = lim p((−∞, n]) = p n→−∞ n→−∞ ∞ \ ! (−∞, −n] n=1 = p(∅) = 0 lim F (n) = lim p((−∞, n]) = p n→∞ n→∞ ∞ [ ! (−∞, n] = p(R) = 1 n=1 Zu (iii): lim F (x + 1/n) = lim p((−∞, x + 1/n]) n→∞ ! ∞ \ =p (−∞, x + 1/n] = p((−∞, x]) = F (x) n→∞ n=1 442 / 472 Zu (iv): Falls F differenzierbar ist, gilt: Z x Z F (x) = p((−∞, x]) = F 0 (y ) dy = −∞ F 0 (y ) dy (−∞,x] Die Wahrscheinlichkeitsverteilung p hat eine Dichte f ⇔ Z p(A) = f (y ) dy für alle A ∈ B1 A Jede Menge A ∈ B1 lässt sich durch (unendliche) Schnitte und Vereinigungen aus Intervallen konstruieren. Jedes Intervall (a, b] hat die Form (a, b] = (−∞, b] \ (−∞, a] => p hat eine Dichte ⇔ Z Z p((−∞, x]) = f (y ) dy = x f (y ) dy für alle x ∈ R −∞ (−∞,x] 443 / 472 Exponentialverteilung Ziel: Verteilung der Wartezeit t ∈ [0, +∞) bis zum erstmaligen Eintreten eines bestimmten Ereignisses Ansatz: Unterteilung der kontinuierlichen Zeitachse [0, +∞) in kleine Intervalle Ik ,h = ((k − 1)h, kh] mit k ∈ N, h > 0. I k,h 0 h 2h 3h (k−1)h kh Wahrscheinlichkeit für Eintreten des Ereignisses in Ik ,h : qh ∼ h, qh = λh mit λ > 0 Verteilung für „Ereignis tritt erstmals im Intervall Ik ,h ein“: G(qh )–Verteilung, ph (Ik ,h ) = (1 − qh )k −1 qh 444 / 472 Verteilungsfunktion der G(qh )–Verteilung: ph ([0, kh]) = k X p(I`,h ) = 1 − (1 − qh )k (s. S. 439) `=1 Grenzübergang h → 0 bei qh = λh und festem kh = x: F (x) = lim ph ([0, x]) = 1 − lim h→0 h→0 (1 − λh)x/h {z } | x h→0 = (1−λh)1/h = 1 − e−λx → e−λx Das ist die Verteilungsfunktion der Exponentialverteilung für x ∈ [0, ∞) Die Dichte der Exponentialverteilung ist f (x) = F 0 (x) = λ e−λx Die Exponentialverteilung ist eine kontinuierliche Version der geometrischen Verteilung. 445 / 472 Reellwertige Zufallsvariablen Definition Sei (Ω, M , p) ein Wahrscheinlichkeitsraum. Eine Abbildung X : Ω → R heißt Zufallsvariable ⇔ X −1 ((−∞, x]) := ω ∈ Ω | X (ω) ≤ x ∈ M für alle x ∈ R Die Verteilung pX der Zufallsvariablen X ist gegeben durch pX (A) := p({ω ∈ Ω | X (ω) ∈ A}) = p X −1 (A) für alle A ∈ B1 Die Verteilungsfunktion FX von pX heißt auch Verteilungsfunktion der Zufallsvariablen X . Falls pX eine Dichte fX hat, dann heißt fX auch Dichte der Zufallsvariablen X . Bemerkung: Die Bedingung X −1 ((−∞, x]) ∈ M für alle x ∈ R stellt sicher, dass X −1 (A) ∈ M für alle A ∈ B1 . Sie ist eine Voraussetzung für die Existenz der Verteilung pX von X . 446 / 472 Transformationsregeln für Verteilungsfunktionen Satz Sei FX die Verteilungsfunktion einer reellwertigen Zufallsvariablen X und Y = αX + β mit α > 0, β ∈ R. Dann hat Y die Verteilungsfunktion x − β FY (x) = FX α Falls X eine Dichte fX hat, dann hat Y die Dichte 1 x − β fY (x) = fX α α Beweis: Wegen Y = αX + β ≤ x ⇔ X ≤ x−β α folgt FY (x) = p({Y ≤ x}) = p X ≤ x−β = FX α x−β α Falls FX eine Dichte fX hat, dann gilt FX0 (x) = fX (x) und 1 x−β FY0 (x) = α1 FX0 x−β = f α α X α 447 / 472 Erwartungswert und Varianz Definition Sei X eine reellwertige Zufallsvariable mit Dichte f : R → [0, +∞). Dann sind Erwartungswert E(X ) und Varianz V (X ) definiert durch Z ∞ E(X ) = x f (x) dx Z−∞ ∞ V (X ) = (x − E(X ))2 f (x) dx −∞ Eigenschaften: Für Zufallsvariable X , Y und α, β ∈ R gilt V (X ) = E X 2 − (E(X ))2 E(αX + βY ) = α E(X ) + β E(Y ) V (αX + β) = α2 V (X ) für α > 0 448 / 472 Motivation: Rückführung auf Definition für diskrete Zufallsvariable Für kleines h (und stetige Dichte f ) gilt: Z x+h f (x) h ∼ f (y ) dy = p({X ∈ (x, x + h)}) x Mit xn = nh, n ∈ Z, gilt Z ∞ ∞ X x f (x) dx ∼ xn f (xn )(xn+1 − xn ) −∞ ∼ n=−∞ ∞ X xn p({X ∈ (xn , xn+1 )}) n=−∞ und analog Z ∞ (x − E(X ))2 f (x) dx −∞ ∼ ∞ X (xn − E(X ))2 p({X ∈ (xn , xn+1 )}) n=−∞ 449 / 472 Folgerung aus dieser Motivation: Satz Ist X eine reellwertige Zufallsvariable, Φ : R → R und Y := Φ(X ), dann gilt Z ∞ E(Y ) = Φ(x) f (x) dx −∞ 450 / 472 Beispiel: Exponentialverteilung ( λ e−λx Dichte der Exponentialverteilung: f (x) = 0 für x > 0 für x ≤ 0 Erwartungswert: Z ∞ Z ∞ xλ e−λx dx E(X ) = x f (x) dx = 0 −∞ ∞ h i∞ Z ∞ 1 1 = − x e−λx + e−λx dx = − e−λx = λ λ 0 0 0 Varianz: Z ∞ i∞ Z ∞ h E X2 = x 2 λ e−λx dx = − x 2 e−λx + 2x e−λx dx 0 0 0 Z ∞ 2 2 = xλ e−λx dx = 2 λ 0 λ 2 2 1 1 => V (X ) = 2 − = 2 λ λ λ 451 / 472 Die Standard–Normalverteilung Die Normalverteilung (N(µ, σ 2 )–Verteilung) ist eine der wichtigsten Wahrscheinlichkeitsverteilungen auf R. Sie wird häufig für die Beschreibung der Streuung von Daten um einen Mittelwert verwendet. Die Standard–Normalverteilung (N(0, 1)–Verteilung) ist gegeben durch die Dichte 1 2 ϕ(x) = √ e−x /2 2π Sie hat die Verteilungsfunktion Z x 1 2 √ e−y /2 dy Φ(x) = 2π −∞ Für diese Funktion gibt es keine analytische Formel 452 / 472 Graph der Dichte: Symmetrieeigenschaften: ϕ(x) = ϕ(−x) Φ(−x) = 1 − Φ(x) 453 / 472 Erwartungswert: Z ∞ Z E(X ) = x ϕ(x) dx = −∞ ∞ −∞ x 2 √ e−x /2 dx = 0 2π Varianz: 2 2 2 Z ∞ x 2 −x 2 /2 √ e dx 2π V (X ) = E X − (E(X )) = E X = −∞ Z ∞ x 2 √ x e−x /2 dx = 2π −∞ Z ∞ x −x 2 /2 ∞ 1 2 e−x /2 dx = −√ e +√ 2π 2π −∞ −∞ Z ∞ √ √ 2 Mit Substitution z = x/ 2 und e−z dy = π −∞ (siehe S. 281/282) folgt: Z ∞ 1 √ 1 2 √ π=1 V (X ) = √ e−z 2 dz = √ π 2π −∞ 454 / 472 Approximation der B(n, p)–Verteilung Wir betrachten n Zufallsexperimente mit Erfolgswahrscheinlichkeit p Die Zufallsvariable Xn misst die Anzahl der Erfolge => Xn ist B(n, p)–verteilt Erwartungswert: E(Xn ) = np =: µn Varianz: V (Xn ) = np(1 − p) =: σn2 mit σn = p np(1 − p) Neue Zufallsvariable Yn = α Xn + β Wahl von α, β so, dass E(Yn ) = 0, V (Yn ) = 1: ! E(Yn ) = α E(Xn ) + β = αµn + β = 0 V (Yn ) = α2 V (Xn ) = α2 σn2 ! => =1 α = 1/σn β = −µn /σn => Yn = 1 µn Xn − σn σn 455 / 472 Satz (de Moivre–Laplace) Sei Xn eine B(n, p)–verteilte Zufallsvariable p 1 µn Yn = Xn − mit µn = np, σn = np(1 − p) σn σn Dann gilt für die Verteilungsfunktion FYn von Yn : Z x 1 2 n→∞ √ e−y /2 dy = Φ(x) FYn (x) := p({Yn ≤ x}) → 2π −∞ Andere Formulierung des Satzes: Ist Xn eine B(n, p)–verteilte Zufallsvariable, dann konvergiert die Verteilungsfunktion von Yn = σ1n Xn − µσnn mit µn = np, p σn = np(1 − p) für n → +∞ gegen die Standard–Normalverteilung. 456 / 472 Folgerung Sei X eine B(n, p)–verteilte Zufallsvariable p mit Erwartungswert µ = np und Standardabweichung σ = np(1 − p) und Y = µ 1 X− σ σ Dann gilt FY (y ) ∼ Φ(y ) Aus dem Transformationssatz (S. 447) folgt für X = σY + µ x − µ x − µ ∼Φ FX (x) = FY σ σ Satz Die Verteilungsfunktion der B(n, p)–Verteilung wird für großes n approximiert durch x − µ p FX (x) ∼ Φ mit µ = np, σ = np(1 − p) σ 457 / 472 Definition (Normalverteilung) Eine Wahrscheinlichkeitsverteilung auf R mit der Verteilungsfunktion x − µ Φµ,σ (x) = Φ σ heißt Normalverteilung zu den Parametern µ (Erwartungswert) und σ 2 (Varianz), oder kurz N(µ, σ 2 )–Verteilung. Die Dichte der N(µ, σ 2 )–Verteilung ist 1 x − µ 1 2 2 ϕµ,σ (x) = ϕ = √ σe−(x−µ) /(2σ ) σ σ 2π 458 / 472 Beispiel 1 Wir wollen die Wahrscheinlichkeit abschätzen, dass beim Wurf von 600 Würfeln die Anzahl der gewürfelten 6–en zwischen 90 und 110 liegt. Die Zufallsvariable X messe die Anzahl der 6–en => X ist B(600, 1/6)–verteilt => gesucht ist p(90 ≤ X ≤ 110) = pX ([90, 110]) = FX (110) − FX (89) q q q 250 Mit µ = 600 · 16 = 100, σ = 600 · 61 · 56 = 500 6 = 3 folgt: x − µ q 3 FX (x) ∼ Φ =Φ 250 (x − 100) σ und damit q q 3 3 p(90 ≤ X ≤ 110) ∼ Φ 250 10 − Φ − 250 11 ∼ 0,757 ∼ 76% 459 / 472 Beispiel 2 Ein Meinungsforschungsinstitut wird von Partei A beauftragt, durch eine Meinungsumfrage das Wahlergebnis der Partei in einer bevorstehenden Wahl zu schätzen. Es sollen so viele Personen befragt werden, dass das Ergebnis mit einer Wahrscheinlichkeit von mindestens 95% bis auf einen Fehler von höchstens 1% genau ist. Wieviele Personen müssen dafür befragt werden? Daten: Anteil p der Wähler von Partei A (unbekannt) Anzahl n der zu befragenden Personen (zu bestimmen) Die Zufallsvariable Xn misst die Anzahl der befragten Personen, die angeben, für Partei A zu stimmen. 460 / 472 Xn n Der Fehler ist kleiner als 1% Schätzer für p: pn = ⇔ |pn − p| ≤ 0,01 ⇔ |Xn − np| ≤ 0, 01n Aufgabenstellung: Ermittle n so, dass p({|Xn − np| ≤ 0,01n}) ≥ 0,95 Xn ist B(n, p)–verteilt => Verteilungsfunktion FXn (x) = p({Xn ≤ x}) ∼ Φ √ x−np np(1−p) {|Xn − np| ≤ 0,01n} = {np − 0,01n ≤ Xn ≤ np + 0,01n} => p({|Xn − np| ≤ 0,01 n}) = FXn (n(p + 0, 01)) − FXn (n(p − 0,01)) √ ! 0,01n −0,01n 0,01 n √ √ √ =Φ −Φ = 2Φ − 1 ≥ 0,95 np(1−p) np(1−p) p(1−p) 461 / 472 => Φ √ ! n 0,01 √ ≥ p(1−p) 0,975 Mit Φ−1 (0,975) ∼ 1,96 folgt: √ p √ ! 0,01 n ! p ≥ 1,96 ⇔ n ≥ 100 p(1 − p)1,96 p(1 − p) Wegen p(1 − p) ≤ 1/4 folgt, dass es sicher ausreicht, n ≥ (50 · 1,96)2 = 9604 zu wählen. 462 / 472 Mehrdimensionale Wahrscheinlichkeitsräume Eine n–dimensionale Wahrscheinlichkeitsverteilung ist eine Wahrscheinlichkeitsverteilungen auf Ω ⊂ Rn , oder die W.–Verteilung einer Zufallsvariablen X : Ω → Rn Eine n–dimensionale W.-Verteilung kann man beschreiben mit einer Dichte f : Rn → [0, ∞), Z p(A) = f (x) dx für alle A ∈ Bn A (falls eine Dichte existiert), oder mit einer Verteilungsfunktion F : Rn → R, F (x) = p({ω ∈ Ω | ωj ≤ xj für j = 1, . . . , n}) = p((−∞, x1 ] × · · · × (−∞, xn ]) Beispiel: Die Gleichverteilung auf A ⊂ Rn hat die Dichte ( 1/|A| für x ∈ A f (x) = 0 sonst 463 / 472 Eine Zufallsvariable X : Ω → Rn kann man auffassen als Vektor (X1 , . . . , Xn )> von eindimensionalen Zufallsvariablen Xj : Ω → R. Definition Zufallsvariablen X1 , . . . , Xn : Ω → R heißen unabhängig ⇔ Die Ereignisse {Xj ∈ Mj }, j = 1, . . . , n, sind stochastisch unabhängig für alle M1 , . . . , Mn ∈ B1 . Erinnerung: Ereignisse A1 , . . . , An sind stochastisch unabhängig ⇔ p(Ai1 ∩ · · · ∩ Ai` ) = p(Ai1 ) · · · p(Ai` ) für alle i1 , . . . , i` ∈ {1, . . . , n} mit ij 6= ik für j 6= k 464 / 472 Satz Seien X1 , . . . , Xn : Ω → R unabhängige Zufallsvariable und X = (X1 , . . . , Xn )> : Ω → Rn . Sei Fj die Verteilungsfunktion von Xj , j = 1, . . . , n. Dann ist F (x) = F1 (x1 ) · F2 (x2 ) · · · · · Fn (xn ) die Verteilungsfunktion von X . Wenn Xj die Dichte fj hat, j = 1, . . . , n, dann hat X die Dichte f (x) = f1 (x1 ) · f2 (x2 ) · · · · · fn (xn ) Umgekehrt gilt: Hat X eine W.-Verteilung F oder eine Dichte f der oben angegebenen Form, dann sind X1 , . . . , Xn unabhängig und haben die W.–Verteilungen Fj bzw. die Dichten fj , j = 1, . . . , n. 465 / 472 Beweis: Der Einfachheit halber sei n = 2. Es gilt: F (x) = p({ω ∈ Ω | X1 (ω) ∈ (−∞, x1 ], X2 (ω) ∈ (−∞, x2 ]}) = p({X1 ∈ (−∞, x1 ]}) · p({X2 ∈ (−∞, x2 ]}) = F1 (x1 ) · F2 (x2 ) Sind f1 und f2 Dichten von X1 und X2 , dann folgt: Z x1 Z x2 f1 (y1 ) dy1 f2 (y2 ) dy2 F (x) = F1 (x1 ) · F2 (x2 ) = −∞ −∞ Z = f1 (y1 ) f2 (y2 ) d(y1 , y2 ) (−∞,x1 ]×(−∞,x2 ] Z = f (y ) dy (−∞,x1 ]×(−∞,x2 ] mit f (y ) = f (y1 , y2 ) = f1 (y1 ) f2 (y2 ). Dies genügt, da sich jedes A ∈ B2 durch (unendliche) Schnitte und Vereinigungen von Mengen der Form (−∞, x1 ] × (−∞, x2 ] erzeugen lässt. 466 / 472 Beispiel: n–dimensionale Normalverteilung Sei Xj eine N(µj , σj2 )–verteilte Zufallsvariable für j = 1, . . . , n, und seien X1 , . . . , Xn unabhängig. Dann hat X = (X1 , . . . , Xn )> die Dichte f (x) = f1 (x1 ) · · · · · fn (xn ) 1 1 2 2 2 2 =√ e−(x1 −µ1 ) /(2σ1 ) · · · · · √ e−(xn −µn ) /(2σn ) 2πσ1 2πσn 1 −(x1 −µ1 )2 /(2σ12 )−···−(xn −µn )2 /(2σn2 ) e = (2π)n/2 σ1 · · · · · σn Im Fall gleicher Varianzen σj2 = σ 2 für alle j folgt f (x) = 1 −|x−µ|2 /(2σ)2 e (2π)n/2 σ n mit µ = (µ1 , . . . , µn )> . Das ist die Dichte der n–dimensionalen Normalverteilung. 467 / 472 Satz Seien X1 , X2 : Ω → R unabhängige Zufallsvariablen mit Dichten f1 und f2 . Dann hat Y = X1 + X2 die Dichte Z ∞ fY (y ) = f1 (x) f2 (y − x) dx =: (f1 ∗ f2 )(y ) −∞ Den Ausdruck f1 ∗ f2 , Z ∞ Z (f1 ∗ f2 )(y ) = f1 (x) f2 (y − x) dx = −∞ ∞ f1 (y − x) f2 (x) dx −∞ nennt man Faltung von f1 und f2 . 468 / 472 Beweis: FY (y ) = p({Y ≤ y }) x2 = p({X1 + X2 ≤ y }) = pX ({x ∈ R2 | x1 + x2 ≤ y }) Z = f1 (x1 ) f2 (x2 ) d(x1 , x2 ) x 1 +x2 =y {x∈R2 | x1 +x2 ≤y } Z ∞ Z y −x1 f1 (x1 ) f2 (x2 ) dx2 dx1 = −∞ x1 −∞ Mit Substitution z = z(x2 ) = x1 + x2 folgt: Z ∞Z y FY (y ) = f1 (x1 ) f2 (z − x1 ) dz dx1 −∞ −∞ Z Z y Z ∞ = f1 (x1 ) f2 (z − x1 ) dx1 dz = y f (z) dz −∞ −∞ −∞ ∞ Z f1 (x) f2 (z − x) dx wobei f (z) = −∞ 469 / 472 Beispiel Seien X1 und X2 unabhängige, exponentialverteilte Zufallsvariable mit Parametern λ1 und λ2 . Gesucht: Dichte fY von Y = X1 + X2 ( λj e−λj x Dichte der Exponentialverteilung: fXj (x) = 0 für x > 0 für x ≤ 0 Dichte von Y : Z ∞ fY (y ) = −∞ fX1 (x) fX2 (y − x) dx Für y < 0 gilt fY (y ) = 0. Sei y ≥ 0. Dann folgt: Z y λ1 e−λ1 x λ2 e−λ2 (y −x) dx 0 Z y −λ2 y = λ1 λ2 e e(λ2 −λ1 )x dx fY (y ) = 0 470 / 472 Dichte fY (y ) = λ1 λ2 e −λ2 y y Z e(λ2 −λ1 )x dx 0 Für λ1 6= λ2 folgt " fY (y ) = λ1 λ2 e−λ2 y = e(λ2 −λ1 )x #y " = λ1 λ2 e−λ2 y λ2 − λ1 e(λ2 −λ1 )y −1 # λ2 − λ1 0 λ1 λ2 e−λ1 y − e−λ2 y λ2 − λ1 Für λ1 = λ2 = λ gilt: 2 −λy Z fY (y ) = λ e y 1 dx = λ2 y e−λy 0 471 / 472 Zusammenfassung: Verteilungen Diskrete Verteilungen: Name Ω Binomial–V. {0, . . . , n} Geometr. V. N Poisson–V. N ∪ {0} p({k }) n pk (1 − p)n−k k (1 − p)k −1 p e −λ λ E V np np(1 − p) 1 p 1−p p2 λ λ k k! Verteilungen auf Ω = R: Name Exponential–V. Normalverteilung Dichte ( λ e−λx für x > 0 0 für x ≤ 0 1 2 2 √ e−(x−µ) /(2σ ) 2πσ E 1 λ V 1 λ2 µ σ2 472 / 472