2. STETIGE WAHRSCHEINLICHKEITSRÄUME 2. 41 Stetige Wahrscheinlichkeitsräume Der Rahmen eines diskreten Wahrscheinlichkeitsraumes ist oft zu klein. Wir haben zum Beispiel bei der Irrfahrt jeweils den Grenzwert N → ∞ betrachtet. Es wäre besser, einen unendlichen Zeithorizont N = ∞ zu wählen, aber der Raum {x1 , x2 , . . .} ist überabzählbar. Wir möchten aber die Wahrscheinlichkeiten auf dem grösseren Raum kennen, wie zum Beispiel IIP[limN →∞ N −1 SN ≤ a], da wir nicht immer sicher sein können, dass N → ∞ auch die Wahrscheinlichkeit liefert, die wir intuitiv erwarten. Weiter zeigt es sich, dass es nicht möglich ist, die Wahrscheinlichkeitsverteilung “sinnvoll” auf alle Teilmengen von {−1, 1}IIN zu erweitern, so dass die Verteilung auf Ereignisse in endlicher Zeit mit den in Abschnitt 1.4 verwendeten übereinstimmt. Die Statistik hat oft Fragen zu klären, ob gewisse Annahmen sinnvoll sind oder nicht, oder welche Parameter am “wahrscheinlichsten” sind. Ist die Anzahl der Daten gross, wird der Rechenaufwand zu gross. Man betrachtet daher die Verteilung einer Test-Statistik, die so normiert ist, dass die endliche Statistik gegen eine bestimmte Wahrscheinlichkeitsverteilung konvergiert, falls die Datenanzahl gegen unendlich konvergiert. Die Grenzverteilung ist dann normalerweise eine Verteilung auf IR, das auch überabzählbar ist. Wir müssen daher unseren Begriff des Wahrscheinlichkeitsraumes verallgemeinern. 2.1. Allgemeine Wahrscheinlichkeitsräume 2.1.1. Die Axiome von Kolmogorov Wir erlauben nun, dass Ω 6= ∅ eine beliebige nichtleere Menge ist. Zuerst müssen wir bestimmen, welche Ereignisse wir zulassen. Es gibt nämlich Situationen, siehe Beispiel 2.3, wo man keine geeignete Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω definieren kann. Weiter ist es manchmal nicht wünschenswert, den Raum der Ereignisse zu gross zu wählen. Wir definieren zuerst die Eigenschaften, die die Klasse der zulässigen Ereignisse haben soll. Definition 2.1. Sei A eine Klasse von Teilmengen von Ω. A heisst σ-Algebra, falls i) ∅ ∈ A (das heisst, A kann nicht leer sein). ii) Ist A ∈ A, dann ist auch Ac ∈ A. 42 2. STETIGE WAHRSCHEINLICHKEITSRÄUME iii) Sind A1 , A2 , . . . ∈ A, dann ist auch ∪n An ∈ A. Wir verlangen also, dass die Kollektion A unter abzählbaren Mengenoperationen abgeschlossen ist. Die kleinste mögliche σ-Algebra ist A = {∅, Ω}. Wir bemerken, dass für A1 , A2 , . . . ∈ A auch Aci ∈ A. Damit ist ∪i Aci ∈ A, und somit [ c \ Ai = Aci ∈ A . i i Wir wählen nun eine σ-Algebra F von zulässigen Ereignissen. Wir sagen (Ω, F) ist ein messbarer Raum. Definition 2.2. Sei (Ω, F) ein messbarer Raum und IIP : F → [0, 1] eine Funktion auf F. Die Funktion IIP heisst Wahrscheinlichkeitsmass auf (Ω, F), falls i) IIP[Ω] = 1 (das Mass ist normiert). ii) Seien A1 , A2 , . . . ∈ F, so dass Ai ∩ Aj = ∅ für alle i 6= j, dann gilt X IIP[∪i Ai ] = IIP[Ai ] i (das Mass ist σ-additiv). Ist (Ω, F) ein messbarer Raum und IIP ein Wahrscheinlichkeitsmass auf (Ω, F), dann nennen wir (Ω, F, IIP) einen Wahrscheinlichkeitsraum. Wir bemerken, dass unsere Definition in diskreten Räumen einen Wahrscheinlichkeitsraum ergibt. Wählen wir A1 = Ω und Ak = ∅ für k ≥ 2, so erhalten wir 1 = IIP[Ω] = IIP[Ω] + ∞ X IIP[∅] = 1 + k=2 ∞ X IIP[∅] . k=2 Es folgt, dass IIP[∅] = 0. Insbesonder gilt ii) auch für eine endliche Anzahl von Mengen. Ist A0 eine Kollektion von Teilmengen von Ω, dann ist A = σ(A0 ) := \ B Bσ-Algebra A0 ⊂B eine σ-Algebra. Es ist somit die kleinste σ-Algebra, die A0 enthält. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 43 Beispiel 2.3. Betrachten wir Ω = [0, 1]. Wir konstruieren F so, dass alle abgeschlossenen Intervalle [a, b] für 0 ≤ a < b ≤ 1 in F sind. Es folgt dann, dass alle Intervalle (links/rechts offen/abgeschlossen) in F sind. Wir definieren dann F als die kleinste σ-Algebra, die alle [a, b] enthält. Diese σ-Algebra heisst Borel-σAlgebra. Die Borel-σ-Algebra existiert. Insbesondere sind die Mengen {ω} ∈ F, für alle ω ∈ Ω = [0, 1]. Es gibt aber Teilmengen von [0, 1], die nicht in F sind. Wir definieren nun die Wahrscheinlichkeitsfunktion mit der Eigenschaft, dass IIP[[a, b]] = b − a. Dieses Mass heisst Lebesgue-Mass auf [0, 1], und existiert. Man kann zeigen, dass es kein Wahrscheinlichkeitsmass auf der Menge aller Teilmengen von [0, 1] gibt, das mit dem Lebesgue-Mass verträglich ist; das heisst, für das IIP[[a, b]] = b − a für alle a < b gilt. Es folgt, dass IIP[{ω}] = 0 für alle ω. Insbesondere hat jede abzählbare Menge A die Wahrscheinlichkeit IIP[A] = IIP[∪ω∈A {ω}] = X IIP[{ω}] = 0 . ω∈A Um ein Beispiel zu konstruieren, das zeigt, dass das Lebeguesmass sich nicht auf allen Teilmengen von Ω = [0, 1) konstruieren kann, betrachten wir folgendes Beispiel. Wir sagen x ∼ y, falls x − y ∈ Q. Dies ist eine Äquivalenzrelation. Aus dem Auswahlsaxiom folgt, dass wir aus jeder Äquivalenzklasse genau ein Element wählen können. Nennen wir diese Menge A. Für q ∈ Q ∩ [0, 1) können wir Aq = {a + q − ba + qc : a ∈ A} bilden, wobei bxc den Ganzzahlteil von x bezeichnet. Wir haben dann [0, 1) = ∪q Aq . Es ist klar, dass Aq ∩ Ar = ∅ für q 6= r. Aus der P Symmetrie folgt 1 = IIP[Ω] = q IIP[Aq ] = ∞IIP[A]. Somit müsste IIP[A] = 0 gelten. P Dann wäre aber auch IIP[Ω] = q 0 = 0. Somit kann A keine messbare Menge sein. 2.1.2. Einfache Folgerungen Hilfssatz 2.4. Die Aussagen von Hilfssatz 1.3 gelten auch für allgemeine Wahrscheinlichkeitsräume. Korollar 2.5. Für A1 , A2 , . . . ∈ F gilt IIP[∪i Ai ] ≤ X i IIP[Ai ] . 44 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Beweis. Dies folgt aus IIP[∪i Ai ] = lim n→∞ IIP[∪ni=1 Ai ] n X ≤ lim n→∞ IIP[Ai ] = X i=1 IIP[Ai ] . i Ein Ereignis von besonderer Bedeutung ist A∞ = ∩n∈IIN ∪k≥n Ak unendlich viele der Ereignisse Ak treten ein. Also, für jedes n gibt es ein k ≥ n, so dass Ak eintritt. Wir definieren Unabhängigkeit von Ereignissen wie im diskreten Fall, ∀J ⊂ I (endlich) =⇒ IIP[∩j∈J Aj ] = Y IIP[Aj ] . j∈J Satz 2.6. (Lemma von Borel–Cantelli) Es gelten folgende Aussagen: P P[Ak ] < ∞, dann gilt IIP[A∞ ] = 0, das heisst, nur endlich viele der i) Falls ∞ i=1 II Ak treten ein. ii) Sind {Ai : i ∈ IIN} unabhängig und P∞ i=1 IIP[Ai ] = ∞, dann gilt IIP[A∞ ] = 1. Bemerkung. Die Unabhängigkeit in ii) ist wichtig. Seien {Xi : i ∈ IIN} unabhängige Zufallsvariablen mit IIP[Xi = 0] = IIP[Xi = 1] = 12 , dann gilt für Ai = P P 1 {X0 = 1, Xi = 1}, dass ∞ P[Ai ] = ∞ P[A∞ ] ≤ IIP[X0 = 1] = 12 . i=1 II i=1 4 = ∞, aber II Beweis. i) Wir haben ∪k≥n+1 Ak ⊂ ∪k≥n Ak . Daher gilt nach Hilfssatz 1.3 vii) IIP[A∞ ] = lim IIP[∪k≥n Ak ] ≤ lim n→∞ ii) n→∞ ∞ X IIP[Ak ] = 0 . k=n Es gilt Ac∞ = ∪n∈IIN ∩k≥n Ack , und somit nach Hilfssatz 1.3 vi) IIP[Ac∞ ] = lim IIP[∩k≥n Ack ] . n→∞ 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 45 Wir haben die Abschätzung IIP[∩k≥n Ack ] = lim m→∞ c IIP[∩m k=n Ak ] = lim m→∞ m Y (1 − IIP[Ak ]) k=n m n X o ≤ lim exp − IIP[Ak ] = 0 . m→∞ k=n Dies beweist die Behauptung. In der Bioinformatik gibt es 4 Aminobasen, die in DNA vorkommen. Die Basen haben die Namen A, C, G und T. Nehmen wir an, dass ein DNA eine zufällige Anordnung der vier Buchstaben {x1 , x2 , . . . , xN } ist. Da N sehr gross ist, wählen wir N = ∞. In unserem Modell seien die Zufallsvariablen {Xi : i ≥ 1} unabhängig. Wir bezeichnen mit pA = IIP[Xi = A], etc. die entsprechenden Wahrscheinlichkeiten. Wir nehmen an, dass alle Wahrscheinlichkeiten strikt positiv sind. Sei n ∈ IIN und {x1 , x2 , . . . , xn } ein bestimmtes Wort, das aus den 4 Buchstaben gebildet werden kann. Dann gilt Proposition 2.7. Das Wort {x1 , x2 , . . . , xn } taucht mit Wahrscheinlichkeit 1 unendlich oft im Text auf. Beweis. Betrachten wir die Ereignisse Ak = {X(k−1)n+1 = x1 , X(k−1)n+2 = x2 , . . . , Xkn = xn } . Diese Ereignisse sind unabhängig. Wir haben IIP[Ak ] = n Y p xi > 0 . i=1 Also ist P 2.1.3. Transformation von Wahrscheinlichkeitsräumen k IIP[Ak ] = ∞. Das Borel–Cantelli-Lemma beweist die Behauptung. Manchmal kann man Resultat von einem Wahrscheinlichkeitsraum auf einen anderen übertragen. Sei (Ω0 , F 0 , IIP0 ) ein Wahrscheinlichkeitsraum, und (Ω, F) ein messbarer Raum. 46 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Definition 2.8. Wir sagen eine Abbildung ϕ : Ω0 → Ω ist messbar, falls für alle A ∈ F gilt, dass ϕ−1 (A) := {ω 0 ∈ Ω0 : ϕ(ω 0 ) ∈ A} ∈ F 0 . Ist nun F = σ(A0 ) für eine Kollektion A0 von Teilmengen von Ω, dann genügt es die Eigenschaft für die Kollektion {ϕ−1 (A) : A ∈ A0 } zu überprüfen. Satz 2.9. Ist ϕ : Ω0 → Ω eine messbare Abbildung, dann ist durch IIP[A] = IIP0 ◦ ϕ−1 [A] = IIP0 [ϕ−1 (A)] ein Wahrscheinlichkeitsmass auf (Ω, F) definiert. Beweis. Wir haben IIP[Ω] = IIP0 [ϕ−1 (Ω)] = IIP0 [Ω0 ] = 1 . Ist nun {Ai } eine Kollektion von Mengen mit Ai ∩ Aj = ∅ für i 6= j, dann ist ϕ−1 (Ai ) ∩ ϕ−1 (Aj ) = ∅. Weiter gilt X X IIP[∪i Ai ] = IIP0 [ϕ−1 (∪i Ai )] = IIP0 [∪i ϕ−1 (Ai )] = IIP0 [ϕ−1 (Ai )] = IIP[Ai ] . i i Sei Ω0 = [0, 1], F 0 die Borel-σ-Algebra auf [0, 1] und IIP0 das Lebesguemass. Sei Ω die Menge aller binären {0, 1} Folgen. Wir wählen die σ-Algebra F, die durch die Ereignisse {Xi = 1} erzeugt wird. Wir ordnen nun jeder Zahl x ∈ [0, 1] die Folge P −k (x1 , x2 , . . .) zu, für die x = ∞ k=1 xk 2 . Wir haben also xn = 0 ⇐⇒ x ∈ [2k2−n , (2k + 1)2−n ) für ein k ∈ {0, 1, . . . , 2n−1 − 1}. Das heisst, −1 ϕ ({Xn = 0}) = 2n−1 [−1 [2k2−n , (2k + 1)2−n ) ∈ F 0 . k=0 Somit ist ϕ(x) messbar. Setzen wir nun IIP als das Bild der Gleichverteilung, erhalten wir n n hhX i X 0 −k IIP[X1 = x1 , X2 = x2 , . . . , Xn = xn ] = IIP xk 2 , xk 2−k + 2−n = 2−n . k=1 k=1 Wir erhalten also die “Gleichverteilung” auf der Menge von unendlich vielen Würfen einer fairen Münze. Umgekehrt können wir aus der Existenz eines Wahrscheinlichkeitsmasses für unendlich viele Würfe einer fairen Münze die Existenz des Lebesguemasses beweisen. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 47 2.2. Zufallsvariable und ihre Verteilungen Bezeichnen wir mit B1 = σ({(−∞, a] : a ∈ IR}) die Borel-σ-Algebra auf IR. Diese σ-Algebra enthält alle Intervalle, alle offenen und alle abgeschlossenen Mengen. Sei nun (Ω, F, IIP) ein Wahrscheinlichkeitsraum. Definition 2.10. Eine (reelle) Zufallsvariable ist eine messbare Abbildung X : Ω → IR. Die Funktion FX (x) := IIP[X ≤ x] heisst Verteilungsfunktion der Zufallsvariable X. Durch die Verteilungsfunktion lassen sich alle Wahrscheinlichkeiten IIP[X ∈ A] mit A ∈ B1 bestimmen, da die Ereignisse {(−∞, b]} die Borel-σ-Algebra erzeugen. Insbesondere haben wir IIP[X ∈ (a, b]] = FX (b) − FX (a). Hilfssatz 2.11. i) Eine Verteilungsfunktion F (x) hat die folgenden Eigenschaften a) F (x) ist wachsend. b) F (x) ist rechtsstetig. c) Es gilt limx→−∞ F (x) = 0 und limx→∞ F (x) = 1. ii) Sei F (x) eine Funktion, die die Eigenschaften a) – c) hat. Dann gibt es einen Wahrscheinlichkeitsraum (Ω, F, IIP) und eine Zufallsvariable X, die die Verteilungsfunktion F (x) hat. Beweis. i) a) Sei x ≤ y. Da {X ≤ x} ⊂ {X ≤ y}, gilt F (x) = IIP[X ≤ x] ≤ IIP[X ≤ y] = F (y). b) Sei {hn } eine Folge von strikt positiven Zahlen, die monoton gegen Null konvergiert. Dann ist {X ≤ x} = ∩n {X ≤ x + hn }. Also haben wir F (x) = IIP[X ≤ x] = lim IIP[X ≤ x + hn ] = lim F (x + hn ) . n→∞ n→∞ c) Sei {xn } eine Folge, die gegen −∞ konvergiert. Wir setzen yn = supk≥n xn . Dann konvergiert {yn } monoton gegen −∞. Weiter ist ∩n {X ≤ yn } = ∅. Also erhalten wir lim F (xn ) ≤ lim F (yn ) = lim IIP[X ≤ yn ] = IIP[∅] = 0 , n→∞ n→∞ n→∞ 48 2. STETIGE WAHRSCHEINLICHKEITSRÄUME also limn→∞ F (xn ) = 0. Analog folgt limx→∞ F (x) = 1. ii) Sei Ω0 = [0, 1], F 0 die Borel-σ-Algebra auf Ω0 und IIP die Gleichverteilung (Lebesguemass auf [0, 1]). Da F (x) wachsend ist, können wir die Umkehrabbildung F −1 (ω 0 ) = inf{x ∈ IR : F (x) > ω 0 } definieren. Aus der Definition und der Rechtsstetigkeit schliessen wir {ω 0 ∈ [0, F (x))} ⊂ {F −1 (ω 0 ) ≤ x} ⊂ {ω 0 ∈ [0, F (x)]} . Somit ist {F −1 (ω 0 ) ≤ x} = [0, F (x)) oder {F −1 (ω 0 ) ≤ x} = [0, F (x)]. Das heisst, F −1 ist eine messbare Abbildung von [0, 1] nach IR, also eine Zufallsvariable. Die Verteilungsfunktion ist F (x) = IIP[ω 0 ∈ [0, F (x))] ≤ IIP[F −1 (ω 0 ) ≤ x] ≤ IIP[ω 0 ∈ [0, F (x)]] = F (x) . Die obige Beweismethode hat auch eine praktische Anwendung. Auf einem Computer lassen sich Pseudo-Zufallszahlen {Un } erzeugen. Diese Zufallszahlen nähern die Gleichverteilung auf [0, 1] an. Wollen wir nun Zufallsvariablen {Xn } mit der Verteilungsfunktion F (x) erzeugen, so können wir Xn = F −1 (Un ) setzen. Beispiele • Sei X ein {0, 1} Experiment mit Erfolgsparameter p. Dann ist 0, falls x < 0, F (x) = 1 − p, falls 0 ≤ x < 1, 1, falls x ≥ 1. • Sei X eine Binomialverteilte Zufallsvariable mit Parameter n und p. Dann haben wir bxc X n k F (x) = p (1 − p)n−k . k k=0 Hier verwenden wir die Konvention, dass nk = 0, falls n < k. • Sei X Poissonverteilt mit Parameter λ. Dann haben wir F (x) = bxc X λk k=0 k! e−λ . 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 1.0 B 1.0 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 5 10 15 20 25 49 Poi 30 5 Par 10 N 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 1 2 3 4 5 6 -3 15 20 1.0 -2 -1 1 2 3 Abbildung 2.1: Die Verteilungsfunktionen der Binomialverteilung (B), Poissonverteilung (Poi), Paretoverteilung (Pa) und Normalverteilung (N) • Die Funktion (1−(1+x/β)−α )1Ix>0 mit α, β > 0 ist eine Verteilungsfunktion, und heisst Pareto-Verteilung mit Parameter α und β. Diese Verteilung ist populär in der Versicherungsmathematik, und wird zum Beispiel zur Modellierung von Katastrophenschäden verwendet. Sie hat die folgende Eigenschaft. Nehmen wir an, wir wissen, dass {X > x0 }. Dann hat X − x0 die bedingte Verteilung IIP[x0 < X ≤ x0 + y] F (x0 + y) − F (x0 ) = IIP[X > x0 ] 1 − F (x0 ) −α (1 + x0 /β) − (1 + (x0 + y)/β)−α = (1 + x0 /β)−α β + x + y −α y −α 0 =1− =1− 1+ . β + x0 β + x0 IIP[X − x0 ≤ y | X > x0 ] = Also erhalten wir wieder eine Pareto-Verteilung. • Die Funktion F (x) = (1 − e−αx )1Ix>0 mit α > 0 ist eine Verteilungsfunktion und heisst Exponentialverteilung mit Parameter α. Wissen wir, dass {X > x0 }, dann hat X − x0 die Verteilung IIP[X − x0 ≤ y | X > x0 ] = F (x0 + y) − F (x0 ) e−αx0 − e−α(x0 +y) = = 1 − e−αy . 1 − F (x0 ) e−αx0 50 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Die Exponentialverteilung hat somit, analog zur geometrischen Verteilung im diskreten Fall, kein Gedächtnis. • Die Funktion Z x 1 2 √ e−y /2 dy 2π −∞ ist eine Verteilungsfunktion. Sie heisst standard Normalverteilung. Betrachten wir nun die Variable µ + σX mit σ > 0. Die hat die Verteilung F (x) = Z (x−µ)/σ h 1 x − µi 2 √ e−y /2 dy = IIP[µ + σX ≤ x] = IIP X ≤ σ 2π −∞ Z x Z x 1 −(z−µ)2 /(2σ2 ) dz 1 2 2 √ e √ = = e−(z−µ) /(2σ ) dz . σ 2π 2σ 2 π −∞ −∞ Diese Verteilung heisst Normalverteilung mit Mittelwert µ und Varianz σ 2 . Wir sehen in den Beispielen zwei grundsätzlich verschiedene Typen von Verteilungen. Die diskreten Verteilungen haben Verteilungsfunktionen, die stückweise konstant sind. Zwischen diesen konstanten Teilen gibt es Sprünge. Wir haben dann eine abzählbare Menge von Punkten {x1 , x2 , . . .}, an denen die Verteilungsfunktion einen Sprung der Höhe pk hat. Wir können die Verteilung durch die Paare {(xk , pk )} charakterisieren. Bei diesem Typ haben wir, dass die ganze Masse auf abzählbar viele Punkte verteilt ist. Der zweite Typ hat eine stetige Verteilungsfunktion. Die betrachteten Verteilungsfunktionen liessen sich alle, wie in der folgenden Definition schreiben. Definition 2.12. Eine Verteilung heisst absolutstetig, falls sich die VerteilungsRx funktion als F (x) = −∞ f (z) dz schreiben lässt, wobei f (z) eine messbare Funktion ist. Die Funktion f (x) heisst Dichtefunktion der Verteilung. Es ist einfach zu zeigen, dass jede (stückweise) stetige Funktion messbar ist, und somit kann jede positive stückweise stetige Funktion, deren Integral über die reellen Zahlen 1 ergibt, als Dichte benutzt werden. Für die Pareto-Verteilung erhalten wir durch Differenzierung die Dichtefunktion f (x) = αβ α (β + x)−α−1 1Ix>0 . Die Exponentialverteilung hat die Dichtefunktion f (x) = αe−αx 1Ix>0 , und die Normalverteilung hat die Dichtefunktion f (x) = √ 2 2 e−(x−µ) /(2σ ) / 2σ 2 π. Die Gleichverteilung auf [0, 1] hat die Dichte f (x) = 1I0<x<1 . Generell kann man die Gleichverteilung auf [a, b] mit a < b definieren. Die entsprechende Dichte ist f (x) = (b − a)−1 1Ia<x<b . 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 51 1.0 0.8 0.6 0.4 0.2 0.2 0.4 0.6 0.8 1.0 Abbildung 2.2: Singuläre Verteilungsfunktion Neben den diskreten und den absolutstetigen Verteilungen gibt es noch einen dritten Typ, die singulären Verteilungen. Diese Verteilungen sind stetig, aber haben an allen Stellen, wo F (x) differenzierbar ist, die Ableitung 0. Sie lassen sich somit nicht mit einer Dichtefunktion schreiben. Wir werden diese Verteilungen nicht weiter betrachten, da sie für praktische Anwendungen nicht benützt werden. Wir können nämlich jede Verteilung durch eine absolutstetige Verteilung approximieren. Da man aus Daten nicht ersehen kann, ob eine Verteilung absolutstetig oder singulär ist, genügt es diskrete, absolutstetige und Mischungen dieser beiden Typen zu betrachten. Wir geben aber ein Beispiel für eine singuläre Verteilung. Sei x ∈ [0, 1]. Dann können wir jede Zahl im Dreiersystem darstellen, das heisst, P −k wir schreiben x = ∞ mit xk (x) ∈ {0, 1, 2}. Sei T (x) = inf{k : xk (x) = k=1 xk (x)3 1}. Wir definieren nun die Abbildung T (x) F (x) = X 1Ixk (x)≥1 2−k . k=1 Das heisst, wir setzen F (x) = 12 auf [ 31 , 23 ], F (x) = 41 auf [ 91 , 29 ] und F (x) = 34 auf [ 97 , 89 ]. Auf diese Art unterteilen wir die verbleibenden Intervalle in drei Teile, und setzen die Funktion im mittleren Teil auf den Mittelwert zwischen dem linken und dem rechten Rand des Intervalls. Diese Abbildung ist steigend und stetig. Man kann zeigen, dass die Funktion nicht absolutstetig sein kann. Der Graph der Verteilungsfunktion ist in Abbildung 2.2 gegeben. 52 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Generell ist eine Verteilungsfunktion eine Mischung aus den oben beschriebenen drei Typen F (x) = αF1 (x) + βF2 (x) + (1 − α − β)F3 (x) , wobei α, β ≥ 0 und α + β ≤ 1, F1 (x) ist eine diskrete Verteilungsfunktion, F2 (x) ist eine absolutstetige Verteilungsfunktion und F3 (x) ist eine singuläre Verteilungsfunktion. 2.3. Erwartungswerte Sei X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, F, IIP). Für viele Probleme ist es wichtig zu wissen, welchen Wert man von X im Mittel erwarten kann. Im diskreten Fall hat der Erwartungswert diese Funktion. Wir wollen nun den Erwartungswert auf die stetigen Modelle verallgemeinern. Für eine diskrete Zufallsvariable ist es natürlich, den Erwartungswert wie im diskreten Modell zu berechnen X IIE[X] = p k xk , k sofern die rechte Seite wohldefiniert ist. Für den stetigen Fall diskretisieren wir die Verteilungsfunktion, und nehmen zuerst an, dass die Zufallsvariable |X| ≤ c beschränkt ist, n n X X kc kc IIP[(k − 1)c/n < X ≤ kc/n] = (F (kc/n) − F ((k − 1)c/n)) . n n k=−n k=−n+1 Bilden wir den Grenzwert n → ∞, so konvergiert der Ausdruck. Den Grenzwert bezeichnen wir als Erwartungswert. Ist X unbeschränkt und X ≥ 0, so können wir den Erwartungswert IIE[min{X, n}] bilden. Dieser Erwartungswert ist wachsend in n, und somit existiert ein Grenzwert in [0, ∞]. Wir nennen diesen Wert dann Erwartungswert. Für beliebiges X teilen wir X in Positivteil X + = max{X, 0} und Negativteil X − = max{−X, 0} auf. Wir haben dann X = X + −X − und |X| = X + +X − . Gilt IIE[X + ] < ∞ oder IIE[X − ] < ∞, so definieren wir IIE[X] = IIE[X + ] − IIE[X − ]. Ist IIE[X + ] = IIE[X − ] = ∞, so lässt sich kein sinnvoller Erwartungswert definieren. Ist die Zufallsvariable absolutstetig, dann erhalten wir die Formel Z ∞ IIE[X] = xf (x) dx , −∞ 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 53 vorausgesetzt, dass die rechte Seite wohldefiniert ist. Ist F (x) = αF1 (x)+(1−α)F2 (x) mit α ∈ (0, 1) mit F1 (x) einer diskreten Verteilungsfunktion gegeben durch {(xk , pk )} und F2 (x) einer absolutstetigen Verteilungsfunktion mit Dichtefunktion f (x), dann ist Z ∞ X IIE[X] = α xf (x) dx . pk xk + (1 − α) −∞ k Damit wir nicht zwischen diskreten und stetigen Variablen unterscheiden müssen, schreiben wir für den Erwartungswert Z ∞ IIE[X] = x dF (x) . −∞ Definition 2.13. Eine Zufallsvariable heisst integrierbar, falls IIE[|X|] < ∞. Der Erwartungswert hat folgende Eigenschaften: • Linearität, das heisst IIE n hX k=1 i ci X i = n X ci IIE[Xi ] . k=1 • Monotonie, das heisst IIE[X] ≤ IIE[Y ], falls X ≤ Y . • Monotone Stetigkeit, das heisst, falls X1 ≤ X2 ≤ · · · mit IIE[|X1 |] < ∞, so gilt für X = limn→∞ Xn IIE[X] = lim IIE[Xn ] . n→∞ • Beschränkte Konvergenz, das heisst, sind {Xn } Zufallsvariablen, so dass der Erwartungswert IIE[supn |Xn |] < ∞ endlich ist und X = limn→∞ Xn existiert, dann gilt IIE[X] = lim IIE[Xn ] . n→∞ Ist X eine Zufallsvariable mit Verteilungsfunktion F (x), so ist für jede messbare Funktion h : IR → IR die Grösse h(X) auch eine Zufallsvariable. Der Erwartungswert lässt sich dann berechnen als (P Z ∞ falls F (x) diskret ist, k h(xk )pk , IIE[h(X)] = h(x) dF (x) = R ∞ h(x)f (x) dx , falls F (x) absolutstetig ist. −∞ −∞ 54 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Spezialfälle In den folgenden Spezialfällen wird angenommen, dass die entsprechenden Erwartungswerte existieren. • Für den positiven Teil X + = max{X, 0} erhalten wir (P Z ∞ k:x >0 xk pk , falls F (x) diskret ist, x dF (x) = R ∞ k IIE[X + ] = xf (x) dx , falls F (x) absolutstetig ist. 0 0 Eine analoge Formel gilt für X − = max{−X, 0}. Aus diesen beiden Formeln erhalten wir IIE[X] = IIE[X + ] − IIE[X − ] und IIE[|X|] = IIE[X + ] + IIE[X − ]. • Das p-te Moment von X ist definiert als Z ∞ p IIE[X ] = xp dF (x) , −∞ wobei p ∈ IIN. Ist X ≥ 0, so kann das p-te Moment auch für p ∈ [0, ∞) definiert werden. Ist p ∈ IIN, dann heisst IIE[(X − IIE[X])p ] das p-te zentrale Moment von X. Eine besondere Kennzahl ist die Varianz von X, Var[X] = IIE[(X − IIE[X])2 ] = IIE[X 2 ] − IIE[X]2 . Die Varianz ist eine Kennzahl dafür, wie stark X um den Erwartungswert fluktuiert. Da die Grösse quadriert ist, betrachtet man oft auch die Standardabp weichung Var[X]. • Die momenterzeugende Funktion ist definiert als MX (r) = IIE[erX ]. Der Na(p) me kommt daher, dass MX (r) = IIE[X p erX ] (die p-te Ableitung), und daher das (p) p-te Moment MX (0) = IIE[X p ] aus der momenterzeugenden Funktion erhalten werden kann. Beispiele • Binomialverteilung Für den Erwartungswert erhalten wir n n X X n k n−1 k n−k IIE[X] = k p (1 − p) = n p (1 − p)n−k = np . k k − 1 k=0 k=1 Das zweite Moment wird n n X X n k 2 2 n k n−k IIE[X ] = k p (1 − p) = k(k − 1) p (1 − p)n−k + IIE[X] k k k=0 k=0 n X n−2 k = n(n − 1) p (1 − p)n−k + np = n(n − 1)p2 + np . k − 2 k=2 Für die Varianz erhalten wir Var[X] = np − np2 = np(1 − p). 2. STETIGE WAHRSCHEINLICHKEITSRÄUME • Gleichverteilung auf [a, b] Das p-te Moment wird 1 IIE[X ] = b−a p 55 Z a b 1 bp+1 − ap+1 x dx = . p+1 b−a p Insbesondere ist IIE[X] = 12 (a + b) und IIE[X 2 ] = 13 (b2 + ab + a2 ). Damit wird 1 (b − a)2 . Var[X] = 12 • Exponentialverteilung Für p ∈ IIN \ {0} erhalten wir Z ∞ Z ∞ p p p −αx IIE[X ] = x αe dx = pxp−1 e−αx dx = IIE[X p−1 ] . α 0 0 Durch Induktion ergibt sich IIE[X p ] = α−p p!. Also ist IIE[X] = α−1 , IIE[X 2 ] = 2α−2 , Var[X] = α−2 . Für beliebiges p > 0 können wir die Momente ausdrücken durch IIE[X p ] = α−p Γ(p + 1), wobei Z ∞ Γ(x) := y x−1 e−y dy 0 die Gamma-Funktion bezeichnet. • Normalverteilung Für die Standardnormalverteilung ergibt sich für p ∈ IIN Z ∞ 1 2 p xp √ e−x /2 dx . IIE[X ] = 2π −∞ Ist p ungerade, ergibt sich aus der Symmetrie, dass IIE[X p ] = 0. Für allgemeines p > 0 erhalten wir Z ∞ Z ∞ 1 2 −x2 /2 p p 1 IIE[|X| ] = |x| √ e dx = 2 xp √ e−x /2 dx 2π 2π 0 −∞ Z ∞ 1 1 1 = √ 2p/2 z 2 (p−1) e−z dz = √ 2p/2 Γ( 21 (p + 1)) . π π 0 √ √ Aus 1 = IIE[|X|0 ] = Γ( 12 )/ π können wir schliessen, dass Γ( 21 ) = π. Mit Hilfe der Formeln Γ(x + 1) = xΓ(x) und Γ(n + 1) = n! für n ∈ IIN erhalten wir p p √ IIE[|X|] = 2/π, IIE[X 2 ] = (2/ π) 12 Γ( 12 ) = 1, IIE[|X|3 ] = 2 2/π, IIE[X 4 ] = 3. Für die Normalverteilung mit Mittelwert µ und Varianz σ 2 , Y = µ + σ 2 X, erhalten wir die Momente am einfachsten über die binomischen Formeln. So ist IIE[Y ] = IIE[µ + σX] = µ und IIE[Y 2 ] = IIE[(µ + σX)2 ] = µ2 + 2µσ0 + σ 2 1 = σ 2 + µ2 . Also haben wir die Varianz Var[Y ] = σ 2 . 56 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 2.4. Ungleichungen Manchmal braucht man nicht den exakten Erwartungswert oder die exakte Wahrscheinlichkeit, sondern eine Abschätzung ist gut genug. Die Abschätzungen lassen sich oft leichter berechnen, als der Erwartungswert oder die Wahrscheinlichkeit. Hilfssatz 2.14. (Jensens Ungleichung) Ist X eine Zufallsvariable mit endlichem Erwartungswert und u : IR → IR eine konvexe Funktion, so dass IIE[u(X)] existiert. Dann gilt IIE[u(X)] ≥ u(IIE[X]). Ist IIP[X = IIE[X]] < 1 und u(x) strikt konvex, dann gilt die strikte Ungleichung. Bemerkung. Ist u(x) konkav, so ist −u(x) konvex. Also gilt in diesem Fall IIE[u(x)] ≤ u(IIE[X]). Beweis. Für eine konvexe Funktion gibt es für jeden Punkt x0 eine Gerade `(x) = u(x0 ) + k(x0 )(x − x0 ), die u(x) in x0 berührt, so dass `(x) ≤ u(x). Setzen wir x0 = IIE[X]. Dann erhalten wir u(IIE[X]) = u(x0 ) = u(x0 ) + k(x0 )(IIE[X] − x0 ) = IIE[`(X)] ≤ IIE[u(X)] . Ist u(x) strikt konvex, so ist u(x) > `(x) für x 6= x0 . Analog folgt dann die strikte Ungleichung. Wir erhalten die Ungleichungen IIE[|X|] ≥ |IIE[X]| und IIE[X 2 ] ≥ IIE[X]2 . Korollar 2.15. Ist 0 < p ≤ q, so gilt IIE[|X|p ]1/p ≤ IIE[|X|q ]1/q . Beweis. Die Funktion u(x) = xq/p ist konvex auf [0, ∞). Somit erhalten wir IIE[|X|q ] = IIE[(|X|p )q/p ] ≥ IIE[|X|p ]q/p . Dies ist äquivalent zur Behauptung. Hat man Informationen über Erwartungswert oder Varianz, lassen sich auch Wahrscheinlichkeiten abschätzen. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 57 Hilfssatz 2.16. Sei h(x) eine positive wachsende Funktion. Dann gilt h(c)IIP[X ≥ c] ≤ IIE[h(X)] . Beweis. Da h(x) wachsend und positiv ist, gilt h(c)1IX≥c ≤ h(X). Nimmt man den Erwartungswert, folgt die Aussage. Korollar 2.17. (Markov-Ungleichung) Sei c > 0 und IIE[|X|] < ∞. Dann gilt IIP[|X| ≥ c] ≤ c−1 IIE[|X|] . Beweis. Wählen wir in Hilfssatz 2.16 h(x) = x, und wenden dies auf die Zufallsvariable |X| an, so folgt die Aussage. Ist X eine positive Zufallsvariable mit IIE[X] = 0, erhalten wir IIP[X ≥ c] = 0, also ist IIP[X = 0] = 1. Korollar 2.18. (Chebychev-Ungleichung) Sei IIE[X 2 ] < ∞ und c > 0. Dann gilt IIP[|X − IIE[X]| ≥ c] ≤ c−2 Var[X] . (2.1) Beweis. Wir wenden Hilfssatz 2.16 mit h(x) = x2 auf die Zufallsvariable |X − IIE[X]| an. Korollar 2.19. Sei r > 0, so dass die momenterzeugende Funktion MX (r) = IIE[erX ] existiert. Dann gilt IIP[X ≥ c] ≤ e−rc MX (r) = exp{−(rc − log MX (r))} . Beweis. Dies folgt aus Hilfssatz 2.16 mit h(x) = erx . Die obige Ungleichung ist wichtig in der Theorie der grossen Abweichungen. Man wählt r so, dass rc − log MX (r) maximal wird. 58 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Hilfssatz 2.20. (Cauchy–Schwarz-Ungleichung) riablen mit IIE[X 2 + Y 2 ] < ∞. Dann gilt Seien X und Y Zufallsva- (IIE[XY ])2 ≤ IIE[X 2 ]IIE[Y 2 ] . Beweis. Ist IIE[Y 2 ] = 0, so haben wir oben gesehen, dass Y = 0 gelten muss. In diesem Fall gilt die Ungleichung trivialerweise. Nehmen wir also IIE[Y 2 ] > 0 an. Für jedes α ∈ IR haben wir 0 ≤ IIE[(X − αY )2 ] = IIE[X 2 ] − 2αIIE[XY ] + α2 IIE[Y 2 ] . Die rechte Seite wird minimal für α = IIE[XY ]/IIE[Y 2 ]. Setzen wir diesen Wert ein, erhalten wir (IIE[XY ])2 . 0 ≤ IIE[X 2 ] − IIE[Y 2 ] Dies ist äquivalent zur Behauptung. Korollar 2.21. (Ungleichung von Cantelli) IIE[X 2 ] < ∞. Dann gilt für jedes c ≥ 0 IIP[X ≥ IIE[X] + c] ≤ c2 Sei X eine Zufallsvariable und Var[X] . + Var[X] Beweis. Wir dürfen IIE[X] = 0 annehmen. Aus der Cauchy–Schwarz-Ungleichung (Lemma 2.20) erhalten wir c2 = (IIE[c − X])2 ≤ (IIE[(c − X)1IX<c ])2 ≤ IIE[(c − X)2 ]IIE[1I2X<c ] = (c2 + Var[X])IIP[X < c] = (c2 + Var[X])(1 − IIP[X ≥ c]) . Auflösen nach IIP[X ≥ c] gibt die Behauptung. 2.5. Varianz, Kovarianz, lineare Prognose Wir wollen nun Rechenregeln für die Varianz finden. Seien a, b ∈ IR und IIE[X 2 ] < ∞. Dann gilt Var[aX + b] = IIE[(aX + b − IIE[aX + b])2 ] = IIE[{a(X − IIE[X])}2 ] = a2 Var[X] . Seien X und Y zwei Zufallsvariablen. Dann gilt Var[X + Y ] = IIE[(X + Y − IIE[X + Y ])2 ] = IIE[{(X − IIE[X]) + (Y − IIE[Y ])}2 ] = Var[X] + Var[Y ] + 2IIE[(X − IIE[X])(Y − IIE[Y ])] . Wir machen daher folgende 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 59 Definition 2.22. Die Grösse Cov[X, Y ] := IIE[(X − IIE[X])(Y − IIE[Y ])] = IIE[XY ] − IIE[X]IIE[Y ] heisst Kovarianz von X und Y . Wir sagen, X und Y sind unkorreliert, falls Cov[X, Y ] = 0. Es folgt sofort, dass Cov[X, X] = Var[X]. Wir wollen nun die Kovarianz berechnen, falls X und Y unabhängig sind. Wir werden die Unabhängigkeit von Zufallsvariablen erst in Definition 2.24 definieren. Für die Berechnungen unten brauchen wir aber nur die diskrete Version (Definition 1.30). Nehmen wir zuerst an, X und Y seien diskrete Variablen. Wir charakterisieren sie durch {xi , pi )} und {(yi , qi )}. Dann gilt XX XX IIE[XY ] = xk yj IIP[X = xk , Y = yj ] = xk y j p k q j j k = X xk p k k X j yj qj = IIE[X]IIE[Y ] . j k Sei nun X eine stetige und Y eine diskrete Variable. Wir nehmen zuerst an, dass |X| und |Y | durch c beschränkt sind. Dann haben wir X kc kj n yj IIP[(k−1)c/n < X ≤ kc/n, Y = yj ] = X kc k n IIP[(k−1)c/n < X ≤ kc/n]IIE[Y ] wie im diskreten Fall. Lassen wir n → ∞ erhalten wir Z c IIE[XY ] = x dF (x)IIE[Y ] = IIE[X]IIE[Y ] . −c Sind nun X, Y ≥ 0 positive Zufallsvariablen, erhalten wir aus monotoner Konvergenz IIE[XY ] = lim IIE[X1IX≤n Y 1IY ≤n ] = lim IIE[X1IX≤n ]IIE[Y 1IY ≤n ] = IIE[X]IIE[Y ] . n→∞ n→∞ Für beliebige X, Y haben wir IIE[XY ] = IIE[(X + − X − )(Y + − Y − )] = IIE[X + Y + ] − IIE[X + Y − ] − IIE[X − Y + ] + IIE[X − Y − ] = IIE[X + ]IIE[Y + ] − IIE[X + ]IIE[Y − ] − IIE[X − ]IIE[Y + ] + IIE[X − ]IIE[Y − ] = (IIE[X + ] − IIE[X − ])(IIE[Y + ] − IIE[Y − ]) = IIE[X]IIE[Y ] . 60 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Analog folgt die Formel IIE[XY ] = IIE[X]IIE[Y ], falls beide X und Y stetig sind. Wir haben also, Cov[X, Y ] = 0, falls X und Y unabhängig sind. Für unabhängige Zufallsvariablen gilt also Var n hX k=1 i Xk = n X Var[Xk ] . k=1 Sind {Xk } unabhängige {0, 1} Experimente mit Parameter p. Dann ist IIE[Xi ] = p und IIE[Xi2 ] = IIE[Xi ] = p. Also ist die Varianz Var[Xi ] = p − p2 = p(1 − p). Aus P der Summenformel erhalten wir Var[Sn ] = nk=1 Var[Xi ] = np(1 − p), was mit der Varianz der Binomialverteilung übereinstimmt. Wir wollen nun Rechenregeln für die Kovarianz bestimmen. Wir erhalten aus der Symmetrie der Definition Cov[X, Y ] = Cov[Y, X] . Weiter gilt für a, b ∈ IR Cov[X, aY + b] = IIE[(X − IIE[X])a(Y − IIE[Y ])] = a Cov[X, Y ] . Ist Z eine weitere Zufallsvariable, erhalten wir Cov[X, Y + Z] = IIE[(X − IIE[X])(Y − IIE[Y ] + Z − IIE[Z])] = IIE[(X − IIE[X])(Y − IIE[Y ])] + IIE[(X − IIE[X])(Z − IIE[Z])] = Cov[X, Y ] + Cov[X, Z] . Definition 2.23. Sei Var[X] Var[Y ] > 0. Die Grösse Cov[X, Y ] Cor[X, Y ] := p Var[X] Var[Y ] heisst Korrelation von X und Y . Aus der Cauchy–Schwarz Ungleichung (Lemma 2.20) schliessen wir Cor[X, Y ] ∈ [−1, 1]. Betrachten wir den Extremfall Cor[X, Y ] = 1. Wir dürfen IIE[X] = IIE[Y ] = 0 annehmen. Dann haben wir s 2 Var[X] Var[X] IIE X − Y = Var[X] − Var[Y ] = 0 . Var[Y ] Var[Y ] 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 61 Somit gilt s IIP X = Var[X] Y Var[Y ] =1. Analog folgt, falls Cor[X, Y ] = −1, IIP X = − s Var[X] Y Var[Y ] =1. Betrachten wir das folgende Problem. Seien X, Y zwei Zufallsvariablen. Wir beobachten X und wollen nun Y vorhersagen. Wir verwenden eine lineare Prognose Ŷ = aX + b. Wir suchen nun Zahlen a, b, so dass der mittlere quadratische Fehler IIE[(Ŷ − Y )2 ] minimal wird. Aus IIE[(Ŷ − Y )2 ] = Var[Ŷ − Y ] + IIE[Ŷ − Y ]2 und der Tatsache, dass Var[Ŷ − Y ] nicht von b abhängt, schliessen wir, dass IIE[Ŷ − Y ] = 0, also b = IIE[Y ] − aIIE[X]. Ist nun Var[X] = 0, ist die beste Prognose Ŷ = aIIE[X] + b = IIE[Y ]. Wir können also Var[X] > 0 annehmen. Es bleibt IIE[(Ŷ − Y )2 ] = Var[Ŷ − Y ] = Var[Ŷ ] + Var[Y ] − 2 Cov[Ŷ , Y ] = a2 Var[X] + Var[Y ] − 2a Cov[X, Y ] . Dies ist minimal für a = Cov[X, Y ]/ Var[X]. Also haben wir die optimale lineare Prognose Ŷ = Cov[X, Y ] Cov[X, Y ] Cov[X, Y ] X + IIE[Y ] − IIE[X] = IIE[Y ] + (X − IIE[X]) . Var[X] Var[X] Var[X] Das Verfahren heisst lineare Regression. Ist Var[X] = Var[Y ], erhalten wir Ŷ = IIE[Y ] + Cor[X, Y ](X − IIE[X]) . Francis Galton hat die Körpergrössen von Vätern und Söhnen untersucht. Er fand dann die Regressionsformel mit a ∈ (0, 1), das heisst positive Korrelation. Somit sind die Söhne von grossen Vätern auch gross, aber im Durchschnitt nicht so stark vom Mittelwert entfernt wie die Väter. Analog sind Söhne kleiner Väter auch klein, aber im Mittel näher beim Mittelwert als die Väter. Er nannte dies “regression to mediocrity” (Rückentwicklung zum Mittelmass). Daher kommt der Name “lineare Regression”. 62 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 2.6. Die gemeinsame Verteilung von d Zufallsvariablen Seien X1 , X2 , . . . , Xd eine Familie von Zufallsvariablen. Betrachten wir den Vektor X = (X1 , X2 , . . . , Xd ), dann ist X : Ω → IRd eine Abbildung. Sei Bd die von den Mengen A1 × A2 × · · · × Ad , Ak ∈ B1 , erzeugte σ-Algebra auf IRd . Sie heisst Borel-σ-Algebra auf IRd . Da {X ∈ A1 × · · · × Ad } = ∩dk=1 {Xk ∈ Ak } , ist die Abbildung X eine messbare Abbildung von Ω nach IRd . Die Borel-σ-Algebra Bd wird erzeugt durch Mengen der Form (−∞, a1 ] × (−∞, a2 ] × · · · × (−∞, ad ]. Es genügt daher die gemeinsame Verteilungsfunktion F (x1 , x2 , . . . , xd ) = IIP[X1 ≤ x1 , . . . , Xd ≤ xd ] zu kennen. Die Verteilung von X heisst, analog zum eindimensionalen Fall, absolutstetig, wenn es eine messbare Funktion f : IRd → IR gibt, so dass Z x1 Z x2 Z xd f (y1 , . . . , yd ) dyd · · · dy1 . F (x1 , . . . , xd ) = ··· −∞ −∞ −∞ Die Dichtefunktion von X muss dann eine positive reelle Funktion auf IRd sein, so R dass IRd f (y) dy = 1. Aus der gemeinsamen Verteilungsfunktion F (x) können wir auch die Verteilung von Xk bestimmen, Fk (xk ) = IIP[Xk ≤ xk ] = IIP[X1 < ∞, . . . , Xk−1 < ∞, Xk ≤ xk , Xk+1 < ∞, . . . , Xd < ∞] = F (∞, . . . , ∞, xk , ∞, . . . , ∞) . Analog lässt sich die gemeinsame Verteilung der k Zufallsvariablen Xi1 , Xi2 , , . . . , Xik für 1 ≤ i1 < i2 < · · · < ik ≤ d bestimmen. Ist nun X absolutstetig, erhalten wir, dass auch Xk absolutstetig ist. Die Dichte von Xk ist dann Z ∞ Z ∞ Z ∞ Z ∞ fk (xk ) = ··· ··· f (x) dxd · · · dxk+1 dxk−1 · · · dx1 . x1 =−∞ xk−1 =−∞ xk+1 =−∞ xd =−∞ Achtung: Es kann sein, dass alle Zufallsvariablen Xk eindimensional absolutstetig sind, aber mehrdimensional nicht absolutstetig sind. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 63 Definition 2.24. Die Zufallsvariablen X1 , . . . , Xd heissen (stochastisch) unabhängig, falls FX (x1 , . . . , xd ) = F1 (x1 )F2 (x2 ) · · · Fd (xd ) . Die Definition ist äquivalent zu IIP[∩dk=1 {Xk ∈ Ak }] = d Y IIP[Xk ∈ Ak ] , k=1 wobei Ak ∈ B1 Borel Mengen sind. Weiter lässt sich zeigen, dass für messbare Funktionen hk : IR → IR, die Formel IIE d hY d i Y hk (Xk ) = IIE[hk (Xk )] k=1 k=1 gilt, falls X1 , . . . , Xd unabhängig sind, siehe auch Abschnitt 2.5. Gilt umgekehrt die obige Formel für alle messbaren Funktion hk , dann sind die Zufallsvariablen unabhängig. Das folgt sofort, falls man hk (xk ) = 1Ixk ≤ak wählt. Insbesondere folgt für unabhängige Zufallsvariablen IIE d hY k=1 i Xk = d Y IIE[Xk ] . k=1 Wie wir schon vorher bewiesen haben, sind also unabhängige Zufallsvariablen unkorreliert. Wie wir schon für Ereignisse bemerkt haben, impliziert paarweise Unabhängigkeit nicht stochastische Unabhängigkeit. Wir können auch aus der Unkorreliertheit nicht schliessen, dass zwei Zufallsvariablen unabhängig sind. Ist zum Beispiel X standardnormalverteilt, und Y = X 2 , so sind X und Y nicht unabhängig. Zum Beispiel ist IIP[X > 1, Y > 1] = IIP[X > 1] > IIP[X > 1]IIP[Y > 1] . Aber IIE[XY ] = IIE[X 3 ] = 0 = IIE[X]IIE[Y ], da IIE[X] = 0. Proposition 2.25. Die absolutstetigen Zufallsvariablen X1 , X2 , . . . , Xd sind genau dann unabhängig, wenn ihre gemeinsame Dichte sich als f (x1 , . . . , xd ) = f1 (x1 ) · · · fk (xk ) schreiben lässt. 64 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Beweis. Lässt sich f (x) als Produkt schreiben, dann gilt Z x1 Z xd ··· F (x) = d Y fk (yk ) dyd · · · dy1 = −∞ k=1 −∞ d Z Y k=1 xk fk (yk ) dyk = −∞ d Y Fk (xk ) . k=1 Also sind die Zufallsvariablen unabhängig. Seien die Zufallsvariablen nun unabhängig. Dann gilt Z x1 Z xd ··· −∞ f (y) dy = F (x) = −∞ d Y Fk (xk ) = k=1 Z x1 Z ··· = −∞ xd d Z Y k=1 d Y xk fk (yk ) dyk −∞ fk (yk ) dyd · · · dy1 . −∞ k=1 Da die Formel für alle x (mit Ausnahme einer Menge mit Mass 0) gelten muss, folgt die Produktformel für die Dichtefunktion. Als nächstes betrachten wir Summen von unabhängigen Zufallsvariablen. Hilfssatz 2.26. Seien X1 und X2 unabhängige absolutstetige Zufallsvariablen mit Dichtefunktionen f1 (x) und f2 (x). Dann ist X = X1 + X2 absolutstetig mit Dichtefunktion Z ∞ f (x) = f1 (z)f2 (x − z) dz . −∞ Bemerkung. Die Formel für f (x) heisst Faltung von f1 und f2 . Man schreibt oft kurz f (x) = f1 ∗f2 (x). Für die Verteilungsfunktionen schreiben wir F (x) = F1 ∗F2 (x). Sind X1 , . . . , Xd identisch und unabhängig verteilt, so schreiben wir kurz für die Verteilungsfunktion der Summe X1 + · · · + Xd , F ∗d (x), und für die Dichte f ∗d (x). Beweis. Kennen wir X1 , dann muss X2 ≤ x − X1 sein, damit X ≤ x gilt. Wir erhalten also Z ∞ Z x−x1 Z ∞Z x F (x) = f (x1 , x2 ) dx2 dx1 = f (x1 , z − x1 ) dz dx1 −∞ −∞ −∞ −∞ Z x Z ∞ = f (x1 , z − x1 ) dx1 dz . −∞ −∞ Da f (x1 , z − x1 ) = f1 (x1 )f2 (z − x1 ) folgt die Behauptung. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 65 Beispiele • Normalverteilung auf IRd Sind X1 , . . . , Xd standardnormalverteilt und unabhängig, dann hat X die Dichte −d/2 f (x) = (2π) d o n X 1 x2k . exp − 2 k=1 Ist nun A eine d × d Matrix und µ ein d-dimensionaler Vektor, dann können wir eine neue Zufallsvariable Y = AX + µ definieren. Also haben wir Yk = d X Ak` X` + µk . `=1 Der Mittelwert ist dann IIE[Yk ] = µk . Die Kovarianzen erhalten wir aus d d d X d hX i X X Σij = Cov[Yi , Yj ] = IIE Aik Xk Aj` X` = Aik Aj` IIE[Xk X` ] k=1 = d X `=1 k=1 `=1 Aik Ajk = (AA> )ij . k=1 Betrachten wir nun den Fall, wo Σ = (Σij ) nicht invertierbar ist. Dann gibt es einen Vektor a ∈ IRd \ {0}, so dass a> AA> a = 0. Insbesondere ist Var[a> Y ] = a> AA> a = 0 . Also haben wir, dass a> Y = IIE[a> Y ] = a> µ. Wir sehen also, dass sich eines der Yk als Linearkombination der anderen schreiben lässt. Es genügt also, die gemeinsame Verteilung der anderen Yi zu kennen. Nehmen wir daher an, dass Σ invertierbar ist, und setzen wir C = Σ−1 . Es muss dann gelten, dass A invertierbar ist. Also ist C = (A−1 )> A−1 . Wir erhalten dann d X x2k = x> x = x> A> CAx = (y − µ)> C(y − µ) . k=1 Somit hat Y die Dichtefunktion fY (y1 , . . . , yd ) = (2π)−d/2 (det Σ)−1/2 exp{− 21 (y − µ)> Σ−1 (y − µ)} , siehe auch Hilfssatz 2.27 unten. Diese Verteilung heisst d-dimensionale Normalverteilung mit Mittelwert µ und Kovarianzmatrix Σ. Wir sehen, dass die Normalverteilung durch Mittelwert und Kovarianzmatrix bestimmt ist. 66 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Berechnen wir nun die Verteilung von X = aX1 + bX2 . Dann sind aX1 und bX2 unabhängig und normalverteilt mit Mittelwert 0 und Varianz a2 , bzw. b2 . Die Dichte von X ist dann Z ∞ n z 2 (x − z)2 o 1 exp − 21 2 + dz . f (x) = 2abπ −∞ a b2 Wir schreiben z 2 (x − z)2 (z − b−2 (a−2 + b−2 )−1 x)2 + = + x2 (b−2 − b−4 (a−2 + b−2 )−1 ) a2 b2 (a−2 + b−2 )−1 x2 (z − b−2 (a−2 + b−2 )−1 x)2 + . = (a−2 + b−2 )−1 a2 + b 2 Da p 2π(a−2 + b−2 )−1 ∞ n (z − b−2 (a−2 + b−2 )−1 x)2 o exp − 21 dz = 1 , (a−2 + b−2 )−1 −∞ Z 1 erhalten wir f (x) = p 1 2π(a2 + b2 ) n exp − 21 x2 o . a2 + b 2 Also ist aX1 + bX2 normalverteilt mit Varianz a2 + b2 . Wir sehen also, dass Yk normalverteilt ist mit Mittelwert µk und Varianz Σkk . Insbesondere ist auch Y1 + Y2 normalverteilt mit Mittelwert µ1 + µ2 und Varianz Σ11 + Σ22 + 2Σ12 . Wir können auch in umgekehrter Richtung vorgehen. Seien {Yk : 1 ≤ k ≤ d} d-dimensional normalverteilte Zufallsvariablen, so dass Σ invertierbar ist. Da Σ symmetrisch mit einer strikt positiven Diagonalen, gibt es eine symmetrische Matrix A, so dass A2 = Σ. Dann ist X = A−1 (Y − µ) d-dimensional standard normalverteilt. Wir sehen also, dass für multinomial normalverteilte Zufallsvariablen die gemeinsame Verteilungsfunktion aus den Mittelwerten und der Kovarianzmatrix folgt. Insbesondere folgt für multinomial normalverteilte Zufallsvariablen die Unabhängigkeit aus der Unkorreliertheit. Aber aufgepasst. Sind X und Y zwei normalverteilte Zufallsvariablen, so lässt sich nicht daraus schliessen, dass der Vektor (X, Y ) zweidimensional normalverteilt ist. Und damit folgt auch nicht die Unabhängigkeit nicht aus der Unkorreliertheit. Sei X standardnormalverteilt und Z unabhängig von X mit IIP[Z = 1] = IIP[Z = −1] = 21 . Setzen wir Y = ZX. Dann ist IIP[X > 1, Y > 1] = IIP[X > 1, Z = 1] = 21 IIP[X > 1] > (IIP[X > 1])2 , 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 67 da IIP[X > 1] < 21 . Somit sind X und Y abhängig. Wegen der Symmetrie der Normalverteilung, sind beide Randverteilungen normal. Für die Kovarianz erhalten wir IIE[XY ] = IIE[ZX 2 ] = IIE[Z]IIE[X 2 ] = 0 · 1 = 0 . Man kann auch Beispiele konstruieren, bei der X, Y absolutstetig mit normalRx 2 verteilten Randverteilungen ist. Sei Φ(x) = (2π)−1/2 −∞ e−y /2 dy die StandardNormalverteilung. Die gemeinsame Verteilung F (x, y) = Φ(x)Φ(y) Φ(x) + Φ(y) − Φ(x)Φ(y) hat dann die Randverteilungen Φ(x). Die Verteilung ist absolutstetig mit der Dichte 2 2 e−(x +y )/2 Φ(x)Φ(y) . f (x, y) = π(Φ(x) + Φ(y) − Φ(x)Φ(y))3 Da Φ(x) nicht in geschlossener Form dargestellt werden kann, kann es sich nicht um eine bivariate Normalverteilung handeln. Sei (X̃, Ỹ ) ein Vektor mit der Verteilung F (x, y). Sei N gleichverteilt auf {1, 2, 3, 4} und unabhängig von (X̃, Ỹ ). Definieren wir (X̃, Ỹ ) , falls N = 1, (−X̃, Ỹ ) , falls N = 2, (X, Y ) = . ( X̃, − Ỹ ) , falls N = 3, (−X̃, −Ỹ ) , falls N = 4. Dann hat auch (X, Y ) normalverteilte Randverteilungen. Wegen der Symmetrie sind sogar X und Y unkorreliert. Aber X und Y sind nicht unabhängig. • Seien {Xk } unabhängig und gleichverteilt auf [0, 1]. Dann hat X = X1 + X2 die Dichte x, falls 0 ≤ x ≤ 1, Z 1 f ∗2 (x) = 1Ix−z∈[0,1] dz = 2 − x , falls 1 < x ≤ 2, 0 0, sonst. Die Summe Z = X1 + X2 + X3 hat die Dichte 1 2 x , falls 0 ≤ x ≤ 1, 2 Z 1 3 − (x − 3 )2 , falls 1 < x ≤ 2, 2 f ∗3 (x) = f ∗2 (x − z) dz = 4 1 2 0 (3 − x) , falls 2 < x ≤ 3, 2 0, sonst. Die Dichten sind in Abbildung 2.3 dargestellt. 68 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 1.0 0.8 0.6 0.4 0.2 0.5 1.0 1.5 2.0 2.5 3.0 Abbildung 2.3: Dichte der Faltung von gleichverteilten Zufallsvariablen • Seien {Xk } Gamma-verteilt mit Parameter γk und α, das heisst, mit Dichtefunktion αγk γk −1 −αx fk (x) = x e 1Ix≥0 . Γ(γk ) Ist γk = 1, so erhalten wir die Exponentialverteilung mit Parameter α. Wir erhalten für die Faltung für x ≥ 0 Z ∞ Z x αγ1 +γ2 f1 ∗ f2 (x) = f1 (z)f2 (x − z) dz = z γ1 −1 (x − z)γ2 −1 e−αx dz Γ(γ )Γ(γ ) 1 2 −∞ 0 Z 1 γ1 +γ2 α = xγ1 +γ2 −1 e−αx y γ1 −1 (1 − y)γ2 −1 dy Γ(γ1 )Γ(γ2 ) 0 γ1 +γ2 α = xγ1 +γ2 −1 e−αx . Γ(γ1 + γ2 ) Also ist X1 + X2 Gamma verteilt mit Parameter γ1 + γ2 und α. Nehmen wir nun γk = γ an, erhalten wir für die Summe von d unabhängigen Gamma verteilten Zufallsvariablen die Dichte f ∗d (x) = αdγ dγ−1 −αx x e . Γ(dγ) Insbesondere gilt für exponentialverteilte Zufallsvariablen (γ = 1) f ∗d (x) = αd αd d−1 −αx x e = xd−1 e−αx . Γ(d) (d − 1)! 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 69 Eine wichtige Anwendung ist die Folgende. Eine Maschine hat eine Komponente, die eine Lebensdauer Tk mit einer Exponentialverteilung mit Parameter α hat. Verschiedene Komponenten haben eine unabhängige Lebensdauer. Ist die Komponente defekt, wird sie durch eine neue ersetzt. Sei Nt die Anzahl der Komponenten, die bis zum Zeitpunkt t ersetzt werden mussten. Wir wollen nun die Verteilung von Nt bestimmen. Sei Sn = T1 + · · · + Tn . Wir haben IIP[Nt = 0] = IIP[T1 > t] = e−αt , und für n ≥ 1, IIP[Nt = n] = IIP[Sn ≤ t < Sn+1 ] = IIP[Sn ≤ t] − IIP[Sn+1 ≤ t] Z Z t αn+1 n −αz αn t d n −αz αn n−1 −αz z e − z e dz = (z e ) dz = (n − 1)! n! n! 0 dz 0 (αt)n −αt = e . (2.2) n! Also ist Nt Poissonverteilt mit Parameter αt. Nt hat also Mittelwert αt und Varianz αt. Manchmal betrachtet man nicht die Zufallsvariablen selber, sondern eine Funktion davon. In folgendem Fall kann man die Dichte “einfach” erhalten. Hilfssatz 2.27. Sei X eine absolutstetige Zufallsvariable auf IRd mit der Dichte fX (x). Ferner sei h : IRd → IRd eine injektive Funktion mit Umkehrfunktion u : h(IRd ) → IRd , so dass u stetig differenzierbar ist. Sei J(y) die Ableitung von u, ∂u1 ∂u1 · · · ∂yd ∂y. 1 .. . J(y) = . . . ∂ud ∂ud · · · ∂yd ∂y1 Dann ist Y = h(X) absolutstetig mit Dichte fY (y) = | det J(y)| f (u(y))1Iy∈h(IRd ) . Beweis. Wir bemerken zuerst, dass h(x) eine messbare Funktion ist, da h(x) als Umkehrfunktion von u(x) stetig ist. Sei B ⊂ IRd eine Borelmenge. Dann gilt für x = u(y) Z Z Z Z IIP[Y ∈ B] = IIP[X ∈ u(B)] = · · · fX (x) dx = · · · | det J(y)|fX (u(y)) dy . u(B) Somit ist Y absolutstetig mit Dichte fY (y). B 70 2. STETIGE WAHRSCHEINLICHKEITSRÄUME Beispiel Seien (X1 , X2 ) ∈ IR2 eine Zufallsvariable und Y1 = X1 +X2 , Y2 = X1 −X2 . Wir haben dann h1 (x1 , x2 ) = x1 + x2 und h2 (x1 , x2 ) = x1 − x2 . Für die Funktion u(y1 , y2 ) erhalten wir u1 (y1 , y2 ) = 12 (y1 +y2 ) und u2 (y1 , y2 ) = 21 (y1 −y2 ) Die Ableitung ist dann ! ! 1 1 1 1 1 . J(y1 , y2 ) = 21 2 1 = 2 − 1 −1 2 2 Wir haben det J(y) = − 12 . Also erhalten wir für die Dichte von (Y1 , Y2 ) fY (y1 , y2 ) = 21 f ( 12 (y1 + y2 ), 12 (y1 − y2 )) . Integrieren wir bezüglich y2 erhalten wir, für y2 = 2z − y1 , dass Y1 = X1 + X2 die Dichte Z Z fY (y1 , y2 ) dy2 = fX (z, y1 − z) dz hat. Dies stimmt mit der Formel aus Hilfssatz 2.26 überein. 2.7. Bedingte Verteilungen Seien X, Y Zufallsvariablen mit der gemeinsamen Verteilung F (x, y). Wir wollen nun das Problem betrachten, wie die Verteilung von X aussieht, falls wir Y beobachtet haben, das heisst, wir suchen IIP[X ≤ x | Y = y]. Ist IIP[Y = y] > 0, dann können wir die früher eingeführte Formel IIP[X ≤ x | Y = y] = IIP[X ≤ x, Y = y] IIP[Y = y] verwenden. Wir wollen nun absolutsteige Verteilungen betrachten. Das Problem ist, dass IIP[Y = y] = 0. Nehmen wir an, dass die Dichte von Y stetig und an der Stelle y verschieden von Null ist, fY (y) > 0. Dann ist IIP[y − ε < Y < y + ε] > 0. Wir können also die bedingte Verteilung IIP[X ≤ x | y − ε < Y < y + ε] = berechnen. Wir schreiben R y+ε R x f (v, w) dv dw y−ε −∞ = R y+ε f (w) dw Y y−ε 1 2ε IIP[X ≤ x, y − ε < Y < y + ε] IIP[y − ε < Y < y + ε] R y+ε R x f (v, w) dv dw y−ε −∞ R y+ε 1 f (w) 2ε y−ε Y dw . 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 71 Lassen wir nun ε nach 0 gehen, erhalten wir Rx IIP[X ≤ x | Y = y] = −∞ f (v, y) dv . fY (y) Wir sehen, die bedingte Verteilung von X gegeben {Y = y} ist absolutstetig mit der Dichte f (x, y) f (x | y) = . fY (y) Letztere Formel kann man für allgemeine Dichten f (x, y) beweisen. Insbesondere ist für unabhängige X, Y , f (x | y) = fX (x). Weiter gilt die Bayes’sche Regel f (y | x) = f (x, y) f (x | y)fY (y) = . fX (x) fX (x) Die bedingte Verteilung (stetig und diskret) hat die folgenden beiden Eigenschaften: i) Für jedes A ist die Abbildung y 7→ IIP[X ∈ A | Y = y] messbar. ii) Für jedes A, B gilt Z IIP[X ∈ A | Y = y] dFY (y) . IIP[X ∈ A, Y ∈ B] = B Generell kann man die bedingte Verteilung über die obigen zwei Eigenschaften definieren. Beispiele • Betrachten wir die zweidimensionale Normalverteilung ξ2 n 1 1 ξX ξY ξY2 o X p , exp − − 2ρ + f (x, y) = 2 2(1 − ρ2 ) σX σX σY σY2 2πσX σY 1 − ρ2 wobei ξX = x − µX , ξY = y − µX , µi ∈ IR, σi > 0 (i ∈ {X, Y }) und |ρ| < 1. Für die bedingte Verteilung erhalten wir 1√ f (x | y) = 2πσX σY ξ2 1−ρ2 ξX ξY 1 X exp{− 2(1−ρ + 2 ) ( σ 2 − 2ρ σ σ X Y X )} ξ2 exp{− 12 σY2 } Y n 1 1 σ X 2 o p = exp − 2 ξX − ρ ξY . 2σX (1 − ρ)2 σY σX 2π(1 − ρ2 ) σY 1 √ 2 ξY 2 σY 2π Somit ist die bedingte Verteilung von X gegeben Y normalverteilt mit Varianz 2 (1−ρ2 )σX und Mittelwert µX +ρσX (Y −µY )/σY . Das Resultat hätte man leichter p erhalten können, wenn man X = µX + σX (ρV + 1 − ρ2 W ) und Y = µY + σY V für unabhängige standardnormalverteilte V, W gesetzt hätte. 72 2. STETIGE WAHRSCHEINLICHKEITSRÄUME • Seien X und X̃ unabhängige exponential verteilte Zufallsvariablen mit Parameter α und Y = X + X̃. Die gemeinsame Dichte von X und Y ist f (x, y) = α2 exp{−αx − α(y − x)}1I0<x<y = α2 exp{−αy}1I0<x<y . Somit haben wir für die bedingte Wahrscheinlichkeit gegeben {Y = y} f (x | y) = 1 α2 exp{−αy} 1I0<x<y = 1I0<x<y . 2 α y exp{−αy} y Also ist X bedingt auf Y gleichverteilt auf [0, Y ]. • Betrachten wir ein Beispiel, wo eine diskrete Verteilung mit einer absolutstetigen Verteilung gemischt wird. Sei Λ eine Gammaverteilte Zufallsvariable mit Parametern γ und α. Gegeben {Λ = λ} sei die bedingte Verteilung von N eine Poisson-Verteilung mit Parameter λ. Die unbedingte Verteilung von N ist dann Z ∞ n λ −λ αγ γ−1 −αλ Γ(γ + n) α γ 1 n IIP[N = n] = e λ e dλ = . n! Γ(γ) n! Γ(γ) α + 1 α+1 0 Diese Verteilung heisst negative Binomialverteilung mit Parametern γ und p = 1/(α + 1). Haben wir nun {N = n} beobachtet, folgt für die Verteilung von Λ R` (n! Γ(γ))−1 αγ λγ+n−1 e−(α+1)λ dλ 0 IIP[Λ ≤ ` | N = n] = (n! Γ(γ))−1 Γ(γ + n)αγ (α + 1)−(γ+n) Z ` (α + 1)γ+n γ+n−1 −(α+1)λ = λ e dλ . Γ(γ + n) 0 Somit ist Λ bedingt auf {N = n} Gammaverteilt mit Parametern γ + n und α + 1. Definition 2.28. Seien X und Y Zufallsvariablen und X sei absolutstetig. Die bedingte Erwartung von X gegeben Y ist die Zufallsvariable Z IIE[X | Y ] = xf (x | Y ) dx . Man beachte, dass die rechte Seite von Y abhängt, also zufällig ist. Wir haben die folgende Eigenschaft der bedingten Erwartung. 2. STETIGE WAHRSCHEINLICHKEITSRÄUME 73 Hilfssatz 2.29. Seien X und Y Zufallsvariablen und h(y) eine messbare reelle Funktion, so dass die folgenden Erwartungswerte wohldefiniert sind. Dann gilt IIE[h(Y )X] = IIE[h(Y )IIE[X | Y ]] . Beweis. Wir beweisen den Hilfssatz nur im absolutstetigen Fall. Dann haben wir Z Z f (x, y) dxfY (y) dy IIE[h(Y )IIE[X | Y ]] = h(y) x fY (y) ZZ = h(y)xf (x, y) dx dy = IIE[h(Y )X] . Wir haben nun die folgende Interpretation der bedingten Erwartung. Proposition 2.30. Seien X, Y Zufallsvariablen, so dass IIE[X 2 ] < ∞. Für jede messbare Funktion h(y) gilt IIE[(X − IIE[X | Y ])2 ] ≤ IIE[(X − h(Y ))2 ] . Beweis. Wir können annehmen, dass IIE[(h(Y ))2 ] < ∞. Wir erhalten IIE[(X − h(Y ))2 ] = IIE[(X − IIE[X | Y ])2 ] + IIE[(IIE[X | Y ] − h(Y ))2 ] + 2IIE[(IIE[X | Y ] − h(Y ))(X − IIE[X | Y ])] . Setzen wir g(Y ) = IIE[X | Y ] − h(Y ), erhalten wir IIE[g(Y )(X − IIE[X | Y ])] = IIE[g(Y )X] − IIE[g(Y )IIE[X | Y ]] = 0 . Somit ist IIE[(X − h(Y ))2 ] ≥ IIE[(X − IIE[X | Y ])2 ], und Gleichheit gilt genau dann, wenn IIP[h(Y ) = IIE[X | Y ]] = 1. Wir können somit sagen, dass IIE[X | Y ] die beste Prognose von X ist, wenn man Y beobachtet.