102 8 8.1 8 STETIGE ZUFALLSVARIABLEN Stetige Zufallsvariablen Definition von stetigen Zufallsvariablen Idee: Eine Zufallsvariable X heißt stetig, falls zu beliebigen Werten a < b aus dem Träger von X auch jeder Zwischenwert in dem Intervall [a, b] möglich ist. Problem: Wie kann man P (a ≤ X ≤ b) berechnen, falls alle (also überabzählbar viele) Punkte im Intervall [a, b] möglich sind? Beispiel 8.1 (Glücksrad) Betrachte ein Glücksrad mit stetigem Wertebereich [0, 2π]. Von Interesse ist die Zufallsvariable, die den exakten Winkel angibt, an dem das Glücksrad stehen bleibt. Aufteilung in 10 Sektoren, der gleichen Breite. Damit hat jeder Sektor die 1 . Wahrscheinlichkeit 10 5 1 = 10 2 Eine feinere Aufteilung in 100 Sektoren der gleichen Breite liefert: jeder Sek1 , aber tor hat Wahrscheinlichkeit 100 P (X ∈ [0, π]) = P (X ∈ [0, π]) = 50 1 = 100 2 ist konstant. Im Grenzprozess n → ∞ erhält man: jeder Sektor hat Wahrscheinlichkeit 0, aber 1 n 1 lim P (X ∈ [0, π]) = lim 2 = n→∞ n→∞ n 2 Definition 8.1 Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, so dass sich die Verteilungsfunktion F (x) von X wie folgt darstellen lässt: Z x F (x) = P (X ≤ x) = f (u) du. −∞ Die Funktion f (x) heißt Wahrscheinlichkeitsdichte (kurz Dichte oder Dichtefunktion) von X. Der Träger T von X ist die Menge aller Elemente x ∈ R für die f (x) > 0 gilt. Beachte den Unterschied zu diskreten Zufallsvariablen! Hier gilt: X F (x) = f (xi ) i:xi ≤x 8.1 Definition von stetigen Zufallsvariablen 103 Einige Folgerungen: 1. P (X = x) = 0 ∀x ∈ R 2. P (X ∈ [a, b]) = P (X ∈]a, b]) = P (X ∈ [a, b[) = P (X ∈]a, b[) Z b f (x) dx = a 3. +∞ R f (x) dx = 1 “Normierungseigenschaft” −∞ Eigenschaften der Verteilungsfunktionen F (x) von stetigen Zufallsvariablen: 1. lim F (x) = 0 x→−∞ 2. lim F (x) = 1 x→∞ 3. An allen Stetigkeitsstellen von f (x) gilt: F 0 (x) = f (x) 4. P (a ≤ X ≤ b) = F (b) − F (a) 5. P (X ≥ a) = 1 − F (a) etc. Definition 8.2 Als Normalisierungskonstante c bezeichnet man multiplikative Terme in der Dichtefunktion f (x), die nicht vom Argument x abhängen (aber im Allgemeinen von den Parametern), der übrige Teil heißt Kern: f (x) = c · g(x) |{z} Kern Man schreibt oft f (x) ∝ g(x). Allgemeine Definition von stetigen Zufallsvariablen: Frage: Für welche Mengen B ist die Aussage Z P (X ∈ B) = f (x)dx B überhaupt sinnvoll? Sei F die Mengenfamilie aller offenen Intervalle in R. Dann gibt es eine sogenannte σ-Algebra (eine spezielle Mengenfamilie) σ(F), die F enthält. Für eine σ-Algebra σ(F) muss gelten: 104 8 STETIGE ZUFALLSVARIABLEN 1. ∅ und Ω ∈ σ(F) 2. Für A, B ∈ σ(F) ist auch B \ A ∈ σ(F) 3. Für A1 , A2 , . . . ∈ σ(F) ist auch ∞ S An ∈ σ(F) und n=1 ∞ T An ∈ σ(F) n=1 Ein Wahrscheinlichkeitsmaß P auf Ω wird nun mittels σ(F) definiert: Für alle paarweise disjunkten Mengen A1 , A2 , . . . ∈ σ(F) soll gelten (vgl. Axiom A3 von Kolmogorow): P (∪∞ n=1 An ) = ∞ X P (An ) n=1 Ferner müssen natürlich auch die Axiome A1 und A2 erfüllt sein: P (∅) = 0 P (Ω) = 1 Stetige Zufallsvariablen sind also Abbildungen von Ω nach R. 8.2 Wichtige stetige Verteilungen 8.2 105 Wichtige stetige Verteilungen Im Folgenden werden wir nun wichtige stetige Verteilungen kennenlernen. Stetige Verteilungen hängen wie diskrete Verteilungen von einem oder mehreren Parametern ab. Zur Charakterisierung werden wir meist die Dichtefunktion und den Träger angeben. Die einfachste stetige Verteilung ist die stetige Gleichverteilung: Eine Zufallsvariable X heißt stetig gleichverteilt auf dem Intervall [a, b] (a, b ∈ R), kurz X ∼ U(a, b), falls ihre Dichtefunktion die Form f (x) = 1 b−a 0 für x ∈ [a, b] sonst ● ● ● 1.0 ● 0.2 2 3 4 x 5 6 0.0 0.00 0.05 0.4 0.10 f(x) F(x) 0.6 0.15 0.8 0.20 0.25 hat. Der Träger von X ist also T = [a, b]. Die Verteilungsfunktion F (x) von X ergibt sich zu x<a 0 x−a x ∈ [a, b] F (x) = b−a 1 x>b 2 3 4 5 6 x Abbildung 19: Dichtefunktion (links) und Verteilungsfunktion (rechts) der stetigen Gleichverteilung für a = 2 und b = 6 106 8 STETIGE ZUFALLSVARIABLEN Funktionen in R: dunif(x, min = a, max = b) liefert Dichtefunktion punif(...) liefert Verteilungsfunktion runif(...) liefert Zufallszahlen aus der Gleichverteilung Die Exponentialverteilung Eine stetige Zufallsvariable X mit positivem Träger R+ , heißt exponentialverteilt mit Parameter λ ∈ R+ (kurz X ∼ E(λ)), wenn sie die Dichte λ exp(−λx) für x ≥ 0 f (x) = 0 sonst besitzt. Die Verteilungsfunktion ergibt sich zu 1 − exp(−λx) für x ≥ 0 F (x) = 0 für x < 0 F(x) 0.4 0.4 0.0 0.0 0.2 0.2 f(x) 0.6 0.6 0.8 0.8 1.0 Funktionen in R: dexp(x, rate = λ) liefert Dichtefunktion pexp(...) liefert Verteilungsfunktion rexp(...) liefert Zufallszahlen aus der Exponentialverteilung 0 2 4 6 x 8 10 0 2 4 6 8 10 x Abbildung 20: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Exponentialverteilung mit folgenden Raten: λ = 0.9 (schwarz), λ = 0.5 (rot) und λ = 0.3 (grün) 8.2 Wichtige stetige Verteilungen Es bleibt zu zeigen, dass R∞ 107 f (x) dx = 1 gilt: 0 Z ∞ Z f (x) dx = λ 0 ∞ exp(−λx) dx 0 ∞ 1 = λ · − exp(−λx) λ 0 1 = λ · −0 + λ = 1 Beispiel 8.2 (Kern der Exponentialverteilung) Der Kern der Exponentialverteilung ist exp(−λx), da dieser Teil der Dichtefunktion f (x) von x abhängt. Die Normalisierungskonstante ist λ. Die Exponentialverteilung steht in engem Zusammenhang zur Poissonverteilung. Die Anzahl der Ereignisse in einem Intervall ist genau dann P(λ)verteilt, wenn die Zeitdauern zwischen aufeinander folgenden Ereignissen unabhängig und exponential verteilt mit Parameter λ sind. Beispiel 8.3 Ebenso wie die geometrische Verteilung besitzt die Exponentialverteilung die Eigenschaft der Gedächtnislosigkeit, d.h. P (X > s + x|X > s) = P (X > x), wie man leicht sieht: P (X > s + x|X > s) = P (X > s + x, X > s) P (X > s) = P (X > s + x) P (X > s) = 1 − P (X ≤ s + x) 1 − P (X ≤ s) = exp(−λ(s + x)) exp(−λs) = exp(−λx) = P (X > x) x>0 Die Gammaverteilung Die Gammaverteilung ist eine Verallgemeinerung der Exponentialverteilung. 108 8 STETIGE ZUFALLSVARIABLEN Wie diese hat sie einen positiven Träger T = R+ , aber einen Parameter mehr: Eine stetige Zufallsvariable X heißt gammaverteilt mit Parametern α ∈ R+ und β ∈ R+ (kurz X ∼ G(α, β)), falls sie die Dichte ( α β xα−1 exp(−βx) für x ≥ 0 Γ(α) f (x) = 0 sonst besitzt. Hier bezeichnet Γ(α) die Gammafunktion Z ∞ Γ(α) = xα−1 exp(−x) dx 0 Die Gammafunktion kann als Verallgemeinerung der Fakultät betrachtet werden, da gilt: F(x) 0 0.0 0.2 1 0.4 2 f(x) 0.6 3 0.8 1.0 4 Γ(x + 1) = x! für x ∈ N0 Γ(x + 1) = xΓ(x) für x ∈ R+ 0.0 0.2 0.4 0.6 0.8 1.0 x 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 21: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Gammaverteilung mit folgenden Werten für α und β: (2.0, 3) (schwarz), (1.2, 3) (rot), (2.0, 6) (grün) und (1.2, 6) (blau) Eigenschaften der Gammaverteilung: • für α = 1 entspricht die Gammaverteilung einer Exponentialverteilung mit Parameter λ = β 8.2 Wichtige stetige Verteilungen 109 • für α = d2 mit d ∈ N und β = 21 entspricht die Gammaverteilung der sogenannten Chi-Quadrat(χ2 ) -Verteilung mit d Freiheitsgraden (kurz: X ∼ G( d2 , 12 ) ⇒ X ∼ χ2 (d)) Funktionen in R: dgamma(x, shape = α, rate = β) liefert Dichtefunktion pgamma(...) liefert Verteilungsfunktion rgamma(...) liefert Zufallszahlen aus der Gammaverteilung dchisq(x, df = Freiheitsgrade) χ2 -Verteilung Man kann mit Hilfe der Substitutionsregel Z Z 0 ˜ f (g(x)) · g (x) dx = f˜(z) dz zeigen, dass R f (x) dx = 1 ist: Z Z f (x) dx = ∞ β α α−1 x exp(−βx) dx Γ(α) 0 Z ∞ βα = xα−1 exp(−βx) dx Γ(α) 0 Als Substitution verwendet man g(x) = β · x. Dann erhält man Z ∞ Z 1 βα g(x)α−1 · α−1 · exp(−g(x)) dx f (x) dx = Γ(α) 0 β f˜(g(x)) Z ∞ 0 g (x) z }| { z}|{ α−1 g(x) exp(−g(x)) · β dx β 1 · Γ(α) β 0 Z ∞ 1 = f˜(z)dz Γ(α) 0 | {z } = =Γ(α) = 1 Die Normalverteilung Eine Zufallsvariable X mit Träger T = R und Parametern µ ∈ R und σ 2 ∈ R+ heißt normalverteilt (kurz X ∼ N (µ, σ 2 )), falls sie die Dichtefunktion 1 1 1 (x − µ)2 f (x) = √ exp − für x ∈ R 2 σ2 2π σ hat. Diese wird auch “Gaußsche Glockenkurve” genannt. Für µ = 0 und σ 2 = 1 nennt man die Verteilung Standardnormalverteilung. 110 8 STETIGE ZUFALLSVARIABLEN Beachte: Z x f (u) du F (x) = −∞ F(x) 0.0 0.0 0.2 0.1 0.4 0.2 f(x) 0.6 0.3 0.8 1.0 0.4 ist nicht analytisch zugänglich (d.h. man findet keine Stammfunktion und braucht numerische Integration bzw. verwendet einen “look-up table”). −6 −4 −2 0 2 4 6 −6 −4 −2 0 x 2 4 6 x Abbildung 22: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Normalverteilung mit folgenden Werten für µ und σ: (0, 1) (Standardnormalverteilung: schwarz), (2, 1) (rot) und (0, 2) (grün) Weshalb gilt für die Dichtefunktion der Normalverteilung Aus der Analysis ist bekannt, dass für a > 0 gilt: Z R∞ −∞ f (x) dx = 1? √ ∞ 2 2 exp(−a x ) dx = −∞ π a (8) Außerdem stimmen die folgenden beiden Integrale ∀µ ∈ R überein ∞ 1 (x − µ)2 exp − 2 σ2 −∞ Z ∞ x2 dx = exp − 2 2σ −∞ Z dx (9) da die beiden Integralsfunktionen bis auf eine Verschiebung entlang der x- 8.2 Wichtige stetige Verteilungen 111 Achse identisch sind. Daher erhält man: Z ∞ Z ∞ 1 1 (x − µ)2 √ f (x) dx = exp − dx 2 σ2 2π · σ −∞ −∞ Z ∞ 1 (x − µ)2 1 dx exp − = √ 2 σ2 2π · σ −∞ Z ∞ x2 1 (9) exp − 2 dx = √ 2σ 2π · σ −∞ √ √ 1 (8) = √ · π · 2σ 2 2π · σ = 1 Funktionen in R: dnorm(x, mean=µ, sd=σ) liefert Dichtefunktion pnorm(...) liefert Verteilungsfunktion rnorm(...) liefert Zufallszahlen aus der Normalverteilung Die Betaverteilung Eine Zufallsvariable X mit Träger T = (0, 1) und Parametern α ∈ R+ und β ∈ R+ heißt betaverteilt (kurz X ∼ Be(α, β)), falls sie die Dichtefunktion f (x) = 1 xα−1 (1 B(α,β) 0 − x)β−1 für 0 < x < 1 sonst besitzt, wobei die Betafunktion B(α, β) gerade so definiert ist, dass R1 f (x) dx = 1 gilt: 0 Γ(α)Γ(β) = B(α, β) = Γ(α + β) Z 1 xα−1 (1 − x)β−1 dx 0 An dieser Formel erkennt man auch den Zusammenhang zwischen der Betaund der Gammafunktion. Beachte: Für α = β = 1 entspricht die Gammaverteilung der Gleichverteilung auf dem Intervall [0, 1]. Funktionen in R: dbeta(x, shape1= α, shape2=β) liefert Dichtefunktion pbeta(...) liefert Verteilungsfunktion rbeta(...) liefert Zufallszahlen aus der Betaverteilung 8 STETIGE ZUFALLSVARIABLEN F(x) 0 0.0 0.2 1 0.4 2 f(x) 0.6 3 0.8 4 1.0 112 0.0 0.2 0.4 0.6 x 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 23: Dichtefunktion (links) und Verteilungsfunktion (rechts) der Betaverteilung mit folgenden Werten für α und β: (2.0, 3) (schwarz), (1.2, 3) (rot), (2.0, 6) (grün) und (1.2, 6) (blau) 8.3 Lageparameter von stetigen Zufallsvariablen 8.3 113 Lageparameter von stetigen Zufallsvariablen Lageparameter von stetigen Zufallsvariablen sind (ebenso, wie bei diskreten Zufallsvariablen) die folgenden: • Erwartungswert: existiert meistens, ist dann auch eindeutig • Median (0.5-Quantil): existiert immer, ist immer eindeutig, solange der Träger von X ein Intervall ist • Modus (Maximum der Dichtefunktion): existiert nicht immer, ist auch nicht immer eindeutig Die Definitionen dieser Parameter lauten aber anders. Definition 8.3 Den Erwartungswert einer stetigen Zufallsvariable X ist definiert als Z ∞ xf (x) dx E(X) = −∞ unter der Voraussetzung, dass die Funktion xf (x) absolut integrierbar ist, d.h es muss gelten: Z ∞ Z ∞ E(|X|) = |xf (x)| dx = |x|f (x) dx < ∞ −∞ −∞ Andernfalls sagt man, der Erwartungswert von X existiert nicht bzw. ist unendlich. Zur Erinnerung ist hier noch einmal die Definition des Erwartungswertes für stetige Zufallsvariablen aufgeführt: X E(X) = x P (X = x) | {z } x∈T f (x) Der Erwartungswert für stetige Zufallsvariablen hat sehr ähnliche Eigenschaften wie im diskreten Fall (die Existenz aller auftretenden Erwartungswerte sei im Folgenden vorausgesetzt): Z ∞ 1. E[g(X)] = g(x)f (x) dx −∞ für eine beliebige Funktion g : R → R 2. “Linearität des Erwartungswertes”: E(a · X + b) = aE(X) + b 114 8 STETIGE ZUFALLSVARIABLEN 3. “Additivität”: E(X + Y ) = E(X) + E(Y ) 4. “Symmetrie”: Ist f (x) symmetrisch um einen Punkt c, d.h. f (c − x) = f (c + x) ∀x ∈ R, dann ist E(X) = c. Beispiel 8.4 (Erwartungswert der stetigen Gleichverteilung) Die Dichtefunktion ist 1 b−a f (x) = a≤x≤b sonst 0 Daher lautet der Erwartungswert E(X) = Rb a 1 dx = x b−a 1 b−a h 2 ib x 2 a = 1 b−a · 21 (b2 − a2 ) = a+b 2 Dies ist einfacher über die Symmetrieregel für den Erwartungswert zu zeigen, denn die Dichtefunktion f (x) ist symmetrisch um den Punkt c = a+b . 2 Beispiel 8.5 (Erwartungswert der Normalverteilung) Der Erwartungswert der Normalverteilung ist E(X) = µ, da die Dichtefunktion 1 1 1 (x − µ)2 f (x) = √ exp − für x ∈ R 2 σ2 2π σ symmetrisch um den Punkt c = µ ist. Beispiel 8.6 (Erwartungswert der Betaverteilung) f (x) = 1 xα−1 (1 B(α,β) 0 − x)β−1 für 0 < x < 1 sonst 8.3 Lageparameter von stetigen Zufallsvariablen Z 115 ∞ xf (x) dx E(X) = −∞ Z 1 1 xα−1 (1 − x)β−1 dx B(α, β) 0 Z 1 1 1 = · B(α + 1, β) xα (1 − x)β−1 dx B(α, β) B(α + 1, β) {z } |0 = 1, Int. über Dichtefkt. von Be(α + 1, β) Γ(α + β) Γ(α + 1) · Γ(β) · = Γ(α) · Γ(β) Γ(α + β + 1) = x· es gilt Γ(x + 1) = x · Γ(x) α = α+β Beispiel 8.7 (Erwartungswert der Exponentialverteilung) f (x) = λ exp(−λx) für x ≥ 0 0 sonst Mit Hilfe von partieller Integration Z Z 0 u(x)v (x) dx = u(x)v(x) − u0 (x)v(x) dx gilt für den Erwartungswert Z ∞ xλ exp(−λx) dx E(X) = |{z} | {z } 0 u(x) v 0 (x) ∞ Z ∞ 1 1 = xλ(−1) exp(−λx) − λ(−1) exp(−λx) dx λ λ 0 0 Z ∞ exp(−λx) dx = 0+ 0 1 = λ Satz 8.1 Es gilt für stetige Zufallsvariablen mit positivem Träger R+ : Z ∞ E(X) = [1 − F (x)] dx | {z } 0 P (X>x) 116 8 STETIGE ZUFALLSVARIABLEN vgl. dazu Satz (5.1) für diskrete Zufallsvariablen mit Träger N: E(X) = ∞ X P (X ≥ k) = k=1 ∞ X P (X > k) k=0 Diese Formel liefert eine einfachere Variante, den Erwartungswert der Exponentialverteilung zu berechnen: ∞ Z ∞ Z ∞ 1 1 1−[1−exp(−λx)] dx = exp(−λx) dx = − exp(−λx) = E(X) = λ λ 0 0 0 R Bemerkung: Für beliebige Zufallsvariablen X muss zwar immer f (x) dx = 1 gelten, es kann aber durchaus der Fall E(X) = ∞ eintreten, da Z E(|X|) = |x|f (x) dx = ∞ Dies sieht man an folgendem Beispiel: Beispiel 8.8 (Erwartungswert der Cauchy-Verteilung) Die Cauchy-Verteilung mit der Dichtefunktion f (x) = 1 1 · π 1 + x2 für x ∈ R hat keinen (endlichen) Erwartungswert. Für die Cauchy-Verteilung gilt, dass f (x) symmetrisch um den Punkt 0 ist, und somit würde man denken, dass E(X) = 0 ist, was aber nicht der Fall ist. Betrachte dazu zunächst Z ∞ E(|X|) = 2 xf (x) dx 0 Z c 2 x = lim dx π c→∞ 0 1 + x2 c 2 1 2 = lim log(1 + x ) π c→∞ 2 0 1 2 = lim log(1 + c ) π c→∞ = ∞. Der Erwartungswert der Cauchy-Verteilung existiert somit nicht. 8.3 Lageparameter von stetigen Zufallsvariablen 117 Definition 8.4 (Quantile von stetigen Zufallsvariablen) Wir nehmen an, dass der Träger der stetigen Zufallsvariable X ein Intervall ist und somit die Umkehrfunktion F −1 (p) der Verteilungsfunktion F (x) von X eindeutig definiert ist. Das p-Quantil der Verteilung von X ist definiert als der Wert xp für den F (x) = p gilt. Somit gilt xp = F −1 (p). Speziell erhält man für p = 0.5 den Median xM ed . Ist f (x) symmetrisch um einen Punkt c, so ist xM ed = c. Beispielsweise ist der Median xM ed = µ bei einer normalverteilten Zufallsvariablen X ∼ N (µ, σ 2 ). Definition 8.5 (Der Modus von stetigen Zufallsvariablen) Ein Modus einer stetigen Zufallsvariable X ist ein Wert xM od , für den für alle x ∈ R gilt: f (xM od ) ≥ f (x) Der Modus ist nicht notwendigerweise eindeutig, noch muss er existieren. Beispiel 8.9 (Modi von verschiedenen stetigen Verteilungen) 1. Modus der Betaverteilung: f (x) = 1 xα−1 (1 B(α,β) 0 − x)β−1 für 0 < x < 1 sonst Um das Maximum der Dichtefunktion zu erhalten, wird die erste Ableitung gleich Null gesetzt: f 0 (x) = = 1 (α − 1)xα−2 (1 − x)β−1 + xα−1 (β − 1)(1 − x)β−2 (−1) B(α, β) 1 xα−2 (1 − x)β−2 [(α − 1)(1 − x) − (β − 1)x] | {z } B(α, β) ! =0 ! = 0 ⇔ α − αx − 1 + x − xβ + x = 0 xM od = α−1 nur für α > 1 und β > 1 eindeutig!! α−β−2 2. Der Modus der Normalverteilung ist µ. 3. Der Modus der Gammaverteilung: Für α > 1 ist der Modus eindeutig gleich xM od = (α − 1)/β. Für α < 1 existieren keine Modi. 118 8 STETIGE ZUFALLSVARIABLEN Definition 8.6 Die Varianz einer stetigen Zufallsvariablen definiert man analog zum diskreten Fall: Z ∞ 2 2 VarX = E[X − E(X)] = E[X − µ] = (x − µ)2 f (x) dx −∞ p mit µ = E(X). Die Standardabweichung σ = Var(X) ist wie im diskreten Fall definiert. Beachte: Auch die Varianz kann nicht existieren, d.h. unendlich sein. Existiert der Erwartungswert nicht, so existiert auch die Varianz nicht. Für die Varianz für stetige Zufallsvariablen gelten nun im wesentlichen dieselben Eigenschaften wie im diskreten Fall. • Verschiebungssatz: Var(X) = E(X 2 ) − [E(X)]2 • Lineare Transformationen: Für Y = a · X + b gilt: Var(Y ) = a2 · Var(X) • Sind X und Y unabhängig, so gilt: Var(X + Y ) = Var(X) + Var(Y ) Beispiel 8.10 (Varianz der stetigen Gleichverteilung) Wir wissen: 1 a≤x≤b b−a f (x) = 0 sonst und E(X) = a+b 2 Zunächst folgt für E(X 2 ): 3 b Z ∞ Z b 1 x 1 b 3 − a3 2 2 2 1 E(X ) = x f (x) dx = x dx = = · b−a b−a 3 a 3 b−a −∞ a Mit dem Verschiebungssatz ergibt sich: 2 1 b 3 − a3 a+b Var(X) = E(X ) − (E(X)) = · − 3 b−a 2 1 1 = · (b2 + ab + a2 ) − (b2 + 2ab + a2 ) 3 4 1 2 (b − a)2 2 = (b − 2ab + a ) = 12 12 2 2 8.3 Lageparameter von stetigen Zufallsvariablen 119 Die Varianz wächst also quadratisch mit der Länge des Intervalls, die Standardabweichung somit linear mit der Länge des Intervalls. Im Folgenden nun zusammenfassend die Erwartungswerte und Varianzen der gängigsten stetigen Verteilungen: Name Gleichverteilung Symbol X ∼ U(a, b) E(X) Var(X) a+b 2 (b−a)2 12 X ∼ E(λ) 1 λ 1 λ2 Gammaverteilung X ∼ G(α, β) α β α β2 Normalverteilung X ∼ N (µ, σ 2 ) µ σ2 X ∼ }mathcalBe(α, β) α α+β α·β (α+β)2 (α+β+1) Exponentialverteilung Betaverteilung 120 8.4 8 STETIGE ZUFALLSVARIABLEN Das Gesetz der großen Zahlen Das Gesetz der Pngroßen Zahlen ist eine Aussage über das arithmetische 1 Mittel X̄n = n i=1 Xi für n → ∞, wobei Xi , i = 1, . . . , n unabhängig und identisch verteilte Zufallsvariablen aus einer Verteilung mit Erwartungswert µ und Varianz σ 2 seien. Klarerweise gilt: E(X̄n ) = µ und V ar(X̄n ) = da 1 2 σ n ! n n 1 X 1 1X Xi = · E(Xi ) = · n · µ = µ E(X̄n ) = E n i=1 n i=1 n ! n n 1 1 1X 1 X V ar(X̄n ) = V ar V ar(Xi ) = 2 · n · σ 2 = σ 2 . Xi = 2 · n i=1 n i=1 n n Daher folgt sofort, dass für das arithmetische Mittel und seine Varianz im Grenzfall (n → ∞) Folgendes gilt: X̄n → µ und V ar(X̄n ) → 0 In Abbildung 24 sieht man anschaulich, dass das arithmetische Mittel von 10000 standardnormalverteilten Zufallsvariablen gegen den Erwartungswert 0 konvergiert. Dagegen konvergiert das arithmetische Mittel von 10000 Cauchyverteilten Zufallsvariablen nicht (siehe Abb. 25), da der Erwartungswert der CauchyVerteilung nicht existiert. 121 0.0 −0.4 −0.2 Arithmetisches Mittel 0.2 0.4 8.4 Das Gesetz der großen Zahlen 0 2000 4000 6000 8000 10000 n 0 −2 −8 −6 −4 Arithmetisches Mittel 2 4 Abbildung 24: Arithmetisches Mittel für 10000 standardnormalverteilte Zufallsvariable 0 2000 4000 6000 8000 10000 n Abbildung 25: Arithmetisches Mittel für 10000 Cauchyverteilte Zufallsvariablen 122 8.5 8 STETIGE ZUFALLSVARIABLEN Der Transformationssatz für Dichten Sei X eine stetige Zufallsvariable mit Dichte fX (x). Betrachte nun Y = g(X), wobei z.B. Y = exp(X), Y = X 2 , . . . Frage: Wie lautet die Dichte fY (y) der Zufallsvariable Y ? In dem folgenden Satz wird beschrieben, wie man auf einfache Weise die Dichtefunktion von Y = g(X) berechnen kann: Satz 8.2 (Transformationssatz für Dichten) Sei g streng monoton und differenzierbar. Dann kann man die Dichte fY (y) mit Hilfe des Transformationssatzes berechnen: −1 dg (y) −1 fY (y) = fX (g (y)) · dy | {z } g −1 0 (y) Beweis (über die Verteilungsfunktion FY (y) von Y ): Sei g zunächst streng monoton wachsend und differenzierbar: FY (y) = P (g(x) ≤ y) = P (X ≤ g −1 (y)) = FX (g −1 (y)) Differenzieren ergibt: fY (y) = FY0 (y) = FX0 (g −1 (y)) · = fX (g −1 (y)) · dg −1 (y) dy dg −1 (y) dy | {z } positiv, da g −1 streng monoton wachsend Sei nun g streng monoton fallend und differenzierbar: FY (y) = P (g(x) ≤ y) = P (x ≥ g −1 (y)) = 1 − P (x < g −1 (y)) = 1 − P (x ≤ g −1 (y)) = 1 − FX (g −1 (y)) ⇒ fY (y) = −fX (g −1 (y)) · dg −1 (y) dy | {z } negativ, da g streng monoton fallend Insgesamt ergibt sich also: −1 dg (y) fY (y) = fX (g (y)) · dy −1 8.5 Der Transformationssatz für Dichten 123 Beispiel 8.11 (Erzeugung exponentialverteilter Zufallsvariablen) Betrachte X ∼ U [0, 1] und Y = g(X), mit g(x) = − log(X). Die Umkehrfunktion von g(x) ist damit g −1 (y) = exp(−y). Die Ableitung der Umkehrfunktion lautet dann dg −1 (y) = − exp(−y) dy Damit ergibt sich für die Dichtefunktion von Y : fY (y) = fX (g −1 (y)) · |− exp(−y)| = exp(−y) Daher folgt, dass Y exponentialverteilt ist mit Parameter λ = 1, also Y ∼ E(λ = 1). Allgemeiner liefert Y = − λ1 log(x) Zufallszahlen aus einer Exponentialverteilung mit Parameter λ : Y ∼ E(λ) Beispiel 8.12 (Quadrat einer Standardnormalverteilung) Wie lautet die Dichte von Y = X 2 , falls X ∼ N (0, 1), also standardnormalverteilt ist? Die Dichte von X ist 1 2 1 für x ∈ R f (x) = √ exp − x 2 2π Ein Problem ist, dass man für die Verwendung des “Transformationssatzes für Dichten” eine streng monotone Funktion g benötigt, g(x) = x2 aber nicht monoton ist. Daher betrachtet man zunächst Z = |X|. Z hat offensichtlich das Doppelte der Dichte der Standardnormalverteilung auf R+ : 1 2 2 f (z) = √ exp − z für z > 0 und 0 sonst 2 2π Nun ist X 2 = Y = Z 2 = g(Z) und g monoton wachsend auf dem Werte√ bereich R+ . Damit ergibt sich y = z 2 ⇔ z = y und die Ableitung der Umkehrfunktion von g lautet 1 1 dg −1 (y) = y− 2 dy 2 Mit dem “Transformationssatz für Dichten” erhält man die Dichte von Y : 1 2 1 √ 2 1 −1 1 1 f (y) = √ exp − ( y) · y 2 = √ exp − y · y − 2 2 2 2 2π 2π Y ist also gammaverteilt mit den Parametern α = β = Vergleiche hierzu die Dichte der Gammaverteilung: f (y) = βα y α−1 exp(−βy) Γ(α) √|1{z } √ 2 π = √1 2π 1 , 2 Y ∼ G(.5, .5). 124 8 STETIGE ZUFALLSVARIABLEN Diese Dichte entspricht auch der Dichte einer χ2 -Verteilung mit 1 Freiheitsgrad: Y = X 2 ∼ χ21 (1). Allgemeiner gilt: Für Xi ∼ N (0, 1) i = 1, . . . , d und unabhängig ist Y = X12 + X22 + . . . + Xd2 χ2 -verteilt mit d Freiheitsgraden. Allgemeiner kann man auch die Inversions-Methode zur Erzeugung von n Zufallszahlen aus einer beliebigen stetigen Verteilung mit Dichte f (x) und Verteilungsfunktionen F (x) verwenden. Erzeuge dazu n gleichverteilte Zufallsvariablen U1 , . . . , Un auf dem Intervall [0, 1]. Dann sind Xi = F −1 (Ui ), i = 1, . . . , n die gesuchten Zufallszahlen aus der gewünschten Verteilung mit Verteilungsfunktionen F (x). Beweis: Die Dichte von Xi ergibt sich mit der Anwendung des Transformationssatzes für Dichten: fX (x) = fU (F (x)) · F 0 (x) = f (x) | {z } | {z } =1 f (x) Beispiel 8.13 (Erzeugung von Cauchyverteilter Zufallsvariablen) Die Dichtefunktion f (x) von Cauchyverteilten Zufallsvariablen ist f (x) = 1 1 · π 1 + x2 und die Verteilungsfunktion F (x) lautet Z x F (x) = −∞ = 1 1 1 1h πi x · du = [arctan(u)]∞ = arctan(x) + π 1 + u2 π π 2 arctan(x) 1 + π 2 Die inverse Verteilungsfunktion ist somit: F −1 1 (y) = tan π y − 2 Zufallszahlen aus der Cauchy-Verteilung lassen sich also leicht erzeugen, indem man U1 , . . . , UN aus ∼ U [0, 1] erzeugt und Xi = tan(π(Ui − 21 )) berechnet. 8.5 Der Transformationssatz für Dichten 125 Beispiel 8.14 (log-Normalverteilung) Anwendung des Transformationssatzes für Dichten: Betrachte X ∼ N (µ, σ 2 ). Dann heißt Y = exp(X) log-normalverteilt mit Parameter µ und σ 2 . Y hat Dichte 1 1 (log(y) − µ)2 1 exp(− )· fY (y) = √ 2 2 σ y 2πσ {z } |{z} | fX (g −1 (y)) dg −1 (y) dy für y > 0 und 0 sonst. Es gilt: 1 E(Y ) = exp(µ + σ 2 ) 2 V ar(Y ) = exp(2µ + σ 2 )[exp(σ 2 ) − 1] 126 8.6 8 STETIGE ZUFALLSVARIABLEN Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz(ZGWS) beinhaltet die Aussage, dass das arithmetische Mittel, geeignet standardisiert, von beliebigen unabhängig und identisch verteilten (engl.: iid: “independent, identically distributed”) Zufallsvariablen gegen die Standardnormalverteilung konvergiert. Diese Tatsache begründet die zentrale Rolle der Normalverteilung in der Stochastik. Doch zunächst müssen wir dazu standardisierte Zufallsvariablen definieren. Definition 8.7 Eine Zufallsvariable X heißt standardisiert, falls sie • Erwartungswert E(X) = µ = 0 und • Varianz Var(X) = σ 2 = 1 besitzt. Jede Zufallsvariable X mit endlichem Erwartungswert E(X) und endlicher Varianz Var(X) kann man durch lineare Transformation standardisieren. Definiere dazu die Zufallsvariable X̃ als X̃ = X −µ . σ Dann gilt offensichtlich: 1 (E(X) − µ) = 0 σ 1 Var(X̃) = Var(X) = 1 σ2 E(X̃) = Auch die Summe von unabhängig und identisch verteilte Zufallsvariablen X1 , X2 , . . . , Xn mit endlichem Erwartungswert µ = E(Xi ) und endlicher Varianz σ 2 = Var(Xi ) kann standardisiert werden. Zunächst gilt für die Summe Yn = X1 + X2 + . . . + Xn : E(Yn ) = n · µ Var(Yn ) = n · σ 2 Somit hat n 1 X Xi − µ Yn − nµ =√ Zn = √ σ n·σ n i=1 8.6 Der zentrale Grenzwertsatz 127 Erwartungswert E(Zn ) = E Yn − nµ √ n·σ = E(Yn ) − nµ nµ − nµ √ = √ n·σ n·σ = 0 und Varianz Yn − nµ Yn − n · 0 √ Var(Zn ) = Var √ = Var n·σ n·σ 2 n · σ2 1 √ Var(Yn ) = = n · σ2 n·σ = 1. Die Zufallsvariable Zn ist also standardisiert. Die exakte Verteilung von Zn ist zunächst noch unbekannt. Für n → ∞ kann man jedoch den zentralen Grenzwertsatz anwenden. Satz 8.3 (Zentraler Grenzwertsatz) Die Verteilungsfunktion Fn (z) von Zn konvergiert für n → ∞ an jeder Stelle z ∈ R gegen die Verteilungsfunktion Φ(z) der Standardnormalverteilung. Man schreibt: a Fn (z) → Φ(z) für n → ∞ und alle z ∈ R bzw. kurz Zn ∼ N (0, 1) (“asymptotisch standardnormalverteilt”) In der Praxis kann man also die Verteilung von Zn für n groß gut durch eine Standardnormalverteilung approximieren. Bemerkungen: • Satz 8.3 gilt sowohl für stetige als auch für diskrete Zufallsvariablen Xi , wenn deren Erwartungswert und Varianz existieren (für Standardisierung nötig) • Xi kann beliebig ”schiefe” (nicht symmetrische) Verteilungen haben, z.B. Xi ∼ E(λ) Trotzdem konvergiert Zn gegen die (symmetrische) N (0, 1)-Verteilung. 128 8 STETIGE ZUFALLSVARIABLEN • Die Standardisierung ist nicht notwendig zur Formulierung des ZGWS. Alternativ kann man auch direkt Yn = X1 + . . . + Xn betrachten. Dann gilt a Yn ∼ N (n · µ, n · σ 2 ) denn a Zn ∼ N (0, 1) √ a ⇒ nσ · Zn ∼ N (0, n · σ 2 ) | {z } Yn −n·µ a Yn ∼ N (n · µ, n · σ 2 ) ⇒ Beispiel 8.15 (Summe von iid Bernoulliverteilten Zufallsvariablen) Seien Xi Bernoulliverteilte, unabhängige Zufallsvariablen: Xi ∼ B(π), i = 1, . . . , n Dann ist Yn = Pn i=1 Xi binomialverteilt mit Yn ∼ B(n, π). Asymptotisch gilt: Y −n·π a p n ∼ N (0, 1) n · π(1 − π) bzw. a Yn ∼ N (n · π, n · π(1 − π)) 8.7 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen 8.7 129 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen Definition 8.8 Die gemeinsame Verteilungsfunktion zweier stetiger Zufallsvariablen X und Y ist die Funktion F (x, y) = P (X ≤ x und Y ≤ y) Alternativ kann man die gemeinsame Verteilung von X und Y auch über deren gemeinsame Dichtefunktion f (x, y) definieren, wobei Z x Z y f (u, v) du dv F (x, y) = v=−∞ u=−∞ für alle x, y ∈ R gelten muss. Falls f (x, y) stetig ist, so gilt: d2 F (x, y) = f (x, y) dx dy Außerdem muss die gemeinsame Dichtefunktion auch normiert sein: Z +∞ Z +∞ f (x, y) dx dy = 1 −∞ −∞ Die Dichten der Randverteilungen lassen sich durch Integration (im diskreten Fall war es die Summation) erhalten: Z +∞ fX (x) = f (x, y) dy −∞ Z +∞ fY (y) = f (x, y) dx −∞ Der Erwartungswert einer gemeinsamen Verteilung lässt sich berechnen durch Z +∞ Z +∞ E(g(X, Y )) = g(x, y) · f (x, y) dx dy −∞ −∞ 2 für g : R → R. X, Y heißen unabhängig, genau dann wenn bzw. FX,Y (x, y) = FX (x) FY (y) fX,Y (x, y) = fX (x) fY (y) ∀x, y ∈ R 130 8 STETIGE ZUFALLSVARIABLEN Allgemeiner gilt: X1 , X2 , . . . , Xn sind unabhängig ⇔ f (x1 , x2 , . . . , xn ) = f (x1 )·f (x2 ) · · · f (xn ). Weiterhin definiert man analog zum diskreten Fall: die Kovarianz Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] die Korrelation ρ(X, Y ) √ Cov(X,Y √ ) Var(X) Var(Y ) = Es gilt wieder: Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) Beispiel 8.16 Betrachte 1 x für 0 ≤ y ≤ x ≤ 1 0 sonst f (x, y) = Die Randverteilung von X ergibt sich zu Z x 1 1 dy = [x − 0] = 1 fX (x) = x 0 x für 0 ≤ x ≤ 1, also einfach eine Gleichverteilung auf [0, 1]. Die Randverteilung von Y ist Z 1 1 1 1 dx = [log(x) ]y = log fY (y) = y y x für 0 ≤ y ≤ 1. Man überprüft leicht, dass Z 1 f (x) dx = 1 0 und Z 1 Z f (y) dy = 0 0 1 1 1 1 log dy = log ·y+y = 1 y y 0 gilt. Folglich gilt also auch: Z Z Z f (x, y) dy dx = bzw. Z Z f (x) dx = 1 Z f (x, y) dx dy = f (y) dy = 1 8.7 Die gemeinsame Verteilung von zwei stetigen Zufallsvariablen 131 Weiter erhält man (z. B. mit MAPLE), dass: E(Y ) = E(Y 2 ) = 1 4 1 9 ⇔ Da X ∼ U(0, 1), gilt E(X) = 1 2 Var(Y ) = E(Y 2 ) − [E(Y )]2 1 = 19 − 16 7 = 144 und Var(X) = 1 . 12 Ferner ergibt sich für Z 1Z x 1 x · y · dy dx = y dy dx E(X · Y ) = x 0 0 0 0 Z 1 2 Z 1 2 x y x = dx = dx 2 0 0 0 2 3 1 x 1 = = 6 0 6 Z 1 Z x Damit erhält man folgende Werte für die Kovarianz Cov(X, Y ) = E(X · Y ) − E(X)E(Y ) = 1 1 1 1 − · = 6 2 4 24 und die Korrelation 1 Cov(X, Y ) p ρ(X, Y ) = p = q 24q 1 Var(X) Var(Y ) 12 ≈ 0.65 7 144 Definition 8.9 Die bivariate (“zweidimensionale”) Standardnormalverteilung mit Parameter ρ mit |ρ| < 1 hat die Dichtefunktion 1 1 2 2 p exp − f (x, y) = (x − 2ρxy + y ) 2 (1 − ρ2 ) 2π 1 − ρ2 Es gilt: • Die Randverteilungen von X und Y sind (unabhängig von ρ) standardnormalverteilt. • Die Korrelation zwischen X und Y ist gleich ρ (daher hat |ρ| auch einen Wert < 1). 132 8 STETIGE ZUFALLSVARIABLEN • Aus Unkorreliertheit von X und Y folgt hier auch die Unabhängigkeit von X und Y : Für ρ = 0 ist nämlich die gemeinsame Dichtefunktion das Produkt der Dichten der Randverteilungen: 1 1 2 2 f (x, y) = exp − (x + y ) 2π 2 1 1 1 2 1 2 √ exp − x = · √ exp − y 2 2 2π 2π | | {z } {z } Dichte der N (0, 1)-Vtlg. Dichte der N (0, 1)-Vtlg. = fX (x) · fY (y) ● ● ● ● 3 3 3 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ●● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● −2 ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● y ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● −2 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● 1 1 ● ● ● ● ● ● ● ● ● ● ● ● ● y ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● −1 ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● −2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ● ● ● ● ● ● y 2 ● ● ● ● ● ● ● ● ● 0 2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 ● ● 0 ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −3 −3 −3 ● ● ● ● −3 −2 −1 0 1 2 3 −3 x −2 −1 0 1 2 3 x −3 −2 −1 0 1 2 3 x Abbildung 26: Die bivariate Standardnormalverteilung für ρ = 0 (links), ρ = 0.7 (Mitte) und ρ = −0.5 (rechts) Bemerkung: Die allgemeine bivariate Normalverteilung mit insgesamt fünf Parame2 tern (µX , µY , σX , σY2 , ρ) erhält man durch folgende lineare Transformationen einer bivariaten Standardnormalverteilung: X Y → µX + σX · X → µY + σY · Y 8.8 Bedingte Verteilungen von stetigen Zufallsvariablen 8.8 133 Bedingte Verteilungen von stetigen Zufallsvariablen Seien X und Y Zufallsvariablen mit gemeinsamer Dichte fX,Y (x, y). Wir interessieren uns für die bedingte Verteilung von X gegeben Y = y. Das Problem bei der Berechnung der Verteilung besteht darin, dass P (Y = y) = 0 und damit P (X ≤ x|Y = y) = P (X ≤ x und Y = y) P (Y = y) nicht definiert ist. Deshalb geht man nun anders vor und betrachtet P (X ≤ x und y ≤ Y ≤ y + dy) P (y ≤ Y ≤ y + dy) Rx fX,Y (u, y) dy du ≈ −∞ fY (y) dy Z x fX,Y (u, y) = du fY (y) −∞ | {z } Dichtefkt. der bed. Vtlg. von X geg. Y = y P (X ≤ x|y ≤ Y ≤ y + dy) = Daher erhält man folgende Definition: Definition 8.10 Die bedingte Verteilungsfunktion von X, gegeben Y = y ist definiert als Z x fX,Y (u, y) du FX|Y (x|y) = fY (y) −∞ für alle y mit fY (y) > 0. Die bedingte Dichte von X, gegeben Y = y ist somit fX,Y (x, y) fX|Y (x|y) = fY (y) Beispiel 8.17 Betrachten wir wieder die gemeinsame Verteilungsfunktion f (x, y) von X und Y aus Beispiel 8.16 mit fX,Y (x, y) = 1 x für 0 ≤ y ≤ x ≤ 1 0 sonst 134 8 STETIGE ZUFALLSVARIABLEN Für die bedingte Dichte von Y , gegeben X = x ergibt sich: fY |X (y|x) = = = fX,Y (x, y) fX (x) 1 x 1 für 0 ≤ y ≤ x 1 x für 0 ≤ y ≤ x 0 sonst d.h. Y |X = x ist gleichverteilt auf [0, x] (Y |X ∼ U(1, x)). Für die Dichte von X, gegeben Y = y erhält man: 1 x für y ≤ x ≤ 1 log( y1 ) −1/(x log(y)) für y ≤ x ≤ 1 = 0 sonst fX|Y (x|y) = Bemerkung: Bedingte Verteilungen sind sehr nützlich zum Simulieren aus gemeinsamen Verteilungen. Da fX,Y (x, y) = fX|Y (x|y) · fY (y) gilt, kann man zunächst eine Zufallsvariable Y = y aus der Randverteilung fY (y) ziehen, und dann bedingt auf Y = y eine Zufallszahl aus der bedingten Verteilung fX|Y (x|y) ziehen. Oder andersherum: fX,Y (x, y) = fY |X (y|x) · fX (x) Im Beispiel 8.17 wäre Version (10) einfacher zu implementieren. In R: > x <- runif(1000) > y <- runif(1000, 0, x) > plot(x, y) (10) 0.0 0.2 0.4 y 0.6 0.8 8.8 Bedingte Verteilungen von stetigen Zufallsvariablen 135 ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ●●● ●● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ●● ● ● ● ● ●● ●●●● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●●●● ● ● ●● ● ● ● ●● ●● ● ● ● ●●● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ●●● ●● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ●● ●● ● ● ● ●● ● ●●● ● ● ● ●● ●● ●● ● ●● ● ●●● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ●● ● ● ●●● ● ● ●● ●●● ●● ● ●● ● ●● ●●●● ●● ● ● ●● ●● ● ● ●● ●●● ● ●● ●●●●● ●● ● ● ● ●● ● ●●● ● ● ●●● ● ●● ●●● ●● ● ●● ● ● ●●●●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ●● ● ●● ● ●● ● ●● ● ●●●● ●● ●●● ●● ● ●●● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ●●● ●● ●● ●●● ● ●●●●● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ●●● ● ●● ●● ● ● ●● ●●●● ●● ●● ●● ● ●● ● ● ● ●● ● ●●● ●●● ●● ● ● ●● ● ●● ●●● ●● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ●● ● ●● ●● ● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ●●● ● ● ● ● ●●●● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ●●● ●●●●● ● ● ● ● ● ● ●●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●●●● ● ● ● ● ● ●● ● ●● ● ● ●●●●● ●● ●● ● ● ●●●● ●●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ●● ● ●● ● ●● ●● ●● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●●●● ● ● 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 27: Die gemeinsame Dichte aus Beispiel 8.17 Beispiel 8.18 Seien X und Y bivariat standardnormalverteilt. Dann ist die bedingte Dichte von X, gegeben Y 1 1 1 √1 2 2 exp − 2 (1−ρ2 ) (x − 2ρxy + y ) 2π 1−ρ2 fX|Y (x|y) = √1 exp − 1 y 2 2 2π 1 1 1 (x − ρy)2 = √ p exp − 2 (1 − ρ2 ) 2π 1 − ρ2 Daher ergibt sich: X|Y = y ∼ N (ρ · y, 1 − ρ2 ) Analog erhält man die Dichte von Y , gegeben X: Y |X = x ∼ N (ρ · x, 1 − ρ2 ) Nun kann man aus der bivariaten Standardnormalverteilung simulieren. In R: > x <- rnorm(1000) > rho <- 0.5 136 8 STETIGE ZUFALLSVARIABLEN 4 > y <- rnorm(1000, mean = rho * x, sd = sqrt(1 - rho^2)) > plot(x, y) ● ● 0 −2 y 2 ● ● ● ● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●● ●●● ●●● ● ●● ● ●● ● ●●●●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ●●● ● ●●● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ●●● ● ●● ●● ● ●●● ● ● ● ● ● ● ● ●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●●● ● ● ● ●●●● ●●● ● ● ●● ● ●● ●● ● ● ●● ● ● ●●●● ●●● ● ●● ●● ● ●● ● ●● ●● ●●●● ●● ●●●● ● ●●● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ● ●● ●● ●● ● ● ●●● ● ●● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●● ●● ● ● ● ● ●●● ●● ● ● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●● ● ●●● ● ●● ● ● ●●● ● ●● ● ●● ● ● ● ●● ● ●● ● ●● ●● ● ● ● ● ●● ● ●● ●● ● ● ● ●●● ● ● ● ● ● ● ●●●● ● ● ● ● ●●● ●● ● ● ●●● ● ● ●●● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ●● ●● ●●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●●● ● ●●●●●●●● ● ●● ●●●●● ●● ●● ● ● ● ●●● ●● ● ● ● ●● ● ● ● ● ● ●●●● ●● ● ● ●● ● ●● ●● ●●● ●● ●●● ● ● ● ●● ●● ●● ● ●● ●● ● ● ● ●●●● ●● ● ● ● ● ●●● ●●● ●●● ●●● ●● ● ● ● ● ● ●●● ● ●● ● ●● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ●●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ●● ●● ●● ●● ● ●● ● ● ●●● ●● ● ● ● ● ●●●● ● ● ●●● ● ●●● ●●● ●● ●● ●● ●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● −4 ● −3 −2 −1 0 1 2 3 x Abbildung 28: Die bivariate Standardnormalverteilung aus Beispiel 8.18 8.9 Gemeinsame Verteilung einer diskreten und einer stetigen ZV 8.9 137 Die gemeinsame Verteilung einer diskreten und einer stetigen Zufallsvariable Das Konzept von gemeinsamer und bedingter Verteilung lässt sich problemlos auch auf zwei Zufallsvariablen verallgemeinern, von denen eine diskret und eine stetig ist. Wir illustrieren dies hier an einem Beispiel: Beispiel 8.19 Sei X betaverteilt mit X ∼ Be(α, β). Sei außerdem die bedingte Verteilung von Y , gegeben X binomialverteilt mit Y |X ∼ B(n, π = X). Die gemeinsame Verteilung ist das Produkt aus bedingter Verteilung und Randverteilung und daher erhält man hier f (x, y) = f (y|x) · f (x) n y 1 xα−1 (1 − x)β−1 = x (1 − x)n−y · B(α, β) y n y+α−1 1 = x (1 − x)n−y+β−1 · y B(α, β) für x ∈ [0, 1] und y ∈ {0, 1, . . . , n}. Für die bedingte Dichte f (x|y) von X|Y folgt: f (x|y) = f (x, y) ∝ xy+α−1 (1 − x)n−y+β−1 f (y) Hierbei (“∝”) haben wir ausgenützt, dass der Nenner f (y) in f (x|y) = f (x, y) f (y) nicht von x abhängt, also für Y = y konstant ist. Für f (x|y) haben wir also den Kern einer Betaverteilung erhalten: X|Y ∼ Be(α + y, β + n − y) Wegen der Form der Betaverteilung ist f (x|y) also f (x|y) = 1 xy+α−1 (1 − x)n−y+β−1 B(y + α, n − y + β) Damit folgt für f (y) = f (x,y) : f (x|y) n B(y + α, n − y + β) f (y) = y B(α, β) 138 8 STETIGE ZUFALLSVARIABLEN für y = 0, . . . , n. Diese Verteilung nennt sich “Beta-Binomialverteilung” mit den Parametern α und β: Y ∼ BBe(α, β). Wegen Γ(α) Γ(β) B(α, β) = Γ(α + β) lässt sich ihre Dichtefunktion auch schreiben als n Γ(α + β) Γ(α + y) Γ(β + n − y). f (y) = Γ(α) Γ(β) Γ(α + β + n) y | {z } hängt nicht von y ab Für α = β = 1 ergibt sich interessanterweise die diskrete Gleichverteilung auf {0, . . . , n}. Γ(2) n f (y) = Γ(1 + y) Γ(1 + n − y) Γ(1) Γ(1) Γ(2 + n) y 1 n! · y! (n − y)! (n + 1)! y! (n − y)! 1 = n+1 = für y ∈ {0, . . . , n} und unter Verwendung von Γ(n) = (n − 1)! Also gilt: Ist die Randverteilung von X stetig gleichverteilt, dann ist die Randverteilung von Y diskret gleichverteilt. 8.10 Exkurs: Verwerfungsmethode(Rejection sampling) 8.10 139 Exkurs: Verwerfungsmethode(Rejection sampling) Zum Erzeugen von Zufallszahlen aus einer Verteilung mit Dichte fX (x) haben wir das Inversionsverfahren kennengelernt, das aber die Kenntnis der inversen Verteilungsfunktion voraussetzt. Ein alternatives sehr universell einsetzbares Verfahren ist das rejection sampling, das nur die Kenntnis der Dichte fX (x) voraussetzt. Zufallszahlen werden aus einer anderen Verteilung mit Dichte fY (y) gezogen. Diese ist im Prinzip beliebig, es muss nur eine Konstante c > 1 existieren mit fX (x) ≤ c · fY (y) für alle x ∈ R Insbesondere muss also der Träger TX eine Teilmenge von TY sein, ansonsten gebe es ein x ∈ R mit fX (x) > 0 aber mit fY (x) = 0. Die Zufallszahlen aus fY werden nur mit einer gewissen Wahrscheinlichkeit als Zufallszahlen aus fX akzeptiert; andernfalls werden sie verworfen und das Verfahren wird so lange wiederholt bis eine Zahl akzeptiert wird. Rejection sampling Algorithmus: REPEAT • Erzeuge eine Zufallszahl X aus fY . X ∼ fY . • Erzeuge eine von X unabhängige Zufallszahl U aus einer Gleichverteilung auf [0, 1]: U ∼ U [0, 1]. • Berechne p(X) = fX (X) Akzeptanzwahrscheinl. ∈ [0, 1] c · fY (X) UNTIL U ≤ p(X) RETURN X Beispiel 8.20 Habe die Dichtefunktion f (x) folgende Form fX (x) = 2 − 2x 0 ≤ x ≤ 1 0 sonst 8 STETIGE ZUFALLSVARIABLEN ● 1.0 0.0 0.5 f(x) 1.5 2.0 140 ● 0.0 0.2 0.4 0.6 0.8 1.0 x Abbildung 29: Dichtefunktion von f (x) in Beispiel 8.20 Für Y bietet sich eine Gleichverteilung auf [0, 1] an 1 0≤y≤1 fY (y) = 0 sonst Für c = 2 ist fX (x) ≤ c · fY (x) für alle x ∈ R erfüllt . ; Algorithmus. REPEAT X ∼ U [0, 1] und U ∼ U [0, 1] sind unabhängig. p(X) = 1 − X = UNTIL U ≤ p(X) RETURN X fX (X) c · fY (X) 8.10 Exkurs: Verwerfungsmethode(Rejection sampling) 141 Beweisskizze: Rejection sampling P (Y ≤ x und Y wird akzeptiert) = P (Y ≤ x, U ≤ p(Y )) = E(g(Y, U )) mit g(y, u) = I{Y ≤x,U ≤p(y)} (y, u) ∼ B(1, π = P (. . .)) Z +∞ Z +∞ g(y, u) · fY (y) fU (u) dy du = | {z } −∞ −∞ = f (y,u) wg.Unabhängigkeit Z +∞ Z +∞ I{Y ≤x,U ≤p(y)} (y, u) fY (y) fU (u) dy du = {z } −∞ −∞ | I{Y ≤x} (y) I{U ≤p(y)} (y,u) Z x Z +∞ = −∞ −∞ fY (y) dy I{U ≤p(y)} (y, u) f (u) du {z } | E(I{U ≤p(y)} (u,y)) = P (U ≤p(y)) = P (y) Z x p(y) fY (y)dy = −∞ Z x = −∞ fX (y) 1 dy = FX (x) c c Z +∞ p(y) · fY (y) dy P (Y wird akzeptiert) = −∞ Z +∞ = −∞ fX (y) 1 dy = c c Somit ergeben sich für die bedingte Wahrscheinlichkeit P (Y ≤ x|Y wird akzeptiert) = = P (Y ≤ x und Y wird akzeptiert) P (Y wird akzeptiert) 1 c FX (x) 1 c = FX (x) Unter der Bedingung, dass Y akzeptiert wird, hat Y also die Verteilungsfunktion FX (x) und die Dichte fX (x). Man beachte, dass P (Y wird akzeptiert) = 1c gilt; Unter Unabhängigkeit folgt daher, dass die Anzahl der Versuche, bis zum erstem Mal x akzeptiert wird geometrisch verteilt ist mit Parameter π = 1c . Die erwartete Anzahl ist somit gleich c. 142 8 STETIGE ZUFALLSVARIABLEN Es ist daher sinnvoll, c möglichst klein zu wählen c = sup x fX (x) fY (x) (gerade so, dass fX (x) ≤ c · fY (x) ∀x ∈ R) Beispiel 8.21 X ∼ N (0, 1) schwer zu erzeugen, weil F −1 nur numerisch bestimmbar ist. Dagegen ist eine Cauchyverteilte Zufallsvariable X leicht über die Umkehrfunktion ihrer Verteilungsfunktion F −1 erzeugbar. 1 1 exp(− x2 ) fX (x) = √ 2 2π 1 1 · fY (x) = π 1 + x2 (x) Man kann relativ leicht zeigen, dass c = supx ffXY (x) = Die Akzeptanzwahrscheinlichkeit p(X) ergibt sich als p(X) = = q fX (X) c · fY (X) √1 2π exp − 12 x2 q 2π 1 1 e π 1+x2 √ = x2 e (1 + x2 ) exp(− ) 2 2 2π e ≈ 1.52. 8.11 Exkurs: Erzeugung von stetig gleichverteilten Zufallsvariablen 8.11 143 Exkurs: Erzeugung von stetig gleichverteilten Zufallsvariablen Seien die gesuchten Zufallsvariablen ohne Beschränkung der Allgemeinheit auf dem Einheitsintervall gleichverteilt. Unabhängige Ui ∼ U [0, 1], i = 1, 2, . . . sind gesucht. Zur Erzeugung werden häufig Kongruenzgeneratoren (KG) verwendet: Xi Ui = (aXi−1 + c) mod M i = X M 1 } Xi ∈ {0, 1, . . . , M − 1}, Ui ∈ {0, M1 , . . . , M M (a mod b in R: a%%b) Mit festen Parametern a, c, M ∈ N. c = 0 “multiplikativer KG”. Der Startwert X0 (engl.“seed”) ist bekannt. Häufig wird eine modifizierte Uhrzeit verwendet. D. h. man verwendet einen rekursiv definierten, strikt deterministischen (!) Algorithmus, in der Hoffnung, dass die Folge der (Ui )i=1,2,... möglichst zufällig erscheint. : Lehmer (1951): a = 23, M = 108 + 1, c = 0 : Rotenberg (1960): a = 27 , M = 235 , c = 1 Die M + 1 Werte (X0 , . . . , XM ) können nicht alle unterschiedlich sein; mindestens ein Wert muss zweimal vorkommen, sagen wir an den Stellen Xi und Xi+k . → Xi , . . . ,Xi+k Xi+k , . . . ,Xi+2k identische Folgen! Xi+2k , . . . ,Xi+3k Geschichte Man nennt k ≤ M die Periode eines KG. Bei multiplikativen KGen gilt sogar k ≤ M − 1, da der Wert Xi = 0 “absorbierend” ist. Ein multiplikativer KG hat maximale Periode k = M − 1 nur dann, wenn M eine Primzahl ist. Beispiel 8.22 M a c = 231 − 1 (Primzahl) = 75 = 0 Ein idealer KG sollte möglichst wenig Regelmäßigkeiten aufweisen, ansonsten wäre er ja nicht “zufällig”. Zum Testen, wie “zufällig” KGen sind, bietet es sich 144 8 STETIGE ZUFALLSVARIABLEN an (Ui , Ui+1 ), i = 0, 1, . . . im Einheitsquadrat [0, 1]2 graphisch darzustellen. Häufig ergeben sich gewisse Muster. Die Punkte liegen immer auf parallelen Geraden; je kleiner der Abstand zwischen den Geraden, desto “besser” ist der Generator. Dieser Test lässt sich auf d Dimensionen verallgemeinern → Spektraltest