2 Wahrscheinlichkeitstheorie Jedoch tritt auch {Y = 4} auf, wenn 4 Mal Zahl und 6 Mal Kopf in irgendeiner Reihenfolge auftritt. Die Wahrscheinlichkeit ist dabei jedes Mal p4 (1 − p)6 und wie wir in der Übung gelernt 10 haben, gibt es genau 4 = 210 verschiedene derartige Reihenfolgen. Da eine Bin(n, p)-verteilte Zufallsvariable die Summe von n Bernoulli-Zufallsvariablen Xi , i = 1, . . . , n (mit P (Xi = 1) = p), ist, lässt sich der Erwartungswert durch (2.1) auf Seite 57 bestimmen: ! n X (2.1) E(Y ) = E = E(X1 ) + . . . + E(Xn ) = p + . . . + p = n p. Xi i=1 Die Varianz lässt sich wegen Unabhängigkeit der Experimente durch (2.3) bestimmen: Var(Y ) = n X i=1 Var(Xi ) = n X p(1 − p) = n p (1 − p). i=1 Abbildung 2.5 zeigt auch, dass der Modalwert einer Y ∼ Bin(n, 12 ) Zufallsvariablen gleich ist, falls n gerade ist. Ist n ungerade gilt 1 1 f n−1 =f n , 2 2 1 2n d.h. der Modalwert ist in diesem Fall nicht eindeutig definiert. In R lässt sich die Wahrscheinlichkeitsfunktion f (y) einer Y ∼ Bin(n, p) Zufallsvariablen mit der Funktion dbinom(y, n, p) bestimmen. Desweiteren liefert qbinom(y,n,p) die Verteilungsfunktion F(y) und qbinom(q,n,p) das 0 ≤ q ≤ 1 Quantil von Y . Als Beispiel wird hier n = 10 und p = 12 benutzt: > dbinom(0:10, 10, 0.5) R Output [1] 0.0009766 0.0097656 0.0439453 0.1171875 0.2050781 0.2460938 0.2050781 0.1171875 [9] 0.0439453 0.0097656 0.0009766 > pbinom(0:10, 10, 0.5) R Output [1] 0.0009766 0.0107422 0.0546875 0.1718750 0.3769531 0.6230469 0.8281250 0.9453125 [9] 0.9892578 0.9990234 1.0000000 > qbinom(c(0.1, 0.5, 0.9), 10, 0.5) R Output [1] 3 5 7 2.3.4 Poisson-Verteilung Die Poisson-Verteilung ist wie die Binomial-Verteilung eine diskrete Verteilung, um die Anzahl der Beobachtungen eines bestimmten Ereignisses in einem bestimmten Zeitraum oder in einem 62 2.3 Zufallsvariablen bestimmten Raum zu zählen. Wenn die Anzahl der Wiederholungen im Bernoulli-Versuch gegen Unendlich strebt, erhält man mit ein paar zusätzlichen Annahmen (die wir nicht behandeln wollen) die Poisson-Verteilung als Grenzverteilung. Die Poisson-Verteilung dient somit als Modell für die Anzahl von Ereignissen pro Zeiteinheit in einer Population, die nicht nach oben begrenzt ist. Sie wird auch häufig zur Beschreibung von Verteilungsmustern von Pflanzen und Tieren im Raum verwendet. Experiment 1. Man nimmt eine Population von Bakterien und Vektoren, die Plasmide in diese Bakterien einschleusen. Wenn wir uns nun ein Bakterium herausfischen, ist die Zahl der Plasmide in diesem Bakterium poissonverteilt. Experiment 2. Man stellt im Wald eine Käferfalle auf und zählt, wieviele Käfer in diese Falle geraten. Experiment 3. Die Zahl der Todesfälle durch Hufschlag in Preußischen Reiterregimenten sind poissonverteilt. Sei X poissonverteilt, X ∼ Po(λ), wobei λ > 0 der Parameter der Poisson-Verteilung ist. Die möglichen Realisationen von X sind 0, 1, 2, . . . und die Wahrscheinlichkeitsfunktion f (x) ist x λ e−λ falls x ∈ {0, 1, 2, . . .} x! f (x) = P (X = x) = 0 sonst 0.00 0.04 f(x) 0.08 0.12 Man kann zeigen, dass E(X) = λ und Var(X) = λ, d.h. Erwartungswert und Varianz sind bei der Poisson-Verteilung gleich. Abbildung 2.6 zeigt f (x), wenn λ = 10. 0 5 10 15 20 x Abbildung 2.6: Wahrscheinlichkeitsfunktion einer Po(10) Zufallsvariablen. Achtung: f (x) > 0 für x > 20, z.B. ist f (21) = 4.89 · 10−4 und f (100) = 4.86 · 10−63 . Wir können die Poisson-Verteilung tatsächlich als Grenzübergang aus der Binomial-Verteilung für n → ∞ und p → 0 erhalten, wobei wir λ = pn festhalten, d.h. für jedes n wird p = λ/n gewählt. Als Konsequenz kann für große n und kleine p die Bin(n, p)-Verteilung durch eine Po(λ)-Verteilung mit λ = np approximiert werden. Abbildung 2.7 zeigt dies anhand eines Beispiels. 63 K! 2 Wahrscheinlichkeitstheorie In R kann gibt es die entsprechenden Funktion dpois, ppois und qpois, um Wahrscheinlichkeitsfunktion, Verteilungsfunktion und Quantile zu berechnen. 0.00 0.04 f(x) 0.08 0.12 Bin(100,0.1) Pois(10) 0 5 10 15 20 x Abbildung 2.7: Approximation einer Bin(100, 0.1) Verteilung durch die Po(10) Verteilung illustriert anhand der Wahrscheinlichkeitsfunktion. Es wird nur der Bereich 0 ≤ x ≤ 20 gezeigt. 64 2.3 Zufallsvariablen 2.3.5 Stetige Zufallsvariable Wie schon in Kapitel 1 sprechen wir auch von Zufallsvariablen mit stetigen Skalenniveau. Das heißt, für zwei mögliche Realisationen a < b ∈ R der stetigen Zufallsvariable X gilt, dass auch jeder Zwischenwert x ∈ [a, b] mögliche Realisationen sind. Wichtigste Botschaft ist, dass stetige Zufallsvariablen nicht mehr über eine Wahrscheinlichkeitsfunktion P (X = x) definiert sind, sondern, dass wir uns für Wahrscheinlichkeiten von Mengen, genauer gesagt Intervallen, interessieren: wie können wir die Wahrscheinlichkeit für Ereignisse der Form P (a ≤ X ≤ b) für stetige Zufallsvariablen festlegen? Bei diskreten Zufallsvariablen wurde dies über die Summation der Wahrscheinlichkeiten für alle mögliche Realisationen xi zwischen a und b gemacht. Bei stetigen Zufallsvariablen gibt es jedoch überabzählbar viele solcher Realisationen, womit das Aufsummieren nicht mehr praktisch handhaben kann. Beispiel. Falls die Zufallsvariable X der Umfang eines Baumes in cm ist, dann ist die Frage also nicht mehr: Wie wahrscheinlich ist es, dass der vermessene Baumumfang 30 cm beträgt, sondern, z.B. Wie wahrscheinlich ist es, dass der Baumumfang zwischen 25 und 35 cm liegt? Die Berechnung von P (a ≤ X ≤ b) gelingt hier wieder durch die unendliche Wiederholung eines Versuchs, wobei X nun eine stetige Zufallsvariable ist, die das Ergebnis des Versuchs beschreibt. Dazu geht man illustrativ von einer diskreten Zufallsvariablen Xd aus, die als Approximation von X durch eine Klassenbildung von X entsteht. Stuft man den Wertebereich von Xd immer feiner ab, gelangt man durch eine Grenzbetrachtung zu einer sinnvollen Definition für stetige Zufallsvariablen. Sei Xd eine diskrete Zufallsvariable, die durch Klassenbildung aus X mit einer Klassenlänge ∆x entsteht. Die möglichen Realisationen von Xd seien die Klassenmitten xi der Intervalle (xi − 1 1 2 ∆x, xi + 2 ∆x). Im Wahrscheinlichkeitshistogramm einer diskreten Zufallsvariable Xd ist die Rechtecksfläche über den Intervallen gleich P (Xd = xi ), d.h. die Wahrscheinlichkeit die Klasse xi von Xd zu erhalten, ist gleich der Wahrscheinlichkeit P (xi − ∆x ≤ X ≤ xi + ∆x). Abbildung 2.8 zeigt das Wahrscheinlichkeitshistogramm für drei Xd , die mit einer unterschiedlichen Anzahl von Klassen die gleiche stetige Zufallsfallsvariable approximieren. Anhand von Xd wird außerdem eine Funktion fd (x) definiert, die jeweils die Midtpunkte der oberen Seite der Rechtecke im Wahrscheinlichkeitshistogramm verbindet (siehe z.B. Abb. 2.8 oben links). Der Grenzübergang ∆x → 0 führt zur Definition der Dichte f (x) einer stetigen Zufallsvariablen. Definition (Stetige Zufallsvariable ) Eine Zufallsvariable X heißt stetig, wenn es eine Funktion f (x) ≥ 0 gibt, sodass für jedes Intervall [a, b] gilt b Z P (a ≤ X ≤ b) = f (x) dx a Die Funktion f (x) wird auch Dichte von X genannt. Folgende Eigenschaften gelten für stetige Zufallsvariablen: P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) P (X = x) = 0 ∀x ∈ R Die letzte Eigenschaft mag zunächst verwunderlich erscheinen, da es bedeutet, dass X genau den Wert x mit Wahrscheinlichkeit 0 annimmt. Die Dichte f (x) übernimmt bei stetigen Zufalls- 65 K! 2 Wahrscheinlichkeitstheorie 0.4 50 Intervalle 0.4 10 Intervalle 0.1 ∆x ● ● ● −2 −1 0 xi 1 2 ● −4 −2 0 2 Xd 100 Intervalle fd(x) für ∆x → 0 4 Dichte f(x) 0.1 0.2 0.3 0.4 0.3 0.2 0.0 0.1 0.0 1 1 P(X ∈ (xi − ∆x,xi + ∆x)) ∆x 2 2 0.3 3 Xd 0.4 −3 ● 0.2 ● 0.1 ● 0.0 0.2 0.3 1 1 P(X ∈ (xi − ∆x,xi + ∆x)) ∆x 2 2 ● ● 0.0 1 1 P(X ∈ (xi − ∆x,xi + ∆x)) ∆x 2 2 ● −4 −2 0 Xd 2 4 −4 −2 0 2 4 x Abbildung 2.8: Wahrscheinlichkeitshistogramm für die diskrete Approximation Xd einer stetigen Zufallsvariable X mit 10, 50 und 100 Intervallen. Das Schaubild rechts unten zeigt den Grenzübergang von fd (x) für ∆x → 0. Die resultierende Funktion ist die Dichte von X. 66 0.0 0 −3 −2 0.2 −1 0.4 F(x) F−1(x) 0.6 1 2 0.8 3 1.0 2.3 Zufallsvariablen −4 −2 0 x0.5 2 4 0.0 0.2 0.4 0.6 0.8 1.0 q Abbildung 2.9: (a) Verteilungsfunktion F (x) für die Dichte f (x) aus Abbildung 2.8 zusammen mit der Bestimmung des Medians x0.5 = 0. (b) Die zu (a) gehörige Quantilsfunktion F −1 (q) für q ∈ (0, 1). variablen die Rolle der Wahrscheinlichkeitsfunktion. Dabei ist es wichtig zu verstehen, dass f (x) keine Wahrscheinlichkeiten angibt. Es gilt zwar Näherungsweise, dass f (x)∆x ≈ P X ∈ (x − ∆x, x + ∆x) , aber es kann durchaus passieren, dass f (x) > 1. K! Die Verteilungsfunktion F (x) einer stetigen Zufallsvariablen lautet nun Z x F (x) = P (X ≤ x) = f (x) dx. −∞ Umgekehrt ist also f (x) = d F (x). dx R∞ = 1. Außerdem gilt für P (a ≤ X ≤ b) = F (b) − F (a), (2.5) P (X ≥ a) = 1 − F (a). (2.6) Damit F (∞) = 1 muss f (x) auch so normiert sein, dass a < b ∈ R, dass −∞ f (x) dx Im Gegensatz zu der Verteilungsfunktion einer diskreten Zufallsvariablen ist die Verteilungsfunktion einer stetigen Zufallsvariablen keine Treppenfunktion mehr. Abbildung 2.9 zeigt F (x) für die Dichte f (x) aus Abb. 2.8. Wie schon für diskrete Zufallsvariablen lässt das q-Quantil von X sich aus der Verteilungsfunktion von X bestimmen. Dabei ist xq die Zahl auf der x-Achse für die gilt F (xq ) = q. 67 2 Wahrscheinlichkeitstheorie Dies entspricht der Umkehrfunktion von F , welche auch Quantilsfunktion genannt und mit F −1 bezeichnet wird. Zum Beispiel ist x0.5 = F −1 (0.5) = 0 in Abb. 2.9. Es gilt natürlich F (F −1 (x)) = x. Analog zu diskreten Zufallsvariablen können wieder Erwartungswert und Varianz einer stetigen Zufallsvariablen definiert werden. Der wichtige Unterschied ist hierbei, dass jeweils die Summe über alle mögliche Realisationen von X durch ein Integral von −∞ bis ∞ ersetzt wird. Somit gilt: Z ∞ xf (x) dx E(X) = −∞ Z ∞ (x − E(X))2 f (x) dx = E(X 2 ) − E(X)2 . Var(X) = −∞ Außerdem ist wie vorher der Erwartungswert irgendeiner Funktion g : R → R von X, Z ∞ E(g(X)) = g(x)f (x) dx, −∞ Es gelten weiterhin die Eigenschaften, dass E(aX + b) = aE(X) + b, Var(aX + b) = a2 Var(X). Unabhängigkeit wird für zwei stetige Zufallsvariablen X und Y über die Verteilungsfunktionen FX (x) bzw. FY (y) definiert. Die Zufallsvariablen heißen unabhängig, wenn für alle x ∈ R und y∈R P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (X ≤ y) = FX (x) · FY (y). 2.3.6 Normalverteilung Die bekannteste und wichtigste stetige Verteilung ist die Normalverteilung. Ein wichtiger Grund dafür ist, dass, wenn immer die Verteilung einer Zufallsvariablen X durch die Summe einer großen Anzahl von zufälligen unabhängigen Einflüssen entsteht, die Dichte von X sich sehr gut durch eine Normalverteilung approximieren lässt. Die theoretische Begründung für diese Approximation liefert der zentrale Grenzwertsatz. Ein Beispiel ist das Gewicht eines Apfels, der von sehr vielen Faktoren wie Licht, Wasser, Bodenbeschaffenheit, Wärme, Schädlingsbefall, usw. abhängig ist. Ein anderes Beispiel ist die Binomialverteilung, die sich, wie wir gleich sehen werden, durch eine Normalverteilung approximieren lässt. Beispiele für normalverteilte Merkmale sind • Ertrag einer Parzelle • Größe männlicher, ausgewachsener Seehunde • Biermenge pro Flasche bei Befüllung von Bierflaschen 68 K!