7 2 Zufallsvariable und Verteilungen 2 Zufallsvariable und Verteilungen Wir wollen uns jetzt mit Zufallsexperimenten beschäftigen, deren Ausgänge durch (reelle) Zahlen beschrieben werden können, oder bei denen man jedem einzelnen Versuchsausgang eine einzelne Zahl zuordnen kann. Beispielsweise ist jedes mögliche Ergebnis beim Ausspielen eines Würfels in eindeutiger Weise durch die Augenzahl bestimmt. Dasselbe gilt für die Anzahl defekter Stücke in einer Warenlieferung oder den Bohrloch-Durchmesser eines Werkstücks. Alle diese Größen hängen natürlich vom Zufall, genauer vom Ergebnis des Zufallsexperiments, ab. Man nennt sie deshalb auch Zufallsvariable. Betrachten wir einen Stichprobenraum Ω, eine Ereignisalgebra Σ über Ω und eine Wahrscheinlichkeit P auf Σ. Dann versteht man unter einer Zufallsvariablen X eine Funktion X: Ω → —, für welche die Mengen {ω∈ Ω | X(ω) ≤ x} ∈ Σ für alle x ∈ —, also Ereignisse sind. Gewöhnlich werden Zufallsvariablen durch Großbuchstaben, etwa X, Y, Z symbolisiert. Schreibt man also X für die Augenzahl eines Würfels, dann kann man das Ereignis „Die Augenzahl des ausgespielten Würfels beträgt 4“ kurz durch „X = 4“ ausdrücken, das Ereignis „Die Augenzahl ist größer oder gleich 3“ durch „X ≥ 3“, usw. Entsprechend schreibt man für die Wahrscheinlichkeiten der genannten Ereignisse kurz P(X = 4) bzw. P(X ≥ 3). Allgemein kann also eine Zufallsvariable bestimmte Werte oder Wertebereiche mit bestimmten Wahrscheinlichkeiten annehmen. Zufallsvariable können in den vielfältigsten Formen auftreten, ihr Wertebereich kann aus endlich vielen Werten, abzählbar unendlich oder überabzählbar unendlich vielen Werten bestehen. Für die Praxis werden wir daher zwischen diskreten und stetigen Zufallsvariablen unterscheiden. Eine Zufallsvariable heißt diskret, wenn sie nur endlich oder abzählbar unendlich viele Zahlenwerte annehmen kann. Dagegen kann eine stetige Zufallsvariable jeden Wert (innerhalb eines bestimmten Intervalls) annehmen. Dementsprechend spricht man auch von diskreten bzw. stetigen Verteilungen, welche im Folgenden genauer betrachten werden. 2.1 Diskrete Verteilungen Allgemein ist eine diskrete Zufallsvariable X dadurch definiert, dass sie nur bestimmte vorgegebene (höchstens abzählbar viele) Werte x1, x2, x3, ... mit positiven Wahrscheinlichkeiten P(X = x1) = p1, P(X = x2) = p2, P(X = x3) = p3, ... annimmt. Die Wahrscheinlichkeiten pi sind dabei nicht negativ und ihre Summe ergibt 1, also p1 ≥ 0, p2 ≥ 0, usw. sowie p1 + p2 + ... = 1. Die durch 8 2 Zufallsvariable und Verteilungen p f ( x ) = P(X = x ) = i 0 x = xi sonst erklärte Funktion f heißt Wahrscheinlichkeitsfunktion der Zufallsvariablen X. Ferner nennt man die Funktion F( x ) = P(X ≤ x ) = ∑p i xi ≤ x − also die Wahrscheinlichkeit dafür, dass die Variable X irgendeinen Wert annimmt, der kleiner oder gleich x ist − die Verteilungsfunktion von X. Zufallsvariable können als theoretisches Gegenstück zu den Merkmalen der deskriptiven Statistik angesehen werden. Zwischen der Wahrscheinlichkeitsfunktion und der Verteilungsfunktion einer Zufallsvariablen X besteht dann derselbe Zusammenhang, wie er für die relative Häufigkeit und relative Summenhäufigkeit eines Merkmals gilt. Beispiel: Bezeichnet X die Augenzahl beim Würfeln, dann besitzt die Zufallsvariable X die möglichen Werte x = 1, 2, 3, 4, 5 und 6 mit den Wahrscheinlichkeiten f(1) = P(X = 1) = 1/6, f(2) = … = f(6) = 1/6 bzw. F(1) = P(X ≤ 1) = 1/6, F(2) = P(X ≤ 2 ) = 2/6, ..., F(6) = P(X ≤ 6) = 1. Die Wahrscheinlichkeitsfunktion f(x) und die Verteilungsfunktion F(x) sind in der folgenden Abbildung dargestellt. Wahrscheinlichkeitsfunktion f(x) (links) und Verteilungsfunktion F(x) (rechts) von X Durch die Wahrscheinlichkeits- bzw. Verteilungsfunktion ist eine Zufallsvariable vollständig bestimmt. Oft genügt aber auch, wie bei der Beschreibung von Stichproben durch Lage- und Streuungsmaße, eine gröbere Charakterisierung durch geeignete Maßzahlen. Von diesen sind der Mittelwert sowie die Varianz wohl am bedeutsamsten. Der Mittelwert µ (oder auch Erwartungswert E(X)) einer diskreten Zufallsvariablen X mit den möglichen Werten x1, x2, x3, ... und der Wahrscheinlichkeitsfunktion f ist gegeben durch µ = E(X) = ∑ x i f ( x i ) i und stellt das theoretische Gegenstück zum arithmetischen Mittel einer empirischen Verteilung dar. Analog ist die Varianz σ2 (oder auch Var(X)) definiert durch σ2 = Var(X) = ∑ (x i − µ)2 f (x i ) = E(X − µ) 2 . i 9 2 Zufallsvariable und Verteilungen Für die Varianz gilt nach dem so genannten Verschiebungssatz auch die für das praktische Rechnen zweckmäßige Formel σ2 = E(X 2 ) − µ 2 . Die Wurzel aus der Varianz bezeichnet man wieder als die Standardabweichung σ. Für das Würfeln beispielsweise gilt E(X) = (1 + 2 + 3 + 4 + 5 + 6) 1/6 = 3,5, Var(X) = E(X2) − µ2 = (12 + 22 + 32 + 42 + 52 + 62) 1/6 − 3,52 = 15,17 − 12,25 = 2,92. Somit beträgt die theoretisch erwartete Augenzahl µ = 3,5 und ihre Standardabweichung σ = 1,71. Ganz allgemein gelten für den Erwartungswert und die Varianz von Zufallsvariablen folgende Rechenregeln: E(X + Y) = E(X) + E(Y) E(aX + b) = aE(X) + b für a, b ∈ — E(XY) = E(X) E(Y), falls X und Y unabhängig sind Var(aX + b) = a2 Var(X) für a, b ∈ — Var(X + Y) = Var(X) + Var(Y), falls X und Y unabhängig sind Mit Hilfe dieser Regeln lässt sich z.B. der oben genannte Verschiebungssatz einfach beweisen, denn mit µ = E(X) gilt σ2 = E(X − µ) 2 = E(X 2 − 2µX + µ 2 ) = E(X 2 ) − 2µE(X) + µ 2 = E(X 2 ) − µ 2 . 2.2 Stetige Verteilungen Viele Zufallsexperimente lassen sich nur unvollständig durch diskrete Zufallsvariable beschreiben. Beispielsweise kann man bezüglich des Merkmals „Körpergröße einer erwachsenen Person“ eine Einteilung in „klein“, „mittel“ bzw. „groß“" treffen und diesen Ereignissen gewisse Größenindizes, etwa 0, 1 bzw. 2 zuordnen. Man hätte damit die Körpergröße durch eine diskrete Zufallsvariable mit drei möglichen Werten − allerdings nur sehr grob beschrieben. Daran ändert auch eine Verfeinerung der Einteilung im Prinzip nichts, denn die Körpergröße ist von stetiger Natur, d.h., sie kann jeden beliebigen Wert eines bestimmten Intervalls annehmen. Es ist daher naheliegend, sie durch eine entsprechende Zufallsvariable X zu beschreiben, für die alle Werte des betrachteten Intervalls auch mögliche Werte darstellen. Das Ereignis „175 < X < 180“ beispielsweise bedeutet, dass X irgendeinen Wert aus dem Intervall (175, 180) annimmt. Das Ereignis „X = 180“ hingegen besagt, dass die Variable X den Wert 180 exakt annimmt, und besitzt im Fall einer stetigen Zufallsvariablen stets die Wahrscheinlichkeit 0. Wir können in diesem Fall nur für Ereignisse, die dadurch charakterisiert sind, dass X in ein vorgegebenes Intervall fällt, eine positive Wahrscheinlichkeit angeben. 10 2 Zufallsvariable und Verteilungen An die Stelle der Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen tritt nun die so genannte Wahrscheinlichkeitsdichte (oder kurz Dichte) f der stetigen Variablen X. Dabei ordnet die Funktion f jedem Wert x eine Zahl f(x) derart zu, dass zu beliebig vorgegebenen Werten a und b für die Wahrscheinlichkeit P(a < X < b) gilt b P(a < X < b) = ∫ f (x) dx . a Die Wahrscheinlichkeit des Ereignisses „a < X < b“ kann also durch die Fläche ausgedrückt werden, die von der Kurve der Wahrscheinlichkeitsdichte und der x-Achse zwischen x = a und x = b eingeschlossen ist (vgl. nachstehende Abbildung). Die Zufallsvariable X wird als stetige Zufallsvariable bezeichnet und wir sprechen von einer stetigen Verteilung der Variablen X. Jede stetige Zufallsvariable X besitzt eine Verteilungsfunktion F, welche analog zum diskreten Fall definiert ist durch x F(x) = P(X ≤ x) = ∫ f (t) dt , −∞ wobei f die Dichte der Variablen X bezeichnet. Zwischen der Verteilungsfunktion F und der Dichtefunktion f einer stetigen Zufallsvariablen X besteht der folgende Zusammenhang: b P(a < X < b) = ∫ f (x) dx = F(b) − F(a) , a wobei auf der linken Seite der Gleichung ebenso P(a ≤ X < b), P(a < X ≤ b) oder P (a ≤ X ≤ b) stehen kann. Mathematisch gesprochen ist die Verteilungsfunktion F eine Stammfunktion von f und daher die Dichte f die Ableitung von F. Im Zusammenhang mit der Interpretation der Wahrscheinlichkeitsdichte f sei betont, dass die Werte von f nicht als Wahrscheinlichkeiten angesehen werden können; f muss zwar größer gleich 0 aber keineswegs überall kleiner als 1 sein. Wahrscheinlichkeiten werden lediglich durch Flächen unter der Dichtekurve f dargestellt. Offensichtlich ist die Gesamtfläche unter der Dichtekurve von f gleich 1, der Wahrscheinlichkeit des sicheren Ereignisses: 11 2 Zufallsvariable und Verteilungen ∞ ∫ f (x) dx = 1 . −∞ Wie im diskreten Fall können auch stetige Verteilungen durch ihren Mittelwert bzw. Erwartungswert und ihre Varianz beschrieben werden. Dabei ist der Erwartungswert E(X) einer stetigen Zufallsvariablen X mit der Dichtefunktion f definiert durch ∞ µ = E(X) = ∫ x f (x) dx −∞ und die Varianz Var(X) erhält man gemäß ∞ σ2 = Var(X) = ∫ ∞ ∫x (x − µ) 2 f (x) dx = −∞ 2 f (x) dx − µ 2 , −∞ wobei sich das zuletzt angeführte Integral wieder aus dem Verschiebungssatz ergibt. Sämtliche im vorhergehenden Abschnitt für diskrete Zufallsvariable angegebenen Rechenregeln für das Rechnen mit Erwartungswerten und Varianzen gelten auch im stetigen Fall. Beispiel: Es sei X eine stetige Variable mit der Dichtefunktion f(x) = 2x für 0 ≤ x ≤ 1 (und f(x) = 0 sonst). Offensichtlich ist f eine stetige und damit integrierbare Funktion mit f(x) ≥ 0 und 1 ∞ 2 ∫ f (x) dx = ∫ 2x dx = x 1 0 = 1, 0 −∞ und für die Verteilungsfunktion gilt F(x) = 0 für x < 0, F(x) = x2 für 0 ≤ x ≤ 1 und F(x) = 1 für x > 1 (siehe Abbildung). Für den Erwartungswert µ und die Varianz σ2 von X berechnet man 1 ∞ µ= 1 ∞ 2 σ = ∫x −∞ 2 2 ∫−∞ x f (x) dx = ∫0 2x dx = 3 , 2 f (x) dx − µ = ∫ 2x 3 dx − 2 0 4 1 = . 9 18 12 2 Zufallsvariable und Verteilungen Neben Erwartungswert und Varianz stellen auch die Quantile wichtige Kenngrößen einer Verteilung dar. Allgemein versteht man unter dem p-Quantil xp einer Zufallsvariablen X für einen Wert von p mit 0 < p < 1 jene Zahl, für die gilt F(xp) = P(X ≤ xp) = p. Die Wahrscheinlichkeit dafür, dass die Zufallsvariable X Werte unterhalb von xp annimmt, ist also gleich p. Für p = 0,5 erhält man den Median, der mit gleicher Wahrscheinlichkeit (nämlich 0,5) über- bzw. unterschritten wird, für p = 0,25 bzw. p = 0,75 nennt man die entsprechenden Quantile auch unteres bzw. oberes Quartil. Beispiel: In obigem Beispiel ergibt sich für das p-Quantil allgemein F(x p ) = x p = p ⇒ x p = p , 2 also insbesondere für den Median x 0,5 = 1/ 2 = 0, 71 . Eine grundlegende Aussage über die Verteilung der Werte einer beliebigen Zufallsvariablen macht die folgende Ungleichung von Tschebyscheff: Sei X eine Zufallsvariable mit Erwartungswert µ = E(X) und Varianz σ2 = Var(X), dann gilt P(| X − µ |> ε) ≤ σ2 für jedes ε > 0, ε2 d.h., dass X nur mit kleiner Wahrscheinlichkeit Werte annimmt, die weit vom Mittelwert µ entfernt sind. Beweis (für eine stetige Zufallsvariable X): Für beliebiges ε > 0 gilt ∞ σ2 = ∫ (x − µ) f (x)dx 2 −∞ µ−ε ≥ ∞ ∫ (x − µ) f (x)dx + ∫ (x − µ) f (x)dx 2 −∞ 2 µ+ε ∞ µ−ε ≥ ε 2 ∫ f (x)dx + ∫ f (x)dx µ+ε −∞ = ε 2 P(| X − µ |> ε) , woraus die behauptete Ungleichung unmittelbar folgt. Die Bedeutung dieser Ungleichung liegt darin, dass Sie die Abweichung der Variablen X vom Mittel µ nur in Abhängigkeit von der Varianz σ2 angibt, und unabhängig von der speziellen Form der Verteilung ist. Setzt man ε = kσ, so erhält man die Ungleichung in der Form P(| X − µ |> kσ) ≤ 1 für jedes k > 0. k2 Das bedeutet z.B. für k = 2, dass P(|X − µ| > 2σ) ≤ 1/4 ist, und für k = 3 gilt P(|X − µ| > 3σ) ≤ 1/9, d.h., zumindest 8/9 aller Werte einer beliebigen Verteilung liegen innerhalb der 3σGrenzen um den Mittelwert.