Kapitel 8 Zufallsgrößen Zufallsgrößen und deren zugordnete Maßzahlen Erwartungswert und Varianz sind zentrale Grøßen von Zufallsversuchen. Sie sind auch fundamental in der Statistik, die die zweite Säule der Stochastik ist. Das schwache Gesetz der großen Zahl erklärt die Mittelwertbildung bei Meßreihen. 8.1 Erwartungswerte Zunächst zur Motivation des Begriffs Erwartungswert“, den wir nun einführen wollen. ” Beispiel 8.1.1 Stellen wir uns ein Glücksrad mit den s Sektoren Ω := {w1 , . . . , ωs } vor; jedem Sektor werde als Wahrscheinlichkeit dafür, dass der Zeiger beim Drehen im Sektor j stehen bleibt die Zahl p(ωj ) zugeordnet. Ein Spieler gewinnt X(ωj ) Euro, wenn der Zeiger im Sektor j stehen bleibt. Wieviel sollte man pro Spiel einsetzen, wenn man das Spiel wiederholt, etwa n–mal spielen müßte. Offenbar erhält man dann s X X(ωj )hj j=1 Euro ausbezahlt, wenn der Zeiger im Sektor j hj –mal stehen geblieben ist. Also ergibt sich als durchschnittliche Auszahlung s 1X X(ωj )hj n j=1 h Euro. Da man empirisch erwartet, dass nj gegen die Wahrscheinlichkeit p(ωj ) strebt, müßte s X X(ωj )p(ωj ) E := j=1 Euro auf lange Sicht die erwartete Auszahlung sein. Ein Einsatz pro Spiel, der kleiner als E ist, sollte also auf lange Sicht zu einem Gewinn führen. Definition 8.1.2 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum. Jede Abbildung X : Ω −→ R heißt eine Zufallsgröße1 . Sind x1 , . . . , xr die Werte, die X annimmt, dann heißt P ({X = xj }) , j = 1, . . . , r, die Verteilung der Zufallsgröße. Die Abbildung FX : R ∋ x 7−→ P ({X ≤ x}) ∈ [0, 1] heißt die Verteilungsfunktion von X . 1 In der Literatur ist für eine Zufallsgröße auch der ältere Ausdruck Zufallsvariable“ gebräuchlich. Diese ” Begriffsbildung verträgt sich nicht mehr gut mit der heutigen Auffassung von Abbildungen und Variablen. 95 Beachte, dass wir voraussetzen durften, dass nur endlich viele Werte angenommen werden, da wir ja Ω als endliche Menge angenommen haben. Beispiel 8.1.3 Sei Ω := {K(opf ), Z(ahl)}, X(ω) := 1, falls ω = K, := 0, falls ω = Z, := 0 . Also ist FX eine Treppenfunktion“ mit 2 Stufen: ” x x<0 0≤x<1 x≥1 FX (x) 0 1 2 1 Definition 8.1.4 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und X : Ω −→ R eine Zufallsgröße. Die Zahl X E(X) := X(ω)P ({ω}) ω∈Ω heißt Erwartungswert von X . Interpretieren wir die Zufallsgröße als Auszahlung eines Spiels, so können wir offenbar E(X) als durchschnittliche Auszahlung pro Spiel auf lange Sicht ansehen (negative Werte sind als Einzahlungen zu interpretieren). Hierbei haben wir die Häufigkeitsinterpretation der Wahrscheinlichkeit zu Grunde gelegt; siehe Beispiel 8.1.1. Eine physikalische Interpretation des Erwartungswertes erhält man, wenn die möglichen Werte x1 , . . . , xr einer Zufallsgrößen X als Massepunkte“ mit den Massen P (X = xj ), j = 1, . . . , r, ” auf der gewichtslosen Zahlengeraden“ gedeutet werden. Der Schwerpunkt (Massenmittelpunkt) ” s des so entstehenden Körpers ergibt sich nämlich aus der Gleichgewichtsbedingung r X (xj − s)P (X = xj ) = 0 j=1 zu s= r X xj P (X = xj ) = E(X) . j=1 Laplace2 schreibt über den Erwartungswert: Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es drückt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . . Wir werden diesen Vorteil die mathematische Hoffnung“(esperánce (franz.) = Hoffnung) ” nennen. . . . Man soll es im gewöhnlichen Leben immer so einrichten, dass das Produkt aus dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzuschätzen. Dazu bedarf es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen Erfahrung; man muss sich vor Vorurteilen, vor den Täuschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Glücksgunst und wirklichem Glück, mit denen die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen. 2 Laplace, Pierre Simon de, (1749 – 1827) 96 Beispiel 8.1.5 Der Ereignisraum für einen fairen Würfelwurf ist Ω := {1, . . . , 6} und die Zufallsgröße, die die Augenzahl ausgibt, ist X : Ω ∋ i 7−→ i . Das passende Wahrscheinlichkeitmaß ist die Gleichverteilung, d.h. P (X = j) = 61 , j = 1, . . . , 6 . Als Erwartungswert ergibt sich 6 X 7 1 j = . E(X) = 6 2 j=1 Dies zeigt uns, dass bei fortgesetztem Werfen eines (fairen) Würfels der Wert 3.5 eine gute Prognose für den auf lange Sicht erhaltenen Durchschnitt (arithmetisches Mittel) aller geworfenen Augenzahl sein sollte. Beachte: Die Zufallsgröße realisiert den Wert E(X) nicht! Seien X, Y Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) und sei a ∈ R . Dann sind aX : Ω ∋ ω 7−→ aX(ω) ∈ R , X +Y X ·Y : Ω ∋ ω 7−→ X(ω) + Y (ω) ∈ R , : Ω ∋ ω 7−→ X(ω) · Y (ω) ∈ R , |X| : Ω ∋ ω 7−→ |X(ω)| ∈ R auch Zufallsgrößen auf (Ω, P OT (Ω), P ) . Für X · X schreiben wir auch oft kurz X 2 . Besondere Bedeutung besitzen die Zufallsgrößen, die das Eintreten oder Nichteintreten von Ereignissen beschreiben. Dies leistet die Indikatorfunktion eines Ereignisses: Ist A ⊂ Ω ein Ereignis, so heißt die durch ( 1 ,ω ∈ A χA (ω) := 0 ,ω ∈ /A definierte Zufallsgröße die Indikatorfunktion von A . Die einfachen Operationen mit Ereignissen spiegeln sich in der Indikatorfunktion folgendermaßen: χA∩B = χA · χB , χ∁A = 1 − χA , χA = χA2 . Will man wissen, wie viele Ereignisse A1 , . . . , An eingetreten sind, so hat man nur die Indikatorsumme χ := χA1 + · · · + χAn zu bilden. Sie dient also als Zählgröße. Beispiel 8.1.6 Betrachte folgendes Spiel: Beim Werfen zweier idealer Würfel erhält der Spieler Euro 10, wenn beide Würfel eine 6 zeigen, Euro 2, wenn genau ein Würfel eine 6 zeigt, Euro 0 sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , die Wahrscheinlichkeit für 1 . Damit ist angedeutet, dass die beiden Würfel unabhängig jedes Elementarereignis (i, j) ist 36 voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgröße, die den Gewinn eines Spielers beschreibt. Von Interesse sind die Ereignisse A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)}, A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) . Die Werte von X erhalten wir durch folgende Zuordnung: 2 , falls ω ∈ A2 Ω ∋ ω 7−→ 10 , falls ω ∈ A10 0 , sonst 97 Daraus leiten wir P ({X = 2}) = 10 25 1 , P ({X = 10}) = , P ({X = 0}) = 36 36 36 ab. Als Erwartungswert ergibt sich E(X) = 2 · 1 10 25 5 + 10 · +0· = 36 36 36 6 Dieses Ergebnis lässt erwarten – siehe unten– , dass der Spieler im Mittel 56 Euro pro Spiel gewinnt. Ein Einsatz des Spielers pro Spiel in Höhe von 1 Euro wäre also nicht vorteilhaft. Halten wir einige Rechenregeln für Erwartungswerte fest: Regel 8.1.7 Seien X, Y : Ω −→ R Zufallsgrößen, a ∈ R, A ⊂ Ω, und g : R −→ R . Es gelten: E(X + Y ) = E(X) + E(Y ) (8.1) E(aX) = aE(X) (8.2) E(χA ) = (8.3) E(g ◦ X) = X≤Y =⇒ P (A) X g(xj )P (X = xj ) (8.4) x1 ,...,xr ∈X(Ω) E(X) ≤ E(Y ) (8.5) Die Regeln sind sehr einfach zu beweisen.3 Wir beweisen nur (8.4). Seien x1 , . . . , xr die Werte der Zufallsgrößen X, also {x1 , . . . , xr } = X(Ω) . Wir setzen Aj := {ω ∈ Ω|X(ω) = xj }, j = 1, . . . , r . Dann gilt Ω = A1 ∪ · · · ∪ Ar und somit E(g ◦ X) = = X g ◦ X(ω)P ({ω}) = ω∈Ω r X X g(xj )P ({ω}) = = j=1 ω∈Aj r X j=1 j=1 ω∈Aj r X r X X g ◦ X(ω)P ({ω}) g(xj ) X P ({ω}) ω∈Aj g(xj )P (X = xj ) j=1 Definition 8.1.8 Sind X, Y : Ω y1 , . . . , ys , so heißt das System −→ R zwei Zufallsgrößen mit Werten x1 , . . . , xr bzw. P (X = xj , Y = yj ) := P ({X = xi } ∩ {Y = yj }) , i = 1, . . . , r, j = 1, . . . , s, die gemeinsame Verteilung von X, Y . (8.6) Fasst man das Paar Z := (X, Y ) als Abbildung (X, Y ) : Ω ∋ ω 7−→ (X(ω), Y (ω)) ∈ R2 auf, so nennt man Z eine zweidimensionale Zufallsgröße; (8.6) ist ihre Verteilung (analog zu Definition 8.1.2). Beispiel 8.1.9 Betrachte wieder einen zweifachen Würfelwurf mit einem fairen Würfel (LaplaceExperiment). Sei Xi der Ausgang des i-ten Wurfes und sei Y := max(X1 , X2 ) die Zufallsgröße, die die maximale Augensumme bei den beiden Würfen beschreibt. Die beigefügte Tabelle gibt die gemeinsame Verteilung von X := X1 und Y an. 98 j i 1 2 3 4 5 6 Σ 1 1 36 2 0 1 36 2 36 3 0 0 1 36 1 36 3 36 4 0 0 0 1 36 1 36 1 36 4 36 5 0 0 0 0 1 36 1 36 1 36 1 36 5 36 6 0 0 0 0 0 1 36 1 36 1 36 1 36 1 36 6 36 1 6 1 6 1 6 1 6 1 6 1 6 Σ 1 36 3 36 5 36 7 36 9 36 11 36 1 p(X = i) p(Y = j) Abbildung 8.1: Eine gemeinsame Verteilung Korollar 8.1.10 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße. Sei FX die zugehörige Verteilungsfunktion. Es gilt: (a) P ({a < X ≤ b}) = FX (b) − FX (a) für a ≤ b . (b) FX ist monoton wachsend. (c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ R, wobei FX (a−) der linkseitige Grenzwert von FX an der Stelle a ist. (d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) für a ≤ b . (e) lim FX (x) = 0 , lim FX (x) = 1 . x→−∞ x→∞ Beweis: Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) . Zu (b). Folgt aus (a). Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX . Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zunächst existiert sicher eine Folge (xn )n∈N mit xn < a für alle n ∈ N, lim xn = a und z := lim FX (xn ) existiert. Aus der Monotonie n n folgt, daß z für jede solche Folge identisch ist. Also gilt z = lim FX (xn ) für jede Folge (xn )n∈N n 3 Der Mathematiker fasst die Eigenschaften (8.1), (8.2) zusammen durch: Erwartungswertbildung ist eine Linearform auf dem Vektorraum der Zufallsvariablen. 99 mit xn < a für alle n ∈ N und lim xn = a , da (FX (xn ))n∈N eine konvergente Teilfolge enthält. n ∞ X P ({X < a}) = P ({X ≤ a − 1}) + = FX (a − 1) + lim n = FX (a − 1) + lim n k=1 n X k=1 n X k=1 P ({a − P ({a − 1 1 <X ≤a− }) k k+1 (FX (a − 1 1 ) − FX (a − )) k+1 k = FX (a − 1) + lim FX (a − n = lim FX (a − n 1 1 <X ≤a− }) k k+1 1 ) − FX (a − 1) n+1 1 ) = FX (a−) n+1 Zu (d). P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a}) = (FX (b) − FX (a)) + (FX (a) − FX (a−)) = FX (b) − FX (a−) . Zu (e). Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir 0 ≤ lim FX (x) ≤ lim FX (x) ≤ 1 . Es genügt also zu zeigen, dass x→−∞ x→∞ lim FX (−n) = 0 , lim FX (n) = 1 n∈N n∈N gilt. Betrachte die Ereignisfolge (Ak )k∈Z mit Ak := {k − 1 < X ≤ k}, k ∈ Z . Damit haben wir P (Ω) = P (∪k∈Z Ak ) und daher 1 = P (∪k∈Z Ak ) = X P (Ak ) = lim n∈N k∈Z k=n X P (Ak ) = lim n∈N k=−n k=n X k=−n (FX (k) − FX (k − 1)) = lim (FX (n) − FX (−n)) = lim FX (n) − lim FX (−n) n∈N n∈N n∈N Daraus liest man die Tatsache lim FX (−n) = 0 und lim FX (n) = 1 ab. n∈N n∈N Bemerkung 8.1.11 Man mag sich wundern über den obigen Beweis: er ist so aufgeschrieben, als würde die Zufallsgröße unendlich viele Werte annehmen, wir haben dies aber ausgeschlossen. Damit verbunden ist aber der Hinweis, dass auch Zufallsgrößen behandelt werden können, die abzählbar viele Werte annehmen können. Der wirklich große Schritt besteht darin, Zufallsgrößen zuzulassen, die überabzählbar viele Werte annehmen. Dann benötigt man zur Definition eines Erwartungswertes einen passenden Integralbegriff. Daran schließt sich dann das Gebiet der stochastischen Prozesse an, die in vielen Anwendungen eine überragende Rolle spielen. 8.2 Unabhängigkeit Definition 8.2.1 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls P ({X = x, Y = y}) = P ({X = x})P ({Y = y}) für alle x, y ∈ R gilt. 100 Korollar 8.2.2 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen. Sind X, Y unabhängig, so existiert E(X · Y ) und es gilt E(X · Y ) = E(X)E(Y ). Beweis: Seien {xi |i = 1, . . . , r}, {yj |j = 1, . . . , s} die Werte von X bzw. Y . Dann sind {xi yj |i = 1, . . . , r, j = 1, . . . , s} die Werte von X · Y und wir haben (siehe Beweis zu Folgerung ??) s r X X i=1 j=1 s r X X xi yj P ({X · Y = xi yj }) = i=1 j=1 r X s X = i=1 j=1 r X = i=1 xi yj P ({X = xi , Y = yj }) xi yj P ({X = xi })P ({Y = yj }) xi P ({X = xi }) s X j=1 yj P ({Y = yj }) Beispiel 8.2.3 Betrachte ein Glücksrad, aufgeteilt in 4 gleiche Sektoren. Durch einen Innenkreis entstehen 4 gleiche innere Sektoren und vier gleiche äußere Sektoren. Die Sektoren werden folgendermaßen beschriftet: 10 10 innen innen 0 0 außen außen 0 0 innen innen 20 20 außen außen Damit ist eine äußere Zufallsvariable X und eine innere Zufallsvariable Y auf einem offensichtlichen Wahrscheinlichkeitsraum definiert. Wir erhalten: E(X) = 10 , E(Y ) = 5 , E(X · Y ) = 0 . Also sind wegen E(X · Y ) 6= E(X) · E(Y ) diese Zufallsgrößen nicht unabhängig; der Wert von X bestimmt den von Y . Nimmt man stattdessen die Beschriftung 2 0 10 2 innen innen innen innen 100 50 100 50 außen außen außen außen vor, dann sind diese Zufallsgrößen unabhängig; kennt man den Wert von X, so sagt dieser Wert nichts über den Wert von Y . Es ist E(X) = 75 , E(Y ) = 6 , E(X · Y ) = 450 = E(X) · E(Y ) . Definition 8.2.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1 }) · · · P ({Xn = xn }) für alle x1 , . . . , xn ∈ R gilt. Durch vollständige Induktion beweist man Korollar 8.2.5 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn diskrete Zufallsgrößen. Sind X1 , . . . , Xn unabhängig, so existiert E(X1 · · · Xn ) und es gilt E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ). 101 Beispiel 8.2.6 Betrachten wir die folgenden Spiele: Spiel 1: Würfeln mit drei idealen Würfeln. Das Produkt der Augenzahlen wird in Cents ausgezahlt. Spiel 2: Würfeln mit drei idealen Würfeln. Das Fünffache der Augensumme wird in Cents ausgezahlt. Welches Spiel kann man bei einem Einsatz von 50 Cents pro Spiel spielen? Wir numerieren die Würfel und bezeichnen mit X1 , X2 , X3 die Zufallsgrößen der jeweils geworfenen Augenzahlen. Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Laplace–Experiment unterstellen, gelten die Identitäten P ({X1 = i, X2 = j, X3 = k}) = 1 , 1 ≤ i, j, k ≤ 6 , 216 und 1 , 1 ≤ i, j, k ≤ 6 . 216 Die Zufallgrößen sind also unabhängig. Damit gilt nach Folgerung 8.2.5 für die Gewinnerwartung: P ({X1 = i})P ({X2 = j})P ({X3 = k}) = Spiel 1: E(X1 · X2 · X3 ) = E(X1 )E(X2 )E(X3 ) = ( 72 )3 . Spiel 2: E(5(X1 + X2 + X3 )) = 5(E(X1 ) + E(X2 ) + E(X3 )) = 5 · 3 · 72 . Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 über dem Einsatz. Daher kann man das zweite Spiel mitmachen, das erste dagegen aber nicht. 8.3 Varianz Wie wir wissen, ist der Erwartungswert einer Zufallsgröße eine Maßzahl für den Schwerpunkt. Die nun einzuführende Varianz ist eine Maßzahl für die Streuung um diesen Schwerpunkt. Definition 8.3.1 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße auf Ω mit Erwartungswert E(X) . Dann ist (X − E(X))2 eine Zufallsgröße mit Erwartungswert V(X) := E((X − E(X))2 ) p V(X) heißt die Varianz von X und σX := V(X) die Streuung oder Standardabweichung von X . Bemerkung 8.3.2 Die Streuung σX einer Zufallsgröße ändert sich – dank der Wurzel, die wir über die Varianz gestülpt haben – proportional, d.h. σλX = λσX (λ > 0). Dies würde auch für die alternative Maßzahl σ̃X := E(|X − E(x)|) gelten. Vorteile von σX gegenüber σ̃X sind leichtere Berechenbarkeit und stärkere Bewertung großer Abweichungen vom Erwartungswert. In der Mathematik der Finanzinstrumente (Derivate, Optionen) ist mit dem Begriff der Volatilität der Aktienkurse die Streuung/Schwankung der Aktienkurse gemeint, wobei unterstellt wird, dass sich Aktienkurse wie ein Zufallsgröße verhalten. Hier wird der Erwartungswert meist mit µ (Drift) und mit σ (Volatilität) bezeichnet. Lemma 8.3.3 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen auf Ω mit Erwartungswerten E(X), E(Y ) und Varianzen V(X), V(Y ) . Dann gilt: 102 (a) V(X) = E(X 2 ) − E(X)2 (b) V(X + Y ) = V(X) + V(Y ), falls X, Y unabhängig sind. Beweis: Es gilt E((X − E(X))(Y − E(Y ))) = E(XY ) − E(XE(Y )) − E(Y E(X)) + E(E(X)E(Y )) = E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y ) = E(XY ) − E(X)E(Y ) Nun folgt (a) durch Anwendung auf Y := X, (b) folgt ebenfalls daraus unter Zuhilfenahme von Folgerung 8.2.2. 8.4 Die Intelligenz der Masse Wenn viele Leute gemeinsam auf das richtige Ergebnis kommen, dann nennen die Wissenschaftler das die Intelligenz der Masse. Darauf gestoßen ist vor 100 Jahren der englische Gelehrte Francis Galton und zwar als er eigentlich das Gegenteil beweisen wollte – nämlich, dass die Masse dumm ist.4 Dem oben beschriebenem Sachverhalt wollen wir nun etwas auf den Grund gehen. Aus den Eigenschaften der Varianz unabhängiger Zufallsgrößen, die einen Zufallsversuch be√ schreiben möge, folgt das so genannte n-Gesetz. Damit ist gemeint: Sei X eine Zufallsgröße. Bei n-maliger unabhängiger Wiederholung des X zugrundeliegenden Zufallsversuchs beschreibe Xi den i-ten versuch. Für die Mittelwertgröße n X := 1X Xi n i=1 gilt dann 1 σ(X) = √ σ(X) , n denn für die zugehörige Varianz gilt nämlich σ(X) = n 1 X 1 V(Xi ) = 2 nV(X) . 2 n i=1 n √ Das n-Gesetz ist in mehrfacher Hinsicht wichtig für die Theorie des Messens. Bei einer Meßreihe x1 , . . . , xn von unter denselben Bedingungen (Unabhängigkeit!) bestimmten Werten geht man davon aus, dass die Fehler nur zufällig zustande kommen. Als besten Wert für die nun zu messende Größe X nimmt man das arithmetische Mittel n 1X xi x= n i=1 4 1906 besuchte Galton die westenglische Nutztiermesse in der Nähe von Plymouth. Dort gab es einen Schätzwettbewerb: Für sechs Pence durfte man auf das Gewicht eines Ochsen wetten. Wer am nächsten dran lag, konnte gewinnen. Nachdem Galton die Schätzungen ausgewertet hatte, muss er ziemlich verblüfft gewesen sein: Der Mittelwert der 787 Einzelschätzungen wich nur um ein Pfund vom tatsächlichen Gewicht des Ochsen ab. Und – was noch erstaunlicher war – kein Einzel-Tipp (auch nicht der eines Experten) war genauer als der Mittelwert der großen Masse. 103 und als mittleren Fehler m die Standardabweichung v u n X 1 u t (x1 − x)2 . √ m= n i=1 Eine Genauigkeitsaussage x = x ± m besagt in diesem Sinne also nicht, dass x mit Sicherheit im Intervall [x − m, x + m] liegt, sondern nur mit einer gewissen Wahrscheinlichkeit. Wir quantifizieren dies nun. Satz 8.4.1 (Tschebyscheffsche Ungleichung) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und sei X eine Zufallsgröße mit Erwartungswert E(X) und Varianz V(X) . Dann gilt für jedes ǫ > 0 : P ({|X − E(X)| ≥ ǫ}) ≤ V(X)ǫ−2 (8.7) Beweis: Sei ǫ > 0. Setze Z := X − E(X) und Y (ω) := 0, ǫ2 , falls |Z(ω)| < ǫ falls |Z(ω)| ≥ ǫ (8.8) Dann ist 0 ≤ Y ≤ Z 2 und daher V(X) = E(Z 2 ) ≥ E(Y ) = ǫ2 P ({Y = ǫ2 }) = ǫ2 P ({|X − E(X)| ≥ ǫ}) . Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit, die Abschätzung darin ist ziemlich grob.5 Satz 8.4.2 (Schwaches Gesetz der großen Zahl) Seien X, X1 , . . . , Xn unabhängige Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) . Es gelte E(X) = E(Xi ) , V(X) = V(Xi ) ≤ M < ∞ , 1 ≤ i ≤ n . Dann gilt für alle ǫ > 0 : M 1 P ({| (X1 + · · · + Xn ) − E(X)| ≥ ǫ}) ≤ 2 n ǫ n (8.9) Beweis: 1 (X + · · · + X ). Dann ist E(Z) = E(X) und Sei Z := n 1 n V(Z) = n−2 V(X1 + · · · + Xn ) = n−2 (V(X1 ) + · · · + V(Xn )) ≤ Nun wende man die Tschebyscheffsche Ungleichung an. M . n Durch das schwache Gesetz der großen Zahl6 können wir nun verstehen, weshalb die relative Häufigkeit unter Umständen eine gute Approximation für Wahrscheinlichkeiten ist. 5 Sie wurde erstmals von Bienaymé 1853 aufgestellt, unabhängig davon fand sie P. Tschebyscheff 1867 und verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl. 6 Eine erste Version dieses zentralen Grenzwertsatzes hat A. de Moivre bewiesen. 104 8.5 Anhang: Spezielle Verteilungen Zunächst eine Bezeichnung: Ist S ⊂ T, so heißt die Abbildung χS : T −→ R mit 1 , falls x ∈ S χS (x) := 0 , sonst die charakteristische Funktion von S. Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ R eine diskrete Zufallsgröße mit Wertebereich WX . Wir unterscheiden: Diskrete Verteilung Bildbereich: Parameter der Verteilung: WX = {w1 , . . . , wn } n = #WX 1 χ (x) , x ∈ R . PX,x = P ({X = x}) = n WX Für den Spezialfall WX = {1, . . . , n} erhalten wir: 1 Erwartungswert: E(X) = n + 2 2 −1 Varianz: V(X) = n 12 Verteilung: Der Beweis zu den Formeln für E(X) und V(X) ist einfach: n E(X) = 1 n(n + 1) n+1 1X i= = n n 2 2 i=1 V(X) = n n 1X 1X 2 n+1 2 n + 1 2 n2 − 1 ) = ) = (i − i −( n 2 n 2 12 i=1 i=1 Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt; siehe Laplace– Wahrscheinlichkeit und Beispiel ??. Bernoulli–Verteilung Bildbereich: Parameter der Verteilung: Verteilung: WX = {0, 1} p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“) PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ R . Erwartungswert: E(X) = p Varianz: V(X) = p(1 − p) Der Beweis zu den Formeln für E(X) und V(X) ist einfach: E(X) = 1p + 0(1 − p) = p , V(X) = 12 p + 02 (1 − p) − p2 = p(1 − p) . Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der Münzwurf (p = 12 ) kann als Beispiel dafür dienen. Beispiel 8.5.1 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Wir wiederholen dieses Experiment n−mal unabhängig und setzen für ein Ereignis A ⊂ Ω 1 , falls ω ∈ A ,1 ≤ i ≤ n. Xi (ω) := 0 , sonst 105 Dann ist 1 E(Xi ) = p , V(Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n, 4 1 (X + · · · + X ) ist die relative Häufigkeit der Erfolge. Also ist und hn := n 1 n P ({|hn − p| ≥ ǫ} ≤ 1 4ǫ2 n Für großes n ist also die Wahrscheinlichkeit dafür, dass die relative Häufigkeit der Erfolge sich mehr als ǫ von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schlüssel dafür, abwägen zu können, ob ein Glückspiel mit Einsatz und Auszahlung vorteilhaft ist. Binomial–Verteilung Bildbereich: WX = {0, 1, . . . , n} Parameter der Verteilung: n, p Verteilung: x n−x PX,x = n χWX (x) , x ∈ R . x p (1 − p) E(X) = np Erwartungswert: Varianz: V(X) = np(1 − p) Der Beweis zu den Formeln für E(X) und V(X) ist nun schon etwas “trickreich“: n n X X n i n i n−i i p (1 − p)n−i i p (1 − p) = E(X) = i i i=1 i=0 n n X X n−1 i n − 1 i−1 n−i n p (1 − p) = np = p (1 − p)(n−1)−(i−1) i−1 i−1 i=1 i=1 n−1 X n−1 = np pj (1 − p)(n−1)−j = np(p + (1 − p))n−1 = np j j=0 Der Nachweis für die Formel für V(X) gelingt mit vergleichbaren Rechenschritten. Beispiel 8.5.2 Ein Versuch bestehe aus der n–maligen Durchführung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann adäquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabhängig voneinander durchgeführt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die erfolgreichen Ausgänge unter den n Experimenten werden gezählt durch die Zufallsgröße X : Ω ∋ (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ R . Damit haben wir n x P ({X = x}) = p (1 − p)n−x , x ∈ {0, . . . , n} , x und X ist also binomialverteilt. Nach diesem Beispiel sehen wir auch einen anderen Weg, die Varianz einer Binomial–Verteilung zu berechnen: Wir fassen die Zufallsgröße X als Summe von Zufallsgrößen X1 , . . . , Xn auf, die unabhängig und einzeln nach Bernoulli verteilt sind. Also V(X) = V(X1 ) + · · · + V(Xn ) = np(1 − p) . 106 Geometrische Verteilung Bildbereich: WX = N0 Parameter der Verteilung: p ∈ (0, 1] PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ R . 1−p E(X) = p 1−p V(X) = p2 Verteilung: Erwartungswert: Varianz: Der Nachweis für die Formeln für E(X) und V(X) gelingt bei Verwendung der Formeln ∞ X jq j = j=0 ∞ X q q + q2 2 j j q = , , (1 − q)2 (1 − q)3 j=0 welche für q ∈ [0, 1) gültig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: Für N ∈ N gilt N X jq j ) · (1 − q)2 = q − 2N q N +1 + N q N +2 ( j=0 und Grenzübergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈N gegen 0 konvergiert, wenn |q| < 1 ist. Dies sieht man nun so: p √ Es ist |q| < 1 . Wegen lim n n = 1 (siehe Lemma 5.5.1) gibt es N ∈ N mit n∈N 1≤ Also gilt für alle n ≥ N √ n 1 n ≤ p für alle n ≥ N . |q| p √ 1 |nq n | = | n nq|n ≤ ( p |q|)n = ( |q|)n . |q| Die Aussage folgt nun aus der Tatsache, daß lim n∈N p |q| n = 0 gilt. Interessiert man sich für die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg eintritt, dann beschreibt die Zufallsgröße X mit der Verteilung PX,x = P ({X = x}) = p(1 − p)x χN0 (x) , x ∈ R , die Anzahl der Abbrüche bis zur ersten erfolgreichen Durchführung. Hypergeometrische Verteilung Bildbereich: Parameter der Verteilung: Verteilung: WX = {0, 1, . . . , n} n<N. n, M, N, p := M N mit M< N, M N −M x n− x PX,x = P ({X = x}) = χWX (x) , x ∈ R . N n (Konvention ji = 0 für j < 0 oder j > i ) Erwartungswert: E(X) = np Varianz: −n V(X) = np(1 − p) N N −1 107 Zur Berechnung von E(X) eine Vorbemerkung. Man beweist für (zulässige) p, q, r ∈ N die Formel r X p q p+q = (8.10) k r−k r k=0 Damit gelingt nun die Berechnung des Erwartungswertes wie folgt: −1 X −1 X n n M M N −M N −M N N x k E(X) = = x k n−x n−k n n x=0 k=1 −1 X −1 X n n−1 M −1 N −M N N M −1 N −M M = =M k−1 n n−k n j n−1−j j=0 k=1 −1 N M −1+N −M M n. = M = n N n−1 Die Berechnung der Formel für V(X) erfolgt auf ähnlichem Wege. Beispiel 8.5.3 Zur Herleitung einer Zufallsgröße, die hypergeometrisch verteilt ist, gehen wir von einer für diese Verteilung typischen Situation (Qualitätskontrolle) aus: Ein Warenposten umfasst N Teile, unter denen sich M Ausschussteile befinden. Wir entnehmen diesem Warenposten nacheinander und ohne Zurücklegen – es möge etwa eine Beschädigung“ durch die Entnahme nicht auszuschließen sein – n Teile und ” interessieren uns für die Wahrscheinlichkeitsverteilung derjenigen Zufallsgröße X, die die Anzahl der Ausschussteile in einer solchen Stichprobe angibt. Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens. Jedes EleN mentarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit n . Das Ereignis {X = x} tritt ein, wenn man x–mal eindefektes Teil und (N − x)–mal ein fehlerfreies Teil N −M entnimmt. Für die erste Wahl gibt es M Möglichkeiten. x , für die zweite Wahl gibt es n−x Damit wird M N −M x n−x , P ({X = x}) = N n falls x zum Wertebereich der Zufallsgröße gehört. Die Zufallsgröße hat also eine hypergeometrische Verteilung. Poisson–Verteilung Bildbereich: WX = N0 Parameter der Verteilung: λ Verteilung: PX,x = P ({X = x}) = Erwartungswert: E(X) = λ Varianz: V(X) = λ exp(−λ)λx χWX (x) , x ∈ R . x! Der Nachweis der Formel für den Erwartungswert ist einfach: E(X) = ∞ X ∞ k exp(−λ) k=1 k=0 = λ exp(−λ) X λk λk = exp(−λ) k! (k − 1)! ∞ X λk k=0 k! 108 = λ exp(−λ) exp(λ) = λ . Der Nachweis der Formel für die Varianz erfolgt mit ähnlichen Rechenschritten. Die Verteilung geht auf S.D. Poisson7 zurück. Stichworte können sein: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem Rechnerserver eintreffen, . . . . Beachte, dass es keine Verteilung im Rahmen unserer Darstellung ist, da sie abzählbar viele Werte annimmt. Wir begründen ihre Wichtigkeit noch als Grenzwert der Binomialverteilung. Beispiel 8.5.4 Die Wahrscheinlichkeit, dass eine mit einem bestimmten Serum geimpfte Person die Impfung nicht verträgt, sei p := 10−3 . Insgesamt werden 2 000 Personen mit diesem Serum geimpft. Die binomialverteilte Zufallsvariable X beschreibe dabei die Anzahl derjenigen geimpften Personen, die die Impfung nicht vertragen. Dabei ist n = 2 000 sehr groß und der Parameter p = 10−3 sehr klein. Bemerkung 8.5.5 In der Statistik begegnet man der Aufgabe, aus Daten auf die Art der Verteilung zu schließen. Hier deuten wir dies an folgendem Beispiel an.8 Die Spalte der errechneten Werte kommt so zustande: Aus den Beobachtungen errechnet sich ein Mittelwert“ ” (0 · 109 + 1 · 65 + 2 · 22 + 3 · 3 + 4 · 1) = 0.61 x̄ = 200 Nimmt man λ = x̄ – beachte, dass der Erwartungswert einer hypergeometrischen Verteilung mit Verteilungsparameter λ sich als λ ergibt – in der hypergeometrischen Verteilung, dann erhält man die Spalte der errechneten Werte (gerundet). Die Annahme, dass eine hypergeometrische Verteilung den Daten zugrundeliegt, scheint also gerechtfertigt. Von den gängigen und wichtigen Verteilungen fehlt uns noch die Normalverteilung. Sie ist allerdings eine Verteilung, die mit einer Zufallsgröße X, die nicht diskret ist, zusammenhängt. Tabelle: Tote durch Hufschlag in 10 preußischen Kavallerieregimentern während 20 Jahren Anzahl von Jahren mit x Toten pro Regiment pro Jahr Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enthält die Parameter p und n. Wir haben auch schon gesehen, dass man bei einem Grenzübergang n → ∞, p → 0, pn = λ , die Poissonverteilung erhält. Macht man nun den Grenzübergang n → ∞ bei festem p, so erhält man als Näherung für die Binominalverteilung die Normalverteilung in folgendem Sinne: P ({X = k}) ≈ p 1 2πnp(1 − p) exp(− x (k − np2 ) ) 2np(1 − p) 0 1 2 3 4 ≥5 Beobachtet Errechnet 109 65 22 3 1 0 109 66 20 4 1 0 Diese Näherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis betrachtet man die Näherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt. 7 8 Poisson, Simeon D. (1781 — 1840) Entnommen aus: E. Kreyszig [?]. 109 8.6 1.) Übungen Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen Augenzahlen, also Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} . 1≤j≤n Zeige: limn E(xn ) = 6 . 2.) Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige: E(X) = n X j=0 p(X ≥ j) . 3.) Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen Augenzahlen ist 161 36 . Sei Y die Zufallsgröse, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt. Bestimme den Erwartungswert von Y mit der vorhergehenden Aufgabe. 4.) Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5 (S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her. 110