INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Einführung Wahrscheinlichkeitsrechnung für Lehrer Technische Universität Berlin Fakultät II – Mathematik und Naturwissenschaften Institut für Mathematik Dr. G. Penn-Karras Abbildungen von A. Gündel-vom Hofe 4 1.1 Das Problem von Pacioli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung . . . . . . . . . . . . 10 1.3 Zufallsexperimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2 Grundbegriffe der Zähltechnik 5 16 2.1 Kombinatorische Grundüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3 Von Pascal bis Kolmogorow - Axiomatisierung 32 (nach einer Vorlage von Prof. G. Leßner) Stand: 29. März 2007 f 3.1 Historische Entwicklung des Wahrscheinlichkeitsbegriffs . . . . . . . . . . . . . . 32 3.2 Das Axiomensystem von Kolmogorow . . . . . . . . . . . . . . . . . . . . . . . . 35 3.3 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4 Bertrands Paradoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.5 Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4 Folgerungen aus den Axiomen F(x) f(x) µ x R 43 4.1 Der Satz von Sylvester . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4.2 Anwendungen des Satzes von Sylvester . . . . . . . . . . . . . . . . . . . . . . . 46 4.3 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4 Der Multiplikationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.5 Totale Wahrscheinlichkeit, Satz von Bayes . . . . . . . . . . . . . . . . . . . . . 54 5 Unabhängigkeit und Produkträume 59 5.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.2 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.3 Vermischte Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 6 Diskrete Zufallsgrößen 67 6.1 Zufallsgrößen und Wahrscheinlichkeitsfunktionen . . . . . . . . . . . . . . . . . . 67 6.2 Erwartungswert, Varianz und Streuung . . . . . . . . . . . . . . . . . . . . . . . 70 6.3 Die Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.4 Ergänzungen und Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2 INHALTSVERZEICHNIS 7 Die Binomialverteilung 80 8 Weitere diskrete Verteilungen 87 8.1 Die geometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 8.2 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 87 8.3 Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 8.4 Die Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 9 Stetige Zufallsgrößen 98 9.1 Die Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 9.2 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 9.3 Momente höherer Ordnung, Varianz und Schiefe . . . . . . . . . . . . . . . . . . 105 9.4 Die Ungleichung von Tschebyschew . . . . . . . . . . . . . . . . . . . . . . . . . 109 10 Die Normalverteilung 112 10.1 Einführung der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3 INHALTSVERZEICHNIS 13.5 Irrfahrten auf einer Geraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 14 Stichproben und ihre Parameter 167 15 Einfache Entscheidungsverfahren 174 15.1 Das Testen einer Hypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 15.2 Der exakte Test von Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 15.3 Der Vorzeichentest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 15.4 Weitere Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 16 Punktschätzung von Parametern 183 16.1 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . 183 16.2 Ein Beispiel: Schätzung eines Populationsumfangs . . . . . . . . . . . . . . . . 187 16.3 Das Maximum–Likelihood–Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . 194 17 Konfidenzintervalle 200 17.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 10.2 Die standardisierte Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 115 17.2 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 10.3 Die Grenzwertsätze von de Moivre und Laplace . . . . . . . . . . . . . . . . . . 116 17.3 Schätzung des Erwartungswertes einer Normalverteilung . . . . . . . . . . . . . 204 10.4 Anwendungen der Normalapproximation . . . . . . . . . . . . . . . . . . . . . . 121 18 Regression und Korrelation 11 Verteilungen von Zufallsvektoren 211 123 18.1 Regressionsgeraden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.1 Diskrete zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 124 18.2 Rangkorrelation und Vierfelderkorrelation . . . . . . . . . . . . . . . . . . . . . 217 11.2 Stetige zweidimensionale Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 128 A Übersichten 12 Weitere Eigenschaften von Zufallsvektoren 220 136 A.1 Kombinatorische Grundformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 12.1 Unabhängige Zufallsgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 A.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 12.2 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 A.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 12.3 Kovarianz und Korrelation zweier Zufallsgrößen . . . . . . . . . . . . . . . . . . 142 12.4 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 B Tabellen 224 B.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 13 Homogene Markowketten B.1.1 p ≤ 0, 15 bzw. p ≥ 0, 85 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 148 13.1 Eigenschaften von Markowketten . . . . . . . . . . . . . . . . . . . . . . . . . . 148 B.1.2 0, 2 ≤ p ≤ 0, 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 13.2 Stochastische Matrizen und gerichtete Graphen . . . . . . . . . . . . . . . . . . 150 B.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 13.3 Die Pfadregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 13.4 Die Mittelwertregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 Index 238 4 1 1 EINFÜHRUNG Einführung 1.1 Das Problem von Pacioli 5 bewusst etwas leichtere Brötchen her. Als sich eines Tages eine Kontrolle ansagte, las er rasch noch die ganz leichten aus. Wie hätte man den Betrug aufdecken können? Probleme der Wahrscheinlichkeitsrechnung erfordern Denkstrategien, die sich von den Vorgehensweisen in der Geometrie, der Algebra und der Analysis, um nur einige bekanntere Disziplinen zu nennen, wesentlich unterscheiden. Betrachten wir einige Beispiele. Beispiel 1.1: Ein Test besteht aus 10 Fragen. Zu jeder Frage sind 3 Antworten zur Auswahl gegeben, von denen genau eine richtig ist. Bei 7 oder mehr richtigen Antworten ist der Test bestanden. Ein ahnungsloser“ Prüfling kennt genau zwei richtige Antworten; bei den übrigen acht Fragen ” wählt er blindlings aus. Mit wieviel Prozent Sicherheit kann er erwarten, den Test zu bestehen? Beispiel 1.2: Der Vater verspricht seinem Sohn: Du erhältst einen Schachcomputer, wenn Du von 3 Schachpartien, die Du abwechselnd gegen deine Mutter und gegen mich spielst, zwei aufeinanderfolgende gewinnst. Der Vater spielt besser als die Mutter. Gegen wen soll der Sohn zuerst spielen? Beispiel 1.3: In einer Urne befinden sich 50 Kugeln: 49 schwarze und eine weiße. Zwei Personen ziehen abwechselnd nacheinander ohne Zurücklegen eine Kugel. Wer zuerst die weiße Kugel zieht, hat gewonnen. Würden Sie lieber als Erster oder als Zweiter ziehen wollen? Beispiel 1.4: Ein Labyrinth wird nacheinander von einzelnen Mäusen durchlaufen (Abb. 1.1). Jede Maus startet bei E1 und wird in der Falle E5 gefangen. E4 E5 E1 E3 E2 Abb. 1.1 In jedem Knotenpunkt wählt sie rein zufällig“ eine der Röhren zur Fortsetzung ihrer Wande” rung aus. Wieviele Röhren werden vor dem Erreichen der Falle im Durchschnitt durchlaufen? Beispiel 1.5: Noch vor einigen Jahren mussten die Brötchen im Durchschnitt 50 g wiegen. Ein Bäcker stellte Beispiel 1.6: Zwei Spieler spielen mit einem Würfel Schrumm“. Dabei wirft ein Spieler eine Serie von ” Würfen, und die erzielte Augensumme wird ihm gutgeschrieben, sofern die Serie keine 6 enthält. Einem Spieler, der eine 6 wirft, wird nichts gutgeschrieben, und er muss den Würfel an den Gegner abgeben. Wer Augen angeschrieben haben will, muss daher seine Serie abbrechen und den Partner werfen lassen, ehe eine 6 erscheint. Mit welcher Strategie soll man spielen? Beispiel 1.7: 5 % aller Dahlienknollen einer bestimmten Sorte treiben nicht. Jemand kauft 100 Knollen. Ihm wird versichert, dass 90 % seiner Pflanzen angehen“. ” Inwieweit ist auf diese Versicherung Verlass? 1.1 Das Problem von Pacioli Schon im Altertum traten elementar zu lösende mathematische Probleme auf, die zur Wahrscheinlichkeitstheorie gerechnet werden können. Damals wurden auch die ersten statistischen Daten bei Volkszählungen in Ägypten, Griechenland und im Römischen Reich (Herodes) gesammelt. Eine intensivere Beschäftigung mit statistischen Daten begann jedoch erst mit dem aufkommenden weltweiten Handel. So wurden im 14. Jahrhundert die ersten Schiffsversicherungen in Italien und Holland eingerichtet. Sie versicherten Güter, die auf dem Seeweg transportiert werden sollten, mit Prämien von 12–15 % des Gutwertes. Versicherungen für den Landtransport verlangten damals 6–8 % des Gutwertes. Außer durch solche statistischen Daten, die wir grob als Wahrscheinlichkeiten für Güterverlust“ ” charakterisieren können, wurde die Entwicklung der Wahrscheinlichkeitstheorie durch Gewinnund Verlustuntersuchungen von Spielen angeregt. Einen großen Entwicklungsimpuls erhielt die Wahrscheinlichkeitsrechnung, als sich der Chevalier de Méré, ein leidenschaftlicher Spieler zur Zeit Ludwigs des XIV., bei seinem Freund Blaise Pascal über die Mathematik beklagte. Man spielte damals ein Würfelspiel, bei dem man vom Bankhalter das Doppelte seines Einsatzes erhielt, wenn man bei 4 Würfen in Reihenfolge keine 6 warf. Wir wollen uns davon überzeugen, dass sich das Spiel für die Bank lohnt. Bei jedem Wurf sind die Zahlen 1, 2, 3, 4 oder 5 für den Spieler günstig. Wirft er zweimal, so sind für ihn die Möglichkeiten (1, 1), (1, 2), (2, 1), . . . , (5, 5) günstig, und das sind 5 · 5 = 25 Zahlenpaare. Bei 4 Würfen mit einem Würfel gewinnt der Spieler daher, wenn er eines der 5 · 5 · 5 · 5 = 625 Viertupel wirft, die keine 6 enthalten. Nun kann man aber 6 ·6 ·6 ·6 = 1296 verschiedene Viertupel erzielen, also sind 1296− 625 = 671 für die Bank günstig, und diese gewinnt auf lange Sicht. Heutzutage beschreibt man diese Situation wie folgt: Die Wahrscheinlichkeit, dass der Spieler gewinnt, ist bei diesem Spiel 5 4 1 625 = ≈ 0, 482 < , 1296 6 2 6 1 EINFÜHRUNG die Wahrscheinlichkeit, dass die Bank gewinnt, 5 4 671 1 =1− ≈ 0, 518 > . 1296 6 2 De Méré wollte das Spiel folgendermaßen variieren: Die Spieler sollten gewinnen, wenn sie in 24 Würfen mit 2 Würfeln keine Doppelsechs erzielten. Die Anzahl 24 ergibt sich hierbei wie folgt: Bei einem Würfel gibt es sechs mögliche Ergebnisse, die Anzahl der Würfe ist 4. Bei 2 Würfeln gibt es 6 · 6 = 36 mögliche Ergebnisse, also muss man, um auf dasselbe Verhältnis zu kommen, 24 Würfe zulassen. Es zeigte sich jedoch bald, dass die Bank dabei Verluste machte. De Méré war damit unzufrieden und wandte sich mit seinem Unmut über die Widersprüche in der Mathematik an Pascal. Dieser beurteilte das Problem folgendermaßen: Bei jedem Wurf gibt es 35 für den Spieler günstige von insgesamt 36 Möglichkeiten. Bei 24 Würfen verhält sich daher die Anzahl der günstigen Chancen zur Anzahl der möglichen wie 35 24 1 3524 = ≈ 0, 509 > . 3624 36 2 Bei genügend vielen Spielen wird daher der Spieler gewinnen und die Bank verlieren. Ein anderes Problem beschreibt Pacioli in seinem 1494 in Venedig erschienen Werk Summa ” de Arithmetica, Geometria, Proportioni et Proportionalità“: Beispiel 1.8: (Problem von Pacioli) Zwei gleichwertige Mannschaften spielen Ball um einen Preis von 22 Dukaten. Sieger ist, wer zuerst 60 Punkte errungen hat. Durch besondere Umstände kann das Spiel nicht zuende geführt werden. Wie ist das Preisgeld gerecht zu verteilen, wenn bis zu diesem Zeitpunkt die eine Seite 50 Punkte, die andere 30 erhalten hat? Pacioli teilte das Preisgeld im Verhältnis 50 : 30 der bisher gewonnenen Punkte auf, vergab 50 30 also 80 · 22 = 13, 75 bzw. 80 · 22 = 8, 25 Dukaten. Schon Tartaglia bemerkte, dass an Paciolis Lösung etwas nicht stimmen kann. In seinem 1556 in Venedig veröffentlichten Werk Trattato generale di numeri e misure“ griff er deshalb ” das Problem nochmals auf. Er kritisierte Paciolis Lösung mit folgendem Hinweis: Hätte beim Spielabbruch eine Partei 10 Punkte und die andere 0, so erhielte die erstere alles und die letztere nichts, was offensichtlich unsinnig sei, da bei diesem Stande beide Parteien fast die gleiche Gewinnchance besitzen. Die von Tartaglia vorgeschlagene Lösung des Problems geht davon aus, dass jeder Partei im Grunde die Hälfte des Gewinns, also 11 Dukaten zustehen (allerdings verwendete Tartaglia andere Werte; wir haben seine Zahlen denen von Pacioli angepasst). Wir betrachten exemplarisch zwei Zahlenbeispiele: 10 = 16 der der anderen (a) Hat eine Partei 10 Punkte und die andere 0, so erhält sie zusätzlich 60 11 Partei zustehenden Dukaten, also insgesamt 11 + 6 = 12, 83 Dukaten. Die andere Partei = 9, 16 Dukaten. erhält 11 − 11 6 7 1.1 Das Problem von Pacioli (b) Hat eine Partei 50 Punkte und die andere 30, so hat sie 20 Punkte mehr errungen und = 13 von den 11 Dukaten der Gegenseite dazu, also insgesamt 11 + 11 = 14, 6 erhält 20 60 3 Dukaten. Die andere Partei erhält 11 − 11 = 7, 3 Dukaten. 3 Aufgabe 1.1: Beurteilen Sie die Vorschläge von Pacioli und Tartaglia. Pacioli und Tartaglia versuchten, ein natürliches Gerechtigkeitsgefühl quantitativ zu beschreiben. Sie besaßen aber dafür keinen Kalkül. Sie hätten auch so verteilen können: Da der ersten Mannschaft 10 Punkte und der zweiten 30 zum Gewinn fehlen, verteilen wir das Preisgeld im Verhältnis 30:10, zahlen also 16, 5 und 5, 5 Dukaten aus. De Méré hatte Pascal auch auf dieses Problem aufmerksam gemacht, und Pascal korrespondierte über dieses und andere Probleme seit 1654 mit Fermat. Viele Historiker bezeichnen diesen Zeitpunkt als die eigentliche Geburtsstunde der Wahrscheinlichkeitsrechnung. Pascal schlug vor, Preisgelder bei abgebrochenen Spielen nicht nach der Anzahl der bereits erzielten Punkte zu verteilen, sondern nach den Gewinnwahrscheinlichkeiten bei Fortsetzung des Spiels. Dieser Vorschlag war nicht neu. Ihn hatte schon Cardano in seiner Kritik an der Paciolischen Lösung gemacht, welche er 1539 in seiner Practica arithmeticae generalis“ ” veröffentlichte. Nur hatte Cardano keinen Lösungsweg gefunden. Wir wollen zuerst eine von Fermat entwickelte Methode angeben. Sie bezieht sich auf ein Glücksspiel, in dem beide Parteien für jedes Spiel dieselben Chancen besitzen, und in dem die Partei A zum Sieg noch 2 Spiele und die Partei B noch 3 Spiele benötigt: Der Wettkampf kann bei diesem Stand noch höchstens 4 Spiele dauern. Welches sind die möglichen Ergebnisse? Bezeichnen wir einen Gewinn von A mit + und eine Gewinn mit B mit −, so ergeben sich 16 Möglichkeiten: 1 2 + + + + + + + − 3 4 5 6 + + − + + − + + − + + − + + + − 7 8 9 + − + − + − + + − − − + 10 − + − + 11 12 13 − − − − − − + − + + + − 14 15 16 − + − + − − − − − − − − In den Fällen 1 bis 11 gewinnt A, in den restlichen 5 Fällen B. Daher sollen nach Fermat 5 der Einsätze an A und 16 an B verteilt werden. 11 16 Zu dieser Zeit hatte Pascal bereits das Manuskript zu seiner berühmten Arbeit Traité du ” triangle arithmétique“ fertiggestellt, in der er das später nach ihm benannte Pascalsche Dreieck entwickelte und auf Probleme der Wahrscheinlichkeitsrechnung anwendete. Ohne den Bezug zur Wahrscheinlichkeitsrechnung findet sich das Schema schon 1556 bei Tartaglia. Erinnern wir uns: Das Pascalsche Dreieck ist eine Tabelle der Binomialkoeffizienten, d.h. der 8 1 EINFÜHRUNG Koeffizienten der Entwicklungen von (a + b)n , n = 0, 1, 2, . . . : (a + b)0 (a + b)1 (a + b)2 (a + b)3 (a + b)4 (a + b)5 (a + b)6 1 ... ... 1 1 1 3 1 1 6 ... ... 2 4 Für A sind diejenigen Spielfolgen günstig, in denen B höchstens zweimal gewinnt, das sind 4 4 4 + + = 1 + 4 + 6 = 11 . 0 1 2 1 3 1 6 4 1 5 10 10 5 ... 15 ... ... 20 ... ... 15 ... ... 1 6 ... ... 1 ... Allgemein gilt die binomische Formel n 0 n n n n−2 2 n n−1 1 n n 0 ab , a1 bn−1 + a b + ... + a b + a b + (a + b)n = n n−1 2 1 0 wobei die Binomialkoeffizienten folgendermaßen erklärt sind: Definition 1.1: (Binomialkoeffizienten) Für n, k ∈ N0 ist der Binomialkoeffizient nk (sprich n über k“) erklärt durch ” ( n! für k ≤ n n · (n − 1) · . . . · (n − k + 1) n k!(n−k)! = = . k k! 0 für k > n Speziell erhält man durch Einsetzen von a = b = 1 in die binomische Formel n n n n n . + + ... + + + (1 + 1)n = 2n = n n−1 2 1 0 In typischer Binomialkoeffizientenschreibweise lautet das Dreieck 0 0 1 1 0 1 2 2 2 0 1 2 3 3 3 3 0 1 2 3 4 4 4 4 4 0 ... ... 1 ... ... 2 ... ... 3 ... ... 9 A benötigt noch 2 Spiele zum Sieg, B noch 3 Spiele. Nach 2 + 3 − 1 = 4 Spielen ist der Wettkampf also spätestens entschieden. Wir gehen in die 4. Zeile des Dreiecks und finden die Zahlen 40 , 41 , 42 , 43 , 44 . 1 1 1.1 Das Problem von Pacioli 4 ... Addiert man zwei nebeneinanderstehende Koeffizienten, so erhält man den direkt unter beiden befindlichen Koeffizienten, denn es gilt n+1 n n . = + k+1 k+1 k Pascal löste das oben gestellte Problem mit Hilfe seines Dreiecks. Wir wollen seine Lösung vorläufig nur nachvollziehen, eine Begründung der Vorgehensweise ergibt sich aus Kapitel 7. Für B sind die übrigen Spielfolgen günstig: 4 4 + = 4+1 = 5 . 3 4 Damit kommt Pascal zu derselben Aufteilung des Gewinnes wie Fermat. Aufgabe 1.2: Zwei Spieler spielen um Geld. Sie werfen eine Münze. Erscheint Zahl, erhält A einen Punkt, erscheint Kopf, erhält B einen Punkt. Wer zuerst 10 Punkte erreicht, hat gewonnen. Beim Stand von 7:6 für A müssen sie das Spiel durch eine Störung abbrechen. Wie ist das Preisgeld (a) nach Pacioli zu verteilen? (b) nach Tartaglia zu verteilen? (c) zu verteilen, wenn man proportional nach der Anzahl der von beiden Spielern noch zu erzielenden Punkte aufteilt? (d) nach Pascal und Fermat zu verteilen? Aufgabe 1.3: Kann man das Problem des Pacioli mit der Methode von Pascal entscheiden? Aufgabe 1.4: Man beweise: n n n+1 + = gilt für k, n ∈ N0 . k k+1 k+1 n X n k n−k a b gilt für alle n ∈ N0 und a, b ∈ R. (b) (a + b)n = k k=0 (a) Pacioli und Tartaglia scheiterten, weil sie weder eine vernünftige Vorstellung vom Wahrscheinlichkeitsbegriff besaßen, noch über geeignete Abzählverfahren verfügten. Damit uns nicht ähnliche Fehler unterlaufen, wollen wir uns jetzt anhand eines Spezialfalles mit einigen Grundbegriffen der Wahrscheinlichkeitsrechnung vertraut machen. 10 1.2 1 EINFÜHRUNG Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung In der Umgangssprache wird das Wort wahrscheinlich“ oft so benutzt, dass sein Sinn mathe” matisch nicht beschrieben werden kann. Betrachten wir folgende Aussagen: (a) Es regnet; wahrscheinlich kommt Christoph wieder völlig durchnässt nach Hause. (b) Von 3 Millionen Menschen, die mit dem Auto in den Urlaub fahren, werden wahrscheinlich mehr als 100 verunglücken. 1.2 Grundbegriffe der klassischen Wahrscheinlichkeitsrechnung Definition 1.2: (Klassische Wahrscheinlichkeit) Ω sei eine endliche Menge gleichmöglicher“ Ergebnisse und A ⊆ Ω. ” Die klassische Wahrscheinlichkeit für das Eintreten des Ereignisses A ist der Quotient aus der Anzahl |A| der für das Ereignis günstigen Ergebnisse und der Anzahl |Ω| der möglichen Ergebnisse: P (A) = (c) Wenn man eine Münze 100–mal wirft, wird wahrscheinlich mehr als 30–mal Zahl erscheinen. (d) Wahrscheinlich werden die Italiener in diesem Jahr keine Regierungskrise mehr bekommen. Mathematische Maße für die Wahrscheinlichkeit von Ereignissen kann man gewinnen, wenn man einen Versuch beliebig oft wiederholen kann (wie das Werfen einer Münze) oder wenn man eine genügende Anzahl von beobachteten Daten zur Verfügung hat (Unfallstatistik). Hilfreich sind auch Symmetriebetrachtungen. Der Grad der Gewissheit subjektiver Meinungen lässt sich durch die mathematische Wahrscheinlichkeit nicht messen (Aussagen (a) und (d)). Pascal und Fermat begründeten die klassische Wahrscheinlichkeitsrechnung. Dabei handelt es sich um die Beschreibung von Experimenten, deren Ergebnisse gleichmöglich“ ” sind. Die Feststellung der Gleichmöglichkeit erfolgte damals durch Symmetriebetrachtungen. Beim Werfen einer Münze oder eines Würfels kann man aus Gründen der Kongruenz der Seitenflächen und der Homogenität des Materials erwarten, dass kein Ergebnis gegenüber dem anderen bevorzugt eintritt. Entsprechend sind die 36 geordneten Paare, die man beim Werfen mit 2 Würfeln erzielen kann, gleichmöglich. Wir nennen die Menge der möglichen Ergebnisse eines Experiments Stichprobenraum Ω. Ein Ergebnis ω ∈ Ω ist also ein Element des Stichprobenraums. 11 |A| . |Ω| Diese Festsetzung der Wahrscheinlichkeit stammt von Jakob Bernoulli und Laplace. Mit ihr arbeiteten aber auch schon Pascal und Fermat, allerdings ohne sich auf eine Definition berufen zu können. Die klassische Wahrscheinlichkeit für das Eintreten eines Ereignisses A ist eine rationale Zahl |A| zwischen 0 und 1. Ferner gilt: P (∅) = 0 und P (Ω) = 1 . Ω nennen wir das sichere Ereignis. Es tritt immer ein, weil jedes mögliche Ergebnis zu Ω gehört. Die leere Menge ∅ bezeichnen wir als unmögliches Ereignis. Es tritt niemals ein, da die leere Menge kein Ergebnis enthalten kann. Tritt ein Ereignis nicht ein (z.B. keine gerade Zahl beim Würfeln), dann tritt das Gegenereignis oder komplementäre Ereignis ein: AC = Ω \A . Aufgabe 1.5: Der Stichprobenraum für den Münzwurf ist {Z, K}, Z = Zahl, K = Kopf; der für das Würfeln mit einem Würfel {1, . . . , 6}, der für das Würfeln mit zwei Würfeln {(1/1), (1/2), . . . , (6/6)}. Zeigen Sie, dass für die klassische Wahrscheinlichkeit von AC gilt P (AC ) = 1 − P (A). Gewisse Teilmengen des Stichprobenraums nennen wir Ereignisse. Beispielsweise verstehen wir unter dem Ereignis Wurf einer zusammengesetzten Zahl“ beim Würfeln mit einem Würfel ” die Menge {4, 6}. Bemerkung 1.1: Ein Ereignis, das nur aus einem einzigen Ergebnis besteht, heißt Elementarereignis. So ist z.B. das Ereignis, beim Würfeln mit einem Würfel eine 4 zu erhalten, das Elementarereignis {4}. Es ist wichtig, zwischen Ergebnissen und Elementarereignissen zu unterscheiden! Jedes Ereignis A besitzt |A| Elemente; hierbei ist 0 ≤ |A| ≤ |Ω|. Man sagt, ein Ereignis A tritt ein, wenn eines seiner |A| Elemente als Versuchsergebnis erscheint. Unter den |Ω| möglichen Ergebnissen sind also |A| für den Eintritt des Ereignisses A günstige, d.h. günstig ist vom Gan, und dieser ist um so größer, je mehr Elemente von Ω die Menge A enthält. zen der Bruchteil |A| |Ω| Fassen wir unsere Überlegungen in einem Begriff zusammen. Ein Stichprobenraum Ω, der aus gleichmöglichen“ Ergebnissen besteht, ist der einfachste Spe” zialfall eines Wahrscheinlichkeitsraumes. Bevor mit der klassischen Wahrscheinlichkeit gearbeitet wird, muss immer geprüft werden, ob die Annahme der Gleichmöglichkeit“ der Ergebnisse ” gerechtfertigt ist. Es ist aber - auch bei endlichem Stichprobenraum - nicht immer praktikabel oder sinnvoll, vom klassischen Wahrscheinlichkeitsbegriff auszugehen. Zu gegebenen Ereignissen lassen sich durch Vereinigungs– und Durchschnittsbildung neue Ereignisse bilden. Für einen vorgegebenen endlichen Stichprobenraum Ω ist die Menge der Ereignisse die Potenzmenge P(Ω), die mit den Verknüpfungen ∩, ∪ und der Komplementbildung \ eine sogenannte Ereignisalgebra (P(Ω), ∩, ∪, \) bildet. 12 1 EINFÜHRUNG Für manche Fragestellungen der Wahrscheinlichkeitsrechnung kann jedoch die volle Potenzmenge P(Ω) viel zu umfassend sein, insbesondere dann, wenn Ω eine überabzählbar unendliche Menge ist. Es genügt dann, als Ereignisse die Elemente einer geeigneten Teilmenge der Potenzmenge von Ω zu betrachten. Welche Teilmengen als Ereignisse geeignet sind, wie man mit ihnen umgehen darf, und wie man ihnen Wahrscheinlichkeiten zuordnet, werden wir noch festsetzen. Damit treten wir dann in die Theorie der Wahrscheinlichkeitsrechnung ein. Aufgabe 1.6: Der Großherzog der Toskana fragte Galilei1 , warum beim Werfen dreier Würfel die Summe 10 öfter als die Summe 9 auftrete, obwohl beide Summen auf genau 6 Arten erzeugbar seien: 9 = 1+2+6=1+3+5=1+4+4=2+2+5=2+3+4=3+3+3 10 = 1 + 3 + 6 = 1 + 4 + 5 = 2 + 4 + 4 = 2 + 2 + 6 = 2 + 3 + 5 = 3 + 3 + 4 . Klären Sie den Sachverhalt. Aufgabe 1.7: Wie groß ist die Wahrscheinlichkeit, mit 3 Würfeln (a) eine gerade Summe von Augen zu werfen? 1.3 Zufallsexperimente 13 K beim Münzwurf bzw. mit 1, . . . , n beim Ziehen der Kugel bezeichnen. Man kann nicht mit Sicherheit sagen, welches eintreten wird. Eine (endliche oder unendliche) Kette nacheinander durchgeführter Experimente nennen wir mehrstufiges Zufallsexperiment. Die Ergebnisse sind k–Tupel (Paare, Tripel) im endlichen Fall oder Folgen im unendlichen Fall. Werfen wir etwa zuerst einen Würfel, dann eine Münze und schließlich eine Kugel in den Kessel eines Roulettespiels, so machen wir ein 3–stufiges Zufallsexperiment, und unsere Ergebnisse sind die Elemente des Stichprobenraums Ω = {1, . . . , 6} × {Z, K} × {0, 1, . . . , 35, 36} . Es ist klar, dass diese Menge 6 · 2 · 37 Elemente besitzt und dass den Elementarereignissen die 1 zuzuordnen ist. klassische Wahrscheinlichkeit P ({ω}) = 6·2·37 Ein Beispiel eines vierstufigen Zufallsexperiments haben wir auf Seite 5 kennengelernt: Ein Würfel wird viermal nacheinander geworfen, und das Ergebnis ist eines von |{1, . . . , 6}|4 = 6 · 6 · 6 · 6 = 1296 verschiedenen 4–Tupeln. Die Anfrage des Chevalier de Méré bei Pascal wegen der Chancen, beim 24–maligen Werfen eines Würfelpaares keine Doppelsechs zu erzielen, bezieht sich sogar auf ein 24–stufiges Zufallsexperiment. (b) mehr als 15 Augen zu werfen? (c) ein gerades Produkt von Augen zu werfen? (d) ein durch 3 teilbares Produkt von Augen zu werfen? Aufgabe 1.8: Wie groß ist die Wahrscheinlichkeit, dass bei 3–maligem Werfen eines Würfels jeder folgende Wurf Satz 1.1: Ein k–stufiges Zufallsexperiment habe auf den einzelnen Stufen n1 , n2 , . . . , nk mögliche Ergebnisse, und zwar sei jede der Anzahlen nj (j ∈ {2, . . . , k}) unabhängig vom Ausfall des Experiments auf den vorangegangenen Stufen 1, 2, . . . , j − 1. Dann besitzt der Stichprobenraum Ω genau n := n1 · n2 · . . . · nk mögliche Ergebnisse. (a) mehr Augen zeigt als der vorangehende? (b) nicht weniger Augen zeigt als der vorangehende? Beweis: Für k = 1 ist n = n1 . 1.3 Zufallsexperimente Zufallsgeräte wie Münzen, Glücksräder, Kartenspiele oder Urnen mit Kugeln sind jedem von uns bekannt. In der realen Welt verlaufen viele Prozesse so, als seien sie durch Zufallsgeräte gesteuert. Darum hat die mathematische Beschreibung von Zufallsgeräten große praktische Bedeutung. Das Werfen einer Münze oder das Ziehen einer von n Kugeln aus einer Urne sind Zufallsexperimente. Es gibt zwei bzw. n mögliche Ergebnisse, die wir mit 0 und 1 oder mit Z und 1 Galileo Galilei, Anhänger der Lehre des Kopernikus, Begründer der modernen Kinematik; durch die Inquisition 1616 zum Schweigen verurteilt. Besitzt der Stichprobenraum eines (k − 1)–stufigen Zufallsexperiments als Ergebnisse genau n1 · n2 · . . . · nk−1 verschiedene (k − 1)–Tupel, so kann jedes von diesen durch nk verschiedene Elemente zu nk verschiedenen k–Tupel fortgesetzt werden, und somit erhalten wir insgesamt n = n1 · n2 · . . . · nk−1 · nk verschiedene k–Tupel. 2 Mehrstufige Zufallsexperimente lassen sich vorteilhaft durch Ergebnisbäume oder Baumdiagramme veranschaulichen. Als Beispiel zeigen wir den Baum zu unserem dreistufigen Experiment, bestehend aus dem Wurf eines Würfels, einer Münze und einer Roulettekugel (Abb. 1.2). Dabei haben wir in der 3. Stufe auf den größten Teil der 6 · 2 · 37 Äste“ verzichtet. ” 14 1 EINFÜHRUNG 1.3 Zufallsexperimente 15 Bemerkung 1.2: 1.Stufe 2.Stufe Ist der Ausfall eines k–stufigen Zufallexperiments auf jeder der k Stufen unabhängig vom Ausfall auf den vorangegangenen Stufen, d.h. steht für jede Stufe j ein eigener Stufenstichprobenraum Ωj zur Verfügung, so ist der Stichprobenraum des gesamten Experiments der Produktstichprobenraum 3.Stufe (1,Z,0) (1,Z,1) (1,Z) (1,Z,36) (1,K,0) (1,K,1) 1 (1,K) (1,K,36) (2,Z,0) (2,Z,1) (2,Z) (2,Z,36) (2,K,0) (2,K,1) (2,K) (2,K,36) 2 Ω = Ω1 × Ω 2 × · · · × Ω k . Der folgende Satz ist ein Spezialfall einer allgemeineren Situation, die in Abschnitt 5.2 behandelt wird. Satz 1.2: Ω1 , Ω2 , . . . , Ωk seien endliche Stichprobenräume, in denen der klassische Wahrscheinlichkeitsbegriff gilt. Ω = Ω1 × · · · × Ω k sei der Stichprobenraum eines Zufallsexperiments mit k voneinander unabhängigen Stufen. Dann ist die klassische Wahrscheinlichkeit jedes Elementarereignisses von Ω gleich dem Produkt der Wahrscheinlichkeiten der Elementarereignisse der Stufenstichprobenräume. (3,Z) 3 (3,K) Beweis: (4,Z) Die klassische Wahrscheinlichkeit der einelementigen Untermengen ist der Kehrwert der Anzahl der Elemente des Stichprobenraums. (4,K) Ist Ω das Produkt der endlichen Mengen Ω1 , , . . . , Ωk , so folgt für die Wahrscheinlichkeiten der Elementarereignisse {ω} ∈ Ω 4 (5,Z,0) (5,Z,1) (5,Z) 5 (5,K) (6,Z) 6 (5,Z,36) (5,K,0) (5,K,1) (5,K,36) (6,Z,0) (6,Z,1) (6,Z,36) (6,K,0) (6,K,1) (6,K) (6,K,36) Abb. 1.2 P ({ω}) = 1 1 1 1 1 1 = = = · · ... · .2 |Ω| |Ω1 × . . . × Ωk | |Ω1 | · |Ω2 | · . . . · |Ωn | |Ω1 | |Ω2 | |Ωk | 16 2 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK Grundbegriffe der Zähltechnik 2.1 Kombinatorische Grundüberlegungen Satz 2.1: Wir erwähnten schon, dass es den Mathematikern des 15. und des 16. Jahrhunderts, als die ersten Schritte in der Entwicklung der Wahrscheinlichkeitsrechnung getan wurden, oft an geeigneten Abzählverfahren mangelte, um die Anzahl der Elemente von Stichprobenräumen oder die Anzahl der für bestimmte Ereignisse günstigen Ergebnisse zu ermitteln. Erst 1544 veröffentlichte Michael Stifel in seinem Werk Arithmetica Integra“ eine Tabelle ” der Koeffizienten in den Entwicklungen von (a + b)2 , (a + b)3 bis (a + b)17 . 1570 erschien ein Buch von Cardano, in dem er ein Kapitel Opus novum de proportionibus numerorum“ ” nannte und in welchem er sich mit Problemen der Kombinatorik auseinandersetzte. Unter anderem hatte er alle zweielementigen Teilmengen einer sechselementigen Menge bestimmt und (ohne Beweis) festgestellt, dass für die Anzahlen nk der verschiedenen Teilmengen mit k Elementen, die man aus den Elementen einer n–elementigen Menge bilden kann, die Formel n + n2 + . . . + nn = 2n − 1 gilt. 1 Man beschäftigte sich damals viel mit Glücksspielen. Mit Hilfe der Binomialkoeffizienten gelang es Pascal, eine Strategie zur Prognose von Spielausgängen zu entwickeln. Erstaunlicherweise waren die Binomialkoeffizienten schon Jahrhunderte früher den Hindus, den Persern und den Arabern bekannt, ein Gedankenaustausch mit den Europäern fand jedoch nicht statt. Es gibt genau nk verschiedene Abbildungen einer k–elementigen Menge in eine n–elementige Menge. Beweis: durch vollständige Induktion nach k (Aufgabe). 2 In Abbildung 2.2 ist der Fall k = 3, n = 2 skizziert. A B Abb. 2.2 Der Totoschein in Beispiel 2.1 kann also auf 311 gleichmögliche“ Weisen ausgefüllt werden; ” man gewinnt im 1. Rang mit der Wahrscheinlichkeit P (R1 ) = 2.1 17 Kombinatorische Grundüberlegungen 1 1 = = 0, 0000056 . 311 177147 Aufgabe 2.1: Zum Lösen einfacher Probleme der Wahrscheinlichkeitsrechnung benötigt man häufig geeignete Zählverfahren. Wir wollen dafür Beispiele geben. Die Ergebnisse sind in Abschnitt A.1 im Anhang kurz zusammengefasst. Man bestimme die Gewinnwahrscheinlichkeiten für den 2. bzw. 3. Rang im Beispiel 2.1. Aus Satz 2.1 folgt unmittelbar Satz 2.2: Beispiel 2.1: (Fußballtoto) 1 Beim Fußballtoto soll man von 11 Spielpaarungen tippen, ob die gastgebende Mannschaft (1) oder der Gast (2) gewinnt, oder ob die Begegnung unentschieden (0) endet. Bei 11, 10, 9 richtigen Vorhersagen gewinnt man im 1., 2. oder 3. Rang. x x A füllt seinen Totoschein unter Zuhilfenahme eines Würfels aus: Fällt 1“ oder 4“, tippt er 1, bei 3“ oder 6“ tippt er ” ” ” ” 0, bei 2“ oder 5“ die 2. ” ” Mit welchen Wahrscheinlichkeiten gewinnt er in den einzelnen Rängen? x 0 x 2 nk ist die Anzahl der Möglichkeiten, (a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge unter Zulassung von Elementwiederholungen zu bilden; x x x x x (b) verschiedene Tupel von k Kugeln durch Ziehen mit Zurücklegen aus einer Urne mit n unterscheidbaren Kugeln zu erhalten (Ziehen mit Zurücklegen mit Berücksichtigung der Reihenfolge); (c) k verschiedene Kugeln auf n unterscheidbare Urnen zu verteilen. x x Abb. 2.1 Hinweis: Die Anzahl der Möglichkeiten, den Totoschein auszufüllen, ist gleich der Anzahl der verschiedenen Abbildungen einer 11–elementigen Menge in eine 3–elementige, denn jedem Spiel wird einer von drei Spielausgängen zugeordnet. Beispiel 2.2: (Geburtstagsproblem) In einem Klassenraum befinden sich k Personen. (a) Mit welcher Wahrscheinlichkeit haben wenigstens zwei Personen an demselben Tag des Jahres Geburtstag? 18 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK 19 2.1 Kombinatorische Grundüberlegungen P(Ek ) (b) Der Lehrer ist am 1. Januar geboren. Wie wahrscheinlich ist es, dass wenigstens ein Schüler auch am 1. Januar geboren wurde? 1,00 0,90 Hinweis: Es sei k ≤ 365. Wir berechnen die Wahrscheinlichkeit für das Ereignis EkC , dass keine zwei Personen an demselben Tag des Jahres Geburtstag haben (Schaltjahre bleiben unberücksichtigt). Dann müssen den k Personen k verschiedene Tage als Geburtstag zugeordnet sein. 0,80 0,70 0,60 Satz 2.3: 0,50 n! verschiedene injektive Abbildungen f : A → B von einer k–elemenEs gibt genau (n−k)! tigen Menge A in eine n–elementige B mit n ≥ k. 0,40 0,30 Beweis: durch vollständige Induktion nach k (Aufgabe). 2 0,20 In Abbildung 2.3 ist der Fall k = 2, n = 3 skizziert. 0,10 A 5 10 13 16 20 23 26 29 32 37 44 57 k Abb. 2.4 B Aufgabe 2.2: Man beantworte die Fragen aus Beispiel 2.2 für n = 365 und k = 20, 30, 40. Abb. 2.3 Aus Satz 2.3 folgt wieder unmittelbar Teil (a) des Geburtstagsproblems lässt sich nun wie folgt entscheiden: Das Jahr hat n = 365 Tage. Dafür, dass k Personen an k verschiedenen Tagen Geburtstag n! Möglichkeiten. Insgesamt gibt es für die Verteilung der Geburtstage nk haben, gibt es (n−k)! Möglichkeiten (Satz 2.1), und diese sind gleichmöglich“, so dass der klassische Wahrscheinlich” keitsbegriff anwendbar ist. Die Wahrscheinlichkeit dafür, dass keine 2 Personen an demselben Tag Geburtstag haben, ist demnach P (EkC ) = n! . (n − k)! nk Die Wahrscheinlichkeit für das Zusammenfallen von mindestens zwei Geburtstagen ist somit P (Ek ) = 1 − 10 13 16 20 0, 12 0, 19 0, 28 0, 41 Für n ≥ k ist n! (n−k)! die Anzahl der Möglichkeiten, (a) verschiedene k–Tupel aus den Elementen einer n–elementigen Menge ohne Elementwiederholungen zu bilden; (b) verschiedene Tupel von k Kugeln durch Ziehen ohne Zurücklegen aus einer Urne mit n unterscheidbaren Kugeln zu erhalten (Ziehen ohne Zurücklegen mit Berücksichtigung der Reihenfolge); (c) k verschiedene Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne höchstens eine Kugel erhält. n! . (n − k)! nk Einige Werte sind in der folgenden Tabelle angegeben. k P (Ek ) Satz 2.4: 22 23 26 0, 48 0, 51 0, 60 29 32 37 0, 68 0, 75 0, 85 44 57 0, 93 0, 99 Abb. 2.4 liefert eine graphische Aufbereitung des Zusammenhangs zwischen k und P (Ek ). Man beachte dabei, dass die Funktion k 7→ P (Ek ) nur für natürliche Zahlen erklärt ist! Beispiel 2.3: (Sitzordnung) Bei einer Einladung für n Personen hat der Gastgeber die Tischkarten von seinem Sohn auf einem runden Tisch aufstellen lassen. Der Sohn hat nicht lange nachgedacht und die Karten, wie sie ihm in die Finger kamen, abgelegt. Wie wahrscheinlich ist es, dass zwei Freunde, die nebeneinander sitzen möchten, ihre Karten auch nebeneinander vorfinden? 20 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK 21 2.1 Kombinatorische Grundüberlegungen B Hinweis: Zunächst gilt es, die Anzahl der verschiedenen Sitzanordnungen zu ermitteln. Dabei sind zwei Sitzanordnungen verschieden, wenn wenigstens eine Person auf einem anderen Stuhl sitzt. Satz 2.5: C4 Es gibt genau n! verschiedene bijektive Abbildungen f : A → B von einer n–elementigen Menge A auf eine n–elementige Menge B (bzw. sich selbst). C1 Setzt man k = n in Satz 2.3, so geht n! (n−k)! C3 C Beweis: C2 in n! über. 2 A In Abbildung 2.5 ist der Fall n = 3 skizziert. Abb. 2.6 A B Abb. 2.5 Hinweis: Auf kürzestem Wege gelangt man von A nach B, indem man sich auf den gegebenen Straßen nach rechts oder nach oben bewegt. Auf diese Weise seien von A nach B genau n Straßenabschnitte zu durchlaufen, und zwar k waagerecht und n − k senkrecht (vgl. Abb. 2.7). In welcher Reihenfolge die k bzw. n − k Abschnitte durchlaufen werden, ist belanglos. Es B Es gibt demnach genau n! verschiedene Sitzanordnungen. n n-1 Aufgabe 2.3: n-2 Man bestimme ähnlich die Anzahl der für die Freunde in Beispiel 2.3 günstigen Möglichkeiten und ermittle dann die gesuchte Wahrscheinlichkeit. . . . Aus Satz 2.5 ergibt sich unmittelbar k+2 k+1 Satz 2.6: A n! ist die Anzahl der Möglichkeiten, eine n-elementige Menge anzuordnen, d.h. eine nelementige Menge hat genau n! Permutationen. 0 1 2 . . . . . k-2 k-1 k Abb. 2.7 Beispiel 2.4: (Verbrecherfang) kommt nur darauf an, dass von n Schritten genau k in die eine Richtung und genau n − k in die andere erfolgen. Deshalb bestimmt sich die Anzahl der kürzesten Wege nach dem folgenden Ein von der Polizei Verfolgter will in dem Straßennetz der Abb. 2.6 auf kürzestem Wege von A nach B. Satz 2.7: (a) In C befindet sich eine Polizeistreife. Wie groß ist die Wahrscheinlichkeit dafür, dass die verfolgte Person auf die Polizisten trifft, wenn man annimmt, dass je zwei Wege von A nach B gleichwahrscheinlich sind? Es gibt genau nk verschiedene Abbildungen einer n–elementigen Menge A in die 2–elementige Menge {a, b}, wobei k Elemente auf a und n − k Elemente auf b abgebildet werden. Beweis: (durch vollständige Induktion nach n) (b) Die Polizeistreife erfährt, dass der Gesuchte A verlassen hat. Sie hat noch die Möglichkeit, statt C einen der Punkte C1 , C2 , C3 , C4 zu besetzen. Welchen der 5 Punkte soll sie (unter der Voraussetzung der Gleichwahrscheinlichkeit aller Wege) besetzt halten? Für n = 0 ist die Formel richtig (Induktionsanfang). Die Formel sei für n − 1 richtig (Induktionsannahme). 22 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK Die Formel ist sicher für n richtig, falls k = 0 oder k = n ist. Falls 0 < k < n nehmen wir aus der Menge A ein Element x heraus. Es gibt zwei Möglichkeiten (vgl. Abb 2.8): A A B x a b k-1 a n-k-1 n-k b x (a) Satz 2.8: n ist die Anzahl der Möglichkeiten k (a) n–Tupel aus einer 2-elementigen Menge zu bilden, wobei genau k–mal das eine Element und (n − k)–mal das andere Element verwendet wird; B k 23 2.1 Kombinatorische Grundüberlegungen (b) eine Menge von k Kugeln aus einer Urne mit n unterscheidbaren Kugeln zu ziehen (Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge); (c) k gleiche Kugeln auf n unterscheidbare Urnen so zu verteilen, dass jede Urne höchstens eine Kugel enthält; (d) eine k–elementige Teilmenge aus einer n–elementigen Menge auszuwählen. (b) Abb. 2.8 Entweder wird x auf a abgebildet. Dann müssen von den übrigen n − 1 Elementen von A genau k − 1 auf a abgebildet werden, und das geht nach Induktionsvoraussetzung auf genau n−1 k−1 Arten. Oder aber x wird auf b abgebildet. Dannwerden von den übrigen n − 1 Elementen genau k auf a abgebildet. Das geht auf genau n−1 Arten. k n−1 n Insgesamt erhält man also n−1 + = Möglichkeiten. 2 k−1 k k Beispiel 2.5: (Wahl) 7 Kinder wählen bei einem Spiel einen Häuptling, wobei jedes Kind einem der 3 möglichen Kandidaten eine Stimme gibt. Wieviele verschiedene Wahlausgänge sind möglich? Hinweis: Man stelle sich vor, jeder der drei Kandidaten legt in seine“ Urne für jede der für ” ihn abgegebenen Stimmen eine Kugel. Da es keine Rolle spielt, von welchem Kind die Stimme stammt, sind die Kugeln ununterscheidbar, also gleich. In Abbildung 2.9 ist der Fall n = 3, k = 1 skizziert. Satz 2.9: n+k−1 ist die Anzahl der Möglichkeiten k A (a) k gleiche Kugeln auf n unterscheidbare Urnen zu verteilen; B a b a b a b Abb. 2.9 12 kürzeste Wege von A nach B. Es gibt demnach in Beispiel 2.4 genau 7 Aufgabe 2.4 Man beantworte die im Beispiel 2.4 gestellten Fragen. Aufgabe 2.5 Man vergleiche in Beispiel 2.4 die Wahrscheinlichkeiten der Wege mit denen in der folgenden, modifizierten Aufgabenstellung: Der Dieb entscheidet an jeder Ecke (außer am Rand), ob er nach rechts oder nach oben läuft, wobei diese beiden Möglichkeiten stets gleichwahrscheinlich seien. Aus Satz 2.7 folgern wir direkt Satz 2.8. (b) k Kugeln mit Zurücklegen aus einer Urne mit n unterscheidbaren Kugeln zu ziehen, wobei die Reihenfolge nicht berücksichtigt wird (Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge). Beweis: zu (a): Die n Urnen denken wir uns durch n Fächer repräsentiert, welche durch n−1 Stellwände erzeugt werden: 1. Urne 2. Urne 3. Urne ... (n − 1). Urne n. Urne Die Kugeln werden zwischen die Stellwände bzw. vor die erste oder hinter die letzte Stellwand gelegt: oo ooo ... o oooo . Dabei dürfen Fächer freibleiben. Ersetzen wir die Kugeln durch Nullen und die Trennwände durch Einsen, so entspricht jeder Verteilung ein Tupel mit m = k + n − 1 Stellen, bestehend aus k Nullen und n − 1 Einsen, und es gibt nach Satz 2.8 (a) genau m = n+k−1 solcher Tupel. k k 24 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK Aus n − n1 − . . . − nk−1 Elementen lassen sich auf auswählen, die auf k abgebildet werden. zu (b): Aufgabe. 2 7+3−1 7 Die Wahl der Kinder hat also genau = 9 7 25 2.1 Kombinatorische Grundüberlegungen = 36 mögliche Ausgänge. n−n1 −...−nk−1 nk Arten die nk Elemente Insgesamt erhält man als Anzahl der Möglichkeiten n − n1 − n2 − . . . − nk−1 n n − n1 − n2 n − n1 · ... · · · nk n3 n2 n1 Beispiel 2.6: Von den 16 Feldern einer Tafel (Abb. 2.10) sollen 2 weiß, 3 rot, 5 grün und 6 schwarz gefärbt werden. Wieviele verschiedene Möglichkeiten gibt es? = (n − n1 )! (n − n1 · . . . · nk−1 )! n! n! · · ... · .2 = n1 !(n − n1 )! n2 !(n − n1 − n2 )! nk ! (n − n1 − . . . − nk )! n1 ! · . . . · nk ! | {z } =0 In Abbildung 2.11 ist der Fall k = 3, n = 1 + 1 + 2 skizziert. A B Abb. 2.10 Hinweis: Wir denken uns eine Menge, die eine weiße, eine rote, eine grüne und eine schwarze Kugel enthält. Dann fragen wir nach der Anzahl der verschiedenen Abbildungen der Menge der 16 Felder auf diese 4–elementige Menge, wobei 2 Felder auf die weiße Kugel, 3 auf die rote Kugel usw. abgebildet werden. A B Die Antwort gibt der Abb. 2.11 Satz 2.10: Die Anzahl verschiedener Abbildungen einer Menge mit n Elementen in die Menge {1, . . . , k}, bei denen jeweils ni Elemente die Zahl i als Bild erhalten, ist n n! := . n1 , n2 , . . . , nk n1 ! n2 ! . . . nk ! Hierbei gelte n = n1 + n2 + . . . + nk . Beweis: Aus n Elementen lassen sich auf werden. n n1 Für das Brett im Beispiel 2.6 gibt es demnach Aus den restlichen n − n1 Elementen lassen sich auf die auf 2 abgebildet werden. .. . n−n1 n2 Arten die n2 Elemente auswählen, = 20 180 160 Färbungsmöglichkeiten. Aus Satz 2.10 ergibt sich unmittelbar Satz 2.11: Arten die n1 Elemente auswählen, die auf 1 abgebildet 16! 2! 3! 5! 6! n n1 , n2 , . . . , nk := n! n1 ! n2 ! . . . nk ! mit n = n1 + . . . + nk ist die Anzahl der verschiedenen n-Tupel aus einer k-elementigen Menge, die genau n1 -mal das erste, n2 -mal das zweite, . . . , nk -mal das k-te Element enthalten. Bemerkung 2.1 Die Sätze 2.10 und 2.11 sind Verallgemeinerungen der Sätze 2.7 und 2.8(a). 26 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK 2.2 Aufgaben (b) Wie viele dieser Zahlen sind teilbar (i) durch 2 , Aufgabe 2.6: In der Bundesrepublik trägt jeder Personalausweis einen Kennbuchstaben, gefolgt von einer 7–stelligen Zahl, deren erste Ziffer von 0 verschieden ist. Wieviele verschiedene Ausweiskennzeichnungen sind dadurch möglich? Aufgabe 2.7: (Bridge) Beim Bridgespiel werden 52 verschiedene Karten zu gleichen Teilen an 4 Personen verteilt. 27 2.2 Aufgaben (ii) durch 5 , (iii) durch 25 , (iv) durch 6 ? (c) Wieviele dieser Zahlen sind größer als 4000? Aufgabe 2.12: Auf wieviele verschiedene Arten lassen sich k Nullen und m Einsen anordnen? Aufgabe 2.13: Man bestimme geeignete Stichprobenräume Ω für die Beispiele 2.1 und 2.2 (a), (b). Wieviel verschiedene Verteilungen gibt es? Aufgabe 2.14: Aufgabe 2.8: (Skat) Beim Skatspiel werden 32 verschiedene Karten zu je 10 an 3 Personen verteilt, und 2 Karten kommen in den Skat“. ” Wieviel verschiedene Möglichkeiten gibt es, die 32 Skatkarten auszuteilen? Man bestimme geeignete Stichprobenräume Ω für die Probleme der Beispiele 2.3 und 2.4. Welche Elemente enthalten die günstigen Ereignisse E: F: Die Freunde sitzen nebeneinander“ bzw. ” Der Fluchtweg führt von A über C nach B“. ” Aufgabe 2.9: Aufgabe 2.15: In einem Kühlschrank befinden sich 10 Eier, darunter 3 faule. Man bestimme geeignete Stichprobenräume für die Probleme der Aufgaben 2.6 bis 2.9. Wie wahrscheinlich ist es, beim Entnehmen von 4 Eiern (a) genau ein faules mitzugreifen; (b) mindestens ein faules mitzugreifen. Aufgabe 2.16: Wie wahrscheinlich ist es, dass ein durch Losentscheid gebildeter Ausschuss von 5 Personen aus 2 Frauen und 3 Männern besteht, wenn aus einer Menge von 5 Frauen und 9 Männern ausgewählt werden kann? Aufgabe 2.10: Aufgabe 2.17: Ein Skatspieler hält folgendes Blatt in der Hand: Karo 7, 8, Herz 7, 9, Pik 8, 9, 10, Bube, Dame, As. Er hofft auf einen günstigen Skat und reizt bis 40. Man bestimme die Anzahl der 4–ziffrigen Zahlen zwischen 1000 und 9999, in denen mindestens eine Ziffer doppelt ist. (a) Wie groß ist die Wahrscheinlichkeit, dass Aufgabe 2.18: Die Abbildung 2.12 zeigt zwei Streckennetze. (i) Pik 7 im Skat liegt, D E A A Abb. 2.12a Aufgabe 2.11: (a) Wie viele vierstellige Zahlen kann man mittels der sechs Ziffern 1, 2, 3, 4, 5, 7 bilden? B F (iii) Kreuz Bube und ein As im Skat liegen? b) Wie groß sind die entsprechenden Wahrscheinlichkeiten, wenn der Spieler zufällig“ in das ” Blatt eines seiner Mitspieler gesehen und festgestellt hat, dass dieser von den fraglichen Karten (Pik 7, Karo As, Herz As, Kreuz As, Karo Bube, Herz Bube, Kreuz Bube) nur den Karo Buben besitzt? B C (ii) zwei Buben im Skat liegen, Abb. 2.12b Man bestimme (a) die Anzahl der kürzesten Wege von A nach B über C und D. 28 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK (b) die Anzahl der kürzesten Wege von A nach B über E und F . 29 2.2 Aufgaben (b) Man bestimme geeignete Stichprobenräume und die günstigen“ Ereignisse Das Fahrrad ” ” wird entsichert“ in beiden Räumen. Aufgabe 2.19: Wie ist die Lösung des Problems des Pacioli mit der Methode von Pascal als Wegeproblem zu verstehen (Skizze)? Aufgabe 2.20: Zwei Skatspiele mit 32 Spielkarten heißen unterschiedlich gemischt, wenn in den nebeneinanderliegenden Kartenstapeln für mindestens ein k die k–te Karte des einen Spiels nicht mit der k–ten Karte des anderen Spiels übereinstimmt. (a) Man bestimme den Stichprobenraum der verschiedenen Mischungen eines Kartenspiels und seine Mächtigkeit. (b) Wie wahrscheinlich ist es, dass in einem gemischten Skatspiel die Karten in folgender Reihenfolge liegen: Zuerst die 8 Kreuzkarten, dann die 8 Pikkarten, dann die 8 Herzkarten und schließlich die 8 Karokarten? (c) Wie wahrscheinlich ist es, dass von jeder der 4 Farben die 8 Karten hintereinanderliegen? Aufgabe 2.23: An einem Bridgetunier nehmen 8 Personen teil. Jede mögliche Paarung soll gegen jede andere mögliche Paarung antreten. Wieviele Begegnungen sind auszutragen? Aufgabe 2.24: Drei Damen und drei Herren benutzen einen Sessellift mit Einzelsitzen. Sie fahren nacheinander ab. (a) Auf wieviele Arten ist das möglich? (b) Wieviele Arten sind möglich, wenn die Herren den Damen den Vortritt lassen? (c) Wieviele Arten sind möglich, wenn es sich um drei Paare handelt und diese hinereinander abfahren? Aufgabe 2.25: (b) im 2. Rang, wenn man 5 von den 6 gezogenen Zahlen und die Zusatzzahl vorhersagt; (c) im 3. Rang, wenn man 5 von den 6 gezogenen Zahlen vorhersagt (ohne die Zusatzzahl); (d) im 4. Rang, wenn man 4 von den 6 Zahlen vorhersagt. Mit welchen Wahrscheinlichkeiten gewinnt man in den einzelnen Rängen? durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, n) (a) direkt, (b) indem man die Wege von (0, 0) über A0 , A1 , . . . , An nach (n, n) ermittelt und addiert (Abb. 2.13). (n,n) An (0,k) (n,k) Ak A n-1 Ak-1 ... Aufgabe 2.22: .. (a) im 1. Rang, wenn man die 6 gezogenen Zahlen vorhersagt; Man beweise die Formel 2 2 2 2 2n n n n n = + ... + + + n n 2 1 0 ... Fritz schließt sein Fahrrad stets mit einem Stahlbügel an, der ein 6–stelliges Zahlenschloss besitzt. Christoph benutzt stets zwei Stahlbügel mit 3–stelligen Zahlenschlössern. . Beim Zahlenlotto befinden sich 49 durchnumerierte Kugeln in einer Urne“. 6 Zahlen und eine ” Zusatzzahl werden ohne Zurücklegen gezogen. Man sagt 6 Zahlen vorher und gewinnt ... ... ... Aufgabe 2.21: (Lotto) An jeder Stelle“ können die Ziffern 0, 1, . . . , 9 erscheinen. ” An dem 6–stelligen Zahlenschloss werden von einem Dieb 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen. An den beiden dreistelligen Zahlenschlössern werden je 500 verschiedene Einstellungen vorgenommen, um sie zu öffnen. (a) Man berechne die Wahrscheinlichkeiten dafür, dass eines der beiden Fahrräder bei den oben beschriebenen Versuchen entsichert wird. A1 A1 A0 (0,0) (0,0) Abb. 2.13 Aufgabe 2.26: Für k ≤ n beweise man die Formel n+k n k k n n k = + ... + + k 0 k k−1 1 k 0 A0 Abb. 2.14 (n,0) 30 2 GRUNDBEGRIFFE DER ZÄHLTECHNIK durch Berechnung der Anzahl verschiedener Wege von (0, 0) nach (n, k) auf zwei Arten (Abb. 2.14). Aufgabe 2.27: (a) Auf wieviele Arten kann man 50 verschiedene Bücher an 4 Personen verteilen? (b) Auf wieviele Arten kann man 50 gleiche Bonbons an 4 Personen verteilen? Aufgabe 2.28: Beim Lotto werden jede Woche 6 Gewinnzahlen aus den Zahlen 1, 2, . . . , 49 gezogen. Wie groß ist die Wahrscheinlichkeit dafür, dass mindestens zwei der sechs Zahlen benachbart sind? 2.2 Aufgaben 31 (b) Wie groß ist die Wahrscheinlichkeit, dass in der 1. Urne genau k Kugeln liegen? (c) Wie groß ist die Wahrscheinlichkeit dafür, dass sich (c1 ) in k vorbestimmten Urnen je genau eine Kugel befindet? (c2 ) in k beliebigen Urnen je genau eine Kugel befindet? Aufgabe 2.31: Bei der Bose–Einstein–Aufteilung, die sich bei der Beschreibung von Photonen und Atomen mit einer geraden Anzahl von Elementarteilchen bewährt, wird vorausgesetzt: (1) Die k Kugeln sind ununterscheidbar. (2) In jeder Urne Uj können sich beliebig viele Kugeln befinden. Aufgabe 2.29: Es erscheint wahrscheinlich“, dass bei n Würfen einer Kugel in den aus den Fächern F1 , . . . , Fn ” bestehenden Kessel eines Roulettespiels das Fach Fn mindestens einmal getroffen wird. Bearbeiten Sie hier (a)–(c) entsprechend Aufgabe 2.30. (a) Wie groß ist diese Wahrscheinlichkeit wirklich? Aufgabe 2.32: (b) Wie groß ist sie bei n = 6 (Würfel)? Die Fermi–Dirac–Aufteilung für die Beschreibung von Elektronen, Protonen und Neutronen verlangt: (c) Was erhält man für n → ∞, und wie ist das Ergebnis zu deuten? (d) Wie groß ist die Wahrscheinlichkeit, dass bei n Würfen (i) das Fach F1 genau einmal getroffen wird? (ii) die Fächer F1 und F2 je genau einmal getroffen werden? (iii) die Fächer F1 , . . . , Fk je genau einmal getroffen werden? Viele physikalischen Probleme lassen sich mathematisch dadurch erfassen, dass man k Partikel (Kugeln) auf n Zellen (Urnen) verteilt. Gesucht ist dann immer die Wahrscheinlichkeit dafür, dass für alle j ∈ {1, . . . , n} in der Urne Uj genau kj Kugeln liegen. Man muss aber vorher festlegen, welche Konstellationen überhaupt möglich sind und postuliert dann, dass alle möglichen Fälle gleichwahrscheinlich sind. Aufgabe 2.30: In der kinetischen Gastheorie hat sich folgendes, von Maxwell und Boltzmann stammende Modell bewährt: (1) Die k Kugeln sind unterscheidbar. (2) In jeder Urne Uj können sich beliebig viele Kugeln befinden. (a) Zeichnen Sie die möglichen Verteilungen von zwei Kugeln auf drei Urnen. (1) Die k Kugeln sind ununterscheidbar. (2) In jeder Urne Uj kann höchstens eine Kugel sein (Pauli–Prinzip). Bearbeiten Sie (a)–(c) wieder entsprechend Aufgabe 2.30. 32 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG 3 Von Pascal bis Kolmogorow - Axiomatisierung 3.1 Historische Entwicklung des Wahrscheinlichkeitsbegriffs Der Begriff der mathematischen Wahrscheinlichkeit hat sich allmählich entwickelt. In den Aufzeichnungen von Pascal und Fermat fehlt er noch. 1655 hielt sich der bekannte Holländer Huygens2 in Paris auf und hörte dort von dem Problem ” der gerechten Beurteilung der Chancen“, mit welchem sich Pascal und Fermat beschäftigten. Er begann dieses Problem selbst zu bearbeiten und veröffentlichte seine Erkenntnisse 1657 in einer Re Ratiociniis in Ludo Aleae“ genannten Schrift, die bis in den Beginn des 18. Jahr” hunderts die klassische Einführung in die Wahrscheinlichkeitstheorie blieb. In Lehrsätzen führt Huygens den Begriff des Erwartungswertes ein. Wir zitieren: Lehrsatz 1: Bei gleichen Chancen, a oder b zu erhalten, ist der Wert a+b . 2 Lehrsatz 2: Bestehen k Chancen für a und m Chancen für b, so ist bei Gleichheit der Chancen . der Wert ka+mb k+m Auch Huygens verfügte nicht über den Begriff der mathematischen Wahrscheinlichkeit. Seine Überlegungen liefen unabhängig von denen Pascals und Fermats ab. Der Wahrscheinlichkeitsbegriff findet sich erstmalig in der Ars Conjectandi“ (Kunst des Ver” mutens) des Schweizers Bernoulli3 , welche 1713 posthum veröffentlicht wurde. Bernoulli erklärt die mathematische Wahrscheinlichkeit als den Grad der Gewissheit, welcher sich zur ” Gewissheit wie der Teil zum Ganzen verhält“. In der Praxis benutzte Bernoulli diesen Wahrscheinlichkeitsbegriff in vielen Fällen so, wie ihn Laplace 1814 festgesetzt hat: Die Theorie des Zufalls ermittelt die gesuchte Wahrscheinlichkeit eines Ereignisses durch ” Zurückführung aller Ereignisse derselben Art auf eine gewisse Anzahl gleich möglicher Fälle . . . und durch Bestimmung der dem Ereignis günstigen Fälle. Das Verhältnis dieser Zahl zu der aller möglichen Fälle ist das Maß dieser Wahrscheinlichkeit, . . .“ (Essai philosophique sur les probabilités). Das ist die sogenannte klassische“ Definition der Wahrscheinlichkeit. Im Gegensatz zu der ” von Bernoulli getroffenen Festsetzung wird hier nicht versucht, den Begriff qualitativ zu beschreiben, sondern erläutert, wie man in einfachen Fällen seine Quantität bestimmt. Wie wir wissen, entwickelte sich die Wahrscheinlichkeitsrechnung zunächst als eine Theorie der Glückspiele. Der klassische Rahmen der Wahrscheinlichkeitsrechnung wurde erst gesprengt, als Maxwell und Boltzmann die statistische Betrachtungsweise in die Thermodynamik einführten. Es zeigte sich jedoch gerade in diesem Bereich, dass der zu unklar definierte Begriff der Wahrscheinlichkeit zu Missverständnissen beim Begreifen der physikalischen Natur führen konnte. Unter Wahrscheinlichkeit“ verstanden die Physiker die relative Häufigkeit des Eintritts be” ” stimmter auffallender Ereignisse“ (nach Smoluchowski). 2 3 Christian Huygens, Math. Kurventheorie, Wellentheorie des Lichts Jakob Bernoulli, Divergenz der harmon. Reihe, 1. Bern. Ungl., Gesetz der großen Zahlen 33 3.1 Historische Entwicklung des Wahrscheinlichkeitsbegriffs Wir wollen die Beziehung zwischen relativer Häufigkeit und Wahrscheinlichkeit näher erläutern. Wir werfen zwei Würfel und fragen nach der Wahrscheinlichkeit, die Augensumme 7 zu erzielen. 36 verschiedene Ereignisse sind möglich, davon sind (1, 6), (2, 5), . . . , (6, 1) günstig. Die klassische Wahrscheinlichkeit beträgt 6 1 = = 0, 16 36 6 Wir zählen nun bei insgesamt n Würfen, wie oft unter ihnen das Ereignis Augensumme 7“ ” auftritt; diese Zahl bezeichnen wir als absolute Häufigkeit hn ({7}). Schließlich bilden wir die relativen Häufigkeiten rn ({7}) := hn ({7}) . n Die folgende Tabelle zeigt die Ergebnisse: n hn ({7}) rn ({7}) 12 24 36 48 72 96 120 144 168 192 216 2 5 7 7 8 10 15 22 26 29 33 0, 167 0, 208 0, 194 0, 146 0, 111 0, 104 0, 125 0, 153 0, 156 0, 151 0, 153 Wir stellen die oben gefundenen Werte von rn über n in Abb. 3.1 graphisch dar. Man erkennt, dass sich die relativen Häufigkeiten mit wachsender Anzahl der Wiederholungen des Experiments schnell stabilisieren. rn({7}) 0,20 0,18 0,16 0,14 0,12 0,10 n 12 24 36 48 72 96 120 144 168 192 216 Abb. 3.1 Noch deutlicher zeigt dies die Grafik in Abb. 3.2, welche für eine Folge von 400 Münzwürfen die relative Häufigkeit des Ereignisse Kopf“ in Abhängigkeit von der Anzahl der Würfe angibt. ” Es ist nun eine Erfahrungssache (und damit eine nur durch Experimente zu beweisende Einsicht), dass die relativen Häufigkeiten zufälliger Ereignisse A, wenn sich nur die zugrundeliegenden Bedingungen oft genug realisieren lassen, bei genügend langen Versuchsreihen in der Nähe eines festen Wertes P (A) bleiben. Diesen Wert nennen wir statistische Wahrscheinlichkeit des betreffenden Ereignisses. Die Existenz der statistischen Wahrscheinlichkeit ist insoweit 34 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG 35 3.2 Das Axiomensystem von Kolmogorow Von diesem Einwand abgesehen, gehört jeder Limes zu einer unendlichen Folge; es gibt aber im Universum nur endliche Versuchsreihen! Auch diese Überlegung stellt die Existenz des o.a. Limes in Frage. 1 3.2 0,5 Das Axiomensystem von Kolmogorow Unser Ziel besteht darin, zufällige Erscheinungen der Wirklichkeit durch eine mathematische Struktur zu beschreiben. Es soll also nicht mit der physikalischen Realität, sondern mit einem Modell davon umgegangen werden. 0 2 5 10 20 50 100 400 bewiesen wie naturwissenschaftliche Versuche Beweiskraft für die Existenz von Naturgesetzen besitzen. Entsprechendes ist aus der Physik bekannt, wo z.B. Körper als ausdehnungslose Massepunkte, das Licht als Welle oder Korpuskel, je nach Bedarf, betrachtet werden. Nur wenn das Modell die Wirklichkeit adäquat beschreibt, kann die mathematische Theorie brauchbare Resultate liefern. Es ist daher erforderlich, sich beim Aufbau der mathematischen Struktur eng an die Realität anzulehnen. Die statistische Wahrscheinlichkeit ist kein Begriff der reinen Mathematik. Sie ist nicht exakt bestimmbar, sondern abhängig vom Messreihenumfang immer nur mehr oder weniger gut approximierbar. Ihre Existenz wird postuliert, etwa wie die Existenz der Masse eines Körpers, die wir auch nie ganz genau messen können. Die historischen Bemühungen zeigen, dass der Begriff der mathematischen Wahrscheinlichkeit aus den relativen Häufigkeiten nicht abzuleiten ist, da diese für ein bestimmtes Ereignis bei wiederholten Versuchen schwanken. Einige ihrer typischen Eigenschaften spiegeln sich jedoch in der zu entwickelnden Theorie wider: Abb. 3.2 In der reinen“ Mathematik haben Erfahrungselemente keine Beweiskraft. Hilbert forderte ” deshalb auf dem Mathematikerkongress in Paris im Jahre 1900, die Wahrscheinlichkeitsrechnung (und die Mechanik) wie die Grundlagen der Geometrie zu axiomatisieren. (b) Ein sicheres Ereignis hat die relative Häufigkeit 1. Einen anderen interessanten Ansatz zur Überwindung des klassischen Wahrscheinlichkeitsbegriffs und zur axiomatischen Begründung der Wahrscheinlichkeitsrechnung schlug von Mises im Jahre 1919 vor. Er ging davon aus, dass sich bei genügend vielen Wiederholungen eines Experiments die relativen Häufigkeiten stabilisieren. (c) Hat bei n Versuchen das Ereignis A die absolute bzw. relative Häufigkeit hn (A) bzw. rn (A) und das Ereignis B die absolute bzw. relative Häufigkeit hn (B) bzw. rn (B) und treten die beiden Ereignisse nicht gleichzeitig ein, so hat das Ereignis A ∪ B die absolute bzw. relative Häufigkeit Sein erstes Axiom postuliert dementsprechend für alle eigentlichen Untermengen A eines gegebenen Stichprobenraumes Ω die Existenz des Grenzwertes hn (A) =: P (A) , n wobei n die Anzahl der Wiederholungen des Versuchs ist, bei dem A eintreten kann. Von Mises hielt den Begriff der Wahrscheinlichkeit nicht für einen mathematischen Gegenstand und die Wahrscheinlichkeitstheorie für eine Wissenschaft zur Erforschung der Erscheinungen der realen Welt, über die man aus der Mathematik nichts entnehmen kann. lim n→∞ Die oben angegebene Grenzwertbeziehung bedeutet, dass es zu jedem ε > 0 ein N ∈ N gibt, so dass für alle n ∈ N mit n ≥ N gilt hn (A) − P (A) < ε . n Die Zahlen hn (A) sind Messergebnisse einer Versuchsreihe. Auch für noch so große N besteht jedoch eine gewisse Wahrscheinlichkeit dafür, dass im Bereich n ≥ N eine Serie mit unverhältnismäßig vielen Erfolgen oder Misserfolgen eintrifft, so dass hnn(A) von P (A) um mehr als ε abweicht. Das widerspricht aber der Existenz des Grenzwertes. (a) Die relative Häufigkeit liegt zwischen 0 und 1. hn (A ∪ B) = hn (A) + hn (B) bzw. rn (A ∪ B) = rn (A) + rn (B) . Das heutzutage gebräuchliche Axiomensystem der Wahrscheinlichkeitsrechnung geht auf den russischen Mathematiker Kolmogorow zurück. Er hat es in einer 1933 erschienenen Arbeit Grundbegriffe der Wahrscheinlichkeitsrechnung“ veröffentlicht, nachdem bereits 1917 Bern” stein den ersten systematischen Aufbau einer Axiomatik angegeben hatte. Wir wollen das Kolmogorowsche Axiomensystem vorstellen. Hierzu definieren wir zunächst den Begriff der Ereignisalgebra. 36 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG Bemerkung 3.3: Definition 3.1: (Ereignisalgebra) Gegeben sei eine (endliche oder unendliche) nicht-leere Menge, der sogenannte Stichprobenraum Ω. E ⊆ P(Ω) heißt Ereignisalgebra über Ω, wenn folgende Eigenschaften erfüllt sind: (E1 ) Ω ∈ E und ∅ ∈ E . (E2 ) Für jede abzählbare Indexmenge I mit Ai ∈ E für i ∈ I gilt (E3 ) 37 3.2 Das Axiomensystem von Kolmogorow Für alle A, B ∈ E gilt A\B ∈ E . S i∈I Ai ∈ E und T i∈I Ai ∈ E. Wenn Ω endlich ist, dann gibt es nur endlich viele Ereignisse. Die Bedingung (K3 ) kann dann folgendermaßen vereinfacht werden: (K3 )′ es gilt P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅. Durch vollständige Induktion lässt sich diese Eigenschaft dann auf die disjunkte Vereinigung endlich vieler Ereignisse ausdehnen. Durch Beschränkung von Ω ergibt sich folgender Sonderfall: Definition 3.4: (diskreter Wahrscheinlichkeitsraum) Ist Ω eine nichtleere, abzählbare Menge, so heißt Ω diskreter Stichprobenraum. Bemerkung 3.1: Statt Ereignisalgebra über Ω sagt man auch σ–Algebra“. ” Ein Wahrscheinlichkeitsraum der Gestalt Ω, P(Ω), P , P : P(Ω) → R geeignet heißt diskreter Wahrscheinlichkeitsraum. Definition 3.2: (Ergebnis, Ereignis) Die Elemente des Stichprobenraumes Ω heißen Ergebnisse, die Elemente der Ereignisalgebra E heißen Ereignisse. Falls für ein ε ∈ Ω auch {ε} ∈ E gilt, dann heißt {ε} Elementarereignis. Definition 3.3: (Axiomensystem von Kolmogorow) Es sei Ω ein Stichprobenraum, E eine Ereignisalgebra über Ω und P : E → R eine Funktion mit den Eigenschaften (K1 ) P (Ω) = 1 (Normierung) (K2 ) P (A) ≥ 0 für alle A ∈ E (Nichtnegativität) (K3 ) für jede abzählbare Menge paarweise disjunkter Ereignisse {Ai | i ∈ I} gilt S P (σ–Additivität). Ai = P (Ai ) P i∈I i∈I Dann heißt P Wahrscheinlichkeitsbelegung und das Tripel (Ω, E, P ) Wahrscheinlichkeitsraum. Bemerkung 3.2: In (K3 ) wird eine Vereinigung paarweise disjunkter Mengen vorgenommen. Man spricht in Ṡ diesem Fall von einer disjunkten Vereinigung“ und schreibt dafür auch Ai . So weist z.B. ” i∈I ˙ darauf hin, dass A ∩ B = ∅ gilt. die Schreibweise C = A∪B In einem diskreten Wahrscheinlichkeitsraum erhält man alle möglichen Wahrscheinlichkeitsbelegungen, indem man die Wahrscheinlichkeiten der Elementarereignisse festlegt. Satz 3.1: Es sei Ω = {ω1 , ω2 , ω3 , . . . } ein diskreter Stichprobenraum. Für jedes Ergebnis ωj ∈ Ω sei P ({ωj }) = pj . Hierbei seien die pj nicht-negative Zahlen mit P pj = 1 (ist Ω abzählbar unendlich, so ist dies eine unendliche Reihe). j Für beliebige Ereignisse A setzt man P (A) = P pj . ωj ∈A Dann ist (Ω, P(Ω), P ein Wahrscheinlichkeitsraum. Beweis: Aufgabe. 2 Bemerkung 3.4: Hat Ω genau n Elemente und gibt man jedem Elementarereignis {ω} die Wahrscheinlichkeit P ({ω}) = n1 , so spricht man von einem Laplaceschen Wahrscheinlichkeitsraum. Für beliebige Ereignisse A ⊂ Ω erhält man dann P (A) = 1.2 erklärte klassische Wahrscheinlichkeit. |A| |Ω| . Dies ist gerade die in Definition 38 3.3 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG Beispiele Beispiel 3.1: Das Werfen von zwei unterscheidbaren Würfeln erzeugt die Paarmenge Ω = {1, 2, . . . , 6}2 . 1 Jeder der 36 einelementigen Untermengen kann man die Wahrscheinlichkeit pi = 36 zuordnen. Beispiel 3.2: Beim Spiel interessiert man sich manchmal nur für die Augensumme von zwei geworfenen Würfeln. Dann wählt man als Stichprobenraum zweckmäßig Ω = {2, 3, . . . , 12} . Will man den einelementigen Teilmengen adäquate Wahrscheinlichkeiten zuordnen, so muss man berücksichtigen, dass sich die meisten Elemente durch mehrere Augenpaare erzeugen lassen. Daher ist die klassische Wahrscheinlichkeit nicht angebracht, sondern man setzt k−1 für k = 2, 3, . . . , 7 36 pk = P ({k}) = 13 − k für k = 8, 9, . . . , 12 . 36 Diese Wahrscheinlichkeiten sind in Abb. 3.3 veranschaulicht. 39 3.3 Beispiele In der Praxis gilt p ≈ q ≈ 12 , aber man kann sich gut vorstellen, dass diese Symmetrie bei einer Münze mit einem sehr erhabenen Wappen ( Kopf“) auch einmal stärker gestört sein kann. ” Die Funktion p : N → [0, 1], k 7→ pk = pq k−1 für k ∈ N heißt geometrische Verteilung, da die Werte eine geometrische Folge bilden. Beispiel 3.4: (Nadelproblem von Buffon) In einer Ebene seien parallele Geraden markiert, die voneinander jeweils den Abstand d haben. Auf diese Ebene wird zufällig“ eine Nadel der Länge ℓ < d geworfen. Mit welcher ” Wahrscheinlichkeit schneidet sie eine der markierten Geraden? x sei der Abstand des Nadelmittelpunktes von derjenigen Geraden, die ihm am nächsten liegt. t sei der Winkel, den die Nadel mit dieser Geraden bildet (vgl. Abb. 3.4). t A 0 2 P({k}) Abb. 3.4 6/36 Die Versuchsergebnisse sind die Paare (x, t) mit 0 ≤ x ≤ Rechteck Ω. 5/36 x Abb. 3.5 d 2 und 0 ≤ t ≤ π; sie bilden ein Die Nadel schneidet eine der Geraden, wenn x ≤ 2ℓ sin t ist, d.h. wenn der Punkt (x, t) in der schraffierten Teilfläche A des Rechtecks liegt (s. Abb. 3.5). Diese hat den Inhalt 4/36 3/36 2/36 I(A) = 1/36 Zπ 0 2 3 4 5 6 7 8 9 10 11 12 Abb. 3.3 Beispiel 3.3: Als Beispiel mit abzählbar unendlich vielen Ergebnissen betrachten wir das Werfen einer Münze bis zum Erscheinen von Kopf“. Wir zählen die Anzahl der benötigten Würfe, und so ergibt ” sich ganz natürlich Ω = N = {1, 2, . . . } . Setzen wir für jedes Ereignis {k} die Wahrscheinlichkeit durch pk = P ({k}) = pq k−1 mit p, q > 0 ∞ P und p + q = 1 fest, so gilt pk = 1 . Die Begründung für diese Festlegung wird in Beispiel 5.4 nachgereicht. d 2 k=1 π ℓ ℓ sin t dt = (− cos t) 0 = ℓ . 2 2 Läuft das Experiment so ab, dass alle Punkte der Fläche Ω gleichmöglich“ sind, dann ergibt ” sich für die gesuchte Wahrscheinlichkeit P (A) = ℓ I(A) 2ℓ = . = I(Ω) πd π · d2 Als Ereignisalgebra E kann einfach die Menge E = {∅, A, Ac , Ω} gewählt werden. Auf dieser ist dann P definiert. Bemerkung 3.5: Kann man die möglichen Ergebnisse eines Zufallsexperiments graphisch durch eine Punktmenge Ω in der Ebene darstellen, so dass für die Wahrscheinlichkeit eines Ereignisses A ⊂ Ω gilt Flächeninhalt von A , Flächeninhalt von Ω so spricht man von einer geometrischen Wahrscheinlichkeit. P (A) = 40 3.4 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG Bertrands Paradoxon Die Axiomatisierung der Wahrscheinlichkeitsrechnung verlief parallel zur Entwicklung der Lebesgueschen Maß- und Integrationstheorie. Nach Kolmogorow war die Analogie zwischen dem Maß einer Menge und der Wahrscheinlichkeit eines Ereignisses offensichtlich. zwischen den gegenüberliegenden Ecken des einbeschriebenen Dreiecks durch diesen Punkt liegen. Die gesuchte Wahrscheinlichkeit ist demnach der Quotient der Längen des zugehörigen Kreisbogenstücks und des gesamten Kreisbogens p′′ = 1 3 Die Theorie ist heute in sich stimmig. Das bedeutet aber nicht, dass sie auf jede praktische Fragestellung eine eindeutige Antwort gibt. Zunächst einmal existieren zu einem gegebenen Ereignisraum eine Reihe von unterschiedlichen Wahrscheinlichkeitsbelegungen. Es ist dann Aufgabe des Untersuchenden, daraus die der Realität am besten entsprechende auszuwählen. In der Mathematik wird nicht die Natur selbst bearbeitet, sondern ein Modell von ihr. Tatsächlich können aber zu ein- und demselben Problem ganz unterschiedliche Modelle existieren. Das hat schon Joseph Bertrand 1889 in seinem in Paris erschienenen Calcul des Probabilités“ ge” zeigt. Ihm ging es vor allem darum nachzuweisen, dass man mit dem von Laplace übernommenen Begriff der Gleichwahrscheinlichkeit nicht auskommen kann. Er konstruierte das folgende Beispiel 3.5: (Bertrands Paradoxon) Rein zufällig“ wird in einem Kreis eine Sehne ausgewählt. Mit welcher Wahrscheinlichkeit p ” ist sie länger als eine Seite eines dem Kreis einbeschriebenen gleichseitigen Dreiecks? Bertrand fand mehrere verschiedene Lösungen. Sehen wir uns zwei davon an. 1. Lösung: Aus Symmetriegründen genügt es, alle Sehnen senkrecht zu einem Durchmesser zu betrachten (s. Abb. 3.6). Die Wahrscheinlichkeit auf dem Durchmesser einen Punkt auszuwählen, durch den eine Sehne geht, die länger als die Dreiecksseite ist, ergibt sich aus dem Verhältnis der Längen der Durchmesser des Inkreises und des gegebenen (Um–)Kreises: p′ = · 2πr 1 = . 2πr 3 Bertrand entschied sich für die erste Lösung. Tatsächlich beruhen die voneinander abweichenden Ergebnisse auf unterschiedlichen Vorstellungen von gleicher Wahrscheinlichkeit“. ” Im ersten Falle ist das Auswählen von Punkten auf einer Strecke gleich wahrscheinlich, im zweiten das Auswählen von Punkten auf einem Kreis. Aufgabe 3.1: Im Inneren eines Kreises wird rein zufällig“ ein Punkt gewählt und durch ihn diejenige Sehne ” gelegt, die er halbiert (wird der Mittelpunkt gewählt, so kann als Sehne ein beliebiger Durchmesser festgelegt werden). Wie groß ist die Wahrscheinlichkeit dafür, dass die Sehne länger als eine Seite des einbeschriebenen gleichseitigen Dreiecks ausfällt? Jedem Auswahlverfahren können wir einen passenden Wahrscheinlichkeitsraum zuordnen, und welcher dieser Räume das Phänomen zutreffend beschreibt, hängt von dem Zufallsgerät ab, durch das wir die Sehne auswählen lassen. 3.5 Weitere Aufgaben Aufgabe 3.2: Eine Münze vom Durchmesser stand 1 geworfen. r 2 2· 1 = . 2·r 2 41 3.5 Weitere Aufgaben 1 2 wird auf ein großmaschiges Karopapier mit dem Maschenab- (a) Wie groß ist die Wahrscheinlichkeit p1 dafür, dass die Münze keine Maschenecke“ be” deckt? (b) Wie groß ist die Wahrscheinlichkeit p2 dafür, dass kein Punkt einer Linie bedeckt wird? r/2 r Aufgabe 3.3: Drei Punkte a, b, c werden zufällig“ auf einem Kreis ausgewählt. Mit welcher Wahrscheinlich” keit liegen alle drei Punkte auf einem Halbkreis? Aufgabe 3.4: Abb. 3.6 Abb. 3.7 2. Lösung: Aus Symmetriegründen genügt es, alle Sehnen durch einen Punkt der Peripherie zu betrachten (s. Abb. 3.7). Länger als die Dreiecksseite sind diejenigen Sehnen, deren Endpunkte E ⊆ P(Ω) habe folgende Eigenschaften: Ω ∈ E, Zeigen Sie AC ∈ E, falls A ∈ E, [ i∈I Ai ∈ E, falls Ai ∈ E für alle i ∈ I, Iabzählbar. 42 43 3 VON PASCAL BIS KOLMOGOROW - AXIOMATISIERUNG 4 i) ∅ ∈ E, T Ai ∈ E, falls Ai ∈ E für alle i ∈ I, I abzählbar, ii) Folgerungen aus den Axiomen 4.1 i∈I iii) A\B ∈ E für alle A, B ∈ E. Der Satz von Sylvester Satz 4.1: Bemerkung 3.6: Aufgabe 3.4 zeigt, dass zur Definition einer Ereignisalgebra wesentlich weniger Eigenschaften gefordert werden müssen, als wir das in Definition 3.1 getan haben. (a) Die Wahrscheinlichkeit des unmöglichen Ereignisses ist P (∅) = 0 . (b) Für das Komplementärereignis von A ∈ E gilt P (AC ) = 1 − P (A) . (c) Für alle Ereignisse A, B mit A ⊂ B gilt die Monotonieeigenschaft P (A) ≤ P (B) . Aufgabe 3.5: (d) Für alle Ereignisse A, B gilt P (A ∪ B) = P (A ∩ B) + P (A ∩ B C ) + P (AC ∩ B) . Es sei E := {M ⊂ N | M ist endlich oder N \M ist endlich}. Zeigen Sie, dass E keine Ereignisalgebra ist. Beweis: Aufgabe, für Teil (d) vgl. Abb. 4.1. 2 Aufgabe 3.6: Zeigen Sie, dass E aus Aufgabe 3.5 eine Ereignisalgebra wird, wenn in der Definition endlich“ ” durch abzählbar“ ersetzt wird. ” B Aufgabe 3.7: c A B (Ω, E, P ) sei ein Wahrscheinlichkeitsraum. Zeigen Sie: (a) Für jede wachsende Folge von Ereignissen A1 ⊂ A2 ⊂ . . . gilt P (b) Für jede fallende Folge von Ereignissen B1 ⊃ B2 ⊃ . . . gilt P ∞ T ∞ S j=1 j=1 A B c B A A Ω Aj = lim P (Aj ). j→∞ Bj = lim P (Bj ). Abb. 4.1 j→∞ Satz 4.2: (Additionssatz) Für alle Ereignisse A, B eines Ereignisraumes E gilt (vgl. Abb. 4.1) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . Beweis: Aufgabe. 2 Satz 4.3: (Additionssatz für 3 Ereignisse) Für je drei Ereignisse eines Ereignisraumes gilt P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (A ∩ C) + P (A ∩ B ∩ C) Beweis: Aufgabe. 2 44 4 FOLGERUNGEN AUS DEN AXIOMEN Aufgabe 4.1: A und B seien Ereignisse eines Ereignisraumes E mit P (A) = Man bestimme (a) P (A ∪ B) C (b) P (AC ) und P (B C ) C (d) P (A ∪ B ) C (e) P (A ∩ B ) 3 8 , P (B) = 1 2 , P (A ∩ B) = 1 4 . (c) P (AC ∩ B C ) C (f) P (A ∩ B) . 45 4.1 Der Satz von Sylvester Die Sätze 4.2 und 4.3 lassen sich auf jede endliche Anzahl von Ereignissen zum Satz von Sylvester4 verallgemeinern: Satz 4.4: (Satz von Sylvester) n S P P P P Ai = P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) ∓ . . . i=1 i i<j i<j<k · · · + (−1)n−1 P (A1 ∩ A2 ∩ . . . ∩ An ) . Aufgabe 4.2: Eine Blutgruppenuntersuchung von Europäern ergab: 50 % besitzen das Antigen vom Typ α, 11 % besitzen das Antigen vom Typ β, 4 % besitzen Antigene beider Typen. Beweis durch vollständige Induktion nach n: Für n = 1 und n = 2 (Satz 4.2) ist die Aussage richtig. Wieviel Prozent der Bevölkerung besitzen nur das Antigen vom Typ α, nur das Antigen vom Typ β bzw. kein Antigen? Die Aussage sei richtig für n = ℓ. Dann ergibt sich für n = ℓ + 1: P (A1 ∪ . . . ∪ Aℓ+1 ) = P (A1 ∪ . . . ∪ Aℓ ) ∪ Aℓ+1 = P (A1 ∪ . . . ∪ Aℓ ) + P (Aℓ+1 ) − P (A1 ∪ . . . ∪ Aℓ ) ∩ Aℓ+1 X (IV ) X P (Ai ∩ Aj ) ± . . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ ) P (Ai ) − = (n=2) Aufgabe 4.3: Um einen Überblick über die Absatzchancen seiner Produkte zu erhalten, holt sich ein Hersteller Informationen. Er erfährt über das ihn interessierende Gebiet, dass i<j≤ℓ i≤ℓ + P (Aℓ+1 ) − P 86 % der Bevölkerung ein Radiogerät, 69 % ein Fernsehgerät und 63 % beide Geräte angemeldet haben. (IV ) = Wieviel Prozent der Bevölkerung haben demnach keines von beiden Geräten angemeldet? X i≤ℓ P (Ai ) − Aufgabe 4.4: − Eine Zahl wird willkürlich aus der Menge der ersten 300 natürlichen Zahlen ausgewählt. Wie groß ist die Wahrscheinlichkeit, dass diese Zahl durch 5, 6 oder 8 teilbar ist? i<j≤ℓ " P (Ai ∩ Aj ) + X i<j<k≤ℓ (Ar ∩ Aℓ+1 ) r=1 P (Ai ∩ Aj ∩ Ak ) ∓ . . . . . . + (−1)ℓ−1 P (A1 ∩ . . . ∩ Aℓ ) + P (Aℓ+1 ) X X (Ai ∩ Aℓ+1 ) − P (Ai ∩ Aℓ+1 ) ∩ (Aj ∩ Aℓ+1 ) ± . . . i≤ℓ i<j≤ℓ # ℓ \ ℓ−1 (Ar ∩ Aℓ+1 ) . . . + (−1) P r=1 Aufgabe 4.5: Man beweise die Ungleichung P X ℓ [ n S i=1 Ai ≤ eines Wahrscheinlichkeitsraumes (Ω, E, P ). n P = P (Ai ) für beliebige Ereignisse A1 , A2 , . . . , An X i≤ℓ+1 i=1 P (Ai ) − X i<j≤ℓ+1 P (Ai ∩ Aj ) + X i<j<k≤ℓ+1 P (Ai ∩ Aj ∩ Ak ) ∓ . . . . . . + (−1)ℓ P (A1 ∩ . . . ∩ Aℓ ∩ Aℓ+1 ) . 2 Bemerkung 4.1: Bemerkung 4.2: Die Formel gestattet, die Wahrscheinlichkeit eines Ereignisses, das sich als Vereinigung von Ereignissen mit bekannten Wahrscheinlichkeiten ergibt, nach oben abzuschätzen. Sie ist um so besser brauchbar, je kleiner die Wahrscheinlichkeiten P (Ai ) sind. In einem Laplaceschen Wahrscheinlichkeitsraum Ω gilt für jedes Ereignis P (A) = (vgl. Bemerkung 3.4). Eine Anwendungsmöglichkeit bietet Beispiel 2.2 (b). |A| |Ω| Die Formel von Sylvester liefert daher nach Multiplikation mit |Ω| eine Formel für die Mächtigkeit einer Vereinigungsmenge: P P P |A1 ∪ A2 ∪ . . . ∪ An | = |Ai | − |Ai ∩ Aj | + |Ai ∩ Aj ∩ Ak | ∓ . . . + (−1)n−1 |A1 ∩ . . . ∩ An | . i 4 i<j i<j<k England, Determinanten- und Matrizentheorie, algebraische Gleichungen. 46 4.2 4 FOLGERUNGEN AUS DEN AXIOMEN Anwendungen des Satzes von Sylvester 47 4.2 Anwendungen des Satzes von Sylvester Beispiel 4.1: Wir bestimmen die Anzahl der zu 18 teilerfremden natürlichen Zahlen ≤ 18: Die Eulersche Funktion Wegen 18 = 2 · 32 sind die Primteiler p1 = 2 und p2 = 3. Die Eulersche Funktion liefert Wie viele Elemente der Menge Ω = {1, 2, . . . , n} sind zu n teilerfremd? Die Abbildung S : N → N, die jeder Zahl n die Anzahl S(n) der zu n teilerfremden Zahlen zwischen 1 und n zuordnet heißt Eulersche Funktion. Wir suchen nach einer Formel für S(n). Hierzu betrachten wir zunächst die Primfaktorenzerlegung von n mit paarweise verschiedene Primfaktoren pi , i ∈ {1, . . . , r}. Ferner seien mit n |Ai | = , pi Mengenalgebraisch ergibt sich der folgende Zusammenhang: Die Menge der Vielfachen von p1 = 2 ist A1 = {2, 4, 6, 8, 10, 12, 14, 16, 18}; die Menge der Vielfachen von p2 = 3 ist A2 = {3, 6, 9, 12, 15, 18}, und man erhält A1 ∩ A2 = {6, 12, 18} . n = pα1 1 · pα2 2 · . . . · pαr r n Ai = x ∈ Ω pi |x = pi , 2pi , 3pi , . . . , · pi pi 1 1 S(18) = 18 · 1 − · 1− =6. 2 3 Also gilt |A1 ∪ A2 | = |A1 | + |A2 | − |A1 ∩ A2 | = 9 + 6 − 3 = 12 (vgl. Abb. 4.2), und daher i ∈ {1, . . . , r} S(18) = |Ω| − |A1 ∪ A2 | = 18 − 12 = 6 . die Vielfachenmengen der pi . Durch Schneiden ergeben sich für i < j die Vielfachenmengen Ai ∩ Aj = x ∈ Ω pi pj |x n pi pj |Ai ∩ Aj | = mit A1 Allgemein erhält man für i1 < i2 < · · · < im Ai1 ∩ Ai2 ∩ . . . ∩ Aim = x ∈ Ω pi1 pi2 . . . pim |x |Ai1 ∩ . . . ∩ Aim | = mit A2 n . pi1 pi2 . . . pim Ω Die Menge der zu n nicht teilerfremden Zahlen zwischen 1 und n ist A1 ∪ A2 ∪ . . . ∪ Ar = x ∈ Ω pi |x gilt für mindestens ein i , Abb. 4.2 und die Menge der zu n teilerfremden Zahlen ist ihr Komplement. Nach Bemerkung 4.2 hat es die Mächtigkeit Beispiel 4.2: S(n) = |(A1 ∪ . . . ∪ Ar )C | = |Ω \(A1 ∪...∪Ar ) | = |Ω| − |A1 ∪ . . . ∪ Ar | = |Ω| − = n− P 1≤i≤r P 1≤i≤r = n 1− = n 1− = n r Q i=1 |Ai | + n pi P i 1 1 pi + P P i<j 1− . 1 pi pj 1 p2 |Ai ∩ Aj | − 1≤i<j≤r 1≤i<j≤r 1 pi p1 1− + P P 1≤i<j<k≤r |Ai ∩ Aj ∩ Ak | ± . . . . . . + (−1)r |A1 ∩ A2 ∩ . . . ∩ Ar | n pi pj − 1− − 1≤i<j<k≤r P i<j<k 1 p3 P 1 pi pj pk n pi pj pk ± . . . + (−1) · ... · 1 − Das ist die aus der Zahlentheorie bekannte Formel. ± . . . + (−1)r p1 p2n...pr 1 pr r 1 p1 p2 ...pr Die Anzahl der zu 2400 = 25 · 3 · 52 teilerfremden natürlichen Zahlen ≤ 2400 ist 1 1 1 2 4 1 1− 1− = 2400 · · · = 640 . S(2400) = 2400 1 − 2 3 5 2 3 5 Das Bernoulli–Eulersche Problem der vertauschten Briefe Wie groß ist die Wahrscheinlichkeit dafür, n Briefe in die dafür vorbereiteten Umschläge zu tun, ohne dass ein Brief im richtigen Umschlag steckt? Die Menge Ω der möglichen Verpackungen hat die Mächtigkeit |Ω| = n! . Ai sei die Menge derjenigen Verpackungen, bei denen der i–te Brief im richtigen Umschlag liegt. Es gilt |Ai | = (n − 1)! . Für i < j ist dann Ai ∩ Aj die Menge aller Verpackungen, bei denen der i–te und der j–te Brief im richtigen Umschlag sind. Man erhält |Ai ∩ Aj | = (n − 2)! . 48 4 FOLGERUNGEN AUS DEN AXIOMEN Entsprechend ist Ai1 ∩ Ai2 ∩ . . . ∩ Aim die Menge aller derjenigen Verpackungen, bei denen der i1 –te, . . . , im –te Brief im richtigen Umschlag sind. Hier gilt natürlich für i1 < i2 < . . . < im Die gesuchte Wahrscheinlichkeit ist P (A1 ∪ A2 ∪ . . . ∪ An )C . Nach dem Satz von Sylvester ergibt sich unter der Voraussetzung der Gleichmöglichkeit“ aller Verpackungen ” P (A1 ∪ . . . ∪ An ) =1− |A1 ∪ A2 ∪ . . . ∪ An | = 1 − P (A1 ∪ . . . ∪ An ) = 1 − |Ω| X |Ai ∩ Aj | X X |Ai | |Ai ∩ Aj ∩ Ak | + − ± ... |Ω| |Ω| |Ω| 1≤i<j≤n 1≤i≤n 1≤i<j<k≤n . . . + (−1)n |A1 ∩ A2 ∩ A3 ∩ . . . ∩ An | |Ω| X (n − 1)! P (n − 2)! P (n − 3)! 1 + − ± . . . + (−1)n n! n! n! n! 1≤i<j≤n 1≤i<j<k≤n 1≤i≤n n (n − 2)! n (n − 3)! n 1 n (n − 1)! + − ± . . . + (−1)n =1− 2 3 n n! n! n! n! 1 =1− = 1 1 1 1 1 − + − ± . . . + (−1)n · = 0! 1! 2! 3! n! n X k=0 (−1)k k! Für genügend großes n gilt die Näherungsformel n X (−1)k k=0 k! ≈ ∞ X (−1)k k=0 k! 1 (n+1)! , denn für die Leibniz-Reihe gilt die Abschätzung 1 1 1 1 1 1 1 1 −1 − + ∓ . . . (−1)n − + ∓ . . . < . e − = 0! 1! 2! n! (n + 1)! (n + 2)! (n + 3)! (n + 1)! Für n ≥ 5 z.B. unterscheidet sich 1 e 1 27! < 10−28 . Eine Permutation heiße Fixpunktfrei, wenn sie kein Element auf sich abbildet. Bestimmen Sie die Anzahl fn der n–stelligen fixpunktfreien Permutationen. Aufgabe 4.7: 30 Personen nehmen am Weihnachtsfest eines Sportvereins teil. Jeder bringt ein Geschenk mit. Die Geschenke werden in einen Sack getan und vom Weihnachtsmann“ zufällig wieder verteilt. ” Wie groß ist die Wahrscheinlichkeit, dass dabei niemand sein eigenes Geschenk erhält? Aufgabe 4.8: Das Blatt eines Skatspielers, der hoch gereizt hat, ist nur noch zu retten“, wenn er die Pik–7 ” oder den Kreuz–Buben im Skat findet. Wie groß ist die Wahrscheinlichkeit dafür? 4.3 Bedingte Wahrscheinlichkeiten Häufig nimmt man zur leichteren Analyse von zufälligen Vorgängen eine Aufteilung nach verschiedenen Merkmalen vor. Versicherungsgesellschaften möchten z.B. wissen, ob die Verkehrsunfallhäufigkeit auf dem Lande sich von der in Städten unterscheidet. Mediziner interessiert das Herzinfarktrisiko bei Essern, die ungesättigte Fettsäuren bevorzugen, im Vergleich zu Menschen, die ihre Essgewohnheiten nicht kontrollieren. Andere finden interessant, ob die Häufigkeit von Morden in Ländern mit Todesstrafe eine andere ist als in Ländern ohne Todesstrafe. Beispiel 4.4: = e−1 . Dabei bleibt der Fehler unter Der bei dieser Näherungsrechnung gemachte Fehler beträgt weniger als Aufgabe 4.6: |Ai1 ∩ Ai2 ∩ . . . ∩ Aim | = (n − m)! . C 49 4.3 Bedingte Wahrscheinlichkeiten von 1 0! + ... + (−1)5 5! um weniger als 1 6! < 1, 4 · 10−3 . Beispiel 4.3: Wie groß ist die Wahrscheinlichkeit, dass beim zufälligen Anordnen der 26 Buchstaben A – Z kein Buchstabe auf seinen ursprünglichen Platz kommt? Diese Fragestellung ist in der Kryptographie von Bedeutung. Mit der oben entwickelten Formel erhält man die Wahrscheinlichkeit 1 1 1 1 p = − + ± ... + ≈ e−1 ≈ 0, 3679 0! 1! 2! 26! Wir betrachten eine Menge Ω von n erwachsenen Personen. Jede Person soll bei einer zufälligen Auswahl mit der gleichen Wahrscheinlichkeit n1 gezogen werden. Wir betrachten die beiden Ereignisse W : die gewählte Person ist weiblich“und F : die gewählte Person ist farbenblind“. ” ” Man erhält P (W ) = |W | , n P (F ) = |F | , n P (W ∩ F ) = |W ∩ F | . n Für die Anzahl der Frauen gelte |W | > 0. Eine aus W zufällig gewählte Frau ist dann mit der Wahrscheinlichkeit P (F/W ) = |W ∩ F | |W | farbenblind. Wir bezeichnen P (F/W ) als Wahrscheinlichkeit von F unter der Bedingung W“ ” und finden P (F/W ) = |W ∩ F | = |W | |W ∩F | n |W | n = P (W ∩ F ) . P (W ) 50 4 FOLGERUNGEN AUS DEN AXIOMEN Diese Beziehung veranlasst uns, den Begriff der bedingten Wahrscheinlichkeit einzuführen. Dabei handelt es sich um nichts grundsätzlich Neues, sondern nur um eine Abkürzung für einen Quotienten bekannter Größen, die aber sehr nützlich ist. Ist der Anteil der Farbenblinden |Fn | in der gesamten Menge gleich dem entsprechenden Anteil unter den Frauen |W|W∩F| | , so hat Farbenblindheit nichts mit dem Geschlecht zu tun bzw. ist von ihm unabhängig (vgl. S. 59f). In diesem Fall ist P (F/W ) = P (F ). Definition 4.1: (bedingte Wahrscheinlichkeit) A sei ein Ereignis in einem Wahrscheinlichkeitsraum (Ω, E, P ) mit P (A) > 0. Dann heißt P (A ∩ B) P (B/A) = P (A) 51 4.4 Der Multiplikationssatz (a) das andere Kind jünger ist, (b) über das andere Kind nichts bekannt ist. Die Wahrscheinlichkeit für Jungen und Mädchen sollen hierbei als gleich angenommen werden. 4.4 Der Multiplikationssatz Formt man die Formel in Definition 4.1 um, so erhält man Satz 4.6: Für beliebige Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ) gilt die bedingte Wahrscheinlichkeit des Ereignisses B unter (der Bedingung) A. Diesen Begriff können wir folgendermaßen erklären: Wenn wir schon wissen, dass das Ergebnis eines Zufallexperiments in A liegt, fragen wir nach der Wahrscheinlichkeit dafür, dass es auch noch in B liegt. D.h. wir können uns A ⊂ Ω als einen neuen Stichprobenraum vorstellen, in dem wir Ereignisse B ⊂ A betrachten. P (A ∩ B) = P (A) · P (B/A) . Bemerkung 4.3: P (B/A) lässt sich häufig einfacher als P (A∩B) bestimmen, so dass wir eine Formel zur Bestimmung von Wahrscheinlichkeiten von Schnitten gewonnen haben, die sich zudem verallgemeinern lässt. Genaueres regelt Beispiel 4.5: Satz 4.5: Vier unterscheidbare Kugeln werden in sechs Zellen verteilt. Alle 64 Möglichkeiten seien gleichwahrscheinlich. Wie groß ist die Wahrscheinlichkeit dafür, dass die beiden ersten Kugeln in zwei verschiedene Zellen fallen und eine der 6 Zellen genau drei Kugeln enthält? (Ω, E, P ) sei ein Wahrscheinlichkeitsraum und A ∈ E mit P (A) > 0. Es sei EA = {B ∈ E | B ⊂ A} und PA : EA → [0, 1] mit PA (B) := P (B/A). Wir betrachten die Ereignisse A: B: Dann ist (A, EA , PA ) ein Wahrscheinlichkeitsraum. Beweis: Aufgabe. 2 Interessanterweise besteht zwischen der bedingten Wahrscheinlichkeit und der absoluten keine feste größer–kleiner–Relation. Gilt nämlich für zwei Ereignisse A, B = 65 . Ist A eingetreten, gibt es für Gesucht ist P (A ∩ B). Man erhält zunächst P (A) = 6·5 62 die Verteilung der restlichen Kugeln 62 Möglichkeiten, wovon genau 2 das Ereignis B eintreten 1 2 . Also erhält man lassen, d.h. P (B/A) = 2 = 6 18 P (A ∩ B) = P (A) · P (B/A) = P (B/A) > P (B), so ergibt sich für das komplementäre Ereignis C die beiden ersten Kugeln fallen in verschiedene Zellen“, ” eine Zelle enthält genau drei Kugeln“. ” 5 1 5 · = . 6 18 108 Beispiel 4.6: C P (B /A) = 1 − P (B/A) < 1 − P (B) = P (B ). Aufgabe 4.9: Eine Familie hat zwei Kinder, von denen eines ein Junge ist. Man bestimme die Wahrscheinlichkeit dafür, dass das andere Kind ebenfalls ein Junge ist. Dabei setze man voraus, dass Zwei Urnen U1 , U2 gleichen Typs enthalten 2 weiße und 3 blaue bzw. 4 weiße und 5 blaue Kugeln. Wir wählen zunächst zufällig eine Urne aus und ziehen anschließend aus dieser Urne eine Kugel. Wie groß ist die Wahrscheinlichkeit dafür, eine weiße Kugel zu ziehen, die aus der Urne U1 stammt? 52 4 FOLGERUNGEN AUS DEN AXIOMEN Wir zerlegen den Stichprobenraum Ω der 14 Kugeln in zwei disjunkte Ereignisse, nämlich die Kugeln der Urnen U1 und U2 , die beide mit der Wahrscheinlichkeit 12 eintreten (man beachte, dass (Ω, P(Ω), P ) kein Laplace-Wahrscheinlichkeitsraum ist!). W bzw. B seien die Mengen der insgesamt vorhandenen weißen bzw. blauen Kugeln. Ω U1 U2 W 2 4 B 3 5 Abb. 4.3 Bemerkung 4.4: In der Veranschaulichung durch ein Baumdiagramm entspricht die im Multiplikationssatz angegebene Formel gerade der Berechnung von Wahrscheinlichkeiten durch Multiplizieren der ” Wahrscheinlichkeiten entlang der Äste“ des Baums (s. Abb. 4.5). 1/2 W U1 3/5 B U1 U1 4/9 1/2 W U2 U2 B U2 5/9 Abb. 4.4 Ist die erste Urne gewählt worden, so ist die Wahrscheinlichkeit dafür, aus dieser eine weiße Kugel zu ziehen, P (W/U1 ) = 52 . Damit lautet die Antwort auf unsere Frage P (W ∩ U1 ) = P (U1 ) · P (W/U1 ) = P(A3 / A2 P(A2 / A1 ) P(A 1 ) Die Situation lässt sich durch das Baumdiagramm in Abb. 4.4 veranschaulichen. Man beachte, dass die in der zweiten Stufe des Baums angegebenen Wahrscheinlichkeiten bedingte Wahrscheinlichkeiten sind. 2/5 53 4.4 Der Multiplikationssatz A1 A2 A1 ) A1 A3 A2 A1 Abb. 4.5 Beispiel 4.7: Von 200 Schrauben passen 17 nicht. Zwei werden zufällig herausgegriffen. Wie wahrscheinlich ist es, dass man 0 bzw. 1 bzw. 2 passende wählt? Es sei {k} das Ereignis, dass k Schrauben passen. Mit dem Multiplikationssatz erhält man 17 16 · ≈ 0, 0068, 200 199 und daher durch Komplementbildung P ({0}) = P ({2}) = 183 182 · ≈ 0, 8368, 200 199 P ({1}) = 1 − P ({0}) − P ({2}) ≈ 0, 1563. Aufgabe 4.10: 1 2 1 · = . 2 5 5 Von 4 Sicherheitsschlüsseln schließe genau einer. Die Schlüssel werden der Reihe nach probiert. (a) Wie groß ist die Wahrscheinlichkeit dafür, dass der 3. probierte Schlüssel schließt? Wir verallgemeinern nun den letzten Satz. (b) Definieren Sie einen geeigneten Stichprobenraum Ω sowie die Ereignisse Satz 4.7: (Multiplikationssatz) A1 : der zuerst probierte Schlüssel schließt nicht, A2 : der an 2. Stelle probierte Schlüssel schließt nicht, A3 : der an 3. Stelle probierte Schlüssel schließt? Sind A1 , A2 , . . . , An Ereignisse eines Wahrscheinlichkeitsraumes (Ω, E, P ), so gilt P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 /A1 ) · P (A3 /A2 ∩ A1 ) · . . . · P (An /An−1 ∩ . . . ∩ A1 ). Welches der folgenden Ereignisse halten Sie für wahrscheinlicher: Beweis: (durch vollständige Induktion nach n) Für n = 1 und n = 2 ist die Behauptung wahr (s. Satz 4.6). Die Behauptung sei für n = k richtig (Induktionsvoraussetzung). Dann erhält man für n = k+1 P (A1 ∩ . . . ∩ Ak+1 ) = (n=2) = (IV) = P (A1 ∩ . . . ∩ Ak ) ∩ Ak+1 Aufgabe 4.11: P (A1 ∩ . . . ∩ Ak ) · P (Ak+1 /A1 ∩ . . . ∩ Ak ) P (A1 ) · P (A2 /A1 ) · . . . · P (Ak /Ak−1 ∩ . . . ∩ A1 ) · P (Ak+1 /Ak ∩ . . . ∩ A1 ) . 2 (1) Die Mutter hat blaue Augen, wenn die Tochter blaue Augen hat. (2) Die Tochter hat blaue Augen, wenn die Mutter blaue Augen hat. Aufgabe 4.12: Eine Lieferung von 1000 Glühlampen enthält 8 defekte. Drei Lampen werden entnommen und verkauft. Wie groß ist die Wahrscheinlichkeit dafür 54 4 FOLGERUNGEN AUS DEN AXIOMEN 55 4.5 Totale Wahrscheinlichkeit, Satz von Bayes (a) dass diese 3 Lampen defekt sind? 1/3 W I I (b) dass genau zwei dieser 3 Lampen defekt sind? S I 2/3 Hinweis: Man versuche, beide Probleme sowohl mittels des klassischen Wahrscheinlichkeitsbegriffs (Kombinatorik) als auch über den Multiplikationssatz zu bearbeiten. 1/3 1/3 Aufgabe 4.13: Man zeige: Sind A und B Ereignisse eines Wahrscheinlichkeitsraumes, so gilt W II 3/5 S II 4/9 W III 5/9 S III II 1/3 P (A) · P (B/A) = P (B) · P (A/B) . 2/5 III Aufgabe 4.14: Lösen Sie mit Hilfe des Satzes 4.7 das Geburtstagsproblem“ (Beispiel 2.2), wie groß die Wahr” scheinlichkeit dafür ist, dass unter k ≤ 365 Personen mindestens zwei am gleichen Tage Geburtstag haben (ohne Berücksichtigung von Schaltjahren). Hinweis: Numerieren Sie die k Personen, und nennen Sie Ak das Ereignis, dass die k–te Person an einem anderen Tag Geburtstag hat als die k − 1 Personen vor ihr. 4.5 Abb. 4.7 Produkte ist die gesuchte Wahrscheinlichkeit: P (W ) = 53 1 1 1 2 1 4 · + · + · = . 3 3 3 5 3 9 135 Dieses Vorgehen rechtfertigt der nachfolgende Satz. Wir legen vorher einen zur Formulierung benötigten Begriff fest. Totale Wahrscheinlichkeit, Satz von Bayes Definition 4.2: (Klasseneinteilung) Wir betrachten folgendes Beispiel 4.8: Gegeben seien drei Urnen I, II und III, die eine weiße und zwei schwarze, zwei weiße und drei schwarze bzw. vier weiße und fünf schwarze Kugeln enthalten (Abb. 4.6). Es wird zunächst zufällig eine Urne ausgewählt und anschließend aus dieser eine Kugel gezogen. Wie groß ist die Wahrscheinlichkeit dafür, Unter einer Klasseneinteilung eines Stichprobenraumes S versteht man ein System Ai (vgl. Abb. 4.8). {Ai | i ∈ I} von Ereignissen mit Ai ∩ Ak = ∅ für i 6= k und Ω = i∈I I II III W ◦ ◦ ◦ ◦ ◦ ◦ ◦ S • • • • • • • • • • Abb. 4.6 (a) aus der bereits gewählten Urne II eine weiße Kugel zu ziehen, Satz 4.8: (Satz von der totalen Wahrscheinlichkeit) Ist I eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω, so gilt für jedes Ereignis B ⊂ Ω X P (B) = P (Ai ) · P (B/Ai ) . i∈I (b) dass eine gezogene weiße Kugel aus der Urne II stammt, Beweis: (c) eine weiße Kugel zu ziehen? Wir übersetzen das Problem in ein Baumdiagramm, indem wir zunächst die verschiedenen Wahlmöglichkeiten für die Urnen mit ihren Wahrscheinlichkeiten markieren und anschließend die Wahlmöglichkeiten für die Kugeln (Abb. 4.7). Die Antwort auf (a) liest man direkt als P (W/II) = unmittelbar entnehmen. 2 5 ab. (b) kann man dem Diagramm nicht Die Antwort auf (c) lautet: Wir durchlaufen alle Pfade, die mit einer weißen Kugel enden und bilden für jeden Pfad nach Satz 4.7 das Produkt der Wahrscheinlichkeiten. Die Summe der Es ergibt sich durch Anwendung von Satz 4.6 P (B) = P (B ∩ Ω) = P B ∩ S i∈I (∗) P P S P (Ai ) · P (B/Ai ) ; P (B ∩ Ai ) = (B ∩ Ai ) = Ai = P i∈I i∈I hierbei gilt (∗) nach dem 3. Kolmogorowschen Axiom wegen (B ∩ Ai ) ∩ (B ∩ Ak ) = B ∩ (Ai ∩ Ak ) = B ∩ ∅ = ∅ für i 6= k . 2 i∈I 56 4 FOLGERUNGEN AUS DEN AXIOMEN An Aj B A1 Bemerkung 4.5: A2 A3 Ai A4 57 4.5 Totale Wahrscheinlichkeit, Satz von Bayes In der Formel von Bayes heißt P (Aj ) die a priori Wahrscheinlichkeit und P (Aj /B) die a posteriori Wahrscheinlichkeit. Ω Abb. 4.8 Beispiel 4.8: (Fortsetzung) Wir lösen jetzt das in (b) gestellte Problem. Gefragt wird nach der Wahrscheinlichkeit P (II/W ) . Nach dem Satz von Bayes gilt Aufgabe 4.15: Drei Maschinen eines Betriebes stellen gleiche Teile her. Die erste Maschine erzeugt 45 %, die zweite 35 % und die dritte 20 % der Produktion. Der Ausschuss beträgt nach statistischen Erhebungen auf der ersten Maschine 1 %, auf der zweiten 2 % und auf der dritten 3 %. P (II/W ) = = Wie wahrscheinlich ist es, dass ein beliebiges aus diesem Betrieb stammendes Teil zum Ausschuss gehört? Aufgabe 4.16: Ein Kaufhaus verkauft Herrenanzüge, und zwar 25 % große, 54 % mittlere und 21 % kleine Größen. Es müssen 16 % der großen, 12 % der mittleren und 19 % der kleinen Größen geändert werden. Mit welcher Wahrscheinlichkeit muss die Änderungsabteilung einen beliebigen verkauften Anzug bearbeiten? Als einer der ersten interessierte sich der Engländer Bayes dafür, ob man aus dem Ergebnis eines Zufallsexperiments etwas über den zugrundeliegenden Ereignisraum aussagen kann. Beispielsweise stellten wir im Beispiel 4.8 die Frage, mit welcher Wahrscheinlichkeit Urne II gewählt wurde, wenn schon bekannt ist, dass die gezogene Kugel weiß ist. Wie Bayes diese Art von Problemstellung löste, zeigt der folgende Satz. P (II) · P (W/II) P (I) · P (W/I) + P (II) · P (W/II) + P (III) · P (W/III) 1 3 1 3 1 3 · 25 · + · 25 + 31 · 1 3 4 9 = 2 15 53 135 = 18 . 53 Für das Ereignis Urne II wird gewählt“ ist also die a priori Wahrscheinlichkeit P (II) = 31 . ” Die a posteriori Wahrscheinlichkeit d.h. die Wahrscheinlichkeit, nachdem eine weiße Kugel . gezogen wurde, ist P (II/W ) = 18 53 Aufgabe 4.17: Die Zuverlässigkeit einer Tuberkulose-Röntgenuntersuchung sei durch folgende Angaben beschrieben: 90 % aller Tbc–Kranken werden als krank erkannt, 10 % werden für gesund gehalten. 99 % der gesunden Personen werden als solche eingeschätzt, 1 % wird als krank eingestuft. Aus einer großen Bevölkerung, von der 0,1 % Tbc–krank ist, wird bei einer Einstellungsuntersuchung eine Person geröntgt und als Tbc–verdächtig eingestuft. Wie groß ist die Wahrscheinlichkeit, dass diese Person wirklich Tbc–krank ist? Satz 4.9: (Satz von Bayes) I sei eine abzählbare Indexmenge und {Ai | i ∈ I} eine Klasseneinteilung des Stichprobenraumes Ω in Ereignisse. Ist B ein Ereignis mit P (B) 6= 0, so gilt für alle j ∈ I P (Aj /B) = P (Aj ) · P (B/Aj ) P (Aj ) · P (B/Aj ) . =P P (Ai ) · P (B/Ai ) P (B) i∈I Beweis: Aufgabe 4.18: Bei Touristenreisen in tropische Länder mit X–Fiebergefährdung lassen sich durchschnittlich 3 von 4 Personen gegen diese Krankheit impfen. Eine Statistik ergibt: • Von 7 Erkrankten sind durchschnittlich 3 geimpft. • Von 20 Geimpften wird durchschnittlich einer krank. (a) Man stelle ein Baumdiagramm für die Beziehungen zwischen Erkrankung und Impfung auf und trage die aus der Problemstellung bekannten Wahrscheinlichkeiten ein. Die angegebene Formel ergibt sich durch Einsetzen der Darstellung von P (B) aus Satz 4.8 in (b) Man berechne, mit welcher Wahrscheinlichkeit eine nicht geimpfte Person erkrankt. P (Aj ∩ B) P (Aj ) · P (B/Aj ) P (Aj /B) = = .2 P (B) P (B) (c) Kann man die Impfung empfehlen? 58 5 Aufgabe 4.19: Die Kisten mit äußerlich gleichen Feuerwerkskörpern unterschiedlicher Qualität sind vor dem Beschriften durcheinandergeraten. In jeder Kiste sind 100 Stück, und es gibt Kisten mit geringer, mit mittlerer und mit hoher Qualität. Die Anzahlen dieser Kisten verhalten sich wie 1 : 1 : 2. Das Testen eines Feuerwerkskörpers verbraucht ihn. Es wird daher festgesetzt, dass von jeder Kiste zwei Feuerwerkskörper gezündet werden. Auf Grund früherer Erfahrungen schätzt der Hersteller die bedingten Wahrscheinlichkeiten, dabei x defekte Feuerwerkskörper zu entdecken, wie folgt ein: 0 1 2 0,49 0,42 0,09 0,64 0,32 0,04 5.1 Unabhängigkeit Nach der Erklärung der bedingten Wahrscheinlichkeit ist es naheliegend, zwei Ereignisse A und B mit P (B/A) = P (B) unabhängig zu nennen. Um jedoch von der Voraussetzung P (A) > 0 freizuwerden und die Formulierung symmetrisch in A und B vornehmen zu können, setzen wir fest: Definition 5.1: (Unabhängigkeit von 2 Ereignissen) P (A ∩ B) = P (A) · P (B). 0,81 0,18 0,01 Aufgabe 5.1: Wie groß sind demnach die Wahrscheinlichkeiten, dass eine Kiste Feuerwerkskörper geringer, mittlerer bzw. hoher Qualität enthält, wenn beim Test 0, 1, 2 Feuerwerkskörper defekt sind? Zwei Ereignisse A, B mit P (A) 6= 0 sind genau dann unabhängig, wenn P (B/A) = P (B) gilt. Beispiel 5.1: In einer Urne befinden sich hundert von 1 bis 100 durchnumerierte Kugeln. Ai sei das Ereignis, eine Kugel mit einer durch i teilbaren Nummer zu ziehen. Sind die Ereignisse Beispiel 4.9: Hier wird die Bayessche Formel zum Modifizieren subjektiver“ Wahrscheinlichkeiten benutzt. ” Dem Studenten S wird in einer Kneipe von einem Fremden F das Angebot gemacht, die Bezahlung der Zeche von einem Münzwurf abhängig zu machen. F holt eine Münze aus der Tasche und erklärt sich bereit, bei Zahl die Zeche zu übernehmen, bei Kopf soll S zahlen. S schätzt, F könnte mit der Wahrscheinlichkeit p“ ein Gauner sein und mit der Münze so gut ” wie sicher Kopf werfen. A : der Mann betrügt und B : beim Münzwurf fällt Kopf. Die a priori Wahrscheinlichkeit für A ist also (nach Einschätzung von S) P (A) = p. Die Münze wird geworfen; es erscheint Kopf“. Nun modifiziert S die vermutete Wahrschein” lichkeit zu der a posteriori Wahrscheinlichkeit P (A/B) = Unabhängigkeit und Produkträume Zwei Ereignisse A, B heißen unabhängig, wenn gilt Qualität Anzahl x der defekten Feuerwerkskörper gering mittel hoch Sei 59 4 FOLGERUNGEN AUS DEN AXIOMEN P (A) · P (B/A) p·1 = P (A) · P (B/A) + P (AC ) · P (B/AC ) p · 1 + (1 − p) Ein Zahlenbeispiel: p = P (A) = 0, 20 ⇒ P (A/B) = 2 · 0, 20 = 0, 33 . 1 + 0, 20 1 2 = 2p >p. 1+p A4 und A5 bzw. A4 und A6 bzw. A11 und A12 unabhängig? 1 1 1 · = = P (A20 ) = P (A4 ∩ A5 ) 4 5 20 1 16 4 8 P (A4 ) · P (A6 ) = · = 6= = P (A12 ) = P (A4 ∩ A6 ) 4 100 100 100 8 72 9 · = 4 6= 0 = P (∅) = P (A11 ∩ A12 ) . P (A11 ) · P (A12 ) = 100 100 10 P (A4 ) · P (A5 ) = Nur A4 und A5 sind unabhängig. Beispiel 5.2: Für die n Kinder einer Familie gibt es 2n denkbare Geschlechtsausprägungen. Diese betrachten wir als gleichwahrscheinlich. Sind die Ereignisse A: beide Geschlechter sind vertreten“ ” und B: es gibt höchstens ein Mädchen“ ” unabhängig? AC enthält 2 Elemente (alles Mädchen oder alles Jungen), d.h. P (A) = 1 − P (AC ) = 1 − 2 2n . Für B gibt es folgende n + 1 Fälle: Kein Mädchen oder das i–te Kind, i ∈ {1, . . . , n}, ist ein . Mädchen und der Rest Jungen. Also gilt P (B) = n+1 2n 60 5 UNABHÄNGIGKEIT UND PRODUKTRÄUME A ∩ B bedeutet, dass es genau ein Mädchen gibt. Also ist analog P (A ∩ B) = 2nn . , also 2n = 2(n + 1) . A und B sind genau dann unabhängig, wenn gilt 2nn = 1 − 22n · n+1 2n Dies gilt nur für n = 3, d.h. nur in diesem Fall sind A und B unabhängig. 61 5.1 Unabhängigkeit (a) Sie zielen auf verschiedene Hasen. Wie groß ist die Wahrscheinlichkeit dafür, (i) dass beide Hasen getroffen werden, (ii) dass genau ein Hase getroffen wird, (iii) dass mindestens ein Hase getroffen wird? Satz 5.1: Wenn A und B unabhängig sind, dann sind auch folgende Ereignisse unabhängig: (a) A und B C , (b) AC und B, (c) AC und B C . Beweis: (c) P (AC ∩ B C ) = P (A ∪ B)C = 1 − P (A ∪ B) = 1 − P (A) − P (B) + P (A ∩ B) = 1 − P (A) − P (B) + P (A) · P (B) = 1 − P (A) 1 − P (B) = P (AC ) P (B C ) (a) und (b) lassen sich ähnlich begründen. 2 Aufgabe 5.2: Sind P (A) 6= 0 und P (B) 6= 0, so ist P (B/A) = P (B) äquivalent zu P (A/B) = P (A). Aufgabe 5.3: Zwei Jäger geben unabhängig voneinander je einen Schuss auf denselben Hasen ab. Ihre Trefferwahrscheinlichkeiten seien 14 und 31 . Mit welcher Wahrscheinlichkeit wird der Hase getroffen? Man konstruiere einen passenden Stichprobenraum Ω und gebe die Ereignisse der erste Jäger ” trifft“ und der zweite Jäger trifft“ an. ” Aufgabe 5.4: Bei einem alten Ehepaar sei die Wahrscheinlichkeit nach 10 Jahren noch zu leben für den Mann 1 und für die Frau 14 . Das Überleben des Mannes und der Frau seien dabei unabhängig. Wie 5 groß ist die Wahrscheinlichkeit dafür, dass nach 10 Jahren (a) noch beide leben, (b) Wie groß ist die Trefferwahrscheinlichkeit, wenn beide Jäger ihren Schuss auf denselben Hasen abgeben? Definition 5.2: (Unabhängigkeit von n Ereignissen) Die Ereignisse A1 , . . . , An heißen unabhängig, wenn für jede Auswahl Ai1 , . . . , Air von Ereignissen gilt P (Ai1 ∩ Ai2 ∩ . . . ∩ Air ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Air ) . Bemerkung 5.1: Drei oder mehr Ereignisse heißen paarweise unabhängig, wenn je zwei der Ereignisse unabhängig sind. Wie das folgende Beispiel zeigt können Ereignisse paarweise unabhängig sein, ohne unabhängig zu sein. Beispiel 5.3: Ein grüner und ein roter Würfel werden geworfen. Wir betrachten die Ereignisse A1 : der grüne Würfel zeigt 6“, A2 : der rote Würfel zeigt 6“, ” ” A3 : die Summe der Augen beider Würfel ist ungerade“. ” (a) Die drei Ereignisse sind paarweise unabhängig: 1 1 1 P (A1 ∩ A2 ) = P {(6/6)} = = · = P (A1 ) · P (A2 ) 36 6 6 3 1 1 18 P (A2 ∩ A3 ) = P {(1/6), (3/6), (5/6)} = = = · = P (A2 ) · P (A3 ) 36 12 6 36 1 1 18 P (A1 ∩ A3 ) = = · = P (A1 ) · P (A3 ) 12 6 36 (b) höchstens noch einer lebt, (c) keiner mehr lebt, (d) nur noch die Frau lebt, (e) nur noch der Mann lebt? (b) Die drei Ereignisse sind nicht unabhängig: P (A1 ∩ A2 ∩ A3 ) = P (∅) = 0 6= 1 1 1 1 = · · = P (A1 ) · P (A2 ) · P (A3 ) . 72 6 6 2 Aufgabe 5.5: Aufgabe 5.6: Zwei Jäger mit der Trefferwahrscheinlichkeit p1 bzw. p2 geben unabhängig voneinander einen Schuß auf einen Hasen ab. Wieviele Rosinen muss man mindestens in 500 g Teig tun, damit ein 50 g–Brötchen mit 99 %iger Wahrscheinlichkeit mindestens eine Rosine enthält? 62 5 UNABHÄNGIGKEIT UND PRODUKTRÄUME Aufgabe 5.7: Ölbohrungen sind sehr teuer; auf eine fündige Bohrung entfallen 10 nichtfündige. Wieviele Bohrungen muss man niederbringen, um mit mindestens 50 %iger Sicherheit fündig zu werden? Satz 5.2: Sind die Ereignisse A1 , A2 , . . ., An unabhängig, so erhält man wiederum n unabhängige Ereignisse, wenn man eine beliebige Anzahl von ihnen durch ihre Komplemente ersetzt. Das sind gerade die in Beispiel 3.3 angegebenen Wahrscheinlichkeiten. Man beachte, dass dort ein anderer Stichprobenraum verwendet wurde! Aufgabe 5.9: Drei Spieler A, B, C werfen in dieser Reihenfolge eine ideale Münze und fahren hiermit zyklisch fort, bis zum ersten Mal Kopf“ fällt. Der Spieler, der als erstes Kopf“ wirft, hat gewonnen. ” ” Welches sind die Gewinnwahrscheinlichkeiten der drei Spieler? 5.2 Beweis: Wir zeigen zunächst, dass man im Sinne des Satzes A1 durch AC 1 ersetzen kann. Sei {Ai2 , Ai3 , . . ., Aik } mit ij 6= 1, eine Teilmenge der gegebenen Ereignisse. Wegen C P (Ai2 ∩. . .∩Aik ) = P ((A1 ∪AC 1 )∩Ai2 ∩. . .∩Aik ) = P (A1 ∩Ai2 ∩. . .∩Aik )+P (A1 ∩Ai2 ∩. . .∩Aik ) erhält man aus der Unabhängigkeit der Ereignisse P (AC 1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai2 ∩ . . . ∩ Aik ) − P (A1 ∩ Ai2 ∩ . . . ∩ Aik ) = P (Ai2 ) · . . . · P (Aik ) − P (A1 ) · P (Ai2 ) · . . . · P (Aik ) = (1 − P (A1 )) · P (Ai2 ) · . . . · P (Aik ) = P (AC 1 ) · P (Ai2 ) · . . . · P (Aik ) Wie A1 lässt sich auch jedes andere Ereignis Aj durch sein Komplement ersetzen. Sind schon m Ereignisse ersetzt, kann man mit der gleichen Argumentation ein (m + 1)–tes ersetzen (Induktion). 2 Aufgabe 5.8: n Eine Münze werde n–mal geworfen, wobei alle 2 möglichen Elementereignisse gleichwahrscheinlich seien. Sei Ak das Ereignis, dass im k–ten Wurf Zahl“ fällt. Sind die Ak unabhängig? ” Beispiel 5.4: Der Unabhängigkeitsbegriff wurde schon bei der Angabe eines Modells für das Werfen einer Münze bis zum Erscheinen von Kopf“ genannt (vgl. Beispiel 3.3). ” Wenn man Kopf“ mit K und Zahl“ mit Z abkürzt, so enthält der Stichprobenraum Ω als ” ” Ergebnisse die Tupel K, ZK, ZZK, ZZZK, usw. Es sei p die Wahrscheinlichkeit für Kopf“ und q = 1 − p die Wahrscheinlichkeit für Zahl“ ” ” in einem Wurf. Weiterhin sei Aj das Ereignis, dass im j-ten Wurf Zahl“ fällt. Werden die ” einzelnen Würfe unabhängig voneinander ausgeführt, so gilt C n−1 p. P ({Z . ZK}}) = P (A1 ∩ . . . ∩ An−1 ∩ AC n ) = P (A1 ) · . . . · P (An−1 ) · P (An ) = q | . .{z n Zeichen 63 5.2 Produkträume Produkträume Unabhängige Zufallsexperimente sind ein Spezialfall mehrstufiger Zufallsexperimente. Sie lassen sich durch Stichprobenräume beschreiben, die als kartesische Produkte anderer Stichprobenräume darstellbar sind. Wir geben an, wie Wahrscheinlichkeiten auf solchen Produkt” räumen“ erklärt werden. Satz 5.3: Gegeben seien endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n}. n Setzt man im Stichprobenraum Ω := × Ωj für Elementarereignisse mit ω = (ω 1 , . . . , ω n ) ∈ Ω j=1 P P ({ω}), dann P ({ω}) := P1 ({ω 1 }) · . . . · Pn ({ω n }) und für beliebige Ereignisse P (A) := ω∈A ! n n × Ωj , P × Ωj , P ein diskreter Wahrscheinlichkeitsraum ist j=1 j=1 Beweis: Offensichtlich ist Ω als endliche Vereinigung abzählbarer Mengen abzählbar. Die für die Elementarereignisse festgesetzten Wahrscheinlichkeiten sind als Produkt von Wahrscheinlichkeiten nicht-negativ. Nach Satz 3.1 ist also nur zu zeigen, dass sich die Wahrscheinlichkeiten der Elementarereignisse zu 1 aufsummieren. Man erhält X X P ({ω}) = (ω 1 ,...,ω n )∈Ω ω∈Ω = X ω 1 ∈Ω1 P1 ({ω 1 }) · . . . · Pn ({ω n }) = P1 ({ω 1 }) · . . . · X ω n ∈Ωn X ω 1 ∈Ω1 ··· X ω n ∈Ωn P1 ({ω 1 }) · . . . · Pn ({ω n }) Pn ({ω n }) = 1 · . . . · 1 = 1. 2 Definition 5.3: (Produktwahrscheinlichkeitsraum) Für endlich viele diskrete Wahrscheinlichkeitsräume Ωj , P(Ωj ), Pj , j ∈ {1, . . . , n} heißt ! n n × Ωj , P × Ωj , P mit P aus Satz 5.3 Produktwahrscheinlichkeitsraum. j=1 j=1 64 5 UNABHÄNGIGKEIT UND PRODUKTRÄUME Für k = 1 ergibt sich gerade P (Bi ) = Pi (Ai ). Einsetzen liefert schließlich Satz 5.4: Für i ∈ {1, . . . , n} seien Ci ⊂ Ωi Ereignisse. Dann gilt in dem laut Definition 5.3 definierten Produktwahrscheinlichkeitsraum P (C1 × · · · × Cn ) = P1 (C1 ) · . . . · Pn (Cn ). Beweis: n × Ci ) P i=1 65 5.2 Produkträume (K3 ) = X P ({(ω 1 , . . . , ω n )}) = (ω 1 ,...,ω n )∈C1 ×...×Cn = X ω 1 ∈C 1 P1 ({ω 1 }) · . . . · X ω n ∈Cn X ω 1 ∈C1 ,...,ω n ∈Cn Pn ({ω n }) P1 ({ω 1 }) · . . . · Pn ({ω n }) (K3 ) = P1 (C1 ) · . . . · Pn (Cn ) . 2 P (Bj1 ∩ . . . ∩ Bjk ) = P (Bj1 ) · . . . · P (Bjk ) . 2 Bemerkung 5.2: Mit einem Produktraum beschreibt man Zufallsexperimente aus n unabhängigen Versuchen. Diese Situation wurde von bereits in Abschnitt 1.3 unter dem Stichwort mehrstufige Zufallsexperimente betrachtet. Dort legten wir jedoch speziell den klassischen Wahrscheinlichkeitsbegriff zugrunde. Ist Ω1 = . . . = Ωn , also der Wahrscheinlichkeitsraum gleich (Ω1 )n , P (Ω1 )n , P , so spricht man von einem Zufallsexperiment aus n unabhängigen Wiederholungen eines Versuchs. Beispiel 5.6: Jungen– und Mädchengeburten sind nur annähernd gleichverteilt; die Wahrscheinlichkeit für die Geburt eines Jungen ist p = 0, 514. Beispiel 5.5: Es ist klar, dass das Werfen einer Primzahl mit einem Würfel und das Erzielen einer durch 7 teilbaren Zahl mit der Kugel beim Roulettespiel als unabhängige Ereignisse A1 = {2, 3, 5} und A2 = {0, 7, 14, 21, 28, 35} anzusehen sind. Die Gleichung P (A1 ∩ A2 ) = P (A1 ) · P (A2 ) ergibt aber keinen Sinn. Das Ereignis A1 ∩ A2 ist noch nicht einmal erklärt, denn A1 und A2 liegen in verschiedenen Wahrscheinlichkeitsräumen. Um die Unabhängigkeit sinnvoll formulieren zu können, verwenden wir den übergeordneten Raum Ω1 × Ω2 . Es ist A1 ⊂ Ω1 = {1, . . . , 6} und A2 ⊂ Ω2 = {0, . . . , 36}. Wir betrachten A1 × Ω2 und Ω1 × A2 als Ereignisse des Produktstichprobenraums Ω1 × Ω2 . Im zugehörigen Produktwahrscheinlichkeitsraum sind diese Ereignisse dann unabhängig. Eine Verallgemeinerung der angegebenen Konstruktion enthält der folgende Satz. Satz 5.5: Für i ∈ {1, . . . , n} seien Ai ⊂ Ωi Ereignisse. Die Ereignisse Bi = Ω1 × . . . × Ai × . . . × Ωn des n Produktwahrscheinlichkeitsraums werden dadurch gebildet, dass man in × Ωj genau eine j=1 Menge Ωi durch Ai ersetzt. Dann gilt (1) Bi und Ai haben dieselben Wahrscheinlichkeiten, d.h. P (Bi ) = Pi (Ai ) und (2) die Bi sind unabhängig. Welche Wahrscheinlichkeiten haben die möglichen Geschlechtskombinationen in einer Familie mit zwei Kindern, wenn das Geschlecht des zweiten Kindes von dem des ersten unabhängig ist? Sei Ω1 = {J, M } mit P1 ({J}) = p. In Ω = Ω1 × Ω1 gilt mit q = 1 − p P ({(J, J)}) = p2 = 0, 5142 ≈ 0, 264 2 P ({(M, M )}) = q = (1 − 0, 514)2 ≈ 0, 236 P ({(J, M )}) = pq = 0, 514 · (1 − 0, 514) ≈ 0, 250 = P ({M, J}) . Das Beispiel lässt sich verallgemeinern. Beispiel 5.7: Ein Zufallsexperiment habe nur zwei mögliche Ergebnisse: Erfolg und Misserfolg, bezeichnet durch 1 und 0. Die zugehörigen Wahrscheinlichkeiten seien P1 ({1}) = p und P1 ({0}) = 1 − p = q . Das Experiment werde n–mal wiederholt, wobei die Wiederholungen unabhängig sein sollen. Man spricht von einem Bernoullischen Versuchsschema. Jedem Versuch gibt man den Stichprobenraum Ω1 = {0, 1} mit den oben angegebenen Wahrscheinlichkeiten. Den n–fach wiederholten Versuch beschreibt der Produktraum e = Ω1 × . . . × Ω 1 = Ω 1 n . Ω Oft interessiert man sich für die Wahrscheinlichkeit, in n Versuchen genau k Erfolge zu erzielen, d.h. in dem n–Tupel genau k–mal die 1 anzutreffen. Beweis: Wir wenden Satz 5.4 auf eine Auswahl Bj1 , . . . , Bjk der Ereignisse B1 , . . . , Bn an: P (Bj1 ∩ Bj2 ∩ . . . ∩ Bjk ) = P (Ω1 × . . . × Aj1 × . . . × Ajk × . . . × Ωn ) = P1 (Ω1 ) · . . . · Pj1 (Aj1 ) · . . . · Pjk (Ajk ) · . . . · Pn (Ωn ) = Pj1 (Aj1 ) · . . . · Pjk (Ajk ) . Ein Elementarereignis bestehend aus einem derartigen Tupel hat wegen der Unabhängigkeit die Wahrscheinlichkeit pk · q n−k . Dabei ist die Reihenfolge der Einsen und Nullen innerhalb des Tupels belanglos, da stets k–mal der Faktor p und (n − k)–mal der Faktor q auftritt. Nun gibt es nk verschiedene n–Tupel aus k Einsen und n − k Nullen (vgl. Satz 2.8 (a)). Deshalb ist die gesuchte Wahrscheinlichkeit n k n−k p q , k ∈ {0, 1, . . . , n}. bn,p (k) := pk = k 66 67 5 UNABHÄNGIGKEIT UND PRODUKTRÄUME Die hierdurch auf Ω = {0, 1, . . . , n} definierte Funktion bn,p heißt Binomialverteilung. Sie wird in Kapitel 7 eingehend betrachtet. Das angegebene Modell eignet sich zur Lösung des Problems des Chevalier de Méré (S. 5f): Beispiel 5.8: 6 Diskrete Zufallsgrößen Vielfach interessieren bei gewissen Untersuchungen nicht die Objekte des Stichprobenraumes Ω, sondern diesen zugeordnete Zahlenwerte. Beispiel 6.1: Wie groß ist die Wahrscheinlichkeit, Die Kuchenbrötchen einer Backserie sollen eine gewisse Mindestzahl von Rosinen enthalten. Zu Untersuchungszwecken definiert deshalb der Mathematiker auf der Menge der Brötchen eine Funktion X, die jedem Brötchen die Anzahl der in ihm enthaltenen Rosinen zuordnet. (a) bei 4 Würfen mit einemWürfel mindestens eine Sechs zu werfen; (b) bei 24 Würfen mit zwei Würfeln mindestens eine Doppelsechs zu werfen? zu (a): Wir verwenden die Binomialverteilung mit n = 4 und der Erfolgswahrscheinlichkeit p = 16 , mit einem Wurf eine 6 zu werfen. pi sei die Wahrscheinlichkeit des Ereignisses Ai , mit n = 4 Würfen genau i Sechsen zu erzielen. Dann ist die gesuchte Wahrscheinlichkeit α=P 4 S i=1 4 4 4 P P P Ai = P (Ai ) = pi = i=1 i=1 i=1 4 i 1 i 6 5 4−i 6 6.1 Zufallsgrößen und Wahrscheinlichkeitsfunktionen . Definition 6.1: (Zufallsgröße) Man erhält sie einfacher über das Gegenereignis: 4 1 0 5 4 625 671 1 α = 1 − p0 = 1 − =1− = ≈ 0, 5177 > . 0 6 6 1296 1296 2 zu (b): Entsprechend erhält man hier mit n = 24 und der Erfolgswahrscheinlichkeit p = Doppelsechs zu werfen 35 24 1 1 0 35 24 24 =1− ≈ 0, 4914 < . β = 1 − p0 = 1 − 36 36 36 2 0 5.3 Wir wollen im folgenden nun solche Funktionen von einem Stichprobenraum Ω in die Menge R der reellen Zahlen genauer untersuchen. Gegeben sei ein Wahrscheinlichkeitsraum (Ω, E, P ). Eine Abbildung X:Ω→R 1 36 eine Vermischte Aufgaben Aufgabe 5.10: 24 % der männlichen und 10 % der weiblichen Bewerber an einer Hochschule möchten einen Studienplatz der Ingenieurwissenschaften. 40 % der Bewerber seien Frauen. Wie groß ist die Wahrscheinlichkeit dafür, dass ein per Zufall vergebener Studienplatz der Ingenieurwissenschaften an eine Frau fällt? heißt Zufallsgrösse oder Zufallsvariable, wenn das Urbild jeder reellen Zahl und jedes reellen Intervalls zur Ereignisalgebra E gehört. Da sich die Brötchenserie für eine einführende Betrachtung nicht gut eignet, gehen wir zu einem einfacheren Beispiel über. Beispiel 6.2: Bei einem Spiel werden zwei (echte) Würfel geworfen, und das Doppelte der Summe der Augen wird als Gewinn ausgeschüttet. Auf Ω = {(i, j) | i, j ∈ {1, 2, . . . , 6}} definieren wir die Zufallsgröße X:Ω→R, (i, j) 7→ 2(i + j) , Aufgabe 5.11: wobei E = P(Ω) gewählt wird. Drei Würfel werden wiederholt geworfen. Das Spiel endet, wenn zum 2. Mal die Summe der Augen größer als 15 ist. Mit welchen Wahrscheinlichkeiten endet es nach 1, 2, 3, . . . Würfen? Man macht sich in diesem Falle leicht klar, dass die Urbilder reeller Zahlen und reeller Intervalle zu E gehören, wie das in Definition 6.1 gefordert wird. Aufgabe 5.12: Aufgabe 6.1: Wir werfen wiederholt drei Münzen und hören auf, wenn 2 Münzen Zahl“ und eine Kopf“ ” ” zeigen. X −1 (M ) sei das Urbild von M bzgl. X aus Beispiel 6.2. Man bestimme Konstruieren Sie geeignet einen Stichprobenraum Ω und eine Ereignisalgebra E und geben Sie eine sinnvolle Wahrscheinlichkeitsbelegung p : E → R an. X −1 ({8}), X −1 ({10, 14}), X −1 ({0, 4, 6}), X −1 (∅), X −1 ([20, 30[), X −1 (R), X −1 (R− ) . 68 6 DISKRETE ZUFALLSGRÖSSEN 69 6.1 Zufallsgrößen und Wahrscheinlichkeitsfunktionen p(x) Da laut Definition 6.1 die Urbilder von Zahlen und Intervallen Ereignisse sind, kann jeder Zahl und jedem Intervall die Wahrscheinlichkeit zugeordnet werden, mit der X auf diese Zahl bzw. in dieses Intervall abgebildet wird. Wir betrachten zunächst die Urbilder von Zahlen. 6/36 5/36 Für eine Zufallsgröße X : Ω → R ist X −1 ({x}) = {ω ∈ Ω | X(ω) = x} für jedes x ∈ R ein Ereignis, dem die Wahrscheinlichkeitsbelegung P eine Wahrscheinlichkeit zuordnet. Damit gehört zu jedem x ∈ R eine Wahrscheinlichkeit. Diese Zuordnung ist allerdings nur für diskrete Zufallsgrößen sinnvoll. 4/36 3/36 2/36 Definition 6.2: (diskrete Zufallsgröße) 1/36 Eine Zufallsgrösse X heißt diskret, wenn sie nur abzählbar viele Werte annimmt. 4 8 Jede auf einem diskreten Stichprobenraum definierte Zufallsgröße ist demnach diskret. 12 20 16 24 x Abb. 6.1 Definition 6.3: (Wahrscheinlichkeitsverteilung diskreter Zufallsgrößen) Satz 6.1: Die Funktion X sei eine diskrete Zufallsgröße, welche die paarweise verschiedenen Werte x1 , x2 , x3 , . . . (und nur diese) annehme. Dann gilt für die Wahrscheinlichkeitsfunktion p von X X p(xj ) = 1 . p : R → [0, 1] mit p(x) := P (X = x) := P ({ω ∈ Ω | X(ω) = x}) heißt Wahrscheinlichkeitsfunktion oder Wahrscheinlichkeitsverteilung oder auch kurz Verteilung der diskreten Zufallsgröße X. j Beweis: Beispiel 6.3: Wir zeigen an unserem Würfelbeispiels 6.2 die Entstehung einer Wahrscheinlichkeitsverteilung. Für i 6= k ist xi 6= xk und deshalb {ω ∈ Ω | X(ω) = S xi } ∩ {ω ∈ Ω | X(ω) = xk } = ∅. Andererseits wird jedes ω ∈ Ω auf ein xj abgebildet, d.h. {ω | X(ω) = xj } = Ω, und daraus j x = X((i, j)) 4 6 8 10 ... X −1 ({x}) {(1, 1)} {(1, 2), (2, 1)} {(1, 3), (2, 2), (3, 1)} {(1, 4), (2, 3), (3, 2), (4, 1)} ... p(x) = P (X = x) 1 36 2 36 3 36 4 36 ... Bilder der Zufallsgröße zugehörige Urbilder Wahrscheinlichkeitsverteilung auf R ` ´ = P X −1 ({x}) j Man beachte, dass die Wahrscheinlichkeitsverteilung aus Wahrscheinlichkeiten von Urbildmengen besteht. Für alle x ∈ R, die nicht als Bilder unter X auftreten, ist die Menge der Urbilder leer und deshalb p(x) = 0. Die vollständige Wahrscheinlichkeitsfunktion bei unserem Würfelbeispiel lautet p : R → [0, 1] , x 6 − | 2 − 7| für x ∈ {4, 6, 8, . . . , 22, 24} , 36 p(x) = 0 sonst . Abb. 6.1 zeigt den Graphen. folgt nach den Axiomen K1 und K3 X X P (X = xj ) = P (Ω) = 1 . 2 p(xj ) = j Beispiel 6.4: (Geometrische Verteilung) Wirft man eine Münze so lange bis Kopf“ fällt, kann man Ω = {K, ZK, ZZK, ZZZK, . . . } ” setzen (vgl. auch Beispiel 5.4). Um zu notieren, wie lange man jeweils braucht, kann man jedem Ergebnis die Anzahl der Würfe bis zum Erfolg zuordnen: X:Ω→R mit X(ZZ . . ZK}) = x . | .{z x Zeichen Tritt das Ereignis Kopf“ bei einem Wurf mit der Erfolgswahrscheinlichkeit p ein (0 < p < 1) ” und ist die Gegenwahrscheinlichkeit q = 1 − p, so erhält man nach Beispiel 5.4 als Wahrscheinlichkeitsfunktion der Zufallsgröße X die geometrische Verteilung: ( x−1 q p für x ∈ N , p : R → [0, 1] , p(x) = P (X = x) = 0 sonst . 70 6 DISKRETE ZUFALLSGRÖSSEN Aufgabe 6.2: Bei einer Lotterie befinden sich in einer verdeckten Urne 4 weiße und 6 schwarze Kugeln gleicher Konsistenz. 4 Kugeln werden gleichzeitig entnommen. Man erhält bei 4 3 2 Kugeln gleicher Farbe Kugeln gleicher Farbe Kugeln gleicher Farbe 71 6.2 Erwartungswert, Varianz und Streuung In der folgenden Definition wird diese Idee noch verallgemeinert: Es wird angegeben, wie nicht nur der Erwartungswert der Zufallsgröße X selbst, sondern auch der Erwartungswert einer auf X definierten Funktion g zu berechnen ist. Definition 6.4: (Erwartungswert diskreter Zufallsgrößen) 13 Gewinnpunkte, 11 Gewinnpunkte, 2 Gewinnpunkte. Finden Sie eine passende Zufallsgröße X und die zugehörige Wahrscheinlichkeitsfunktion p. X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , x3 , . . . , und p sei die zugehörige Wahrscheinlichkeitsfunktion. Dann heißt P µ = E(X) = xi p(xi ). i 6.2 Erwartungswert oder Mittelwert von X, falls Erwartungswert, Varianz und Streuung i Viele Prozesse unseres Lebens beschäftigen sich mit Gewinn und Verlust (Industrieproduktion, landwirtschaftliche Produktion, Verkehrswesen, Theaterveranstaltungen, Spielbank). Im Beispiel 6.2 werden beim Würfelspiel 2(i + j) Punkte pro Wurf an den würfelnden Spieler ausgeschüttet“ (1 ≤ i, j ≤ 6). Wird jeder Punkt durch die Bank“ mit einem gewissen ” ” Geldbetrag belohnt, so muss der Bankhalter die durchschnittliche Anzahl der erzielten Punkte kennen, um die Spieleinsätze entsprechend festsetzen zu können. Die 36 Würfelergebnisse (i, j) sind gleichwahrscheinlich. Man kann daher, um den Durchschnittswert zu ermitteln, so tun, als ob unter 36 Würfen jedes Ergebnis genau einmal vorkommt. Das bedeutet, bei 36 Würfen werden an den Spieler durchschnittlich 1–mal 2–mal 4 6 Punkte Punkte .. . 6–mal 14 Punkte .. . 1–mal 24 Punkte = 2 · (1 + 1) = 2 · (1 + 2) = 2 · (2 + 1) = 2 · (1 + 6) = · . . . · = 2 · (6 + 1) 4· + 6· + 16 + 8· + 18 + 10 · + 20 · 4 36 3 36 + 12 · + 22 · 5 36 2 36 + 14 · + 24 · 6 36 1 36 i Erwartungswert von g(X), sofern P i |g(xi )| p(xi ) existiert (konvergiert). Ist speziell g(x) = xk , k ∈ N, so spricht man vom Moment k–ter Ordnung von X und schreibt µk := E(X k ). Bemerkung 6.1: X sei eine diskrete Zufallsgröße auf einem Stichprobenraum Ω und g : X(Ω) → R eine Funktion. Beweisen Sie, dass die Verkettung Y = g ◦ X eine Zufallsgröße ist. Punkte. Der Durchschnittswurf erbringt demnach 3 36 4 · 36 Ist g eine auf {x1 , x2 , . . . } definierte Funktion, dann heißt die Zahl P E g(X) := g(xi )p(xi ) Aufgabe 6.3: = 2 · (6 + 6) 1 · 4 + 2 · 6 + 3 · 8 + 4 · 10 + 5 · 12 + 6 · 14 + 5 · 16 + 4 · 18 + 3 · 20 + 2 · 22 + 1 · 24 = 504 2 36 5 · 36 |xi | p(xi ) exisitiert (konvergiert). Die Voraussetzung der absoluten Konvergenz ist erforderlich, da sie beliebige Umordnungen der Reihe erlaubt und somit E g(X) nicht von der Reihenfolge abhängt, in der die Zahlen g(xi )p(xi ) addiert werden. ausgeschüttet (man vergleiche hierzu Beispiel 6.3 und Abbildung 6.1). Insgesamt sind das 1 36 P Der in Definition 6.4 erklärte Erwartungswert von g(X) ist daher der Erwartungswert der Zufallsgröße Y . Untersuchen Sie, ob die Existenz von E(X) die von E(Y ) = E(g(X)) impliziert. Beispiel 6.5: Max besitzt 108 Euro, Moritz 106 Euro. Max schlägt vor, eine Münze zu werfen. Fällt Kopf, verliert Moritz 106 Euro, fällt Zahl, gewinnt er 107 Euro. = 504 36 = 14 Punkte. Will die Bank auf lange Sicht keine Verluste machen, muss sie mindestens ein Äquivalent zu 14 Punkten pro Wurf als Einsatz fordern. Ein Vergleich mit der Abb. 6.1 zeigt, wie sich die 14 Punkte ergeben: man multipliziert die möglichen Punktzahlen mit ihren Wahrscheinlichkeiten, addiert diese Produkte und erhält so den zu erwartenden Gewinn“ oder kurz den Erwartungswert des Gewinns“. ” ” Moritz hat eine Gewinnerwartung von E(X) = −106 Euro · 21 + 107 Euro · 12 = 4, 5 · 106 Euro. Das Spiel ist für Moritz sehr günstig. Dennoch sollte er es ablehnen, da er mit der Wahrscheinlichkeit 21 ruiniert wird. Gibt X die möglichen Gewinne bei einem Glücksspiel an, so nennt man das Spiel günstig, wenn E(X) > 0, fair, wenn E(X) = 0, ungünstig, wenn E(X) < 0 72 6 DISKRETE ZUFALLSGRÖSSEN ist. Wie das obige Beispiel zeigt, ist es nicht immer klug, jedes günstige Spiel zu spielen. Die Sicherung einer guten Existenz ist unter Umständen ruinösem Gewinnstreben vorzuziehen. Beispiel 6.6: Das folgende Problem entstand im 2. Weltkrieg in den USA, als Millionen von Rekruten in kurzer Zeit ärztlich untersucht werden mussten. Der Anteil q einer Bevölkerung habe eine Krankheit, die durch Blutuntersuchung festgestellt werden kann. Der Anteil p = 1 − q hat die entsprechenden Merkmale nicht im Blut. Wir vergleichen zwei Untersuchungsverfahren: 1. Einzelprüfung: Jeder wird einzeln untersucht, und man braucht einen Test pro Person. 2. Gruppenprüfung: Das Blut von k Personen wird vermischt und untersucht. Bei der Gruppenprüfung sind mit der Wahrscheinlichkeit pk alle gesund, und man braucht nur diesen einen Test. Mit der Wahrscheinlichkeit 1 − pk ist mindestens einer krank. In diesem Falle wird jeder der Gruppe einzeln untersucht, und man braucht insgesamt k + 1 Tests. Gibt Xk die Anzahl der notwendigen Blutanalysen pro Gruppe von k Personen an, so ist E(Xk ) = 1 · pk + (k + 1) (1 − pk ) = k + 1 − kpk . Pro Person braucht man also durchschnittlich 1+ k1 −pk Analysen. Die Einsparung im Vergleich zur Einzelprüfung ist daher pk − 1 . k Für welches k ist die Ersparnis maximal? Das hängt von p ab. Zunächst muss 1 p > k k oder 1 p> √ k k sein, damit überhaupt etwas eingespart werden kann. 1 √ k k hat für k = 3 das Minimum 0, 693. Daher muss p > 0, 693 sein. Für solche p ist p3 − 1 1 > p2 − . 3 2 Eine Zweiergruppe ist daher nie optimal. Für 0, 693 < p < 0, 876 ist die optimale Gruppengröße kopt = 3. Es sei z.B. p = 0, 9. Dann zeigt die folgende Tabelle den optimalen Fall kopt = 4 mit einer Ersparnis von fast 41%: k (0, 9)k − 1 k 2 3 4 5 0, 31 0, 396 0, 406 0, 390 Entsprechend ergibt sich die Übersichtstabelle: 73 6.2 Erwartungswert, Varianz und Streuung p 0, 7 0, 8 0, 85 0, 90 0, 91 0, 92 0, 93 0, 94 0, 95 0, 96 0, 97 0, 98 kopt 3 3 3 4 4 4 4 5 5 6 6 8 0, 99 11 Ersparnis in % 15 18 28 41 44 47 50 53 57 62 67 73 80 Wenn 1% der Bevölkerung krank ist (p = 0, 99), dann spart man 80%, wenn man Elfergruppen bildet. Das war die Ersparnis bei den US–Rekruten, die auf Syphilis getestet wurden. Beispiel 6.7: Bei gesunden Menschen beträgt der Blutdruck etwa 120 (mm Hg). Eine Arzneimittelfirma lässt zwei Medikamente A und B zur Regulierung des Bluthochdruckes über 180 (mm Hg) klinisch testen. Gleiche Dosen reduzieren die Werte auf die in den folgenden Tabellen unter xA und xB angegebenen Ergebnisse. Bei beiden Medikamenten entspricht der Erwartungswert dem Normalwert. Ist trotzdem ein Mittel vorzuziehen? xA p(xA ) xA p(xA ) xA − µA 105 0, 02 2, 10 −15 110 115 120 125 130 135 0, 08 0, 15 0, 46 0, 23 0, 04 0, 02 µA = E(XA ) = 120, 00 8, 80 17, 25 55, 20 28, 75 5, 20 2, 70 −10 −5 0 5 10 15 (xA − µA )2 p(xA ) 4, 50 100 25 0 25 100 225 σA2 = V (XA ) = 30, 5 xB p(xB ) xB p(xB ) xB − µB 105 0, 04 4, 2 −15 110 0, 09 9, 9 −10 115 0, 16 18, 4 −5 120 0, 40 48, 0 0 125 0, 20 25, 0 5 130 0, 07 9, 1 10 135 0, 04 5, 4 15 µB = E(XB ) = 120, 00 (xA − µA )2 225 (xB − µB )2 225 100 25 0 25 100 225 σB2 = V (XB ) = 43 8, 00 3, 75 0, 00 5, 75 4, 00 4, 50 σA = p V (XA ) = 5, 5 (xB − µB )2 p(xB ) 9 9 4 0 5 7 9 σB = p V (XB ) = 6, 6 Um diese Frage zu beantworten, berechnen wir zunächst in Spalte 4 die Abweichungen vom Mittelwert. Der Erwartungswert dieser Differenzen ist 0 (warum?) und daher kein geeignetes Maß für die durchschnittliche Abweichung vom Mittelwert. Eine sinnvolle Größe wäre der Erwartungswert des Betrages dieser Differenz. 74 6 DISKRETE ZUFALLSGRÖSSEN Man hat sich aber für eine andere Vorgehensweise entschieden und betrachtet die als Varianz bezeichnete mittlere quadratische Abweichung vom Mittelwert, d.h. den Erwartungswert von (X − µ)2 . Die Standardabweichung definiert man als Wurzel der Varianz. Definition 6.5: (Varianz und Streuung) Es sei X eine diskrete Zufallsgröße, die die Werte x1 , x2 , . . . annimmt. p sei ihre Wahrscheinlichkeitsfunktion und E(X) = µ ihr Erwartungswert. Dann heißt der Erwartungswert der Funktion g(X) = (X −µ)2 , falls er exisitiert, die Varianz V (X) der Zufallsgröße X. Man bezeichnet sie auch durch P σ 2 := V (X) := E(X − µ)2 = (xi − µ)2 p(xi ) . i p Die Wurzel σ = V (X) aus der Varianz heißt Streuung oder Standardabweichung. Beide Medikamente besitzen denselben Erwartungswert, das Medikament A wirkt jedoch wegen der geringeren Streuung zuverlässiger und ist deshalb vorzuziehen. 6.3 Die Verteilungsfunktion 75 6.3 Die Verteilungsfunktion Satz 6.2: X : Ω → R sei eine diskrete Zufallsgröße mit paarweise verschiedenen Werten x1 , x2 , . . . und der Wahrscheinlichkeitsverteilung p : R → [0, 1]. Dann gilt für die Verteilungsfunktion F : R → [0, 1] P F (x) = p(xi ) . xi ≤x Beweis: Für xi 6= xk gilt {ω | X(ω) = xi } ∩ {ω | X(ω) = xk } = ∅, also [ X X F (x) = P (X ≤ x) = P {ω | X(ω) = xi } = P ({ω | X(ω) = xi }) = p(xi ). 2 xi ≤x xi ≤x Beispiel 6.8: Die Graphen in Abb. 6.2 zeigen für das Medikament B die Wahrscheinlichkeitsverteilung p und die Verteilungsfunktion F . Die Sprunghöhen von F stimmen mit den von 0 verschiedenen Werten von p überein. 1,0 p(x) 1,0 0,9 Häufig interessiert man sich für die Wahrscheinlichkeit, mit der die Werte einer Zufallsgröße X unterhalb (oder oberhalb) einer gewissen Schranke x bleiben. Wir fragen beispielsweise nach der Wahrscheinlichkeit, mit der im Beispiel 6.7 bei einem mit den Substanzen A bzw. B behandelten Patienten der Blutdruck höchstens den Normwert von 120 mm Hg erreicht. Aus der Tabelle auf Seite 73 lesen wir (für B) ab: P (XB ≤ 120) = P xB ≤120 0,8 0,6 0,5 0,5 0,4 0,4 0,3 0,2 0,2 0,1 (Ω, E, P ) sei ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsgröße. Dann heißt die durch mit 0,7 0,6 x 105 110 x 7→ F (x) := P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x}) erklärte Abbildung Verteilungsfunktion der Zufallsgröße X. F ist wohldefiniert, da nach der Definition einer Zufallsgröße die Menge {ω ∈ Ω | X(ω) ≤ x} als Urbild des reellen Intervalls ] − ∞, x] ein Ereignis in E darstellt und infolgedessen eine Wahrscheinlichkeit besitzt. 115 120 125 130 135 0,1 R Abb. 6.2 a Definition 6.6: (Verteilungsfunktion) F : R → [0, 1] 0,8 0,7 Die gesuchte Wahrscheinlichkeit ist also eine Summe von Werten der Wahrscheinlichkeitsfunktion. Wir wollen diese Vorgehensweise verallgemeinern. F(x) 0,9 0,3 p(xB ) = 0, 04 + 0, 09 + 0, 16 + 0, 40 = 0, 69 . xi ≤x x 105 110 115 120 125 130 135 R Abb. 6.2 b Satz 6.3: X : Ω → R sei eine Zufallsgröße und F : R → [0, 1] die zugehörige Verteilungsfunktion. Dann gilt P (a < X ≤ b) = P ({ω ∈ Ω | a < X(ω) ≤ b}) = F (b) − F (a) . Beweis: Es gilt {ω ∈ Ω | X(ω) ≤ a} ∩ {ω ∈ Ω | a < X(ω) ≤ b} = ∅ und {ω ∈ Ω | X(ω) ≤ a} ∪ {ω ∈ Ω | a < X(ω) ≤ b} = {ω ∈ Ω | X(ω) ≤ b}. 76 6 DISKRETE ZUFALLSGRÖSSEN Daraus folgt nach (K3 ) die Behauptung, denn P (X ≤ a) + P (a < X ≤ b) = P (X ≤ b). 2 Beweis: P j Satz 6.4: Weiterhin gilt lim F (x) = 1 und lim F (x) = 0. x→−∞ Beweis: Für a ≤ b gilt nach Satz 6.3 F (b) − F (a) = P (a < X ≤ b) ≥ 0, d.h. F wächst monoton. monoton wächst, folgt lim F (x) = lim F (j) = lim P (Aj ) = P x→∞ Setzt man Bj = X −1 j→∞ j=1 j→∞ j→∞ Aufgabe 6.4: ∞ T j=1 j j j Aj = Ω. Da F Man kann umgekehrt auch zeigen, dass die Varianz genau dann existiert, wenn E(X) und E(X 2 ) existieren. j=1 Aj = P (Ω) = 1. (] − ∞, −j]), dann gilt offenbar B1 ⊃ B2 ⊃ . . . und folgt lim F (x) = lim F (−j) = lim P (Bj ) = P x→−∞ j→∞ ∞ S ∞ S P 2 P P xj p(xj ) − 2µ xj p(xj ) + µ2 p(xj ) Bemerkung 6.3: Zum Beweis der anderen Teile verwenden wir Aufgabe 3.7: Setzt man Aj = X −1 (] − ∞, j]), dann gilt offenbar A1 ⊂ A2 ⊂ . . . und (xj − µ)2 p(xj ) = ist für endlich viele Summanden klar; die Gleichung gilt auch, wenn über unendlich viele j summiert wird, denn die Existenz der Reihe unmittelbar rechts des Gleichheitszeichens ist durch die vorausgesetzte Existenz der übrigen Reihen gesichert. Es gilt daher V (X) = E (X − µ)2 = E(X 2 ) − 2µE(X) + µ2 · 1 = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − E 2 (X). 2 Jede Verteilungsfunktion F : R → [0, 1] ist monoton wachsend. x→∞ 77 6.4 Ergänzungen und Aufgaben Bj = P (∅) = 0. 2 Satz 6.6: ∞ T j=1 Bj = ∅, woraus X sei eine diskrete Zufallsgröße mit der Wahrscheinlichkeitsfunktion p : R → [0, 1]. Es existiere E(X) und V (X). Dann existieren für a, b ∈ R Erwartungswert und Varianz von aX + b, und es gilt E(aX + b) = aE(X) + b ; Man drücke P (a < X) durch F aus. Beweis: V (aX + b) = a2 V (X) ; σaX+b = |a| σX . Aufgabe. 2 Bemerkung 6.2: Man beachte: Wahrscheinlichkeitsfunktion und Wahrscheinlichkeitsverteilung sind dasselbe, aber nicht zu verwechseln mit der Verteilungsfunktion. Die Wahrscheinlichkeitsverteilung ist nur für diskrete Zufallsgrößen erklärt. Definition 6.6 für die Verteilungsfunktion ist dagegen für alle Zufallsgrößen anwendbar. Die beiden letzten Sätze 6.3 und 6.4 sind dann für alle Zufallsgrößen gültig. 6.4 Ergänzungen und Aufgaben Satz 6.7: X sei eine diskrete Zufallsgröße auf Ω und g1 , g2 zwei auf X(Ω) definierte Funktionen, deren Erwartungswerte E g1 (X) und E g2 (X) existieren. Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt E (g1 (X) + g2 (X)) = E g1 (X) + E g2 (X) . Beweis: Aufgabe. 2 Satz 6.5: X sei eine diskrete Zufallsgröße mit den Werten x1 , x2 , . . . und p ihre Wahrscheinlichkeitsfunktion. 2 Existieren der Erwartungswert µ = E(X) und die Varianz V (X), so existiert auch E(X ), und es gilt V (X) = E(X 2 ) − E 2 (X) = E(X 2 ) − µ2 . Aufgabe 6.5: Die Spielbank B von Bad Salzberg beabsichtigt, folgendes Glücksspiel spielen zu lassen: Ein Reißnagel wird dreimal nacheinander geworfen. Fällt er dabei zweimal nacheinander auf den Dorn d, so erhält der Spieler S das Sechsfache seines Einsatzes, andernfalls nichts. Die Bank behält in beiden Fällen den Einsatz. Sie sind beauftragt, für die Bank ein Gutachten anzufertigen, und lassen den Reißnagel testen. Als (statistische) Wahrscheinlichkeit für die Dornlage ergibt sich P1 ({d}) = 0, 3. Die Tellerlage t hat demnach P1 ({t}) = 0, 7. 78 6 DISKRETE ZUFALLSGRÖSSEN 79 6.4 Ergänzungen und Aufgaben Geben Sie für das Spiel einen geeigneten Stichprobenraum Ω an. nacheinander ohne Zurücklegen gezogen. Die Bank will das Spiel mit einem Einsatz von 100 Euro spielen lassen. Konstruieren Sie eine passende Zufallsgröße X und geben Sie die zugehörige Wahrscheinlichkeitsfunktion an. Für jede weiße Kugel erhalten Sie 1 Euro, für jede schwarze müssen Sie 1 Euro zahlen. Das Spiel darf nach jedem Durchgang abgebrochen werden. Berechnen Sie den Erwartungswert, die Varianz und die Streuung. Ist das Spiel für die Bank günstig? Aufgabe: 6.6 Abb. 6.4 Wie oft muss man im Mittel eine ideale Münze werfen, bis Kopf erscheint? Welches ist die für Sie günstigste Spielstrategie? Aufgabe 6.7: In Urne 1 befinden sich drei weiße und zwei schwarze, in Urne 2 je eine weiße und eine schwarze Kugel (s. Abb. 6.3). Im Dunkeln wird aus Urne 1 eine Kugel gezogen und in Urne 2 gelegt. Dann wird ebenso Hinweis: Bestimmen Sie zunächst für jeden möglichen Zwischenstand die Gewinnerwartung des Spielers für den Fall, dass er weiterspielt. Aufgabe: 6.11 (Petersburger Paradoxon5 ) Eine Münze wird geworfen, bis Kopf erscheint. Für die Wartezeit X (= Anzahl der Würfe) erhalte man den Gewinn g(X) = 2X . Berechnen Sie die Gewinnerwartung E(g(X)). Aufgabe 6.12: U2 U1 Abb. 6.3 aus Urne 2 eine Kugel gezogen und in Urne 1 gelegt. Nun werden aus Urne 1 drei Kugeln gleichzeitig herausgegriffen. X gebe die Anzahl der darunter befindlichen weißen Kugeln an. Eine ideale Münze wird solange geworfen, bis zum ersten Male Kopf erscheint oder bis 9–mal Zahl erschienen ist. X und g(X) = 2X seien wie oben erklärt. (a) Berechnen Sie den Erwartungswert E g(X) . (b) Berechnen Sie den Erwartungswert, wenn 9 durch n ersetzt wird. Ermitteln Sie die zugehörige Wahrscheinlichkeitsfunktion p(x) = P (X = x) und berechnen Sie E(X) und V (X). Aufgabe 6.13: Aufgabe 6.8: Eine Münze mit der Erfolgswahrscheinlichkeit p für Kopf“ wir so lange geworfen, bis Kopf“ ” ” zum ersten Male erscheint. X und g(X) seien wie oben erklärt. Siglinde Kühn glaubt zu wissen, wie sie ihr Bafög verstärken kann. Immer nach Erhalt ihrer 364 Euro geht sie in die Spielbank und setzt 1 Euro auf einfache Chance. Gewinnt sie, hört sie auf; verliert sie, setzt sie das Dreifache auf einfache Chance usw. Welche Gewinnerwartung hat sie? Wie stark streuen die Ergebnisse? (a) Bestimmen Sie E g(X) und V g(X) . Für welche p sind diese Ausdrücke sinnvoll? (b) Sie spielen das Spiel gegen die Spielbank von Bad Salzberg, welche maximal 2n auszahlt und für die Wurfanzahlen X > n nichts gibt. Welche Gewinnerwartung hat man, wenn von den Einsätzen pro Wurf abgesehen wird? Was ergibt sich speziell für p = 21 ? Aufgabe 6.9: In amerikanischen Spielkasinos und auf Rummelplätzen findet sich folgendes Spiel: Der Spieler setzt auf eine der Zahlen 1, 2, 3, 4, 5, 6. Dann werden drei Würfel geworfen. Erscheint seine Zahl 1–, 2– oder 3–mal, erhält er das 1–, 2– oder 3–fache seines Einsatzes und dazu den Einsatz zurück. Andernfalls verliert er den Einsatz. (c) Wie groß ist die Gewinnerwartung, wenn die Bank für X > n auch 2n auszahlt? Was ergibt sich nun für p = 21 ? Berechnen Sie E(X), wenn X den Spielgewinn für 1 Dollar Einsatz angibt. Aufgabe 6.10: Eine Urne enthält zwei weiße und drei schwarze Kugeln (s. Abb. 6.4). Die Kugeln werden 5 von Daniel Bernoulli 80 7 81 7 DIE BINOMIALVERTEILUNG Die Binomialverteilung x=0 Wiederholt betrachteten wir Bernoulli-Experimente, d.h. Experimente mit nur zwei möglichen Ausgängen: Münzwurf (Zahl oder Kopf), Mensch-ärgere-Dich-nicht-Spiel (6 fällt oder fällt nicht), Ölbohrung (Erfolg oder Misserfolg), Rosinenbrötchen (mit oder ohne Rosine). Bezeichnen wir bei jedem Versuch den Erfolg mit 1 und den Misserfolg mit 0, so besteht bei n Versuchen der Stichprobenraum aus n–tupeln von Nullen und Einsen: n Ω = × Ω1 = (Ω1 )n , ν=1 ω 7→ X(ω) = x zählen lässt. X ist dann nach Beispiel 5.7 binomialverteilt, d.h. es gilt P (X = x) = bn,p (x). Definition 7.1: (Binomialverteilung) Für n ∈ N und p ∈ [0, 1], q = 1 − p heißt bn,p : R → [0, 1] mit n px q n−x für x ∈ {0, . . . , n}, x bn,p (x) = 0 sonst. für m, n ∈ N0 mit m + n ≥ 1 und 0 ≤ p ≤ 1, q = 1 − p. n X 2n + 1 (b) Nach Jacob Bernoulli, der sich als erster genauer mit Serien von Zufallsexperimenten mit nur zwei mögliche Ergebnissen befasste, heißt die Binomialverteilung auch Bernoulliverteilung. Aufgabe 7.1: n P Satz 7.1: Zählt X die Anzahl der Erfolge unter n unabhängig wiederholten Bernoulli-Experimenten der Erfolgswahrscheinlichkeit p, so ist der Erwartungswert von X µ = E(X) = np . Beweis: n n n X X x n x−1 n−x n x n−x X n x n−x p q p q = np x p q = x n x x x x=1 x=1 x=0 x=0 n−1 n X X n − 1 x n−1−x n − 1 x−1 n−x p q = np (p + q)n−1 = np . 2 p q = np = np x x−1 x=0 x=1 E(X) = Lösen Sie das verallgemeinerte Pacioli–Problem (vgl. S. 6): A trägt einen Wettkampf gegen B aus, der aus einer Serie von Spielen besteht. In jedem Spiel besitze A die Erfolgswahrscheinlichkeit p. A gewinne genau dann, wenn er m Spiele gewinnt, bevor er n verliert. Mit welcher Wahrscheinlichkeit siegt A, mit welcher B? Man beweise die folgenden Identitäten n X x bn,p (x) = Bei n unabhängig wiederholten Bernoulli-Experimenten der Erfolgswahrscheinlichkeit p ist die Streuung der Zufallsvariablen X, die die Anzahl der Erfolge zählt p √ σ = V (X) = npq mit q = 1 − p . Beweis: bn,p (x) = 1 hat. x=0 Aufgabe 7.3: = 4n . Satz 7.2: Bemerkung 7.1: Aufgabe 7.2: x x=0 Binomialfunktion oder Binomialverteilung. Zeigen Sie, dass die Binomialfunktion die Eigenschaft n−1 X m + n − 1 x m+n−1−x m + n − 1 x m+n−1−x q p = 1 p q + x x x=0 Die Werte der Binomialfunktion sind für verschiedene n, x und p in Tabellen zusammengefasst. Eine solche Tabelle findet sich im Anhang ab Seite 224. Ω1 = {0, 1} . Dabei habe jeder einzelne Versuch die Erfolgswahrscheinlichkeit p, und die Versuche seien unabhängig. Häufig interessiert die Anzahl x der Erfolge bei n Versuchen, die man durch eine Zufallsgröße X:Ω→R, m−1 X (a) Wir verwenden einen gängigen Trick“ und berechnen zunächst ” n n X X n x n−x x(x − 1) x(x − 1) bn,p (x) = p q E X(X − 1) = x x=0 x=0 = n(n − 1) p2 = n(n − 1) p2 n n X X n − 2 x−2 n−x n x−2 n−x x x−1 p q p q = n(n − 1) p2 · · x−2 x n n−1 x=2 x=2 n−2 X n−2 x=0 x px q n−2−x = n(n − 1) p2 (p + q)n−2 = n(n − 1) p2 . 82 83 7 DIE BINOMIALVERTEILUNG Hieraus folgt nach Satz 6.5 und Satz 6.7 σ 2 = V (X) = E(X 2 ) − E 2 (X) = E X(X − 1) + E(X) − E 2 (X) = n(n − 1)p2 + np − n2 p2 = np(1 − p) = npq. 2 Satz 7.3: Die Binomialfunktion bn,p : R → [0, 1], nimmt ihr Maximum im Intervall [(n + 1)p − 1, (n + 1)p] = [np − q, np + p] an, also in einem Intervall der Länge 1, das den Erwartungswert µ = np enthält. Aufgabe 7.4: Bestimmen Sie die Varianz der Binomialverteilung, indem Sie direkt von der Definition ausgehen, d.h. ohne Verwendung des Satzes 6.5. Beispiel 7.1: Die Binomialfunktion bn,p für n = 16 und p = 0, 55 hat den Mittelwert µ = 8, 8 und das (einfache) Streuintervall [µ − σ, µ + σ] ≈ [6, 8; 10, 8], da die Streuung σ ≈ 1, 99 beträgt. Die Funktion ist in Abb. 7.1 graphisch dargestellt. Typisch für die Binomialverteilung ist, dass b 16;p=0,55 (x) 0,20 Beweis: Aufgabe. 2 Aufgabe 7.5: Begründen Sie, dass die Binomialfunktion bn,p für ungerades n und p = Stellen annimmt. 1 2 ihr Maximum an zwei Aufgabe 7.6: A gewinne gegen B mit der (statistisch gewonnenen) Wahrscheinlichkeit p = 0, 6. (a) Wie wahrscheinlich ist es, dass A von 6 Begegnungen mindestens 4 gewinnt? 0,19 (b) X zähle die Anzahl der Erfolge von A. Bestimmen Sie die Verteilungsfunktion F von X und zeichnen Sie ihren Graphen. 0,18 0,17 0,16 Beispiel 7.2: 0,15 Die Kantine einer Behörde bietet zum Frühstück helle und dunkle Brötchen an. Erfahrungsgemäß werden 50 Brötchen verlangt, darunter 10 dunkle. Der Wirt bestellt deshalb genau 40 helle und 10 dunkle Brötchen. 0,14 0,13 0,12 Setzen Sie voraus, dass wirklich 50 Brötchen verlangt werden und dass die Nachfrage nach den dunklen (hellen) Brötchen Bernoulli-verteilt ist. 0,11 0,10 0,09 (a) Wie groß ist die Wahrscheinlichkeit, dass die dunklen (hellen) Brötchen nicht ausreichen? 0,08 (b) Eine möglichst große Anzahl der Kunden soll zufriedengestellt werden. Wieviele dunkle bzw. helle Brötchen müssen mindestens eingekauft werden, damit die Nachfrage nach dunklen bzw. nach hellen Brötchen jeweils mit 95 % iger Sicherheit befriedigt werden kann? 0,07 0,06 0,05 0,04 0,03 Wir beantworten (a), (b) für die dunklen Brötchen: 0,02 0,01 x 0,00 0 1 2 3 µ = 8,8 4 5 7 6 σ = 1,99 8 9 10 11 12 13 14 15 16 [ µ−σ , µ+σ ] = [ 6,8 ; 10,8 ] Abb. 7.1 ihre von 0 verschiedenen Werte zuerst monoton wachsen und dann monoton fallen. Das ergibt sich als Nebenergebnis aus dem Beweis des folgenden Satzes. (a) P (X > 10) = 1 − P (X ≤ 10) = 1 − 10 P x=0 50 x 0, 2x · 0, 850−x = 1 − 0, 58355 = 0, 41645 . Das bedeutet, dass die 10 Schwarzbrötchen fast an jedem zweiten Morgen nicht ausreichen. (b) Wir suchen die kleinstmögliche Anzahl y von Brötchen die bestellt werden müssen, damit der Bedarf mit mindestens 95 % Sicherheit gedeckt werden kann, d.h. P (X ≤ y) = y P x=0 50 x 0, 2x · 0, 850−x ≥ 0, 95, y minimal. 84 85 7 DIE BINOMIALVERTEILUNG Mit dem Tabellenausschnitt in Abb. 7.2 erhält man y = 15, denn 14 P x=0 n 50 k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Aufgabe 7.7: 50 x 0, 2x · 0, 850−x = 0, 93927 p=0,20 0,00001 0,00018 0,00109 0,00437 0,01284 0,02953 0,05537 0,08701 0,11692 0,13641 0,13982 0,12711 0,10328 0,07547 0,04986 0,02992 0,01636 0,00818 0,00375 0,00158 0,00061 0,00022 0,00007 0,00002 0,00001 0,00000 p=0,25 0,00000 0,00001 0,00008 0,00041 0,00161 0,00494 0,01234 0,02586 0,04634 0,07209 0,09852 0,11942 0,12937 0,12605 0,11104 0,08884 0,06478 0,04318 0,02639 0,01482 0,00765 0,00365 0,00160 0,00065 0,00024 0,00008 p=0,30 0,00000 0,00003 0,00014 0,00055 0,00177 0,00477 0,01099 0,02198 0,03862 0,06019 0,08383 0,10502 0,11895 0,12235 0,11470 0,09831 0,07725 0,05576 0,03704 0,02268 0,01281 0,00668 0,00322 0,00144 und 15 P x=0 p=0,35 0,00000 0,00001 0,00004 0,00017 0,00058 0,00168 0,00422 0,00931 0,01823 0,03190 0,05020 0,07144 0,09233 0,10875 0,11712 0,11562 0,10485 0,08751 0,06731 0,04778 0,03132 0,01897 0,01062 .. . 50 x dingungen rechnen muss. Es erscheint plausibel anzunehmen, dass bei n Versuchen mit der Erfolgswahrscheinlichkeit p eben auch der Anteil p an Erfolgen eintritt. 0, 2x · 0, 850−x = 0, 96919. p=0,40 0,00000 0,00001 0,00005 0,00017 0,00053 0,00144 0,00349 0,00756 0,01474 0,02597 0,04155 0,06059 0,08079 0,09874 0,11086 0,11456 0,10910 0,09588 0,07781 0,05836 0,04046 p=0,45 0,00000 0,00001 0,00004 0,00014 0,00043 0,00114 0,00272 0,00589 0,01157 0,02070 0,03388 0,05082 0,07002 0,08880 0,10379 0,11194 0,11150 0,10263 0,08733 p=0,50 0,00000 0,00001 0,00003 0,00011 0,00032 0,00083 0,00200 0,00437 0,00875 0,01603 0,02701 0,04186 0,05980 0,07883 0,09596 0,10796 0,11228 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 Abb. 7.2 Man berechne Beispiel 7.2 für die hellen Brötchen. Aufgabe 7.8: Ein Lederwarenhändler möchte Kunde einer Lederhandschuhfirma werden, die versichert hat, dass höchsten 5 % ihrer Erzeugnisse zu Beanstandungen Anlass geben. Der Händler bestellt zur Probe 20 Paare und prüft sie. Wie soll er sich entscheiden, wenn 0, 1, 2 Paare Mängel aufweisen? Wie groß ist jeweils die Wahrscheinlichkeit, dass er dem Lieferanten Unrecht tut, wenn er nicht bei ihm Kunde wird? Eine naheliegende Frage ist, mit wieviel defekten Paaren der Händler unter den obigen Be- Oft ist für ein Bernoulli-Experiment die Erfolgswahrscheinlichkeit p nicht bekannt. Will man z.B. für den Ausgang eines sportlichen Wahlkampfes eine Prognose geben, so muss man p schätzen. Das gelingt am einfachsten, wenn man auf eine Serie von Begegnungen derselben Kontrahenten zurückgreifen kann. Man setzt dann p gleich der relativen Häufigkeit, mit der der Erfolg eingetreten ist (das meinten wir, als wir weiter oben von statistisch gewonnener Wahrscheinlichkeit p sprachen). Natürlich begeht man in der Regel einen Fehler, wenn man statt der tatsächlichen Wahrscheinlichkeit p die durch eine Versuchsserie ermittelte relative Häufigkeit eines Erfolges benutzt. Das ist schon deshalb klar, weil Versuchsserien gleicher Länge normalerweise unterschiedliche Anzahlen von Erfolgen aufweisen werden. Das Verfahren wird gerechtfertigt indem wir zeigen, dass sich die relativen Häufigkeiten bei genügender Serienlänge mit großer Wahrscheinlichkeit kaum von p unterscheiden. Das ist die qualitative Formulierung des Bernoullischen Gesetzes der großen Zahlen. Wir wollen nun eine quantitative Version geben. Satz 7.4: (Gesetz der grossen Zahlen von Bernoulli) Die Erfolgswahrscheinlichkeit in einem Bernoulliexperiment sei p ∈ (0, 1). Die Zufallsgröße X gebe Anzahl der Erfolge bei n–maliger Versuchswiederholung an. Dann erfüllt die relative Häufigkeit X 1 P − p ≤ ε > 1 − n 4nε2 X n der Erfolge für alle ε > 0 und X lim P − p ≤ ε = 1. n n→∞ Beweis: Wir beweisen zunächst die komplementäre Aussage P Xn − p > ε < P Xn − p > ε = P n Xn − np > nε = P (|X − np| > nε) = 1 : 4nε2 P P (X = x) . |x−np|>nε Aus der Ungleichung unter dem Summenzeichen ergibt sich (nε)2 < (x − np)2 oder 1 < für alle x, über die summiert wird. Damit folgt P Xn − p > ε ≤ n (x − np)2 P (x − np)2 P (X = x) ≤ P (X = x) 2 (nε) (nε)2 x=0 |x−np|>nε n 1 npq pq 1 P (x − µ)2 bn,p (x) = V (X) = 2 2 = = (nε)2 x=0 (nε)2 nε nε2 (x−np)2 (nε)2 P nach Satz 7.2. Die zweite Vergrößerung ergibt sich dadurch, dass man die Einschränkung für die x fallenlässt und einfach über alle x summiert. Allerdings können nicht beide Ungleichungen mit Gleichheit erfüllt sein: 86 87 7 DIE BINOMIALVERTEILUNG Die erste Ungleichung ist nur dann mit Gleichheit erfüllt, wenn die Menge der x, über die summiert wird, leer ist, die zweite, wenn die Menge der x, über die zusätzlich summiert wird, leer ist oder nur x = np enthält. Es wird aber über die zwei Werte x = 0 insgesamt mindestens pq und x = n summiert. Daher gilt sogar P Xn − p > ε < nε 2. Da pq = p(1 − p) für p = q = 1 2 den kleinstmöglichen Wert 1 pq P Xn − p > ε < ≤ , nε2 4nε2 1 4 8 Weitere diskrete Verteilungen Als Beispiele diskreter Wahrscheinlichkeitsfunktionen lernten wir bisher die Binomialverteilung und die Geometrische Verteilung kennen. Die erstere wurde ausführlich diskutiert. annimmt, erhält man weiter X 1 d.h. P − p ≤ ε > 1 − . n 4nε2 Die Grenzwertfassung folgt hieraus wegen 1 ≥ P (| Xn − p| ≤ ε) . 2 8.1 Die geometrische Verteilung Geometrisch verteilte Zufallsgrößen treten immer dann auf, wenn bei einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p > 0 die Anzahl der benötigten Versuche bis zum ersten Erfolg gezählt wird (vgl. Beispiel 6.4). Bemerkung 7.2: Satz 7.4 besagt, dass die Wahrscheinlichkeit p = P (A) eines Ereignisses A durch die relative Häufigkeit eines Bernoulli-Experiments approximiert werden kann, wobei die Wahrscheinlichkeit dafür, dass rn (A) wirklich in der Nähe von p liegt, mit n wächst. Eine gewisse Wahrscheinlichkeit, dass man einen groben Fehler begeht, wenn man p := rn (A) setzt, bleibt allerdings auch bei langen Versuchsserien bestehen. Aufgabe 7.9: Buffon erzielte bei 4040 Münzwürfen 2048 Erfolge ( Zahl“). Bestimmen Sie ein möglichst ” kleines Intervall, das mit 95 % iger Sicherheit die Erfolgswahrscheinlichkeit p für den Einzelwurf überdeckt. Aufgabe 7.10: Ein Reißnagel wir 30–mal auf ein Blatt Papier geworfen. Dabei bleibe er 12–mal mit der Spitze nach unten und 18–mal mit der Spitze nach oben (also auf dem Kopf) liegen. Welche Erfolgswahrscheinlichkeit pe sollte man nach diesen Ergebnissen für die Kopflage annehmen? Welche Sicherheit gibt das Bernoullische Gesetz der großen Zahl dafür, dass der gewählte Näherungswert pe wirklich nahe an p liegt? Aufgabe 7.11: Wir setzen den Einsatz a. Dann wird der Glücksgenerator (s. Abb. 7.3) n-mal gedreht. Jedesmal, wenn 3 erscheint, wird der vorhandene Einsatz verdreifacht, wenn 13 erscheint, wird er gedrittelt. Xn gebe an, was wir schließlich herausbekommen. (a) Wie groß ist E(X2 )? (b) Wie groß ist E(Xn )? 1 3 Definition 8.1: (geometrische Verteilung) Die Funktion g : R → [0, 1] mit ( p q x−1 für x ∈ N, g(x) = 0 sonst mit 0 < p ≤ 1 und q = 1 − p heißt geometrische Verteilung zum Parameter p. Aufgabe 8.1: X sei eine geometrisch verteilte Zufallsgröße mit dem Parameter p > 0. (a) Bestimmen Sie den Mittelwert E(X) und die Varianz V (X). (b) Bestimmen Sie die Werte der Verteilungsfunktion F von X (summensymbolfreie Form). Aufgabe 8.2: Es sei X eine geometrisch verteilte Zufallsgröße. Zeigen Sie, dass für alle k, n ∈ N0 gilt P (X > n + k / X > k) = P (X > n) (∗) ( der Zufall hat kein Gedächtnis“). ” Interpretieren Sie diese Formel anhand eines geeigneten Spiels (Würfeln, Lotto). Aufgabe 8.3: Es sei X eine Zufallsgröße mit Werten in N, die die Eigenschaft (∗) aus Aufgabe 8.2 hat. Zeigen Sie, dass X geometrisch verteilt ist. 3 (c) Bestimmen Sie lim E(Xn ). 8.2 Die hypergeometrische Verteilung Wir beginnen mit einem praktischen Beispiel. n→∞ Abb. 7.3 Gegeben seien N Glühbirnen, darunter K nicht funktionsfähige, also Ausschuss. Die Wahr. scheinlichkeit, zufällig eine unbrauchbare herauszugreifen, ist p = K N 88 8 WEITERE DISKRETE VERTEILUNGEN Zieht man einzeln, wirft aber jede gezogene Birne sofort zurück, rührt um und zieht erneut, so ergibt sich die Wahrscheinlichkeit, bei n–maligem Ziehen mit Zurücklegen genau x unbrauch bare Birnen zu erhalten, durch die Binomialverteilung bn,p (x) = nx px q n−x . Normalerweise will jedoch niemand so vorgehen. Man möchte ohne Zurückzulegen ziehen und die unbrauchbaren Objekte sofort isolieren. Welches mathematische Modell wird diesem Verfahren gerecht? Wir verallgemeinern zunächst die Problemstellung. Eine Menge von N Elementen zerfalle in zwei Klassen von K und N −K Objekten. Es wird eine Stichprobe von n Elementen entnommen, wobei jede der Nn möglichen Stichproben gleichwahrscheinlich sei. −K Es gibt Kx Möglichkeiten, aus den K Elementen genau x auszuwählen und Nn−x Möglich K N −K keiten, von den N − K Objekten n − x zu wählen. Daher gibt es x n−x verschiedene Stichproben, die genau x Elemente aus der ersten und n − x Elemente aus der zweiten Teilmenge enthalten. Die Wahrscheinlichkeit dafür, dass in einer zufällig genommenen Stichprobe genau x von den (K )(N −K ) K Elementen sind, ist demnach h(x) = x Nn−x . (n) Beweis: n n K N −K P P ( x )( n−x ) Für die Wahrscheinlichkeiten h(x) muss gelten h(x) = = 1 . Multipliziert man (Nn ) x=0 x=0 N mit n , so ergibt sich die angegebene Formel. 2 Satz 8.2: Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat den Erwartungswert E(X) = n E(X) = = = (∗) = hypergeometrische Verteilung mit den Parametern N, K, n. Wir werden jetzt den Erwartungswert und die Streuung einer hypergeometrisch verteilten Zufallsgröße X bestimmen. Dabei ist folgende Gleichung von Vandermonde6 sehr hilfreich. Satz 8.1: (Vandermondesche Konvolution) Für alle Zahlen N, K, n ∈ N0 mit n ≤ N und K ≤ N gilt X n N N −K K = . n n−x x x=0 6 Paris, Gleichungslehre, Determinantentheorie. n X x=0 Für N, K, n ∈ N0 mit n ≤ N und K ≤ N heißt die Funktion h : R → [0, 1] mit K N −K ( x )( n−x ) für x ∈ {0, 1, . . . , n}, (Nn ) h(x) := 0 sonst Man beachte, dass in der Definition durchaus x > K oder n − x > N − K sein darf. Die entsprechenden Binomialkoeffizienten verschwinden dann, so dass sich in beiden Fällen h(x) = 0 ergibt. K = np , N wobei p = K . N Beweis: Definition 8.2: (hypergeometrische Verteilung) Bemerkung 8.1: 89 8.2 Die hypergeometrische Verteilung 1 N n x· K x n X x=1 N −K n−x N n x· K x = n X x=1 x· K x N −K n−x N n K − 1 (N − 1) − (K − 1) x−1 (n − 1) − (x − 1) n−1 K X K − 1 (N − 1) − (K − 1) · N (n − 1) − x x n x=0 K N −1 K K · = np . = N = n N N n−1 n n Hierbei wurde an der mit (∗) bezeichneten Stelle die Vandermondesche Konvolution für die Parameter N − 1, K − 1 und n − 1 verwendet. 2 Der Erwartungswert beim Ziehen ohne Zurücklegen ist also genauso groß wie beim Ziehen mit Zurücklegen (Binomialverteilung). Satz 8.3: Eine hypergeometrisch verteilte Zufallsgröße X mit den Parametern N, K, n hat die Varianz K K N −n N −n K V (X) = n · 1 − = npq , wobei p = und q = 1 − p . N N N −1 N −1 N Beweis: Wir wenden wieder den bekannten Trick an und berechnen zunächst 90 8 WEITERE DISKRETE VERTEILUNGEN 91 8.3 Die Poissonverteilung annähern. Dies soll in der folgenden Aufgabe bewiesen werden. E X(X − 1) = n X x=0 = = (∗) = x(x − 1) K x N −K n−x N n Aufgabe 8.4: Man beweise, dass die hypergeometrische Verteilung für N ≫ n durch die Binomialverteilung approximiert wird. 1 K (K − 1) K − 2 (N − 2) − (K − 2) x (x − 1) N (n − 2) − (x − 2) x (x − 1) x − 2 n x=2 n X Anleitung: Man bestimme in der in Bemerkung 8.2 angegebenen Darstellung für festes n, x, p und q den Grenzwert lim h(x). N →∞ n−2 X K − 2 (N − 2) − (K − 2) K(K − 1) N (n − 2) − x x n x=0 N −2 n n−1 1 K(K − 1) = K(K − 1) · · . N n − 2 N N −1 n 1 8.3 Hierbei gilt (∗) nach der Vandermondeschen Konvolution mit um 2 erniedrigten Werten. Mit Satz 6.5 und Satz 6.7 folgt weiter V (X) = E(X 2 ) − (E(X))2 = E X(X − 1) + E(X) − (E(X))2 2 K K n n−1 · +n − n = K(K − 1) · N N −1 N N = n· K (K − 1)(n − 1)N + (N − 1)N − nK(N − 1) · N (N − 1)N N −n N −1 Wir lernen jetzt eine Wahrscheinlichkeitsfunktion kennen, die sich besonders gut zur Beschreibung seltener Ereignisse in einem sehr oft wiederholten Experiment eignet. Theoretisch muss man hier die Binomialverteilung verwenden. Allerdings ist die praktische Berechnung der Werte wegen der auftretenden großen Fakultäten häufig nicht mehr möglich. Man kann in diesen Fällen die Binomialverteilung durch die Poisson7 -Verteilung annähern. Beispiel 8.1: Eine Reihe von Medikamenten ruft in seltenen Fällen allergische Reaktionen hervor. Wir betrachten eine Tablettenkur gegen Darmpilze, die an n = 20 000 Personen durchgeführt wird und die mit der Wahrscheinlichkeit p = 0, 001 juckende Hautausschläge erzeugt. X zähle die Anzahl der Personen, die über die berichteten Hautreaktionen klagen. Die Wahrscheinlichkeit, dass es sich dabei um genau x Personen handelt, ist K KnN − KN − nN + N + N 2 − N − nKN + nK · N (N − 1)N K N −n K N −n K (N − K)(N − n) 1− · = n = npq .2 = n· N N (N − 1) N N N −1 N −1 = n· Die Varianz der hypergeometrischen Verteilung ist also um den Faktor Binomialverteilung. P (X = x) = bn,p (x) = Dazu beweisen wir den Satz 8.4: Hält man in der Binomialverteilung den Mittelwert µ := np konstant und lässt n groß werden (wodurch p bei festem µ klein wird), dann erhält man für k ∈ N0 als Grenzwert lim bn,p (k) = Bemerkung 8.2: n→∞ np=µ Die Erfolgswahrscheinlichkeit beim Entnehmen des ersten der n Objekte ist gerade p = hypergeometrische Verteilung lässt sich auch folgendermaßen schreiben: Nq Np x n−x N n mit 20 000 0, 001x · 0, 99920 000−x . x Bei der Werteberechnung macht der Rechner Probleme. Wie lassen sich diese überwinden? kleiner als die der Die hypergeometrische Verteilung kann z.B. bei der Qualitätskontrolle eingesetzt werden: Aus einer Warenladung mit N Exemplaren werden n Exemplare ausgewählt und getestet. Aus der Anzahl x der hierbei gefundenen defekten Teile lässt sich die Anzahl K der insgesamt defekten Teile schätzen (vgl. Kapitel 16). h(x) = Die Poissonverteilung K . N Die Das bedeutet, dass für große n und kleine p folgende Näherungsformel gilt: bn,p (k) ≈ q =1−p . Ist N sehr viel größer als n, dann ist es offensichtlich ohne großen Einfluss, ob man zurücklegt oder nicht. Man kann dann die hypergeometrische Verteilung durch die Binomialverteilung µk −µ e . k! 7 (np)k −np e . k! Paris, Untersuchungen zur Analysis. 92 8 WEITERE DISKRETE VERTEILUNGEN Beweis: µ k n! n k µ n−k p (1 − p)n−k = bn,p (k) = · 1− k k! (n − k)! n n n(n − 1) . . . (n − k + 1) µk µ n 1 = 1− · · µ k k! n nk 1− n n 1 · (1 − n1 ) (1 − n2 ) . . . (1 − k−1 ) −µ µk n · 1+ = k! n (1 − nµ )k 93 8.3 Die Poissonverteilung P(X = x) x 0,35 Binomialverteilung b5, p=0,3 (x) x x Binomialverteilung b10, p=0,15(x) x 0,30 Poissonverteilung pλ=1,5 (x) 0,25 k → µ −µ e k! für n → ∞. 2 0,20 x Definition 8.3: (Poissonverteilung Die Funktion p : R → [0, 1] mit ( µx e−µ , für x ∈ N0 x! p(x) = 0 sonst heißt Poissonverteilung zum Parameter µ > 0. 0,15 x 0,10 0,05 x 0 2 1 3 4 Zeigen Sie, dass der Parameter µ gerade der Erwartungswert der Poissonverteilung ist und berechnen Sie die Streuung. Aufgabe 8.6: Berechnen Sie bn,p (x) für x = 0, 1, 2, 10, 20 aus dem Beispiel 8.1 näherungsweise. In Abbildung 8.1 werden die Binomialverteilungen für n = 5 und p = 0, 3 und für n = 10 und p = 0, 15 (also jeweils µ = np = 1, 5) mit der Poissonverteilung zum Parameter µ = 1, 5 verglichen. Bei noch größerem n, etwa n ≥ 100, stimmen die Graphen der beiden Funktionen fast vollständig überein. Beispiel 8.2: Aus den Angaben der preußischen Armee hat Bortkiewicz ( Das Gesetz der kleinen Zahlen“, ” Leipzig 1898) die Anzahlen der Soldaten von 10 Kavallerieregimenten8 zusammengestellt, die in einem Zeitraum von 20 Jahren infolge eines Huftritts starben. Als zufälliges Ereignis betrachten wir hier die Anzahl x der Regimentsmitglieder, die im Laufe eines Jahres einen tödlichen Pferdehuftritt erhalten. Es liegen Beobachtungen aus 10 · 20 = 200 Regimentsjahren vor, da 10 Regimenter über 20 Jahre kontrolliert wurden. 8 Ein Kavallerieregiment bestand aus fünf Eskadrons, im Einsatz aus vier Eskadrons. Jeder Eskadron hatte 100–150 Pferde. x x 0,00 Aufgabe 8.5: 5 6 7 8 9 10 Abb. 8.1 x (Anzahl der Toten) h200 (x) abs. Häuf. der Reg.-Jahre mit x Toten r200 (x) rel. Häufigkeit p(x) Wahrscheinlichkeit (Poissonverteilt) 0 1 2 3 4 ≥5 109 65 22 3 1 0 0, 545 0, 325 0, 110 0, 015 0, 005 0, 0 0, 543 0, 331 0, 101 0, 021 0, 003 0, 0 Zur Berechnung der Wahrscheinlichkeiten mittels der Poissonverteilung wurde der Mittelwert µ = E(X) aus der Zeile der relativen Häufigkeiten bestimmt: µ = E(X) = 0 · 0, 545 + 1 · 0, 325 + 2 · 0, 110 + 3 · 0, 015 + 4 · 0, 005 = 0, 61 . Damit ergibt sich p(x) = 0, 61x · e−0,61 , also im einzelnen x! p(0) = e−0,61 = 0, 543 p(1) = 0, 61 · e−0,61 = 0, 331 p(2) = 0, 612 · e−0,61 = 0, 101 2! 0, 613 · e−0,61 = 0, 021 3! 0, 614 · e−0,61 p(4) = = 0, 003 4! 0, 615 · e−0,61 p(5) = < 4 · 10−4 5! p(3) = 94 8 WEITERE DISKRETE VERTEILUNGEN Die Wahrscheinlichkeiten weichen nur wenig von den relativen Häufigkeiten ab. 111 Aufgabe 8.7: Bei einer Verkehrszählung in Graz, Münzgrabenstraße zwischen Brockmanngasse und Stremayergasse am 28.9.1963, 1020 − 1110 Uhr, wurde die Anzahl h(x) der Zeitintervalle von 30 Sekunden registriert, in denen man x Pkw beobachtete. x h(x) 0 6 1 2 0 − 18 21 26 4 5 16 8 6 2 7 8 1 2 ≥9 0 100 − Analog zu den obigen Beispielen erhält man näherungsweise Poissonverteilungen, wenn man durch geeignete relative Häufigkeiten die Wahrscheinlichkeit bestimmt, dass 2. in einem Land innerhalb einer Woche genau x Streiks ausbrechen; 0 − 0 − + 0 + − 0 + + − 0 0 0 0 − + − + + − + − + − + + − 0 0 011 0 + − 0 0 0 0 − + − + + − 0 − − 0 − − − − − 0 − + + − − 0 − 0 0 − 0 0 − − 0 + 0 + 010 0 + 0 + + + − + + − + 0 + 0 + − + 0 001 + 0 0 − 0 + 0 + + − + − + + + − 0 + − + − + + 0 + 0 + − 0 − 0 − 0 0 + 0 + 0 0 000 − + + 0 − + 0 − + 0 0 − + − 0 + − + 0 + 0 − 0 − 0 3. auf einer Buchseite genau x-mal das Wort oder“ vorkommt; ” 000 4. in einem Jahr auf der Erde genau x Kriege ausbrechen. −“: 1. Versuch ” 001 + − − 010 011 100 101 +“: 2. Versuch ” Abb. 8.2 110 111 0“: 3. Versuch ” Beispiel 8.3: Man kann die Poissonverteilung mit Hilfe einer größeren Anzahl von Personen (z.B. einer Schulklasse) leicht simulieren. Wir verteilen 64 Punkte auf die 64 Felder eines Schachbretts. Wir haben also N = 64 Felder −1 und im Durchschnitt µ = 1 Punkt pro Feld. Nach der Poissonverteilung sind 64 · ex! Felder mit genau x Punkten zu erwarten. Jedes Feld wird durch 6 binäre Ziffern gekennzeichnet. Für jeden Punkt wird das Feld durch 6–fachen Münzwurf bestimmt. Kopf“ bedeutet die Ziffer 0 und Zahl“ die Ziffer 1. ” ” In der Abb. 8.2 sind die Ergebnisse von 3 Versuchen durch die Zeichen −, + und 0 unterschieden. Die Tabelle in Abbildung 8.3 zeigt die theoretischen Werte sowie die beobachteten Werte aus den 3 Versuchen und deren arithmetisches Mittel. Nimmt man die drei Versuche zusammen, so stellen Sie eine Verteilung von durchschnittlich x −3 µ = 3 Punkten auf 64 Felder dar. Daher sind 64· 3 x!e Felder mit genau x Punkten zu erwarten. Die Auswertung ist in der Tabelle in Abbildung 8.4 gegeben. Offensichtlich beschreibt die Poissonverteilung unsere Versuche in befriedigender Weise. Um ein objektives Urteil zu erhalten könnte man die Güte der Übereinstimmung χ2 testen. 0 0 − − − + − 0 + − 0 − + − 0 + + + − − − + 1. bei der Emission eines radioaktiven Präparates in einem Zeitabschnitt gerade x Teilchen ausgesandt werden; 0 − + 0 Welche Werte liefert die angepasste Poissonverteilung? 0 0 − 110 101 3 + 0 + Die folgende Tabelle zeigt das Ergebnis: 95 8.3 Die Poissonverteilung Anzahl x der Punkte pro Feld 0 1 2 3 4 >4 23,55 23,55 11,77 3,92 0,98 0,23 1. Versuch 20 28 12 4 0 0 2. Versuch 24 21 14 5 0 0 3. Versuch 25 22 12 2 3 0 23 23,7 12,7 3,7 1 0 64·e−1 x! der theoretische Anzahl Felder mit genau x Punkten Beobachtete Anzahl der Felder mit genau x Punkten Mittel aus den 3 Versuchen Abb. 8.3 Anzahl der Punkte pro Feld Anzahl der Felder mit genau x Punkten 0 1 2 3 4 5 6 >6 theoretisch 3,2 9,6 14,3 14,3 10,8 6,5 3,2 2,1 beobachtet 2 11 10 17 13 8 3 0 Abb. 8.4 96 8 WEITERE DISKRETE VERTEILUNGEN 8.4 Die Multinomialverteilung Aufgabe 8.8: Aufgabe 8.9: Die Anzahl der Eier, die an einem Tag auf einem Hühnerhof gelegt werden, sei Poissonverteilt zum Parameter µ. Jedes gelegte Ei sei mit der Wahrscheinlichkeit p weiß. Bestimmen Sie die Verteilung der pro Tag gelegten weißen Eier. Wie groß ist die Wahrscheinlichkeit, bei sechsmaligem Würfeln mit einem idealen Würfel 97 (a) jedes mögliche Ergebnis genau einmal (b) genau einmal die 4, genau 2–mal die 5 und genau dreimal die 6 zu erzielen? 8.4 Die folgenden Aufgaben sollen einen Ausblick auf die nächsten Kapitel geben. Die Multinomialverteilung Aufgabe 8.10: Eigentlich ist es an dieser Stelle zu früh, die Multinomialverteilung einzuführen, denn sie stellt eine Verteilung mehrerer Zufallsgrößen, d.h. eines Zufallsvektors (s. Kapitel 11) dar. Andererseits ist sie eine unmittelbare Verallgemeinerung der Binomialverteilung. Sie ist uns bereits früher implizit begegnet (vgl. Satz 2.11). In einer Stadt mit 10 000 erwachsenen Einwohnern soll das Netz der Omnibuslinien geändert werden. Um sich über die öffentliche Meinung zu diesem Vorhaben zu informieren, werden 100 Personen zufällig ausgewählt und befragt. Satz 8.5: Wie groß ist die Wahrscheinlichkeit, dass mehr als 50 Personen zustimmen, obwohl tatsächlich 55 % der Erwachsenen das Vorhaben ablehnen? Ein Zufallsexperiment habe genau die möglichen (disjunkten) Ausgänge A1 , A2 , . . . , Ak . P Jedes Ereignis Aj habe die Wahrscheinlichkeit pj = P (Aj ) mit pj = 1. In einem Land mit 50 · 106 erwerbstätigen Einwohnern soll der Beginn der Arbeitszeit um eine Stunde vorverlegt werden. Um sich ein Bild der öffentlichen Meinung zu diesem Vorhaben zu machen, lässt die Regierung 104 Erwerbstätige repräsentativ auswählen und befragen. Das Experiment werde n–mal unabhängig wiederholt. Dann ist die Wahrscheinlichkeit dafür, dass dabei das Ereignis A1 genau x1 –mal, . . . , das Ereignis Ak genau xk –mal eintritt p(x1 , x2 , . . . , xk ) = n! px1 px2 . . . pxkk x1 ! x2 ! . . . xk ! 1 2 für x1 , . . . , xn ∈ N0 mit P xj = n. Beweis: Die Ergebnisse sind n–Tupel, gehören also dem Produktraum Ωn an. Wir betrachten speziell n–Tupel, die genau x1 Elemente von A1 , . . . , xk Elemente von Ak enthalten. Da das Experiment unabhängig wiederholt wird, hat jedes dieser Tupel die Wahrscheinlichkeit px1 1 · . . . · pxkk . Nun gibt es nach Satz 2.11 genau x1 ! angegebene Wahrscheinlichkeit. 2 n! x2 !... xk ! solcher n–Tupel. Insgesamt erhält man also die Definition 8.4: (Multinomialverteilung) k Es seien p1 , . . . , pk ∈ R+ 0 mit p1 + . . . + pk = 1. Dann heißt die Funktion p : R → [0, 1] n! px1 . . . pxkk für x1 + x2 + . . . + xk = n, xj ∈ {0, . . . , n}, x1 ! . . . xk ! 1 p(x1 , . . . , xk ) = 0 sonst Multinomialverteilung auf einem k–dimensionalen Zufallsvektor. Aufgabe 8.11: Mit welcher Wahrscheinlichkeit ergibt die Befragung eine zustimmende Mehrheit, obwohl tatsächlich 53 % der arbeitetenden Bevölkerung dagegen sind? Sowohl mit der Binomialverteilung als auch mit der hypergeometrischen Verteilung erhält man bei der Lösung der Aufgabe 8.11 praktisch nicht auswertbare Ansätze, und auch die Approximation durch die Poissonverteilung führt nicht zum Ziel. Wir werden in Kapitel 10 die sogenannte Normalverteilung einführen, die die Binomialverteilung wiederum approximiert und deren Werte aus einer Tabelle leicht abgelesen werden können. 98 9 STETIGE ZUFALLSGRÖSSEN 9 Stetige Zufallsgrößen 9.1 99 9.1 Die Wahrscheinlichkeitsdichte Trägt man nun über jedem der Intervalle ein Rechteck auf, dessen Flächeninhalt der relativen Häufigkeit entspricht, mit der über diesem Intervall ein Faden reißt, so erhält man ein Histogramm als anschauliche Darstellung der Häufigkeitsverteilung (Abb.9.1). Die Wahrscheinlichkeitsdichte Für diskrete Zufallsgrößen X : Ω → R definiert man eine Verteilung p(x) =PP (X = x). Für p(xi ), d.h. die die Verteilungsfunktionen F (x) = P (X ≤ x) ergibt sich dann F (x) = xi ≤x Verteilungsfunktion ist eine Treppenfunktion. Bei stetigen Zufallsgrößen X ist die Verteilungsfunktion F dagegen eine stetige Funktion. In den meisten Anwendungen ist F sogar (stückweise) stetig differenzierbar, und somit die Stammfunktion einer (stückweise) stetigen Funktion f . Diese heißt dann Dichte von X. 1,3 1,2 1,1 1,0 0,9 0,8 Wir erläutern den Begriff der Dichte an einem Beispiel. 0,7 Beispiel 9.1: 0,6 Der Faden einer Fabrikation von Baumwollgarn soll auf seine Festigkeit untersucht werden. Dazu werden 300 Rollen mit diesem Garn ausgewählt, an welche jeweils Gewichte mit zunehmender Masse angehängt werden. X bezeichne die Masse, bei der der jeweilige Faden zerreißt. Obwohl es willkürlich wäre anzunehmen, dass X nur bestimmte diskrete Werte hat, ist es naheliegend, mit einer gewissen Masse zu beginnen, zu prüfen, welche Fäden bei dieser Masse bereits zerreißen, und die Masse dann schrittweise um einen gewissen Betrag zu erhöhen. Bei unserem Versuch hielten alle Fäden die Masse 0, 5 kg aus. Die Masse wurde dann jeweils um 0, 14 kg erhöht. 0,5 0,4 0,3 0,2 0,1 0,0 0,5 0,64 0,78 0,92 1,06 1,20 1,34 1,48 1,62 1,76 1,90 2,04 2,18 2,32 kg Abb. 9.1 Nr. k 1 2 3 4 5 6 7 8 9 10 11 12 13 Zerreißfestigkeit abs. Häuf. h(k) 0,5 bis 0,64 0,64 bis 0,78 0,78 bis 0,92 0,92 bis 1,06 1,06 bis 1,20 1,20 bis 1,34 1,34 bis 1,48 1,48 bis 1,62 1,62 bis 1,76 1,76 bis 1,90 1,90 bis 2,04 2,04 bis 2,18 2,18 bis 2,32 1 2 9 25 37 53 56 53 25 19 16 3 1 300 rel. Häuf. r(k) = 0,00333 0,00667 0,03000 0,08333 0,12333 0,17667 0,18667 0,17667 0,08333 0,06333 0,05333 0,01000 0,00333 0,99999 h(k) 300 Dichte der rel. Häuf. r(k) 0,14 0,024 0,048 0,214 0,595 0,881 1,262 1,333 1,262 0,595 0,452 0,381 0,071 0,024 In der 3. Spalte der angegebenen Tabelle kann man ablesen, wieviele Fäden dabei jeweils zerrissen. In den weiteren Spalten wurde die relative Häufigkeit r berechnet und anschließend durch die Intervallbreite dividiert. Da die Inhalte der Rechteckflächen die Bedeutung von relativen Häufigkeiten haben, müssen ihre Höhen die relativen Häufigkeiten dividiert durch die Intervallbreite sein. Man bezeichnet sie als Dichten der relativen Häufigkeiten. Da die Summe aller relativen Häufigkeiten 1 ist, hat die gesamte Fläche unter der Treppe den Flächeninhalt 1. Die Dichten für gewisse Zerreißfestigkeiten dürften sich aber kaum sprunghaft ändern. Deshalb ist es vernünftiger, sie durch eine stetige Funktion f zu beschreiben, die die Treppenfunktion interpoliert und die mit der x–Achse ebenfalls die Fläche 1 einschließt. Eine solche Funktion heißt Wahrscheinlichkeitsdichte (Abb. 9.1). Über jedem Intervall der x–Achse begrenzt sie einen Streifen nach oben, dessen Flächeninhalt die Wahrscheinlichkeit angibt, mit der die Werte von X in diesem Intervall liegen. Z.B. ist die Wahrscheinlichkeit dafür, dass ein Faden aus der oben beschriebenen Produktion bei 1,20 R f (t) dt , die Wahrscheinlichkeit, dass er einer Masse zwischen 1, 06 kg und 1, 20 kg zerreißt, 1,06 bei einer Belastung bis zu 1, 20 kg zerreißt, ist 1,20 R f (t) dt , wobei f über ]−∞, 0] den Wert 0 hat. −∞ Zufallsgrößen X : Ω → R haben definitionsgemäß die Eigenschaft, dass Urbilder von Intervallen und Zahlen Ereignisse sind. Das Urbild des Intervalls ] − ∞, x] ist {ω ∈ Ω | X(ω) ≤ x}. Wie im diskreten Fall schreiben wir kurz P (X ≤ x) := P ({ω ∈ Ω | X(ω) ≤ x}) . 100 9 STETIGE ZUFALLSGRÖSSEN 101 9.1 Die Wahrscheinlichkeitsdichte Definition 9.1: (stetige Zufallsgröße) Definition 9.2: (Gleichverteilung) Eine Zufallsgröße X heißt stetig, wenn ihre Verteilungsfunktion F (x) = P (X ≤ x) eine stetige Funktion ist. Die durch die Dichtefunktion f : R → R mit ( 1 für a ≤ x ≤ b b−a f (x) = 0 sonst Gibt es eine nicht-negative, stückweise stetige Funktion f : R → R+ 0 , so dass für die Verteilungsfunktion F von X gilt F (x) = P (X ≤ x) = Zx definierte Wahrscheinlichkeitsverteilung heißt Gleichverteilung auf [a, b]. f (t) dt, −∞ Dichte und Verteilungsfunktionder Gleichverteilung sind in Abb. 9.2 dargestellt. so heißt diese Funktion f Wahrscheinlichkeitsdichte oder kurz Dichte von X. f(x) Wahrscheinlichkeitsdichte F(x) 1,0 1 b-a Bemerkung 9.1: Laut Definition 9.1 ergibt sich die Verteilungsfunktion einer Zufallsgröße X aus der Dichte, sofern diese existiert. Umgekehrt gilt aber F ′ (x) = f (x) an allen Stellen, an denen f stetig ist. Die Verteilungsfunktion bestimmt also auch die Dichte. 0,0 0 Nach Satz 6.3 ist a P (a < X ≤ b) = F (b) − F (a) = Zb x b a x Abb. 9.2b Eine Anwendung der Gleichverteilung liefert das folgende a Da es beim Integrieren auf einen Punkt nicht ankommt, setzt man auch P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X < b) = Zb f (t) dt = F (b) − F (a) . a Insbesondere gilt also für stetige Zufallsgrößen P (X = a) = 0 für alle a ∈ R. Weiterhin gilt nach Satz 6.4 Z∞ f (t) dt = lim F (x) = 1. x→∞ −∞ Die Dichte schließt also mit der x-Achse den Flächeninhalt 1 ein. Die Bedeutung von f erscheint zunächst unklar. Wenn sich der Mittelwertsatz der Integralrechnung anwenden lässt, erhält man x+h Z F (x + h) − F (x) 1 1 f (t) dt = f (ξ) mit ξ ∈ [x, x + h] . P (x < X ≤ x + h) = = h h h x Die Dichte lässt sich also etwa als Wahrscheinlichkeit pro Intervallbreite“ deuten. ” Das einfachste Beispiel ist eine auf einem festen Intervall [a, b] konstanten Dichte, die außerhalb Rb 1 sein. von [a, b] verschwindet. Wegen f (x) dx = 1 muss die Konstante b−a a b Abb. 9.2a f (t) dt. Verteilungsfunktion Beispiel 9.2: Wir wollen eine Zahl x aus dem Intervall [0, 1] zufällig“ auswählen. Jedes x ∈ [0, 1] hat die ” ∞ X Darstellung x = ak 10−k mit ak ∈ {0, 1, 2, . . . , 9}. k=1 Eine Möglichkeit wäre, die Wahl jedes ak durch ein Laplaceexperiment zu beschreiben und diese Experimente nacheinander unabhängig auszuführen. n X Betrachtet man für beliebiges n ∈ N ein α der Form α = ak 10−k , so stimmen alle Zahlen k=1 x mit α ≤ x < α + 10−n in den ersten n Stellen nach dem Komma mit α überein. Die Wahrscheinlichkeit, eine solche Zahl zu erhalten, ist also P (α ≤ X < α + 10−n ) = 1 1 1 ·...· = n = 10−n = (α + 10−n ) − α 10 10 10 (Intervallbreite). Da sich jedes andere Intervall beliebig genau durch Intervalle der Form [α, α + 10−n ) approximieren lässt, sollte allgemein P (α ≤ X ≤ β) = β − α für 0 ≤ α ≤ β ≤ 1 gesetzt werden. Das ist aber gerade die Wahrscheinlichkeit, die die Gleichverteilung auf [0, 1] liefert. Beispiel 9.3: An einer relativ ruhigen Landstraße messe man mit einer Stoppuhr die Wartezeit zwischen den einzelnen Fahrzeugen. Dies ist eine Zufallsgröße X mit kontinuierlichem Wertebereich. Die beobachtete relative Häufigkeit des Ereignisses, dass die Wartezeit nicht größer als x ist, wird 102 9 STETIGE ZUFALLSGRÖSSEN Der Verteilungsfunktion im diskreten F : R → [0, 1] mit F (x) = gut durch eine Verteilungsfunktion der Gestalt F (x) = P (X ≤ x) = ( x 1 − e− µ für x ≥ 0 0 103 9.2 Der Erwartungswert Verteilungsfunktion F : R → [0, 1] mit F (x) = für x < 0 , mit geeignetem µ > 0 approximiert (die xBegründung hierfür wird in Bemerkung 9.2 gegeben). Man erhält dann f (x) = F ′ (x) = µ1 e− µ für positive x. In Beispiel 9.4 wird gezeigt, dass µ hierbei gerade die mittlere Wartezeit ist. −∞ In Definition 6.4 definierten wir für den diskreten Fall den Erwartungswert von g(X) als X X |g(xi )| p(xi ) existiert. g(xi ) p(xi ), falls E(g(X)) = i Bedenkt man, dass eine stetige Zufallsgröße einen Wert in dem Intervall [x, x + △x] ungefähr mit der Wahrscheinlichkeit f (x) · △x annimmt, so ergibt sich entsprechend die Definition des Erwartungswertes einer stetigen Zufallsgröße: Definition 9.3: (Exponentialverteilung) Die durch die Dichtefunktion f : R → R mit ( x 1 −µ e für x ≥ 0 µ f (x) = 0 für x < 0 Definition 9.4: (Erwartungswert stetiger Zufallsgrößen) Sei f die Dichte einer Zufallsgröße X. Dann heißt definierte Wahrscheinlichkeitsverteilung heißt Exponentialverteilung zum Parameter µ. Z∞ µ = E(X) = x f (x) dx −∞ Aufgabe 9.1: Die Zufallsvariable X sei exponentialverteilt. Zeigen Sie, dass für alle x, y ≥ 0 gilt P (X > x + y / X > x) = P (X > y). (∗) Bemerkung 9.2: Erwartungswert oder Mittelwert von X falls R∞ −∞ |x| f (x) dx existiert. Allgemeiner sei g eine auf dem Wertebereich von X erklärte stetige Funktion, für die R∞ |g(x)| f (x) dx existiert. Dann heißt −∞ Die in Aufgabe 9.1 angegebene Eigenschaft ist eine stetige Entsprechung der in Aufgabe 8.2 angegebenen Eigenschaft für die geometrische Verteilung. Entsprechend zu Aufgabe 8.3 lässt sich auch hier zeigen, dass die Gleichung (∗) für die Exponentialverteilung charakteristisch ist. Wegen der Gleichung (∗) ist die Exponentialverteilung besonders gut für die Beschreibung von Wartezeiten geeignet, denn auf Wartezeiten X bezogen besagt die Gleichung: Die Wahrscheinlichkeit, noch mehr als y Minuten zu warten ist immer gleich, egal wie lange (= x Minuten) man bereits gewartet hat. Daher beschreibt man mit ihr u.a. die Dauer von Telefongesprächen, die Bedienungszeit von Kunden, die Reparaturzeit von Maschinen etc. Der Erwartungswert E g(X) := Z∞ R∞ f (x) dx = 1. −∞ Man beachte hierbei: Dichten sind keine Wahrscheinlichkeiten! ∞ P j=1 p(xj ) = 1 ent- g(x) f (x) dx. −∞ Erwartungswert von g(X). Speziell für g(x) = xk , k ∈ N, spricht man auch hier vom Moment k–ter Ordnung µk := E(X k ) von X. Beispiel 9.4: (a) Für die Gleichverteilung f (x) = E(X) = Der diskreten Wahrscheinlichkeitsverteilung p : {x1 , x2 , . . . } → [0, 1] mit spricht im stetigen Fall die Dichte f : R → R+ 0 mit f (t) dt . p(xj ) entspricht die stetige xj ≤x Beide geben einander entsprechende Wahrscheinlichkeiten an, nämlich F (x) = P (X ≤ x). i 9.2 Rx P Z∞ −∞ xf (x) dx = Zb a 1 b−a auf [a, b] ergibt sich 1 b2 − a2 a+b x dx = = . b−a 2 b−a 2 (b) Für die Exponentialverteilung findet man mit partieller Integration Z∞ Z∞ Z∞ x ∞ x ∞ x x − µx E(X) = xf (x) dx = e dx = −xe− µ + e− µ dx = −µe− µ = µ. µ 0 0 −∞ 0 0 104 9 STETIGE ZUFALLSGRÖSSEN Die für eine diskrete Zufallsgröße X in den Sätzen 6.6 und 6.7 bewiesenen Aussagen gelten unter entsprechenden Voraussetzungen analog im stetigen Fall: g1 und g2 seien zwei stetige Funktionen auf dem Wertebereich der stetigen Zufallsgröße X, deren Erwartungswerte E g1 (X) und E g2 (X) existieren. Dann existiert auch der Erwartungswert von g1 (X) + g2 (X), und es gilt E g1 (X) + g2 (X) = E g1 (X) + E g2 (X) . Momente höherer Ordnung, Varianz und Schiefe Nach Voraussetzung ist R∞ −∞ |g1 (x)| f (x) dx < ∞ und |g1 (x) + g2 (x)| f (x) dx ≤ −∞ = Z∞ −∞ Z∞ R∞ −∞ Falls µk = E(X k ) existiert, so gilt im diskreten wie auch im stetigen Fall E (aX)k = ak E(X k ) für alle a ∈ R. |g2 (x)| f (x) dx < ∞ . Hieraus folgt Z∞ |g2 (x)| f (x) dx < ∞ , Die Existenz der Momente hängt also mit der Wahrscheinlichkeit zusammen, mit der die Zufallsgröße X absolut große Werte annimmt. Ist |X| beschränkt, so existieren die Momente jeder Ordnung. und deshalb existiert E g1 (X) + g2 (X) . Man erhält dann = = Z∞ −∞ Z∞ −∞ g1 (x) + g2 (x) f (x) dx g1 (x) f (x) dx + Existiert das Moment k–ter Ordnung von X, so gilt sowohl im diskreten als auch im stetigen Fall 1 . lim ak P (|X| > a) = 0, d.h. P (|X| > a) = o a→∞ ak −∞ −∞ Beweis: Aufgabe. 2 Aufgabe 9.2: |g1 (x)| + |g2 (x)| f (x) dx |g1 (x)| f (x) dx + Dabei wird für die Existenz des Moments die absolute Konvergenz der zugehörigen Reihe bzw. des zugehörigen Integrals vorausgesetzt. Der Erwartungswert E(X) ist das Moment 1. Ordnung. Man beweist leicht den folgenden Satz 9.3: Beweis: E g1 (X) + g2 (X) 9.3 Wir erklärten in Definition 6.4 für diskrete und in Definition 9.4 für stetige Zufallsvariable X das k-te Moment als µk = E(X k ). Satz 9.1: Z∞ Z∞ −∞ Satz 9.4: Für diskrete und stetige Zufallsgrößen X gilt: g2 (x) f (x) dx = E g1 (X) + E g2 (X) . 2 Satz 9.1 kann durch vollständige Induktion auf jede endliche Anzahl von Summanden ausgedehnt werden. Satz 9.2: Existiert das Moment k–ter Ordnung µk von X, so existieren alle Momente µr mit r ≤ k. Beweis: Aufgabe. 2 Beispiel 9.5: (a) Für die Gleichverteilung (s. Definition 9.2) ergibt sich X sei eine stetige Zufallsgröße, und es existiere E(X). Dann existiert für alle a, b ∈ R auch E(aX + b), und es gilt E(aX + b) = aE(X) + b . Beweis: Aufgabe. 2 105 9.3 Momente höherer Ordnung, Varianz und Schiefe µk = E(X k ) = Z∞ −∞ xk f (x) dx = Zb a k 1 bk+1 − ak+1 1 X i k−i xk dx = = a b . b−a k+1 b−a k + 1 i=0 Da das Integrationsintervall endlich ist, konvergieren“ diese Integrale auch absolut. Also ” existieren die µk . 106 9 STETIGE ZUFALLSGRÖSSEN (b) Für die Exponentialverteilung (Definition 9.3) ergibt sich mit Beispiel 9.4 b µk = E(X k ) = Z∞ xk f (x) dx = Z∞ 9.3 Momente höherer Ordnung, Varianz und Schiefe Beispiel 9.6: (a) Für die Gleichverteilung ergibt sich nach Beispiel 9.5 a xk − µx e dx µ 2 a+b b2 + ab + a2 − V (X) = E (X − µ)2 = µ2 − µ21 = 3 2 b2 + ab + a2 b2 + 2ab + a2 (b − a)2 b−a = − = , also σ = √ . 3 4 12 2 3 0 −∞ Z∞ k−1 Z∞ x x x ∞ x e− µ dx = −xk e− µ + k xk−1 e− µ dx = kµ µ 0 0 0 = kµµk−1 = · · · = k(k − 1) · · · 2 µk−1 µ1 = k! µk . (b) Für die Exponentialverteilung ergibt sich nach Beispiel 9.5 b V (X) = µ2 − µ21 = 2µ2 − µ2 = µ2 , Da f (x) = 0 für negative x gilt, konvergieren diese Integrale auch absolut. c sei eine reelle Zahl und X eine stetige oder diskrete Zufallsgröße. Dann heißt E (X − c)k Moment k–ter Ordnung bezüglich c. Satz 9.5: k Ist c = µ = E(X), so spricht man vom k. zentralen Moment mk = E (X − µ) . Die zentralen Momente lassen sich durch die gewöhnlichen Momente (Definition 6.4 und 9.4) ausdrücken (mit µ1 = µ): m2 m3 = E(X − µ) = E(X) − µ = µ − µ = 0 = E (X − µ)2 = E X 2 − 2µX + µ2 = E(X 2 ) − 2µ · E(X) + µ2 = µ2 − µ21 = E (X − µ)3 = E(X 3 − 3µX 2 + 3µ2 X − µ3 ) = E(X 3 ) − 3µE(X 2 ) + 3µ2 E(X) − µ3 u.s.w. also σ = µ . Der Mittelwert µ hat eine interessante Minimaleigenschaft. Er ist derjenige Wert c, für welchen die Momente 2. Ordnung bezüglich c am kleinsten ausfallen: Definition 9.5: (Momente bzgl. c, zentrale Momente) m1 107 = µ3 − 3µ1 µ2 + 2µ31 Wie schon für diskrete Zufallsgrößen definieren wir die Varianz als zweites zentrales Moment (vgl. Def. 6.5). Definition 9.6: (Varianz und Streuung) X sei eine stetige (oder diskrete) Zufallsgröße. Das zentrale Moment zweiter Ordnung σ 2 = V (X) = E (X − µ)2 p heißt Varianz. Ihre Wurzel σ = V (X) heißt Standardabweichung oder Streuung. Bemerkung 9.3: Wie im diskreten Fall gilt auch hier V (X) = E(X 2 ) − E 2 (X), denn V (X) = m2 = µ2 − µ21 . Für jedes c 6= µ gilt V (X) = E (X − µ)2 < E (X − c)2 . Beweis: E (X − c)2 = E (X − µ + µ − c)2 = E (X − µ)2 + 2(µ − c) E(X − µ) + (µ − c)2 = V (X) + (µ − c)2 . 2 Analog zu Satz 6.6 für diskrete Zufallsvariable gilt allgemein Satz 9.6: Sei X eine stetige (oder diskrete) Zufallsvariable, deren Varianz existiert. Dann gilt V (aX + b) = a2 V (X) für alle a, b ∈ R. Beweis: V (aX + b) = E (aX + b − E(aX + b))2 = E (aX + b − (aµ + b))2 = E (a(X − µ))2 = E a2 (X − µ)2 = a2 E (X − µ)2 = a2 V (X). 2 Definition 9.7: (standardisierte Zufallsgröße) X sei eine Zufallsgröße mit Erwartungswert µ und Streuung σ 6= 0. Dann heißt Z= X −µ σ die zugehörige standardisierte oder normierte Zufallsgröße. 108 9 STETIGE ZUFALLSGRÖSSEN 109 9.4 Die Ungleichung von Tschebyschew Beispiel 9.7: Aus den vorangegangenen Sätzen lässt sich zeigen: (a) Für die Gleichverteilung f (x) = Satz 9.7: S(X) = X sei eine Zufallsgröße mit der Streuung σ 6= 0 und Z die zugehörige standardisierte Zufallsgröße. Dann gilt E(Z) = 0 und V (Z) = 1 . X sei eine stetige oder diskrete Zufallsgröße, deren 3. Moment existiert. Dann heißt das dritte Moment der zugehörigen standardisierten Zufallsgröße Z S(X) := E(Z 3 ) = 1 m3 E (X − µ)3 = √ 3 σ3 m2 die Schiefe der zugehörigen Verteilung. Satz 9.8: Ist die Dichte f : R → R+ 0 einer stetigen Zufallsgröße X symmetrisch bezüglich µ und existiert ihr 3. Moment, so gilt S(X) = 0. Beweis: Aufgabe. 2 Aufgabe 9.3: Formulieren und beweisen Sie eine dem Satz 9.8 entsprechende Aussage für eine diskrete Zufallsgröße X mit der Wahrscheinlichkeitsfunktion p. 3 Zb (x − a+b )4 1 a+b 2 · dx = x− 3 2 b−a 4σ (b − a) a x S(X) = Definition 9.8: (Schiefe) 1 1 E (X − µ)3 = 3 σ3 σ ergibt sich b = 0. a (b) Für die Exponentialverteilung f (x) = µ1 e− µ erhält man aus Beispiel 9.5 und den Berechnungen der zentralen Momente auf Seite 106 Beweis: Aufgabe. 2 Die Gleichverteilung ist offenbar symmetrisch bezüglich des Mittelwertes µ, die Exponentialverteilung ist es nicht. Mit Hilfe des 3. zentralen Moments legt man ein Maß für Asymmetrie einer Zufallsvariable fest. 1 b−a m3 µ3 − 3µ1 µ2 + 2µ31 1 = = 3 6µ3 − 3µ · 2µ2 + 2µ3 = 2 ; 3 σ σ3 µ hier liegt positive Schiefe vor. Aufgabe 9.4: Man berechne Erwartungswert, Varianz, Streuung und Schiefe für die Verteilungen f : R → R+ 0 mit 2(1 − x) für x ∈ ]0, 1[, (a) f (x) = 0 sonst; −x xe für x ∈ R+ 0, (b) f (x) = 0 sonst; sin x für x ∈ [0, π2 ], (c) f (x) = 0 sonst. 9.4 Die Ungleichung von Tschebyschew In Satz 9.5 stellten wir fest, dass der Wert des zweiten Moments bzgl. c für c = µ minimal ist. Die mittlere quadratische Abweichung der Werte der Zufallsgröße X wird demnach am kleinsten, wenn sie von µ aus gemessen wird. Die Verteilung von X konzentriert sich in diesem Sinne um µ als Zentrum. Unabhängig von der Gestalt der Verteilung gibt es eine von Tschebyschew9 entdeckte Mindest” konzentration“ der Wahrscheinlichkeit P um µ herum. Satz 9.9: (Tschebyschewsche Ungleichung) Zwar kann das 3. zentrale Moment oder die Schiefe auch für nicht-symmetrische Verteilungen verschwinden, aber dies ist äußerst selten der Fall. Man kann daher zwischen symmetrischen Verteilungen und solchen mit positiver bzw. negativer Schiefe zu unterscheiden. X sei eine (diskrete oder stetige) Zufallsgröße, deren Erwartungswert µ und Varianz σ 2 6= 0 existieren. Dann gilt für jede reelle Zahl k > 0 P (|X − µ| ≥ kσ) ≤ 9 1 . k2 Russ. Mathematiker, sprich tschebyschoff“ ” 110 9 STETIGE ZUFALLSGRÖSSEN Beweis: Wir beweisen die Aussage nur für diskrete Zufallsgrößen X. Man erhält zunächst X P (|X − µ| ≥ kσ) = p(x) . |x−µ|≥kσ Wegen (x−µ)2 k2 σ 2 ≥ 1 für alle x, über die summiert wird folgt hieraus P (|X − µ| ≥ kσ) ≤ X |x−µ|≥kσ X (x − µ)2 x k2σ2 p(x) = 1 1 E (X − µ)2 = 2 . 2 k2σ2 k Bemerkung 9.4: Aus der Tschebyschewschen Ungleichung ergibt sich unmittelbar P (|X − µ| < kσ) = 1 − P (|X − µ| ≥ kσ) ≥ 1 − 111 Aus einer Stichprobe wird beispielsweise ermittelt, dass die Streuung σ = 0, 01 mm beträgt. (Genaueres dazu in den Kapiteln 14 und 16). Dann gilt 1 P (|X − µ| ≥ 0, 10) = P (|X − µ| ≥ 10 · 0, 01) ≤ 2 = 0, 01 . 10 Höchstens 1 % aller Kugeln ist zu groß oder zu klein. Aufgabe 9.7: (a) Eine echte Münze werde 1000 mal geworfen. Man schätze die Wahrscheinlichkeit dafür, dass die relative Häufigkeit von Zahl“ zwischen 0,4 und 0,6 liegt, mit der Tscheby” schewschen Ungleichung ab. (x − µ)2 p(x) . k2σ2 Lässt man die einschränkende Bedingung für x weg, so wächst die rechte Seite: P (|X − µ| ≥ kσ) ≤ 9.4 Die Ungleichung von Tschebyschew Bemerkung 9.5: Die Ungleichung Tschebyschews gilt für alle Zufallsgrößen X. Man darf daher nicht erwarten, dass sie in jedem Falle sehr genau ist. Aufgabe 9.8: Man schätze ab, mit welcher Wahrscheinlichkeit die Werte von X höchstens außerhalb des 1−, 2−, 3−, 4−fachen Streuintervalls um den Mittelwert µ liegen. 1 . k2 Das bedeutet, dass für großes k die Werte von X mit hoher Wahrscheinlichkeit in das Intervall ]µ − kσ, µ + kσ[ fallen. So wird beispielsweise das offene Intervall ]µ − 2, 5 σ; µ + 2, 5 σ[ von P mindestens mit der Wahrscheinlichkeit P (|X − µ| < 2, 5 σ) = 1 − P (|X − µ| ≥ 2, 5 σ) ≥ 1 − (b) Welchen Ausdruck hätte man im Falle des exakten Vorgehens zu berechnen? 1 = 0, 84 = 84% 2, 52 belegt. Man beachte, dass dies lediglich der kleinstmögliche Wert ist. Für die meisten Zufallsgrößen X ist P (|X − µ| < 2, 5 σ) viel größer, bei normalverteiltem X z.B. immerhin 98,8 % (vgl. Kapitel 10). Andererseits gibt es eine diskrete Verteilung, bei der diese Wahrscheinlichkeit tatsächlich nur 84 % beträgt. Aufgabe 9.5: Man konstruiere eine diskrete Verteilung mit der Eigenschaft P (|X − µ| < 2, 5 σ) = 0, 84. Aufgabe 9.6: Führen Sie den Beweis von Satz 9.9 für eine stetige Zufallsgröße X durch. Beispiel 9.8: Bei Industrieprodukten müssen Normen eingehalten werden. So dürfen die Durchmesser von Kugeln eines Kugellagers nur geringfügig voneinander differieren. Ist z.B. die Norm µ = 30, 00 mm mit der Toleranz ±0, 10 mm, so kann man ohne Kenntnis der genauen Verteilung folgendermaßen abschätzen, wieviele Kugeln die Norm mindestens einhalten: Aufgabe 9.9: Die Zufallsgröße X habe den Mittelwert µ = 5 und die Varianz σ 2 = 9. (a) Bestimmen Sie ein Intervall, in dem die Werte von X mit der Wahrscheinlichkeit 0,9 liegen. (b) Wie groß muss k ∈ R+ in der Tschebyschewschen Ungleichung gewählt werden, damit P (|X − µ| ≥ kσ) ≤ 0, 81 gilt? (c) Für welches k ∈ R+ nimmt die Zufallsgröße X Werte aus dem Intervall ]µ − kσ, µ + kσ[ mit einer Wahrscheinlichkeit von mindestens 0,95 an? Aufgabe 9.10: X gebe die Summe der Augen beim Werfen zweier Würfel an. Vergleichen Sie die genauen Werte für P (|X − µ| < kσ) mit den entsprechenden Abschätzungen nach der Tschebyschewschen Ungleichung für k = 1, k = 2 und k = 2, 5. Aufgabe 9.11: Die Zufallsgröße X nehme nur nicht-negative Werte an. Beweisen Sie für k > 0 µ P (X ≥ k) ≤ . k Aufgabe 9.12: Wenden Sie die Tschebyschewsche Ungleichung auf eine binomialverteilte Zufallsgröße an. Vergleichen Sie das Ergebnis mit der Aussage von Satz 7.4. 112 10 10.1 10 DIE NORMALVERTEILUNG Die Gaußsche Normalverteilung 113 10.1 Einführung der Normalverteilung Aufgabe 10.1: (a) Wo ist f streng monoton wachsend (fallend)? Einführung der Normalverteilung (b) Man bestimme Lage, Art und Größe der Extremwerte von f . Definition 10.1: (Normalverteilung) (c) Man untersuche f auf Wendepunkte (Lage, Art, Werte). Eine stetige Zufallsgröße X heißt normalverteilt, wenn ihre Dichte von der Gestalt 1 x−µ 2 1 f (x) = √ e− 2 σ σ 2π mit µ ∈ R und σ ∈ R+ ist. Die zugehörige Verteilungsfunktion ist demnach F (x) = 1 √ σ 2π Zx 1 t−µ σ e− 2 −∞ 2 (d) Welche Symmetrieeigenschaften hat f ? (e) Für welches c wird P (c ≤ X ≤ c + a) bei festem a > 0 maximal? Um grundlegende Eigenschaften der Normalverteilung beweisen zu können braucht man immer wieder die folgende Formel: dt . Satz 10.1: Nach Gauss, der diese Funktionen u.a. im Zusammenhang mit der Theorie der Messfehler untersuchte, heißt die Normalverteilung auch Gaußverteilung. Die folgende Abbildung zeigt den Graphen von f für µ = 0 und drei verschiedene Werte von σ. Wegen der Form des Graphen spricht man auch von der Gaussschen Glockenkurve (s. Abb. 10.1). Z∞ √ 2 e−v dv = π. −∞ Beweis: 2 Da e−v < e−|v| für |v| > 1 gilt, überzeugt man sich leicht, dass das uneigentliche Integral existiert. Man erhält dann f(x) 0,9 σ = 0,5 Z∞ e −∞ 0,5 −v 2 2 dv -4 -3 -2 -1 = 1 2 3 4 x 2 e−x dx Z∞ Z2π 0 σ= 2 0 Z∞ −∞ (∗) σ= 1 0,1 = Z∞ 2 e−y dy = −∞ 2 r e−r dϕ dr = 0 Z∞ 0 Z∞ Z∞ 2 −y 2 e−x ZZ dx dy = −∞ −∞ 2 +y 2 ) e−(x dx dy R2 2 2 ∞ 2πr e−r dr = −πe−r = π . 0 Hierbei wurde an der mit (∗) bezeichneten Stelle in Polarkoordinaten x = r cos ϕ, y = r sin ϕ mit dx dy = r dϕ dr transformiert. Die angegebene Formel folgt durch Wurzelziehen. 2 Abb. 10.1 Wir wollen hervorheben, dass wir die Normalverteilung definiert und nicht hergeleitet haben. Sie ist ein theoretisch formuliertes Verteilungsgesetz. Ob es überhaupt Häufigkeitsverteilungen gibt, die diesem Gesetz genügen bzw. ihm hinreichend“ nahe kommen, ist eine ” statistische Fragestellung. Wir werden allerdings beweisen, dass die Normalverteilung gut zur Approximation der Binomialverteilung geeignet ist. Der zentrale Grenzwertsatz zeigt ebenfalls, inwiefern sich Zufallsgrößen durch die Normalverteilung approximieren lassen. Einige Eigenschaften der Normalverteilung sollen in der folgenden Aufgabe ermittelt werden. Wir zeigen nun, dass f eine Dichte mit Mittelwert µ und Streuung σ ist. Zur Veranschaulichung sind in Abbildung 10.2 die Dichte f (x) und die Verteilungsfunktion F (x) graphisch dargestellt. Satz 10.2: f ist eine Wahrscheinlichkeitsdichte, d.h. Z∞ −∞ f (t) dt = Z∞ −∞ 1 t−µ 2 1 √ e− 2 ( σ ) dt = 1 . σ 2π 114 10 DIE NORMALVERTEILUNG 1 F 115 10.2 Die standardisierte Normalverteilung Beweis: Aufgabe. 2 f Aufgabe 10.2: Man bestimme die Schiefe der Normalverteilung. F(x) 0,5 F(x) f(x) µ R x 0 µ Abb. 10.2 a x Für den Mittelwert µ = 0 und die Streuung σ = 1 ist die Normalverteilung tabelliert (s. Anhang). In diesem Fall bezeichnen wir die Dichte und die Verteilungsfunktion mit 1 2 1 ϕ(z) = √ e− 2 z 2π Mit der Substitution v = −∞ R Die standardisierte Normalverteilung Abb. 10.2 b Beweis: Z∞ 10.2 t−µ √ σ 2 ⇒ 1 t−µ 2 1 1 √ e− 2 ( σ ) dt = √ π σ 2π dv dt = Z∞ 1 √ σ 2 1 t−µ 2 ) σ Z∞ −∞ f (x) = dt = µ . 1 ϕ(z) und F (x) = Φ(z) , σ wobei z = x−µ . σ Satz 10.5: Sei X eine normalverteilte Zufallsgröße mit Mittelwert µ und Streuung σ, und Z = die zugehörige standardisierte Zufallsgröße. Beweis: 1 E(X) = √ π 2 Man beweise, dass zwischen der Dichte f (x) und Verteilungsfunktion F (x) der Gaussverteilung mit Mittelwert µ und Streuung σ und den standardisierten Formen ϕ(z) und Φ(z) folgender Zusammenhang besteht: −∞ Mit der Substitution v = 1 e− 2 t dt . Aufgabe 10.3: −∞ t e− 2 ( Zz 2 e−v dv = 1. 2 Der Erwartungswert der Normalverteilung ist µ, d.h. Z∞ 1 Φ(z) = √ 2π Um die Tabellen für eine beliebige normalverteilte Zufallsgröße X gebrauchen zu können, muss man diese in die zugehörige standardisierte Zufallsgröße Z mit dem Mittelwert µ = 0 und der Streuung σ = 1 transformieren (s. Definition 9.7). erhält man Satz 10.3: 1 E(X) = √ σ 2π und t−µ √ , σ 2 −v 2 (µ + vσ 2)e Z∞ µ dv = √ π −∞ −v 2 e −∞ √ Z∞ σ 2 2 dv + √ ve−v dv = µ , π −∞ 2 denn das zweite Integral hat den Wert 0, da ve−v eine ungerade Funktion ist. 2 Satz 10.4: Beweis: Wegen Aufgabe 10.3 gilt mit den dort verwendeten Bezeichnungen X −µ x−µ P (Z ≤ z) = P ≤ = P (X ≤ x) = F (x) = Φ(z) , σ σ d.h. Φ(z) ist die Verteilungsfunktion von Z. Wegen Φ′ (z) = ϕ(z) ist ϕ(z) die Dichte von Z. 2 Bemerkung 10.1: Die Varianz der Normalverteilung ist σ 2 , d.h. 1 V (X) = E(X − µ)2 = √ σ 2π sei Dann ist Z ebenfalls normalverteilt mit der Dichte ϕ und der Verteilungsfunktion Φ. √ also t = µ + vσ 2, erhalten wir √ X−µ σ Z∞ −∞ 1 t−µ 2 ) σ (t − µ)2 e− 2 ( dt = σ 2 . In Satz 10.5 wurde gezeigt, dass die standardisierte Zufallsgröße einer normalverteilten Zufallsgröße normalverteilt ist. In Satz 17.3 wird allgemeiner bewiesen, dass jede lineare Transformation einer normalverteilten Zufallsgröße normalverteilt. Außerdem wird im gleichen Abschnitt gezeigt, dass die Summe unabhängiger normalverteilter Zufallsgrößen stets normalverteilt ist. (s. Satz 17.2). 116 10 DIE NORMALVERTEILUNG Zu vorgegebenem a und b setzt man also α = a−µ σ und β = b−µ σ und erhält P (a < X ≤ b) = P (α < Z ≤ β) = Φ(β) − Φ(α). Diese Werte lassen sich für positive Argumente aus der Tabelle im Anhang ablesen. Bei negativen Argumenten hilft die folgende Aufgabe: Wir verzichten auf den aufwändigen Beweis. Er findet sich in einschlägigen Analysislehrbüchern. Bemerkung 10.2: √ Die Tilde ∼ bedeutet, dass n! und 2πn lim √ Aufgabe 10.4: n→∞ Zeigen Sie, dass für die Verteilungsfunktion Φ der standardisierten Normalverteilung gilt: Φ(−z) = 1 − Φ(z). Beispiel 10.1: P (24 < X ≤ 28) = P (0, 25 < Z ≤ 1, 25) = Φ(1, 25)−Φ(0, 25) = 0, 89435−0, 59871 = 0, 29564 . asymptotisch gleich sind, d.h. Satz 10.7: (Lokaler Grenzwertsatz von de Moivre und Laplace) Sei 0 < p < 1 und q = 1 − p. Weiterhin sei (xn ) eine Folge mit den Eigenschaften (i) xn ∈ {0, 1, . . . , n} (ii) (zn ) mit zn = und xn −np √ npq ist eine beschränkte Folge. Dann genügt die Binomialverteilung bn,p (xn ) der Beziehung Aufgabe 10.5: Die Zufallsgröße X sei normalverteilt mit Mittelwert µ und Streuung σ. Man bestimme die Wahrscheinlichkeit dafür, dass die Werte von X in folgenden Intervallen liegen: [µ − σ, µ + σ] , n! n = 1 . 2πn ne n n e Der folgende Satz zeigt, dass für große n die Binomialverteilung bn,p (x) gut durch die Normalverteilung fn (x) mit gleichem Mittelwert und gleicher Streuung angenähert wird. Die maximale Tagestemperatur X im Juli sei normalverteilt mit dem Mittelwert 23◦ und der Streuung 4◦ . Wie groß ist die Wahrscheinlichkeit, dass sie zwischen 24◦ und 28◦ liegt? 24 − 23 28 − 23 a = 24◦ −→ α = = 0, 25 , b = 28◦ −→ β = = 1, 25 ; 4 4 Aus der Tabelle auf Seite 236/237 entnimmt man also (a) 117 10.3 Die Grenzwertsätze von de Moivre und Laplace (b) [µ − 2σ, µ + 2σ] , (c) [µ − 3σ, µ + 3σ] . Man vergleiche diese Ergebnisse mit den Werten, die die Tschebyschewsche Ungleichung (Satz 9.9) liefert. bn,p (xn ) ∼ fn (xn ) = 1 ϕ(zn ) ; σn hierbei sei fn die Normalverteilung mit µn = np und σn = √ npq . Beweis: Aufgabe 10.6: Wir schreiben im folgenden aus Gründen der Übersichtlichkeit x statt xn und z statt zn . Die Masse m von 800 Männern sei normalverteilt mit dem Mittelwert µ = 71 kg und der Standardabweichung σ = 6 kg. Wieviele Männer wiegen Der Beweis erfolgt in mehreren kleinen Schritten. (a) zwischen 70 und 75 kg? 10.3 (b) über 78 kg? Die Grenzwertsätze von de Moivre und Laplace In diesem Abschnitt beweisen wir die Grenzwertsätze von de Moivre und Laplace. Mit ihnen lassen sich Werte der Binomialverteilung näherungsweise mittels der Normalverteilung zu berechnen. Für den Beweis braucht man eine von Stirling gefundene Formel, die Fakultäten durch Potenzen approximiert. Satz 10.6: (Formel von Stirling) n n √ n! ∼ 2πn . e 1. Mit y := n − x erhalten wir n! x y n x n−x p q . p q = bn,p (x) = x! y! x Aus z = x−np √ npq ergibt sich r q npq = np 1 + z ; np r p √ y = n − x = nq − z npq = nq 1 − z . nq x = np + z √ (1) Bei beschränktem z folgt x → ∞ und y → ∞ für n → ∞. 2. Wir ersetzen n!, x! und y! in bn,p (x) mit Hilfe der Stirlingschen Formel. Wegen ex+y = en 118 10 DIE NORMALVERTEILUNG und nn = nx · ny erhält man n n √ r 2πn n np x nq y 1 x x √e y y p x q y = √ bn,p (x) ∼ √ . y 2π xy x 2πx 2πy e e 6. Durch Einsetzen in (3) ergibt sich Bemerkung 10.3: Man kann zeigen, dass die in Satz 10.7 bewiesene Approximation der Binomial- durch die Normalverteilung gleichmäßig“ ist. Das soll bedeuten: ” Zu fest gewählten α, β ∈ R mit α < β sei F die Menge aller reellen Folgen (xn ) mit den −np Eigenschaften xn ∈ {0, 1, . . . , n} und α ≤ zn = x√n npq ≤ β. r r q p xy = npq 1 + z 1−z , n np nq r r q p y x = 1+z , = 1−z . np np nq nq Das setzen wir in (2) ein: (3) 4. Wir wenden die Taylorentwicklung des natürlichen Logarithmus ln (1 + t) = t − t2 t3 + + höh. Potenzen von t , 2 3 auf die beiden Potenzen in (3) an und verwenden (1): r r q −x− 21 q 1+z ln = − x + 12 ln 1 + z np np r q 1 1 z2 q c1 √ z − + 1,5 + höh. Pot. von 1/2 = − np + z npq + 2 np 2 np n n z2 c2 1 √ 2 = −z npq − z q + q + 1/2 + höh. Pot. von 1/2 ; 2 n n r r p −y− 21 p = − y + 21 ln 1 − z 1−z ln nq nq r p 1 1 z2 p c3 √ = − nq − z npq + −z − + 1.5 + höh. Pot. von 1/2 2 nq 2 nq n n 2 z 1 c √ 4 = z npq − z 2 p + p + 1/2 + höh. Pot. von 1/2 . 2 n n 5. Durch Addition erhalten wir den Logarithmus des Produkts der beiden letzten Terme aus (3) (man beachte p + q = 1): r r q −x− 21 p −y− 21 z2 1 c 1+z ln 1−z = − + 1/2 + höh. Pot. von 1/2 . np nq 2 n n Durch Davorschalten“ der Exponentialfunktion auf beiden Seiten erhält man ” r r 2 1 1 1 ) − z2 + c + (höh. Pot. von z2 q −x− 2 p −y− 2 n1/2 n1/2 1−z = e ∼ e− 2 . 1+z np nq z2 1 1 1 e− 2 = fn (x) = ϕ(zn ). 2 bn,p (x) ∼ √ √ npq σ 2π n (2) 3. Aus (1) ergibt sich r r 1 1 q −x− 21 p −y− 21 1+z 1−z . bn,p (x) ∼ √ √ np nq 2π npq 119 10.3 Die Grenzwertsätze von de Moivre und Laplace Dann gibt es zu jedem ε > 0 ein N (ε), so dass für alle n ≥ N (ε) und für alle Folgen aus F gilt bn (xn ) < ε. − 1 fn (xn ) In der Praxis ist Satz 10.7 kaum eine Hilfe. Man ist z.B. im allgemeinen nicht an der Wahrscheinlichkeit für genau 100 fehlerhafte Stücke in einer Sendung von n = 10000 Stück interessiert, sondern möchte die Wahrscheinlichkeit dafür wissen, dass die Lieferung nicht mehr als 100 unbrauchbare Stücke enthält. Demnach wird nicht nach bn,p (100) gefragt, sondern nach 100 P der Summe bn,p (x). Da hilft der integrale Grenzwertsatz weiter. x=0 Satz 10.8: (Integraler Grenzwertsatz von de Moivre und Laplace) Die Zufallsgrößen Xn seien binomialverteilt mit P (Xn = x) = bn,p (x), wobei 0 < p < 1 und q = 1 − p. Dann gilt für alle α ≤ β 1 Xn − np ≤β = √ lim P α < √ n→∞ npq 2π Beweis: Es gilt P Xn − np α< √ ≤β npq = X Zβ t2 e− 2 dt = Φ(β) − Φ(α) . α bn,p (x). √ ≤β α< x−np npq Da hier Wahrscheinlichkeiten der Zufallsgrößen Xn summiert werden, bei denen die Werte der (x) −np = 1. beschränkt sind, gilt nach Satz 10.7 lim bfn,p normalisierten Zufallsgrößen Zn = X√nnpq n (x) n→∞ Wegen der Gleichmäßigkeit dieser Approximation (s. Bemerkung 10.3) gilt mit der Abkürzung √ z = z(x) = x−np für genügend großes n npq b (x) z2 1 n,p − < √ ε 2 √ ·e − 1 < ε , und weiter bn,p (x) − z2 1 2πnpq 2πnpq − √2πnpq e 2 120 10 DIE NORMALVERTEILUNG z2 wegen e− 2 ≤ 1. Wir erhalten unter Verwendung der Dreiecksungleichung X X X z 2 z2 1 1 √ bn,p (x) − bn,p (x) − √ · e− 2 = e− 2 x−np 2πnpq 2πnpq α< √npq ≤β α< x−np √ √ ≤β ≤β α< x−np npq npq ≤ X √ ≤β α< x−np npq wobei Kn = int(np + ist. z2 bn,p (x) − √ 1 · e− 2 2πnpq √ npq β) − int(np + Wegen z(x) − z(x − 1) = X √ ≤β α< x−np npq √ x−np √ npq z2 1 e− 2 2πnpq − = x−1−np √ npq √ = X npq α) ≈ √1 npq X √ ≤β α< x−np npq √ Rβ npq (β − α) die Anzahl der Summanden → 0 für n → ∞ ist α + √ ≤β α< x−np npq Für 0 < p < 1 gilt lim P n→∞ 10.4 Xn − np ≤z √ npq Zβ α t2 e− 2 dt X 2 X z 1 − √ ≤ e 2 bn,p (x) − x−np 2πnpq x−np α< √npq ≤β α< √npq ≤β Zβ X 2 2 t z 1 1 − − √ e 2 (z(x) − z(x − 1)) − √ e 2 dt + x−np 2π 2π α< √npq ≤β α δ δ < + = δ, 2 2 was schon die behauptete Aussage darstellt. 2 = lim n→∞ X x−np √ ≤z npq 1 bn,p (x) = √ 2π Zz t2 e− 2 dt = Φ(z) . −∞ x 0 1 2 3 4 5 6 7 8 bn,p (x) 1 256 8 256 28 256 56 256 70 256 56 256 28 256 8 256 1 256 t2 z2 1 1 √ e− 2 (z(x) − z(x − 1)) − √ 2π 2π Anwendungen der Normalapproximation e− 2 dt. Für großes n kann man deshalb folgen- dermaßen abschätzen: Zβ t2 X − np 1 − P α < √ 2 dt √ e ≤ β − npq 2π α X X z2 1 √ e− 2 (z(x) − z(x − 1)) = bn,p (x) − x−np 2π α< √npq ≤β √ ≤β α< x−np npq X Mit etwas anderen Methoden10 kann man auf die Beschränktheit der standardisierten Zufallsgröße Z verzichten und erhält direkt die Konvergenz der Verteilungsfunktion der standardisierten Binomialverteilung gegen die Verteilungsfunktion der Normalverteilung: Wir bezeichnen die Approximation der Binomialverteilung nach den Sätzen 10.7 und 10.8 durch die Normalverteilung als Normalapproximation. Zur Anschauung vergleichen wir in Abb. 10.3 die Binomialverteilung graphisch mit n = 8 und p = q = 21 mit ihrer Normalapproximation. Die Werte der Binomialverteilung sind 1 √ e− 2 (z(x) − z(x − 1)) 2π √1 2π Bemerkung 10.4: ε εKn √ = √ , 2πnpq 2πnpq z2 √ ≤β α< x−np npq eine Riemannsche Summe des Integrals < 121 10.4 Anwendungen der Normalapproximation 80 70 60 50 40 30 20 10 y [ ] 0 Normalverteilung Binomialverteilung 1 2 3 4 5 6 7 8 x Abb. 10.3 Beispiel 10.2: 56 = 0, 21875 der Binomialverteilung (vgl. Abb.10.3) auf zwei Wir wollen den Wert b8, 1 (3) = 256 2 verschiedene Arten mit Hilfe der Normalverteilung annähern. Hierzu bestimmen wir zunächst r 1 1 1 √ √ µ = n · p = 8 · = 4 und σ = npq = 8 · · = 2 ≈ 1, 41 . 2 2 2 Nach Satz 10.7 erhält man 1 3−4 −1 1 1 1 =√ ϕ √ = √ e− 4 ≈ 0, 21970. b8, 1 (3) ≈ √ ϕ √ 2 2 π 2 2 2 2 10 vgl. z.B. M. Fisz, Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 167 f. 122 123 10 DIE NORMALVERTEILUNG 11 Die Abschätzung ist recht genau: Der Fehler beträgt weniger als 0, 5 %. Man kann aber auch Satz 10.8 anwenden. Hierbei ist es naheliegend, die Wahrscheinlichkeit P (2, 5 < X ≤ 3, 5) = P (X = 3) = b8, 1 (3) durch die Normalapproximation auszuwerten (man 2 beachte, dass die Binomialverteilung nur ganzzahlige Werte annimmt). Wir setzten also a = 2, 5 → α = Aufgabe 10.4 erhält man dann 2,5−4 √ 2 ≈ −1, 061 und b = 3, 5 → β = 3,5−4 √ 2 ≈ −0, 354. Mit Verteilungen von Zufallsvektoren Häufig betrachtet man mehrere auf der gleichen Menge definierte Zufallsgrößen. Körpergröße und Gewicht der Personen einer Gruppe sind ein Beispiel dafür. Fasst man zwei oder mehr Größen zu Paaren oder n–Tupeln zusammen, so erhält man Zufallsvektoren (X, Y ) bzw. (X1 , . . . , Xn ) ; man spricht auch von mehrdimensionalen Zufallsgrössen. b8, 1 (3) = P (2, 5 < X ≤ 3, 5) ≈ Φ(−0, 354) − Φ(−1, 061) = 1 − Φ(0, 354) − (1 − Φ(1, 061)) Wir wollen uns hier mit Verteilungen von Zufallsvektoren beschäftigen. Die damit zusammenhängenden Begriffe erklären wir zunächst an einem Beispiel. Hierbei wurden die Werte der Normalverteilung aus den Tabellenwerten interpoliert. Beispiel 11.1: Aufgabe 10.7: Beim Roulettespiel wird stets eine der 37 Zahlen 0, 1, . . . , 36 ausgespielt. Wir betrachten das Setzen auf die Kolonne K = {1, 2, . . . , 12} bzw. auf die Impair genannte Menge der ungeraden Zahlen U = {1, 3 . . . , 35}. 2 = Φ(1, 061) − Φ(0, 354) ≈ 0, 85566 − 0, 63833 = 0, 21733 . Mit Hilfe der Normalapproximation schätze man folgende Werte der Binomialverteilung b20; 1 : 2 b20; 1 (12) ≈ 0, 12013 und 2 12 X P (8 < X ≤ 12) = b20; 1 ≈ 0, 16018 + 0, 17620 + 0, 16018 + 0, 12013 = 0, 61669 . 2 x=9 Es handle sich um ein Laplace–Experiment, und die Zufallsgrößen X bzw. Y mögen den Reingewinn beim Setzen einer Einheit auf K bzw. U angeben. Beim Eintreten von K erhält man den dreifachen Einsatz ausbezahlt (Reingewinn 2 Einheiten), hat X die Verteilung andernfalls verliert man den Einsatz. Wegen P (K) = 12 37 Aufgabe 10.8: Eine homogene Münze wird 75–mal geworfen. Man bestimme die Wahrscheinlichkeit dafür, dass die Anzahl mit der Kopf“ fällt, zwischen 40 (einschließlich) und 50 (einschließlich) liegt. ” Aufgabe 10.9: Man bestimme die Lösungen der Aufgaben 8.10 und 8.11 mit Hilfe der Normalapproximation. Eine ideale Münze wird 2n–mal geworfen, und X zählt, wie oft Kopf“ erscheint. Zeigen Sie, ” dass für großes n für die Wahrscheinlichkeit, genau n Erfolge zu erzielen, gilt Aufgabe 10.11: Lösen Sie das Buffonsche Münzwurfproblem (vgl. Aufgabe 7.9) mit Hilfe des Satzes 10.8. 2 12 37 −1 25 37 Beim Spiel auf einfache Chancen gibt es eine Sonderregelung. Wird eine ungerade Zahl ausgespielt, bekommt man den doppelten Einsatz ausbezahlt, erscheint die 0, kann man den halben Einsatz herausnehmen, in allen anderen Fällen verliert man den Einsatz. Y hat daher die folgende Verteilung: Aufgabe 10.10: 1 P (X = n) ≈ √ . πn xi P (X = xi ) = f1 (xi ) yi 1 P (Y = yi ) = f2 (yi ) 18 37 − 21 1 37 −1 18 37 Setzen wir jetzt je eine Einheit auf K und auf U , so werden die beiden Gewinne durch den Zufallsvektor (X, Y ) beschrieben. Treten z.B. die Ereignisse K und U zugleich ein, d.h. das Ereignis K ∩ U = {1, 3, 5, 7, 9, 11}, dann nimmt X den Wert 2 und Y den Wert 1 an. Wir schreiben dafür 6 . P (X = 2, Y = 1) := P (K ∩ U ) = 37 Analog ergibt sich P (X = 2, Y = − 21 ) P (X = 2, Y = −1) P (X = −1, Y = 1) := := := P (X = −1, Y = − 21 ) := P (K ∩ {0}) C P (K ∩ (U \ {0})) C P (K ∩ U ) P (K C ∩ {0}) C C = P (∅) = P ({2, 4, . . . , 12}) = 0, = = P ({13, 15, . . . , 35}) = = P ({0}) = P (X = −1, Y = −1) := P (K ∩ (U \ {0})) = P ({14, 16, . . . , 36}) = 6 37 12 37 1 37 12 37 , , , . 124 11 VERTEILUNGEN VON ZUFALLSVEKTOREN Wir fassen diese Ergebnisse in einer Tabelle zusammen: Y = − 12 Y =1 X=2 X = −1 f2 (y) 6 37 12 37 f2 (1) = Definition 11.2: (gemeinsame Verteilung eines diskreten Zufallsvektors) Y = −1 1 37 f2 (− 21 ) = 1 37 f2 (−1) = (X, Y ) sei ein diskreter Zufallsvektor. Dann heißt die Funktion f : R × R → [0, 1] mit f1 (x) 6 37 12 37 0 18 37 125 11.1 Diskrete zweidimensionale Verteilungen 12 37 25 = 37 f1 (2) = f1 (−1) 18 37 1 f (x, y) := P (X = x, Y = y) = P ({ω | X(ω) = x ∧ Y (ω) = y}) gemeinsame Verteilung der beiden diskreten Zufallsgrößen X und Y oder auch Wahrscheinlichkeitsfunktion des Zufallsvektors (X, Y ). Die Summen der Zeilen liefern die Wahrscheinlichkeiten, mit denen die Zufallsgröße X ihre Werte annimmt; die Summen der Spalten ergeben die Wahrscheinlichkeiten für die Werte von Y. Man beachte, dass f (x, y) = 0 ist, sofern x nicht in der Bildmenge {xi } von X oder y nicht in der Bildmenge {yj } von Y liegt. Die Tabelle enthält die Werte einer Funktion f : R × R → [0, 1] der beiden Variablen x und y. Abbildung 11.1 zeigt ihren Graphen als Stabdiagramm. Satz 11.1: f(x,y) = P(X=x,Y=y) x X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre gemeinsame Verteilung. Dann gilt XX f (xi , yj ) = 1. xi yj y Beweis: (2,1) 2 Wir betrachten die Ereignisse (2,-0.5) 1 (2,-1) 1 0 (-1,1) -0.5 -1 -1 (-1,-0.5) (-1,-1) Abb. 11.1 Wir kommen nun zur allgemeinen Begriffsbildung. Dabei werden wir uns weitgehend auf die Betrachtung zweidimensionaler Zufallsvektoren beschränken und auf Verallgemeinerungsmöglichkeiten nur hinweisen. 11.1 Diskrete zweidimensionale Verteilungen Definition 11.1: (diskreter Zufallsvektor) Ein Zufallsvektor (X, Y ) : Ω 7→ R × R heißt diskret, wenn X und Y jeweils nur abzählbar viele Werte xi und yj annehmen. Ai := X −1 (xi ) = {ω | X(ω) = xi } und Bj := Y −1 (yj ) = {ω | Y (ω) = yj .} S Die Ereignisse Ai sind paarweise disjunkt, und es gilt Ai = Ω, denn jedes ω ∈ Ω wird durch X i S auf genau ein xi abgebildet. Entsprechend sind auch die Bj paarweise disjunkt mit Bj = Ω. j S S S Man erhält daher Ω = Ω ∩ Ω = Ai ∩ Bj = (Ai ∩ Bj ) . Wegen der Disjunktheit der i j i,j Ereignisse Ai ∩ Bj erhält man nach dem 1. und dem 3. Axiom von Kolmogorow X X X P (Ai ∩ Bj ) = 1 = P (Ω) = P (X = xi , Y = yj ) = f (xi , yj ) . 2 xi ,yj i,j xi ,yj Satz 11.2: X und Y seien diskrete Zufallsgrößen, die Werte aus {xi } bzw. {yj } annehmen, und f sei ihre gemeinsame Verteilung. Dann sind die Wahrscheinlichkeitsverteilung f1 der Zufallsgröße X und die zugehörige Verteilungsfunktion F1 bestimmt durch X XX f1 (x) = P (X = x) = f (x, yj ) und F1 (x) = P (X ≤ x) = f (xi , yj ). yj Eine entsprechende Aussage gilt für die Zufallsgröße Y . xi ≤x yj 126 11 VERTEILUNGEN VON ZUFALLSVEKTOREN Beweis: S S Mit den in Satz 11.1 verwendeten Bezeichnungen gilt Ai = Ai ∩ ( Bj ) = (Ai ∩ Bj ), und j j diese Mengen sind paarweise disjunkt. Daher gilt für alle xi aus der Wertemenge von X X X X f (xi , yj ) . P (X = xi , Y = yj ) = P (Ai ∩ Bj ) = f1 (xi ) = P (X = xi ) = P (Ai ) = Satz 11.3: Für die Verteilungsfunktion eines diskreten Zufallsvektors (X, Y ) gilt X f (xi , yj ) . F (x, y) = P (X ≤ x, Y ≤ y) = xi ≤x yj ≤y yj yj j 127 11.1 Diskrete zweidimensionale Verteilungen Für alle x ∈ R, die nicht im Wertebereich von X liegen, gilt f1 (x) = 0 und f (x, yj ) = 0 für alle yj , d.h. die Gleichung gilt in diesem Fall auch. Beweis: Die behauptete Darstellung für F1 folgt durch Einsetzen der Darstellung von f1 in X X F1 (x) = P (X ≤ x) = P (X = xi ) = f1 (xi ). 2 Die Funktion F ist also eine 2–dimensionale Treppenfunktion über der x–y–Ebene. Die Treppe steigt zur Höhe 1 auf. Ein qualitatives Bild der Verteilungsfunktion, die man aus der Tabelle auf Seite 124 entnehmen kann, zeigt Abb. 11.2. In dieser Graphik sind die Verteilungsfunktionen F1 und F2 der beiden Zufallsgrößen X und Y , die in Richtung der beiden Koordinatenachsen definiert sind, durch dickere Linien hervorgehoben. xi ≤x xi ≤x Aufgabe. 2 Demnach erhält man die Wahrscheinlichkeitsfunktionen der Zufallsgrößen X und Y direkt aus der gemeinsamen Verteilung durch geeignete Summenbildung. Trägt man wie auf Seite 124 die Werte P (X = xi , Y = yj ) in eine Matrix ein und addiert über die einzelnen Zeilen bzw. Spalten, so ergeben sich am Rand die Werte der Wahrscheinlichkeitsfunktionen von X und Y , also f1 (xi ) = P (X = xi ) bzw. f2 (yj ) = P (Y = yj ). F(x,y) F2 y Definition 11.3: (Randverteilungen diskreter Zufallsvektoren) f : R × R → [0, 1] sei die Verteilung des diskreten Zufallsvektors (X, Y ). Dann heißen X X f1 (x) = P (X = x) = f (x, yj ) bzw. f2 (y) = P (Y = y) = f (xi , y) yj x F1 y xi 1 Randverteilung der Zufallsgröße X bzw. der Zufallsgröße Y . Die zugehörigen Verteilungsfunktionen F1 (x) = P (X ≤ x) bzw. F2 (y) = P (Y ≤ y) heißen Verteilungsfunktion der Randverteilung von X bzw. von Y . (2,-1) -1 0 1 2 (-1,1) Man beachte: Statt f benutzten wir früher den Buchstaben p. x Analog zur Verteilungsfunktion einer eindimensionalen Zufallsgröße legen wir eine Verteilungsfunktion mit zwei Variablen für den Zufallsvektor (X, Y ) fest. y (-1,-0.5) (-1,-1) 3D-Darstellung Abb. 11.2 a x -0,5 -1 Grundriß Abb. 11.2 b Definition 11.4: (Verteilungsfunktion eines Zufallsvektors) Bemerkung 11.1: Die Funktion F : R × R → [0, 1] mit Die in diesem Abschnitt eingeführten Bezeichnungen lassen sich leicht für n-dimensionale Zufallsvektoren (X1 , . . . , Xn ) : Ω → Rn verallgemeinern: F (x, y) := P (X ≤ x, Y ≤ y) := P ({ω ∈ Ω | X(ω) ≤ x ∧ Y (ω) ≤ y}) heißt Verteilungsfunktion des Zufallsvektors (X, Y ). (X1 , . . . , Xn ) heißt diskret, wenn jede der Zufallsgrößen Xj nur abzählbar viele Werte annimmt. Auch die Verteilungsfunktion des Zufallsvektors erhält man im diskreten Fall duch Summation: f (y1 , . . . , yn ) = P (X1 = y1 , . . . , Xn = yn ) heißt gemeinsame Verteilung der Zufallsgrößen X1 , . . . , Xn oder Wahrscheinlichkeitsverteilung des Zufallsvektors (X1 , . . . , Xn ). Es gilt 128 P x1 ··· 11 VERTEILUNGEN VON ZUFALLSVEKTOREN P f (x1 , . . . , xn ) = 1, wobei xj in der Summe alle Werte durchläuft, die die Zufallsgröße diese (mit noch zu bestimmendem Proportionalitätsfaktor α) xn Xj annimmt. fj (yj ) = P (Xj = yj ) ist die Randverteilung der Zufallsgröße Xj . Man erhält ihre Werte, indem man die Werte von f (x1 , . . . , yj , . . . , xn ) aufsummiert, wobei yj an der j-ten Stelle festgehalten wird und die anderen Variablen alle angenommenen Werte der jeweils zugehörigen Zufallsgröße durchlaufen. F (y1 , . . . , yn ) = P (X1 ≤ y1 , . . . , Xn ≤ yn ) ist die Verteilungsfunktion des Zufallsvektors (X1 , . . . , Xn ) und Fj (yj ) = P (Xj ≤ yj ) die Verteilungsfunktion der Randverteilung von Xj . Man erhält diese Verteilungsfunktionen ebenfalls durch geeignete Summenbildung. 11.2 f (x, y) = ( αH (R − R p x2 + y 2 ) für 0 p x2 + y 2 ≤ R, sonst. Wir betrachten jetzt den Kreiskegel von oben. Dabei stechen wir durch achsenparallele, senkrechte Schnitte aus ihm ein Stück heraus und durchsuchen es (siehe Abb. 11.4). Die Wahrscheinlichkeit, dabei erfolgreich zu sein, bezeichnen wir mit F (x, y). Die Dichte f ist so festgelegt, dass ihr Integral gerade F liefert: F (x, y) = P (X ≤ x, Y ≤ y) = Stetige zweidimensionale Verteilungen 129 11.2 Stetige zweidimensionale Verteilungen Zx Zy f (ξ, η) dη dξ . −∞ −∞ Die Definition 11.4 für die Verteilungsfunktion lässt sich nicht nur auf diskrete, sondern auf alle Zufallsgrößen anwenden. Man bezeichnet einen Zufallsvektor als stetig, wenn seine Verteilungsfunktion stetig ist. In den meisten Fällen setzt man allerdings die Existenz einer Wahrscheinlichkeitsdichte voraus. Wir motivieren die Dichte eines Zufallsvektors anhand eines geometrischen Problems. Beispiel 11.2: Durch ein Sieb geworfener Kies bildet einen geraden Kreiskegel der Höhe H mit dem Grundkreisradius R (Abb. 11.3). Ist in diesem Haufen eine Stecknadel versteckt, die es zu suchen gilt, so ist die Wahrscheinlichkeit, fündig zu werden, proportional zum durchsuchten Volumen. Wir denken uns nun den Kegel in sehr schmale, senkrecht stehende Säulen aufgeteilt. Deren Volumen ist jeweils der Höhe h und der Grundfläche I proportional. Also ist die Wahrscheinlichkeit, in einer solchen Säule das Objekt zu finden αhI, α Proportionalitätsfaktor. Allgemein ergibt sich der Begriff der Verteilungsfunktion einer zweidimensionalen Zufallsgröße (X, Y ) im stetigen Fall genauso wie im diskreten, d.h. Definition 11.4 bezieht sich auf beide Sachverhalte. Definition 11.5: (gemeinsame Dichte eines stetigen Zufallsvektors) Eine zweidimensionale Zufallsgröße (X, Y ) heißt stetig, wenn ihre Verteilungsfunktion F (x, y) = P (X ≤ x, Y ≤ y) stetig ist. Existiert eine (bis auf endlich viele stetig differenzierbare Kurven) überall stetige Funktion f : R × R → R+ 0 , so dass für die Verteilungsfunktion F von (X, Y ) gilt F (x, y) := P (X ≤ x, Y ≤ y) = Zx Zy f (ξ, η) dη dξ , −∞ −∞ so heißt f Wahrscheinlichkeitsdichte von (X, Y ) oder gemeinsame Dichte der Zufallsgrößen X und Y . η Bemerkung 11.2: Wir werden hier i.a. davon ausgehen, dass die Verteilung eines stetigen Zufallsvektors durch eine Dichte bestimmt ist. H (x,y) h ξ r R (0,0) Abb. 11.3 Existiert eine Dichte f , so bestimmt sie die Verteilungsfunktion F . Umgekehrt wird aber wegen f (x, y) = (x,y) Abb. 11.4 Dividiert man durch den Flächeninhalt I des Grundelements, so erhält man die Wahrscheinp (R − r) = H (R − x2 + y 2 ) ist lichkeitsdichte an der betreffenden Stelle. Wegen h = H R R ∂ 2 F (x, y) ∂ 2 F (x, y) = , ∂x ∂y ∂y ∂x die Dichte eindeutig durch die Verteilungsfunktion bestimmt, sofern diese zweimal stetig partiell differenzierbar ist. Analog zum eindimensionalen Fall beweist man den folgenden Satz: 130 11 VERTEILUNGEN VON ZUFALLSVEKTOREN x2 x1 Satz 11.4: Für die Verteilungsfunktion F einer zweidimensionalen Zufallsgröße (X, Y ) gilt lim F (x, y) = x→∞ y→∞ Z∞ Z∞ R f (ξ, η) dη dξ = 1 . R2 11.5 Der Graph der Dichte beschreibt über der x, y–Ebene eine Fläche. Der Körper zwischen dieser Fläche und der x, y–Ebene besitzt das Volumen 1. Die Verteilungsfunktion F (x, y) ist das Volumen des Teilkörpers über der Grundfläche {(ξ, η) | ξ ≤ x, η ≤ y} . Beispiel 11.2: (Fortsetzung) f (ξ, η) dη dξ = −∞ −∞ ZZ α ξ 2 +η 2 ≤R2 (X, Y ) bildet p H (R − ξ 2 + η 2 ) dη dξ = α R ZZ h(ξ, η) dη dξ ξ 2 +η 2 ≤R2 1 1 = α · Volumen des Kegels = α · · Grundfläche · Höhe = α · · πR2 · H . 3 3 Demnach ist α = f (x, y) = ( 3 πR2 H 3 πR3 und (R − R = ] − ∞, x2 ] × ] − ∞, y2 ] = ]x1 , x2 ] × ]y1 , y2 ] ∪ ] − ∞, x1 ] × ]y1 , y2 ] ∪ ]x1 , x2 ] × ] − ∞, y1 ] ∪ ] − ∞, x1 ] × ] − ∞, y1 ] = R0 ∪ R1 ∪ R2 ∪ R3 mit den Bezeichnungen der Abbildung. Die Konstante α in der Dichte bestimmt sich aus Z∞ Z∞ y1 R3 −∞ −∞ y 2 R0 R1 Beweis: Aufgabe. 2 1 = 131 11.2 Stetige zweidimensionale Verteilungen p 0 x2 + y 2 ) für p x2 + y 2 ≤ R , sonst. Der nächste Satz gilt sowohl für stetige als auch für diskrete Zufallsgrößen. Satz 11.5: (X, Y ) sei ein auf dem Stichprobenraum Ω definierter zweidimensionaler Zufallsvektor und F : R × R → [0, 1] seine Verteilungsfunktion. Dann ist die Wahrscheinlichkeit, dass der Zufallsvektor in das Rechteck R0 :=]x1 , x2 ]×]y1 , y2 ] abbildet P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) := P ({ω | x1 < X(ω) ≤ x2 ∧ y1 < Y (ω) ≤ y2 }) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) . Beweis: Wir argumentieren geometrisch (vgl. Abb. 11.5). Hierzu zerlegen wir R = ] − ∞, x2 ]×] − ∞, y2 ] in vier paarweise punktfremde Mengen und wenden die Axiome von Kolomogorow an: nach R3 mit der Wahrscheinlichkeit “ “ “ R2 “ “ “ “ “ “ R1 “ “ “ “ “ “ R “ “ “ F (x1 , y1 ) ab. F (x2 , y1 ) − F (x1 , y1 ) F (x1 , y2 ) − F (x1 , y1 ) F (x2 , y2 ) “ “ “ Damit ergibt sich für die gesuchte Wahrscheinlichkeit P (R0 ) als P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P R \ (R1 ∪ R2 ∪ R3 ) = P (R) − P (R1 ) − P (R2 ) − P (R3 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x1 , y1 ) − F (x2 , y1 ) − F (x1 , y1 ) − F (x1 , y1 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) . 2 Satz 11.6: (X, Y ) sei eine stetige zweidimensionale Zufallsgröße mit der Verteilungsfunktion F und der gemeinsamen Dichte f . Dann gilt P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = Zx2 Zy2 f (x, y) dy dx . x1 y1 Beweis: Nach Satz 11.5 ist P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) = = Rx2 Ry2 −∞ −∞ Rx2 Ry2 x1 −∞ f (x, y) dy dx − f (x, y) dy dx − Rx1 Ry2 −∞ −∞ Rx2 Ry1 f (x, y) dy dx − f (x, y) dy dx = x1 −∞ Rx2 Ry1 −∞ −∞ Rx2 Ry2 f (x, y) dy dx + f (x, y) dy dx . 2 x1 y1 Rx1 Ry1 −∞ −∞ f (x, y) dy dx 132 11 VERTEILUNGEN VON ZUFALLSVEKTOREN Bemerkung 11.3: Allgemein lässt sich für beliebige reguläre Gebiete G in der x, y–Ebene zeigen P (X, Y ) ∈ G = ZZ 133 11.2 Stetige zweidimensionale Verteilungen (a) Für (x, y) ∈ B1 gilt F (x, y) = f (x, y) dy dx . Zy Zξ 0 G 1 dη dξ + ξ 0 Zx Zy y 1 dη dξ = ξ 0 Zy dξ + 0 Zx y x dξ = y + y ln . ξ y y Für (x, y) ∈ B2 erhält man F (x, y) = F (1, y) = y + y ln y1 . Beispiel 11.3: Die Zufallsgröße (X, Y ) besitze die Dichte f (x, y) = ( 1 x Für (x, y) ∈ B3 erhält man F (x, y) = F (x, x) = x . für 0 < y < x < 1 , 0 Für (x, y) ∈ B4 gilt analog F (x, y) = F (1, 1) = 1 . sonst. Für (x, y) ∈ B5 ist F (x, y) = 0 . (a) Wie lautet die Verteilungsfunktion von (X, Y )? (b) Wie groß ist die Wahrscheinlichkeit dafür, dass die Werte von (X, Y ) innerhalb des achsenparallelen Quadrats mit Seiten der Länge 0.2 liegen, dessen Mittelpunkt in (0.5, 0.3) liegt? (c) Wie groß ist die mittlere Wahrscheinlichkeitsdichte innerhalb dieses Quadrats? (b) P (0.4 < X ≤ 0.6 , 0.2 < Y ≤ 0.4) = F (0.6, 0.4) − F (0.6, 0.2) − F (0.4, 0.4) + F (0.4, 0.2) 0,6 0,4 = 0, 4 + 0, 4 ln 0,4 − 0, 2 − 0, 2 ln 0,6 − 0, 4 − 0, 4 ln 0,4 + 0, 2 + 0, 2 ln 0,4 0,2 0,2 = 0, 4 ln 23 − 0, 2 ln 3 + 0, 2 ln 2 = 0, 2 · ln 32 ≈ 0, 0811 . (c) Wir dividieren die Wahrscheinlichkeit durch die Fläche 0, 22 : Wir teilen die Ebene in 5 Bereiche B1 , . . . , B5 ein (s. Abb. 11.6): B1 = {(x, y) | 0 < x < 1 und 0 < y < x} , B3 = {(x, y) | 0 < x < 1 und x ≤ y} , 2 B5 = R \ (B1 ∪ . . . ∪ B4 ) . B4 = {(x, y) | 1 ≤ x und 1 ≤ y} , η 1 f (x, y) ≈ B2 = {(x, y) | 1 ≤ x und 0 < y < 1} , 0, 0811 = 2, 0275 . 0, 04 An der Stelle (0.5, 0.3) selbst ist die Dichte f (0.5, 0.3) = kleiner als 1,5 %. 1 0.5 = 2 . Die Abweichung ist Auch zu den Verteilungen stetiger Zufallsvektoren existieren Randverteilungen. Sie werden analog zum diskreten Fall definiert, wobei die Integration an die Stelle der Summation tritt. B4 B3 Satz 11.7: Es sei f (x, y) die Dichte einer zweidimensionalen Zufallsgröße (X, Y ). Dann sind B5 F1 (x) = B2 B1 Zx Z∞ −∞ −∞ f (ξ, η) dη dξ und f1 (x) = Z∞ f (x, η) dη −∞ die Verteilungsfunktion und die Dichte der Zufallsgröße X. Entsprechendes gilt für Y . 1 ξ Beweis: Abb. 11.6 Der erste Teil der Behauptung folgt aus F1 (x) = P (X ≤ x) = P (X ≤ x, Y < ∞). Der zweite Teil ergibt sich aus f1 (x) = F1′ (x). 2 134 11 VERTEILUNGEN VON ZUFALLSVEKTOREN Definition 11.6: (Randverteilungen eines stetigen Zufallsvektors) f sei die Wahrscheinlichkeitsdichte einer stetigen Zufallsgröße (X, Y ). Dann heißen f1 (x) = Z∞ f (x, η) dη bzw. F1 (x) = Zx f1 (ξ) dξ = Z∞ f (ξ, y) dξ bzw. F2 (y) = Zy f2 (η) dη = (a) Man bestimme die Konstante k so, dass ( k(x + y) für 0 ≤ x, y und x + y ≤ 2 f (x, y) = 0 sonst die Dichtefunktion einer Zufallsgröße (X, Y ) wird. f (ξ, η) dη dξ . (b) Bestimmen Sie die zugehörige Verteilungsfunktion F (x, y). −∞ −∞ −∞ −∞ Z∞ Zy Entwickeln Sie eine Verallgemeinerung des Satzes 11.5 für 3 (bzw. n) Dimensionen. Aufgabe 11.3: Randverteilung der Zufallsgröße X bzw. Verteilungsfunktion der Randverteilung von X. Entsprechend sind die Randverteilung von Y bzw. die zugehörige Verteilungsfunktion f2 (y) = Aufgabe 11.2: f (ξ, η) dη dξ −∞ −∞ −∞ −∞ Zx Z∞ 11.2 Stetige zweidimensionale Verteilungen Aufgabe 11.4: Aufgabe 11.1: Bestimmen Sie für die Zufallsgröße (X, Y ) aus Beispiel 11.3 (a) die Randverteilungen f1 von X und f2 von Y , (b) die Verteilungsfunktionen F1 von X und F2 von Y . Die Zufallsgröße (X, Y ) besitze die Verteilungsfunktion F mit ( (1 − e−x )(1 − e−y ) für 0 < x, y F (x, y) = 0 sonst. Bestimmen Sie (a) die Dichte f von (X, Y ); Bemerkung 11.4: Wie schon im diskreten Fall lassen sich die verwendeten Begriffe auch hier für n-dimensionale Zufallsvektoren verallgemeinern: Der Zufallsvektor (X1 , . . . , Xn ) heißt stetig, wenn seine Verteilungsfunktion F (x1 , . . . , xn ) eine stetige Funktion ist. Gibt es eine – bis auf Nullmengen des Rn – überall stetige Abbildung f : Rn → R+ 0 , so dass für die Verteilungsfunktion gilt Zx1 Zxn . . . f (ξ1 , . . . , ξn ) dξn . . . dξ1 , F (x1 , . . . , xn ) = P (X1 ≤ x1 , . . . , Xn ≤ xn ) = −∞ −∞ so heißt f gemeinsame Dichte der Zufallsgrößen X1 , . . . , Xn oder Wahrscheinlichkeitsdichte des Zufallsvektors (X1 , . . . , Xn ). Falls f überall stetig ist, gilt ∂ n F (x1 , . . . , xn ) . ∂x1 . . . ∂xn Die Randverteilung fj der Zufallsgröße Xj erhält man dann durch vollständige Integration der Funktion f (x1 , . . . , xn ) über alle bis auf die j-te Variable. f (x1 , . . . , xn ) = Die Verteilungsfunktion der Randverteilung von Xj ist entsprechend Z∞ Z∞ Zxj Fj (xj ) = . . . . . . f (ξ1 , . . . , ξj , . . . , ξn ) dξn . . . dξj . . . dξ1 . −∞ −∞ −∞ (b) P (Y < X) . 135 136 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN 12 12.2 Erwartungswerte 137 Weitere Eigenschaften von Zufallsvektoren 12.1 Nach Satz 12.2 ist daher bei unabhängigen Zufallsgrößen die gemeinsame Verteilung bzw. Dichte durch die Verteilungen der einzelnen Zufallsgrößen bereits bestimmt. Unabhängige Zufallsgrössen Zwei Ereignisse A, B sind unabhängig, wenn P (A ∩ B) = P (A) · P (B) gilt. Da die Urbilder von Intervallen unter Zufallsgrößen Ereignisse sind, liegt es nahe, die Unabhängigkeit von Zufallsgrößen über die Unabhängigkeit der Urbilder bestimmter Intervalle zu definieren. Beweisen Sie Satz 12.2 für diskrete Zufallsgrößen. Definition 12.1: (Unabhängigkeit zweier Zufallsgrößen) Bemerkung 12.1: (X, Y ) sei ein (diskreter oder stetiger) Zufallsvektor mit der Verteilungsfunktion F und den Randverteilungsfunktionen F1 und F2 . Für diskrete Zufallsgrössen bedeutet Satz 12.2, dass P (X = x, Y = y) = P (X = x) · P (Y = y) eine zur Unabhängigkeit äquivalente Bedingung ist. X und Y heißen unabhängig, wenn für alle x, y ∈ R gilt Für stetige Zufallsgrößen lässt sich die Voraussetzung, dass f , f1 und f2 überall stetig sind, folgendermassen abschwächen: P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y), d.h. F (x, y) = F1 (x) · F2 (y) . Aufgabe 12.1: In der Äquivalenz X, Y unabh. ⇔ f (x, y) = f1 (x)f2 (y)“ gilt ⇐“ auch, wenn die Funktionen ” ” nicht überall stetig sind und ⇒“ jedenfalls an allen Stetigkeitsstellen von f , f1 und f2 . ” Satz 12.1: Beispiel 12.1: X und Y sind genau dann unabhängig, wenn für alle x1 , x2 , y1 , y2 ∈ R gilt Die beiden in Beispiel 11.1 behandelten Zufallsgrößen X und Y sind nicht unabhängig. Das zeigt die Tabelle auf Seite 124. Man erkennt z.B. 12 18 6 6= · = f1 (2) · f2 (1) . f (2, 1) = 37 37 37 P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = P (x1 < X ≤ x2 ) · P (y1 < Y ≤ y2 ) . Beweis: Aufgabe. 2 Definition 12.2: (Unabhängigkeit von n Zufallsgrößen) Satz 12.2: X und Y seien Zufallsgrößen, f ihre gemeinsame Verteilung bzw. Dichte und f1 bzw. f2 die Randverteilungen. X und Y seien entweder beide diskret oder beide stetig; im zweiten Fall sollen f , f1 und f2 überall stetige Funktionen sein. Dann sind X und Y genau dann unabhängig, wenn für alle x, y ∈ R gilt Die Zufallsgrößen X1 , . . . , Xn mit der gemeinsamen Verteilungsfunktion F und den Verteilungsfunktionen Fj der Randverteilungen von Xj heißen unabhängig, wenn für alle x1 , . . . , xn ∈ R gilt F (x1 , . . . xn ) = F1 (x1 ) · . . . · Fn (xn ) . Zufallsgrößen, die nicht unabhängig sind, heißen abhängig. f (x, y) = f1 (x) · f2 (y) . Bemerkung 12.2: Beweis: Wir beweisen die Behauptung für den Fall, dass X und Y stetig sind. X und Y seien unabhängig. Dann gilt wegen Bemerkung 11.2 ∂ 2 F1 (x) · F2 (y) ∂ 2 F (x, y) ∂F1 (x) ∂F2 (y) f (x, y) = = = · = f1 (x)f2 (y). ∂x ∂y ∂x ∂y ∂x ∂y Umgekehrt gelte f (x, y) = f1 (x)f2 (y). Dann erhält man Zy Zx Zx Zy Zx Zy f1 (ξ) f2 (η) dη dξ = f1 (ξ) dξ · f2 (η) dη = F1 (x)F2 (y). 2 f (ξ, η) dη dξ = F (x, y) = −∞ −∞ −∞ −∞ −∞ −∞ Man kann analog zu Satz 12.2 zeigen, dass bei nur stetigen oder nur diskreten Zufallsgrößen X1 , . . . , Xn im Wesentlichen die Bedingung f (x1 , . . . , xn ) = f1 (x1 ) · . . . · fn (xn ) für alle x1 , . . . , xn ∈ R notwendig und hinreichend für die Unabhängigkeit ist. 12.2 Erwartungswerte In Beispiel 11.1 betrachteten wir das Roulettespiel, wobei auf die Kolonne K = {1, . . . , 12} bzw. die Menge der ungeraden Zahlen U = {1, 3, . . . , 35} gesetzt werden sollte. 138 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN 139 12.2 Erwartungswerte Beispiel 12.2: Der Roulettespieler interessiert sich nach jedem Einzelspiel für die Gewinnsumme, die ihm seine beiden Einsätze eingebracht haben. Diese wird durch die Zufallsgröße X + Y angegeben. Die Verteilung dieser Summengröße ist durch die gemeinsame Verteilung der beiden Zufallsgrößen X und Y bestimmt. Aus der Tabelle auf Seite 124 lassen sich die Werte, die X + Y annehmen kann und die zugehörigen Wahrscheinlichkeiten entnehmen. −1 x 2 2 2 y 1 x+y 3 − 21 −1 1 0 P (X = x, Y = y) 6 37 0 6 37 12 37 3 2 1 −1 −1 − 32 −2 − 21 1 37 Beweis: Aufgabe. 2 Aufgabe 12.3: Die Zufallsgröße (X, Y ) besitze eine konstante Dichte in dem Quadrat ]0, 1] × ]0, 1]. (a) Man bestimme die Funktionen H(z) und h(z) zur Zufallsgröße Z = X + Y . (b) Man berechne die Randverteilungen von X und Y , deren Mittelwerte und Varianzen. −1 Aufgabe 12.4: 12 37 In diesem Beispiel ist P (X = x, Y = y) = P (X + Y = x + y), denn jede Summe kann nur auf eine Art zustande kommen. Für den Erwartungswert der Summengröße X + Y ergibt sich daher 3 6 12 3 1 12 6 + ·0+1· +0· − · −2· 37 2 37 37 2 37 37 36 + 12 − 3 − 48 3 1 1 = =− =− − = E(X) + E(Y ) . 74 74 37 74 E(X + Y ) = 3 · Der Erwartungswert der Summe X + Y ist hier gleich der Summe der Erwartungswerte von X und Y . Wir werden in Satz 12.6 beweisen, dass sich hinter dieser Übereinstimmung ein allgemeines Gesetz verbirgt. Aufgabe 12.2: (a) Die unabhängigen Zufallsgrößen X1 und X2 seien Poissonverteilt zu den Parametern µ1 und µ2 . Zeigen Sie, dass die Zufallsgröße Z = X1 + X2 ebenfalls Poissonverteilt ist, und zwar zum Parameter µ = µ1 + µ2 . (b) Verallgemeinern Sie die Aussage aus Teil (a) auf eine Summe von n unabhängigen, Poissonverteilten Zufallsgrößen. Satz 12.4: Es sei (X, Y ) eine zweidimensionale Zufallsgröße, g : R2 → R eine Funktion und Z = g(X, Y ). (a) (X, Y ) sei diskret mit der Wahrscheinlichkeitsfunktion f . Dann existiert der XX |g(xi , yj )| f (xi , yj ) existiert, und es gilt Erwartungswert E(Z) denau dann, wenn i 2 E(Z) = E g(X, Y ) = Es sei (X, Y ) ein Zufallsvektor und g : R → R eine stetige Funktion. Zeigen Sie, dass Z = g(X, Y ) ebenfalls eine Zufallsgröße ist. Satz 12.3: Es sei (X, Y ) ein Zufallsvektor und g : R2 → R eine stetige Funktion. Wir betrachten die Zufallsgröße Z = g(X, Y ). (a) Sind X und Y diskret mit gemeinsamer Verteilung f und Werten xi und yj , so erhält man die Wahrscheinlichkeitsfunktion h(z) und die Verteilungsfunktion H(z) von Z durch X XX h(z) = P (Z = z) = f (xi , yj ) und H(z) = P (Z ≤ z) = f (xi , yj ) . g(xi ,yj )=z g(x,y)≤z i j g(xi , yj ) f (xi , yj ) . j (b) (X, Y ) sei stetig mit der gemeinsamen Dichte f , und g sei eine stetige Funktion. Dann existiert der Erwartungswert E(Z) genau dann, wenn Z∞ Z∞ |g(x, y)| f (x, y) dy dx existiert, und es gilt −∞ −∞ E(Z) = E g(X, Y ) = g(xi ,yj )≤z (b) Sind X und Y stetig mit gemeinsamer Dichte f , so erhält man die Verteilungsfunktion H(z) von Z durch Z Z H(z) = P (Z ≤ z) = f (x, y) dx dy . XX Z∞ Z∞ g(x, y) f (x, y) dy dx . −∞ −∞ Beweis: Der Erwartungswert der Zufallsgröße Z = g(X, Y ) ergibt sich im diskreten Fall als X X X X X zk · h(zk ) = zk · f (xi , yj ) = E(Z) = g(xi , yj ) f (xi , yj ) , zk zk g(xi ,yj )=zk zk g(xi ,yj )=zk 140 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN wobei die zk alle möglichen Werte der Zufallsgröße Z durchlaufen. Diese erhält man aber gerade als g(xi , yj ) mit allen möglichen Werten xi für X und yj für Y . Daher gilt weiter X X XX g(xi , yj ) f (xi , yj ) . E(Z) = g(xi , yj ) f (xi , yj ) = zk g(xi ,yj )=zk yj xi Zur Ermittlung des Erwartungswertes von Z muss man daher g(x, y)f (x, y) über alle auftretenden x, y summieren. Bei stetigen Zufallsgrößen tritt wie üblich die Integration an Stelle der Summation. Wir verzichten hier auf den technisch etwas aufwändigeren Beweis. 2 Beispiel 12.3: Wir bestimmen E(XY ) für die zweidimensionale Zufallsgröße (X, Y ) mit der Dichte ( 6(1 − x − y) für 0 < y < 1 − x und 0 < x < 1 , f (x, y) = 0 sonst. E(XY ) = Z1 Z1−ξ Z1 Z1−ξ 6 ξ (1 − ξ) η − 6 ξ η 2 dη dξ 6 ξ η (1 − ξ − η) dη dξ = 0 = Z1 0 = Z1 0 0 0 1−ξ 3 ξ (1 − ξ) η 2 − 2 ξ η 3 dξ = 0 ξ (1 − ξ)3 dξ = Z1 0 Z1 3 3 3 ξ (1 − ξ) − 2 ξ (1 − ξ) dξ 0 (1 − ξ)3 − (1 − ξ)4 dξ 0 1 −1 1 1 1 1 4 5 = (1 − ξ) + (1 − ξ) = − = . 4 5 4 5 20 0 141 12.2 Erwartungswerte Beweis: (a) Diskreter Fall: f sei die Wahrscheinlichkeitsfunktion von (X, Y ). Nach Voraussetzung gilt XX XX |h(xi , yj )| f (xi , yj ) < ∞. Das garantiert die |g(xi , yj )| f (xi , yj ) < ∞ und i i j j Existenz des Erwartungswertes von ag+bh. Weiterhin sind alle in der folgenden Rechnung auftretenden Reihen absolut konvergent und dürfen beliebig umsortiert werden. Man erhält also XX ag(xi , yj ) + bh(xi , yj ) f (xi , yj ) E ag(X, Y ) + bh(X, Y ) = i X j XX X bh(xi , yj ) f (xi , yj ) ag(xi , yj ) f (xi , yj ) + = i Xj X iXjX h(xi , yj ) f (xi , yj ) g(xi , yj ) f (xi , yj ) + b = a i j i j = a E g(X, Y ) + b E h(X, Y ) . (b) Stetiger Fall: Aufgabe. 2 Bemerkung 12.3: Hängt die Funktion g i nur von einer Variablen X ab, so erhält man aus Satz 12.4 X X X XX g(xi ) f1 (xi ) bzw. f (xi , yj ) = g(xi ) g(xi )f (xi , yj ) = E g(X) = i E g(X) = g(x) f (x, y) dy dx = −∞ −∞ i j i j Z∞ Z∞ Z∞ g(x) −∞ Z∞ f (x, y) dy dx = −∞ Z∞ g(x) f1 (x) dx , −∞ wobei f1 die Wahrscheinlichkeitsfunktion bzw. Dichte der Randverteilung von X bezüglich (X, Y ) ist. Dies stimmt also mit der ursprünglichen Definition des Erwartungswertes überein. Summen (oder allgemeiner Linearkombinationen) oder Produkte von mehreren Zufallsgrößen treten recht häufig auf. Daher werden wir untersuchen, unter welchen Bedingungen der Mittelwert oder die Varianz von Summen oder Produkten von Zufallsgrößen aus den Mittelwerten oder Varianzen der einzelnen Größen abgeleitet werden kann. Insbesondere ergibt sich damit als Spezialfall des Satzes 12.5 E(X +Y ) = E(X)+E(Y ) . Durch vollständige Induktion folgt weiter Der folgende Satz befasst sich zunächst mit Linearkombinationen von Zufallsgrößen. Existieren die Mittelwerte der n Zufallsgrößen X1 , . . . , Xn , so gilt ! n n X X E(Xi ) . E Xi = Satz 12.5: (X, Y ) sei ein Zufallsvektor, und es seien g(X, Y ) und h(X, Y ) Zufallsgrößen, deren Erwartungswerte existieren. Dann gilt für beliebige a, b ∈ R E ag(X, Y ) + bh(X, Y ) = a E g(X, Y ) + b E h(X, Y ) . Satz 12.6: (Additionssatz für Mittelwerte) i=1 i=1 Beispiel 12.4: Sei p die Erfolgswahrscheinlichkeit bei einem Bernoulli Experiment. Das Experiment werde n–mal durchgeführt, wobei die Zufallsgröße Xi die Anzahl der Erfolge“ bei der i–ten ” 142 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN Durchführung angibt. Die zugehörige Wahrscheinlichkeitsfunktion hat die Werte fi (0) = 1 − p und fi (1) = p, und man erhält E(Xi ) = 0 · (1 − p) + 1 · p = p . Die Gesamtzahl der Erfolge bei n Ausführungen ist Z = X1 + . . . + Xn . Diese Zufallsgröße hat P nach Satz 12.6 den Mittelwert E(Z) = E(Xi ) = np . Das hatten wir schon früher ermittelt. i Aufgabe 12.5: Die zweidimensionale Zufallsgröße (X, Y ) besitze die Dichte ( x+y für 0 ≤ x, y ≤ 1 , f (x, y) = 0 sonst. 143 12.3 Kovarianz und Korrelation zweier Zufallsgrößen Wir bestimmen nun die Varianz einer Summe von Zufallsgrößen. Satz 12.8: Die Varianz V (X + Y ) der Summe zweier Zufallsgrößen X und Y , deren Varianzen und Kovarianz existieren, ist 2 2 σX+Y = V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) = σX + σY2 + 2σXY . Beweis: Für Z = X + Y erhält man zunächst E(Z 2 ) = E(X 2 + 2XY + Y 2 ) = E(X 2 ) + 2E(XY ) + E(Y 2 ) , (a) Berechnen Sie die Verteilungsfunktion F und begründen Sie, dass f eine Dichte ist. (b) Bestimmen Sie die Randverteilungen f1 bzw. f2 der Zufallsgrößen X bzw. Y und berechnen Sie E(X), E(Y ), V (X), V (Y ). (c) Zeigen Sie, dass die Zufallsgrößen X und Y nicht unabhängig sind. (d) Wählen Sie als Dichte der zweidimensionalen stetigen Zufallsgröße (X, Y ) die Funktion f , gegeben durch f (x, y) = f1 (x) · f2 (y). Welche Randverteilungen haben dann die Funktionen X und Y ? Sind X und Y abhängig oder unabhängig? Was fällt Ihnen auf? E 2 (Z) = E 2 (X + Y ) = E(X) + E(Y ) 2 = E 2 (X) + 2E(X) E(Y ) + E 2 (Y ) . Einsetzen in die Formel V (Z) = E(Z 2 ) − E 2 (Z) ergibt V (Z) = E(X 2 ) − E 2 (X) + E(Y 2 ) − E 2 (Y ) + 2 E(XY ) − E(X) E(Y ) = V (X) + V (Y ) + 2 Cov(X, Y ) . 2 Bemerkung 12.4: Allgemeiner erhält man für die Zufallsgrößen X1 , . . . , Xn 12.3 Kovarianz und Korrelation zweier Zufallsgrößen Die Varianz einer Zufallsgröße X ist V (X) = E (X − E(X))2 = E (X − E(X)) ·(X − E(X)) , 2 2 und nach Satz 6.5 gilt V (X) = E(X ) − E (X) = E(X · X) − E(X) · E(X). Wir definieren die Kovarianz zweier Zufallsgrößen durch einen ähnlichen Term. Definition 12.3: (Kovarianz zweier Zufallsgrößen) Die Kovarianz zweier Zufallsgrößen X und Y ist, sofern die auftretenden Größen existieren σXY := Cov(X, Y ) := E X − E(X) · Y − E(Y ) . Satz 12.7: Existieren für X und Y die Erwartungswerte sowie die Kovarianz, so gilt Cov(X, Y ) = E(XY ) − E(X) · E(Y ) . Beweis: Aufgabe. 2 V n X i=1 n n X X X X Cov(Xi , Xj ) . Xn = Cov(Xi , Xj ) = V (Xi ) + V (Xn ) + 2 i<j i=1 i=1 i6=j Satz 12.9: Sind die Zufallsgrößen X und Y unabhängig, dann gilt Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0 Beweis: Wir betrachten exemplarisch den stetigen Fall. Für die gemeinsame Dichte von X und Y gilt f (x, y) = f1 (x) · f2 (y). Daher erhält man E(XY ) = = R∞ R∞ −∞ −∞ R∞ xy f (x, y) dy dx = x f1 (x) dx −∞ R∞ −∞ Aus Satz 12.7 folgt die Behauptung. R∞ R∞ xy f1 (x)f2 (y) dy dx −∞ −∞ y f2 (y) dy = E(X) · E(Y ) . 2 144 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN 12.3 Kovarianz und Korrelation zweier Zufallsgrößen 145 eines so gebildeten Stapels von der mittleren Stapelhöhe ist offenbar jeweils 10–mal so groß wie die Abweichung der einzelnen Plattendicke von µ. Für die Höhe der so gebildeten Stapel ergibt sich deshalb die Standardabweichung 10σ. Aus Satz 12.9 und Bemerkung 12.4 folgt unmittelbar Satz 12.10: (Additionssatz für Varianzen unabhängiger Zufallsgrößen) Die Varianz einer Summe unabhängiger Zufallsgrößen, deren Varianzen existieren, ist gleich der Summe dieser Varianzen, d.h. V (X1 + . . . + Xn ) = V (X1 ) + . . . + V (Xn ) . Legt man demgegenüber die Platten so übereinander, wie sie aus der Herstellung kommen, so sind Dicken der einzelnen Platten in einem Stapel voneinander unabhängig. Dicke und dünne Platten folgen ganz zufällig aufeinander, so dass sich die Abweichungen vom Mittelwert in gewissen Grenzen gegenseitig aufheben können. Für die Höhe der Zehnerstapel wird man also geringere Schwankungen erwarten als im ersten Fall. In der Tat beträgt √ nach dem oben bewiesenen Satz jetzt die Varianz nur 10σ 2 bzw. die Standardabweichung 10 σ. Insbesondere gilt V (X + Y ) = V (X) + V (Y ), falls X und Y unabhängig sind. Beispiel 12.5: Wir betrachten das n–mal ausgeführte Bernoulliexperiment aus Beispiel 12.4. Jedes Xi hat die Bilder 0 oder 1, also gilt Xi2 = Xi . Die Varianz von Xi ist daher V (Xi ) = E(Xi2 ) − E 2 (Xi ) = E(Xi ) − E 2 (Xi ) = p − p2 = p(1 − p) = pq . Sind die einzelnen Ausführungen des Experiments unabhängig, so ergibt sich als Varianz der Summe Z = X1 + · · · + Xn , die die Anzahl der Erfolge zählt, die früher schon ermittelte Größe V (z) = V (X1 + . . . + Xn ) = n X pq = npq . Satz 12.11: (Multiplikationssatz für Mittelwerte unabh. Zufallsgrößen) X1 , . . . , Xn seien unabhängig und E(Xi ) existiere für jedes i ∈ {1, . . . , n}. Dann ist E(X1 · . . . · Xn ) = n Y E(Xi ) . i=1 Insbesondere gilt E(XY ) = E(X) · E(Y ), falls X und Y unabhängig sind. i=1 Das Ergebnis von Satz 12.10 ist etwas überraschend, wenn wir es mit Satz 9.6 auf Seite 107 vergleichen. Haben wir nämlich eine Zufallsgröße X mit der Varianz σ 2 und bestimmen die n P Varianz der n–fachen Zufallsgröße nX, die sich auch als Summe nX = X darstellen lässt, i=1 so ergibt sich nach Satz 9.6 Bei Produkten ist die Bestimmung des Erwartungswertes im allgemeinen nicht so einfach wie bei Summen. Allerdings folgt direkt aus Satz 12.9, dass sich die Erwartungswerte unabhängiger Zufallsgrößen multiplizieren. Durch vollständige Induktion ergibt sich hieraus der Satz für den Mittelwert des Produkts n unabhängiger Zufallsgrößen: Der Korrelationskoeffizient zweier Zufallsgrössen wird mit Hilfe von Kovarianz und Varianzen definiert. Hierbei müssen die Varianzen der Zufallsgrössen 6= 0 sein. Man mache sich klar, dass eine Zufallsgrösse, deren Varianz verschwindet, nur einen einzigen Wert annehmen kann, also konstant ist. Daher ist das Nichtverschwinden der Varianz keine wirkliche Einschränkung. V (nX) = n2 V (X) = n2 σ 2 . Hat man dagegen n unabhängige Zufallsgrößen Xi , die alle dieselbe Varianz σ 2 haben, so ist V (X1 + . . . + Xn ) = n X V (Xi ) = nσ 2 . i=1 Wir klären diesen Sachverhalt mit Hilfe des folgenden Beispiels: Definition 12.4: Für zwei Zufallsgrößen X und Y mit σX 6= 0 6= σY heißt ρ(X, Y ) = σXY σX σY Korrelationskoeffizient, sofern dieser Ausdruck existiert. Verschwindet ρ(X, Y ), so heißen X und Y unkorreliert. Beispiel 12.6: Eine Firma stellt Platten her, die in der Dicke um einen bestimmten Mittelwert µ schwanken. Die Streuung sei σ. Je 10 Platten werden auf einen Stapel gelegt. Die mittlere Stapelhöhe ist offenbar 10µ. Man kann nun aber nach zwei Prinzipien stapeln: Legt man jeweils nur Platten (fast) genau gleicher Dicke auf einen Stapel, so ist die Dicke jeder weiteren Platte von der Dicke der ersten Platte im Stapel abhängig. Die Abweichung der Höhe Satz 12.12: Für den Korrelationskoeffizienten zweier Zufallsgrößen X und Y gilt −1 ≤ ρ(X, Y ) ≤ 1. 146 12 WEITERE EIGENSCHAFTEN VON ZUFALLSVEKTOREN Beweis: 147 12.4 Der zentrale Grenzwertsatz Satz 12.13: (Zentraler Grenzwertsatz) Da Varianzen nicht-negativ sind, gilt für jede Zahl λ ∈ R 0 ≤ V (λX + Y ) = = 2 λ 2 σX λσX + ρ(X, Y )σY Einsetzen von λ = −ρ(X, Y ) · 2 + 2λσXY + σY2 2 λ 2 σX = + 1 − (ρ(X, Y ))2 σY2 . + 2λρ(X, Y )σX σY + σY2 σY und Division durch σY2 liefert die Behauptung. 2 σX Bemerkung 12.5: Unabhängige Zufallsgrößen sind unkorreliert, denn nach Satz 12.9 verschwindet dann die Kovarianz und damit auch der Korrelationskoeffizient. Andererseits kann es durchaus sein, dass der Korrelationskoeffizient ρ(X, Y ) den Wert 0 hat, obwohl X und Y nicht unabhängig sind. In Kapitel 18 werden wir eine Interpretation des Korrelationskoeffizienten als Maß für die lineare Abhängigkeit zwischen X und Y kennenlernen. Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen, deren Erwartungswerte und Varianzen existieren, und Sn∗ die Standardisierung ihrer Summe. Dann gilt lim P (Sn∗ ≤ z) = Φ(z). n→∞ Hierbei sei Φ die Verteilungsfunktion der Standard-Normalverteilung. Um den zentralen Grenzwertsatz anwenden zu können, berechnen wir die Standardisierung einer Summe unabhängiger, identisch verteilter Zufallsgrößen explizit. Satz 12.14: Es seien X1 , . . . , Xn unabhängige, identisch verteilte Zufallsgrößen mit Mittelwert µ und Streun P Xi ung σ. Dann ist die standardisierte Zufallsgröße zu ihrer Summe Sn = i=1 12.4 Der zentrale Grenzwertsatz Wir haben gezeigt, dass sich für große Werte von n die Binomialverteilung durch die Normalverteilung approximieren lässt. Nun kann eine mit den Parametern n und p binomialverteilte Zufallsgröße Sn aufgefasst werden als die Summe Sn = X1 + · · · + Xn von n Zufallsgrößen, die Erfolg oder Misserfolg von n unabhängig durchgeführten Bernoulli-Experimenten angeben. Der zentrale Grenzwertsatz besagt im Wesentlichen, dass sich unter gewissen Voraussetzungen die Summe einer großen Anzahl unabhängiger Zufallsgrößen durch die Normalverteilung approximieren lässt. Um die Voraussetzungen einfach zu halten, betrachten wir hier nur den Spezialfall, dass n Zufallsgrößen mit der gleichen Verteilung summiert werden. Sn∗ = Sn − nµ √ = nσ n P i=1 Xi − nµ √ . nσ Beweis: Nach Satz 12.6 gilt E(Sn ) = nµ. Da X1√ , . . . , Xn unabhängig sind, erhält man nach Satz 12.10 V (Sn ) = nσ 2 , d.h. Sn hat die Streuung nσ. Einsetzen dieser Größen in Definition 9.7 ergibt die Behauptung. 2 Aufgabe 12.6: Definition 12.5: (identisch verteilte Zufallsgrößen) Die Zufallsgrößen X1 , . . . , Xn heißen identisch verteilt, wenn ihre Verteilungsfunktionen gleich sind, d.h. wenn für alle i, j gilt P (Xi ≤ x) = P (Xj ≤ x). X1 , . . . X1000 seien unabhängige, identisch verteilte diskrete Zufallsvariable mit den Wahrschein3 . lichkeitsverteilungen p(1) = 15 , p(3) = 41 , p(6) = 52 , p(11) = 20 Bestimmen Sie mit dem zentralen Grenzwertsatz näherungsweise die Wahrscheinlichkeit dafür, 1000 P Xi Werte zwischen 4820 und 5180 annimmt. dass die Zufallsvariable S1000 = i=1 Offensichtlich haben identisch verteilte Zufallsgrößen den gleichen Erwartungswert und die gleiche Varianz, sofern diese existieren. Wir zitieren nun eine einfache Version des zentralen Grenzwertsatzes ohne Beweis: Aufgabe 12.7: Die mittlere Lebensdauer (in Stunden) eines sehr empfindlichen Maschinenteils betrage 50 mit der Varianz 900. Fällt dieses Maschinenteil aus, so wird es sofort ohne Zeitverlust durch ein Reserveteil ersetzt, dessen Lebensdauer die gleiche Verteilung besitzt. Wie viele Maschinenteile sind erforderlich, damit mit einer Wahrscheinlichkeit von 0, 95 die Maschine mindestens 5000 Stunden mit diesen Maschinenteilen läuft? 148 13 13.1 13 HOMOGENE MARKOWKETTEN Homogene Markowketten 149 13.1 Eigenschaften von Markowketten Definition 13.1: (Zustandsraum, Verteilung) Es sei Ω der Stichprobenraum eines Zufallsexperiments. Eigenschaften von Markowketten In vielen Prozessen der Natur, Technik oder Wirtschaft sind eintretende Ereignisse von (örtlich oder zeitlich) vorausgegangenen abhängig. So ist z.B. die heutige Einwohnerzahl eines Ortes durch die gestrige bedingt. Der Zustandsraum A sei eine abzählbare Menge. Yi : Ω → A sei eine Abbildung mit der Eigenschaft, dass die Urbilder Yi−1 (k) für alle k ∈ A Ereignisse sind. Dann heißt Yi Zustand. Man sagt, das System ist im Zustand Yi oder mit der Wahrscheinlichkeit P (Yi = k) im lokalen Zustand k. (i) Markow hat zur Beschreibung und Untersuchung von solchen abhängigen Ereignissen Methoden entwickelt, die man Markowketten nennt. Wir betrachten den einfachsten Typ und verwenden nur elementare Hilfsmittel. Die Verteilung von Yi ist die Abbildung a(i) : A → R mit k → ak = P (Yi = k) für k ∈ A. Beispiel 13.1: Bemerkung 13.1: Eine Maus bewegt sich in einem Labyrinth (Abb. 13.1). Zur Zeit i liegt eine bestimmte Wahrscheinlichkeit dafür vor, dass sie sich im Knoten k befindet. Wir sagen, das System sei in einem bestimmten Zustand Yi . Häufig ist A = {1, . . . , n} oder A = N; in diesem Fall ist Yi eine Zufallsgröße. Manchmal bieten sich aber auch andere Bezeichnungen an, weil sie suggestiver sind. Wir werden hier nicht zu streng sein und Yi immer als Zufallsgröße bezeichnen. Durchläuft die Maus eine Röhre zum nächsten Knoten, so geht das System vom Zustand Yi in den Zustand Yi+1 über. Die Aufenthaltswahrscheinlichkeit in den einzelnen Knoten ändert sich. Jeder Übergang von einem Knoten k zu einem Knoten ℓ wird mit einer gewissen Übergangswahrscheinlichkeit pkℓ vollzogen. In Beispielen und Herleitungen gehen wir der Einfachheit halber oft von A = {1, 2, 3, . . . } aus. Falle 2 4 3 Die Übergangswahrscheinlichkeiten könnten hierbei von vorausgegangenen Zuständen abhängen. Typisch für Markowketten ist aber gerade die Unabhängigkeit der Übergangswahrscheinlichkeiten von vorangegandenen Zuständen. Definition 13.2: (Markow-Kette, homogene Markowkette) 1 7 Ändert sich der Zustand eines Systems, so wird Ω durch eine andere Zufallsgröße Yj (anders) in A abgebildet. Wir betrachten hier Folgen von Zuständen, also von Zufallsgrößen (Yi )i∈N0 . Dabei beobachten wir, dass mit gewissen Wahrscheinlichkeiten pkℓ Übergänge zwischen lokalen Zuständen k und ℓ stattfinden (die Maus läuft vom Knoten k in den Knoten ℓ). 5 6 Eine Folge von Zuständen (Yi )i∈N0 mit Yi : Ω → A heißt eine Markowkette auf Ω, wenn die Übergangswahrscheinlichkeiten zwischen aufeinanderfolgenden Zuständen nur von diesen abhängen und von keinem der vorangegangenen Zustände, d.h. P (Yi+1 = ℓ / Yi = ki , Yi−1 = ki−1 , . . . , Y0 = k0 ) = P (Yi+1 = ℓ / Yi = ki ) (Markoweigenschaft). Abb. 13.1 Setzt man beispielsweise die Maus am Anfang in den Knoten 3, so gilt für den Anfangszustand P (Y0 = 3) = 1 und P (Y0 = k) = 0 für k 6= 3. Wählt die Maus jede der 6 angrenzenden Röhren mit gleicher Wahrscheinlichkeit, so gilt für den nachfolgenden Zustand 1 P (Y1 = 2) = P (Y1 = 4) = P (Y1 = 5) = P (Y1 = 6) = , 6 1 P (Y1 = 3) = , P (Y1 = 1) = P (Y1 = 7) = 0. 3 Eine Markowkette heißt weiterhin homogen, wenn jede Übergangswahrscheinlichkeit nur von k und ℓ und nicht von i ( der Zeit“) abhängt. Wir setzen dann ” pkℓ = P (Yi+1 = ℓ / Yi = k) für i ∈ N0 . Beispiel 13.2: Wir untersuchen die Bedeutung der Begriffe aus Definition 13.2 anhand von Beispiel 13.1. 150 13 HOMOGENE MARKOWKETTEN Nimmt man z.B. an, dass die Maus nach genau 20 Übergängen müde ist und sich im 21. Übergang ausruht (d.h. in ihrem Knoten bleibt), dann erhält man eine inhomogene Markowkette, denn die Übergangswahrscheinlichkeiten hängen von der Zeit“, d.h. von der Nummer des ” Übergangs ab. Nimmt man dagegen an, dass die Maus müde wird, wenn sie zum dritten Mal im Knoten 2 ankommt, dann liegt gar keine Markow-Kette vor. In diesem Fall hängen die Überganswahrscheinlichkeiten nämlich von vorangegangenen Zuständen ab. Wir werden uns hier nur mit homogenen Markowketten beschäftigen. 13.2 Stochastische Matrizen und gerichtete Graphen Die Übergangswahrscheinlichkeiten zwischen den Zuständen einer homogenen Markowkette lassen sich gut in einer Übergangsmatrix Ü anordnen. p11 p12 p13 . . . p21 p22 p23 . . . p p p . . . 31 32 33 Ü = p p p . . . 41 42 43 .. .. . . .. . . . . Dabei bezieht sich jede Zeile der Matrix auf einen Ausgangszustand und jede Spalte auf einen Zielzustand. Man beachte, dass die Matrix im abzählbar unendlichen Fall unendlich viele Zeilen und Spalten besitzt. Für Übergangsmatrizen gilt der folgende 151 13.2 Stochastische Matrizen und gerichtete Graphen landet und in den anderen Zuständen jeden angrenzenden Weg mit gleicher Wahrscheinlichkeit einschlägt. Die zugehörige Übergangsmatrix ist dann Ü = 0 1 0 0 0 0 0 1 1 1 1 0 0 6 6 6 6 0 0 0 1 0 0 0 . 0 0 13 31 0 31 0 0 0 13 0 31 0 13 0 21 0 0 0 21 0 1 3 0 1 3 2 6 0 0 0 1 3 Definition 13.3: (stochastische Matrix) Matrizen mit den Eigenschaften (1), (2) aus Satz 13.1 heißen stochastisch. Zur Veranschaulichung von homogenen Markowprozessen dienen häufig auch gerichtete Graphen. Das sind Systeme von Knoten, die den Zuständen entsprechen, und Verbindungslinien, die den Übergängen mit nicht-verschwindender Übergangswahrscheinlichkeit entsprechen. Abbildung 13.2 zeigt den Graphen für die Maus im Labyrinth. Hier soll von jedem Knoten aus jeder der wegführenden Pfeile mit gleicher Wahrscheinlichkeit gewählt werden. Dass von der Falle“ 4 kein Pfeil wegführt ist so zu interpretieren, daß p44 = 1 und p4k = 0 für alle k 6= 4 ist. ” Oft trägt man aber auch neben den Pfeilspitzen die zugehörigen Übergangswahrscheinlichkeiten ein. 1 2 3 4 7 6 5 Satz 13.1: pkℓ ≥ 0 für alle k, ℓ ∈ A. P (2) Die Summe über jede Zeile ist 1: pkℓ = 1 für alle k ∈ A. (1) Kein Koeffizient ist negativ: ℓ Beweis: (1) Die pkℓ sind Wahrscheinlichkeiten. (2) Jeder Zustand hat mit Sicherheit, also der Wahrscheinlichkeit 1, einen Folgezustand. 2 Beispiel 13.3: Wir gehen davon aus, dass die Maus im Labyrinth (Abb. 13.1) im Zustand 4 in einer Falle Abb. 13.2 Jede Versuchsfolge einer Markowkette beginnt mit einem bestimmten Anfangszustand Y0 . Hierzu wird die sogenannte Anfangsverteilung a = (a1 , a2 , a3 , . . . ) = P (Y0 = 1), P (Y0 = 2), P (Y0 = 3), . . . , also die Verteilung a := a(0) der Zufallsgröße Y0 der Markowkette, vorgegeben. Man spricht P auch vom Anlaufvektor a. Da eine Verteilung vorliegt, gilt ak ≥ 0 und ak = 1 . k 152 13 HOMOGENE MARKOWKETTEN 153 13.3 Die Pfadregeln Oft wird durch Y0 ganz Ω auf ein bestimmtes Element k ∈ N abgebildet (z.B. wenn die Maus in den Knoten k des Labyrinths gesetzt wird). Dann gilt aℓ = P (Y0 = ℓ) = 0 für ℓ 6= k und ak = P (Y0 = k) = 1. Der Anlaufvektor ist also a = (0, . . . , 0, 1, 0, . . . ). Der Anfangszustand kann aber auch anders festgelegt werden. Übergangsmatrix: Beispiel 13.4: Die beiden Behauptungen folgen leicht mit vollständiger Induktion aus dieser Formel. 2 p11 p12 . . . (i+1) (i+1) (i) (i) (a1 , a2 , . . . ) = (a1 , a2 , . . . ) p21 p22 . . . , .. .. . . . . . oder kurz a(i+1) = a(i) · Ü . Wir bestimmen den Startplatz der Maus in Abb. 13.1 nach dem folgenden Verfahren: Wir werfen 6 mal eine Münze. Fällt dabei k–mal (0 ≤ k ≤ 6) Zahl, setzen wir die Maus in den Knoten k + 1. Aus der Tabelle der Binomialverteilung (s. S. 229) ergibt sich nun der Anlaufvektor a = ( 0.016 ; 0.094 ; 0.234 ; 0.313 ; 0.234 ; 0.094 ; 0.016 ) . Bemerkung 13.2: Man beachte, dass der Anlaufvektor bzw. die Verteilungen stets von links an die Übergangsmatrix multipliziert werden. Beispiel 13.5: Der Anlaufvektor beschreibt die Zustandsverteilung zu Beginn der Versuchsreihe. Bei jedem Versuch ändert sich die Verteilung. Hierdurch entstehen die Verteilungen a(1) , a(2) , . . . mit (i) (i) a(i) = (a1 , a2 , . . . ) = (P (Yi = 1), P (Yi = 2), . . . ), die man auchX als Wahrscheinlichkeits(i) (i) ak = 1. vektoren i-ter Stufe bezeichnet. Auch hier gilt ak ≥ 0 und k Die Maus wird in den Knoten 3 des Labyrinths der Abb. 13.1 gesetzt. Wo ist sie mit welcher Wahrscheinlichkeit nach zwei Durchläufen? Wir nehmen die Übergangsmatrix Ü aus dem Beispiel 13.3, und multiplizieren sie zweimal mit dem Anlaufvektor: 1 2 1 1 1 1 1 5 5 2 2 2 a(2) = aÜ 2 = (0, 0, 1, 0, 0, 0, 0)Ü 2 = (0, , , , , , 0)Ü = ( , , , , , , ). 6 6 6 6 6 18 18 18 18 18 18 18 Wir wollen die Verteilung in jeder Stufe berechnen. 13.3 Die Pfadregeln Satz 13.2: Es sei (Yi )i∈N0 eine homogene Markowkette. a(i) sei die Verteilung von Yi und Ü = (pkℓ ) die Übergangsmatrix. Dann gilt (i) a = a · Ü i für i ∈ N0 und (i+j) a (j) =a · Ü i Für Ereignisse A0 , . . . , An eines Wahrscheinlichkeitsraumes gilt der Multiplikationssatz 4.7 P (A0 ∩ . . . ∩ An ) = P (A0 ) · P (A1 /A0 ) · P (A2 /A1 ∩ A0 ) · . . . · P (An /An−1 ∩ . . . ∩ A0 ) . Für die Ereignisse Ai = Yi−1 (ki ) heißt das unter Berücksichtigung der Markoweigenschaft für i, j ∈ N0 wobei a = a(0) der Anlaufvektor ist. P (Yi = k0 , . . . , Yi+r = kr ) = P (Yi = k0 ) · P (Yi+1 = k1 / Yi = k0 ) ·P (Yi+2 = k2 / Yi+1 = k1 ) · . . . · P (Yi+r = kr / Yi+r−1 = kr−1 ) Beweis: Wir verwenden die Formel von der totalen Wahrscheinlichkeit (Satz 4.8). Dazu betrachten wir S Ak := Yi−1 (k). Es ist Ak ∩Aj = ∅ für k 6= j und Ak = Ω. Daher ist Ak eine Klasseneinteilung. k∈A −1 Für Bℓ = Yi+1 (ℓ) ergibt sich durch Einsetzen in die Formel X (i+1) P (Ak ) P (Bℓ /Ak ) aℓ = P (Yi+1 = ℓ) = P (Bℓ ) = k∈A = X k∈A P (Yi = k) · P (Yi+1 = ℓ / Yi = k) = p1ℓ (i) (i) (i) ak · pkℓ = (a1 , a2 , . . . ) p2ℓ . . .. k∈A X Die ℓ–te Komponente des Wahrscheinlichkeitsvektors (i + 1)–ter Stufe ist also das Produkt aus dem Wahrscheinlichkeitsvektor i–ter Stufe und der ℓ–ten Spalte der Übergangsmatrix. Also erhält man den ganzen Vektor (i + 1)–ter Stufe als Produkt des Vektors i–ter Stufe mit der = P (Yi = k0 ) · pk0 k1 · pk1 k2 · . . . · pkr−1 kr . Die Division durch P (Yi = k0 ) liefert die Wahrscheinlichkeit, ausgehend von k0 über k1 , k2 , . . . , kr−1 nach kr zu gelangen, als bedingte Wahrscheinlichkeit P (Yi = k0 , . . . , Yi+r = kr / Yi = k0 ) = pk0 k1 · pk1 k2 · . . . · pkr−1 kr . Jeder der in dem Produkt vorkommenden Übergangswahrscheinlichkeiten entspricht eine Kante in einem gerichteten Graphen. Eine Folge aneinanderhängender Kanten nennen wir Pfad (s. Abb. 13.3). Es gilt also Satz 13.3: (Pfadregel 1) Die Wahrscheinlichkeit eines Pfades ist gleich dem Produkt der Wahrscheinlichkeiten längs des Pfades. 154 13 HOMOGENE MARKOWKETTEN k2 kr k2 q k3 q k4 k -1 k r p k1 p k0 q k5 kr k1 p k0 k1 155 13.3 Die Pfadregeln k r-1 T q k2 Abb. 13.3 q k1 Definition 13.4: (Rand, absorbierende Markow-Kette) Ein Zustand r einer Markowkette heißt absorbierend, wenn prr = 1 ist. Die Gesamtheit der absorbierenden Zustände des Zustandsraumes A heißt Rand R, ihre Komplementärmenge A \ R heißt Menge der inneren Zustände. Wir sprechen von einer absorbierenden Markowkette, wenn der Rand R nicht leer ist und von jedem Zustand aus erreicht werden kann. Die Maus, die durch ein Röhrensystem (Abb. 13.1) läuft, befindet sich auf einer sogenannten Irrfahrt, wenn in jedem Knoten der Zufall darüber entscheidet, durch welche Röhre sie sich weiterbewegt. Markowketten lassen sich als Irrfahrten auf gerichteten Graphen deuten, deren Knoten den Zustandsraum bilden. Auf dem Rand endet die Irrfahrt. In der Regel interessiert man sich für zwei Fragestellungen: • die Wahrscheinlichkeit für die Absorption in einer bestimmten Teilmenge T ⊂ R des Randes; • die mittlere Dauer“, also die durchschnittliche Anzahl der durchlaufenen Kanten, bis zur ” Absorption auf dem Rand. Abb. 13.4 Die mittlere Dauer einer Irrfahrt lässt sich durch Mittelwertbildung bestimmen: Satz 13.5: (Pfadregel 3) Xk zähle die Anzahlen der Kanten, aus denen ein Pfad besteht, der vom Zustand k aus zum Rand R führt. Sei P (Xk = x) = rk,x . Dann ist die mittlere Dauer (Länge) einer Irrfahrt vom Zustand k aus X µk := E(Xk ) = x · rk,x . x∈N0 Die Pfadregeln stellen für sich genommen nichts Neues dar. Sie sind nur Anwendungen bekannter Sätze in einem speziellen Problemkreis. Man stößt mit ihnen an Grenzen, wenn ein Graph mehrere geschlossene Teile (sog. Zyklen) enthält, wodurch die Anzahl der möglichen Pfade unendlich und – vor allem – unübersehbar wird. Das folgende Beispiel lässt sich allerdings noch gut überblicken: Beispiel 13.6: Die Sätze 13.4 und 13.5 liefern erste Hilfsmittel zur Behandlung dieser Fragestellungen. Die Lösung dieser Probleme wird dann von den Mittelwertregeln ermöglicht. Sie besitzen 2000 Euro, benötigen aber 10000 Euro. Dazu gehen Sie in eine Spielbank und setzen in einem fairen Glücksspiel stets so viel von Ihrem Geld, dass Sie im Gewinnfall Ihrem Ziel möglichst nahe kommen. Satz 13.4: (Pfadregel 2) Diesem Vorgehen entspricht ein Graph, der mit dem Zustand 2000 beginnt und der den Rand R = {0, 10000} hat. Die möglichen Gewinne und Verluste führen auf den in Abbildung 13.5 dargestellten Zustandsgraphen. Die Wahrscheinlichkeit pk , vom Zustand k ausgehend in der Teilmenge T ⊂ R absorbiert zu werden, ist gleich der Summe der Wahrscheinlichkeiten qk,t aller Pfade, die von k nach T führen: X qk,t . pk = 6.000 2.000 t Hierbei sind die Pfade durch den Index t numeriert. Jedes qk,t ist ein Produkt aus den pℓm längs des betreffenden Pfades (s. Abb 13.4). Beweis: Die durch paarweise verschiedene Pfade dargestellten Ereignisse sind durchschnittsfremd. Daher ergibt sich nach dem 3. Kolmogorowschen Axiom die Behauptung. 2 0 10.000 4.000 8.000 Abb. 13.5 Jede Übergangswahrscheinlichkeit 6= 0 hat den Wert pkℓ = 1 2 . Wir ermitteln 156 13 HOMOGENE MARKOWKETTEN 157 13.4 Die Mittelwertregeln a) die Gewinnwahrscheinlichkeit p2000 , d.h. die Wahrscheinlichkeit, vom Zustand 2000 ausgehend im Zustand 10000 absorbiert zu werden, 1 11 111 1111 0 00 001 0011 Start b) die Verteilung der Spieldauer (= Spieleanzahl) X, c) E(X) und V (X). Lösung: a) Wegen des Kreises 2000 → 4000 → 8000 → 6000 → 2000 gibt es unendlich viele Pfade von 2000 nach 10000. Sie haben die Längen 3 bzw. 4, vermehrt um eine vielfache Länge des Kreises. Nach der 2. und der 1. Pfadregel erhalten wir deshalb p2000 als unendliche Reihe p2000 = = 1 1 1 1 1 1 1 2 1 + 3+ 4 4+ 3+ 4 + ... + 23 24 2 2 2 2 2 24 3 1 3 3 3 16 = + 2 + 3 + ... = . 1 16 16 16 5 1 − 16 b) Für jedes x ∈ N gibt es genau einen Pfad der Länge x von 2000 nach R = {0, 10000}. Die Pfade der Längen 3 und 4 mod 4 enden in 10000, die der Längen 1 und 2 mod 4 in 0. Die Verteilung der Pfadlängen ist r2000,x : = P (X = x) = c) 1 , 2x σ 2 = V (X) = E(X 2 ) − E 2 (X) = Dabei wurde ∞ P n=0 nq n = q (1−q)2 und ∞ P n=0 x=1 b) wie lange das Spiel im Mittel dauert. Mit den Pfadregeln ist das Problem höchstens noch für Virtuosen zu bearbeiten. Vor der Lösung stellen wir deshalb schlagkräftigere Werkzeuge bereit. Satz 13.6: (Mittelwertregel 1) Dann gilt: x2 · n2 q n = a) mit welcher Wahrscheinlichkeit man gewinnt, wenn man auf die Folge 0011 setzt ; pk sei die Wahrscheinlichkeit, bei einer in k startenden Irrfahrt auf T absorbiert zu werden. pkℓ seien die Übergangswahrscheinlichkeiten vom k–ten in den ℓ–ten Zustand, k, ℓ ∈ A . 1 x· x = 2 x · qx = µ = E(X) = 2 x=1 x=1 ∞ X Die Ecken sind hierbei durch die geworfenen Teilergebnisse gekennzeichnet (Zustandsraum A). Uns interessiert, A sei der Zustandsraum einer absorbierenden Markowkette, R der Rand und T eine nichtleere Teilmenge des Randes. x = 1, 2, . . . . ∞ X ∞ X Abb. 13.6 1 − 4 = 6 − 4 = 2. 2x q(1+q) (1−q)3 für |q| < 1 benutzt. pk Aufgabe 13.1: X pkℓ pℓ für k ∈ A\R ℓ∈A = 1 für k ∈ T 0 für k ∈ R \T . Berechnen Sie den Gewinnerwartungswert in Beispiel 13.6 und interpretieren Sie das Ergebnis. Beweis: 13.4 Die Mittelwertregeln Beispiel 13.7: Eine Laplace–Münze, deren Seiten mit 0 bzw. 1 beschriftet sind, wird so lange geworfen bis 1 . Auf eine der Folgen 1111 oder 0011 aufgetreten ist. Beide haben die Wahrscheinlichkeit 16 welche Folge würden Sie setzen? Das Spiel entspricht einer bei Start beginnenden Irrfahrt auf dem in Abbildung 13.6 dargestellten Graphen. Die beiden letzten Teile der Aussage über pk sind klar. Für k ∈ A \ R führt jeder Pfad von k nach T zunächst zu einem Knoten ℓ ∈ A (s. Abb. 13.7; ℓ kann auch in R liegen). Die Wahrscheinlichkeit, von k direkt über ℓ nach T zu gelangen ist nach der 1. Pfadregel pkℓ pℓ . Aus der 2. Pfadregel folgt dann die Behauptung. 2 Bemerkung 13.3: P Die Formel pk = pkℓ pℓ gilt auch für k ∈ R, denn dann ist pkk = 1 und pkℓ = 0 für ℓ 6= k. ℓ∈A Insgesamt gilt also p = Ü · p, wobei p = (p1 , p2 , . . . )T der Vektor ist, dessen k-te Komponente 158 13 HOMOGENE MARKOWKETTEN 1 p k1 p k2 2 p k3 p kn 3 ..... k p1 Satz 13.8: (Mittelwertregel 2) p2 p3 159 13.4 Die Mittelwertregeln A = {1, 2, . . . , n} sei der Zustandsraum einer absorbierenden Markowkette mit n Zuständen, und R sei der Rand. Die pkl seien die Übergangswahrscheinlichkeiten zwischen den Zuständen. T pn n Dann ist die mittlere Dauer µk bis zur Absorption im Rand R vom Zustand k aus P ( 1 + pkℓ µℓ für k ∈ A\R , ℓ µk = 0 für k ∈ R. Abb. 13.7 Beweis: die Wahrscheinlichkeit angibt, von k aus in T ⊂ R absorbiert zu werden. Man beachte, dass p hierbei von rechts an die Übergangsmatrix Ü multipliziert wird. Aufgabe 13.2: Man übersetze die Aussage von Satz 13.6 in ein Eigenwertproblem. Für k ∈ R ist die Behauptung klar. Die Zufallsgröße Xk gebe die Länge eines Pfades von k bis zur Absorption in R an, und es sei rk,x = P (Xk = x) die Wahrscheinlichkeit P für die Absorption nach genau x Schritten. Da nach rk,x = 1. Die mittlere Dauer bis zur Absorption von k Satz 13.7 alle Pfade in R enden, gilt x P aus ist dann µk := E(Xk ) = x rk,x . x Bevor wir uns mit der mittleren Dauer eines Markowprozesses befassen, untersuchen wir, unter welchen Bedingungen ein solcher Prozess mit Sicherheit enden muss. Satz 13.7: Jeder Prozess in einer absorbierenden Markowkette mit endlich vielen Zuständen endet mit der Wahrscheinlichkeit 1 in einer Absorptionsstelle. Für k 6∈ R werden die Längen der Pfade von k direkt über ℓ nach R von der Zufallsgröße (1 + Xℓ ) angegeben, denn diese Pfade sind um einen Zustandsübergang länger als die von k ausgehenden. Nach dem Multiplikationssatz (Satz 4.7) ist pkℓ rℓ,y die Wahrscheinlichkeit für die Absorption nach y + 1 Schritten, wobei der 1. Schritt nach ℓ führt. P Der Satz 4.8 von der totalen Wahrscheinlichkeit ergibt dann rk,x = pkℓ rℓ,x−1 für x ≥ 1. Für µk = Beweis: ℓ x = 0 ist rk,x = 0, da k 6∈ R. Man erhält also X x x rk,x = X x≥1 x X ℓ pkℓ rℓ,x−1 = X pkℓ X y ℓ (1 + y)rℓ,y = X pkℓ (1 + µℓ ) = 1 + ℓ Beim Start eines Teilchens in k ∈ A, sei dk die minimale Schrittzahl bis zur Absorption und rk die Wahrscheinlichkeit, dass das Teilchen nach dk Schritten absorbiert ist. Dann ist dk < ∞ und rk > 0. Hierbei wurde im letzten Schritt die Formel Da A endlich ist gilt r := min {rk | k ∈ A} > 0 und d := max {dk | k ∈ A} < ∞. Beispiel 13.7: (Lösung) Die Wahrscheinlichkeit qk,m , dass ein im Zustand k startendes Teilchen nach m Schritten noch nicht absorbiert ist, fällt mit m monoton (warum?). Daher gilt Mit Hilfe der Mittelwertregeln kann Beispiel 13.7 leicht bearbeitet werden. P X pkℓ µℓ . ℓ pkℓ = 1 verwendet. 2 ℓ a) Da es sich um Münzwürfe handelt, sind alle Übergangswahrscheinlichkeiten 12 . qk,d ≤ qk,dk = 1 − rk ≤ 1 − r < 1 . Wir suchen die Gewinnwahrscheinlichkeit pStart , d.h. die Wahrscheinlichkeit in 0011 absorbiert zu werden, wenn man in der Ecke Start startet. Für jedes Teilchen – unabhängig vom Startzustand – erfüllt also die Wahrscheinlichkeit qed , nach d Schritten noch nicht absorbiert zu sein, qed ≤ 1 − r. Daher ist jedes Teilchen nach nd Schritten mit einer Wahrscheinlichkeit qe(nd) ≤ (1 − r)n nicht absorbiert. Es gilt aber Nach der 1. Mittelwertregel erhält man jede Absorptionswahrscheinlichkeit als Linearkombination der Absorptionswahrscheinlichkeiten der Nachfolgezustände mit den Übergangswahrscheinlichkeiten als Koeffizienten. Die Wahrscheinlichkeit, nie absorbiert zu werden, ist demnach 0. 2 Aus Abbildung 13.7 lässt sich damit folgendes Gleichungssystem ablesen: 0 ≤ lim qe(nd) ≤ lim (1 − r) n→∞ n→∞ n = 0. 160 13 HOMOGENE MARKOWKETTEN pStart = 1 1 p0 + p1 2 2 p0 = 1 1 p1 + p00 2 2 p1 = 1 1 p0 + p11 2 2 p00 = 1 1 p00 + p001 2 2 p11 = 1 1 p0 + p111 2 2 p001 = 1 1 p0 + p0011 2 2 p111 = 1 1 p0 + p1111 2 2 p0011 = 1 p1111 = 0 161 13.4 Die Mittelwertregeln 4 5 Leim 1 2 3 Abb. 13.8 Löst man dieses System, so findet man insbesondere 4 p0 = , 5 7 p1 = 10 und pStart b) Die Aussagen der Mittelwertregel 2 lauten hier µ0 1 1 = 1 + µ1 + µ00 2 2 µ00 = 1+ µ001 = 1+ µ0011 = 0 Hinweis: Duch geschicktes Ausnutzen von Symmetrien kommt man mit nur 4 Zuständen aus. Aufgabe 13.5: Im Arbeitszimmer von Prof. Leßner herrscht totale Unordnung. Hunderte von Skriptblättern, Entwürfen und Büchern liegen vermischt auf dem Schreibtisch und dem Fußboden herum. Wenn er davon etwas braucht, sucht er es in einer Folge von Runden. 1 1 µ0 + µ1 2 2 = 1+ Abb. 13.9 sie in jeder Ecke eine der angrenzenden Kanten mit gleicher Wahrscheinlichkeit. Eine Kante ist mit Leim bestrichen. Nach wie vielen durchlaufenen Kanten klebt die Raupe im Durchschnitt fest, wenn sie in der mit Start gekennzeichneten Ecke startet? 3 = . 4 Also wird mit der Wahrscheinlichkeit 43 die Ziffernfolge 0011 vor der Ziffernfolge 1111 geworfen, obwohl die beiden Zifferfolgen gleich wahrscheinlich sind. µStart Start µ1 1 1 = 1 + µ0 + µ11 2 2 1 1 µ00 + µ001 2 2 µ11 = 1+ 1 1 µ0 + µ111 2 2 1 µ0 + 12 µ0011 2 µ111 = 1+ 1 µ0 + 12 µ1111 2 µ1111 = 0 = 10, 8 und µ1 = 56 = 11, 2. Also hat das Spiel im Daraus bestimmt man µ0 = 54 5 5 1 1 Durchschnitt µStart = 1 + µ0 + µ1 = 12 Übergänge. 2 2 Aufgabe 13.3: In dem in Abb. 13.8 dargestellten Labyrinth bewegt sich eine stochastische“ Maus. Wieviele ” Kanten durchläuft sie im Durchschnitt, ehe sie in der Falle“ 5 gefangen wird, wenn man sie in ” 1 aussetzt und sie in jeder erreichten Ecke“ jede Kante zur Fortbewegung mit gleicher Chance ” wählt (auch die, über die sie eintraf)? Aufgabe 13.4: Eine stochastische“ Raupe irrt entlang der Kanten eines Würfels (s. Abb. 13.9). Dabei wählt ” In der ersten Runde ist seine Erfolgswahrscheinlichkeit p1 = 21 . Von Runde zu Runde wird er müder: Hat er in der (i − 1)–ten Runde keinen Erfolg, ist seine Erfolgsaussicht in der i–ten 1 . Runde nur noch pi = i+1 Die Zufallsgröße X gebe die Nummer der Runde an, in der der Erfolg eintritt. Ermitteln Sie: a) P (X = n) , b) P (X ≤ n) , c) P (X > n) , d) E(X) . Hinweis: Benutzen Sie einen Graphen mit unendlich vielen Suchzuständen 1, 2, 3, . . . und einem Erfolgszustand E. Deuten Sie die Erfolgswahrscheinlichkeiten als Übergangswahrscheinlichkeiten von den Suchzuständen in den Erfolgszustand. Starten Sie im Suchzustand 1. Aufgabe 13.6: Die Herren A und B verwickeln Sie in ein Pistolentriell. A besitze die Trefferwahrscheinlichkeit 9 , die von B sei 45 . Sie sind C und haben nur eine Trefferwahrscheinlichkeit von 21 . 10 Die Reihenfolge wurde folgendermaßen ausgelost: A beginnt, anschließend schießt B, dann C. In dieser Reihenfolge wird dann zyklisch geschossen (wobei Tote naturgemäß übersprungen werden) bis nur noch einer am Leben ist. Jeder darf sich jedesmal sein Ziel frei wählen. Ein Ehrenkodex verbietet allen Teilnehmern, einfach in die Luft zu schießen. a) Wie groß sind Ihre Überlebenschancen, wenn Sie und die beiden anderen sich optimal verhalten? b) Mit welcher Wahrscheinlichkeit überleben A bzw. B? 162 13 HOMOGENE MARKOWKETTEN 163 13.5 Irrfahrten auf einer Geraden Hinweis: Machen Sie sich klar, wie jeder der Schussberechtigten sich optimalerweise verhalten muss. Was passiert insbesondere, nachdem er getroffen hat? Rechtfertigen Sie dann den Graphen in Abbildung 13.10 für den Verlauf des Triells (in dem Graphen wurden als Bezeichnung der Zustände die noch lebenden Personen in der Reihenfolge ihrer Schussberechtigung angegeben). 1/2 CA 1/10 AC 10 9/ 2 4/5 CAB CB 1/2 BC Abb. 13.12 Eine ideale Münze mit den Seiten 1 und 0 wird geworfen, bis zum ersten Mal das Wort 1/2 C 1/2 1/ BCA 1/5 1/10 Abb. 13.11 A 1/2 1/5 ABC (Start) 9/10 4/5 B Abb. 13.10 Aufgabe 13.7: Eine asymmetrische Münze mit der Wahrscheinlichkeit p für das Ereignis {1} und der Wahrscheinlichkeit q = 1 − p für das Gegenereignis {0} wird solange geworfen, bis ein symmetrisches Wort aus mehr als einem Zeichen entstanden ist (z.B. 00 oder 101). Wie lange muss man im Mittel auf ein solches Palindrom warten? Hinweis: Wir konstruieren einen Graphen mit 3 Zuständen: Bei Start geht es los, wir werfen 0 oder 1 und dann solange wiederholt das Gegenereignis, bis wieder die 0 bzw. die 1 erscheint (Absorption). Aufgabe 13.8: Bestimmen Sie die Wahrscheinlichkeit dafür, dass bei wiederholtem Würfeln die 1 und die 3 vor 2 oder 4 oder 6 fällt. Hinweis: x1 sei die erste der beiden Zahlen 1, 3, die erscheint, x2 die zweite. Start reproduziert sich, wenn 5 fällt; x1 , wenn 5 oder x1 fällt. Gesucht ist die Wahrscheinlichkeit pStart für Absorption in der Teilmenge T = {x2 } des Randes. a) 111, b) 001 erscheint. Bestimmen Sie die mittlere Wartezeit für jedes dieser Wörter. 13.5 Irrfahrten auf einer Geraden Durch Werfen einer Münze wird ein Teilchen auf der Menge {0, 1, . . . , n} gesteuert. Es startet in x, und mit jedem Wurf springt es mit der Wahrscheinlichkeit p eine Nummer höher oder mit der Wahrscheinlichkeit q = 1 − p eine Nummer tiefer. R = {0, n} sei der absorbierende Rand. Symmetrische Irrfahrt: Die Münze ist symmetrisch, also p = q = 12 . 1. Wie groß ist die Wahrscheinlichkeit, von x ∈ {0, 1, . . . , n} aus in 0 absorbiert zu werden? Ist px diese Wahrscheinlichkeit, so liefert Mittelwertregel 1 px = 1 1 · px−1 + · px+1 2 2 für x 6∈ {0, n} und p0 = 1 , pn = 0 . Dies bedeutet, dass je 3 benachbarte Werte der Wahrscheinlichkeitsfunktion auf einer Geraden liegen (1. Gleichung), welche durch (0, 1) und (n, 0) geht (s. Abb. 13.13). px 1 Aufgabe 13.9: Zwei stochastische Käfer starten gleichzeitig eine Irrfahrt auf dem Graphen in Abb. 13.11. Wie groß ist die mittlere Laufzeit bis zur Begegnung? Aufgabe 13.10: Zwei stochastische Käfer starten auf den gegenüberliegenden Ecken eines regulären 8–Ecks (s. Abb. 13.12). Man bestimme die mittlere Laufzeit bis zur Begegnung. Aufgabe 13.11: px-1 px px+1 0 1 2 x-1 x x+1 Abb. 13.13 n x 164 13 HOMOGENE MARKOWKETTEN 165 13.5 Irrfahrten auf einer Geraden Die Gleichung dieser Geraden lautet daher px = 1 − nx . Ein in x befindliches Teilchen wird demnach mit der Wahrscheinlichkeit px = 1 − nx in 0 absorbiert. Beweis: 2. Wieviele Schritte macht das Teilchen im Durchschnitt bis zur Absorption auf dem Rand R = {0, n} ? Überraschend an dieser Aussage ist ihre Unabhängigkeit von x. Für x = 1 z.B. gilt µ1 = ∞, obwohl die Hälfte aller Wege von 1 aus nur die Länge 1 hat! Mit n → ∞ folgt aus Satz 13.9 px → 1 und µx → ∞ für jedes feste x. 2 µx sei die mittlere Schrittzahl von x aus. Damit liefert Mittelwertregel 2 µx = 1 + 1 1 µx−1 + µx+1 2 2 für x 6∈ {0, n} und µ0 = µn = 0 . Hieraus ergibt sich die Rekursionsformel µx+1 = 2µx − µx−1 − 2 . Auf A = {0, 1, . . . , n} finde eine symmetrische Irrfahrt statt. n sei absorbierend, 0 reflektierend (d.h. die Übergangswahrscheinlichkeit von 0 nach 1 ist p01 = 1). a) Bestimmen Sie die mittlere Schrittzahl µx von x aus bis zur Absorption. Wir verwenden µ0 = 0 und lassen µ1 zunächst offen. So finden wir nacheinander µ2 = 2µ1 − 2 = 2 (µ1 − 1), Aufgabe 13.13: µ3 = 3µ1 − 6 = 3 (µ1 − 2), µ4 = 4µ1 − 12 = 4 (µ1 − 3) . Wir vermuten µx = x(µ1 − x + 1), was sich durch vollständige Induktion beweisen lässt. b) Zeigen Sie, dass px = 1 die Wahrscheinlichkeit dafür ist, dass ein in x startender Irrfahrer in n absorbiert wird. Setzt man x = n, so erhält man 0 = µn = n (µ1 −n+1). Daher ist µ1 = n−1 und µx = x(n−x) . Asymmetrische Irrfahrt Insgesamt haben wir also bewiesen Der Zustandsraum des Irrfahrers sei wieder {0, . . . , n} mit dem Rand {0, n}. Die steuernde Münze sei asymmetrisch, d.h. die Übergangswahrscheinlichkeiten p von x nach x + 1 seien verschieden von den Übergangswahrscheinlichkeiten q = 1 − p von x nach x − 1. Satz 13.9: Bei einer symmetrischen Irrfahrt auf der Menge {0, . . . , n} gilt für die Wahrscheinlichkeit px , von x aus in 0 absorbiert zu werden und für die mittlere Dauer µx bis zur Absorption in 0 oder n px = 1 − x n und µx = x(n − x). Wie groß ist die Wahrscheinlichkeit px , von x aus in 0 absorbiert zu werden? Nach der ersten Mittelwertregel ist px = ppx+1 + qpx−1 x 6∈ {0, n} für und p0 = 1 , pn = 0 . Wegen p + q = 1 ergibt sich aus der ersten Gleichung Aufgabe 13.12: X hat x Euro und Y hat y Euro. In jedem Spiel setzen sie je 1 Euro und werfen eine ideale Münze. Sie spielen so lange bis einer von ihnen ruiniert ist. a) Mit welcher Wahrscheinlichkeit wird X ruiniert? b) Wie lange dauert das Spiel im Mittel? c) Beantworten Sie a) und b) konkret für x = 1 und y = 10000. Satz 13.10: Bei einer symmetrischen Irrfahrt auf dem Zustandsraum N0 mit absorbierendem Rand {0} ist für jedes x > 0 die Absorptionswahrscheinlichkeit px = 1 und die Länge des mittleren Absorptionsweges µx = ∞. ppx + qpx = ppx+1 + qpx−1 , also Das führt rekursiv auf px+1 − px = px+1 − px = q x (p1 p q (px − px−1 ) . p − p0 ) für x ∈ {0, . . . , n − 1} . Addiert man die ersten x dieser Gleichungen, so kommt man auf px − p0 = (p1 − p0 ) x−1 X 1 − ( pq )x q j . = (p1 − p0 ) p 1 − pq j=0 Wegen p0 = 1 und pn = 0 erhält man durch Einsetzen von x = n −1 = (p1 − p0 ) 1 − ( pq )n 1− q p , woraus folgt p1 − p0 = − Durch Einsetzen und Grenzwertbildung ergibt sich der q p q n. (p) 1− 1− 166 167 13 HOMOGENE MARKOWKETTEN 14 Satz 13.11: Bei einer asymmetrischen Irrfahrt auf {0, . . . , n} ist die Wahrscheinlichkeit px , von x aus in 0 absorbiert zu werden q x q x q n 1− − p p p px = 1 − q n = q n . 1− 1− p p Bei einer asymmetrischen Irrfahrt auf N0 mit {0} als Rand gilt für die Wahrscheinlichkeit px von x aus in 0 absorbiert zu werden, für q > p 1 px = q x für q < p . p In Abbildung 13.14 ist px für die Irrfahrt auf N0 veranschaulicht. px px = 1 1 0 1 x (p > q) x Aufgabe 13.14: Zeigen Sie, dass bei der asymmetrischen Irrfahrt auf {0, 1, . . . , n} für die mittlere Schrittzahl µx von x bis zur Absorption gilt 1 − ( pq )x n x − · , q − p q − p 1 − ( pq )n p 6= q . Berechnen Sie lim µx sowohl für q > p als auch für q < p. n→∞ Die Objekte müssen der Grundgesamtheit zufällig und unabhängig entnommen werden. Die Zufälligkeit wird durch ein Losverfahren erreicht, das Chancengleichheit garantiert, die Unabhängigkeit dadurch, dass die Lose einzeln gezogen und vor der nächsten Ziehung zurückgelegt werden. Stichproben müssen repräsentativ sein. Bei Meinungsumfragen ist also der Anteil der verschiedenen Bevölkerungsgruppen zu berücksichtigen, bei Handwerksprodukten die im Tagesverlauf zunehmende Ermüdung der Handwerker und die damit abnehmende Qualität der Arbeit. (a) Welche Aussage kann man damit über die mittlere Betriebsdauer µ der Gesamtheit der produzierten Staubsauger diesen Typs machen? x Abb. 13.14 µx = Stichproben werden aus Grundgesamtheiten entnommen. Beispiele dafür sind etwa die Menge der Staubsauger einer Wochenproduktion oder die Menge der im Jahre 1989 in Deutschland Geborenen. Beispiel 14.1: p1 px Statistische Verfahren wendet man an, wenn eine Untersuchung grundsätzlich an sehr vielen Einzelobjekten durchgeführt werden müsste, es aber zu aufwendig, zu teuer oder gar unmöglich ist, alle Objekte der Menge in die Untersuchung einzubeziehen. Man nimmt dann stattdessen Stichproben. Eine Elektrofirma möchte die mittlere Lebensdauer in Betriebstunden der von ihr produzierten Staubsauger ermitteln. Da man nicht alle Geräte prüfen kann, wird die Untersuchung an einer zufällig aus einer Wochenproduktion ausgewählten Stichprobe von 10 Stück durchgeführt. Es ergibt sich eine mittlere Betriebsdauer von x Stunden. (p < q) q px = p Stichproben und ihre Parameter (b) Welche Mindestbetriebsdauer kann die Firma garantieren, wenn sie ihrer Prognose zu 95% sicher sein will? Definition 14.1: (Stichprobe, Stichprobenwert) Werden n (nicht notwendig paarweise verschiedene) Werte x1 , . . . , xn eines Merkmals X beobachtet, dann nennt man das n–Tupel x = (x1 , . . . , xn ) Stichprobe vom Umfang n. Jedes xi heißt ein Stichprobenwert. Beispiel 14.2: Das Durchschnittsgewicht eines ausgewachsenen Löwen soll ermittelt werden. Dazu kann man nicht sämtliche Löwen in der Wüste einsammeln und wiegen, sondern muss sich mit einer Stichprobe begnügen. 25 Löwen werden gewogen. Ihre Massen in kg seien 191, 195, 200, 181, 209, 172, 196, 192, 201, 229, 183, 194, 199, 206, 203, 219, 192, 186, 213, 197, 211, 188, 195, 205, 197. 168 169 14 STICHPROBEN UND IHRE PARAMETER Da kaum zwei Löwen die gleiche Masse haben, ist diese Stichprobe wenig aufschlussreich. Wir ordnen sie daher nach der Größe und nehmen eine Klasseneinteilung vor, wobei wir die Grenzen der Klassen so legen, dass auf sie kein Wert fällt. Wir nehmen die Grenzen 169, 5 − 179, 5 − 189, 5 − 199, 5 − 209, 5 − 219, 5 − 229, 5. Das ergibt sechs Klassen: 172 181, 191, 200, 211, 229 183, 192, 201, 213, Bemerkung 14.1: Bei einer durch eine Klasseneinteilung gegebenen Stichprobe nimmt man als Spannweite die Differenz aus dem rechten Randwert der obersten Klasse und dem linken Randwert der untersten Klasse. Histogramme geben grobe Hinweise auf die zugrundeliegenden Verteilungen. Deren Parameter wie Mittelwert, Varianz, Erfolgswahrscheinlichkeit u.a. lassen sich aber ohne weiteres nicht entnehmen. Näherungswerte für die Parameter müssen direkt aus den Messwerten gewonnen werden. 186, 188 192, 194, 195, 195, 196, 197, 197, 199 203, 205, 206, 209 219 Trägt man die Anzahl der Werte jeder Klasse wie in Abbildung 14.1 als Histogramm über der Klasse auf, so erkennt man besser, wie die Massen verteilt sind. h Wir wollen einige Grundbegriffe einführen. Dabei benutzen wir Bezeichnungen, die der Wahrscheinlichkeitsrechnung entlehnt sind. Die zugehörigen Begriffe sind hier aber in der Regel von jenen verschieden. Die Namensgleichheit wird lediglich durch das gleiche Konstruktionsprinzip nahegelegt. Definition 14.3: (Mittelwert einer Stichprobe) Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl 10 n x= 8 1X xi n i=1 Mittelwert der Stichprobe (x1 , x2 , . . . , xn ). 6 4 Defintion 14.4: (absolute und relative Häufigkeit) 2 169,5 179,5 189,5 199,5 209,5 219,5 229,5 G [Kp] Abb. 14.1 Infolge der Verschiedenheit der Werte mussten wir hier einzelnen Klassen absolute Häufigkeiten zuordnen. Vielfach liegt diese Klassenbildung von vornherein in der Natur der Sache. Verteilt man etwa bei einer Prüfungsarbeit die Noten 1, 2, . . . , 6, so ist jede Note mit einer gewissen Häufigkeit vertreten. Tritt unter n Beobachtungen eines Merkmals X ein Wert xi k–mal auf, so heißt die Anzahl h(xi ) = k absolute Häufigkeit und die Zahl r(xi ) = n1 h(xi ) relative Häufigkeit von xi . Bemerkung 14.2: Sind genau die m Werte x1 , . . . , xm paarweise voneinander verschieden, also xm+1 , . . . , xn Wiederholungen von einigen dieser Werte, so lässt sich der Mittelwert unter Verwendung von Definition 14.4 auch wie folgt berechnen: m Definition 14.2: (Spannweite) Ist x(1) der kleinste und ist x(n) der größte Wert einer Stichprobe vom Umfang n, dann heißt x(n) − x(1) die Spannweite der Stichprobe. Beispiel 14.3: Die Spannweite unserer Löwensstichprobe beträgt 229 kg − 172 kg = 57 kg. Kann man daraus schließen, wie schwer ein Löwe schlechthin werden kann? x= m X 1X xi h(xi ) = xi r(xi ) . n i=1 i=1 Die Mittelwertbildung für eine Stichprobe ist demnach eine Kopie des aus der Wahrscheinlichkeitsrechnung bekannten Verfahrens, wobei die relativen Häufigkeiten die Rolle der Wahrscheinlichkeiten einnehmen. Zur Berechnung der Varianz einer Stichprobe x1 , . . . , xn kann man entsprechend vorgehen: 170 171 14 STICHPROBEN UND IHRE PARAMETER Definition 14.5: (empirische Varianz) Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt die Zahl ! ! ! n n n X 1X 1 1X 2 2 2 2 2 2 xi − nx (xi − x) = x −x = s = n i=1 n i=1 i n i=1 die empirische Varianz der Stichprobe. Ergibt sich z.B. bei einem Leistungstest für zwei Schulklassen derselbe Mittelwert so kann es für die Beurteilung der angewandten Lehrmethoden entscheidend sein, ob auch die Varianzen annähernd übereinstimmen oder nicht. Die Maßzahlen x und s2 liefern hier genauere Information als nur die graphischen Darstellungen. Sind die Mittelwerte für die zu vergleichenden Gruppen von Testpersonen verschieden, so lassen sich die Streuungen nicht unmittelbar vergleichen, denn zu im Mittel höheren Werten gehört in der Regel auch eine (absolut) größere Streuung. Aufgabe 14.1: Bemerkung 14.3: Sind unter n genau m paarweise verschiedene Werte x1 , . . . , xm , so kann man die empirische Varianz auch folgendermaßen ausrechnen: s2 = 1 n m X i=1 (xi − x)2 h(xi ) = m X i=1 (xi − x)2 r(xi ) . Häufig wird die Varianz für Stichproben nicht durch die empirischen Varianz sondern durch die sogenannte Stichprobenvarianz festgelegt. Vorsicht: Diese beiden Bezeichnungen werden in der Literatur nicht einheitlich verwendet! Definition 14.6: (Stichprobenvarianz) Ergeben n Beobachtungen eines Merkmals X die Werte x1 , . . . , xn , so heißt ! ! n n X 1 X 1 2 2 2 2 se = xi − nx (xi − x) = n − 1 i=1 n−1 i=1 Stichprobenvarianz der Stichprobe. Ist x = (x1 , . . . , xn ) eine Stichprobe mit dem Mittelwert x, dann hat ihre lineare Transformation ax + b := (ax1 + b, . . . , axn + b) den Mittelwert ax + b = ax + b . Aufgabe 14.2: x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) seien zwei Stichproben gleichen Umfangs. Dann gilt für den Mittelwert ihrer Linearkombination ax + by := (ax1 + by1 , . . . , axn + byn ) ax + by = ax + by . Häufig ist der Mittelwert keine geeignete Größe zur Beurteilung der Mehrheit einer gewissen Gesamtheit. Beispiel 14.4: Zum Spaß springe ich mit 3 Freunden über eine Hochsprunglatte. Ich schaffe 1,20 m, meine Freunde 1,23, 1,28 und 1,31. Ein langer Fremder tritt hinzu und fragt höflich, ob er mitspringen dürfe. Wir sind einverstanden. Er überquert die Latte bei 2,47 m. Wie sich später herausstellt, ist es Valentin Hüpverrenkow, der Weltrekordler. Wir kommen nach Hause und erzählen, dass wir im Durchschnitt x= Bemerkung 14.4: n s2 und se2 hängen durch die Beziehung se2 = n−1 s2 voneinander ab. Der Unterschied ist bei größeren Stichproben praktisch ohne Bedeutung. Er ist jedoch von großem theoretischen Interesse: Stichproben werden genommen, um von ihnen auf die Grundgesamtheit zu schließen. Mit der Varianz der Stichprobe möchte man ein Maß für die Varianz der Grundgesamtheit gewinnen. Merkwürdigerweise ist nun se2 dafür in gewissem Sinne ein besserer Näherungswert als s2 . Deshalb ist die Stichprobenvarianz in der Statistik der gängigere Begriff. Wir kommen in Satz 16.5 darauf zurück. Die Bedeutung der definierten Maßzahlen entspricht ganz dem, was bei Wahrscheinlichkeitsverteilungen ausgeführt wurde: Der Mittelwert charakterisiert grob die Lage der Werte, die Varianz kennzeichnet ihre Streuung um das Mittel. 1, 20 + 1, 23 + 1, 28 + 1, 31 + 2, 47 m ≈ 1, 50m 5 geschafft haben, und unsere Leistung klingt ganz passabel. Unsere Auskunft spiegelt aber ganz und gar nicht das Leistungsvermögen der Mehrheit. Denn wir allein sprangen im Schnitt nur etwa 1, 25 m. Der Mittelwert x ist sehr empfindlich gegen sogenannte Ausreißer“. ” Weniger empfindlich auf Außreißerwerte reagiert der Zentralwert oder empirischen Median einer Stichprobe. 172 173 14 STICHPROBEN UND IHRE PARAMETER Definition 14.7: (empirischer Median) x(1) ≤ x(2) ≤ . . . ≤ x(n) seien die der Größe nach geordneten Werte eine Stichprobe vom Umfang n. Dann heißt der Wert , falls n ungerade ist, x( n+1 ) 2 x e= x( n2 ) + x( n2 +1) , falls n gerade ist, 2 Zentralwert oder empirischer Median der Stichprobe. Demnach ist der Zentralwert bei ungeradem n der Wert in der Mitte und bei geradem n das arithmetische Mittel der beiden in der Mitte stehenden Werte. Beispiel 14.5: Der Zentralwert im Beispiel 14.4 ist x e = x( 5+1 ) = x(3) = 1.28 m. Er beschreibt die Leistung der 2 Allgemeinheit besser als der Mittelwert x. In unserem Beispiel liegen Mittelwert und Median weit auseinander. Diese Art der Abweichung der beiden Werte voneinander enthält eine Aussage über die Asymmetrie einer Verteilung und ist damit ein einfaches Interpretationsinstrument einer gegebenen Häufigkeitsverteilung. Der Mittelwert einer Stichprobe besitzt eine entsprechende Minimaleigenschaft wie der Mittelwert einer Zufallsgröße (vgl. hierzu Satz 9.5; der Beweis verläuft genauso wie dort). Der Beweis dieser Aussage ist nicht schwer, aber recht umständlich, weswegen wir darauf verzichten. Aufgabe 14.3: Im Rahmen einer Lebensmittelkontrolle wurde das Füllgewicht von 40 Dosen Kaffee–Extrakt einer bestimmten Sorte auf 0,5 g genau ermittelt. Dabei ergaben sich folgende Rohwerte: 40, 5 45, 0 42, 0 43, 0 49, 0 43, 0 47, 0 48, 0 46, 0 46, 5 44, 5 50, 0 49, 0 42, 5 43, 5 48, 0 49, 0 46, 0 53, 0 40, 0 47, 0 55, 0 47, 0 48, 5 42, 0 47, 5 45, 5 48, 0 47, 0 47, 0 52, 0 48, 0 46, 5 45, 5 45, 0 51, 0 44, 0 50, 0 43, 0 45, 0 Man erstelle für die Klasseneinteilung mit der Klassenbreite 2 und Klassengrenzen bei 39, 5 − 41, 5 usw. eine Strichliste und zeichne das Histogramm (Werte, die auf eine Klassengrenze fallen, kann man beiden Klassen je zur Hälfte zurechnen). Man berechne für die Werte den Mittelwert x und die empirische Varianz s2 , und dabei x einmal exakt aufgrund der gegebenen Rohwerte und einmal unter Verwendung der durchgeführten Klasseneinteilung. Warum kann die Abweichung, die sich ergibt, hier nur gering sein? Aufgabe 14.4: Gegeben sei folgende Häufigkeitsverteilung: Satz 14.1: (x1 , . . . , xn ) sei eine Stichprobe und x ihr Mittelwert. Dann gilt für jede Zahl c 6= x n X i=1 (xi − x)2 < n X i=1 (xi − c)2 . Zur Festlegung eines Streumaßes einer Stichprobe um eine Zahl c ∈ R kann man statt der Summe der Abstandsquadrate (xi − c)2 wie in Satz 14.1 auch die Summe der Abstandsbeträge |xi −c| betrachten. Bezüglich dieses Streumaßes hat dann der Median eine Minimaleigenschaft. Satz 14.2: Bei jeder Stichprobe x1 , . . . , xn ist die Summe der Abstände vom empirischen Median x e minimal: n X i=1 |xi − x e| ≤ n X i=1 |xi − c| für alle c ∈ R. Klassenmitten 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Klassenhäufigkeit (absolut) 0 8 12 15 6 4 2 5 3 4 2 0 Man berechne den Mittelwert x und den Median x e. 0 1 2 0 174 15 15.1 15 EINFACHE ENTSCHEIDUNGSVERFAHREN Einfache Entscheidungsverfahren 175 15.1 Das Testen einer Hypothese Die Nullhypothese H0 : Mäuse verhalten sich (innerhalb gewisser Grenzen) gegen Wärme bzw. Kälte indifferent; die Wahrscheinlichkeit für die Wahl jedes der temperierten Zweige ist also p = 21 . Das Testen einer Hypothese Eine typische Problemstellung der Statistik ist das Testen von Hypothesen. Im Gegensatz zur Wahrscheinlichkeitstheorie, in der aus gegebenen Wahrscheinlichkeiten auf andere Wahrscheinlichkeiten geschlossen wird, geht es darum, aus Einzelergebnissen eines wiederholten Experiments auf die Wahrscheinlichkeiten zu schließen, die den Ausfall des Experiments bestimmen. Im einfachsten Fall ist zu prüfen, ob die tatsächliche Wahrscheinlichkeit p einer vermuteten Wahrscheinlichkeit p0 gleich ist. Wir wollen zunächst den sehr bedeutend klingenden Ausdruck Testen einer Hypothese“ ” an einigen einfachen Beispielen erläutern. Beispiel 15.1: Wir prüfen, ob eine Münze ideal“ ist, d.h. ob gleich oft Kopf“ oder Zahl“ fällt. Wir nehmen ” ” ” uns dazu vor, sie 5–mal zu werfen und die Hypothese, die Münze sei ideal, genau dann zu verwerfen, wenn 5–mal Kopf“ oder 5–mal Zahl“ fällt. ” ” Das ist ein Test der genannten Hypothese. Die Absprache, die Idealannahme zu verwerfen, wenn man als Ergebnis entweder 5–mal Kopf oder 5–mal Zahl erhält, heißt die Entscheidungsvorschrift für den Test. Die Gegenhypothese H1 : Mäuse unterscheiden zwischen Laufgängen unterschiedlicher Temperatur, d.h. es ist p > p < 21 . Wir testen also p = 12 gegen p 6= 21 . Da p sowohl größer als auch kleiner als p = sprechen wir von einem zweiseitigen Test. Beispiel 15.3: oder sein kann, Wir legen folgende Vorgehensweise fest: Die Nullhypothese wird verworfen, wenn das Ergebnis signifikant auf dem 5%–Niveau ist. Was heißt das? Die Anzahl der möglichen Erfolge liegt zwischen 0 und n (im Beispiel ist n = 20). Besonders große oder auffällig kleine Werte von X lassen uns an der Nullhypothese zweifeln. Wir zerlegen daher Die Menge [0, n] in zwei Teilmengen K = [0, a]∪[n−b, n] und K C =]a, n−b[ (vgl. Abb. 15.2). Dabei enthält K die Erfolgsanzahlen mit den geringsten Wahrscheinlichkeiten und K C die mit den größten, wobei zur Berechnung der Wahrscheinlichkeiten der in der Nullhypothese angegebene Parameter p = 12 verwendet wird. Insgesamt sollen die Wahrscheinlichkeiten für die Erfolgsanzahlen aus K einen vorgegebenen Wert α, das sogenannte Signifikanzniveau, nicht überschreiten. K Beispiel 15.2: Eine Urne enthält zwei Kugeln. Wir vermuten, dass beide rot sind. Um diese Hypothese zu testen, ziehen wir eine Kugel. Ist sie rot, erkennen wir die Hypothese an. Die Entscheidungsvorschrift lautet: Nimm an, dass beide Kugeln rot sind, wenn die gezogene Kugel rot ist. 1 2 1 2 K c [ ] [ ] 0 a n-b n R Abb. 15.2 Wir fassen dies zunächst zu einer Definition zusammen: Wir lassen 20 Mäuse durch einen Gang mit Zimmertemperatur (20◦ ) laufen, der sich in zwei Gänge verzweigt, von denen der eine auf 0◦ gekühlt, der andere auf 40◦ erwärmt ist (s. Abb. 15.1). X sei die Zufallsgröße, die die Anzahl derjenigen Mäuse zählt, die den wärmeren Gang vorziehen. 40° 20° ? Definition 15.1: (Kritisches Gebiet, Signifikanzniveau) Setzt man fest, die Nullhypothese H0 zu verwerfen, wenn das Ergebnis X des Zufallsexperiments in K liegt, so nennt man K kritisches Gebiet. Zu einem kritischen Gebiet K gehört das Signifikanzniveau oder die Irrtumswahrscheinlichkeit α, wenn gilt P (X ∈ K) = P ({ω | X(ω) ∈ K}) ≤ α. Ein Ergebnis ω ∈ Ω heißt signifikant auf dem α–Niveau, wenn es durch X in ein kritisches Gebiet K zum Signifikanzniveau α abgebildet wird, d.h. X(ω) = x ∈ K. 0° Abb. 15.1 Unser Experiment hat folgenden Ausfall: 01000110000110010000. Dabei bezeichnen die Einsen die von X gezählten Erfolge. Wir stellen zwei Hypothesen einander gegenüber. Im vorliegenden Fall ist laut Nullhypothese p = 21 . Wegen der Symmetrie des Problems wählt man daher a = b. Dann besteht K = [0, a] ∪ [n − a, n] aus zwei gleich wahrscheinlichen, symmetrisch zu K C gelegenen Mengen. Wir berechnen das zum 5%–Niveau gehörige kritische Gebiet. Dazu entnehmen wir nach stei- 176 15 EINFACHE ENTSCHEIDUNGSVERFAHREN gender Größe geordnet der Tabelle für die Binomialfunktion solange Werte bn,p (x) = b20;0.5 (x), wie die Summe 0, 05 = 5% nicht übersteigt (die genauen Zahlen stehen in Abb. 15.3). Die zugehörigen x-Werte bilden das kritische Gebiet. x b(x) 0 20 1 19 2 18 3 17 4 16 5 15 6 14 0, 00000 0, 00000 0, 00002 0, 00002 0, 00018 0, 00018 0, 00109 0, 00109 0, 00462 0, 00462 0, 01479 0, 01479 0, 03696 0, 03696 P 177 15.1 Das Testen einer Hypothese geburten sind, d.h. H0 ist p = 21“. ” Die Gegenhypothese lautet: Knabengeburten sind häufiger. H1 ist also p > 12 “. Es handelt ” sich hier um einen einseitigen Test. 1984 verteilten sich die ersten 2000 Einzelgeburten in einem westeuropäischen Gebiet wie folgt: b(x) Knaben: 1059, Mädchen: 941. Ist die Abweichung vom Erwartungswert signifikant auf dem 1%–Niveau? Wir stellen das zum 1%–Niveau gehörige kritische Gebiet K fest. Hier suchen wir eine möglichst große Menge K = [a, n] mit P (X ∈ K) ≤ 0, 01, denn da wir p = 21 gegen p > 12 einseitig testen, unterstützen nur große Werte von X die Gegenhypothese. 0,00004 0, 00040 Zum Signifikanzniveau α = 0, 01 bestimmen wir also ein möglichst kleines a so, dass 0, 00258 P (X ≥ a) ≤ 0, 01 d.h. 0, 01182 0, 04140 < 5% Abb. 15.3 Das kritische Gebiet ist die Menge K = [0, 5] ∪ [15, 20]. Im Beispiel 15.3 wurden 6 Erfolge gezählt. Da 6 nicht im kritischen Gebiet liegt, können wir trotz des augenscheinlich“ einseitigen Ausfalls die Nullhypothese H0 nicht auf dem 5%-Niveau ” verwerfen. 6 Erfolge sind nicht einmal signifikant auf dem 10%–Niveau, und daher, wie man in der Statistik sagt, auch nicht verdächtig. x=a Einsetzen von n = 2000 und p = a = 1053. Daher ist K = [1053, 2000] 0, 11532 > 11% n X und bn,p (x) ≤ 0, 01 . 1 2 führt nach Anwendung der Normalapproximation auf 1059 ∈ K . Der gefundene Wert ist signifikant auf dem 1%–Niveau, und die Nullhypothese, dass Knabenund Mädchengeburten gleich wahrscheinlich sind, kann mit 99%iger statistischer Sicherheit verworfen werden. Aufgabe 15.1: Man prüfe, wie die Entscheidung im Beispiel 15.4 ausgefallen wäre, wenn man nur die ersten 200 Einzelgeburten untersucht hätte und dabei folgende Verteilung entdeckt hätte: Knaben: 106 Mädchen: 94 . Bemerkung 15.1: Richtet man sich nach der Entscheidungsregel, Nullhypothesen zu verwerfen, wenn das Ergebnis eines Zufallsexperiments signifikant auf dem 5%–Niveau ist, so begeht man im Mittel nur in 5% 1 aller Fälle oder mit der Wahrscheinlichkeit 20 den Fehler, die Nullhypothese H0 zu verwerfen, obwohl sie wahr ist. Diesen Fehler nennt man α–Fehler oder Fehler erster Art. In der Praxis sind Signifikanzniveaus von 5%, 1% und 0, 5% üblich, je nachdem, wie sicher man sein möchte, wenn man eine Nullhypothese verwirft. Je niedriger das Niveau, desto sicherer ist die Entscheidung. Die Zahl 1 − α heißt statistische Sicherheit. Man begeht natürlich auch einen Fehler, wenn man die Nullhypothese nicht verwirft, obwohl sie falsch ist. Dies nennt man einen Fehler 2. Art oder einen β–Fehler. Beispiel 15.4: Werden im Durchschnitt mehr Knaben als Mädchen geboren, oder ist der öfter festgestellte Überhang an Knabengeburten auf statistische Streuung der Gleichverteilung zurückführbar? Wir stellen die Nullhypothese auf, dass Knabengeburten genau so wahrscheinlich wie Mädchen- Nehmen wir das Ergebnis von Aufgabe 15.1 vorweg: Obwohl die Zahlenverhältnisse praktisch dieselben sind, lässt sich die Nullhypothese nicht einmal auf dem 10%–Niveau verwerfen. Eine Stichprobe von 200 Geburten ist einfach zu klein, um eine sichere Aussage zu machen, wenn sich p0 und p nur wenig unterscheiden. Für sichere Aussagen müssen Stichproben hinreichend groß sein. Andererseits begrenzen die anfallenden Kosten die Größe nach oben. Aufgabe 15.2: Einem gerade geschlüpften Küken werden dreieckige und runde falsche Körner aus Papier vorgeworfen. Ist das Erkennen der runden Kornform“ angeboren? ” Das Küken pickt 18 Körner“ auf, davon 13 runde. ” Welchen Schluss können wir daraus ziehen? Testen wir einseitig oder zweiseitig? Aufgabe 15.3: Dieselben Ratten werden zweimal nacheinander durch einen Gang geschickt, der sich in zwei 178 15 EINFACHE ENTSCHEIDUNGSVERFAHREN Gänge gabelt. Wir wollen prüfen, ob Ratten neugierig sind. Als Erfolg zählen wir, wenn sich eine Ratte beim zweiten Mal an der Gabelung anders entscheidet. a) Bei 10 Ratten zählen wir 8 Erfolge. b) Bei 15 Ratten zählen wir 12 Erfolge. Welchen Schluss können wir jeweils ziehen? 15.2 Der exakte Test von Fisher Bei großen Zahlen kann man oft ohne Rechnung erkennen, dass Versuchsergebnisse signifikant voneinander abweichen. 179 15.2 Der exakte Test von Fisher davon mindestens 5, d.h. 5 oder 6, zufällig mit Capelli behandelt werden, denn eine große ” Zahl“ im rechten unteren Eintrag der Tabelle lässt zugunsten der Gegenhypothese H1 an H0 zweifeln. Die hypergeometrische Verteilung liefert 5 7 · 1 + 76 · 50 105 + 7 = 0, 12 . = α = 5 12 924 6 Das Ergebnis des Tests reicht nicht aus, um die Nullhypothese Capelli wirkt genauso wie No” glatz“ zu verwerfen. Aufgabe 15.4: Beispiel 15.5: Der Salk–Impfstoff gegen Kinderlähmung wurde in den USA im Jahre 1954 erprobt. 401974 Kinder wurden geimpft, der eine Teil, die Versuchsgruppe, mit Salk–Impfstoff, der andere Teil, die Kontrollgruppe, mit Salzwasser. Die folgende Tabelle zeigt die Ergebnisse: Polio kein Polio Versuchsgruppe Kontrollgruppe Summe Dr. Wolle testet die Nullhypothese, dass das Haarwuchsmittel Capelli“ in 50% aller Fälle ” Haarausfall stoppt, gegen die Gegenhypothese, dass das Mittel den Haarausfall mit einer Wahr1 scheinlichkeit von p > 2 stoppt, an 6 Patienten. Er erhält folgendes Resultat: Summe 33 115 200712 201114 200745 201229 148 401826 401974 Anzahl weiter Haarausfall 1 Haarausfall gestoppt 5 a) Kann man demnach die Nullhypothese verwerfen? Falls ja, auf welchem Niveau? b) Wieviel Patienten müsste er testen, um bei im Verhältnis gleichem Ausfall die Nullhypothese auf dem 0, 5%–Niveau verwerfen zu können? Eine solche Tabelle heißt Vierfeldertafel. Dass sich durch Impfen die Erkrankungsgefahr wesentlich vermindert, erkennt man auf den ersten Blick. Bei kleinen Zahlen muss man jedoch mit solchen Urteilen sehr vorsichtig sein. Ohne Rechnung lassen sich die Ergebnisse nicht zuverlässig deuten. Das zeigt das folgende Beispiel 15.6: Dr. Wolle bringt das neue Haarwuchsmittel Capelli“ auf den Markt. Er verspricht, dass es ” besser sei als das bekannte Präparat Noglatz“ , denn er hat beide Präparate an je 6 Versuchs” personen getestet und folgendes Resultat gefunden: Noglatz Capelli weiter Haarausfall Haarausfall gestoppt 4 1 2 5 5 7 Aufgabe 15.5: Eine gefährliche Krankheit wurde bisher mit dem Mittel A behandelt. Man hat ein neues Mittel B gefunden, das es zu erproben gilt. 15 Patienten werden behandelt, 8 erhalten das neue Mittel B, 7 das Mittel A. Um psychologische Einflüsse auszuschalten, erfolgt der Versuch doppel-blind, d.h. weder der Arzt noch der Patient weiß, welche Arznei jeweils genommen wird. Das Ergebnis zeigt die folgende Vierfeldertafel: 6 6 Wie ist dieses Ergebnis zu beurteilen? Wir testen die Nullhypothese Capelli wirkt genauso gut wie Noglatz“ gegen die Gegenhypo” these Capelli wirkt besser als Noglatz“. ” Wir gehen von der These aus, dass entweder beide Präparate einem Patienten helfen können oder keines von beiden. Dann gibt es also unter den 12 Versuchspersonen genau 7, deren Haarausfall gestoppt werden kann. Wir prüfen, wie groß die Wahrscheinlichkeit dafür ist, dass sterben überleben Summe Mittel A Mittel B 4 2 3 6 7 8 Summe 6 9 15 Das neue Mittel scheint auf den ersten Blick viel wirksamer zu sein: Die mit A behandelten Personen haben die Sterblichkeit 57%, die mit B behandelten 25%. Testen Sie die Nullhypothese, dass A und B gleich wirksam sind mit dem exakten Test von Fisher gegen die Gegenhypothese, dass B besser wirkt. Aufgabe 15.6: Härtet Stress ab (Zeitschrift Science“, Bd. 140 (1963), p. 1414 f)? ” 180 15 EINFACHE ENTSCHEIDUNGSVERFAHREN Von 23 Affen werden 11 Versuchsaffen ausgelost. Sie müssen 24 Stunden lang fleißig arbeiten (einen Hebel fest drücken). Sobald sie nachlassen, werden sie durch einen Stromstoß bestraft. Die übrigen 12 Kontrollaffen brauchen gar nichts zu tun. Danach werden alle 23 Affen mit dem Polio–I–Virus geimpft. Man wird vermuten, dass es den Versuchsaffen schlechter ergehen wird, denn sie sind durch eine lange Tortur geschwächt. Die nachstehende Vierfeldertafel zeigt das überraschende Ergebnis: überlebt gestorben Summe Versuchsaffen Kontrollaffen 7 1 4 11 11 12 Summe 8 15 23 Zwei Hypothesen sind zu vergleichen: H0 : Stress ist ohne Wirkung; H1 : Stress macht widerstandsfähig. 181 15.3 Der Vorzeichentest 15.3 Der Vorzeichentest Eine landwirtschaftliche Schule führt folgendes Anbauexperiment zur Ermittlung einer Düngerwirkung durch: Die zur Verfügung stehende Anbaufläche wird in 10 Felder, numeriert von 1 bis 10, aufgeteilt, und jede dieser Parzellen wird noch einmal halbiert. Durch Los wird bestimmt, welche Hälfte jeder Parzelle zu düngen ist. Dann wird die ganze Fläche bepflanzt. Als Kontrollabschnitte dienen die nicht gedüngten Abschnitte. Die Nullhypothese lautet: Der bei diesem Experiment verwendete Dünger hat keinen Einfluss auf den Ertrag. Die folgende Tabelle zeigt das Ergebnis des Anbaus: Nummer des Feldes 1 2 3 4 5 6 7 8 9 10 Ertrag ohne Dünger Ertrag mit Dünger 91 100 97 94 80 103 72 89 108 102 98 99 95 87 101 113 83 96 88 93 Differenzen Vorzeichen +9 + −3 − +23 +17 + + −6 − +1 −8 + − +12 +13 +5 + + + Nach dem Zahlenmaterial halten wir H1 für richtig. Wir nehmen das Gegenteil, also H0 an: Unabhängig vom Stress hätten von den 23 Affen 8 überlebt und 15 wären gestorben. Beim Auslosen der 11 Versuchsaffen haben wir zufällig sehr viele Überlebende gezogen. Wir werten die Anzahl der positiven und negativen Differenzen aus. Unter der Nullhypothese ist die Wahrscheinlichkeit einer positiven Differenz gleich der einer negativen. Jedes der 210 möglichen 10–Tupel für die Plus- und Minuszeichen hat die gleiche Wahrscheinlichkeit. Demnach ist die Anzahl der Pluszeichen binomialverteilt mit n = 10 und p = 12 . Kann man H0 verwerfen? Wir haben 7 Pluszeichen. Die Signifikanzwahrscheinlichkeit des Versuchs ist daher Aufgabe 15.7: Es gibt zwei Arten von Zwillingen: Die eineiigen sind identische Kopien voneinander, sie haben dasselbe genetische Material. Dagegen haben die zweieiigen Zwillinge nicht mehr gemeinsames genetisches Material als gewöhnliche Geschwister. Ist Kriminalität durch Umwelteinflüsse bedingt oder durch genetische Faktoren? Von 13 Kriminellen, die eineiige Zwillinge waren, hatten 10 Zwillingsbrüder oder –schwestern, die ebenfalls verurteilt waren, während in 3 Fällen der Zwillingspartner anscheinend nicht kriminell war. Von 17 Kriminellen, die zweieiige Zwillinge (gleichen Geschlechts) waren, hatten 2 verurteilte Zwillingpartner, während die anderen 15 nicht als Kriminelle bekannt waren. Zwillingspartner ist verurteilt nicht verurteilt Summe eineiig zweieiig 10 2 3 15 13 17 Summe 12 18 30 Prüfen Sie die Nullhypothese H0 , dass eineiige und zweieiige Zwillinge gleiches Verhalten zeigen gegen eine geeignete Gegenhypothese. P (X ≥ 7) = X x≥7 bn,p (x) = 10 X 10 1 = 0, 17189 x 210 x=7 und liegt oberhalb der üblicherweise benutzten Signifikanzniveaus. Damit können wir die Nullhypothese nicht verwerfen. Bemerkung 15.2: Der Vorzeichentest berücksichtigt nur die Anzahl positiver bzw. negativer Differenzen, vernachlässigt jedoch ihre Beträge. Betrachten wir die Daten, so fällt auf, dass die größte positive Differenz +23 ist, während die kleinste negative Differenz nur −8 erreicht. Ein Einbeziehen der Beträge könnte die Alternativhypothese, der Dünger sei ertragsfördernd, stützen. Es gibt Testmethoden, die den Vorzeichentest so verfeinern, dass nicht nur die Vorzeichen sondernn auch die Beträge der Differenzen berücksichtigt werden. Wir werden auf diese Methoden nicht eingehen. Da man Messungen in der Praxis nicht unendlich fein machen kann, ist das Auftreten von Nulldifferenzen möglich. Ist ihre Anzahl klein, so nimmt man sie am besten aus der Betrachtung heraus. Bei größeren Anzahlen ist das aber nicht möglich, da man durch das Herausnehmen prinzipiell eine Verfälschung des Ergebnisses vornimmt. Hierin besteht ein weiteres Problem des Vorzeichentests in seiner einfachsten Version. 182 183 15 EINFACHE ENTSCHEIDUNGSVERFAHREN 15.4 16 Weitere Aufgaben Aufgabe 15.8: Der Hersteller behauptet, alle 10 Geräte einer Lieferung seien einwandfrei. Ein Abnehmer führt folgende Eingangskontrolle durch: Er prüft 5 Geräte. Sind sie alle einwandfrei, so nimmt er die Sendung an, sonst läßt er sie zurückgehen. Berechnen Sie die Irrtumswahrscheinlichkeit bei dieser Entscheidung, falls genau ein Gerät fehlerhaft ist. Aufgabe 15.9: Eine Multiple-Choice-Prüfung bestehe aus 100 Einzelfragen, wobei bei jeder Frage in zufälliger Reihenfolge 4 Antworten angegeben sind, von denen genau eine richtig ist. Der Prüfling darf jeweils nur eine Antwort ankreuzen. Wieviele richtig angekreuzte Antworten müssen zum Bestehen der Prüfung mindestens verlangt werden, damit man die Prüfung durch Raten höchstens mit der Wahrscheinlichkeit a) 0,05, b) 0,01, c) 0,001, d) 0,0001 bestehen kann? 16.1 Punktschätzung von Parametern Eigenschaften von Schätzfunktionen Bei Schätzproblemen geht es darum, aus einer Stichprobe Näherungswerte für unbekannte Konstanten zu ermitteln, die in der zugrundeliegenden Verteilung auftreten, also z.B. p in der Binomialverteilung oder µ und σ in der Normalverteilung. Diese werden Parameter der Verteilung genannt. Gleichzeitig versucht man, Aussagen über die Sicherheit der Schätzwerte zu gewinnen. Ist eine Stichprobe vom Umfang n gegeben, so können wir ihr, wie in Kapitel 14 angegeben, einen Mittelwert und eine Varianz zuordnen. Um die entsprechenden Parameter für die Verteilung zu gewinnen, müssen wir geeignete Schätzfunktionen entwickeln. Es ist z.B. naheliegend, den Mittelwert x = n1 (x1 + . . . + xn ) der n Stichprobenwerte x1 , . . . , xn als Schätzwert für den Mittelwert µ der zugehörigen Zufallsgröße X zu verwenden. Wir können jedes xi als Wert einer Zufallsgröße Xi ansehen und x als Wert einer aus den Zufallsgrößen Xi zusammengesetzten Zufallsgröße X. Die Zufallsgröße Xi liefert den Wert bei der i–ten Beobachtung des Merkmals X. Die Xi und X sind daher identisch verteilt und unabhängig. n P Xi bezeichnete Zufallsgröße ist eine Schätzfunktion Die als Stichprobenmittel X = n1 i=1 für µ. Damit haben wir ein Beispiel für folgende Konstruktion: Aufgabe 15.10: Ein Schüler verteilt an 1800 Haushalte eines Bezirks Prospekte. Falls mehr als 5% der Haushalte keinen Prospekt erhalten, soll er keine Vergütung für seine unzuverlässige Arbeit erhalten. Zur Nachprüfung werden a) n=100, b) n=400 der Haushalte befragt, ob sie den Prospekt erhalten haben. Wieviele der befragten Haushalte müssen mindestens den Prospekt nicht erhalten haben, damit die Nichthonorierung der Arbeit mit einer Irrtumswahrscheinlichkeit von höchstens α = 0, 02 zu recht erfolgt? Aufgabe 15.11: In einer Telefonzentrale sei die Anzahl der Anrufe pro Minute Poissonverteilt. Zum Einstellungszeitpunkt einer Telefonistin betrug der Mittelwert µ = 4, 1. Nach einer gewissen Zeitspanne stellt die Telefonistin fest, dass innerhalb einer Stunde 273 Anrufe erfolgten. Kann daraus mit einer Irrtumswahrscheinlichkeit von α = 0, 05 geschlossen werden, dass sich die mittlere Anzahl der Anrufe pro Minute signifikant erhöht hat? Hinweis: Setzen Sie die Anzahl der in den einzelnen Minuten eingehenden Anrufe als unabhängig voraus und verwenden Sie Aufgabe 12.4. Berechnen Sie dann die gesuchte Wahrscheinlichkeit näherungsweise mit Hilfe des zentralen Grenzwertsatzes. Zu einem unbekannten Parameter u einer Verteilung betrachten wir eine reellwertige Funktion g, die es gestattet, aus n Stichprobenwerten x1 , . . . , xn einen Näherungswert u von u in der Gestalt u = g(x1 , . . . , xn ) zu berechnen. Definition 16.1: (Schätzfunktion, Schätzwert) Sind X1 , . . . , Xn und X identisch verteilt und liefert die Funktion U = g(X1 , . . . , Xn ) Näherungswerte u des Parameters u, so heißt sie eine Schätzfunktion für u. Der Wert u = g(x1 , . . . , xn ), der sich aus einer Stichprobe ergibt, heißt Schätzwert von u. Für einen Parameter u gibt es oft mehrere Schätzmöglichkeiten. Wie entscheiden wir, ob eine vorliegende Schätzfunktion überhaupt brauchbar ist? Ein Kriterium hierfür ist, dass der Erwartungswert der Schätzfunktion mit dem zu schätzenden Parameter der Verteilung übereinstimmt. Definition 16.2: (Erwartungstreue einer Schätzfunktion) Es seien X1 , . . ., Xn und X identisch verteilt. Eine Schätzfunktion U = g(X1 , . . . , Xn ) für einen Parameter u der Verteilung von X heißt erwartungstreu, wenn gilt E(U ) = u . 184 16 PUNKTSCHÄTZUNG VON PARAMETERN 185 16.1 Eigenschaften von Schätzfunktionen Satz 16.2: Wir erläutern den Begriff der Erwartungstreue anhand eines Beispiels. Die Zufallsgrößen X1 , . . ., Xn seien unabhängig und identisch verteilt mit Streuung σ. Dann gilt für die Varianz des Stichprobenmittels X = n1 (X1 + · · · + Xn ) Beispiel 16.1: Ein Bernoulli-Experiment mit der unbekannten Erfolgswahrscheinlichkeit p wird dreimal ausgeführt. Eine naheliegende Schätzfunktion für p ist offensichtlich die relative Häufigkeit der Erfolge P = 31 (X1 + X2 + X3 ), wobei Xj die Anzahl der Erfolge im j-ten Versuch angibt. P nimmt die Werte 0, 31 , P (P = 0) = (1 − p)3 , 2 3 und 1 an, und man erhält 1 P (P = ) = 3p(1 − p)2 , 3 2 P (P = ) = 3p2 (1 − p), 3 V (X) = σ2 . n Beweis: P (P = 1) = p3 . Die unabhängigen Zufallsgrößen Xi haben alle die Varianz V (Xi ) = V (X) = σ 2 . Nach den Sätzen 6.6 und 12.10 erhält man also Der Erwartungswert der Zufallsgröße P ist dann n 1 2 E(P ) = 0 · (1 − p)3 + · 3p(1 − p)2 + · 3p2 (1 − p) + 1 · p3 = p(1 − 2p + p2 + 2p − 2p2 + p2 ) = p. 3 3 V (X) = V 1X Xi n i=1 ! 2 1 V = n n X i=1 Xi ! = n 1 X V (X) 1 .2 V (Xi ) = 2 · nσ 2 = n2 i=1 n n P ist daher eine erwartungstreue Schätzfunktion für p. Ist z.B. der wahre Wert p = 12 , dann wird p = 0 und p = 1 jeweils mit der Wahrscheinlichkeit 1 und p = 31 und p = 32 jeweils mit der Wahrscheinlichkeit 83 geschätzt. 8 Im Durchschnitt schätzt man also p = 12 . Allerdings wird der wahre Wert p = geschätzt! 1 2 selbst nie Dieses Ergebnis bedeutet, dass die Varianz des Stichprobenmittels mit wachsendem Stichprobenumfang immer kleiner wird. Je größer die Stichproben sind, desto näher liegen im allgemeinen ihre Mittelwerte beieinander. Bemerkung 16.1: σ(X) √ n Satz 16.1: Die Standardabweichung σ(X) = Die Zufallsgrößen X und Xi , i ∈ N seien identisch verteilt. Dann ist eine erwartungstreue Schätzfunktion für den Mittelwert µ von X das Stichprobenmittel Die Werte von X streuen weniger stark um den gemeinsamen Erwartungswert von X und X als die Werte von X. Bei einer Stichprobe von nur 4 Elementen ist die Streuung von X schon halb so groß wie die von X. Man nutzt dies z.B. bei physikalischen Messungen aus: Je häufiger man eine Größe misst, um so weniger wird sich i.a. der Mittelwert aller Meßwerte vom Erwartungswert µ unterscheiden. n X= 1X Xi . n i=1 Beweis: Sei µ der Mittelwert der identisch verteilten Zufallsgrößen X und Xi , i ∈ N. Dann ergibt sich nach den Sätzen 12.5 und 12.6 ! n n 1X 1 1X Xi = E(Xi ) = · nµ = µ . 2 E(X) = E n i=1 n i=1 n Die Schätzfunktion X hat demnach denselben Erwartungswert wie X selbst. Anders ausgedrückt: Die Werte von X sind Mittelwerte von Stichproben vom Umfang n der Zufallsgröße X. Der Mittelwert aller dieser Stichprobenmittel ist gerade der Mittelwert von X. Warum schätzen wir µ mit X und nicht einfach mit X? Das erkennen wir, wenn wir die Varianzen von X und X vergleichen: des Stichprobenmittels heißt Stichprobenfehler. Die Erwartungstreue einer Schätzfunktion U = g(X1 , . . . , Xn ) garantiert nicht, dass die durch sie gefundenen Werte u gute Näherungswerte des zu schätzenden Parameters u sind. Von einer guten Schätzfunktion verlangt man deshalb, dass ihre Werte u mit hoher Wahrscheinlichkeit nahe bei u liegen. Insbesondere soll diese Wahrscheinlichkeit mit wachsendem Stichprobenumfang gegen den Wert 1 konvergieren. Definition 16.3: (Konsistenz einer Schätzfunktion) Eine Folge von Schätzfunktionen U n = gn (X1 , . . ., Xn ) für einen Parameter u heißt konsistent, wenn für alle ε > 0 gilt lim P (|U n − u| < ε) = 1 . n→∞ Ein einfaches Kriterium zur Überprüfung der Konsistenz liefert der folgende Satz. 186 16 PUNKTSCHÄTZUNG VON PARAMETERN 187 16.2 Ein Beispiel: Schätzung eines Populationsumfangs Beweis: Satz 16.3: Es sei U n eine Folge erwartungstreuer Schätzfunktionen für den Parameter u. Weiterhin gelte lim V (U n ) = 0. Dann ist U n konsistent. n→∞ Beweis: Wegen der Erwartungtreue haben alle U n den Mittelwert µn = u. Wir wenden die Ungleichung von Tscherbyschew (Satz 9.9) an: P (|U n − u| ≥ kσn ) = P (|U n − µn | ≥ kσn ) ≤ Wir erweitern die rechte Seite mit P (|U n − u| ≥ ε) ≤ σn2 1 , k2 Wir ermitteln zunächst mit Hilfe der Formel E(X 2 ) = V (X) + E 2 (X) aus Satz 6.5 n n n n P P 2 P P 2 2 2 2 (Xi − X)2 = E E Xi − 2X Xi + nX = E Xi − 2nX + nX i=1 i=1 i=1 i=1 n n P 2 P 2 2 2 2 2 =E Xi − nX = E(Xi ) − nE(X ) = n · E(X ) − nE(X ) i=1 = (n − 1)V (X). k ∈ R+ . = V (U n ) und setzen kσn =: ε. Dann folgt: V (U n ) . ε2 Hat nun U n die Eigenschaft V (U n ) → 0 für n → ∞, so ergibt sich für jedes ε P (|U n − u| < ε) = 1 − P (|U n − u| ≥ ε) → 1 − 0 = 1 . 2 Wir zeigen nun, dass das Stichprobenmittel konsistent ist: Man erhält E(Se2 ) = 1 n Die Folge U n = X = (X1 + . . . + Xn ) von Schätzfunktionen für den Mittelwert ist für jede Verteilung mit endlicher Varianz konsistent. Beweis: Nach Satz 16.2 gilt V (Un ) = V (X) = Behauptung. 2 1 n 1 E n−1 n P i=1 (Xi − X)2 Se2 ) = = V (X) und E(S 2 ) = E( n−1 n n−1 V n (X). 2 Bisher stellten wir Eigenschaften von Schätzfunktionen zusammen. Nun gibt es aber kein allgemeingültiges Verfahren um Schätzfunktionen zu finden. Wir werden in Abschnitt 16.2 eine besonders zuverlässige erwartungstreue Schätzfunktion zur Schätzung eines Populationsumfangs entwickeln. In Abschnitt 16.3 stellen wir die häufig verwendete Maximum-Likelihood-Schätzmethode vor. Diese erzeugt aber im allgemeinen keine erwartungstreue Schätzfunktion. 16.2 Satz 16.4: i=1 = n · (V (X) + E 2 (X)) − n(V (X) + E 2 (X)) = nV (X) + nµ2 − V (X) − nµ2 Ein Beispiel: Schätzung eines Populationsumfangs In diesem Abschnitt werden wir ein Beispiel untersuchen, bei dem mehrere erwartungstreue Schätzfunktionen für ein und denselben Parameter bereitstehen. Wir wollen davon die beste Schätzfunktion auswählen. Beispiel 16.2: V (X) → 0 für n → ∞. Aus Satz 16.3 folgt die Wir wollen auch eine geeignete Schätzfunktion für die Varianz einer Zufallsgröße entwickeln. Dabei stellt sich heraus, dass die Stichprobenvarianz erwartungstreu ist. Für einen Waldlauf hat ein Sportverein die Teilnehmer von 1 bis N durchnumeriert. Die Nummern hängen nicht von der Leistungsfähigkeit ab. Ein Spaziergänger begegnet einer Gruppe von 11 Läufern, aus deren Nummern er auf die ihm unbekannte Anzahl der Teilnehmer schließen möchte. Die beobachteten Nummern sind 27, 3, 38, 42, 15, 30, 26, 36, 45, 51, 24. Bemerkung 16.2: Satz 16.5: Eine erwartungstreue Schätzfunktion der Varianz ist die Stichprobenvarianz Wir beschreiben das Problem durch ein Urnenproblem: n Se2 = 1 X (Xi − X)2 . n − 1 i=1 Im Gegensatz dazu ist die empirische Varianz S 2 = Dieses Schätzproblem trat im 2. Weltkrieg auf, als man aus den Seriennummern von erbeuteten Waffen (Panzern, Kanonen) auf den Umfang der Waffenproduktion schließen wollte. 1 n n P (Xi − X)2 nicht erwartungstreu. i=1 Eine Urne enthalte N von 1 aufwärts durchnumerierte Kugeln. Die Anzahl N sei nicht bekannt. Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsgrößen X1 , . . . , Xn geben die gezogenen Nummern an, und zwar Xk die der an k–ter Stelle gezogenen Kugel (k ∈ {1, . . . , n}). Aus den Nummern der Stichprobe soll N geschätzt werden. Zur Lösung des Schätzproblems gehen wir in folgenden Schritten vor: 188 16 PUNKTSCHÄTZUNG VON PARAMETERN - Wir sammeln zunächst Ideen zur Bestimmung von Schätzfunktionen und legen dadurch vorläufige Schätzfunktionen fest. - Wir berechnen den Erwartungswert der vorläufigen Schätzfunktionen und korrigieren diese so, dass wir erwartungstreue Schätzfunktionen erhalten (ab Seite 189). - Wir berechnen die Varianzen der erwartungstreuen Schätzfunktionen (ab Seite 190). - Wir vergleichen die berechneten Varianzen. Die Schätzfunktion mit der kleinsten Varianz ist die zuverlässigste (s. Tabelle auf Seite 194). Konstruktion verschiedener Schätzfunktionen Aus den Zufallsgrößen X1 , . . . , Xn definieren wir neue Zufallsgrößen Y1 , . . . , Yn , indem wir die Werte aufsteigend ordnen. Demnach gibt Y1 das kleinste, Yn das größte und allgemein Yk das k–kleinste Beobachtungsergebnis an. Seien also Y1 < Y2 < . . . < Yn die n geordneten Werte der Stichprobe. Ihre graphische Veranschaulichung in Abbildung 16.1 hilft uns, die Entstehung der folgenden Schätzfunktionen zu verstehen. Dabei geht es zunächst nur darum, Näherungswerte für N zu erzeugen. Eine Feinkorrektur“ der Funktionen auf Erwartungstreue erfolgt später. ” N? y1 y2 y3 ..... yn Abb. 16.1 (a) Der Mittelwert X der Xi wird ungefähr in die Mitte der Numerierung fallen. n n 1X 2X Aus X = Xk konstruiert man die vorläufige Schätzfunktion 2X = Xk . n k=1 n k=1 (b) Der Median (Zentralwert) wird ungefähr in die Mitte der Numerierung fallen. Bei geradem n liegt er zwischen Y n2 und Y n2 +1 , bei ungeradem fällt er mit Y n+1 zusammen. Das ergibt 2 die vorläufige Schätzfunktion ( Y n2 + Y n2 +1 für gerades n Y = für ungerades n. 2Y n+1 2 (c) Das Maximum Yn der beobachteten Werte weicht von N etwa um genausoviel ab wie das Minimum Y1 von 0. Das ergibt die vorläufige Schätzfunktion Y1 + Yn . (d) Eine zu (c) analoge Argumentation führt allgemeiner zu Yk + Yn+1−k , k ∈ {1, . . . , n}. (e) N folgt auf den größten beobachteten Wert Yn etwa im mittleren Abstand aller beobachteten Werte. Man erhält die vorläufige Schätzfunktion Yn + (Y1 − 0) + (Y2 − Y1 ) + . . . + (Yn − Yn−1 ) n+1 = Yn . n n Man beachte, dass die in (b) und (c) angegebenen Schätzfunktionen Spezialfälle der in (d) in (b) und k = 1 in (c)). Daher werden für (b) angegebenen sind (mit k = n2 bzw. k = n+1 2 und (c) einige der Rechnungen nicht gesondert ausgeführt. Prüfung der Schätzfunktionen auf Erwartungstreue Zur Berechnung der Erwartungswerte werden die Wahrscheinlichkeitsfunktionen der Xk und der Yk (k ∈ {1, . . . , n}) benötigt. Bei N Kugeln in der Urne gilt zunächst N1 für i ∈ {1, 2, . . . , N } , P (Xk = i) = 0 sonst . Somit erhalten wir In Beispiel 16.2 liefert Y1 den Wert 3, Y2 den Wert 15 und Y11 den Wert 51. 1 189 16.2 Ein Beispiel: Schätzung eines Populationsumfangs E(Xk ) = N X i=1 i· 1 N (N + 1) 1 N +1 = · = N 2 N 2 Dass die k–größte beobachtete Nummer Yk ein i ist, ergibt sich aus dem Ziehen der k − 1 kleineren Werte aus den mit 1, . . . , i − 1 benannten Kugeln und dem gleichzeitigen Ziehen der n − k größeren Werte aus den mit i + 1, . . . , N benannten Kugeln. D.h. es sind k − 1 Kugeln aus i − 1 und zugleich n − k Kugeln aus N − i zu ziehen, und das bei Nn Teilmengen mit n Elementen. Also gilt i−1 N −i n−k ) (k−1)( für i ∈ {k, k + 1, . . . , N − n + k} , (Nn ) P (Yk = i) = 0 sonst. Die Erwartungswerte der Yk berechnet man unter Verwendung der Formeln i · N +1 und Nn = Nn+1 als +1 n+1 E(Yk ) = NX −n+k i=k = k N +1 n+1 i· i−1 k−1 N n N −i n−k = k (N +1)−(n+1)+(k+1) X i=k+1 NX −n+k i=k i k i−1 (k+1)−1 N −i n−k N n (N +1)−i (n+1)−(k+1) N +1 n+1 (∗) = k i−1 k−1 =k· i k N +1 . n+1 (∗): Die Summanden lassen sich als die Wahrscheinlichkeiten P (Ybk+1 = i) interpretieren, allerdings beim Ziehen von n + 1 Kugeln aus einer Urne mit N + 1 durchnumerierten Kugeln. Daher ist ihre Summe 1. Die Berechnung der Erwartungswerte der Schätzfunktionen (a)–(e) ergibt also 190 16 PUNKTSCHÄTZUNG VON PARAMETERN n (a) E(2X) = 2X 2 N +1 = N + 1, E(Xi ) = · n n i=1 n 2 (d) E(Yk + Yn+1−k ) = k (e) E n+1 Yn n Um die Kovarianzen zu ermitteln, benötigen wir die gemeinsame Verteilung (Wahrscheinlichkeitsfunktion) von Xk und Xm . Für k 6= m ist N +1 N +1 + (n + 1 − k) = N + 1 (ebenso bei (b) und (c)), n+1 n+1 N +1 n+1 ·n = N + 1. = n n+1 Daraus ergeben sich die auf Erwartungstreue korrigierten Schätzfunktionen mit ihren Schätzwerten für das Urnenproblem: P (Xk = i, Xm = j) = Schätzfunktion: 2X − 1 ( Wert in Beispiel 16.2: N X ij i,j=1 i6=j 60, 3 Y1 + Yn − 1 53 = (d) Yk + Yn+1−k − 1 65 (für k = 3) (c) (e) 2 für ungerades n n+1 Yn − 1 n 54, 6 . Aufgabe 16.1: Welche der Schätzfunktionen kann kleinere Werte annehmen als das beobachtete Maximum? sonst. i6=j 59 Y n2 + Y n2 +1 − 1 für gerades n 2Y n+1 − 1 0 N X 1 1 ij = N (N − 1) N (N − 1) i,j=1 1 = N (N − 1) (b) Y − 1 = 1 für i, j ∈ {1, 2, . . . , N } und i 6= j , N (N − 1) Man erhält daher für k 6= m E(Xk Xm ) = (a) 191 16.2 Ein Beispiel: Schätzung eines Populationsumfangs 1 N (N − 1) N X i=1 i ! N X j j=1 N (N + 1) 2 2 ! ! − − N (N + 1) (2N + 1) 6 N X i=1 i 2 ! = (N + 1) (3N + 2) . 12 Damit ist Cov (Xk , Xm ) = E(Xk Xm ) − E(Xk ) E(Xm ) 2 (N + 1) (3N + 2) (N + 1) N +1 = = − − . 12 2 12 Berechnung der Varianzen Mit Satz 6.6 ergibt sich die gesuchte Varianz der Schätzfunktion aus (a) als Wir berechnen für jede der Schätzfunktionen die Varianz. Hierbei verwenden wir die Abkürzung n (N + 1)(N − n) , A := (n + 1)(n + 2) 2 V (2X − 1) = 2 V (X) = 4V da dieser Term in allen berechneten Varianzen vorkommt. Zur der Varianzen benutzen wir die in Bemerkung 12.4 angegebene Formel Berechnung n n P P P V Xi = V (Xi ) + Cov (Xi , Xk ). Man erhält zunächst i=1 i=1 E(Xk2 ) = i6=k N X i=1 i2 · N (N + 1)(2N + 1) 1 (N + 1) (2N + 1) 1 = · = N 6 N 6 V (Xk ) = E(Xk2 ) − (E(Xk ))2 = (N + 1) (2N + 1) − 6 N +1 2 2 = (N + 1) (N − 1) . 12 ! n X 1 Xk =4· 2 V n k=1 ! n n X 4 X = V (Xk ) + Cov (Xk , Xm ) 2 n k,m=1 k=1 k6=m 4 (N + 1) (N − n) N +1 (N + 1) (N − 1) = = − n(n − 1) n n2 12 12 3n = und weiter 1X Xk n k=1 (n + 1)(n + 2) A. 3n Um die Varianzen der Yk zu ermitteln berechnen wir zunächst mit i(i + 1) i−1 k−1 = k(k + 1) i+1 k+1 192 und 16 PUNKTSCHÄTZUNG VON PARAMETERN N n = (n+1) (n+2) (N +1) (N +2) · N +2 n+2 E(Yk (Yk + 1)) = NX −n+k i(i + 1) i=k = k(k + 1) i−1 k−1 N n N −i n−k (N + 1) (N + 2) (n + 1) (n + 2) = k(k + 1) NX −n+k i=k (N +2)−(n+2)+(k+2) X i+1 k+1 N n i=k+2 (N + 1) (N + 2) = k(k + 1) . (n + 1) (n + 2) (∗) i−1 (k+2)−1 Zur Ermittlung der Kovarianz von Yk und Ym für k < m verwenden wir die Formeln (n+1) (n+2) i−1 N −j N +1−j = k ki und (N + 1 − j) n−m = (n + 1 − m) n+1−m sowie Nn = (N · k−1 +1) (N +2) i N −i n−k (N +2)−i (n+2)−(k+2) N +2 n+2 E Yk · (N + 1 − Ym ) i(N + 1 − j) = k(n + 1 − m) NX −n+k N −n+m X i=k i=k i k j=m−k+i (N + 1) (N + 2) (n + 1) (n + 2) i=k+1 j−i−1 m−k−1 N n = k(n + 1 − m) N −j n−m j=(m+1)−(k+1)+i (∗) j−i−1 N +1−j m−k−1 n+1−m N n i−1 (k+1)−1 X X · k(n + 1 − k) k(n + 1 − k)(N + 1)(N − n) = A. (n + 1)2 (n + 2) n+1 j=m−k+i i−1 k−1 (N +2)−(n+2)+(k+1) (N +2)−(n+2)+(m+1) V (Yk ) = E(Yk2 ) − E 2 (Yk ) = E(Yk (Yk + 1)) − E(Yk ) − E 2 (Yk ) = NX −n+k N −n+m X = = k(n + 1 − m) · Als Varianz von Yk ergibt sich jetzt (N + 1) (N + 2) (N + 1) (N + 1)2 −k − k2 (n + 1) (n + 2) (n + 1) (n + 1)2 N +2 n+2 und berechnen zunächst (∗): Deutet man die Summanden als Wahrscheinlichkeiten P (Yek+2 = i) beim Ziehen von n + 2 Kugeln aus einer Urne mit N + 2 durchnumerierten Kugeln, so erkennt man, dass die Summe gleich 1 sein muss. = k(k + 1) 193 16.2 Ein Beispiel: Schätzung eines Populationsumfangs (N + 1)(N + 2) . (n + 1)(n + 2) j−i−1 (m+1)−(k+1)−1 N +2 n+2 (N +2)−j (n+2)−(m+1) (∗) Ähnlich wie auf den Seiten 189 und 192 wird hier mit Hilfe der Wahrscheinlichkeiten P (Yek+1 = i, Yem+1 = j) für N + 2 Kugeln, aus denen n + 2 gezogen wurden, argumentiert, dass die Doppelsumme den Wert 1 hat. Man erhält mit den üblichen Rechenregeln für Erwartungswerte weiter für k < m Daher erhält man für die Schätzfunktion aus (e) 2 2 n+1 n+1 n n+1 n+1 V V (Yn ) = Yn − 1 = A = A. n n n n+1 n Cov (Yk , Ym ) = E(Yk Ym ) − E(Yk )E(Ym ) = E(Yk ) E(N + 1 − Ym ) − E Yk (N + 1 − Ym ) = (N + 1)(N + 2) k(N + 1) (n + 1 − m)(N + 1) · − k(n + 1 − m) n+1 n+1 (n + 1)(n + 2) = k(n + 1 − m)(N + 1)(N − n) k(n + 1 − m) = A. (n + 1)2 (n + 2) n+1 In (b) erhält man für ungerades n V 2Y n+1 − 1 = 4 · V Y n+1 2 2 =4· n+1 2 2 n+1 A = (n + 1)A . Für k < m ist die gemeinsame Verteilung von Yk und Ym j−i−1 N −j für i, j ∈ {1, 2, . . . , N } i−1 n−m k−1 m−k−1 mit k ≤ i und j ≤ N − n + m N P (Yk = i, Ym = j) = n und j − i ≥ m − k 0 sonst. Diese Wahrscheinlichkeit ergibt sich folgendermaßen: Die k − 1 kleinsten Beobachtungsergebnisse werden aus i − 1 Zahlen ausgewählt; die m − k − 1 Ergebnisse zwischen Yk und Ym werden aus j − i − 1 Zahlen gewählt; die n − m größten Werte werden aus N − j Zahlen gewählt. Speziell ergibt sich für k ≤ Cov (Yk , Yn+1−k ) = n 2 k2 A. n+1 Benötigt wird noch die Varianz von Yk + Yn+1−k für k ≤ n2 . Es ist V (Yk + Yn+1−k ) = V (Yk ) + V (Yn+1−k ) + 2Cov(Yk , Yn+1−k ) = k(n+1−k) n+1 A+ (n+1−k)k n+1 A+ 2k2 n+1 A = 2kA . Aus dieser Formel entnimmt man die Varianzen der Schätzfunktionen aus (d), aus (c) und aus (b) für den Fall, dass n gerade ist. 194 16 PUNKTSCHÄTZUNG VON PARAMETERN Beispiel 16.3: Ermittlung der besten Schätzfunktion Wir stellen die Ergebnisse in der folgenden Tabelle zusammen. Hierbei verwenden wir wieder +1)(N −n) . die Abkürzung A = (N (n+1)(n+2) Schätzfunktion: (a) (b) Y − 1 = (c) Varianz: (n + 1) (n + 2) ·A 3n 2X − 1 Y n + Y n2 +1 − 1 für gerades n 2 2Y n+1 − 1 für ungerades n 2 Y1 + Yn − 1 (e) Bei einem Experiment werden die Werte einer Zufallsgröße X beobachtet, von der man weiß, dass sie binomialverteilt mit n = 4 und unbekanntem p ist. p soll nun geschätzt werden, d.h. jedem Beobachtungswert x ist eine Zahl p zuzuordnen. Die Situation wird durch das Schaubild in Abbildung 16.2 illustriert. In Richtung der x–Achse ist für jedes p die zugehörige Verteilung aufgetragen. Geht man bei festem x = x0 in Richtung der p–Achse, so durchläuft man die Werte der Funktionen p 7→ b4,p (x0 ) = x40 px0 (1 − p)4−x0 . n·A (n + 1) · A b4,p (x) x 2·A n (d) Yk + Yn+1−k − 1 für k ≤ 2 4 1 2k · A b4,p(4) = p 3 3 n+1 · A. n n+1 Yn − 1 n 195 16.3 Das Maximum–Likelihood–Prinzip b4,p(3) = 4p (1-p) 2 2 b4,p(2) = 6p (1-p) 1 b4,p(1) = 4p (1-p) Die Varianzen lassen sich daher ohne Kenntnis von N vergleichen. Insbesondere ist die Varianz der Schätzfunktion aus (e) stets am kleinsten. Also ist b4,p(0) = (1-p) 0 n+1 Yn − 1 N= n 0,25 0,5 2 3 4 p 1 0,75 Abb. 16.2 die beste der angegebenen Schätzfunktionen. Um zu der besten Schätzung zu kommen, genügt es daher, die größte Nummer aus den gezogenen Kugeln und den Umfang der Stichprobe zu kennen. Wird nun der Wert x0 beobachtet, so wird der Schätzwert p∗ = p(x0 ) für p so gewählt, dass die Wahrscheinlichkeit b4,p (x0 ) maximal ist (maximum likelihood). Die zugehörige Schätzfunktion bezeichnen wir mit P ∗ = p(X). Eine einfache Rechnung liefert p(0) = 0, Bemerkung 16.3: p(1) = 0, 25, p(2) = 0, 5, p(3) = 0, 75, p(4) = 1. n+1 Man kann sogar zeigen, dass die Schätzfunktion N = Yn − 1 von allen erwartungstreuen n n P Schätzfunktionen der Gestalt N = αj Yj + β die kleinste Varianz hat. Definition 16.4: (Maximum–Likelihood–Prinzip) 16.3 Für ein Beobachtungsergebnis (x1 , . . . , xn ) ist die Likelihood-Funktion definiert durch j=1 Das Maximum–Likelihood–Prinzip Im vorangegangenen Abschnitt haben wir Schätzfunktionen mehr oder weniger erraten. Wir besprechen jetzt ein Prinzip, mit dessen Hilfe sich solche Funktionen ableiten lassen. Das Verfahren wurde in Sonderfällen bereits von Gauss angewandt und 1912 von R.A. Fisher für statistische Zwecke weiterentwickelt. Wir veranschaulichen das Vorgehen zunächst an dem einfachen X1 , . . . , Xn seien diskret oder stetig verteilte Zufallsgrößen, deren gemeinsame Verteilung bzw. Dichte fu von einem Parameter u mit unbekanntem Wert abhängt. u 7→ ϕ(u) = fu (x1 , . . . , xn ). Ein Wert u∗ = u(x1 , . . . , xn ) des Parameters u, für den die Likelihood-Funktion ϕ maximal ist, heißt Maximum-Likelihood-Schätzwert für u. Die zugehörige Schätzfunktion U ∗ = u(X1 , . . . , Xn ) heißt Maximum-Likelihood-Schätzfunktion für u. 4 196 16 PUNKTSCHÄTZUNG VON PARAMETERN 197 16.3 Das Maximum–Likelihood–Prinzip Bemerkung 16.4: Beispiel 16.4: Sind die Zufallsgrößen X1 , . . . , Xn diskret, dann maximiert der Maximum-Likelihood-Schätzwert gerade die Wahrscheinlichkeit Pu (X1 = x1 , . . . , Xn = xn ) = fu (X1 = x1 , . . . , Xn = xn ) des tatsächlich eingetretenen Ereignisses. Daher kommt seine Bezeichnung. Die Phenylketonurie ist eine erbliche Stoffwechselkrankheit, die zu geistiger Entwicklungshemmung führt und deshalb sofort behandelt werden muss. Jedes Neugeborene wird im Hinblick auf sie untersucht. Die Vererbung ist rezessiv. Ist also der Genotyp am Genort A bestimmend für die Krankheit und das Allel A dominant über a, so sind die Träger des Genotyps aa krank, die der Genotypen aA und AA nicht krank. Zwischen den gesund erscheinenden Trägern der Genotypen AA und aA kann man nicht unterscheiden. r sei die Wahrscheinlichkeit für das Auftreten des Allels a. Für stetige Zufallsgrößenn X1 , . . . , Xn mit gemeinsamer Wahrscheinlichkeitsdichte fu (x1 , . . . , xn ) erhält man nach dem Mittelwertsatz der Integralrechnung Pu (x1 ≤ X1 ≤ x1 + △x1 , . . . , xn ≤ Xn ≤ xn + △xn ) ≈ fu (x1 , . . . , xn ) △x1 · . . . · △xn , was plausibel macht, dass im stetigen Fall die Dichte maximiert wird. Nach den Gesetzen der Genetik (Hardy–Weinberg–Gleichgewicht) sind die Wahrscheinlichkeiten für den Genotypen der Neugeborenen wie folgt: Bemerkung 16.5: Besonders wichtig ist folgender Spezialfall: Genotyp aa Die Stichprobe (x1 , . . . , xn ) entstehe durch n-fache unabhängige Wiederholung eines Zufallsexperiments, wobei die zugehörige Zufallsgröße X die Wahrscheinlichkeitsverteilung bzw. Dichte fu hat. Wahrscheinlichkeit r2 Da sich die Verteilungen bzw. Dichten multiplizieren ist in diesem Fall die Likelihoodfunktion ϕ(u) = fu (x1 ) · . . . · fu (xn ). Kann der Parameter u Werte aus einem Intervall annehmen, so ist – unter geeigneten Differenzierbarkeitsvoraussetzungen und wenn man von Maximalstellen am Rand absieht – eine notwendige Bedingung für die Maximalstelle ϕ′ (u) = 0. Da ln streng monoton ist haben die Funktionen ϕ und ln ϕ dieselben Maximalstellen. Treten in der Likelihood-Funktion viele Produkte auf (vgl. Bemerkung 16.5), so ist es häufig sehr viel einfacher, die Maximalstellen von ln ϕ zu bestimmen. X gebe die Anzahl der Kranken unter n Neugeborenen an. Dann ist X bernoulliverteilt gemäß für r2 ergibt sich nach Aufgabe 16.2 die Funkbn,r2 (x). Als Maximum–Likelihood-Schätzgröße q X , n und r(X) = Maximum–Likelihood–Schätzfunktionen sind nicht zwangsläufig erwartungstreu, und ihre quadratische Abweichung vom gesuchten Parameter muss nicht minimal sein. Wir bestimmen nun einige Maximum–Likelihood–Schätzfunktionen. Aufgabe 16.2: Ein Experiment mit unbekannter Erfolgswahrscheinlichkeit p wird n–mal unabhängig wiederholt, wobei x Erfolge eintreten. X n ist die Maximum–Likelihood–Schätzfunktion von r. Beispiel 16.5: (rot-grün-Farbenblindheit) Aus einem bestimmten genetischen Modell für die Rotgrünblindheit beim Menschen ergeben sich die 4 Wahrscheinlichkeiten in der folgenden Tabelle: männlich Bemerkung 16.7: Zeigen Sie, dass X n normalsichtig Die Likelihood-Funktion ϕ muss keine Maximalstelle haben, und diese muss im Falle der Existenz nicht eindeutig sein. In vielen Anwendungsproblemen gibt es aber eine eindeutig bestimmte Maximalstelle. eine Maximum–Likelihood–Schätzfunktion für p ist. AA r2 ist damit die Wahrscheinlichkeit für kranke Neugeborene, 1 − r2 die für gesunde. Die Wahrscheinlichkeit r soll geschätzt werden. tion Bemerkung 16.6: aA 2r(1 − r) (1 − r)2 rotgrünblind 1 2 (1 − p) 1 2 p weiblich 1 2 (1 − p2 ) 1 2 p2 Denn der Genort, an dem die Rotgrünblindheit verursacht wird, befindet sich auf dem XGeschlechtschromosom. Männliche Personen besitzen ein X– und ein Y –Chromosom, weibliche zwei X–Chromosomen. Männer sind rotgrünblind, wenn sich auf dem X–Chromosom das Allel, das die Rotgrünblindheit verursacht, befindet, dagegen Frauen, wenn sich dieses Allel auf beiden X–Chromosomen befindet. Das die Rotgrünblindheit verursachende Allel tritt auf den X–Chromosomen mit der Wahrscheinlichkeit p auf, die es zu schätzen gilt. Dazu werden n Personen zufällig ausgewählt und auf Rotgrünblindheit untersucht. Die Zufallsgrößen X1 , X2 , X3 und X4 geben die Zahl der männlichen Gesunden, der weiblichen Gesunden, der männlichen Rotgrünblinden und der weiblichen Rotgrünblinden an. Der Zufallsvektor (X1 , X2 , X3 , X4 ) ist multinomialverteilt (s. Definition 8.4) mit den Parametern n und p1 = 1 (1 − p) , 2 p2 = 1 (1 − p2 ) , 2 p3 = 1 p, 2 p4 = 1 2 p . 2 198 16 PUNKTSCHÄTZUNG VON PARAMETERN Wenn die Xi die Werte xi angenommen haben, ist der Maximum–Likelihood-Schätzwert für p die Stelle, an der die Funktion x1 1 x2 1 x3 1 x4 1 n! (1 − p) (1 − p2 ) p p2 p 7→ x1 ! x2 ! x3 ! x4 ! 2 2 2 2 199 16.3 Das Maximum–Likelihood–Prinzip maximal ist. Wir untersuchen das Monotonieverhalten: K(N − K − n + x + 1) K(N − K + x + 1) − Kn hK (x) = = . hK−1 (x) (K − x) (N − K + 1) K(N − K + x + 1) − (N + 1)x Daher gilt =: Pp (X1 = x1 , X2 = x2 , X3 = x3 , X4 = x4 ) das Maximum annimmt. Um den Schätzwert zu ermitteln, differenzieren wir p 7→ ln Pp und erhalten x1 + x2 x2 x3 + 2x4 ∂ ln Pp =− + + . ∂p 1−p 1+p p Es ist ∂ ln Pp ∂p p2 + = 0 genau dann, wenn gilt (mit n = x1 + x2 + x3 + x4 ) x3 + 2x4 x1 p− = 0. n + x2 + x4 n + x2 + x4 Im Intervall ]0, 1[ hat diese quadratische Gleichung die einzige Lösung s x1 x3 + 2x4 x21 p∗ = − + + . 2(n + x2 + x4 ) 4(n + x2 + x4 )2 n + x2 + x4 Wegen P0 = 0 = P1 und Pp > 0 für 0 < p < 1 muss Pp an der Stelle p∗ ein Maximum haben. Beispielsweise ergaben sich bei der Untersuchung von n = 1000 Personen folgende Werte: x2 x3 x4 x1 480 492 25 3 Daraus resultiert der Schätzwert p∗ = 0, 055. Bemerkung 16.8: Spart man sich die lästige Maximum–Likelihood–Rechnung und schätzt die Wahrscheinlichkeit p einfach mit der Schätzfunktion n2 X3 , so erhält man den Schätzwert p = 0, 05. Beispiel 16.6: Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung beurteilen. Aus einer Sendung von N = 125 Teilen nimmt er n = 24 und überprüft sie. Er findet x = 3 defekte Teile und möchte die Zahl K aller defekten Teile der Lieferung schätzen. Die Zufallsgröße X, die die Anzahl der defekten Teile angibt, ist hypergeometrisch verteilt, d.h. K N −K hK (x) = x n−x N n . Für K suchen wir die Maximum–Likelihood–Schätzfunktion. Das bedeutet: Bei gegebenem Beobachtungsergebnis x ist der Wert K(x) des Parameters K zu bestimmen, für den K 7→ hK (x) hK (x) ≥ hK−1 (x) ⇐⇒ Kn ≤ (N + 1)x ⇐⇒ (N + 1)x . n K≤ Wir suchen die Zahl K, die den maximalen Wert liefert, d.h. hK−1 (x) ≤ hK (x) ≥ hK+1 (x) erfüllt. Nach obiger Rechnung muss für dieses K gelten (N + 1)x (N + 1)x −1 ≤ K ≤ . n n Ist also (N +1)x n nicht ganzzahlig, so ist K(x) = h (N +1)x n Ist (N +1)x ∈ {1, . . . , N }, so kann entweder K 1 (x) = n werden. i die Maximum-Likelihood-Schätzung. (N +1)x n Der Käufer elektronischer Bauteile würde daher K(3) = Bemerkung 16.9: − 1 oder K 2 (x) = 126·3 24 (N +1)x n geschätzt = 15 schätzen. Einfacher erhält man mit gesundem Menschenverstand“ die erwartungstreue Schätzfunktion ” e K(X) = Xn N , denn der Anteil der defekten Teile insgesamt sollte etwa dem Anteil der defekten Teile der Stichprobe entsprechen. Diese Schätzfunktion liefert im Beispiel 16.6 den Schätzwert 125 24 · 2 ≈ 15, 6. Aufgabe 16.3: N sei die nicht bekannte Anzahl der Fische in einem Teich. Um N zu ermitteln, werden K Fische gefangen, durch einen roten Fleck gekennzeichnet und wieder ausgesetzt. Einige Tage später werden n Fische gefangen; x von ihnen haben einen roten Fleck. Führen Sie eine Maximum–Likelihood–Schätzung für N durch. Bestimmen Sie dazu die Verteilung und suchen Sie ihren Maximalwert in Abhängigkeit von N . Aufgabe 16.4: Eine durch unabhängige Wiederholungen gewonnene Stichprobe einer poissonverteilten Zufallsgröße habe die Werte x1 , . . . , xn . Man bestimme durch eine Maximum–Likelihood-Schätzung einen Näherungswert für µ. Aufgabe 16.5: Man bestimme aus einer Stichprobe von n Werten x1 , . . . , xn mittels der Maximum–LikelihoodMethode den Mittelwert µ und die Varianz σ 2 einer normalverteilten Zufallsgröße X. Die Werte xi seien unabhängig ermittelt. Vergleichen Sie die Ergebnisse mit den Sätzen 16.1 und 16.5. 200 17 17.1 17 KONFIDENZINTERVALLE Konfidenzintervalle Problemstellung Bei der Punktschätzung eines unbekannten Parameters wird jedem Ergebnis eines Experiments durch eine Schätzfunktion eine reelle Zahl, der Schätzwert für den Parameter, zugeordnet. Man entscheidet sich also für einen einzelnen der möglichen Parameterwerte. Dabei darf die Entscheidung nicht mit der Vorstellung verbunden werden, den wahren Parameterwert gefunden zu haben. Auch wird für eine Punktschätzung keine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht. Man nimmt i.a. in Kauf, dass mit hoher Wahrscheinlichkeit der Schätzwert nicht der wahre Parameterwert ist. Wir betrachten hierzu das 17.2 Ein Beispiel Grenze O(x) eines solchen Schätzintervalls sind die Werte von zwei Zufallsgrößen U (X) und O(X). Damit werden Schätzintervalle (wie auch Schätzwerte) durch das zufällige Ergebnis eines Experiments festgelegt. Bei der Festlegung des Intervalls wird gefordert, dass der gesuchte Parameterwert mit einer Mindestwahrscheinlichkeit von 1 − α von dem Intervall überdeckt“ wird. ” Definition 17.1: (Konfidenzintervall, Schätzintervall) Ein Intervall mit zufälligen Grenzen [U (X), O(X)], für das für jeden Parameterwert u gilt P U (X) ≤ u ≤ O(X) ≥ 1 − α , nennt man ein Konfidenzintervall für den Parameterwert u zum (Konfidenz–)Niveau 1 − α oder ein (1 − α) · 100 %–Konfidenzintervall. Beispiel 17.1: Für ein Ergebnis x des Zufallsexperiments heißt dann [U (x), O(x)] Schätzintervall. Ein Käufer elektronischer Bauelemente möchte die Qualität einer Lieferung von 1000 Teilen beurteilen. Dazu entnimmt er der Lieferung zufällig 50 Teile, die er überprüft. 1 − α heisst Sicherheiswahrscheinlichkeit. Dieses Zufallsexperiment kann durch ein Urnenmodell beschrieben werden, wobei die Urne 1000 weiße und schwarze Kugeln, mit einem unbekannten Anteil schwarzer, enthält. Aus der Urne werden 50 Kugeln ohne Zurücklegen gezogen. Wir betrachten eine rechnerisch etwas übersichtlichere Variante dieses Problems. Bemerkung 17.1: Beispiel 17.2: In einer Urne liegen 12 Kugeln, von denen ein unbekannter Anteil u schwarz ist. Wir ziehen 6 Kugeln. Die Zufallsgröße X gebe die Anzahl der schwarzen unter den gezogenen Kugeln an. e X ist hypergeometrisch verteilt. Nach Bemerkung 16.9 ist K(X) = 12 · X6 eine erwartungstreue Schätzgröße für die unbekannte Anzahl der schwarzen Kugeln in der Urne. Dementsprechend wird der unbekannte Anteil der schwarzen Kugeln mit der erwartungstreuen Schätzgröße X6 geschätzt. Mögliche Werte dieser Schätzgröße sind 0, 61 , 26 , . . . , 1. 5 Befinden sich nun tatsächlich 5 schwarze Kugeln in der Urne, so kann der wahre Anteil 12 von X der Schätzgröße 6 gar nicht als Wert angenommen werden. Wenn sich 2 schwarze Kugeln in der 2 nur mit der Wahrscheinlichkeit Urne befinden, so nimmt die Schätzgröße X6 den wahren Anteil 12 6 P (X = 1) = 11 an. Ist die Verteilung einer Schätzgröße stetig, so erhält man sogar mit Wahrscheinlichkeit 1, d.h. mit Sicherheit einen Schätzwert, der vom wahren Parameterwert abweicht. Man kann also nicht davon ausgehen, dass eine Schätzgröße mit großer Wahrscheinlichkeit den wahren Parameterwert als Wert annimmt. Diese Eigenschaft von Punktschätzungen wird manchmal als nachteilig empfunden. Wir betrachten jetzt eine andere Schätzmethode, bei der außerdem eine Wahrscheinlichkeitsaussage über die Genauigkeit der Schätzung gemacht wird. Bei einer Intervallschätzung wird jedem Ergebnis x eines Experiments ein Intervall reeller Zahlen, ein sogenanntes Schätzintervall, zugeordnet. Die untere Grenze U (x) und die obere 201 Der Begriff des Konfidenzintervalls wurde 1935 von J. Neyman eingeführt. In der Literatur werden manchmal die Schätzintervalle [U (x), O(x)] selbst, als Konfidenzin” tervalle“ oder Realisierungen des Konfidenzintervalls“ bezeichnet. Wir wollen hier jedoch die ” Bezeichnungen auseinanderhalten. Von einem Konfidenzintervall verlangt man, dass es den unbekannten wahren Parameterwert mit vorgegebener Mindeswahrscheinlichkeit enthält, ganz gleich welche Verteilung die wahre ist (Zuverlässigkeit der Schätzung). Außerdem sollte das Konfidenzintervall zu möglichst kurzen Schätzintervallen führen (Aussagekraft der Schätzung). Die Zuverlässigkeit und die Aussagekraft einer Intervallschätzung kann man nicht gemeinsam maximieren. Vielmehr hat eine erhöhte Zuverlässigkeit eine verminderte Aussagekraft zur Folge und umgekehrt. 17.2 Ein Beispiel In diesem Abschnitt werden wir Beispiel 17.2 aufgreifen und ein Konfidenzintervall für den Anteil u der schwarzen Kugeln konstruieren. In Abbildung 17.1 sind zunächst die Wahrscheinlichkeiten für die Werte der hypergeometrisch verteilten Zufallsgröße X bei den verschiedenen Mischungsverhältnissen in der Urne angegeben. Konstruktion eines Konfidenzintervalls für u zum Niveau 0, 9 Wir wählen jetzt α = 0, 1. Wir bestimmen zu jedem Beobachtungsergebnis x (d.h. x schwarze Kugeln gezogen) ein Schätzintervall für u. 202 17 KONFIDENZINTERVALLE Werte von X Anteil u der schwarzen Kugeln 1 12 2 12 3 12 4 12 5 12 6 12 7 12 8 12 9 12 10 12 11 12 x 0 0 1 0.5 0.227 0.091 0.030 0.008 0.001 0 0 0 0 0 0 1 0 0.5 0.545 0.409 0.242 0.114 0.039 0.008 0 0 0 0 0 2 0 0 0.227 0.409 0.455 0.379 0.244 0.114 0.030 0 0 0 0 3 0 0 0 0.091 0.242 0.379 0.433 0.379 0.242 0.091 0 0 0 4 0 0 0 0 0.030 0.114 0.244 0.379 0.455 0.409 0.227 0 0 5 0 0 0 0 0 0 6 0 0 0 0 0.008 0.039 0.114 0.242 0.409 0.545 0.5 0 0 0.001 0.008 0.030 0.091 0.227 0.5 1 1 Abb. 17.1 1 , . . . , 11 , 1} Mengen Zur Konstruktion bestimmen wir zunächst für jeden Wert von u ∈ {0, 16 16 Au von möglichen Beobachtungsergebnissen. Diese werden so aus den Werten der Zufallsgröße X gebildet, dass die Wahrscheinlichkeit P (X ∈ Au ) die Zahl 1 − α = 0, 9 gerade erreicht oder um möglichst wenig übersteigt, und dass die Wahrscheinlichkeiten, dass X kleiner bzw. größer als die Werte in Au ist, möglichst gleich groß sind (ideal wäre α/2). Die Mengen Au und die Wahrscheinlichkeiten P (X ∈ Au ) können aus der Tabelle in Abbildung 17.1 abgelesen werden. Es ergibt sich: 0 u Au P (X ∈ Au ) 1 12 2 12 {0} {0, 1} {0, 1, 2} 1 1 1 3 12 4 12 5 12 6 12 7 12 8 12 9 12 10 12 11 12 0, 940 0, 984 0, 920 0, 984 0, 940 0, 909 1 1 1 12 Wir wählen nun als Schätzintervall zum Beobachtungsergebnis x das kleinste Intervall, das alle Parameterwerte u mit x ∈ Au enthält. Beispielsweise gehört 2 genau dann zu Au , wenn u zwischen 2 ∈ Au ⇐⇒ U (2) := 2 12 und 7 12 liegt, also 7 2 ≤u≤ =: O(2) . 12 12 Allgemeiner setzt man x ∈ Au ⇔ U (x) ≤ u ≤ O(x) (vgl. Tabelle unten). Wir definieren also die Funktionen U (untere Grenze) und O (obere Grenze) durch U (x) = Min {u | x ∈ Au } und O(x) = Max {u | x ∈ Au } . d.h. das konstruierte Konfidenzintervall [U (X), O(X)] hat das gewünschte Niveau. In unserem Beispiel hat es sogar das Niveau 0, 909, da 0, 909 die kleinste der Wahrscheinlichkeiten P (X ∈ Au ) ist. Für die einzelnen Beobachtungsergebnisse ergeben sich aus der Tabelle für Au die folgenden Schätzintervalle: Beobachtungsergebnis x Schätzintervall [U (x), O(x)] Schätzwert 0 2 [0, 12 ] 0 1 1 5 , 12 ] [ 12 2 12 2 2 7 , 12 ] [ 12 4 12 3 3 8 , 12 ] [ 12 6 12 4 5 10 , 12 ] [ 12 8 12 5 7 11 , 12 ] [ 12 10 12 6 9 , 1] [ 12 1 x 6 Die Werte der Schätzgröße X6 sind in der letzten Spalte angegeben. Die Schätzwerte liegen mehr oder weniger in der Mitte der entsprechenden Schätzintervalle. Interpretation des Konfidenzintervalls [U (X), O(X)] und des Konfidenzniveaus 9 3 und u = 12 kann man je zwei verschiedene Mengen als Au wählen. Wir entscheiden Für u = 12 uns willkürlich für die Mengen A 3 = {1, 2, 3} und A 9 = {4, 5, 6}. 12 Bei dieser Definition enthält ein Schätzintervall [U (x), O(x)] gerade alle Parameterwerte, unter denen x mit relativ großer Wahrscheinlichkeit zu den Beobachtungsergebnissen gehört. Wegen der Äquivalenz U (x) ≤ u ≤ O(x) ⇔ x ∈ Au gilt für jedes u P U (X) ≤ u ≤ O(X) = P (X ∈ Au ) ≥ 1 − α , 1 {0, 1, 2} {3, 4, 5} {1, 2, 3} {1, 2, 3, 4} {2, 3, 4} {2, 3, 4, 5} {3, 4, 5} {4, 5, 6} {5, 6} {6} {1, 2, 3} {4, 5, 6} 0, 909 203 17.2 Ein Beispiel Die Wahrscheinlichkeit P U (X) ≤ u ≤ O(X) ist die Wahrscheinlichkeit, dass das Konfidenzintervall [U (X), O(X)] den Parameterwert u überdeckt, wenn man annimmt, dass u der wahre Parameterwert der Verteilung der Zufallsgröße X ist. Bei der Formulierung dieses Sachverhalts muss beachtet werden, dass das Intervall [U (X), O(X)] und nicht der Parameterwert u stochastischen (zufälligen) Charakter hat. Nicht benutzen sollte man daher Formulierungen wie: u ist mit einer Wahrscheinlichkeit von mindestens 1 − α im Konfidenzintervall enthalten. Wird x beobachtet, so kann man ziemlich sicher (Konfidenzniveau 1−α) sein (oder zuverlässig ” schließen“), dass der wahre Parameterwert der Verteilung der Zufallsgröße X in [U (X), O(X)] liegt. Man sagt: Ein Schätzintervall zum Konfidenzniveau 1 − α für den wahren Anteil der schwarzen Kugeln in der Urne ist [U (x), O(x)] . 5 10 , 12 ] ein Schätzintervall für u zum Niveau 0, 9. Nimmt z.B. X den Wert x = 4 an, so ist [ 12 5 10 , 12 ] stochastischen Auch hier muss man auf die Formulierung achten. Da weder u noch [ 12 Charakter haben, ist es sinnlos zu sagen: u liegt mit einer Wahrscheinlichkeit von mindestens 5 10 , 12 ]. Das Konfidenzniveau muss vielmehr folgendermaßen gedeutet werden: 0, 9 im Intervall [ 12 204 17 KONFIDENZINTERVALLE Werden in vielen (verschiedenen) Situationen Experimente unabhängig voneinander durchgeführt, und wird aufgrund der Ergebnisse jeweils zum Niveau 1 − α ein Schätzintervall bestimmt, so wird sich der Anteil der Schätzintervalle, die den jeweils wahren Parameterwert nicht enthalten, auf nicht mehr als ungefähr α belaufen. Wird z.B. 1 − α = 0, 95 gewählt, so kann man erwarten, dass etwa bei 95 % aller Stichproben, die man entnimmt, die zugehörigen Schätzintervalle den Wert u überdecken und etwa bei 5 % nicht. Hat man solche Intervalle bestimmt, so ist die Aussage, dass so ein Intervall u überdeckt, in etwa 19 von 20 Fällen zutreffend, und in etwa einem von 20 Fällen falsch. Bei 1 − α = 0, 99 wird diese Aussage in etwa 99 von 100 Fällen richtig sein und nur in etwa einem Fall falsch. Die erhöhte Sicherheit bedingt längere Konfidenzintervalle. Welchen Wert 1 − α man im konkreten Fall wählen soll, ist kein mathematisches Problem sondern hängt von der Art der Anwendung ab. Man muss sich überlegen, wie groß das Riskiko ist, das man bei einer falschen Aussage eingeht. Aufgabe 17.1: Die Zufallsgröße X, die die Lebensdauer einer Glühbirne angibt, sei exponentialverteilt mit unbekanntem Mittelwert µ. Eine getestete Glühbirne hielt 1000 Stunden. Bestimmen Sie ein 95%-Schätzintervall für die mittlere Lebensdauer. 205 17.3 Schätzung des Erwartungswertes einer Normalverteilung Gesucht ist nun ein 99%–Schätzintervall für die mittlere Größe der Sägeblatter. Zur Lösung dieses Problems benötigen wir einige noch nicht behandelte Sätze, insbesondere Eigenschaften der Normalverteilung. Wir stellen diese zunächst zusammen. Benötigte Sätze Satz 17.1: X und Y seien unabhängige stetige Zufallsgrößen mit den stetigen Dichten f1 , f2 : R → R . Dann besitzt Z := X + Y die Verteilungsfunktion F : R → R und die Dichte f : R → R mit z−y Z∞ Z Z∞ f1 (z − y) f2 (y) dy . f1 (x) dx dy und f (z) = f2 (y) F (z) = −∞ −∞ −∞ Beweis: Aufgabe; man verwende Satz 12.3 und beachte die Unabhängigkeit von X und Y . 2 Satz 17.2: (Summe unabhängiger normalverteilter Zufallsgrößen) 17.3 Schätzung des Erwartungswertes einer Normalverteilung Problemstellung X1 , . . . , Xn seien unabhängige normalverteilte Zufallsgrößen mit den Mittelwerten µ1 , . . . , µn und den Varianzen σ12 , . . . , σn2 . Dann ist auch die Zufallsgröße Z = X1 + . . . + X n Gegeben ist eine Stichprobe x1 , . . . , xn aus einer normalverteilten Grundgesamtheit, deren Varianz σ 2 bekannt ist. Der Erwartungswert µ sei unbekannt, und es soll ein Konfidenzintervall für µ bestimmt werden. Bemerkung 17.2: Die Aufgabe hat praktische Bedeutung. Handelt es sich z.B. um die Abmessung eines Massenartikels (Länge eines Bolzens, Stärke einer Dichtung), so kann es durchaus sein, dass man µ nicht kennt, weil µ von der jeweiligen Einstellung der Maschine abhängt, mit dem der Artikel gefertigt wird, dass man aber σ aus früherer Erfahrung kennt, weil σ in erster Linie von der Güte der Maschine und fast nicht von deren spezieller Einstellung abhängt. Beispiel 17.3: An einer Maschine können Kreissägeblätter mit verschiedenem Durchmesser hergestellt werden. Aufgrund langer Erfahrung kennt man die Standardabweichung σ = 0, 8 mm des Blattdurchmessers, die bei der Produktion einer bestimmten Sägeblattart auftritt; dabei hängt die Standardabweichung nicht von der Größe der hergestellten Sägeblätter selbst ab. Zur Produktion einer bestimmten Größe wird die Maschine neu eingestellt, und es werden die Durchmesser von 25 produzierten Blättern gemessen. Die Messungen ergaben die 25 Werte (in mm): 154, 7; 155, 8; 155, 3; 155, 5; 155, 0; 154, 3; 156, 2; 153, 1; 154, 2; 155, 1; 153, 8; 154, 6; 155, 5; 153, 8; 155, 6; 154, 5; 155, 8; 156, 0; 155, 0; 155, 9; 153, 6; 154, 4; 154, 1; 154, 3; 155, 3. normalverteilt mit Mittelwert µ = µ1 + . . . + µn und Varianz σ 2 = σ12 + . . . + σn2 . Beweis: Die Summenformeln für die Mittelwerte und die Varianzen wurden in den Sätzen 12.6 und 12.10 hergeleitet. Daher müssen wir nur noch zeigen, dass X normalverteilt ist. Wir führen den Beweis durch vollständigen Induktion. Sei n = 2, also Z = X1 + X2 . Die Dichten von X1 und X2 sind f1 (x) = √ x−µ1 2 1 −1( ) e 2 σ1 2π σ1 und f2 (x) = √ x−µ2 2 1 −1( ) e 2 σ2 . 2π σ2 Nach Satz 17.1 hat Z die Dichte f (z) = Z∞ −∞ 1 f1 (z − y) f2 (y) dy = 2πσ1 σ2 Z∞ − 12 e „ z−y−µ1 σ1 «2 „ « ! y−µ2 2 + σ2 −∞ Mit den Abkürzungen µ := µ1 + µ2 und σ 2 := σ12 + σ22 sowie σ z−µ σ 2 µ2 + σ22 (z − µ1 ) v1 := und v2 := y− 1 σ 1 σ2 σ2 σ dy . 206 17 KONFIDENZINTERVALLE kann man folgende Formel nachrechnen: 2 2 y − µ2 z − y − µ1 + = v12 + v22 . σ1 σ2 − Beweis: Die Verteilungsfunktion von Y lautet 1 2 v 2 2 Da v2 von y unabhängig ist kann der Faktor e 1 Substitution y → v1 mit dv = σ1σσ2 erhält man dy 1 2πσ1 σ2 f (z) = Z∞ −∞ 1 − 1 v22 e 2 2πσ = 1 e− 2 Z∞ v12 +v22 1 2 dy = (∗) e− 2 v1 dv1 = −∞ vor das Integral gezogen werden. Mit der 1 2 1 e− 2 v2 2πσ1 σ2 1 2 e− 2 v1 dy −∞ 1 z−µ 2 1 − 1 v22 √ 1 e 2 · 2π = √ e− 2 ( σ ) . 2πσ 2π σ Im Induktionsschritt setzen wir voraus, dass für n = k unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk auch die Zufallsgröße Y = X1 + . . . + Xk normalverteilt ist. Wir betrachten nun n = k + 1 unabhängige, normalverteilte Zufallsgrößen X1 , . . . , Xk , Xk+1 . Man kann zeigen, dass Y = X1 + . . . + Xk und Xk+1 ebenfalls unabhängig sind (s. Aufgabe 17.2). Die Zufallsgröße Y ist nach Induktionsvoraussetzung normalverteilt, und daher ist wegen der Induktionsverankerung (n = 2) die Zufallsgröße Z= F (y) = P (Y ≤ y) = P (aX + b ≤ y) = P τ −b a Wir substituieren t = Z∞ Zu (∗) vgl. Satz 10.2. Für n = 2 ist Z daher normalverteilt. k+1 X 207 17.3 Schätzung des Erwartungswertes einer Normalverteilung Ry y−b 1 =√ 2π σ Za 1 t−µ 2 ) σ e− 2 ( dt . −∞ und − e τ − b − aµ τ − µY t−µ = = . σ aσ σY 1 τ −µY 2 ( ) 2 σY dτ gilt die Behauptung. 2 −∞ Die Aussagen über Mittelwert und Varianz ergeben sich auch aus den Sätzen 9.2 und 9.6. Ein Spezialfall von Satz 17.3 wurde implizit schon in Satz 10.5 für die normalisierte Zufallsgröße Z = X−µ , d.h. für a = σ1 und b = − σµ hergeleitet. σ Aus den Sätzen 17.2 und 17.3 folgert man direkt: Satz 17.4: Sind X1 , . . . , Xn unabhängige normalverteilte Zufallsgrößen, von denen jede den Mittelwert µ und die Varianz σ 2 besitzt, so ist X= ebenfalls normalverteilt. 2 1 (X1 + . . . + Xn ) n normalverteilt mit Mittelwert µ und Varianz Aufgabe 17.2: Zeigen Sie durch vollständige Induktion nach k, dass für k + 1 unabhängige Zufallsgrößen X1 , . . . , Xk , Xk+1 auch Y = X1 + . . . + Xk und Xk+1 unabhängig sind. Bemerkung 17.3: Xi = Y + Xk+1 i=1 √ 1 2π σY y−b X≤ a und erhalten dt 1 σ σ = = = dτ a aσ σY Wegen F (y) = Z= σ2 . n Die standardisierte Zufallsgröße √ X −µ n σ von X ist ebenfalls normalverteilt mit Mittelwert 0 und Varianz 1. Satz 17.3: (Lineare Transformation normalverteilter Zufallsgrößen) Ist die Zufallsgröße X normalverteilt mit Mittelwert µ und Varianz σ 2 , so ist die Zufallsgröße Y = aX + b , a, b ∈ R, a > 0 ebenfalls normalverteilt mit Mittelwert µY = aµ + b und Varianz σY2 = a2 σ 2 . Bestimmung eines Konfidenzintervalls Aus Symmetriegründen wird das Konfidenzintervall symmetrisch zum Mittelwert X der beobachteten Messergebnisse gewählt. Gesucht wird also ein möglichst kleines Intervall [X − a , X + a] mit der Eigenschaft 208 17 KONFIDENZINTERVALLE 17.3 Schätzung des Erwartungswertes einer Normalverteilung 209 Beispiel 17.4: 1 − α ≤ P (X − a ≤ µ ≤ X + a) = P (−a ≤ X − µ ≤ a) √ √ √ √ −a n a n (s. Satz 17.4) a n −a n √ (X − µ) = P ≤ n ≤ ≤Z≤ = P σ σ σ σ σ √ √ √ a n −a n a n = Φ −Φ = 2Φ − 1. σ σ σ √ α σ σ a n α ) ≥ 1− oder a ≥ √ Φ−1 (1 − ) =: √ z0 . Hieraus ergibt σ 2 2 n n sich die folgende Vorgehensweise: Dies ist äquivalent zu Φ( Wir bestimmen ein 95 %–Schätzintervall für den Mittelwert einer Normalverteilung mit der Varianz σ 2 = 9 aus einer Stichprobe mit dem Mittelwert x = 5 und dem Umfang n = 100. 1. Schritt: Es ist 1 − α = 0, 95 . 2. Schritt: Das Urbild von 1 − 3. Schritt: a = 1,96·3 √ 100 α 2 = 0, 975 ist z0 = 1, 960 . = 0, 588 . 4. Schritt: x = 5 (ist hier gegeben). Ein Schätzintervall für µ zum Niveau 1 − α = 0, 95 ist [x − a, x + a] = [ 4.412 , 5.588 ]. Aufgabe 17.3: 1. Schritt: Man wählt ein Konfidenzniveau 1 − α (z.B. 0, 90; 0, 95 o.ä.). α 2 gehörige Urbild z0 ( zwischen −z0 und z0 liegt dann die Wahrscheinlichkeit 1 − α, s. Abb. 17.2). 2. Schritt: Man bestimmt mit Hilfe der Tafel der Normalverteilung (siehe Anhang) das zu 1− φ(z) Berechnen Sie das Schätzintervall aus Beispiel 17.3. Zuverlässigkeit und Aussagekraft In der Praxis steht man oft vor dem Problem, dass man einerseits ein gewisses Konfidenzniveau nicht unterschreiten will, andererseits aber eine maximale Länge für das Konfidenzintervall vorgegeben ist. Beiden Forderungen kann man durch Wahl einer hinreichend großen Stichprobe genügen. 1- α Beispiel 17.5: α/2 α/2 -z0 z0 z Abb. 17.2 Für die wichtigsten Werte von α sind die z0 in der folgenden Tabelle aufgeführt. 1−α 0, 90 0, 95 0, 99 0, 999 Welchen Umfang muss die Stichprobe in Beispiel 17.4 haben, wenn man ein 95 %–Konfidenzintervall der Länge 2a = 0, 4 haben möchte? 2 2 Die Intervallänge ist 2a = 2z√0nσ . Daraus folgt n = z0aσ = 1,960·3 = 864, 36. Also muss 0,2 n ≥ 865 sein. Allgemein nimmt die Intervallänge 2a mit wachsendem n ab. Abbildung 17.3 zeigt die Art der Abhängigkeit, wobei die Länge in Vielfachen von σ gemessen wird. Je kürzere Intervalle man wünscht, desto größere Stichproben sind erforderlich. Die halbe Intervallänge verlangt den vierfachen Stichprobenumfang. z0 σ 3. Schritt: Man berechnet die Zahl a = √ . n Zuverlässigkeit und Aussagekraft einer Intervallschätzung lassen sich, wie zu Anfang des Kapitels erwähnt, nicht gemeinsam maximieren. Abbildung 17.4 kann man entnehmen, wie bei konstant gehaltenem Stichprobenumfang n die Intervallänge 2a mit dem Konfidenzniveau 1 − α zunimmt. Die Länge wird dabei wiederum in Vielfachen von σ gemessen. Man beachte: Für α → 0 gilt 2a → ∞. 4. Schritt: Man berechnet gegebenenfalls den Mittelwert x der Stichprobe x1 , . . . , xn . Aufgabe 17.4: z0 1, 645 1, 960 2, 576 3, 291 Dann lautet das Schätzintervall für den Mittelwert µ der Grundgesamtheit [x − a, x + a]. Das zugehörige Konfidenzintervall ist dementsprechend [U (X), O(X)] = X − a, X + a . Welchen Umfang muss die Stichprobe im Beispiel 17.4 haben, wenn man ein 99 %–Konfidenzintervall der Länge 0, 40 haben möchte? 210 211 17 KONFIDENZINTERVALLE 18 0,6 18.1 1- α = 99% 0,2 Unsere Frage lautet: Besteht zwischen X und Y näherungsweise ein linearer Zusammenhang? Zwischen der Seitenlänge eines Quadrats und seinem Flächeninhalt besteht ein streng funktionaler, aber nichtlinearer Zusammenhang, denn jeder Seitenlänge ist genau ein Flächeninhalt zugeordnet. 1- α = 95% 0,0 0 1000 500 Regressionsgeraden Die bisher dargestellten statistischen Methoden waren auf die Untersuchung einer eindimensionalen Häufigkeitsverteilung bezogen. Nun betrachten wir für ein beobachtetes Ergebnis jeweils zwei Merkmale X und Y , d.h. wir gehen von Datenpaaren – in der Regel von Zahlenpaaren (X, Y ) – aus. 0,4 2a σ Regression und Korrelation n Abb. 17.3 Wenn wir Körpergröße und Gewicht vergleichen, so besteht kein funktionaler Zusammenhang. Es gibt gleich große, aber verschieden schwere Personen und umgekehrt. Dennoch lehrt die Erfahrung, dass insgesamt gesehen die Regel je größer, desto schwerer“ durchaus zutrifft. Wir ” wollen versuchen, einen derartigen Zusammenhang zweier Größen zu beschreiben und durch eine geeignete Maßzahl zu charakterisieren. Zur Erfassung einer zweidimensionalen Häufigkeitsverteilung bietet sich als einfachstes Mittel die Strichliste an. Für die Merkmale Größe X und Gewicht Y bei 100 erwachsenen Personen ist in Abb. 18.1 ein Beispiel angegeben. 1,0 2a σ 100 95 Gewicht 90 in kg 85 80 75 70 65 60 55 50 45 n = 50 0,5 n = 100 n = 200 n = 1000 | | || || || | || | || ||| |6 ||| || | |||| |6 ||| |6 ||||| | || ||| | |6 ||| || ||| | |6 |||| || || | |6 ||| |6 ||| || | || || | |||| | | || | || | 150 155 160 165 170 175 180 185 190 195 Größe in cm 0,0 0,90 1,00 0,95 1- α Abb. 17.4 Abb. 18.1 Aufgrund einer solchen Strichliste könnte man die relativen Häufigkeiten für die einzelnen Wertepaare berechnen und wie in Abschnitt 11.1 den Graphen der zweidimensionalen Treppenfunktion F entwickeln. Für die weiteren Überlegungen wollen wir vorerst voraussetzen, dass die Paare (x, y) wie in unserem Beispiel Paare von Maßzahlen sind. Wenn wir ferner vereinfachend annehmen, dass 212 18 REGRESSION UND KORRELATION 213 18.1 Regressionsgeraden y keine zwei Wertepaare übereinstimmen11 , so lassen sich die gegebenen Daten auch wie in Abb. 18.2 als Punktwolke“ in einem kartesischen Koordinatensystem darstellen. ” y x Abb. 18.3 b versuchen, die Regressionslinie durch eine Regressionsgerade zu ersetzen, d.h. durch eine Gerade y = ax + b , x Abb. 18.2 Auch wenn wir wissen, dass es sich nicht um einen funktionalen Zusammenhang handeln kann, fragen wir nach einer Kurve bzw. nach einem Streckenzug, durch den die in der Punktwolke erkennbare Beziehung in einer Vereinfachung und Idealisierung dargestellt wird. Dafür gibt es ein äußerst einfaches Verfahren: Wir führen eine Klasseneinteilung für die Variable X ein (nicht aber für Y ). Für die in eine Klasse fallenden Punkte bilden wir das Mittel der y–Werte und tragen es über der Klassenmitte auf. Verbindet man die so erhaltenen Punkte, so entsteht eine Regressionslinie. Die Abbildungen 18.3 enthalten zwei Beispiele. die sich der Punktwolke möglichst gut anpasst. Dabei suchen wir zunächst nach einer näherungsweise linearen Abhängigkeit der Größe y von der Größe x, d.h. wir denken uns die x-Werte als fest vorgegeben, die y-Werte dagegen als fehlerbehaftet. Als Maß der Anpassung betrachten wir daher die Summe der Abweichungsquadrate der gegebenen Punkte von der gesuchten Geraden in y-Richtung. Diese soll möglichst klein werden. Die Abweichung in y-Richtung di eines Punktes (xi , yi ) von der Geraden g ist di = yi − axi − b (s. Abb. 18.4), und die Summe der Abstandsquadrate erhält man als y (xi ,yi ) yi y g di axi + b (xi ,axi + b) xi x Abb. 18.4 Abb. 18.3 a Wir wollen von Regression bezüglich X sprechen, da die Klassenbildung für X erfolgte. Man kann natürlich auch umgekehrt Klassenbildung bezüglich Y und Mittelwertbildung bezüglich X durchführen. Die dabei entstehende Regressionslinie bezüglich Y ist im allgemeinen von der bezüglich X verschieden. Von besonderem Interesse ist nun der Fall, in dem die Regressionslinie annähernd geradlinig verläuft wie z.B. in Abb. 18.3 b. Wir verschärfen für diesen Fall unsere Aufgabenstellung und 11 Diese Voraussetzung ist nur für die graphische Darstellung von Bedeutung, nicht aber für die folgende Herleitung der statistischen Maßzahl r. x D= n X i=1 (yi − axi − b)2 . D ist eine Funktion der beiden Koeffizienten a und b. Wir suchen die Gerade, für die D möglichst klein wird, d.h. das Minimum von D. Da an einer lokalen Minimalstelle die beiden und ∂D verschwinden müssen, erhält man die beiden Bedingungen partiellen Ableitungen ∂D ∂a ∂b n X ∂D = −2 (yi − axi − b)xi = 0 ∂a i=1 n und X ∂D = −2 (yi − axi − b) = 0 , ∂b i=1 214 18 REGRESSION UND KORRELATION 215 18.1 Regressionsgeraden wodurch die Koeffizienten a und b eindeutig bestimmt sind. Denn aus der zweiten Gleichung n n P P folgt zunächst yi − a xi = nb und hieraus durch Division durch n und für diese gelten die bisherigen Überlegungen und Rechnungen mit entsprechend geänderten Bezeichnungen ebenso. Es ist sXY a′ = 2 sY Die gesuchte Gerade muss also durch den Punkt (x, y) mit den beiden Mittelwerten als Koordinaten laufen. Um die Steigung a zu bestimmen setzen wir b in die erste Gleichung ein und erhalten ! n n n n n X X X X X 2 2 2 xi − nx − nx y, also xi = xi yi − a 0= xi yi − a xi − (y − ax) der Regressionskoeffizient bezüglich y, und es gilt hier die Beziehung y = a1′ x + b′ , woraus dann die Geradengleichung in der Gestalt y = a1′ x + b′ hervorgeht. Da beide Regressionsgeraden durch (x, y) gehen, gilt: i=1 i=1 y − ax = b . i=1 i=1 i=1 P xi yi − nx y = a= P 2 xi − nx2 1 n i=1 i=1 P xi yi − x y P 2 . 1 xi − x2 n Satz 18.1: Die Regressionsgeraden bezüglich x und y schneiden sich im Punkt (x, y). Im allgemeinen bilden die beiden Regressionsgeraden eine sogenannte Regressionsschere (s. Die angegebenen Werte von a und b sind die einzigen Kandidaten für eine Extremalstelle von D. Da aber D für betragsmäßig großes a bzw. b beliebig groß wird, muss hier das globale Minimum liegen. y g : y = ax + b g’ : y = a’x + b’ s2X In dem Ausdruck für a hat sich im Nenner gerade die empirische Varianz (vgl. Definition 14.5) von X ergeben. Der Zähler ist der entsprechende empirische Ausdruck für die Kovarianz zweier Zufallsgrößen X und Y (vgl. Definition 12.3); wir bezeichnen diesen Term mit sXY . y g g’ Definition 18.1: (Regressionskoeffizient einer Häufigkeitsverteilung Ist für die zweidimensionale Häufigkeitsverteilung der Variablen X und Y die empirische Varianz s2X 6= 0, so heißt die Zahl sXY a= 2 sX n mit sXY 1X = xi yi − x y n i=1 und 1X 2 s2X = xi − x2 n Regressionskoeffizient bezüglich X. sXY s2X x. Wir hätten auch umgekehrt nach einer Abhängigkeit der x–Werte von den y–Werten fragen können. Gerade bei empirisch gegebenen Wertepaaren wie Körpergrößen und Gewichten oder Längen und Zeiten ist die Frage nach einem linearen Zusammenhang in der einen Richtung ja ebenso sinnvoll wie in der anderen. Denken wir uns die Regressionsgerade bezüglich X durch (x, y) in der Form y − y = a(x − x) dargestellt, dann hat die Regressionsgerade bzgl. Y die Gestalt a′ (y − y) = (x − x) , x Abb. 18.5 Abb. 18.5). Lägen alle Punkte genau auf einer Geraden, so müssten die beiden Regressionsgeraden g und g ′ identisch sein. Die Steigungsfaktoren beider Geraden wären dann gleich, also a= Die Voraussetzung s2X 6= 0 ist praktisch immer erfüllt; denn hätte die Varianz den Wert 0, so müssten alle x–Werte gleich sein, d.h. X wäre konstant. Für das Absolutglied b unserer Geradengleichung ergibt sich b = y − x 1 a′ oder a · a′ = s2XY = 1. · s2Y s2X Je näher das Produkt der beiden Regressionskoeffizienten dem Wert 1 kommt, desto enger ist die Regressionsschere, desto enger also der lineare Zusammenhang zwischen X und Y . Als Maßzahl für diesen Zusammenhang verwendet man allerdings nicht unmittelbar das Produkt a · a′ , sondern dessen Quadratwurzel, versehen mit dem Vorzeichen der Kovarianz. Definition 18.2: (Korrelationskoeffizient einer Häufigkeitsverteilung) Sind die empirischen Varianzen sX und sY von 0 verschieden, so heisst die Zahl P 1 xi yi − x y sXY r= = q Pn P 2 sX · sY 1 yi − y 2 ) ( n x2i − x2 ) ( n1 Korrelationskoeffizient für die Häufigkeitsverteilung der Variablen X und Y . 216 18 REGRESSION UND KORRELATION 18.2 Diese Definition hat den Vorzug, dass r nicht nur wie das Produkt a · a′ die Güte“ des linearen ” Zusammenhangs erkennen lässt, sondern auch die Richtung“. Ein Regressionskoeffizient ist ja ” ein Steigungsfaktor, dessen Vorzeichen nur von sXY abhängt, da die Varianz im Nenner stets positiv ist. Das Vorzeichen von r gibt also an, ob die Regressionsgeraden steigen oder fallen. Aufgabe 18.1: Gegeben sei die zweidimensionale Häufigkeitsverteilung“ (1, 1), (3, 5), (6, 6). Bestimmen Sie ” die beiden Regressionsgeraden und den Korrelationkoeffizienten. Man kann sich anschaulich klarmachen, dass von den beiden Regressionsgeraden g stets etwas weniger gegen die x–Achse geneigt sein muss als g ′ . Das Produkt aa′ und somit auch r können deshalb dem Betrag nach nicht größer als 1 sein. 217 18.2 Rangkorrelation und Vierfelderkorrelation Rangkorrelation und Vierfelderkorrelation Bisher haben wir für X und Y Intervallskalen12 vorausgesetzt. Man spricht deshalb auch von Masskorrelation. Der hergeleitete Korrelationskoeffizient kann jedoch auch verwendet werden, wenn die Paare (x, y) nicht Maßzahlpaare sondern Paare von Rangplätzen sind. Es kann z.B. untersucht werden, wie sich die leistungsmäßige Rangordnung innerhalb einer Schülergruppe in einem bestimmten Zeitraum verschiebt. Für jeden Schüler wird dann am Anfang und am Ende des betreffenden Unterrichtsabschnitts der Rangplatz ermittelt, ohne dass damit eine absolute Leistungsbeurteilung“ verbunden sein muss. ” Für die beiden Rangreihen berechnet man dann den meist als rRang bezeichneten Rangkorrelationskoeffizienten, indem man in dem Ausdruck für r die Rangzahlen wie Maßzahlen verwendet. Man kommt dabei zu einer wesentlich einfacheren Formel, weil sowohl die xi als auch die yi genau die natürlichen Zahlen von 1 bis n durchlaufen müssen: Der formale Nachweis dieser Tatsache erfordert einen gewissen Rechenaufwand: Satz 18.3: Satz 18.2: Existiert der Korrelationskoeffizient r für eine zweidimensionale Häufigkeitsverteilung, so gilt −1 ≤ r ≤ 1 . Beweis: Wir drücken die Summe der Abstandquadrate D = rRang = 1 − P (yi − axi − b)2 durch r aus: X 2 (yi − y) − a(xi − x) (yi − axi − y + ax)2 = X X X = (yi − y)2 − 2a (xi − x) (yi − y) + a2 (xi − x)2 s2XY · s2X 2s2 + = n(s2Y − 2asXY + a2 s2X ) = n s2Y − XY s2X s4X s2 s2 = n s2Y − XY = n · s2Y 1 − 2XY2 = n · s2Y (1 − r2 ) . s2X sX sY D = X Durchlaufen sowohl die Werte xi als auch die Werte yi die n Rangplätze 1, . . . , n, dann lautet der Rangkorrelationskoeffizient der beiden Zufallsgrößen X und Y Beweis: Es gilt x=y= Wir betonen noch einmal, dass r die Güte eines linearen Zusammenhangs von X und Y misst und nicht eine Abhängigkeit schlechthin. Bemerkung 18.1: Definition 18.2 und Satz 18.2 sind gerade die Enrsprechungen zu Definition 12.4 und Satz 12.12. Dort wurde der Korrelationskoeffizient zweier Zufallsgrößen definiert und bewiesen, dass er betragsmäßig nicht größer als 1 ist. 1 (n + 1) , 2 x y = x2 = y 2 = und daher s2X = s2Y = sX sY = Weiterhin erhält man sXY Wegen D ≥ 0, n > 0 und s2Y > 0 muss 1 − r2 ≥ 0 gelten. 2 n X 6 (xi − yi )2 . (n − 1) n (n + 1) i=1 1 (n + 1)2 , 4 X x2i = X yi2 = n(n + 1)(2n + 1) . 6 (n + 1)(n − 1) (n + 1)(2n + 1) 1 1X 2 xi − x2 = − (n + 1)2 = . n 6 4 12 1X xi yi − x y = n −1 X = (xi − yi )2 + 2n = Hieraus folgt die Behauptung. 2 −1 X 1 X 2 1 X 2 (xi − yi )2 + xi + yi − x y 2n 2n 2n 1X 2 −1 X xi − x2 = (xi − yi )2 + sX sY . n 2n Bei der praktischen Aufstellung einer Rangreihe ist zu beachten, dass eventuell gleichen Rohwerten das arithmetische Mittel der betreffenden Rangplätze zugeordnet wird. Lauten z.B. 12 D.h. die Werte der Skala beziehen sich auf eine gegebene Maßeinheit (im Gegensatz dazu werden Leistungsnoten von einer Ordinalskala erfasst, d.h. die Leistungen stehen nur in einer Rangfolge). 218 18 REGRESSION UND KORRELATION die Punktzahlen in einem Test 20 18 18 16 . . . , so beginnt die zugehörige Rangreihe statt mit 1 2 3 4 . . . mit 1 2, 5 2, 5 4 . . . . Satz 18.3 ist dann allerdings nicht mehr direkt anwendbar. Neben der Rangkorrelation wollen wir noch einen weiteren Sonderfall erwähnen. Haben X und Y je eine Zweipunktverteilung, sind beides also Alternativmerkmale wie krank – nicht krank“ ” oder geimpft – nicht geimpft“, so hat die Häufigkeitstabelle nur vier Felder, in die wir die mit ” a, b, c, d bezeichneten absoluten Häufigkeiten eintragen. Den beiden möglichen Fälle für X und Y ordnen wir die Zahlen 0 und 1 zu: Y nicht erkrankt erkrankt X 0 1 nicht geimpft 0 a b geimpft 1 c d Es ist dann offenbar X X xi = x2i = (a + b) · 0 + (c + d) · 1 = c + d = nx , X X yi = yi2 = (a + c) · 0 + (b + d) · 1 = b + d = ny , X xi yi = a · 0 · 0 + b · 0 · 1 + c · 1 · 0 + d · 1 · 1 = d , wobei a+ b + c + d = n. Setzt man dies wiederum in Definition 18.2 ein und erweitert den Bruch mit n2 , so ergibt sich der Pearsonsche Vierfelder–Korrelationskoeffizient rφ : nd − (c + d) (b + d) n(b + d) − (b + d)2 n − (c + b + d) d − bc = q n − (c + d) (c + d) n − (b + d) (b + d) rφ = q n(c + d) − (c + d)2 ad − bc . = p (a + b) (c + d) (a + c) (b + d) 219 18.2 Rangkorrelation und Vierfelderkorrelation in eine Rangfolge gebracht – ein im Zusammenhang mit dem Problem der Leistungsmessung vielfach durchgeführter Versuch. Die Ergebnisse kann man den Abbildungen 18.6 entnehmen. Die Abbildung rechts zeigt eine häufig verwendete und für kleinere Werte von n sehr übersichtliche graphische Darstellung der Rangkorrelation. Rangreihe nach Lehrer X Lehrer Y Rangplatz nach Schüler a b c d e f g h Lehrer X 2 1 4 8 3 7 5 6 Lehrer Y 3 2 4 8 1 6 7 5 b e a e b a c c g h h f g f d Abb. 18.6 a d Abb. 18.6 b Man bestimme den Koeffizienten rRang . Aufgabe 18.3: Man bestimme die beiden Regressionsgeraden und den Maßkorrelationskoeffizienten r für die folgenden Wertepaare: x y 1 2 2 1 4 2 5 3 3 4 Aufgabe 18.4: An einer Aufnahmeprüfung für eine höhere Schule haben 60 Schüler aus Schule A und 40 Schüler aus Schule B teilgenommen. 40 Schüler haben nicht bestanden, darunter 10 von Schule B. Als Spezialfälle von r können auch die statistischen Maßzahlen rRang und rφ nur Werte von −1 bis +1 annehmen. In welcher Weise hängt der Prüfungserfolg davon ab, welche Schule besucht wurde? In Bezug auf die Frage nach dem Zusammenhang zweier Größen gibt es neben den hier herausgegriffenen noch zahlreiche andere Problemstellungen und entsprechend auch weitere statistische Maßzahlen, auf die wir hier nicht eingehen. Ihre Anwendbarkeit hängt vor allem davon ab, was für eine Skalierung für die Variablen X und Y jeweils vorliegt. Die Aussagekraft eines gefundenen Wertes in Bezug auf bloße Zufälligkeit muss dann mit Methoden der beurteilenden Statistik überprüft werden. Wie groß ist die Wahrscheinlichkeit, die Prüfung zu bestehen, wenn man Schule A bzw. Schule B besucht? Aufgabe 18.2: Acht Reifeprüfungs–Aufsätze wurden unabhängig voneinander von zwei Lehrern korrigiert und Man bestimme den Koeffizienten rφ . Aufgabe 18.5: Wie müssten in Aufgabe 18.4 die bestandenen und nicht bestandenen Prüfungen zahlenmäßig auf die beiden Schulen verteilt sein, wenn kein Zusammenhang zwischen Prüfungserfolg und besuchter Schule besteht, wenn also für jede Schule der gleiche Prozentsatz bestandener Prüfungen zu erwarten ist wie für die Gesamtheit der n = 100 Schüler? Wie groß ist in diesem Fall der Koeffizient rφ ? 220 A A ÜBERSICHTEN Übersichten A.1 221 A.2 Diskrete Verteilungen b) Kombinatorische Grundformeln Ziehen Aus einer Urne mit n verschiedenen Kugeln werden k Kugeln (mit oder ohne Zurücklegen) gezogen. Die Anzahl der möglichen Ergebnisse ist in der Tabelle angegeben. n verschiedene n-Tupel bilden, k bei denen das erste Element k-mal und das zweite Element (n − k)-mal verwendet wird. n! verschieii) Aus einer r-elementigen Menge kann man genau n1 ,n2n,...,nr = n1 ! · . . . · nr ! dene n-Tupel bilden, bei denen das j-te Element genau nj -mal verwendet wird. Hierbei muss gelten n1 + n2 + · · · + nr = n. i) Aus einer 2-elementigen Menge kann man genau Abbildungen mit Zurücklegen mit Berücksichtigung der Reihenfolge ohne Berücksichtigung der Reihenfolge nk n+k−1 k ohne Zurücklegen n! (n − k)! n k Verteilen k (verschiedene oder gleiche) Kugeln werden auf n unterscheidbare Urnen verteilt. Die Anzahl der möglichen Ergebnisse ist in der Tabelle angegeben. beliebig viele Kugeln pro Urne maximal eine Kugel pro Urne nk n! (n − k)! verschiedene Kugeln gleiche Kugeln n+k−1 k n k Anordnung und Teilmengen a) Es gibt genau nk verschiedene Abbildungen einer k-elementigen in eine n-elementige Menge. n! Abbildungen injektiv. Hiervon sind genau (n − k)! n b) i) Es gibt genau verschiedene Abbildungen einer n-elementigen Menge in die k 2-elementige Menge {a, b}, bei denen genau k Elemente auf a abgebildet werden. n! ii) Es gibt genau n1 ,n2n,...,nr = verschiedene Abbildungen einer n-elementigen n1 ! . . . nr ! Menge in die r-elementige Menge {a1 , . . . , ar }, bei denen genau nj Elemente auf aj abgebildet werden. Hierbei muss gelten n1 + n2 + · · · + nr = n. A.2 Diskrete Verteilungen Binomial-Verteilung • Wahrscheinlichkeitsverteilung: P (X = k) = bn;p (k) = n Objekte lassen sich auf genau n! verschiedene Arten anordnen. n verschiedene k-elementige Teilmengen. k • Varianz und Streuung: Tupelbildung • Maximalstelle: Eine n-elementige Menge hat genau a) Aus einer n-elementigen Menge kann man i) nk verschiedene k-Tupel mit Elementwiederholung und n! verschiedene k-Tupel ohne Elementwiederholung bilden. ii) (n − k)! • Erwartungswert: n k pk q n−k für k ∈ {0, . . . , n} E(X) = np V (X) = npq, σ= √ npq kmax ∈ [ (n + 1)p − 1 , (n + 1)p ] • Approximationen: bn; nµ (k) ≈ pµ (k) • Anwendung: bn;p (k) ≈ k−np √ 1 ϕ( √ ) npq npq für große n für große n (Normalverteilung) (Poissonverteilung) Anzahl der Erfolge bei der n-fachen unabhängigen Ausführung eines Bernoulli-Experiments mit Erfolgswahrscheinlichkeit p 222 A ÜBERSICHTEN A.3 Geometrische Verteilung • Wahrscheinlichkeitsverteilung: P (X = k) = q k−1 p für k ∈ N mit 0 < p ≤ 1, q = 1 − p • Erwartungswert: • Varianz: E(X) = V (X) = • Anwendung: 1 p • Erwartungswert: P (X = k) = pµ (k) = µk k! · e−µ für k ∈ N0 E(X) = µ • Wahrscheinlichkeitsverteilung: P (X = k) = h(k) = E(X) = n · • Approximation: • Anwendung: K k K N K N kmax ∈ · 1− h K N N −K n−k N n · (K+1)·(n+1) (N +2) h(k) ≈ bn; K (k) N für k ∈ {0, . . . , n} • Wahrscheinlichkeitsverteilung: V (X) = √ ≤β α< x−np npq E(X) = n2 −1 12 n+1 2 1 x−µ √ 1 e− 2 ( σ ) 2π σ • Verteilungsfunktion: F (x) = f (x) = σ1 ϕ • Dichte: f (x) = x−µ σ − 1, (K+1)·(n+1) (N +2) für N ≫n 1 n ; Rx e− 2 ( 1 t−µ 2 σ ) dt −∞ F (x) = Φ x−µ σ 0 für x < 0 für x ≥ 0 0 für x < 0 x F (x) = 1 − e− µ für x ≥ 0 • Erwartungswert und Varianz: N −n N −1 P (X = k) = √1 2π σ x 1 −µ e µ • Verteilungsfunktion: i • Anwendung: (Binomialverteilung) Gleichverteilung • Varianz: −∞ Exponentialverteilung Anzahl der markierten Objekte beim Ziehen ohne Zurücklegen von n aus N Objekten, von denen K markiert sind • Erwartungswert: f (x) = • Berechnung: Hypergeometrische Verteilung V (X) = n · 1 2 e− 2 τ dτ µ = 0; σ = 1 P bn,p (x) = Φ(β) − Φ(α) lim n→∞ Rz Allgemeine Normalverteilung • Dichte: kmax ∈ [ µ − 1 , µ ] • Erwartungswert: √1 2π Φ(z) = 2 V (X) = µ • Maximalstelle: 1 2 √1 e− 2 z 2π • Erwartungswert und Streuung: • Anwendung: Annäherung der Binomialverteilung für große n und kleine p • Varianz: ϕ(z) = • Grenzwerteigenschaft: • Wahrscheinlichkeitsverteilung: • Maximalstelle: Standardisierte Normalverteilung • Verteilungsfunktion: Anzahl der Versuche bis zum ersten Erfolg bei einem Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p Poisson-Verteilung • Varianz: Stetige Verteilungen • Dichte: q p2 223 A.3 Stetige Verteilungen für k ∈ {1, . . . , n} E(X) = µ; V (X) = µ2 Wartezeiten Gleichverteilung • Dichte: f (x) = • Verteilungsfunktion: 1 b−a 0 für a ≤ x ≤ b sonst x<a 0 für x−a für a ≤ x ≤b F (x) = b−a 1 für b < x • Erwartungswert und Varianz: E(X) = a+b ; 2 V (X) = (b−a)2 12 224 B B TABELLEN Tabellen Binomialverteilung B.1.1 p ≤ 0, 15 bzw. p ≥ 0, 85 4 5 6 7 8 k 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 p=0,01 0,97030 0,02940 0,00030 0,00000 0,96060 0,03881 0,00059 0,00000 n k k p (1 n 9 − p)n−k ; fehlende Werte sind < 5 · 10−6 0,95099 0,04803 0,00097 0,00001 0,00000 p=0,02 0,94119 0,05762 0,00118 0,00001 0,92237 0,07530 0,00230 0,00003 0,00000 0,90392 0,09224 0,00376 0,00008 0,00000 p=0,03 0,91267 0,08468 0,00262 0,00003 0,88529 0,10952 0,00508 0,00010 0,00000 0,85873 0,13279 0,00821 0,00025 0,00000 0,94148 0,05706 0,00144 0,00002 0,00000 0,88584 0,10847 0,00553 0,00015 0,00000 0,93207 0,06590 0,00200 0,00003 0,00000 0,92274 0,07457 0,00264 0,00005 0,00000 p=0,99 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k B.1 n 3 225 B.1 Binomialverteilung 0,83297 0,15457 0,01195 0,00049 0,00001 0,00000 p=0,04 0,88474 0,11059 0,00461 0,00006 0,84935 0,14156 0,00885 0,00025 0,00000 0,81537 0,16987 0,01416 0,00059 0,00001 0,00000 0,78276 0,19569 0,02038 0,00113 0,00004 0,00000 p=0,05 0,85737 0,13538 0,00713 0,00013 0,81451 0,17148 0,01354 0,00047 0,00001 0,77378 0,20363 0,02143 0,00113 0,00003 0,00000 0,73509 0,23213 0,03054 0,00214 0,00008 0,00000 0,86813 0,12402 0,00759 0,00026 0,00001 0,00000 0,80798 0,17492 0,01623 0,00084 0,00003 0,00000 0,75145 0,21917 0,02740 0,00190 0,00008 0,00000 0,69834 0,25728 0,04062 0,00356 0,00019 0,00001 0,00000 0,85076 0,13890 0,00992 0,00040 0,00001 0,00000 0,78374 0,19392 0,02099 0,00130 0,00005 0,00000 0,72139 0,24046 0,03507 0,00292 0,00015 0,00001 0,00000 0,66342 0,27933 0,05146 0,00542 0,00036 0,00002 0,00000 p=0,98 p=0,97 p=0,96 p=0,95 p=0,10 0,72900 0,24300 0,02700 0,00100 0,65610 0,29160 0,04860 0,00360 0,00010 0,59049 0,32805 0,07290 0,00810 0,00045 0,00001 0,53144 0,35429 0,09842 0,01458 0,00122 0,00005 0,00000 0,47830 0,37201 0,12400 0,02296 0,00255 0,00017 0,00001 0,00000 0,43047 0,38264 0,14880 0,03307 0,00459 0,00041 0,00002 0,00000 p=0,90 p=0,15 0,61412 0,32512 0,05738 0,00337 0,52201 0,36847 0,09754 0,01147 0,00051 0,44371 0,39150 0,13818 0,02438 0,00215 0,00008 0,37715 0,39933 0,17618 0,04145 0,00549 0,00039 0,00001 0,32058 0,39601 0,20965 0,06166 0,01088 0,00115 0,00007 0,00000 0,27249 0,38469 0,23760 0,08386 0,01850 0,00261 0,00023 0,00001 0,00000 p=0,85 3 2 1 0 4 3 2 1 0 5 4 3 2 1 0 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 8 7 6 5 4 3 2 1 0 k 10 15 20 k 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 12 p=0,01 0,91352 0,08305 0,00336 0,00008 0,00000 p=0,02 0,83375 0,15314 0,01250 0,00060 0,00002 0,00000 p=0,03 0,76023 0,21161 0,02618 0,00189 0,00009 0,00000 p=0,04 0,69253 0,25970 0,04328 0,00421 0,00026 0,00001 0,00000 p=0,05 0,63025 0,29854 0,06285 0,00772 0,00061 0,00003 0,00000 p=0,10 0,38742 0,38742 0,17219 0,04464 0,00744 0,00083 0,00006 0,00000 0,90438 0,09135 0,00415 0,00011 0,00000 0,81707 0,16675 0,01531 0,00083 0,00003 0,00000 0,73742 0,22807 0,03174 0,00262 0,00014 0,00001 0,00000 0,66483 0,27701 0,05194 0,00577 0,00042 0,00002 0,00000 0,59874 0,31512 0,07463 0,01048 0,00096 0,00006 0,00000 0,34868 0,38742 0,19371 0,05740 0,01116 0,00149 0,00014 0,00001 0,00000 0,86006 0,13031 0,00921 0,00040 0,00001 0,00000 0,73857 0,22609 0,03230 0,00286 0,00017 0,00001 0,00000 0,63325 0,29378 0,06360 0,00852 0,00079 0,00005 0,00000 0,54209 0,33880 0,09882 0,01784 0,00223 0,00020 0,00001 0,00000 0,46329 0,36576 0,13475 0,03073 0,00485 0,00056 0,00005 0,00000 0,20589 0,34315 0,26690 0,12851 0,04284 0,01047 0,00194 0,00028 0,00003 0,00000 0,81791 0,16523 0,01586 0,00096 0,00004 0,00000 0,66761 0,27249 0,05283 0,00647 0,00056 0,00004 0,00000 0,54379 0,33637 0,09883 0,01834 0,00241 0,00024 0,00002 0,00000 0,44200 0,36834 0,14580 0,03645 0,00645 0,00086 0,00009 0,00001 0,00000 0,35849 0,37735 0,18868 0,05958 0,01333 0,00224 0,00030 0,00003 0,00000 0,12158 0,27017 0,28518 0,19012 0,08978 0,03192 0,00887 0,00197 0,00036 0,00005 0,00001 0,00000 p=0,99 p=0,98 p=0,97 p=0,96 p=0,95 p=0,90 p=0,15 0,23162 0,36786 0,25967 0,10692 0,02830 0,00499 0,00059 0,00004 0,00000 0,19687 0,34743 0,27590 0,12983 0,04010 0,00849 0,00125 0,00013 0,00001 0,00000 0,08735 0,23123 0,28564 0,21843 0,11564 0,04490 0,01320 0,00300 0,00053 0,00007 0,00001 0,00000 0,03876 0,13680 0,22934 0,24283 0,18212 0,10285 0,04537 0,01601 0,00459 0,00108 0,00021 0,00003 0,00000 p=0,85 9 8 7 6 5 4 3 2 1 10 9 8 7 6 5 4 3 2 1 15 14 13 12 11 10 9 8 7 6 5 4 20 19 18 17 16 15 14 13 12 11 10 9 8 k 226 B TABELLEN n k n 50 100 k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 p=0,01 0,60501 0,30556 0,07562 0,01222 0,00145 0,00013 0,00001 0,00000 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 p=0,02 0,36417 0,37160 0,18580 0,06067 0,01455 0,00273 0,00042 0,00005 0,00001 0,00000 p=0,03 0,21807 0,33721 0,25552 0,12644 0,04595 0,01307 0,00303 0,00059 0,00010 0,00001 0,00000 p=0,04 0,12989 0,27060 0,27623 0,18416 0,09016 0,03456 0,01080 0,00283 0,00063 0,00012 0,00002 0,00000 p=0,05 0,07694 0,20249 0,26110 0,21987 0,13598 0,06584 0,02599 0,00860 0,00243 0,00060 0,00013 0,00002 0,00000 0,36603 0,36973 0,18486 0,06100 0,01494 0,00290 0,00046 0,00006 0,00001 0,00000 0,13262 0,27065 0,27341 0,18228 0,09021 0,03535 0,01142 0,00313 0,00074 0,00015 0,00003 0,00000 0,04755 0,14707 0,22515 0,22747 0,17061 0,10131 0,04961 0,02060 0,00741 0,00234 0,00066 0,00017 0,00004 0,00001 0,00000 0,01687 0,07029 0,14498 0,19733 0,19939 0,15951 0,10523 0,05888 0,02852 0,01215 0,00461 0,00157 0,00049 0,00014 0,00004 0,00001 0,00000 0,00592 0,03116 0,08118 0,13958 0,17814 0,18002 0,15001 0,10603 0,06487 0,03490 0,01672 0,00720 0,00281 0,00100 0,00033 0,00010 0,00003 0,00001 0,00000 p=0,99 p=0,98 p=0,97 p=0,96 p=0,95 p=0,10 0,00515 0,02863 0,07794 0,13857 0,18090 0,18492 0,15410 0,10763 0,06428 0,03333 0,01518 0,00613 0,00222 0,00072 0,00021 0,00006 0,00001 0,00000 0,00003 0,00030 0,00162 0,00589 0,01587 0,03387 0,05958 0,08890 0,11482 0,13042 0,13187 0,11988 0,09879 0,07430 0,05130 0,03268 0,01929 0,01059 0,00543 0,00260 0,00117 0,00050 p=0,90 227 B.1 Binomialverteilung k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k p=0,15 0,00030 0,00261 0,01128 0,03186 0,06606 0,10725 0,14195 0,15745 0,14935 0,12299 0,08899 0,05711 0,03275 0,01689 0,00788 0,00334 0,00129 0,00045 0,00015 0,00004 0,00001 0,00000 0,00000 0,00001 0,00008 0,00033 0,00113 0,00315 0,00746 0,01531 0,02762 0,04435 0,06404 0,08382 0,10012 0,10980 0,11109 0,10415 0,09081 0,07390 0,05628 0,04022 0,02704 p=0,85 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 100 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 k n 100 200 k 22 23 24 25 26 27 28 29 30 31 32 33 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 p=0,01 p=0,02 p=0,03 p=0,04 p=0,05 0,13398 0,27067 0,27203 0,18136 0,09022 0,03572 0,01173 0,00328 0,00080 0,00017 0,00003 0,00001 0,00000 0,01759 0,07179 0,14577 0,19635 0,19735 0,15788 0,10472 0,05923 0,02916 0,01270 0,00495 0,00174 0,00056 0,00017 0,00005 0,00001 0,00000 0,00226 0,01399 0,04304 0,08786 0,13383 0,16225 0,16309 0,13979 0,10430 0,06882 0,04065 0,02172 0,01058 0,00473 0,00195 0,00075 0,00027 0,00009 0,00003 0,00001 0,00000 0,00028 0,00237 0,00983 0,02704 0,05549 0,09063 0,12273 0,14172 0,14246 0,12663 0,10078 0,07253 0,04760 0,02868 0,01596 0,00825 0,00397 0,00179 0,00076 0,00030 0,00011 0,00004 0,00001 0,00000 0,00004 0,00037 0,00193 0,00671 0,01740 0,03590 0,06140 0,08956 0,11372 0,12769 0,12836 0,11669 0,09673 0,07362 0,05176 0,03378 0,02056 0,01171 0,00627 0,00316 0,00150 0,00068 0,00029 0,00012 0,00005 0,00002 0,00001 0,00000 p=0,99 p=0,98 p=0,97 p=0,96 p=0,95 p=0,10 0,00020 0,00007 0,00003 0,00001 0,00000 0,00000 0,00001 0,00003 0,00011 0,00034 0,00090 0,00214 0,00454 0,00872 0,01526 0,02452 0,03638 0,05013 0,06440 0,07745 0,08749 0,09312 0,09364 0,08918 0,08062 0,06933 0,05681 0,04444 0,03323 0,02380 0,01634 0,01077 0,00682 0,00415 p=0,90 p=0,15 0,01714 0,01026 0,00581 0,00311 0,00159 0,00077 0,00035 0,00015 0,00006 0,00003 0,00001 0,00000 0,00000 0,00001 0,00002 0,00004 0,00011 0,00026 0,00056 0,00115 0,00219 0,00392 0,00663 0,01059 0,01602 0,02301 0,03142 0,04089 0,05080 0,06034 0,06863 0,07483 0,07832 0,07878 0,07624 p=0,85 78 77 76 75 74 73 72 71 70 69 68 67 200 199 198 197 196 195 194 193 192 191 190 189 188 187 186 185 184 183 182 181 180 179 178 177 176 175 174 173 172 171 170 169 k 228 B TABELLEN n k n 200 k 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 p=0,01 p=0,99 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 p=0,02 p=0,98 p=0,03 p=0,97 p=0,04 p=0,96 p=0,05 p=0,95 p=0,10 0,00244 0,00138 0,00075 0,00040 0,00020 0,00010 0,00005 0,00002 0,00001 0,00000 p=0,90 p=0,15 0,07105 0,06383 0,05533 0,04631 0,03746 0,02930 0,02218 0,01626 0,01155 0,00795 0,00531 0,00344 0,00217 0,00133 0,00079 0,00046 0,00026 0,00014 0,00007 0,00004 0,00002 0,00001 0,00000 p=0,85 168 167 166 165 164 163 162 161 160 159 158 157 156 155 154 153 152 151 150 149 148 147 146 k n 6 7 8 0, 2 ≤ p ≤ 0, 8 n 3 4 5 k 0 1 2 3 0 1 2 3 4 0 1 2 3 4 5 p=0,20 0,51200 0,38400 0,09600 0,00800 0,40960 0,40960 0,15360 0,02560 0,00160 0,32768 0,40960 0,20480 0,05120 0,00640 0,00032 p=0,80 p=0,25 0,42188 0,42188 0,14063 0,01563 0,31641 0,42188 0,21094 0,04688 0,00391 0,23730 0,39551 0,26367 0,08789 0,01465 0,00098 p=0,75 p=0,30 0,34300 0,44100 0,18900 0,02700 0,24010 0,41160 0,26460 0,07560 0,00810 0,16807 0,36015 0,30870 0,13230 0,02835 0,00243 p=0,70 p=0,35 0,27463 0,44362 0,23887 0,04287 0,17851 0,38447 0,31054 0,11147 0,01501 0,11603 0,31239 0,33642 0,18115 0,04877 0,00525 p=0,65 p=0,40 0,21600 0,43200 0,28800 0,06400 0,12960 0,34560 0,34560 0,15360 0,02560 0,07776 0,25920 0,34560 0,23040 0,07680 0,01024 p=0,60 p=0,45 0,16638 0,40838 0,33413 0,09113 0,09151 0,29948 0,36754 0,20048 0,04101 0,05033 0,20589 0,33691 0,27565 0,11277 0,01845 p=0,55 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k 9 B.1.2 229 B.1 Binomialverteilung p=0,50 0,12500 0,37500 0,37500 0,12500 0,06250 0,25000 0,37500 0,25000 0,06250 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125 p=0,50 3 2 1 0 4 3 2 1 0 5 4 3 2 1 0 k 10 k 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 p=0,20 0,26214 0,39322 0,24576 0,08192 0,01536 0,00154 0,00006 0,20972 0,36700 0,27525 0,11469 0,02867 0,00430 0,00036 0,00001 0,16777 0,33554 0,29360 0,14680 0,04588 0,00918 0,00115 0,00008 0,00000 0,13422 0,30199 0,30199 0,17616 0,06606 0,01652 0,00275 0,00029 0,00002 0,00000 0,10737 0,26844 0,30199 0,20133 0,08808 0,02642 0,00551 0,00079 0,00007 0,00000 p=0,80 p=0,25 0,17798 0,35596 0,29663 0,13184 0,03296 0,00439 0,00024 0,13348 0,31146 0,31146 0,17303 0,05768 0,01154 0,00128 0,00006 0,10011 0,26697 0,31146 0,20764 0,08652 0,02307 0,00385 0,00037 0,00002 0,07508 0,22525 0,30034 0,23360 0,11680 0,03893 0,00865 0,00124 0,00010 0,00000 0,05631 0,18771 0,28157 0,25028 0,14600 0,05840 0,01622 0,00309 0,00039 0,00003 0,00000 p=0,75 p=0,30 0,11765 0,30253 0,32413 0,18522 0,05953 0,01021 0,00073 0,08235 0,24706 0,31765 0,22689 0,09724 0,02500 0,00357 0,00022 0,05765 0,19765 0,29648 0,25412 0,13614 0,04668 0,01000 0,00122 0,00007 0,04035 0,15565 0,26683 0,26683 0,17153 0,07351 0,02100 0,00386 0,00041 0,00002 0,02825 0,12106 0,23347 0,26683 0,20012 0,10292 0,03676 0,00900 0,00145 0,00014 0,00001 p=0,70 p=0,35 0,07542 0,24366 0,32801 0,23549 0,09510 0,02048 0,00184 0,04902 0,18478 0,29848 0,26787 0,14424 0,04660 0,00836 0,00064 0,03186 0,13726 0,25869 0,27859 0,18751 0,08077 0,02175 0,00335 0,00023 0,02071 0,10037 0,21619 0,27162 0,21939 0,11813 0,04241 0,00979 0,00132 0,00008 0,01346 0,07249 0,17565 0,25222 0,23767 0,15357 0,06891 0,02120 0,00428 0,00051 0,00003 p=0,65 p=0,40 0,04666 0,18662 0,31104 0,27648 0,13824 0,03686 0,00410 0,02799 0,13064 0,26127 0,29030 0,19354 0,07741 0,01720 0,00164 0,01680 0,08958 0,20902 0,27869 0,23224 0,12386 0,04129 0,00786 0,00066 0,01008 0,06047 0,16124 0,25082 0,25082 0,16722 0,07432 0,02123 0,00354 0,00026 0,00605 0,04031 0,12093 0,21499 0,25082 0,20066 0,11148 0,04247 0,01062 0,00157 0,00010 p=0,60 p=0,45 0,02768 0,13589 0,27795 0,30322 0,18607 0,06089 0,00830 0,01522 0,08719 0,21402 0,29185 0,23878 0,11722 0,03197 0,00374 0,00837 0,05481 0,15695 0,25683 0,26266 0,17192 0,07033 0,01644 0,00168 0,00461 0,03391 0,11099 0,21188 0,26004 0,21276 0,11605 0,04069 0,00832 0,00076 0,00253 0,02072 0,07630 0,16648 0,23837 0,23403 0,15957 0,07460 0,02289 0,00416 0,00034 p=0,55 p=0,50 0,01563 0,09375 0,23438 0,31250 0,23438 0,09375 0,01563 0,00781 0,05469 0,16406 0,27344 0,27344 0,16406 0,05469 0,00781 0,00391 0,03125 0,10938 0,21875 0,27344 0,21875 0,10938 0,03125 0,00391 0,00195 0,01758 0,07031 0,16406 0,24609 0,24609 0,16406 0,07031 0,01758 0,00195 0,00098 0,00977 0,04395 0,11719 0,20508 0,24609 0,20508 0,11719 0,04395 0,00977 0,00098 p=0,50 6 5 4 3 2 1 0 7 6 5 4 3 2 1 0 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 10 9 8 7 6 5 4 3 2 1 0 k 230 B TABELLEN n k n 15 20 k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 p=0,20 0,03518 0,13194 0,23090 0,25014 0,18760 0,10318 0,04299 0,01382 0,00345 0,00067 0,00010 0,00001 0,00000 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 p=0,25 0,01336 0,06682 0,15591 0,22520 0,22520 0,16515 0,09175 0,03932 0,01311 0,00340 0,00068 0,00010 0,00001 0,00000 p=0,30 0,00475 0,03052 0,09156 0,17004 0,21862 0,20613 0,14724 0,08113 0,03477 0,01159 0,00298 0,00058 0,00008 0,00001 0,00000 p=0,35 0,00156 0,01262 0,04756 0,11096 0,17925 0,21234 0,19056 0,13193 0,07104 0,02975 0,00961 0,00235 0,00042 0,00005 0,00000 0,00018 0,00195 0,00998 0,03226 0,07382 0,12720 0,17123 0,18440 0,16135 0,11584 0,06861 0,03359 0,01356 0,00449 0,00121 0,00026 0,00004 0,00001 0,00000 p=0,40 0,00047 0,00470 0,02194 0,06339 0,12678 0,18594 0,20660 0,17708 0,11806 0,06121 0,02449 0,00742 0,00165 0,00025 0,00002 0,00000 0,00004 0,00049 0,00309 0,01235 0,03499 0,07465 0,12441 0,16588 0,17971 0,15974 0,11714 0,07099 0,03550 0,01456 0,00485 0,00129 0,00027 0,00004 0,00000 p=0,45 0,00013 0,00156 0,00896 0,03177 0,07798 0,14036 0,19140 0,20134 0,16474 0,10483 0,05146 0,01914 0,00522 0,00099 0,00012 0,00001 0,00001 0,00010 0,00082 0,00401 0,01393 0,03647 0,07460 0,12207 0,16230 0,17705 0,15935 0,11852 0,07273 0,03662 0,01498 0,00490 0,00125 0,00024 0,00003 0,00000 0,01153 0,05765 0,13691 0,20536 0,21820 0,17456 0,10910 0,05455 0,02216 0,00739 0,00203 0,00046 0,00009 0,00001 0,00000 0,00317 0,02114 0,06695 0,13390 0,18969 0,20233 0,16861 0,11241 0,06089 0,02706 0,00992 0,00301 0,00075 0,00015 0,00003 0,00000 0,00080 0,00684 0,02785 0,07160 0,13042 0,17886 0,19164 0,16426 0,11440 0,06537 0,03082 0,01201 0,00386 0,00102 0,00022 0,00004 0,00001 0,00000 p=0,80 p=0,75 p=0,70 p=0,65 p=0,60 p=0,55 231 B.1 Binomialverteilung k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k p=0,50 0,00003 0,00046 0,00320 0,01389 0,04166 0,09164 0,15274 0,19638 0,19638 0,15274 0,09164 0,04166 0,01389 0,00320 0,00046 0,00003 0,00000 0,00002 0,00018 0,00109 0,00462 0,01479 0,03696 0,07393 0,12013 0,16018 0,17620 0,16018 0,12013 0,07393 0,03696 0,01479 0,00462 0,00109 0,00018 0,00002 0,00000 p=0,50 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0 k n 50 k 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 p=0,20 0,00001 0,00018 0,00109 0,00437 0,01284 0,02953 0,05537 0,08701 0,11692 0,13641 0,13982 0,12711 0,10328 0,07547 0,04986 0,02992 0,01636 0,00818 0,00375 0,00158 0,00061 0,00022 0,00007 0,00002 0,00001 0,00000 p=0,80 p=0,25 0,00000 0,00001 0,00008 0,00041 0,00161 0,00494 0,01234 0,02586 0,04634 0,07209 0,09852 0,11942 0,12937 0,12605 0,11104 0,08884 0,06478 0,04318 0,02639 0,01482 0,00765 0,00365 0,00160 0,00065 0,00024 0,00008 0,00003 0,00001 0,00000 p=0,75 p=0,30 0,00000 0,00003 0,00014 0,00055 0,00177 0,00477 0,01099 0,02198 0,03862 0,06019 0,08383 0,10502 0,11895 0,12235 0,11470 0,09831 0,07725 0,05576 0,03704 0,02268 0,01281 0,00668 0,00322 0,00144 0,00059 0,00023 0,00008 0,00003 0,00001 0,00000 p=0,70 p=0,35 0,00000 0,00001 0,00004 0,00017 0,00058 0,00168 0,00422 0,00931 0,01823 0,03190 0,05020 0,07144 0,09233 0,10875 0,11712 0,11562 0,10485 0,08751 0,06731 0,04778 0,03132 0,01897 0,01062 0,00550 0,00263 0,00116 0,00048 0,00018 0,00006 0,00002 0,00001 0,00000 p=0,65 p=0,40 0,00000 0,00001 0,00005 0,00017 0,00053 0,00144 0,00349 0,00756 0,01474 0,02597 0,04155 0,06059 0,08079 0,09874 0,11086 0,11456 0,10910 0,09588 0,07781 0,05836 0,04046 0,02594 0,01537 0,00842 0,00426 0,00199 0,00085 0,00034 0,00012 0,00004 0,00001 0,00000 p=0,60 p=0,45 0,00000 0,00001 0,00004 0,00014 0,00043 0,00114 0,00272 0,00589 0,01157 0,02070 0,03388 0,05082 0,07002 0,08880 0,10379 0,11194 0,11150 0,10263 0,08733 0,06870 0,04997 0,03358 0,02084 0,01194 0,00630 0,00306 0,00137 0,00056 0,00021 0,00007 0,00002 0,00001 0,00000 p=0,55 p=0,50 0,00000 0,00001 0,00003 0,00011 0,00032 0,00083 0,00200 0,00437 0,00875 0,01603 0,02701 0,04186 0,05980 0,07883 0,09596 0,10796 0,11228 0,10796 0,09596 0,07883 0,05980 0,04186 0,02701 0,01603 0,00875 0,00437 0,00200 0,00083 0,00032 0,00011 0,00003 0,00001 0,00000 p=0,50 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 k 232 B TABELLEN n k n 100 k 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 p=0,20 0,00000 0,00001 0,00006 0,00020 0,00058 0,00148 0,00336 0,00688 0,01275 0,02158 0,03353 0,04806 0,06383 0,07885 0,09090 0,09807 0,09930 0,09457 0,08490 0,07198 0,05773 0,04388 0,03164 0,02168 0,01413 0,00877 0,00519 0,00293 0,00158 0,00081 0,00040 0,00019 0,00009 0,00004 0,00002 0,00001 0,00000 p=0,80 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 p=0,25 0,00000 0,00001 0,00003 0,00009 0,00026 0,00063 0,00143 0,00296 0,00566 0,01003 0,01652 0,02539 0,03652 0,04930 0,06260 0,07494 0,08471 0,09059 0,09180 0,08827 0,08064 0,07008 0,05800 0,04575 0,03444 0,02475 0,01700 0,01117 0,00702 0,00422 0,00244 0,00135 0,00071 0,00036 0,00018 0,00008 0,00004 0,00002 0,00001 0,00000 p=0,75 p=0,30 0,00000 0,00001 0,00004 0,00010 0,00025 0,00056 0,00119 0,00236 0,00436 0,00758 0,01237 0,01903 0,02767 0,03804 0,04956 0,06127 0,07197 0,08041 0,08556 0,08678 0,08398 0,07761 0,06854 0,05788 0,04678 0,03620 0,02683 0,01907 0,01299 0,00849 0,00532 0,00321 0,00185 0,00103 0,00055 0,00028 0,00014 0,00007 0,00003 p=0,70 p=0,35 0,00000 0,00001 0,00003 0,00009 0,00020 0,00044 0,00090 0,00175 0,00319 0,00551 0,00901 0,01400 0,02066 0,02901 0,03878 0,04942 0,06009 0,06977 0,07741 0,08214 0,08340 0,08109 0,07552 0,06742 0,05771 0,04739 0,03734 0,02825 0,02052 0,01431 0,00959 0,00617 0,00382 0,00227 0,00130 p=0,65 p=0,40 0,00000 0,00001 0,00003 0,00006 0,00014 0,00031 0,00063 0,00121 0,00220 0,00383 0,00634 0,01001 0,01507 0,02166 0,02975 0,03908 0,04913 0,05914 0,06820 0,07538 0,07989 0,08122 0,07924 0,07421 0,06673 0,05763 0,04781 0,03811 0,02919 0,02149 0,01520 p=0,60 p=0,45 0,00000 0,00001 0,00002 0,00004 0,00009 0,00020 0,00040 0,00078 0,00143 0,00253 0,00426 0,00687 0,01060 0,01566 0,02217 0,03007 0,03911 0,04880 0,05843 0,06716 0,07412 0,07856 0,07999 0,07825 0,07356 0,06645 0,05770 p=0,55 233 B.1 Binomialverteilung k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k p=0,50 0,00000 0,00001 0,00002 0,00005 0,00011 0,00023 0,00046 0,00086 0,00156 0,00270 0,00447 0,00711 0,01084 0,01587 0,02229 0,03007 0,03895 0,04847 0,05796 0,06659 0,07353 0,07803 p=0,50 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58 57 56 55 54 53 52 51 k n 100 200 k 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 p=0,20 0,00000 0,00001 0,00003 0,00006 0,00013 0,00027 0,00051 0,00095 0,00167 0,00280 0,00452 0,00698 0,01035 0,01474 0,02021 0,02669 0,03397 0,04171 0,04946 0,05667 0,06280 0,06734 0,06993 p=0,80 p=0,25 0,00000 0,00001 0,00001 0,00003 0,00005 0,00011 0,00020 0,00037 0,00066 0,00112 0,00183 0,00289 0,00442 0,00653 0,00934 0,01293 p=0,75 p=0,30 0,00001 0,00001 0,00000 0,00000 0,00001 0,00002 0,00004 0,00007 0,00013 0,00024 p=0,70 p=0,35 0,00071 0,00038 0,00019 0,00009 0,00004 0,00002 0,00001 0,00000 p=0,40 0,01034 0,00676 0,00424 0,00256 0,00149 0,00083 0,00044 0,00023 0,00011 0,00005 0,00002 0,00001 0,00000 p=0,45 0,04815 0,03862 0,02978 0,02207 0,01571 0,01075 0,00707 0,00447 0,00271 0,00158 0,00088 0,00047 0,00024 0,00012 0,00006 0,00003 0,00001 0,00000 p=0,50 0,07959 0,07803 0,07353 0,06659 0,05796 0,04847 0,03895 0,03007 0,02229 0,01587 0,01084 0,00711 0,00447 0,00270 0,00156 0,00086 0,00046 0,00023 0,00011 0,00005 0,00002 0,00001 0,00000 p=0,65 p=0,60 p=0,55 p=0,50 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 183 182 181 180 179 178 177 176 175 174 173 172 171 170 169 168 167 166 165 164 163 162 161 k 234 B TABELLEN n k n 200 k 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 p=0,20 0,07037 0,06865 0,06498 0,05969 0,05324 0,04614 0,03887 0,03184 0,02537 0,01968 0,01486 0,01092 0,00783 0,00546 0,00372 0,00247 0,00160 0,00101 0,00062 0,00037 0,00022 0,00013 0,00007 0,00004 0,00002 0,00001 0,00001 0,00000 p=0,80 k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 p=0,25 0,01735 0,02256 0,02847 0,03487 0,04148 0,04793 0,05384 0,05880 0,06247 0,06460 0,06503 0,06375 0,06089 0,05668 0,05143 0,04551 0,03928 0,03308 0,02718 0,02181 0,01708 0,01307 0,00977 0,00713 0,00509 0,00355 0,00242 0,00161 0,00105 0,00067 0,00042 0,00026 0,00015 0,00009 0,00005 0,00003 0,00002 0,00001 0,00000 p=0,75 p=0,30 0,00041 0,00068 0,00111 0,00175 0,00268 0,00398 0,00574 0,00806 0,01102 0,01464 0,01895 0,02389 0,02934 0,03511 0,04096 0,04660 0,05171 0,05599 0,05916 0,06103 0,06146 0,06045 0,05809 0,05453 0,05003 0,04486 0,03932 0,03371 0,02825 0,02316 0,01858 0,01458 0,01119 0,00841 0,00619 0,00446 0,00314 0,00217 0,00146 0,00097 0,00063 0,00040 0,00025 0,00015 0,00009 0,00005 p=0,70 p=0,35 0,00000 0,00001 0,00001 0,00002 0,00004 0,00008 0,00013 0,00023 0,00039 0,00063 0,00099 0,00153 0,00230 0,00338 0,00483 0,00673 0,00916 0,01215 0,01575 0,01993 0,02463 0,02974 0,03507 0,04043 0,04555 0,05016 0,05402 0,05690 0,05861 0,05906 0,05823 0,05617 0,05304 0,04901 0,04434 0,03927 0,03405 0,02891 0,02404 0,01958 0,01562 0,01221 0,00934 0,00701 0,00515 p=0,65 p=0,40 0,00000 0,00001 0,00001 0,00002 0,00004 0,00007 0,00012 0,00020 0,00033 0,00052 0,00082 0,00125 0,00187 0,00273 0,00390 0,00543 0,00741 0,00988 0,01288 0,01643 0,02050 0,02502 0,02988 0,03493 0,03997 0,04476 0,04908 0,05269 0,05540 0,05703 0,05751 0,05680 0,05495 0,05208 0,04836 0,04400 p=0,60 p=0,45 0,00000 0,00001 0,00002 0,00003 0,00005 0,00009 0,00015 0,00025 0,00040 0,00062 0,00095 0,00143 0,00210 0,00301 0,00422 0,00580 0,00781 0,01029 0,01328 0,01678 0,02076 0,02517 0,02988 0,03476 0,03961 0,04423 p=0,55 235 B.1 Binomialverteilung k p (1 − p)n−k ; fehlende Werte sind < 5 · 10−6 n k p=0,50 0,00000 0,00001 0,00001 0,00002 0,00004 0,00006 0,00011 0,00017 0,00028 0,00044 0,00068 0,00103 0,00152 0,00220 0,00313 0,00436 0,00596 p=0,50 160 159 158 157 156 155 154 153 152 151 150 149 148 147 146 145 144 143 142 141 140 139 138 137 136 135 134 133 132 131 130 129 128 127 126 125 124 123 122 121 120 119 118 117 116 115 k n 200 k 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 p=0,20 p=0,80 p=0,25 p=0,75 p=0,30 0,00003 0,00002 0,00001 0,00001 0,00000 p=0,35 0,00371 0,00262 0,00181 0,00123 0,00081 0,00053 0,00034 0,00021 0,00013 0,00008 0,00005 0,00003 0,00001 0,00001 0,00000 p=0,40 0,03922 0,03426 0,02933 0,02461 0,02023 0,01631 0,01288 0,00997 0,00757 0,00563 0,00410 0,00293 0,00206 0,00141 0,00095 0,00063 0,00041 0,00026 0,00016 0,00010 0,00006 0,00003 0,00002 0,00001 0,00001 0,00000 p=0,45 0,04839 0,05188 0,05451 0,05612 0,05663 0,05601 0,05429 0,05159 0,04804 0,04386 0,03925 0,03443 0,02961 0,02496 0,02063 0,01671 0,01327 0,01033 0,00788 0,00590 0,00432 0,00311 0,00219 0,00151 0,00102 0,00068 0,00044 0,00028 0,00018 0,00011 0,00006 0,00004 0,00002 0,00001 0,00001 0,00000 p=0,70 p=0,65 p=0,60 p=0,55 p=0,50 0,00796 0,01044 0,01340 0,01686 0,02080 0,02514 0,02979 0,03459 0,03938 0,04393 0,04805 0,05152 0,05415 0,05579 0,05635 0,05579 0,05415 0,05152 0,04805 0,04393 0,03938 0,03459 0,02979 0,02514 0,02080 0,01686 0,01340 0,01044 0,00796 0,00596 0,00436 0,00313 0,00220 0,00152 0,00103 0,00068 0,00044 0,00028 0,00017 0,00011 0,00006 0,00004 0,00002 0,00001 0,00001 0,00000 p=0,50 114 113 112 111 110 109 108 107 106 105 104 103 102 101 100 99 98 97 96 95 94 93 92 91 90 89 88 87 86 85 84 83 82 81 80 79 78 77 76 75 74 73 72 71 70 69 k 236 B.2 B TABELLEN Normalverteilung Verteilungsfunktion Φ der standardisierten Normalverteilung. Φ(−z) = 1 − Φ(z) ϕ Φ(z) ϕ(z) z z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,11 0,12 0,13 0,14 0,15 0,16 0,17 0,18 0,19 0,20 0,21 0,22 0,23 0,24 0,25 0,26 0,27 0,28 0,29 0,30 0,31 0,32 Φ(z) 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56749 0,57142 0,57535 0,57926 0,58317 0,58706 0,59095 0,59483 0,59871 0,60257 0,60642 0,61026 0,61409 0,61791 0,62172 0,62552 z 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 0,42 0,43 0,44 0,45 0,46 0,47 0,48 0,49 0,50 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60 0,61 0,62 0,63 0,64 0,65 Φ(z) 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173 0,65542 0,65910 0,66276 0,66640 0,67003 0,67364 0,67724 0,68082 0,68439 0,68793 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72240 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 z 0,66 0,67 0,68 0,69 0,70 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,80 0,81 0,82 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,90 0,91 0,92 0,93 0,94 0,95 0,96 0,97 0,98 Φ(z) 0,74537 0,74857 0,75175 0,75490 0,75804 0,76115 0,76424 0,76730 0,77035 0,77337 0,77637 0,77935 0,78230 0,78524 0,78814 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 z 0,99 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 Φ(z) 0,83891 0,84134 0,84375 0,84614 0,84849 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90147 0,90320 0,90490 z 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 1,61 1,62 1,63 1,64 Φ(z) 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 0,94520 0,94630 0,94738 0,94845 0,94950 237 B.2 Normalverteilung z 1,65 1,66 1,67 1,68 1,69 1,70 1,71 1,72 1,73 1,74 1,75 1,76 1,77 1,78 1,79 1,80 1,81 1,82 1,83 1,84 1,85 1,86 1,87 1,88 1,89 1,90 1,91 1,92 1,93 1,94 1,95 1,96 1,97 1,98 1,99 2,00 2,01 2,02 2,03 2,04 2,05 2,06 2,07 2,08 2,09 2,10 2,11 Φ(z) 0,95053 0,95154 0,95254 0,95352 0,95449 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 0,98214 0,98257 z 2,12 2,13 2,14 2,15 2,16 2,17 2,18 2,19 2,20 2,21 2,22 2,23 2,24 2,25 2,26 2,27 2,28 2,29 2,30 2,31 2,32 2,33 2,34 2,35 2,36 2,37 2,38 2,39 2,40 2,41 2,42 2,43 2,44 2,45 2,46 2,47 2,48 2,49 2,50 2,51 2,52 2,53 2,54 2,55 2,56 2,57 2,58 Φ(z) 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 z 2,59 2,60 2,61 2,62 2,63 2,64 2,65 2,66 2,67 2,68 2,69 2,70 2,71 2,72 2,73 2,74 2,75 2,76 2,77 2,78 2,79 2,80 2,81 2,82 2,83 2,84 2,85 2,86 2,87 2,88 2,89 2,90 2,91 2,92 2,93 2,94 2,95 2,96 2,97 2,98 2,99 3,00 3,01 3,02 3,03 3,04 3,05 Φ(z) 0,99520 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 z 3,06 3,07 3,08 3,09 3,10 3,11 3,12 3,13 3,14 3,15 3,16 3,17 3,18 3,19 3,20 3,21 3,22 3,23 3,24 3,25 3,26 3,27 3,28 3,29 3,30 3,31 3,32 3,33 3,34 3,35 3,36 3,37 3,38 3,39 3,40 3,41 3,42 3,43 3,44 3,45 3,46 3,47 3,48 3,49 3,50 3,51 3,52 Φ(z) 0,99889 0,99893 0,99896 0,99900 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 0,99977 0,99978 0,99978 z 3,53 3,54 3,55 3,56 3,57 3,58 3,59 3,60 3,61 3,62 3,63 3,64 3,65 3,66 3,67 3,68 3,69 3,70 3,71 3,72 3,73 3,74 3,75 3,76 3,77 3,78 3,79 3,80 3,81 3,82 3,83 3,84 3,85 3,86 3,87 3,88 3,89 3,90 3,91 3,92 3,93 3,94 3,95 3,96 3,97 3,98 3,99 Φ(z) 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997 239 INDEX Index A Abbildungen 17, 221 -, bijektive 20 -, injektive 18 - mit vorgegebenen Urbildmengen 21, 24 abhängige Zufallsgrößen 137 absolute Häufigkeit 33, 169 absorbierende Markowkette 154 - absorbierender Zustand 154 Additionssatz - für Wahrscheinlichkeiten 43 - für Mittelwerte 141 - für Varianzen unabhängiger Zufallsgrößen 144 α-Fehler 176 allgemeine Normalverteilung 112, 223 Anfangsverteilung 151 Anlaufvektor 151 Anordnung 220 a posteriori Wahrscheinlichkeit 57 Approximation - der Binomialverteilung durch die Normalverteilung 121, 221, 223 - der Binomialverteilung durch die Poissonverteilung 91, 221 - der hypergeometrischen Verteilung durch die Binomialverteilung 91, 222 a priori Wahrscheinlichkeit 57 asymmetrische Irrfahrt 165 Aussagekraft einer Schätzung 201, 209 Axiomensystem für eine Ereignisalgebra 36 Axiomensystem von Kolmogoroff 36 B Baumdiagramm 13, 52, 55 Bayes, Thomas (1702-1761) -, Satz von 56 bedingte Wahrscheinlichkeit 50 Bernoulli, Daniel (1700-1782) 79 Bernoulli, Jakob (1654-1705) 11, 32, 80 Bernoulli-Eulersches Problem der vertauschten Briefe 47 Bernoullisches Gesetz der großen Zahlen 85 Bernoullisches Versuchsschema 65 Bernoulliverteilung 80 Bernstein, Sergei (1880-1968) 35 Bertrand, Joseph (1822-1900) -, Paradoxon von 40 β-Fehler 176 Binomialfunktion 80 Binomialkoeffizienten 8, 21, 23, 88 Binomialverteilung 66, 80, 221 -, Approximation durch die Poissonverteilung 91, 221, -, Normalapproximation 97, 121 221, 223 -, Tabelle 224 Boltzmann, Ludwig (1844-1906) 32, 30 Bose-Einstein-Aufteilung 31 Bridge 26 Buffon, George Louis Comte de (1707-1788) 86 -, Nadelproblem von 39 C Cardano, Geronimo (1501-1576) 7, 16 Covarianz s. Kovarianz D Dichte 100 - der relativen Häufigkeiten 99 -, gemeinsame 129 diskrete Verteilungen (Übersicht) 221 diskrete Zufallsgröße 68 -, zweidimensionale 124 diskreter Wahrscheinlichkeitsraum 37 diskreter Zufallsvektor 124 E einseitiger Test 177 Elementarereignis 10, 36 empirischer Median 172 empirische Varianz 170 Entscheidungsvorschrift 174 Ereignis 10, 36 -, komplementäres 11, 43 -, sicheres 11 -, unmögliches 11, 43 Ereignisalgebra 11, 36 Ergebnis 10, 36 238 Ergebnisbäume 13 erwartungstreue Schätzfunktion 183 Erwartungswert 71, 100, 139 - Additionssatz 141 - der Binomialverteilung 81 - der Exponentialverteilung 103 - der Gleichverteilung 103 - der hypergeometrischen Verteilung 89 - nach Huygens 32 - Multiplikationssatz 145 Euler, Leonhard (1707-1783) -, Funktion 46 -, Problem der vertauschten Briefe 47 exakter Test von Fisher 178 Exponentialverteilung 102, 223 F faires Spiel 71 Fehler - erster Art 176 - zweiter Art 176 Fermat, Pierre de (1601-1655) 10, 32 Fermi-Dirac-Aufteilung 31 Fisher, exakter Test von 178 Formel von Stirling 116 Fußballtoto 16 G Galilei, Galileo (1564-1642) 12 Gauß, Carl Friedrich (1777-1855) Gaußverteilung 112 Gebiet, kritisches 175 Geburtstagsproblem 17 Gegenhypothese 175 gemeinsame Dichte 129 gemeinsame Verteilung 125 geometrische Verteilung 38, 69, 87, 222 geometrische Wahrscheinlichkeit 39 Gesetz der großen Zahlen von Bernoulli 85 Gleichverteilung 101, 222, 223 Glockenkurve 112 Grenzwertsatz, zentraler 147 Grenzwertsätze von de Moivre und Laplace 117, 119 günstiges Spiel 71 H Häufigkeit, absolute bzw. relative 33, 169 Hilbert, David (1862-1943) 34 Histogramm 99 homogene Markowkette 149 Huygens, Christian (1629-1695) 32 hypergeometrische Verteilung 88, 222 -, Approximation durch die Binomialverteilung 91, 222 Hypothese 175 I identisch verteilte Zufallsgrößen 146 innerer Zustand 154 integraler Grenzwertsatz von de Moivre und Laplace 119 Intervallschätzung 200 Irrfahrt 154 Irrfahrten auf der Geraden 163 -, asymetrische 165 -, symetrische 163 Irrtumswahrscheinlichkeit 175 J K Klasseneinteilung 55 klassische Wahrscheinlichkeit 11, 37 Kolmogorow, Andrej (1903-1987) 35 -, Axiomensystem von 36 Konfidenzintervall 201 -, Interpretation 203 Konfidenzniveau 201 konsistente Schätzfunktion 185 Korrelationskoeffizient 145, 215 -, Rang- 217 -, Pearsonscher Vierfelder- 218 Kovarianz 142, 214 - unabhängiger Zufallsgrößen 143 kritisches Gebiet 175 L Laplace, Pierre Simon Marquis de (1749-1827) 11, 32 -, Grenzwertsätze 117, 119 Laplacescher Wahrscheinlichkeitsraum 37 lokaler Grenzwertsatz von de Moivre und Laplace 117 Lotto 28 240 INDEX O M Markow, Andrej Andrejewitsch (1856-1922) P Markoweigenschaft 149 paarweise unabhängige Ereignisse 61 Markowkette 149 Pacioli, Luca (ca. 1445-1515) 6 -, absorbierende 154 Parameter 183 -, homogene 149 Pascal, Blaise (1623-1662) 5, 16, 32 Maßkorrelation 217 Pascalsches Dreieck 7 Matrix, stochastische 151 Pauli-Prinzip 31 Maximum-Likelihood-Prinzip 195 Pearson, Karl (1857-1936) Maxwell, James C. (1831-1879) 32, 30 Pearsonscher Vierfelderkorrelationskoeffizient 218 Maxwell-Boltzmann-Modell 30 Permutationen 20 Median, empirischer 172 Petersburger Paradoxon 79 mehrdimensionale Zufallsgröße 123 Pfad 153 mehrstufiges Zufallsexperiment 13, 63 Pfadregeln 153, 154, 155 Méré, Antoine G., Chevalier de (1607-1684) 5, Poisson, Siméon Denis (1781-1840) 91 66 Poissonverteilung 92, 222 Mises, Richard Edler von (1883-1953) 34 Populationsumfang 187 Mittelwert 71 Problem des Pacioli 6 - Additionssatz 141 Produktstichprobenraum 15 - einer Stichprobe 169 Produktwahrscheinlichkeitsraum 63 - Multiplikationssatz 145 Punktschätzung 183 Mittelwertregeln 157, 159 Q Moivre, Abraham de (1667-1754) -, Grenzwertsätze 117, 119 R Moment Rand (absorbierende Zustände) 154 - k-ter Ordnung 71, 103 Randverteilung 126, 134 - k-ter Ordnung bezüglich c 106 -, Verteilungsfunktion der 125, 134 -, zentrales 106 Rangkorrelationskoeffizient 217 Monotonieeigenschaft 43 Regressionsgerade 213 Multinomialverteilung 96 Regressionskoeffizient 214 Multiplikationssatz 51 Regressionslinie 212 - für Mittelwerte unabhängiger Zufallsgrößen Regressionsschere 215 145 relative Häufigkeit 33, 169 Rotgrün-Farbenblindheit 197 N Nadelproblem von Buffon 39 S Neyman, J. 201 Satz von Bayes 56 Normalapproximation der Binomialverteilung Satz von Sylvester 45 97, 121, 221, 223 Satz von der totalen Wahrscheinlichkeit 55 Normalverteilung 112, 223 Schätzfunktion 183 -, lineare Transformation 206 -, erwartungstreue 183 -, standardisierte 115, 223 - für den Mittelwert 184 -, Summe 205 - für die Varianz 186 -, Tabelle 236 - für einen Populationsumfang 187 normierte Zufallsgröße 107 -, konsistente 185 -, Maximum-Likelihood- 195 Nullhypothese 175 241 INDEX Schätzintervall 201 Schätzung - des Erwartungwertes einer Normalverteilung 204 - eines Populationsumfangs 187 Schätzwert 183 Schiefe einer Verteilung 108 Sicherheit, statistische 176 Sicherheitswahrscheinlichkeit 201 σ-Additivität 36 σ-Algebra 36 Signifikanzniveau 175 Sitzordnung 19 Skat 26 Smoluchowski, M.V. (1872-1917) 32 Spannweite einer Stichprobe 168 Standardabweichung 74, 106 standardisierte Normalverteilung 115, 223 standardisierte Zufallsgröße 107 statistische Sicherheit 176 statistische Wahrscheinlichkeit 33 stetige Verteilungen (Übersicht) 223 stetige Zufallsgröße 100 -, zweidimensionale 129 Stichprobe 167 Stichprobenfehler 185 Stichprobenmittel 184 Stichprobenraum 10, 36 -, diskreter 37 -, Produkt- 63 Stichprobenvarianz 170, 186 Stichprobenwert 167 Stifel, Michael (1487-1567) 16 Stirling, James (1692-1770) -, Formel von 116 stochastische Matrix 151 Streuung 74, 106 Summe normalverteilter Zufallsgrößen 205 Sylvester, James Joseph (1814-1897) -, Satz von 45 symmetrische Irrfahrt 163 T Tabelle -, der Binomialverteilung 224 -, der Normalverteilung 236 Tartaglia, Niccolò (ca. 1500-1557) 6 Teilmengen 220 Testen einer Hypothese 174 -, einseitiges 177 -, zweiseitiges 175 totale Wahrscheinlichkeit 55 Tschebyschew, Pafnutij Lwowitsch (1821-1894) -, Ungleichung von 109 Tupelbildung 220 U Übergangsmatrix 150 Übergangswahrscheinlichkeit 149 unabhängige Ereignisse 61 -, n = 2 50, 59 -, paarweise 61 unabhängige Zufallsexperimente 15, 63 unabhängige Zufallsgrößen 136, 137, 143 Ungleichung von Tschebyschew 109 ungünstiges Spiel 71 V Vandermonde, Alexandre (1735-1796) 88 Vandermondesche Konvolution 88 Varianz 74, 106 - Additionssatz 144 - der Binomialverteilung 81 - der Exponentialverteilung 107 - der Gleichverteilung 107 - der hypergeometrischen Verteilung 89 -, empirische 170 -, Stichproben- 170 - von Summen von Zufallsgrößen 143 Verbrecherfang 20 verdächtiges Ergebnis 176 vertauschte Briefe 47 Verteilen (Übersicht) 220 Verteilung 68 -, Binomial- 80, 221, 224 -, Exponential- 102, 223 -, gemeinsame 124 -, geometrische 38, 69, 87, 222 -, Gleich- 101, 222, 223 -, hypergeometrische 88, 222 -, Multinomial- 96 -, Normal- 112, 223, 236 -, Poisson- 92, 222 Verteilungsfunktion 74, 100 242 - der Randverteilung 125, 134 - eines Zufallsvektors 126, 129 Verwerfen der Nullhypothese 175 Vierfelderkorrelationskoeffizient 218 Vierfeldertafel 178 Vorzeichentest 181 W Wahl 23 Wahrscheinlichkeit - a posteriori 57 - a priori 57 -, bedingte 50 -, geometrische 39 -, klassische 11, 37 -, statistische 33 -, totale 55 Wahrscheinlichkeitsbelegung 36 Wahrscheinlichkeitsdichte 100 - eines Zufallsvektors 129 Wahrscheinlichkeitsfunktion 68 - eines Zufallsvektors 125 Wahrscheinlichkeitsraum 36 -, diskreter 37 -, Laplacescher 37 -, Produkt- 63 Wahrscheinlichkeitsvektor 152 Wahrscheinlichkeitsverteilung 68 - eines Zufallsvektors 125 X Y Z zentrale Momente 106 zentraler Grenzwertsatz 147 Zentralwert einer Stichprobe 172 Ziehen - mit Zurücklegen mit Berücksichtigung der Reihenfolge 17 - mit Zurücklegen ohne Berücksichtigung der Reihenfolge 23 - ohne Zurücklegen mit Berücksichtigung der Reihenfolge 19 - ohne Zurücklegen ohne Berücksichtigung der Reihenfolge 23 - Übersicht 220 INDEX Zufallsexperiment 12 -, mehrstufiges 13, 63 Zufallsgeräte 12 Zufallsgrößen 67 -, diskrete 68 -, diskrete zweidimensionale 124 -, identisch verteilte 146 -, lineare Transformation normalverteilter 206 -, standardisierte 107 -, stetige 100 -, stetige zweidimensionale 129 -, Summe normalverteilter 205 -, unabhängige 136, 137, 143 Zufallsvariable 67 Zufallsvektor 123 Zustand 149 -, absorbierender 154 -, innerer 154 -, lokaler 149 Zustandsraum 149 Zuverlässigkeit einer Schätzung 209 zweiseitiger Test 175