Beata Strycharz-Szemberg Mathematische Grundlagen III Stochastik UNIVERSITÄT D U I S B U R G E S S E N Essen 2008 Literatur [1] G. Hübner: Stochastik. Eine anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker [2] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik [3] P. Hartmann: Mathematik für Informatiker [4] M. Wolff, P. Hauck und W. Küchlin: Mathematik für Informatik und Bioinformatik [5] M. Wolff, P. Hauck und W. Küchlin: Übungsaufgaben zur Mathematik für Informatiker und Bioinformatiker [6] L. Dümbgen: Stochastik für Informatiker 1 Einführung ” Was ein Punkt ist, ein rechter Winkel, ein Kreis ist, weiß ich schon vor der ersten Geometriestunde, ich kann es nur noch nicht präzisieren. Ebenso weiß ich schon was Warscheinlichkeit ist, ehe ich es definiert habe”. (Hans Freundenthal, Warhscheinlichkeit und Statistik”, 1975) ” Stochastik (aus dem Griechischen στ oχαζoµαι (stochazomai): vermuten, erwarten) ist die Mathematik des Zufalls. Sie ist von großer Bedeutung in der Informatik, z. B. • Analyse der Auslastung von Daten- und Telefonnetzen, • Modellierung von Antwortzeiten im Rechner, • Zuverlässigkeit von Produkten, • Raytracing in der Computergrafik (Monte-Carlo-Methoden), • stochastische Optimierungsalgorithmen (genetische Algorithmen, simulated annealing), • Analyse der mittleren Laufzeit von Algorithmen, • Kombinatorische Probleme in der Bioinformatik; und in vielen anderen Gebieten, z. B. • Qualitätskontrolle (Technik), • Konjunkturdaten und Aktienkurse (Wirtschaft), • Radioaktiver Zerfall (Physik), • Diagnose von Krankheiten, Epidemien (Medizin), • Vererbung der Eigenschaften (Biologie). Stochastik befasst sich nicht vorwiegend mit Würfeln, Spielkarten, Roulette, Lotto und ähnlichen zufallsbeeinflussten Spielen. Die beiden Hauptgebiete der Stochastik sind Wahrscheinlichkeitstheorie und Statistik. In der Wahrscheinlichkeitstheorie untersucht man zufällige Prozesse mit festen, als bekannt angenommenen steurenden Wahrscheinlichkeiten. Als Ansatzpunkt betrachten wir 1 das historische Beispiel, das üblicherweise als der Auslöser für die wissenschaftliche Beschäftigung mit Wahrscheinlichkeiten angesehen wird1 . Im Jahr 1654 beklagte sich der Chevalier de Méré (1607–1684), ein berufsmäßiger Spieler, bei Blaise Pascal (1623–1662) über die Mathematik, weil ihre Ergebnisse ihm nicht mit den Erfahrungen des praktischen Lebens übereinzustimmen schienen. Man wusste damals, dass es beim Spiel mit einem Würfel günstig ist, darauf zu setzen, bei vier Würfen wenigstens eine Sechs zu werfen. De Méré dachte, es müsste dasselbe sein, wenn man bei 24 Würfen mit zwei Würfeln darauf setzt, wenigstens eine Doppelsechs zu erhalten. Während im ersten Fall 6 Möglichkeiten 4 Würfe gegenüber stehen, stehen im zweiten 36 Möglichkeiten 24 Würfe gegenüber, das Verhältnis ist also in beiden Fällen 3:2. Entgegen seinen Erwartungen verlor aber Herr de Méré auf die Dauer beim zweiten Spiel und das muss ihn sehr verdrossen haben. (Franz Heigl, Jürgen Feuerpfeil, Stochastik, Leistungskurs”, 1975). ” Schon zu dieser Zeit war seit langem bekannt, dass der Prozentsatz gewonnener Runden bei langen Serien derartiger Glücksspiele nahezu konstant und stets in etwa gleich ist, woraus zwangsläufig die Frage erwuchs, wie man die Gewinnchancen solcher Spiele schon im voraus berechnen kann. Pascal führte über dieses Problem 1654 einen Briefwechsel mit Pierre Fermat (1601–1665), in dessen Verlauf sich schließlich eine Lösung ergab. Wir werden in dieser Vorlesung den Lösungsweg in einem etwas allgemeinerem Rahmen nachvollziehen und beginnen mit dem Begriff des Zufallsexperiments. Ein Zufallsexperiment wie im obigen Beispiel das viermalige Werfen eines Würfels ist zunächst ein Experiment im üblichen Sinne, d. h. ein konkreter oder auch nur in Gedanken durchgeführter Vorgang, der sich beliebig oft unter stets gleichen Rahmenbedingungen wiederholen lässt. Der wesentliche Unterschied zu dem klassischen naturwissenschaftlichen Konzept des Experiments besteht darin, dass ein Zufallsexperiment mehrere mögliche Ausgänge hat und trotz gleicher Ausgangslage bei keiner der Durchführungen mit Sicherheit vorhersehbar ist, welcher dieser Ausgänge sich einstellt. Die wesentliche Frage im Zusammenhang mit Zufallsexperimenten ist die nach den Chancen für das Eintreten bzw. Nichteintreten bestimmter Ereignisse.2 Bei den obigen Beispielen geht es dabei um das Ereignis Gewinn”, ” das dadurch charakterisiert ist, dass bei der Durchführung des Würfelexperiments eine Sechs bzw. eine Doppelsechs geworfen wird. 1 Die Wahrscheinlichkeiten der verschiedenen Augensummen bei einem Wurf mit drei Würfeln wurden schon im 13. Jhd. in dem Epos DeVetula” richtig bestimmt, als dessen Autor man Richard de Fournival ” (1201–1260), den Kanzler der Kathedrale von Amiens, vermutet. Auf einem (evtl. mittelbaren) islamischen Einfluß deuten darin vorkommende arabische Fachtermini. Das Prinzip des fairen Spiels wurde von Geronimo Cardano (1501–1576) in seinem Manuskript über Glückspiele De ludo aleae” (geschrieben ” 1564, erschienen erst 1663) formuliert. 2 Allgemein verstehen wir unter einem Ereignis eine Reihe von möglichen Merkmalen der Ausgänge des betreffenden Zufallsexperiments. Die Formulierung: Das Ereignis tritt ein” soll dementsprechend ” bedeuten, dass bei einer Durchführung des Experiments ein Ausgang zustande kommt, der alle diese Merkmale besitzt. 2 Gemäß der Charakterisierung eines Zufallsexperiments ist es bei einem einzelnen Versuch, d. h. einer einmaligen Durchführung des Experiments, nicht mit Sicherheit vorhersagbar, ob ein Ereignis eintritt oder nicht. Sein Eintreten hängt vom Zufall ab. Führt man aber eine lange Versuchsreihe, d. h. eine ganze Serie von Versuchen durch und zählt, wie oft dabei dieses Ereignis eintritt, so beobachtet man, wie schon Herr de Méré, eine gewisse Gesetzmäßigkeit, die sich am einfachsten mit Hilfe mathematischer Formeln darstellen lässt: • E stehe für das beobachtete Ereignis, • n sei die Länge der Versuchsreihe, d.h. die Anzahl der durchgeführten Versuche, • Hn (E) sei die absolute Häufigkeit von E, d. h. die Anzahl der Versuche, bei denen das Ereignis E eingetreten ist, und • hn (E) = Hn (E)/n die relative Häufigkeit des Ereignisses E, d.h. der relative Anteil oder - mit 100 multipliziert - der Prozentsatz der Versuche, bei denen das Ereignis E eingetreten ist. De Méré stellte fest, dass bei langen Versuchsreihen mit 4 Würfen eines Würfels das Ereignis Gewinn” stets eine relative Häufigkeit von mehr als 50% und bei 24 Würfen ” eines Würfelpaars eine von weniger als 50% besitzt, die Anzahl der gewonnenen Spiele im ersten Fall also immer größer und im zweiten Fall immer kleiner ist als die Anzahl der verlorenen Spiele. Wie die Erfahrung mit Zufallsexperimenten zeigt, scheint eine noch stärkere Gesetzmäßigkeit vorzuliegen: Für sehr lange Versuchsreihen stabilisieren sich die relativen Häufigkeiten hn (E) offenbar stets in der Nähe einer für das Experiment und das Ereignis E charakteristischen Zahl P (E) hn (E) ≈ P (E) für große n. (1.1) Dieses Phänomen nennt man das empirische Gesetz der großen Zahlen. Es handelt sich dabei nicht um einen Konvergenzsatz im mathematischen Sinne sondern um eine reine Erfahrungstatsache, auf deren Basis sich aber offenbar sicher kalkulieren lässt, wie die wirtschaftliche Situation von Spielbanken, Lotterien und Versicherungsunternehmen demonstriert. Als Grundlage für eine mathematische Analyse von Zufallsexperimenten gehen wir von der Hypothese aus, dass jedem Zufallsexperiment quasi als Naturgesetz eine Funktion P zugeordnet ist, die jedem an diesem Zufallsexperiment beobachtbaren Ereignis E eine Zahl P (E) zuordnet und die mit dem Ereignis über das empirische Gesetz der großen Zahlen (1.1) verbunden ist. Diese Zahl nennen wir die Wahrscheinlichkeit des Ereignisses E. Die Forderung (1.1) hat zur Konsequenz, dass die Funktion P nicht ganz willkürlich gewählt werden kann sondern im wesentlichen die gleichen Eigenschaften besitzen muss wie die relative Häufigkeit hn . 3 Um diese Eigenschaften präzise formulieren zu können, benötigen wir ein mathematisches Modell eines Zufallsexperiments. Diese Modellbildung ist ein Vorgang, der auch bei den anderen mathematischen Disziplinen auftaucht, etwa in der Geometrie. Zum Beispiel ist eine Kugel für viele (aber nicht für alle) Zwecke ein passendes Modell für die Erde. Modelle für reale, zufallsabhängige Vorgänge werden in vielen Bereichen von Wissenschaft, Technik und Wirtschaft eingesetzt. Diese dienen der (vereinfachten) Beschreibung der Wirklichkeit und dem Zweck, Aussagen im Modell zu gewinnen. Diese Ergebnisse können, falls das Model gut genug” ist, durch Rückübersetzung” in die Realität Ent” ” scheidungshilfen sein. Die Übergang von der Wirklichkeit zum Modell ist nie rein logisch begründbar. Er setzt in starken Maß Erfahrung über die Natur des Experiments voraus. Das ist keine Besonderheit der Modelle für Zufallsexperimente. Die Wahl des Modells wird von der Zielsetzung mitbestimmt. Das passende Modell für Zufallsexperimente ist oft weniger offensichtlich, als in der anderen Bereichen. Man täuscht sich leicht darüber, ob ein Versuch wirklich hinreichend viele Symmetrien enthält, um die Annahme zu rechfertigen, alle Versuchsausgänge seien gleich wahrscheinlich. Häufig lässt sich die Angemessenheit eines Modells nur empirisch überprüfen. Wenn die abgeleitete Resultate nicht gut mit der Erfahrung übereinstimmen, wird das Modell revidiert werden müssen. Häufiger als in der anderen Gebieten wird man schon aus Gründen der mathematischen Praktibilität bewußt ein relativ grobes Modell in Kauf nehmen müssen. Gelegentlich wird man sogar ohne genügend Erfahrung über die Natur des Experiments ad hoc Modelle entwerfen, um gewisse Phänomene überhaupt erst einmal einer Rechnung zugänglich zu machen, und um zu vergleichen, welche qualitative Auswirkungen verschiedene Modellannahmen haben. Zeitweise haben Mathematiker sogar geglaubt, es läge im Wesen der zufälligen Erscheinungen, dass sie sich nicht mathematisieren ließen. Jedenfalls hat es – im Gegensatz z. B. zur Geometrie – bis in 20. Jhd. hinein gedauert, bis man eine gesicherte axiomatische Grundlegung gegeben hat.3 In der Wahrscheinlichkeittheorie wird vorausgesetzt, dass die in den Modellen benötigten Wahrscheinlichkeiten bekannt sind. Zum grossen Bereich der Statistik gehört die Frage, wie man aus gegebenen Beobachtungen die zugrundeliegenden Wahrscheinlichkeiten oder andere Kenngrößen bestimmt bzw. abschätzt. 4 3 Erst im Jahr 1933 gelang dem russischen Mathematiker Andrej Nikolajewitsch Kolmogorov in seinem Werk Grundbegriffe der Wahrscheinlichkeitsrechnung” eine mathematisch befriedigende Definition des ” Wahrscheinlichkeit zu stellen. 4 Die Statistik hatte zwar ebenfalls Vorläufer in der Antik, wo z.B. Daten in Volkszählungen gesammelt und dargestellt wurden. Eine intensive und wissenschaftliche Nutzung von Daten, vor allem für wirtschaftliche und politische Fragen, fand aber erst ab 18. Jahrhundert statt. Ein Beispiel dafür sind Sterbetafeln, die für die Fragen der Lebensversicherung ausgewertet wurden. Dabei entstanden zunächst Methoden, die heute der beschreibenden Statistik zugeordnet werden. Die beurteilende Statistik hat ihre Wurzeln in der Analyse von Daten und Planung von empirischen Untersuchungen. 4 Zu den Themen der Statistik gehören die Erhebung von Daten, deren Aufbereitung, Beschreibung und Analyse (Auswertung), einschließlich der Planung und Durchführung von Befragungen, Zählungen oder Messungen. Bei der Auswertung von Daten unterscheidet man die beschreibende (oder deskriptive) Statistik und die schließende (oder beurteilende) Statistik. Im alltäglichen Leben werden wir fast ununterbrochen mit allen möglichen Daten konfrontiert. Überall wird mit Zahlen argumentiert, polemisiert und versucht zu überzeugen. Dabei werden diese Zahlen mal mehr, mal weniger redlich eingesetzt. Die Berechnungsgrundlagen werden offengelegt oder eben nicht. In bunten oder schwarz-weißen Graphiken, mal schlicht zweidimensional, mal dreidimensional und multimedial animiert, werden uns Daten in komprimierter Form präsentiert. Dies geschieht meistens in der Absicht, uns von irgendetwas zu überzeugen. Es gibt sogar Statistiken darüber, mit wie vielen Statistiken ein Mensch konfroniert wird. Umso wichtiger ist es, mit den Daten und ihren Darstellungen kritisch und kompetent umgehen zu können. Die Aufgabe der beschreibenden Statistik ist es, aus schwer überschaubaren, vorhandenen Datenmengen wesentliche Informationen herauszuziehen (Auswahl und Zusammenfassung) und verständliche, informative (meistens graphische) Darstellungen bereitzustellen, die ein möglichst unverzertes Bild des Sachverhaltens liefern. Es geht um Datenreduktion. Wer weiß wie eine gute Reduktion und Darstellung von Daten aussieht, hat damit auch das Handwerkzeug, um verfälschende und tendenziöse Präsentationen von Daten zu entlarven - in heutigen Zeiten (Informationsgesellschaft) eine wichtige Kompetenz. Daher leistet die beschreibende Statistik einen wesentlichen Beitrag des Mathematikunterrichts zur Allgemeinbildung. Diese Auseinandersetzung kann und sollte schon in der Grundschule beginnen. Alle Aussagen der beschreibenden Statistik beziehen sich ausschließlich auf die untersuchte Objekte und die für diese beobachteten Werte. Bei der Erhebung und Auswertung von Daten in den empirischen Wissenschaften oder in der Praxis möchte man letztlich fast immer aus einer Aussage über eine gezielt erhobene Stichprobe auf eine Aussage über die zugrunde liegende größere Gruppe zu schließen, die sogenannte Gesamtpopulation (Grundgesamtheit).5 Der interessierende Schluss auf die Grundgesamtheit ist aber mit einer Unsicherheit behaftet. Wenn eine Stichprobe per Zufall zusammengesetzt wird (z.B. experimentell gewonnene fehlerbehaftete Messwerte, wobei die Fehler zufälligen Charakter besitzen, zufällig entnomenne Proben eines Produktes), dann muss man mit den Unwägbarkeiten leben, hat aber auch den Vorteil, dass diese Unwägbarkeiten kalkulierbar sind. 5 Dabei wird unterstellt, dass die in der Stichprobe erhaltenen Aussagen für die Gesamtgruppe repräsentativ sind, d.h. das Ergebnis bei Befragung der Gesamtpopulation entspräche weitgehend dem in der befragten, kleineren Gruppe. Eine ähnliche Fragestellung besteht etwa bei Wahlprognosen. Es wird versucht, mittels einer kleinen Gruppe von befragten Wählern das Wahlergebnis möglichst gut vorherzusagen. Dabei ist aber aus Erfahrungen der Vergangenheit klar, dass die so getroffenen Prognosen meist mehr oder weniger fehlerbehaftet sind. Dies ist dadurch bedingt, dass die befragte Gruppe i.a. natürlich kein Spiegel der Gesamtpopulation ist. Diese Fehler sind durch die Vorgehenweise bedingt und daher auch in Interpretation zu berücksichtigen. Verhahren zur Verringerung derartiger Fehler sowie die Festlegung von represäntativen” Stichproben werden in der Stichprobentheorie behandelt. ” 5 Um Zufallseffekte bei den statistichen Verfahren einschätzen zu können und beurteilen zu können, wann zufallsbedingte Effekte sehr unwahrscheinlich sind, benötigt man Methoden der Wahrscheinlichkeitsrechnung. Die beurteilende Statistik verbindet Ergebnisse der Wahrscheinlichkeitsrechnung und die Konzepte der beschreibenden Statistik, so dass Zufallseffekte zwar nicht ausgeschlossen, aber kalkuliert werden können. Sie entwickelte sich erst richtig im 20. Jahrhundert, dann aber mit immenser Geschwindigkeit. Heute steht den Anwendern eine vielzahl von elaborierten, teilweise hoch spezialisierten Methoden der mathematischen Statistik zur Verfügung, die teilweise nur mit besonderen Computerprogrammen einsetzbar sind. In fast allen wissenschaftlichen Disziplinen gehören empirische Forschungsmethoden, mit denen die wissenschaftlichen Theorien an der Realität geprüft werden sollen, zum Standardrepertoire. Die quantitativen empirischen Forschungsmethoden verwerden dabei Standardverfahren der mathematischen Statistik. Die Anwendungen bereichern einerseits die mathematische Theoriebildung. Andererseits beeinflusst der Wunsch, gewisse quantitative empirische Forschungsmethoden einzusetzen, die Entscheidung, welche Aspekte eines Problems untersucht werden. Für die Manipulation von Daten, die Berechnung von Schätzwerten und Konfidenzbereichen und die Durchführung von Signifikanztests gibt es eine große Menge von Softwarepaketen, z.B. SPSS, SAS, S-Plus und viele andere, die aufgrund des Funktionsumfangs und gemäß dem Gesetz von Angebot und Nachfrage zum Teil stolze Preise haben. Im Rahmen dieser Vorlesung und für die zugehörigen Übungen wird das Programm R der R Foundation for Statistical Computing” empfohlen. Es entspricht im wesentlichen dem ” kommerziellen Paket S-PLUS. R ist eine objektorientierte und interpretierte Sprache und Programmierumgebung für Datenanalyse und Graphik, die unter der GNU General Public License frei verfügbar ist. Sie kann für alle gängigen Betriebssysteme und im Quellcode von http://www.r-project.org heruntergeladen werden. Dort findet man auch die Einführung in diese Programmiersprache und Handbücher im PDF-Format. Die Software enthält außerdem ein umfangreiches Hilfesystem. 6 2 Beschreibende Statistik Bevor wir formalle Modelle für zufällige Vorgänge einführen, soll hier ein intuitiver Zugang zu zufälligen Daten vorangestellt werden. 2.1 Daten erfassen und darstellen Eine Menge von gleichartigen Objekten oder Elementen, die hinsichtlich eines bestimmten Merkmals untersucht werden sollen, heißt Grundgesamtheit. Eine Grundgesamtheit kann dabei endlich oder unendlich sein, je nachdem ob sie endlich oder unendlich viele Elemente enthält. Die aus einer Beobachtung oder Messung oder Umfrage aufgezeichneten Daten (Eigenschaften oder Merkmale der Objekten) nennen wir dann einen Datensatz. Aus vielen Gründen läßt sich sehr oft die Untersuchung gewisser Eigenschaften oder Merkmale einer Grundgesamtheit nicht als Ganzes durchführen, sondern muss auf eine Teilmenge beschränkt werden. Ist also der Datensatz aufgrund einer gezielten Teil-Erhebung von genau n Elementen aus einer Grundgesamtheit entstanden, sprechen wir auch von einer Stichprobe vom Umfang n. Man erwartet, dass solche Stichprobe in gewisser Weise die Grundgesamtheit repräsentiert. Der Datensatz, d.h. das Ergebnis der Objektuntersuchung bzgl. des interessierenden Merkmals, bezeichnen wir (in der Reihenfolge der Ziehung) mit x := (x1 , x2 , . . . , xn ) . Anschaulicher als diese Zahlenfolgen sind die grafische Darstellungen als z. B. Stab-, Balken-, Torten-, und Säulen-Diagrammen. Die Komprimierung und/oder tabelarische bzw. grafische Darstellung eines Datensatzes bzw. einer Stichprobe nennt man eine Statistik. Die Beobachtungs- oder Stichprobenwerte xi des interessierenden Merkmals haben wir zunächst in der Reihenfolge ihres Auftretens in einer sog. Urliste aufgeführt. Der geordnete Datensatz, bezeichnet mit x[] := x[1] , x[2] , . . . , x[n] , heißt auch Ordnungsstatistik zu x. Der Abstand zwischen dem kleinsten und dem größten Wert heißt die Spannweite des Datensatzes. Wenn in Datensätzen viele Werte mehrmals auftreten (dies glit insbesondere für umfangreiche Datensätze), benutzt man statt Datenlisten eher Häufigkeitstabellen. Wir stellen fest, wie oft jeder Wert xi , in dem Datensatz enthalten ist. Diese natürliche Zahl heißt absolute Häufigkeit Hi des Wertes xi . Alle Werte x, die nicht in dem Datensatz auftreten, haben die absolute Häufigkeit gleich Null. Dabei gilt X Hi = n. i 7 Die relative Häufigkeit hi erhält man, indem man die absolute Häufigkeit Hi durch die Anzahl n der Werte dividiert: Hi hi = . n Dabei gelten folgende Beziehungen: 0 < hi ≤ 1 X und hi = 1. i Es gehört somit zu jedem Wert xi genau ein Hi bzw. hi . Der Datensatz kann dann vollständig durch die folgende Verteilungstabelle beschrieben werden: Datensatzwert xi x1 x2 x3 ... absolute Häufigkeit Hi H1 H2 H3 ... relative Häufigkeit hi h1 h2 h3 ... Die Verteilung der einzelnen Werte in dem Datensatz läßt sich daher durch die wie folgt definierte Häufigkeitsfunktion f darstellen: f (x) := hi 0 für x = xi , sonst. Sie ordnet jedem Wert xi als Funktionswert die relative Häufigkeit hi . Die Häufigkeitsfunktion f lässt sich graphisch in sehr anschaulicher Weise durch ein Stabdiagramm darstellen, wobei Stablänge der relativen Häufigkeit hi des einzelnen Wertes xi entspricht, die Stabbreite ist ohne Bedeutung. Die Häufigkeitsverteilung eines Datensatzes läßt sich auch eindeutig und vollständig durch die wie folgt definierte Summenhäufigkeitsfunktion F beschreiben: F (x) := X f (xi ) . xi <x Sie ordnet jedem Wert x als Funktionswert die Summe der relativen Häufigkeiten aller Stichprobenwerten, die kleiner als x sind. In der graphischen Abbildung erhalten wir eine sog. Treppenfunktion, d.h. die stückweise konstante Funktion, die an der Stelle des Wertes xi jeweils einen Sprung der Höhe f (xi ) = hi hat. Nach dem letzten Sprung, erreicht die Summenhäufigkeitsfunktion F dann den Endwert Eins. Diese Funktion kann man auch in Form eine Tabelle beschreiben: x F (x) (−∞, x1 ] (x1 , x2 ] (x2 , x3 ] ... (xn−1 , xn ] (xn , ∞) 0 h1 h1 + h2 ... h1 + . . . + hn−1 h1 + . . . + hn = 1 8 Bei umfangreichen Stichproben mit vielen verschiedenen Werten gruppiert man die Stichprobenwerte zweckmäßigerweise in sog. Klassen. Zunächst wird die Stichprobe geordnet und der kleinste und größte Wert bestimmt. Dann wird das Intervall festgelegt, in dem sämtliche Stichprobenwerte liegen und dieses schließlich in Teilintervalle möglichts gleicher Breite zerlegt (sog. Klassen gleicher Breite). Bei der Festlegung der Anzahl k der Klassen bei n Stichprobenwerten verwende man die folgende Regel: √ k≈ n für 50 < n < 500. Bei Stichproben mit einem Umfang n > 500 wähle man höchstens k = 30 Klassen. Für die Weiterbearbeitung der Klassen können wir die absolute und relative Klassenhäufigkeit bestimmen, sowie die Häufigkeits- und Summenhäufigkeitsfunktionen. 2.2 Kenngrößen Alle bisherigen Darstellungen enthalten einen Großteil der Information über x und sind deshalb für eine schnelle Beurteilung meist zu unübersichtlich. Es besteht die Möglichkeit, den Datensatz durch bestimmte statistiche Kennwerte (Maßzahlen) zu charakterisieren, wenn auch in unvollständiger Weise. Wir beschränken uns in diesem Abschnitt auf die wichtigsten Kennwerte, nämlich auf den Mittelwert, den Median, die Varianz und die Standardabweichung. Der wohl wichtigste Kennwert eines Datensatzes vom Umfang n ist der Mittelwert, der den durchschnitlichen Wert aller n Stichprobenwerten kennzeichnet. Definition 2.1. Der Mittelwert x eines Datensatzes vom Umfang n ist das arithmetische Mittel der Werte x := n 1 X x1 + x2 + · · · + xn · xi = . n i=1 n Der Mittelwert wird von einzelnen extremen Werten (z.B. Messfehlern) stark beinflusst. Deswegen zur Kennzeichnung der Mitte” des (geordneten) Datensatzes wird manchmal ” das folgende Lageparameter verwendet: Definition 2.2. Der Median x e eines Datensatzes vom Umfang n ist gleich x e := x[ n+1 ] 2 1 x n + x[ n +1] 2 2 [2] bei ungeradem n, bei geradem n. Der Median wird auch Zentralwert genannt, weil links und rechts von diesem Wert sich gleichviele Stichprobenwerte befinden. Bei einem geordenten Datensatz läßt sich der Median auf einem Blick ablesen. 9 Da die einzelnen Datensatzwerte xi um ihren Mittelwert streuen, benötigen wir noch ein geeignetes Streuungsmaß das in gewisser Weise die Größe der Abweichungen charakterisiert. Die Angabe des Mittelwertes allein reicht zur Charakterisierung der Häufigkeitsverteilung nicht aus, da empirische Verteilungen mit demselben Mittelwert völlig verschieden aussehen können. Ein erster Maß für die Schwankungen innerhalb eines Datensatzes sind die Prozentpunkte oder Quantile. Definition 2.3. Der p%-Punkt (das p%-Quantil) up% eines Datensatzes x hat die Eigenschaft, dass links (bzw. rechts) von up% höchstens p% (bzw. (100 − p)%) der Daten liegen. Gegebenenfalls wählt man die Mitte zwischen zwei Werten. Die 25%-, 75%-Quantile heißen untere, obere Quartile. Man benutzt meist ein Paar von Quantilen, z. B. (u5% , u95% ), um einen Bereich einzugeben, in dem der Anteil von hier 90% der Werte liegen. Als gängigstes Maß für die Schwenkung wird die mittlere Abweichung der xi von x benutzt. n P Weil die Summe (xi − x) scheidet dabei als Streuungsmaß aus, da sie stets den Wert i=1 Null ergibt: n X i=1 (xi − x) = n X i=1 xi − nx = nx − nx = 0, wird die Abweichung (xi − x) quadratisch ermittelt. Definition 2.4. a) Die Varianz s2x eines Datensatzes x := (x1 , x2 , . . . , xn ) ist gegeben durch n 1X sx := (xi − x)2 . n i=1 2 b) Die Quadratwurzel aus der Varianz s2x heißt Standardabweichung sx des Datensatzes. Statt Standardabweichung sagt man auch Streuung. Zur praktischen Berechnung der Varianz ist der angegebene Formel ungünstig, weil von jedem xi der Wert x abgezogen werden muss. Deshalb formt man den Ausdruck um zu n 1 X 2 1 2 sx := x − n i=1 i n n X i=1 !2 1 xi = n 10 n X i=1 x2i − n · x2 ! . Beide Kennwerte, sowohl die Varianz als auch die Standardabweichung sind ein Maß für die Streuung der Datensatzwerte um ihren Mittelwert. Die Standardabweichung hat dabei den Vorteil, dass sie dieselbe Dimension und Einheit besitzt wie die einzelnen Datensatzwerte und deren Mittelwert. Die Varianz ist eine Art mittleres Abweichungsquadrat. Bemerkung. Bei einer Stichprobe interessiert man sich oft nicht für die Standardabweichung innerhalb der Stichprobe, sondern für eine Schätzung des unbekannten Gesamt1 Datensatzes. Dann muss man bei sx den ersten Faktor n1 durch n−1 ersetzen. 2.3 Lineare Regression Daten treten oft paarweise als (xi , yi) auf, wenn gleichzeitig zwei Merkmale beobachtet werden. Es liegt dann ein zweidimensionaler Datensatz z vor: z := ((x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn )) . Hier kann man natürlich zunächst für jede der beiden Kompnenten den Mittelwert x bzw. y, oder den Median x e bzw. ye und die Standardabweichung sx bzw. sy bestimmen. Interessanter ist in der Regel die Frage nach einer Beziehung oder einem stochastischen Zusammenhang zwischen den Werten xi und yi . Besteht eine solche Abhängigkeit, so spricht man über einer Korrelation zwischen diesen Werten. Die sog. Regressionsanalyse hat dann die Aufgabe die Art des Zusammenhangs festzustellen und zwar mit Hilfe eines geeignetes Ansatzes in Form einer Kurvengleichung y = f (x), die noch gewisse aus dem Datenstaz berechenbare Parameter enthält. Dabei wird x als unabängige Variable und y als eine von x abhängige Variable angesehen. In der Statistik bezeichnet man solche einseitige” Anhängigkeit als Regression von y ” bezüglich x. Hat man die Gleichung der sog. Regressions- oder Ausgleichskurve bestimmt, so läßt sich zu vorgegebenen Wert x der Wert der abhängigen y schätzen. Um sich einen Überblick zu verschaffen, wird man zuerst die Paare (xi , yi ) als Punkte in der (x, y)-Ebene darstellen. Sie bilden in ihrer Gesamtheit eine sog. Punktwolke”. Meist ” lässt sich anhand der Punktwolke ein geeigneter Lösungsansatz für die gesuchte Regressionskurve ermitteln. Im einfachsten Fall liegen die Punkte nahezu (yi ≈ axi + b) auf eine Gerade. In diesem wichtigsten und häufigsten Fall (nur den werden wir hier betrachten) spricht man daher von linearer Regression und sucht man eine Regressionsgerade y = ax + b, die sich den angegebenen Daten möglichst gut anpasst. Die noch unbekannten Parameter a und b dieser Gerade (d.h. Steigung a und Achsenabschnitt b) lassen sich aus den vorgegebenen Datensatz leicht bestimmen. Satz 2.5. Es sei ein zweidimensionaler Datensatz z = ((x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn )) mit sx 6= 0 gegeben. Die Summe der Abstandsquadrate aller n Punkte: S(a, b) := n X i=1 (yi − (axi + b))2 11 nimmt ihr Minimum im Punkt (a∗ , b∗ ) an, wobei a∗ = und sxy s2x und b∗ = y − a∗ x n 1X 1 sxy := (xi − x) · (yi − y) = n i=1 n die Kovarianz des Datensatzes z genannt wird. n X i=1 xi yi − n · x y ! Die Gerade y = a∗ x + b∗ heißt dann die Regressionsgerade. Die Regressionsgerade kann aber auch in der speziellen symmetrischen Form y − y = a∗ (x − x) dargestellt werden. Sie verläuft durch den sog. Schwerpunkt S = (x, y) der Punktwolke. Die Bestimmung einer Regressionsgerade ist nur möglich, wenn mindestens drei Punkte vorliegen, n ≥ 3. In vielen Fällen jedoch muss man aufgrund des Erscheinungsbildes der Punktwolke” ” einen nicht linearen Lösungsansatz wählen. Man spricht dann von nicht-linearer Regression. Als nichtlineare Lösungsansätze kommen z.B. Polynomfunktionen höheren Grades, Potenzfunktionen, Exponential- und Logarithmusfunktionen und manchmal auch (einfache) gebrochenrationale Funktionen infrage. 12 3 Wahrscheinlichkeitsräume Ein Wahrscheinlichkeitsraum ist ein mathematisches Modell bzw. ein abstraktes Schema zur Beschreibung eines Zufallsexperiments. Aus den vorherigen Erläuterungen ergibt sich, dass eine solche Beschreibung die folgenden Bestandteile enthalten muss: • Eine Liste der möglichen Ausgänge des Experiments • Eine Aufstellung der interessierenden Ereignisse • Eine Beschreibung der Funktion P 3.1 Die Ergebnismenge Die Ausgänge eines Zufallsexperiments werden üblicherweise Ergebnisse6 genannt und die Menge der möglichen Ausgänge dementsprechend die zum Experiment zugehörige Ergebnismenge7 oder der Ergebnisraum. Als Symbol für ein Ergebnis werden wir den griechischen Buchstaben ω benutzen und die Ergebnismenge wird durch den zugehörigen Großbuchstaben Ω gekennzeichnet: Ω := {ω : ω– möglicher Experimentausgang} . Die Menge der möglichen Ergebnisse kann man als Reduktion der allgemeinen Beschreibung des Experiments auf das mathematisch Wesentliche ansehen. Dabei gibt es aber je nach Fragestellung eventuell mehrere Möglichkeiten. Zur Veranschaulichung ziehen wir zwei klassische Beispiele für Zufallsexperimente heran: Das Werfen zweier Würfel und das Galton-Brett. Würfeln. Wirft man zwei Würfel und ist nur an der Summe der geworfenen Augenzahlen interessiert, so bietet sich als Ergebnismenge die Menge Ωw1 = {2, 3, 4, ...11, 12} (3.2) der natürlichen Zahlen von 2 bis 12 an. Kommt es auf die tatsächlich geworfenen Augenzahlen an, muss man Paare von Augenzahlen notieren. Bei zwei nicht unterscheidbaren Würfeln kann man als Ergebnismenge zum Beispiel [1, 1] [1, 2] [1, 3] [1, 4] [1, 5] [1, 6] [2, 2] [2, 3] [2, 4] [2, 5] [2, 6] [3, 3] [3, 4] [3, 5] [3, 6] Ωw2 = [4, 4] [4, 5] [4, 6] [5, 5] [5, 6] [6, 6] 6 7 auch Stichproben, Realisierungen, Elementarereignisse auch Merkmalraum, Stichprobenraum, Grundraum 13 ansetzen. Die Notation [i, k] bedeutet, dass einer der Würfel die Augenzahl i und der andere die Augenzahl k zeigt, wobei an erster Stelle immer die kleinere der geworfenen Zahlen steht. Wirft man die beiden Würfel nicht gleichzeitig, sondern nacheinander und ist die Reihenfolge der geworfenen Augenzahlen von Bedeutung, so muss die Darstellung noch einmal verfeinert werden, etwa durch die Ergebnismenge (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) (3.3) Ωw3 = (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6) wobei (i, k) für das Ergebnis steht, dass i die erste und k die zweite geworfene Augenzahl ist. Das Galton-Brett. Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die Rinnen eingefräst sind. Eine Kugel wird in die Startrinne am oberen Rand gelegt und rollt nach unten, wobei sie an den Verzweigungspunkten zufällig nach links oder rechts abgelenkt wird. Die Ergebnisse sind entweder die in irgendeiner Form gekennzeichneten verschiedenen Ausgänge am unteren Ende des Bretts, an denen die Kugel schließlich landet, oder die verschiedenen Wege, die die Kugel durchlaufen kann. 3.2 Ereignisse Ein Ereignis ist eine Charakterisierung des Ausgangs eines Zufallsexperiments durch ein oder mehrere Merkmale, so dass nach Durchführung des Experiments die Frage, ob diese Charakterisierung zutrifft, eindeutig mit ja” oder nein” beantwortet werden kann. Falls ” ” sie zutrifft, sagt man, das Ereignis sei eingetreten. Betrachtet man zum Beispiel beim Werfen zweier Würfel die Aussage ” Zwei ungerade Augenzahlen wurden geworfen”, so ist dies bezogen auf die Ergebnismenge Ωw1 kein Ereignis im obigen Sinne, da sich nicht entscheiden lässt, ob sie zutrifft, wenn man nur die Augenzahlsumme als Ergebnis kennt. Bei den anderen beiden Ergebnismengen ist diese Frage entscheidbar. Offensichtlich kann man Ereignisse durch Teilmengen A der Ergebnismenge Ω repräsentieren. Da ein Ereignis genau dann eintritt, wenn die zugehörige Aussage auf das Ergebnis der Durchführung des Experiments zutrifft, entspricht einem Ereignis einfach die Menge aller Ergebnisse des Experiments, für die diese Aussage wahr ist. Bezogen auf die Ergebnismenge Ωw2 ist das in unserem Beispiel die Menge A2 = {[1, 1], [1, 3], [1, 5], [3, 3], [3, 5], [5, 5]} . Die Charakterisierung von Ereignissen durch Mengen hängt natürlich von der gewählten Ergebnismenge ab. Je nach Auswahl wird die Aussage 14 ” Die Augenzahlsumme 7 wurde geworfen” durch die drei Mengen B1 = {7} B2 = {[1, 6], [2, 5], [3, 4]} B3 = {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)} repräsentiert. Auf dem Wege der mathematischen Abstraktion können wir jetzt noch einen Schritt weitergehen und die Differenzierung zwischen Aussage und repräsentierender Menge aufheben. Für unser mathematisches Modell legen wir fest: Ein Ereignis ist eine Teilmenge des Ergebnisraums. 3.3 Verbundereignisse Ereignisse können mittels der logischen Operatoren und, oder miteinander verknüpft und durch nicht negiert werden, wodurch sich neue Ereignisse ergeben, wie zum Beispiel Ungerade Augenzahlen” und Augenzahlsumme größer als 4”; ” ” Augenzahlsumme 6” oder Augenzahlsumme 7”; ” ” Die Augenzahlsumme ist nicht 7”. ” Geht man zur Mengendarstellung der Ereignisse über, so entsprechen diesen Verbundereignissen die Vereinigung, der Durchschnitt und das Komplement der Mengen, die die verknüpften Ereignisse repräsentieren: A ∪ B = {ω ∈ Ω : ω ∈ A oder ω ∈ B} ; A ∩ B = {ω ∈ Ω : ω ∈ A und ω ∈ B} ; Ac = {ω ∈ Ω : ω 6∈ A} . Nach der Liste der möglichen Ergebnisse des Zufallsexperiments ist nach den obigen Überlegungen als zweiter Bestandteil eines mathematischen Modells eine Liste der interessanten Ereignisse, das sog. Ereignis-System, bzw. die Auflistung der entsprechenden Teilmengen der Ergebnismenge erforderlich. Da man zweifellos in eine solche Liste alle Verbundereignisse mit aufnehmen wird, ergibt sich die Forderung, dass das System der zugehörigen Teilmengen unter den Operationen Vereinigung, Durchschnitt und Komplementbildung abgeschlossen sein muss. Da man häufig, insbesondere bei Grenzwerten, abzählbare Vereinigungen und Durchschnitte benötigt, muss dies auch für abzählbar unendliche Verknüpfungen sichergestellt sein. Zur Veranschaulichung betrachten wir das Zufallsexperiment, dass ein Wurfel so lange geworfen wird, bis zum ersten Mal die Augenzahl 6 erscheint. Da nicht abzusehen ist, 15 bei welchem Wurf dieses Ereignis eintritt und prinzipiell auch denkbar ist, dass niemals eine 6 geworfen wird, muss man als Ergebnisraum die Menge Ω = {ω = (z1 , z2 , . . .) : zk = 1, 2, 3, 4, 5, 6} aller möglichen unendlichen Wurfserien benutzen: Die Komponente zk steht für die Augenzahl, die beim k-ten Wurf erscheint. Das Ereignis, dass genau beim k-ten Wurf die erste 6 erscheint, wird durch die Menge Ak = {ω = (z1 , z2 , . . .) : zi < 6 für i < k und zk = 6} beschrieben. Die Mengen A1 , A2 , . . . sind paarweise disjunkt. Für n = 1, 2, 3, . . . repräsentieren die Mengen Bn = A1 ∪ A2 ∪ · · · ∪ An die Ereignisse, dass spätestens beim n-ten Wurf eine 6 kommt und A= ∞ [ Bn = n=1 ∞ [ Ak k=1 entspricht der Aussage, dass irgendwann einmal eine 6 erscheint”. ” Definition 3.1. Ein System A von Teilmengen einer nichtleeren Menge Ω heißt eine (Mengen-) σ-Algebra (über Ω), wenn gilt: A∈A Ω ∈ A, =⇒ A1 , A2 , . . . ∈ A =⇒ Ac ∈ A, ∞ S An ∈ A. n=1 Beispiele 3.2. für σ-Algebren sind die Mengensysteme: • {Ø, Ω} – die kleinstmögliche Algebra, • {Ø, A, Ac , Ω} – die kleinste Algebra, die das Ereignis A enthält, • 2Ω = P(Ω) – die Potenzmenge von Ω, d. h. die Menge aller Teilmengen von Ω. Bemerkungen und Bezeichnungen ❶ Die letzte Aussage: A1 , A2 , . . . ∈ A ⇒ ∞ S n=1 An ∈ A gilt sinngemäß auch für endliche Folgen A1 , . . . , AN von Ereignissen (man setze dort einfach AN +1 = AN +2 = · · · = Ø): N [ An ∈ A. n=1 16 ❷ Da jedes ω in dem Ereignis Ω liegt, tritt dieses Ereignis bei jeder Durchführung des Experiments ein. Es heißt daher auch das sichere Ereignis. ❸ Sein Komplement Ωc = Ø, die leere Menge, tritt nie ein und heißt daher das unmögliche Ereignis. ❹ Eine einelementige Menge {ω} heißt ein Elementarereignis. ❺ Morgansche Regeln: Man kann leicht nachvollziehen, dass für beliebige Mengen die Gleichungen (Ac )c = A und (A ∩ B)c = Ac ∪ B c gelten. Mit diesen Regeln ergibt sich, dass σ-Algebren auch unter der Durchschnittsbildung abgeschlossen sind. Aus den Eigenschaften einer σ-Algebra folgt nämlich, dass A, B ∈ A =⇒ Ac , B c ∈ A =⇒ (A ∩ B)c = Ac ∪ B c ∈ A =⇒ A ∩ B = ((A ∩ B)c )c ∈ A. Genauso kann man zeigen, dass es auch die Abgeschlossenheit für abzählbare Durchschnitte gilt. ❻ Anstelle von A ∩ B schreiben wir auch kurz AB. ❼ Zwei Mengen A, B heißen disjunkt, falls A ∩ B = Ø. In diesem Fall schreiben wir auch A + B anstelle von A ∪ B. Wir setzen künftig voraus, dass das Ereignis-System A eine σ-Algebra ist. Ist der zu einem Zufallsexperiment gehörige Ergebnisraum höchstens abzählbar, d.h. Ω = {ω1 , ω2 , . . . , ωN } oder Ω = {ω1 , ω2 , . . .}, so lässt sich A = 2Ω wählen. Bei überabzählbaren Ergebnismengen (z.B. Ω = [0, 100] ⊂ R) darf die Potenzmenge 2Ω von Ω nicht als σ-Algebra gewählt werden, weil sie so viele, auch eigenartige, Mengen enthält. Deshalb sollte die σ-Algebra möglichst klein” sein, aber noch großgenug damit ” wichtige Mengen (= Ereignisse) zur Beschreibung eines Zufallsexperiments zur Verfügung stehen. Z.B. die kleinste σ-Algebra, die alle Punkte, offenen, halboffenen und abgeschlossenen Intervalle aus R enthält ist die σ-Algebra der Borelschen Mengen. 3.4 Wahrscheinlichkeiten Im Hinblick auf das empirische Gesetz der großen Zahlen sollten die wesentlichen Eigenschaften der relativen Häufigkeit hn auf die Funktion P übertragen werden. Dazu betrachten wir die Situation, dass ein Zufallsexperiment mit der Ergebnismenge Ω n-mal durchgeführt und dabei gezählt wurde, wie oft ein Ereignis A ⊆ Ω eingetreten ist. 17 Da die absolute Häufigkeit Hn (A) des Ereignisses nicht größer sein kann als die Anzahl n der Versuche insgesamt, muss für den Quotienten hn (A) = Hn (A)/n die Einschränkung 0 ≤ hn (A) ≤ 1 gelten. Für das sichere Ereignis Ω ist Hn (Ω) = n und daher hn (Ω) = 1, denn das sichere Ereignis tritt bei jedem Versuch ein. Schließlich kann von zwei disjunkten Ereignissen A und B bei jeder Durchführung des Experiments höchstens eines der beiden eintreten, so dass Hn (A ∪ B) = Hn (A) + Hn (B) und damit hn (A ∪ B) = hn (A) + hn (B) gilt. Wie der Mathematiker A. Kolmogoroff 1933 in seinem Buch Grundbegriffe der Wahrscheinlichkeitsrechnung zeigte, lässt sich auf folgenden Axiomen ein leistungsfähiges Gebäude der Wahrscheinlichkeitsrechnung aufbauen. Definition 3.3. Eine Funktion P : A → R auf einer σ-Algebra A von Teilmengen einer Menge Ω mit der Eigenschaften ❶ Normiertheit: P (Ω) = 1, (3.4) ❷ Nichtnegativität: P (A) ≥ 0 für alle A ∈ A, ❸ σ-Additivität: Für jede Folge A1 , A2 , . . . von paarweise disjunkten Ereignisen aus A gilt ! ∞ ∞ [ X An = P (An ) P n=1 n=1 heißt eine Wahrscheinlichkeit oder Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß. Als Axiome werden in der Mathematik diejenigen Eigenschaften eines mathematischen Objekts bezeichnet, die als Basis für alle weiteren Folgerungen dienen und die (innerhalb des mathematischen Modells) nicht weiter begründet werden. Aus diesen drei Axiomen ergeben sich unmittelbar einige Rechenregeln für Ereignisse, die bei den kommenden Berechnungen häufig benötigt werden. A, B usw. seien dabei stets Elemente aus der Ereignisalgebra A. Komplementärereignisse: Wegen A ∪ Ac = Ω und A ∩ Ac = Ø folgt aus den Axiomen 1 und 3, dass P (A) + P (Ac ) = 1 oder P (Ac ) = 1 − P (A) 18 Speziell für das unmögliche Ereignis Ø = Ωc also P (Ø) = 0. Monotonie: Ist A ⊆ B, so lässt sich B als A ∪ (Ac ∩ B) darstellen, wobei die Mengen A und Ac ∩ B disjunkt sind. Das ergibt P (B) = P (A) + P (Ac ∩ B). Und da P (Ac ∩ B) ≥ 0, folgt daraus A⊆B =⇒ P (A) ≤ P (B). (3.5) Allgemeine Additionsregel: Für beliebige nicht notwendig disjunkte Ereignisse A, B ergibt sich aus A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B) die Beziehung P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Als mathematisches Modell eines Zufallsexperiments legen wir fest: Definition 3.4. Ein Tripel (Ω, A, P ), wo Ω eine nichtleere Menge, A eine σ-Algebra von Teilmengen von Ω und P eine Wahrscheinlichkeitsverteilung auf A ist, heißt ein Wahrscheinlichkeitsraum. Ω heißt die Ergebnismenge, die Elemente der σ-Algebra A heißen Ereignisse und die Zahl P (A) heißt die Wahrscheinlichkeit des Ereignisses A. 3.5 Monotone Folgen von Ereignissen Ist B1 , B2 , . . . eine Folge von Ereignissen aus einem Wahrscheinlichkeitsraum (Ω, A, P ) ∞ S mit Bn ⊆ Bn+1 für alle n = 1, 2, . . . und ist B = Bn , so symbolisieren wir diese n=1 Situation kurz mit Bn ր B. Satz 3.5. Ist B1 , B2 , . . . eine Folge von Ereignissen mit Bn ր B, dann lim P (Bn ) = n→∞ P (B). Beweis: Nach Regel 3.5 ist die Folge der Zahlen P (Bn ) monoton steigend und nach Axiom 3.4 nach oben durch 1 beschränkt. Diese Folge ist also konvergent. Wir konstruieren eine neue Folge von Ereignissen A1 , A2 , . . . durch A1 = B1 A2 = B2 \ B1 .. . Ak = Bk \ Bk−1 .. . Diese Ereignisse Ak sind paarweise disjunkt und es gilt Bn = A1 ∪ A2 ∪ · · · ∪ An = n S Ak , k=1 B = A1 ∪ A2 ∪ · · · ∪ An ∪ · · · = 19 ∞ S k=1 Ak Daraus ergibt sich aus den Axiomen und den bisher abgeleiteten Rechenregeln n n S P lim P (Bn ) = lim P Ak = lim P (Ak ) = n→∞ n→∞ = ∞ P k=1 P (Ak ) = P k=1 n→∞ k=1 ∞ S k=1 Ak = P (B). Sei C1 , C2 , . . . eine Folge von Ereignissen mit Cn ⊇ Cn+1 , n = 1, 2, . . ., und C = kurz Cn ց C. ∞ T Cn , n=1 Satz 3.6. Ist C1 , C2 , . . . eine Folge von Ereignissen mit Cn ց C, dann lim P (Cn ) = n→∞ P (C). Beweis: Die Ereignisse Bn = Cnc erfüllen Bn ր B mit B = C c . Wegen P (Cn ) = 1−P (Bn ) und P (C) = 1 − P (B) folgt die Behauptung aus dem vorhergehenden Satz. 4 Laplace-Experimente Mit dem Aufstellen von Rechenregeln für Wahrscheinlichkeiten ist noch nicht das Problem gelöst, wie man bei konkreten Zufallsexperimenten zu konkreten Zahlen für die Wahrscheinlichkeit von Ereignissen kommt. Dies ist allerdings auch nur zum Teil ein rein mathematisches Problem. Der mathematische Teil besteht darin zu klären, welche Informationen über die Funktion P erforderlich sind um anschließend mit Hilfe der Rechenregeln die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A berechnen zu können. Das praktische” Problem besteht darin, im konkreten Einzelfall einen vernünftigen” ” ” Ansatz für die benötigte Minimalinformation über P aufzustellen. Das historisch erste Kochrezept zur Lösung dieses Problems stammt von Pierre Simon de Laplace (1749–1827): Die Wahrscheinlichkeitsrechnung besteht in der Zurückführung aller Ereignisse derselben Art auf eine gewisse Anzahl von gleich möglichen Fällen, über deren Eintreten wir gleich wenig wissen, und in der Bestimmung derjenigen Anzahl von Fällen, die für das Ereignis günstig sind, dessen Wahrscheinlichkeit wir suchen. Den ersten Teil dieser Vorschrift kann man unter Verwendung der im vorhergehenden Kapitel eingeführten Begriffe etwa folgendermaen formulieren: Beschreibe eine Versuchsanordnung durch eine Ergebnismenge derart, dass es keinen vernünftigen Einwand gegen den Ansatz gibt, dass alle Ergebnisse gleich möglich sind, bzw. – in unserer Sprechweise – dass alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen: P {ω} = p für alle ω ∈ Ω. 20 (4.6) Beispiele 4.1. ❶ Ist ein Würfel regulär, d.h. aus homogenem Material geometrisch exakt geformt, so lässt sich kaum etwas gegen die Annahme einwenden, dass jede der sechs Augenzahlen beim Wurf die gleiche Chance hat nach oben zu zeigen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} ist also für diesen Fall ein passender Ansatz. ❷ Interessiert man sich für die Augenzahlsumme beim Werfen zweier regulärer Würfel, so ist die Ergebnismenge Ωw1 (3.2) ungeeignet. Nach einer relativ kurzen Versuchsreihe zeigt sich im allgemeinen, dass sich die relativen Häufigkeiten der Elementarereignisse deutlich voneinander unterscheiden und ein Laplace-Ansatz (4.6) offensichtlich im Widerspruch zum empirischen Gesetz der großen Zahlen steht. Andererseits gibt es beim zweimaligen Werfen eines regulären Würfels (oder beim gleichzeitigen Werfen zweier unterscheidbarer regulärer Würfel) keinen vernünfigen Einwand gegen die Annahme, dass alle möglichen Kombinationen aus erster und zweiter geworfener Augenzahl die gleiche Chance besitzen. Man wird also von der Eigenschaft (4.6) für die Ergebnismenge Ωw3 wie in (3.3) ausgehen und Ereignisse der Form Die Augenzahlsumme ist x” in diesem Rahmen betrachten. ” Die Eigenschaft (4.6) ist die Minimal information, durch die der Wahrscheinlichkeitsraum (Ω, A, P ) bereits eindeutig festgelegt ist. Sie besagt als Erstes, dass jede einelementige Menge {ω} ein Element der σ-Algebra A ist. Daraus folgt, dass jede endliche Teilmenge von Ω in A liegt, denn A = {ω1 , ω2 , . . . , ωn } = {ω1 } ∪ {ω2 } ∪ · · · ∪ {ωn } ∈ A und es ist dementsprechend P (A) = P {ω1 } + P {ω2} + · · · + P {ωn } = n · p =: |A| · p, |A| bezeichnet dabei die Anzahl der Elemente der Menge A. Da man offensichtlich p > 0 ansetzen muss, um zu einer sinnvollen Wahrscheinlichkeitsverteilung zu kommen, ist ein Ansatz der Form (4.6) nur möglich, wenn die Ergebnismenge endlich ist. Denn einerseits muss stets P (A) ≤ 1 sein und andererseits gäbe es bei nichtendlichem Ω Teilmengen A einer derartigen Größe, dass |A| · p > 1 ist. Dann ist aber jede Teilmenge von Ω endlich und somit ein Element der Ereignisalgebra, so dass A = 2Ω . Weiter folgt aus 1 = P (Ω) = |Ω| · p dass p = 1/|Ω| und wir erhalten für die Wahrscheinlichkeit eines Ereignisses A die bekannte Formel Anzahl der günstigen Fälle |A| P (A) = = . |Ω| Anzahl der möglichen Fälle Wie man sich leicht überzeugt, erfüllt die Funktion P die Axiome 1 bis 3. Wir können daher festlegen: 21 Definition 4.2. Ein Laplace-Experiment ist ein Wahrscheinlichkeitsraum (Ω, A, P ) mit den folgenden Eigenschaften: • Ω ist eine endliche Menge, • A = 2Ω , • P (A) = |A| . |Ω| Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht daher im Abzählen der Elemente der entsprechenden Mengen. Beim Werfen zweier Würfel ist das recht einfach. Die Menge Ωw3 enthält 36 Elemente und das Ereignis Augenzahlsumme ” ist 7” wird durch die Menge A = (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) mit 6 Elementen und der Wahrscheinlichkeit P (A) = 1/6 repräsentiert. Das Problem des Abzählens kann sich aber zuweilen sehr schwierig gestalten. Mit diesem Teil der Wahrscheinlichkeitsrechnung, der unter das Stichwort Kombinatorik fällt, werden wir uns in diesem Kapitel anhand einiger typischer Problemstellungen kurz beschäftigen. 4.1 Kombinatorik Die Kombinatorik liefert wichtige Abzählmethoden zum Berechnen von Wahrscheinlichkeiten bei Laplace-Experimenten. Sie lassen sich in sehr anschaulicher Weise anhand des Urnenmodells oder des Schubladenmodells einführen. Diese modelle stellen einen Zwischenschritt auf dem Weg vom konkreten Zufallsexperiment zu seiner Beschreibung als Wahrscheinlichkeitsraum dar. Es sind fiktive Experimente, die die wesentlichen Zufallselemente eines konkreten Vorgangs – evtl. auch nur angenähert – beschreiben. 4.1.1 Zwei äquivalente Sprechweisen ❶ Urnenmodell, Stichprobensprechweise: Aus einer Urne mit n unterscheidbaren8 (z.B. verschiedenfarbigen) Kugeln werden zufällig k Kugeln gezogen. Dabei kann das Ziehen mit oder ohne Zurücklegen erfolgen, und die Reihenfolge eine oder keine Rolle spielen. Die Fragestellung lautet jetzt allgemein: Auf wieviele verschiedene Arten lassen sich k Kugel ziehen? In der Statistik wird solche zufällige Entnahme von k Kugeln als Stichprobe vom Umfang k bezeichnet. Sie heißt geordnet, wenn die Reihenfolge, in der die Stichprobenelemente (hier: Kugeln) gezogen werden, berücksichtigt wird. Spiel die Reihenfolge jedoch keine Rolle, so liegt eine ungeordnete Stichprobe vor. 8 Die Kugel müssen unterscheidbar sein, um festzustellen zu können, ob jede der Kugeln beim Ziehen die gleiche Chance hat (Laplace-Experiment). 22 ❷ Schubladenmodell, Zuordnungssprechweise: In dem Modell werden k Objekte zufällig auf n Schubladen verteilt. Dabei sind die Objekte entweder unterscheidbar oder nicht unterscheidbar, und die Schubladen dürfen einfach oder mehrfach besetzt werden. Urnen- und Schubladenmodell sind äquivalent: 4.1.2 Urnenmodell Schubladenmodell mit / ohne Zurücklegen mit / ohne Mehrfachbesetzung in / ohne Reihenfolge unterscheidbare / ununterscheidbare Objekte Produktregel der Kombinatorik Bei einem k-stufigen Experiment habe der Ausgang einer Stufe keinen Einfluss auf die Anzahl der möglichen Ausgänge bei späteren Stufen. Haben die einzelnen Stufen n1 , . . . , nk Ausgänge, so hat das Gesamtexperiment n1 · . . . · nk Ausgänge. Die Produktregel ist wichtig bei der Beschreibung der vier kombinatorischen Grundsituationen. 4.1.3 Die vier kombinatorischen Grundsituationen ❶ Variation (geordnete Stichprobe) k-ter Ordnung mit Wiederholung Aus einer Urne mit n verschiedenen Kugeln (Objekten) werden nacheinander k Kugeln entnommen und in der Reihenfolge ihrer Ziehung angeordnet, dabei die Ziehung der Kugeln mit Zurücklegen erfolgt, d.h. eine Kugel mehrmals verwendet werden darf. Es gibt dann genau k Vw (n, k) = n | · n · n{z· . . . · n} = n k−mal verschiedene Variationen k-ter Ordnung mit Wiederholung, wobei auch k > n sein darf. Beispiel 4.3. (aus einem älteren Stochastikbuch): Herr Meier will seinen ungezogenen Sohn mit 10 Ohrfeigen bestrafen. Auf wie viele Arten kann er das tun, wenn er bei jedem Schlag zwei Möglichkeiten hat (rechts oder links)? Es gibt 210 = 1024 Möglichkeiten. ❷ Variation (geordnete Stichprobe) k-ter Ordnung ohne Wiederholung Die Ziehung der k Kugeln (Objekten) erfolgt mit Berücksichtigung der Reihenfolge, aber diesmal ohne Zurücklegen. Jede Kugel kann also höchstens einmal gezogen 23 werden und scheidet somit für alle weiteren Ziehungen aus. Die Anzahl der Variationen k-ter Ordnung ohne Wiederholung beträgt dann V (n, k) = n! n · (n − 1) · (n − 2) · . . . · (n − k + 1) = , |{z} | {z } (n − k)! 1. Ziehung wobei k ≤ n. k−te Ziehung Spezialfall k = n: Permutation Jede mögliche Anordnung von n voneinander verschiedenen Kugeln (Objekten) heißt eine Permutation der n Kugeln. Die Anzahl der Permutationen ist gleich P (n) := n!. Beispiel 4.4. Herr Meier will seine 5 Kinder in einer Reihe anordnen für eine Gruppenaufnahme. Es gibt 5! = 5 · 4 · 3 · 2 · 1 = 120 Möglichkeiten. ❸ Kombination (ungeordnete Stichprobe) k-ter Ordnung ohne Wiederholung Aus einer Urne mit n verschiedenen Kugeln (Objekten) werden k Kugeln ohne Zurücklegen entnommen, wobei die Reihenfolge der Ziehung unberücksichtigt bleibt. Jede Kugel kann also höchstens einmal gezogen werden und scheidet somit nach erfolgter Ziehung automatisch für alle weiteren Ziehungen aus. Die Anzahl der Kombinationen k-ter Ordnung ohne Wiederholung kann man genauso wie in dem vorherigen Fall berechnen, jedoch müssen die k! Permutationen der k gezogenen Kugeln miteinander identifiziert werden: V (n, k) n! n = = , k ≤ n. C(n, k) = k! (n − k)! · k! k Beispiel 4.5. Beim Lottoschein gibt es 49 49 · 48 · 47 · 46 · 45 · 44 = 13 983 816 = 1·2·3·4·5·6 6 Möglichkeiten, 6 der 49 Zahlen anzukreuzen. Die Wahrscheinlichkeit, 6 Richtige zu tippen, ist daher 1 ≈ 7 · 10−8 . 13 983 816 ❹ Kombination (ungeordnete Stichprobe) k-ter Ordnung mit Wiederholung Die Ziehung der k Kugeln (Objekten) erfolgt ohne Berücksichtigung der Reihenfolge, aber diesmal mit Zurücklegen. Jede Kugel kann also mehrmals gezogen werden. In diesem Fall ist das Schubladenmodell hilfreich: Es sollen k nicht unterscheidbare Objekte in n Schubladen verstaut werden, wobei Mehrfachbesetzung möglich ist: 24 ◦|{z} ◦◦ 1. Schublade ◦ |{z} ... ... 2. Schublade n Schubladen ◦◦ |{z} n−te Schublade ! n − 1 Trennungsstriche Der Gesamtzustand wird beschrieben durch die Reihenfolge von k Objekten und n − 1 Trennungsstrichen, wobei, wie im vorgerigen Fall, jedoch müssen die k! Permutationen der k gezogenen Kugeln und die (n − 1)! Permutationen der n − 1 Trennungsstriche miteinander (durch die Division durch k!(n − 1)!) identifiziert werden. Daher gibt es genau k+n−1 k+n−1 (k + n − 1)! = = Cw (n, k) = k!(n − 1)! k n−1 verschiedene Kombinationen k-ter Ordnung mit Wiederholung, wobei auch k > n sein kann. Beispiel 4.6. Auf wie viele Arten können 60 Parlamentssitze auf 3 Parteien verteilt werden? In dem Beispiel ist k = 60 und n = 3, daher gibt es 60 + 3 − 1 62 62 · 61 = 1891 = = 60 2 2·1 Möglichkeiten. Zusammenstellung Kombinationen k-ter Ordnung (Mengen) Variationen k-ter Ordnung (Folgen) ohne Wiederholung mit Wiederholung n C(n, k) = k n+k−1 Cw (n, k) = k ungeordnete Stichprobe Vw (n, k) = nk geordnete Stichprobe V (n, k) = n! (n − k)! Ziehung ohne Zurücklegen 4.1.4 Ziehung mit Zurücklegen Lotto Sechs aus Neunundvierzig” ” Auf einem Lottoschein werden auf einem Zahlenfeld 6 Zahlen angekreuzt. Bei der öffentlichen Ziehung werden aus einer Trommel sechs Kugeln zufällig gezogen und die auf den Kugeln stehenden Zahlen notiert. Dann zählt man, wieviele der angekreuzten Zahlen mit 25 den gezogenen übereinstimmen. Von den weiteren Varianten wie der Zufallszahl sehen wir hier zunachst einmal ab. Bezogen auf dieses eine Zahlenfeld lässt sich dieser Vorgang auf das folgende fiktive Experiment reduzieren: In einer Urne befinden sich 49 Kugeln, 43 davon weiß und 6 schwarz. Letztere entsprechen den auf dem Zahlenfeld angekreuzten Zahlen. Aus dieser Urne werden zufällig sechs Kugeln gezogen und die Höhe des Gewinns hängt davon ab, wieviele schwarze Kugeln sich unter den sechs gezogenen befinden. Um in solchen Situationen Wahrscheinlichkeiten zu berechnen, benötigt man einen Wahrscheinlichkeitsraum für das folgende Zufallsexperiment: Beispiel 4.7. Aus einer Urne mit s schwarzen und n − s weißen Kugeln werden zufällig k Kugeln ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen. Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln S schwarze befinden? Das Eigenschaftswort zufällig soll dabei andeuten, dass es sich um ein Laplace-Experiment handeln soll. Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht im Abzählen der Elemente der Ergebnismenge und der interessierenden Ereignis AkS : Unter gezogenen k Kugeln befinden sich genau S schwarze”. ” Die Ergebnismenge besteht aus allen k-elementigen Teilmengen der n-elementigen Menge: Ωnk := {{z1 , z2 , . . . , zk }, zi = 1, 2, . . . , n und zi paarweise verschieden} . Wir haben hier mit einer Kombination k-ter Ordnung ohne Wiederholung zu tun. Wie wir schonwissen, für die Entnahme von k Elementen aus einer Menge von n Elementen gibt es nk Möglichkeiten, d.h. n n . |Ωk | = k Für die Auswahl von S-elementigen Mengen aus s schwarzen Kuglen gibt es Ss und für n−s die Auswahl von (k − S)-elementigen Mengen aus (n − s) weißen Kugeln gibt es k−S Möglichkeiten. Damit ergeben sich die günstigen Möglichkeiten als der Produkt der beiden letzten Binomialkoeffizienten s n−s |AkS | = · S k−S und wir erhalten P (AkS ) = s S · n−s k−S n k . Die Ereignisse AkS sind disjunkt und aus der Additivität der Wahrscheinlichkeitverteilung ergibt sich damit die folgende einprägsame Additionstheorem für Binomialkoeffizienten k X s n−s n · = . S k − S k S=0 Später nutzen wir diese Formeln bei der hypergeometrischen Verteilung, die z.B. in der Qualitätskontrolle eine Rolle spielt. 26 Als Anwendung von dem Beispiel berechnen wir die Wahrscheinlichkeiten, beim Lotto 6 ” aus 49” S = 0, 1, . . . , 6 Richtige” zu erhalten. ” Bei der Ziehung befinden sich in einer Trommel n = 49 durchnummerierte Kugeln, von denen k = 6 ohne Zurücklegen gezogen werden. Die s = 6 Kugeln, die die von uns auf dem Lottoschein angekreuzten Zahlen tragen, denken wir uns schwarz, die übrigen 43 weiß. Die Wahrscheinlichkeit für S Richtige” ist dann gegeben durch ” 6 43 · pS = S 496−S 6 was mit die folgenden Werte ergibt: 49 = 13 983 816 6 p0 p1 p2 p3 p4 p5 p6 = = = = = = = 0, 435964976, 0, 413019450, 0, 132378029, 0, 017650404, 0, 000968620, 0, 000018450, 0, 000000072. Beispiel 4.8. Aus einer Urne mit s schwarzen und n − s weißen Kugeln werden zufällig k Kugeln mit Zurücklegen und mit Berücksichtigung der Reihenfolge gezogen. Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln S schwarze befinden? In der Übung! 4.1.5 Galton-Brett Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die Rinnen eingefräst sind. Eine Kugel wird in die Startrinne am oberen Rand gelegt und rollt nach unten. Die unterschiedlichen Ergebnisse kommen dadurch Zustande, dass die Kugel an den Verzweigungen der Rinnen zufällig nach links oder rechts springt. Wenn man die Spitzen der Verzweigungen durch Punkte repräsentiert, ergibt sich das in Abbildung dargestellte Schema. Zu n(= 5) Punktreihen gibt es n + 1(= 6) Fächer, in die die Kugel fallen kann und die wir von 0 bis n von links nach rechts durchnummerieren. Start 0 1 2 3 4 5 Schema des Galtons-Bretts Die verschiedenen möglichen Wege, die die Kugel auf diesem Brett durchlaufen kann, lassen sich durch die Sprungrichtungen der Kugel auf den n Reihen beschreiben. Jedem 27 Weg entspricht ein Binärvektor δ = (δ1 , δ2 , . . . , δn ), wobei δi = 0 bzw. = 1, wenn die Kugel auf der i-ten Reihe nach links bzw. nach rechts springt. Der Beispielweg auf der Abbildung kann man also durch den Vektor δ = (1, 0, 1, 1, 0) beschreiben. Bei einem regulär gebauten Galton-Brett kann man davon ausgehen, dass auf jeder Reihe Sprünge nach rechts und nach links gleich möglich sind und weiter, dass jede Kombination von Sprüngen gleich möglich ist, so dass Ωn = {δ = (δ1 , δ2 , . . . , δn ) : δi ∈ {0, 1}} eine geeignete Ergebnismenge ist, die bekanntermaßen |Ωn | = 2n Elemente besitzt. Wie berechnet man unter der Annahme, dass wir ein Laplace-Experiment vor uns haben, die Wahrscheinlichkeit des Ereignisses Ank : ” die Kugel fällt in das Fach Nr. k”? Anhand der Abbildung überzeugt man sich leicht, dass die Kugel beim n-reihigen GaltonBrett in das Fach k fällt, wenn sie bei ihren n Sprüngen auf dem Weg nach unten genau k-mal nach rechts und (n − k)-mal nach links springt, wobei es gleichgültig ist, in welcher Reihenfolge diese Sprünge erfolgen. In der Ergebnismenge n wird dieses Ereignis durch die Menge aller Binärvektoren repräsentiert, die genau k Einsen (und folglich n − k Nullen) enthalten. ( ) n X Ank = δ = (δ1 , δ2 , . . . , δn ) : δi ∈ {0, 1} und δi = k i=1 Die Anzahl der Elemente dieser Menge ist gleich der Anzahl aller k-ter Kombinationen mit Wiederholung n n |Ak | = . k Die Wahrscheinlichkeit, dass bei einem regulären Galton-Brett die Kugel im Fach Nummer k landet, ist somit durch die Formel n P (Ank ) = k 2n gegeben. Die Binomialkoeffizienten nk kann man leicht rekursiv berechnen mit dem folgenden Berechnungsschema, dem sog. Pascalschen Dreieck (B. Pascal, 1623–1662). Jede Zahl ist die Summe der beiden darüberstehenden Zahlen. n=0 n=1 n=2 n=3 n=4 n=5 n=6 1 1 1 1 1 1 1 2 3 4 5 6 1 6 10 15 28 1 3 1 4 10 20 1 5 15 1 6 1 5 Bedingte Wahrscheinlichkeiten Zur mathematischen Präzisierung des etwas vagen Begriffs der unabhängigen Durchführung von Zufallsexperimenten benötigt man eine Größe, die anzeigt, welchen Einfluss das Eintreten eines Ereignisses auf das Eintrittsverhalten eines anderen hat. Diese Größe heißt die bedingte Wahrscheinlichkeit. Um die nachfolgende Definition zu begründen und zu veranschaulichen, wie die bedingte Wahrscheinlichkeit bei konkreten Zufallsexperimenten zu interpretieren ist, stellen wir uns die fiktive n-fache Durchführung eines Zufallsexperiments vor, bei dem zwei Ereignisse A und B beobachtet werden. Die bedingte relative Häufigkeit hn (A|B) des Ereignisses A unter der Bedingung B sei dabei die relative Häufigkeit von A auf der Teilversuchsreihe der Experimente unter den n durchgeführten, bei denen das Ergebnis B eingetreten ist. Das heisst, nur diese Versuchsausgänge eine Rolle spielen, die zum Ereignis B gehören. Wenn diese bedingte relative Häufigkeit von der relativen Häufigkeit hn (A) von A bezogen auf alle Durchführungen stark abweicht, ist anzunehmen, dass das Eintreten des Ereignisses B einen gewissen Einfluss auf dasjenige von A hat, dass also die Ereignisse A und B bezüglich ihres stochastischen Verhaltens voneinander abhängig sind. Die Teilversuchsreihe, auf der das Ereignis B eingetreten ist, hat die Länge Hn (B) und die Anzahl der Experimente unter diesen Hn (B), bei denen das Ereignis A eingetreten ist, ist gleich der Anzahl Hn (A ∩ B) der Experimente unter den n insgesamt durchgeführten, die sich durch das gleichzeitige Eintreten von A und B auszeichnen. Die Formel für die bedingte relative Häufigkeit lautet daher hn (A|B) = Hn (A ∩ B)/Hn (B). Dividiert man Zähler und Nenner dieses Bruchs durch die Zahl n, ergibt sich die Formel hn (A|B) = hn (A ∩ B) hn (B) die sich durch das Ersetzen des Symbols hn durch P in ein wahrscheinlichkeitstheoretisches Äquivalent umwandeln lässt. Definition 5.1. Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse, wobei P (B) > 0. Die Wahrscheinlichkeit für das Eintreten des Ereignisses A unter der Bedingung (Voraussetzung, Hypothese), dass das Ereignis B bereits eingetreten ist, ist durch die Gleichung P (A ∩ B) P (A|B) = (5.7) P (B) gegeben und heißt die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B. Bei festgehaltenem B erfüllt – wie man sich leicht überzeugt – die Funktion A 7−→ P (A|B) die Axiome von Kolmogoroff (s. Def. 3.3) und ist damit eine neue Wahrscheinlichkeitsverteilung auf der Ereignisalgebra A. 29 Beispiel 5.2. Ein Krebstest ist mit 96%-iger Sicherheit positiv, falls der Patient Krebs hat, mit 94%-iger Sicherheit negativ, falls er keinen Krebs hat. Bei einem Patienten, in dessen Altersgruppe 0.5% aller Personen Krebs haben, verläuft der Test positiv. Wie groß ist die Wahrscheinlichkeit, dass er tatsächlich krank ist? Zur Lösung denken wir uns die Altersgruppe des untersuchten Patienten mit {1, 2, . . . , n} numeriert. Bei zufälliger Auswahl einer Person ist dann jeder Person die Wahrscheinlichkeit n1 zugeordnet (Laplace-Experiment). Ist K die Menge der Kranken und G die der Gesunden, so soll also |K| ≈ 0.005 n und |G| ≈ 0.995 n sein. Ist T die Teilmenge der Personen, bei denen das Test (im Fall der Anwendung) positiv ist, so soll ferner |K ∩ T | ≈ 0.96 · |K| und |G ∩ T | ≈ 0.06 · |G| gelten. Also setzen wir P (K) = 0.005, P (G) = 0.995, P (K ∩ T ) = 0.96 · 0.005, P (G ∩ T ) = 0.06 · 0.995 und weiter P (T ) = P (K ∩ T ) + P (G ∩ T ) = 0.005 · 0.96 + 0.995 · 0.06, da T = (K ∩ T ) ∪ (G ∩ T ) und die Mengen K ∩ T und G ∩ T disjunkt sind. Dann die Wahrscheinlichkeit, dass der Patient Krebs hat, unter Bedingung, dass Test bei ihm positiv war, ist gleich P (K|T ) = P (K ∩ T ) 0.005 · 0.96 = = 0.074. P (T ) 0.005 · 0.96 + 0.995 · 0.06 Der Patient kann also noch relativ beruhigt sein. Schlussfolgerung: Um eine seltene Krankheit zuverlässig zu erkennen, darf ein Test nur sehr wenige false positives” haben. ” 5.1 Rechenregeln Multipliziert man die Gleichung (5.7) mit P (B), so erhält man Satz 5.3 (Multiplikationsatz). Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse. Die Wahrscheinlichkeit für das gleichzeitige Eintreten der Ereignisse A und B ist P (A ∩ B) = P (A|B) · P (B) (5.8) Bemerkung. Im Fall P (B) = 0 definiert man gelegentlich P (A|B) := 0 oder auch P (A|B) := unbestimmt”. In beiden Fällen gilt die Formel 5.8. ” Durch zweimalige Anwendung von (5.8) ergibt sich weiter P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C) = P (A|B ∩ C) · P (B|C) · P (C) 30 (5.9) mit offensichtlicher Erweiterung auf den Durchschnitt einer beliebigen endlichen Anzahl von Ereignissen: P (A1 ∩ . . . ∩ An ) = P (An |A1 ∩ . . . ∩ An−1 ) · . . . · P (A3 |A1 ∩ A2 ) · P (A3 |A1 ) · P (A1 ) , wobei A1 , . . . , An ⊆ Ω. Man benutzt diese Gleichungen häufig zur Berechnung von Wahrscheinlichkeiten bei Zufallsexperimenten, die in mehreren Schritten ablaufen. Beispiel 5.4. Betrachten wir eine Urne, die s schwarze und n − s weiße Kugeln enthält und aus der zufällig 3 Kugeln ohne Zurücklegen der Reihe nach gezogen werden. Wie groß ist die Wahrscheinlichkeit, dass alle drei gezogenen Kugeln schwarz sind? Das Ereignis Alle drei gezogenen Kugeln sind schwarz” ist von der Form A ∩ B ∩ C, ” wobei C, B bzw. A die Ereignisse Erste Kugel ist schwarz”, Zweite Kugel ist schwarz” ” ” bzw. Dritte Kugel ist schwarz” repräsentieren. ” Zur Berechnung der drei Faktoren auf der rechten Seite von (5.9) erspart man sich in den meisten derartigen Fällen die Beschreibung des Experiments durch einen passenden Wahrscheinlichkeitsraum und interpretiert die Wahrscheinlichkeitsverteilungen P (.), P (.|B) und P (.|B ∩C) als Wahrscheinlichkeitsgesetze dreier konkreter Zufallsexperimente nach dem folgenden Muster: ❶ Bei P (C) hat man es offensichtlich mit einer Urne mit n Kugeln zu tun, aus der eine Kugel zufällig gezogen wird. Nach Laplace ist die Wahrscheinlichkeit, dass diese schwarz ist, gleich P (C) = s/n. ❷ Unter der Bedingung, dass das Ereignis C eingetreten ist, enthält die Urne nur noch n − 1 Kugeln, von denen s − 1 schwarz sind. P (.|C) beschreibt das Ziehen einer Kugel aus dieser Urne. Somit ist P (B|C) = (s − 1)/(n − 1). ❸ Sind beide Ereignisse B und C eingetreten, enthält die Urne nur noch n − 2 Kugeln mit s − 2 schwarzen. Dementsprechend ist P (A|B ∩ C) = (s − 2)/(n − 2). Insgesamt ergibt sich auf diese Weise P (A ∩ B ∩ C) = s(s − 1)(s − 2) . n(n − 1)(n − 2) Beispiel 5.5. Wie groß ist die Wahrscheinlichkeit, beim 6-maligen Werfen eines regulären Würfels 6 verschiedene Augenzahlen zu werfen? Das Ereignis Alle 6 geworfene Augenzahlen sind verschieden” ist von der Form ” A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6 , wobei A1 , A2 . . . , A6 folgende Ereignisse repräsentieren: 31 A1 : A2 : .. . irgend ein Ergebnis für 1. Wurf, ein vom 1. Ergebnis verschiedenes Ergebnis für 2. Wurf, A6 : ein von A1 , . . . , A5 verschiedenes Ergebnis für 6. Wurf. Daraus folgt, dass 4 1 5 P (A2 |A1 ) = , P (A3 |A2 ∩ A1 ) = , . . . , P (A6 |A1 ∩ . . . ∩ A5 ) = . 6 6 6 Insgesamt ergibt sich auf diese Weise P (A1 ) = 1, P (A1 ∩ . . . ∩ A6 ) = P (A6 |A1 ∩ . . . ∩ A5 ) · . . . · P (A3 |A1 ∩ A2 ) · P (A3 |A1 ) · P (A1 ) = 1 4 5 6! = · . . . · · · 1 = 6 ≈ 0.015. 6 6 6 6 Bei Zufallsexperimenten, deren Struktur nicht ganz so einfach zu durchschauen ist wie dem obigen, können bei dieser Vorgehensweise aber leicht Fehlinterpretationen vorkommen wie bei dem folgenden Bertrandschen Paradoxon: Beispiel 5.6. Aus drei Kästen, von denen einer zwei goldene Münzen, einer zwei silberne Münzen und einer eine goldene und eine silberne Münze enthält, wird zufällig einer ausgewählt und eine Münze entnommen. Wie groß ist – unter der Bedingung, dass man dabei eine goldene Münze gezogen hat – die Wahrscheinlichkeit, dass die im ausgewählten Kasten verbliebene Münze ebenfalls aus Gold ist? Seien A, B bzw. C die Ereignisse, dass man den Kasten mit zwei goldenen, einer silbernen und einer goldenen bzw. zwei silbernen Münzen auswählt, und G1 bzw. G2 die Ereignisse, dass die gezogene bzw. verbleibende Münze aus Gold ist. Dann ist die bedingte Wahrscheinlichkeit P (G2 |G1 ) zu berechnen. Auf den ersten Blick ist man geneigt, die bedingte Wahrscheinlichkeit P (.|G1) dahingehend zu interpretieren, dass man einen von den beiden Kästen A und B auswählt. Das Ereignis G2 entspricht dann der Auswahl des Kastens A und hat somit die Wahrscheinlichkeit P (G2 |G1 ) = 1/2. Eine überschlägige Berechnung der bedingten relativen Häufigkeit zeigt, dass diese Argumentation nicht korrekt sein kann. Nimmt man an, dass bei N Durchführungen dieses Experiments jeder der drei Kästen gleich oft gewählt wird und in der Hälfte der N/3 Falle, in denen der Kasten B gewählt wurde, zuerst die goldene Münze gezogen wird, tritt in N/3 + N/6 Durchführungen das Ereignis G1 ein, wobei in N/3 Fällen (Auswahl von A) gleichzeitig auch G2 eintritt. Die bedingte relative Häufigkeit hN (G2 |G1 ) ist damit gleich 2/3. Bei der obigen Argumentation wurde offensichtlich nicht berücksichtigt, dass die Auswahl des Kastens B nicht automatisch das Ziehen der goldenen Münze nach sich zieht. Der korrekte Lösungsweg führt über einen passenden Wahrscheinlichkeitsraum: Betrachtet man als Ergebnisse die Paare ω = (f1 , f2 ), wo f1 die Farbe der gezogenen und f2 die Farbe der verbleibenden Münze ist, so erhält man den Ergebnisraum Ω = {(g, g), (g, s), (s, g), (s, s)} 32 und die relevanten Ereignisse werden durch die Mengen A = {(g, g)} , B = {(g, s), (s, g)} , C = {(s, s)} und G1 = {(g, g), (g, s)} , G2 = {(g, g), (s, g)} repräsentiert. Nach Aufgabenstellung haben die drei Ereignisse A, B und C die gleiche Wahrscheinlichkeit: P (A) = P (B) = P (C) = p. Wegen A ∪ B ∪ C = Ω (die Mengen sind disjunkt) muss nach unseren Rechenregeln für Wahrscheinlichkeiten p = 1/3 sein. Geht man weiter davon aus, dass aus dem Kasten B mit gleicher Wahrscheinlichkeit die goldene oder silberne Münze gezogen wird, ist P {(g, s)} = P {(s, g)} = 1/6. Damit erhält man P (G2 |G1 ) = P (G1 ∩ G2 ) P {(g, g)} 2 = = . P (G1 ) P {(g, g)} + P {(g, s)} 3 Weitere Regeln: Aus P (A|B) · P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A) · P (A) erhält man für den Fall, dass P (A) und P (B) beide positiv sind, die Beziehung P (B|A) = P (A|B) · P (B) . P (A) (5.10) Bemerkung. In der obigen Formel wird P (B|A) aus P (A|B) berechnet, d.h. Ursache und Wirkung kehren sich um. Eine typische Anwendung besteht darin, dass man eine Wirkung misst und nach der wahrscheinlichsten Ursache fragt (inverses Problem). 5.2 Partitionen Sei J entweder die endliche Indexmenge {1, 2, . . . , n} mit einer natürlichen Zahl n oder die Menge aller natürlichen Zahlen. Definition 5.7. Eine Menge {Bj : j ∈ J} von Ereignissen Bj ∈ A heißt eine Partition von Ω, wenn die Bj paarweise disjunkt sind und außerdem [ Bj = Ω j∈J gilt. Ist A ∈ A ein beliebiges Ereignis und {Bj : j ∈ J} eine Partition von Ω, so ist [ [ A = A∩Ω = A∩ Bj = (A ∩ Bj ) . j∈J 33 j∈J Anwendung von P liefert P (A) = X j∈J P (A ∩ Bj) und zusammen mit (5.8) erhält man die Formel von der totalen Wahrscheinlichkeit P (A) = X j∈J P (A|Bj ) · P (Bj ), (5.11) die bei der Konstruktion von Wahrscheinlichkeitsverteilungen aus einfachen Bausteinen eine wesentliche Rolle spielt. Veranschaulichung. Die Formel von der totalen Wahrscheinlichkeit läßt sich mit Hilfe des sog. Ereignisbaumes (Baumdiagrammes) veranschaulichen. (B ) n n P P (A |B ) Er besteht aus einer Wurzel W (Ausgangspunkt), mehreren Verzweigungspunkten und einer Vielzahl von Zweigen. Die Verzweigungspunkte B1 , . . . , Bn charakterisieren dabei die möglichen Zwischenergenisse nach der 1. Stufe des ZufallsB1 P (A| ) experiments, die von diesen Verzweigungspunkten 1 B B P( 1) ausgehenden Zweige führen zu den möglichen ErW P (B2 ) B2 P (A|B2 ) A gebnissen der nachfolgenden 2. Stufe. .. Die Wahrscheinlichkeit eines bestimmten Ereignis. .. ses schreibt man an den betreffenden Zweig. So ist . z.B. P (B1 ) die Wahrscheinlichkeit des ZwischenBn ergebnisses B1 . Zu beachten ist, dass es sich bei der 2. Stufe um bedingte Wahrscheinlichkeiten handelt. Die Wahrscheinlichkeiten längst eines Pfades werden miteinander multipliziert. Führen mehrere Pfade zum gleichen Endergebnis, so addieren sich ihre Wahrscheinlichkeiten. Die Gesamtwahrscheinlichkeit von dem Endergebnis A ist daher gleich P (A) = n X i=1 P (Bi ) · P (A|Bi ) . Bemerkung. Im Beispiel 5.2 haben wir im Nenner bereits den Satz von der totalen Wahrscheinlichkeit verwendet. 5.3 Die Formel von Bayes Die Kombination von (5.10) und (5.11) ergibt die wohl bekannteste Formel für die bedingte Wahrscheinlichkeiten (auch Umkehr-Formel genannt), die dazu dient, aus eingetretenen Ereignissen (hier A) Schlüsse auf nicht beobachtete Ereignisse (hier Bk ) zu ziehen. 34 Satz 5.8 (Formel von Bayes). Sei A ∈ A ein beliebiges Ereignis mit P (A) > 0 und sei {Bj : j ∈ J} eine Partition von Ω. Dann gilt P (A|Bk ) · P (Bk ) P (Bk |A) = P P (A|Bj ) · P (Bj ) (5.12) j∈J Anwendungsbeispiele: ❶ Ein Arzt beobachtet bei einem Patienten ein Symptom A. Es kann von n verschiedenen Krankheiten Bk , k = 1, . . . , n herrühren. Um die wahrscheinlichste Ursache zu finden, muss man also P (Bk |A) abschätzen. ❷ Aus einem verrauschten Bild will man das wahrscheinlichste unverrauschte Bild rekonstruieren. ❸ In der Computertomographie schickt man Röntgenstrahlung in verschiedenen Richtungen durch den Patienten und misst die durchgedrungene Intensität. Aus diesen Auswirkungen versucht man, Rückschlüsse auf die Ursache (Gewebe, Knochen, Tumor, etc.) zu ziehen. Beispiel 5.9. Um einen binären Nachrichtenkanal robuster gegenüber Störungen zu machen, sendet man die Bitfolge 0000000 statt 0 und 1111111 statt 1. Störungen treten in 20% aller Fälle auf, und die Wahrscheinlichkeit, dass die Bitfolge 0000000 gesendet wurde, sei 0.1. Es wird die Bitfolge 0100110 empfangen. Wie groß ist die Wahrscheinlichkeit, dass 0000000 gesendet wurde? Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang einer Bitfolge” ” wählen wir Ω = (bg , be ) : bg ∈ {0000000, 1111111}, be ∈ {0, 1}7 , wobei das Ergebnis (bg , be ) zu lesen ist als die Bitfolge bg wurde gesendet und die Bitfolge ” be empfangen”. Die σ-Algebra A sei die Menge aller Teilmengen von Ω. Von besonderem Interesse in diesem Zusammenhang sind die Ereignisse B0 : B1 : A: Die Bitfolge 0000000 wurde gesendet, Die Bitfolge 1111111 wurde gesendet, Die Bitfolge 0100110 wurde empfangen. Die a priori-Wahrscheinlichkeiten P (Bk ) der (disjunkten) Ereignisse Bk , k = 0, 1, P (B0 ) = 0.1, P (B1 ) = 0.9 und die bedingte Übertragungswahrscheinlichkeiten (Störungen) P (A|B0 ) = 0.23 · 0.84 , P (A|B1 ) = 0.24 · 0.83 35 sind bekannt. Aus der Bayes’schen Formel ergibt sich P (B0 |A) = P (A|B0 ) · P (B0 ) = P (A|B0 ) · P (B0 ) + P (A|B1 ) · P (B1 ) 0.1 · 0.23 · 0.84 ≈ 0.308. 0.1 · 0.23 · 0.84 + 0.9 · 0.24 · 0.83 Man wird den Block also als 1 lesen, obwohl die Mehrzahl der Bits Nullen sind! = Die Bayes’sche Formel ist von Bedeutung im Rahmen der statistischen Entscheidungstheorie. Wir wollen dies anhand eines simplen Beispiels erläutern. Gegeben ist eine Übertragungsstrecke, die Sendebuchstaben a aus einem endlichen Sendealphabet A in Empfangsbuchstaben b aus einem Alphabet B umwandelt, wobei es sich bei dieser Umwandlung um ein Zufallsexperiment handelt. D.h. in Abhängigkeit von a werden die verschiedenen Buchstaben b mit unterschiedlichen, von a abhängigen Wahrscheinlichkeiten empfangen. Gesucht ist ein Entscheidungsverfahren D : B → A, das A ∋ a 7−→ Kanal 7−→ b ∈ B 7−→ D 7−→ a′ ∈ A Abbildung 1: Übertragungsstrecke jedem Empfangsbuchstaben b einen vermutlich gesendeten Buchstaben D(b) = a′ ∈ A so zuordnet, dass die Wahrscheinlichkeit von Entscheidungsfehlern minimiert wird. Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang” wählen wir ” Ω = {(a, b) : a ∈ A, b ∈ B}, wobei das Ergebnis (a, b) zu lesen ist als a wurde gesendet ” und b empfangen”. Die σ-Algebra A sei die Menge aller Teilmengen von Ω. Von besonderem Interesse in diesem Zusammenhang sind die Ereignisse a wurde ge” sendet”, dem die Menge Ga = {(a, b) : b ∈ B} entspricht, und b wurde empfangen”, ” repräsentiert durch Eb = {(a, b) : a ∈ A}. Hinsichtlich der Wahrscheinlichkeitsverteilung P nehmen wir an, dass uns die a priori Wahrscheinlichkeiten der Sendebuchstaben: für a ∈ A pa = P (Ga ) und die bedingten Übertragungswahrscheinlichkeiten pb|a = P (Eb |Ga ) für a ∈ A und b ∈ B bekannt sind. Ersteres bedeutet, dass man beispielsweise weiß, in welcher Sprache gesendet wird, und letzteres erhält man etwa durch Senden von Testsignalen und Bestimmung der relativen Häufigkeiten. Aus P {(a, b)} = P (Ga ∩ Eb ) = P (Eb |Ga ) · P (Ga ) = pb|a · pa ersieht man, dass durch diese Angaben die Wahrscheinlichkeit P vollständig bestimmt ist. Die Bedeutung der Bayes’schen Formel ergibt sich aus dem folgenden 36 Satz 5.10. Ein Entscheidungsverfahren D : B → A, welches die Wahrscheinlichkeit von Entscheidungsfehlern minimiert, ist durch die folgende Vorschrift gegeben: Für jedes b ∈ B ist als D(b) ein Sendebuchstabe zu wählen, welcher die Funktion a 7−→ P (Ga |Eb ) maximiert. Da das Maximum dieser Funktionen nicht unbedingt eindeutig bestimmt sein muss, gibt es evtl. mehrere optimale Entscheidungsverfahren. Die bedingten Wahrscheinlichkeiten P (Ga |Eb ) heißen a posteriori Wahrscheinlichkeiten der Sendebuchstaben. Gegenüber den a priori Wahrscheinlichkeiten enthalten sie zusätzliche Information, nämlich die Tatsache, dass das Ereignis b wurde empfan” gen” eingetreten ist. Ihre Berechnung aus den a priori Wahrscheinlichkeiten und den Übertragungswahrscheinlichkeiten erfolgt über die Bayes’sche Formel. Beweis des Satzes: Das Ereignis Entscheidungsfehler” bei Verwendung des Verfahrens D wird durch die ” Menge FD = {(a, b) ∈ Ω : D(b) 6= a} beschrieben. Wegen P (FDc ) = 1 − P (FD ) ist Minimierung der Wahrscheinlichkeit von Entscheidungsfehlern gleichbedeutend mit dem Maximieren der Wahrscheinlichkeit des Ereignisses korrekte Entscheidung”, gegeben durch die Menge ” RD = FDc = {(a, b) ∈ Ω : D(b) = a} = {(D(b), b) : b ∈ B} . Für die Wahrscheinlichkeit dieses Ereignisses gilt P (RD ) = P {(D(b), b) : b ∈ B} = = P b∈B P GD(b) ∩ Eb = P b∈B P b∈B P {(D(b), b)} = P GD(b) |Eb · P (Eb ) . Um die letzte Summe in Abhängigkeit von D zu maximieren, kann man jeden Summanden für sich betrachten. Dies bedeutet, dass man – wie oben behauptet – für jedes b ∈ B den Wert D(b) aus dem Bereich der Sendebuchstaben a so wählen muss, dass P (Ga |Eb ) maximal wird. Zur zahlenmäßigen Veranschaulichung nehmen wir folgendes Beispiel 5.11. Drei Jäger schießen auf ein flüchtendes Wildschwein. Jäger 1 schießt dabei dreimal und Jäger 2 doppelt so oft wie Jäger 3. Nach einiger Zeit ist das Wildschwein erlegt und es muss geklärt werden, wer der glückliche Schütze ist, bzw. für wen wir uns als solchen entscheiden, wenn wir außerdem aus Beobachtungen am Schießstand wissen, dass die Trefferwahrscheinlichkeiten der drei Jäger 0.3, 0.6 bzw. 0.8 sind. Als Zufallsexperiment wählen wir die zufällige Auswahl einer der Kugeln, die in Richtung Wildschwein abgefeuert werden. Wenn wir die Flugbahn dieser Kugel in beiden Richtungen verfolgen, kann man die folgenden Ereignisse unterscheiden: 37 Bk : T : Die Kugel stammt von Jäger k, k = 1, 2, 3 Die Kugel erlegt das Wildschwein. Aus den unterschiedlichen Schusshäufigkeiten können wir die a priori-Wahrscheinlichkeiten P (Bk ) der (disjunkten) Ereignisse Bk ableiten: P (B1 ) = 3p, P (B2 ) = 2p, P (B3 ) = p. Zusammen mit P (B1 ) + P (B2 ) + P (B3 ) = P (B1 ∪ B2 ∪ B3 ) = P (Ω) = 1 erhält man p = 1 6 und 1 P (B1 ) = , 2 1 P (B2 ) = , 3 1 P (B3 ) = . 6 Vom Schießstand kennen wir die bedingten Trefferwahrscheinlichkeiten P (T |Bk ) unter der Bedingung, dass Jäger k schießt: P (T |B1 ) = 0.3, P (T |B2 ) = 0.6, P (T |B3 ) = 0.8. Mit diesen Kenntnissen können wir nach der Formel von Bayes die bedingten Wahrscheinlichkeiten P (Bk |T ) dafür berechnen, dass die ausgewählte Kugel von Jäger k stammt unter der Bedingung, dass sie das Wildschwein erlegt hat: P (B1 |T ) = 9 , 29 P (B2 |T ) = 12 , 29 P (B3 |T ) = 8 . 29 Mangels genauer kriminaltechnischer Untersuchung müssen wir also davon ausgehen, dass Jäger 2 das Wildschwein getroffen hat. 38 6 Stochastische Unabhängigkeit 6.1 Stochastische Unabhängigkeit von zwei Ereignissen Gemäß den Überlegungen eingangs des vorigen Kapitels wird man bei der n-fachen Durchführung eines Zufallsexperiments ein Ereignis A als unabhängig von einem Ereignis B ansehen, wenn die bedingte relative Häufigkeit hn (A|B) etwa gleich der relativen Häufigkeit hn (A) bezüglich aller Durchführungen ist. Im theoretischen Modell entspricht dies der Gleichung P (A|B) = P (A). Um die Definition symmetrisch in A und B zu gestalten und um den Fall P (B) = 0 nicht gesondert behandeln zu müssen, setzt man diese Gleichung in Formel (5.8) ein und erhält so Definition 6.1. Zwei Ereignisse A, B in einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft P (A ∩ B) = P (A) · P (B) heißen stochastisch unabhängig. Zusätzlich zur Additionsregel P (A ∪ B) = P (A) + P (B) für disjunkte Ereignisse A und B haben wir damit auch noch eine Produktregel. Aber Achtung! Disjunkt” und stochastisch unabhängig” sind komplementäre Begriffe. ” ” Zwei Ereignisse A und B können im allgemeinen nicht gleichzeitig disjunkt und stochastisch unabhängig sein, denn bei P (A) > 0 und P (B) > 0 folgt aus A ∩ B = Ø, dass P (A ∩ B) = 0 6= P (A) · P (B) und damit stochastische Abhängigkeit. Die beiden Begriffe besitzen auch einen unterschiedlichen Stellenwert im Rahmen der Wahrscheinlichkeitsrechnung. Es ist stets entscheidbar, ob zwei Ereignisse disjunkt sind oder nicht und im ersteren Fall gilt stets die Additionsregel. Ob aber zwei Ereignisse stochastisch unabhängig sind oder nicht, hängt von der verwendeten Wahrscheinlichkeitsverteilung ab und damit vom Modellbauer, der entscheidet, ob in einem Zufallsexperiment einige Ereignisse als unabhängig anzusehen sind oder nicht. Lemma 6.2. Seien A und B zwei Ereignisse. ❶ Mit A und B sind auch die Paare Ac , B und A, B c und Ac , B c stochastisch unabhängig. ❷ Ist P (A) = 0 oder P (A) = 1, so sind A und B für beliebige Ereignisse B stochastisch unabhängig. Beweis: ❶ Aus B = (A ∩ B) ∪ (Ac ∩ B) und der Unabhängigkeit folgt P (B) = P (A) · P (B) + P (Ac ∩ B) oder P (Ac ∩ B) = (1 − P (A)) · P (B) = P (Ac ) · P (B). Die anderen beiden Aussagen erhält man in ähnlicher Weise. ❷ Ist P (A) = 0, so ist wegen A ∩ B ⊆ A auch P (A ∩ B) = 0 und es gilt dann stets P (A ∩ B) = 0 = P (A) · P (B). Ist P (A) = 1 so ist P (Ac ) = 0, somit Ac und B unabhängig. Der Rest folgt aus Punkt 1. 39 6.2 Globale stochastische Unabhängigkeit Bei mehr als zwei Ereignissen A1 , A2 , . . . An reicht es nicht, die stochastische Unabhängigkeit aller Paare Ai , Aj zu fordern. Wie man an Gleichung (5.9) sieht, erhält man eine Produktregel für die drei Ereignisse A, B und C nur dann, wenn man darüber hinaus fordert, dass A auch noch von dem Verbundereignis B ∩ C stochastisch unabhängig ist. Für mehr als zwei Ereignisse benutzt man daher die folgende Definition: Definition 6.3. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) heißen global stochastisch unabhängig, wenn für jeden der Indizes i = 1, 2, . . . , n gilt: Das Ereignis Ai ist stochastisch unabhängig von allen Verbundereignissen, die man aus den übrigen Ereignissen Aj mit j 6= i bilden kann. Zu dieser Definition gibt es zwei äquivalente Formulierungen, die hier nur vorgestellt aber nicht bewiesen werden, da die Beweise zwar leicht, aber nur mit ziemlichem Schreibaufwand nachvollzogen werden können. Satz 6.4. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) sind genau dann global stochastisch unabhängig, wenn für jede Teilmenge {i1 , i2 , . . . , im } ⊂ {1, 2, . . . , n} von Indizes gilt P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aim ) . Satz 6.5. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) sind genau dann global stochastisch unabhängig, wenn für jede Auswahl von Ereignissen Bi aus den Teil-σ-Algebren Ai = {Ø, Ai , Aci , Ω} von A gilt: P (B1 ∩ B2 ∩ . . . ∩ Bn ) = P (B1 ) · P (B2 ) · . . . · P (Bn ) . 6.3 Produktexperimente Ein Produktexperiment soll ein Wahrscheinlichkeitsraum (Ω, A, P ) sein, der die stochastisch unabhängige Durchführung von einzelnen Zufallsexperimenten beschreibt, die durch Wahrscheinlichkeitsräume (Ω1 , A1, P1 ), (Ω2 , A2 , P2 ),. . . , (Ωn , An , Pn ) repräsentiert werden. Aus dieser Formulierung ergeben sich die folgenden Anforderungen an die Größen Ω, A und P : Ergebnismenge: Die Ergebnisse ω ∈ Ω sind einfach Auflistungen der Ergebnisse der Einzelexperimente. Ω = {ω = (ω1 , ω2 , . . . , ωn ) : ωi ∈ Ωi } . Eine Menge Ω mit dieser Struktur bezeichnet man auch als das cartesische Produkt der Mengen Ωi und schreibt dafür Ω = Ω1 × Ω2 × . . . × Ωn . 40 Ereignisse: In der Ereignisalgebra sollen auf jeden Fall die Ereignisse der Form Beim ” k-ten Experiment tritt Ak ∈ Ak ein”. enthalten sein. Diese werden in Ω durch die Mengen Z (Ak ) = {ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω : ωk ∈ Ak } repräsentiert. Als σ-Algebra A wählt man daher die kleinste σ-Algebra auf Ω, die alle diese Mengen enthält. Sie heißt die Produkt-σ-Algebra der Ak und wird mit A = A1 ⊗ A2 ⊗ . . . ⊗ An bezeichnet. Insbesondere enthalt sie die Ereignisse Z (A1 ) ∩ Z (A2 ) ∩ . . . ∩ Z (An ) = A1 × A2 × . . . × An d.h. die cartesischen Produkte von Ereignissen aus den Einzelexperimenten. Wahrscheinlichkeit: Die Wahrscheinlichkeitsverteilung P eines Produktexperiments muss zwei Bedingungen erfüllen: ❶ Die Wahrscheinlichkeitsgesetze der Einzelexperimente müssen erhalten bleiben, d.h. P (Z (Ak )) = Pk (Ak ) (6.13) für alle Ereignisse Ak ∈ Ak und alle k. ❷ Für beliebige Ak ∈ Ak müssen die Mengen Z (A1 ) , Z (A2 ) , . . . Z (An ) global stochastisch unabhängig sein. Insbesondere muß also gelten P (Z (A1 ) ∩ Z (A2 ) ∩ . . . ∩ Z (An )) = P (Z (A1 ))·P (Z (A2 ))·. . .·P (Z (An )) . (6.14) Die Formeln (6.13) und (6.14) kann man zu P (A1 × A2 × . . . × An ) = P1 (A1 ) · P2 (A2 ) · . . . · · · Pn (An ) zusammenfassen. Was die Existenz einer solchen Wahrscheinlichkeitsverteilung betrifft, so zitieren wir – wieder ohne Beweis – den Satz 6.6. Es gibt genau eine Wahrscheinlichkeitsverteilung P auf A mit den beiden obigen Eigenschaften. Diese heißt die Produktwahrscheinlichkeit der Pk und wird mit P = P1 ⊗ P2 ⊗ . . . Pn bezeichnet. 41 Der Wahrscheinlichkeitsraum (Ω, A, P ) selbst heißt der Produktraum der (Ωk , Ak , Pk ). Handelt es sich bei dem Produktexperiment um die n-fache Wiederholung ein und desselben Zufallsexperiments, d.h. ist (Ωi , Ai, Pi ) = (Ω0 , A0 , P0 ) für alle i = 1, . . . , n, so spricht man von einer Versuchsreihe der Länge n mit dem Experiment (Ω0 , A0 , P0 ). Ist schließlich (Ω0 , A0, P0 ) ein Bernoulli-Experiment, d.h. Ω0 = {0, 1}, P0 {1} = p, P0 {0} = q = 1 − p, so nennt man die Versuchsreihe eine Bernoulli-Versuchsreihe der Länge n mit Erfolgswahrscheinlichkeit p. In diesem Fall ist Ω = {(δ1 , δ2 , . . . , δn ) : δi ∈ {0, 1}} die Menge der Binärvektoren der Länge n und wegen {(δ1 , δ2 , . . . , δn )} = {δ1 } × {δ2 } × . . . × {δn } ist die Produktwahrscheinlichkeit eines Elementarereignisses gegeben durch P {(δ1 , δ2 , . . . , δn )} = P0 {δ1 } · P0 {δ2 } · . . . · P0 {δn } = pδ1 +δ2 +...+δn · q n−(δ1 +δ2 +...+δn ) . Bezeichnet man die Summe der Komponenten eines Binärvektors δ mit |δ|, so lässt sich die letzte Formel kurz als P {δ} = p|δ| · q n−|δ| schreiben. Die Summe der Erfolge. Mit dem Konzept einer Bernoulli-Versuchsreihe kann man auch z.B. die Frage beantworten, mit welcher Wahrscheinlichkeit bei einem etwas geneigten Galton-Brett die Kugel in Fächern k = 0, 1, 2, . . . , n landet. Wir fassen dieses GaltonBrett als eine Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p auf, wobei eine 1 einem Sprung nach rechts entspricht. Das Ereignis Ak , daß die Kugel in Fach k landet, entspricht allen Wegen, die k-mal nach rechts führen bzw. der Menge aller Binärvektoren, die genau k Einsen enthalten: Ak = {δ : |δ| = k}. Bei allgemeinen Bernoulli-Versuchsreihen nennt man die Anzahl der Einsen die Summe der Erfolge und Ak ist das Ereignis, dass man k ErfolgeS erzielt. Wegen Ak = {δ} ist δ∈Ak P (Ak ) = X δ∈Ak P {δ} = X |δ|=k p|δ| · q n−|δ| = X |δ|=k pk · q n−k = C(n, k) pk · q n−k , wobei C(n, k) die Anzahl der Elemente der Menge {δ : |δ| = k} ist. Folglich n k n−k P (Ak ) = p ·q . k 42 7 Diskrete Wahrscheinlichkeitsräume In diesem und dem folgenden Kapitel befassen wir uns mit der Frage, wie man Wahrscheinlichkeitsverteilungen formelmäßig beschreiben kann, bzw. welche minimale Menge an Information man über eine Wahrscheinlichkeitsverteilung besitzen muss, um wenigstens im Prinzip die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können. Dieses Kapitel befasst sich dabei mit endlichen oder abzählbar unendlichen Ergebnismengen, ab Kapitel ?? werden wir uns mit der Ergebnismenge Ω = Rn beschäftigen. 7.1 Diskrete Wahrscheinlichkeitsräume Ist die Ergebnismenge Ω abzählbar, dann auch jede Teilmenge A von Ω. Nummeriert man die (verschiedene) Elemente von A in irgendeiner Weise durch, so erhält man die Darstellung [ A = {ω1 , ω2 , . . . , ωn , . . .} = {ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn } ∪ . . . = {ωk } . k Da es bei der Vereinigungsbildung nicht auf die Reihenfolge ankommt, in der die Mengen {ωk } zusammengefasst werden, benutzen wir die Elemente ω als Summationsindex und schreiben [ A= {ω} . ω∈A Sind alle einelementigen Mengen {ω} Elemente der σ-Algebra A, so folgt aus der obigen Formel einmal, dass jede Teilmenge von Ω aus A oder A = 2Ω ist und zum anderen kann man die Wahrscheinlichkeit des Ereignisses A nach der Formel X X P (A) = P {ωk } = P {ω} ω∈A k berechnen. Da die Summanden alle nichtnegativ sind, kommt es auch hier nicht auf die Summationsreihenfolge an. Wie man aus der obigen Formel ersieht, genügt die Kenntnis der Wahrscheinlichkeiten f (ω) := P {ω} der Elementarereignisse, um die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können. Definition 7.1. Ein Wahrscheinlichkeitsraum (Ω, A, P ) mit einer abzählbaren Ergebnismenge Ω und der Ereignisalgebra A = 2Ω heißt ein diskreter Wahrscheinlichkeitsraum. Die Wahrscheinlichkeitsverteilung P heißt in diesem Fall eine diskrete Wahrscheinlichkeitsverteilung und die Funktion Ω −→ R f: ω 7−→ P {ω} heißt die Wahrscheinlichkeitsfunktion (Zähldichte, Z-Dichte, diskrete Dichte) von P . 43 P Mit P {ω} ≥ 0 und P (Ω) = ω∈Ω P {ω} = 1 hat man bereits die beiden Eigenschaften, die eine Wahrscheinlichkeitsfunktion vollständig charakterisieren: Satz 7.2. Jede Funktion f : ΩP→ R auf einer abzählbaren Menge Ω mit den Eigenschaften f (ω) ≥ 0 für alle ω ∈ Ω und ω∈Ω f (ω) = 1 legt durch P (A) = X f (ω) ω∈A eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung P auf 2Ω fest. Dabei wird P f (ω) := 0 definiert. Zum Beweis dieser Aussage sind lediglich die vier ω∈Ø Axiome nachzuvollziehen. Die Wahrscheinlichkeitsverteilung P und die Wahrscheinlichkeitsfunktion f sind einander umkehrbar eindeutig zugeordnet. Für jeden endlichen oder abzählbar unendlichen Ergebnisraum Ω kann man also Wahrsceinlichkeitsverteilungen durch entsprechende Zähldichten angeben. Man muss nur darauf achten, dass die Werte der Zähldichte nicht-negativ sind und die Summe 1 besitzen. Später werden wir die entsprechende Beispiele angeben. P Bemerkung. Eine Summe der Form ω∈A f (ω) ohne Angabe der Summationsreihenfolge darf nur geschrieben werden, wenn A höchstens abzählbar ist und wenn sich bei jeder Summationsreihenfolge derselbe Wert ergibt. Bei endlicher Menge A ist das trivial, aber es gilt auch, wenn A unendlich abzählbar und f (ω) ≥ 0 ist. Als Wert der Summe wird dann auch +∞ zugelassen. 7.2 Zufallsvariable mit diskreter Verteilung Der Begriff der Zufallsvariablen ist neben den Begriffen Wahrscheinlichkeit und Ereignis der am häufigsten verwendete in der Wahrscheinlichkeitsrechnung. Wir führen das Konzept der Zufallsvariablen in mehreren Schritten ein, zunächst einmal im Zusammenhang mit diskreten Verteilungen. Eine Zufallsvariable kann man sich als ein Messgerät veranschaulichen, das an ein Zufallsexperiment angeschlossen ist und eine vom Ergebnis des Experiments abhängige Zahl anzeigt. Als Beispiel hatten wir bereits die Anzahl der schwarzen Kugeln beim zufälligen Ziehen von Kugeln aus einer Urne. In Beispielen 4.7 und 4.8 haben wir am Ende bemerkt, dass die uns interessierende Ereignisse AkS , S = 0, 1, . . . , k, paarweise disjunkt sind und dass wir einen neuen Wahrscheinlichkeitsraum konstruieren können, bei dem Ω̃ = {Ak0 , Ak1 , . . . , Akk } nur k + 1 Elemente hat und denen die Wahrscheinlichkeiten S k−S P (AkS ) = Sk ns 1 − ns (s. Bsp. 4.8) zugeordnet werden. Hier haben zwar die Ergebnisse nicht mehr die gleiche Wahrscheinlichkeit, aber da Ω̃ und σ-Algebra weniger Elemente enthalten, kann man damit leichter arbeiten. 44 Allgemein ist es sinnvoll, für die eigentlich interresierende Betrachtungen anstelle des ursprünglichen sehr umfangreichen Wahrscheinlichkeitsraumes (Ω, A, P ) einen neuen Wahrscheinlichkeitsraum Ω̃, Ã, P̃ zu definieren und die Wahrscheinlichkeiten P̃ à der Er- eignisse à im neuen Raum aus den Wahrscheinlichkeiten P (A) der zugehörigen Ereignisse A des ursprünglich gewählten Raumes (Ω, A, P ) zu berechnen. Danach wird der ursprüngliche in der Regel komplizierte Raum (Ω, A, P ) für weitere Betrachtungen direkt nicht benötigt, obwohl er für die Theorie im Hintergrund nach wie vor eine wichtige Rolle spielt. Wir greifen jetzt Beispiel 4.8 noch einmal auf für den Fall n = 2, s = 1 und k = 3. Wir haben dann den folgenden Ergebnisraum Ω = {ω0 = (w, w, w), ω1 = (s, w, w), ω2 = (w, s, w), ω3 = (w, w, s), ω4 = (s, s, w), ω5 = (s, w, s), ω6 = (w, s, s), ω7 = (s, s, s)} mit den 23 = 8 Elementen, die Ereignisalgebra A mit 28 Elementen und die Wahrscheinlichkeitsverteilung P : A → R mit P {ωi} = 18 für jedes Ergebnis {ωi }: ω ∈ Ω (w, w, w) (s, w, w) (w, s, w) (w, w, s) (s, s, w) (s, w, s) (w, s, s) (s, s, s) S 0 1 1 1 2 2 2 3 1 1 1 1 1 1 1 1 P {ω} 8 8 8 8 8 8 8 8 Jetzt betrachten wir eine Funktion X : Ω → ΩX , der schwarzen Kugeln zuordnet. Wir erhalten 0 für 1 für X (ωi ) = 2 für 3 für die jedem Ergebnis aus Ω die Anzahl S i = 0; i = 1, 2, 3; i = 4, 5, 6; i = 7. Damit folgt PX {x} := P {ω ∈ Ω : X(ω) = x} = 1 8 3 8 1 8 für x = 0; für x = 1, 2; für x = 3. Man kann sagen, wir haben einen neuen Wahrscheinlichkeitsraum (ΩX , AX , PX ) konstruiert, bei dem ΩX = {0, 1, 2, 3} nur 4 Elemente hat: x ∈ ΩX PX {x} 0 1 2 3 xi 1 8 3 8 3 8 1 8 pi Allgemein bezeichnen wir mit (X = x) das Ereignis, dass die Funktion X bei Durchführung des Experiments den Wert x annimmt, und mit (X ∈ A) dasjenige, dass der Wert der Funktion X in der vorgebenen Menge A ⊆ ΩX liegt. Da Ereignisse durch die Mengen 45 von Ergebnissen charakterisiert werden, auf die die entsprechende Aussage zutrifft, ist offensichtlich (X = x) = {ω ∈ Ω : X(ω) = x} (7.15) (X ∈ A) = {ω ∈ Ω : X(ω) ∈ A} (7.16) Dies schließt auch analoge Darstellungen wie (X ≤ a), (a < X < b), u.s.w. ein. Ein Ereignis der Form (X ∈ A) heißt durch X beschreibar. Damit man von der Wahrscheinlichkeit dieser Ereignisse sprechen kann, müssen die zugehörigen Mengen (X ∈ A) Ereignisse in Ω sein (also zu A gehören, im Definitionsbereich der Wahrscheinlichkeit P liegen), wenn A ein Ereignis in ΩX ist. Genau diese Eigenschaft wird man von einer Zufallsvariable erwarten: Definition 7.3. Eine Funktion X : Ω → ΩX auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer abzählbaren Teilmenge ΩX der reellen Zahlen heißt eine diskrete Zufallsvariable, wenn (X ∈ A) ∈ A für alle Teilmengen A ∈ ΩX gilt. Offensichtlich ist (X ∈ A) = [ (X = x). x∈A Um nachzuprüfen, ob eine Funktion X eine Zufallsvariable gemäß der obigen Definition ist, muss also nur untersucht werden, ob (X = x) ∈ A für alle x ∈ ΩX gilt. Diese Bedingung ist für A = 2Ω trivialerweise erfüllt! Die Fälle A 6= 2Ω werden wir später betrachten, obwohl schon jetzt man sagen kann, dass dies bei Ω = Rn und die σ-Algebra der Borelschen Mengen für alle in der Anwendung relevanten Zufallsvariablen gilt. 7.3 Die Verteilung einer diskreten Zufallsvariablen Wenn man das Zufallsexperiment (Ω, A, P ) und das Messgerät X als eine black box ansieht, aus der zufällige Werte x ∈ ΩX herauskommen, so erhält man ein neues Zufallsexperiment mit der Ergebnismenge ΩX . Die Chance für das Eintreten eines Ereignisses A ⊆ ΩX wird man sinnvollerweise durch die Zahl PX (A) := P (X ∈ A) bewerten. Wie zu erwarten erhält man auf diese Weise eine Wahrscheinlichkeitsverteilung auf den Teilmengen von ΩX : 46 Satz 7.4. PX ist eine diskrete Wahrscheinlichkeitsverteilung auf ΩX mit der Wahrscheinlichkeitsfunktion (Zähldichte) fX (x) = P (X = x). Beweis: 1. Da P eine Wahrscheinlichkeit ist, gilt 0 ≤ P (X ∈ A) = PX (A) ≤ 1 und aus (X ∈ ΩX ) = Ω folgt PX (ΩX ) = 1. 2. Sind A und B Teilmengen von ΩX , so kann man anhand der Definition 7.16 leicht nachvollziehen, dass (X ∈ A ∪ B) = (X ∈ A) ∪ (X ∈ B) und dass für disjunkte Mengen A und B die Mengen (X ∈ A) und (X ∈ B) ebenfalls disjunkt sind. Beides zusammen liefert PX (A ∪ B) = PX (A) + PX (B). 3. Wie in Punkt 2. weist man auch die Gültigkeit der Formel ! [ X PX Ak = PX (Ak ) k k nach, wobei die Ereignisse (Ak ) paarweise disjunkt sind. 4. PX ist damit eine diskrete Wahrscheinlichkeitsverteilung auf ΩX und besitzt die Wahrscheinlichkeitsfunktion fX (x) = PX {x} = P (X = x). Bezeichnung: Die Wahrscheinlichkeitsverteilung PX heißt die Verteilung der Zufallsvariablen X und fX (y) die Wahrscheinlichkeitsfunktion der Zufallsvariablen X. Zur formalen Darstellung dieser Situation benutzen wir im folgenden das Schema X (Ω, A, P ) −→ ΩX , 2ΩX , PX . Wenn wir gleichzeitig unterschiedliche Wahrscheinlichkeitsfunktionen von verschiedenen Zufallsvariablen X betrachten, so kennzeichnen wir die zu X gehörende Wahrscheinlichkeitsfunktion mit dem Index X, d.h. statt f schreiben wir fX . Das gleiche betrifft später ggf. auch andere auf X bezogene Bezeichnungen. 7.4 Die Verteilungsfunktion einer diskreten Zufallsvariablen Definition 7.5. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f . Die Funktion F : R → [0, 1] mit F (x) := P {ω ∈ Ω : X(ω) ≤ x} = P (X ≤ x) = X X X X = P (X = xi ) = f (xi ) = pi = pi · h(x − xi ), xi ≤x xi ≤x xi ≤x i∈I wobei pi := f (xi ) = P (X = xi ), nennen wir Verteilungsfunktion der Zufallsvariable X. 47 Die Funktion h ist die Heaviside-Funktion: 0 für x < 0 h(x) := 1 für x ≥ 0. y 1 x −2 −1 1 2 Die Verteilungsfunktion ist auf ganz R definiert. Durchläuft x die reellen Zahlen in aufsteigender Richtung, so sieht man, dass F (x) zwischen zwei benachbarten Punkten aus ΩX konstant bleibt und dass in jedem Punkt xi ein Sprung (nach oben) der Höhe f (xi ) statt findet. Beispiel 7.6. Für unser zu Beginn dieses Abschnittes betrachtetes Urnenmodell mit n = 2, s = 1 und k = 3 ergibt sich die folgende Sprungfunktion als Verteilungsfunktion 0 für −∞ < x < 0, 1 für 0 ≤ x < 1, 8 4 für 1 ≤ x < 2, F (x) = 8 78 für 2 ≤ x < 3, 1 für 3 ≤ x < ∞. Mit den Wahrscheinlichkeiten (Sprüngen) P (X = xi ), xi = 0, 1, 2, 3, ergibt sich diese Funktion auch durch die folgende Konstruktion X F (x) = P (X = xi ). xi ≤x Für die formelmäßige geschlossene Darstellung der Verteilungsfunktion können wir hier auch die rechtsseitig stetige Sprungfunktion (Heaviside-Funktion) h verwenden. Wir erhalten dann für die obige Verteilungsfunktion 1 3 3 1 F (x) = h(x) + h(x − 1) + h(x − 2) + h(x − 3). 8 8 8 8 Man kann auch die Verteilungsfunktion in einer Tabelle auffassen: xi 0 1 2 3 f (xi ) 1 8 3 8 3 8 1 8 F (xi ) 1 8 4 8 7 8 1 Bei der Angabe von F genügt es natürlich, nur die Werte F (xi ) für xi = 0, 1, 2, 3 anzugeben. Für praktische Zwecke ist i.a. die Angabe von F nützlicher als die von f . So kann man etwa die Wahrscheinlichkeiten der Ereignisse A1 : mehr als eine schwarze Kugel wurde ” gezogen” oder A2 : höchstens 2 Kugeln wurden gezogen” aus der Tabelle von F wesentlich ” leichter entnehmen: P (A1 ) = 1 − F (1) = 48 , P (A2 ) = F (2) = 78 . 48 Aus der Definition ergeben sich unmittelbar die folgenden nützlichen Eigenschaften und Rechenregeln für Verteilungsfunktionen. Eigenschaften. ❶ lim F (x) = 0 und lim F (x) = 1; x→−∞ x→∞ ❷ F ist monoton wachsend, d.h. aus x ≤ y folgt F (x) ≤ F (y); ❸ F ist rechtseitig stetig, d.h. F x+ := lim+ F (x) = F (xi ). i x→xi Rechenregeln. ❶ P (X = a) = F (a) − F (a− ), wobei F (a− ) := lim− F (x); x→a ❷ P (a < X ≤ b) = F (b) − F (a); ❸ P (X > a) = 1 − F (a); ❹ P (X < a) = F (a− ); ❺ P (a ≤ X ≤ b) = P (a < X ≤ b) + P (X = a) = F (b) − F (a− ); ❻ P (a < X < b) = P (a < X ≤ b) − P (X = b) = F (b− ) − F (a). 7.5 Der Erwartungswert einer diskreten Zufallsvariablen Für diskrete Verteilungen gibt es einige Kenngrößen, die die Gestalt der Verteilung grob charakterisieren. Es sind dies der Erwartungswert und die Varianz sowie die absoluten und zentralen Momente. So wird man als Prognose für den Wert, den die Zufallsvariable X bei Durchführung des Experiments annimmt, das gewichtete Mittel der Verteilung von X wählen. Definition 7.7. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f. P Falls |xi | · f (xi ) < ∞, heißt xi ∈ΩX E(X) := X xi ∈ΩX xi · f (xi ) =: µ = m1 (PX ) der Erwartungswert der Zufallsvariable X. 49 Da wir es im allgemeinen mit abzählbar unendlich vielen xi zu tun haben, muss sicher gestellt sein, dass diese Summe auch unbedingt konvergiert. Falls die Summe nicht absolut konvergiert und damit der Wert eventuell von der Summationsreihenfolge abhängig ist, sagt man, dass die Zufallsvariable keinen Erwartungswert besitzt. Beispiele, bei denen der Erwartungswert unendlich ist oder nicht existiert, sind zwar in der Praxis selten. Trotzdem kann beides nicht ausgeschlossen werden. Um bei der Berechnung des Erwartungswerts flexibler zu sein, und zur Untersuchung seiner Eigenschaften, benötigt man weitere äquivalente Eigenschaften. Satz 7.8. Falls der Erwartungswert einer diskreten Zufallsvariablen X auf einem diskreten Wahrscheinlichkeitsraum (Ω, A, P ) existiert, ist X E(X) = X(ω)P {ω}. ω∈Ω Beweis: Es gilt E(X) = X xi ∈ΩX = X xi · f (xi ) = X xi ∈ΩX ω∈(X=xi ) da P (X = xi ) = P ω∈(X=xi ) X xi ∈ΩX xi · P (X = xi ) = xi · P {ω} = X X xi ∈ΩX ω∈(X=xi ) X(ω) · P {ω}, P {ω} und für ω ∈ (X = xi ) ist xi = X(ω). Die Mengen (X = xi ) mit xi ∈ ΩX bilden eine Partition der Menge Ω, in der die Ergebnisse ω nach den verschiedenen möglichen Funktionswerten xi der Zufallsvariable sortiert werden. Die Doppelsumme über xi ∈ ΩX und ω ∈ (X = xi ) stellt daher nichts anderes dar als die Summation über alle ω ∈ Ω als Indizes in einer speziellen Reihenfolge. Wegen der für den Erwartungswert geforderten unbedingten Konvergenz ist der Satz bewiesen. Wir ordnen der Zufallsvariablen X durch die Funktionsgleichung Y = g(X) in eindeutiger Weise eine neue, von X abhängige Zufallsvariable Y zu. Der Erwartungswert E(Y ) = E[g(X)] dieser neuen Zufallsvariablen kann wie folgt berechnet werden: Satz 7.9. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f und sei g : ΩX → g (ΩX ) eine Funktion, so daß g (ΩX ) = {yj ∈ R : j ∈ J ⊆ N} abzählbar ist. Dann gilt X X E(Y ) = E[g(X)] := yj · P (g(X) = yj ) = g(xi ) · f (xi ). xi ∈ΩX yj ∈g(ΩX ) Um bei der Berechnung des Erwartungswertes flexibler zu sein, benötigt man noch eine weitere äquivalente Darstellung: 50 Satz 7.10. Seien X und Y diskrete Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen ΩX = {xi ∈ R : i ∈ I ⊆ N} und entsprechend ΩY = {yj ∈ R : j ∈ J ⊆ N}. Und sei h : ΩX ×ΩY → Ω̂ := h (ΩX × ΩY ) eine Funktion, so daß Ω̂ = {zl ∈ R : l ∈ L ⊆ N} abzählbar ist. Dann gilt E[h(X, Y )] := X zl ∈Ω̂ 7.5.1 zl · P (h(X, Y ) = zl ) = X X xi ∈ΩX yj ∈ΩY h(xi , yj ) · P (X = xi , Y = yj ). Weitere Eigenschaften des Erwartungswertes Es seien X, Y diskrete Zufallsvariablen und a, b ∈ R. ❶ Gilt P (X = a) = 1, d. h. ist X ( fast sicher”) konstant, dann E(X) = a. ” ❷ Der Erwartungswert ist monoton, d. h. aus X ≤ Y folgt E(X) ≤ E(Y ), falls E(X) und E(Y ) existieren. Insbesondere: aus a ≤ X ≤ b ergibt sich a ≤ E(X) ≤ b. ❸ Der Erwartungswert ist linear: Existieren E(X) und E(Y ) und ist E(X) + E(Y ) definiert, dann existiert auch E(aX + bY ) und es gilt E(aX + bY ) = aE(X) + bE(Y ). Man kann sich jetzt die Frage stellen, ob zusätzlich zur Additionsregel E(X + Y ) = E(X) + E(Y ) eine Produktregel E(XY ) = E(X) · E(Y ) gibt. Um dies zu zeigen, benötigt man die Eigenschaft der stochastischen Unabhängigkeit für Zufallsvariablen (vgl. Def. 6.1). Definition 7.11. Diskrete Zufallsvariablen X1 , X2 , . . . , Xm auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen ΩX1 , ΩX2 , . . . , ΩXm heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 ⊆ ΩX1 , A2 ⊆ ΩX2 , . . . , Am ⊆ ΩXm gilt h i P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xm ∈ Am ) = = P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xm ∈ Am ) . ❹ Sind die Zufallsvariablen X und Y stochastisch unabhängig, existieren E(X) und E(Y ) und sind beide endlich, dann existiert auch E(XY ) und es gilt E(XY ) = E(X) · E(Y ). 51 7.6 Die Varianz einer diskreten Zufallsvariable Als Maß für den Schätzfehler bei der Prognose für den Wert, den die Zufallsvariable X bei Durchführung des Experiments annimmt, kann man die mittlere quadratische Abweichung der Ergebnisse vom Erwartungswert heranziehen. Hierzu dienen die Begriffe (bezogen auf die Zufallsvariable und ihre Realisierungen): die Varianz und die Standardabweichung dieser Zufallsvariable: Definition 7.12. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f und mit endlichem Erwartungswert µ := E(X). Dann versteht man unter der Varianz V (X) der Zufallsvariable X den Erwartungswert von (X − µ)2 , d. h. X V (X) := E (X − µ)2 = (xi − µ)2 · f (xi ) =: σ 2 = m̂2 (PX ) = D 2 (X). xi ∈ΩX p Die Größe σ := D(X) = V (X) nennt man die Standardabweichung (Streuung) (Dispersion, Streuung) von X und die zugehörige relative Größe σµ Variationskoeffizient von X. Divergiert die Reihe in der obigen Definition, so spricht man von einer unendlichen Varianz. Die Varianz ist ein geeignetes Maß für die Streuung der einzelnen Werte xi um den Mittelwert µ. Die Standardabweichung beschreibt die durchschnittliche (mittlere) Abweichung der Zufallsvariablen X von ihren Erwartungswert µ und besitzt gegenüber der Varianz den Vorteil, daß sie die gleiche Dimension und Einheit hat wie die Zufallsvariable X. Man benötigt also beide Größen: Berechnungen lassen sich leichter mit der Varianz durchführen, für die Interpretation der Ergebnisse ist die Streuung wegen der Dimensionstreue günstiger. Bei endlichen Varianzen kann die Definition etwas umformen: X X V (X) = (xi − µ)2 · f (xi ) = x2i − 2µxi + µ2 · f (xi ) = xi ∈ΩX = X xi ∈ΩX x2i · f (xi ) − 2µ X xi ∈ΩX xi ∈ΩX xi · f (xi ) + µ2 X f (xi ) = xi ∈ΩX = E (X 2 ) − 2µ · µ + µ2 = E (X 2 ) − µ2 . Wir erhalten somit eine wichtige Formel (Verschiebungssatz, der Satz von Steiner) zur Berechnung der Varianz: V (X) = E X 2 − (E(X))2 . Aus der Interpretation der Varianz als Maß dafür wie sehr Wahrscheinlichkeitsmasse” ” um den Schwerpunkt verstreut ist, muss folgen, dass die Wahrscheinlichkeit der Menge Bε = {xi ∈ ΩX : |xi − µ| ≥ ε} ⊆ ΩX 52 mit einer positiven Zahl ε > 0 umso kleiner ist, je kleiner die Varianz V (X) ist. Das heißt, bei kleiner Varianz liegen die meisten Werte in der Nähe von µ und größere Abweichungen von Mittelwert treten nur mit geringen Wahrscheinlichkeiten auf. Dies bestätigt Satz 7.13 (Die Ungleichung von Tschebyscheff). PX (Bε ) ≤ V (X) . ε2 Beweis: 1. Da alle Summanden in der Definition von Varianz nichtnegativ sind, wird die Summe kleiner, wenn einige der Summanden weggelassen werden: X V (X) ≥ (xi − µ)2 · f (xi ) xi ∈Bε 2. Nach Definition von der Menge Bε gilt für xi ∈ Bε , dass (xi − µ)2 ≥ ε2 und somit X V (X) ≥ ε2 f (xi ) = ε2 PX (Bε ) . xi ∈Bε Die gewünschte Ungleichung erhält man daraus durch Division beider Seiten mit ε2 . 7.6.1 Weitere Eigenschaften der Varianz Es seien X und Y diskrete Zufallsvariablen und a, b, c ∈ R. ❶ Eine Verschiebung hat keinen Einfluss auf die Varianz (und die Standardabweichung): V (X + a) = V (X). ❷ Ein Faktor verändert die Varianz quadratisch, die Standardabweichung proportional (mit dem Betrag des Faktors): p p V (bX) = b2 V (X) und V (bX) = |b| V (X). ❸ Gilt P (X = E(X)) = 1, d. h. ist X ( fast sicher”) konstant, dann V (X) = 0. ” ❹ Sind die Zufallsvariablen X und Y stochastisch unabhängig, dann V (X + Y ) = V (X) + V (Y ). ❺ Für alle c ∈ R gilt V (X) := E X − E(X)2 ≤ E (X − c)2 , d. h. der Erwartungswert der Abweichung von Zufallsvariable X zu einem reellen Wert c hat Minimum für c = E(X) mit Minimalwert V (X). 53 7.7 Erzeugende Funktionen Die Berechnung von Kennwerten diskreter Zufallsvariablen, die durch Reihen gegeben sind, ist oft schwierig. Bei bestimmten diskreten Zufallsvariablen X : Ω → ΩX mit der Wahrscheinlichkeitsfunktion mit x ∈ ΩX , f (x) = P (X = x), lassen sich jedoch diese Kennwerte über so genannte erzeugende Funktionen ! X X M(t) := f (x) · tx oder M(t) = f (x) · etx x∈ΩX x∈ΩX berechnen, wenn M(t) als Formel explizit berechenbar ist. Die Reihe ist wegen P x∈ΩX f (x) = 1 offensichtlich für |t| ≤ 1 absolut gleichmäßig konvergent. Wenn die Potenzreihe für |t| ≤ 1 + ε, ε > 0, absolut konvergent oder sogar eine endliche Summe ist, dann ist M(t) in t = 1 beliebig oft differenzierbar, wobei die Ableitungen summandenweise gebildet werden dürfen. In diesem Fall ergibt sich X M ′ (1) = x · f (x) = E(X), x∈ΩX ′′ M (1) = X x∈ΩX X x(x − 1) · f (x) = x∈ΩX x2 · f (x) − X x∈ΩX x · f (x) = E X 2 − E(X). Hieraus folgt eine einfache Formel für die Varianz 2 V (X) = E X 2 − (E(X))2 = M ′′ (1) + M ′ (1) − (M ′ (1)) . Ggf. sind die Grenzwerte für z → 1 zu berechnen. Beispiel 7.14. Sei X eine diskrete Zufallsvariable mit Werten in der Menge {0, 1, 2, . . .} und mit der Wahrscheinlichkeitsfunktion f (n) = e−λ λn , n! n = 0, 1, 2 . . . , λ > 0. Die erzeugende Funktion M(t) = ∞ X k=0 e−λ λk k · z = eλ(t−1) k! hat die folgende Ableitungen M ′ (t) = λ · eλ(t−1) M ′′ (t) = λ2 · eλ(t−1) . und Somit erhalten wir E(X) = M ′ (1) = λ · eλ(t−1) t=1 = λ, V (X) = M ′′ (1) + M ′ (1) − (M ′ (1))2 = λ2 + λ − λ2 = λ. 54 7.8 Spezielle diskrete Wahrscheinlichkeitsverteilungen Mit dem Satz 7.2 ist aus theoretischer Sicht das Problem der Charakterisierung diskreter Wahrscheinlichkeitsverteilungen vollständig gelöst. Aus praktischer Sicht ergibt sich die Frage, wie man aus Beschreibungen von Zufallsexperimenten zu Formeln für die entsprechenden Wahrscheinlichkeitsfunktionen kommt. Wir betrachten in diesem Abschnitt einige stochastische Standardprobleme” und führen ” vor, wie man aus bestimmten Eigenschaften des Zufallsmechanismus Wahrscheinlichkeitsfunktionen herleiten kann. Die ersten drei der folgenden Typen von Zufallsexperimenten wurden in den vorhergehenden Abschnitten bereits ausführlich behandelt. Wir stellen sie der Vollständigkeit halber hier noch einmal kurz dar. 7.8.1 Die Laplace-Verteilung Sei X eine gleich verteilte Zufallsvariable mit den ΩX = {xi ∈ R : i = 1, . . . , n}, d. h. f (xi ) = 1 n Werten in der Menge für alle i = 1, . . . , n. Die zugehörige Wahrscheinlichkeitsverteilung heißt die Laplace-Verteilung auf der Menge ΩX und wird im folgenden kurz als L (ΩX )-Verteilung bezeichnet. Für die Laplace verteilte Zufallsvariable gilt n 1X µ = E(X) = xi n i=1 n 1X σ = V (X) = (xi − µ)2 . n i=1 2 und Sind xi = i, i = 1, . . . , n, dann ergibt sich µ = 1 (n + 1) 2 und σ2 = 1 (n − 1) · (n + 1). 12 Anwendung: Die Gleichverteilungen spielen eine Rolle in der Signaltheorie sowie bei der Erzeugung von Pseudo-Zufallszahlen auf dem Computer. 7.8.2 Die hypergeometrische Verteilung Für natürliche Zahlen 1 ≤ K ≤ N und 0 ≤ n ≤ N ist N −K K · f (k) = k N n−k , n wobei 0 ≤ k ≤ min{K, n} und n − k ≤ N − K, eine Wahrscheinlichkeitsfunktion auf der Ergebnismenge Ω = {0, 1, . . . , n}. Dies ergibt sich aus der Tatsache, dass die Ereignisse 55 Ank : k von n gezogenen Kugeln sind schwarz” ” (vgl. Lotto”–Bsp. 4.7) beim Ziehen ohne Zurücklegen und ohne Berücksichtigung der ” Reihenfolge aus einer Urne mit K schwarzen und N − K weißen Kugeln eine Partition bilden: An0 ∪ An1 ∪ . . . ∪ Ann = ΩN n := {{z1 , z2 , . . . , zn }, und daher n X f (k) = k=0 n X zi = 1, 2, . . . , N und zi 6= zj } , P (Ank ) = P ΩN n k=0 = 1. Die Wahrscheinlichkeitsverteilung mit dieser Wahrscheinlichkeitsfunktion heißt die hypergeometrische Verteilung mit Parametern N, K und n oder kurz H(N, K, n)-Verteilung. Die Einzelwahrscheinlichkeiten f (k) = P (X = k) beschreiben die Wahrscheinlichkeit aus einer Menge von N gleich verteilten Elementen, von denen K eine bestimmte Eigenschaft besitzen, bei einer Stichprobe ohne Zurücklegen vom Umfang n ≤ N genau k Elemente mit dieser Eigenschaft zu erhalten. Für die hypergeometrisch verteilte diskrete Zufallsvariable X gilt K K N N −n 2 und σ = V (X) = n · 1− · . µ = E(X) = n · N N K N −1 Beweis: Der Erwartungswert ergibt sich durch Ausklammern von n · K und Ausnutzen N des Additionssatzes (im Lotto”–Beispiel 4.7) für Binomialkoeffizienten. Hierbei ist zu ” n beachten, dass m = 0 für m > n, n, m ∈ N. Wir erhalten dann N −K N −K n K n K−1 X X · · n−k r=k−1 K k−1 E(X) = k · k N n−k = n · = N −1 N n n−1 k=0 n−1 K X = n· N r=0 k=1 K−1 r · N −1−(K−1) n−1−r N −1 n−1 = n· K . N Die Berechnungen für V (X) sind ähnlich aber etwas umfangreicher. Die hypergeometrische Verteilung spielt z.B. bei den • Qualitätskontrollen eines Herstellers bei laufender Produktion: In regelmäßigen Zeitabständen wird dabei kontrolliert, ob z. B. ein bestimmter Sollwert auch tatsächlich eingehalten wird; • Endkontrollen eines Herstellers: Sie sollen die Auslieferung einwandfreier Ware im vereinbarten Rahmen (z.B. maximal 2% Ausschußware) gewährleisten; • Abnahmekontrollen eines Kunden: Überprüfung der angelieferten Ware, ob die Vereinbarungen z. B. bezüglich eines maximalen Anteils an Ausschußware auch tatsächlich eingehalten wurden. eine große Rolle. 56 7.8.3 Die Binomialverteilung Sind p und q reelle Zahlen mit 0 < p < 1 und q = 1 − p, so ist n k n−k f (k) = p q k eine Wahrscheinlichkeitsfunktion auf Ω = {0, 1, . . . , n}, denn nach der Binomialformel ist n n X X n k n−k f (k) = p q = (p + q)n = 1n = 1. k k=0 k=0 Die zugehörige Verteilung heißt die Binomialverteilung mit Parametern n und p oder kurz B(n, p)-Verteilung. Wie im Abschnitt 6.3 geschildert, zählt die binomialverteilte Zufallsvariable X die Erfolge bei einer Bernoulli-Versuchsreihe (d.h. bei einer n-fachen, stochastisch unabhängigen Wiederholung eines Einzelexperiments, bei dem ein bestimmtes Ereignis jeweils mit Wahrscheinlichkeit p autritt) auf. ❶ n = 0, p = 0: Ein-Punkt-Verteilung mit P (X = 0) = 1; ❷ n = 1, p ∈ (0, 1): Zwei-Punkt-Verteilung mit P (X = 0) = 1 − p und P (X = 1) = p. Für die diskrete Zufallsvariable mit der B(n, p)-Verteilung gilt E(X) = np und V (X) = npq. Beweis: Die Zufallsvariable X kann man als die Summe X = X1 + · · · + Xn von n stochastisch unabhängigen Zufallsvariablen Xi , i = 1, . . . , n, mit Zwei-Punkt-Verteilung erfassen. Für den Erwartungswert und die Varianz von allen Xi gilt E (Xi ) = 0 · (1 − p) + 1 · p = p V (Xi ) = E (Xi2 ) − (E (Xi ))2 = 02 · (1 − p) + 12 · p − p2 = p(1 − p). Der Erwartungswert von Zufallsvariable X ist dann gleich E(X) = n X E (Xi ) = np i=1 und die Varianz V (X) = n X i=1 V (Xi ) = np(1 − p) = npq, 57 weil die Zufallsvariablen Xi unabhängig sind. Die Binomialverteilung approximiert (für großes N) die hypergeometrische Verteilung. ≤ 1 und K → p für N → ∞ Man erhält für K N N lim N →∞ K k · N −K n−k N n n k = p (n − p)n−k , k indem man im Zähler K k (N − K)n−k und im Nenner N n ausklammert. Die Binomialverteilung findet überall dort Anwendung, wo alternative Entscheidungen zu treffen sind, z. B.: • Statische Untersuchung der Anzahl der Ausfälle mehrerer unabhängig voneinander arbeitender Elemente mit gleicher Ausfallswahrscheinlichkeit. • Qualitätskontrolle (siehe auch hypergeometrische Verteilung) bei Lieferungen mit sehr großer Stückzahl N, N ≫ n, und mittleren Stichprobenumfang n und kleiner bekannter Lieferantenausschussquote p. Bei der Herleitung dieser diskreten Verteilung kann man wiederum auf das anschauliche Urnenmodell zurückgreifen, das bereits bei der hypergeometrischen Verteilung nützlich war. Man muss aber merken, dass diesmal die Ziehung der Kugeln mit Zurücklegen erfolgt. 7.8.4 Die geometrische Verteilung Die Funktion f (n) = p · q n−1 mit 0 < p < 1 und q = 1 − p ist eine Wahrscheinlichkeitsfunktion auf der Menge Ω = N = {1, 2, . . .} der natürlichen Zahlen, denn ∞ X n=1 f (n) = ∞ X n=1 p·q n−1 = p ∞ X k=0 qk = p · 1 p = = 1. 1−q p P k Da diese Funktion mit der geometrischen Reihe ∞ k=0 q zusammenhängt, heißt die zugehörige Verteilung die geometrische Verteilung mit Parameter p oder bei uns kurz die G(p)-Verteilung. Eine diskrete, geometrischverteile Zufallsvariable X gibt an, bei welchem Versuch in einer Bernoulli-Versuchsreihe ein bestimmtes Ereignis zum ersten Mal eintritt. Man kann zeigen (in der Übung), dass E(X) = 1 p und 58 V (X) = q . p2 Die geometrische Verteilung findet Anwendung bei der Analyse von Wartezeiten bis zum Eintreffen eines bestimmten Ereignisses bzw. von Lebensdauern von Geräten (d.h. der Wartezeit bis zum Ausfall). Unter welchen Voraussetzungen diese Verteilung als Lebensdauerverteilung benutzt werden kann, lässt sich am einfachsten an einem gänzlich anderen Problem explizieren, nämlich der Anzahl der Würfe mit einem regulären Würfel bis zum ersten Auftreten einer 6. Auch wenn man es etwa beim Mensch ärgere dich nicht”-Spiel manchmal gern anders ” hätte, muss man davon ausgehen, dass ein Würfel kein Gedächtnis hat. Auch nach m ergebnislosen Würfen ändert sich am Wahrscheinlichkeitsgesetz für die nächsten Würfe nichts. D.h. die Wahrscheinlichkeit, dass man mehr als n Würfe bis zur 6 benötigt, ist die gleiche, ob man bereits m ergebnislose Würfe hinter sich hat oder gerade mit dem Würfeln beginnt. Die Ereignisse An : ” mehr als n Würfe werden bis zur 6 benötigt” werden in der Ergebnismenge Ω = {1, 2, . . .} durch die Mengen An = {n + 1, n + 2, . . .} mit n = 0, 1, 2, . . . repräsentiert und die Eigenschaft der Gedächtnislosigkeit des Würfels kann man durch die Formel P (Am+n |Am ) = P (An ) für alle m, n = 0, 1, 2, . . . ausdrücken. Nach Definition der bedingten Wahrscheinlichkeit ist diese Gleichung äquivalent zu P (Am+n ∩ An ) = P (Am ) · P (An ) . Da aber Am+n ⊆ An , ist Am+n ∩ An = Am+n , und man erhält P (Am+n ) = P (Am ) · P (An ) . Mit qm := P (Am ) und q := q1 erhält man aus diesen Gleichungen q2 = q1+1 = q1 · q1 = q 2 , q3 = q2+1 = q2 · q1 = q 3 , .. . qm = q(m−1)+1 = qm−1 · q1 = q m , .. . Wegen Am−1 = {m} ∪ Am und {m} ∩ Am = Ø ist P (Am−1 ) = P {m} + P (Am ) und man erhält als Wahrscheinlichkeitsfunktion für die Verteilung P f (m) = P {m} = q m−1 − q m = (1 − q) · q m−1 59 also die der geometrischen Verteilung mit p = 1 − q. Der für den Parameter p zu verwendende numerische Wert ergibt sich aus der Beziehung p = f (1): p ist die Wahrscheinlichkeit, dass das beobachtete Ereignis gleich beim ersten Versuch eintritt; beim Werfen eines Würfels also gleich beim ersten Wurf die Augenzahl 6 erscheint. Bei einem regulären Würfel ist daher p = 16 . Bei Geräten lässt sich die Eigenschaft der Gedächtnislosigkeit dahingehend interpretieren, dass sie von ihrer Bauart her über einen langen Zeitraum keinen Verschleißerscheinungen unterworfen sind (Ermüdungsfreiheit) und Ausfälle bei einzelnen Geräten einer Baureihe dadurch zustande kommen, dass sie zufällige Produktions- oder Materialfehler enthalten, die sich nach nicht vorhersehbarer Zeit auswirken. 7.8.5 Die Poisson-Verteilung Die Funktion λn n! auf Ω = N0 =P {0, 1, 2, . . .} mit einer positiven reellen Zahl λ ist eine Wahrscheinlichkeitsλn λ funktion, da ∞ n=0 n! = e die Taylorreihe der Exponentialfunktion und damit f (n) = e−λ ∞ X n=0 f (n) = ∞ X n=0 e−λ λn = e−λ · eλ = 1 n! ist. Die zugehörige Verteilung heißt die Poisson-Verteilung mit Parameter λ oder kurz die P(λ)-Verteilung. Eine Poisson-verteilte Zufallsvariable X hat folgende Kennwerte (in der Übung): E(X) = λ und V (X) = λ. Für große n wird das Arbeiten mit der Binomialverteilung unhändlich, weil es numerisch Probleme im Falle der exakten Berechnung von Einzelwahrscheinlichkeiten gibt. Ausserdem in Naturwissenschaften und Technik stößt man manchmal im Zusammenhang mit Bernoulli-Experimenten auf Ereignisse, die mit nur geringen Wahrscheinlichkeiten und daher sehr selten auftreten, z.B. die Anzahl der pro Sekunde zerfallenden Atomkerne ist äußerst gering im Vergleich zur Anzahl der insgesamt vorhandenen Kerne. Die statistische Untersuchungen haben auch gezeigt, dass bei einem Einzelereignis, welches in einem bestimmten Zeitraum nach oben unbegrenzt oft auftreten kann, die Zufallsvariable X, welches die Anzahl des Eintretens von dem Einzelereignis in diesem Zeitraum angibt, angenähert Poisson-verteilt ist. Mathematisch gesagt: Satz 7.15. Betrachten wir die Folge (Xn ) von binomial verteilten Zufallsvariablen mit den Parameter n und pn = nλ , λ > 0, dann konvergieren die zugehörigen Einzelwahrscheinlichkeiten P (Xn = k) für jedes k = 0, 1, 2, . . . gegen die Einzelwahrscheinlichkeit 60 der Poisson-Verteilung mit dem Parameter λ, d. h. n λk lim (pn )k (1 − pn )n−k = e−λ . n→∞ k k! Man beachte hierbei, dass die binomial verteilte Zufallsvariable nur die endlich viele Werte k = 0, 1, . . . , n und die Poisson-verteilte Zufallsvariable dagegen unendlich viele Werte k = 0, 1, 2, . . . besitzt. Ist also in einer Bernoulli-Versuchsreihe p klein (0 < p ≤ 0.1) und n groß (n ≥ 50), so approximiert die rechnerisch bequemere P(λ)-Verteilung mit λ = np die B(n, p)-Verteilung für relativ zu n kleine k. Es gilt dabei die folgende Regel: Die Binomialverteilung darf näherungsweise durch die Poisson-Verteilung ersetzt werden, wenn die beiden Bedingungen n · p < 10 und n > 1500 p erfüllt sind. Durch Umbenennung von Erfolg” und Fehlschlag” ist die Poisson-Verteilung auch für ” ” 0.9 ≤ p ≤ 1 eine gute Approximation an die Binomialverteilung. Die Poisson-Verteilung findet dann Anwendung, wenn die Häufigkeit des Eintretens eines Ereignisses gezählt wird, das zu zufälligen Zeitpunkten und unabhängig von einander eintritt. Beispiele für solche Situationen sind etwa • das Eintreffen von Telefonanrufen bei einer Vermittlungsstelle, • das Auftreffen von radioaktiven Partikeln auf einem Geigerzähler, • die Ankunft eines Kunden an einem Bedienungsschalter, • das Eintreffen von Bedienwünschen an einem Server, • das Auftreten von Softwarefehlern in einem Programmsystem. Als allgemeines Modell denken wir uns ein Zählgerät, das zum Zeitpunkt t = 0 auf Null steht und zu zufälligen Zeitpunkten angestoßen wird, wobei der Zähler jeweils um 1 erhöht wird. Besteht das Experiment in der Beobachtung des Zählerstandsverlaufs über das Zeitinterω(t) 5 vall [0, ∞), so besteht die Ergebnismenge Ω 4 aus allen möglichen Verläufen, d.h. aus allen 3 Zeitfunktionen 2 ω : [0, ∞) → N0 mit ω(0) = 0, 1 die stückweise konstant sind und an Sprungstellen jeweils um 1 nach oben springen. 61 t Zur Festlegung einer Ereignisalgebra A betrachten wir die Funktionen Ω −→ N0 , Nt : ω 7−→ Nt (ω) := ω(t), die für jeden Verlauf ω den Zählerstand zum Zeitpunkt t angeben und die Mengen (Nt = k) = {ω ∈ Ω : Nt (ω) = k} mit k = 0, 1, 2, . . . die das Ereignis beschreiben, dass zum Zeitpunkt t der Zählerstand gerade k beträgt. Da zu Beginn der Beobachtung der Zählerstand Null sein soll, ist N0 (ω) = 0 für alle ω, woraus folgt, dass (N0 = 0) = Ω und (N0 = k) = Ø für alle k ≥ 1. Neben den absoluten Zählerständen Nt benötigen wir zum Rechnen auch noch die Zählerstandsdifferenzen N(s,t] = Nt − Ns für 0 ≤ s ≤ t, wobei wegen N0 = 0 N(0,t] = Nt . Die Ereignisalgebra legen wir nicht in allen Einzelheiten fest, sondern nehmen lediglich an, dass alle Mengen der Form (Nt = k) und N(s,t] = k in ihr enthalten sind. Außerdem gehen wir davon aus, dass wir auf A eine Wahrscheinlichkeit P vorgegeben haben, die sich durch die drei folgenden Eigenschaften auszeichnet: • Stationariät P N(s,s+t] = k = P N(0,0+t] = k für alle s ≥ 0, t ≥ 0 und alle k ∈ N0 . = P (Nt = k) = pk (t) • Nachwirkungsfreiheit Für alle s ≥ 0, t ≥ 0 und alle k, n ∈ N0 sind die Ereignisse N(0,s] = k und N(s,s+t] = n stochastisch unabhängig. • Ordinarität Für alle s ≥ 0 ist P N(s,s+t] > 1 = o(t). Mit dem Symbol o(t) kennzeichnet man eine Funktion der Variable t, die schneller als t ” gegen Null konvergiert”, d.h. o(t) = 0. lim+ t→0 t Die Eigenschaft der Ordinarität besagt daher in einer etwas umständlichen Form, dass die Wahrscheinlichkeit für das mehrfache Springen des Zählers zu einem Zeitpunkt gleich Null ist. 62 Was kann man unter diesen Annahmen über die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Zählerstände zum Zeitpunkt t bzw. die Anzahl der Sprünge im Zeitintervall [0, t] aussagen? 1. Im Intervall [0, s + t] mit s, t ≥ 0 erfolgt genau dann kein Zählersprung, wenn in den beiden Teilintervallen (0, s] und (s, s + t] keiner stattfindet. Aus den Eigenschaften der Stationarität und der Nachwirkungsfreiheit ergibt sich daher N(0,s] = 0 ∩ N(s,s+t] = 0 = = P N(0,s] = 0 · P N(s,s+t] = 0 = P (Ns = 0) · P (Nt = 0) P (Ns+t = 0) = P oder p0 (s + t) = p0 (s) · p0 (t). Bekanntlich ist eine Funktion p0 (t) mit dieser Eigenschaft von der Form p0 (t) = xt , wobei wegen 0 < p0 (t) < 1 auch 0 < x < 1 oder p0 (t) = e−λt mit einer positiven reellen Zahl λ gilt. Also: p0 (t) = e−λt . Diese Funktion besitzt die Taylorreihe p0 (t) = 1 − λt + (λt)2 (λt)3 − ±··· , 2! 3! wobei der Term in runden Klammern vom Typ o(t) ist. Wenn man sich nur für das Verhalten von p0 (t) für t → 0 interessiert, kann man auch p0 (t) = 1 − λt + o(t) schreiben. 2. Aus (Nt = 0) ∪ (Nt = 1) ∪ (Nt > 1) = Ω (Vereinigung von disjunkten Mengen) folgt p1 (t) = 1 − p0 (t) − P (Nt > 1) und mit der Eigenschaft der Ordinarität ergibt sich p1 (t) = 1 − (1 − λt + o(t)) − o(t) und unter Zusammenfassung aller Terme vom Typ o(t) zu einem: p1 (t) = λt + o(t). 63 3. Für k ≥ 1 zerlegen wir das Ereignis (Ns+t = k) nach den möglichen Kombinationen für Zählersprünge in den Teilintervallen (0, s] und (s, s + t]. (Ns+t = k) = N(0,s] = k ∩ N(s,s+t] = 0 ∪ N(0,s] = k − 1 ∩ N(s,s+t] = 1 ∪ N(0,s] = k − 2 ∩ N(s,s+t] = 2 .. . ∪ N(0,s] = 0 ∩ N(s,s+t] = k = N(0,s] = k ∩ N(s,s+t] = 0 ∪ N(0,s] = k − 1 ∩ N(s,s+t] = 1 ∪ Bs,t . Die Menge Bs,t ist eine Teilmenge von N > 1 , weshalb für die Wahrscheinlichkeiten (s,s+t] P (Bs,t ) ≤ P N(s,s+t] > 1 und wegen der Eigenschaft der Ordinarität P (Bs,t ) = o(t) gilt. Wie unter Punkt 1 ergibt sich daraus pk (s + t) = pk (s) · p0 (t) + pk−1 (s) · p1 (t) + o(t) = = pk (s) (1 − λt + o(t)) + pk−1 (s) (λt + o(t)) + o(t) und unter Zusammenfassung aller o(t)-Terme pk (s + t) − pk (s) = λt (pk−1 (s) − pk (s)) + o(t). Division beider Seiten durch t ergibt pk (s + t) − pk (s) o(t) = λ (pk−1(s) − pk (s)) + . t t Für t → 0 existiert der Limes auf der rechten Seite und damit der des Differenzenquotienten auf der Linken, so dass man mit t → 0 die Differentialgleichung p′k (s) = λpk−1 (s) − λpk (s) erhält. Die Anfangsbedingungen für die Funktionen pk (s) sind dabei durch pk (0) = P (N0 = k) = P (Ø) = 0 für k = 1, 2, 3, . . . gegeben. 4. Mit dem Ansatz pk (s) = e−λs qk (s) wird die obige Differenzialgleichung zu −λe−λs qk (s) + e−λs qk′ (s) = λe−λs qk−1 (s) − λe−λs qk (s) 64 was sich mit Division durch e−λs und Streichen der gleichen Terme auf beiden Seiten der Gleichung zu qk′ (s) = λqk−1 (s) für k = 1, 2, 3, . . . vereinfacht. Zusammen mit q0 (s) = 1 und qk (0) = 0 für alle k ≥ 1 ergibt sich die Lösung (λs)k qk (s) = k! oder (λt)k pk (t) = eλt . k! Die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Anzahl der Zählersprünge im Zeitintervall [0, t] sind also durch die Poisson-Verteilung mit dem Parameter λ gegeben. Beispiel 7.16. Der große Jubiläumstag Genau in einem Jahr feiert ein großer Betrieb seinen 100. Geburtstag. Die Direktion beschließt, allen Kindern von Betriebsangehörigen, die an diesem Tag geboren werden, ein Sparkonto von e 3000 anzulegen. Da rund 730 Kinder pro Jahr geboren werden, erwartet man Auslagen von e 6000. Um Zufallsschwankungen vorzubeugen, plant man e 15.000 ein. Wie groß ist die Wahrscheinlichkeit, dass das Geld nicht reicht? Das Zufallsexperiment besteht aus einer 730-fachen (n = 730 Kinder/Jahr) Wiederholung eines Einzelexperiments (Geburt). Die Wahrscheinlichkeit des Eregnisses, dass Geburtstag 1 eines Kindes auf Jubiläumstag fällt, ist gleich p = 365 . Wir haben hier also zu tun mit 1 eine Bernoulli-Versuchsreihe der Länge n = 730 mit Erfolgswahrscheinlichkeit p = 365 . Zur Beschreibung des Zufallsexperiment benutzen wir aber die Poisson-Verteilung mit dem Parameter λ = p · n = 2. Betrachten wir die Ereignisse Ak : k Kinder werden am Jubiläumstag geboren” ” Das Geld reicht nicht, falls mehr als 5 Kinder geboren werden. Das heisst, zu berechnen ist die Wahrscheinlichkeit ! ! ∞ 5 [ [ P Ak = 1−P Ak = 1 − f (0) − f (1) − . . . − f (5) = k=6 k=0 0 = 1− 2 −2 21 −2 25 e − e − . . . − − e−2 ≈ 0.0168. 0! 1! 5! Die Wahrscheinlichkeit einer unangenehmen Zufallsüberraschung ist also gering. Man rechnet nicht damit. Anmerkung: Am Jubiläumstag wurden 36 Kinder geboren! Die Direktion hat es also verstanden, ihre Angestellten auch für außerbetriebliche Aktivitäten zu begeistern. 65 8 Geometrische Wahrscheinlichkeiten Dieses und die folgenden Kapitel beschäftigen sich mit der Wahrscheinlichkeitsrechnung auf überabzählbaren Ergebnismengen Ω, worunter hauptsächlich die Menge R der reellen Zahlen und die Mengen Rn = {x = (x1 , x2 , . . . , xn ) : xi ∈ R} der n-dimensionalen Vektoren mit reellen Komponenten zu verstehen sind. Als Ausgangspunkt befassen wir uns wie bei den Laplace-Experimenten mit der Frage, wie man die Wahrscheinlichkeit eines Ereignisses unter der Annahme berechnet, dass jedes Ergebnis ω die gleiche Chance des Auftretens besitzt. Zur Veranschaulichung betrachten wir dazu das folgende Problem: Beispiel 8.1. Zwei Personen beschließen sich irgendwann zwischen zwölf und ein Uhr an einem bestimmten Ort zu treffen, wobei aber jede höchstens 20 Minuten auf die andere wartet und wieder geht, falls diese in der Zwischenzeit nicht erscheint. Wie groß ist die Wahrscheinlichkeit, dass die beiden sich treffen? Wenn wir mit x1 und x2 die Ankunftszeiten der beiden Personen in Minuten nach zwölf Uhr messen, so erhalten wir als Menge der möglichen Ergebnisse Ω = (x1 , x2 ) ∈ R2 : 0 ≤ xi ≤ 60 und das Ereignis Treffen” wird durch die Menge ” A = {(x1 , x2 ) ∈ Ω : |x1 − x2 | ≤ 20} repräsentiert. Als Ansatz für eine Wahrscheinlichkeitsverteilung gehen wir wie bei den Laplace- Experimenten von dem Postulat aus, dass alle Paare (x1 , x2 ) von Ankunftszeiten gleich möglich sind. Die Formel P {(x1 , x2 )} = p führt jedoch hier nicht zum Ziel, da Ω unendlich viele Elemente enthält und somit p = 0 gesetzt werden müsste. Statt dessen unterteilen wir Ω in endlich viele gleichartige Quadrate Ik . Das Postulat, dass alle Ankunftszeitenpaare gleich möglich sein sollen, läßt sich dann dahingehend interpretieren, dass die Wahrscheinlichkeit der Ereignisse (x1 , x2 ) liegt in Ik ” für alle Quadrate ” Ik die gleiche ist. Aus der Tatsache, dass die Mengen Ik eine Partition von Ω bilden und der für Wahrscheinlichkeiten stets gültigen Additionsregel folgt dann, dass die Wahrscheinlichkeit eines dieser Quadrate von der Form P (Ik ) = 1 |Ik | = Summe aller Quadrate |Ω| ist, wobei |Ik | bzw. |Ω| die Flächeninhalte dieser beiden Quadrate sind. Als Näherungswert für die Wahrscheinlichkeit des Ereignisses A bietet sich in diesem Rahmen die Summe 66 der Wahrscheinlichkeiten der Ik an, die mit der Menge A einen nichtleeren Durchschnitt aufweisen. Verfeinert man die Unterteilung der Menge Ω immer weiter, so konvergieren diese Näherungswerte gegen den Grenzwert P (A) = |A| |Ω| mit der Fläche |A| der Menge A. Als ersten Ansatz für Wahrscheinlichkeitsverteilungen über Teilmengen des Rn als Ergebnismenge erhält man so den der geometrischen Wahrscheinlichkeiten: Definition 8.2. Sind alle Punkte Ω aus einer Teilmenge Ω bei einem Zufallsexperiment als gleich möglich anzusehen, so ist die Wahrscheinlichkeit, dass das Ergebnis in eine Teilmenge A von Ω fällt, gegeben durch |A| . |Ω| Dabei ist |M| der Inhalt der Menge M, im zweidimensionalen also die Fläche und in drei Dimensionen das Volumen. Bei der Umsetzung dieses so einfach klingenden Ansatzes in ein mathematisches Modell ergeben sich einige Schwierigkeiten sowohl praktischer als auch theoretischer Natur. Zum Einen gibt es das theoretische Problem, welche Teilmengen A des Rn überhaupt eine Fläche oder einen Inhalt besitzen, und die damit zusammenhängende Frage, ob die Gesamtheit dieser Mengen eine σ-Algebra bildet. Damit werden wir uns im nachfolgenden Kapitel beschäftigen. Zum Anderen erweist es sich manchmal, dass die Beschreibung eines Zufallsexperiments, in der die Ausdrücke zufallig oder gleich moglich vorkommen, mehrere mathematische Interpretationen zulässt, die dann auch zu verschiedenen Wahrscheinlichkeiten für einzelne Ereignisse führen. 67 9 Überabzählbare Wahrscheinlichkeitsräume Beim Ansatz von Wahrscheinlichkeiten für Teilmengen des Rn stößt man auf ein technisches Problem. Man kann als Ereignisalgebra nicht die Menge aller Teilmengen des Rn verwenden, da es – wie man beweisen kann – keine Mengenfunktion auf dieser σ-Algebra gibt, die gleichzeitig alle drei Kolmogoroffschen Axiome erfüllt. Um auf der Basis dieser Axiome Wahrscheinlichkeitsrechnung zu betreiben, muss man sich auf eine kleinere σAlgebra zurückziehen. Ein Ansatz dazu wurde im vorgehenden Kapitel vorgeführt. Wir betrachten Mengen, die einen Inhalt besitzen. Dieser Ansatz wird im folgenden präzisiert. 9.1 Intervalle Die von ihrer Struktur her einfachsten Mengen, denen man einen Inhalt zuordnen kann, sind die Intervalle. Eindimensionale Intervalle sind Teilmengen der reellen Zahlenachse der Form (a, b) [a, b) (a, b] [a, b] (a, ∞) [a, ∞) (−∞, b) (−∞, b] (−∞, ∞) = = = = = = = = = {x ∈ R : a < x < b}, {a} ∪ (a, b), (a, b) ∪ {b}, {a} ∪ (a, b) ∪ {b}, {x ∈ R : x > a}, {a} ∪ (a, ∞), {x ∈ R : x < b}, (−∞, b) ∪ {b}, R. mit rellen Zahlen −1 < a ≤ b < 1. Die Gesamtheit dieser eindimensionalen Intervalle bezeichnen wir mit I. Die Länge |I| eines Intervalls mit den Endpunkten a und b ist die Differenz |I| = b − a unabhängig davon, ob die Randpunkte zum Intervall gehören oder nicht. Für die Fälle a = −∞ oder b = ∞ ist auch der Wert ∞ für die Länge zugelassen. Zweidimensionale Intervalle sind Rechtecke, d. h. Teilmengen I des R2 von der Form I = (x1 , x2 ) ∈ R2 : x1 ∈ I1 , x2 ∈ I2 = I1 × I2 , wobei I1 und I2 jeweils eindimensionale Intervalle sind. Die Fläche eines Rechtecks ist bekanntlich als Länge mal Breite definiert, d. h. |I| = |I1 × I2 | = |I1 | · |I2 |. Allgemein sind n-dimensionale Intervalle cartesische Produkte I = I1 × I2 × · · · × In = {(x1 , x2 , . . . , xn ) ∈ Rn : xk ∈ Ik für k = 1, 2, . . . , n} . 68 Als Inhalt des Intervalls I legen wir das Produkt |I| = |I1 × I2 × · · · × In | = |I1 | · |I2 | · . . . · |In | fest, was im Zweidimensionalen mit der Fläche eines Rechtecks und im Dreidimensionalen mit dem Volumen eines Quaders übereinstimmt. Bei Intervallen |Ik | mit nichtendlicher Länge gilt bei der Auswertung des Produkts die Regel 0 · ∞ = 0. Die Menge aller n-dimensionalen Intervalle bezeichnen wir im folgenden mit In . 9.2 Borelsche Mengen und Lebesguesches Maß Die Menge In ist keine σ-Algebra, denn im allgemeinen ist bereits die Vereinigung zweier Intervalle kein Intervall mehr. Sie wird daher so erweitert, dass eine σ-Algebra entsteht. Definition 9.1. Die kleinste σ-Algebra über dem Rn , die die Menge In der n-dimensionalen Intervalle enthält, heißt die σ-Algebra der Borelschen Mengen und wird mit Bn bezeichnet. Für B1 schreiben wir auch nur B. Unter der kleinsten σ-Algebra ist dabei der Durchschnitt aller σ-Algebren zu verstehen, die die Menge In enthalten. (Wie man sich leicht überzeugt, ist der Durchschnitt von σ-Algebren wieder eine σ-Algebra.) Die Elemente B von Bn heißen – wie aus der Bezeichnungsweise schon hervorgeht – Borelsche Mengen. Das Konzept des Inhalts von Intervallen lässt sich auf die Borelschen Mengen fortsetzen. Es gilt der Satz 9.2. Es gibt eine Abbildung λ : Bn → [0, ∞] mit den folgenden Eigenschaften: • λ(B) ≥ 0 für alle B ∈ Bn ; S P • λ Bk = λ (Bk ) für alle paarweise disjunkten Bk ∈ Bn ; k k • λ(I) = |I| für alle I ∈ In . Die Abbildung λ ist durch diese drei Eigenschaften eindeutig bestimmt. Definition 9.3. Die Funktion λ heißt das Lebesguesche Maß auf dem Rn . Es gibt Teilmengen des Rn , die keine Borelschen Mengen sind. Das Mengensystem Bn ist aber groß genug, dass es alle praktisch relevanten Mengen enthält. Insbesondere sind alle offenen und abgeschlossenen Teilmengen des Rn Borelsch. 69 9.3 Verteilungen auf dem Rn Für Wahrscheinlichkeitsverteilungen auf den Borelschen Mengen des Rn gibt es eine Kurzbezeichnung: Definition 9.4. Eine Wahrscheinlichkeitsverteilung auf den Borelschen Mengen des Rn heißt eine Verteilung auf dem Rn oder n-dimensionale Verteilung. Insbesondere, eine Verteilung auf der Menge R der reellen Zahlen wird eine eindimensionale Verteilung genannt. Mit Hilfe der Borelschen Mengen und des Lebesgueschen Maßes kann man das Konzept der geometrischen Wahrscheinlichkeiten jetzt auf eine sichere Basis stellen. Ist Ω eine Borelsche Menge aus dem Rn mit 0 < λ(Ω) < ∞, so kann man leicht nachvollziehen, dass aus den Eigenschaften des Lebesgueschen Maßes die Gültigkeit der Kolmogoroffschen Axiome für die Mengenfunktion P (B) = λ(B ∩ Ω) λ(Ω) (9.17) auf Bn folgt, d.h. dass es sich um eine n-dimensionale Verteilung handelt. Diese Verteilung heißt die uniforme Verteilung oder Gleichverteilung auf der Menge Ω und wird im folgenden kurz mit U(M)-Verteilung bezeichnet. Für B ⊆ Ω ist P (B) = λ(B)/λ(Ω) und entspricht der Formel für die geometrische Verteilung, die aus der Forderung hergeleitet wurde, dass alle Ergebnisse gleich möglich sind. Für B ∩ Ω = Ø ist P (B) = 0. Dies ist eine schwächere Aussage als die, dass nur Ergebnisse aus der Menge Ω möglich sind. Für die Berechnung von Wahrscheinlichkeiten hat das jedoch keine Konsequenzen. Deshalb ist in der Wahrscheinlichkeitsrechnung üblich, nicht mit Wahrscheinlichkeiten auf Teilmengen Ω ⊆ Rn als Ergebnismengen zu arbeiten, sondern als Ergebnismenge den ganzen Rn zu wählen, wobei Borelschen Mengen B mit B ∩ Ω = Ø die Wahrscheinlichkeit P (B) = 0 zugeordnet wird. 9.4 Das Lebesgue-Integral Das wichtigste mathematische Hilfsmittel beim Umgang mit Verteilungen auf dem Rn ist die Integralrechnung, wobei unter einem Integral im allgemeinen das Lebesquesche Integral (L-Integral ) zu verstehen ist. In den Beispielen dieses Skripts und in den meisten praktischen Anwendungsfällen sind die Integranden im Riemannschen Sinne integrierbar, so dass man die zu berechnenden Integrale als Riemann-Integrale (R-Integrale) auffassen kann. Das Integral einer Funktion f : Rn → R über den gesamten Rn als Integrationsbereich bezeichnen wir mit Z f (x) dx. 70 Soll nur über eine Borelsche Teilmenge B ⊂ Rn integriert werden, so verwenden wir entweder die Bezeichnung Z f (x) dx B oder – was manchmal zweckmäßiger ist – wir setzen die Funktion f ausserhalb der Menge B gleich Null und integrieren die so abgeänderte Funktion über den gesamten Rn . Diese Änderung wird dadurch bewirkt, dass wir die Funktion f mit der Indikatorfunktion 1B (x) der Menge B multiplizieren: 1 für x ∈ B, 1B (x) = 0 für x 6∈ B. Da ein Bereich, in dem der Integrand Null ist, nichts zum Wert des Integrals beiträgt, ist Z Z f (x) dx = 1B (x) · f (x) dx. B Wird eine Funktion f : R → R auf der reellen Zahlenachse über ein Intervall mit den Randpunkten a < b integriert, so schreibt man meistens Z a f (x) dx. b Dabei ist auch a = −∞ und b = ∞ zugelassen. 9.5 Absolutstetige Verteilungen Definition 9.5. Eine Lebesgue-integrierbare Funktion f : Rn → R mit den Eigenschaften • f (x) ≥ 0 für fast alle x; Z • f (x) dx = 1. heißt eine Wahrscheinlichkeitsdichte. Anstelle von Wahrscheinlichkeitsdichte sind auch die kürzeren Bezeichnungen Dichte oder Dichtefunktion gebräuchlich. Satz 9.6. Ist f : Rn → R eine Wahrscheinlichkeitsdichte, so ist die Mengenfunktion P : Bn → R, definiert durch Z P (B) = 1B (x) · f (x) dx für B ∈ Bn (9.18) eine n-dimensionale Verteilung. 71 Beweis: 1. Wegen 0 ≤ 1B (x) · f (x) ≤ f (x) für fast alle x ist 0 ≤ und damit 0 ≤ P (B) ≤ 1. R 2. Da 1Rn (x) = 1 für alle x, ist P (Rn ) = f (x) dx = 1. R 1B (x) · f (x) dx ≤ R f (x) dx 3. Fur disjunkte Mengen B1 und B2 gilt 1B1 ∪B2 (x) = 1B1 (x) + 1B2 (x). Wegen der Linearität des Lebesgue-Integrals folgt daraus Z Z P (B1 ∪ B2 ) = 1B1 ∪B2 (x) · f (x) dx = (1B1 (x) + 1B2 (x)) · f (x) dx = Z Z = 1B1 (x) · f (x) dx + 1B2 (x) · f (x) dx = P (B1 ) + P (B2 ) . Eine entsprechende Regel gilt natürlich auch für die Summe einer endlichen Anzahl n > 2 von paarweise disjunkten Mengen Bk . Für abzählbar viele paarweise disjunkte Borelsche Mengen Bk ist zunächst ! Z ∞ n n X X [ P (Bk ) = lim P (Bk ) = lim P Bk = lim 1An (x) · f (x) dx, n→∞ k=1 wobei An = n S n→∞ k=1 k=1 n→∞ Bk . k=1 Wegen A1 ⊆ A2 ⊆ . . . mit ∞ S An = n=1 ∞ S k=1 Bk =: B bilden die Funktionen gn (x) = 1An (x) · f (x) eine monoton steigende Funktionenfolge mit lim gn (x) = 1B (x) · f (x). Nach dem n→∞ Konvergenzsatz von Beppo Levi gilt daher ! Z Z ∞ n X [ P (Bk ) = lim 1An (x) · f (x) dx = 1B (x) · f (x) dx = P (B) = P Bk . k=1 n→∞ k=1 und damit auch das dritte Axiom. Bezeichnung: Eine Verteilung der Form (9.18) heißt eine absolutstetige Verteilung und die Funktion f Dichte zur Verteilung P . Sind f1 und f2 Dichten zur gleichen Verteilung P , so unterscheiden sie sich höchstens auf einer Nullmenge, d. h. – locker gesprochen – sie sind im wesentlichen gleich. Beispiel 9.7. Die uniforme Verteilung (9.17) besitzt die Dichte 1 falls x ∈ Ω, 1 λ(Ω) f (x) = · 1Ω (x) = λ(Ω) 0 falls x 6∈ Ω. Für die Indikatorfunktionen zweier Mengen A und B gilt 1A∩B (x) = 1A (x) · 1B (x), so dass Z Z Z 1 1 λ(B ∩ Ω) 1B (x) · f (x) dx = 1B (x) · 1Ω (x) dx = 1B∩Ω (x) dx = . λ(Ω) λ(Ω) λ(Ω) 72 Ist Ω = (a, b) ⊂ R, a < b, dann 1 |b − a| f (x) = 0 falls x ∈ (a, b), falls x 6∈ (a, b). Eine Verteilung erhält man nach dem obigen Satz einfach R dadurch, dass man eine Lebesgue-integrierbare Funktion g(x) ≥ 0 mit dem Wert c = g(x) dx normiert: f (x) = 1c g(x) ist eine Dichte und legt durch (9.18) eine Verteilung fest. Beispiel 9.8. Die Funktion 1 g(x) = e− 2 x 2 mit x ∈ R ist positiv und im Lebesgueschen wie im uneigentlich-Riemannschen Sinn integrierbar (sie wird für betragsmäßig große x durch 1/x2 majorisiert). Zur Berechnung des Integrals benötigt man einen kleinen Trick. Man berechnet nicht c sondern Z ∞ 2 Z ∞ Z ∞ Z ∞ Z ∞ 2 c = g(x) dx = g(x) dx · g(y) dy = g(x)g(y) dy dx. −∞ −∞ −∞ −∞ −∞ Nach dem Satz von Fubini ist das letzte Integral gleich dem Bereichsintegral über den gesamten R2 : Z Z 1 2 2 2 c = g(x)g(y) d(x, y) = e− 2 (x +y ) d(x, y). R2 R2 Dieses Bereichsintegral wandeln wir durch Übergang zu Polarkoordinaten um: x = r cos(φ) = x(r, φ), y = r sin(φ) = y(r, φ). Der Integrationsbereich wird dadurch die Menge M = {(r, φ) : 0 ≤ r < ∞, 0 ≤ φ < 2π} = [0, ∞) × [0, 2π). Die Funktionaldeterminante ist Wegen x2 + y 2 = r 2 ∂x ∂x ∂(x, y) ∂r ∂φ = ∂y ∂y = r. ∂r ∂φ ∂(r, φ) sin2 (φ) + cos2 (φ) = r 2 erhält man dadurch Z 1 2 2 c = re− 2 r d(r, φ) M und weiter durch Übergang zum iterierten Integral Z ∞ Z 2π Z ∞ Z 2 − 12 r 2 − 21 r 2 c = re dφ dr = re dr · 0 0 0 2π 1 dφ = 2π 0 Der Integrand des letzten Integrals besitzt die Stammfunktion 1 2 so dass c2 = 2π bzw. c = √ −e− 2 r 2π. 73 Z ∞ 0 1 2 re− 2 r dr. Bezeichnung: Die eindimensionale Verteilung mit der Dichte 1 2 1 ϕ(x) = √ e− 2 x 2π heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung. 10 Eindimensionale Verteilungen In diesem Kapitel werden einige für die eindimensionale Verteilungen spezifische Themen behandelt. Es sind dies – analog zu den bei diskreten Verteilungen eingeführten Größen – der Begriff der Zufallsvariablen und deren Kennwerte wie Erwartungswert und Varianz, und auch die Verteilungsfunktion als Charakteristikum für solche Verteilungen. 10.1 Zufallsvariable Das Konzept einer Zufallsvariablen wurde im Kapitel 7.2 für diskrete Verteilungen erläutert. In diesem Abschnitt wird der Begriff der Zufallsvariablen präziser gefasst. Definition 10.1. Eine Abbildung X : Ω → R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft (X ∈ B) ∈ A für alle B aus der σ-Algebra B der Borelschen Mengen auf R, heißt eine Zufallsvariable. Es ist unmöglich anhand dieser Definition nachzuprüfen, ob eine vorgegebene Funktion X : Ω → R eine Zufallsvariable ist, da es keine Methode gibt, nach der man alle Borelschen Mengen erzeugen kann. Man kann aber zeigen, dass man sich zum Test der Messbarkeit auf die speziellen Mengen (X ≤ t) = (X ∈ (−∞, t]) = {ω ∈ Ω : X(ω) ≤ t} beschränken kann: Satz 10.2. Eine Funktion X : Ω → R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist genau dann eine Zufallsvariable, wenn für alle reellen Zahlen t die Mengen (X ≤ t) in der σ-Algebra A liegen. Der Test der Messbarkeit nach diesem Satz lässt sich mit dem Problem verbinden, ob für alle reelle Zahlen t die Mengen (X ≤ t) im Definitionsbereich der Wahrscheinlichkeitsverteilung P liegen. Für die praktische Anwendung heißt das: Wenn es gelingt, für alle reellen Zahlen t die Wahrscheinlichkeit P (X ≤ t) zu berechnen, dann ist X eine Zufallsvariable. 74 10.2 Die Verteilung einer Zufallsvariable Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable, so liegen die Urbilder (X ∈ B) für alle B ∈ B im Definitionsbereich der Wahrscheinlichkeit P . Durch PX (B) = P (X ∈ B) erhält man daher eine wohldefinierte Mengenfunktion PX : B → R. Wie der Buchstabe P schon andeutet, gilt Satz 10.3. Die Abbildung PX ist eine Wahrscheinlichkeitsverteilung. Der Beweis dieser Aussage ist leicht nachzuvollziehen (vgl. Satz 7.4). Bezeichnung: Die Wahrscheinlichkeit PX heißt die Verteilung der Zufallsvariable X. Zur schematischen Darstellung dieser Situation werden wir im folgenden stets das Diagramm X (Ω, A, P ) −→ (R, B, PX ) verwenden. 10.3 Zufallsvariable mit absolutstetiger Verteilung Bezeichnung: Eine Zufallsvariable X : Ω → R mit absolutstetiger Verteilung PX werden wir eine stetige (stetig verteilte) Zufallsvariable nennen. Die Dichte fX zur Verteilung PX werden wir kurz als Dichte von X bezeichnen. Seien a, b reelle Zahlen mit a < b, dann PX ([a, b]) = P (a ≤ X ≤ b) = Z b fX (x) dx. a Mit der physikalischen Interpretation der Dichte einer absolutstetigen eindimensionalen Verteilung als der spezifischen Dichtefunktion einer über die reellen Zahlenachse kontinuierlich verteilten Wahrscheinlichkeitsmasse lassen sich die Konzepte aus dem Kapitel 7.2 vollständig übertragen, wobei an die Stelle des Summenzeichens das Integral tritt. Definition 10.4. Sei X eine stetige Zufallsvariable mit der Dichte f . Dann heißt Z ∞ m1 (PX ) = µ = E(X) := x · f (x) dx −∞ der Erwartungswert von X (oder von PX ) und 2 m̂2 (PX ) = σ = V (X) := E (X − µ) die Varianz von X (oder von PX ). 75 2 = Z ∞ −∞ (x − µ)2 · f (x) dx Es wird vorausgesetzt, das die obigen Integrale im Lebesgueschen Sinne existieren. Sind die Integranden im Riemannschen Sinne integrierbar, so setzt man voraus, dass die Integrale absolut konvergent sind. Andernfalls besitzt die Zufallsvariable keinen Erwartungswert bzw. keine Varianz. Alle Anmerkungen aus Abschnitten 7.5.1 und 7.6.1 gelten sinngemäß auch für den Fall einer stetigen Zufallsvariable, also insbesondere Monotonie und Linearität des Erwartungswertes. Die in Sätzen 7.9 und 7.10 im diskreten Fall angegeben Darstellungen von E[g(X)] und E[h(X, Y )] müssen für stetige Zufallsvariable umgeschrieben werden: • Ist X : Ω → R eine stetige Zufallsvariable mit Dichte fX und ist g : R → R eine integrierbare Abbildung, dann gilt Z ∞ E[g(X)] = g(x) · fX (x) dx. −∞ • Sind X : Ω → R und Y : Ω → R stetige Zufallsvariablen mit gemeinsamer Dichte f(X,Y ) und ist h : R2 → R eine Abbildung so, dass h · f(X,Y ) integrierbar ist, dann gilt Z ∞Z ∞ E[h(X, Y )] = h(x, y) · f(X,Y ) (x, y) dx dy. −∞ −∞ Die Existenz der entsprechenden Integrale kann auf der rechten oder linken Seite nachgeprüft werden. Analog zur diskreten Fall beweist man auch den Steinerschen Satz V (X) = E X 2 − (E(X))2 und die Ungleichung von Tschebyscheff PX (Bε ) ≤ V (X) . ε2 mit der Menge Bε = {x ∈ R : |x − µ| ≥ ε}. Beispiel 10.5 (Erwartungswert und Varianz der gleichverteilte Zufallsvariable). Sei X eine Zufallsvariable mit der uniformen Verteilung U(a, b), a < b, (s. Bsp. 9.7), d. h. mit der Dichte 1 falls x ∈ (a, b), |b − a| f (x) = 0 falls x 6∈ (a, b). Der Erwartungswert von X ist dann gleich E(X) = Z x · f (x) dx = Z a b b 1 1 x2 1 x· dx = · = (a + b). b−a b−a 2 a 2 76 Zur Berechnung der Varianz von X benutzen wir den Steinerschen Satz und bestimmen zuerst b Z Z b 1 x3 1 2 1 2 2 2 E X = x · f (x) dx = x · dx = · = a + ab + b2 , b−a b−a 3 a 3 a Dann 1 1 2 1 V (X) = E X 2 − (E(X))2 = a + ab + b2 − (a + b)2 = (b − a)2 . 3 4 12 10.4 Die Verteilungsfunktion Die absolutstetigen Verteilungen auf R, die sich durch eine Dichte beschreiben lassen, d.h. Z P (B) = 1B (x) · f (x) dx bilden nur eine Teilklasse der Gesamtheit der Wahrscheinlichkeitsverteilungen auf der reellen Zahlenachse. Eine vollständige Charakterisierung der eindimensionalen Verteilungen erhält man durch die Verteilungsfunktion: Definition 10.6. Ist X : Ω → R eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ), so heißt die Funktion F : R → R, definiert durch F (t) := PX (−∞, t] = P (X ≤ t) die Verteilungsfunktion der Zufallsvariable X (oder der Verteilung PX ). Beispiel 10.7 (Die Verteilungsfunktion der Zufallsvariable mit der uniformen Verteilung). Sei X eine Zufallsvariable mit der U[a, b]-Verteilung. Nach der Definition haben wir F (t) := PX (−∞, t] = mit λ([a, b]) = b − a. Wegen Ø (−∞, t] ∩ [a, b] = [a, t] [a, b] ergibt sich die Verteilungsfunktion zu 0 t−a F (t) = b−a 1 λ ((−∞, t] ∩ [a, b]) λ([a, b]) falls t < a, falls a ≤ t ≤ b, falls t > b falls t < a, falls a ≤ t ≤ b, falls t > b. 77 (10.19) Die Verteilungsfunktion lässt sich wie folgt charakterisieren: Satz 10.8. Eine Verteilungsfunktion besitzt die folgenden Eigenschaften: ❶ lim F (t) = 0 und lim F (t) = 1; t→−∞ t→∞ ❷ F ist monoton wachsend, d. h. aus s ≤ t folgt F (s) ≤ F (t); ❸ F ist rechtseitig stetig, d. h. F t+ F (t) = F (t0 ), 0 := lim t→t+ 0 wenn wir mit F t+ den rechtsseitigen Grenzwert (t > t0 ) der Funktion F an der 0 Stelle t0 bezeichnen. Beweis: 1. Für die erste Eigenschaft betrachten wir eine beliebige monotone und nicht beschränkte Folge reeller Zahlen tn . Für die Intervalle In := (−∞, tn ] gilt dann In ր (−∞, ∞) = R und F (tn ) ր 1 ist nichts anderes als die Eigenschaft aus dem Satz 3.5 für monotone Folgen von Ereignissen mit den hier eingeführten Bezeichnungen. Die nächste Aussage erhält man, indem man eine monoton fallende Zahlenfolge (tn ) betrachtet, wobei tn ց −∞. Für die Intervalle In gilt dann In ց Ø und der Satz 3.6 liefert das Verhalten von F . 2. Für s ≤ t ist (−∞, s] ⊆ (−∞, t], die Monotonie von F ergibt sich so aus Regel (3.5). 3. Betrachten wir wieder eine monoton fallende Zahlenfolge (tn ), wobei diesmal tn ց t0 . Für die Intervalle In gilt dann In ց (−∞, t0 ] und nochmal der Satz 3.6 liefert das Verhalten von F . Diese Eigenschaften charakterisieren eine Verteilungsfunktion bereits vollständig, denn man kann die folgende Aussage beweisen: Satz 10.9. Zu jeder Funktion F : R → R mit den in Satz 10.8 aufgeführten Eigenschaften gibt es genau eine Verteilung PX auf R mit PX (−∞, t] = F (t) für alle t ∈ R. Beispiel 10.10. Die Funktion F (t) = 0 −λt 1−e falls t ≤ 0, falls t > 0 (10.20) mit einer Konstanten λ > 0 erfüllt alle Eigenschaften einer Verteilungsfunktion. Die zugehörige Verteilung heißt die Exponentialverteilung mit Parameter λ oder kurz die E(λ)Verteilung. Um einen der Anwendungsbereiche der Exponentialverteilung darzustellen, betrachten wir für s ≥ 0 die Ereignisse As := (s, ∞). Die Komplementärmenge zum Intervall (s, ∞) ist das Intervall (−∞, s], so dass P (As ) = 1 − P (As ) = 1 − P (−∞, s] = 1 − F (s) = e−λs 78 woraus sich die Gleichung P (As+t ) = P (As ) · P (At ) für alle nichtnegativen rellen Zahlen s, t ergibt. Aus dieser Gleichung wiederum folgt – auf dem umgekehrten Weg wie bei der Herleitung der geometrischen Verteilung in Abschnitt 7.8.4 – die Identität P (As+t |As ) = P (At ) d.h. die Gedächtnislosigkeit. Die Exponentialverteilung ist somit das kontinuierliche Gegenstück zur geometrischen Verteilung. Man benutzt sie beispielsweise zur Beschreibung der Lebensdauer nahezu verschleißfreier Geräte, wenn die Zeit nicht in diskreten Beobachtungsintervallen, sondern kontinuierlich gemessen wird. Die beiden Verteilungsfunktionen (10.19) und (10.20) sind in allen Punkten t ∈ R stetig. Diese Eigenschaft gilt aber nicht generell für Verteilungsfunktionen. Für eine streng monoton steigende Folge t1 < t2 < . . . < tn < . . . < s von reellen Zahlen mit lim tn = s gilt nämlich n→∞ ∞ [ n=1 (−∞, tn ] = {t ∈ R : t < s} = (−∞, s). Der Limes s ist in dieser Vereinigungsmenge nicht enthalten, weil tn < s für alle n. Wenn wir mit F (s− ) den Grenzwert der Funktionswerte F (tn ) für n → ∞ bezeichnen, d.h. den linksseitigen Grenzwert der Funktion F an der Stelle s, so folgt aus der letzten Gleichung und den Sätzen über monotone Ereignisfolgen, dass F s− = P (−∞, s) (10.21) und wegen (−∞, s] = (−∞, s) ∪ {s} F (s) − F s− = P {s}. Eine Unstetigkeitsstelle der Verteilungsfunktion F an einer Stelle s bedeutet also, dass das Elementarereignis {s} eine positive Wahrscheinlichkeit besitzt. 10.4.1 Berechnung von Intervallwahrscheinlichkeiten Mit Hilfe der Verteilungsfunktion kann man die Wahrscheinlichkeiten aller Typen von Intervallen berechnen. ❶ Ein Intervall der Form (a, ∞) ist die Komplementärmenge zum Intervall (−∞, a], so dass P (a, ∞) = 1 − P (−∞, a] = 1 − F (a). 79 ❷ Für [a, 1) gilt nach (10.21) P [a, ∞) = 1 − P (−∞, a) = 1 − F a− . ❸ Für das Intervall (a, b] folgt aus (−∞, b] = (−∞, a] ∪ (a, b] und dem Additivitätsaxiom für Wahrscheinlichkeiten P (a, b] = F (b) − F (a). ❹ Für das abgeschlossene Intervall [a, b] ist (−∞, b] = (−∞, a) ∪ [a, b] und daher P [a, b] = F (b) − F a− . Ist die Verteilungsfunktion stetig, so ist F (s) = F (s− ) für alle s. Elementarereignisse besitzen in diesem Fall alle die Wahrscheinlichkeit Null und für alle Typen von Intervallen I mit den Rändern a und b ist P (I) = F (b) − F (a). 10.4.2 Verteilungsfunktionen und Dichten Die beiden Verteilungsfunktionen (10.19) und (10.20) sind nicht nur stetig, sondern sogar stückweise stetig differenzierbar. Daraus folgt, dass sie Stammfunktionen zu integrierbaren Funktionen f (x) sind: Z Z t F (t) = 1(−1,t] (x) · f (x) dx = f (x) dx. (10.22) −∞ Im Fall (10.19) der uniformen Verteilung ist das die falls 0 1 falls fu (x) = = b−a 1 falls und bei der Exponentialverteilung (10.20) 0 fe (x) = −λx λe Funktion x < a, a ≤ x ≤ b, x > b. falls x ≤ 0, falls x > 0 (10.23) (10.24) Für die Integration wie in (10.22) ist es dabei unwesentlich, welchen Wert man den Funktionen fu und fe an den Sprungstellen a, b bzw. 0 zuweist. Da eine Verteilungsfunktion F monoton nichtfallend ist, ist nach (10.22) zugehörige Funktion f fast überall nichtnegativ und wegen lim F (t) = 1 hat man t→∞ Z f (x) dx = Z ∞ −∞ 80 f (x) dx = 1. Die Funktion f (x) ist also eine Dichte mit P (−1, t] = F (t) = Z 1(−1,t] (x) · f (x) dx für die zur Verteilungsfunktion F gehörige Verteilung P . Wie man zeigen kann – P ist ja durch F eindeutig bestimmt – folgt daraus Z P (B) = 1B (x) · f (x) dx für alle Borelschen Mengen B. Dies bedeutet: Satz 10.11. Ist die Verteilungsfunktion F von der Form (10.22), so ist die zugehörige Verteilung P absolutstetig mit Dichte f . 10.4.3 Unstetige Verteilungsfunktionen Wie schon gesagt wurde, die Eigenschaft der Stetigkeit gilt nicht generell für die Verteilungsfunktionen. Dazu zunächst das folgende Beispiel. 1 Beispiel 10.12. Eine Glühbirne werde beim Einschalten mit einer Wahrscheinlichkeit 10 defekt und nach 500 Brennstunden werde sie grundsätzlich ausgetauscht, weil im Mittel nur 40% dieser Glühlampen diese 500 Stunden überleben. Ein Ausfall dazwischen soll zu einem zufälligen” Zeitpunkt stattfinden. ” Für die Lebensdauer T einer Glühbirne muss dann gelten: P (T = 0) = 0.1, P (T = 500) = 0.4, P (0 < T < 500) = 0.5 und P (0 < T < t) = 0.001 t für 0 < t ≤ 500, da wir auf dem Intervall (0, 500) eine uniforme Verteilung mit dem Gewicht 0.5 haben. Daraus ergibt sich die folgende Verteilungsfunktion: 0 falls t < 0, 0.1 + 0.001 t falls 0 ≤ t < 500, F (t) = 1 falls t ≥ 500. Hieraus lässt sich z. B. für eine Lebensdauer von über 250 Stunden ablesen: P (T > 250) = 1 − F (250) = 1 − (0.1 + 0.001 · 250) = 1 − 0.35 = 0.65. Bezeichnung. Eine Wahrscheinlichkeitsverteilung, die sowohl diskrete als auch stetige Anteile enthält, d.h. P = αd P d + αs P s mit αd ∈ [0, 1] und αd + αs = 1, heißt eine gemischte Verteilung. 81 Definition 10.13. Sei X : Ω → R eine Zufallsvariable mit gemischter Verteilung PX = αd PXd + αs PXs . Existieren die Erwartungswerte Ed (X) von PXd und Es (X) von PXs , dann heißt E(X) := αd Ed (X) + αs Es (X) der Erwartungswert X, bzw. von PX . Der Erwartungswert für gemischte Verteilungen lässt sich auch mit Hilfe der Verteilungsfunktion darstellen. Diese Darstellung gilt dann natürlich auch für diskrete und stetige Verteilungen, die als Spezialfälle (αs = 0 bzw. αd = 0) in den gemischten Verteilungen enthalten sind. Dazu definieren wir zuerst das sogenannte Stieltjes-Integral, das uns erlaubt diese einheitliche Darstellung des Erwartungswertes und auch der Variation einzuführen. Definition 10.14. Sei F eine stückweise stetige Verteilungsfunktion, R b die im Inneren von Stetigkeitsintervallen auch differenzierbar ist. Dann heißt die Größe a g(x) dF (x) gegeben durch die Gleichung Z b Z b X dF (x) g(x) dF (x) := g(x) dx + g (xi ) F (xi ) − F x− , (10.25) i dx a a i das Stieltjes-Integral von g bezüglich der Verteilungsfunktion F . Mit xi bezeichnen wir die Sprungstellen der Verteilungsfunktion F , zwischen denen sie stetig und differenzierbar ist. Ist die Verteilungsfunktion F stetig (d.h. die entsprechende Verteilung hat die Dichte f ), dann in der Gleichung 10.25 verschwindet die Summe, da die Sprünge F (xi ) − F x− gleich Null sind. Das Stieltjes-Integral ist dann gleich dem Riemann-Integral Rb i ′ g(x)f (x) dx. a Entspricht die Verteilungsfunktion F einer diskreten Verteilung, dann ihre Ableitung zwischen den SprüngenPgleich Null ist, da sie dort konstant ist. Das Stieltjes-Integral ist dann gleich der Summe g (xi ) · P (X = xi ). i Satz 10.15. Sei X : Ω → R eine Zufallsvariable mit der Verteilungsfunktion F . Dann ist der Erwartungswert von X gleich Z ∞ E(X) = x dF (x) −∞ und die Varianz V (X) = E (X − µ) 2 = Z ∞ −∞ (x − µ)2 dF (x), vorausgesetzt, dass die obige Integrale absolut konvergent sind. 82 Die bis jetzt dargestellte Eigenschaften des Erwartungswertes und der Varianz, auch der Steinersche Satz V (X) = E X 2 − (E(X))2 und die Ungleichung von Tschebyscheff, gelten natürlich auch im allgemeinen Fall der gemischten Verteilung. Beispiel 10.16. Im Beispiel 10.12 ergibt sich für die Zufallsvariable T (Lebensdauer einer Glühbirne) der Erwartungswert Z ∞ X dF (x) E(T ) = x dx + xi F (xi ) − F x− = i dx −∞ = Z 0 xi ∈{0,500} 500 x · 0.001 dx + 0 · (0.1 − 0) + 500 · (1 − 0.6) = 500 x2 = 0.001 · + 200 = 125 + 200 = 325. 2 0 Analog berechnet man Z ∞ dF (x) 2 dx + E (T ) = x2 dx −∞ = Z 0 500 X xi ∈{0,500} (xi )2 F (xi ) − F x− = i x2 · 0.001 dx + 02 · (0.1 − 0) + 5002 · (1 − 0.6) = 500 x3 125 000 425 000 = 0.001 · + 100 000 = + 100 000 = = 141 666.6(6). 3 0 3 3 Die Varianz von T ist dann gleich 425 000 V (T ) = E T 2 − (E(T ))2 = − 105 625 = 36 041.6(6). 3 10.4.4 Verteilung von Funktionen einer Zufallsvariable Es seien X eine Zufallsvariable mit der Verteilungsfunktion FX und g : R → R eine Funktion, so dass Y = g(X) auch eine Zufallsvariable ist. Dann gilt für die Verteilungsfunktion FY von Y definitionsgemäß FY (y) = P (g(X) ≤ y) = P X ∈ g −1 ((−∞, y]) . Bei strenger Monotonie von g ergibt sich die folgende Konstruktionsvorschrift für die Verteilungsfunktion von g(X): Satz 10.17. Es sei g streng monoton wachsend, bzw. fallend, dann folgt für y ∈ g(R) FY (y) = P X ≤ g −1 (y) = FX g −1(y) , 83 bzw. FY (y) = P X ≥ g −1 (y) = 1 − FX g −1(y) + PX X = g −1(y) . Wenn darüber hinaus g stetig differenzierbar ist mit g ′ (x) 6= 0 auf R und X mit der Dichte fX stetig verteilt ist, dann folgt für die Dichte fY von Y = g(X) d g −1(y) fX (g −1 (y)) für y ∈ g(R), dy fY (y) = 0 für y 6∈ g(R). Beweis: Die erste Aussage folgt unmittelbar aus der strengen Monotonie. Bei streng fallenden g ergibt sich mit den Regeln für Wahrscheinlichkeiten P X ≥ g −1 (y) = 1 − P X < g −1 (y) = 1 − P X ≤ g −1 (y) + PX X = g −1 (y) . Bei stetig differenzierbaren g und stetig verteilten X gilt PX (X = g −1(y)) = 0. Da fY (y) = FY′ (y), folgt es nach der Kettenregel weiter, dass d −1 fY (y) = fX g −1(y) · g (y), dy d −1 bzw. fY (y) = −fX g −1(y) · g (y). dy Für y ∈ g(R) ist die gewünschte Formel bewiesen, da die Ableitung bzw. negativ, ist. d −1 g (y) dy positiv, Wegen der Stetigkeit von g ist g(R) ein Intervall. Ist y 6∈ g(R), dann ist y < z oder y > z für alle z ∈ g(R). In diesem Fall ist stets FY (y) = 0 oder entsprechend FY (y) = 1, was fY (y) = 0 impliziert. Beispiel 10.18 (Lineare Transformation). Wir betrachten den Fall Y = g(X) = aX + b mit a 6= 0. Wegen g(R) = R folgt sofort für alle y ∈ R wegen g −1(y) = FY (y) = FX y−b a FY (y) = 1 − FX y−b a y−b : a für a > 0, +P X = y−b a für a < 0 und für eine stetig verteilte Zufallsvariable mit der Dichte fX : 1 y−b fY (y) = · fX . |a| a Beispiel 10.19 (Quadrat). Wir betrachten den Fall Y = g(X) = X 2 84 für eine stetig verteilte Zufallsvariable X. Offensichtlich ist g(R) = [0, ∞). Da g die Monotoniebedingung nicht erfült, ist der Satz 10.17 nicht unmittelbar anwendbar. Wir berechnen FY für y ≥ 0 direkt gemäß FY (y) = P (g(X) ≤ y) = P (X 2 ≤ y) = P (|X| ≤ y) = √ √ √ √ y − FX − y . = P − y ≤ X ≤ y = FX Wegen FY (y) = P (X 2 ≤ y) = 0 für alle y ≤ 0 folgt fY = 0 für y < 0. In y = 0 können wir fY (0) ≥ 0 beliebig wählen, ohne FY zu verändern. Wir setzen fY (0) = 0 und erhalten √ für y > 0 in Stetigkeitspunkten x = ± y von fX fY (y) = FY′ (y) = 1 √ √ √ (fX ( y) + f (− y)) . 2 y Ist z. B. X auf [0, 1] gleich verteilt (geometrische Wahrscheinlichkeit), dann hat Y = X 2 die uneigentlich intergrierbare Dichte fY (y) = 2√1 y für y ∈ (0, 1] und fY (y) = 0 sonst. 11 Weitere Kennwerte von Zufallsvariablen Zur Berechnung minimaler Schranken ρ von Fehlerabschätzungen mit der Sicherheitswahrscheinlichkeit β (oft β ≥ 0.95) der beideseitigen Form P (|X − µ| ≤ ρ) ≥ β oder einseitigen Form P (X ≤ ρ) ≥ β werden die so genannten Quantile benutzt. Definition 11.1. Es sei X : Ω → R eine Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Verteilunsfunktion F gegeben. Für jedes Zahl α ∈ (0, 1) heißt eine Zahl Qα mit der Eigenschaft F Q− ≤ α ≤ F (Qα ) α α-Quantil der Zufallsvariable X oder ihrer Verteilung F . Die Verteilungsfunktion F erreicht also oder überschreitet an der Stelle Qα den Wert α. Da die obige Ungleichungen äquivalent zu den folgenden Ungleichungen P (X < Qα ) ≤ α und P (X > Qα ) ≤ 1 − α sind, ist also das α-Quantil der Wert des Punktes einer Verteilung, links vom dem höchstens ein Anteil α und rechts höchstens ein Anteil (1 − α) aller Flle der Verteilung liegt. Der Punkt Qα selbst kann dabei auch positive Wahrscheinlichkeit besitzen. Hat α-Quantil dagegen die Wahrscheinlichkeit P (X = Qα ) = 0 (im Falle der Stetigkeit von F ), dann die gesamte Wahrscheinlichkeit wird genau in α- und (1 − α)-Teil geteilt und es gilt F (Q− α ) = F (Qα ) = α, d.h. Qα ist die Lösung der Gleichung F (x) = α. 85 Es kann mehrere α-Quantile geben, und zwar dann, wenn die Verteilungsfunktion F auf einem Intervall den Wert α annimmt, z.B. bei diskreten Verteilungen. Dann sind alle Punkte des Intervalls α-Quantile, einschließlich der Randpunkte. Für einige bestimmte α haben die α-Quantile zusätzliche Bezeichnungen: • Der Median (Zentralwert) entspricht dem Quantil Q0.5 (0.5-Quantil). Links und rechts von einem Median liegt jeweils höchstens die Hälfte der gesamten Wahrscheinlichkeit. • Die 0.25-, 0.5- und 0.75-Quantile nennt man häufig Quartile ( Viertelwerte”, da ” sie die gesamte Verteilung in 4 Teile unterteilen). Sie werden auch als Q1 ( unteres ” Quartil”), Q2 ( mittleres Quartil”) und Q3 ( oberes Quartil”) (bzw. als erstes, zwei” ” tes und drittes Quartil) bezeichnet. Sie sind die in der Statistik mit am häufigsten verwendete Form der Quantile. Der Median hat in der Anwendung als Lageparameter der Verteilung eine zunehmende Bedeutung, da er die unteren 50% der Werte einer Zufallsvariablen X von den oberen 50% trennt. Der Median stellt auf die Mitte der Verteilung ab und so ist er im Gegensatz zum Erwartungswert robust gegenüber extrem abweichenden Werten (Resistenz gegen Ausreißer). Allerdings wirkt sich die gelegentlich fehlende Eindeutigkeit negativ aus. Deswegen manchmal wird das α-Quantil (und dann auch der Median) als Qα := sup {x ∈ R : F (x) < α} oder äquivalent Qα := inf {x ∈ R : F (x) ≥ α} . definiert. Lageparameter (Median, Erwartungswert) geben zwar Schwerpunkte der Verteilung an (Was ist der typische Wert der Verteilung? ), nicht aber Breite” der Verteilung (Wie ” typisch ist das Lageparameter für die Verteilung? ). Die letzte Frage wird von sog. Streuungmassen (Lage-, Dispersionsparameter) beantwortet, von denen haben wir schon die Varianz und die Standardabweichung besprochen. Der Quartilsabstand (engl.: interquartile range) mißt auch die Streuung der Verteilung, indem er die Differenz zwischen dem oberen (dritten) und dem unteren (ersten) Quartil also Q0.75 − Q0.25 betrachtet. Der Quartilsabstand mißt also, in welchem Bereich die mittleren 50% der Variablenwerte streuen. Da er auf dem mittleren Bereich der Verteilung beruht, ist er ein robusteres Maß der Streuung die Varianz. Die Varianz kann durch einzelne, vom Erwartungswert weit abweichende Werte sehr groß werden. Wenn der Quartilsabstand mit anderen Maßzahlen der Streuung verglichen wird, z.B. mit der Standardabweichung, betrachtet man häufig die Hälfte des Quartilsabstandes, den sogenannten Semiquartilsabstand. Gelegentlich werden als Kennwerte einer Verteilung auch der Modalwert und die Spannweite herangezogen. 86 Definition 11.2. Jede Maximumstelle einer Wahrscheinlichkeitsfunktion (diskreter Fall) oder Dichtefunktion (stetiger Fall) fX wird Modalwert (Modus) der Zufallsvariable X (oder der Verteilung PX ) genannt. Der Modalwert ist also der Wert mit der größten Wahrscheinlichkeit (technisch gesagt: der häufigste Wert einer Häufigkeitsverteilung). Da eine Verteilung mehrere Maxima besitzen kann, können einer Verteilung auch mehrere Modi (multimodale Verteilung) zugeordnet sein. Gibt es nur einen Modalwert, so nennt man die Verteilung von X unimodal und dann ist der Modalwert ein einfaches und anschauliches Lageparameter. Die Spannweite ist das einfachste Streuungsmaß und entspricht der Differenz zwischen dem größten und kleinsten Wert einer Zufallsariablen X. Sie ist jedoch nicht besonders informativ, da sie auf lediglich zwei Werten der Verteilung beruht, die zudem sehr stark von den anderen Werten abweichen können. Die Verwendung des Minimums und Maximums kann daher den Bereich, in dem sich die meisten Werte der Variablen bewegen, sehr verzerrt wiedergeben. Man kann auch weitere Kennwerte für eine Verteilung betrachten, wie z.B. • die Schiefe, die ein Maß für die Asymmetrie einer Verteilung in Bezug auf den Erwartungswert ist. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist. Bei rechtsschiefen (oder linkssteilen) Verteilungen sind Werte, die kleiner sind als der Erwartungswert, häufiger zu beobachten, so dass sich der Gipfel (Modalwert) links vom Erwartungswert befindet; der rechte Teil des Graphs ist flacher als der linke. Da die Gaußsche Normalverteilung die Schiefe Null hat, ist die Schiefe ein geeignetes Werkzeug, um eine beliebige Verteilung mit betragsmäßig positiver Schiefe mit der Normalverteilung zu vergleichen. Die Formel: 3 E X − E(X) γ3 := 3 V (X) 2 • der Exzeß (Wölbung-3), der ein Maß für die Steilheit ( Spitzigkeit”) einer Verteilung ” ist. Die Formel: 4 E X − E(X) γ4 := − 3. 2 V (X) Der Exzess beschreibt die Abweichung des Verlaufs der gegebenen Wahrscheinlichkeitsverteilung zum Verlauf einer Normalverteilung. Verteilungen werden entsprechend ihres Exzesses eingeteilt in: – γ4 = 0: normalgipflig oder mesokurtisch. Die Normalverteilung hat den Exzess γ4 = 0. 87 – γ4 > 0: steilgipflig, supergaufrmig oder leptokurtisch. Es handelt sich hierbei um im Vergleich zur Normalverteilung spitzere Verteilungen, d.h. Verteilungen mit starken Peaks. – γ4 < 0: flachgipflig, subgaufrmig oder platykurtisch. Man spricht von einer im Vergleich zur Normalverteilung abgeflachten Verteilung. 88 12 Die Normalverteilung Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen in der Praxis, weil aufgrund des sogenannten zentralen Grenzwertsatzes in vielen Situationen angenommen werden kann, dass experimentell gewonnene Messwerte zumindest näherungsweise als Werte von normalverteilten Zufallsvariablen aufgefasst werden können. 12.1 Erwartungswert und Varianz der Zufallsvariable mit der standardisierten Normalverteilung Sei X eine Zufallsvariable mit der standardisierten Normalverteilung N (0, 1) (s. Bsp. 9.8). Die Dichte dieser Verteilung 1 2 1 ϕ(x) = √ e− 2 x 2π konvergiert für x → ±∞ so schnell gegen Null, dass die Funktionen x 7→ xk ϕ(x) für alle k = 1, 2, 3, . . . im Lebesgueschen und im uneigentlich-Riemannschen Sinn integrierbar sind. Die Funktion h(x) = xϕ(x) ist eine ungerade Funktion, d.h. h(−x) = −h(x). Das Integral einer derartigen Funktion über ein zum Nullpunkt symmetrisches Intervall (−a, a) ist stets Null, so dass m1 (N (0, 1)) = E(X) = 0 und die Varianz V (X) gleich E (X 2 ) ist. Zur Berechnung des E (X 2 ) wenden wir die Regel der partiellen Integration auf den Integranden 2 −x2 /2 −x2 /2 xe = x xe an, wobei der Term in runden Klammern die Stammfunktion −e−x 2 /2 besitzt. Damit ist h Z ∞ Z ∞ i∞ 1 1 2 −x2 /2 −x2 /2 −x2 /2 E X =√ x xe dx = √ x −e − −e dx . −∞ 2π −∞ 2π −∞ Wie oben angemerkt, konvergiert die Funktion in eckigen Klammern für x → ±∞ gegen Null, so dass Z ∞ Z ∞ 1 2 −x2 /2 E X = √ e dx = ϕ(x) dx = 1, 2π −∞ −∞ denn das Integral einer Dichte über den gesamten Ergebnisraum hat stets den Wert 1. 89 12.2 Die Verteilungsfunktion der standardisierten Normalverteilung Die Verteilungsfunktion der standardisierten Normalverteilung erhält nahezu einheitlich in der Literatur das Symbol Φ: Z x 1 2 1 Φ(x) = P (X ≤ x) = √ e− 2 t dt. 2π −∞ Dieses uneigentliche Integral ist jedoch nicht elementar lösbar, d.h. die Funktion Φ ist nicht durch endlich viele algebraische Konstruktionen elementarer Funktionen darstellbar. Die Werte dieser Funktion müssen daher mit speziellen Näherungsmethoden berechnet werden. Heutzutage findet die sog. Gaußsche R erf : x man z.B. in MAPLE, MAXIMA und in anderen Software-Toolboxen Fehlerfunktion (error function): −→ [−1, 1] 2 7 → erf(x) = √ − π Z ∞ 2 X x2k+1 2 e−t dt = √ (−1)k . π k=0 (2k + 1)k! −∞ x und auch die Funktion erfc(x) = 1 − erf(x). Mit ihr kann man durch eine simple Variablentransformation die Verteilungsfunktion Φ 1 x Φ(x) = · 1 + erf √ 2 2 berechnen. Früher benutzte man eine Tabelle mit den auf das Intervall x ≥ 0 beschränkten Funktionswerten der Verteilungsfunktion. Aus solcher Tabelle lassen sich dann die benötigte Funktionswerte von Φ mit Hilfe der folgenden Eigenschaften ablesen: ❶ Φ(0) = 12 . ❷ Für x ≥ 0 kann der Funktionswert Φ(x) direkt aus der Tabelle entnommen werden. Es gilt dabei stets Φ(x) ≥ 0.5. ❸ Die Berechnung des Funktionswertes Φ(−x) für x > 0 erfolgt nach der Formel (Spiegelsymmetrie) Φ(−x) = 1 − Φ(x). ❹ P (|X| ≤ x) = 2Φ(x) − 1 = erf √x2 . Wegen der Eigenschaft 1 ≥ P (|X| ≤ 4) = 2Φ(4) − 1 = erf 4 √ 2 ≥ 0.99 993 665 ist die Tabellierung meist nur auf 4 Stellen genau bis x = 3.99 90 12.3 Die allgemeine Normalverteilung Wenn die Zufallsvariable Y die standardisierte Normalverteilung N (0, 1) besitzt, dann hat die Zufallsvariable X = σ · Y + µ mit reellen Parametern σ 6= 0 und µ die Verteilung PX mit der Dichtefunktion (s. Bsp. 10.18) (x−µ)2 1 x−µ 1 e− 2σ2 . f (x) = ·ϕ = √ |σ| σ 2πσ 2 Diese Verteilung heißt die Normalverteilung mit Parametern µ und σ 2 oder N (µ, σ 2 )Verteilung. Die Gestalt der Dichtefunktion erinnert an eine Glocke. Man spricht daher auch häufig von der Gaußschen Glockenkurve. • Der Graph von f ist achsensymmetrisch bezüglich der Geraden x = µ, der Graph von der entsprechenden Verteilungsfunktion F ist punktsymmetrisch zu P (µ, 0.5). • Das einzige Maximum liegt im Punkt x = µ mit dem Wert σ√12π . Die beiden Wendepunkte liegen symmetrisch zum Maximum an den Stellen x = µ ± σ. • Während der Parameter µ die Lage des Maximums festlegt, bestimmt der zweite Parameter σ Breite und Höhe der Glockenkurve. Dabei gilt: Je kleiner σ ist, umso höher liegt das Maximum und umso steiler fällt die Dichtekurve nach beiden Seiten ab. Den Erwartungswert und die Varianz von X berechnen wir über den Erwartungswert und die Varianz der N (0, 1)-verteilten Zufallsvariablen Y : E(X) = E(σ · Y + µ) = σ · E(Y ) + µ = µ und V (X) = V (σ · Y + µ) = σ 2 · V (Y ) = σ 2 . Die in der Dichtefunktion auftretenden Parametr σ und µ sind also zugleich Kennwerte dieser allgemeinen Normalverteilung. Eine normalverteilte Zufallsvariable X mit den Parameter µ und σ läßt sich dabei stets mit Hilfe der linearen Transformation (Substitution) Y = 1 (X − µ) σ in die Zufallsvariable Y mit der standardisierten Normalverteilung überführen (sog. Standardisierung oder Umrechnung in Standardeinheiten). Umgekehrt, die Familie der Normalverteilungen ist aus der standardisierten Normalverteilung durch die lineare Transformation X = σY + µ erzeugbar. Genau diese für andere Verteilungsfamilien oft nicht erfüllte Eigenschaft macht die Handhabung der Normalverteilung besonders einfach, da nur die Funktionen Φ und ϕ erforderlich sind. 91 Bei einer normalverteilten Zufallsvariable X mit dem Erwartungswert µ und der Varianz σ 2 lassen sich die Wahrscheinlichkeiten wie folgt mit Hilfe der Verteilungsfunktion Φ der Standardnormalverteilung berechnen: ❶ P (X ≤ x) = F (x) = Φ x−µ σ ; ❷ P (X ≥ x) = 1 − P (X ≤ x) = 1 − F (x) = 1 − Φ x−µ ; σ − Φ a−µ . ❸ P (a ≤ X ≤ b) = F (b) − F (a) = Φ b−µ σ σ Wir berechnen noch die beideseitigen Ein-, Zwei,- und Drei-Sigma-Bereiche (zum Erwartungswert symmetrische Konfidenzintervalle zu den Konfidenzniveaus 2Φ(k) − 1, k = 1, 2, 3) für die N (µ, σ 2)-verteilte Zufallsvariable X: P (|X − µ| ≤ kσ) = P (|Y | ≤ k) = Φ(k) − Φ(−k) = Φ(k) − (1 − Φ(k)) = für k = 1, 0.682689 k √ 0.954500 für k = 2, = 2Φ(k) − 1 = erf 2 ≈ 0.997300 für k = 3. Damit liegen bei allen normalverteilten Zufallsvariablen etwa 68%, 95.5% bzw. 99.7% aller Realisierungen in den Ein-, Zwei, bzw. Drei-Sigma-Bereich9 . 12.4 Der Zentrale Grenzwertsatz Sei X1 , X2 , X3 , . . . eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Verteilungsfunktionen Fn (x) = P (Xn ≤ x). Konvergieren diese Verteilungsfunktionen für alle Argumente x gegen die Verteilungsfunktion der N (0, 1)-Verteilung: lim Fn (x) = Φ(x) n→∞ so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz gilt. Diese Art von Konvergenz bedeutet also nicht, dass die Funktionen Xn in irgendeiner Weise gegen eine normalverteilte Grenzfunktion X konvergieren. Es bedeutet für die praktischen Anwendungen nur, dass man bei genügend großem n” annehmen kann, dass die ” Verteilung der Zufallsvariable Xn näherungsweise die standardisierte Normalverteilung ist. Der klassische Fall einer Folge, für die der zentrale Grenzwertsatz gilt, sind die normierten Partialsummen einer Folge X1 , X2 , X3 , . . . von stochastisch unabhängigen Zufallsvariablen, die alle die gleiche Verteilung besitzen. Die Partialsummen sind die Zufallsvariablen S n = X1 + X2 + · · · + Xn . 9 Bei Auswertung von Messreihen genügt es in der Regel, mit dem Zwei-Sigma-Bereich zu arbeiten. Der Ein-Sigma-Bereich ist oft mit zu großen Unsicherheiten behaftet. Um auch kleinere Risiken auszuschliessen, kann man den Dre-Sigma-Bereich verwenden. 92 Da die Xk alle die gleiche Verteilung besitzen, haben sie auch alle den gleichen Erwartungswert und die gleiche Varianz: E (Xk ) = µ und V (Xk ) = σ 2 . Für die Partialsummen folgt daraus µn = E (Sn ) = E (X1 ) + E (X2 ) + · · · + E (Xn ) = nµ und wegen der stochastischen Unabhängigkeit σn2 = V (Sn ) = V (X1 ) + V (X2 ) + · · · + V (Xn ) = nσ 2 . Von einer Folge von Zufallsvariablen mit unbeschränkt wachsenden Erwartungswerten und Varianzen kann man keine wie auch immer geartete Konvergenz erwarten. Sie lassen sich aber durch die schon bekannte lineare Transormation normieren. Die Zufallsvariablen Sn∗ = Sn − nµ Sn − µ n √ = σn σ n heißen die normierten Partialsummen der Xk , und zwar deshalb, weil sie die Erwartungswerte E (Sn ) − µn E (Sn∗ ) = = 0 σn und die Varianzen 2 1 ∗ V (Sn ) = V (Sn ) = 1 σn besitzen, also alle den gleichen Erwartungswert und die gleiche Varianz wie die N (0, 1)Verteilung. Für die Praxis, etwa bei der Fehlerrechnung, kann man diese mathematischen Aussagen salopp auf den gemeinsamen Nenner bringen, dass ein Messfehler immer dann näherungweise als normalverteilt angenommen werden darf, wenn er aus der Überlagerung vieler kleiner unabhängiger und nicht-systematischer Fehlerursachen resultiert, wobei keine dieser Ursachen dominierend ist. 12.5 Approximation der Binomialverteilung durch die Normalverteilung Eine Binomialverteilung B(n, p) mit n Einzelexperimenten mit Wahrscheinlichkeit p läßt sich, für große Werte von n und p-Werte, die sich deutlich von 0 und 1 unterscheiden,10 durch die allgemeine Normalverteilung N (µ, σ 2 ) mit den Parametern p √ µ = np und σ = npq = np(1 − p) 10 für p-Werte in der Nähe von 0 und 1 kann man die Binomialverteilung durch die Poisson-Verteilung näherungsweise ersetzen (vgl. Satz 7.15) 93 approximieren. Diese Approximation ist gut für σ 2 = np(1 − p) > 9 und wird mit zunehmenden n immer besser. Eine in der Praxis häufig verwendete Formel lautet: n k p (1 − p)n−k ≈ F (k + 0.5) − F (k − 0.5) = Φ k oder X n pk (1−p)n−k ≈ F (b+0.5)−F (a−0.5) = Φ k a≤k≤b k + 0.5 − np p np(1 − p) ! ! −Φ b + 0.5 − np p −Φ np(1 − p) k − 0.5 − np p np(1 − p) a − 0.5 − np p np(1 − p) ! ! , wobei F die Verteilungsfunktion der N (µ, σ 2)-Verteilung und Φ die Verteilungsfunktion der Standardnormalverteilung ist. Dabei wurde eine sog. Stetigkeitskorrektur (Verschiebung um jeweils 0.5 Einheiten nach außen) vorgenommen. Die binomialverteilte Zufallsvariable ist nämlich eine diskrete Größe, erscheint jedoch in der Näherung durch die Normalverteilung als eine stetige Variable. 94 13 Mehrdimensionale Zufallsvariablen – Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem Abschnitt geben wir nun eine kurze Einführung in Zufallsexperimente, bei denen gleichzeitig zwei (oder auch mehr) Zufallsvariablen beobachtet werden. Wie stoßen in diesem Fall auf mehrdimensionale Wahrscheinlichkeitsverteilungen und beschreiben diese wiederrum durch Wahrscheinlichkeits- bzw. Dichtefunktionen oder durch die zugehörigen Verteilungsfunktionen, die in diesem Fall dann von mehreren Variablen abhängen. Definition 13.1. Wir nennen eine Abbildung X : Ω → Rn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft (X ∈ B) ∈ A für alle B aus der σ-Algebra Bn der Borelschen Mengen auf Rn , einen Zufallsvektor oder eine n-dimensionale Zufallsvariable. Für jedes ω ∈ Ω ist der Wert X (ω) eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit Xk (ω) bezeichnen X (ω) = X1 (ω), X2 (ω), . . . , Xn (ω) . Die dadurch festgelegten Funktionen Xk : Ω → R nennen wir die Komponenten des Zufallsvektors X und schreiben kurz X = (X1 , X2 , . . . , Xn ) . Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz, den wir nur zitieren aber nicht beweisen: Satz 13.2. Die Abbildung X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn alle Komponenten Zufallsvariable sind. Man kann also stets eine beliebige Anzahl X1 , X2 , . . . , Xm von Zufallsvariablen zu einer vektorwertigen Funktion X = (X1 , . . . , Xm ) zusammen fassen und als Zufallsvektor behandeln. Die Wahrscheinlichkeitsverteilung eines Zufallsvektors X läßt sich vollständig durch die Verteilungsfunktion darstellen11 . 11 Für den Vergleich von Vektoren x, y ∈ Rn bezeichne im Weiteren x ≤ y die koordinatenweise Halbordnung xi ≤ yi für alle i = 1, . . . , n. 95 Definition 13.3. Ist X : Ω → Rn ein Zufallsvektor auf dem Wahrscheinlichkeitsraum (Ω, A, P ), so heißt die Funktion FX : Rn → R mit FX (x) := P (X ≤ x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) = = P n \ i=1 ! {ω ∈ Ω : Xi (ω) ≤ xi } , wobei x = (x1 , x2 , . . . , xn ) ∈ Rn , die Verteilungsfunktion des Zufallsvektors X . Dabei ist also P (X ≤ x) die Wahrscheinlichkeit dafür, dass alle Komponenten Xi , i = 1, 2, . . . , n, einen Wert kleiner oder gleich xi gleichzeitig annehmen. Man sagt auch, dass die Verteilungsfunktion FX die gemeinsame Verteilung der Zufallsvariablen Xi , i = 1, 2, . . . , n, beschreibt. Die Wahrscheinlichkeit des Ereignisses (X ∈ (a, b]), wobei a, b ∈ Rn und (a, b] ⊆ Rn ein achsenparalleler Quader ist, ergibt sich mit FX durch geeignete mengenalgebraische Darstellungen von (a, b]. Zum Beispiel im R2 gilt es P (X ∈ (a, b]) = FX (b1 , b2 ) − FX (a1 , b2 ) − FX (b1 , a2 ) + FX (a1 , a2 ) für (a, b] = (a1 , b1 ] × (a2 , b2 ]. Sind die alle Zufallsvariablen Xi , i = 1, 2, . . . , n, stetig, so gilt diese Formel auch für den abgeschlossenen Quader [a, b]. Definition 13.4. Die Verteilungen PXi der Komponenten Xi des Zufallsvektors X , i = 1, . . . , n, mit den zugehörigen Verteilungsfunktionen FXi : R → R FXi (t) := P (Xi ≤ t, Xj ∈ R) für j 6= i nennen wir eindimensionale Randverteilungen (Marginalverteilungen) von X . Im Kapitel über diskrete Wahrscheinlichkeitsräume haben wir die stochastische Unabhängigkeit für diskrete Zufallsvariablen definiert (s. Def. 7.11). Jetzt wollen wir diese Definition allgemeiner formulieren. Definition 13.5. Die Zufallsvariablen X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 , A2 , . . . , An ∈ B gilt die Produktregel h i P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xn ∈ An ) = = P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xn ∈ An ) . Ist die obige Produktregel jedoch nicht erfüllt, so heißen die Zufallsvariablen stochastisch abhängig. 96 Aus der Tatsache, dass man die Intervalle (−∞, xi ], xi ∈ R, als erzeugendes System der Borel-Algebra B von R benutzt kann, resultiert die folgende Aussage. Satz 13.6. Es sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor. Die Zufallsvariablen (Komponenten) X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn auf Rn die Bedingung FX (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn ) erfüllt ist. Bei Unabhängigkeit ist also die Verteilung des Zufallsvektors X durch die Randverteilungen der Komponenten Xi bestimmt. In der Praxis ist es oft sehr mühsam und schwierig, die stochastische Unabhängigkeit zweier Zufallsvariabler anhand der obigen Bedingung nachzuweisen. In vielen Fällen jedoch läßt sich die Unabhängigkeit logisch begründen. Bei den weiteren Überlegungen unterscheiden wir noch, ob die Komponenten des Zufallsvektors X alle diskret oder stetig sind. Die entsprechenden mehrdimensionalen Verteilungen werden dann als diskrete bzw. stetige Verteilungen bezeichnet. Um im Weiteren die Vorgehenweise besser zu verdeutlichen, beschränken wir auf den Fall n = 2, d.h. X = (X, Y )t . 13.1 Verteilung diskreter Zufallsvektoren Die Verteilung eines diskreten Zufallsvektors X = (X, Y ) auf einer höchstens abzählbar unendlichen Menge ΩX = {(xj , yk ) ∈ R2 : (j, k) ∈ M ⊆ N2 } ⊂ R2 ist festgelegt durch die Einzelwahrscheinlichkeiten pjk := P (X = (xj , yk )) = P (X = xj , Y = yk ) für jeden Punkt (xj , yk ) ∈ WX , oder äquivalent durch die wie folgt definierte Wahrscheinlichkeitsfunktion pjk für (x, y) = (xj , yk ) ∈ ΩX , f (x, y) := 0 sonst. Es ist stets f (x, y) ≥ 0 und X f (x, y) = X pjk = 1. j,k Im zweidimensionalen Fall kann man die Verteilung von X in einer Matrixtabelle (zweidimensionale Verteilungstabelle) veranschaulichen. 97 Beispiel 13.7. Die Verteilungstabelle des diskreten zweidimensionalen Zufallsvektors (X, Y ) laute X Y y1 = 0 y2 = 1 x1 = 0 p11 = 1 8 p12 = 2 8 x2 = 1 p21 = 0 p22 = 1 8 y3 = 2 y4 = 3 p13 = 1 8 p14 = 0 p23 = 2 8 p24 = Die Verteilungsfunktion erhalten wir dann durch die Vorschrift X F (x, y) = P (X ≤ (x, y)) = P (X = (xj , yk )) = xj ≤x, yk ≤y 1 8 X pjk . xj ≤x, yk ≤y Satz 13.8. Die Verteilungsfunktion F der zweidimensionalen Zufallsvektors X hat folgende Eigenschaften ❶ ❷ lim F (x, y) = x→−∞ lim F (x, y) = 0; y→−∞ lim F (x, y) = 1; x→∞ y→∞ ❸ x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind monoton wachsend auf R; ❹ x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind rechtsseitig stetig auf R. Die Einzelwahrscheinlichkeiten P (X = xj ), bzw. P (Y = yk ) der eindimensionalen Randverteilungen von X erhalten wir durch die Aufsummierung über alle pjk bei denen der erste Index gleich j, bzw. der zweite Index gleich k ist, d.h. P (X = xj ) = ∞ X P (X = xj , Y = yk ) = k=1 P (Y = yk ) = ∞ X ∞ X pjk =: pj• , k=1 P (X = xj , Y = yk ) = j=1 ∞ X j=1 pjk =: p•k . Beispiel 13.9. Die Randverteilungen des diskreten zweidimensionalen Zufallsvektors (X, Y ) erhält man, indem man in der Verteilungstabelle (s. Bsp. 13.7) die Einzelwahrscheinlichkeiten pjk zeilen- bzw. spaltenweise aufaddiert. X Y y1 = 0 x1 = 0 p11 = 1 8 p12 = 2 8 x2 = 1 p21 = 0 p22 = 1 8 p•2 = f (x, yk ) = p•k p•1 = y2 = 1 y3 = 2 y4 = 3 p13 = 1 8 p14 = 0 p1• = 1 2 1 8 p23 = 2 8 p24 = 1 8 p2• = 1 2 3 8 p•3 = 3 8 p•4 = 1 8 98 f (xj , y) = pj• Die zugehörigen Verteilungstabellen der Randverteilungen lauten somit xj x1 = 0 x2 = 1 fX (xj ) = pj• 1 2 1 2 und yk y1 = 0 y2 = 1 y3 = 2 y4 = 3 fY (yk ) = p•k 1 8 3 8 3 8 1 8 Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y , so gilt für die zugehörigen Wahrscheinlichkeitsfunktionen, bzw. die zugehörigen Einzelwahrscheinlichkeiten die folgende Beziehung f (x, y) = fX (x) · fY (y), bzw. pjk = pj• · p•k für alle (x, y) ∈ R2 , bzw. alle (j, k) ∈ M. Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y . Beispiel 13.10. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.9 und überprüfen wir die stochastische Unabhängigkeit der Komponenten. Da 1 1 1 1 = p11 6= p1• · p•1 = · = 8 2 8 16 ist die hinreichende Bedingung pjk = pj• · p•k nicht erfüllt. Die beiden Zufallsvariablen X und Y sind daher stochastisch abhängig. 13.2 Verteilung stetiger Zufallsvektoren Definition 13.11. Es sei X : Ω → R2 ein Zufallsvektor. Wenn es eine auf R2 nichtnegative und integrierbare Funktion f mit ZZ F (x, y) = P (X ≤ (x, y)) = f (s, t) ds dt {(s,t): s≤x, t≤y} gibt, dann heißt der Zufallsvektor stetig verteilt. Die Funktion f heißt Dichte der Verteilung von X . Es gilt somit ZZ f (x, y) dx dy = 1 R2 99 und für eine borelsche Menge A des R2 , d.h. A ∈ B2 , folgt ZZ ZZ P (X ∈ A) = f (x, y) dx dy = 1A · f (x, y) dx dy. R2 A Die Abschließung offener Mengen A hat die gleiche Wahrscheinlichkeit wie die Menge A selbst, da der Rand einer offenen Menge bei der Integration keinen Beitrag liefert. Analog zu den diskreten Verteilungen erhalten wir auch hier die eindimensionalen Randverteilungen für X bzw. Y durch die Randverteilungsfunktionen FX (x) = P (X ≤ x) FY (y) = P (Y ≤ y). bzw. Nach geeigneter Verteuschung der Integrationsreihenfolge bekommt man Z x Z ∞ Z y Z ∞ FX (x) = f (s, t) dt ds bzw. FY (y) = f (s, t) ds dt. −∞ −∞ −∞ −∞ Die Randverteilungen der Zufallsvariablen X bzw. Y besitzen daher die folgenden Dichtefunktionen Z ∞ Z ∞ fX (x) = f (x, y) dy bzw. fY (x) = f (x, y) dx. −∞ −∞ Beispiel 13.12. Die Dichtefunktion des zweidimensionalen Zufallsvektors (X, Y ) laute −2x−3y ce für x > 0, y > 0; f (x, y) = 0 sonst. Zuerst bestimmen wir die Konstante c aus der Normierungsbedingung ZZ Z +∞ Z +∞ −2x−3y f (x, y) dx dy = c e dx dy = 1. R2 0 Wir erhalten Z +∞ Z +∞ Z −2x−3y c e dx dy = c 0 0 0 0 +∞ −2x e dx · Z 0 +∞ e−3y dy = c · −1 −1 c · = = 1 2 3 6 Somit ist c = 6. Die Verteilungsfunktion läßt sich damit für x > 0, y > 0 durch das folgende Doppelintegral darstellen ZZ Z x Z y −2s−3t F (x, y) = f (s, t) ds dt = 6 e dt ds = {(s,t): s≤x, t≤y} 0 0 x y x y −1 −2s −1 −3t −2s −3t = 6 e ds · e dt = 6 · e · e = 2 3 0 0 0 0 = e−2x − 1 · e−3y − 1 Z Z 100 und für alle andere (x, y) ist die Verteilungsfunktion F (x, y) = 0, d.h. −2x (e − 1) · (e−3y − 1) für x > 0, y > 0; F (x, y) = 0 sonst. Die Wahrscheinlichkeit P (1 < X < 2, −1 < Y < 1) kann man bestimmen mit Hilfe der Dichtefunktion ZZ Z 2 Z 1 −2x−3y f (x, y) dx dy = 6 e dy dx (1,2)×(−1,1) 1 0 oder, einfacher, mit der gerade berechneten Verteilungsfunktion P (1 < X < 2, −1 < Y < 1) = F (2, 1) − F (1, 1) − F (2, −1) + F (1, −1) = | {z } | {z } =0 −4 = (e −3 − 1) · (e −2 − 1) − (e =0 − 1) · (e−3 − 1) = = e−7 − e−5 − e−4 + e−2 . Wir bestimmen noch die Dichtefunktionen der Randverteilungen der beiden Komponenten X und Y in dieser zweidimensionalen Verteilung. Für x > 0 erhält man Z ∞ Z ∞ fX (x) = f (x, y) dy = 6 e−2x · e−3y dy = −∞ −2x = 6e 0 Z ∞ −3y e −2x dy = 6e 0 somit ist fX (x) = Analog kann man berechnen, dass fY (y) = +∞ −1 −3y e = 2e−2x · 3 0 2e−2x für x > 0; 0 sonst. 3e−3y für y > 0; 0 sonst. Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y , so gilt für die zugehörigen Dichtefunktionen die folgende Beziehung f (x, y) = fX (x) · fY (y) für alle (x, y) ∈ R2 . Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit der Zufallsvariablen X und Y . Beispiel 13.13. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.12. Die Komponenten X und Y sind stochastisch unabhängig, da für x > 0 und y > 0 folgt 6e−2x · e−3y = 2e−2x · 3e−3y und für alle andere (x, y) sind die Funktionen gleich Null. 101 13.3 Erwartungswert, Kovarianz Den Erwartungswert von X setzt sich aus den Erwartungswerten der Randverteilungen zusammen, d.h. Z E (X ) := x dF (x) = (E (X1 ) , . . . , E (Xn )) . Rn Bei der Varianz ist es etwas komplizierter. Definition 13.14. Sei X = (X, Y ) ein Zufallsvektor, dessen Komponenten X bzw. Y 2 den Erwartungswert µX bzw. µY und die Varianz σX bzw. σY2 haben. Dann heißt cov(X, Y ) = σXY := E ((X − µX ) · (Y − µY )) Kovarianz von X und Y . Die Zahl cov(X, Y ) σX · σY ist bei σX · σY > 0 definiert und heißt Korrelationskoeffizient von X und Y . ρXY = ρ(X, Y ) := Ist cov(X, Y ) = 0, so heißen die Zufallsvariablen X und Y unkorreliert. Ist X = Y , dann ergibt sich cov(X, X) = E (X − µX )2 = V (X). Varianzen und Kovarianzen fasst man zu einer symmetrischen und positiv semidefiniten Kovarianzmatrix zusammen ! V (X) cov(X, Y ) CX = . cov(Y, X) V (Y ) Mit den vorher eingeführten algebraischen Rechenregeln für den Erwartungswert läßt sich die Formel für die Kovarianz etwas vereinfachen. Es ist cov(X, Y ) = E ((X − µX ) · (Y − µX )) = = E (X · Y ) − µX · E(Y ) − µY · E(X) + µX · µY = = E(X · Y ) − E(X) · E(Y ). Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt nach der Produktregel für Erwartungswerte cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = E(X) · E(Y ) − E(X) · E(Y ) = 0, d.h. stochastisch unabhängige Zufallsvariablen sind stets unkorreliert. 102 Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X, Y ) = 0 folgt normalerweise nicht, dass die beiden Zufallsvariablen X und Y stochastisch unabhängig sind. Für die Varianz der Summe X + Y hat man die sog. Additionsregel für die Varianzen V (X + Y ) = V (X) + cov(X, Y ) + V (Y ), die in dem Sonderfall stochastisch unabhängiger Zufallsvariablen nimmt die spezielle Form V (X + Y ) = V (X) + V (Y ). Der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y besitzt folgende Eigenschaften ❶ Unmittelbar aus der Cauchy-Schwarzschen Ungleichung folgt, dass der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y nur Werte aus dem Intervall [−1, 1] annehmen kann: −1 ≤ ρXY ≤ 1. ❷ Die mittlere Standardabweichung E (Y − aX − b)2 von Y zu einer linearen Abbildung aX + b der Zufallsvariable X ist genau dann minimal, wenn a = cov(X, Y ) V (X) und b = E(Y ) − aE(X). Die minimale Abweichung ergibt sich dabei zu min E (Y − aX − b)2 = 1 − ρ2XY V (Y ). a,b ❸ Zwischen den Zufallsvariablen X und Y besteht genau dann eine lineare Beziehung vom Typ Y = aX + b, wenn |ρXY | = 1 ist, dabei sgn(a) = sgn (ρXY ). ❹ Ist ρXY = 0, dann bedeutet dies lediglich, dass zwischen den beiden Zufallsvariablen keine lineare Abhängigkeit besteht. Sie können aber in diesem Fall durchaus eine nichtlineare stochastische Bindung haben. Die oben aus dem Zufallsvektor X = (X, Y ) bestimmte Gerade y = ax + b heißt Regressionsgerade von Y bzgl. X. Die Koeffizienten a, b heißen Regressionskoeffizienten. 103