Stochastik - an der Universität Duisburg

Werbung
Beata Strycharz-Szemberg
Mathematische Grundlagen III
Stochastik
UNIVERSITÄT
D U I S B U R G
E S S E N
Essen 2008
Literatur
[1] G. Hübner: Stochastik. Eine anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker
[2] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik
[3] P. Hartmann: Mathematik für Informatiker
[4] M. Wolff, P. Hauck und W. Küchlin: Mathematik für Informatik und Bioinformatik
[5] M. Wolff, P. Hauck und W. Küchlin: Übungsaufgaben zur Mathematik für Informatiker
und Bioinformatiker
[6] L. Dümbgen: Stochastik für Informatiker
1
Einführung
”
Was ein Punkt ist, ein rechter Winkel, ein Kreis ist, weiß ich schon vor der
ersten Geometriestunde, ich kann es nur noch nicht präzisieren. Ebenso
weiß ich schon was Warscheinlichkeit ist, ehe ich es definiert habe”. (Hans
Freundenthal, Warhscheinlichkeit und Statistik”, 1975)
”
Stochastik (aus dem Griechischen στ oχαζoµαι (stochazomai): vermuten, erwarten) ist
die Mathematik des Zufalls. Sie ist von großer Bedeutung in der Informatik, z. B.
• Analyse der Auslastung von Daten- und Telefonnetzen,
• Modellierung von Antwortzeiten im Rechner,
• Zuverlässigkeit von Produkten,
• Raytracing in der Computergrafik (Monte-Carlo-Methoden),
• stochastische Optimierungsalgorithmen (genetische Algorithmen, simulated annealing),
• Analyse der mittleren Laufzeit von Algorithmen,
• Kombinatorische Probleme in der Bioinformatik;
und in vielen anderen Gebieten, z. B.
• Qualitätskontrolle (Technik),
• Konjunkturdaten und Aktienkurse (Wirtschaft),
• Radioaktiver Zerfall (Physik),
• Diagnose von Krankheiten, Epidemien (Medizin),
• Vererbung der Eigenschaften (Biologie).
Stochastik befasst sich nicht vorwiegend mit Würfeln, Spielkarten, Roulette,
Lotto und ähnlichen zufallsbeeinflussten Spielen.
Die beiden Hauptgebiete der Stochastik sind Wahrscheinlichkeitstheorie und Statistik.
In der Wahrscheinlichkeitstheorie untersucht man zufällige Prozesse mit festen, als bekannt angenommenen steurenden Wahrscheinlichkeiten. Als Ansatzpunkt betrachten wir
1
das historische Beispiel, das üblicherweise als der Auslöser für die wissenschaftliche Beschäftigung mit Wahrscheinlichkeiten angesehen wird1 .
Im Jahr 1654 beklagte sich der Chevalier de Méré (1607–1684), ein berufsmäßiger Spieler, bei Blaise Pascal (1623–1662) über die Mathematik, weil ihre
Ergebnisse ihm nicht mit den Erfahrungen des praktischen Lebens übereinzustimmen schienen. Man wusste damals, dass es beim Spiel mit einem Würfel
günstig ist, darauf zu setzen, bei vier Würfen wenigstens eine Sechs zu werfen.
De Méré dachte, es müsste dasselbe sein, wenn man bei 24 Würfen mit zwei
Würfeln darauf setzt, wenigstens eine Doppelsechs zu erhalten. Während im
ersten Fall 6 Möglichkeiten 4 Würfe gegenüber stehen, stehen im zweiten 36
Möglichkeiten 24 Würfe gegenüber, das Verhältnis ist also in beiden Fällen 3:2.
Entgegen seinen Erwartungen verlor aber Herr de Méré auf die Dauer beim
zweiten Spiel und das muss ihn sehr verdrossen haben. (Franz Heigl, Jürgen
Feuerpfeil, Stochastik, Leistungskurs”, 1975).
”
Schon zu dieser Zeit war seit langem bekannt, dass der Prozentsatz gewonnener Runden
bei langen Serien derartiger Glücksspiele nahezu konstant und stets in etwa gleich ist,
woraus zwangsläufig die Frage erwuchs, wie man die Gewinnchancen solcher Spiele schon
im voraus berechnen kann. Pascal führte über dieses Problem 1654 einen Briefwechsel mit
Pierre Fermat (1601–1665), in dessen Verlauf sich schließlich eine Lösung ergab.
Wir werden in dieser Vorlesung den Lösungsweg in einem etwas allgemeinerem Rahmen
nachvollziehen und beginnen mit dem Begriff des Zufallsexperiments. Ein Zufallsexperiment wie im obigen Beispiel das viermalige Werfen eines Würfels ist zunächst ein Experiment im üblichen Sinne, d. h. ein konkreter oder auch nur in Gedanken durchgeführter
Vorgang, der sich beliebig oft unter stets gleichen Rahmenbedingungen wiederholen lässt.
Der wesentliche Unterschied zu dem klassischen naturwissenschaftlichen Konzept des Experiments besteht darin, dass ein Zufallsexperiment mehrere mögliche Ausgänge hat und
trotz gleicher Ausgangslage bei keiner der Durchführungen mit Sicherheit vorhersehbar
ist, welcher dieser Ausgänge sich einstellt. Die wesentliche Frage im Zusammenhang mit
Zufallsexperimenten ist die nach den Chancen für das Eintreten bzw. Nichteintreten bestimmter Ereignisse.2 Bei den obigen Beispielen geht es dabei um das Ereignis Gewinn”,
”
das dadurch charakterisiert ist, dass bei der Durchführung des Würfelexperiments eine
Sechs bzw. eine Doppelsechs geworfen wird.
1
Die Wahrscheinlichkeiten der verschiedenen Augensummen bei einem Wurf mit drei Würfeln wurden
schon im 13. Jhd. in dem Epos DeVetula” richtig bestimmt, als dessen Autor man Richard de Fournival
”
(1201–1260), den Kanzler der Kathedrale von Amiens, vermutet. Auf einem (evtl. mittelbaren) islamischen Einfluß deuten darin vorkommende arabische Fachtermini. Das Prinzip des fairen Spiels wurde von
Geronimo Cardano (1501–1576) in seinem Manuskript über Glückspiele De ludo aleae” (geschrieben
”
1564, erschienen erst 1663) formuliert.
2
Allgemein verstehen wir unter einem Ereignis eine Reihe von möglichen Merkmalen der Ausgänge
des betreffenden Zufallsexperiments. Die Formulierung: Das Ereignis tritt ein” soll dementsprechend
”
bedeuten, dass bei einer Durchführung des Experiments ein Ausgang zustande kommt, der alle diese
Merkmale besitzt.
2
Gemäß der Charakterisierung eines Zufallsexperiments ist es bei einem einzelnen Versuch,
d. h. einer einmaligen Durchführung des Experiments, nicht mit Sicherheit vorhersagbar,
ob ein Ereignis eintritt oder nicht. Sein Eintreten hängt vom Zufall ab. Führt man
aber eine lange Versuchsreihe, d. h. eine ganze Serie von Versuchen durch und zählt, wie oft
dabei dieses Ereignis eintritt, so beobachtet man, wie schon Herr de Méré, eine gewisse
Gesetzmäßigkeit, die sich am einfachsten mit Hilfe mathematischer Formeln darstellen
lässt:
• E stehe für das beobachtete Ereignis,
• n sei die Länge der Versuchsreihe, d.h. die Anzahl der durchgeführten Versuche,
• Hn (E) sei die absolute Häufigkeit von E, d. h. die Anzahl der Versuche, bei denen
das Ereignis E eingetreten ist, und
• hn (E) = Hn (E)/n die relative Häufigkeit des Ereignisses E, d.h. der relative
Anteil oder - mit 100 multipliziert - der Prozentsatz der Versuche, bei denen das
Ereignis E eingetreten ist.
De Méré stellte fest, dass bei langen Versuchsreihen mit 4 Würfen eines Würfels das
Ereignis Gewinn” stets eine relative Häufigkeit von mehr als 50% und bei 24 Würfen
”
eines Würfelpaars eine von weniger als 50% besitzt, die Anzahl der gewonnenen Spiele im
ersten Fall also immer größer und im zweiten Fall immer kleiner ist als die Anzahl der
verlorenen Spiele.
Wie die Erfahrung mit Zufallsexperimenten zeigt, scheint eine noch stärkere Gesetzmäßigkeit vorzuliegen: Für sehr lange Versuchsreihen stabilisieren sich die relativen Häufigkeiten hn (E) offenbar stets in der Nähe einer für das Experiment und das Ereignis E
charakteristischen Zahl P (E)
hn (E) ≈ P (E)
für große n.
(1.1)
Dieses Phänomen nennt man das empirische Gesetz der großen Zahlen. Es handelt
sich dabei nicht um einen Konvergenzsatz im mathematischen Sinne sondern um eine
reine Erfahrungstatsache, auf deren Basis sich aber offenbar sicher kalkulieren lässt, wie
die wirtschaftliche Situation von Spielbanken, Lotterien und Versicherungsunternehmen
demonstriert.
Als Grundlage für eine mathematische Analyse von Zufallsexperimenten gehen wir von
der Hypothese aus, dass jedem Zufallsexperiment quasi als Naturgesetz eine Funktion P
zugeordnet ist, die jedem an diesem Zufallsexperiment beobachtbaren Ereignis E eine Zahl
P (E) zuordnet und die mit dem Ereignis über das empirische Gesetz der großen Zahlen
(1.1) verbunden ist. Diese Zahl nennen wir die Wahrscheinlichkeit des Ereignisses
E.
Die Forderung (1.1) hat zur Konsequenz, dass die Funktion P nicht ganz willkürlich
gewählt werden kann sondern im wesentlichen die gleichen Eigenschaften besitzen muss
wie die relative Häufigkeit hn .
3
Um diese Eigenschaften präzise formulieren zu können, benötigen wir ein mathematisches
Modell eines Zufallsexperiments.
Diese Modellbildung ist ein Vorgang, der auch bei den anderen mathematischen Disziplinen auftaucht, etwa in der Geometrie. Zum Beispiel ist eine Kugel für viele (aber nicht
für alle) Zwecke ein passendes Modell für die Erde.
Modelle für reale, zufallsabhängige Vorgänge werden in vielen Bereichen von Wissenschaft, Technik und Wirtschaft eingesetzt. Diese dienen der (vereinfachten) Beschreibung
der Wirklichkeit und dem Zweck, Aussagen im Modell zu gewinnen. Diese Ergebnisse
können, falls das Model gut genug” ist, durch Rückübersetzung” in die Realität Ent”
”
scheidungshilfen sein.
Die Übergang von der Wirklichkeit zum Modell ist nie rein logisch begründbar. Er setzt in
starken Maß Erfahrung über die Natur des Experiments voraus. Das ist keine Besonderheit der Modelle für Zufallsexperimente. Die Wahl des Modells wird von der Zielsetzung
mitbestimmt. Das passende Modell für Zufallsexperimente ist oft weniger offensichtlich,
als in der anderen Bereichen. Man täuscht sich leicht darüber, ob ein Versuch wirklich
hinreichend viele Symmetrien enthält, um die Annahme zu rechfertigen, alle Versuchsausgänge seien gleich wahrscheinlich. Häufig lässt sich die Angemessenheit eines Modells
nur empirisch überprüfen. Wenn die abgeleitete Resultate nicht gut mit der Erfahrung
übereinstimmen, wird das Modell revidiert werden müssen. Häufiger als in der anderen Gebieten wird man schon aus Gründen der mathematischen Praktibilität bewußt
ein relativ grobes Modell in Kauf nehmen müssen. Gelegentlich wird man sogar ohne
genügend Erfahrung über die Natur des Experiments ad hoc Modelle entwerfen, um gewisse Phänomene überhaupt erst einmal einer Rechnung zugänglich zu machen, und um
zu vergleichen, welche qualitative Auswirkungen verschiedene Modellannahmen haben.
Zeitweise haben Mathematiker sogar geglaubt, es läge im Wesen der zufälligen Erscheinungen, dass sie sich nicht mathematisieren ließen. Jedenfalls hat es – im Gegensatz z.
B. zur Geometrie – bis in 20. Jhd. hinein gedauert, bis man eine gesicherte axiomatische
Grundlegung gegeben hat.3
In der Wahrscheinlichkeittheorie wird vorausgesetzt, dass die in den Modellen benötigten
Wahrscheinlichkeiten bekannt sind.
Zum grossen Bereich der Statistik gehört die Frage, wie man aus gegebenen Beobachtungen die zugrundeliegenden Wahrscheinlichkeiten oder andere Kenngrößen bestimmt bzw.
abschätzt. 4
3
Erst im Jahr 1933 gelang dem russischen Mathematiker Andrej Nikolajewitsch Kolmogorov in seinem
Werk Grundbegriffe der Wahrscheinlichkeitsrechnung” eine mathematisch befriedigende Definition des
”
Wahrscheinlichkeit zu stellen.
4
Die Statistik hatte zwar ebenfalls Vorläufer in der Antik, wo z.B. Daten in Volkszählungen gesammelt und dargestellt wurden. Eine intensive und wissenschaftliche Nutzung von Daten, vor allem für
wirtschaftliche und politische Fragen, fand aber erst ab 18. Jahrhundert statt. Ein Beispiel dafür sind
Sterbetafeln, die für die Fragen der Lebensversicherung ausgewertet wurden. Dabei entstanden zunächst
Methoden, die heute der beschreibenden Statistik zugeordnet werden. Die beurteilende Statistik hat ihre
Wurzeln in der Analyse von Daten und Planung von empirischen Untersuchungen.
4
Zu den Themen der Statistik gehören die Erhebung von Daten, deren Aufbereitung, Beschreibung und Analyse (Auswertung), einschließlich der Planung und Durchführung von
Befragungen, Zählungen oder Messungen.
Bei der Auswertung von Daten unterscheidet man die beschreibende (oder deskriptive) Statistik und die schließende (oder beurteilende) Statistik.
Im alltäglichen Leben werden wir fast ununterbrochen mit allen möglichen Daten konfrontiert. Überall wird mit Zahlen argumentiert, polemisiert und versucht zu überzeugen.
Dabei werden diese Zahlen mal mehr, mal weniger redlich eingesetzt. Die Berechnungsgrundlagen werden offengelegt oder eben nicht. In bunten oder schwarz-weißen Graphiken,
mal schlicht zweidimensional, mal dreidimensional und multimedial animiert, werden uns
Daten in komprimierter Form präsentiert. Dies geschieht meistens in der Absicht, uns
von irgendetwas zu überzeugen. Es gibt sogar Statistiken darüber, mit wie vielen Statistiken ein Mensch konfroniert wird. Umso wichtiger ist es, mit den Daten und ihren
Darstellungen kritisch und kompetent umgehen zu können.
Die Aufgabe der beschreibenden Statistik ist es, aus schwer überschaubaren, vorhandenen Datenmengen wesentliche Informationen herauszuziehen (Auswahl und Zusammenfassung) und verständliche, informative (meistens graphische) Darstellungen bereitzustellen, die ein möglichst unverzertes Bild des Sachverhaltens liefern. Es geht um Datenreduktion. Wer weiß wie eine gute Reduktion und Darstellung von Daten aussieht, hat
damit auch das Handwerkzeug, um verfälschende und tendenziöse Präsentationen von Daten zu entlarven - in heutigen Zeiten (Informationsgesellschaft) eine wichtige Kompetenz.
Daher leistet die beschreibende Statistik einen wesentlichen Beitrag des Mathematikunterrichts zur Allgemeinbildung. Diese Auseinandersetzung kann und sollte schon in der
Grundschule beginnen.
Alle Aussagen der beschreibenden Statistik beziehen sich ausschließlich auf die untersuchte Objekte und die für diese beobachteten Werte. Bei der Erhebung und Auswertung
von Daten in den empirischen Wissenschaften oder in der Praxis möchte man letztlich
fast immer aus einer Aussage über eine gezielt erhobene Stichprobe auf eine Aussage
über die zugrunde liegende größere Gruppe zu schließen, die sogenannte Gesamtpopulation (Grundgesamtheit).5 Der interessierende Schluss auf die Grundgesamtheit ist aber
mit einer Unsicherheit behaftet. Wenn eine Stichprobe per Zufall zusammengesetzt wird
(z.B. experimentell gewonnene fehlerbehaftete Messwerte, wobei die Fehler zufälligen Charakter besitzen, zufällig entnomenne Proben eines Produktes), dann muss man mit den
Unwägbarkeiten leben, hat aber auch den Vorteil, dass diese Unwägbarkeiten kalkulierbar
sind.
5
Dabei wird unterstellt, dass die in der Stichprobe erhaltenen Aussagen für die Gesamtgruppe repräsentativ sind, d.h. das Ergebnis bei Befragung der Gesamtpopulation entspräche weitgehend dem in
der befragten, kleineren Gruppe. Eine ähnliche Fragestellung besteht etwa bei Wahlprognosen. Es wird
versucht, mittels einer kleinen Gruppe von befragten Wählern das Wahlergebnis möglichst gut vorherzusagen. Dabei ist aber aus Erfahrungen der Vergangenheit klar, dass die so getroffenen Prognosen meist
mehr oder weniger fehlerbehaftet sind. Dies ist dadurch bedingt, dass die befragte Gruppe i.a. natürlich
kein Spiegel der Gesamtpopulation ist. Diese Fehler sind durch die Vorgehenweise bedingt und daher auch
in Interpretation zu berücksichtigen. Verhahren zur Verringerung derartiger Fehler sowie die Festlegung
von represäntativen” Stichproben werden in der Stichprobentheorie behandelt.
”
5
Um Zufallseffekte bei den statistichen Verfahren einschätzen zu können und beurteilen zu
können, wann zufallsbedingte Effekte sehr unwahrscheinlich sind, benötigt man Methoden
der Wahrscheinlichkeitsrechnung.
Die beurteilende Statistik verbindet Ergebnisse der Wahrscheinlichkeitsrechnung und
die Konzepte der beschreibenden Statistik, so dass Zufallseffekte zwar nicht ausgeschlossen, aber kalkuliert werden können.
Sie entwickelte sich erst richtig im 20. Jahrhundert, dann aber mit immenser Geschwindigkeit. Heute steht den Anwendern eine vielzahl von elaborierten, teilweise hoch spezialisierten Methoden der mathematischen Statistik zur Verfügung, die teilweise nur mit besonderen Computerprogrammen einsetzbar sind. In fast allen wissenschaftlichen Disziplinen
gehören empirische Forschungsmethoden, mit denen die wissenschaftlichen Theorien an
der Realität geprüft werden sollen, zum Standardrepertoire. Die quantitativen empirischen
Forschungsmethoden verwerden dabei Standardverfahren der mathematischen Statistik.
Die Anwendungen bereichern einerseits die mathematische Theoriebildung. Andererseits
beeinflusst der Wunsch, gewisse quantitative empirische Forschungsmethoden einzusetzen, die Entscheidung, welche Aspekte eines Problems untersucht werden.
Für die Manipulation von Daten, die Berechnung von Schätzwerten und Konfidenzbereichen und die Durchführung von Signifikanztests gibt es eine große Menge von Softwarepaketen, z.B. SPSS, SAS, S-Plus und viele andere, die aufgrund des Funktionsumfangs
und gemäß dem Gesetz von Angebot und Nachfrage zum Teil stolze Preise haben. Im
Rahmen dieser Vorlesung und für die zugehörigen Übungen wird das Programm R der
R Foundation for Statistical Computing” empfohlen. Es entspricht im wesentlichen dem
”
kommerziellen Paket S-PLUS.
R ist eine objektorientierte und interpretierte Sprache und Programmierumgebung für Datenanalyse und Graphik, die unter der GNU General Public License frei verfügbar ist. Sie
kann für alle gängigen Betriebssysteme und im Quellcode von http://www.r-project.org
heruntergeladen werden. Dort findet man auch die Einführung in diese Programmiersprache und Handbücher im PDF-Format. Die Software enthält außerdem ein umfangreiches
Hilfesystem.
6
2
Beschreibende Statistik
Bevor wir formalle Modelle für zufällige Vorgänge einführen, soll hier ein intuitiver Zugang
zu zufälligen Daten vorangestellt werden.
2.1
Daten erfassen und darstellen
Eine Menge von gleichartigen Objekten oder Elementen, die hinsichtlich eines bestimmten
Merkmals untersucht werden sollen, heißt Grundgesamtheit. Eine Grundgesamtheit kann
dabei endlich oder unendlich sein, je nachdem ob sie endlich oder unendlich viele Elemente
enthält.
Die aus einer Beobachtung oder Messung oder Umfrage aufgezeichneten Daten (Eigenschaften oder Merkmale der Objekten) nennen wir dann einen Datensatz.
Aus vielen Gründen läßt sich sehr oft die Untersuchung gewisser Eigenschaften oder Merkmale einer Grundgesamtheit nicht als Ganzes durchführen, sondern muss auf eine Teilmenge beschränkt werden. Ist also der Datensatz aufgrund einer gezielten Teil-Erhebung
von genau n Elementen aus einer Grundgesamtheit entstanden, sprechen wir auch von
einer Stichprobe vom Umfang n. Man erwartet, dass solche Stichprobe in gewisser Weise
die Grundgesamtheit repräsentiert.
Der Datensatz, d.h. das Ergebnis der Objektuntersuchung bzgl. des interessierenden Merkmals, bezeichnen wir (in der Reihenfolge der Ziehung) mit
x := (x1 , x2 , . . . , xn ) .
Anschaulicher als diese Zahlenfolgen sind die grafische Darstellungen als z. B. Stab-,
Balken-, Torten-, und Säulen-Diagrammen. Die Komprimierung und/oder tabelarische
bzw. grafische Darstellung eines Datensatzes bzw. einer Stichprobe nennt man eine Statistik.
Die Beobachtungs- oder Stichprobenwerte xi des interessierenden Merkmals haben wir
zunächst in der Reihenfolge ihres Auftretens in einer sog. Urliste aufgeführt.
Der geordnete Datensatz, bezeichnet mit x[] := x[1] , x[2] , . . . , x[n] , heißt auch Ordnungsstatistik zu x. Der Abstand zwischen dem kleinsten und dem größten Wert heißt die
Spannweite des Datensatzes.
Wenn in Datensätzen viele Werte mehrmals auftreten (dies glit insbesondere für umfangreiche Datensätze), benutzt man statt Datenlisten eher Häufigkeitstabellen.
Wir stellen fest, wie oft jeder Wert xi , in dem Datensatz enthalten ist. Diese natürliche
Zahl heißt absolute Häufigkeit Hi des Wertes xi . Alle Werte x, die nicht in dem Datensatz
auftreten, haben die absolute Häufigkeit gleich Null. Dabei gilt
X
Hi = n.
i
7
Die relative Häufigkeit hi erhält man, indem man die absolute Häufigkeit Hi durch die
Anzahl n der Werte dividiert:
Hi
hi =
.
n
Dabei gelten folgende Beziehungen:
0 < hi ≤ 1
X
und
hi = 1.
i
Es gehört somit zu jedem Wert xi genau ein Hi bzw. hi . Der Datensatz kann dann
vollständig durch die folgende Verteilungstabelle beschrieben werden:
Datensatzwert xi
x1
x2
x3
...
absolute Häufigkeit Hi
H1
H2
H3
...
relative Häufigkeit hi
h1
h2
h3
...
Die Verteilung der einzelnen Werte in dem Datensatz läßt sich daher durch die wie folgt
definierte Häufigkeitsfunktion f darstellen:
f (x) :=
hi
0
für x = xi ,
sonst.
Sie ordnet jedem Wert xi als Funktionswert die relative Häufigkeit hi .
Die Häufigkeitsfunktion f lässt sich graphisch in sehr anschaulicher Weise durch ein Stabdiagramm darstellen, wobei Stablänge der relativen Häufigkeit hi des einzelnen Wertes xi
entspricht, die Stabbreite ist ohne Bedeutung.
Die Häufigkeitsverteilung eines Datensatzes läßt sich auch eindeutig und vollständig durch
die wie folgt definierte Summenhäufigkeitsfunktion F beschreiben:
F (x) :=
X
f (xi ) .
xi <x
Sie ordnet jedem Wert x als Funktionswert die Summe der relativen Häufigkeiten aller
Stichprobenwerten, die kleiner als x sind. In der graphischen Abbildung erhalten wir eine
sog. Treppenfunktion, d.h. die stückweise konstante Funktion, die an der Stelle des Wertes
xi jeweils einen Sprung der Höhe f (xi ) = hi hat. Nach dem letzten Sprung, erreicht die
Summenhäufigkeitsfunktion F dann den Endwert Eins. Diese Funktion kann man auch
in Form eine Tabelle beschreiben:
x
F (x)
(−∞, x1 ]
(x1 , x2 ]
(x2 , x3 ]
...
(xn−1 , xn ]
(xn , ∞)
0
h1
h1 + h2
...
h1 + . . . + hn−1
h1 + . . . + hn = 1
8
Bei umfangreichen Stichproben mit vielen verschiedenen Werten gruppiert man die Stichprobenwerte zweckmäßigerweise in sog. Klassen. Zunächst wird die Stichprobe geordnet
und der kleinste und größte Wert bestimmt. Dann wird das Intervall festgelegt, in dem
sämtliche Stichprobenwerte liegen und dieses schließlich in Teilintervalle möglichts gleicher Breite zerlegt (sog. Klassen gleicher Breite).
Bei der Festlegung der Anzahl k der Klassen bei n Stichprobenwerten verwende man die
folgende Regel:
√
k≈ n
für 50 < n < 500.
Bei Stichproben mit einem Umfang n > 500 wähle man höchstens k = 30 Klassen.
Für die Weiterbearbeitung der Klassen können wir die absolute und relative Klassenhäufigkeit bestimmen, sowie die Häufigkeits- und Summenhäufigkeitsfunktionen.
2.2
Kenngrößen
Alle bisherigen Darstellungen enthalten einen Großteil der Information über x und sind
deshalb für eine schnelle Beurteilung meist zu unübersichtlich. Es besteht die Möglichkeit,
den Datensatz durch bestimmte statistiche Kennwerte (Maßzahlen) zu charakterisieren,
wenn auch in unvollständiger Weise. Wir beschränken uns in diesem Abschnitt auf die
wichtigsten Kennwerte, nämlich auf den Mittelwert, den Median, die Varianz und die
Standardabweichung.
Der wohl wichtigste Kennwert eines Datensatzes vom Umfang n ist der Mittelwert, der
den durchschnitlichen Wert aller n Stichprobenwerten kennzeichnet.
Definition 2.1. Der Mittelwert x eines Datensatzes vom Umfang n ist das arithmetische
Mittel der Werte
x :=
n
1 X
x1 + x2 + · · · + xn
·
xi =
.
n i=1
n
Der Mittelwert wird von einzelnen extremen Werten (z.B. Messfehlern) stark beinflusst.
Deswegen zur Kennzeichnung der Mitte” des (geordneten) Datensatzes wird manchmal
”
das folgende Lageparameter verwendet:
Definition 2.2. Der Median x
e eines Datensatzes vom Umfang n ist gleich
x
e :=



x[ n+1 ]
2
1


x n + x[ n +1]
2
2 [2]
bei ungeradem n,
bei geradem n.
Der Median wird auch Zentralwert genannt, weil links und rechts von diesem Wert sich
gleichviele Stichprobenwerte befinden. Bei einem geordenten Datensatz läßt sich der Median auf einem Blick ablesen.
9
Da die einzelnen Datensatzwerte xi um ihren Mittelwert streuen, benötigen wir noch ein
geeignetes Streuungsmaß das in gewisser Weise die Größe der Abweichungen charakterisiert. Die Angabe des Mittelwertes allein reicht zur Charakterisierung der Häufigkeitsverteilung nicht aus, da empirische Verteilungen mit demselben Mittelwert völlig verschieden
aussehen können.
Ein erster Maß für die Schwankungen innerhalb eines Datensatzes sind die Prozentpunkte
oder Quantile.
Definition 2.3. Der p%-Punkt (das p%-Quantil) up% eines Datensatzes x hat die Eigenschaft, dass links (bzw. rechts) von up% höchstens p% (bzw. (100 − p)%) der Daten liegen.
Gegebenenfalls wählt man die Mitte zwischen zwei Werten.
Die 25%-, 75%-Quantile heißen untere, obere Quartile.
Man benutzt meist ein Paar von Quantilen, z. B. (u5% , u95% ), um einen Bereich einzugeben,
in dem der Anteil von hier 90% der Werte liegen.
Als gängigstes Maß für die Schwenkung wird die mittlere Abweichung der xi von x benutzt.
n
P
Weil die Summe
(xi − x) scheidet dabei als Streuungsmaß aus, da sie stets den Wert
i=1
Null ergibt:
n
X
i=1
(xi − x) =
n
X
i=1
xi − nx = nx − nx = 0,
wird die Abweichung (xi − x) quadratisch ermittelt.
Definition 2.4.
a) Die Varianz s2x eines Datensatzes x := (x1 , x2 , . . . , xn ) ist gegeben durch
n
1X
sx :=
(xi − x)2 .
n i=1
2
b) Die Quadratwurzel aus der Varianz s2x heißt Standardabweichung sx des Datensatzes.
Statt Standardabweichung sagt man auch Streuung.
Zur praktischen Berechnung der Varianz ist der angegebene Formel ungünstig, weil von
jedem xi der Wert x abgezogen werden muss. Deshalb formt man den Ausdruck um zu

n
1 X 2 1
2
sx :=
x −
n i=1 i n
n
X
i=1
!2 
1
xi  =
n
10
n
X
i=1
x2i − n · x2
!
.
Beide Kennwerte, sowohl die Varianz als auch die Standardabweichung sind ein Maß für
die Streuung der Datensatzwerte um ihren Mittelwert. Die Standardabweichung hat dabei
den Vorteil, dass sie dieselbe Dimension und Einheit besitzt wie die einzelnen Datensatzwerte und deren Mittelwert. Die Varianz ist eine Art mittleres Abweichungsquadrat.
Bemerkung. Bei einer Stichprobe interessiert man sich oft nicht für die Standardabweichung innerhalb der Stichprobe, sondern für eine Schätzung des unbekannten Gesamt1
Datensatzes. Dann muss man bei sx den ersten Faktor n1 durch n−1
ersetzen.
2.3
Lineare Regression
Daten treten oft paarweise als (xi , yi) auf, wenn gleichzeitig zwei Merkmale beobachtet
werden. Es liegt dann ein zweidimensionaler Datensatz z vor:
z := ((x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn )) .
Hier kann man natürlich zunächst für jede der beiden Kompnenten den Mittelwert x
bzw. y, oder den Median x
e bzw. ye und die Standardabweichung sx bzw. sy bestimmen.
Interessanter ist in der Regel die Frage nach einer Beziehung oder einem stochastischen
Zusammenhang zwischen den Werten xi und yi . Besteht eine solche Abhängigkeit, so
spricht man über einer Korrelation zwischen diesen Werten.
Die sog. Regressionsanalyse hat dann die Aufgabe die Art des Zusammenhangs festzustellen und zwar mit Hilfe eines geeignetes Ansatzes in Form einer Kurvengleichung y = f (x),
die noch gewisse aus dem Datenstaz berechenbare Parameter enthält. Dabei wird x als
unabängige Variable und y als eine von x abhängige Variable angesehen.
In der Statistik bezeichnet man solche einseitige” Anhängigkeit als Regression von y
”
bezüglich x. Hat man die Gleichung der sog. Regressions- oder Ausgleichskurve bestimmt,
so läßt sich zu vorgegebenen Wert x der Wert der abhängigen y schätzen.
Um sich einen Überblick zu verschaffen, wird man zuerst die Paare (xi , yi ) als Punkte in
der (x, y)-Ebene darstellen. Sie bilden in ihrer Gesamtheit eine sog. Punktwolke”. Meist
”
lässt sich anhand der Punktwolke ein geeigneter Lösungsansatz für die gesuchte Regressionskurve ermitteln. Im einfachsten Fall liegen die Punkte nahezu (yi ≈ axi + b) auf
eine Gerade. In diesem wichtigsten und häufigsten Fall (nur den werden wir hier betrachten) spricht man daher von linearer Regression und sucht man eine Regressionsgerade
y = ax + b, die sich den angegebenen Daten möglichst gut anpasst. Die noch unbekannten
Parameter a und b dieser Gerade (d.h. Steigung a und Achsenabschnitt b) lassen sich aus
den vorgegebenen Datensatz leicht bestimmen.
Satz 2.5. Es sei ein zweidimensionaler Datensatz z = ((x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn ))
mit sx 6= 0 gegeben.
Die Summe der Abstandsquadrate aller n Punkte:
S(a, b) :=
n
X
i=1
(yi − (axi + b))2
11
nimmt ihr Minimum im Punkt (a∗ , b∗ ) an, wobei
a∗ =
und
sxy
s2x
und
b∗ = y − a∗ x
n
1X
1
sxy :=
(xi − x) · (yi − y) =
n i=1
n
die Kovarianz des Datensatzes z genannt wird.
n
X
i=1
xi yi − n · x y
!
Die Gerade y = a∗ x + b∗ heißt dann die Regressionsgerade.
Die Regressionsgerade kann aber auch in der speziellen symmetrischen Form
y − y = a∗ (x − x)
dargestellt werden. Sie verläuft durch den sog. Schwerpunkt S = (x, y) der Punktwolke.
Die Bestimmung einer Regressionsgerade ist nur möglich, wenn mindestens drei Punkte
vorliegen, n ≥ 3.
In vielen Fällen jedoch muss man aufgrund des Erscheinungsbildes der Punktwolke”
”
einen nicht linearen Lösungsansatz wählen. Man spricht dann von nicht-linearer Regression. Als nichtlineare Lösungsansätze kommen z.B. Polynomfunktionen höheren Grades,
Potenzfunktionen, Exponential- und Logarithmusfunktionen und manchmal auch (einfache) gebrochenrationale Funktionen infrage.
12
3
Wahrscheinlichkeitsräume
Ein Wahrscheinlichkeitsraum ist ein mathematisches Modell bzw. ein abstraktes Schema
zur Beschreibung eines Zufallsexperiments. Aus den vorherigen Erläuterungen ergibt sich,
dass eine solche Beschreibung die folgenden Bestandteile enthalten muss:
• Eine Liste der möglichen Ausgänge des Experiments
• Eine Aufstellung der interessierenden Ereignisse
• Eine Beschreibung der Funktion P
3.1
Die Ergebnismenge
Die Ausgänge eines Zufallsexperiments werden üblicherweise Ergebnisse6 genannt und
die Menge der möglichen Ausgänge dementsprechend die zum Experiment zugehörige
Ergebnismenge7 oder der Ergebnisraum. Als Symbol für ein Ergebnis werden wir den
griechischen Buchstaben ω benutzen und die Ergebnismenge wird durch den zugehörigen
Großbuchstaben Ω gekennzeichnet:
Ω := {ω : ω– möglicher Experimentausgang} .
Die Menge der möglichen Ergebnisse kann man als Reduktion der allgemeinen Beschreibung des Experiments auf das mathematisch Wesentliche ansehen. Dabei gibt es aber je
nach Fragestellung eventuell mehrere Möglichkeiten. Zur Veranschaulichung ziehen wir
zwei klassische Beispiele für Zufallsexperimente heran: Das Werfen zweier Würfel und das
Galton-Brett.
Würfeln. Wirft man zwei Würfel und ist nur an der Summe der geworfenen Augenzahlen
interessiert, so bietet sich als Ergebnismenge die Menge
Ωw1 = {2, 3, 4, ...11, 12}
(3.2)
der natürlichen Zahlen von 2 bis 12 an.
Kommt es auf die tatsächlich geworfenen Augenzahlen an, muss man Paare von Augenzahlen notieren. Bei zwei nicht unterscheidbaren Würfeln kann man als Ergebnismenge
zum Beispiel


[1,
1]
[1,
2]
[1,
3]
[1,
4]
[1,
5]
[1,
6]








[2,
2]
[2,
3]
[2,
4]
[2,
5]
[2,
6]






[3, 3] [3, 4] [3, 5] [3, 6]
Ωw2 =
[4, 4] [4, 5] [4, 6] 






[5, 5] [5, 6] 






[6, 6]
6
7
auch Stichproben, Realisierungen, Elementarereignisse
auch Merkmalraum, Stichprobenraum, Grundraum
13
ansetzen. Die Notation [i, k] bedeutet, dass einer der Würfel die Augenzahl i und der
andere die Augenzahl k zeigt, wobei an erster Stelle immer die kleinere der geworfenen
Zahlen steht.
Wirft man die beiden Würfel nicht gleichzeitig, sondern nacheinander und ist die Reihenfolge der geworfenen Augenzahlen von Bedeutung, so muss die Darstellung noch einmal
verfeinert werden, etwa durch die Ergebnismenge


(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 







(2,
1)
(2,
2)
(2,
3)
(2,
4)
(2,
5)
(2,
6)






(3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
(3.3)
Ωw3 =
(4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) 






(5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 






(6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
wobei (i, k) für das Ergebnis steht, dass i die erste und k die zweite geworfene Augenzahl
ist.
Das Galton-Brett. Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die
Rinnen eingefräst sind. Eine Kugel wird in die Startrinne am oberen Rand gelegt und
rollt nach unten, wobei sie an den Verzweigungspunkten zufällig nach links oder rechts
abgelenkt wird.
Die Ergebnisse sind entweder die in irgendeiner Form gekennzeichneten verschiedenen
Ausgänge am unteren Ende des Bretts, an denen die Kugel schließlich landet, oder die
verschiedenen Wege, die die Kugel durchlaufen kann.
3.2
Ereignisse
Ein Ereignis ist eine Charakterisierung des Ausgangs eines Zufallsexperiments durch ein
oder mehrere Merkmale, so dass nach Durchführung des Experiments die Frage, ob diese
Charakterisierung zutrifft, eindeutig mit ja” oder nein” beantwortet werden kann. Falls
”
”
sie zutrifft, sagt man, das Ereignis sei eingetreten. Betrachtet man zum Beispiel beim
Werfen zweier Würfel die Aussage
”
Zwei ungerade Augenzahlen wurden geworfen”,
so ist dies bezogen auf die Ergebnismenge Ωw1 kein Ereignis im obigen Sinne, da sich nicht
entscheiden lässt, ob sie zutrifft, wenn man nur die Augenzahlsumme als Ergebnis kennt.
Bei den anderen beiden Ergebnismengen ist diese Frage entscheidbar.
Offensichtlich kann man Ereignisse durch Teilmengen A der Ergebnismenge Ω repräsentieren. Da ein Ereignis genau dann eintritt, wenn die zugehörige Aussage auf das Ergebnis
der Durchführung des Experiments zutrifft, entspricht einem Ereignis einfach die Menge
aller Ergebnisse des Experiments, für die diese Aussage wahr ist. Bezogen auf die Ergebnismenge Ωw2 ist das in unserem Beispiel die Menge
A2 = {[1, 1], [1, 3], [1, 5], [3, 3], [3, 5], [5, 5]} .
Die Charakterisierung von Ereignissen durch Mengen hängt natürlich von der gewählten
Ergebnismenge ab. Je nach Auswahl wird die Aussage
14
”
Die Augenzahlsumme 7 wurde geworfen”
durch die drei Mengen
B1 = {7}
B2 = {[1, 6], [2, 5], [3, 4]}
B3 = {(1, 6), (6, 1), (2, 5), (5, 2), (3, 4), (4, 3)}
repräsentiert.
Auf dem Wege der mathematischen Abstraktion können wir jetzt noch einen Schritt
weitergehen und die Differenzierung zwischen Aussage und repräsentierender Menge aufheben. Für unser mathematisches Modell legen wir fest:
Ein Ereignis ist eine Teilmenge des Ergebnisraums.
3.3
Verbundereignisse
Ereignisse können mittels der logischen Operatoren und, oder miteinander verknüpft
und durch nicht negiert werden, wodurch sich neue Ereignisse ergeben, wie zum Beispiel
Ungerade Augenzahlen” und Augenzahlsumme größer als 4”;
”
”
Augenzahlsumme 6” oder Augenzahlsumme 7”;
”
”
Die Augenzahlsumme ist nicht 7”.
”
Geht man zur Mengendarstellung der Ereignisse über, so entsprechen diesen Verbundereignissen die Vereinigung, der Durchschnitt und das Komplement der Mengen, die die
verknüpften Ereignisse repräsentieren:
A ∪ B = {ω ∈ Ω : ω ∈ A oder ω ∈ B} ;
A ∩ B = {ω ∈ Ω : ω ∈ A und ω ∈ B} ;
Ac = {ω ∈ Ω : ω 6∈ A} .
Nach der Liste der möglichen Ergebnisse des Zufallsexperiments ist nach den obigen
Überlegungen als zweiter Bestandteil eines mathematischen Modells eine Liste der interessanten Ereignisse, das sog. Ereignis-System, bzw. die Auflistung der entsprechenden
Teilmengen der Ergebnismenge erforderlich.
Da man zweifellos in eine solche Liste alle Verbundereignisse mit aufnehmen wird, ergibt
sich die Forderung, dass das System der zugehörigen Teilmengen unter den Operationen
Vereinigung, Durchschnitt und Komplementbildung abgeschlossen sein muss.
Da man häufig, insbesondere bei Grenzwerten, abzählbare Vereinigungen und Durchschnitte benötigt, muss dies auch für abzählbar unendliche Verknüpfungen sichergestellt
sein. Zur Veranschaulichung betrachten wir das Zufallsexperiment, dass ein Wurfel so lange geworfen wird, bis zum ersten Mal die Augenzahl 6 erscheint. Da nicht abzusehen ist,
15
bei welchem Wurf dieses Ereignis eintritt und prinzipiell auch denkbar ist, dass niemals
eine 6 geworfen wird, muss man als Ergebnisraum die Menge
Ω = {ω = (z1 , z2 , . . .) : zk = 1, 2, 3, 4, 5, 6}
aller möglichen unendlichen Wurfserien benutzen: Die Komponente zk steht für die Augenzahl, die beim k-ten Wurf erscheint. Das Ereignis, dass genau beim k-ten Wurf die
erste 6 erscheint, wird durch die Menge
Ak = {ω = (z1 , z2 , . . .) : zi < 6
für i < k
und zk = 6}
beschrieben. Die Mengen A1 , A2 , . . . sind paarweise disjunkt. Für n = 1, 2, 3, . . . repräsentieren die Mengen
Bn = A1 ∪ A2 ∪ · · · ∪ An
die Ereignisse, dass spätestens beim n-ten Wurf eine 6 kommt und
A=
∞
[
Bn =
n=1
∞
[
Ak
k=1
entspricht der Aussage, dass irgendwann einmal eine 6 erscheint”.
”
Definition 3.1. Ein System A von Teilmengen einer nichtleeren Menge Ω heißt eine
(Mengen-) σ-Algebra (über Ω), wenn gilt:
A∈A
Ω ∈ A,
=⇒
A1 , A2 , . . . ∈ A
=⇒
Ac ∈ A,
∞
S
An ∈ A.
n=1
Beispiele 3.2. für σ-Algebren sind die Mengensysteme:
• {Ø, Ω} – die kleinstmögliche Algebra,
• {Ø, A, Ac , Ω} – die kleinste Algebra, die das Ereignis A enthält,
• 2Ω = P(Ω) – die Potenzmenge von Ω, d. h. die Menge aller Teilmengen von Ω.
Bemerkungen und Bezeichnungen
❶ Die letzte Aussage: A1 , A2 , . . . ∈ A ⇒
∞
S
n=1
An ∈ A gilt sinngemäß auch für endliche
Folgen A1 , . . . , AN von Ereignissen (man setze dort einfach AN +1 = AN +2 = · · ·
= Ø):
N
[
An ∈ A.
n=1
16
❷ Da jedes ω in dem Ereignis Ω liegt, tritt dieses Ereignis bei jeder Durchführung des
Experiments ein. Es heißt daher auch das sichere Ereignis.
❸ Sein Komplement Ωc = Ø, die leere Menge, tritt nie ein und heißt daher das
unmögliche Ereignis.
❹ Eine einelementige Menge {ω} heißt ein Elementarereignis.
❺ Morgansche Regeln: Man kann leicht nachvollziehen, dass für beliebige Mengen
die Gleichungen
(Ac )c = A
und
(A ∩ B)c = Ac ∪ B c
gelten. Mit diesen Regeln ergibt sich, dass σ-Algebren auch unter der Durchschnittsbildung abgeschlossen sind. Aus den Eigenschaften einer σ-Algebra folgt nämlich,
dass
A, B ∈ A =⇒ Ac , B c ∈ A
=⇒ (A ∩ B)c = Ac ∪ B c ∈ A
=⇒ A ∩ B = ((A ∩ B)c )c ∈ A.
Genauso kann man zeigen, dass es auch die Abgeschlossenheit für abzählbare Durchschnitte gilt.
❻ Anstelle von A ∩ B schreiben wir auch kurz AB.
❼ Zwei Mengen A, B heißen disjunkt, falls A ∩ B = Ø. In diesem Fall schreiben wir
auch A + B anstelle von A ∪ B.
Wir setzen künftig voraus, dass das Ereignis-System A eine σ-Algebra ist.
Ist der zu einem Zufallsexperiment gehörige Ergebnisraum höchstens abzählbar, d.h.
Ω = {ω1 , ω2 , . . . , ωN } oder Ω = {ω1 , ω2 , . . .}, so lässt sich A = 2Ω wählen.
Bei überabzählbaren Ergebnismengen (z.B. Ω = [0, 100] ⊂ R) darf die Potenzmenge 2Ω
von Ω nicht als σ-Algebra gewählt werden, weil sie so viele, auch eigenartige, Mengen
enthält. Deshalb sollte die σ-Algebra möglichst klein” sein, aber noch großgenug damit
”
wichtige Mengen (= Ereignisse) zur Beschreibung eines Zufallsexperiments zur Verfügung
stehen. Z.B. die kleinste σ-Algebra, die alle Punkte, offenen, halboffenen und abgeschlossenen Intervalle aus R enthält ist die σ-Algebra der Borelschen Mengen.
3.4
Wahrscheinlichkeiten
Im Hinblick auf das empirische Gesetz der großen Zahlen sollten die wesentlichen Eigenschaften der relativen Häufigkeit hn auf die Funktion P übertragen werden. Dazu
betrachten wir die Situation, dass ein Zufallsexperiment mit der Ergebnismenge Ω n-mal
durchgeführt und dabei gezählt wurde, wie oft ein Ereignis A ⊆ Ω eingetreten ist.
17
Da die absolute Häufigkeit Hn (A) des Ereignisses nicht größer sein kann als die Anzahl n
der Versuche insgesamt, muss für den Quotienten hn (A) = Hn (A)/n die Einschränkung
0 ≤ hn (A) ≤ 1
gelten. Für das sichere Ereignis Ω ist Hn (Ω) = n und daher
hn (Ω) = 1,
denn das sichere Ereignis tritt bei jedem Versuch ein. Schließlich kann von zwei disjunkten Ereignissen A und B bei jeder Durchführung des Experiments höchstens eines der
beiden eintreten, so dass Hn (A ∪ B) = Hn (A) + Hn (B) und damit
hn (A ∪ B) = hn (A) + hn (B)
gilt.
Wie der Mathematiker A. Kolmogoroff 1933 in seinem Buch Grundbegriffe der Wahrscheinlichkeitsrechnung zeigte, lässt sich auf folgenden Axiomen ein leistungsfähiges Gebäude der Wahrscheinlichkeitsrechnung aufbauen.
Definition 3.3. Eine Funktion P : A → R auf einer σ-Algebra A von Teilmengen einer
Menge Ω mit der Eigenschaften
❶ Normiertheit:
P (Ω) = 1,
(3.4)
❷ Nichtnegativität:
P (A) ≥ 0
für alle A ∈ A,
❸ σ-Additivität: Für jede Folge A1 , A2 , . . . von paarweise disjunkten Ereignisen aus
A gilt
!
∞
∞
[
X
An =
P (An )
P
n=1
n=1
heißt eine Wahrscheinlichkeit oder Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß.
Als Axiome werden in der Mathematik diejenigen Eigenschaften eines mathematischen
Objekts bezeichnet, die als Basis für alle weiteren Folgerungen dienen und die (innerhalb
des mathematischen Modells) nicht weiter begründet werden.
Aus diesen drei Axiomen ergeben sich unmittelbar einige Rechenregeln für Ereignisse, die
bei den kommenden Berechnungen häufig benötigt werden. A, B usw. seien dabei stets
Elemente aus der Ereignisalgebra A.
Komplementärereignisse: Wegen A ∪ Ac = Ω und A ∩ Ac = Ø folgt aus den Axiomen
1 und 3, dass P (A) + P (Ac ) = 1 oder
P (Ac ) = 1 − P (A)
18
Speziell für das unmögliche Ereignis Ø = Ωc also
P (Ø) = 0.
Monotonie: Ist A ⊆ B, so lässt sich B als A ∪ (Ac ∩ B) darstellen, wobei die Mengen A
und Ac ∩ B disjunkt sind. Das ergibt P (B) = P (A) + P (Ac ∩ B). Und da P (Ac ∩ B) ≥ 0,
folgt daraus
A⊆B
=⇒
P (A) ≤ P (B).
(3.5)
Allgemeine Additionsregel: Für beliebige nicht notwendig disjunkte Ereignisse A, B
ergibt sich aus A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B) die Beziehung
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Als mathematisches Modell eines Zufallsexperiments legen wir fest:
Definition 3.4. Ein Tripel (Ω, A, P ), wo Ω eine nichtleere Menge, A eine σ-Algebra
von Teilmengen von Ω und P eine Wahrscheinlichkeitsverteilung auf A ist, heißt ein
Wahrscheinlichkeitsraum.
Ω heißt die Ergebnismenge, die Elemente der σ-Algebra A heißen Ereignisse und die Zahl
P (A) heißt die Wahrscheinlichkeit des Ereignisses A.
3.5
Monotone Folgen von Ereignissen
Ist B1 , B2 , . . . eine Folge von Ereignissen aus einem Wahrscheinlichkeitsraum (Ω, A, P )
∞
S
mit Bn ⊆ Bn+1 für alle n = 1, 2, . . . und ist B =
Bn , so symbolisieren wir diese
n=1
Situation kurz mit Bn ր B.
Satz 3.5. Ist B1 , B2 , . . . eine Folge von Ereignissen mit Bn ր B, dann lim P (Bn ) =
n→∞
P (B).
Beweis: Nach Regel 3.5 ist die Folge der Zahlen P (Bn ) monoton steigend und nach
Axiom 3.4 nach oben durch 1 beschränkt. Diese Folge ist also konvergent.
Wir konstruieren eine neue Folge von Ereignissen A1 , A2 , . . . durch
A1 = B1
A2 = B2 \ B1
..
.
Ak = Bk \ Bk−1
..
.
Diese Ereignisse Ak sind paarweise disjunkt und es gilt
Bn = A1 ∪ A2 ∪ · · · ∪ An =
n
S
Ak ,
k=1
B = A1 ∪ A2 ∪ · · · ∪ An ∪ · · · =
19
∞
S
k=1
Ak
Daraus ergibt sich aus den Axiomen und den bisher abgeleiteten Rechenregeln
n
n
S
P
lim P (Bn ) = lim P
Ak = lim
P (Ak ) =
n→∞
n→∞
=
∞
P
k=1
P (Ak ) = P
k=1
n→∞ k=1
∞
S
k=1
Ak
= P (B).
Sei C1 , C2 , . . . eine Folge von Ereignissen mit Cn ⊇ Cn+1 , n = 1, 2, . . ., und C =
kurz Cn ց C.
∞
T
Cn ,
n=1
Satz 3.6. Ist C1 , C2 , . . . eine Folge von Ereignissen mit Cn ց C, dann lim P (Cn ) =
n→∞
P (C).
Beweis: Die Ereignisse Bn = Cnc erfüllen Bn ր B mit B = C c . Wegen P (Cn ) = 1−P (Bn )
und P (C) = 1 − P (B) folgt die Behauptung aus dem vorhergehenden Satz.
4
Laplace-Experimente
Mit dem Aufstellen von Rechenregeln für Wahrscheinlichkeiten ist noch nicht das Problem gelöst, wie man bei konkreten Zufallsexperimenten zu konkreten Zahlen für die
Wahrscheinlichkeit von Ereignissen kommt. Dies ist allerdings auch nur zum Teil ein rein
mathematisches Problem. Der mathematische Teil besteht darin zu klären, welche Informationen über die Funktion P erforderlich sind um anschließend mit Hilfe der Rechenregeln die Wahrscheinlichkeit P (A) eines beliebigen Ereignisses A berechnen zu können.
Das praktische” Problem besteht darin, im konkreten Einzelfall einen vernünftigen”
”
”
Ansatz für die benötigte Minimalinformation über P aufzustellen.
Das historisch erste Kochrezept zur Lösung dieses Problems stammt von Pierre Simon de
Laplace (1749–1827):
Die Wahrscheinlichkeitsrechnung besteht in der Zurückführung aller Ereignisse
derselben Art auf eine gewisse Anzahl von gleich möglichen Fällen, über deren
Eintreten wir gleich wenig wissen, und in der Bestimmung derjenigen Anzahl
von Fällen, die für das Ereignis günstig sind, dessen Wahrscheinlichkeit wir
suchen.
Den ersten Teil dieser Vorschrift kann man unter Verwendung der im vorhergehenden
Kapitel eingeführten Begriffe etwa folgendermaen formulieren:
Beschreibe eine Versuchsanordnung durch eine Ergebnismenge derart, dass
es keinen vernünftigen Einwand gegen den Ansatz gibt, dass alle Ergebnisse
gleich möglich sind, bzw. – in unserer Sprechweise – dass alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen:
P {ω} = p
für alle ω ∈ Ω.
20
(4.6)
Beispiele 4.1.
❶ Ist ein Würfel regulär, d.h. aus homogenem Material geometrisch exakt geformt,
so lässt sich kaum etwas gegen die Annahme einwenden, dass jede der sechs Augenzahlen beim Wurf die gleiche Chance hat nach oben zu zeigen. Die Ergebnismenge
Ω = {1, 2, 3, 4, 5, 6} ist also für diesen Fall ein passender Ansatz.
❷ Interessiert man sich für die Augenzahlsumme beim Werfen zweier regulärer Würfel,
so ist die Ergebnismenge Ωw1 (3.2) ungeeignet. Nach einer relativ kurzen Versuchsreihe zeigt sich im allgemeinen, dass sich die relativen Häufigkeiten der Elementarereignisse deutlich voneinander unterscheiden und ein Laplace-Ansatz (4.6) offensichtlich im Widerspruch zum empirischen Gesetz der großen Zahlen steht.
Andererseits gibt es beim zweimaligen Werfen eines regulären Würfels (oder beim
gleichzeitigen Werfen zweier unterscheidbarer regulärer Würfel) keinen vernünfigen
Einwand gegen die Annahme, dass alle möglichen Kombinationen aus erster und
zweiter geworfener Augenzahl die gleiche Chance besitzen. Man wird also von der
Eigenschaft (4.6) für die Ergebnismenge Ωw3 wie in (3.3) ausgehen und Ereignisse
der Form Die Augenzahlsumme ist x” in diesem Rahmen betrachten.
”
Die Eigenschaft (4.6) ist die Minimal information, durch die der Wahrscheinlichkeitsraum
(Ω, A, P ) bereits eindeutig festgelegt ist. Sie besagt als Erstes, dass jede einelementige
Menge {ω} ein Element der σ-Algebra A ist. Daraus folgt, dass jede endliche Teilmenge
von Ω in A liegt, denn
A = {ω1 , ω2 , . . . , ωn } = {ω1 } ∪ {ω2 } ∪ · · · ∪ {ωn } ∈ A
und es ist dementsprechend
P (A) = P {ω1 } + P {ω2} + · · · + P {ωn } = n · p =: |A| · p,
|A| bezeichnet dabei die Anzahl der Elemente der Menge A.
Da man offensichtlich p > 0 ansetzen muss, um zu einer sinnvollen Wahrscheinlichkeitsverteilung zu kommen, ist ein Ansatz der Form (4.6) nur möglich, wenn die Ergebnismenge
endlich ist. Denn einerseits muss stets P (A) ≤ 1 sein und andererseits gäbe es bei nichtendlichem Ω Teilmengen A einer derartigen Größe, dass |A| · p > 1 ist.
Dann ist aber jede Teilmenge von Ω endlich und somit ein Element der Ereignisalgebra,
so dass A = 2Ω . Weiter folgt aus
1 = P (Ω) = |Ω| · p
dass p = 1/|Ω| und wir erhalten für die Wahrscheinlichkeit eines Ereignisses A die bekannte Formel
Anzahl der günstigen Fälle
|A|
P (A) =
=
.
|Ω|
Anzahl der möglichen Fälle
Wie man sich leicht überzeugt, erfüllt die Funktion P die Axiome 1 bis 3. Wir können
daher festlegen:
21
Definition 4.2. Ein Laplace-Experiment ist ein Wahrscheinlichkeitsraum (Ω, A, P ) mit
den folgenden Eigenschaften:
• Ω ist eine endliche Menge,
• A = 2Ω ,
• P (A) =
|A|
.
|Ω|
Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten besteht daher im
Abzählen der Elemente der entsprechenden Mengen. Beim Werfen zweier Würfel ist das
recht einfach. Die Menge Ωw3 enthält 36 Elemente und das Ereignis Augenzahlsumme
”
ist 7” wird durch die Menge A = (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) mit 6 Elementen
und der Wahrscheinlichkeit P (A) = 1/6 repräsentiert.
Das Problem des Abzählens kann sich aber zuweilen sehr schwierig gestalten. Mit diesem Teil der Wahrscheinlichkeitsrechnung, der unter das Stichwort Kombinatorik fällt,
werden wir uns in diesem Kapitel anhand einiger typischer Problemstellungen kurz beschäftigen.
4.1
Kombinatorik
Die Kombinatorik liefert wichtige Abzählmethoden zum Berechnen von Wahrscheinlichkeiten bei Laplace-Experimenten. Sie lassen sich in sehr anschaulicher Weise anhand des
Urnenmodells oder des Schubladenmodells einführen.
Diese modelle stellen einen Zwischenschritt auf dem Weg vom konkreten Zufallsexperiment zu seiner Beschreibung als Wahrscheinlichkeitsraum dar. Es sind fiktive Experimente, die die wesentlichen Zufallselemente eines konkreten Vorgangs – evtl. auch nur
angenähert – beschreiben.
4.1.1
Zwei äquivalente Sprechweisen
❶ Urnenmodell, Stichprobensprechweise:
Aus einer Urne mit n unterscheidbaren8 (z.B. verschiedenfarbigen) Kugeln werden
zufällig k Kugeln gezogen. Dabei kann das Ziehen mit oder ohne Zurücklegen erfolgen, und die Reihenfolge eine oder keine Rolle spielen. Die Fragestellung lautet
jetzt allgemein: Auf wieviele verschiedene Arten lassen sich k Kugel ziehen?
In der Statistik wird solche zufällige Entnahme von k Kugeln als Stichprobe vom
Umfang k bezeichnet. Sie heißt geordnet, wenn die Reihenfolge, in der die Stichprobenelemente (hier: Kugeln) gezogen werden, berücksichtigt wird. Spiel die Reihenfolge jedoch keine Rolle, so liegt eine ungeordnete Stichprobe vor.
8
Die Kugel müssen unterscheidbar sein, um festzustellen zu können, ob jede der Kugeln beim Ziehen
die gleiche Chance hat (Laplace-Experiment).
22
❷ Schubladenmodell, Zuordnungssprechweise:
In dem Modell werden k Objekte zufällig auf n Schubladen verteilt. Dabei sind
die Objekte entweder unterscheidbar oder nicht unterscheidbar, und die Schubladen
dürfen einfach oder mehrfach besetzt werden.
Urnen- und Schubladenmodell sind äquivalent:
4.1.2
Urnenmodell
Schubladenmodell
mit / ohne Zurücklegen
mit / ohne Mehrfachbesetzung
in / ohne Reihenfolge
unterscheidbare / ununterscheidbare Objekte
Produktregel der Kombinatorik
Bei einem k-stufigen Experiment habe der Ausgang einer Stufe keinen Einfluss auf die Anzahl der möglichen Ausgänge bei späteren Stufen. Haben die einzelnen Stufen n1 , . . . , nk
Ausgänge, so hat das Gesamtexperiment n1 · . . . · nk Ausgänge.
Die Produktregel ist wichtig bei der Beschreibung der vier kombinatorischen Grundsituationen.
4.1.3
Die vier kombinatorischen Grundsituationen
❶ Variation (geordnete Stichprobe) k-ter Ordnung mit Wiederholung
Aus einer Urne mit n verschiedenen Kugeln (Objekten) werden nacheinander k
Kugeln entnommen und in der Reihenfolge ihrer Ziehung angeordnet, dabei die
Ziehung der Kugeln mit Zurücklegen erfolgt, d.h. eine Kugel mehrmals verwendet
werden darf.
Es gibt dann genau
k
Vw (n, k) = n
| · n · n{z· . . . · n} = n
k−mal
verschiedene Variationen k-ter Ordnung mit Wiederholung, wobei auch k > n sein
darf.
Beispiel 4.3. (aus einem älteren Stochastikbuch):
Herr Meier will seinen ungezogenen Sohn mit 10 Ohrfeigen bestrafen. Auf wie viele
Arten kann er das tun, wenn er bei jedem Schlag zwei Möglichkeiten hat (rechts
oder links)?
Es gibt 210 = 1024 Möglichkeiten.
❷ Variation (geordnete Stichprobe) k-ter Ordnung ohne Wiederholung
Die Ziehung der k Kugeln (Objekten) erfolgt mit Berücksichtigung der Reihenfolge,
aber diesmal ohne Zurücklegen. Jede Kugel kann also höchstens einmal gezogen
23
werden und scheidet somit für alle weiteren Ziehungen aus.
Die Anzahl der Variationen k-ter Ordnung ohne Wiederholung beträgt dann
V (n, k) =
n!
n
· (n − 1) · (n − 2) · . . . · (n − k + 1) =
,
|{z}
|
{z
}
(n − k)!
1. Ziehung
wobei k ≤ n.
k−te Ziehung
Spezialfall k = n: Permutation
Jede mögliche Anordnung von n voneinander verschiedenen Kugeln (Objekten) heißt
eine Permutation der n Kugeln. Die Anzahl der Permutationen ist gleich
P (n) := n!.
Beispiel 4.4. Herr Meier will seine 5 Kinder in einer Reihe anordnen für eine
Gruppenaufnahme.
Es gibt 5! = 5 · 4 · 3 · 2 · 1 = 120 Möglichkeiten.
❸ Kombination (ungeordnete Stichprobe) k-ter Ordnung ohne Wiederholung
Aus einer Urne mit n verschiedenen Kugeln (Objekten) werden k Kugeln ohne
Zurücklegen entnommen, wobei die Reihenfolge der Ziehung unberücksichtigt bleibt.
Jede Kugel kann also höchstens einmal gezogen werden und scheidet somit nach erfolgter Ziehung automatisch für alle weiteren Ziehungen aus.
Die Anzahl der Kombinationen k-ter Ordnung ohne Wiederholung kann man genauso wie in dem vorherigen Fall berechnen, jedoch müssen die k! Permutationen
der k gezogenen Kugeln miteinander identifiziert werden:
V (n, k)
n!
n
=
=
,
k ≤ n.
C(n, k) =
k!
(n − k)! · k!
k
Beispiel 4.5. Beim Lottoschein gibt es
49
49 · 48 · 47 · 46 · 45 · 44
= 13 983 816
=
1·2·3·4·5·6
6
Möglichkeiten, 6 der 49 Zahlen anzukreuzen. Die Wahrscheinlichkeit, 6 Richtige zu
tippen, ist daher
1
≈ 7 · 10−8 .
13 983 816
❹ Kombination (ungeordnete Stichprobe) k-ter Ordnung mit Wiederholung
Die Ziehung der k Kugeln (Objekten) erfolgt ohne Berücksichtigung der Reihenfolge,
aber diesmal mit Zurücklegen. Jede Kugel kann also mehrmals gezogen werden.
In diesem Fall ist das Schubladenmodell hilfreich: Es sollen k nicht unterscheidbare
Objekte in n Schubladen verstaut werden, wobei Mehrfachbesetzung möglich ist:
24
◦|{z}
◦◦
1. Schublade
◦
|{z}
... ...
2. Schublade
n Schubladen
◦◦
|{z}
n−te Schublade
! n − 1 Trennungsstriche
Der Gesamtzustand wird beschrieben durch die Reihenfolge von k Objekten und
n − 1 Trennungsstrichen, wobei, wie im vorgerigen Fall, jedoch müssen die k! Permutationen der k gezogenen Kugeln und die (n − 1)! Permutationen der n − 1 Trennungsstriche miteinander (durch die Division durch k!(n − 1)!) identifiziert werden.
Daher gibt es genau
k+n−1
k+n−1
(k + n − 1)!
=
=
Cw (n, k) =
k!(n − 1)!
k
n−1
verschiedene Kombinationen k-ter Ordnung mit Wiederholung, wobei auch k > n
sein kann.
Beispiel 4.6. Auf wie viele Arten können 60 Parlamentssitze auf 3 Parteien verteilt
werden?
In dem Beispiel ist k = 60 und n = 3, daher gibt es
60 + 3 − 1
62
62 · 61
= 1891
=
=
60
2
2·1
Möglichkeiten.
Zusammenstellung
Kombinationen
k-ter Ordnung
(Mengen)
Variationen
k-ter Ordnung
(Folgen)
ohne Wiederholung
mit Wiederholung
n
C(n, k) =
k
n+k−1
Cw (n, k) =
k
ungeordnete
Stichprobe
Vw (n, k) = nk
geordnete
Stichprobe
V (n, k) =
n!
(n − k)!
Ziehung ohne
Zurücklegen
4.1.4
Ziehung mit
Zurücklegen
Lotto Sechs aus Neunundvierzig”
”
Auf einem Lottoschein werden auf einem Zahlenfeld 6 Zahlen angekreuzt. Bei der öffentlichen Ziehung werden aus einer Trommel sechs Kugeln zufällig gezogen und die auf den
Kugeln stehenden Zahlen notiert. Dann zählt man, wieviele der angekreuzten Zahlen mit
25
den gezogenen übereinstimmen. Von den weiteren Varianten wie der Zufallszahl sehen wir
hier zunachst einmal ab. Bezogen auf dieses eine Zahlenfeld lässt sich dieser Vorgang auf
das folgende fiktive Experiment reduzieren:
In einer Urne befinden sich 49 Kugeln, 43 davon weiß und 6 schwarz. Letztere entsprechen
den auf dem Zahlenfeld angekreuzten Zahlen. Aus dieser Urne werden zufällig sechs Kugeln gezogen und die Höhe des Gewinns hängt davon ab, wieviele schwarze Kugeln sich
unter den sechs gezogenen befinden.
Um in solchen Situationen Wahrscheinlichkeiten zu berechnen, benötigt man einen Wahrscheinlichkeitsraum für das folgende Zufallsexperiment:
Beispiel 4.7. Aus einer Urne mit s schwarzen und n − s weißen Kugeln werden zufällig
k Kugeln ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge gezogen.
Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln S schwarze
befinden?
Das Eigenschaftswort zufällig soll dabei andeuten, dass es sich um ein Laplace-Experiment handeln soll. Die Berechnung von Wahrscheinlichkeiten bei Laplace-Experimenten
besteht im Abzählen der Elemente der Ergebnismenge und der interessierenden Ereignis
AkS : Unter gezogenen k Kugeln befinden sich genau S schwarze”.
”
Die Ergebnismenge besteht aus allen k-elementigen Teilmengen der n-elementigen Menge:
Ωnk := {{z1 , z2 , . . . , zk },
zi = 1, 2, . . . , n und zi paarweise verschieden} .
Wir haben hier mit einer Kombination k-ter Ordnung ohne Wiederholung zu tun. Wie
wir schonwissen, für die Entnahme von k Elementen aus einer Menge von n Elementen
gibt es nk Möglichkeiten, d.h.
n
n
.
|Ωk | =
k
Für die Auswahl von S-elementigen Mengen aus s schwarzen Kuglen gibt es Ss und für
n−s
die Auswahl von (k − S)-elementigen Mengen aus (n − s) weißen Kugeln gibt es k−S
Möglichkeiten. Damit ergeben sich die günstigen Möglichkeiten als der Produkt der beiden
letzten Binomialkoeffizienten
s
n−s
|AkS | =
·
S
k−S
und wir erhalten
P (AkS ) =
s
S
·
n−s
k−S
n
k
.
Die Ereignisse AkS sind disjunkt und aus der Additivität der Wahrscheinlichkeitverteilung
ergibt sich damit die folgende einprägsame Additionstheorem für Binomialkoeffizienten
k X
s
n−s
n
·
=
.
S
k
−
S
k
S=0
Später nutzen wir diese Formeln bei der hypergeometrischen Verteilung, die z.B. in der
Qualitätskontrolle eine Rolle spielt.
26
Als Anwendung von dem Beispiel berechnen wir die Wahrscheinlichkeiten, beim Lotto 6
”
aus 49” S = 0, 1, . . . , 6 Richtige” zu erhalten.
”
Bei der Ziehung befinden sich in einer Trommel n = 49 durchnummerierte Kugeln, von
denen k = 6 ohne Zurücklegen gezogen werden. Die s = 6 Kugeln, die die von uns auf
dem Lottoschein angekreuzten Zahlen tragen, denken wir uns schwarz, die übrigen 43
weiß. Die Wahrscheinlichkeit für S Richtige” ist dann gegeben durch
”
6
43
·
pS = S 496−S
6
was mit
die folgenden Werte ergibt:
49
= 13 983 816
6
p0
p1
p2
p3
p4
p5
p6
=
=
=
=
=
=
=
0, 435964976,
0, 413019450,
0, 132378029,
0, 017650404,
0, 000968620,
0, 000018450,
0, 000000072.
Beispiel 4.8. Aus einer Urne mit s schwarzen und n − s weißen Kugeln werden zufällig
k Kugeln mit Zurücklegen und mit Berücksichtigung der Reihenfolge gezogen.
Wie groß ist die Wahrscheinlichkeit, dass sich unter den gezogenen Kugeln S schwarze
befinden?
In der Übung!
4.1.5
Galton-Brett
Ein Galton-Brett besteht aus einer schräg gestellten Platte, in die Rinnen eingefräst sind. Eine Kugel wird in die Startrinne am oberen Rand gelegt
und rollt nach unten. Die unterschiedlichen Ergebnisse kommen dadurch Zustande, dass die Kugel
an den Verzweigungen der Rinnen zufällig nach
links oder rechts springt. Wenn man die Spitzen
der Verzweigungen durch Punkte repräsentiert, ergibt sich das in Abbildung dargestellte Schema.
Zu n(= 5) Punktreihen gibt es n + 1(= 6) Fächer,
in die die Kugel fallen kann und die wir von 0 bis
n von links nach rechts durchnummerieren.
Start
0
1
2
3
4
5
Schema des Galtons-Bretts
Die verschiedenen möglichen Wege, die die Kugel auf diesem Brett durchlaufen kann,
lassen sich durch die Sprungrichtungen der Kugel auf den n Reihen beschreiben. Jedem
27
Weg entspricht ein Binärvektor δ = (δ1 , δ2 , . . . , δn ), wobei δi = 0 bzw. = 1, wenn die
Kugel auf der i-ten Reihe nach links bzw. nach rechts springt. Der Beispielweg auf der
Abbildung kann man also durch den Vektor δ = (1, 0, 1, 1, 0) beschreiben.
Bei einem regulär gebauten Galton-Brett kann man davon ausgehen, dass auf jeder Reihe
Sprünge nach rechts und nach links gleich möglich sind und weiter, dass jede Kombination
von Sprüngen gleich möglich ist, so dass
Ωn = {δ = (δ1 , δ2 , . . . , δn ) :
δi ∈ {0, 1}}
eine geeignete Ergebnismenge ist, die bekanntermaßen |Ωn | = 2n Elemente besitzt.
Wie berechnet man unter der Annahme, dass wir ein Laplace-Experiment vor uns haben,
die Wahrscheinlichkeit des Ereignisses
Ank :
”
die Kugel fällt in das Fach Nr. k”?
Anhand der Abbildung überzeugt man sich leicht, dass die Kugel beim n-reihigen GaltonBrett in das Fach k fällt, wenn sie bei ihren n Sprüngen auf dem Weg nach unten genau
k-mal nach rechts und (n − k)-mal nach links springt, wobei es gleichgültig ist, in welcher
Reihenfolge diese Sprünge erfolgen. In der Ergebnismenge n wird dieses Ereignis durch die
Menge aller Binärvektoren repräsentiert, die genau k Einsen (und folglich n − k Nullen)
enthalten.
(
)
n
X
Ank = δ = (δ1 , δ2 , . . . , δn ) : δi ∈ {0, 1} und
δi = k
i=1
Die Anzahl der Elemente dieser Menge ist gleich der Anzahl aller k-ter Kombinationen
mit Wiederholung
n
n
|Ak | =
.
k
Die Wahrscheinlichkeit, dass bei einem regulären Galton-Brett die Kugel im Fach Nummer
k landet, ist somit durch die Formel
n
P (Ank ) =
k
2n
gegeben.
Die Binomialkoeffizienten nk kann man leicht rekursiv berechnen mit dem folgenden
Berechnungsschema, dem sog. Pascalschen Dreieck (B. Pascal, 1623–1662). Jede Zahl ist
die Summe der beiden darüberstehenden Zahlen.
n=0
n=1
n=2
n=3
n=4
n=5
n=6
1
1
1
1
1
1
1
2
3
4
5
6
1
6
10
15
28
1
3
1
4
10
20
1
5
15
1
6
1
5
Bedingte Wahrscheinlichkeiten
Zur mathematischen Präzisierung des etwas vagen Begriffs der unabhängigen Durchführung von Zufallsexperimenten benötigt man eine Größe, die anzeigt, welchen Einfluss das
Eintreten eines Ereignisses auf das Eintrittsverhalten eines anderen hat. Diese Größe heißt
die bedingte Wahrscheinlichkeit. Um die nachfolgende Definition zu begründen und zu veranschaulichen, wie die bedingte Wahrscheinlichkeit bei konkreten Zufallsexperimenten zu
interpretieren ist, stellen wir uns die fiktive n-fache Durchführung eines Zufallsexperiments
vor, bei dem zwei Ereignisse A und B beobachtet werden. Die bedingte relative Häufigkeit
hn (A|B) des Ereignisses A unter der Bedingung B sei dabei die relative Häufigkeit von
A auf der Teilversuchsreihe der Experimente unter den n durchgeführten, bei denen das
Ergebnis B eingetreten ist. Das heisst, nur diese Versuchsausgänge eine Rolle spielen, die
zum Ereignis B gehören.
Wenn diese bedingte relative Häufigkeit von der relativen Häufigkeit hn (A) von A bezogen auf alle Durchführungen stark abweicht, ist anzunehmen, dass das Eintreten des
Ereignisses B einen gewissen Einfluss auf dasjenige von A hat, dass also die Ereignisse A
und B bezüglich ihres stochastischen Verhaltens voneinander abhängig sind.
Die Teilversuchsreihe, auf der das Ereignis B eingetreten ist, hat die Länge Hn (B) und
die Anzahl der Experimente unter diesen Hn (B), bei denen das Ereignis A eingetreten ist,
ist gleich der Anzahl Hn (A ∩ B) der Experimente unter den n insgesamt durchgeführten,
die sich durch das gleichzeitige Eintreten von A und B auszeichnen. Die Formel für die
bedingte relative Häufigkeit lautet daher hn (A|B) = Hn (A ∩ B)/Hn (B). Dividiert man
Zähler und Nenner dieses Bruchs durch die Zahl n, ergibt sich die Formel
hn (A|B) =
hn (A ∩ B)
hn (B)
die sich durch das Ersetzen des Symbols hn durch P in ein wahrscheinlichkeitstheoretisches
Äquivalent umwandeln lässt.
Definition 5.1. Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈ A zwei Ereignisse, wobei P (B) > 0. Die Wahrscheinlichkeit für das Eintreten des Ereignisses A unter
der Bedingung (Voraussetzung, Hypothese), dass das Ereignis B bereits eingetreten ist,
ist durch die Gleichung
P (A ∩ B)
P (A|B) =
(5.7)
P (B)
gegeben und heißt die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Bei festgehaltenem B erfüllt – wie man sich leicht überzeugt – die Funktion
A 7−→ P (A|B)
die Axiome von Kolmogoroff (s. Def. 3.3) und ist damit eine neue Wahrscheinlichkeitsverteilung auf der Ereignisalgebra A.
29
Beispiel 5.2. Ein Krebstest ist mit 96%-iger Sicherheit positiv, falls der Patient Krebs
hat, mit 94%-iger Sicherheit negativ, falls er keinen Krebs hat. Bei einem Patienten, in
dessen Altersgruppe 0.5% aller Personen Krebs haben, verläuft der Test positiv. Wie groß
ist die Wahrscheinlichkeit, dass er tatsächlich krank ist?
Zur Lösung denken wir uns die Altersgruppe des untersuchten Patienten mit {1, 2, . . . , n}
numeriert. Bei zufälliger Auswahl einer Person ist dann jeder Person die Wahrscheinlichkeit n1 zugeordnet (Laplace-Experiment).
Ist K die Menge der Kranken und G die der Gesunden, so soll also |K| ≈ 0.005 n und
|G| ≈ 0.995 n sein. Ist T die Teilmenge der Personen, bei denen das Test (im Fall der
Anwendung) positiv ist, so soll ferner |K ∩ T | ≈ 0.96 · |K| und |G ∩ T | ≈ 0.06 · |G| gelten.
Also setzen wir
P (K) = 0.005,
P (G) = 0.995,
P (K ∩ T ) = 0.96 · 0.005,
P (G ∩ T ) = 0.06 · 0.995
und weiter
P (T ) = P (K ∩ T ) + P (G ∩ T ) = 0.005 · 0.96 + 0.995 · 0.06,
da T = (K ∩ T ) ∪ (G ∩ T ) und die Mengen K ∩ T und G ∩ T disjunkt sind.
Dann die Wahrscheinlichkeit, dass der Patient Krebs hat, unter Bedingung, dass Test bei
ihm positiv war, ist gleich
P (K|T ) =
P (K ∩ T )
0.005 · 0.96
=
= 0.074.
P (T )
0.005 · 0.96 + 0.995 · 0.06
Der Patient kann also noch relativ beruhigt sein.
Schlussfolgerung: Um eine seltene Krankheit zuverlässig zu erkennen, darf ein Test nur
sehr wenige false positives” haben.
”
5.1
Rechenregeln
Multipliziert man die Gleichung (5.7) mit P (B), so erhält man
Satz 5.3 (Multiplikationsatz). Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und A, B ∈
A zwei Ereignisse. Die Wahrscheinlichkeit für das gleichzeitige Eintreten der Ereignisse A
und B ist
P (A ∩ B) = P (A|B) · P (B)
(5.8)
Bemerkung. Im Fall P (B) = 0 definiert man gelegentlich P (A|B) := 0 oder auch
P (A|B) := unbestimmt”. In beiden Fällen gilt die Formel 5.8.
”
Durch zweimalige Anwendung von (5.8) ergibt sich weiter
P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C) = P (A|B ∩ C) · P (B|C) · P (C)
30
(5.9)
mit offensichtlicher Erweiterung auf den Durchschnitt einer beliebigen endlichen Anzahl
von Ereignissen:
P (A1 ∩ . . . ∩ An ) = P (An |A1 ∩ . . . ∩ An−1 ) · . . . · P (A3 |A1 ∩ A2 ) · P (A3 |A1 ) · P (A1 ) ,
wobei A1 , . . . , An ⊆ Ω.
Man benutzt diese Gleichungen häufig zur Berechnung von Wahrscheinlichkeiten bei Zufallsexperimenten, die in mehreren Schritten ablaufen.
Beispiel 5.4. Betrachten wir eine Urne, die s schwarze und n − s weiße Kugeln enthält
und aus der zufällig 3 Kugeln ohne Zurücklegen der Reihe nach gezogen werden. Wie groß
ist die Wahrscheinlichkeit, dass alle drei gezogenen Kugeln schwarz sind?
Das Ereignis Alle drei gezogenen Kugeln sind schwarz” ist von der Form A ∩ B ∩ C,
”
wobei C, B bzw. A die Ereignisse Erste Kugel ist schwarz”, Zweite Kugel ist schwarz”
”
”
bzw. Dritte Kugel ist schwarz” repräsentieren.
”
Zur Berechnung der drei Faktoren auf der rechten Seite von (5.9) erspart man sich in
den meisten derartigen Fällen die Beschreibung des Experiments durch einen passenden Wahrscheinlichkeitsraum und interpretiert die Wahrscheinlichkeitsverteilungen P (.),
P (.|B) und P (.|B ∩C) als Wahrscheinlichkeitsgesetze dreier konkreter Zufallsexperimente
nach dem folgenden Muster:
❶ Bei P (C) hat man es offensichtlich mit einer Urne mit n Kugeln zu tun, aus der
eine Kugel zufällig gezogen wird. Nach Laplace ist die Wahrscheinlichkeit, dass diese
schwarz ist, gleich P (C) = s/n.
❷ Unter der Bedingung, dass das Ereignis C eingetreten ist, enthält die Urne nur noch
n − 1 Kugeln, von denen s − 1 schwarz sind. P (.|C) beschreibt das Ziehen einer
Kugel aus dieser Urne. Somit ist P (B|C) = (s − 1)/(n − 1).
❸ Sind beide Ereignisse B und C eingetreten, enthält die Urne nur noch n − 2 Kugeln
mit s − 2 schwarzen. Dementsprechend ist P (A|B ∩ C) = (s − 2)/(n − 2).
Insgesamt ergibt sich auf diese Weise
P (A ∩ B ∩ C) =
s(s − 1)(s − 2)
.
n(n − 1)(n − 2)
Beispiel 5.5. Wie groß ist die Wahrscheinlichkeit, beim 6-maligen Werfen eines regulären
Würfels 6 verschiedene Augenzahlen zu werfen?
Das Ereignis Alle 6 geworfene Augenzahlen sind verschieden” ist von der Form
”
A1 ∩ A2 ∩ A3 ∩ A4 ∩ A5 ∩ A6 ,
wobei A1 , A2 . . . , A6 folgende Ereignisse repräsentieren:
31
A1 :
A2 :
..
.
irgend ein Ergebnis für 1. Wurf,
ein vom 1. Ergebnis verschiedenes Ergebnis für 2. Wurf,
A6 :
ein von A1 , . . . , A5 verschiedenes Ergebnis für 6. Wurf.
Daraus folgt, dass
4
1
5
P (A2 |A1 ) = , P (A3 |A2 ∩ A1 ) = , . . . , P (A6 |A1 ∩ . . . ∩ A5 ) = .
6
6
6
Insgesamt ergibt sich auf diese Weise
P (A1 ) = 1,
P (A1 ∩ . . . ∩ A6 ) = P (A6 |A1 ∩ . . . ∩ A5 ) · . . . · P (A3 |A1 ∩ A2 ) · P (A3 |A1 ) · P (A1 ) =
1
4 5
6!
=
· . . . · · · 1 = 6 ≈ 0.015.
6
6 6
6
Bei Zufallsexperimenten, deren Struktur nicht ganz so einfach zu durchschauen ist wie dem
obigen, können bei dieser Vorgehensweise aber leicht Fehlinterpretationen vorkommen wie
bei dem folgenden Bertrandschen Paradoxon:
Beispiel 5.6. Aus drei Kästen, von denen einer zwei goldene Münzen, einer zwei silberne
Münzen und einer eine goldene und eine silberne Münze enthält, wird zufällig einer ausgewählt und eine Münze entnommen.
Wie groß ist – unter der Bedingung, dass man dabei eine goldene Münze gezogen hat –
die Wahrscheinlichkeit, dass die im ausgewählten Kasten verbliebene Münze ebenfalls aus
Gold ist?
Seien A, B bzw. C die Ereignisse, dass man den Kasten mit zwei goldenen, einer silbernen
und einer goldenen bzw. zwei silbernen Münzen auswählt, und G1 bzw. G2 die Ereignisse,
dass die gezogene bzw. verbleibende Münze aus Gold ist. Dann ist die bedingte Wahrscheinlichkeit P (G2 |G1 ) zu berechnen.
Auf den ersten Blick ist man geneigt, die bedingte Wahrscheinlichkeit P (.|G1) dahingehend zu interpretieren, dass man einen von den beiden Kästen A und B auswählt. Das
Ereignis G2 entspricht dann der Auswahl des Kastens A und hat somit die Wahrscheinlichkeit P (G2 |G1 ) = 1/2.
Eine überschlägige Berechnung der bedingten relativen Häufigkeit zeigt, dass diese Argumentation nicht korrekt sein kann. Nimmt man an, dass bei N Durchführungen dieses
Experiments jeder der drei Kästen gleich oft gewählt wird und in der Hälfte der N/3
Falle, in denen der Kasten B gewählt wurde, zuerst die goldene Münze gezogen wird, tritt
in N/3 + N/6 Durchführungen das Ereignis G1 ein, wobei in N/3 Fällen (Auswahl von
A) gleichzeitig auch G2 eintritt. Die bedingte relative Häufigkeit hN (G2 |G1 ) ist damit
gleich 2/3. Bei der obigen Argumentation wurde offensichtlich nicht berücksichtigt, dass
die Auswahl des Kastens B nicht automatisch das Ziehen der goldenen Münze nach sich
zieht.
Der korrekte Lösungsweg führt über einen passenden Wahrscheinlichkeitsraum: Betrachtet man als Ergebnisse die Paare ω = (f1 , f2 ), wo f1 die Farbe der gezogenen und f2 die
Farbe der verbleibenden Münze ist, so erhält man den Ergebnisraum
Ω = {(g, g), (g, s), (s, g), (s, s)}
32
und die relevanten Ereignisse werden durch die Mengen
A = {(g, g)} ,
B = {(g, s), (s, g)} ,
C = {(s, s)}
und
G1 = {(g, g), (g, s)} ,
G2 = {(g, g), (s, g)}
repräsentiert.
Nach Aufgabenstellung haben die drei Ereignisse A, B und C die gleiche Wahrscheinlichkeit: P (A) = P (B) = P (C) = p. Wegen A ∪ B ∪ C = Ω (die Mengen sind disjunkt) muss
nach unseren Rechenregeln für Wahrscheinlichkeiten p = 1/3 sein. Geht man weiter davon aus, dass aus dem Kasten B mit gleicher Wahrscheinlichkeit die goldene oder silberne
Münze gezogen wird, ist P {(g, s)} = P {(s, g)} = 1/6. Damit erhält man
P (G2 |G1 ) =
P (G1 ∩ G2 )
P {(g, g)}
2
=
= .
P (G1 )
P {(g, g)} + P {(g, s)}
3
Weitere Regeln: Aus
P (A|B) · P (B) = P (A ∩ B) = P (B ∩ A) = P (B|A) · P (A)
erhält man für den Fall, dass P (A) und P (B) beide positiv sind, die Beziehung
P (B|A) =
P (A|B) · P (B)
.
P (A)
(5.10)
Bemerkung. In der obigen Formel wird P (B|A) aus P (A|B) berechnet, d.h. Ursache
und Wirkung kehren sich um. Eine typische Anwendung besteht darin, dass man eine
Wirkung misst und nach der wahrscheinlichsten Ursache fragt (inverses Problem).
5.2
Partitionen
Sei J entweder die endliche Indexmenge {1, 2, . . . , n} mit einer natürlichen Zahl n oder
die Menge aller natürlichen Zahlen.
Definition 5.7. Eine Menge {Bj : j ∈ J} von Ereignissen Bj ∈ A heißt eine Partition
von Ω, wenn die Bj paarweise disjunkt sind und außerdem
[
Bj = Ω
j∈J
gilt.
Ist A ∈ A ein beliebiges Ereignis und {Bj : j ∈ J} eine Partition von Ω, so ist
[
[
A = A∩Ω = A∩
Bj =
(A ∩ Bj ) .
j∈J
33
j∈J
Anwendung von P liefert
P (A) =
X
j∈J
P (A ∩ Bj)
und zusammen mit (5.8) erhält man die Formel von der totalen Wahrscheinlichkeit
P (A) =
X
j∈J
P (A|Bj ) · P (Bj ),
(5.11)
die bei der Konstruktion von Wahrscheinlichkeitsverteilungen aus einfachen Bausteinen
eine wesentliche Rolle spielt.
Veranschaulichung.
Die Formel von der totalen Wahrscheinlichkeit läßt sich mit Hilfe des sog. Ereignisbaumes
(Baumdiagrammes) veranschaulichen.
(B
)
n
n
P
P
(A
|B
)
Er besteht aus einer Wurzel W (Ausgangspunkt), mehreren Verzweigungspunkten und einer Vielzahl von Zweigen. Die Verzweigungspunkte B1 , . . . , Bn charakterisieren dabei die möglichen
Zwischenergenisse nach der 1. Stufe des ZufallsB1 P (A|
)
experiments, die von diesen Verzweigungspunkten
1
B
B
P(
1)
ausgehenden Zweige führen zu den möglichen ErW P (B2 ) B2 P (A|B2 ) A
gebnissen der nachfolgenden 2. Stufe.
..
Die Wahrscheinlichkeit eines bestimmten Ereignis.
..
ses schreibt man an den betreffenden Zweig. So ist
.
z.B. P (B1 ) die Wahrscheinlichkeit des ZwischenBn
ergebnisses B1 . Zu beachten ist, dass es sich bei der
2. Stufe um bedingte Wahrscheinlichkeiten handelt.
Die Wahrscheinlichkeiten längst eines Pfades werden miteinander multipliziert. Führen
mehrere Pfade zum gleichen Endergebnis, so addieren sich ihre Wahrscheinlichkeiten. Die
Gesamtwahrscheinlichkeit von dem Endergebnis A ist daher gleich
P (A) =
n
X
i=1
P (Bi ) · P (A|Bi ) .
Bemerkung. Im Beispiel 5.2 haben wir im Nenner bereits den Satz von der totalen
Wahrscheinlichkeit verwendet.
5.3
Die Formel von Bayes
Die Kombination von (5.10) und (5.11) ergibt die wohl bekannteste Formel für die bedingte
Wahrscheinlichkeiten (auch Umkehr-Formel genannt), die dazu dient, aus eingetretenen
Ereignissen (hier A) Schlüsse auf nicht beobachtete Ereignisse (hier Bk ) zu ziehen.
34
Satz 5.8 (Formel von Bayes). Sei A ∈ A ein beliebiges Ereignis mit P (A) > 0 und sei
{Bj : j ∈ J} eine Partition von Ω. Dann gilt
P (A|Bk ) · P (Bk )
P (Bk |A) = P
P (A|Bj ) · P (Bj )
(5.12)
j∈J
Anwendungsbeispiele:
❶ Ein Arzt beobachtet bei einem Patienten ein Symptom A. Es kann von n verschiedenen Krankheiten Bk , k = 1, . . . , n herrühren. Um die wahrscheinlichste Ursache
zu finden, muss man also P (Bk |A) abschätzen.
❷ Aus einem verrauschten Bild will man das wahrscheinlichste unverrauschte Bild
rekonstruieren.
❸ In der Computertomographie schickt man Röntgenstrahlung in verschiedenen Richtungen durch den Patienten und misst die durchgedrungene Intensität. Aus diesen
Auswirkungen versucht man, Rückschlüsse auf die Ursache (Gewebe, Knochen, Tumor, etc.) zu ziehen.
Beispiel 5.9. Um einen binären Nachrichtenkanal robuster gegenüber Störungen zu machen, sendet man die Bitfolge 0000000 statt 0 und 1111111 statt 1. Störungen treten in
20% aller Fälle auf, und die Wahrscheinlichkeit, dass die Bitfolge 0000000 gesendet wurde,
sei 0.1.
Es wird die Bitfolge 0100110 empfangen. Wie groß ist die Wahrscheinlichkeit, dass 0000000
gesendet wurde?
Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang einer Bitfolge”
”
wählen wir
Ω = (bg , be ) : bg ∈ {0000000, 1111111}, be ∈ {0, 1}7 ,
wobei das Ergebnis (bg , be ) zu lesen ist als die Bitfolge bg wurde gesendet und die Bitfolge
”
be empfangen”. Die σ-Algebra A sei die Menge aller Teilmengen von Ω.
Von besonderem Interesse in diesem Zusammenhang sind die Ereignisse
B0 :
B1 :
A:
Die Bitfolge 0000000 wurde gesendet,
Die Bitfolge 1111111 wurde gesendet,
Die Bitfolge 0100110 wurde empfangen.
Die a priori-Wahrscheinlichkeiten P (Bk ) der (disjunkten) Ereignisse Bk , k = 0, 1,
P (B0 ) = 0.1,
P (B1 ) = 0.9
und die bedingte Übertragungswahrscheinlichkeiten (Störungen)
P (A|B0 ) = 0.23 · 0.84 ,
P (A|B1 ) = 0.24 · 0.83
35
sind bekannt.
Aus der Bayes’schen Formel ergibt sich
P (B0 |A) =
P (A|B0 ) · P (B0 )
=
P (A|B0 ) · P (B0 ) + P (A|B1 ) · P (B1 )
0.1 · 0.23 · 0.84
≈ 0.308.
0.1 · 0.23 · 0.84 + 0.9 · 0.24 · 0.83
Man wird den Block also als 1 lesen, obwohl die Mehrzahl der Bits Nullen sind!
=
Die Bayes’sche Formel ist von Bedeutung im Rahmen der statistischen Entscheidungstheorie. Wir wollen dies anhand eines simplen Beispiels erläutern.
Gegeben ist eine Übertragungsstrecke, die Sendebuchstaben a aus einem endlichen Sendealphabet A in Empfangsbuchstaben b aus einem Alphabet B umwandelt, wobei es sich
bei dieser Umwandlung um ein Zufallsexperiment handelt. D.h. in Abhängigkeit von a
werden die verschiedenen Buchstaben b mit unterschiedlichen, von a abhängigen Wahrscheinlichkeiten empfangen. Gesucht ist ein Entscheidungsverfahren D : B → A, das
A ∋ a 7−→
Kanal
7−→ b ∈ B 7−→
D
7−→ a′ ∈ A
Abbildung 1: Übertragungsstrecke
jedem Empfangsbuchstaben b einen vermutlich gesendeten Buchstaben D(b) = a′ ∈ A so
zuordnet, dass die Wahrscheinlichkeit von Entscheidungsfehlern minimiert wird.
Als Ergebnisraum zur Beschreibung des Zufallsexperiments Sendevorgang” wählen wir
”
Ω = {(a, b) : a ∈ A, b ∈ B}, wobei das Ergebnis (a, b) zu lesen ist als a wurde gesendet
”
und b empfangen”. Die σ-Algebra A sei die Menge aller Teilmengen von Ω.
Von besonderem Interesse in diesem Zusammenhang sind die Ereignisse a wurde ge”
sendet”, dem die Menge Ga = {(a, b) : b ∈ B} entspricht, und b wurde empfangen”,
”
repräsentiert durch Eb = {(a, b) : a ∈ A}.
Hinsichtlich der Wahrscheinlichkeitsverteilung P nehmen wir an, dass uns die a priori
Wahrscheinlichkeiten der Sendebuchstaben:
für a ∈ A
pa = P (Ga )
und die bedingten Übertragungswahrscheinlichkeiten
pb|a = P (Eb |Ga )
für a ∈ A und b ∈ B
bekannt sind. Ersteres bedeutet, dass man beispielsweise weiß, in welcher Sprache gesendet
wird, und letzteres erhält man etwa durch Senden von Testsignalen und Bestimmung der
relativen Häufigkeiten.
Aus
P {(a, b)} = P (Ga ∩ Eb ) = P (Eb |Ga ) · P (Ga ) = pb|a · pa
ersieht man, dass durch diese Angaben die Wahrscheinlichkeit P vollständig bestimmt ist.
Die Bedeutung der Bayes’schen Formel ergibt sich aus dem folgenden
36
Satz 5.10. Ein Entscheidungsverfahren D : B → A, welches die Wahrscheinlichkeit von
Entscheidungsfehlern minimiert, ist durch die folgende Vorschrift gegeben:
Für jedes b ∈ B ist als D(b) ein Sendebuchstabe zu wählen, welcher die Funktion
a 7−→ P (Ga |Eb )
maximiert.
Da das Maximum dieser Funktionen nicht unbedingt eindeutig bestimmt sein muss, gibt
es evtl. mehrere optimale Entscheidungsverfahren.
Die bedingten Wahrscheinlichkeiten P (Ga |Eb ) heißen a posteriori Wahrscheinlichkeiten der Sendebuchstaben. Gegenüber den a priori Wahrscheinlichkeiten enthalten
sie zusätzliche Information, nämlich die Tatsache, dass das Ereignis b wurde empfan”
gen” eingetreten ist. Ihre Berechnung aus den a priori Wahrscheinlichkeiten und den
Übertragungswahrscheinlichkeiten erfolgt über die Bayes’sche Formel.
Beweis des Satzes:
Das Ereignis Entscheidungsfehler” bei Verwendung des Verfahrens D wird durch die
”
Menge
FD = {(a, b) ∈ Ω : D(b) 6= a}
beschrieben. Wegen P (FDc ) = 1 − P (FD ) ist Minimierung der Wahrscheinlichkeit von
Entscheidungsfehlern gleichbedeutend mit dem Maximieren der Wahrscheinlichkeit des
Ereignisses korrekte Entscheidung”, gegeben durch die Menge
”
RD = FDc = {(a, b) ∈ Ω : D(b) = a} = {(D(b), b) : b ∈ B} .
Für die Wahrscheinlichkeit dieses Ereignisses gilt
P (RD ) = P {(D(b), b) : b ∈ B} =
=
P
b∈B
P GD(b) ∩ Eb
=
P
b∈B
P
b∈B
P {(D(b), b)} =
P GD(b) |Eb · P (Eb ) .
Um die letzte Summe in Abhängigkeit von D zu maximieren, kann man jeden Summanden
für sich betrachten. Dies bedeutet, dass man – wie oben behauptet – für jedes b ∈ B
den Wert D(b) aus dem Bereich der Sendebuchstaben a so wählen muss, dass P (Ga |Eb )
maximal wird.
Zur zahlenmäßigen Veranschaulichung nehmen wir folgendes
Beispiel 5.11. Drei Jäger schießen auf ein flüchtendes Wildschwein. Jäger 1 schießt dabei
dreimal und Jäger 2 doppelt so oft wie Jäger 3. Nach einiger Zeit ist das Wildschwein
erlegt und es muss geklärt werden, wer der glückliche Schütze ist, bzw. für wen wir uns
als solchen entscheiden, wenn wir außerdem aus Beobachtungen am Schießstand wissen,
dass die Trefferwahrscheinlichkeiten der drei Jäger 0.3, 0.6 bzw. 0.8 sind.
Als Zufallsexperiment wählen wir die zufällige Auswahl einer der Kugeln, die in Richtung
Wildschwein abgefeuert werden. Wenn wir die Flugbahn dieser Kugel in beiden Richtungen verfolgen, kann man die folgenden Ereignisse unterscheiden:
37
Bk :
T :
Die Kugel stammt von Jäger k, k = 1, 2, 3
Die Kugel erlegt das Wildschwein.
Aus den unterschiedlichen Schusshäufigkeiten können wir die a priori-Wahrscheinlichkeiten P (Bk ) der (disjunkten) Ereignisse Bk ableiten:
P (B1 ) = 3p,
P (B2 ) = 2p,
P (B3 ) = p.
Zusammen mit
P (B1 ) + P (B2 ) + P (B3 ) = P (B1 ∪ B2 ∪ B3 ) = P (Ω) = 1
erhält man p =
1
6
und
1
P (B1 ) = ,
2
1
P (B2 ) = ,
3
1
P (B3 ) = .
6
Vom Schießstand kennen wir die bedingten Trefferwahrscheinlichkeiten P (T |Bk ) unter
der Bedingung, dass Jäger k schießt:
P (T |B1 ) = 0.3,
P (T |B2 ) = 0.6,
P (T |B3 ) = 0.8.
Mit diesen Kenntnissen können wir nach der Formel von Bayes die bedingten Wahrscheinlichkeiten P (Bk |T ) dafür berechnen, dass die ausgewählte Kugel von Jäger k stammt
unter der Bedingung, dass sie das Wildschwein erlegt hat:
P (B1 |T ) =
9
,
29
P (B2 |T ) =
12
,
29
P (B3 |T ) =
8
.
29
Mangels genauer kriminaltechnischer Untersuchung müssen wir also davon ausgehen, dass
Jäger 2 das Wildschwein getroffen hat.
38
6
Stochastische Unabhängigkeit
6.1
Stochastische Unabhängigkeit von zwei Ereignissen
Gemäß den Überlegungen eingangs des vorigen Kapitels wird man bei der n-fachen Durchführung eines Zufallsexperiments ein Ereignis A als unabhängig von einem Ereignis B ansehen, wenn die bedingte relative Häufigkeit hn (A|B) etwa gleich der relativen Häufigkeit
hn (A) bezüglich aller Durchführungen ist. Im theoretischen Modell entspricht dies der
Gleichung P (A|B) = P (A). Um die Definition symmetrisch in A und B zu gestalten und
um den Fall P (B) = 0 nicht gesondert behandeln zu müssen, setzt man diese Gleichung
in Formel (5.8) ein und erhält so
Definition 6.1. Zwei Ereignisse A, B in einem Wahrscheinlichkeitsraum (Ω, A, P ) mit
der Eigenschaft P (A ∩ B) = P (A) · P (B) heißen stochastisch unabhängig.
Zusätzlich zur Additionsregel P (A ∪ B) = P (A) + P (B) für disjunkte Ereignisse A und
B haben wir damit auch noch eine Produktregel.
Aber Achtung! Disjunkt” und stochastisch unabhängig” sind komplementäre Begriffe.
”
”
Zwei Ereignisse A und B können im allgemeinen nicht gleichzeitig disjunkt und stochastisch unabhängig sein, denn bei P (A) > 0 und P (B) > 0 folgt aus A ∩ B = Ø, dass
P (A ∩ B) = 0 6= P (A) · P (B) und damit stochastische Abhängigkeit.
Die beiden Begriffe besitzen auch einen unterschiedlichen Stellenwert im Rahmen der
Wahrscheinlichkeitsrechnung. Es ist stets entscheidbar, ob zwei Ereignisse disjunkt sind
oder nicht und im ersteren Fall gilt stets die Additionsregel. Ob aber zwei Ereignisse
stochastisch unabhängig sind oder nicht, hängt von der verwendeten Wahrscheinlichkeitsverteilung ab und damit vom Modellbauer, der entscheidet, ob in einem Zufallsexperiment
einige Ereignisse als unabhängig anzusehen sind oder nicht.
Lemma 6.2. Seien A und B zwei Ereignisse.
❶ Mit A und B sind auch die Paare Ac , B und A, B c und Ac , B c stochastisch unabhängig.
❷ Ist P (A) = 0 oder P (A) = 1, so sind A und B für beliebige Ereignisse B stochastisch
unabhängig.
Beweis:
❶ Aus B = (A ∩ B) ∪ (Ac ∩ B) und der Unabhängigkeit folgt P (B) = P (A) · P (B) +
P (Ac ∩ B) oder P (Ac ∩ B) = (1 − P (A)) · P (B) = P (Ac ) · P (B). Die anderen beiden
Aussagen erhält man in ähnlicher Weise.
❷ Ist P (A) = 0, so ist wegen A ∩ B ⊆ A auch P (A ∩ B) = 0 und es gilt dann stets
P (A ∩ B) = 0 = P (A) · P (B).
Ist P (A) = 1 so ist P (Ac ) = 0, somit Ac und B unabhängig. Der Rest folgt aus
Punkt 1.
39
6.2
Globale stochastische Unabhängigkeit
Bei mehr als zwei Ereignissen A1 , A2 , . . . An reicht es nicht, die stochastische Unabhängigkeit aller Paare Ai , Aj zu fordern. Wie man an Gleichung (5.9) sieht, erhält man eine
Produktregel für die drei Ereignisse A, B und C nur dann, wenn man darüber hinaus
fordert, dass A auch noch von dem Verbundereignis B ∩ C stochastisch unabhängig ist.
Für mehr als zwei Ereignisse benutzt man daher die folgende Definition:
Definition 6.3. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P )
heißen global stochastisch unabhängig, wenn für jeden der Indizes i = 1, 2, . . . , n gilt:
Das Ereignis Ai ist stochastisch unabhängig von allen Verbundereignissen, die man aus
den übrigen Ereignissen Aj mit j 6= i bilden kann.
Zu dieser Definition gibt es zwei äquivalente Formulierungen, die hier nur vorgestellt aber
nicht bewiesen werden, da die Beweise zwar leicht, aber nur mit ziemlichem Schreibaufwand nachvollzogen werden können.
Satz 6.4. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) sind
genau dann global stochastisch unabhängig, wenn für jede Teilmenge {i1 , i2 , . . . , im } ⊂
{1, 2, . . . , n} von Indizes gilt
P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aim ) .
Satz 6.5. Ereignisse A1 , A2 , . . . An aus einem Wahrscheinlichkeitsraum (Ω, A, P ) sind
genau dann global stochastisch unabhängig, wenn für jede Auswahl von Ereignissen Bi
aus den Teil-σ-Algebren Ai = {Ø, Ai , Aci , Ω} von A gilt:
P (B1 ∩ B2 ∩ . . . ∩ Bn ) = P (B1 ) · P (B2 ) · . . . · P (Bn ) .
6.3
Produktexperimente
Ein Produktexperiment soll ein Wahrscheinlichkeitsraum (Ω, A, P ) sein, der die stochastisch unabhängige Durchführung von einzelnen Zufallsexperimenten beschreibt, die durch
Wahrscheinlichkeitsräume (Ω1 , A1, P1 ), (Ω2 , A2 , P2 ),. . . , (Ωn , An , Pn ) repräsentiert werden. Aus dieser Formulierung ergeben sich die folgenden Anforderungen an die Größen Ω,
A und P :
Ergebnismenge: Die Ergebnisse ω ∈ Ω sind einfach Auflistungen der Ergebnisse der
Einzelexperimente.
Ω = {ω = (ω1 , ω2 , . . . , ωn ) : ωi ∈ Ωi } .
Eine Menge Ω mit dieser Struktur bezeichnet man auch als das cartesische Produkt der
Mengen Ωi und schreibt dafür
Ω = Ω1 × Ω2 × . . . × Ωn .
40
Ereignisse: In der Ereignisalgebra sollen auf jeden Fall die Ereignisse der Form Beim
”
k-ten Experiment tritt Ak ∈ Ak ein”. enthalten sein. Diese werden in Ω durch die Mengen
Z (Ak ) = {ω = (ω1 , ω2 , . . . , ωn ) ∈ Ω : ωk ∈ Ak }
repräsentiert. Als σ-Algebra A wählt man daher die kleinste σ-Algebra auf Ω, die alle
diese Mengen enthält. Sie heißt die Produkt-σ-Algebra der Ak und wird mit
A = A1 ⊗ A2 ⊗ . . . ⊗ An
bezeichnet. Insbesondere enthalt sie die Ereignisse
Z (A1 ) ∩ Z (A2 ) ∩ . . . ∩ Z (An ) = A1 × A2 × . . . × An
d.h. die cartesischen Produkte von Ereignissen aus den Einzelexperimenten.
Wahrscheinlichkeit: Die Wahrscheinlichkeitsverteilung P eines Produktexperiments
muss zwei Bedingungen erfüllen:
❶ Die Wahrscheinlichkeitsgesetze der Einzelexperimente müssen erhalten bleiben, d.h.
P (Z (Ak )) = Pk (Ak )
(6.13)
für alle Ereignisse Ak ∈ Ak und alle k.
❷ Für beliebige Ak ∈ Ak müssen die Mengen Z (A1 ) , Z (A2 ) , . . . Z (An ) global stochastisch unabhängig sein. Insbesondere muß also gelten
P (Z (A1 ) ∩ Z (A2 ) ∩ . . . ∩ Z (An )) = P (Z (A1 ))·P (Z (A2 ))·. . .·P (Z (An )) . (6.14)
Die Formeln (6.13) und (6.14) kann man zu
P (A1 × A2 × . . . × An ) = P1 (A1 ) · P2 (A2 ) · . . . · · · Pn (An )
zusammenfassen.
Was die Existenz einer solchen Wahrscheinlichkeitsverteilung betrifft, so zitieren wir –
wieder ohne Beweis – den
Satz 6.6. Es gibt genau eine Wahrscheinlichkeitsverteilung P auf A mit den beiden
obigen Eigenschaften. Diese heißt die Produktwahrscheinlichkeit der Pk und wird mit
P = P1 ⊗ P2 ⊗ . . . Pn
bezeichnet.
41
Der Wahrscheinlichkeitsraum (Ω, A, P ) selbst heißt der Produktraum der (Ωk , Ak , Pk ).
Handelt es sich bei dem Produktexperiment um die n-fache Wiederholung ein und desselben Zufallsexperiments, d.h. ist
(Ωi , Ai, Pi ) = (Ω0 , A0 , P0 )
für alle i = 1, . . . , n, so spricht man von einer Versuchsreihe der Länge n mit dem Experiment (Ω0 , A0 , P0 ).
Ist schließlich (Ω0 , A0, P0 ) ein Bernoulli-Experiment, d.h. Ω0 = {0, 1}, P0 {1} = p, P0 {0} =
q = 1 − p, so nennt man die Versuchsreihe eine Bernoulli-Versuchsreihe der Länge n mit
Erfolgswahrscheinlichkeit p.
In diesem Fall ist Ω = {(δ1 , δ2 , . . . , δn ) : δi ∈ {0, 1}} die Menge der Binärvektoren der
Länge n und wegen
{(δ1 , δ2 , . . . , δn )} = {δ1 } × {δ2 } × . . . × {δn }
ist die Produktwahrscheinlichkeit eines Elementarereignisses gegeben durch
P {(δ1 , δ2 , . . . , δn )} = P0 {δ1 } · P0 {δ2 } · . . . · P0 {δn } = pδ1 +δ2 +...+δn · q n−(δ1 +δ2 +...+δn ) .
Bezeichnet man die Summe der Komponenten eines Binärvektors δ mit |δ|, so lässt sich
die letzte Formel kurz als
P {δ} = p|δ| · q n−|δ|
schreiben.
Die Summe der Erfolge. Mit dem Konzept einer Bernoulli-Versuchsreihe kann man
auch z.B. die Frage beantworten, mit welcher Wahrscheinlichkeit bei einem etwas geneigten Galton-Brett die Kugel in Fächern k = 0, 1, 2, . . . , n landet. Wir fassen dieses GaltonBrett als eine Bernoulli-Versuchsreihe mit Erfolgswahrscheinlichkeit p auf, wobei eine 1
einem Sprung nach rechts entspricht. Das Ereignis Ak , daß die Kugel in Fach k landet, entspricht allen Wegen, die k-mal nach rechts führen bzw. der Menge aller Binärvektoren, die
genau k Einsen enthalten: Ak = {δ : |δ| = k}. Bei allgemeinen Bernoulli-Versuchsreihen
nennt man die Anzahl der Einsen die Summe der Erfolge und Ak ist das Ereignis, dass
man k ErfolgeS
erzielt.
Wegen Ak =
{δ} ist
δ∈Ak
P (Ak ) =
X
δ∈Ak
P {δ} =
X
|δ|=k
p|δ| · q n−|δ| =
X
|δ|=k
pk · q n−k = C(n, k) pk · q n−k ,
wobei C(n, k) die Anzahl der Elemente der Menge {δ : |δ| = k} ist.
Folglich
n k n−k
P (Ak ) =
p ·q .
k
42
7
Diskrete Wahrscheinlichkeitsräume
In diesem und dem folgenden Kapitel befassen wir uns mit der Frage, wie man Wahrscheinlichkeitsverteilungen formelmäßig beschreiben kann, bzw. welche minimale Menge
an Information man über eine Wahrscheinlichkeitsverteilung besitzen muss, um wenigstens
im Prinzip die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können. Dieses Kapitel befasst sich dabei mit endlichen oder abzählbar unendlichen Ergebnismengen,
ab Kapitel ?? werden wir uns mit der Ergebnismenge Ω = Rn beschäftigen.
7.1
Diskrete Wahrscheinlichkeitsräume
Ist die Ergebnismenge Ω abzählbar, dann auch jede Teilmenge A von Ω. Nummeriert
man die (verschiedene) Elemente von A in irgendeiner Weise durch, so erhält man die
Darstellung
[
A = {ω1 , ω2 , . . . , ωn , . . .} = {ω1 } ∪ {ω2 } ∪ . . . ∪ {ωn } ∪ . . . =
{ωk } .
k
Da es bei der Vereinigungsbildung nicht auf die Reihenfolge ankommt, in der die Mengen
{ωk } zusammengefasst werden, benutzen wir die Elemente ω als Summationsindex und
schreiben
[
A=
{ω} .
ω∈A
Sind alle einelementigen Mengen {ω} Elemente der σ-Algebra A, so folgt aus der obigen
Formel einmal, dass jede Teilmenge von Ω aus A oder A = 2Ω ist und zum anderen kann
man die Wahrscheinlichkeit des Ereignisses A nach der Formel
X
X
P (A) =
P {ωk } =
P {ω}
ω∈A
k
berechnen. Da die Summanden alle nichtnegativ sind, kommt es auch hier nicht auf die
Summationsreihenfolge an.
Wie man aus der obigen Formel ersieht, genügt die Kenntnis der Wahrscheinlichkeiten
f (ω) := P {ω} der Elementarereignisse, um die Wahrscheinlichkeit jedes beliebigen Ereignisses berechnen zu können.
Definition 7.1. Ein Wahrscheinlichkeitsraum (Ω, A, P ) mit einer abzählbaren Ergebnismenge Ω und der Ereignisalgebra A = 2Ω heißt ein diskreter Wahrscheinlichkeitsraum.
Die Wahrscheinlichkeitsverteilung P heißt in diesem Fall eine diskrete Wahrscheinlichkeitsverteilung und die Funktion
Ω −→ R
f:
ω 7−→ P {ω}
heißt die Wahrscheinlichkeitsfunktion (Zähldichte, Z-Dichte, diskrete Dichte) von P .
43
P
Mit P {ω} ≥ 0 und P (Ω) = ω∈Ω P {ω} = 1 hat man bereits die beiden Eigenschaften,
die eine Wahrscheinlichkeitsfunktion vollständig charakterisieren:
Satz 7.2. Jede Funktion f : ΩP→ R auf einer abzählbaren Menge Ω mit den Eigenschaften
f (ω) ≥ 0 für alle ω ∈ Ω und ω∈Ω f (ω) = 1 legt durch
P (A) =
X
f (ω)
ω∈A
eine eindeutig bestimmte diskrete Wahrscheinlichkeitsverteilung P auf 2Ω fest.
Dabei wird
P
f (ω) := 0 definiert.
Zum Beweis dieser Aussage sind lediglich die vier
ω∈Ø
Axiome nachzuvollziehen.
Die Wahrscheinlichkeitsverteilung P und die Wahrscheinlichkeitsfunktion f sind einander
umkehrbar eindeutig zugeordnet.
Für jeden endlichen oder abzählbar unendlichen Ergebnisraum Ω kann man also Wahrsceinlichkeitsverteilungen durch entsprechende Zähldichten angeben. Man muss nur darauf achten, dass die Werte der Zähldichte nicht-negativ sind und die Summe 1 besitzen.
Später werden wir die entsprechende Beispiele angeben.
P
Bemerkung. Eine Summe der Form ω∈A f (ω) ohne Angabe der Summationsreihenfolge
darf nur geschrieben werden, wenn A höchstens abzählbar ist und wenn sich bei jeder
Summationsreihenfolge derselbe Wert ergibt. Bei endlicher Menge A ist das trivial, aber
es gilt auch, wenn A unendlich abzählbar und f (ω) ≥ 0 ist. Als Wert der Summe wird
dann auch +∞ zugelassen.
7.2
Zufallsvariable mit diskreter Verteilung
Der Begriff der Zufallsvariablen ist neben den Begriffen Wahrscheinlichkeit und Ereignis der am häufigsten verwendete in der Wahrscheinlichkeitsrechnung. Wir führen das
Konzept der Zufallsvariablen in mehreren Schritten ein, zunächst einmal im Zusammenhang mit diskreten Verteilungen.
Eine Zufallsvariable kann man sich als ein Messgerät veranschaulichen, das an ein Zufallsexperiment angeschlossen ist und eine vom Ergebnis des Experiments abhängige Zahl
anzeigt. Als Beispiel hatten wir bereits die Anzahl der schwarzen Kugeln beim zufälligen
Ziehen von Kugeln aus einer Urne. In Beispielen 4.7 und 4.8 haben wir am Ende bemerkt, dass die uns interessierende Ereignisse AkS , S = 0, 1, . . . , k, paarweise disjunkt
sind und dass wir einen neuen Wahrscheinlichkeitsraum konstruieren können, bei dem
Ω̃ = {Ak0 , Ak1 , . . . , Akk } nur k + 1 Elemente hat und denen die Wahrscheinlichkeiten
S
k−S
P (AkS ) = Sk ns
1 − ns
(s. Bsp. 4.8) zugeordnet werden. Hier haben zwar die
Ergebnisse nicht mehr die gleiche Wahrscheinlichkeit, aber da Ω̃ und σ-Algebra weniger
Elemente enthalten, kann man damit leichter arbeiten.
44
Allgemein ist es sinnvoll, für die eigentlich interresierende Betrachtungen anstelle des ursprünglichen sehr umfangreichen
Wahrscheinlichkeitsraumes (Ω, A, P ) einen neuen
Wahrscheinlichkeitsraum Ω̃, Ã, P̃ zu definieren und die Wahrscheinlichkeiten P̃ Ã der Er-
eignisse à im neuen Raum aus den Wahrscheinlichkeiten P (A) der zugehörigen Ereignisse A des ursprünglich gewählten Raumes (Ω, A, P ) zu berechnen. Danach wird der
ursprüngliche in der Regel komplizierte Raum (Ω, A, P ) für weitere Betrachtungen direkt
nicht benötigt, obwohl er für die Theorie im Hintergrund nach wie vor eine wichtige Rolle
spielt. Wir greifen jetzt Beispiel 4.8 noch einmal auf für den Fall n = 2, s = 1 und k = 3.
Wir haben dann den folgenden Ergebnisraum
Ω = {ω0 = (w, w, w), ω1 = (s, w, w), ω2 = (w, s, w), ω3 = (w, w, s),
ω4 = (s, s, w), ω5 = (s, w, s), ω6 = (w, s, s), ω7 = (s, s, s)}
mit den 23 = 8 Elementen, die Ereignisalgebra A mit 28 Elementen und die Wahrscheinlichkeitsverteilung P : A → R mit P {ωi} = 18 für jedes Ergebnis {ωi }:
ω ∈ Ω (w, w, w) (s, w, w) (w, s, w) (w, w, s) (s, s, w) (s, w, s) (w, s, s) (s, s, s)
S
0
1
1
1
2
2
2
3
1
1
1
1
1
1
1
1
P {ω}
8
8
8
8
8
8
8
8
Jetzt betrachten wir eine Funktion X : Ω → ΩX ,
der schwarzen Kugeln zuordnet. Wir erhalten

0
für



1
für
X (ωi ) =
2
für



3
für
die jedem Ergebnis aus Ω die Anzahl S
i = 0;
i = 1, 2, 3;
i = 4, 5, 6;
i = 7.
Damit folgt
PX {x} := P {ω ∈ Ω : X(ω) = x} =



1
8
3
8
1
8


für x = 0;
für x = 1, 2;
für x = 3.
Man kann sagen, wir haben einen neuen Wahrscheinlichkeitsraum (ΩX , AX , PX ) konstruiert, bei dem ΩX = {0, 1, 2, 3} nur 4 Elemente hat:
x ∈ ΩX
PX {x}
0
1
2
3
xi
1
8
3
8
3
8
1
8
pi
Allgemein bezeichnen wir mit (X = x) das Ereignis, dass die Funktion X bei Durchführung des Experiments den Wert x annimmt, und mit (X ∈ A) dasjenige, dass der Wert
der Funktion X in der vorgebenen Menge A ⊆ ΩX liegt. Da Ereignisse durch die Mengen
45
von Ergebnissen charakterisiert werden, auf die die entsprechende Aussage zutrifft, ist
offensichtlich
(X = x) = {ω ∈ Ω : X(ω) = x}
(7.15)
(X ∈ A) = {ω ∈ Ω : X(ω) ∈ A}
(7.16)
Dies schließt auch analoge Darstellungen wie (X ≤ a), (a < X < b), u.s.w. ein. Ein
Ereignis der Form (X ∈ A) heißt durch X beschreibar.
Damit man von der Wahrscheinlichkeit dieser Ereignisse sprechen kann, müssen die zugehörigen Mengen (X ∈ A) Ereignisse in Ω sein (also zu A gehören, im Definitionsbereich
der Wahrscheinlichkeit P liegen), wenn A ein Ereignis in ΩX ist. Genau diese Eigenschaft
wird man von einer Zufallsvariable erwarten:
Definition 7.3. Eine Funktion X : Ω → ΩX auf der Ergebnismenge eines Wahrscheinlichkeitsraums (Ω, A, P ) mit Werten in einer abzählbaren Teilmenge ΩX der reellen Zahlen
heißt eine diskrete Zufallsvariable, wenn
(X ∈ A) ∈ A
für alle Teilmengen A ∈ ΩX gilt.
Offensichtlich ist
(X ∈ A) =
[
(X = x).
x∈A
Um nachzuprüfen, ob eine Funktion X eine Zufallsvariable gemäß der obigen Definition
ist, muss also nur untersucht werden, ob (X = x) ∈ A für alle x ∈ ΩX gilt.
Diese Bedingung ist für A = 2Ω trivialerweise erfüllt! Die Fälle A 6= 2Ω werden wir später
betrachten, obwohl schon jetzt man sagen kann, dass dies bei Ω = Rn und die σ-Algebra
der Borelschen Mengen für alle in der Anwendung relevanten Zufallsvariablen gilt.
7.3
Die Verteilung einer diskreten Zufallsvariablen
Wenn man das Zufallsexperiment (Ω, A, P ) und das Messgerät X als eine black box ansieht, aus der zufällige Werte x ∈ ΩX herauskommen, so erhält man ein neues Zufallsexperiment mit der Ergebnismenge ΩX . Die Chance für das Eintreten eines Ereignisses
A ⊆ ΩX wird man sinnvollerweise durch die Zahl
PX (A) := P (X ∈ A)
bewerten.
Wie zu erwarten erhält man auf diese Weise eine Wahrscheinlichkeitsverteilung auf den
Teilmengen von ΩX :
46
Satz 7.4. PX ist eine diskrete Wahrscheinlichkeitsverteilung auf ΩX mit der Wahrscheinlichkeitsfunktion (Zähldichte) fX (x) = P (X = x).
Beweis:
1. Da P eine Wahrscheinlichkeit ist, gilt 0 ≤ P (X ∈ A) = PX (A) ≤ 1 und aus (X ∈
ΩX ) = Ω folgt PX (ΩX ) = 1.
2. Sind A und B Teilmengen von ΩX , so kann man anhand der Definition 7.16 leicht
nachvollziehen, dass (X ∈ A ∪ B) = (X ∈ A) ∪ (X ∈ B) und dass für disjunkte Mengen
A und B die Mengen (X ∈ A) und (X ∈ B) ebenfalls disjunkt sind. Beides zusammen
liefert
PX (A ∪ B) = PX (A) + PX (B).
3. Wie in Punkt 2. weist man auch die Gültigkeit der Formel
!
[
X
PX
Ak =
PX (Ak )
k
k
nach, wobei die Ereignisse (Ak ) paarweise disjunkt sind.
4. PX ist damit eine diskrete Wahrscheinlichkeitsverteilung auf ΩX und besitzt die Wahrscheinlichkeitsfunktion
fX (x) = PX {x} = P (X = x).
Bezeichnung: Die Wahrscheinlichkeitsverteilung PX heißt die Verteilung der Zufallsvariablen X und fX (y) die Wahrscheinlichkeitsfunktion der Zufallsvariablen X.
Zur formalen Darstellung dieser Situation benutzen wir im folgenden das Schema
X
(Ω, A, P ) −→ ΩX , 2ΩX , PX .
Wenn wir gleichzeitig unterschiedliche Wahrscheinlichkeitsfunktionen von verschiedenen
Zufallsvariablen X betrachten, so kennzeichnen wir die zu X gehörende Wahrscheinlichkeitsfunktion mit dem Index X, d.h. statt f schreiben wir fX . Das gleiche betrifft später
ggf. auch andere auf X bezogene Bezeichnungen.
7.4
Die Verteilungsfunktion einer diskreten Zufallsvariablen
Definition 7.5. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f .
Die Funktion F : R → [0, 1] mit
F (x) := P {ω ∈ Ω : X(ω) ≤ x} = P (X ≤ x) =
X
X
X
X
=
P (X = xi ) =
f (xi ) =
pi =
pi · h(x − xi ),
xi ≤x
xi ≤x
xi ≤x
i∈I
wobei pi := f (xi ) = P (X = xi ), nennen wir Verteilungsfunktion der Zufallsvariable X.
47
Die Funktion h ist die Heaviside-Funktion:
0
für x < 0
h(x) :=
1
für x ≥ 0.
y
1
x
−2
−1
1
2
Die Verteilungsfunktion ist auf ganz R definiert. Durchläuft x die reellen Zahlen in aufsteigender Richtung, so sieht man, dass F (x) zwischen zwei benachbarten Punkten aus
ΩX konstant bleibt und dass in jedem Punkt xi ein Sprung (nach oben) der Höhe f (xi )
statt findet.
Beispiel 7.6. Für unser zu Beginn dieses Abschnittes betrachtetes Urnenmodell mit
n = 2, s = 1 und k = 3 ergibt sich die folgende Sprungfunktion als Verteilungsfunktion

0
für −∞ < x < 0,




1

für 0 ≤ x < 1,

 8
4
für 1 ≤ x < 2,
F (x) =
8



 78
für 2 ≤ x < 3,



1
für 3 ≤ x < ∞.
Mit den Wahrscheinlichkeiten (Sprüngen) P (X = xi ), xi = 0, 1, 2, 3, ergibt sich diese
Funktion auch durch die folgende Konstruktion
X
F (x) =
P (X = xi ).
xi ≤x
Für die formelmäßige geschlossene Darstellung der Verteilungsfunktion können wir hier
auch die rechtsseitig stetige Sprungfunktion (Heaviside-Funktion) h verwenden. Wir erhalten dann für die obige Verteilungsfunktion
1
3
3
1
F (x) = h(x) + h(x − 1) + h(x − 2) + h(x − 3).
8
8
8
8
Man kann auch die Verteilungsfunktion in einer Tabelle auffassen:
xi
0
1
2
3
f (xi )
1
8
3
8
3
8
1
8
F (xi )
1
8
4
8
7
8
1
Bei der Angabe von F genügt es natürlich, nur die Werte F (xi ) für xi = 0, 1, 2, 3
anzugeben.
Für praktische Zwecke ist i.a. die Angabe von F nützlicher als die von f . So kann man
etwa die Wahrscheinlichkeiten der Ereignisse A1 : mehr als eine schwarze Kugel wurde
”
gezogen” oder A2 : höchstens 2 Kugeln wurden gezogen” aus der Tabelle von F wesentlich
”
leichter entnehmen: P (A1 ) = 1 − F (1) = 48 , P (A2 ) = F (2) = 78 .
48
Aus der Definition ergeben sich unmittelbar die folgenden nützlichen Eigenschaften und
Rechenregeln für Verteilungsfunktionen.
Eigenschaften.
❶ lim F (x) = 0 und lim F (x) = 1;
x→−∞
x→∞
❷ F ist monoton wachsend, d.h. aus x ≤ y folgt F (x) ≤ F (y);
❸ F ist rechtseitig stetig, d.h. F x+
:= lim+ F (x) = F (xi ).
i
x→xi
Rechenregeln.
❶ P (X = a) = F (a) − F (a− ), wobei F (a− ) := lim− F (x);
x→a
❷ P (a < X ≤ b) = F (b) − F (a);
❸ P (X > a) = 1 − F (a);
❹ P (X < a) = F (a− );
❺ P (a ≤ X ≤ b) = P (a < X ≤ b) + P (X = a) = F (b) − F (a− );
❻ P (a < X < b) = P (a < X ≤ b) − P (X = b) = F (b− ) − F (a).
7.5
Der Erwartungswert einer diskreten Zufallsvariablen
Für diskrete Verteilungen gibt es einige Kenngrößen, die die Gestalt der Verteilung grob
charakterisieren. Es sind dies der Erwartungswert und die Varianz sowie die absoluten
und zentralen Momente.
So wird man als Prognose für den Wert, den die Zufallsvariable X bei Durchführung des
Experiments annimmt, das gewichtete Mittel der Verteilung von X wählen.
Definition 7.7. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion
f.
P
Falls
|xi | · f (xi ) < ∞, heißt
xi ∈ΩX
E(X) :=
X
xi ∈ΩX
xi · f (xi ) =: µ = m1 (PX )
der Erwartungswert der Zufallsvariable X.
49
Da wir es im allgemeinen mit abzählbar unendlich vielen xi zu tun haben, muss sicher
gestellt sein, dass diese Summe auch unbedingt konvergiert.
Falls die Summe nicht absolut konvergiert und damit der Wert eventuell von der Summationsreihenfolge abhängig ist, sagt man, dass die Zufallsvariable keinen Erwartungswert
besitzt. Beispiele, bei denen der Erwartungswert unendlich ist oder nicht existiert, sind
zwar in der Praxis selten. Trotzdem kann beides nicht ausgeschlossen werden.
Um bei der Berechnung des Erwartungswerts flexibler zu sein, und zur Untersuchung
seiner Eigenschaften, benötigt man weitere äquivalente Eigenschaften.
Satz 7.8. Falls der Erwartungswert einer diskreten Zufallsvariablen X auf einem diskreten
Wahrscheinlichkeitsraum (Ω, A, P ) existiert, ist
X
E(X) =
X(ω)P {ω}.
ω∈Ω
Beweis: Es gilt
E(X) =
X
xi ∈ΩX
=
X
xi · f (xi ) =
X
xi ∈ΩX ω∈(X=xi )
da P (X = xi ) =
P
ω∈(X=xi )
X
xi ∈ΩX
xi · P (X = xi ) =
xi · P {ω} =
X
X
xi ∈ΩX ω∈(X=xi )
X(ω) · P {ω},
P {ω} und für ω ∈ (X = xi ) ist xi = X(ω).
Die Mengen (X = xi ) mit xi ∈ ΩX bilden eine Partition der Menge Ω, in der die Ergebnisse ω nach den verschiedenen möglichen Funktionswerten xi der Zufallsvariable sortiert
werden. Die Doppelsumme über xi ∈ ΩX und ω ∈ (X = xi ) stellt daher nichts anderes
dar als die Summation über alle ω ∈ Ω als Indizes in einer speziellen Reihenfolge. Wegen
der für den Erwartungswert geforderten unbedingten Konvergenz ist der Satz bewiesen.
Wir ordnen der Zufallsvariablen X durch die Funktionsgleichung Y = g(X) in eindeutiger
Weise eine neue, von X abhängige Zufallsvariable Y zu. Der Erwartungswert E(Y ) =
E[g(X)] dieser neuen Zufallsvariablen kann wie folgt berechnet werden:
Satz 7.9. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, A, P )
mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f und sei g : ΩX → g (ΩX ) eine Funktion, so daß g (ΩX ) = {yj ∈ R : j ∈ J ⊆ N}
abzählbar ist. Dann gilt
X
X
E(Y ) = E[g(X)] :=
yj · P (g(X) = yj ) =
g(xi ) · f (xi ).
xi ∈ΩX
yj ∈g(ΩX )
Um bei der Berechnung des Erwartungswertes flexibler zu sein, benötigt man noch eine
weitere äquivalente Darstellung:
50
Satz 7.10. Seien X und Y diskrete Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Werten in Mengen ΩX = {xi ∈ R : i ∈ I ⊆ N} und entsprechend
ΩY = {yj ∈ R : j ∈ J ⊆ N}.
Und sei h : ΩX ×ΩY → Ω̂ := h (ΩX × ΩY ) eine Funktion, so daß Ω̂ = {zl ∈ R : l ∈ L ⊆ N}
abzählbar ist. Dann gilt
E[h(X, Y )] :=
X
zl ∈Ω̂
7.5.1
zl · P (h(X, Y ) = zl ) =
X X
xi ∈ΩX yj ∈ΩY
h(xi , yj ) · P (X = xi , Y = yj ).
Weitere Eigenschaften des Erwartungswertes
Es seien X, Y diskrete Zufallsvariablen und a, b ∈ R.
❶ Gilt P (X = a) = 1, d. h. ist X ( fast sicher”) konstant, dann E(X) = a.
”
❷ Der Erwartungswert ist monoton, d. h. aus X ≤ Y folgt E(X) ≤ E(Y ), falls E(X)
und E(Y ) existieren.
Insbesondere: aus a ≤ X ≤ b ergibt sich a ≤ E(X) ≤ b.
❸ Der Erwartungswert ist linear: Existieren E(X) und E(Y ) und ist E(X) + E(Y )
definiert, dann existiert auch E(aX + bY ) und es gilt
E(aX + bY ) = aE(X) + bE(Y ).
Man kann sich jetzt die Frage stellen, ob zusätzlich zur Additionsregel E(X + Y ) =
E(X) + E(Y ) eine Produktregel E(XY ) = E(X) · E(Y ) gibt. Um dies zu zeigen, benötigt
man die Eigenschaft der stochastischen Unabhängigkeit für Zufallsvariablen (vgl. Def. 6.1).
Definition 7.11. Diskrete Zufallsvariablen X1 , X2 , . . . , Xm auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit Werten in Mengen ΩX1 , ΩX2 , . . . , ΩXm heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 ⊆ ΩX1 , A2 ⊆ ΩX2 , . . . , Am ⊆ ΩXm gilt
h
i
P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xm ∈ Am ) =
= P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xm ∈ Am ) .
❹ Sind die Zufallsvariablen X und Y stochastisch unabhängig, existieren E(X) und
E(Y ) und sind beide endlich, dann existiert auch E(XY ) und es gilt
E(XY ) = E(X) · E(Y ).
51
7.6
Die Varianz einer diskreten Zufallsvariable
Als Maß für den Schätzfehler bei der Prognose für den Wert, den die Zufallsvariable X bei
Durchführung des Experiments annimmt, kann man die mittlere quadratische Abweichung
der Ergebnisse vom Erwartungswert heranziehen. Hierzu dienen die Begriffe (bezogen auf
die Zufallsvariable und ihre Realisierungen): die Varianz und die Standardabweichung
dieser Zufallsvariable:
Definition 7.12. Sei X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Werten in der Menge ΩX = {xi ∈ R : i ∈ I ⊆ N} und mit der Wahrscheinlichkeitsfunktion f und mit endlichem Erwartungswert µ := E(X).
Dann versteht man unter der Varianz V (X) der Zufallsvariable X den Erwartungswert
von (X − µ)2 , d. h.
X
V (X) := E (X − µ)2 =
(xi − µ)2 · f (xi ) =: σ 2 = m̂2 (PX ) = D 2 (X).
xi ∈ΩX
p
Die Größe σ := D(X) = V (X) nennt man die Standardabweichung (Streuung) (Dispersion, Streuung) von X und die zugehörige relative Größe σµ Variationskoeffizient von X.
Divergiert die Reihe in der obigen Definition, so spricht man von einer unendlichen Varianz.
Die Varianz ist ein geeignetes Maß für die Streuung der einzelnen Werte xi um den
Mittelwert µ. Die Standardabweichung beschreibt die durchschnittliche (mittlere) Abweichung der Zufallsvariablen X von ihren Erwartungswert µ und besitzt gegenüber der
Varianz den Vorteil, daß sie die gleiche Dimension und Einheit hat wie die Zufallsvariable X. Man benötigt also beide Größen: Berechnungen lassen sich leichter mit der Varianz
durchführen, für die Interpretation der Ergebnisse ist die Streuung wegen der Dimensionstreue günstiger.
Bei endlichen Varianzen kann die Definition etwas umformen:
X
X
V (X) =
(xi − µ)2 · f (xi ) =
x2i − 2µxi + µ2 · f (xi ) =
xi ∈ΩX
=
X
xi ∈ΩX
x2i · f (xi ) − 2µ
X
xi ∈ΩX
xi ∈ΩX
xi · f (xi ) + µ2
X
f (xi ) =
xi ∈ΩX
= E (X 2 ) − 2µ · µ + µ2 = E (X 2 ) − µ2 .
Wir erhalten somit eine wichtige Formel (Verschiebungssatz, der Satz von Steiner)
zur Berechnung der Varianz:
V (X) = E X 2 − (E(X))2 .
Aus der Interpretation der Varianz als Maß dafür wie sehr Wahrscheinlichkeitsmasse”
”
um den Schwerpunkt verstreut ist, muss folgen, dass die Wahrscheinlichkeit der Menge
Bε = {xi ∈ ΩX : |xi − µ| ≥ ε} ⊆ ΩX
52
mit einer positiven Zahl ε > 0 umso kleiner ist, je kleiner die Varianz V (X) ist. Das heißt,
bei kleiner Varianz liegen die meisten Werte in der Nähe von µ und größere Abweichungen
von Mittelwert treten nur mit geringen Wahrscheinlichkeiten auf. Dies bestätigt
Satz 7.13 (Die Ungleichung von Tschebyscheff).
PX (Bε ) ≤
V (X)
.
ε2
Beweis:
1. Da alle Summanden in der Definition von Varianz nichtnegativ sind, wird die Summe
kleiner, wenn einige der Summanden weggelassen werden:
X
V (X) ≥
(xi − µ)2 · f (xi )
xi ∈Bε
2. Nach Definition von der Menge Bε gilt für xi ∈ Bε , dass (xi − µ)2 ≥ ε2 und somit
X
V (X) ≥ ε2
f (xi ) = ε2 PX (Bε ) .
xi ∈Bε
Die gewünschte Ungleichung erhält man daraus durch Division beider Seiten mit ε2 .
7.6.1
Weitere Eigenschaften der Varianz
Es seien X und Y diskrete Zufallsvariablen und a, b, c ∈ R.
❶ Eine Verschiebung hat keinen Einfluss auf die Varianz (und die Standardabweichung):
V (X + a) = V (X).
❷ Ein Faktor verändert die Varianz quadratisch, die Standardabweichung proportional
(mit dem Betrag des Faktors):
p
p
V (bX) = b2 V (X)
und
V (bX) = |b| V (X).
❸ Gilt P (X = E(X)) = 1, d. h. ist X ( fast sicher”) konstant, dann V (X) = 0.
”
❹ Sind die Zufallsvariablen X und Y stochastisch unabhängig, dann
V (X + Y ) = V (X) + V (Y ).
❺ Für alle c ∈ R gilt
V (X) := E X − E(X)2
≤ E (X − c)2 ,
d. h. der Erwartungswert der Abweichung von Zufallsvariable X zu einem reellen
Wert c hat Minimum für c = E(X) mit Minimalwert V (X).
53
7.7
Erzeugende Funktionen
Die Berechnung von Kennwerten diskreter Zufallsvariablen, die durch Reihen gegeben
sind, ist oft schwierig. Bei bestimmten diskreten Zufallsvariablen X : Ω → ΩX mit der
Wahrscheinlichkeitsfunktion
mit x ∈ ΩX ,
f (x) = P (X = x),
lassen sich jedoch diese Kennwerte über so genannte erzeugende Funktionen
!
X
X
M(t) :=
f (x) · tx
oder M(t) =
f (x) · etx
x∈ΩX
x∈ΩX
berechnen,
wenn M(t) als Formel explizit berechenbar ist. Die Reihe ist wegen
P
x∈ΩX f (x) = 1 offensichtlich für |t| ≤ 1 absolut gleichmäßig konvergent. Wenn die
Potenzreihe für |t| ≤ 1 + ε, ε > 0, absolut konvergent oder sogar eine endliche Summe ist,
dann ist M(t) in t = 1 beliebig oft differenzierbar, wobei die Ableitungen summandenweise
gebildet werden dürfen. In diesem Fall ergibt sich
X
M ′ (1) =
x · f (x) = E(X),
x∈ΩX
′′
M (1) =
X
x∈ΩX
X
x(x − 1) · f (x) =
x∈ΩX
x2 · f (x) −
X
x∈ΩX
x · f (x) = E X 2 − E(X).
Hieraus folgt eine einfache Formel für die Varianz
2
V (X) = E X 2 − (E(X))2 = M ′′ (1) + M ′ (1) − (M ′ (1)) .
Ggf. sind die Grenzwerte für z → 1 zu berechnen.
Beispiel 7.14. Sei X eine diskrete Zufallsvariable mit Werten in der Menge {0, 1, 2, . . .}
und mit der Wahrscheinlichkeitsfunktion
f (n) = e−λ
λn
,
n!
n = 0, 1, 2 . . . ,
λ > 0.
Die erzeugende Funktion
M(t) =
∞
X
k=0
e−λ
λk k
· z = eλ(t−1)
k!
hat die folgende Ableitungen
M ′ (t) = λ · eλ(t−1)
M ′′ (t) = λ2 · eλ(t−1) .
und
Somit erhalten wir
E(X) = M ′ (1) = λ · eλ(t−1) t=1
= λ,
V (X) = M ′′ (1) + M ′ (1) − (M ′ (1))2 = λ2 + λ − λ2 = λ.
54
7.8
Spezielle diskrete Wahrscheinlichkeitsverteilungen
Mit dem Satz 7.2 ist aus theoretischer Sicht das Problem der Charakterisierung diskreter
Wahrscheinlichkeitsverteilungen vollständig gelöst. Aus praktischer Sicht ergibt sich die
Frage, wie man aus Beschreibungen von Zufallsexperimenten zu Formeln für die entsprechenden Wahrscheinlichkeitsfunktionen kommt.
Wir betrachten in diesem Abschnitt einige stochastische Standardprobleme” und führen
”
vor, wie man aus bestimmten Eigenschaften des Zufallsmechanismus Wahrscheinlichkeitsfunktionen herleiten kann. Die ersten drei der folgenden Typen von Zufallsexperimenten
wurden in den vorhergehenden Abschnitten bereits ausführlich behandelt. Wir stellen sie
der Vollständigkeit halber hier noch einmal kurz dar.
7.8.1
Die Laplace-Verteilung
Sei X eine gleich verteilte Zufallsvariable mit den
ΩX = {xi ∈ R : i = 1, . . . , n}, d. h.
f (xi ) =
1
n
Werten
in der
Menge
für alle i = 1, . . . , n.
Die zugehörige Wahrscheinlichkeitsverteilung heißt die Laplace-Verteilung auf der Menge
ΩX und wird im folgenden kurz als L (ΩX )-Verteilung bezeichnet.
Für die Laplace verteilte Zufallsvariable gilt
n
1X
µ = E(X) =
xi
n i=1
n
1X
σ = V (X) =
(xi − µ)2 .
n i=1
2
und
Sind xi = i, i = 1, . . . , n, dann ergibt sich
µ =
1
(n + 1)
2
und
σ2 =
1
(n − 1) · (n + 1).
12
Anwendung: Die Gleichverteilungen spielen eine Rolle in der Signaltheorie sowie bei
der Erzeugung von Pseudo-Zufallszahlen auf dem Computer.
7.8.2
Die hypergeometrische Verteilung
Für natürliche Zahlen 1 ≤ K ≤ N und 0 ≤ n ≤ N ist
N −K K
·
f (k) = k N n−k ,
n
wobei 0 ≤ k ≤ min{K, n} und n − k ≤ N − K, eine Wahrscheinlichkeitsfunktion auf der
Ergebnismenge Ω = {0, 1, . . . , n}. Dies ergibt sich aus der Tatsache, dass die Ereignisse
55
Ank :
k von n gezogenen Kugeln sind schwarz”
”
(vgl. Lotto”–Bsp. 4.7) beim Ziehen ohne Zurücklegen und ohne Berücksichtigung der
”
Reihenfolge aus einer Urne mit K schwarzen und N − K weißen Kugeln eine Partition
bilden:
An0 ∪ An1 ∪ . . . ∪ Ann = ΩN
n := {{z1 , z2 , . . . , zn },
und daher
n
X
f (k) =
k=0
n
X
zi = 1, 2, . . . , N und zi 6= zj } ,
P (Ank ) = P ΩN
n
k=0
= 1.
Die Wahrscheinlichkeitsverteilung mit dieser Wahrscheinlichkeitsfunktion heißt die hypergeometrische Verteilung mit Parametern N, K und n oder kurz H(N, K, n)-Verteilung.
Die Einzelwahrscheinlichkeiten f (k) = P (X = k) beschreiben die Wahrscheinlichkeit aus
einer Menge von N gleich verteilten Elementen, von denen K eine bestimmte Eigenschaft
besitzen, bei einer Stichprobe ohne Zurücklegen vom Umfang n ≤ N genau k Elemente
mit dieser Eigenschaft zu erhalten.
Für die hypergeometrisch verteilte diskrete Zufallsvariable X gilt
K
K
N
N −n
2
und
σ = V (X) = n ·
1−
·
.
µ = E(X) = n ·
N
N
K
N −1
Beweis: Der Erwartungswert ergibt sich durch Ausklammern von n · K
und Ausnutzen
N
des Additionssatzes
(im
Lotto”–Beispiel
4.7)
für
Binomialkoeffizienten.
Hierbei ist zu
”
n
beachten, dass m = 0 für m > n, n, m ∈ N. Wir erhalten dann
N −K N −K n
K
n
K−1
X
X
·
· n−k r=k−1
K
k−1
E(X) =
k · k N n−k = n ·
=
N
−1
N
n
n−1
k=0
n−1
K X
= n·
N r=0
k=1
K−1
r
·
N −1−(K−1)
n−1−r
N −1
n−1
= n·
K
.
N
Die Berechnungen für V (X) sind ähnlich aber etwas umfangreicher.
Die hypergeometrische Verteilung spielt z.B. bei den
• Qualitätskontrollen eines Herstellers bei laufender Produktion: In regelmäßigen Zeitabständen wird dabei kontrolliert, ob z. B. ein bestimmter Sollwert auch tatsächlich
eingehalten wird;
• Endkontrollen eines Herstellers: Sie sollen die Auslieferung einwandfreier Ware im
vereinbarten Rahmen (z.B. maximal 2% Ausschußware) gewährleisten;
• Abnahmekontrollen eines Kunden: Überprüfung der angelieferten Ware, ob die Vereinbarungen z. B. bezüglich eines maximalen Anteils an Ausschußware auch tatsächlich eingehalten wurden.
eine große Rolle.
56
7.8.3
Die Binomialverteilung
Sind p und q reelle Zahlen mit 0 < p < 1 und q = 1 − p, so ist
n k n−k
f (k) =
p q
k
eine Wahrscheinlichkeitsfunktion auf Ω = {0, 1, . . . , n}, denn nach der Binomialformel ist
n
n X
X
n k n−k
f (k) =
p q
= (p + q)n = 1n = 1.
k
k=0
k=0
Die zugehörige Verteilung heißt die Binomialverteilung mit Parametern n und p oder kurz
B(n, p)-Verteilung.
Wie im Abschnitt 6.3 geschildert, zählt die binomialverteilte Zufallsvariable X die Erfolge bei einer Bernoulli-Versuchsreihe (d.h. bei einer n-fachen, stochastisch unabhängigen
Wiederholung eines Einzelexperiments, bei dem ein bestimmtes Ereignis jeweils mit Wahrscheinlichkeit p autritt) auf.
❶ n = 0, p = 0:
Ein-Punkt-Verteilung mit P (X = 0) = 1;
❷ n = 1, p ∈ (0, 1):
Zwei-Punkt-Verteilung mit P (X = 0) = 1 − p und P (X = 1) = p.
Für die diskrete Zufallsvariable mit der B(n, p)-Verteilung gilt
E(X) = np
und
V (X) = npq.
Beweis: Die Zufallsvariable X kann man als die Summe X = X1 + · · · + Xn von n
stochastisch unabhängigen Zufallsvariablen Xi , i = 1, . . . , n, mit Zwei-Punkt-Verteilung
erfassen.
Für den Erwartungswert und die Varianz von allen Xi gilt
E (Xi ) = 0 · (1 − p) + 1 · p = p
V (Xi ) = E (Xi2 ) − (E (Xi ))2 = 02 · (1 − p) + 12 · p − p2 = p(1 − p).
Der Erwartungswert von Zufallsvariable X ist dann gleich
E(X) =
n
X
E (Xi ) = np
i=1
und die Varianz
V (X) =
n
X
i=1
V (Xi ) = np(1 − p) = npq,
57
weil die Zufallsvariablen Xi unabhängig sind.
Die Binomialverteilung approximiert (für großes N) die hypergeometrische Verteilung.
≤ 1 und K
→ p für N → ∞
Man erhält für K
N
N
lim
N →∞
K
k
·
N −K
n−k
N
n
n k
=
p (n − p)n−k ,
k
indem man im Zähler K k (N − K)n−k und im Nenner N n ausklammert.
Die Binomialverteilung findet überall dort Anwendung, wo alternative Entscheidungen zu
treffen sind, z. B.:
• Statische Untersuchung der Anzahl der Ausfälle mehrerer unabhängig voneinander
arbeitender Elemente mit gleicher Ausfallswahrscheinlichkeit.
• Qualitätskontrolle (siehe auch hypergeometrische Verteilung) bei Lieferungen mit
sehr großer Stückzahl N, N ≫ n, und mittleren Stichprobenumfang n und kleiner
bekannter Lieferantenausschussquote p.
Bei der Herleitung dieser diskreten Verteilung kann man wiederum auf das anschauliche
Urnenmodell zurückgreifen, das bereits bei der hypergeometrischen Verteilung nützlich
war. Man muss aber merken, dass diesmal die Ziehung der Kugeln mit Zurücklegen erfolgt.
7.8.4
Die geometrische Verteilung
Die Funktion
f (n) = p · q n−1
mit 0 < p < 1 und q = 1 − p ist eine Wahrscheinlichkeitsfunktion auf der Menge Ω = N =
{1, 2, . . .} der natürlichen Zahlen, denn
∞
X
n=1
f (n) =
∞
X
n=1
p·q
n−1
= p
∞
X
k=0
qk = p ·
1
p
=
= 1.
1−q
p
P
k
Da diese Funktion mit der geometrischen Reihe ∞
k=0 q zusammenhängt, heißt die zugehörige Verteilung die geometrische Verteilung mit Parameter p oder bei uns kurz die
G(p)-Verteilung.
Eine diskrete, geometrischverteile Zufallsvariable X gibt an, bei welchem Versuch in einer
Bernoulli-Versuchsreihe ein bestimmtes Ereignis zum ersten Mal eintritt.
Man kann zeigen (in der Übung), dass
E(X) =
1
p
und
58
V (X) =
q
.
p2
Die geometrische Verteilung findet Anwendung bei der Analyse von Wartezeiten bis zum
Eintreffen eines bestimmten Ereignisses bzw. von Lebensdauern von Geräten (d.h. der
Wartezeit bis zum Ausfall).
Unter welchen Voraussetzungen diese Verteilung als Lebensdauerverteilung benutzt werden kann, lässt sich am einfachsten an einem gänzlich anderen Problem explizieren,
nämlich der Anzahl der Würfe mit einem regulären Würfel bis zum ersten Auftreten
einer 6.
Auch wenn man es etwa beim Mensch ärgere dich nicht”-Spiel manchmal gern anders
”
hätte, muss man davon ausgehen, dass ein Würfel kein Gedächtnis hat. Auch nach m
ergebnislosen Würfen ändert sich am Wahrscheinlichkeitsgesetz für die nächsten Würfe
nichts. D.h. die Wahrscheinlichkeit, dass man mehr als n Würfe bis zur 6 benötigt, ist
die gleiche, ob man bereits m ergebnislose Würfe hinter sich hat oder gerade mit dem
Würfeln beginnt.
Die Ereignisse
An :
”
mehr als n Würfe werden bis zur 6 benötigt”
werden in der Ergebnismenge Ω = {1, 2, . . .} durch die Mengen
An = {n + 1, n + 2, . . .}
mit n = 0, 1, 2, . . . repräsentiert und die Eigenschaft der Gedächtnislosigkeit des Würfels
kann man durch die Formel
P (Am+n |Am ) = P (An )
für alle m, n = 0, 1, 2, . . . ausdrücken.
Nach Definition der bedingten Wahrscheinlichkeit ist diese Gleichung äquivalent zu
P (Am+n ∩ An ) = P (Am ) · P (An ) .
Da aber Am+n ⊆ An , ist Am+n ∩ An = Am+n , und man erhält
P (Am+n ) = P (Am ) · P (An ) .
Mit qm := P (Am ) und q := q1 erhält man aus diesen Gleichungen
q2 = q1+1 = q1 · q1 = q 2 ,
q3 = q2+1 = q2 · q1 = q 3 ,
..
.
qm = q(m−1)+1 = qm−1 · q1 = q m ,
..
.
Wegen Am−1 = {m} ∪ Am und {m} ∩ Am = Ø ist P (Am−1 ) = P {m} + P (Am ) und man
erhält als Wahrscheinlichkeitsfunktion für die Verteilung P
f (m) = P {m} = q m−1 − q m = (1 − q) · q m−1
59
also die der geometrischen Verteilung mit p = 1 − q.
Der für den Parameter p zu verwendende numerische Wert ergibt sich aus der Beziehung
p = f (1): p ist die Wahrscheinlichkeit, dass das beobachtete Ereignis gleich beim ersten
Versuch eintritt; beim Werfen eines Würfels also gleich beim ersten Wurf die Augenzahl
6 erscheint. Bei einem regulären Würfel ist daher p = 16 .
Bei Geräten lässt sich die Eigenschaft der Gedächtnislosigkeit dahingehend interpretieren,
dass sie von ihrer Bauart her über einen langen Zeitraum keinen Verschleißerscheinungen
unterworfen sind (Ermüdungsfreiheit) und Ausfälle bei einzelnen Geräten einer Baureihe
dadurch zustande kommen, dass sie zufällige Produktions- oder Materialfehler enthalten,
die sich nach nicht vorhersehbarer Zeit auswirken.
7.8.5
Die Poisson-Verteilung
Die Funktion
λn
n!
auf Ω = N0 =P
{0, 1, 2, . . .} mit einer positiven reellen Zahl λ ist eine Wahrscheinlichkeitsλn
λ
funktion, da ∞
n=0 n! = e die Taylorreihe der Exponentialfunktion und damit
f (n) = e−λ
∞
X
n=0
f (n) =
∞
X
n=0
e−λ
λn
= e−λ · eλ = 1
n!
ist.
Die zugehörige Verteilung heißt die Poisson-Verteilung mit Parameter λ oder kurz die
P(λ)-Verteilung.
Eine Poisson-verteilte Zufallsvariable X hat folgende Kennwerte (in der Übung):
E(X) = λ
und
V (X) = λ.
Für große n wird das Arbeiten mit der Binomialverteilung unhändlich, weil es numerisch
Probleme im Falle der exakten Berechnung von Einzelwahrscheinlichkeiten gibt. Ausserdem in Naturwissenschaften und Technik stößt man manchmal im Zusammenhang mit
Bernoulli-Experimenten auf Ereignisse, die mit nur geringen Wahrscheinlichkeiten und
daher sehr selten auftreten, z.B. die Anzahl der pro Sekunde zerfallenden Atomkerne ist
äußerst gering im Vergleich zur Anzahl der insgesamt vorhandenen Kerne.
Die statistische Untersuchungen haben auch gezeigt, dass bei einem Einzelereignis, welches
in einem bestimmten Zeitraum nach oben unbegrenzt oft auftreten kann, die Zufallsvariable X, welches die Anzahl des Eintretens von dem Einzelereignis in diesem Zeitraum
angibt, angenähert Poisson-verteilt ist. Mathematisch gesagt:
Satz 7.15. Betrachten wir die Folge (Xn ) von binomial verteilten Zufallsvariablen mit
den Parameter n und pn = nλ , λ > 0, dann konvergieren die zugehörigen Einzelwahrscheinlichkeiten P (Xn = k) für jedes k = 0, 1, 2, . . . gegen die Einzelwahrscheinlichkeit
60
der Poisson-Verteilung mit dem Parameter λ, d. h.
n
λk
lim
(pn )k (1 − pn )n−k = e−λ .
n→∞ k
k!
Man beachte hierbei, dass die binomial verteilte Zufallsvariable nur die endlich viele Werte
k = 0, 1, . . . , n und die Poisson-verteilte Zufallsvariable dagegen unendlich viele Werte
k = 0, 1, 2, . . . besitzt.
Ist also in einer Bernoulli-Versuchsreihe p klein (0 < p ≤ 0.1) und n groß (n ≥ 50), so
approximiert die rechnerisch bequemere P(λ)-Verteilung mit λ = np die B(n, p)-Verteilung für relativ zu n kleine k. Es gilt dabei die folgende Regel:
Die Binomialverteilung darf näherungsweise durch die Poisson-Verteilung ersetzt werden,
wenn die beiden Bedingungen
n · p < 10
und
n > 1500 p
erfüllt sind.
Durch Umbenennung von Erfolg” und Fehlschlag” ist die Poisson-Verteilung auch für
”
”
0.9 ≤ p ≤ 1 eine gute Approximation an die Binomialverteilung.
Die Poisson-Verteilung findet dann Anwendung, wenn die Häufigkeit des Eintretens eines
Ereignisses gezählt wird, das zu zufälligen Zeitpunkten und unabhängig von einander
eintritt. Beispiele für solche Situationen sind etwa
• das Eintreffen von Telefonanrufen bei einer Vermittlungsstelle,
• das Auftreffen von radioaktiven Partikeln auf einem Geigerzähler,
• die Ankunft eines Kunden an einem Bedienungsschalter,
• das Eintreffen von Bedienwünschen an einem Server,
• das Auftreten von Softwarefehlern in einem Programmsystem.
Als allgemeines Modell denken wir uns ein Zählgerät, das zum Zeitpunkt t = 0 auf Null
steht und zu zufälligen Zeitpunkten angestoßen wird, wobei der Zähler jeweils um 1 erhöht
wird.
Besteht das Experiment in der Beobachtung
des Zählerstandsverlaufs über das Zeitinterω(t)
5
vall [0, ∞), so besteht die Ergebnismenge Ω
4
aus allen möglichen Verläufen, d.h. aus allen
3
Zeitfunktionen
2
ω : [0, ∞) → N0
mit
ω(0) = 0,
1
die stückweise konstant sind und an Sprungstellen jeweils um 1 nach oben springen.
61
t
Zur Festlegung einer Ereignisalgebra A betrachten wir die Funktionen
Ω −→ N0 ,
Nt :
ω 7−→ Nt (ω) := ω(t),
die für jeden Verlauf ω den Zählerstand zum Zeitpunkt t angeben und die Mengen
(Nt = k) = {ω ∈ Ω : Nt (ω) = k}
mit k = 0, 1, 2, . . . die das Ereignis beschreiben, dass zum Zeitpunkt t der Zählerstand
gerade k beträgt.
Da zu Beginn der Beobachtung der Zählerstand Null sein soll, ist N0 (ω) = 0 für alle ω,
woraus folgt, dass (N0 = 0) = Ω und (N0 = k) = Ø für alle k ≥ 1.
Neben den absoluten Zählerständen Nt benötigen wir zum Rechnen auch noch die Zählerstandsdifferenzen
N(s,t] = Nt − Ns
für 0 ≤ s ≤ t, wobei wegen N0 = 0
N(0,t] = Nt .
Die Ereignisalgebra legen wir nicht in allen Einzelheiten
fest, sondern nehmen lediglich
an, dass alle Mengen der Form (Nt = k) und N(s,t] = k in ihr enthalten sind. Außerdem
gehen wir davon aus, dass wir auf A eine Wahrscheinlichkeit P vorgegeben haben, die
sich durch die drei folgenden Eigenschaften auszeichnet:
• Stationariät
P N(s,s+t] = k
= P N(0,0+t] = k
für alle s ≥ 0, t ≥ 0 und alle k ∈ N0 .
= P (Nt = k) = pk (t)
• Nachwirkungsfreiheit
Für alle s ≥ 0, t ≥ 0 und alle k, n ∈ N0 sind die Ereignisse N(0,s] = k und
N(s,s+t] = n stochastisch unabhängig.
• Ordinarität
Für alle s ≥ 0 ist
P N(s,s+t] > 1 = o(t).
Mit dem Symbol o(t) kennzeichnet man eine Funktion der Variable t, die schneller als t
”
gegen Null konvergiert”, d.h.
o(t)
= 0.
lim+
t→0
t
Die Eigenschaft der Ordinarität besagt daher in einer etwas umständlichen Form, dass
die Wahrscheinlichkeit für das mehrfache Springen des Zählers zu einem Zeitpunkt gleich
Null ist.
62
Was kann man unter diesen Annahmen über die Wahrscheinlichkeiten
pk (t) = P (Nt = k)
für die Zählerstände zum Zeitpunkt t bzw. die Anzahl der Sprünge im Zeitintervall [0, t]
aussagen?
1. Im Intervall [0, s + t] mit s, t ≥ 0 erfolgt genau dann kein Zählersprung, wenn in den
beiden Teilintervallen (0, s] und (s, s + t] keiner stattfindet. Aus den Eigenschaften der
Stationarität und der Nachwirkungsfreiheit ergibt sich daher
N(0,s] = 0 ∩ N(s,s+t] = 0 =
= P N(0,s] = 0 · P N(s,s+t] = 0 = P (Ns = 0) · P (Nt = 0)
P (Ns+t = 0) = P
oder
p0 (s + t) = p0 (s) · p0 (t).
Bekanntlich ist eine Funktion p0 (t) mit dieser Eigenschaft von der Form p0 (t) = xt , wobei
wegen 0 < p0 (t) < 1 auch 0 < x < 1 oder p0 (t) = e−λt mit einer positiven reellen Zahl λ
gilt. Also:
p0 (t) = e−λt .
Diese Funktion besitzt die Taylorreihe
p0 (t) = 1 − λt +
(λt)2 (λt)3
−
±··· ,
2!
3!
wobei der Term in runden Klammern vom Typ o(t) ist. Wenn man sich nur für das
Verhalten von p0 (t) für t → 0 interessiert, kann man auch
p0 (t) = 1 − λt + o(t)
schreiben.
2. Aus (Nt = 0) ∪ (Nt = 1) ∪ (Nt > 1) = Ω (Vereinigung von disjunkten Mengen) folgt
p1 (t) = 1 − p0 (t) − P (Nt > 1)
und mit der Eigenschaft der Ordinarität ergibt sich
p1 (t) = 1 − (1 − λt + o(t)) − o(t)
und unter Zusammenfassung aller Terme vom Typ o(t) zu einem:
p1 (t) = λt + o(t).
63
3. Für k ≥ 1 zerlegen wir das Ereignis (Ns+t = k) nach den möglichen Kombinationen
für Zählersprünge in den Teilintervallen (0, s] und (s, s + t].
(Ns+t = k) =
N(0,s] = k ∩ N(s,s+t] = 0
∪ N(0,s] = k − 1 ∩ N(s,s+t] = 1
∪ N(0,s] = k − 2 ∩ N(s,s+t] = 2
..
. ∪ N(0,s] = 0 ∩ N(s,s+t] = k
=
N(0,s] = k ∩ N(s,s+t] = 0
∪ N(0,s] = k − 1 ∩ N(s,s+t] = 1
∪ Bs,t .
Die Menge Bs,t ist eine Teilmenge
von
N
>
1
, weshalb für die Wahrscheinlichkeiten
(s,s+t]
P (Bs,t ) ≤ P N(s,s+t] > 1 und wegen der Eigenschaft der Ordinarität P (Bs,t ) = o(t) gilt.
Wie unter Punkt 1 ergibt sich daraus
pk (s + t) = pk (s) · p0 (t) + pk−1 (s) · p1 (t) + o(t) =
= pk (s) (1 − λt + o(t)) + pk−1 (s) (λt + o(t)) + o(t)
und unter Zusammenfassung aller o(t)-Terme
pk (s + t) − pk (s) = λt (pk−1 (s) − pk (s)) + o(t).
Division beider Seiten durch t ergibt
pk (s + t) − pk (s)
o(t)
= λ (pk−1(s) − pk (s)) +
.
t
t
Für t → 0 existiert der Limes auf der rechten Seite und damit der des Differenzenquotienten auf der Linken, so dass man mit t → 0 die Differentialgleichung
p′k (s) = λpk−1 (s) − λpk (s)
erhält. Die Anfangsbedingungen für die Funktionen pk (s) sind dabei durch
pk (0) = P (N0 = k) = P (Ø) = 0
für k = 1, 2, 3, . . . gegeben.
4. Mit dem Ansatz
pk (s) = e−λs qk (s)
wird die obige Differenzialgleichung zu
−λe−λs qk (s) + e−λs qk′ (s) = λe−λs qk−1 (s) − λe−λs qk (s)
64
was sich mit Division durch e−λs und Streichen der gleichen Terme auf beiden Seiten der
Gleichung zu
qk′ (s) = λqk−1 (s)
für k = 1, 2, 3, . . . vereinfacht. Zusammen mit q0 (s) = 1 und qk (0) = 0 für alle k ≥ 1 ergibt
sich die Lösung
(λs)k
qk (s) =
k!
oder
(λt)k
pk (t) = eλt
.
k!
Die Wahrscheinlichkeiten pk (t) = P (Nt = k) für die Anzahl der Zählersprünge im Zeitintervall [0, t] sind also durch die Poisson-Verteilung mit dem Parameter λ gegeben.
Beispiel 7.16. Der große Jubiläumstag
Genau in einem Jahr feiert ein großer Betrieb seinen 100. Geburtstag. Die Direktion
beschließt, allen Kindern von Betriebsangehörigen, die an diesem Tag geboren werden, ein
Sparkonto von e 3000 anzulegen. Da rund 730 Kinder pro Jahr geboren werden, erwartet
man Auslagen von e 6000. Um Zufallsschwankungen vorzubeugen, plant man e 15.000
ein. Wie groß ist die Wahrscheinlichkeit, dass das Geld nicht reicht?
Das Zufallsexperiment besteht aus einer 730-fachen (n = 730 Kinder/Jahr) Wiederholung
eines Einzelexperiments (Geburt). Die Wahrscheinlichkeit des Eregnisses, dass Geburtstag
1
eines Kindes auf Jubiläumstag fällt, ist gleich p = 365
. Wir haben hier also zu tun mit
1
eine Bernoulli-Versuchsreihe der Länge n = 730 mit Erfolgswahrscheinlichkeit p = 365
.
Zur Beschreibung des Zufallsexperiment benutzen wir aber die Poisson-Verteilung mit
dem Parameter λ = p · n = 2.
Betrachten wir die Ereignisse
Ak : k Kinder werden am Jubiläumstag geboren”
”
Das Geld reicht nicht, falls mehr als 5 Kinder geboren werden. Das heisst, zu berechnen
ist die Wahrscheinlichkeit
!
!
∞
5
[
[
P
Ak
= 1−P
Ak = 1 − f (0) − f (1) − . . . − f (5) =
k=6
k=0
0
= 1−
2 −2 21 −2
25
e − e − . . . − − e−2 ≈ 0.0168.
0!
1!
5!
Die Wahrscheinlichkeit einer unangenehmen Zufallsüberraschung ist also gering. Man
rechnet nicht damit.
Anmerkung: Am Jubiläumstag wurden 36 Kinder geboren! Die Direktion hat es also
verstanden, ihre Angestellten auch für außerbetriebliche Aktivitäten zu begeistern.
65
8
Geometrische Wahrscheinlichkeiten
Dieses und die folgenden Kapitel beschäftigen sich mit der Wahrscheinlichkeitsrechnung
auf überabzählbaren Ergebnismengen Ω, worunter hauptsächlich die Menge R der reellen
Zahlen und die Mengen
Rn = {x = (x1 , x2 , . . . , xn ) : xi ∈ R}
der n-dimensionalen Vektoren mit reellen Komponenten zu verstehen sind.
Als Ausgangspunkt befassen wir uns wie bei den Laplace-Experimenten mit der Frage, wie
man die Wahrscheinlichkeit eines Ereignisses unter der Annahme berechnet, dass jedes
Ergebnis ω die gleiche Chance des Auftretens besitzt. Zur Veranschaulichung betrachten
wir dazu das folgende Problem:
Beispiel 8.1. Zwei Personen beschließen sich irgendwann zwischen zwölf und ein Uhr an
einem bestimmten Ort zu treffen, wobei aber jede höchstens 20 Minuten auf die andere
wartet und wieder geht, falls diese in der Zwischenzeit nicht erscheint.
Wie groß ist die Wahrscheinlichkeit, dass die beiden sich treffen?
Wenn wir mit x1 und x2 die Ankunftszeiten der beiden Personen in Minuten nach zwölf
Uhr messen, so erhalten wir als Menge der möglichen Ergebnisse
Ω = (x1 , x2 ) ∈ R2 : 0 ≤ xi ≤ 60
und das Ereignis Treffen” wird durch die Menge
”
A = {(x1 , x2 ) ∈ Ω : |x1 − x2 | ≤ 20}
repräsentiert.
Als Ansatz für eine Wahrscheinlichkeitsverteilung gehen wir wie bei den Laplace- Experimenten von dem Postulat aus, dass alle Paare (x1 , x2 ) von Ankunftszeiten gleich möglich
sind. Die Formel P {(x1 , x2 )} = p führt jedoch hier nicht zum Ziel, da Ω unendlich viele
Elemente enthält und somit p = 0 gesetzt werden müsste.
Statt dessen unterteilen wir Ω in endlich viele gleichartige Quadrate Ik . Das Postulat, dass
alle Ankunftszeitenpaare gleich möglich sein sollen, läßt sich dann dahingehend interpretieren, dass die Wahrscheinlichkeit der Ereignisse (x1 , x2 ) liegt in Ik ” für alle Quadrate
”
Ik die gleiche ist.
Aus der Tatsache, dass die Mengen Ik eine Partition von Ω bilden und der für Wahrscheinlichkeiten stets gültigen Additionsregel folgt dann, dass die Wahrscheinlichkeit eines dieser
Quadrate von der Form
P (Ik ) =
1
|Ik |
=
Summe aller Quadrate
|Ω|
ist, wobei |Ik | bzw. |Ω| die Flächeninhalte dieser beiden Quadrate sind. Als Näherungswert
für die Wahrscheinlichkeit des Ereignisses A bietet sich in diesem Rahmen die Summe
66
der Wahrscheinlichkeiten der Ik an, die mit der Menge A einen nichtleeren Durchschnitt
aufweisen. Verfeinert man die Unterteilung der Menge Ω immer weiter, so konvergieren
diese Näherungswerte gegen den Grenzwert
P (A) =
|A|
|Ω|
mit der Fläche |A| der Menge A.
Als ersten Ansatz für Wahrscheinlichkeitsverteilungen über Teilmengen des Rn als Ergebnismenge erhält man so den der geometrischen Wahrscheinlichkeiten:
Definition 8.2. Sind alle Punkte Ω aus einer Teilmenge Ω bei einem Zufallsexperiment
als gleich möglich anzusehen, so ist die Wahrscheinlichkeit, dass das Ergebnis in eine
Teilmenge A von Ω fällt, gegeben durch |A|
.
|Ω|
Dabei ist |M| der Inhalt der Menge M, im zweidimensionalen also die Fläche und in drei
Dimensionen das Volumen.
Bei der Umsetzung dieses so einfach klingenden Ansatzes in ein mathematisches Modell
ergeben sich einige Schwierigkeiten sowohl praktischer als auch theoretischer Natur. Zum
Einen gibt es das theoretische Problem, welche Teilmengen A des Rn überhaupt eine
Fläche oder einen Inhalt besitzen, und die damit zusammenhängende Frage, ob die Gesamtheit dieser Mengen eine σ-Algebra bildet. Damit werden wir uns im nachfolgenden
Kapitel beschäftigen.
Zum Anderen erweist es sich manchmal, dass die Beschreibung eines Zufallsexperiments,
in der die Ausdrücke zufallig oder gleich moglich vorkommen, mehrere mathematische Interpretationen zulässt, die dann auch zu verschiedenen Wahrscheinlichkeiten für einzelne
Ereignisse führen.
67
9
Überabzählbare Wahrscheinlichkeitsräume
Beim Ansatz von Wahrscheinlichkeiten für Teilmengen des Rn stößt man auf ein technisches Problem. Man kann als Ereignisalgebra nicht die Menge aller Teilmengen des Rn
verwenden, da es – wie man beweisen kann – keine Mengenfunktion auf dieser σ-Algebra
gibt, die gleichzeitig alle drei Kolmogoroffschen Axiome erfüllt. Um auf der Basis dieser
Axiome Wahrscheinlichkeitsrechnung zu betreiben, muss man sich auf eine kleinere σAlgebra zurückziehen. Ein Ansatz dazu wurde im vorgehenden Kapitel vorgeführt. Wir
betrachten Mengen, die einen Inhalt besitzen. Dieser Ansatz wird im folgenden präzisiert.
9.1
Intervalle
Die von ihrer Struktur her einfachsten Mengen, denen man einen Inhalt zuordnen kann,
sind die Intervalle.
Eindimensionale Intervalle sind Teilmengen der reellen Zahlenachse der Form
(a, b)
[a, b)
(a, b]
[a, b]
(a, ∞)
[a, ∞)
(−∞, b)
(−∞, b]
(−∞, ∞)
=
=
=
=
=
=
=
=
=
{x ∈ R : a < x < b},
{a} ∪ (a, b),
(a, b) ∪ {b},
{a} ∪ (a, b) ∪ {b},
{x ∈ R : x > a},
{a} ∪ (a, ∞),
{x ∈ R : x < b},
(−∞, b) ∪ {b},
R.
mit rellen Zahlen −1 < a ≤ b < 1. Die Gesamtheit dieser eindimensionalen Intervalle
bezeichnen wir mit I. Die Länge |I| eines Intervalls mit den Endpunkten a und b ist die
Differenz |I| = b − a unabhängig davon, ob die Randpunkte zum Intervall gehören oder
nicht. Für die Fälle a = −∞ oder b = ∞ ist auch der Wert ∞ für die Länge zugelassen.
Zweidimensionale Intervalle sind Rechtecke, d. h. Teilmengen I des R2 von der Form
I = (x1 , x2 ) ∈ R2 : x1 ∈ I1 , x2 ∈ I2 = I1 × I2 ,
wobei I1 und I2 jeweils eindimensionale Intervalle sind.
Die Fläche eines Rechtecks ist bekanntlich als Länge mal Breite definiert, d. h.
|I| = |I1 × I2 | = |I1 | · |I2 |.
Allgemein sind n-dimensionale Intervalle cartesische Produkte
I = I1 × I2 × · · · × In = {(x1 , x2 , . . . , xn ) ∈ Rn : xk ∈ Ik für k = 1, 2, . . . , n} .
68
Als Inhalt des Intervalls I legen wir das Produkt
|I| = |I1 × I2 × · · · × In | = |I1 | · |I2 | · . . . · |In |
fest, was im Zweidimensionalen mit der Fläche eines Rechtecks und im Dreidimensionalen
mit dem Volumen eines Quaders übereinstimmt. Bei Intervallen |Ik | mit nichtendlicher
Länge gilt bei der Auswertung des Produkts die Regel 0 · ∞ = 0.
Die Menge aller n-dimensionalen Intervalle bezeichnen wir im folgenden mit In .
9.2
Borelsche Mengen und Lebesguesches Maß
Die Menge In ist keine σ-Algebra, denn im allgemeinen ist bereits die Vereinigung zweier
Intervalle kein Intervall mehr. Sie wird daher so erweitert, dass eine σ-Algebra entsteht.
Definition 9.1. Die kleinste σ-Algebra über dem Rn , die die Menge In der n-dimensionalen Intervalle enthält, heißt die σ-Algebra der Borelschen Mengen und wird mit Bn
bezeichnet.
Für B1 schreiben wir auch nur B.
Unter der kleinsten σ-Algebra ist dabei der Durchschnitt aller σ-Algebren zu verstehen,
die die Menge In enthalten. (Wie man sich leicht überzeugt, ist der Durchschnitt von
σ-Algebren wieder eine σ-Algebra.)
Die Elemente B von Bn heißen – wie aus der Bezeichnungsweise schon hervorgeht –
Borelsche Mengen.
Das Konzept des Inhalts von Intervallen lässt sich auf die Borelschen Mengen fortsetzen.
Es gilt der
Satz 9.2. Es gibt eine Abbildung λ : Bn → [0, ∞] mit den folgenden Eigenschaften:
• λ(B) ≥ 0 für alle B ∈ Bn ;
S
P
• λ
Bk = λ (Bk ) für alle paarweise disjunkten Bk ∈ Bn ;
k
k
• λ(I) = |I| für alle I ∈ In .
Die Abbildung λ ist durch diese drei Eigenschaften eindeutig bestimmt.
Definition 9.3. Die Funktion λ heißt das Lebesguesche Maß auf dem Rn .
Es gibt Teilmengen des Rn , die keine Borelschen Mengen sind. Das Mengensystem Bn ist
aber groß genug, dass es alle praktisch relevanten Mengen enthält. Insbesondere sind alle
offenen und abgeschlossenen Teilmengen des Rn Borelsch.
69
9.3
Verteilungen auf dem Rn
Für Wahrscheinlichkeitsverteilungen auf den Borelschen Mengen des Rn gibt es eine Kurzbezeichnung:
Definition 9.4. Eine Wahrscheinlichkeitsverteilung auf den Borelschen Mengen des Rn
heißt eine Verteilung auf dem Rn oder n-dimensionale Verteilung.
Insbesondere, eine Verteilung auf der Menge R der reellen Zahlen wird eine eindimensionale Verteilung genannt.
Mit Hilfe der Borelschen Mengen und des Lebesgueschen Maßes kann man das Konzept
der geometrischen Wahrscheinlichkeiten jetzt auf eine sichere Basis stellen. Ist Ω eine
Borelsche Menge aus dem Rn mit 0 < λ(Ω) < ∞, so kann man leicht nachvollziehen, dass
aus den Eigenschaften des Lebesgueschen Maßes die Gültigkeit der Kolmogoroffschen
Axiome für die Mengenfunktion
P (B) =
λ(B ∩ Ω)
λ(Ω)
(9.17)
auf Bn folgt, d.h. dass es sich um eine n-dimensionale Verteilung handelt. Diese Verteilung heißt die uniforme Verteilung oder Gleichverteilung auf der Menge Ω und wird im
folgenden kurz mit U(M)-Verteilung bezeichnet.
Für B ⊆ Ω ist P (B) = λ(B)/λ(Ω) und entspricht der Formel für die geometrische Verteilung, die aus der Forderung hergeleitet wurde, dass alle Ergebnisse gleich möglich sind.
Für B ∩ Ω = Ø ist P (B) = 0. Dies ist eine schwächere Aussage als die, dass nur Ergebnisse aus der Menge Ω möglich sind. Für die Berechnung von Wahrscheinlichkeiten hat
das jedoch keine Konsequenzen. Deshalb ist in der Wahrscheinlichkeitsrechnung üblich,
nicht mit Wahrscheinlichkeiten auf Teilmengen Ω ⊆ Rn als Ergebnismengen zu arbeiten,
sondern als Ergebnismenge den ganzen Rn zu wählen, wobei Borelschen Mengen B mit
B ∩ Ω = Ø die Wahrscheinlichkeit P (B) = 0 zugeordnet wird.
9.4
Das Lebesgue-Integral
Das wichtigste mathematische Hilfsmittel beim Umgang mit Verteilungen auf dem Rn
ist die Integralrechnung, wobei unter einem Integral im allgemeinen das Lebesquesche
Integral (L-Integral ) zu verstehen ist. In den Beispielen dieses Skripts und in den meisten
praktischen Anwendungsfällen sind die Integranden im Riemannschen Sinne integrierbar,
so dass man die zu berechnenden Integrale als Riemann-Integrale (R-Integrale) auffassen
kann.
Das Integral einer Funktion f : Rn → R über den gesamten Rn als Integrationsbereich
bezeichnen wir mit
Z
f (x) dx.
70
Soll nur über eine Borelsche Teilmenge B ⊂ Rn integriert werden, so verwenden wir
entweder die Bezeichnung
Z
f (x) dx
B
oder – was manchmal zweckmäßiger ist – wir setzen die Funktion f ausserhalb der Menge
B gleich Null und integrieren die so abgeänderte Funktion über den gesamten Rn . Diese
Änderung wird dadurch bewirkt, dass wir die Funktion f mit der Indikatorfunktion 1B (x)
der Menge B multiplizieren:
1
für x ∈ B,
1B (x) =
0
für x 6∈ B.
Da ein Bereich, in dem der Integrand Null ist, nichts zum Wert des Integrals beiträgt, ist
Z
Z
f (x) dx =
1B (x) · f (x) dx.
B
Wird eine Funktion f : R → R auf der reellen Zahlenachse über ein Intervall mit den
Randpunkten a < b integriert, so schreibt man meistens
Z a
f (x) dx.
b
Dabei ist auch a = −∞ und b = ∞ zugelassen.
9.5
Absolutstetige Verteilungen
Definition 9.5. Eine Lebesgue-integrierbare Funktion f : Rn → R mit den Eigenschaften
• f (x) ≥ 0 für fast alle x;
Z
•
f (x) dx = 1.
heißt eine Wahrscheinlichkeitsdichte.
Anstelle von Wahrscheinlichkeitsdichte sind auch die kürzeren Bezeichnungen Dichte oder
Dichtefunktion gebräuchlich.
Satz 9.6. Ist f : Rn → R eine Wahrscheinlichkeitsdichte, so ist die Mengenfunktion
P : Bn → R, definiert durch
Z
P (B) =
1B (x) · f (x) dx
für B ∈ Bn
(9.18)
eine n-dimensionale Verteilung.
71
Beweis:
1. Wegen 0 ≤ 1B (x) · f (x) ≤ f (x) für fast alle x ist 0 ≤
und damit 0 ≤ P (B) ≤ 1.
R
2. Da 1Rn (x) = 1 für alle x, ist P (Rn ) = f (x) dx = 1.
R
1B (x) · f (x) dx ≤
R
f (x) dx
3. Fur disjunkte Mengen B1 und B2 gilt 1B1 ∪B2 (x) = 1B1 (x) + 1B2 (x). Wegen der Linearität des Lebesgue-Integrals folgt daraus
Z
Z
P (B1 ∪ B2 ) =
1B1 ∪B2 (x) · f (x) dx =
(1B1 (x) + 1B2 (x)) · f (x) dx =
Z
Z
=
1B1 (x) · f (x) dx + 1B2 (x) · f (x) dx = P (B1 ) + P (B2 ) .
Eine entsprechende Regel gilt natürlich auch für die Summe einer endlichen Anzahl n > 2
von paarweise disjunkten Mengen Bk .
Für abzählbar viele paarweise disjunkte Borelsche Mengen Bk ist zunächst
!
Z
∞
n
n
X
X
[
P (Bk ) = lim
P (Bk ) = lim P
Bk = lim
1An (x) · f (x) dx,
n→∞
k=1
wobei An =
n
S
n→∞
k=1
k=1
n→∞
Bk .
k=1
Wegen A1 ⊆ A2 ⊆ . . . mit
∞
S
An =
n=1
∞
S
k=1
Bk =: B bilden die Funktionen gn (x) = 1An (x) ·
f (x) eine monoton steigende Funktionenfolge mit lim gn (x) = 1B (x) · f (x). Nach dem
n→∞
Konvergenzsatz von Beppo Levi gilt daher
!
Z
Z
∞
n
X
[
P (Bk ) =
lim 1An (x) · f (x) dx =
1B (x) · f (x) dx = P (B) = P
Bk .
k=1
n→∞
k=1
und damit auch das dritte Axiom.
Bezeichnung: Eine Verteilung der Form (9.18) heißt eine absolutstetige Verteilung und
die Funktion f Dichte zur Verteilung P .
Sind f1 und f2 Dichten zur gleichen Verteilung P , so unterscheiden sie sich höchstens auf
einer Nullmenge, d. h. – locker gesprochen – sie sind im wesentlichen gleich.
Beispiel 9.7. Die uniforme Verteilung (9.17) besitzt die Dichte

 1
falls x ∈ Ω,
1
λ(Ω)
f (x) =
· 1Ω (x) =

λ(Ω)
0
falls x 6∈ Ω.
Für die Indikatorfunktionen zweier Mengen A und B gilt 1A∩B (x) = 1A (x) · 1B (x), so
dass
Z
Z
Z
1
1
λ(B ∩ Ω)
1B (x) · f (x) dx =
1B (x) · 1Ω (x) dx =
1B∩Ω (x) dx =
.
λ(Ω)
λ(Ω)
λ(Ω)
72
Ist Ω = (a, b) ⊂ R, a < b, dann


1
|b − a|
f (x) =

0
falls x ∈ (a, b),
falls x 6∈ (a, b).
Eine Verteilung erhält man nach dem obigen Satz einfach
R dadurch, dass man eine Lebesgue-integrierbare Funktion g(x) ≥ 0 mit dem Wert c = g(x) dx normiert: f (x) = 1c g(x)
ist eine Dichte und legt durch (9.18) eine Verteilung fest.
Beispiel 9.8. Die Funktion
1
g(x) = e− 2 x
2
mit x ∈ R ist positiv und im Lebesgueschen wie im uneigentlich-Riemannschen Sinn
integrierbar (sie wird für betragsmäßig große x durch 1/x2 majorisiert). Zur Berechnung
des Integrals benötigt man einen kleinen Trick. Man berechnet nicht c sondern
Z ∞
2 Z ∞
Z ∞
Z ∞ Z ∞
2
c =
g(x) dx =
g(x) dx ·
g(y) dy =
g(x)g(y) dy dx.
−∞
−∞
−∞
−∞
−∞
Nach dem Satz von Fubini ist das letzte Integral gleich dem Bereichsintegral über den
gesamten R2 :
Z
Z
1
2
2
2
c =
g(x)g(y) d(x, y) =
e− 2 (x +y ) d(x, y).
R2
R2
Dieses Bereichsintegral wandeln wir durch Übergang zu Polarkoordinaten um:
x = r cos(φ) = x(r, φ),
y = r sin(φ) = y(r, φ).
Der Integrationsbereich wird dadurch die Menge
M = {(r, φ) : 0 ≤ r < ∞, 0 ≤ φ < 2π} = [0, ∞) × [0, 2π).
Die Funktionaldeterminante ist
Wegen x2 + y 2 = r 2
∂x ∂x ∂(x, y)
∂r ∂φ = ∂y ∂y = r.
∂r ∂φ ∂(r, φ)
sin2 (φ) + cos2 (φ) = r 2 erhält man dadurch
Z
1 2
2
c =
re− 2 r d(r, φ)
M
und weiter durch Übergang zum iterierten Integral
Z ∞ Z 2π
Z ∞
Z
2
− 12 r 2
− 21 r 2
c =
re
dφ dr =
re
dr ·
0
0
0
2π
1 dφ = 2π
0
Der Integrand des letzten Integrals besitzt die Stammfunktion
1 2
so dass c2 = 2π bzw. c =
√
−e− 2 r
2π.
73
Z
∞
0
1 2
re− 2 r dr.
Bezeichnung: Die eindimensionale Verteilung mit der Dichte
1 2
1
ϕ(x) = √ e− 2 x
2π
heißt die standardisierte Normalverteilung oder N (0, 1)-Verteilung.
10
Eindimensionale Verteilungen
In diesem Kapitel werden einige für die eindimensionale Verteilungen spezifische Themen
behandelt. Es sind dies – analog zu den bei diskreten Verteilungen eingeführten Größen –
der Begriff der Zufallsvariablen und deren Kennwerte wie Erwartungswert und Varianz,
und auch die Verteilungsfunktion als Charakteristikum für solche Verteilungen.
10.1
Zufallsvariable
Das Konzept einer Zufallsvariablen wurde im Kapitel 7.2 für diskrete Verteilungen erläutert. In diesem Abschnitt wird der Begriff der Zufallsvariablen präziser gefasst.
Definition 10.1. Eine Abbildung X : Ω → R auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit der Eigenschaft
(X ∈ B) ∈ A
für alle B aus der σ-Algebra B der Borelschen Mengen auf R, heißt eine Zufallsvariable.
Es ist unmöglich anhand dieser Definition nachzuprüfen, ob eine vorgegebene Funktion
X : Ω → R eine Zufallsvariable ist, da es keine Methode gibt, nach der man alle Borelschen
Mengen erzeugen kann. Man kann aber zeigen, dass man sich zum Test der Messbarkeit
auf die speziellen Mengen
(X ≤ t) = (X ∈ (−∞, t]) = {ω ∈ Ω : X(ω) ≤ t}
beschränken kann:
Satz 10.2. Eine Funktion X : Ω → R auf einem Wahrscheinlichkeitsraum (Ω, A, P ) ist
genau dann eine Zufallsvariable, wenn für alle reellen Zahlen t die Mengen (X ≤ t) in der
σ-Algebra A liegen.
Der Test der Messbarkeit nach diesem Satz lässt sich mit dem Problem verbinden, ob für
alle reelle Zahlen t die Mengen (X ≤ t) im Definitionsbereich der Wahrscheinlichkeitsverteilung P liegen. Für die praktische Anwendung heißt das: Wenn es gelingt, für alle reellen
Zahlen t die Wahrscheinlichkeit P (X ≤ t) zu berechnen, dann ist X eine Zufallsvariable.
74
10.2
Die Verteilung einer Zufallsvariable
Ist (Ω, A, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable, so liegen
die Urbilder (X ∈ B) für alle B ∈ B im Definitionsbereich der Wahrscheinlichkeit P .
Durch
PX (B) = P (X ∈ B)
erhält man daher eine wohldefinierte Mengenfunktion PX : B → R. Wie der Buchstabe P
schon andeutet, gilt
Satz 10.3. Die Abbildung PX ist eine Wahrscheinlichkeitsverteilung.
Der Beweis dieser Aussage ist leicht nachzuvollziehen (vgl. Satz 7.4).
Bezeichnung: Die Wahrscheinlichkeit PX heißt die Verteilung der Zufallsvariable X.
Zur schematischen Darstellung dieser Situation werden wir im folgenden stets das Diagramm
X
(Ω, A, P ) −→ (R, B, PX )
verwenden.
10.3
Zufallsvariable mit absolutstetiger Verteilung
Bezeichnung: Eine Zufallsvariable X : Ω → R mit absolutstetiger Verteilung PX werden
wir eine stetige (stetig verteilte) Zufallsvariable nennen.
Die Dichte fX zur Verteilung PX werden wir kurz als Dichte von X bezeichnen.
Seien a, b reelle Zahlen mit a < b, dann
PX ([a, b]) = P (a ≤ X ≤ b) =
Z
b
fX (x) dx.
a
Mit der physikalischen Interpretation der Dichte einer absolutstetigen eindimensionalen
Verteilung als der spezifischen Dichtefunktion einer über die reellen Zahlenachse kontinuierlich verteilten Wahrscheinlichkeitsmasse lassen sich die Konzepte aus dem Kapitel 7.2
vollständig übertragen, wobei an die Stelle des Summenzeichens das Integral tritt.
Definition 10.4. Sei X eine stetige Zufallsvariable mit der Dichte f . Dann heißt
Z ∞
m1 (PX ) = µ = E(X) :=
x · f (x) dx
−∞
der Erwartungswert von X (oder von PX ) und
2
m̂2 (PX ) = σ = V (X) := E (X − µ)
die Varianz von X (oder von PX ).
75
2
=
Z
∞
−∞
(x − µ)2 · f (x) dx
Es wird vorausgesetzt, das die obigen Integrale im Lebesgueschen Sinne existieren. Sind die
Integranden im Riemannschen Sinne integrierbar, so setzt man voraus, dass die Integrale
absolut konvergent sind.
Andernfalls besitzt die Zufallsvariable keinen Erwartungswert bzw. keine Varianz.
Alle Anmerkungen aus Abschnitten 7.5.1 und 7.6.1 gelten sinngemäß auch für den Fall
einer stetigen Zufallsvariable, also insbesondere Monotonie und Linearität des Erwartungswertes.
Die in Sätzen 7.9 und 7.10 im diskreten Fall angegeben Darstellungen von E[g(X)] und
E[h(X, Y )] müssen für stetige Zufallsvariable umgeschrieben werden:
• Ist X : Ω → R eine stetige Zufallsvariable mit Dichte fX und ist g : R → R eine
integrierbare Abbildung, dann gilt
Z ∞
E[g(X)] =
g(x) · fX (x) dx.
−∞
• Sind X : Ω → R und Y : Ω → R stetige Zufallsvariablen mit gemeinsamer Dichte
f(X,Y ) und ist h : R2 → R eine Abbildung so, dass h · f(X,Y ) integrierbar ist, dann
gilt
Z ∞Z ∞
E[h(X, Y )] =
h(x, y) · f(X,Y ) (x, y) dx dy.
−∞
−∞
Die Existenz der entsprechenden Integrale kann auf der rechten oder linken Seite nachgeprüft werden.
Analog zur diskreten Fall beweist man auch den Steinerschen Satz
V (X) = E X 2 − (E(X))2
und die Ungleichung von Tschebyscheff
PX (Bε ) ≤
V (X)
.
ε2
mit der Menge Bε = {x ∈ R : |x − µ| ≥ ε}.
Beispiel 10.5 (Erwartungswert und Varianz der gleichverteilte Zufallsvariable).
Sei X eine Zufallsvariable mit der uniformen Verteilung U(a, b), a < b, (s. Bsp. 9.7), d. h.
mit der Dichte

1

falls x ∈ (a, b),
|b − a|
f (x) =

0
falls x 6∈ (a, b).
Der Erwartungswert von X ist dann gleich
E(X) =
Z
x · f (x) dx =
Z
a
b
b
1
1
x2 1
x·
dx =
· = (a + b).
b−a
b−a 2 a
2
76
Zur Berechnung der Varianz von X benutzen wir den Steinerschen Satz und bestimmen
zuerst
b
Z
Z b
1
x3 1 2
1
2
2
2
E X =
x · f (x) dx =
x ·
dx =
· =
a + ab + b2 ,
b−a
b−a 3 a
3
a
Dann
1
1 2
1
V (X) = E X 2 − (E(X))2 =
a + ab + b2 − (a + b)2 =
(b − a)2 .
3
4
12
10.4
Die Verteilungsfunktion
Die absolutstetigen Verteilungen auf R, die sich durch eine Dichte beschreiben lassen, d.h.
Z
P (B) =
1B (x) · f (x) dx
bilden nur eine Teilklasse der Gesamtheit der Wahrscheinlichkeitsverteilungen auf der reellen Zahlenachse. Eine vollständige Charakterisierung der eindimensionalen Verteilungen
erhält man durch die Verteilungsfunktion:
Definition 10.6. Ist X : Ω → R eine Zufallsvariable auf dem Wahrscheinlichkeitsraum
(Ω, A, P ), so heißt die Funktion F : R → R, definiert durch
F (t) := PX (−∞, t] = P (X ≤ t)
die Verteilungsfunktion der Zufallsvariable X (oder der Verteilung PX ).
Beispiel 10.7 (Die Verteilungsfunktion der Zufallsvariable mit der uniformen Verteilung).
Sei X eine Zufallsvariable mit der U[a, b]-Verteilung. Nach der Definition haben wir
F (t) := PX (−∞, t] =
mit λ([a, b]) = b − a. Wegen



Ø
(−∞, t] ∩ [a, b] =
[a, t]

 [a, b]
ergibt sich die Verteilungsfunktion zu


 0
t−a
F (t) =
b−a

 1
λ ((−∞, t] ∩ [a, b])
λ([a, b])
falls t < a,
falls a ≤ t ≤ b,
falls t > b
falls t < a,
falls a ≤ t ≤ b,
falls t > b.
77
(10.19)
Die Verteilungsfunktion lässt sich wie folgt charakterisieren:
Satz 10.8. Eine Verteilungsfunktion besitzt die folgenden Eigenschaften:
❶
lim F (t) = 0 und lim F (t) = 1;
t→−∞
t→∞
❷
F ist monoton wachsend, d. h. aus s ≤ t folgt F (s) ≤ F (t);
❸ F ist rechtseitig stetig, d. h. F t+
F (t) = F (t0 ),
0 := lim
t→t+
0
wenn wir mit F t+
den rechtsseitigen Grenzwert (t > t0 ) der Funktion F an der
0
Stelle t0 bezeichnen.
Beweis:
1. Für die erste Eigenschaft betrachten wir eine beliebige monotone und nicht beschränkte
Folge reeller Zahlen tn . Für die Intervalle In := (−∞, tn ] gilt dann In ր (−∞, ∞) = R
und F (tn ) ր 1 ist nichts anderes als die Eigenschaft aus dem Satz 3.5 für monotone
Folgen von Ereignissen mit den hier eingeführten Bezeichnungen.
Die nächste Aussage erhält man, indem man eine monoton fallende Zahlenfolge (tn ) betrachtet, wobei tn ց −∞. Für die Intervalle In gilt dann In ց Ø und der Satz 3.6 liefert
das Verhalten von F .
2. Für s ≤ t ist (−∞, s] ⊆ (−∞, t], die Monotonie von F ergibt sich so aus Regel (3.5).
3. Betrachten wir wieder eine monoton fallende Zahlenfolge (tn ), wobei diesmal tn ց t0 .
Für die Intervalle In gilt dann In ց (−∞, t0 ] und nochmal der Satz 3.6 liefert das Verhalten von F .
Diese Eigenschaften charakterisieren eine Verteilungsfunktion bereits vollständig, denn
man kann die folgende Aussage beweisen:
Satz 10.9. Zu jeder Funktion F : R → R mit den in Satz 10.8 aufgeführten Eigenschaften
gibt es genau eine Verteilung PX auf R mit PX (−∞, t] = F (t) für alle t ∈ R.
Beispiel 10.10. Die Funktion
F (t) =
0
−λt
1−e
falls t ≤ 0,
falls t > 0
(10.20)
mit einer Konstanten λ > 0 erfüllt alle Eigenschaften einer Verteilungsfunktion. Die zugehörige Verteilung heißt die Exponentialverteilung mit Parameter λ oder kurz die E(λ)Verteilung.
Um einen der Anwendungsbereiche der Exponentialverteilung darzustellen, betrachten
wir für s ≥ 0 die Ereignisse As := (s, ∞). Die Komplementärmenge zum Intervall (s, ∞)
ist das Intervall (−∞, s], so dass
P (As ) = 1 − P (As ) = 1 − P (−∞, s] = 1 − F (s) = e−λs
78
woraus sich die Gleichung
P (As+t ) = P (As ) · P (At )
für alle nichtnegativen rellen Zahlen s, t ergibt. Aus dieser Gleichung wiederum folgt – auf
dem umgekehrten Weg wie bei der Herleitung der geometrischen Verteilung in Abschnitt
7.8.4 – die Identität
P (As+t |As ) = P (At )
d.h. die Gedächtnislosigkeit. Die Exponentialverteilung ist somit das kontinuierliche Gegenstück zur geometrischen Verteilung. Man benutzt sie beispielsweise zur Beschreibung
der Lebensdauer nahezu verschleißfreier Geräte, wenn die Zeit nicht in diskreten Beobachtungsintervallen, sondern kontinuierlich gemessen wird.
Die beiden Verteilungsfunktionen (10.19) und (10.20) sind in allen Punkten t ∈ R stetig.
Diese Eigenschaft gilt aber nicht generell für Verteilungsfunktionen. Für eine streng
monoton steigende Folge
t1 < t2 < . . . < tn < . . . < s
von reellen Zahlen mit lim tn = s gilt nämlich
n→∞
∞
[
n=1
(−∞, tn ] = {t ∈ R : t < s} = (−∞, s).
Der Limes s ist in dieser Vereinigungsmenge nicht enthalten, weil tn < s für alle n. Wenn
wir mit F (s− ) den Grenzwert der Funktionswerte F (tn ) für n → ∞ bezeichnen, d.h. den
linksseitigen Grenzwert der Funktion F an der Stelle s, so folgt aus der letzten Gleichung
und den Sätzen über monotone Ereignisfolgen, dass
F s− = P (−∞, s)
(10.21)
und wegen (−∞, s] = (−∞, s) ∪ {s}
F (s) − F s−
= P {s}.
Eine Unstetigkeitsstelle der Verteilungsfunktion F an einer Stelle s bedeutet also, dass
das Elementarereignis {s} eine positive Wahrscheinlichkeit besitzt.
10.4.1
Berechnung von Intervallwahrscheinlichkeiten
Mit Hilfe der Verteilungsfunktion kann man die Wahrscheinlichkeiten aller Typen von
Intervallen berechnen.
❶ Ein Intervall der Form (a, ∞) ist die Komplementärmenge zum Intervall (−∞, a],
so dass
P (a, ∞) = 1 − P (−∞, a] = 1 − F (a).
79
❷ Für [a, 1) gilt nach (10.21)
P [a, ∞) = 1 − P (−∞, a) = 1 − F a− .
❸ Für das Intervall (a, b] folgt aus (−∞, b] = (−∞, a] ∪ (a, b] und dem Additivitätsaxiom für Wahrscheinlichkeiten
P (a, b] = F (b) − F (a).
❹ Für das abgeschlossene Intervall [a, b] ist (−∞, b] = (−∞, a) ∪ [a, b] und daher
P [a, b] = F (b) − F a− .
Ist die Verteilungsfunktion stetig, so ist F (s) = F (s− ) für alle s. Elementarereignisse
besitzen in diesem Fall alle die Wahrscheinlichkeit Null und für alle Typen von Intervallen
I mit den Rändern a und b ist
P (I) = F (b) − F (a).
10.4.2
Verteilungsfunktionen und Dichten
Die beiden Verteilungsfunktionen (10.19) und (10.20) sind nicht nur stetig, sondern sogar
stückweise stetig differenzierbar. Daraus folgt, dass sie Stammfunktionen zu integrierbaren
Funktionen f (x) sind:
Z
Z t
F (t) =
1(−1,t] (x) · f (x) dx =
f (x) dx.
(10.22)
−∞
Im Fall (10.19) der uniformen Verteilung ist das die


falls
 0
1
falls
fu (x) = =
b−a

 1
falls
und bei der Exponentialverteilung (10.20)
0
fe (x) =
−λx
λe
Funktion
x < a,
a ≤ x ≤ b,
x > b.
falls x ≤ 0,
falls x > 0
(10.23)
(10.24)
Für die Integration wie in (10.22) ist es dabei unwesentlich, welchen Wert man den Funktionen fu und fe an den Sprungstellen a, b bzw. 0 zuweist.
Da eine Verteilungsfunktion F monoton nichtfallend ist, ist nach (10.22) zugehörige Funktion f fast überall nichtnegativ und wegen lim F (t) = 1 hat man
t→∞
Z
f (x) dx =
Z
∞
−∞
80
f (x) dx = 1.
Die Funktion f (x) ist also eine Dichte mit
P (−1, t] = F (t) =
Z
1(−1,t] (x) · f (x) dx
für die zur Verteilungsfunktion F gehörige Verteilung P . Wie man zeigen kann – P ist ja
durch F eindeutig bestimmt – folgt daraus
Z
P (B) =
1B (x) · f (x) dx
für alle Borelschen Mengen B. Dies bedeutet:
Satz 10.11. Ist die Verteilungsfunktion F von der Form (10.22), so ist die zugehörige
Verteilung P absolutstetig mit Dichte f .
10.4.3
Unstetige Verteilungsfunktionen
Wie schon gesagt wurde, die Eigenschaft der Stetigkeit gilt nicht generell für die Verteilungsfunktionen. Dazu zunächst das folgende Beispiel.
1
Beispiel 10.12. Eine Glühbirne werde beim Einschalten mit einer Wahrscheinlichkeit 10
defekt und nach 500 Brennstunden werde sie grundsätzlich ausgetauscht, weil im Mittel
nur 40% dieser Glühlampen diese 500 Stunden überleben. Ein Ausfall dazwischen soll zu
einem zufälligen” Zeitpunkt stattfinden.
”
Für die Lebensdauer T einer Glühbirne muss dann gelten:
P (T = 0) = 0.1,
P (T = 500) = 0.4,
P (0 < T < 500) = 0.5
und
P (0 < T < t) = 0.001 t
für
0 < t ≤ 500,
da wir auf dem Intervall (0, 500) eine uniforme Verteilung mit dem Gewicht 0.5 haben.
Daraus ergibt sich die folgende Verteilungsfunktion:


0
falls t < 0,

0.1 + 0.001 t
falls 0 ≤ t < 500,
F (t) =


1
falls t ≥ 500.
Hieraus lässt sich z. B. für eine Lebensdauer von über 250 Stunden ablesen:
P (T > 250) = 1 − F (250) = 1 − (0.1 + 0.001 · 250) = 1 − 0.35 = 0.65.
Bezeichnung. Eine Wahrscheinlichkeitsverteilung, die sowohl diskrete als auch stetige
Anteile enthält, d.h.
P = αd P d + αs P s
mit αd ∈ [0, 1] und αd + αs = 1, heißt eine gemischte Verteilung.
81
Definition 10.13. Sei X : Ω → R eine Zufallsvariable mit gemischter Verteilung
PX = αd PXd + αs PXs .
Existieren die Erwartungswerte Ed (X) von PXd und Es (X) von PXs , dann heißt
E(X) := αd Ed (X) + αs Es (X)
der Erwartungswert X, bzw. von PX .
Der Erwartungswert für gemischte Verteilungen lässt sich auch mit Hilfe der Verteilungsfunktion darstellen. Diese Darstellung gilt dann natürlich auch für diskrete und stetige
Verteilungen, die als Spezialfälle (αs = 0 bzw. αd = 0) in den gemischten Verteilungen
enthalten sind.
Dazu definieren wir zuerst das sogenannte Stieltjes-Integral, das uns erlaubt diese einheitliche Darstellung des Erwartungswertes und auch der Variation einzuführen.
Definition 10.14. Sei F eine stückweise stetige Verteilungsfunktion,
R b die im Inneren von
Stetigkeitsintervallen auch differenzierbar ist. Dann heißt die Größe a g(x) dF (x) gegeben
durch die Gleichung
Z b
Z b
X
dF (x)
g(x) dF (x) :=
g(x)
dx +
g (xi ) F (xi ) − F x−
,
(10.25)
i
dx
a
a
i
das Stieltjes-Integral von g bezüglich der Verteilungsfunktion F .
Mit xi bezeichnen wir die Sprungstellen der Verteilungsfunktion F , zwischen denen sie
stetig und differenzierbar ist.
Ist die Verteilungsfunktion F stetig (d.h. die entsprechende Verteilung hat die Dichte f ), dann in der Gleichung 10.25 verschwindet die Summe, da die Sprünge F (xi ) −
F x−
gleich Null sind. Das Stieltjes-Integral ist dann gleich dem Riemann-Integral
Rb i ′
g(x)f (x) dx.
a
Entspricht die Verteilungsfunktion F einer diskreten Verteilung, dann ihre Ableitung zwischen den SprüngenPgleich Null ist, da sie dort konstant ist. Das Stieltjes-Integral ist dann
gleich der Summe
g (xi ) · P (X = xi ).
i
Satz 10.15. Sei X : Ω → R eine Zufallsvariable mit der Verteilungsfunktion F . Dann ist
der Erwartungswert von X gleich
Z ∞
E(X) =
x dF (x)
−∞
und die Varianz
V (X) = E (X − µ)
2
=
Z
∞
−∞
(x − µ)2 dF (x),
vorausgesetzt, dass die obige Integrale absolut konvergent sind.
82
Die bis jetzt dargestellte Eigenschaften des Erwartungswertes und der Varianz, auch der
Steinersche Satz
V (X) = E X 2 − (E(X))2
und die Ungleichung von Tschebyscheff, gelten natürlich auch im allgemeinen Fall
der gemischten Verteilung.
Beispiel 10.16. Im Beispiel 10.12 ergibt sich für die Zufallsvariable T (Lebensdauer einer
Glühbirne) der Erwartungswert
Z ∞
X
dF (x)
E(T ) =
x
dx +
xi F (xi ) − F x−
=
i
dx
−∞
=
Z
0
xi ∈{0,500}
500
x · 0.001 dx + 0 · (0.1 − 0) + 500 · (1 − 0.6) =
500
x2 = 0.001 · + 200 = 125 + 200 = 325.
2 0
Analog berechnet man
Z ∞
dF (x)
2
dx +
E (T ) =
x2
dx
−∞
=
Z
0
500
X
xi ∈{0,500}
(xi )2 F (xi ) − F x−
=
i
x2 · 0.001 dx + 02 · (0.1 − 0) + 5002 · (1 − 0.6) =
500
x3 125 000
425 000
= 0.001 · + 100 000 =
+ 100 000 =
= 141 666.6(6).
3 0
3
3
Die Varianz von T ist dann gleich
425 000
V (T ) = E T 2 − (E(T ))2 =
− 105 625 = 36 041.6(6).
3
10.4.4
Verteilung von Funktionen einer Zufallsvariable
Es seien X eine Zufallsvariable mit der Verteilungsfunktion FX und g : R → R eine Funktion, so dass Y = g(X) auch eine Zufallsvariable ist. Dann gilt für die Verteilungsfunktion
FY von Y definitionsgemäß
FY (y) = P (g(X) ≤ y) = P X ∈ g −1 ((−∞, y]) .
Bei strenger Monotonie von g ergibt sich die folgende Konstruktionsvorschrift für die
Verteilungsfunktion von g(X):
Satz 10.17. Es sei g streng monoton wachsend, bzw. fallend, dann folgt für y ∈ g(R)
FY (y) = P X ≤ g −1 (y) = FX g −1(y) ,
83
bzw.
FY (y) = P X ≥ g −1 (y)
= 1 − FX g −1(y) + PX X = g −1(y) .
Wenn darüber hinaus g stetig differenzierbar ist mit g ′ (x) 6= 0 auf R und X mit der Dichte
fX stetig verteilt ist, dann folgt für die Dichte fY von Y = g(X)
  d g −1(y) fX (g −1 (y))
für y ∈ g(R),
dy
fY (y) =

0
für y 6∈ g(R).
Beweis: Die erste Aussage folgt unmittelbar aus der strengen Monotonie. Bei streng
fallenden g ergibt sich mit den Regeln für Wahrscheinlichkeiten
P X ≥ g −1 (y) = 1 − P X < g −1 (y) = 1 − P X ≤ g −1 (y) + PX X = g −1 (y) .
Bei stetig differenzierbaren g und stetig verteilten X gilt PX (X = g −1(y)) = 0.
Da fY (y) = FY′ (y), folgt es nach der Kettenregel weiter, dass
d −1
fY (y) = fX g −1(y) ·
g (y),
dy
d −1
bzw. fY (y) = −fX g −1(y) ·
g (y).
dy
Für y ∈ g(R) ist die gewünschte Formel bewiesen, da die Ableitung
bzw. negativ, ist.
d −1
g (y)
dy
positiv,
Wegen der Stetigkeit von g ist g(R) ein Intervall. Ist y 6∈ g(R), dann ist y < z oder y > z
für alle z ∈ g(R). In diesem Fall ist stets FY (y) = 0 oder entsprechend FY (y) = 1, was
fY (y) = 0 impliziert.
Beispiel 10.18 (Lineare Transformation).
Wir betrachten den Fall
Y = g(X) = aX + b
mit a 6= 0.
Wegen g(R) = R folgt sofort für alle y ∈ R wegen g −1(y) =
FY (y) = FX
y−b
a
FY (y) = 1 − FX
y−b
a
y−b
:
a
für a > 0,
+P X =
y−b
a
für a < 0
und für eine stetig verteilte Zufallsvariable mit der Dichte fX :
1
y−b
fY (y) =
· fX
.
|a|
a
Beispiel 10.19 (Quadrat).
Wir betrachten den Fall
Y = g(X) = X 2
84
für eine stetig verteilte Zufallsvariable X.
Offensichtlich ist g(R) = [0, ∞). Da g die Monotoniebedingung nicht erfült, ist der Satz
10.17 nicht unmittelbar anwendbar. Wir berechnen FY für y ≥ 0 direkt gemäß
FY (y) = P (g(X) ≤ y) = P (X 2 ≤ y) = P (|X| ≤ y) =
√ √ √ √
y − FX − y .
= P − y ≤ X ≤ y = FX
Wegen FY (y) = P (X 2 ≤ y) = 0 für alle y ≤ 0 folgt fY = 0 für y < 0. In y = 0 können
wir fY (0) ≥ 0 beliebig wählen, ohne FY zu verändern. Wir setzen fY (0) = 0 und erhalten
√
für y > 0 in Stetigkeitspunkten x = ± y von fX
fY (y) = FY′ (y) =
1
√
√
√ (fX ( y) + f (− y)) .
2 y
Ist z. B. X auf [0, 1] gleich verteilt (geometrische Wahrscheinlichkeit), dann hat Y = X 2
die uneigentlich intergrierbare Dichte fY (y) = 2√1 y für y ∈ (0, 1] und fY (y) = 0 sonst.
11
Weitere Kennwerte von Zufallsvariablen
Zur Berechnung minimaler Schranken ρ von Fehlerabschätzungen mit der Sicherheitswahrscheinlichkeit β (oft β ≥ 0.95) der beideseitigen Form P (|X − µ| ≤ ρ) ≥ β oder
einseitigen Form P (X ≤ ρ) ≥ β werden die so genannten Quantile benutzt.
Definition 11.1. Es sei X : Ω → R eine Zufallsvariable auf dem Wahrscheinlichkeitsraum
(Ω, A, P ) mit der Verteilunsfunktion F gegeben.
Für jedes Zahl α ∈ (0, 1) heißt eine Zahl Qα mit der Eigenschaft
F Q−
≤ α ≤ F (Qα )
α
α-Quantil der Zufallsvariable X oder ihrer Verteilung F .
Die Verteilungsfunktion F erreicht also oder überschreitet an der Stelle Qα den Wert α.
Da die obige Ungleichungen äquivalent zu den folgenden Ungleichungen
P (X < Qα ) ≤ α
und
P (X > Qα ) ≤ 1 − α
sind, ist also das α-Quantil der Wert des Punktes einer Verteilung, links vom dem höchstens ein Anteil α und rechts höchstens ein Anteil (1 − α) aller Flle der Verteilung liegt.
Der Punkt Qα selbst kann dabei auch positive Wahrscheinlichkeit besitzen. Hat α-Quantil
dagegen die Wahrscheinlichkeit P (X = Qα ) = 0 (im Falle der Stetigkeit von F ), dann
die gesamte Wahrscheinlichkeit wird genau in α- und (1 − α)-Teil geteilt und es gilt
F (Q−
α ) = F (Qα ) = α, d.h. Qα ist die Lösung der Gleichung
F (x) = α.
85
Es kann mehrere α-Quantile geben, und zwar dann, wenn die Verteilungsfunktion F auf
einem Intervall den Wert α annimmt, z.B. bei diskreten Verteilungen. Dann sind alle
Punkte des Intervalls α-Quantile, einschließlich der Randpunkte.
Für einige bestimmte α haben die α-Quantile zusätzliche Bezeichnungen:
• Der Median (Zentralwert) entspricht dem Quantil Q0.5 (0.5-Quantil). Links und
rechts von einem Median liegt jeweils höchstens die Hälfte der gesamten Wahrscheinlichkeit.
• Die 0.25-, 0.5- und 0.75-Quantile nennt man häufig Quartile ( Viertelwerte”, da
”
sie die gesamte Verteilung in 4 Teile unterteilen). Sie werden auch als Q1 ( unteres
”
Quartil”), Q2 ( mittleres Quartil”) und Q3 ( oberes Quartil”) (bzw. als erstes, zwei”
”
tes und drittes Quartil) bezeichnet. Sie sind die in der Statistik mit am häufigsten
verwendete Form der Quantile.
Der Median hat in der Anwendung als Lageparameter der Verteilung eine zunehmende
Bedeutung, da er die unteren 50% der Werte einer Zufallsvariablen X von den oberen 50%
trennt. Der Median stellt auf die Mitte der Verteilung ab und so ist er im Gegensatz zum
Erwartungswert robust gegenüber extrem abweichenden Werten (Resistenz gegen Ausreißer). Allerdings wirkt sich die gelegentlich fehlende Eindeutigkeit negativ aus. Deswegen
manchmal wird das α-Quantil (und dann auch der Median) als
Qα := sup {x ∈ R : F (x) < α}
oder äquivalent
Qα := inf {x ∈ R : F (x) ≥ α} .
definiert.
Lageparameter (Median, Erwartungswert) geben zwar Schwerpunkte der Verteilung an
(Was ist der typische Wert der Verteilung? ), nicht aber Breite” der Verteilung (Wie
”
typisch ist das Lageparameter für die Verteilung? ). Die letzte Frage wird von sog. Streuungmassen (Lage-, Dispersionsparameter) beantwortet, von denen haben wir schon die
Varianz und die Standardabweichung besprochen.
Der Quartilsabstand (engl.: interquartile range) mißt auch die Streuung der Verteilung, indem er die Differenz zwischen dem oberen (dritten) und dem unteren (ersten) Quartil also
Q0.75 − Q0.25 betrachtet. Der Quartilsabstand mißt also, in welchem Bereich die mittleren
50% der Variablenwerte streuen. Da er auf dem mittleren Bereich der Verteilung beruht,
ist er ein robusteres Maß der Streuung die Varianz. Die Varianz kann durch einzelne, vom
Erwartungswert weit abweichende Werte sehr groß werden.
Wenn der Quartilsabstand mit anderen Maßzahlen der Streuung verglichen wird, z.B. mit
der Standardabweichung, betrachtet man häufig die Hälfte des Quartilsabstandes, den
sogenannten Semiquartilsabstand.
Gelegentlich werden als Kennwerte einer Verteilung auch der Modalwert und die Spannweite herangezogen.
86
Definition 11.2. Jede Maximumstelle einer Wahrscheinlichkeitsfunktion (diskreter Fall)
oder Dichtefunktion (stetiger Fall) fX wird Modalwert (Modus) der Zufallsvariable X
(oder der Verteilung PX ) genannt.
Der Modalwert ist also der Wert mit der größten Wahrscheinlichkeit (technisch gesagt: der
häufigste Wert einer Häufigkeitsverteilung). Da eine Verteilung mehrere Maxima besitzen
kann, können einer Verteilung auch mehrere Modi (multimodale Verteilung) zugeordnet
sein. Gibt es nur einen Modalwert, so nennt man die Verteilung von X unimodal und
dann ist der Modalwert ein einfaches und anschauliches Lageparameter.
Die Spannweite ist das einfachste Streuungsmaß und entspricht der Differenz zwischen
dem größten und kleinsten Wert einer Zufallsariablen X. Sie ist jedoch nicht besonders
informativ, da sie auf lediglich zwei Werten der Verteilung beruht, die zudem sehr stark
von den anderen Werten abweichen können. Die Verwendung des Minimums und Maximums kann daher den Bereich, in dem sich die meisten Werte der Variablen bewegen,
sehr verzerrt wiedergeben.
Man kann auch weitere Kennwerte für eine Verteilung betrachten, wie z.B.
• die Schiefe, die ein Maß für die Asymmetrie einer Verteilung in Bezug auf den Erwartungswert ist. Sie zeigt an, ob und wie stark die Verteilung nach rechts (positive Schiefe) oder nach links (negative Schiefe) geneigt ist. Bei rechtsschiefen
(oder linkssteilen) Verteilungen sind Werte, die kleiner sind als der Erwartungswert,
häufiger zu beobachten, so dass sich der Gipfel (Modalwert) links vom Erwartungswert befindet; der rechte Teil des Graphs ist flacher als der linke.
Da die Gaußsche Normalverteilung die Schiefe Null hat, ist die Schiefe ein geeignetes
Werkzeug, um eine beliebige Verteilung mit betragsmäßig positiver Schiefe mit der
Normalverteilung zu vergleichen.
Die Formel:
3 E
X − E(X)
γ3 :=
3
V (X) 2
• der Exzeß (Wölbung-3), der ein Maß für die Steilheit ( Spitzigkeit”) einer Verteilung
”
ist.
Die Formel:
4 E
X − E(X)
γ4 :=
− 3.
2
V (X)
Der Exzess beschreibt die Abweichung des Verlaufs der gegebenen Wahrscheinlichkeitsverteilung zum Verlauf einer Normalverteilung. Verteilungen werden entsprechend ihres Exzesses eingeteilt in:
– γ4 = 0: normalgipflig oder mesokurtisch. Die Normalverteilung hat den Exzess
γ4 = 0.
87
– γ4 > 0: steilgipflig, supergaufrmig oder leptokurtisch. Es handelt sich hierbei
um im Vergleich zur Normalverteilung spitzere Verteilungen, d.h. Verteilungen
mit starken Peaks.
– γ4 < 0: flachgipflig, subgaufrmig oder platykurtisch. Man spricht von einer im
Vergleich zur Normalverteilung abgeflachten Verteilung.
88
12
Die Normalverteilung
Die Normalverteilung ist eine der wichtigsten Wahrscheinlichkeitsverteilungen in der Praxis, weil aufgrund des sogenannten zentralen Grenzwertsatzes in vielen Situationen angenommen werden kann, dass experimentell gewonnene Messwerte zumindest näherungsweise als Werte von normalverteilten Zufallsvariablen aufgefasst werden können.
12.1
Erwartungswert und Varianz der Zufallsvariable mit der
standardisierten Normalverteilung
Sei X eine Zufallsvariable mit der standardisierten Normalverteilung N (0, 1) (s. Bsp. 9.8).
Die Dichte dieser Verteilung
1 2
1
ϕ(x) = √ e− 2 x
2π
konvergiert für x → ±∞ so schnell gegen Null, dass die Funktionen x 7→ xk ϕ(x) für
alle k = 1, 2, 3, . . . im Lebesgueschen und im uneigentlich-Riemannschen Sinn integrierbar
sind.
Die Funktion h(x) = xϕ(x) ist eine ungerade Funktion, d.h. h(−x) = −h(x). Das Integral
einer derartigen Funktion über ein zum Nullpunkt symmetrisches Intervall (−a, a) ist
stets Null, so dass
m1 (N (0, 1)) = E(X) = 0
und die Varianz V (X) gleich E (X 2 ) ist.
Zur Berechnung des E (X 2 ) wenden wir die Regel der partiellen Integration auf den Integranden
2 −x2 /2
−x2 /2
xe
= x xe
an, wobei der Term in runden Klammern die Stammfunktion
−e−x
2 /2
besitzt. Damit ist
h Z ∞ Z ∞
i∞
1
1
2
−x2 /2
−x2 /2
−x2 /2
E X =√
x xe
dx = √
x −e
−
−e
dx .
−∞
2π −∞
2π
−∞
Wie oben angemerkt, konvergiert die Funktion in eckigen Klammern für x → ±∞ gegen
Null, so dass
Z ∞
Z ∞
1
2
−x2 /2
E X = √
e
dx =
ϕ(x) dx = 1,
2π −∞
−∞
denn das Integral einer Dichte über den gesamten Ergebnisraum hat stets den Wert 1.
89
12.2
Die Verteilungsfunktion der standardisierten Normalverteilung
Die Verteilungsfunktion der standardisierten Normalverteilung erhält nahezu einheitlich
in der Literatur das Symbol Φ:
Z x
1 2
1
Φ(x) = P (X ≤ x) = √
e− 2 t dt.
2π −∞
Dieses uneigentliche Integral ist jedoch nicht elementar lösbar, d.h. die Funktion Φ ist
nicht durch endlich viele algebraische Konstruktionen elementarer Funktionen darstellbar.
Die Werte dieser Funktion müssen daher mit speziellen Näherungsmethoden berechnet
werden.
Heutzutage findet
die sog. Gaußsche

R


erf :

 x
man z.B. in MAPLE, MAXIMA und in anderen Software-Toolboxen
Fehlerfunktion (error function):
−→ [−1, 1]
2
7 → erf(x) = √
−
π
Z
∞
2 X
x2k+1
2
e−t dt = √
(−1)k
.
π k=0
(2k + 1)k!
−∞
x
und auch die Funktion erfc(x) = 1 − erf(x).
Mit ihr kann man durch eine simple Variablentransformation die Verteilungsfunktion Φ
1
x
Φ(x) = · 1 + erf √
2
2
berechnen.
Früher benutzte man eine Tabelle mit den auf das Intervall x ≥ 0 beschränkten Funktionswerten der Verteilungsfunktion. Aus solcher Tabelle lassen sich dann die benötigte
Funktionswerte von Φ mit Hilfe der folgenden Eigenschaften ablesen:
❶ Φ(0) = 12 .
❷ Für x ≥ 0 kann der Funktionswert Φ(x) direkt aus der Tabelle entnommen werden.
Es gilt dabei stets Φ(x) ≥ 0.5.
❸ Die Berechnung des Funktionswertes Φ(−x) für x > 0 erfolgt nach der Formel
(Spiegelsymmetrie)
Φ(−x) = 1 − Φ(x).
❹ P (|X| ≤ x) = 2Φ(x) − 1 = erf √x2 .
Wegen der Eigenschaft
1 ≥ P (|X| ≤ 4) = 2Φ(4) − 1 = erf
4
√
2
≥ 0.99 993 665
ist die Tabellierung meist nur auf 4 Stellen genau bis x = 3.99
90
12.3
Die allgemeine Normalverteilung
Wenn die Zufallsvariable Y die standardisierte Normalverteilung N (0, 1) besitzt, dann
hat die Zufallsvariable X = σ · Y + µ mit reellen Parametern σ 6= 0 und µ die Verteilung
PX mit der Dichtefunktion (s. Bsp. 10.18)
(x−µ)2
1
x−µ
1
e− 2σ2 .
f (x) =
·ϕ
= √
|σ|
σ
2πσ 2
Diese Verteilung heißt die Normalverteilung mit Parametern µ und σ 2 oder N (µ, σ 2 )Verteilung.
Die Gestalt der Dichtefunktion erinnert an eine Glocke. Man spricht daher auch häufig
von der Gaußschen Glockenkurve.
• Der Graph von f ist achsensymmetrisch bezüglich der Geraden x = µ, der Graph
von der entsprechenden Verteilungsfunktion F ist punktsymmetrisch zu P (µ, 0.5).
• Das einzige Maximum liegt im Punkt x = µ mit dem Wert σ√12π . Die beiden Wendepunkte liegen symmetrisch zum Maximum an den Stellen x = µ ± σ.
• Während der Parameter µ die Lage des Maximums festlegt, bestimmt der zweite
Parameter σ Breite und Höhe der Glockenkurve. Dabei gilt: Je kleiner σ ist, umso
höher liegt das Maximum und umso steiler fällt die Dichtekurve nach beiden Seiten
ab.
Den Erwartungswert und die Varianz von X berechnen wir über den Erwartungswert und
die Varianz der N (0, 1)-verteilten Zufallsvariablen Y :
E(X) = E(σ · Y + µ) = σ · E(Y ) + µ = µ
und
V (X) = V (σ · Y + µ) = σ 2 · V (Y ) = σ 2 .
Die in der Dichtefunktion auftretenden Parametr σ und µ sind also zugleich Kennwerte
dieser allgemeinen Normalverteilung.
Eine normalverteilte Zufallsvariable X mit den Parameter µ und σ läßt sich dabei stets
mit Hilfe der linearen Transformation (Substitution)
Y =
1
(X − µ)
σ
in die Zufallsvariable Y mit der standardisierten Normalverteilung überführen (sog. Standardisierung oder Umrechnung in Standardeinheiten). Umgekehrt, die Familie der Normalverteilungen ist aus der standardisierten Normalverteilung durch die lineare Transformation X = σY + µ erzeugbar.
Genau diese für andere Verteilungsfamilien oft nicht erfüllte Eigenschaft macht die Handhabung der Normalverteilung besonders einfach, da nur die Funktionen Φ und ϕ erforderlich sind.
91
Bei einer normalverteilten Zufallsvariable X mit dem Erwartungswert µ und der Varianz
σ 2 lassen sich die Wahrscheinlichkeiten wie folgt mit Hilfe der Verteilungsfunktion Φ der
Standardnormalverteilung berechnen:
❶ P (X ≤ x) = F (x) = Φ
x−µ
σ
;
❷ P (X ≥ x) = 1 − P (X ≤ x) = 1 − F (x) = 1 − Φ x−µ
;
σ
− Φ a−µ
.
❸ P (a ≤ X ≤ b) = F (b) − F (a) = Φ b−µ
σ
σ
Wir berechnen noch die beideseitigen Ein-, Zwei,- und Drei-Sigma-Bereiche (zum Erwartungswert symmetrische Konfidenzintervalle zu den Konfidenzniveaus 2Φ(k) − 1, k =
1, 2, 3) für die N (µ, σ 2)-verteilte Zufallsvariable X:
P (|X − µ| ≤ kσ) = P (|Y | ≤ k) = Φ(k) − Φ(−k) = Φ(k) − (1 − Φ(k)) =

für k = 1,
 0.682689
k
√
0.954500
für k = 2,
= 2Φ(k) − 1 = erf 2 ≈

0.997300
für k = 3.
Damit liegen bei allen normalverteilten Zufallsvariablen etwa 68%, 95.5% bzw. 99.7% aller
Realisierungen in den Ein-, Zwei, bzw. Drei-Sigma-Bereich9 .
12.4
Der Zentrale Grenzwertsatz
Sei X1 , X2 , X3 , . . . eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) mit Verteilungsfunktionen Fn (x) = P (Xn ≤ x). Konvergieren diese Verteilungsfunktionen für alle Argumente x gegen die Verteilungsfunktion der N (0, 1)-Verteilung:
lim Fn (x) = Φ(x)
n→∞
so sagt man, dass für die Folge dieser Zufallsvariablen der Zentrale Grenzwertsatz gilt.
Diese Art von Konvergenz bedeutet also nicht, dass die Funktionen Xn in irgendeiner Weise gegen eine normalverteilte Grenzfunktion X konvergieren. Es bedeutet für die praktischen Anwendungen nur, dass man bei genügend großem n” annehmen kann, dass die
”
Verteilung der Zufallsvariable Xn näherungsweise die standardisierte Normalverteilung
ist.
Der klassische Fall einer Folge, für die der zentrale Grenzwertsatz gilt, sind die normierten
Partialsummen einer Folge X1 , X2 , X3 , . . . von stochastisch unabhängigen Zufallsvariablen, die alle die gleiche Verteilung besitzen. Die Partialsummen sind die Zufallsvariablen
S n = X1 + X2 + · · · + Xn .
9
Bei Auswertung von Messreihen genügt es in der Regel, mit dem Zwei-Sigma-Bereich zu arbeiten.
Der Ein-Sigma-Bereich ist oft mit zu großen Unsicherheiten behaftet. Um auch kleinere Risiken auszuschliessen, kann man den Dre-Sigma-Bereich verwenden.
92
Da die Xk alle die gleiche Verteilung besitzen, haben sie auch alle den gleichen Erwartungswert und die gleiche Varianz:
E (Xk ) = µ
und
V (Xk ) = σ 2 .
Für die Partialsummen folgt daraus
µn = E (Sn ) = E (X1 ) + E (X2 ) + · · · + E (Xn ) = nµ
und wegen der stochastischen Unabhängigkeit
σn2 = V (Sn ) = V (X1 ) + V (X2 ) + · · · + V (Xn ) = nσ 2 .
Von einer Folge von Zufallsvariablen mit unbeschränkt wachsenden Erwartungswerten
und Varianzen kann man keine wie auch immer geartete Konvergenz erwarten. Sie lassen
sich aber durch die schon bekannte lineare Transormation normieren. Die Zufallsvariablen
Sn∗ =
Sn − nµ
Sn − µ n
√
=
σn
σ n
heißen die normierten Partialsummen der Xk , und zwar deshalb, weil sie die Erwartungswerte
E (Sn ) − µn
E (Sn∗ ) =
= 0
σn
und die Varianzen
2
1
∗
V (Sn ) =
V (Sn ) = 1
σn
besitzen, also alle den gleichen Erwartungswert und die gleiche Varianz wie die N (0, 1)Verteilung.
Für die Praxis, etwa bei der Fehlerrechnung, kann man diese mathematischen Aussagen salopp auf den gemeinsamen Nenner bringen, dass ein Messfehler immer dann näherungweise
als normalverteilt angenommen werden darf, wenn er aus der Überlagerung vieler kleiner unabhängiger und nicht-systematischer Fehlerursachen resultiert, wobei keine dieser
Ursachen dominierend ist.
12.5
Approximation der Binomialverteilung durch die Normalverteilung
Eine Binomialverteilung B(n, p) mit n Einzelexperimenten mit Wahrscheinlichkeit p läßt
sich, für große Werte von n und p-Werte, die sich deutlich von 0 und 1 unterscheiden,10
durch die allgemeine Normalverteilung N (µ, σ 2 ) mit den Parametern
p
√
µ = np
und
σ = npq = np(1 − p)
10
für p-Werte in der Nähe von 0 und 1 kann man die Binomialverteilung durch die Poisson-Verteilung
näherungsweise ersetzen (vgl. Satz 7.15)
93
approximieren. Diese Approximation ist gut für σ 2 = np(1 − p) > 9 und wird mit zunehmenden n immer besser.
Eine in der Praxis häufig verwendete Formel lautet:
n k
p (1 − p)n−k ≈ F (k + 0.5) − F (k − 0.5) = Φ
k
oder
X n
pk (1−p)n−k ≈ F (b+0.5)−F (a−0.5) = Φ
k
a≤k≤b
k + 0.5 − np
p
np(1 − p)
!
!
−Φ
b + 0.5 − np
p
−Φ
np(1 − p)
k − 0.5 − np
p
np(1 − p)
a − 0.5 − np
p
np(1 − p)
!
!
,
wobei F die Verteilungsfunktion der N (µ, σ 2)-Verteilung und Φ die Verteilungsfunktion
der Standardnormalverteilung ist.
Dabei wurde eine sog. Stetigkeitskorrektur (Verschiebung um jeweils 0.5 Einheiten nach
außen) vorgenommen. Die binomialverteilte Zufallsvariable ist nämlich eine diskrete Größe, erscheint jedoch in der Näherung durch die Normalverteilung als eine stetige Variable.
94
13
Mehrdimensionale Zufallsvariablen – Zufallsvektoren
Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem Abschnitt geben wir
nun eine kurze Einführung in Zufallsexperimente, bei denen gleichzeitig zwei (oder auch
mehr) Zufallsvariablen beobachtet werden. Wie stoßen in diesem Fall auf mehrdimensionale Wahrscheinlichkeitsverteilungen und beschreiben diese wiederrum durch Wahrscheinlichkeits- bzw. Dichtefunktionen oder durch die zugehörigen Verteilungsfunktionen, die in
diesem Fall dann von mehreren Variablen abhängen.
Definition 13.1. Wir nennen eine Abbildung X : Ω → Rn auf einem Wahrscheinlichkeitsraum (Ω, A, P ) mit der Eigenschaft
(X ∈ B) ∈ A
für alle B aus der σ-Algebra Bn der Borelschen Mengen auf Rn , einen Zufallsvektor oder
eine n-dimensionale Zufallsvariable.
Für jedes ω ∈ Ω ist der Wert X (ω) eines solchen Zufallsvektors ein Vektor, dessen Komponenten wir mit Xk (ω) bezeichnen
X (ω) =
X1 (ω), X2 (ω), . . . , Xn (ω) .
Die dadurch festgelegten Funktionen Xk : Ω → R nennen wir die Komponenten des
Zufallsvektors X und schreiben kurz
X = (X1 , X2 , . . . , Xn ) .
Für die Beziehung zwischen Zufallsvektoren und Zufallsvariablen gilt der folgende Satz,
den wir nur zitieren aber nicht beweisen:
Satz 13.2. Die Abbildung X = (X1 , X2 , . . . , Xn ) ist ein Zufallsvektor genau dann, wenn
alle Komponenten Zufallsvariable sind.
Man kann also stets eine beliebige Anzahl X1 , X2 , . . . , Xm von Zufallsvariablen zu einer vektorwertigen Funktion X = (X1 , . . . , Xm ) zusammen fassen und als Zufallsvektor
behandeln.
Die Wahrscheinlichkeitsverteilung eines Zufallsvektors X läßt sich vollständig durch die
Verteilungsfunktion darstellen11 .
11
Für den Vergleich von Vektoren x, y ∈ Rn bezeichne im Weiteren x ≤ y die koordinatenweise Halbordnung xi ≤ yi für alle i = 1, . . . , n.
95
Definition 13.3. Ist X : Ω → Rn ein Zufallsvektor auf dem Wahrscheinlichkeitsraum
(Ω, A, P ), so heißt die Funktion FX : Rn → R mit
FX (x) := P (X ≤ x) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) =
= P
n
\
i=1
!
{ω ∈ Ω : Xi (ω) ≤ xi } ,
wobei x = (x1 , x2 , . . . , xn ) ∈ Rn , die Verteilungsfunktion des Zufallsvektors X .
Dabei ist also P (X ≤ x) die Wahrscheinlichkeit dafür, dass alle Komponenten Xi , i =
1, 2, . . . , n, einen Wert kleiner oder gleich xi gleichzeitig annehmen.
Man sagt auch, dass die Verteilungsfunktion FX die gemeinsame Verteilung der Zufallsvariablen Xi , i = 1, 2, . . . , n, beschreibt.
Die Wahrscheinlichkeit des Ereignisses (X ∈ (a, b]), wobei a, b ∈ Rn und (a, b] ⊆ Rn
ein achsenparalleler Quader ist, ergibt sich mit FX durch geeignete mengenalgebraische
Darstellungen von (a, b]. Zum Beispiel im R2 gilt es
P (X ∈ (a, b]) = FX (b1 , b2 ) − FX (a1 , b2 ) − FX (b1 , a2 ) + FX (a1 , a2 )
für (a, b] = (a1 , b1 ] × (a2 , b2 ].
Sind die alle Zufallsvariablen Xi , i = 1, 2, . . . , n, stetig, so gilt diese Formel auch für den
abgeschlossenen Quader [a, b].
Definition 13.4. Die Verteilungen PXi der Komponenten Xi des Zufallsvektors X , i =
1, . . . , n, mit den zugehörigen Verteilungsfunktionen FXi : R → R
FXi (t) := P (Xi ≤ t, Xj ∈ R)
für j 6= i
nennen wir eindimensionale Randverteilungen (Marginalverteilungen) von X .
Im Kapitel über diskrete Wahrscheinlichkeitsräume haben wir die stochastische Unabhängigkeit für diskrete Zufallsvariablen definiert (s. Def. 7.11). Jetzt wollen wir diese
Definition allgemeiner formulieren.
Definition 13.5. Die Zufallsvariablen X1 , X2 , . . . , Xn auf einem Wahrscheinlichkeitsraum
(Ω, A, P ) heißen stochastisch unabhängig, wenn für beliebige Teilmengen A1 , A2 , . . . , An ∈
B gilt die Produktregel
h
i
P (X1 ∈ A1 ) ∩ (X2 ∈ A2 ) ∩ . . . ∩ (Xn ∈ An ) =
= P (X1 ∈ A1 ) · P (X2 ∈ A2 ) · . . . · P (Xn ∈ An ) .
Ist die obige Produktregel jedoch nicht erfüllt, so heißen die Zufallsvariablen stochastisch
abhängig.
96
Aus der Tatsache, dass man die Intervalle (−∞, xi ], xi ∈ R, als erzeugendes System der
Borel-Algebra B von R benutzt kann, resultiert die folgende Aussage.
Satz 13.6. Es sei X = (X1 , X2 , . . . , Xn ) ein Zufallsvektor. Die Zufallsvariablen (Komponenten) X1 , X2 , . . . , Xn sind genau dann stochastisch unabhängig, wenn auf Rn die
Bedingung
FX (x1 , x2 , . . . , xn ) = FX1 (x1 ) · FX2 (x2 ) · . . . · FXn (xn )
erfüllt ist.
Bei Unabhängigkeit ist also die Verteilung des Zufallsvektors X durch die Randverteilungen der Komponenten Xi bestimmt.
In der Praxis ist es oft sehr mühsam und schwierig, die stochastische Unabhängigkeit zweier Zufallsvariabler anhand der obigen Bedingung nachzuweisen. In vielen Fällen jedoch
läßt sich die Unabhängigkeit logisch begründen.
Bei den weiteren Überlegungen unterscheiden wir noch, ob die Komponenten des Zufallsvektors X alle diskret oder stetig sind. Die entsprechenden mehrdimensionalen Verteilungen werden dann als diskrete bzw. stetige Verteilungen bezeichnet.
Um im Weiteren die Vorgehenweise besser zu verdeutlichen, beschränken wir auf den Fall
n = 2, d.h. X = (X, Y )t .
13.1
Verteilung diskreter Zufallsvektoren
Die Verteilung eines diskreten Zufallsvektors X = (X, Y ) auf einer höchstens abzählbar
unendlichen Menge ΩX = {(xj , yk ) ∈ R2 : (j, k) ∈ M ⊆ N2 } ⊂ R2 ist festgelegt durch
die Einzelwahrscheinlichkeiten
pjk := P (X = (xj , yk )) = P (X = xj , Y = yk )
für jeden Punkt (xj , yk ) ∈ WX , oder äquivalent durch die wie folgt definierte Wahrscheinlichkeitsfunktion
pjk für (x, y) = (xj , yk ) ∈ ΩX ,
f (x, y) :=
0 sonst.
Es ist stets f (x, y) ≥ 0 und
X
f (x, y) =
X
pjk = 1.
j,k
Im zweidimensionalen Fall kann man die Verteilung von X in einer Matrixtabelle (zweidimensionale Verteilungstabelle) veranschaulichen.
97
Beispiel 13.7. Die Verteilungstabelle des diskreten zweidimensionalen Zufallsvektors
(X, Y ) laute
X Y
y1 = 0
y2 = 1
x1 = 0
p11 =
1
8
p12 =
2
8
x2 = 1
p21 = 0
p22 =
1
8
y3 = 2
y4 = 3
p13 =
1
8
p14 = 0
p23 =
2
8
p24 =
Die Verteilungsfunktion erhalten wir dann durch die Vorschrift
X
F (x, y) = P (X ≤ (x, y)) =
P (X = (xj , yk )) =
xj ≤x, yk ≤y
1
8
X
pjk .
xj ≤x, yk ≤y
Satz 13.8. Die Verteilungsfunktion F der zweidimensionalen Zufallsvektors X hat folgende Eigenschaften
❶
❷
lim F (x, y) =
x→−∞
lim F (x, y) = 0;
y→−∞
lim F (x, y) = 1;
x→∞
y→∞
❸
x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind monoton wachsend
auf R;
❹
x 7→ F (x, y) für festes y und y 7→ F (x, y) für festes x sind rechtsseitig stetig auf R.
Die Einzelwahrscheinlichkeiten P (X = xj ), bzw. P (Y = yk ) der eindimensionalen Randverteilungen von X erhalten wir durch die Aufsummierung über alle pjk bei denen der
erste Index gleich j, bzw. der zweite Index gleich k ist, d.h.
P (X = xj ) =
∞
X
P (X = xj , Y = yk ) =
k=1
P (Y = yk ) =
∞
X
∞
X
pjk =: pj• ,
k=1
P (X = xj , Y = yk ) =
j=1
∞
X
j=1
pjk =: p•k .
Beispiel 13.9. Die Randverteilungen des diskreten zweidimensionalen Zufallsvektors
(X, Y ) erhält man, indem man in der Verteilungstabelle (s. Bsp. 13.7) die Einzelwahrscheinlichkeiten pjk zeilen- bzw. spaltenweise aufaddiert.
X Y
y1 = 0
x1 = 0
p11 =
1
8
p12 =
2
8
x2 = 1
p21 = 0
p22 =
1
8
p•2 =
f (x, yk ) = p•k
p•1 =
y2 = 1
y3 = 2
y4 = 3
p13 =
1
8
p14 = 0
p1• =
1
2
1
8
p23 =
2
8
p24 =
1
8
p2• =
1
2
3
8
p•3 =
3
8
p•4 =
1
8
98
f (xj , y) = pj•
Die zugehörigen Verteilungstabellen der Randverteilungen lauten somit
xj
x1 = 0
x2 = 1
fX (xj ) = pj•
1
2
1
2
und
yk
y1 = 0
y2 = 1
y3 = 2
y4 = 3
fY (yk ) = p•k
1
8
3
8
3
8
1
8
Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und
Y , so gilt für die zugehörigen Wahrscheinlichkeitsfunktionen, bzw. die zugehörigen Einzelwahrscheinlichkeiten die folgende Beziehung
f (x, y) = fX (x) · fY (y),
bzw. pjk = pj• · p•k
für alle (x, y) ∈ R2 , bzw. alle (j, k) ∈ M.
Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit
der Zufallsvariablen X und Y .
Beispiel 13.10. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.9 und
überprüfen wir die stochastische Unabhängigkeit der Komponenten.
Da
1
1 1
1
= p11 6= p1• · p•1 = · =
8
2 8
16
ist die hinreichende Bedingung pjk = pj• · p•k nicht erfüllt. Die beiden Zufallsvariablen
X und Y sind daher stochastisch abhängig.
13.2
Verteilung stetiger Zufallsvektoren
Definition 13.11. Es sei X : Ω → R2 ein Zufallsvektor. Wenn es eine auf R2 nichtnegative
und integrierbare Funktion f mit
ZZ
F (x, y) = P (X ≤ (x, y)) =
f (s, t) ds dt
{(s,t): s≤x, t≤y}
gibt, dann heißt der Zufallsvektor stetig verteilt.
Die Funktion f heißt Dichte der Verteilung von X .
Es gilt somit
ZZ
f (x, y) dx dy = 1
R2
99
und für eine borelsche Menge A des R2 , d.h. A ∈ B2 , folgt
ZZ
ZZ
P (X ∈ A) =
f (x, y) dx dy =
1A · f (x, y) dx dy.
R2
A
Die Abschließung offener Mengen A hat die gleiche Wahrscheinlichkeit wie die Menge A
selbst, da der Rand einer offenen Menge bei der Integration keinen Beitrag liefert.
Analog zu den diskreten Verteilungen erhalten wir auch hier die eindimensionalen Randverteilungen für X bzw. Y durch die Randverteilungsfunktionen
FX (x) = P (X ≤ x)
FY (y) = P (Y ≤ y).
bzw.
Nach geeigneter Verteuschung der Integrationsreihenfolge bekommt man
Z x Z ∞
Z y Z ∞
FX (x) =
f (s, t) dt ds
bzw.
FY (y) =
f (s, t) ds dt.
−∞
−∞
−∞
−∞
Die Randverteilungen der Zufallsvariablen X bzw. Y besitzen daher die folgenden Dichtefunktionen
Z ∞
Z ∞
fX (x) =
f (x, y) dy
bzw.
fY (x) =
f (x, y) dx.
−∞
−∞
Beispiel 13.12. Die Dichtefunktion des zweidimensionalen Zufallsvektors (X, Y ) laute
−2x−3y
ce
für x > 0, y > 0;
f (x, y) =
0 sonst.
Zuerst bestimmen wir die Konstante c aus der Normierungsbedingung
ZZ
Z +∞ Z +∞
−2x−3y
f (x, y) dx dy = c
e
dx dy = 1.
R2
0
Wir erhalten
Z +∞ Z +∞
Z
−2x−3y
c
e
dx dy = c
0
0
0
0
+∞
−2x
e
dx ·
Z
0
+∞
e−3y dy = c ·
−1 −1
c
·
=
= 1
2
3
6
Somit ist c = 6.
Die Verteilungsfunktion läßt sich damit für x > 0, y > 0 durch das folgende Doppelintegral
darstellen
ZZ
Z x Z y
−2s−3t
F (x, y) =
f (s, t) ds dt = 6
e
dt ds =
{(s,t): s≤x, t≤y}
0
0
x
y
x
y
−1 −2s −1 −3t −2s
−3t
= 6
e ds ·
e dt = 6 ·
e ·
e =
2
3
0
0
0
0
= e−2x − 1 · e−3y − 1
Z
Z
100
und für alle andere (x, y) ist die Verteilungsfunktion F (x, y) = 0, d.h.
−2x
(e
− 1) · (e−3y − 1) für x > 0, y > 0;
F (x, y) =
0 sonst.
Die Wahrscheinlichkeit P (1 < X < 2, −1 < Y < 1) kann man bestimmen mit Hilfe der
Dichtefunktion
ZZ
Z 2 Z 1
−2x−3y
f (x, y) dx dy = 6
e
dy dx
(1,2)×(−1,1)
1
0
oder, einfacher, mit der gerade berechneten Verteilungsfunktion
P (1 < X < 2, −1 < Y < 1) = F (2, 1) − F (1, 1) − F (2, −1) + F (1, −1) =
| {z } | {z }
=0
−4
= (e
−3
− 1) · (e
−2
− 1) − (e
=0
− 1) · (e−3 − 1) =
= e−7 − e−5 − e−4 + e−2 .
Wir bestimmen noch die Dichtefunktionen der Randverteilungen der beiden Komponenten
X und Y in dieser zweidimensionalen Verteilung.
Für x > 0 erhält man
Z ∞
Z ∞
fX (x) =
f (x, y) dy = 6
e−2x · e−3y dy =
−∞
−2x
= 6e
0
Z
∞
−3y
e
−2x
dy = 6e
0
somit ist
fX (x) =
Analog kann man berechnen, dass
fY (y) =
+∞
−1 −3y e = 2e−2x
·
3
0
2e−2x für x > 0;
0 sonst.
3e−3y für y > 0;
0 sonst.
Sei X = (X, Y ) ein Zufallsvektor mit stochastisch unabhängigen Komponenten X und Y ,
so gilt für die zugehörigen Dichtefunktionen die folgende Beziehung
f (x, y) = fX (x) · fY (y)
für alle (x, y) ∈ R2 .
Sie ist eine notwendige und hinreichende Bedingung für die stochastische Unabhängigkeit
der Zufallsvariablen X und Y .
Beispiel 13.13. Betrachten wir den Zufallsvektor (X, Y ) aus dem Beispiel 13.12. Die
Komponenten X und Y sind stochastisch unabhängig, da für x > 0 und y > 0 folgt
6e−2x · e−3y = 2e−2x · 3e−3y
und für alle andere (x, y) sind die Funktionen gleich Null.
101
13.3
Erwartungswert, Kovarianz
Den Erwartungswert von X setzt sich aus den Erwartungswerten der Randverteilungen
zusammen, d.h.
Z
E (X ) :=
x dF (x) = (E (X1 ) , . . . , E (Xn )) .
Rn
Bei der Varianz ist es etwas komplizierter.
Definition 13.14. Sei X = (X, Y ) ein Zufallsvektor, dessen Komponenten X bzw. Y
2
den Erwartungswert µX bzw. µY und die Varianz σX
bzw. σY2 haben.
Dann heißt
cov(X, Y ) = σXY := E ((X − µX ) · (Y − µY ))
Kovarianz von X und Y .
Die Zahl
cov(X, Y )
σX · σY
ist bei σX · σY > 0 definiert und heißt Korrelationskoeffizient von X und Y .
ρXY = ρ(X, Y ) :=
Ist cov(X, Y ) = 0, so heißen die Zufallsvariablen X und Y unkorreliert.
Ist X = Y , dann ergibt sich
cov(X, X) = E (X − µX )2
= V (X).
Varianzen und Kovarianzen fasst man zu einer symmetrischen und positiv semidefiniten
Kovarianzmatrix zusammen
!
V (X)
cov(X, Y )
CX =
.
cov(Y, X)
V (Y )
Mit den vorher eingeführten algebraischen Rechenregeln für den Erwartungswert läßt sich
die Formel für die Kovarianz etwas vereinfachen. Es ist
cov(X, Y ) = E ((X − µX ) · (Y − µX )) =
= E (X · Y ) − µX · E(Y ) − µY · E(X) + µX · µY =
= E(X · Y ) − E(X) · E(Y ).
Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt nach der Produktregel
für Erwartungswerte
cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = E(X) · E(Y ) − E(X) · E(Y ) = 0,
d.h. stochastisch unabhängige Zufallsvariablen sind stets unkorreliert.
102
Warnung: Die Umkehrung dieser Aussage ist nicht immer richtig! Aus cov(X, Y ) = 0
folgt normalerweise nicht, dass die beiden Zufallsvariablen X und Y stochastisch unabhängig sind.
Für die Varianz der Summe X + Y hat man die sog. Additionsregel für die Varianzen
V (X + Y ) = V (X) + cov(X, Y ) + V (Y ),
die in dem Sonderfall stochastisch unabhängiger Zufallsvariablen nimmt die spezielle Form
V (X + Y ) = V (X) + V (Y ).
Der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y besitzt folgende Eigenschaften
❶ Unmittelbar aus der Cauchy-Schwarzschen Ungleichung folgt, dass der Korrelationskoeffizient ρXY der Zufallsvariablen X und Y nur Werte aus dem Intervall [−1, 1]
annehmen kann:
−1 ≤ ρXY ≤ 1.
❷ Die mittlere Standardabweichung E (Y − aX − b)2 von Y zu einer linearen Abbildung aX + b der Zufallsvariable X ist genau dann minimal, wenn
a =
cov(X, Y )
V (X)
und
b = E(Y ) − aE(X).
Die minimale Abweichung ergibt sich dabei zu
min E (Y − aX − b)2 = 1 − ρ2XY V (Y ).
a,b
❸ Zwischen den Zufallsvariablen X und Y besteht genau dann eine lineare Beziehung
vom Typ Y = aX + b, wenn |ρXY | = 1 ist, dabei sgn(a) = sgn (ρXY ).
❹ Ist ρXY = 0, dann bedeutet dies lediglich, dass zwischen den beiden Zufallsvariablen
keine lineare Abhängigkeit besteht. Sie können aber in diesem Fall durchaus eine
nichtlineare stochastische Bindung haben.
Die oben aus dem Zufallsvektor X = (X, Y ) bestimmte Gerade y = ax + b heißt Regressionsgerade von Y bzgl. X.
Die Koeffizienten a, b heißen Regressionskoeffizienten.
103
Herunterladen