Skript zur W

Werbung
Skript Mathematik Erweiterungskurs
Teil B : Wahrscheinlichkeitstheorie 1
Inhaltsverzeichnis
1 Grundlagen
1.1 Wichtige Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Wahrscheinlichkeiten
2.1 Relative Häufigkeiten . . . . . .
2.2 Wahrscheinlichkeiten . . . . . .
2.3 Axiome von Kolmogorov . . . .
2.4 Wahrscheinlichkeitsverteilungen
2.5 Laplace-Experimente . . . . . .
3
3
4
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
8
9
10
11
11
3 Kombinatorik
3.1 Anordnungen von n Elementen . . . . . . .
3.2 Allgemeine Anordnungen von Elementen . .
3.3 Auswahlen und Urnenmodelle . . . . . . . .
3.4 Ziehen mit Reihenfolge, mit Zurücklegen . .
3.5 Ziehen mit Reihenfolge, ohne Zurücklegen .
3.6 Ziehen ohne Reihenfolge, ohne Zurücklegen
3.7 Ziehen ohne Reihenfolge, mit Zurücklegen .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
16
16
18
18
19
21
4 Bedingte Wahrscheinlichkeiten
4.1 Definition der bedingten Wahrscheinlichkeit
4.2 Stochastische Unabhängigkeit . . . . . . . .
4.3 Baumdiagramme . . . . . . . . . . . . . . .
4.4 Vierfeldertafel . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
25
27
28
5 Bernoulli-Ketten
5.1 Einführendes Beispiel . .
5.2 Bernoulli-Experimente . .
5.3 Bernoulli-Ketten . . . . .
5.4 Die Formel von Bernoulli
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
32
32
33
34
.
.
.
.
.
.
37
37
39
42
44
45
48
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Zufallsgrößen
6.1 Definition des Begriffs der Zufallsgröße . . . . . . .
6.2 Wahrscheinlichkeitsverteilung und Erwartungswert
6.3 Streuung und Varianz . . . . . . . . . . . . . . . .
6.4 Rechenregeln für die Standardabweichung . . . . .
6.5 Die Binomialverteilung . . . . . . . . . . . . . . . .
6.6 Abweichungen vom Mittelwert . . . . . . . . . . .
2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 Grundlagen
1.1 Wichtige Grundbegriffe
Einer der grundlegenden Begriffe in der mathematischen Behandlung von Wahrscheinlichkeiten ist der
Begriff des Zufallsexperiments.
Definition. Experimente, bei denen alle möglichen Ergebnisse bekannt sind, nicht aber welches Ergebnis eintritt, werden Zufallsexperimente genannt.
Beispiele :
• Liednummer im CD-Spieler beim Verwenden der Randomfunktion
• Werfen einer Münze und notieren ob Kopf oder Zahl fällt
• Ablesen der Temperatur (volle Grad Celcius) an einer Wetterstation um 12.00 Uhr
Bemerkung. Im Rahmen des Matheunterrichts an der Schule betrachten wir meist nur den Fall, dass
es endlich viele Ergebnisse gibt.
Die einzelnen möglichen Ergebnisse benennt man mit !1 , !2 , !3 , . . . , !n und fasst sie alle in der Ergebnismenge ⌦ (auch Ergebnisraum) zusammen, d.h. ⌦ = {!1 , !2 , !3 , . . . , !n } .
Beispiel (vgl. oben) :
• Liednummer im CD-Spieler (CD mit 13 Liedern) ⌦ = {1, 2, 3, . . . , 13}
• Werfen eines Würfels ⌦ = {1, 2, 3, . . . , 6}
• Werfen einer Münze ⌦ = {Kopf, Zahl} oder kürzer ⌦ = {K, Z}
• Ablesen der Temperatur ⌦ = { 50, 49, 48, , . . . , 48, 49, 50} ( dabei gehen wir davon aus, dass
die gemessene Temperatur zwischen -50 und 50 Grad Celsius liegt.
Bemerkung. Beachte, dass das Notieren der Ergebnismenge davon abhängt, was man bei dem entsprechenden Versuch untersucht. So kann bei einem sechsseitigen Würfel nach der Augenzahl gefragt
werden ( ⌦ = {1, 2, 3, . . . , 6} ) oder danach, ob die Zahl gerade bzw. ungerade ist ( ⌦ = {G, U } ). Der
Würfel allein verrät noch nicht, was an ihm untersucht werden soll.
Oft werden bei einem Zufallsexperiment mehrere Vorgänge nacheinander ausgeführt bzw. man kann
einen Vorgang in einzelne, nacheinander ausführbare Handlungen umwandeln. Das gleichzeitige Werfen
von 5 Münzen lässt sich umdeuten als fünf einzelne Würfe, die nacheinander ausgeführt werden. Solche
Experimente nennt man auch mehrstufige Zufallsexperimente. Um auch bei einem solchen Zufallsexperiment eine gute Übersicht zu behalten, kann man die auftretenden Fälle in einem Baumdiagramm
schematisch aufzeichnen.
Beispiel. Drei Münzen werden gleichzeitig geworfen. Welche Ergebnisse sind möglich? Wie sieht eine
mögliche Ergebnismenge aus?
Ein mögliches Baumdiagramm zeigt die Abbildung 1.1 .
3
1 Grundlagen
K
K
K
Z
Z
Z K
K
Z K
Z
Z K
Z
Abbildung 1.1: Dreifacher Münzwurf
Zu einer vollständigen Durchführung des Experiments gehören 3 Würfe, also bestehen alle möglichen Ergebnisse jeweils aus 3 Buchstaben. Man verwendet beim Notieren der Ergebnismenge die
Tupelschreibweise :
⌦ = {(K/K/K), (K/K/Z), . . . , (Z/Z/K), (Z/Z/Z)}
Ist man noch daran interessiert, wie viele Ergebnisse die Ergebnismenge besitzt, so kann man die
Mächtigkeit der Ergebnismenge angeben :
|⌦| = 8
1.2 Ereignisse
Beim Spiel Monopoly werden vom Spieler zwei Würfel gleichzeitig geworfen und sollte ihm dabei ein
Pasch gelingen, so darf er die Würfel ein zweites Mal werfen. Mit zwei Würfeln gibt es 36 mögliche
Wurfkombinationen, die wir in ⌦ als Paare auflisten können1 :
⌦ = {(1/1), (1/2), . . . , (6/5), (6/6)}
Einige dieser Paare führen zu einem Pasch und werden in einer eigenen Menge A getrennt aufgelistet
:
A = {(1/1), (2/2), (3/3), (4/4), (5/5), (6/6)}
Mathematisch gesehen haben wir schlicht eine Teilmenge von ⌦ erzeugt. Solche Teilmengen werden
als Ereignisse bezeichnet.
Definition. Gegeben ist ein Zufallsexperiment mit der Ergebnismenge ⌦ . Eine Teilmenge A ⇢ ⌦
heißt Ereignis.
Beispiel. Es wird ein sechsseitiger Würfel geworfen und die Augenzahl notiert. Dazu passt die Ergebnismenge ⌦ = {1, 2, 3, . . . , 6} . Einige mögliche Ereignisse sind :
• „Es wird eine 6 gewürfelt.“
1
A = {6}
An dieser Stelle taucht bei Schülern oft das Problem auf, ob man in der folgenden Menge die Kombinationen (1/2)
und (2/1) wirklich beide auflisten muss. Dazu lässt sich sagen, dass man es nicht “muss”, allerdings steuert man dann
später auf das Problem zu, dass die aufgelisteten Kombinationen nicht mehr gleich wahrscheinlich sind. Schreibt man
(1/2) und spart man sich das Paar (2/1), so fasst man unter einer Angabe zwei Fälle zusammen, während das Paar
(1/1) wirklich nur für einen Fall steht. Beim Thema Laplace-Experimente wird sich zeigen, dass es der ideale Fall ist,
wenn alle Ergebnisse gleich wahrscheinlich sind.
4
1 Grundlagen
• „Es fällt eine gerade Zahl.“
A = {2, 4, 6}
• “Es erscheint eine Zahl größer als Drei.”
A = {4, 5, 6}
Unter den Ereignissen gibt es ein paar spezielle Ereignisse, denen man eigene Namen gegeben hat :
Definition. Gegeben ist ein Zufallsexperiment mit der Ergebnismenge ⌦ . Dann sind folgende Sprechweisen üblich :
• A=⌦
sicheres Ereignis
• A={}
unmögliches Ereignis
• |A| = 1
Elementarereignis, d.h. die Menge besteht nur aus einem einzigen Element
Zusammengefasst in einer Übersicht :
sicheres Ereignis
A={ ω1, ω2, ... , ωn}=Ω
Ereignis
A={ ω2, ω4, ω7}
Elementarereignis
Ergebnis
A={ ω2}
ω2
unmögliches Ereignis
A={ }
Abbildung 1.2: Mögliche besondere Ereignisse
1.3 Verknüpfungen von Ereignissen
Ereignisse eines Zufallsexperiments lassen sich in unserer Sprache miteinander verknüpfen. Durch die
Wörter „und“ sowie „oder“ kann man zwei Ereignisse verbinden. So sind „Der Würfel zeigt eine gerade
Zahl.“ und „Der Würfel zeigt eine Zahl größer als 3.“ zwei sprachlich ausgedrückte Ereignisse. Das
Gegenteil eines Ereignisses lässt sich mit dem simplen Wort „nicht“ ausdrücken.
Beispiel. Ein sechsseitiger Würfel wird gerollt und die Augenzahl notiert, also ⌦ = {1, 2, 3, . . . , 6}.
Ferner betrachten wir die zwei Ereignisse :
A = Es fällt eine Zahl größer als 3.
B = Es fällt eine gerade Zahl.
5
) A = {4, 5, 6}
) B = {2, 4, 6}
1 Grundlagen
Dann kann man danach fragen, ob das eine, das andere oder beide gleichzeitig eingetreten sind.
Sprachlich drückte man genau dies durch das Wort “oder” aus bzw. redet bei den Mengen von einer
Vereinigungsmenge und verwendet die Schreibweise A [ B.
A [ B = {2, 4, 5, 6}
(A oder B )
Ein anderes Ziel hat man im Sinn, wenn man fordert, dass beide Bedingungen gleichzeitig erfüllt
sind. Dafür verwendet man das Wort “und” bzw. bildet bei den zugehörigen Mengen die sogenannte
Schnittmenge.
A \ B = {4, 6}
( A und B )
Zuletzt sei noch die Möglichkeit erwähnt, dass man genau nach dem Gegenteil eines Ereignisses fragt.
Man spricht vom Gegenereignis zum Ereignis A , drückt dies durch einen Strich über dem A aus ( A
) und redet sprachlich von “nicht A” 2 .
Zu jeder Formulierung in der sprachlichen Ebene gibt es die passende Operation mit den zugehörigen
Teilmengen und weiterhin kann man sich ein anschauliches Mengendiagramm dazu zeichnen :
sprachliche Ebene
A oder B
Mengenebene
A
B
anschaulich
A
B
Vereinigungsmenge
A und B
A
B
A
B
Schnittmenge
nicht A
A
A
Gegenereignis
(Komplement)
Abbildung 1.3: Verknüpfungen von Ereignisse
Durch mehrfache Anwendung dieser Verknüpfungen lassen sich furchterregende Mengengebilde erzeugen :
(A \ B) [ A \ B
Sind zwei Mengen gegeben, deren Schnittmenge die leere Menge ist, so nennt man die Mengen
disjunkt und die zugehörigen Ereignisse unvereinbar.
2
Mitunter wird im Alltag das Gegenereignis falsch gebildet. Zum Ereignis “Alle Schüler im GKurs sind krank.” ist das
entsprechende Gegenereignis “Mindestens ein Schüler im GKurs ist gesund.” und eben nicht “Alle Schüler im GKurs
sind gesund.”
6
1 Grundlagen
A
B
A B={ }
Abbildung 1.4: Disjunkte Mengen bzw. unvereinbare Ereignisse
Manche Ereignisse sind in jedem Fall unvereinbar. So sind A und A immer schon unvereinbar und
gleiches gilt auch für die Mengen A \ B und A \ B ( mit Bildern klar machen ! ).
Verwendet man öfter die Symbole für Vereinigungsmengen bzw. Schnittmengen, dann fällt irgendwann auf, dass hinter der Anwendung dieser Zeichen eine gewisse Systematik steckt (sogenannte
Boolesche Mengenalgebra). Ein paar dieser Regeln seien kurz genannt :
Satz. Für alle Teilmengen A, B ⇢ ⌦ gilt :
I) A [ (B \ C) = (A [ B) \ (A [ C)
II) A \ (B [ C) = (A \ B) [ (A \ C)
III) A \ B = A [ B
IV) A [ B = A \ B
Die beiden ersten Regeln werden als Distributivgesetze bezeichnet und die Regeln III) und IV) sind
als Gesetze von de Morgan bekannt.
7
2 Wahrscheinlichkeiten
2.1 Relative Häufigkeiten
Unser Ausgangspunkt im Gebiet der Wahrscheinlichkeiten war das Zufallsexperiment. Nachdem wir
geklärt haben, welche Ergebnisse überhaupt möglich sind und die Ergebnismenge ⌦ aufgestellt haben,
scheint die nächste Frage zu sein, wie wahrscheinlich die einzelnen Möglichkeiten sind. Ein naheliegender Ansatz wäre eine praktische Durchführung mit beliebiger Wiederholung.
1
3
6
5
2
4
Abbildung 2.1: Auf welche Seite fällt ein Legostein ?
Beispiel. Die Seiten eines Legosteins mit 8 Noppen werden von 1 bis 6 wie in der nebenstehenden
Abbildung 2.1 nummeriert. Da hier kein Würfel vorliegt, stellt sich die Frage welche Seite am häufigsten
oben liegt. Durch 200-faches Werfen des Steins erhält man folgende Tabelle :
N=200
Seitennummer 1 2 3 4 5
6
Anzahl Z
62 5 13 1 0 119
Z
Aus diesem speziellen Versuch kann man sogenannte relative Häufigkeiten h = N
berechnen, die
eine Art prozentuale Verteilung für die einzelnen Ergebnisse liefern. So ergibt sich für die 1. Seite der
62
31
Anteil h = 200
= 100
= 31 %.
Definition. Gegeben sei ein Zufallsexperiment mit den Ergebnissen ⌦ = {!1 , !2 , !3 , . . . , !n }. Dann
Z
kann man bei einer N -maligen Durchführung dieses Experiments jedem Ergebnis den Anteil h = N
zuschreiben und nennt diese Zahl dann relative Häufigkeit.
Beim Legostein erhalten wir demnach folgende relative Häufigkeiten :
n=200
Seitennummer
1
2
3
4
5
6
Anzahl z
62
4
14
1
0
119
Rel. Häufigkeiten h 31% 2% 7% 0,5% 0,0% 59,5%
8
2 Wahrscheinlichkeiten
So anschaulich diese Werte auch sind, so wenig sinnvoll ist eine strikte Festhalten an diesen Werten.
Nur weil in unserer speziellen Durchführung die 5. Seite gar nicht fiel, können wir daraus noch nicht
folgern, dass sie prinzipiell nie kommt. Dazu hängen diese experimentell ermittelten Werte auch zu sehr
von der konkreten Durchführung ab. Genauere Werte erhält man indem man die Anzahl der Durchführungen erhöht aber egal welchen Wert von n man auch wählt, es werden sich nie exakte Werte ergeben.
Daher beziehen sich unsere berechneten relativen Häufigkeiten eben nur auf eine konkrete Durchführung eines Zufallsexperiments und unterscheiden sich von den allgemeineren Wahrscheinlichkeiten, die
im nächsten Abschnitt definiert werden.
2.2 Wahrscheinlichkeiten
Jeder praktisch durchgeführte Versuch liefert relative Häufigkeiten für die einzelnen Ergebnisse aber
diese bleiben letztlich unpräzise und hängen vom jeweiligen Experimentator ab.
Der Begriff der Wahrscheinlichkeit eines Ergebnisses ist im Gegensatz dazu gerade nicht experimentell bestimmt, sondern man wählt zu einem Zufallsexperiment ein passendes Modell, überlegt sich
alles in diesem Modell und erhält nur durch theoretische Überlegungen inner- halb des Modells Zahlenwerte dafür, wie wahrscheinlich ein Ergebnis ist. Diese einfach festgelegten Wahrscheinlichkeiten
müssen sich dann aber an den wahren Werten (= relativen Häufigkeiten) messen lassen. Kommt es zu
unübersehbaren Abweichungen, so war das gewählte Modell unbrauchbar.
Zufallsexperiment
mit den Ergebnissen
ω1,ω2,ω3, ... , ωn
Relative Häufigkeiten
theoretisches Modell
h(ω1),h(ω2), ... ,h(ωn)
NG
BA
Zufallsexperiment
mit den Ergebnissen
ω1,ω2,ω3, ... , ωn
!
Stimmen Modell
und Wirklichkeit
überein ?
Relative Häufigkeiten
praktische Durchführung
h(ω1),h(ω2), ... ,h(ωn)
Abbildung 2.2: Vergleich von Wahrscheinlichkeiten und Häufigkeiten
Ein weiteres Beispiel mag das Diagramm 2.2 verdeutlichen. Beim Würfeln mit einem sechsseitigen
Würfel kann man den Würfel 100mal rollen und erhält wie in Kapitel 2.1 beschrieben daraus die
relativen Häufigkeiten.
Ein mögliches Modell zum Würfeln geht von der Menge ⌦ = {1, 2, 3, . . . , 6} aus und entwirft die Idee,
dass keine Zahl beim Würfeln bevorzugt ist und daher alle sechs Ergebnisse gleich wahrscheinlich
sind. Daher setzt man in diesem Modell fest, dass jedes Ergebnis die Wahrscheinlichkeit 1/6 besitzt.
Ein anschließender Vergleich mit den relativen Häufigkeiten zeigt, dass diese Wahl gerechtfertigt war.
Zwar liegen die Häufigkeiten nicht alle exakt bei 1/6 = 16,67% aber je öfter der Versuch durchgeführt
wird, um so geringer werden die Unterschiede.
9
2 Wahrscheinlichkeiten
2.3 Axiome von Kolmogorov
Nach vielen erfolglosen Versuchen vorheriger Mathematiker den Begriff Wahrscheinlichkeit exakt zu
definieren, gelang dem russischen Mathematiker Andrei Kolmogorov in seinem 1933 erschienenen Lehrbuch „Grundbegriffe der Wahrscheinlichkeitsrechnung“ eine sehr kompakte Definition :
Definition. Es sei ein Zufallsexperiment gegeben und ⌦ die zugehörige Ergebnismenge. Eine Funktion
P , die jedem Ereignis A ( d.h. jeder Teilmenge A ⇢ ⌦ ) eine Zahl P (A) zuordnet, heißt Wahrscheinlichkeitsmaß ( kurz WMaß ), falls sie die folgenden Bedingungen erfüllt :
A1) P (A) 0 für jedes Ereignis A ⇢ ⌦
A2) P (⌦) = 1
A3) Sind zwei Ereignisse A, B unvereinbar, d.h. A \ B = { } , so gilt : P (A [ B) = P (A) + P (B)
Die zu einem Ereignis A zugehörige Zahl P (A) wird dann die Wahrscheinlichkeit des Ereignisses A
genannt.
Die drei auftretenden Bedingungen heißen Kolmogorov-Axiome. Ein Axiom ist generell ein Satz,
von dem man ausgeht und den man nicht beweisen muss, d.h. eine Art Ausgangspunkt des Denkens.
Die drei genannten Axiome dienen uns als Ausgangspunkt und setzen somit fest :
• Wahrscheinlichkeiten sollen niemals negativ sein ( Axiom A1 ) .
• Wählen wir als Teilmenge die gesamte Menge, d.h. A = ⌦ , so soll die Wahrscheinlichkeit gleich
1 sein.
• Haben zwei Ereignisse keinerlei Schnitt, d.h. sind die Mengen disjunkt, so kann man sehr leicht
die Wahrscheinlichkeit ihrer Vereinigungsmenge berechnen.
Eigentlich würden einem durchaus noch weitere Bedingungen einfallen, die man mit auf die Liste hätte
setzen können. So erscheinen die Zeilen
B1) P (A)1 für jedes Ereignis A ⇢ ⌦
B2) P ({ }) = 0
B3) P (A) = 1 P (A)
B4) Ist A ⇢ B, so folgt P (A)P (B)
alle als sinnvolle Aussagen. Dennoch werden sie in der obigen Definition nicht benötigt, da sie sich mit
Hilfe der Axiome von Kolmogorov beweisen lassen.
Beispielhaft sei hier die Aussage B1) bewiesen :
Beweis. Wir zerlegen ⌦ in die zwei Mengen A und A, d.h. ⌦ = A [ A. Da die Mengen A und A
disjunkt sind, dürfen wir das Axiom A3 benutzen und erhalten :
P (⌦) = P (A [ A) = P (A) + P (A)
Nach A1 sind Wahrscheinlichkeiten nie negativ und somit gilt :
P (⌦) = P (A) + P (A) P (A)
und zusammen mit A2 folgt schließlich :
,
1 = P (⌦) P (A)
P (A)1
Auf ähnliche Weise lassen sich die weiteren Bedingungen B2 bis B4 beweisen und ergeben sich somit
zwangsläufig aus der Definition von Kolmogorov.
10
2 Wahrscheinlichkeiten
2.4 Wahrscheinlichkeitsverteilungen
Nach der Definition ordnet jedes WMaß einem Ereignis eine Zahl zu, d.h. jede Teilmenge von ⌦ besitzt
eine zugehörige Wahrscheinlichkeit. Verwendet man als Teilmengen gerade solche Mengen, die nur aus
einem einzigen Element bestehen, erhält man die einzelnen Wahrscheinlichkeiten1 P ({!1 }), P ({!2 }), . . . , P ({!n }).
Das sind genau die Wahrscheinlichkeiten der einzelnen Elementarereignisse.
Umgekehrt kann man jedes Ereignis, das kein Elementarereignis ist, in einzelne Elementarereignisse
zerlegen. So sei z.B. A = {!1 , !5 , !6 , !8 }. Dann ist
P (A) = P ({!1 , !5 , !6 , !8 }) = P ({!1 }) + P ({!5 }) + P ({!6 }) + P ({!8 })
Kurz gesagt lässt sich also jede Wahrscheinlichkeit eines Ereignisses auf die besonderen Wahrscheinlichkeiten der Ergebnisse in ⌦ zurückführen.
Bemerkung. Gibt man die Wahrscheinlichkeiten aller möglichen Ergebnisse eines Zufallsexperiments
an, so spricht man von einer Wahrscheinlichkeitsverteilung (WVerteilung). Alle benötigten Wahrscheinlichkeiten lassen sich aus der WVerteilung bestimmen.
Beispiel. Bei einem gezinkten Würfel ( ⌦ = {1, 2, 3, . . . , 6} ) ergebe sich die folgende WVerteilung :
gezinkter Würfel
!
1
2
3
4
5
6
P ({!})
0,10 0,10 0,20 0,20 0,15 0,25
Wir betrachten das Ereignis
A = {4, 5, 6} = Es wird eine Zahl größer als 3 gewürfelt.
Dann ist P (A) = P ({4}) + P ({5}) + P ({6}) = 0, 20 + 0, 15 + 0, 25 = 0, 60
2.5 Laplace-Experimente
Ein besonderer Fall von Zufallsexperiment liegt vor, wenn sämtliche möglichen Ergebnisse !1 , !2 , . . . , !n
alle gleichwahrscheinlich sind. Solche Experimente werden Laplace-Experimente genannt nach dem
Mathematiker Simon Laplace.
Definition. Ein Zufallsexperiment wird Laplace-Experiment genannt, wenn alle Elementarereignisse
die gleiche Wahrscheinlichlichkeit besitzen.
Bei einer Ergebnismenge ⌦ = {!1 , !2 , . . . , !n } mit n verschiedenen Elementarereignissen folgt dann
natürlich sofort :
1
1
P ({!1 }) = P ({!2 }) = · · · = P ({!n }) = =
n
|⌦|
1
In der Mittelstufe findet man oft die Schreibweise P (!1 ). Streng genommen ordnet P aber einer Menge eine Zahl zu,
so dass eben die leicht umständlichere Schreibweise P ({!1 }) korrekt ist.
11
2 Wahrscheinlichkeiten
Quelle : Library of congress
Abbildung 2.3: Simon Laplace ( 1749-1827 )
Laplace-Experimente tauchen relativ oft in der WRechnung auf und haben den Vorteil, dass man die
Wahrscheinlichkeiten verschiedener Ereignisse schnell berechnen kann. Dadurch, dass alle Ergebnisse
gleichwahrscheinlich sind, geht es dann oft nur noch darum Möglichkeiten abzuzählen. Dazu betrachten
wir ein Beispiel :
Beispiel. Zwei Würfel werden gleichzeitig geworfen und beide Augenzahlen notiert. Wie groß ist die
Wahrscheinlichkeit, dass beide Augenzahlen identisch sind, d.h. dass ein Pasch geworfen wurde ?
Zunächst ist
⌦ = {(1/1), (1/2), . . . , (6/5), (6/6)}
, |⌦| = 36
Betrachten wir alle möglichen Paare in ⌦ so gibt es keinen Grund, weshalb eines der Paare bevorzugt
sein sollte, d.h. alle Ergebnisse sind hier gleichwahrscheinlich. Es liegt ein Laplace-Experiment vor und
jedes Elementarereignis besitzt die Wahrscheinlichkeit 1/36 .
Für die Beantwortung der eigentlichen Frage legen wir ein Ereignis fest :
Dann ist
A = Beide Zahlen sind gleich. = {(1/1), (2/2), . . . (6/6)}
1
1
1
6
1
+
+ ··· +
=
=
36 36
36
36
6
Als Alternative hätte man auch einfach zählen können, wie viele Elemente in A enthalten sind und da
jedes Element aus A die Wahrscheinlichkeit 1/36 besitzt, erhält man :
P (A) =
P (A) =
|A|
|{z}
Wieviel sind es ?
1
|A|
=
|⌦|
|⌦|
|{z}
·
Welche WKeit hat jedes Ergebnis ?
Satz. Bei einem Laplace-Experiment ( alle Ergebnisse gleich wahrscheinlichk ) gilt für die Wahrscheinlichkeit eines Ereignisses A stets :
P (A) =
|A|
|⌦|
, d.h. man kann Wahrscheinlichlichkeiten durch reines Abzählen bestimmen. Oft wird diese Gleichung
auch in Worten folgendermaßen formuliert :
Anzahl der günstigen Fälle
P (A) =
Anzahl der möglichen Fälle
12
3 Kombinatorik
Kombinatorik ist die Kunst des Abzählens und kann in der Wahrscheinlichkeitstheorie dabei helfen,
Anzahlen wie |A| oder |⌦| rasch abzuzählen. Unter Verwendung der Formel P (A) = |A|/|⌦| kann
man (zumindest wenn ein Laplace-Experiment vorliegt) nach dem Abzählen sehr einfach gesuchte
Wahrscheinlichkeiten berechnen. Kombinatorik ist ein eigenständiges Teilgebiet der Mathematik und
hat viele Techniken entwickelt, um komplizierte Zählungen durchzuführen.
3.1 Anordnungen von n Elementen
Wir betrachten n verschiedene Elemente (z.B. die Zahlen von 1 bis n ) und versuchen diese in einer
beliebigen Anordnung zu notieren.
Beispiel. Für n = 4 betrachten wir die Zahlen 1, 2, 3, 4 und sortieren sie ähnlich wie im Telefonbuch :
1234, 1243, 1324, . . . , 4321
Jede dieser Anordnungen wird in der Mathematik eine Permutation1 genannt. Um im Voraus zu
wissen, wie viele verschiedene Anordnungen es gibt, überlegen wir uns das Aufschreiben einer solchen
Permutation allgemein :
1. Pos
Position
2. Pos
3. Pos
4. Pos
n n-1 n-2 n-3
n Elemente
zur Auswahl
n. Pos
....
1
nur noch 1
Element zur
Auswahl
n-1 Elemente
zur Auswahl
n-2 Elemente
zur Auswahl
Abbildung 3.1: Möglichkeiten bei einer Permutation
Durch die Multiplikation der einzelnen Möglichkeiten an jeder Position erhält man die Gesamtzahl
aller Anordnungen.
Satz. Für die Anordnung von n unterschiedlichen Elementen gibt es n · (n 1) · (n 2) · · · 2 · 1
Möglichkeiten. Diese Zahl nennt man die Fakultät von n und kürzt sie mit einem Ausrufezeichen ab :
n! = n · (n
1) · (n
2) · · · 2 · 1
Aus Gründen, die weiter unten eine Rolle spielen, erweitert man die Definition der Fakultät und
führt ein :
Definition. Für n = 0 definiert man 0! = 1.
1
permutare (lat. ): tauschen
13
3 Kombinatorik
Beispiel. Wie viele Wörter (auch sinnlose) kann man aus dem Wort GOLFTASCHE bilden ?
Letztlich geht es nur darum die zehn Buchstaben in irgendeine beliebige Reihenfolge zu bringen. Da
sie alle unterschiedlich sind, gibt es 10! = 3 628 800 mögliche Wörter.
Beachte : Die Zahlen n! „explodieren“ schon für geringe Werte von n. Vergleichen wir dazu einmal
quadratisches Wachstum, exponentielles Wachstum und das Wachstum der Fakultäten :
Zahl
n
1
2
3
4
5
10
20
n2
Quad.Wachstum
1
4
9
16
25
100
400
2n
Exp. Wachstum
2
4
8
16
32
1024
⇡ 1 Million
n!
Fakultät
1
2
6
24
120
⇡ 3, 6 Millionen
⇡ 2, 4 · 1018
Das extreme Wachstum der Fakultäten bereitet gerade bei der Berechnung vieler praktischer Probleme große Schwierigkeiten.
Beispiel. Der GKurs Mathematik besteht aus 24 Teilnehmern. Beim Klingelzeichen am Ende der
Stunde begeben sich alle Schüler nacheinander in zufälliger Reihenfolge durch die Tür. Wie oft kann
der Kurs auf diese Weise durch die Tür gehen, ohne dass sich die Reihenfolge wiederholt ?
Alle 24 Teilnehmer sind klar zu unterscheiden. Daher geht es nur noch darum, die 24 Schüler in eine
beliebige Reihenfolge zu bringen. Dafür gibt es 24! = 6, 204 · 1023 Möglichkeiten. Eine immens riesige
Zahl !
Ein weiteres bekanntes Beispiel für das schnelle Zunehmen von Möglichkeiten zeigt das bekannte
Problem des Handlungsreisenden ( Traveling Salesman Problem oder kurz TSP ).
Beispiel. Ein Vertreter einer großen Firma ist für 4 Filialen im gesamten Bundesgebiet verantwortlich.
Jeden Monat muss er jede Filiale einmal besuchen. Zwischen den einzelnen Städten gibt es entsprechende Distanzen, die er per Auto zurücklegen muss. Der Vertreter kann in einer beliebigen Stadt
beginnen und ist natürlich daran interessiert eine Gesamtroute zu finden, die eine möglichst geringe
Gesamtstrecke aufweist.
Die Städte nennen wir A,B,C,D und das folgende Bild gibt exemplarisch die Distanzen2 wieder :
B
121
A
95
139
145
C
105
100
D
Abbildung 3.2: Traveling Salesman Beispiel
2
Dabei muss mit “Distanz” nicht automatisch nur die Entfernung in km gemeint sein. Allgemein weist man zwei Städten
eine Verbindung zu und gibt dieser Verbindung eine Zahlenangabe, die irgendwie den Aufwand ( Strecke, Fahrzeit,
Kosten, ... ) berücksichtigt um von der einen Stadt zur anderen zu kommen.
14
3 Kombinatorik
Probieren ergibt :
• ABCD : 121 + 95 + 100 = 316
• ABDC : 121 + 139 + 100 = 360
• CBAD : 95 + 121 + 105 = 321
• DCBA : 100 + 95 + 121 = 316
Diese Beispiel zeigen zum Einen, dass es nicht egal ist, welche Tour man einschlägt und zum Anderen,
dass jede Auflistung der 4 Buchstaben eine Tour erzeugt. Daher gibt es hier 4! = 24 verschiedene
Touren, die der Vertreter auswählen kann3 . Bei einer derart geringen Zahl kann der Handlungsreisende
schnell mit dem Taschenrechner alle Möglichkeiten ausprobieren. Erhöht sich aber durch Vergrößerung
der Firma die Zahl der zu besuchenden Städte auf 9, so hat er die Auswahl aus 9! = 362880 Touren.
Da erscheint der Einsatz eines Computers doch viel geeigneter. Allerdings geht auch jeder moderne
Rechner schnell in die Knie angesichts des Wachstum der Fakultät.
Erhöht man die Zahl der Städte auf 120, so kommt es zu einer riesigen Anzahl von 120! = 6, 69 ·
10198 möglichen Touren durch diese Städte. Die besten Rechner der Gegenwart (2013) können in
einer Sekunde ungefähr 1016 Rechenoperationen ( 10000 Teraflops ) durchführen. Selbst wenn man
vereinfachend annimmt, dass eine komplette Tour in einer einzigen Rechenoperation berechnet wird,
so benötigt das Durchsuchen aller Routen eine Zeit von 6, 69 · 10182 Sekunden, was länger ist als das
Universum jemals existiert hat. Um so wichtiger sind daher mathematische Verfahren ( sogenannte
Algorithmen ), die es erlauben, den besten Weg in viel schnellerer Zeit zu finden. Der dt. Mathematiker
Martin Grötschel konnte so z.B. bereits 1977 das Problem mit 120 dt. Städten ( damals ausschließlich
westdt. Städte der BRD sowie Berlin ) vollständig lösen und die optimale Route finden.
Abbildung 3.3: Optimale Route durch 120 Städte im Jahre 1977
3
Allerdings tritt jede Tour auch in umgekehrter Richtung ( z.B. habenABCD und DCBA die gleiche Gesamtlänge)
auf, so dass es nur noch 12 · 4! = 12 Touren sind.
15
3 Kombinatorik
3.2 Allgemeine Anordnungen von Elementen
Bisher gingen wir davon aus, dass man n Elemente anordnen sollte und diese alle zu unterscheiden
waren. Wie ändert sich aber die Zahl der Anordnungen, wenn die einzelnen Elemente nicht mehr
unterscheidbar sind ?
Beispiel. Vom Wort RADIO gibt es 5! = 120 mögliche Anordnungen der Buchstaben. Wie viele
Anordnungen gibt es vom Wort ATLAS ?
Irritierend ist im ersten Moment das doppelte Auftreten des Buchstabens A, so dass man ja nicht
mehr alle fünf Buchstaben eindeutig unterscheiden kann. Daher verwenden wir einen Trick und betrachten das Wort A1 T LA2 S. Nun sind die Buchstaben zu unterscheiden und es gibt davon 5! Anordnungen. Sehen wir aber vom Zahlenindex ab, so liefern stets zwei verschiedene Varianten am Ende
doch das gleiche Wort.
Z.B. ist A1 ST LA2 = A2 ST LA1 oder SA1 LT A2 = SA2 LT A1
Zwei Lösungen fallen somit immer zusammen und verzichten wir auf den Index, so gibt es genau
5!
120
2 = 2 = 60 Anordnungen des Wortes ATLAS.
Versuchen wir es noch allgemeiner :
Beispiel. Wie viele Anordnungen gibt es vom Wort BANANAS ?
Auch hier weichen wir in Gedanken erst auf das Wort BA1 N1 A2 N2 A3 S aus, vom dem es 7! = 5040
mögliche Permutationen gibt. In jedem der 5040 Wörter können wir aber die drei A und die zwei N
beliebig vertauschen, ohne dass sich das eigentliche lesbare Wort ändert. Beim Vertauschen der drei
A gibt es 3! Möglichkeiten und bei den zwei N dann 2! mögliche Vertauschungen.
Insgesamt ergeben sich
7!
5040
=
= 420
3! · 2!
6·2
mögliche Anordnungen des Wortes BANANAS.
3.3 Auswahlen und Urnenmodelle
Sehr oft geht es beim Abzählen darum, aus einer Menge von n Elementen eine bestimmte Anzahl von
k Elementen auszuwählen. Beim Treffen der Auswahl können unterschiedliche Dinge wichtig sein aber
im Rahmen der Kombinatorik muss vor allem geklärt werden, ob es auf die Reihenfolge ankommt und
ob man ein Element auch mehrfach auswählen kann.
Beispiel. a)Beim Samstagslotto werden aus 49 Zahlen 6 ausgewählt. ( n = 49, k = 6 ) und dabei ist
die Reihenfolge der gezogenen Kugeln egal und ein mehrfaches Ziehen ist nicht möglich.
b) Bei der Auslosung der DFB-Pokalspiele zieht man aus einem Topf die Namen der Vereine und
dabei ist ein mehrfaches Ziehen nicht möglich, aber die Reihenfolge ist in diesem Fall wichtig.
Meist führt man viele Auswahlaufgaben auf ein sogenanntes Urnenmodell zurück. Dazu betrachtet
man einen undurchsichtigen Behälter (= die Urne), in dem n verschiedene Kugeln liegen. Dann wird
k-mal eine Kugel gezogen.
16
3 Kombinatorik
k Kugeln
werden gezogen
Urne mit n Kugeln
Abbildung 3.4: Ziehen aus einer Urne
Es wird k-mal gezogen mit/ohne Zurücklegen und mit/ohne Beachtung der Reihenfolge.
Dieses Urnenmodell taucht nur selten so explizit in Problemen und Aufgaben auf, aber viele Aufgaben
lassen sich auf das Ziehen an einer solchen Urne übertragen.
Beispiele für Urnenmodelle
1. Ein sechsseitiger Würfel wird zweimal nacheinander geworfen und die Ergebnisse nacheinander
notiert. Das passende Urnenmodell wäre eine Urne mit 6 Kugeln ( n = 6 ), aus der dann zwei
Kugeln ( k = 2 ) mit Zurücklegen und Beachtung der Reihenfolge gezogen werden.
2. Beim Skatspiel erhält ein Spieler zufällig 10 Karten aus einem 32er Kartenspiel. Ein passendes
Urnenmodell könnte aus 32 Kugeln bestehen (beschriftet mit Karo7, Karo8, etc.) aus denen man
dann 10 Kugeln ohne Zurücklegen zieht. Die Reihenfolge der Ziehung ist hier egal.
3. Beim Hunderennen kann man darauf setzen, in welcher Reihenfolge die teilnehmenden zehn
Hunde die ersten drei Plätze belegen. Mit einer Urne lässt sich ein solches Tippen dadurch
nachbilden, dass man zehn Kugeln mit den Hundenamen verwendet und dann dreimal ohne
Zurücklegen aber unter Beachtung der Reihenfolge zieht.
Das Treffen einer Auswahl kann man in vier Bereiche unterteilen. Die gerade besprochenen Beispiele
sind dort schon eingetragen.
mit
Zurücklegen
mit
Reihenfolge
Zweimal
Würfeln
ohne
Zurücklegen
Hunderennen
10 Karten
aus Kartenstapel
verteilen
ohne
Reihenfolge
Abbildung 3.5: Beispiele für Ziehungen
17
3 Kombinatorik
3.4 Ziehen mit Reihenfolge, mit Zurücklegen
Bei dieser Art von Auswahl liegen bei jeder Ziehung immer wieder alle n Elemente in der Urne und
man wiederholt im Grunde k-mal die gleiche Ziehung. Da die Reihenfolge beachtet wird, können wir
uns für jede Ziehung eine Stelle markieren und in Gedanken von links nach rechts durchgehen, wie
viele Möglichkeiten wir bei jeder Ziehung haben.
1. Ziehung
2. Ziehung
3. Ziehung
4. Ziehung
n
n
n
n
k. Ziehung
n
....
n Elemente
zur Auswahl
n Elemente
zur Auswahl
n Elemente
zur Auswahl
n Elemente
zur Auswahl
Abbildung 3.6: Ziehen mit Reihenfolge und mit Zurücklegen
Satz. Beim Ziehen mit Beachtung der Reihenfolge und unter Zurücklegen, hat man beim k-maligen
Ziehen aus n Elementen genau
k
n
| · n ·{zn · · · n} = n
k mal
Auswahlmöglichkeiten.
3.5 Ziehen mit Reihenfolge, ohne Zurücklegen
Legt man ein gezogenes Element nicht zurück, so reduziert sich die Auswahl bei jedem weiteren Zug
um 1. Die Reihenfolge wird wieder beachtet, also können wir die Auswahlen pro Zug wieder von links
nach rechts notieren :
1. Ziehung
2. Ziehung
3. Ziehung
4. Ziehung
n n-1 n-2 n-3
n Elemente
zur Auswahl
n-1 Elemente
zur Auswahl
k. Ziehung
....
n-k+1
n-k+1 Elemente
zur Auswahl
n-2 Elemente
zur Auswahl
Abbildung 3.7: Ziehen mit Reihenfolge ohne Zurücklegen
Beim 1. Zug gibt es noch n Möglichkeiten, beim 2. Zug noch n 1 und dies Schema setzt sich fort
bis es beim k. Zug dann noch n (k 1) = n k + 1 Möglichkeiten gibt. Insgesamt gibt es dann
n · (n
1) · (n
2) · · · (n
k + 1)
mögliche Auswahlen.
Diese absteigenden k Faktoren werden mit Hilfe einer neuen abkürzenden Schreibweise einfacher
angegeben :
Als neue Schreibweise definiert man : (n)k = n · (n 1) · (n 2) · · · (n k + 1) und spricht von „n index
k“.
18
3 Kombinatorik
Sollte bei einer Ziehung der Fall auftreten, dass man von den vorhandenen n Elementen alle ziehen
soll ( also k = n ), so gibt es dafür (n)n = n · (n 1) · (n 2) · · · 3 · 2 · 1 = n! Möglichkeiten.
3.6 Ziehen ohne Reihenfolge, ohne Zurücklegen
Verzichten wir auf die Reihenfolge, so können wir unser obiges Schema mit den einzelnen Positionen
nicht mehr so anwenden, sondern müssen uns etwas Neues überlegen.
Beispiel :
Wir betrachten eine Urne mit 4 Kugeln, beschriftet von A bis D. Aus diesen Kugeln werden nacheinander 3 Kugeln ohne Zurücklegen gezogen. Vorerst legen wir noch Wert auf die Reihenfolge und listen
alle Auswahlmöglichkeiten auf :
ABC
ABD
ACB
ACD
ADB
ADC
BAC
BAD
BCA
BCD
BDA
BDC
CAB
CAD
CBA
CBD
CDA
CDB
DAB
DAC
DBA
DBC
DCA
DCB
Abbildung 3.8: Möglichkeiten mit Reihenfolge
Nach dem letzten Abschnitt gibt es dann 24 = 4 · 3 · 2 mögliche Auswahlen.
Verzichten wir in einem zweiten Schritt jetzt aber auf die Reihenfolge, so fallen mehrere Möglichkeiten
zusammen, die wir bündeln können :
ABC
ABD
ACB
ACD
ADB
ADC
BAC
BAD
BCA
BCD
BDA
BDC
CAB
CAD
CBA
CBD
CDA
CDB
DAB
DAC
DBA
DBC
DCA
DCB
Abbildung 3.9: Gebündelte Möglichkeiten
Zu jeder Farbe gehören genau 6 Möglichkeiten, da wir aus jeder Anordnung von 3 Buchstaben ja
genau 3! = 6 mögliche Vertauschungen erhalten. Also gibt es bei Verzicht auf die Reihenfolge nur noch
24/6 = 4 Möglichkeiten, 3 der 4 Buchstaben auszuwählen.
Gehen wir die Rechnung nochmal durch und betrachten dazu parallel den allgemeinen Fall :
Spezieller Fall (4 Kugeln, 3 werden
gezogen )
Mit Reihenfolge gibt es 4 · 3 · 2 = 24
Möglichkeiten.
Ohne Reihenfolge gibt es dann
Möglichkeiten.
Insgesamt ergibt sich :
24
3!
Allgemeiner Fall ( n Kugeln, k werden
gezogen )
Mit Reihenfolge gibt es
(n)k = n · (n 1) · (n 2) · · · (n k + 1)
Möglichkeiten.
k
Ohne Reihenfolge gibt es dann (n)
k!
Möglichkeiten.
19
3 Kombinatorik
Satz. Wenn man aus einer Menge von n Elementen k Elemente ohne Zurücklegen und ohne Beachtung
der Reihenfolge auswählen möchte, so gibt es
(n)k
n · (n
=
k!
1) · (n
2) · · · (n
k!
k + 1)
Möglichkeiten.
Da diese Art von Auswahl fast immer diejenige ist, die man in der Praxis meint, wenn man aus
einer größeren Menge etwas auswählt gibt es für die zunächst sperrig aussehenden Quotienten erneut
eine Abkürzung :
Definition. Für alle n 2 N und k 2 N mit kn heißt die Zahl n·(n 1)·(n
effizient von n und k .
Abkürzende Schreibweise ( gelesen als “n über k” ) :
✓ ◆
n
n · (n 1) · (n 2) · · · (n k + 1)
=
k
k!
2)···(n k+1)
k!
der Binomialko-
Beachte zum besseren Merken, dass sowohl im Zähler als auch im Nenner jeweils k absteigende
Faktoren auftreten.
Beispiel. Es ist 63 = 6·5·4
3·2·1 = 20, d.h. wenn man aus 6 Elementen 3 auswählen will, so gibt es dafür
20 Möglichkeiten. Beachte, dass es bei den 3 ausgewählten dann lediglich darum geht, ob sie gewählt
wurden oder nicht. In welcher Reihenfolge sie erwählt wurden, spielt dann keine Rolle. ( “ Ich brauche
mal eben 3 Schüler zum Waschen meines Autos.” )
Zum Abschluss noch ein paar ergänzende Bemerkungen zu diesen neuen Binomialkoeffizienten :
1. Man erweitert die Definition noch für k = 0 und legt fest : n0 = 1. Anschaulich entspricht
k = 0 dem Fall, dass man von den n Kugeln in der Urne gar keine auswählen möchte und diese
“Auswahl” kann man eben genau auf eine Art vornehmen.
2. Wenn man in der Definition von nk etwas weiterrechnet, erhält man eine alternative Berechnungsmöglichkeit der Binomialkoeffizienten.
✓ ◆
n
n · (n 1) · (n 2) · · · (n k + 1)
n · (n 1) · (n 2) · · · (n k + 1) (n k)!
=
=
·
k
k!
k!
(n k)!
n!
=
k! · (n k)!
Dies zeigt, dass man die Binomialkoeffizienten auch über Fakultäten berechnen kann. Eleganter
ist bei modernen Taschenrechnern aber eher die Verwendung der Taste nCr.
3. Ob man die Biomialkoeffizienten nun nach Definition berechnet oder mit der gerade gezeigten
Umformung macht keinen Unterschied. Für beide gibt es Merkhilfen :
20
3 Kombinatorik
k absteigende Faktoren
beginnend bei n
n•(n-1)•(n-2)•••(n-k+1) n•(n-1)•(n-2)•••(n-k+1)
=
k!
k•(k-1)•(k-2)•••2•1
k absteigende Faktoren
beginnend bei k
( nk ) =
n!
k! (n-k)!
Differenz von
n und k
Abbildung 3.10: Merkregeln für Binomialkoeffizienten
4. Es gilt :
Beweis :
✓ ◆ ✓
◆
n
n
=
k
n k
✓
n
n
k
◆
=
(n
n!
k)! · (n (n
k))!
=
(n
n!
=
k)! · k!
✓ ◆
n
k
3.7 Ziehen ohne Reihenfolge, mit Zurücklegen
Um ein Gefühl für diese Art von Ziehung zu erhalten, betrachten wir einen Getränkemarkt, der drei
Sorten an Bier ( Weizen, Pils, Radler ) anbietet. Als besonderes Angebot darf man sich einen Sechserkasten nach Belieben aus den drei Sorten zusammenstellen. Es leuchtet ein, dass die Reihenfolge, in
der die Flaschen ausgewählt werden, keine nennenswerte Rolle spielt. Am Ende sind irgendwie sechs
Flaschen in den Kasten gekommen. Auch das Nichtzurücklegen leuchtet sofort ein, da man ja durchaus
mehr als eine Sorte wählen kann, ja sogar muss, da sonst der Sechserkasten nicht voll wird. In der
bisherigen Schreibweise ist hier n = 3 und k = 6.
Wir verschaffen uns einen ersten Überblick über das Bierproblem, kürzen die Sorten mit den Zahlen
1,2,3 ab und geben die möglichen Auswahlen an ( z.B. 1, 1, 2, 3, 3, 3). Da es ja auf die Reihenfolge
nicht ankommt, geben wir die getroffene Wahl sortiert an. Mit ein wenig Probieren finden wir folgende
Möglichkeiten :
1, 1, 1, 1, 1, 1
1, 1, 1, 1, 1, 2
1, 1, 1, 1, 1, 3
1, 1, 1, 1, 2, 2
1, 1, 1, 1, 2, 3
1, 1, 1, 1, 3, 3
1, 1, 1, 2, 2, 2
1, 1, 1, 2, 2, 3
1, 1, 1, 2, 3, 3
1, 1, 1, 3, 3, 3
1, 1, 2, 2, 2, 2
1, 1, 2, 2, 2, 3
1, 1, 2, 2, 3, 3
1, 1, 2, 3, 3, 3
1, 1, 3, 3, 3, 3
1, 2, 2, 2, 2, 2
1, 2, 2, 2, 2, 3
1, 2, 2, 2, 3, 3
1, 2, 2, 3, 3, 3
1, 2, 3, 3, 3, 3
1, 3, 3, 3, 3, 3
2, 2, 2, 2, 2, 2
2, 2, 2, 2, 2, 3
2, 2, 2, 2, 3, 3
2, 2, 2, 3, 3, 3
2, 2, 3, 3, 3, 3
2, 3, 3, 3, 3, 3
3, 3, 3, 3, 3, 3
Auch wenn wir durch pures Abzählen auf die 28 Möglichkeiten zum Befüllen des Sechserkastens
gekommen sind, so bleibt doch noch unklar, wie man im allgemeinen Falle vorgeht.
21
3 Kombinatorik
Ungewöhnliche Schreibweise
Mit einer anderen Schreibweise kommt man bei diesem Problem besser voran. Prinzipiell besteht ja
jede Auswahl aus möglichen Wiederholungen der Zahlen 1, 2, 3 und es kommt dann nur noch darauf
an, wie viele davon vorhanden sind. Wir verwenden das Zeichen " um Anzahlen darzustellen und
trennen mit Hilfe des Zeichens |. Einige Beispiele sollen dies verdeutlichen.
Beispiel. a) 1, 1, 1, 2, 2, 3
! " " " | "" | "
b) 1, 1, 1, 1, 1, 2
! """""|"|
c) 2, 2, 2, 3, 3, 3
! |"""|"""
( Dreimal die 1, zweimal 2 und einmal 3 )
Ein wenig Überlegen zeigt, dass wir jede Auswahl immer mit sechs Zeichen vom Typ " sowie zwei
Trennzeichen | darstellen können. Daher könnten wir auch folgendermaßen vorgehen : Wir betrachten
acht mögliche Stellen, verteilen dann darauf die zwei Trennzeichen | und füllen den Rest mit " auf4 .
Letztlich müssen wir also von acht möglichen Positionen zwei auswählen. Es gibt dafür 82 = 28
Möglichkeiten und das Ergebnis zeigt uns, dass wir auf der richtigen Spur sind.
Allgemeine Formel
Übertragen wir den Spezialfall der Bierwahl auf den allgemeinen Fall, so gehen wir von n Kugeln in
einer Urne aus und wir ziehen k mal daraus eine Kugel mit Zurücklegen. In der neuen Schreibweise
gedacht, benötigen wir dann k Zeichen " ( für das k-malige Ziehen ) sowie n 1 Trennlinien | für
die n unterschiedlichen Elemente. Beachte, dass wir durch n 1 Trennlinien schon zu n Abschnitten
innerhalb der " kommen.
Zusammen haben wir dann n 1 + k Zeichen. Davon sind n 1 Trennlinien, die irgendwo gesetzt
werden können. Dafür gibt es n n 1+k
Möglichkeiten. Was aber, wenn wir zuerst die k Zeichen "
1
k+n 1
wählen? Dann kommen wir doch auf
Möglichkeiten. Es gilt aber:
k
✓
◆ ✓
◆ ✓
◆
n 1+k
n 1+k
n 1+k
=
=
n 1
n 1 + k (n 1)
k
und damit damit zeigt sich, dass es von der Überlegung egal ist, ob man von den n 1 + k Zeichen die
n 1 Trennlinien die k anderen Zeichen wählt und jeweils auffüllt mit den nicht benutzten Zeichen.
Satz. Wenn man aus einer Menge von n Elementen k Elemente mit Zurücklegen und ohne Beachtung
der Reihenfolge auswählen möchte, so gibt es n n 1+k
bzw. n k1+k Möglichkeiten.
1
Beispiel. In einem Fantasy-Rollenspiel trägt eine Zauberer-Spielfigur in einem Abenteuer drei magische Tränke bei sich. Zur Auswahl stehen fünf Tränke (Heilung, Schlaf, Verwandlung, Fliegen, Mana)
aus denen der Spieler drei nach Belieben ( auch drei Heiltränke sind möglich ) auswählt. Wie viele
Möglichkeiten gibt es die Spielfigur auszurüsten?
Als Urne gedacht, gibt es fünf Kugeln ( mit H,S,V,F,M beschriftet ) und wir ziehen dreimal aus
dieser Urne mit Zurücklegen aber ohne Beachtung der Reihenfolge. Daher ist n = 5 und k = 3 und es
gibt n k1+k = 73 = 35 verschiedene Kombinationen der Tränke.
Abbildung 3.11: Magische Tränke
4
Auch die umgekehrte Wahl, d.h. erst sechs " und danach zwei | ist ebenso denkbar.
22
4 Bedingte Wahrscheinlichkeiten
4.1 Definition der bedingten Wahrscheinlichkeit
Betrachte folgendes Diagramm. Es zeigt anschaulich die Ergebnismeng ⌦ sowie zwei Ereignisse A, B
als Teilmengen.
A
A B
B
U
Abbildung 4.1: Zwei Ereignisse in ⌦
Wir benutzen die Größe der Fläche, um damit die Wahrscheinlichkeit abzuschätzen.
Näherungsweise gilt dann :
1
1
P (A) ⇡
und P (B) =
3
20
Betrachten wir nun den Ausschnitt mit der Menge A \ B wie unter einem Mikroskop :
A tritt ein
B
A tritt nicht ein
Abbildung 4.2: Ausschnittsvergrößerung
Wir sehen, dass die Menge B zweigeteilt wird. Ein Bereich ( ungefähr die Hälfte von B )gehört zur
Schnittmenge, d.h. dort tritt A ein, während in der anderen Hälfte von B das Ereignis A nicht eintritt.
Bleiben wir nur innerhalb der Menge B, so ist die Wahrscheinlichkeit des Eintretens von A wesentlich
größer.
Anders formuliert : Ist das Ereignis B schon eingetreten bzw. kann man von B fest ausgehen, so
lässt sich eine größere Wahrscheinlichkeit von A erkennen. Dieses Phänomen sei noch einmal an einem
Alltagsbeispiel verdeutlicht.
Beispiel. Betrachten wir die deutschen Fernsehzuschauer als Menge ⌦ und geben folgende zwei Ereignisse vor :
A = Jemand schaut regelmäßig KIKA.
B = Jemand ist unter 12.
23
4 Bedingte Wahrscheinlichkeiten
Genaue Zahlen liegen uns nicht vor, daher schätzen wir grob ab :
P (A)
⇡
0, 05 (5 von 100 beliebigen Personen schauen regelmäßig KIKA. )
⇡
0, 20 (20 von 100 beliebigen Personen sind jünger als 12. )
und
P (B)
Können wir vom Eintreten von B ausgehen, so steigt dadurch die Wahrscheinlichkeit von A . Wir
schreiben dafür :
PB (A) ⇡ 0, 30 ( Von 100 Menschen unter 12 schauen 30 regelmäßig KIKA. )
Die Schreibweise PB (A) meint also die Wahrscheinlichkeit für das Eintreten von A unter der Voraussetzung B bzw. unter der bereits erfüllten Bedingung B.
Wie berechnet man eine bedingte Wahrscheinlichkeit ?
Aus dem vergrößerten Ausschnitt können wir ablesen, wie man PB (A) berechnet.
PB (A) =
|A \ B|
|A \ B|/|⌦|
P (A \ B)
=
=
|B|
|B|/|⌦|
P (B)
Streng genommen gilt diese Herleitung nur im Falle eine Laplace-Experiments. Man verwendet daher
nur die am Ende erzielte Formel als Definition einer bedingten Wahrscheinlichkeit :
Definition. Ist P (B) > 0 , so nennt man PB (A) =
unter der Bedingung B.
P (A\B)
P (B)
die bedingte Wahrscheinlichkeit von A
Dazu ein paar Bemerkungen :
Bemerkung.
1) Als alternative Schreibweise findet man auch P (A|B) = PB (A).
2) Die Bedingung P (B) > 0 in der Definition stellt sicher, dass man den Quotienten P (A\B)/P (B)
auch mathematisch bilden kann und anschaulich ist es klar, dass man im Falle von P (B) = 0 eine
Bedingung gestellt hätte, die nie eintreten kann und daher sinnlos wäre.
3) Beachte dass allgemein gilt : PB (A) 6= PA (B) ( auch wenn dies sprachlich manchmal ähnlich
klingt.)
Zwei weitere Beispiel zum Würfeln zeigen die Anwendung der bedingten Wahrscheinlichkeiten :
Beispiel. Ein Würfel wird zweimal geworfen. Dabei sind folgende Ereignisse gegeben :
A= Die Summe der Zahlen ist 11 oder 12
B= Der 1. Würfel zeigt eine 6.
Zunächst ist klar, dass ⌦ = {1, 2, 3, 4, 5, 6}2 = {(1/1), (1/2), . . . , (6/6)} und hier ein LaplaceExperiment vorliegt.
Durch einfaches Abzählen folgt schnell :
P (A) =
3
1
= ,
36
12
P (B) =
6
1
=
36
6
Für die bedingten Wahrscheinlichkeiten müssen wir noch P (A \ B) berechnen. Nur die Paare (6/5)
und (6/6) gehören zu beiden Mengen, also ist
P (A \ B) =
24
2
1
=
36
18
4 Bedingte Wahrscheinlichkeiten
Damit können wir jetzt berechnen :
PB (A) =
P (A \ B)
=
P (B)
PA (B) =
P (A \ B)
=
P (A)
1
18
1
6
1
18
1
12
=
6
1
=
18
3
=
12
2
=
18
3
und als zweite Aufgabe :
Beispiel. Ein Würfel wird fünfmal geworfen. Wir konzentrieren uns auf die folgenden Ereignisse :
A= Die ersten vier Würfe zeigen eine 1.
B = Der fünfte Wurf zeigt eine 1.
Offenbar gilt ⌦ = {1, 2, 3, 4, 5, 6}5 , |⌦| = 65 = 7776 und ein Laplace-Experiment liegt vor.
Die beiden Ereignisse geben wir in Mengenform an :
A = {(1/1/1/1/1), (1/1/1/1/2), . . . , (1/1/1/1/6)}
B = {1, . . . , 6}4 ⇥ {1} = {(1/1/1/1/1), (1/1/1/2/1), . . . , (6/6/6/6/1)}
A \ B = {(1/1/1/1/1)}
Für die Mächtigkeiten ergibt sich :
|A| = 6, |B| = 64 · 1 = 1296, |A \ B| = 1
Damit haben wir alles zusammen, um bedingte Wahrscheinlichkeiten auszurechnen.
P (A \ B)
PA (B) =
=
P (A)
1
7776
6
7776
=
1
6
Setzen wir die Bedingung A nicht voraus, dann erhalten wir :
P (B) =
1296
1
=
7776
6
In diesem Fall ist also PA (B) = P (B) , d.h. das Eintreten von A hatte keinen Einfluss auf die
Wahrscheinlichkeit von B . Weiterhin zeigt dieses Beispiel, dass die Chance auf eine Eins beim Würfeln
bei jedem Wurf nicht von den vorherigen Würfen abhängt. Die ersten vier Einsen steigern oder senken
die Wahrscheinlichkeit auf eine Eins beim fünften Wurf überhaupt nicht. Der Würfel besitzt also kein
Langzeitgedächtnis und zeigt bei jedem einzelnen Wurf die gleichen Wahrscheinlichkeiten.
4.2 Stochastische Unabhängigkeit
Es gibt Situationen bei denen die Wahrscheinlichkeit eines Ereignisses A nicht von einem anderen
Ereignis B abhängt ( vgl. das Beispiel am Ende des letzten Abschnitts) . Daher definiert man :
Definition. Gegeben seien die zwei Ereignisse A, B und P (B) > 0 . Dann nennt man A (stochastisch)
unabhängig von B, wenn
P (A) = PB (A)
.
25
4 Bedingte Wahrscheinlichkeiten
Diese Definition findet man oft auch in anderer Form. Die bedingte Wahrscheinlichkeit auf der
rechten Seite lässt sich schreiben als it PB (A) = P P(A\B)
(B) . Durch Multiplikation mit P (B) folgt :
PB (A) · P (B) = P (A \ B)
Hängt die Wahrscheinlichkeit P (A) dann gar nicht von B ab, d.h. ist P (A) = PB (A) so kann man die
bisherige Zeile fortsetzen :
P (A \ B) = PB (A) · P (B)
=
|{z}
Wenn P(A) nicht von B anhängt.
P (A) · P (B)
Insofern ist es egal, ob man zum Nachweis der Unabhängigkeit direkt P (A) = PB (A) nachweist, oder
zeigen kann, dass P (A \ B) = P (A) · P (B) ist.
Eine entscheidende Eigenschaft der Unabhängigkeit ist, dass sie nur paarweise auftritt, d.h. entweder
sind A und B beide voneinander abhängig oder beide sind voneinander unabhängig. Der folgende Satz
zeigt, dass es eben nicht möglich ist, dass A von B unabhängig ist aber umgekehrt nicht.
Satz. Gegeben seien die zwei Ereignisse A, B mit P (A) > 0 und P (B) > 0 . Dann gilt :
Ist A unabhängig von B, so ist auch B unabhängig von A .
Beweis. Es sei A unabhängig von B , d.h. P (A \ B) = P (A) · P (B). Dann folgt :
PA (B) =
P (A \ B)
P (A) · P (B)
=
= P (B)
P (A)
P (A)
und damit ist gezeigt, dass P (B) nicht vom Eintreten von A abhängt, d.h. B ist unabhängig von A
.
Die Abbildung fasst die verschiedenen Darstellungen für unabhängige Ereignisse zusammen :
PB (A)=P(A)
und
PA (B)=P(B)
A und B sind
unabhängig
voneinander
P(A B)=P(A)· P(B)
U
Abbildung 4.3: Übersicht der Unabhängigkeit
Beachte, dass die beiden Begriffe „unabhängig“ und „unvereinbar“ ähnlich klingen, aber sorgfältig
voneinander getrennt werden müssen. Die Unabhängigkeit hängt vom Wahrscheinlichkeitsmaß P ab,
während die Unvereinbarkeit lediglich aussagt, dass zwei Ereignisse keinerlei Schnittmenge besitzen.
26
4 Bedingte Wahrscheinlichkeiten
4.3 Baumdiagramme
Im letzten Abschnitt hatten wir die Definition der bedingten Wahrscheinlichkeit PB (A) =
und erhalten :
P (A\B)
P (B) umgestellt
P (A \ B) = PB (A) · P (B)
Dieser Zusammenhang wird auch als Produktsatz bezeichnet :
Satz. (Produktsatz) Für zwei Ereignisse A, B mit P (B) > 0 gilt :P (A \ B) = PB (A) · P (B)
Dieser Produktsatz erlaubt es also die Wahrscheinlichkeit von A \ B so zu berechnen, dass man
die Wahrscheinlichkeit P (B) bestimmt, dann vom Eintreten von B ausgeht und PB (A) berechnet und
schließlich durch eine simple Multiplikation das gesuchte P (A \ B) erhält. Betrachten wir ein Beispiel
:
Beispiel. Wir verwenden aus einem Kartenspiel 3 Damen und 2 Asse, also insgesamt 5 Karten. Davon
werden 2 Karten ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass wir genau ein
As gezogen haben ?
Diese Aufgabe lässt sich mit unseren Kenntnissen auf drei verschiedene Arten lösen, die hier exemplarisch vorgestellt sein sollen. Keine der drei Methoden ist „besser“ oder „schlechter“, jede hat ihre
eigene Berechtigung im Rahmen der Wahrscheinlichkeitsrechnung.
METHODE 1 : Die Methode der Puristen
Wir nenne die Karten D1 , D2 , D3 , A1 , A2 und erhalten damit die Ergebnismenge ⌦ aus lauter Paaren
:
⌦ = {D1 , D2 , D3 , A1 , A2 }2 \ {(D1 /D1 ), (D2 /D2 ), (D3 /D3 ), (A1 /A1 ), (A2 /A2 )}
Die Anzahl der Paare in ⌦ ist |⌦| = 5 · 4 = 20 . Alle Ergebnisse sind gleichwahrscheinlich, d.h. es liegt
ein Laplace-Experiment vor. Mit der Festlegung
X = Es wird genau 1 As gezogen.
folgt:
X = {(D1 /A1 ), (D1 /A2 ), (D2 /A1 ), (D2 /A2 ), (D3 /A1 ), (D3 /A2 ), (A1 /D1 ), (A1 /D2 ),
(A1 /D3 ), (A2 /D1 ), (A2 /D2 ), (A2 /D3 )}
Letzlich ergibt sich :
P (X) =
|X|
12
=
= 0, 6
|⌦|
20
METHODE 2 : Kombinatorik verwenden
Wir ziehen aus den 5 Karten genau 2 heraus und dabei ist eine der Karten ein As. In Gedanken
trennen wir die fünf Karten in 2 Asse, von denen wir eines ziehen wollen, und 3 Damen, von denen
auch eine gezogen wird.
Mit der Festlegung
X = Es wird genau 1 As gezogen.
folgt:
P (X) =
3
1
2
1
5
2
METHODE 3 : Baumdiagramme
27
=
3·2
= 0, 6
10
4 Bedingte Wahrscheinlichkeiten
Diese Herangehensweise basiert auf den bedingten Wahrscheinlichkeiten und dem oben genannten
Produktsatz. Wir stellen das Ziehen der 2 Karten nacheinander als grafischen Baum dar und schreiben
an die einzelnen Äste die entsprechenden Wahrscheinlichkeiten :
2
5
3
5
D
A
2
4
2
4
3
4
A
D
1
4
A
D
Abbildung 4.4: Baumdiagramm zur Aufgabe
Dabei ist zu beachten, dass wir bei der zweiten Karte schon bedingte Wahrscheinlichkeiten angegeben haben. In einem solchen Baumdiagramm muss man dann von der Spitze bis zum Boden alle
derartigen Pfade durchgehen, die zum Ereignis gehören. In jedem einzelnen Pfad multipliziert man
die einzelnen Wahrscheinlichkeiten (Produktsatz) der Äste und addiert anschließend alle Wahrscheinlichkeiten der Pfade.
2
5
3
5
D
2
4
D
A
2
4
3
4
A
D
1
4
A
Abbildung 4.5: Wege, die zum Ereignis gehören
Mit der Festlegung
X = Es wird genau 1 As gezogen.
folgt:
P (X) =
3 2 2 3
3
3
· + · =
+
= 0, 6
5 4 5 4
10 10
4.4 Vierfeldertafel
Liegen zwei Ereignisse A, B eines Zufallsexperiments vor, so kann man bei jeder Durchführung des
Experiments überprüfen, ob A und B eingetreten sind. Dadurch ergeben sich prinzipiell vier Varianten,
die man in einer Vierfeldertafel darstellen kann.
28
4 Bedingte Wahrscheinlichkeiten
Beispiel. Legt man als Ereignisse fest
A = Jemand schaut regelmäßig ARTE.
B = Jemand ist Brillenträger.
so könnte sich folgende Verteilung ergeben :
A
A
B
0,03
0,24
0,27
B
0,02
0,71
0,73
0,05
0,95
1,00
Abbildung 4.6: Beispiel einer Vierfeldertafel
Dabei ist die Darstellung so gemeint, dass jedes Feld für eine Schnittmenge der Ereignisse bzw. ihrer
Negation steht. So ist P (A \ B) = 0, 03 oder P (Ā \ B) = 0, 24.
Liest man im Diagramm zeilen- oder spaltenweise kann man auch die Wahrscheinlichkeiten P (A) =
0, 05 und P (B) = 0, 27 ablesen.
Etwas versteckter enthält das Diagramm auch die Möglichkeit bedingte Wahrscheinlichkeiten abzulesen. Geht man z.B. vom Eintreten von B aus, beschränkt man sich eben auf die obere Zeile und
kann dann erkennen :
P (A \ B)
0, 03
1
PB (A) =
=
=
P (B)
0, 27
9
Ein weiteres Beispiel verdeutlicht die Anwendung einer Vierfeldertafel :
Beispiel. Bei einer Untersuchung des TÜV hat man festgestellt, dass 10 % aller vorgeführten Pkw
wegen schwerwiegender Mängel fahruntüchtig sind. 60 % dieser Pkws waren älter als sieben Jahre. 20
% der vorgeführten Pkws bekommen die TÜV-Plakette (sind also fahrtüchtig), obwohl sie älter als
sieben Jahre sind. Mit welcher Wahrscheinlichkeit bekommt ein Pkw, der älter als sieben Jahre ist,
die TÜV-Plakette nicht?
Zunächst erkennen wir im Text die beiden entscheidenden Ereignisse ( und ihre Negationen ) :
FT
ALT
= Ein Auto ist fahrtüchtig (besitzt TÜV-Plakette).
= Ein Auto ist älter als 7 Jahre.
Dem Text kann man dann entnehmen : P (F T ) = 10% = 0, 10 und P (F T ) = 90% = 0, 90
Der nächste Satz sagt, dass diese 10% sich noch feiner unterteilen lassen. Es ergibt sich :
P (F T \ ALT ) = 60% von 10% = 0, 6 · 0, 1 = 0, 06
Aus dem folgenden Satz lesen wir ab :
P (F T \ ALT ) = 20%
29
4 Bedingte Wahrscheinlichkeiten
Trägt man alle diese Angaben in eine Vierfeldertafel und ergänzt durch Summenbildung die restlichen
Felder, erhält man folgendes Bild :
FT
FT
ALT
0,20
0,06
0,26
ALT
0,70
0,04
0,74
0,90
0,10
1,00
Abbildung 4.7: Vierfeldertafel zur Autoaufgabe
Daraus können wir jetzt die gefragte Wahrscheinlichkeit berechnen :
PALT (F T ) =
P (ALT \ F T )
0, 06
=
= 0, 231
P (ALT )
0, 26
Zum Schluss des Abschnitts sei angemerkt, dass man solche Tafeln nicht nur mit Wahrscheinlichkeiten füllt, sondern oft auch absolute Häufigkeiten oder relative Häufigkeiten einträgt.
Beispiel. Eine Gruppe von jungen Männern wird daraufhin untersucht, ob ein bestimmtes Medikament gegen Haarausfall hilft oder nicht. Per Zufall wählt man einige Männer aus und gibt ihnen das
Medikament, während andere ein wirkloses Placebo erhalten. Nach mehrwöchiger Anwendung werden
die absoluten Häufigkeiten ausgezählt. Mit den Abkürzungen
M
= Jemand erhält das Medikament.
W
= Jemand zeigt eine nachweisbare Wirkung gegen den Haarausfall.
et: und es ergibt sich :
W
W
M
M
142
38
180
236
154
390
378
192
570
Abbildung 4.8: Vierfeldertafel Haarausfall
30
4 Bedingte Wahrscheinlichkeiten
Für den Hersteller ist es natürlich interessant zu wissen, ob die Gabe des Medikaments eine nachweisbare Wirkung erzielt. Einen ersten Eindruck liefert die Berechnung der bedingten Wahrscheinlichkeit
PM (W ) im Vergleich zu P (W ), um zu erkennen, ob die Bedingung M etwas verändert oder nicht.
Hier gilt :
PM (W ) =
P (W ) =
P (M \ W )
142/570
142
=
=
= 0, 376
P (M )
378/570
378
180
= 0, 316
570
Hier zeigt sich ein nur geringer Unterschied der beiden Wahrscheinlichkeiten, der sich auch aus reinem
Zufall so hätte ergeben können. Genauere Untersuchungen sind nötig.
31
5 Bernoulli-Ketten
5.1 Einführendes Beispiel
Der Psychologe Joseph B. Rhine (1895 – 1980) entwickelte einen bekannten Test zur Untersuchung von
außersinnlichen Wahrnehmungen. Damit wollte er empirisch überprüfen, ob es einer Person möglich
sei, die Gedanken eines anderen Menschen zu lesen. Dazu verwendete er insgesamt 25 Karten, von
denen je fünf mit einem gleichen Symbol bedruckt waren. Folgende Symbole wurden verwendet :
Abbildung 5.1: von Rhine verwendete Karten
Eine Person mischt die Karten, deckt nur für sich sichtbar die nächste auf und konzentriert sich auf
das Symbol der Karte. Die zweite Person versucht nun aus einiger Entfernung durch Gedankenlesen
zu erahnen, welches Symbol auf der Karte ist1 .
Experiment
Führe den Versuch mit einem Partner durch. Statt der Karten kannst du dabei auch die Symbole alle
aufzeichnen und dann jede Runde dich zufällig für eines entscheiden. Denke an das gewählte Symbol
und lasse die andere Person das Symbol erraten. Dabei wird nach jedem Ratevorgang nicht mitgeteilt,
ob jemand richtig geraten hat oder nicht. Insgesamt sollen 8 Symbole erraten werden.
In einem Grundkurs in der Schule wurde der Versuch durchgeführt und von den 20 Schülern hatte
jemand fünf Symbole korrekt erkannt. Ist diese Schülerin hellseherisch begabt ?
5.2 Bernoulli-Experimente
Unter einem Bernoulli-Experiment ( kurz BE oder BExp ) versteht man ein Zufallsexperiment mit nur
2 Ergebnissen, d.h. |⌦| = 2 . Solche Experimente treten immer dann auf, wenn man eine Fragestellung
so formuliert, dass nur noch 2 Alternativen auftreten, die sich gegenseitig ausschließen.
Beispiel. .
a) Ich fahre an eine Ampel und notiere, ob sie Rot zeigt oder nicht.
b) Ich rolle einen Würfel und notiere ob eine gerade oder ungerade Zahl fällt.
c) Ich versuche ein Symbol zu erraten und notiere ob ich richtig oder falsch gelegen habe.
Dabei müssen die beiden Alternativen aber nicht unbedingt die gleiche Wahrscheinlichkeit besitzen2 .
1
Im Film “Ghostbusters” zeigt die Einstiegsszene des Films dieses Gedankenraten, wenn auch die Probanden dort direkt
eine Rückmeldung über Erfolg oder Misserfolg erhalten( http://www.youtube.com/watch?v=fn7-JZq0Yxs ).
2
Dann wäre das Bernoulli-Experiment gleichzeitig auch ein Laplace-Experiment. Das Beispiel b) zeigt eine solche
Möglichkeit.
32
5 Bernoulli-Ketten
Ein Bernoulli-Experiment können wir mit der Ergebnismenge ⌦ = {0, T } beschreiben und verwenden
dabei das T für einen Treffer mit der Wahrscheinlichkeit p ( d.h. P ({T }) = p ) und die 0 für einen
Nichttreffer. Was man mit der Bezeichnung “Treffer” konkret bei einem Experiment meint, muss vorab
festgelegt werden. Der Nichttreffer passiert dann mit der Wahrscheinlichkeit P ({0}) = 1 p und sehr
oft wird diese Wahrscheinlichkeit abgekürzt mit q = 1 p .
Zusammengefasst als Bild :
Bernoulli-Experiment
Ω ={ 0, T }
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Abbildung 5.2: Bernoulli-Experiment
5.3 Bernoulli-Ketten
Lässt sich ein Zufallsexperiment in mehrere einzelne Bernoulli-Experimente aufteilen, so spricht man
von einer Bernoullikette. Dabei führt man nacheinander n-mal das gleiche Bernoulli-Experiment durch.
Dabei muss aber die Wahrscheinlichkeit für einen Treffer bei jeder einzelnen Ausführung die gleiche
bleiben !
Bernoulli-Kette Ω={0,T}n
Bernoulli-Experiment
Bernoulli-Experiment
Bernoulli-Experiment
Bernoulli-Experiment
Bernoulli-Experiment
Ω ={ 0, T }
Ω ={ 0, T }
Ω ={ 0, T }
Ω ={ 0, T }
Ω ={ 0, T }
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Niete
Wkeit q=1 - p
Treffer
Wkeit p
Abbildung 5.3: Bernoulli-Kette
Definition. Führt man n einzelne Bernoulli-Experimente mit der gleichbleibenden Trefferwahrscheinlichkeit p durch, so spricht man von einer Bernoullikette der Länge n mit dem Parameter p . Für eine
solche Bernoullikette gilt :
⌦ = {0, T }n
und
|⌦| = 2n
Beispiel. a) Ein routinierter NBA-Spieler wirft fünfmal nacheinander einen Basketball auf einen Korb
und notiert bei jeder Durchführung ob ein Treffer erzielt wurde oder nicht. Die Routine sorgt dafür,
dass die Wahrscheinlichkeit des Treffens von ⇡ 80% konstant bleibt. Eine Bernoulli-Kette der Länge
n = 5 mit dem Parameter p = 0, 8 liefert die passende mathematische Beschreibung.
b) In einer Urne sind 9 schwarze und 1 weiße Kugel. Man zieht eine Kugel, notiert ob man die
weiße gezogen hat (=Treffer) oder nicht. Dann legt man die Kugel zurück und führt dies insgesamt
siebenmal durch. Wir verwenden eine Bernoulli-Kette der Länge n = 7 mit dem Parameter p = 0, 1 (
1 von 10 Kugeln ist weiß ! ).
33
5 Bernoulli-Ketten
5.4 Die Formel von Bernoulli
Bei Bernoulliketten interessiert man sich oft dafür, dass eine bestimmte Anzahl an Treffern erreicht
wurde. Wir verwenden die Abkürzungen T = 0, T = 1, T = 2, . . . für die erreichten Trefferanzahlen
und meinen damit in Kurzform die Ereignisse “Es wurde kein Treffer erzielt”, “Es wurde genau ein
Treffer erzielt”, usw.
Entsprechend gibt es dann die Schreibweisen P (T = 0), P (T = 1), P (T = 2), . . . P (T = n) und man
meint damit die Wahrscheinlichkeiten der Ereignisse mit keinem, genau einem, genau zwei, ... , genau
n Treffern.
Wenn wir allgemein eine Bernoullikette der Länge n mit dem Parameter p betrachten, so versuchen
wir eine einfache Berechnung von P (T = k) zu erhalten. Wie lässt sich also mit wenig Aufwand die
Wahrscheinlichkeit von genau k Treffern bei n Durchgängen berechnen.
Stellen wir uns die Kette allgemein im Baumdiagramm vor, so erhalten wir das folgende Bild :
1-p
p
T
p
0
1-p
T
p 1-p
0 T
1-p
T
0
p 1-p
T
p
0
p 1-p
0T
p 1-p
0 T
0
... usw...
Abbildung 5.4: Baum zur Bernoulli-Kette
Gehen wir die Gedanken, die zur Formel von Bernoulli führen schrittweise durch :
1. Wenn wir uns für k Treffer interessieren, so müssen wir alle Gesamtwege im Baum finden, die
genau k mal ein T besitzen und genau n k mal eine 0.
2. Ein einziger solcher Pfad mit k Treffern hat dann die Wahrscheinlichkeit pk · (1 p)n k , denn
entlang des Weges treffen wir ja k-mal auf ein p und auf den restlichen n k Zweigen auf 1 p
. Multiplizieren wir alle diese Zahlen und sortieren sie um ( beim Multiplizieren erlaubt !) , so
ergibt sich die genannte Wahrscheinlichkeit.
3. Wie viele solcher Pfade mit k Treffern gibt es aber ?
Alle solcher Gesamtpfade haben k-mal ein p an irgendwelchen Stellen. Wir müssen also lediglich
abzählen, wie viele Möglichkeiten es gibt, an die n Teilabschnitten im Baum von oben nach
unten k-mal ein p anzuschreiben. Anders ausgedrückt : Von den n Teilabschnitten müssen wir k
auswählen.
Aus der Kombinatorik wissen wir, dass es dafür nk Möglichkeiten gibt, also gibt es auch genau
n
k Pfade mit genau k Treffern.
34
5 Bernoulli-Ketten
Insgesamt folgt :
✓ ◆
n
P (T = k) =
· pk · (1
k
p)
n k
bzw.
✓ ◆
n
P (T = k) =
· pk · q n
k
k
Jakob Bernoulli (1654 - 1705) und ihm zu Ehren kürzt man die Zahlenwerte auch mit einem B in
der Form B(n, p, k) = P (T = k) ab.
Stellt man alle Werte von P (T = 0) bis P (T = n) grafisch dar, so erhält man das Bild einer
sogenannten Bernoulli-Verteilung (oder auch Binomialverteilung genannt).
Beispiel. Für n = 10, p = 0, 3 erhalten wir die verschiedenen Wahrscheinlichkeiten von P (T = 0) bis
3
7
P (T = 10). Der größte Wert ergibt sich bei P (T = 3) = 10
3 · 0, 3 · 0, 7 ⇡ 0, 267
Abbildung 5.5: Verteilung für n = 10, p = 0, 3
Die fehlenden Balken in der Abbildung 5.5 für k = 9 bzw. k = 10 erklären sich dadurch, dass die
zugehörigen Wahrscheinlichkeiten sehr klein sind :
✓ ◆
10
P (T = 9) =
· 0, 39 · 0, 71 ⇡ 0, 00014
9
✓ ◆
10
P (T = 10) =
· 0, 310 · 0, 70 = 0, 310 ⇡ 0, 0000059
10
Zum Schluss kommen wir in diesem Abschnitt noch einmal zurück auf auf den anfangs geschilderten
Versuch, die Gedanken einer anderen Person zu erraten. Dort gab es 5 Symbole, von denen sich eine
Person eines aussucht und konzentriert daran denkt. Nehmen wir an, dass die zweite Person keinerlei
Gedanken lesen kann und einfach nur zufällig rät, dann liegt bei einer einzigen Durchführung ein
Bernoulli-Experiment mit T = Person rät korrekt. und p = 1/5 = 0, 2 vor.
Der Versuch sollte achtmal durchgeführt werden, so dass wir zu einer Bernoullikette der Länge n = 8
mit p = 0, 2 kommen. Die Abbildung zeigt die Verteilung der Wahrscheinlichkeiten :
35
5 Bernoulli-Ketten
Abbildung 5.6: Verteilung für n = 8, p = 0, 2
Zunächst berechnen wir :
P (T = 5) =
✓ ◆
8
1
· 0, 25 · 0, 83 = 0, 00917 =
5
109
Im Mittel erzielt also durch pures Raten eine von 109 Personen fünf richtig geratene Symbole. So
beachtlich ist es also nicht, wenn wir in unserem Kurs eine Person mit 5 Treffern wiederfinden.
Da die Wahrscheinlichkeit ab sechs Treffern nicht mehr gut abzulesen sind, erweitern wir unsere
bisherige Schreibweise P (T = k) und lassen auch die Zeichen  und zu. Dann ist
P (T 6) = P (T = 6) + P (T = 7) + P (T = 8) ⇡ 0, 00123 =
1
812
Mit der Gegenereignisregel ergibt sich dann :
P (T 5) = 1
P (T 6) = 1
0, 00123 = 0, 9988
Mit einer sehr großen Wahrscheinlichkeit von 99, 88% führt demnach pures Raten zu höchstens fünf
Treffern. Nur eine von 812 Personen wird durch Raten im Durchschnitt auf sechs oder mehr richtige
Rateergebnisse kommen.
Hilfreich bei vielen Aufgaben zum Thema Bernoullikette sind Tabellen in Buchform oder eine Internetseite, die die Berechnung der einzelnen Wahrscheinlichkeiten abnimmt. ( z.B. http://www.
fortapocalypse.de/binomial.swf).
36
6 Zufallsgrößen
6.1 Definition des Begriffs der Zufallsgröße
Bisher sind wir in der Lage spezielle Wahrscheinlichkeiten anzugeben und zu berechnen. Manchmal
benötigt man noch weitere Informationen neben der Wahrscheinlichkeit, um einen Ablauf genauer
zu beurteilen. So ist beim klassischen Lottospiel ( 6 aus 49 ) die Wahrscheinlichkeit äußerst gering
aber der überaus hohe Gewinn lässt viele Menschen dann dennoch mitspielen. Ein anderes Beispiel einfacher als Lotto - soll dies verdeutlichen.
Beispiel. Ein Spieler setzt 2 € als Einsatz und entscheidet sich laut hörbar für eine Zahl von 1 bis 6.
Dann wirft er zwei Würfel und kann je nach Wurf Geld zurückgewinnen. Er erhält :
• 0 € : Seine genannte Zahl taucht überhaupt nicht auf.
• 3 € : Seine genannte Zahl erscheint genau einmal.
• 15€ : Beide Würfel zeigen seine genannte Zahl.
Ein ( mathematisch interessierter ) Spieler muss sich bei diesem Spiel natürlich nicht nur um die
einzelnen Wahrscheinlichkeiten kümmern, sondern auch der Frage nachgehen, ob sich insgesamt die
Teilnahme lohnt. Entschädigen die hohen Gewinne für die geringen Wahrscheinlichkeiten ? Wieviel
kann ein Spieler bei diesem Spiel im Durchschnitt gewinnen ?
Wir nehmen an, dass der Spieler immer auf die 6 setzt1 und verwenden die übliche Ergebnismenge
bei zwei Würfeln, d.h. ⌦ = {1, . . . , 6}2 und |⌦| = 36 . Die einzelnen Zweiertupel fassen wir übersichtlich
zu den Gewinnen pro Spiel zusammen : Mit den festgelegten Spielregeln ist es möglich, jedem Tupel
Zahl keinmal
{1,..., 5}2
Gewinn pro
Spiel
Gesamtgewinn
( abzüglich 2 €
Einsatz )
Wkeit
Zahl einmal
(a/6) oder (6/a)
mit a є {1,..., 5}2
(6/6)
0€
3€
15 €
-2 €
1€
13 €
25
36
10
36
Abbildung 6.1: Übersicht
(a/b) 2 ⌦ einen Gesamtgewinn zuzuordnen.
1
Zahl keinmal
Die Rechnung lässt sich auf alle anderen genannten Zahlen übertragen.
37
1
36
6 Zufallsgrößen
Beispiel. (1/6) 7! 1 €, (2/5) 7!
2 €, (6/6) 7! 13 €, usw.
Definition. Eine Zuordnung (Funktion) von ⌦ nach R heißt Zufallsgröße oder auch Zufallsvariable.
Jedem möglichem Ergebnis eines Zufallsexperiment wird demnach eine reelle Zahl zugeordnet. Meist
verwendet man den Buchstaben X als Namen für die Zufallsgröße , d.h. X : ⌦ ! R ist eine Funktion,
die jedem Element ! 2 ⌦ eine bestimmte reelle Zahl X(!) zuordnet.
In unserem Beispiel ist der Gesamtgewinn in Euro eine Zufallsvariable. Um noch eine Antwort
auf die Frage zu geben, ob sich ein Spiel nun für den Spieler rentiert oder nicht, gehen wir von 36
durchgeführten Spielen aus, die sich perfekt nach dem Durchschnitt richten, d.h. 25 Spiele zeigen keine
6, 10 Spiele zeigen genau eine 6 und ein Spiel zeigt die Doppelsechs. Dann können wir den Gewinn
pro Spiel ausrechnen, indem wir den Gewinn aller 36 Spiele durch 36 dividieren, also
Gewinn pro Spiel =
25 · ( 2) + 10 · 1 + 1 · 13
27
=
=
36
36
0, 75
Ein negativer durchschnittlicher Gewinn ist ein Verlust. Der Spieler verliert pro Spiel durchschnittlich 0,75 € und sollte daher auf lange Sicht die Finger vom Spiel lassen. Damit ist aber auch die
goldene Regel des Spielens bestätigt : Die Bank gewinnt immer !
Ergebnismenge einer Zufallsgröße
Da in all unseren bisherigen Beispielen die Ergebnismenge ⌦ = {!1 , . . . , !n } stets endlich ist, kann die
Zufallsgröße X auch nur endlich viele Werte X(!1 ), . . . , X(!n ) annehmen. Alle Werte fasst man als
Wertemenge von X zusammen und nennt diese X(⌦).
Beispiel. Eine Münze wird viermal geworfen und X gibt die Anzahl der Würfe mit „Zahl“ an. Zunächst
legen wir wie gewohnt die möglichen Ergebnisse beim viermaligen Münzwurf fest :
⌦ = {(K/K/K/K), (K/K/K/Z), . . . , (Z/Z/Z/Z)},
oder kürzer :
|⌦| = 16
⌦ = {K, Z}4
Kommt jetzt die Zufallsgröße X hinzu, interessiert uns dabei nur noch die Anzahl der Münzen mit Z.
Die möglichen Werte von X liegen zwischen Null und Vier und daher ist hier X(⌦) = {0, 1, 2, 3, 4}.
Eine weitere sinnvolle Abkürzung im Zusammenhang mit Zufallsgrößen ist die Schreibweise {X = c}
mit c 2 R. Damit meint man dass Ereignis, das X den Wert c annimmt. Ereignisse sind Teilmengen
von ⌦ und insofern ist bei diesem Beispiel :
{X = 0} = {(K/K/K/K}
{X = 1} = {(K/K/K/Z), (K/K/Z/K), (K/Z/K/K), (Z/K/K/K)}
{X = 2} = {(K/K/Z/Z), (K/Z/K/Z), (Z/K/K/Z), (K/Z/Z/K), (Z/K/Z/K), (Z/Z/K/K)}
{X = 3} = {(K/Z/Z/Z), (Z/K/Z/Z), (Z/Z/K/Z), (Z/Z/Z/K)}
{X = 4} = {(Z/Z/Z/Z)}
Dadurch, dass hier stets Teilmengen von ⌦ vorliegen, ist dann später auch eine Schreibweise wie
P ({X = 2}) oder abkürzend P (X = 2) durchaus gerechtfertigt und damit können wir den einzelnen
38
6 Zufallsgrößen
angegebenen Mengen auch Wahrscheinlichkeiten zuordnen :
P (X = 0) =
P (X = 1) =
P (X = 2) =
P (X = 3) =
P (X = 4) =
1
16
4
16
6
16
4
16
1
16
6.2 Wahrscheinlichkeitsverteilung und Erwartungswert
Eine Zufallsgröße X nimmt in unseren Aufgaben verschiedene, aber nur endlich viele Werte an. Die
einzelnen möglichen Werte werden wir in Zukunft mit x1 , x2 , . . . , xn abkürzen. Dann lässt sich die in
6.1 betrachtete Wertemenge dieser Zufallsgröße schreiben als
X(⌦) = {x1 , x2 , . . . , xn }
Wie schon im letzten Abschnitt angedeutet können wir Wahrscheinlichkeiten bestimmen, mit denen die
Zufallsgröße X diese einzelnen Werte annimmt, d.h. die Werte P ({X = x1 }), P ({X = x2 }), . . . berechnen. Damit erhält man eine Übersicht, die uns verrät, mit welcher Wahrscheinlichkeit eine Zufallsgröße
ihre verschiedenen möglichen Werte annimmt. Man spricht von der Wahrscheinlichkeitsverteilung der
Zufallsgröße X .
Beispiel. Mitunter erhält man unter seiner Email-Adresse auch unerwünschte Werbemails ( Spam ).
Mit der Zufallsgröße X geben wir die Anzahl solcher Werbemails an einem Tag an und gehen ferner
davon aus, dass höchstens 4 Spammails täglich eintrudeln. Durch umfangreiches Auszählen könnten
wir dann zu folgender Wahrscheinlichkeitsverteilung gelangen :
xi
P (X = xi )
0
0,54
1
0,28
2
0,10
3
0,06
4
0,02
Diese Verteilung stellen wir grafisch als Balkendiagramm dar :
0,5
0,4
0,3
0,2
0,1
0
1
2
3
4
Abbildung 6.2: Verteilung der Zufallsgröße als Balkendiagramm
39
6 Zufallsgrößen
Erwartungswert
Aus den Angaben mit welcher Wahrscheinlichkeit eine Zufallsgröße ihre verschiedenen Werte annimmt,
kann man einen Mittelwert der Zufallsgröße bestimmen. Man spricht vom sogenannten Erwartungswert
E(X) oder auch µ genannt. Am oben eingeführten Beispiel der täglich eintreffenden Werbemails lässt
sich zeigen, wie man diesen Erwartungswert bestimmt. Gehen wir von 100 betrachteten Tagen aus
und stellen wir uns den Fall vor, dass sich in diesen Tagen die Wahrscheinlichkeitsverteilung perfekt
einstellt. An 54 Tagen erhalten wir also keine Werbung, an 28 Tagen genau eine Werbemail usw.
Dann können wir den Durchschnittswert wie folgt bestimmen :
E(X) =
Wie oft tritt jeder Wert auf ?
54 · 0 + 28 · 1 + 10 · 2 + 6 · 3 + 2 · 4
74
=
=
= 0, 74
Anzahl der Durchgänge
100
100
Mit einer kleinen Umformung hätten wir diesen Erwartungswert auch anders berechnen können :
E(X) =
54 · 0 + 28 · 1 + 10 · 2 + 6 · 3 + 2 · 4
54
28
10
6
2
=
·0+
·1+
·2+
·3+
· 4 = 0, 74
100
100
100
100
100
100
Hier haben wir jeden einzelnen möglichen Wert der Zufallsgröße mit der zugehörigen Wahrscheinlichkeit multipliziert und alle diese Produkte aufaddiert. Bei einer vorliegenden Tabelle als Wahrscheinlichkeitsverteilung müssen wir daher nur jeden Wert mit der darunterstehenden Wahrscheinlichkeit
multiplizieren.
Definition. Ist X eine Zufallsgröße mit den Werten X(⌦) = {x1 , x2 , . . . , xn }, dann ergibt sich der Erwartungswert E(X) ( oder auch Mittelwert µ ) dieser Zufallsgröße durch Aufsummieren der Produkte
aus den Werten und den zugehörigen Wahrscheinlichkeiten, mit denen die Zufallsgröße sie annimmt.
E(X) = x1 · P (X = x1 ) + x2 · P (X = x2 ) + · · · + xn · P (X = xn )
Mit einem Summenzeichen lässt sich diese Summe kürzer schreiben :
E(X) = µ =
n
X
i=1
xi · P (X = xi )
Beispiel. a) Man wirft einen sechsseitigen Würfel und legt X als geworfene Zahl fest. Dann ergibt
sich folgende W-Verteilung :
xi
P (X = xi )
1
1/6
2
1/6
3
1/6
Also ist dann : E(X) = 1 ·
1
6
4
1/6
+2·
1
6
5
1/6
6
1/6
+ ··· + 6 ·
1
6
=
21
6
= 3, 5
b) Man wirft einen sechsseitigen Würfel und legt Y als das Doppelte der geworfenen Zahl plus 1
fest. Dann ist Y = 2X + 1 und es ergibt sich folgende W-Verteilung :
yi
P (Y = yi )
3
1/6
5
1/6
7
1/6
9
1/6
11
1/6
13
1/6
Also ist dann : E(Y ) = 3 · 16 + 5 · 16 + · · · + 13 · 16 = 48
6 =8
Vergleicht man dieses Beispiel mit der Rechnung in a) fällt auf, dass es auch eine Abkürzung für
die Berechnung von E(Y ) gibt.
Offenbar gilt :
E(Y ) = E(2X + 1) = 2E(X) + 1 = 2 · 3, 5 + 1 = 8
40
6 Zufallsgrößen
Bereits das nächste Beispiel c) zeigt aber, dass eine solche Rechnung nicht immer das korrekte
Beispiel liefert.
c) Man wirft einen sechsseitigen Würfel und legt Z als das Quadrat der geworfenen Zahl fest. Dann
ergibt sich folgende W-Verteilung :
zi
P (Z = zi )
1
1/6
4
1/6
9
1/6
16
1/6
Nach der Definition ist : E(Z) = 1 ·
1
6
25
1/6
36
1/6
+4·
1
6
+ · · · + 36 ·
1
6
=
91
6
= 15, 16.
Versucht man eine ähnliche Abkürzung wie in b), so gelangt man hier nicht zum korrekten Ergebnis.
Zwar ist Z = X 2 , aber das Quadrieren lässt sich nicht auf den Erwartungswert übertragen, denn
µZ = 15, 16 6= 12, 25 = µ2X . Anders ausgedrückt : E(X 2 ) 6= (E(X))2
Lineare Transformationen einer Zufallsgröße
Die bisherigen Beispiele zeigten Zufallsgrößen Y und Z, die auf einer anderen Zufallsgröße X basierten.
Die zugehörigen Erwartungswerte E(Y ) und E(Z) lassen sich zwar immer nach der Definition des
Begriffs Erwartungswert ausrechnen, aber bei Y gab es eine Abkürzung. Diesen Sonderfall notieren
wir als eigenen Satz.
Satz. ( Lineare Transformation )
Es sei X eine Zufallsgröße mit den Werten X(⌦) = {x1 , x2 , . . . , xn }. Weiterhin sei Y eine Zufallsgröße mit Y = a · X + b und a, b 2 R. Eine solche Zufallsgröße heißt eine lineare Transformation der
Zufallsgröße X. Dann gilt :
E(Y ) = a · E(X) + b
Die lineare Transformation darf man also auch auf den Erwartungswert anwenden.
Beweis. Aus den Werten X(⌦) = {x1 , x2 , . . . , xn } ergeben sich die Werte der Zufallsgröße Y als
Y (⌦) = {ax1 + b, ax2 + b, . . . , axn + b}. Während sich für Y also neue Werte ergeben, bleiben aber
die Wahrscheinlichkeiten die gleichen. So wird z.B. mit der Wahrscheinlichkeit P (X = x1 ) sowohl der
Wert x1 als auch der Wert ax1 + b angenommen. Kurz : P (X = xk ) = P (Y = yk ).Dann folgt nach
Definition :
E(Y ) =
=
n
X
k=1
n
X
k=1
=
n
X
yk · P (Y = yk ) =
n
X
k=1
(axk + b) · P (X = xk )
(axk · P (X = xk ) + b · P (X = xk ))
axk · P (X = xk )+
k=1
n
X
= a
k=1
n
X
k=1
xk · P (X = xk ) + b
b · P (X = xk )
n
X
k=1
= a · E(X) + b · 1 = aE(X) + b
41
P (X = xk )
6 Zufallsgrößen
6.3 Streuung und Varianz
Bei einer Kundenbefragung zweier Werkstätten sollten die Kunden ihre Werkstatt mit Schulnoten von
1 bis 6 bewerten. Hier sind die Ergebnisse :
Werkstatt 1
Werkstatt 2
1 2 3 4 5 6
19 18 20 20 21 22
1 2 3 4 5 6
6 21 55 87 27 4
Abbildung 6.3: Noten bei zwei Werkstätten
Wählen wir bei beiden X als die erzielte Note, so ergeben sich bei beiden Werkstätten die gleichen Mittelwerte, d.h. µ1 = µ2 = 3, 6, d.h. beide Werkstätten erzielen im Durchschnitt eine gleiche
Bewertung. Im grafischen Vergleich zeigen sich aber Unterschiede :
40%
40%
30%
30%
20%
20%
10%
10%
1
2
3
4
5
6
1
2
3
4
5
6
Abbildung 6.4: W-Verteilungen der Werkstätten
Bei der ersten Werkstatt verteilen sich die Werte gleichmäßig in allen Abständen um den Mittelwert herum, während sie bei der zweiten Werkstatt vom Mittelwert ausgehend schnell abfallen. Der
Erwartungswert allein verrät also noch nicht genug über eine Zufallsgröße2 . Jedesmal aber erst eine Zeichnung anzufertigen ist zu aufwändig. Wir suchen daher eine rechnerische Größe, die darüber
Auskunft gibt, wie sehr die Werte von X vom Mittelwert µ abweichen.
Idee 1 : Neue Größe Y = X
verwenden wir die Differenz X
als nicht geeignet heraus, denn
µ Da wir uns ja für die Abweichung vom Mittelwert interessieren,
µ als eigene, neue Zufallsgröße Y . Allerdings stellt sich diese Wahl
E(Y ) = E(X
µ) = E(X)
µ=µ
µ=0
Bei dieser Festlegung von Y erhalten wir als mittlere Abweichung immer genau Null. Das liegt daran, dass der Mittelwert µ eben genau so gewählt ist, dass sich positive und negative Abweichungen
aufheben.
2
Ebenso wenig wie man einem Notendurchschnitt von 3 entnehmen kann, ob jemand zwei Dreier geschrieben hat oder
eine 1 und eine 5.
42
6 Zufallsgrößen
Idee 2 : Neue Größe Y = |X µ| Durch die Verwendung von Beträgen, sind alle Differenzen niemals
negativ. Allerdings sind Beträge auch in anderen Teilgebieten stets unhandlich und man versucht sie
eher loszuwerden. Daher lassen wir diese eigentlich theoretisch gute Idee als unhandlich liegen.
Idee 3 : Neue Größe Y = (X µ)2
Man quadriert die Differenzen und erhält ähnlich wie beim Betrag auch hier nur Werte größer oder
gleich Null. Wir testen unsere neue Größe am Beispiel der beiden Autowerkstätten und erhoffen
uns natürlich davon, dass wir bei Werkstatt 1 größere Abweichungen vorfinden als bei Werkstatt
2. Dazu wandeln wir die absoluten Häufigkeiten in relative Häufigkeiten um und verwenden diese
Zahlen als Wahrscheinlichkeiten. Bei beiden Werkstätten war µ = 3, 6. Dadurch können wir die Werte
yi = (xi µ)2 einzeln ausrechnen und die Wahrscheinlichkeiten stehenlassen.
Werkstatt 1 :
xi
P (X = xi )
yi = (xi µ)2
1
0, 19
2, 62 = 6, 76
2
0, 18
1, 62 = 2, 56
3
0, 20
0, 62 = 0, 36
4
0, 20
0, 42 = 0, 16
5
0, 21
1, 42 = 1, 96
6
0, 22
2, 42 = 5, 76
Daraus können wir jetzt den Erwartungswert unserer quadrierten Abstände berechnen :
E(Y ) = 6, 76 · 0, 19 + 2, 56 · 0, 18 + 0, 36 · 0, 20 + 0, 16 · 0, 20 + 1, 96 · 0, 21 + 5, 76 · 0, 22
= 3, 5258
Werkstatt 2 :
xi
P (X = xi )
yi = (xi µ)2
1
0, 03
6, 76
2
0, 105
2, 56
3
0, 275
0, 36
4
0, 435
0, 16
5
0, 135
1, 96
6
0, 02
5, 76
Hier ergibt sich als Erwartungswert von Y : E(Y ) = 1, 02
Alles in allem haben wir mit der 3. Idee eine geeignete Größe gefunden, die die Abweichung vom
Mittelwert auch in Zahlen fasst.
Definition. Ist X eine Zufallsgröße mit den Werten X(⌦) = {x1⇣, x2 , . . . , xn⌘} und dem Mittelwert (
= Erwartungswert ) µ = E(X), so nennt man die Zahl V (X) = E (X µ)2 die Varianz von X. Mit
n
P
dem Summenzeichen lässt sich die Varianz auch schreiben als : V (X) =
(xk µ)2 · P (X = xk ).
k=1
Die Varianz wird oft auch mit V ar(X) abgekürzt.
Der einzige Nachteil an der Varianz besteht darin, dass wir unter Beachtung von Einheiten ( Euro,
Meter, Sekunden, ... ) bei X und V (X) nicht die gleichen Einheiten hätten. Wäre z.B. X in Euro
vorgesehen, so hätte auch µ die Einheit Euro aber V (X) durch das auftretende Quadrat die Einheit
Euro2 . Daher berechnet man aus der Varianz oft eine in der Praxis sinnvollere Größe.
Definition. Die Wurzel
p aus der Varianz einer Zufallsgrößen heißt Standardabweichung bzw. X .
Dann ist daher = V (X) bzw. 2 = V (X). Die Standardabweichung hat die gleiche Einheit wie
X und E(X) und gibt Aufschluss darüber, wie stark die Werte einer Zufallsgröße vom Mittelwert
abweichen und ist damit anschaulich eine Art von Streuung in Form einer Zahl.
Bei unserern beiden Werkstätten hatten wir die Varianzen ( auch wenn sie zu dem Zeitpunkt noch
nicht so hießen ) bereits berechnet. Es war
V1 (X) = 3, 5258
Daraus ergibt sich jetzt :
1
= 1, 878
und
und
V2 (X) = 1, 02
2
= 1, 010
Auch hieran lässt sich die breitere Verteilung der Werte bei Werkstatt 1 gut ablesen.
43
6 Zufallsgrößen
6.4 Rechenregeln für die Standardabweichung
Die bisherige Berechnung der Standardabweichung ist noch ein wenig mühsam, da wir ja in einer
Tabelle immer erst alle quadrierten Abweichungen von µ eintragen müssen. Wir suchen nach einer
Abkürzung und gehen noch einmal zur Definition der Varianz, d.h. 2 zurück.
n
P
Es ist : V (X) =
(xi µ)2 · P (X = xi )
k=1
Damit weniger Schreibarbeit entsteht, kürzen wir die Wahrscheinlichkeiten mit pk ab, d.h. pk =
n
P
P (X = xk ). Dann ist V (X) =
(xk µ)2 · pk . Das im Summenzeichen auftretende Quadrat können
k=1
wir nach der binomischen Formel auflösen und weiter rechnen :
V (X) =
=
n
X
k=1
n
X
(xk
µ)2 · pk =
x2k pk
n
X
(x2k
2xk µ + µ2 ) · pk
k=1
2xk µpi + µ2 pk
k=1
=
n
X
x2k pk
k=1
=
n
X
x2k pk
k=1
n
X
2xk µpk +
k=1
nX
2µ
n
X
µ 2 pk
k=1
x k pk + µ
k=1
2
n
X
pk
k=1
Im letzten Schritt wurden die Terme, die nicht von der Zählervariablen k abhängen, vor das Summenzeichen gezogen. Dies entspricht einem Ausklammern in einer Summe. Die drei noch verbleibenden
Summen können wir uns einzeln ansehen und erkennen in den ersten beiden einfach die Erwartungswerte E(X 2 ) bzw. E(X). In der letzten Summe werden alle pk aufaddiert. Dies führt zu einer Summe
von 1. Also rechnen wir weiter :
= E(X 2 )
2µE(X) + µ2 · 1
= E(X 2 )
2µ2 + µ2
= E(X 2 )
µ2
Als Satz formuliert :
Satz. Es sei X eine Zufallsgröße mit dem Mittelwert µ. Dann gilt für die Varianz : V (X) = E(X 2 )
µ2 . Anders ausgedrückt : 2 = E(X 2 ) µ2
Machen wir uns an einem Beispiel klar, wie dieser Satz beim schnelleren Berechnen von helfen kann.
Betrachten wir erneut die Aufgabe bei einem sechsseitigen Würfel mit X als gewürfelter Augenzahl
den Mittelwert µ und die Standardabweichung zu berechnen. Diesmal entwerfen wir die übliche
W-Verteilung von X, fügen aber eine neue Zeile mit den quadrierten Werten x2k ein :
xi
P (X = xi )
x2i
1
2
3
4
5
6
1
6
1
6
1
6
1
6
1
6
1
6
1
4
9
16
25
36
Daraus können wir jetzt rasch E(X) und E(X 2 ) berechnen :
µ = E(X) =
21
= 3, 5
6
Mit unserem neuen Satz folgt daraus sofort :
2
E(X 2 ) =
= E(X 2 )
Nebenbei zeigt der Satz noch :
44
91
= 15, 16̄
6
µ2 =
91
6
21 2
6
= 2, 916̄
6 Zufallsgrößen
Notiz. Es sei X eine Zufallsgröße. Dann gilt : E(X 2 ) µ2 bzw. E(X 2 ) (E(X))2
Dies folgt sofort daraus, dass die Varianz als Mittelwert von quadrierten Abweichungen ja nicht
negativ sein kann, d.h. V (X) 0 und nach dem gezeigten Satz ist dann auch E(X 2 ) µ2 0 .
6.5 Die Binomialverteilung
Im Kapitel 5 behandelten wir als eine wichtige Art von Zufallsexperiment die Bernoullikette der Länge
n. Dabei ging es darum, ein Experiment mit zwei möglichen Resultaten ( Treffer und Nichttreffer)
n mal zu wiederholen. Die meisten Rechnungen gingen dann darum, Wahrscheinlichkeiten für eine
bestimmte Anzahl an Treffern auszurechen ( z.B. P (T = 2) ) .
Im jetzigen Kapitel behandeln wir Zufallsgrößen und daher ist es nicht verwunderlich, wenn man
die Anzahl der Treffer bei einer Bernoullikette einfach als Zufallsgröße X einführt und damit eine
Verknüpfung von Kapitel 5 und 6 geschaffen hat.
Wir setzen : X = Anzahl der Treffer bei einer Bernoullikette der Länge n
Dann kann X die Werte ( = Trefferanzahlen ) von 0 bis n annehmen. Die zugehörigen Wahrscheinlichkeiten ergeben sich aus der schon damals behandelten Formel von Bernoulli.
Satz. Liegt eine Bernoullikette der Länge n mit der Trefferwahrscheinlichkeit p vor und ist X als
Zufallsgröße die Anzahl der möglichen Treffer bei dieser Kette, so gilt :
1) X(⌦) = {0, 1, 2, . . . , n}
2) P (X = k) = nk pk (1 p)n k
Eine solche Zufallsgröße X wird auch binomialverteilte Zufallsgröße genannt und die zugehörige
W-Verteilung heißt Binomialverteilung mit den Parametern n und p.
Definition. Als Abkürzung für die auftretenden Wahrscheinlichkeiten definiert man : B(n, p, k) =
n k
p)n k .
k p (1
Binomialverteilte Zufallsgrößen sind also ein Spezialfall einer Zufallsgröße, bei der man die einzelnen
Wahrscheinlichkeiten in der W-Verteilung nach einer speziellen Formel berechnen kann. Dadurch erspart man sich dann meist die oft kniffligen Überlegungen, welcher Wert der Zufallsgröße mit welcher
Wahrscheinlichkeit angenommen wird.
Beispiel. Ein sechsseitiger Würfel wird 4-mal geworfen. X sei die Anzahl der erzielten Sechsen.
Da wir nur auf Sechs/Nichtsechs schauen, liegt hier eine Bernoullikette der Länge 4 vor. Als Treffer
wählen wir das Werfen einer Sechs mit p = 16 . Anders formuliert : X ist eine binomialverteilte
Zufallsgröße mit n = 4 und p = 16 . Dann lässt sich die W-Verteilung von X aus der Formel von
Bernoulli leicht bestimmen :
xi
P (X = xi )
4
0
p0 q 4
0
⇡ 0, 482
Dargestellt als Balkendiagramm :
4
1
p1 q 3
1
⇡ 0, 386
45
4
2
p2 q 2
2
⇡ 0, 116
4
3
p3 q 1
3
⇡ 0, 015
4
4
p4 q 0
4
⇡ 0, 001
6 Zufallsgrößen
Abbildung 6.5: Binomialverteilung mit n = 4, p =
1
6
Wie gehabt, können wir aus der W-Verteilung die Werte für µ und rasch berechnen :
Mittelwert : µ = 0 · 0, 482 + 1 · 0, 386 + 2 · 0, 116 + 3 · 0, 015 + 4 · 0, 001 = 0, 667
Standardabweichung : zunächst ist E(X 2 ) = 02 · 0, 482 + 12 · 0, 386 + 22 · 0, 116 + 32 · 0, 015 + 42 · 0, 001 =
p
1, 001 und daraus folgt : 2 = E(X 2 ) µ2 = 0, 556. Dann ist = 0, 556 = 0, 746
Stellen wir uns jetzt allerdings vor, dass die Kettenlänge n eine größere Zahl ist, so wird dieses
Verfahren doch arg mühsam. Daher ist es eine gute Nachricht, dass es zur Berechnung von Mittelwert
und Standardabweichung bei Binomialverteilungen eine sehr einfache Alternative gibt.
Satz. Es sei X eine binomialverteilte Zufallsgröße mit den Parametern n und p . Dann gilt :
1) E(X) = µ = n · p
2) V (X) = n · p · (1 p) bzw. V (X) = n · p · q
p
3) = n · p · q
Beweis. Zum Beweis der drei Aussagen verwenden wir eine clevere Idee, die auf Methoden der Analysis
basiert. Dazu betrachten wir zunächst folgende Gleichung, die mitunter auch als binomischer Lehrsatz
bezeichnet wird :
n ✓ ◆
X
n k
n
(1 + x) =
x
k
k=0
Diese Zeile lässt sich z.B. mit Hilfe der Taylorentwicklung der links angegebenen Funktion leicht
herleiten. Beide Seiten leiten wir nach x ab und erhalten :
n ✓ ◆
X
n
n 1
n(1 + x)
=
kxk 1
k
k=0
Jetzt setzen wir x =
p
q
auf beiden Seiten ein :
p
n(1 + )n
q
1
n ✓ ◆ ✓ ◆k
X
n
p
=
k
k
q
1
k=0
Auf der linken Seite können wir die Tatsache p + q = 1 ausnutzen und erhalten :
✓ ◆n 1
p
q p
1
1
n(1 + )n 1 = n( + )n 1 = n
=n n 1
q
q q
q
q
46
6 Zufallsgrößen
Auf der rechten Seite lösen wir schlicht und einfach die Klammern auf :
n ✓ ◆ ✓ ◆k 1
n ✓ ◆
X
X
n
p
n pk 1
k
=
k
k
q
k qk 1
k=0
k=0
Also ergibt sich :
n ✓ ◆
X
n pk
=
k
k qk
n
qn
1
1
1
k=0
Beide Seiten werden jetzt mit p · q n 1 multipliziert. Wir erhalten :
✓ ◆ k 1 X
✓ ◆
✓ ◆
n
n
n
X
X
n p
n
n k n
n 1
n k
k
p·n=
p·q
·
k k 1 =
q
·
kp =
k·
p q
k q
k
k
k=0
k=0
k
k=0
Die letzte Summe zeigt im hinteren Teil die bekannten Wahrscheinlichkeiten aus der Formel von
Bernoulli. Multipliziert werden diese mit k, d.h. genau mit den Werten, die eine binomialverteilte
Zufallsgröße annehmen kann. Diese Summe ist daher genau der Erwartungswert und es ergibt sich :
n · p = E(X)
:
Um die zweite Aussage zu beweisen, leiten wir den binomischen Lehrsatz ( siehe oben ) zweimal ab
n(n
1)(1 + x)
n 2
=
n ✓ ◆
X
n
k
k=0
k(k
1)xk
2
Ähnlich wie beim ersten Beweis setzen wir erneut x = pq und erhalten :
n ✓ ◆
X
1
n
pk 2
n(n 1) n 2 =
k(k 1) k 2
q
k
q
k=0
Beide Seiten werden mit p2 q n
2
multipliziert :
2
p n(n
1) =
n ✓ ◆
X
n
k=0
k
1)pk q n
k(k
k
Die Summe auf der rechten Seite wird in zwei Teile aufgespalten :
n ✓ ◆
n ✓ ◆
X
n 2 k n k X n
2
p n(n 1) =
k p q
kpk q n
k
k
k=0
k
k=0
Genaues Betrachten der beiden Summen zeigt :
p2 n(n
1) = E(X 2 )
Diese Zeile stellen wir um und erhalten : E(X 2 ) = p2 n(n
wir jetzt schließlich die Varianz berechnen :
V (X) = E(X 2 )
= np
µ2 = p2 n(n
p2 n = np(1
1) + np
µ
1) + µ = p2 n(n
n 2 p 2 = p2 n 2
1) + np. Damit können
p2 n + np
n 2 p2
p) = npq
Die dritte Aussage ergibt sich dann durch einfaches Wurzelziehen aus der 2. Aussage.
Beispiel. Die Polizei untersucht an einem Abend 1200 Fahrzeuge darauf, ob der Fahrer alkoholisiert
ist oder nicht. Erfahrungsgemäß haben 3% der Fahrer die Promillegrenze überschritten. Diese Situation
können wir mit X als binomialverteilter Zufallsgröße ( n = 1200, p = 0, 03) beschreiben. Dann ist hier
: E(X) = µ = 1200 · 0, 03 = 36, d.h. die Polizei kann mit 36 Alkoholdelikten rechnen. Ferner ist
p
p
= 1200 · 0, 03 · 0, 97 = 36 · 0, 97 = 5, 91
47
6 Zufallsgrößen
6.6 Abweichungen vom Mittelwert
48
Zugehörige Unterlagen
Herunterladen