Data-Mining-Methoden WS 2000/2001 Prof. Dr. R. Kruse, Dr. C

Werbung
Data-Mining-Methoden
Prof. Dr. R. Kruse, Dr. C. Borgelt
WS 2000/2001
Lösung des 3. Übungsblattes
Aufgabe 10
Kombinatorik: Anzahl Möglichkeiten
Die Teilaufgaben dieser Aufgabe lassen sich nach dem folgenden einfachen Schema lösen.
Zuerst nimmt man an, daß die anzuordnenden bzw. zu verteilenden Objekte unterscheidbar sind. (Das kann man z.B. durch Anheften eines Nummernschildchens erreichen.) Die
Anzahl Möglichkeiten, n unterscheidbare Objekte anzuordnen, läßt sich leicht bestimmen:
Man überlegt sich dazu, daß man das Objekt, daß an die erste Stelle gesetzt werden soll,
aus einer Menge von n Objekten wählen kann. Folglich gibt es n Möglichkeiten. Für jede
dieser n Möglichkeiten kann das an die zweite Stelle zu setzende Objekt aus der Menge der
n − 1 verbleibenden Objekte gewählt werden. Folglich gibt es für die Anordnung der ersten beiden Objekte n · (n − 1) Möglichkeiten. Das an die dritte Stelle zu setzende Objekt
kann aus n − 2 Objekten ausgewählt werden usf. bis es für das an die letzte (n-te) Stelle zu
setzende Objekt nur noch eine Möglichkeit gibt. Die Gesamtzahl der Möglichkeiten ist also
n · (n − 1) · . . . · 2 · 1 = n!.
Wenn einige der anzuordnenden Objekte ununterscheidbar sind (wie in der Aufgabe),
zählen wir so aber zu viele Möglichkeiten. Denn welches von zwei ununterscheidbaren Objekten an, sagen wir, der zweiten und welches an, sagen wir, der fünften Stelle gewählt wird,
spielt offenbar keine Rolle. Die beiden Anordnungen sind gleich, vorausgesetzt, an den übrigen
Stellen werden in beiden Fällen die gleichen Objekte gewählt. Offenbar werden bei Vorliegen
ununterscheidbarer Objekte jeweils so viele Anordnungen aller Objekte ununterscheidbar, wie
es Anordnungen der ununterscheidbaren Objekte gibt. Denn wenn die Stellen festgelegt sind,
an denen die übrigen Objekte stehen sollen, kann man die ununterscheidbaren Objekte an den
verbleibenden Stellen beliebig anordnen: Die Gesamtanordnung ist stets gleich. Folglich muß
man durch die Anzahl der Möglichkeiten teilen, die ununterscheidbaren Objekte anzuordnen,
denn offenbar gibt es für jede Anordnung der übrigen Objekte diese Möglichkeiten.
Die Anzahl Möglichkeiten, k1 Objekte anzuordnen, ist aber, siehe oben, gerade k1 !. Es
lassen sich also n Objekte, von denen k1 ununterscheidbar sind, auf kn!1 ! Weisen anordnen.
Sind nun von den restlichen n − k1 Objekten wieder k2 ununterscheidbar, erhält man mit der
gleichen Argumentation wie oben, daß es k1n!
!·k2 ! Möglichkeiten gibt usw. Allgemein gibt es
M (n, k1 , k2 , . . . , kr ) =
n!
k1 ! · k2 ! · . . . · kr !
Möglichkeiten, n Objekte anzuordnen, von denen Gruppen von k1 , k2 , . . . , kr Objekten ununterscheidbar sind. Man beachte, daß die obige Formel natürlich auch gilt, wenn einige der
P
ki gleich 1 (oder gar, mit der Definition 0! = 1, gleich 0) sind, so daß man stets ri=1 ki = n
fordern kann. Mit dieser Forderung nennt man die obigen Zahlen M (n, k1 , . . . , kr ) auch Multinomialkoeffizienten. Die bekannten Binomialkoeffizienten
n
k
!
=
n!
k!(n − k)!
sind offenbar ein Spezialfall der Multinomialkoeffizienten, nämlich mit r = 2, k1 = k und
folglich k2 = n − k. Sie beschreiben auch die Anzahl Möglichkeiten, aus n gegebenen Objekten k auszuwählen, wenn die Reihenfolge der Auswahl keine Rolle spielt. Denn durch die
1
Auswahl werden die Objekte in zwei Gruppen jeweils ununterscheidbarer Objekte eingeteilt:
die k ausgewählten und die n − k nicht ausgewählten. Die Multinomialkoeffizienten beschreiben dann natürlich auch die Anzahl der Möglichkeiten, n gegebene Objekte in Gruppen zu
k1 , k2 , . . . , kr Objekten einzuteilen.
Wenn die Binomialkoeffizienten die Anzahl Möglichkeiten beschreiben, aus n Objekten
ohne Berücksichtigung der Reihenfolge k auszuwählen, ist außerdem klar, daß man die Multinomialkoeffizienten als Produkt von Binomialkoeffizienten schreiben kann, nämlich als
M (n, k1 , k2 , . . . , kr ) =
!
!
n
n − k1
n − k1 − . . . − kr−2
·
· ... ·
k1
k2
kr−1
!
!
n − k1 − . . . − kr−1
.
kr
Denn dieses Produkt kann man so deuten: Zuerst werden aus den n Stellen, auf die die Objekte
gesetzt werden sollen, k1 ausgewählt, an die die k1 ununterscheidbaren Objekte der ersten
Gruppe gesetzt werden. Es verbleiben dann noch n − k1 freie Stellen. Aus diesen werden k2
ausgewählt, um die k2 ununterscheidbaren Objekte der zweiten Gruppe zu plazieren. Damit
verbleiben noch n − k1 − k2 freie Stellen. Aus diesen werden k3 ausgewählt usf. Man beachte,
P
daß man den letzten Faktor auch streichen kann, denn wegen der Forderung ri=1 ki = n ist
n − k1 − k2 − . . . − kr−1 = kr und daher der letzte Faktor immer gleich 1.
a) Mit den Multinomialkoeffizienten läßt sich diese Teilaufgabe leicht lösen. Offenbar
müssen wir nur den Trinomialkoeffizienten für n = 9, k1 = 3, k2 = 2 und k3 = 4
berechnen. Das ist gerade
9!
= 1260.
3!2!4!
Also gibt es 1260 Möglichkeiten, die Flaggen anzuordnen.
b) Auf den ersten Blick scheint diese Teilaufgabe nichts mit dem oben entwickelten Schema
zu tun zu haben. Doch mit einem kleinen Trick läßt sie sich auch darauf zurückführen.
Man stellt sich dazu vor, daß die Kästen nebeneinander stehen und jeweils breit genug
sind, so daß man auch dann, wenn alle Kugeln in einem Kasten liegen, die Kugeln in
eine Reihe nebeneinander legen kann. Dann ist jede mögliche Verteilung der Kugeln
auf die Kästen offenbar durch die jeweiligen Stellen bestimmt, an die die drei Wände
zwischen den vier Kästen in die Reihe der 10 Kugeln eingeschoben werden. Wir haben es also mit einer Folge zu tun, die aus 10 Kugeln und 3 Wänden besteht. Daher
kann man das Problem auch so deuten, daß die Anzahl Möglichkeiten zu bestimmen
ist, 10 ununterscheidbare Objekte (die Kugeln) und 3 ununterscheidbare Objekte (die
einzuschiebenden Wände) anzuordnen. Man kann folglich die Binomialkoeffizienten verwenden, und es ergibt sich
13!
= 286.
10!3!
Also gibt es 286 Möglichkeiten, 10 Kugeln auf 4 Kästen zu verteilen. Der zur Lösung
dieser Aufgabe verwendete Trick ist sehr wichtig und läßt sich oft nutzen.
Aufgabe 11
Wahrscheinlichkeiten: erste Ausspielung der Glücksspirale 1971
Zur Berechnung der Wahrscheinlichkeiten nehmen wir an, alle Kugeln seien unterscheidbar, was man durch Durchnumerieren der jeweiligen 7 gleichen Kugeln erreichen kann. Aus
den 70 verschiedenen Kugeln können unter Berücksichtigung der Reihenfolge 7 Kugeln auf
70 · 69 · 68 · 67 · 66 · 65 · 64 ≈ 6.04 · 1012 verschiedene Weisen ausgewählt werden. Wir nehmen an, daß es sich um ein Laplace-Experiment handelt, daß also alle diese Möglichkeiten
gleichwahrscheinlich sind.
2
a) Da insgesamt nur 7 Kugeln mit der Ziffer 6 vorhanden sind, kann die Zahl 6666666 nur
auf 7 · 6 · 5 · 4 · 3 · 2 · 1 = 7! = 5040 verschiedene Weisen gezogen werden. Daraus folgt
P (6666666) =
7·6·5·4·3·2·1
≈ 8.34 · 10−9 .
70 · 69 · 68 · 67 · 66 · 65 · 64
b) Da die Zahl 1234567 aus lauter verschiedenen Ziffern besteht, kann jede einzelne Ziffer
aus 7 möglichen ausgewählt werden. Es gibt also 7 · 7 · 7 · 7 · 7 · 7 · 7 = 77 = 823 543
Möglichkeiten, diese Zahl zu ziehen. Damit erhalten wir:
P (1234567) =
7·7·7·7·7·7·7
≈ 1.36 · 10−7 .
70 · 69 · 68 · 67 · 66 · 65 · 64
c) Für die Ziehung der Zahl 7778841 gibt es schließlich 7 · 6 · 5 · 7 · 6 · 7 · 7 = 432 180
Möglichkeiten, woraus folgt:
P (7778841) =
7·6·5·7·6·7·7
≈ 7.15 · 10−8 .
70 · 69 · 68 · 67 · 66 · 65 · 64
Die Zahlen mit lauter verschiedenen Ziffern besaßen bei dieser Ausspielung die höchste, die
Zahlen mit lauter gleichen Ziffern die niedrigste Wahrscheinlichkeit, gezogen zu werden. Aus
a) und b) folgt:
P (1234567)
≈ 163.
P (6666666)
Aufgabe 12
Bedingte Wahrscheinlichkeiten
a) Sei A das Ereignis, daß keine zwei Würfel die gleiche Augenzahl zeigen und B das Ereignis, daß mindestens ein Würfel eine Eins zeigt. Gesucht ist die bedingte Wahrscheinlichkeit P (B|A) = P P(A∩B)
(A) . Die Wahrscheinlichkeit des Ereignisses A berechnen wir in ähnlicher Weise wie in Aufgabe 41. Die Gesamtzahl möglicher Würfe ist 6 · 6 · 6 = 63 = 216,
da jeder der drei Würfel eine der sechs möglichen Augenzahlen zeigen kann. Diese 216
Würfe sind offenbar gleichwahrscheinlich. Sollen keine zwei Würfel die gleiche Augenzahl zeigen, so gibt es 6 · 5 · 4 = 120 Möglichkeiten, da der zweite Würfel eine andere
Augenzahl als der erste und der dritte eine andere als die ersten beiden zeigen muß.
Folglich ist
120
5
P (A) =
= ≈ 0.56.
216
9
Die Wahrscheinlichkeit P (A ∩ B) berechnet sich wie folgt: Einer der drei Würfel muß
eine Eins zeigen. Für diesen Würfel gibt es also nur eine Augenzahl; allerdings gibt es
drei Möglichkeiten, den Würfel auszuwählen, der die Eins zeigen soll. Die beiden übrigen
Würfel können 5 · 4 = 20 mögliche Kombinationen von Zahlen zeigen (man beachte,
daß sie nicht die Eins zeigen dürfen). Also gibt es 3 · 5 · 4 = 60 mögliche Würfe, in denen
sowohl das Ereignis A als auch das Ereignis B auftritt. Diese Zahl läßt sich auch noch
anders ermitteln. Wir berechnen dazu die Zahl der Würfe, in denen keine zwei Würfe
die gleiche Augenzahl und keiner eine Eins zeigt. Mit einer analogen Überlegung wie
zur Berechnung der Zahl der Würfe, in denen keine zwei Würfel die gleiche Augenzahl
zeigen, erhält man, daß es 5 · 4 · 3 = 60 solcher Würfe gibt. Da es insgesamt 120 Würfe
gibt, in denen keine zwei Würfel die gleiche Augenzahl tragen, muß in den restlichen
60 Würfen ein Würfel eine Eins zeigen. Wir erhalten folglich
P (A ∩ B) =
3
60
5
=
≈ 0.28.
216
18
Die beiden berechneten Wahrscheinlichkeiten setzen wir nun in die Definition der bedingten Wahrscheinlichkeit ein und erhalten:
P (B|A) =
P (A ∩ B)
=
P (A)
60
216
120
216
=
60
1
= .
120
2
b) Offenbar gibt es vier Möglichkeiten für die Geschlechterverteilung zweier Kinder, nämlich (Junge, Junge), (Junge, Mädchen), (Mädchen, Junge), (Mädchen, Mädchen), wobei
das Geschlecht des älteren Kindes stets zuerst genannt ist. Wegen der Gleichwahrscheinlichkeit der beiden Geschlechter sind diese vier Möglichkeiten gleichwahrscheinlich. Sei
nun A das Ereignis, daß mindestens ein Kind ein Mädchen ist, und B das Ereignis, daß
beide Kinder Mädchen sind. Dann ist aus der obigen Liste leicht abzulesen, daß gilt
3
P (A) = ,
4
da es in drei der vier Geschlechterverteilungen ein Mädchen gibt, und
1
P (B) = P (A ∩ B) = ,
4
da, sind beide Kinder Mädchen, natürlich mindestens eines ein Mädchen ist, mit B also
zwangsläufig auch A eintritt. Setzt man diese Wahrscheinlichkeiten in die Definition
der bedingten Wahrscheinlichkeit ein, so erhält man:
P (B|A) =
P (A ∩ B)
=
P (A)
1
4
3
4
1
= .
3
c) Sei nun A das Ereignis, daß das jüngere Kind ein Mädchen ist. Dies ist in zwei der vier
oben aufgeführten Möglichkeiten der Fall. Also ist
2
P (A) = .
4
Wieder ist
1
P (B) = P (A ∩ B) = ,
4
da, sind beide Kinder Mädchen, natürlich auch das jüngere ein Mädchen ist, mit B also
zwangsläufig auch A eintritt. Setzt man diese Wahrscheinlichkeiten in die Definition
der bedingten Wahrscheinlichkeit ein, so erhält man:
P (B|A) =
P (A ∩ B)
=
P (A)
1
4
2
3
1
= .
2
Es ist vielleicht überraschend, daß ein so kleiner Unterschied in der verfügbaren Information (mindestens ein Kind ist ein Mädchen, das jüngere Kind ist ein Mädchen) zu
einer deutlichen Änderung der Wahrscheinlichkeiten führt.
Aufgabe 13
Stochastische Unabhängigkeit
Da die eine Hälfte der Augenzahlen eines Würfels gerade und die andere ungerade ist, gilt
offenbar
1
3
P (A) = P (B) = = .
6
2
4
Damit die Augensumme gerade ist, müssen entweder beide Zahlen gerade oder beide ungerade
sein. Beide Zahlen sind gerade in 3 · 3 = 9 Fällen und in ebensovielen sind beide ungerade.
Insgesamt gibt es also 18 Würfe, in denen die Augensumme gerade ist. Die Gesamtzahl der
Würfe ist 6 · 6 = 36 und folglich ist
18
1
= .
36
2
P (C) =
A und B treten in 3 · 3 = 9 Fällen ein, also ist
P (A ∩ B) =
9
.
36
Damit A und C eintreten, müssen beiden Augenzahlen gerade sein. Das ist, siehe oben, in
3 · 3 = 9 Fällen so. Also ist
9
1
P (A ∩ C) =
= .
36
4
Analog erhält man
1
9
= .
P (A ∩ C) =
36
4
Da offenbar gilt
P (A ∩ B) = 14 = 12 · 12 = P (A) · P (B),
P (A ∩ C) =
P (B ∩ C) =
1
4
1
4
=
=
1
2
1
2
·
·
1
2
1
2
= P (A) · P (C),
= P (B) · P (C),
sind die drei Ereignisse paarweise stochastisch unabhängig. Sie sind jedoch nicht vollständig
unabhängig, denn es ist
P (A ∩ B ∩ C) = 0,
da die Summe einer geraden und einer ungeraden Augenzahl nicht gerade sein kann, aber
P (A) · P (B) · P (C) =
Zusatzaufgabe
1 1 1
1
· · = .
2 2 2
8
Wahrscheinlichkeiten: Tennis
Um die Wahrscheinlichkeit zu bestimmen, daß Brigitte ein Spiel gewinnt, verwenden wir
das im Hinweis zu dieser Aufgabe angedeutete Schema, um die Anzahl Möglichkeiten zu
bestimmen, mit denen die verschiedenen Spielstände erreicht werden (siehe Abbildung 1).
Wir beginnen in der linken oberen Ecke mit dem Spielstand 0:0, den zu erreichen es genau
eine Möglichkeit gibt. Auch die Spielstände der ersten Zeile und der ersten Spalte sind nur
auf eine Weise zu erreichen, da stets der gleiche Spieler die Ballwechsel gewinnen muß.
Der Spielstand 15:15 kann dagegen auf zwei Weisen erzielt werden: Entweder Andreas
gewinnt den ersten Ballwechsel und Brigitte den zweiten oder umgekehrt. Das können wir
auch so ausdrücken: Bevor der Spielstand 15:15 erreicht wird, steht es entweder 15:0 und
Brigitte gewinnt den nächsten Ballwechsel, oder es steht 0:15 und Andreas gewinnt den
nächsten Ballwechsel. Diese Betrachtung liefert ein allgemeines Verfahren zur Berechnung
der Anzahl Möglichkeiten, den Spielstand a : b zu erreichen (wir vernachlässigen dazu die
merkwürdige Zählweise des Tennis und interpretieren den Spielstand a : b als: Andreas hat
a und Brigitte b Ballwechsel gewonnen). Vor dem letzten Ballwechsel stand es entweder
(a − 1) : b und Andreas hat gewonnen oder es stand a : (b − 1) und Brigitte hat gewonnen.
Die Zahl der Möglichkeiten den Spielstand a : b zu erreichen ist also die Summe der Anzahl
5
Andreas
-
Brigitte
1
1
1
1
1
1
2
3
4
4
1
3
6
10
10
1
4
10
20
20
20
1
4
10
20
40
40
40
20
40
80
80
40
80
160
?
80
I
@
@
I
Andreas gewinnt
@
@
I
Vorteil Andreas
@
@
I
Einstand
@
@
80
I
@
@
Vorteil Brigitte
Brigitte gewinnt
Abbildung 1: Berechnungsschema für die Anzahl Spielverläufe.
Möglichkeiten den Spielstand (a − 1) : b und der Anzahl der Möglichkeiten den Spielstand
a : (b − 1) zu erreichen (natürlich nur, falls a > 0 und b > 0; ist a oder b gleich 0, so gibt es
offenbar nur eine Möglichkeit den Spielstand a : b zu erreichen).
Wir haben damit eine Rekursionsformel für die Anzahl Möglichkeiten den Spielstand
a : b zu erreichen, die sich mit dem obigen Schema leicht auswerten läßt: Um die in ein
Feld einzutragende Zahl zu bestimmen, muß man lediglich die Zahlen in den Feldern links
und über dem zu füllenden Feld addieren. Dieses Verfahren erinnert an die Berechnung des
Pascalschen Dreiecks. In der Tat ergibt sich in dem Schema die Spitze des (leicht gedrehten)
Pascalschen Dreiecks: Die erste Zeile und die erste Spalte bilden die beiden Schenkel.
Wir haben nun noch zu berücksichtigen, daß ein Spiel beendet ist, wenn einer der beiden
Spieler mindestens vier Ballwechsel gewonnen hat und mindestens zwei mehr als sein Gegner. Daher hat z.B. die erste Zeile und die erste Spalte nur fünf Felder. Offenbar kann das
Spiel gerade in den umrandeten Feldern des Schemas enden. Man beachte, daß die Zahlen in
den umrandeten Feldern nicht zur Berechnung der Anzahl Möglichkeiten eines anderen Spielstandes herangezogen werden dürfen, da diese Felder ja das Ende eines Spiels darstellen und
folglich von ihnen aus keine weiteren Spielstände erreicht werden können. Daher enthalten
auch die Felder zu den Spielständen 1:4 und 4:1 die Anzahl 4 und nicht 4 + 1 = 5.
Das Schema ist im Prinzip unendlich groß, da das Spiel z.B. bei abwechselndem Ballwechselgewinn beliebig lange dauern kann. Aus dem oben gezeigten Teil ist jedoch bereits
die einfache Gesetzmäßigkeit zu erkennen, nach der das restliche Schema aufgebaut ist. Man
könnte sie durch vollständige Induktion beweisen, doch sparen wir uns das hier.
Mit den Anzahl Möglichkeiten, die verschiedenen Spielstände zu erreichen, können wir
aber noch nicht die Wahrscheinlichkeiten berechnen, denn die verschiedenen Spielstände sind
6
Andreas
-
Brigitte
1
1
3
1
9
1
27
1
81
2
3
4
9
6
27
8
81
8
243
4
9
12
27
24
81
40
234
40
729
8
27
32
81
80
243
160
729
160
2187
160
6561
16
81
64
243
160
729
320
2187
640
6561
640
640
19683 59049
640
6561
1280 2560 2560 2560
19683 59049 177147 531441
?
2560 5120 20480
59049 177147 531441
I
@
@
I
Andreas gewinnt
@
@
I
Vorteil Andreas
@
@
I
Einstand
@
@
10240
531441
I
@
@
Vorteil Brigitte
Brigitte gewinnt
Abbildung 2: Berechnungsschema für die Wahrscheinlichkeiten.
nicht gleichwahrscheinlich. Aus der Aufgabenstellung wissen wir, daß Andreas einen Ballwechsel mit Wahrscheinlichkeit 13 gewinnt und Brigitte mit Wahrscheinlichkeit 23 . Jede Möglichkeit
den Spielstand a : b zu erreichen, hat also die Wahrscheinlichkeit ( 31 )a · ( 23 )b . Mit diesen, aus
den Feldkoordinaten leicht zu berechnenden Wahrscheinlichkeiten müssen wir die Anzahlen
des obigen Schemas noch multiplizieren. Wir erhalten so das in Abbildung 2 gezeigte Schema. Dieses Schema läßt sich auch direkt bestimmen, indem wir beim Ausfüllen der Felder
nicht einfach die Zahlen aus dem links- und darüberstehenden Feld addieren, sondern vor der
Addition die Zahl aus dem linksstehenden Feld mit 31 (ein Schritt nach rechts bedeutet ja,
daß Andreas einen Ballwechsel gewinnt) und die Zahl aus dem darüberstehenden Feld mit 23
(ein Schritt nach unten bedeutet ja, da Brigitte einen Ballwechsel gewinnt) multiplizieren.
Jetzt können wir die Wahrscheinlichkeit berechnen, daß Brigitte ein Spiel gewinnt. Sie ist
offenbar (siehe die unteren umrandeten Felder)
P (Brigitte gewinnt) =
16
64
160
640
2560
10240
+
+
+
+
+
+ ...
81 243 729 6561 59049 531441
Die Reihe ab dem dritten Glied können wir leicht berechnen, wenn wir uns klar machen,
daß ein Schritt diagonal nach rechts unten in den umrandeten Feldern des Schema einer
Multiplikation der Wahrscheinlichkeit mit 2 · 13 · 23 = 49 entspricht. Die 2 ergibt sich aus der
Verdopplung der Zahl der Möglichkeiten, wie sie das erste Schema zeigt. Die Brüche sind die
Wahrscheinlichkeiten für den Ballwechselgewinn (siehe oben). Also ist
P (Brigitte gewinnt) =
∞ i
16
64
160 X
4
+
+
·
81 243 729 i=0 9
7
=
16
64
160
1
+
+
·
81 243 729 1 −
4
9
=
16
64
1440
+
+
81 243 3645
=
208
243
≈ 0.856
Brigitte gewinnt also ein Spiel mit der Wahrscheinlichkeit 0.856, Andreas dagegen nur mit
der Wahrscheinlichkeit 0.144.
Bemerkung: Diese Aufgabe und ihre Lösung ist entnommen aus dem Kapitel Der betrunkene
”
Tennisspieler“ des (sehr empfehlenswerten) Buches Spiel, Satz und Sieg für die Mathematik“
”
von Ian Stewart (Insel Verlag, Frankfurt am Main 1997). Nach den weiteren Berechnungen,
die in diesem Kapitel angestellt werden, beträgt die Wahrscheinlichkeit dafür, daß Andreas ein
Match gewinnt, erstaunlicherweise nur ungefähr 1 zu 37 Millionen, ist also deutlich geringer
als die Chance im Lotto zu gewinnen.
8
Herunterladen