Vorlesung 1b 1 Kollision von Kennzeichen – Das Geburtstagsproblem: Ein Beispiel zum Bekanntschaftmachen mit den grundlegenden Begriffen Zufallsvariable, Zielbereich, Ereignis, Wahrscheinlichkeit 2 n Individuen erhalten zufällig je eines von r Kennzeichen. Kennzeichen ... 1 Individuum 1 ... n r 3 Etwa: n = 25 Leute auf einer Party Kennzeichen . . . Geburtstag r ∈ {1, 2, . . . , 365} Wie stehen die Chancen, dass es dabei zu keiner Kollision kommt, dass also keine zwei Individuen gleich gekennzeichnet sind? 4 Fragen zur Orientierung: Wie beschreibt man die möglichen Ausgänge des Kennzeichnens? Wie fasst man das Ereignis Keine zwei Individuen haben dasselbe Kennzeichen“? ” Wie kommt man zur Wahrscheinlichkeit dieses Ereignisses? Unter welchen Bedingungen kommt es mit merklicher Wahrscheinlichkeit zu Kollisionen? 5 Die Individuen denken wir uns mit 1 bis n und die Kennzeichen mit 1 bis r nummeriert. Ein Ausgang des Kennzeichnens lässt sich beschreiben durch das n-tupel ℓ = (ℓ1, . . . , ℓn) , wobei ℓi das Kennzeichen des i-ten Individuums bezeichnet (1 ≤ ℓi ≤ r). 6 Die Menge der möglichen Ausgänge des Kennzeichnens ist S := {1, . . . , r}{1,...,n} , die Menge aller n-tupel (ℓ1, . . . , ℓn) mit 1 ≤ ℓi ≤ r. 7 Den zufälligen Ausgang des Kennzeichnens beschreiben wir durch eine Zufallsvariable X. X S X kommt durch zufällige Wahl eines Elementes aus S zustande. X ist ein zufälliges Element von S. Die Menge S heißt Zielbereich der Zufallsvariable X. 8 Wie jedes Element (ℓ1, . . . , ℓn) unserer Menge S besteht auch die Zufallsvariable X aus n Komponenten: X = (X1, . . . , Xn ) . 9 Wir interessieren uns für das Ereignis, dass keine zwei Komponenten von X gleich sind. Dieses Ereignis schreiben wir als {Xi 6= Xj für alle i 6= j} oder auch als {X ∈ A} mit der Teilmenge A := {ℓ ∈ S : ℓi 6= ℓj für alle i 6= j} . 10 X S A Ereignisse werden (wie Mengen) in geschweiften Klammern notiert: {X ∈ A} Lies: Das Ereignis “X fällt in A”. 11 Unsere Fragen waren: (i) Wie beschreibt man die möglichen Ausgänge des Kennzeichnens? S := {1, . . . , r}{1,...,n} (ii) Wie fasst man das Ereignis Keine zwei Individuen haben dasselbe Kennzeichen“? ” {Xi 6= Xj für alle i 6= j} (iii) Wie kommt man zur Wahrscheinlichkeit dieses Ereignisses? (iv) Unter welchen Bedingungen kommt es mit merklicher Wahrscheinlichkeit zu Kollisionen? 12 Bei Frage (iii) kommen Wahrscheinlichkeiten ins Spiel. Sie gehören zu Ereignissen und messen deren Chance einzutreten mit einer Zahl zwischen 0 und 1: P{X ∈ A} 13 Zwei einleuchtende Regeln für das Rechnen mit Wahrscheinlichkeiten: P{X ∈ A} = X ℓ∈A P{X = ℓ} (1) d.h. die Wahrscheinlichkeit des Ereignisses, dass X in A fällt, ist die Summe über die Wahrscheinlichkeit des Ereignisses, dass X den Ausgang ℓ hat, summiert über ℓ ∈ A. P{X ∈ S} = 1 . (2) d.h. das sichere Ereignis {X ∈ S} hat Wahrscheinlichkeit 1. 14 Um die Wahrscheinlichkeit P{X ∈ A} berechnen zu können, muss man eine Modellannahme treffen. Unsere Modellannahme: rein zufällige Wahl. Damit ist gemeint, dass für je zwei ℓ, ℓ′ ∈ S P{X = ℓ} = P{X = ℓ′}. Das heißt: kein Ausgang ist bevorzugt. 15 Aus P{X ∈ S} = X ℓ∈S P{X = ℓ} = 1 und der Gleichheit aller P{X = ℓ} folgt 1 P {X = ℓ} = , #S ℓ∈S. Also: P{X ∈ A} = X ℓ∈A P{X = ℓ} = P{X ∈ A} = #A 1 = . #S #S ℓ∈A X #A . #S 16 Wir haben nun die Aufgabe des Abzählens der beiden Mengen S := {1, . . . , r}{1,...,n} = {ℓ1, . . . , ℓn : 1 ≤ ℓi ≤ r} und A := {ℓ ∈ S : ℓi 6= ℓj für alle i 6= j} #S = rn #A =? Für ℓ1 gibt es r mögliche Werte, für ℓ2 dann noch r − 1, usw. Also: #A = r(r − 1) · · · (r − (n − 1)) 17 r(r − 1) · · · (r − (n − 1)) P{X ∈ A} = rn = r − (n − 1) r−1 r−2 ··· r r r n−1 Y i P{X ∈ A} = 1− r i=1 . Wie groß ist das z.B. für n = 25 und r = 365 ? 18 Abschätzung nach oben: 1 − t ≤ e−t n−1 Y i 1− r i=1 ≤ = exp = exp n−1 Y exp i=1 n−1 X − i − r i i=1 r (n − 1)n . − 2r P{X ∈ A} ≤ exp (n − 1)n . − 2r 19 Für eine Abschätzung von P{X ∈ A} nach unten betrachten wir die Komplementärmenge von A, Ac = {ℓ ∈ S : ℓi = ℓj für mindestens ein Paar i 6= j} . #A ≤ ? Für festes i 6= j gibt es rn−1 Elemente ℓ in Ac mit ℓi = ℓj . zweielementige Teilmengen {i, j} ⊂ {1, . . . , n}. Und es gibt n(n−1) 2 Also (wegen Mehrfachzählungen) n(n − 1) n−1 #A ≤ r 2 c #Ac n(n − 1) ≤ , #S 2r #A n(n − 1) ≥ 1− . #S 2r 20 Zusammenfassend gilt n(n − 1) ≤ P{X ∈ A} ≤ exp 1− 2r Für n2 ≪ r (n − 1)n − . 2r ist P{X ∈ A} ≈ 1. Wenn n2 ähnlich groß ist wie r, dann kommt es mit merklicher Wahrscheinlichkeit zu Kollisionen. Dann entfernen sich aber auch die beiden Schranken in unserer Abschätzung voneinander. Welche der beiden Schranken ist die bessere Näherung? 21 r(r − 1) · · · (r − n + 1) P{X ∈ A} = rn r(r − 1) · · · (r − n + 1)(r − n)(r − n − 1) · · · 2 · 1 = rn (r − n)(r − n − 1) · · · 2 · 1 r! = n r (r − n)! mit k! := 1 · 2 · · · k Lies: k-Fakultät 22 Die Stirling-Formel: k √ k k! ≈ 2π k e r! ≈ rn(r − n)! Für n ≪ r s r r−n ist q r−n r e−n r−n r ≈ 1, r−n also r! n n−r −n ≈ 1− e n r (r − n)! r 23 n n−r −n r! ≈ 1− e rn (r − n)! r n = exp − n + (n − r) ln 1 − r = exp = exp n n n −r + 1− ln 1 − r r r n −rh r mit h(t) := t + (1 − t) ln(1 − t), 0 ≤ t ≤ 1. 24 n r P{X ∈ A} ≈ exp −r h mit h(t) = t + (1 − t) ln(1 − t), 0 ≤ t ≤ 1. Die obere Schranke war exp n2 − 2r = exp 1 n 2 −r 2 r 25 1 0.5 h(t) 0 t2/2 0 0.5 1 t2/2 ist die quadratische Approximation (Taylor-Approximation der Ordnung 2) von h(t) in t=0 Für n ≪ r (Übung). (wie z. B. für n = 25, r = 365) ist also n h r ≈ n 2 r /2. 26 Fazit: Für n < r ist n P{X ∈ A} ≈ exp −r h r mit h(t) = t + (1 − t) ln(1 − t), 0≤t≤1 (Stirling-Approximation). n2 Für n ≪ r ist P{X ∈ A} ≈ exp − 2r (Stirling+Taylor-Approximation) Für n2 ≪ r ist P{X ∈ A} ≈ 1. 27 Beispiel: n = 25, r = 365: r(r − 1) · · · (r − n + 1) P{X ∈ A} = = 0.431300 rn = 0.431308 n2 − 2r = 0.425 exp −r h 1 exp n r 0.5 h(t) 0 t2/2 0 0.5 1 28