Rev. 1, 07.07.2016 TU Ilmenau, Fakultät für Informatik und Automatisierung FG Komplexitätstheorie und Effiziente Algorithmen Univ.-Prof. Dr. M. Dietzfelbinger, Dr. C. Mattern http://www.tu-ilmenau.de/iti/lehre/lehre-ss-2016/ra/ Randomisierte Algorithmen SS 2016 – Übung 7 Besprechung: Dienstag, 12. Juli 2016 Hinweis: Für das erfolgreiche Vorrechnen einer mit *“ gekennzeichneten Aufgabe wird ein Bo” nuspunkt vergeben, es gibt maximal zwei Bonuspunkte pro Studierendem im Semester. Aufgabe 1 (Lineares Sondieren) * Wir betrachten eine Hash-Tabelle H[0..m − 1] der Größe m mit n < m Schlüsseln und dem Auslastungsfaktor α = n/m. Jede Zelle der Tabelle speichert ein Schlüssel-Wert-Paar (x, d) ∈ U × R oder ist leer. Eine Hash-Funktion h : U → {0, 1, . . . , m − 1} ordnet jedem Schlüssel x einen Tabellenplatz H[h(x)] zu. Um bspw. einen Schlüssel x einzufügen1 , werden beim linearen Sondieren die Positionen h(x), (h(x) + 1) mod m, (h(x) + 2) mod m, . . . , (h(x) + k) mod m getestet, bis die im k-ten Schritt untersuchte Zelle entweder leer ist (d.h., der Schlüssel x wurde nicht gefunden und kann ggf. hier eingefügt werden; erfolglose Suche) oder der in der Zelle gespeicherte Schlüssel mit x übereinstimmt (erfolgreiche Suche). (a) Zeigen Sie: n nn . ≤ k k (n − k)n−k k Hinweis: Betrachten Sie einen Term von ∑nl=1 nl xl yn−l = (x+y)n und wählen Sie x und y geschickt. (b) Wir lassen eine Hashfunktion h die Schlüssel aus S ⊆ U mit |S| = n in die Tabelle werfen“ und von ” der Einfügeprozedur einfügen. Dabei ist ein Block eine Folge von nicht-leeren Zellen, die von zwei leeren Zellen eingerahmt wird (im Bild sind schwarze Zellen nicht-leer): m−1 ... 0 1 ... 1 1 1 k−1 1 1 ... Betrachten Sie das Segment H[0..k − 1] und zeigen Sie: k n k k n−k pk := Pr( H[0..k − 1] ist ein Block“ ) ≤ 1− . ” k m m (c) Folgern Sie aus (a) und (b): pk ≤ αe1−α 1 siehe k . Vorlesung Algorithmen und Datenstrukturen“ SS 2016, S. 45ff.: http://www.tu-ilmenau.de/fileadmin/ ” public/iti/Lehre/AuD/SS16/AuD-Kap-5-statisch.pdf 2 Randomisierte Algorithmen SS 2016 – Übung 7 (d) Nun wird ein neuer“ Schlüssel y ∈ U \ S mit dem Hashwert o.B.d.A h(y) = 0 eingefügt. Die Zu” fallsvariable L sei die Anzahl der dabei getesteten vollen Zellen. Wir definieren das Ereignis Ak := { h(y) liegt in einem Block der Länge k }. Zeigen Sie: (i) Pr(Ak ) = kpk und (ii) Wenn Ak eintritt, folgt L ≤ k. (e) Zeigen Sie: ∞ E(L) ≤ ∑ k2 pk . k=1 (f) Zeigen Sie, dass sich E(L) durch eine von α abhängige Konstante nach oben abschätzen lässt. Hinweis: Nutzen Sie z.B. das Quotientenkriterium. Aufgabe 2 (Parameterschätzung bei Bernoulli-Experimenten, z. B. Münzwurf) * Seien Z1 , Z2 , Z3 , . . . unabhängige Zufallsvariable, die jeweils zum Parameter p, mit 0 < p < 1, geometrisch verteilt sind. Diese Zufallsvariablen modellieren die Wartezeit auf einen Erfolg bei unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p. Weiter sei für k ≥ 1 die Zufallsvariable Yk definiert durch Yk = Z1 + Z2 + · · · + Zk . Dann modelliert Yk die Wartezeit auf k Erfolge bei unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p. Wir wollen eine Art Hoeffding-Schranke für Yk ermitteln. (a) Zeigen Sie: E(Yk ) = k/p. (b) Finden Sie eine obere Schranke für Pr Yk ≥ (1 + ε) kp . Hinweis: Wenn X1 , X2 , X3 , . . . unabhängige {0, 1}-wertige Zufallsvariable mit Pr(Xi = 1) = p sind, dann kann man sich vorstellen, dass Yk wie folgt definiert ist: Yk = min{i | X1 + X2 + · · · + Xi ≥ k}. Also gilt für ganzzahlige t, dass Pr (Yk > t) = Pr(X1 + · · · + Xt < k). Nun kann man die HoeffdingSchranke aus der Vorlesung ins Spiel bringen. (c) Finden Sie eine obere Schranke für Pr Yk ≤ (1 − ε) kp . (d) Benutzen Sie das Ergebnis von (b) und (c), um folgende Strategie zu analysieren: Gegeben ist eine unfaire Münze, die mit Wahrscheinlichkeit p Kopf und mit Wahrscheinlichkeit 1 − p Zahl zeigt. Der unbekannte Parameter p soll geschätzt werden. Man wirft die Münze mehrmals, bis genau k-mal Kopf erschienen ist. Die beobachtete Zahl der Versuche ist Y . Nun gibt man p̂ = k/Y als Schätzwert für p aus. Es soll etwas über die Wahrscheinlichkeit gesagt werden, dass man mit dieser Schätzung weit vom echten p entfernt liegt.