Streuspeicherverfahren (Hash–Funktionen) Streuspeicher: Hash–Tafeln In diesem Abschnitt lernen wir eine weitere Datenstruktur zur Implementierung von Wörterbüchern kennen. Sie ist anwendbar, wenn die Schlüssel bereits natürliche Zahlen sind oder als solche interpretiert werden können. Diese Struktur ist sehr einfach, hat aber den Nachteil, dass alle Operationen (im schlechtesten Fall) O(n) Zeit kosten. Dafür ist die erwartete Laufzeit konstant und deshalb ist diese Datenstruktur in der Praxis sehr wichtig. Die Idee besteht darin, alle Einträge (Items) anhand ihres Schlüssels auf N Fächer zu verteilen. Die Fächer werden in einem Feld A der Größe N verwaltet. Dieses Feld wird Hash–Tafel (im Englischen auch Bucket Array) genannt. Jedes Fach muss den Zugriff auf alle darin enthaltenen Einträge sicherstellen, z.B. durch eine verkettete Liste. Die eigentliche Verteilung geschieht durch eine Hash–Funktion h, die jedem Schlüssel x eine Zahl h(x) ∈ {0, 1, . . . , N − 1} zuordnet. Werden zwei Einträge durch h in das gleiche Fach gelegt (d.h. ist h(x) = h(y)), spricht man von einer Kollision. Gute Hash-Funktionen zeichnen sich durch weitgehende Kollisionsvermeidung aus. Die Ausgangslage kann wie folgt formalisiert werden: Gegeben ist ein Universum U von K (möglichen) Schlüsseln und die Größe N der Hash–Tafel. Gesucht ist eine Hash–Funktion h : U −→ {0, 1, . . . , N − 1}, die für eine zufällig gewählte Teilmenge S ⊆ U von n Schüsseln (das sind die konkreten Schlüssel der Einträge in unsere Datenstruktur) möglichst wenige Kollisionen erzeugt. Häufig sind die Schlüssel noch nicht als ganze Zahlen gegeben. In solchen Fällen bietet es sich an, eine Hash-Funktion in zwei Stufen zu definieren. Zuerst verwendet man einen Hash–Code, der jedem Schüssel eine ganze Zahl zuordnet und im zweiten Schritt wir diese ganze Zahl durch eine Kompressionsabbildung in das Intervall [0, N − 1] abgebildet. Die Klasse Object in Java hat eine Methode hashCode(), die einen int-Wert (32 Bit) zurückgibt. Da sich dieser Wert in der Regel auf die Lage des Objekts im Speicher bezieht, kann es im Einzelfall zu ungewollten Effekten kommen (z.B. wenn gleiche Strings in verschiedene Fächer gelegt werden). Hash–Codes Für Strings (und andere Objekte, die man in einen String umwandeln kann) gibt es zwei Standardmethoden zur Codierung. Zuerst werden bei beiden Methoden alle Zeichen des Strings in int-Werte x0 , x1 , . . . xk−1 umgewandelt. 1) Die Summenmethode berechnet x0 + x1 + . . . + xk−1 als Hash–Code des Strings (unter Verwendung der int-Addition). Eine Änderung des Strings an einer Stelle bewirkt damit auch eine Veränderung des Codes, aber diese Methode hat den wesentlichen Nachteil, dass der Code sich bei Buchstabenvertauschung nicht ändert, z.B. haben die Strings stop und post die gleiche Codierung. 2) Dieser Effekt kann durch die Polynommethode umgangen werden. Man fixiert dazu einen int-Wert a 6∈ {0, 1} und codiert den String durch die Auswertung des Polynoms x0 ak−1 + x1 ak−2 + . . . + xk−2 a + xk−1 . Kompressionsabbildungen Sei n die Anzahl der Objekte, die in einer Hash–Tafel mit N Fächern gespeichert sind. Der Wert d Nn e wird als Ladefaktor der Hash–Tafel bezeichnet. Mindestens ein Fach muss diese Anzahl von Einträgen enthalten. Um Kollisionen zu vermeiden, muss der Ladefaktor 1, also N ≥ n sein. Der erste Schritt zur Kollisionsvermeidung besteht in der Auswahl einer geeigneten Kompressionsfunktion. Wir gehen jetzt davon aus, dass der Schlüssel x bereits ein ganzzahliger Wert ist. Die einfachste Variante einer Kompressionsfunktion ist die sogenannte Divsionsmethode, definiert durch h(x) = x mod N. Bei einer zufälligen Schlüsselmenge kann man N beliebig festlegen. Da reale Daten aber oft gewisse Regularitäten aufweisen, ist es besser, für N eine Primzahl zu verwenden. In vielen Anwendungen hat sich gezeigt, dass die folgende MAD-Methode (multiply, add and divide) noch bessere Ergebnisse liefert: h(x) = (a · x + b) mod N, wobei N wieder eine Primzahl und a eine zu N teilerfremde Zahl ist. Kollisionsbehandlung Da man Kollisionen nie vollkommen vermeiden kann, muss man Strategien für diesen Fall entwickeln. Man kann zwei Grundstrategien unterscheiden: 1) Die Fächer werden so eingerichtet, dass sie mehrere Objekte halten können, z.B. als doppelt verkettete Liste. Im schlechtesten (aber sehr unwahrscheinlichen) Fall hat man dann eine einzige Liste mit allen Einträgen. Welche Ansätze entwickelt wurden, um solche Situationen mit hoher Wahrscheinlichkeit zu vermeiden, wird am Ende dieses Themas diskutiert. 2) Man versucht beim Auftreten einer Kollision das neue Element in ein anderes Fach zu legen und sondiert dazu freie Fächer. Der größte Nachteil von Sondierungsstrategien liegt im hohen Aufwand für Updates nach Löschoperationen. 2.a) Lineares Sondieren: Ist h(x) schon belegt, sondiert man die Fächer h(x) + 1, h(x) + 2, h(x) + 3 u.s.w. und wählt das erste freie aus. Diese Methode hat den zusätzlichen Nachteil, dass sich sehr schnell voll belegte Abschnitte (Cluster) bilden, die schneller wachsen als die Belegung der unterbesetzten Regionen. Man kann das etwas ausgleichen, wenn man für ein festes c 6= 1 die Fächer h(x) + c, h(x) + 2c, h(x) + 3c u.s.w. sondiert. 2.b) Quadratisches Sondieren: Diese Methode ist wesentlich besser geeignet, die Bildung großer Cluster zu verhindern oder zumindest zu verzögern. Ist h(x) schon belegt, sondiert man die Fächer h(x) + 12 , h(x) + 22 , h(x) + 32 u.s.w. und wählt das erste freie aus. Faire Hash–Funktionen und universelles Hashing Definition: Eine Hash–Funktion h : U −→ {0, 1, . . . , N − 1} ist fair, wenn für alle i, j ∈ {0, 1, . . . , N − 1} die folgende Ungleichung gilt −1 |h (i)| − |h−1 ( j)| ≤ 1, d.h. wenn die Menge aller Schlüssel vvon h gleichmäßig auf die N Fächer verteilt wird. Mit einfachen Argumenten aus der Wahrscheinlichkeitstheorie kann man nachweisen, dass für eine faire Hash–Funktion h und eine zufällig (gleichverteilt) gewählte n–elementige Teilmenge S ⊆ U, die erwarteten Kosten für alle Such–, Einfüge– und Löschoperationen in der Hash–Tafel von S nur O(1 + n N ) sind. Um auch bei bei der Worst–Case–Analyse (die hier sehr ungünstig ausfällt) bessere Ergebnisse zu bekommen, geht man noch einen Schritt weiter und betrachtet nicht nur zufällige Eingaben S, sondern auch eine zufällig gewählte Hash–Funktion aus einer geeigneten Familie von solchen Funktionen. Definition: Eine Familie H von Hash–Funktion, die U nach {0, 1, . . . , N − 1} abbilden, wird universell genannt, wenn für beliebige x 6= y ∈ U die Gleichung {h ∈ H | h(x) = h(y)} = |H | N gilt, das heißt die Wahrscheinlichkeit für die Kollision h(x) = h(y) ist für ein zufällig und gleichverteilt gewähltes h ∈ H gleich N1 . Man kann zeigen, dass wenn U ein zusammenhängendes Intervall von ganzen Zahlen ist (oder durch den Hash–Code auf ein solches abgebildet wird), universelle Familien von Hash–Funktionen existieren, aus denen für jedes S auch eine gute Hash–Funktion ausgewählt werden kann.