Streuspeicherverfahren (Hash–Funktionen)

Streuspeicherverfahren (Hash–Funktionen)
Streuspeicher: Hash–Tafeln
In diesem Abschnitt lernen wir eine weitere Datenstruktur zur Implementierung von Wörterbüchern
kennen. Sie ist anwendbar, wenn die Schlüssel bereits natürliche Zahlen sind oder als solche interpretiert werden können. Diese Struktur ist sehr einfach, hat aber den Nachteil, dass alle Operationen (im
schlechtesten Fall) O(n) Zeit kosten. Dafür ist die erwartete Laufzeit konstant und deshalb ist diese
Datenstruktur in der Praxis sehr wichtig.
Die Idee besteht darin, alle Einträge (Items) anhand ihres Schlüssels auf N Fächer zu verteilen. Die
Fächer werden in einem Feld A der Größe N verwaltet. Dieses Feld wird Hash–Tafel (im Englischen
auch Bucket Array) genannt. Jedes Fach muss den Zugriff auf alle darin enthaltenen Einträge sicherstellen, z.B. durch eine verkettete Liste.
Die eigentliche Verteilung geschieht durch eine Hash–Funktion h, die jedem Schlüssel x eine Zahl
h(x) ∈ {0, 1, . . . , N − 1} zuordnet. Werden zwei Einträge durch h in das gleiche Fach gelegt (d.h. ist
h(x) = h(y)), spricht man von einer Kollision. Gute Hash-Funktionen zeichnen sich durch weitgehende
Kollisionsvermeidung aus.
Die Ausgangslage kann wie folgt formalisiert werden: Gegeben ist ein Universum U von K (möglichen)
Schlüsseln und die Größe N der Hash–Tafel. Gesucht ist eine Hash–Funktion h : U −→ {0, 1, . . . , N −
1}, die für eine zufällig gewählte Teilmenge S ⊆ U von n Schüsseln (das sind die konkreten Schlüssel
der Einträge in unsere Datenstruktur) möglichst wenige Kollisionen erzeugt.
Häufig sind die Schlüssel noch nicht als ganze Zahlen gegeben. In solchen Fällen bietet es sich an,
eine Hash-Funktion in zwei Stufen zu definieren. Zuerst verwendet man einen Hash–Code, der jedem
Schüssel eine ganze Zahl zuordnet und im zweiten Schritt wir diese ganze Zahl durch eine Kompressionsabbildung in das Intervall [0, N − 1] abgebildet. Die Klasse Object in Java hat eine Methode
hashCode(), die einen int-Wert (32 Bit) zurückgibt. Da sich dieser Wert in der Regel auf die Lage
des Objekts im Speicher bezieht, kann es im Einzelfall zu ungewollten Effekten kommen (z.B. wenn
gleiche Strings in verschiedene Fächer gelegt werden).
Hash–Codes
Für Strings (und andere Objekte, die man in einen String umwandeln kann) gibt es zwei Standardmethoden zur Codierung. Zuerst werden bei beiden Methoden alle Zeichen des Strings in int-Werte
x0 , x1 , . . . xk−1 umgewandelt.
1) Die Summenmethode berechnet x0 + x1 + . . . + xk−1 als Hash–Code des Strings (unter Verwendung
der int-Addition). Eine Änderung des Strings an einer Stelle bewirkt damit auch eine Veränderung des
Codes, aber diese Methode hat den wesentlichen Nachteil, dass der Code sich bei Buchstabenvertauschung nicht ändert, z.B. haben die Strings stop und post die gleiche Codierung.
2) Dieser Effekt kann durch die Polynommethode umgangen werden. Man fixiert dazu einen int-Wert
a 6∈ {0, 1} und codiert den String durch die Auswertung des Polynoms
x0 ak−1 + x1 ak−2 + . . . + xk−2 a + xk−1 .
Kompressionsabbildungen
Sei n die Anzahl der Objekte, die in einer Hash–Tafel mit N Fächern gespeichert sind. Der Wert d Nn e
wird als Ladefaktor der Hash–Tafel bezeichnet. Mindestens ein Fach muss diese Anzahl von Einträgen
enthalten. Um Kollisionen zu vermeiden, muss der Ladefaktor 1, also N ≥ n sein. Der erste Schritt zur
Kollisionsvermeidung besteht in der Auswahl einer geeigneten Kompressionsfunktion. Wir gehen jetzt
davon aus, dass der Schlüssel x bereits ein ganzzahliger Wert ist.
Die einfachste Variante einer Kompressionsfunktion ist die sogenannte Divsionsmethode, definiert
durch h(x) = x mod N. Bei einer zufälligen Schlüsselmenge kann man N beliebig festlegen. Da reale
Daten aber oft gewisse Regularitäten aufweisen, ist es besser, für N eine Primzahl zu verwenden.
In vielen Anwendungen hat sich gezeigt, dass die folgende MAD-Methode (multiply, add and divide)
noch bessere Ergebnisse liefert: h(x) = (a · x + b) mod N, wobei N wieder eine Primzahl und a eine zu
N teilerfremde Zahl ist.
Kollisionsbehandlung
Da man Kollisionen nie vollkommen vermeiden kann, muss man Strategien für diesen Fall entwickeln.
Man kann zwei Grundstrategien unterscheiden:
1) Die Fächer werden so eingerichtet, dass sie mehrere Objekte halten können, z.B. als doppelt verkettete Liste. Im schlechtesten (aber sehr unwahrscheinlichen) Fall hat man dann eine einzige Liste mit allen
Einträgen. Welche Ansätze entwickelt wurden, um solche Situationen mit hoher Wahrscheinlichkeit zu
vermeiden, wird am Ende dieses Themas diskutiert.
2) Man versucht beim Auftreten einer Kollision das neue Element in ein anderes Fach zu legen und
sondiert dazu freie Fächer. Der größte Nachteil von Sondierungsstrategien liegt im hohen Aufwand für
Updates nach Löschoperationen.
2.a) Lineares Sondieren: Ist h(x) schon belegt, sondiert man die Fächer h(x) + 1, h(x) + 2, h(x) + 3
u.s.w. und wählt das erste freie aus. Diese Methode hat den zusätzlichen Nachteil, dass sich sehr schnell
voll belegte Abschnitte (Cluster) bilden, die schneller wachsen als die Belegung der unterbesetzten
Regionen. Man kann das etwas ausgleichen, wenn man für ein festes c 6= 1 die Fächer h(x) + c, h(x) +
2c, h(x) + 3c u.s.w. sondiert.
2.b) Quadratisches Sondieren: Diese Methode ist wesentlich besser geeignet, die Bildung großer
Cluster zu verhindern oder zumindest zu verzögern. Ist h(x) schon belegt, sondiert man die Fächer
h(x) + 12 , h(x) + 22 , h(x) + 32 u.s.w. und wählt das erste freie aus.
Faire Hash–Funktionen und universelles Hashing
Definition: Eine Hash–Funktion h : U −→ {0, 1, . . . , N − 1} ist fair, wenn für alle i, j ∈ {0, 1, . . . , N − 1}
die folgende Ungleichung gilt
−1
|h (i)| − |h−1 ( j)| ≤ 1,
d.h. wenn die Menge aller Schlüssel vvon h gleichmäßig auf die N Fächer verteilt wird.
Mit einfachen Argumenten aus der Wahrscheinlichkeitstheorie kann man nachweisen, dass für eine
faire Hash–Funktion h und eine zufällig (gleichverteilt) gewählte n–elementige Teilmenge S ⊆ U, die
erwarteten Kosten für alle Such–, Einfüge– und Löschoperationen in der Hash–Tafel von S nur O(1 +
n
N ) sind.
Um auch bei bei der Worst–Case–Analyse (die hier sehr ungünstig ausfällt) bessere Ergebnisse zu
bekommen, geht man noch einen Schritt weiter und betrachtet nicht nur zufällige Eingaben S, sondern
auch eine zufällig gewählte Hash–Funktion aus einer geeigneten Familie von solchen Funktionen.
Definition: Eine Familie H von Hash–Funktion, die U nach {0, 1, . . . , N − 1} abbilden, wird universell
genannt, wenn für beliebige x 6= y ∈ U die Gleichung
{h ∈ H | h(x) = h(y)} = |H |
N
gilt, das heißt die Wahrscheinlichkeit für die Kollision h(x) = h(y) ist für ein zufällig und gleichverteilt
gewähltes h ∈ H gleich N1 .
Man kann zeigen, dass wenn U ein zusammenhängendes Intervall von ganzen Zahlen ist (oder durch
den Hash–Code auf ein solches abgebildet wird), universelle Familien von Hash–Funktionen existieren,
aus denen für jedes S auch eine gute Hash–Funktion ausgewählt werden kann.