ADS: Algorithmen und Datenstrukturen 2 - Teil 6

ADS: Algorithmen und Datenstrukturen 2
Teil 6
Gerhard Heyer, Florian Holz
unter Verwendung der Materialien der letzten Jahre
Abteilung Automatische Sprachverarbeitung
Institut für Informatik
Universität Leipzig
29. Mai 2013
1 / 28
Kompression
BWT
Die Burrows-Wheeler-Transformation
Michael Burrows und David Wheeler, Mai 1994
Verwendet in bzip
Die Kompression ist sehr gut geeignet für Text, da Kontext berücksichtigt
wird.
Die eigentliche Burrows-Wheeler-Transformation ist eine vorgelagerte
Umordnung von Textblöcken, die eine spätere Kompression mit einem
Move-to-Front-Kodierer und einer weiteren Huffman-Codierung vorbereitet.
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
2 / 28
Kompression
BWT
BWT: Erster Schritt
Ein Eingabeblock der Länge N wird als quadratische Matrix dargestellt, die
alle Rotationen des Eingabeblocks enthält.
Die Zeilen der Matrix werden alphabetisch sortiert.
Die letzte Spalte und die Zeilennummer des Originalblocks werden
ausgegeben.
In dieser Ausgabe sorgt ein ähnlicher Kontext von Buchstaben links davor
zu langen Runs gleicher Buchstaben.
Daraus lässt sich der Originalblock wieder rekonstruieren (wird hier nicht
bewiesen, sondern nur am Beispiel gezeigt).
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
3 / 28
Kompression
BWT
Die Burrows-Wheeler-Transformation
Vorwärtstransformation von HelloCello
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
4 / 28
Kompression
BWT
Die Burrows-Wheeler-Transformation
Rücktransformation:
o
C
o
C
1 o
C
1 o
C
1 o
C
o
H
o
H
o
H
o
H
o
H
H
e
H
e 1
e 2
H
C
e 1
e 2
H
e
e 1
e 2
H
C
e 1
e 2
e
l
1 e
l
1
1 e
l
1
1 e
l
1
1 e
l
1
e
l
2 e
l
2
2 e
l
2
2 e
l
2
2 e
l
2
l
l
1
l
l
3
1
l
l
3
1
l
l
3
1
l
l
3
l
l
2
l
l
4
2
l
l
2
l
l
l
l
o
l
o
4
o 1
o
l
o 2
l
o 2
3
4
l
l
3
4
l
o
3
4
l
l
3
4
4
o 1
2
l
4
o 1
l
o 2
H
Hell
G. Heyer, F. Holz (Abt ASV, Uni LE)
C
HelloC
ADS 2, V 6
C
HelloCell
C
HelloCello
SS 2013
5 / 28
Kompression
MTF: Move-To-Front-Coding
MTF: Move-To-Front-Coding
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
6 / 28
Kompression
MTF: Move-To-Front-Coding
Wozu das Ganze?
BWT erzeugt durch Sortierung lange Läufe gleicher Zeichen, woraus
MTF erzeugt kleine (Index)Zahlen für häufig vorkommende, genauer:
Lange Folgen von ‘0’, gut für
Lauflängen-Kodierer (evtl. speziell für ‘0’) oder
Huffman-Kodierer (möglichst kurze Bitfolge für häufige Zeichen)
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
7 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Suchen und Finden mit Index-Strukturen
Digitale Suchbäume II
Nochmals Digitale Suchbäume:
Institut für Informatik
G. Heyer, F. Holz (Abt ASV, Uni LE)
Algorithmen/Datenstrukturen 1 - Vorlesung 12
ADS 2, V 6
9
SS 2013
8 / 28
Kompression
(Patricia)-Tries, DAWGs usw
m-ärer Trie I
Spezielle Implementierung des Digitalbaumes:
Trie leitet sich von Information Retrieval ab (E.Fredkin, 1960)
Spezielle m-Wege-Bäume, wobei Kardinalität des Alphabets und
Länge k der Schlüsselteile den Grad m festlegen
- bei Ziffern: m = 10
- bei Alpha-Zeichen: m = 26
- bei alphanumerischen Zeichen: m = 36
- bei Schlüsselteilen der Länge k potenziert sich Grad entsprechend, d.
h. als Grad ergibt sich mk
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
9 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Trie-Darstellung
Jeder Knoten eines Tries vom Grad m ist im Prinzip ein eindimensionaler Vektor mit m
Zeigern
Jedes Element im Vektor ist einem Zeichen (bzw. Zeichenkombination) zugeordnet. Auf
diese Weise wird ein Schlüsselteil (Kante) implizit durch die Vektorposition ausgedrückt.
Beispiel: Knoten eines 10-ären Trie mit Ziffern als Schlüsselteilen
|P0 |P1 |P2 |P3 |P4 |P5 |P6 |P7 |P8 |P9 | m = 10, k = 1
implizite Zuordnung von Ziffer/Zeichen zu Zeiger. Pi gehört also zur Ziffer i. Tritt Ziffer i
in der betreffenden Position auf, so verweist Pi auf den Nachfolgerknoten. Kommt i in der
betreffenden Position nicht vor, so ist Pi mit NULL belegt
Wenn der Knoten auf der j-ten Stufe eines 10-ären Trie liegt, dann zeigt Pi auf einen
Unterbaum, der nur Schlüssel enthält, die in der j-ten Position die Ziffer i besitzen
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
10 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Operationen auf Tries
Direkte Suche
In der Wurzel wird nach dem 1. Zeichen des Suchschlüssels verglichen.
Bei Gleichheit wird der zugehörige Zeiger verfolgt.
Im gefundenen Knoten wird nach dem 2. Zeichen verglichen, usw.
effiziente Bestimmung der Abwesenheit eines Schlüssels
Einfügen
Wenn Suchpfad schon vorhanden, wird NULL-Zeiger in einen Verweis
auf den Datensatz umgewandelt, sonst Einfügen von neuen Knoten
Löschen
Nach Aufsuchen des richtigen Knotens wird ein Datensatz-Zeiger auf
NULL gesetzt. Besitzt daraufhin der Knoten nur NULL-Zeiger, wird er
aus dem Baum entfernt (rekursive Überprüfung der Vorgängerknoten)
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
11 / 28
Kompression
(Patricia)-Tries, DAWGs usw
PATRICIA-Tree
Merkmale
(Practical Algorithm To
n Coded In Alphanumeric)
Practical Algorithm To Retrieve Information Coded In Alphanumeric
Binärdarstellung für Schlüsselwerte
→ binärer Digitalbaum
Speicherung der Schlüssel in den
Blättern
innere Knoten speichern, wie viele
Zeichen (Bits) beim Test zur
Wegeauswahl zu überspringen sind
ADS 2, V 6
SS 2013
es
G. Heyer, F. Holz (Abt ASV, Uni LE)
->
Vermeidung von
Einwegverzweigungen, in dem bei
nur noch einem verbleibenden
Schlüssel direkt auf entsprechendes
Blatt verwiesen wird
12 / 28
Kompression
(Patricia)-Tries, DAWGs usw
PATRICIA-Tree
speichereffizient
sehr gut geeignet für variabel lange Schlüssel und (sehr lange)
Binärdarstellungen von Schlüsselwerten
bei jedem Suchschlüssel muss die Testfolge von der Wurzel beginnend
ganz ausgeführt werden, bevor über Erfolg oder Misserfolg der Suche
entschieden werden kann
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
13 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Suffix Bäume
Wichtiges Werkzeug bei der Analyse langer Zeichenketten wie sie in der
Bioinformatik auftreten:
Menschliches Genom: 3 × 109 Zeichen
Frage: enthält die menschliche DNA Sequenz die Zeichenkette
GATACCAGATACCAGATACCAGATACCA
Sequenzdatenbanken erhalten Millionen solcher Anfragen. Wir hätten die
Antwort daher gerne mit einem Aufwand proportional zur Anfrage aber
nicht er Länge des Genoms in dem gesucht wird.
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
14 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Lexika
(IIHNWLYH'DWHQVWUXNWXUHQIU
/H[LND
Viele Anwendungen besitzen Wörterbücher, in denen häufig und schnell
nachgeschlagen werden muß:
• Textverarbeitung: Rechtschreibkontrolle
• Maschinelle Übersetzung
• Voice recognition
Die nötigen Wörterbücher sind meist sehr groß. Deshalb: Hohe Kompressionsrate ist
erwünscht, damit die Wörterbücher im Hauptspeicher gehalten werden können.
G. Heyer, F. Holz (Abt ASV, Uni LE)
ADS 2, V 6
SS 2013
15 / 28
Kompression
(Patricia)-Tries, DAWGs usw
Wörterbücher enthalten fast nur Listen von Wörtern oder Wortgruppen:
• Reine Wortlisten für Rechtschreibkontrolle
• Wort-Bigramme oder –Trigramme (evtl. mit Gewichtung) bei Voice recognition
• Wörter und Angabe dazu (z.B. Grammatikangabe)
Beobachtungen
• Wir können die Liste z.B. alphabetisch sortieren, dann gibt es vorn große
Wiederholungen, die wir nutzen können.
• Es gibt auch hinten große Regelmäßigkeiten. Nutzung ist zunächst unklar.
• Je größer eine Wortliste ist, desto ausgeprägter ist die Regelmäßigkeit.
Möglicherweise lassen sich also größere Listen noch besser komprimieren.
• Häufig müssen Wörterbücher nur einmal erstellt und nicht mehr verändert werden.
Die Datenstruktur muß also kein Einfügen unterstützen. Falls nötig, kann ein
traditionelles, kleines Nutzerwörterbuch angelegt werden.
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
16 / 2
28
Kompression
(Patricia)-Tries, DAWGs usw
Lexikon mit den Wörtern dance, darts, start und smart
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
17 / 3
28
Kompression
(Patricia)-Tries, DAWGs usw
!"
#
Ein DAWG erlaubt extrem schnelle Suche nach Wörtern. Die Suche erfolgt analog
zum Trie: Die aufzusuchende Buchstabenfolge entspricht der Knotenfolge im
Baum.
In den folgenden Darstellungen gibt es von jedem Knoten ausgehend Kindknoten
(Child) und Nextknoten. Letztere zeigen auf den nächsten Knoten, der sich in der
gleichen Hierarchieebene wie der gegenwärtige Knoten befindet. Zusätzlich gibt es
Wortende-Markierungen (EOW)
Beispiel: DAWG mit den Wörtern CAT, CAN, DO und DOG:
C --Child--> A --Child--> N (EOW)
|
|
|
Next
Next
|
|
v
|
T (EOW)
v
D--Child--> O (EOW) --Child --> G (EOW)
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
18 / 4
28
Kompression
(Patricia)-Tries, DAWGs usw
$%&
C --Child--> A --Child--> N (EOW)
|
|
|
Next
Next
|
|
v
|
T (EOW)
v
D--Child--> O (EOW) --Child --> G (EOW)
Starten beim Startknoten C.
Dieser ist korrekt, also weiter zu Kind-Knoten. Wir finden A.
A ist korrekt, also weiter zu Kind-Knoten. Wir finden N.
Das ist falch, also weiter zu Next-Knoten. Wir finden T.
T ist korrekt, wir befinden uns an einem EOW-Knoten, also haben wir das gesuchte
Wort gefunden.
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
19 / 5
28
Kompression
(Patricia)-Tries, DAWGs usw
'&#
Zur Kompression an Wortenden werden Knoten weiter unten im Graphen
„zusammengehängt“. Das Beispiel enthält DOG und LOG, aber nicht DO.
D --Child--> O --Child--> G(EOW)
|
^
Next
|
|
|
v
|
L --Child----
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
20 / 6
28
Kompression
(Patricia)-Tries, DAWGs usw
Der Aufbau erfolgt in zwei Schritten:
Schritt 1: Aufbau eines Tries in beliebiger Reihenfolge wie üblich. Einfügen ist an jeder Stelle möglich.
Schritt 2: Zusammenfassen gleicher Wortenden. Dazu dient der folgende Algorithmus, erklärt am Beispiel.
Beispiel: Wörterbuch mit CITIES, CITY, PITIES und PITY, zunächst als Trie.
C --Child--> I --Child--> T --Child--> I --Child--> E --Child-> S (EOW)
|
|
|
Next
Next
|
|
v
|
Y (EOW)
P --Child--> I --Child--> T --Child--> I --Child--> E --Child-> S (EOW)
|
Next
|
v
Y (EOW)
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
21 / 7
28
Kompression
(Patricia)-Tries, DAWGs usw
(&"
Zu verschmelzende Wortenden müssen völlig übereinstimmen.
Von den Blättern ausgehend wird eine „inverse Höhe“ eingeführt: Blätter haben
inverse Höhe 0. Die Inverse Höhe eines Knotens ist 1 + Maximum der inversen
Höhen seiner Kinder.
Für alle Paare von Child-Knoten gleicher inverser Höhe wird von 0 beginnend der
folgende Verschmelzungsschritt ausgeführt:
Zwei Knoten werden verschmolzen, falls sie vollkommen identisch sind, d.h.
• Sie tragen den gleichen Buchstaben als Bezeichner.
• Sie tragen beide ein oder beide kein EOW-Flag.
• Falls sie Next-Knoten besitzen, müssen auch diese vollkommen identisch sein.
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
22 / 8
28
Kompression
(Patricia)-Tries, DAWGs usw
(&"
S und Y haben inverse Hohe 0. Verschmelzung der S-Blätter.
Achtung: Die Y-Knoten werden nicht verschmolzen, weil sie keine Child-Knoten sind.
C --Child--> I --Child--> T --Child--> I --Child--> E --Child--> S(EOW)
|
|
^
|
Next
|
Next
|
|
|
v
|
|
Y (EOW)
|
P --Child--> I --Child--> T --Child--> I --Child--> E --Child-|
Next
|
v
Y (EOW)
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
23 / 9
28
Kompression
(Patricia)-Tries, DAWGs usw
)*(&"
Nur E hat inverse Höhe 2. Die E-Knoten werden verschmolzen.
C --Child--> I --Child--> T --Child--> I --Child--> E --Child-->S(EOW)
|
|
^
|
Next
|
Next
|
|
|
v
|
|
Y (EOW)
|
P --Child--> I --Child--> T --Child--> I --Child-->
|
Next
|
v
Y (EOW)
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
24 /10
28
Kompression
(Patricia)-Tries, DAWGs usw
(&"
Nach dem letzten Verschmelzungsschritt:
C --Child--> I --Child--> T --Child--> I --Child--> E --Child-->S(EOW)
|
|
|
|
|
Next
Next
|
|
|
|
v
|
|
Y (EOW)
P --Child----
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
25 /11
28
Kompression
(Patricia)-Tries, DAWGs usw
&
Falls wir Angaben zu Wörtern einfach hinten anfügen und diese nicht zur Struktur
passen, geht die Komprimierbarkeit an den Wortenden verloren.
Außer in dem Fall, dass gleiche Wortenden häufig gleiche Angaben implizieren.
Beispiele dafür sind:
• Grammatikangaben zu Wörtern, z.B. Umleitung|f. Das komprimiert wieder gut, da
fast alle Wörter auf ...ung weiblich sind, also die Darstellung ...ung|f haben.
• Angaben zur Grundformreduktion: Das Format der Regeln sei |nstring, wobei zur
Transformation auf Grundform zuerst hinten n Zeichen entfernt werden und dann
(ggf.) string angefügt wird. Also z.B. Tassen|1, Hochhäuser|5haus.
• Wortpaare mit Übergangswahrscheinlichkeiten oder anderen Zahlenangaben.
Zunächst werden die Zahlenangaben diskretisiert. Bester Platz ist zwischen den
zwei Wörtern, damit die Kompression von hinten und vorn funktioniert..
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
26 /14
28
Kompression
(Patricia)-Tries, DAWGs usw
*.""
Aufgabenstellung: Für ein gegebenes Wort soll festgestellt werden, ob es in einer
gegebenen Wortliste ist. Wenn nicht, sollen die ähnlichsten Wörter aus der
Wortliste vorgeschlagen werden.
Lösung: Die Wortliste wird als DAWG gespeichert, für ein vorgegebenes Wort kann
entschieden werden, ob es sich in der Liste befindet. Es werden zur Eingabe
ähnliche Strings erzeugt und in der Liste gesucht. Falls sie vorhanden sind, handelt
es sich (per Definition) um ähnliche Wörter.
Ähnliche Strings entstehen, indem man einen oder zwei (selten auch mehrere) der
folgenden Editierschritte ausführt. In Klammern die Anzahl der so erzeugten
Vorschläge für ein Wort aus n Buchstaben und 30 Buchstaben im Alphabet.
• Weglassen eines Buchstaben [Anzahl: n]
• Einfügen eines Buchstaben an einer beliebigen Stelle [Anzahl: 30(n+1)]
• Austauschen eines Buchstaben an einer beliebigen Stelle [Anzahl: 29n]
• Vertauschen zweier benachbarter Buchstaben [Anzahl: n-1]
• Sprachspezifische Ersetzungen wie f-ph, ss-ß, ö-oe, ...
G. Heyer,
F. Holz (Abt ASV, Uni LE)
U. Quasthoff
ADSund
2, V
6
Algorithmen
Datenstrukturen
2
SS 2013
27 /15
28
Kompression
Prays the Lord for the spelling chequer
That came with our pea sea!
Mecca mistake and it puts you rite
Its so easy to ewes, you sea.
(Patricia)-Tries, DAWGs usw
/
$#""%0
I never used to no, was it e before eye?
(Four sometimes its eye before e.)
But now I've discovered the quay to success
It's as simple as won, too, free!
Von Janet E. Byford
Gefunden auf:
http://www.cooper.com/
alan/homonym.html
Sew watt if you lose a letter or two,
The whirled won't come two an end!
Can't you sea? It's as plane as the knows on yore face
S. Chequer's my very best friend
I've always had trubble with letters that double
"Is it one or to S's?" I'd wine
But now, as I've tolled you this chequer is grate
And its hi thyme you got won, like mine.
U. Quasthoff
G. Heyer,
F. Holz (Abt ASV, Uni LE)
Algorithmen
Datenstrukturen
2
ADSund
2, V
6
SS 2013
28 /16
28